JP2011205599A - 信号処理装置 - Google Patents

信号処理装置 Download PDF

Info

Publication number
JP2011205599A
JP2011205599A JP2010073701A JP2010073701A JP2011205599A JP 2011205599 A JP2011205599 A JP 2011205599A JP 2010073701 A JP2010073701 A JP 2010073701A JP 2010073701 A JP2010073701 A JP 2010073701A JP 2011205599 A JP2011205599 A JP 2011205599A
Authority
JP
Japan
Prior art keywords
moving image
unit
image
output
frame
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2010073701A
Other languages
English (en)
Inventor
Kazunori Imoto
和範 井本
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Original Assignee
Toshiba Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp filed Critical Toshiba Corp
Priority to JP2010073701A priority Critical patent/JP2011205599A/ja
Priority to US12/923,278 priority patent/US20110235859A1/en
Publication of JP2011205599A publication Critical patent/JP2011205599A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/46Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N5/00Details of television systems
    • H04N5/14Picture signal circuitry for video frequency region
    • H04N5/144Movement detection

Abstract

【課題】動画像の中から重要なシーンを推定し、重要なシーンを含む要約映像を作成する信号処理装置を提供する。
【解決手段】 複数の画像を含む動画像を入力する入力部と、前記動画像を解析して代表画像を抽出する抽出部と、前記代表画像を含む部分動画の変化量を算出する算出部と、前記変化量と所定の閾値とを比較して、動画像で出力するか画像として出力するかを判定する判定部と、判定した出力の形式に従って動画像または静止画像を出力する出力部と、を備える。
【選択図】図2

Description

本発明は、信号処理装置に関する。
高品質な動画像や静止画像の撮影では、撮影状況が刻々と変化する中で静止画撮影と動画像撮影のモードを主導で切り替えるのは手間であり、貴重な撮影機会を逃してしまう。
そこで静止画像撮影の前後の動画を記録する場合に、静止画像と前後の動画とをバッファして、被写体によっていずれの形式を保存するかを自動的に判断する方法が提案されている(特許文献1)。しかし動画像か静止画像かを切り替える場合に、符号化量を基準に画像の変化量を用いており、変化が少なくても動画像として記録する価値のあるものを誤って静止画像として記録してしまうという問題がある。さらに静止画像であっても動画像であっても記録するタイミングはユーザーの撮影操作をトリガーに決まるため、視聴価値のある素材が記録されるかはユーザーの操作に依存してしまう。そのため、ユーザーの操作記録が残っていない長時間の動画像素材には適用できず、ユーザーが素材を選ぶ作業は依然として残っている。
特開2009−38649号
上記問題点に鑑み、動画像の中から重要なシーンを推定し、重要なシーンを含む要約映像を作成する信号処理装置を提供する。
本発明は、複数の画像を含む動画像を入力する入力部と、前記動画像を解析して代表画像を抽出する抽出部と、前記代表画像を含む部分動画の変化量を算出する算出部と、前記変化量と所定の閾値とを比較して、動画像で出力するか静止画像として出力するかを判定する判定部と、判定した出力の形式に従って動画像または静止画像を出力する出力部とを有することを特徴とする信号探索装置である。
本発明によれば、動画像の中から重要なシーンを推定し、重要なシーンを含む要約映像を作成することができる。
本発明の実施例に係るハードウェア構成を示す図。 実施例1に係る画像処理装置の構成を示す図。 実施例1に係る解析結果の一例を示す図。 抽出部の動作を表わすフローチャート。 算出部の動作を表わすフローチャート。 実施例2に係る画像処理装置の構成を示す図。 実施例2に係る解析結果の一例を示す図。 実施例2に係る算出部の動作を表わすフローチャート。 実施例3に係る画像処理装置の構成を示す図。 実施例3に係る解析結果の一例を示す図。 実施例3に係る算出部の動作を表わすフローチャート。
近年、主に動画像を撮影するデジタルビデオカメラでもスチルカメラ並みの高品位な静止画像を、主に静止画像を撮影するデジタルスチルカメラでも高品質な動画像を撮影することが可能になってきている。そして撮影される被写体に応じて静止画像撮影と動画像撮影を切り替えることができるようになってきた。個人が撮影した複数の静止画像(静止画像群)や複数のビデオクリップ(撮影されたビデオの一部)群に音楽やエフェクトを添えたスライドショーや要約映像を作成するソフトやサービスも普及し、個人所有のコンテンツを手軽に共有する環境が整備されつつある。
しかし高品位な動画像や静止画像が撮影できても、スライドショーや要約映像として用いる素材を選ぶのはユーザーである。ユーザーの手間を軽減するほど、個人コンテンツを手軽に共有するには至っていない 長時間の動画像のみを素材として動画像と静止画像を効果的に混在する要約映像を作成する場合、動画像から静止画像として出力し記録するか、動画像として出力し記録するかを判断する作業が必要になる。実際には対象となる重要なシーンの位置が容易にわからないこともある。本実施例では、動画像素材のみからでも動画像と静止画像を織り交ぜた要約映像を自動的に生成できる装置について説明する。これらは例えば、パーソナルコンピューターやテレビなどに表示させる要約映像を、ユーザーが簡易に作成することを支援することができる。
以下、本実施形態に関する信号処理装置について図面に基づいて説明する。
まず、本実施の形態にかかる信号処理装置のハードウェア構成について図1を用いて説明する。信号処理装置100は、装置全体を制御するCPU(Central Processing Unit)等の制御部101と、各種データや各種プログラムを記憶するROM(Read Only Memory)104やRAM105(Random Access Memory)等の記憶部と、画像や音などの信号を入力する入力部106と、各種データや各種プログラムを記憶するHDD(Hard Disk Drive)やCD(Compact Disk)ドライブ装置等の外部記憶部107、これらを接続するバス108とを備えており、通常のコンピュータを利用したハードウェア構成となっている。また、信号処理装置1には、画像等を表示する表示部103と、ユーザーの指示入力を受け付けるキーボードやマウス等の操作部102と、外部装置の通信を制御する通信I/F(interface)とが有線又は無線により各々接続される。
図2に本発明による一実施形態を表すブロック図を示す。本実施例における信号処理装置は入力部201、解析部202、抽出部203、算出部204、判定部205、出力部206から構成される。
入力部201は、デジタルビデオカメラなど外部機器から入力される動画像データを取得し、解析部202、出力部206へ出力する。動画像は、少なくとも複数の静止画像(フレーム)と、フレームに時間同期する音響信号によって構成される。また入力部201は、ビデオカメラやその他の機器から入力される動画像データを取得し、デジタル動画像データに変換した後、解析部201、出力部206へ出力するにしてもよい。なお、デジタル動画像データを記録媒体に記録して、解析部202、出力部206は動画像データが記録された記録媒体から直接デジタル動画像データを読み込むように変更してもよい。また、必要に応じて動画像データの暗号解除処理(例えばB−CAS等のスクランブル解除処理)、デコード処理(例えばMPEG2からのデコード処理)、形式変換処理(例えばTS/PS、TS:Transport Stream、PS:Program Stream)、ビットレート(圧縮率)変換処理等を行ってもよい。
解析部202は、入力部201からえた動画像データを解析して、解析結果を抽出部203、算出部204に出力する。解析部は画像中の物体(オブジェクト)を検出する。例えば、顔、人物上半身、看板、建物、構造物などである。これらの物体を検出し、動画像データに含まれる物体の数と検出した物体に対応するフレームを解析結果として算出する。検出数だけではなく、検出された物体の信頼度を算出してもよい。さらに物体が明瞭に撮影されているかを評価してもよい。信頼度や評価結果は物体が撮影された部分画像(あるいは動画)の画像品質を示す評価スコア(画像評価スコア)として同時に出力してもよい。
抽出部203は、解析部202からの解析結果を用いて、動画像データから要約映像を作成する際に用いられる画像を代表画像として抽出する。代表画像とは、要約映像として残す価値があるとユーザーが判断する可能性のある部分に対応する。代表画像の抽出処理の詳細は、後述する。抽出された代表画像は算出部204、出力部206出力する。
算出部204は、解析部202での解析結果および抽出部203からの代表画像を用い、代表画像を含む前後の部分動画像(部分動画)を対象に分析し、動画像としての変化の大きさを変化量として算出する。算出した変化量は判定部205に出力する。算出部204の処理の詳細は、後述する。
判定部205は、算出部204から算出された変化量を用いて、代表画像を含む前後の部分動画像を分割して出力するか、代表画像としての静止画像を出力するかを判定する。判定した結果は出力部206に出力する。動画像として出力するか静止画像として出力するかは、予め設定した閾値と変化量とを比較することによって判定する。たとえば、閾値を越える場合には動画像として、閾値以下の場合には静止画像として、出力されたものを記録する方法が最も簡易でよい。判定部の処理の詳細については、後述する。
出力部206は、判定部205からえた判定結果と、抽出部203からえた代表画像とを対応させる。入力された動画像について、判定結果に基づき静止画像データもしくは動画像データとして出力する。出力方法はそれぞれの動画像データおよび静止画像データを書き込む方法や、動画像データと静止画像データをつなげた要約映像として出力する方法がよい。また、入力された動画像データに対応させて、動画像で出力する部分を示す情報と静止画像として出力するフレーム部分とを対応させて出力したりする方法などでもよい。
このように本実施例では、動画像のみの素材を入力として要約映像として残す価値のある画像を代表画像として自動的に検出した上で、代表画像を動画像として記録するか静止画像として記録するかを自動的に判定するように動作する。以上が、本実施例の概略説明である。次により具体的に各構成要素の動作を説明する。
図3に解析部202が出力した解析結果の一例を示す。図3では解析部が動画像データをデコードして得た静止画像フレーム毎に、検出された顔の数(顔検出数)、検出された顔の信頼度(顔らしさ)を表す顔評価スコア、顔以外のオブジェクトとして建物や看板など検出された構造物の数(構造物数)、検出された構造物の信頼度(構造物らしさ)を表す画像評価スコアが出力されている例である。
続いて、図3に示す解析結果が入力された場合の抽出部203の詳細な動作を、図4のフローチャートに従って説明する。抽出部203では、まず入力された動画像データを複数のシーンに分割する(ステップS401)。シーンとは代表画像を検出する単位となる動画像の区間を規定するものであり、所定の区間で分割される。例えば、入力された動画像を固定の時間長ごとに分割する、隣接するフレーム間の輝度ヒストグラムの差分が大きなフレームで分割する、音響信号の変化が大きくなる時点に対応するフレームで分割する、別途記録している撮影停止・再開操作に対応するフレームで分割するなど方法がある。これらの方法はいずれを用いてもよく、いくつかを組み合わせて用いてもよい。ここでは固定の時間長毎に分割した結果を例に説明する。入力信号に対しては、rとr+1の間でシーン境界が検出されたものとする。シーン境界が検出された場合には、シーン境界後の最初のフレーム(フレーム番号0とする)および最初のシーンをそれぞれ注目フレームおよび注目シーンとして処理を進める(ステップS402)。
続いてステップS403にて、注目フレームの代表画像スコアを算出する。代表画像スコアは値が大きいほど重要度が高いことを示す。本実施例では以下の式に従って求めるものとする。
代表画像スコア=Σ{(顔検出数)×(顔評価スコア)+(構造物数)×(画像評価スコア)} /3
たとえば本実施例においての代表画像スコアは、長時間の動画像を要約する場合に、代表画像スコアの値が大きいものほど要約画像に含まれる価値のある画像であることを示唆する。なお、スコアの設計方法におおいて、人物の重要度や構造物の大きさ等を考慮し、別途取得してスコアに加味してもよい。
ここでは、代表画像スコアの算出を安定的に行うため、注目するフレームに隣接するフレームを含む3フレームの代表画像スコアの平均値を、注目フレームの代表画像スコアとして算出する。たとえば、図3の最初のフレーム(フレーム番号0)では隣接するフレームを含めて顔および構造物が検出されていないため、代表画像スコアは0となる。
続いてステップS404では、注目シーンの区間の中で処理済みの代表画像スコアの算出結果を参照し、最も値の大きいスコアを、注目シーンの代表画像スコアとする。ここでは最初の処理結果のため最初の値0および注目フレーム番号を記録する。
続いて現在処理している注目フレームがシーン境界であるかを判定し(ステップS405)、シーン境界ではない場合は注目フレーム番号を1つ増やして (ステップS406)、同じ処理を繰り返す。
たとえば、注目フレームt、注目シーン0を処理する場合について詳述する。なお注目フレームt−1までの処理で、注目シーンの代表画像スコアは0.73である。ステップS403で注目フレームtおよび前後の隣接フレームの解析結果から代表画像スコアを算出すると、代表画像スコアは0.83となった。この代表画像スコアは既に処理が済んだ(過去の)フレームの代表画像スコアよりも大きな値となるため、注目シーン0の代表画像スコアを0.83に上書し、注目フレームtを最大の評価スコアを出したフレームとして記録する。
同様の処理を繰り返してシーン境界であるフレームrまで処理を行うと(ステップS405)、ステップS407では注目シーンの区間の中で代表画像スコアが最大となる値を算出したフレームを代表画像として決定する。たとえば、注目シーン0に関してはフレームtが最大のスコア(値)となるため、フレームtを代表画像として記録して、次のフレームを処理する。続いて、現在処理している注目フレームが最終フレームであるかを判定し(ステップS408)、最終フレームで無い場合は、代表画像スコアをリセットした上で、注目シーンまたは注目フレーム逐次処理して、最終フレームを処理するまで同じ処理を繰り返す。たとえば、図3に示した動画像データに対しては、2つのシーンに対してフレームt、sが代表画像点として検出された結果の事例である。
次に算出部204の詳細な動作について説明する。図5は算出部204の詳細な動作を示すフローチャートである。算出部204では、画像間の変化量を算出する。変化量は抽出部203が検出した代表画像ごとに、動画像データとして記録するか静止画像データとして記録するかを判断するための指標となる。たとえば図3に示した動画像データに対してフレームt、およびフレームsが代表画像として検出された場合について説明する。ここでは説明を簡略化するため、代表画像と代表画像を中心として時間軸の前後に隣接する4フレーム分とから変化量を算出するものとする。変化量は所定の時間を設定してもよいし、代表スコアなどを指標に所定のフレーム数(あるいは時間)を変動させてもよい。
まず、ステップS5101にてフレームt−2を注目フレームとして設定する。次にステップS5102にて注目するフレームの変化スコアを算出する。変化スコアは注目するフレームが時間軸で前後に隣接する隣接フレームと比較することによって算出され、変化が起きているか否かを意味する。変化スコアは値が大きいほど動画像として記録する可能性が高いことを示唆する。スコアの設計方法は様々なものが考えられるが、本実施例では以下の式に従って求める。
変化スコア=
|(注目フレームの顔検出数+構造物数)−(次フレームの顔検出数+構造物数)|
最初のフレームt−2では隣接フレームを含めて顔は検出されておらず構造物は共に一つだけ検出されているため、変化スコアは0である。続いてステップS5103ではそれまでの変化スコアの累積値を算出する。ここでは最初の処理のため変化スコアをそのまま累積スコアとする.続いて現在処理している注目フレームが探索範囲の最終フレームであるかを判定し(ステップS5104)、探索範囲の最終フレームではない場合は注目フレーム番号を1つ増やして (ステップS5105)、同じ処理を繰り返す。説明の簡略化のために、注目フレームt+2が探索範囲の最終フレームとなり、ステップS5106にて累積スコアをそれまでに処理したフレーム数で平均化して、変化量を求める。なお処理対象とする代表画像点tを中心とした動画像データでは、検出される物体は人物(被写体)であり、被写体の数が変化しないため、変化量は0である。なお、代表画像sを中心とした動画像データでは、変化量として0.2が算出されたとする。
続いて判定部205詳細な動作について説明する。判定部205では、算出部204が算出した変化量を得て、変化量と閾値と比較する。閾値よりも大きな変化量を持つ代表画像は動画像データとして出力し記録すると判断し、閾値未満の変化量をもつ代表画像は静止画像データとして出力し記録すると判断する。ここで閾値として例えば、0.2を設定すると、本実施例にある代表画像点tおよびsはいずれも閾値を下回る値となるため、静止画像として記録すると判断する。
このように本実施形態では、動画像データが入力された場合でも代表画像として検出すべき区間を自動的に判断する。また解析結果に応じて変化の少ないところは静止画像データとして、変化の大きなところは動画像データとして記録することを自動的に判定する。したがって、代表画像として記録する箇所を予めユーザーが指定する必要がない。さらに、画像特徴の変化量に基づいて記録形式を判断する場合、背景のみが激しく変化する区間を動画像として記録するよう動作してしまうが、本実施形態ではさらに、物体(構造物や人物などの被写体)の変化に着目しているおり、着目する物体に変化がなければ静止画像として記録するように動作ができるなど、内容により適した動画像、静止画像の切り替えが可能である。
図6は本発明の第二の実施形態に関わる信号処理装置の構成図である。なお、上述した第一の実施例と同等の構成については、同一の符号を付与し、その説明を省略する。本実施例に係る信号処理装置は、入力部201、解析部202、抽出部203、算出部604、判定部605、出力部606、追跡部602から構成される.本実施例と第一の実施例の違いは追跡部602の構成である。解析部202が検出した物体(本実施例では以下被写体と称する)が動画像データ中でどれだけ移動しているかについて追跡部602で算出する。被写体の移動量に応じて代表画像を動画像データとして記録するか、静止画像データとして記録するかを判断するが、第一の実施例とは異なる。
解析部202は、入力部11からえた動画像データを解析し、解析結果を代表画像検出部203、追跡部602、算出部604に出力する。例えば、人等の顔、人物等の上半身、看板、建物、構造物などを含む被写体を検出し、動画像データに含まれる被写体の数と対応するフレームを解析結果として出力する。解析部202では、検出数だけではなく、顔や構造物が明瞭に撮影されているのか否かを評価し、被写体の部分に係る画像品質を示す評価スコアを同時に出力してもよい。
追跡部602は、解析部202で検出された被写体について、時間的に前後にある隣接フレームでの対応関係を追跡する。対応する被写体が隣接するフレーム(以下隣接フレームと称する)で存在する場合、フレーム間での移動量を算出して、算出部604に出力する。被写体の追跡方法は次の2つの方法を組み合わせた方法を用いることが望ましい。一つは、同じ種類のオブジェクト(被写体)の領域が、隣接フレーム間で重なりを持っている場合に、対応する被写体を同一のものと判断する方法である。もう一つは、検出された顔を対象に顔クラスタリングを行い、同じ分類(クラス)に分類された顔を同一人物と判断して追跡する方法である。前者の方法は、被写体の種類に依存しない汎用的な方法であるが、複数の被写体が存在し、一方の被写体が他方の被写体に隠れた場合に追跡が困難になる。後者の方法は、顔が正しく検出できた場合には高精度に分類できるが、顔検出が困難な場合(たとえば顔が後ろを向くなど)には追従できないという問題がある。処理装置の記憶容量、処理速度、制御装置への負荷等を考慮して、どちらか一方の方法を用いてもよい。
算出部604は、解析部202および追跡部602から入力された解析結果および代表画像検出部203が算出した代表画像を用いて、代表画像を含む前後の部分動画像を対象に分析し、動画像としての変化の大きさを変化量として算出する。算出した変化量は判定部205に出力する。本実施例では、追跡部602が算出した被写体の移動量を利用している点が第一の実施例とは異なる。
判定部205は、算出部604から得た変化量を用いて、動画像として記録するか静止画像として記録するかを判定する。判定した結果は出力部206に出力する。動画像として出力するか静止画像として出力するかの判断は、予め設定した閾値と該変化量を比較して、閾値を越える変化量の場合には動画像として出力し、閾値以下の変化量が入力された場合には、静止画像として出力する。なお、出力形式は、実施例1の場合と同様に動画像に対応したフレームまたは部分的な動画像とを対応づけ、記録形式を含むテーブルのみの出力や、フレームまたは動画像を記憶部に記録させてもよい。
このように本実施形態では、動画像のみの素材を入力として要約映像として残す価値のある部分画像を代表画像として自動的に検出した上で、代表画像を動画像として出力するか静止画像として出力するかを、被写体の移動量に応じて自動的に判定するように動作する。
以下により具体的に各構成要素の動作を説明する。図7に解析部202および追跡部602の解析結果の一例を示す。解析部202によって、動画像データをデコードして得られた静止画像フレーム毎に、検出された顔の数、検出された顔の信頼度を表す顔評価スコアが、さらに追跡部602によって追跡した被写体の顔、および画面内での被写体の移動量が出力されている。
続いて算出部604の詳細な動作について説明する。図8に算出部604の詳細な動作を示すフローチャートを示す。算出部604では、抽出部203によって抽出された代表画像ごとに、動画像データとして出力するか静止画像データとして出力するかを判断するための判断材料となる変化量を算出する。ここでは図7に示した動画像データを例に、フレームqが代表画像として抽出された場合を想定する。説明を簡略化するため、代表画像を中心とし、代表画像を含む隣接5フレーム分から変化量を算出するものとして算出部の動作を説明する。
算出部604では、ステップS5201にてフレームq−2を注目フレームとして設定する。続いてステップS5202にて注目するフレームの被写体移動量を算出する。被写体移動量とは、注目するフレームと隣接フレームとを比較して被写体の位置に変化があるか否かを示す。被写体移動量の値が大きいほど動画として記録する価値の高い可能性を示唆する。スコアの設計方法は様々なものが考えられるが、本実施例では被写体移動量のスコアを以下の式に従って求めるものとする。
被写体移動量=|注目フレームで検出された被写体の移動量|
最初のフレームq−2では被写体として1つの顔が検出されており、その移動量は0.2となっているため、被写体移動量は0.2である。続いてステップS5203では処理済みの被写体移動量の累積値を算出する。ここでは最初の処理のため被写体移動量をそのまま累積スコアとする.続いて現在処理している注目フレームが対象とする動画像信号の最終フレームであるかを判定し(ステップS5204)、最終フレームではない場合は注目フレーム番号を1つ増やして (ステップS5205)、同じ処理を繰り返す。図7の事例を用いたばくぁい、注目フレームq+2が探索範囲の最終フレームとなり、ステップS5206にて累積スコアをそれまでに処理したフレーム数で平均化して、変化量を求める。なお処理対象とする代表画像点qを中心とした動画データでは、1.1/5=0.22となる。
続いて判定部205の動作について説明する.判定部205は、算出部604から得た変化量と閾値とを比較して、閾値よりも大きな変化量を持つ代表画像は動画像データとして出力すると判断し、閾値未満の変化量をもつ代表画像は静止画像データとして出力すると判断する。ここで閾値として0.2を設定すると、図7の代表画像qは動画像として記録すると判断される。
このように実施例2では、長時間の動画像データが入力された場合でも代表画像として検出すべき区間を自動的に判断すると共に、被写体の解析結果に応じて変化の少ないところは静止画像データとして、変化の大きなところは動画像データとして記録することを自動的に判定する。特に、被写体の数が変化しない動画でも、同一の被写体が画面内を大きく移動しなければ静止画像として、また移動している場合には動画像データとして、記録できるよう動作するため、被写体の内容により要約映像等に適した動画像、静止画像の切り替えが可能となる。
図9は本発明の第三の実施形態に関わる、信号処理装置の構成図である。入力部201、解析部202、抽出部203、算出部604、判定部205、出力部206、推定部801から構成される。本実施例では、音源を推定する推定部802が追加された点が第一の実施例及び第二の実施例と異なる。より具体的には入力部201から得た動画像データに対応する音声データを解析して動画像として記録する可能性のある音源が背景に流れているかを把握し、把握した音源の種類に応じて代表画像を動画像データとして出力するか、静止画像データとして出力するかを判断する点が異なる。なお、上述した第一の実施例及び第二の実施例と同等の構成については、同一の符号を付与し、その説明を省略する。
入力部201は、外部のデジタルビデオカメラ、デジタル放送等の受信チューナー、その他のデジタル機器から入力される動画像データを取得し、解析部202、出力部206へと渡すと同時に、動画像データに対応する音声データを取得し、推定部801に渡す。
推定部801は、入力部201から得た音声データを解析して、画像フレームに対応する各時刻でどのような音源が流れていたかを推定する。例えば、入力音声を音声・音楽・雑音・拍手・歓声・無音など事前に規定した音源のいずれに属するかを分類する。所望の音源が出現した場合に高いスコアを算出させ、動画像として記録する価値がある可能性を示すことができる。音源の分類の手段としては、例えばGaussian Mixture Modelなどの統計モデルを音源の種類毎に学習しておき、モデルとの類似度の事後確率が最大となる音源の酒類を識別結果とする方法を用いればよい。ここでは、拍手・歓声・音声に分類された場合に、対象の音源が検出されたと判断し、拍手・歓声・音源に対する事後確率を音源評価スコアとする。
算出部604は、解析部202および推定部801から得た解析結果(音源評価スコア)と抽出部203から得た代表画像とを用いて、代表画像の動画像としての変化の大きさを変化量として算出し、算出した変化量を判定部205に出力する。第三の実施例では、推定部801から得る音源評価スコアを利用している点が第一の実施例及び第二の実施例とは異なる。
判定部205、算出部203から得た変化量を用いて、動画像として記録するか静止画像として記録するかを判定して、判定した結果を出力部206に出力する。動画像として記録するか静止画像として記録するかの判断は、設定した閾値と変化量とを比較して、閾値を越える変化量が入力された場合には動画像として記録し、閾値以下の変化量が入力された場合には、静止画像として記録する方法である。
続いて、以下により具体的に各構成要素の動作を説明する。図10に解析部202および推定部801から入力された解析結果の一例を示す。解析部によって、動画像データをデコードして得られた静止画像フレーム毎に、検出された顔の数、検出された顔の信頼度を表す顔評価スコアが出力される。さらに推定部によって動画像として記録する可能性の高い音源が検出されたか否か、および音源の確からしさを表す音源評価スコアが出力されている。
算出部604の詳細な動作について説明する。図11に算出部604の詳細な動作を説明するフローチャートを示す。算出部604では、抽出部203によって検出された代表画像ごとに、動画像データとして記録するか静止画像データとして記録するかを判断するための判断材料となる変化量を算出する。ここでは図10に示した動画像データを例に、フレームpが代表画像として検出された場合を想定する。説明を簡略化するため、代表画像を中心とし、代表画像を含む隣接5フレーム分から変化量を算出するものとして算出部の詳細な動作を説明する。
算出部604では、ステップS5301にてフレームp−2を注目フレームとして設定する。続いてステップS5302にて注目するフレームの音源評価スコアを算出する。音源評価スコアとは、注目するフレームにおいて動画像として記録する価値のある音源が鳴っているかを意味し、値が大きいほど動画として記録する可能性が高いことを示唆する。スコアの設計方法は様々なものが考えられるが、本実施例では以下の式に従って求めるものとする。
音源評価スコア=|注目フレームで検出された音源評価スコア|
図10では、最初のフレームp−2では音源が検出されていないため、音源評価スコアは0となる。続いてステップS5303では処理済みの音源評価スコアの累積値を算出する。ここでは最初の処理のため音源評価スコアをそのまま累積スコアとする。続いて現在処理している注目フレームが処理対象となる動画像の最終フレームであるかを判定し(ステップS5304)、最終フレームではない場合は注目フレーム番号を1つ増やして (ステップS5305)、同じ処理を繰り返す。この場合、注目フレームp+2が探索範囲の最終フレームとなり、ステップS5306にて累積スコアをそれまでに処理したフレーム数で平均化して、変化量を求める.なお今回の処理対象とする代表画像pを中心とした動画データでは、1.7/5=0.34となる。
判定部205の詳細な動作について説明する。判定部205では、算出部604から得た変化量と閾値とを比較して、閾値よりも大きな変化量を持つ代表画像は動画像データとして記録すると判断し、閾値未満の変化量をもつ代表画像は静止画像データとして記録すると判断する。ここで閾値として0.2を設定すると、図9における代表画像点pは動画像として記録すると判断する。
このように本実施例では、長時間の動画像データが入力された場合でも代表画像として検出すべき区間を自動的に判断すると共に、被写体解析結果に応じて変化の少ないところは静止画像データとして、変化の大きなところは動画像データとして記録することを自動的に判定する。特に、本実施例で示したように、動画像としては変化の少ないものでも背景に動画として残すことに価値がある音源が流れている場合には、動画像データとして記録するように動作するため、被写体の内容により適した動画像、静止画像の切り替えが可能となる。
なお、本発明は上記実施形態そのままに限定されるものではなく、実施段階ではその要旨を逸脱しない範囲で構成要素を変形して具体化できる。また、上記実施形態に開示されている複数の構成要素の適宜な組み合わせにより、多くの発明を形成できる。例えば、実施形態に示される全構成要素からいくつかの構成要素を削除しても良い。さらに、異なる実施形態にわたる構成要素を適宜組み合わせても良い。
101・・・制御部、102・・・操作部、103・・・表示部、104、105・・・記憶部、106・・・入力部、107・・・外部記憶部、108・・・バス、
201、601・・・入力部、202・・・解析部、203・・・抽出部、204、604・・・算出部、205・・・判定部、206・・・出力部、602・・・追跡部、801・・・推定部

Claims (6)

  1. 複数の画像を含む動画像を入力する入力部と、
    前記動画像を解析して代表画像を抽出する抽出部と、
    前記代表画像を含む部分動画の変化量を算出する算出部と、
    前記変化量と所定の閾値とを比較して、動画像で出力するか静止画像として出力するかを判定する判定部と、
    判定した出力の形式に従って動画像または静止画像を出力する出力部と、
    を備えた信号処理装置。
  2. 前記抽出部は入力された前記画像に出現する物体を検出する解析部を更に備え、
    前記物体の出現度合から代表画像としての評価スコアを算出し、該評価スコアが大きくなる点を代表画像点として検出することを特徴とする請求項1に記載の信号処理装置。
  3. 前記部分動画に対応する音響信号を解析し、音源の種類を決定する決定部を更に備え、
    前記算出部は対応する前記音響信号の音源の種類から変化量を算出することを特徴とする請求項1に記載の信号処理装置。
  4. 検出された前記物体を追跡する追跡部をさらに備え、
    前記算出部は、追跡された前記物体の移動量から変化量を算出することを特徴とする請求項2に記載の信号処理装置。
  5. 前記物体の総数を計測する計測部をさらに備え、
    前記算出部は、前記物体の総数から変化量を算出することを特徴とする請求項2に記載の信号処理装置。
  6. 前記判定された動画像または静止画像を記録するための記憶部を更に備えることを特徴とする請求項1乃至5いずれか1項に記載の信号処理装置。
JP2010073701A 2010-03-26 2010-03-26 信号処理装置 Pending JP2011205599A (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2010073701A JP2011205599A (ja) 2010-03-26 2010-03-26 信号処理装置
US12/923,278 US20110235859A1 (en) 2010-03-26 2010-09-13 Signal processor

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2010073701A JP2011205599A (ja) 2010-03-26 2010-03-26 信号処理装置

Publications (1)

Publication Number Publication Date
JP2011205599A true JP2011205599A (ja) 2011-10-13

Family

ID=44656533

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2010073701A Pending JP2011205599A (ja) 2010-03-26 2010-03-26 信号処理装置

Country Status (2)

Country Link
US (1) US20110235859A1 (ja)
JP (1) JP2011205599A (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2015536062A (ja) * 2012-09-17 2015-12-17 グーグル インコーポレイテッド ソーシャルメディアビデオのインターストリーム音声同期化
EP3629570A2 (en) 2018-09-25 2020-04-01 Ricoh Company, Ltd. Image capturing apparatus and image recording method
JP7377483B1 (ja) * 2023-04-14 2023-11-10 株式会社モルフォ 動画要約装置、動画要約方法

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9087273B2 (en) * 2011-11-15 2015-07-21 Facebook, Inc. Facial recognition using social networking information
FR3026526B1 (fr) * 2014-09-26 2017-12-08 Commissariat Energie Atomique Procede et systeme de detection d'evenements de nature connue
CN105187911A (zh) * 2015-09-28 2015-12-23 努比亚技术有限公司 一种视频图片显示方法、装置及一种图片显示方法
US10282598B2 (en) 2017-03-07 2019-05-07 Bank Of America Corporation Performing image analysis for dynamic personnel identification based on a combination of biometric features
US10998007B2 (en) * 2019-09-30 2021-05-04 Adobe Inc. Providing context aware video searching

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH09233422A (ja) * 1996-02-26 1997-09-05 Oki Electric Ind Co Ltd 動画像処理システムにおける動画像情報検出装置
JP2008278467A (ja) * 2007-03-30 2008-11-13 Sanyo Electric Co Ltd 画像処理装置および画像処理方法
JP2009278202A (ja) * 2008-05-12 2009-11-26 Nippon Telegr & Teleph Corp <Ntt> 映像編集装置及び方法及びプログラム及びコンピュータ読み取り可能な記録媒体

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB9019538D0 (en) * 1990-09-07 1990-10-24 Philips Electronic Associated Tracking a moving object
US6526156B1 (en) * 1997-01-10 2003-02-25 Xerox Corporation Apparatus and method for identifying and tracking objects with view-based representations
US7598975B2 (en) * 2002-06-21 2009-10-06 Microsoft Corporation Automatic face extraction for use in recorded meetings timelines
JP2009038649A (ja) * 2007-08-02 2009-02-19 Panasonic Corp 信号処理回路、及び撮影装置
US8705810B2 (en) * 2007-12-28 2014-04-22 Intel Corporation Detecting and indexing characters of videos by NCuts and page ranking

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH09233422A (ja) * 1996-02-26 1997-09-05 Oki Electric Ind Co Ltd 動画像処理システムにおける動画像情報検出装置
JP2008278467A (ja) * 2007-03-30 2008-11-13 Sanyo Electric Co Ltd 画像処理装置および画像処理方法
JP2009278202A (ja) * 2008-05-12 2009-11-26 Nippon Telegr & Teleph Corp <Ntt> 映像編集装置及び方法及びプログラム及びコンピュータ読み取り可能な記録媒体

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2015536062A (ja) * 2012-09-17 2015-12-17 グーグル インコーポレイテッド ソーシャルメディアビデオのインターストリーム音声同期化
EP3629570A2 (en) 2018-09-25 2020-04-01 Ricoh Company, Ltd. Image capturing apparatus and image recording method
JP7377483B1 (ja) * 2023-04-14 2023-11-10 株式会社モルフォ 動画要約装置、動画要約方法

Also Published As

Publication number Publication date
US20110235859A1 (en) 2011-09-29

Similar Documents

Publication Publication Date Title
CN110189378B (zh) 一种视频处理方法、装置及电子设备
JP2011205599A (ja) 信号処理装置
JP4973188B2 (ja) 映像分類装置、映像分類プログラム、映像検索装置、および映像検索プログラム
JP2023526207A (ja) フレーム中の標的物体を一定のサイズに維持すること
US9807338B2 (en) Image processing apparatus and method for providing image matching a search condition
US9646227B2 (en) Computerized machine learning of interesting video sections
US10204275B2 (en) Image monitoring system and surveillance camera
JP4616702B2 (ja) 画像処理
EP2426917A1 (en) Display control device, display control method, and program
US20050228849A1 (en) Intelligent key-frame extraction from a video
JP2008501172A (ja) 画像比較方法
CN102004918A (zh) 图像处理设备、图像处理方法、程序以及电子器件
JPH08227462A (ja) 動画像の変化点検出方法及び装置
JP2009095013A (ja) ビデオ要約システムおよびビデオ要約のためのコンピュータプログラム
JP5618043B2 (ja) 映像音響処理システム、映像音響処理方法及びプログラム
JP2005243035A (ja) アンカーショット決定方法及び決定装置
JP6649231B2 (ja) 検索装置、検索方法およびプログラム
CN105554443A (zh) 视频图像中异响来源的定位方法及装置
CN110856039A (zh) 视频处理方法及装置、存储介质
JP4906588B2 (ja) 特定動作判定装置、リファレンスデータ生成装置、特定動作判定プログラム及びリファレンスデータ生成プログラム
US8768945B2 (en) System and method of enabling identification of a right event sound corresponding to an impact related event
CN112287771A (zh) 用于检测视频事件的方法、装置、服务器和介质
Nieto et al. An automatic system for sports analytics in multi-camera tennis videos
KR101822443B1 (ko) 샷 경계 및 자막을 이용한 동영상 축약 방법 및 처리 장치
CN115810209A (zh) 一种基于多模态特征融合网络的说话人识别方法和装置

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20110916

RD02 Notification of acceptance of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7422

Effective date: 20111125

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20111205

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20120130

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20120203

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20120907