JP2011205599A

JP2011205599A - 信号処理装置

Info

Publication number: JP2011205599A
Application number: JP2010073701A
Authority: JP
Inventors: Kazunori Imoto; 和範井本
Original assignee: Toshiba Corp
Current assignee: Toshiba Corp
Priority date: 2010-03-26
Filing date: 2010-03-26
Publication date: 2011-10-13
Also published as: US20110235859A1

Abstract

【課題】動画像の中から重要なシーンを推定し、重要なシーンを含む要約映像を作成する信号処理装置を提供する。
【解決手段】複数の画像を含む動画像を入力する入力部と、前記動画像を解析して代表画像を抽出する抽出部と、前記代表画像を含む部分動画の変化量を算出する算出部と、前記変化量と所定の閾値とを比較して、動画像で出力するか画像として出力するかを判定する判定部と、判定した出力の形式に従って動画像または静止画像を出力する出力部と、を備える。
【選択図】図２

Description

本発明は、信号処理装置に関する。

高品質な動画像や静止画像の撮影では、撮影状況が刻々と変化する中で静止画撮影と動画像撮影のモードを主導で切り替えるのは手間であり、貴重な撮影機会を逃してしまう。

そこで静止画像撮影の前後の動画を記録する場合に、静止画像と前後の動画とをバッファして、被写体によっていずれの形式を保存するかを自動的に判断する方法が提案されている(特許文献１)。しかし動画像か静止画像かを切り替える場合に、符号化量を基準に画像の変化量を用いており、変化が少なくても動画像として記録する価値のあるものを誤って静止画像として記録してしまうという問題がある。さらに静止画像であっても動画像であっても記録するタイミングはユーザーの撮影操作をトリガーに決まるため、視聴価値のある素材が記録されるかはユーザーの操作に依存してしまう。そのため、ユーザーの操作記録が残っていない長時間の動画像素材には適用できず、ユーザーが素材を選ぶ作業は依然として残っている。

特開２００９−３８６４９号

上記問題点に鑑み、動画像の中から重要なシーンを推定し、重要なシーンを含む要約映像を作成する信号処理装置を提供する。

本発明は、複数の画像を含む動画像を入力する入力部と、前記動画像を解析して代表画像を抽出する抽出部と、前記代表画像を含む部分動画の変化量を算出する算出部と、前記変化量と所定の閾値とを比較して、動画像で出力するか静止画像として出力するかを判定する判定部と、判定した出力の形式に従って動画像または静止画像を出力する出力部とを有することを特徴とする信号探索装置である。

本発明によれば、動画像の中から重要なシーンを推定し、重要なシーンを含む要約映像を作成することができる。

本発明の実施例に係るハードウェア構成を示す図。実施例１に係る画像処理装置の構成を示す図。実施例１に係る解析結果の一例を示す図。抽出部の動作を表わすフローチャート。算出部の動作を表わすフローチャート。実施例２に係る画像処理装置の構成を示す図。実施例２に係る解析結果の一例を示す図。実施例２に係る算出部の動作を表わすフローチャート。実施例３に係る画像処理装置の構成を示す図。実施例３に係る解析結果の一例を示す図。実施例３に係る算出部の動作を表わすフローチャート。

近年、主に動画像を撮影するデジタルビデオカメラでもスチルカメラ並みの高品位な静止画像を、主に静止画像を撮影するデジタルスチルカメラでも高品質な動画像を撮影することが可能になってきている。そして撮影される被写体に応じて静止画像撮影と動画像撮影を切り替えることができるようになってきた。個人が撮影した複数の静止画像（静止画像群）や複数のビデオクリップ（撮影されたビデオの一部）群に音楽やエフェクトを添えたスライドショーや要約映像を作成するソフトやサービスも普及し、個人所有のコンテンツを手軽に共有する環境が整備されつつある。

しかし高品位な動画像や静止画像が撮影できても、スライドショーや要約映像として用いる素材を選ぶのはユーザーである。ユーザーの手間を軽減するほど、個人コンテンツを手軽に共有するには至っていない長時間の動画像のみを素材として動画像と静止画像を効果的に混在する要約映像を作成する場合、動画像から静止画像として出力し記録するか、動画像として出力し記録するかを判断する作業が必要になる。実際には対象となる重要なシーンの位置が容易にわからないこともある。本実施例では、動画像素材のみからでも動画像と静止画像を織り交ぜた要約映像を自動的に生成できる装置について説明する。これらは例えば、パーソナルコンピューターやテレビなどに表示させる要約映像を、ユーザーが簡易に作成することを支援することができる。

以下、本実施形態に関する信号処理装置について図面に基づいて説明する。

まず、本実施の形態にかかる信号処理装置のハードウェア構成について図１を用いて説明する。信号処理装置１００は、装置全体を制御するＣＰＵ（Central Processing Unit）等の制御部１０１と、各種データや各種プログラムを記憶するＲＯＭ（Read Only Memory）１０４やＲＡＭ１０５（Random Access Memory）等の記憶部と、画像や音などの信号を入力する入力部１０６と、各種データや各種プログラムを記憶するＨＤＤ（Hard Disk Drive）やＣＤ（Compact Disk）ドライブ装置等の外部記憶部１０７、これらを接続するバス１０８とを備えており、通常のコンピュータを利用したハードウェア構成となっている。また、信号処理装置１には、画像等を表示する表示部１０３と、ユーザーの指示入力を受け付けるキーボードやマウス等の操作部１０２と、外部装置の通信を制御する通信Ｉ／Ｆ（interface）とが有線又は無線により各々接続される。

図２に本発明による一実施形態を表すブロック図を示す。本実施例における信号処理装置は入力部２０１、解析部２０２、抽出部２０３、算出部２０４、判定部２０５、出力部２０６から構成される。

入力部２０１は、デジタルビデオカメラなど外部機器から入力される動画像データを取得し、解析部２０２、出力部２０６へ出力する。動画像は、少なくとも複数の静止画像（フレーム）と、フレームに時間同期する音響信号によって構成される。また入力部２０１は、ビデオカメラやその他の機器から入力される動画像データを取得し、デジタル動画像データに変換した後、解析部２０１、出力部２０６へ出力するにしてもよい。なお、デジタル動画像データを記録媒体に記録して、解析部２０２、出力部２０６は動画像データが記録された記録媒体から直接デジタル動画像データを読み込むように変更してもよい。また、必要に応じて動画像データの暗号解除処理（例えばＢ−ＣＡＳ等のスクランブル解除処理）、デコード処理（例えばＭＰＥＧ２からのデコード処理）、形式変換処理（例えばＴＳ／ＰＳ、ＴＳ:ＴｒａｎｓｐｏｒｔＳｔｒｅａｍ、ＰＳ：ＰｒｏｇｒａｍＳｔｒｅａｍ）、ビットレート（圧縮率）変換処理等を行ってもよい。

解析部２０２は、入力部２０１からえた動画像データを解析して、解析結果を抽出部２０３、算出部２０４に出力する。解析部は画像中の物体（オブジェクト）を検出する。例えば、顔、人物上半身、看板、建物、構造物などである。これらの物体を検出し、動画像データに含まれる物体の数と検出した物体に対応するフレームを解析結果として算出する。検出数だけではなく、検出された物体の信頼度を算出してもよい。さらに物体が明瞭に撮影されているかを評価してもよい。信頼度や評価結果は物体が撮影された部分画像（あるいは動画）の画像品質を示す評価スコア（画像評価スコア）として同時に出力してもよい。

抽出部２０３は、解析部２０２からの解析結果を用いて、動画像データから要約映像を作成する際に用いられる画像を代表画像として抽出する。代表画像とは、要約映像として残す価値があるとユーザーが判断する可能性のある部分に対応する。代表画像の抽出処理の詳細は、後述する。抽出された代表画像は算出部２０４、出力部２０６出力する。

算出部２０４は、解析部２０２での解析結果および抽出部２０３からの代表画像を用い、代表画像を含む前後の部分動画像（部分動画）を対象に分析し、動画像としての変化の大きさを変化量として算出する。算出した変化量は判定部２０５に出力する。算出部２０４の処理の詳細は、後述する。

判定部２０５は、算出部２０４から算出された変化量を用いて、代表画像を含む前後の部分動画像を分割して出力するか、代表画像としての静止画像を出力するかを判定する。判定した結果は出力部２０６に出力する。動画像として出力するか静止画像として出力するかは、予め設定した閾値と変化量とを比較することによって判定する。たとえば、閾値を越える場合には動画像として、閾値以下の場合には静止画像として、出力されたものを記録する方法が最も簡易でよい。判定部の処理の詳細については、後述する。

出力部２０６は、判定部２０５からえた判定結果と、抽出部２０３からえた代表画像とを対応させる。入力された動画像について、判定結果に基づき静止画像データもしくは動画像データとして出力する。出力方法はそれぞれの動画像データおよび静止画像データを書き込む方法や、動画像データと静止画像データをつなげた要約映像として出力する方法がよい。また、入力された動画像データに対応させて、動画像で出力する部分を示す情報と静止画像として出力するフレーム部分とを対応させて出力したりする方法などでもよい。

このように本実施例では、動画像のみの素材を入力として要約映像として残す価値のある画像を代表画像として自動的に検出した上で、代表画像を動画像として記録するか静止画像として記録するかを自動的に判定するように動作する。以上が、本実施例の概略説明である。次により具体的に各構成要素の動作を説明する。

図３に解析部２０２が出力した解析結果の一例を示す。図３では解析部が動画像データをデコードして得た静止画像フレーム毎に、検出された顔の数（顔検出数）、検出された顔の信頼度（顔らしさ）を表す顔評価スコア、顔以外のオブジェクトとして建物や看板など検出された構造物の数（構造物数）、検出された構造物の信頼度（構造物らしさ）を表す画像評価スコアが出力されている例である。

続いて、図３に示す解析結果が入力された場合の抽出部２０３の詳細な動作を、図４のフローチャートに従って説明する。抽出部２０３では、まず入力された動画像データを複数のシーンに分割する(ステップＳ４０１)。シーンとは代表画像を検出する単位となる動画像の区間を規定するものであり、所定の区間で分割される。例えば、入力された動画像を固定の時間長ごとに分割する、隣接するフレーム間の輝度ヒストグラムの差分が大きなフレームで分割する、音響信号の変化が大きくなる時点に対応するフレームで分割する、別途記録している撮影停止・再開操作に対応するフレームで分割するなど方法がある。これらの方法はいずれを用いてもよく、いくつかを組み合わせて用いてもよい。ここでは固定の時間長毎に分割した結果を例に説明する。入力信号に対しては、ｒとｒ＋１の間でシーン境界が検出されたものとする。シーン境界が検出された場合には、シーン境界後の最初のフレーム(フレーム番号０とする)および最初のシーンをそれぞれ注目フレームおよび注目シーンとして処理を進める(ステップＳ４０２)。

続いてステップＳ４０３にて、注目フレームの代表画像スコアを算出する。代表画像スコアは値が大きいほど重要度が高いことを示す。本実施例では以下の式に従って求めるものとする。

代表画像スコア＝Σ{(顔検出数)×(顔評価スコア)＋(構造物数)×(画像評価スコア)} ／３
たとえば本実施例においての代表画像スコアは、長時間の動画像を要約する場合に、代表画像スコアの値が大きいものほど要約画像に含まれる価値のある画像であることを示唆する。なお、スコアの設計方法におおいて、人物の重要度や構造物の大きさ等を考慮し、別途取得してスコアに加味してもよい。

ここでは、代表画像スコアの算出を安定的に行うため、注目するフレームに隣接するフレームを含む３フレームの代表画像スコアの平均値を、注目フレームの代表画像スコアとして算出する。たとえば、図３の最初のフレーム（フレーム番号０）では隣接するフレームを含めて顔および構造物が検出されていないため、代表画像スコアは０となる。

続いてステップＳ４０４では、注目シーンの区間の中で処理済みの代表画像スコアの算出結果を参照し、最も値の大きいスコアを、注目シーンの代表画像スコアとする。ここでは最初の処理結果のため最初の値０および注目フレーム番号を記録する。

続いて現在処理している注目フレームがシーン境界であるかを判定し(ステップＳ４０５)、シーン境界ではない場合は注目フレーム番号を１つ増やして (ステップＳ４０６)、同じ処理を繰り返す。

たとえば、注目フレームｔ、注目シーン０を処理する場合について詳述する。なお注目フレームｔ−１までの処理で、注目シーンの代表画像スコアは０．７３である。ステップＳ４０３で注目フレームｔおよび前後の隣接フレームの解析結果から代表画像スコアを算出すると、代表画像スコアは０．８３となった。この代表画像スコアは既に処理が済んだ（過去の）フレームの代表画像スコアよりも大きな値となるため、注目シーン０の代表画像スコアを０．８３に上書し、注目フレームｔを最大の評価スコアを出したフレームとして記録する。

同様の処理を繰り返してシーン境界であるフレームｒまで処理を行うと（ステップＳ４０５）、ステップＳ４０７では注目シーンの区間の中で代表画像スコアが最大となる値を算出したフレームを代表画像として決定する。たとえば、注目シーン０に関してはフレームｔが最大のスコア（値）となるため、フレームｔを代表画像として記録して、次のフレームを処理する。続いて、現在処理している注目フレームが最終フレームであるかを判定し（ステップＳ４０８）、最終フレームで無い場合は、代表画像スコアをリセットした上で、注目シーンまたは注目フレーム逐次処理して、最終フレームを処理するまで同じ処理を繰り返す。たとえば、図３に示した動画像データに対しては、２つのシーンに対してフレームｔ、ｓが代表画像点として検出された結果の事例である。

次に算出部２０４の詳細な動作について説明する。図５は算出部２０４の詳細な動作を示すフローチャートである。算出部２０４では、画像間の変化量を算出する。変化量は抽出部２０３が検出した代表画像ごとに、動画像データとして記録するか静止画像データとして記録するかを判断するための指標となる。たとえば図３に示した動画像データに対してフレームｔ、およびフレームｓが代表画像として検出された場合について説明する。ここでは説明を簡略化するため、代表画像と代表画像を中心として時間軸の前後に隣接する４フレーム分とから変化量を算出するものとする。変化量は所定の時間を設定してもよいし、代表スコアなどを指標に所定のフレーム数（あるいは時間）を変動させてもよい。

まず、ステップＳ５１０１にてフレームｔ−２を注目フレームとして設定する。次にステップＳ５１０２にて注目するフレームの変化スコアを算出する。変化スコアは注目するフレームが時間軸で前後に隣接する隣接フレームと比較することによって算出され、変化が起きているか否かを意味する。変化スコアは値が大きいほど動画像として記録する可能性が高いことを示唆する。スコアの設計方法は様々なものが考えられるが、本実施例では以下の式に従って求める。

変化スコア＝
｜（注目フレームの顔検出数＋構造物数）−（次フレームの顔検出数＋構造物数）｜
最初のフレームｔ−２では隣接フレームを含めて顔は検出されておらず構造物は共に一つだけ検出されているため、変化スコアは０である。続いてステップＳ５１０３ではそれまでの変化スコアの累積値を算出する。ここでは最初の処理のため変化スコアをそのまま累積スコアとする．続いて現在処理している注目フレームが探索範囲の最終フレームであるかを判定し（ステップＳ５１０４）、探索範囲の最終フレームではない場合は注目フレーム番号を１つ増やして（ステップＳ５１０５）、同じ処理を繰り返す。説明の簡略化のために、注目フレームｔ＋２が探索範囲の最終フレームとなり、ステップＳ５１０６にて累積スコアをそれまでに処理したフレーム数で平均化して、変化量を求める。なお処理対象とする代表画像点ｔを中心とした動画像データでは、検出される物体は人物（被写体）であり、被写体の数が変化しないため、変化量は０である。なお、代表画像ｓを中心とした動画像データでは、変化量として０．２が算出されたとする。

続いて判定部２０５詳細な動作について説明する。判定部２０５では、算出部２０４が算出した変化量を得て、変化量と閾値と比較する。閾値よりも大きな変化量を持つ代表画像は動画像データとして出力し記録すると判断し、閾値未満の変化量をもつ代表画像は静止画像データとして出力し記録すると判断する。ここで閾値として例えば、０．２を設定すると、本実施例にある代表画像点ｔおよびｓはいずれも閾値を下回る値となるため、静止画像として記録すると判断する。

このように本実施形態では、動画像データが入力された場合でも代表画像として検出すべき区間を自動的に判断する。また解析結果に応じて変化の少ないところは静止画像データとして、変化の大きなところは動画像データとして記録することを自動的に判定する。したがって、代表画像として記録する箇所を予めユーザーが指定する必要がない。さらに、画像特徴の変化量に基づいて記録形式を判断する場合、背景のみが激しく変化する区間を動画像として記録するよう動作してしまうが、本実施形態ではさらに、物体（構造物や人物などの被写体）の変化に着目しているおり、着目する物体に変化がなければ静止画像として記録するように動作ができるなど、内容により適した動画像、静止画像の切り替えが可能である。

図６は本発明の第二の実施形態に関わる信号処理装置の構成図である。なお、上述した第一の実施例と同等の構成については、同一の符号を付与し、その説明を省略する。本実施例に係る信号処理装置は、入力部２０１、解析部２０２、抽出部２０３、算出部６０４、判定部６０５、出力部６０６、追跡部６０２から構成される．本実施例と第一の実施例の違いは追跡部６０２の構成である。解析部２０２が検出した物体（本実施例では以下被写体と称する）が動画像データ中でどれだけ移動しているかについて追跡部６０２で算出する。被写体の移動量に応じて代表画像を動画像データとして記録するか、静止画像データとして記録するかを判断するが、第一の実施例とは異なる。

解析部２０２は、入力部１１からえた動画像データを解析し、解析結果を代表画像検出部２０３、追跡部６０２、算出部６０４に出力する。例えば、人等の顔、人物等の上半身、看板、建物、構造物などを含む被写体を検出し、動画像データに含まれる被写体の数と対応するフレームを解析結果として出力する。解析部２０２では、検出数だけではなく、顔や構造物が明瞭に撮影されているのか否かを評価し、被写体の部分に係る画像品質を示す評価スコアを同時に出力してもよい。

追跡部６０２は、解析部２０２で検出された被写体について、時間的に前後にある隣接フレームでの対応関係を追跡する。対応する被写体が隣接するフレーム（以下隣接フレームと称する）で存在する場合、フレーム間での移動量を算出して、算出部６０４に出力する。被写体の追跡方法は次の２つの方法を組み合わせた方法を用いることが望ましい。一つは、同じ種類のオブジェクト（被写体）の領域が、隣接フレーム間で重なりを持っている場合に、対応する被写体を同一のものと判断する方法である。もう一つは、検出された顔を対象に顔クラスタリングを行い、同じ分類（クラス）に分類された顔を同一人物と判断して追跡する方法である。前者の方法は、被写体の種類に依存しない汎用的な方法であるが、複数の被写体が存在し、一方の被写体が他方の被写体に隠れた場合に追跡が困難になる。後者の方法は、顔が正しく検出できた場合には高精度に分類できるが、顔検出が困難な場合（たとえば顔が後ろを向くなど）には追従できないという問題がある。処理装置の記憶容量、処理速度、制御装置への負荷等を考慮して、どちらか一方の方法を用いてもよい。

算出部６０４は、解析部２０２および追跡部６０２から入力された解析結果および代表画像検出部２０３が算出した代表画像を用いて、代表画像を含む前後の部分動画像を対象に分析し、動画像としての変化の大きさを変化量として算出する。算出した変化量は判定部２０５に出力する。本実施例では、追跡部６０２が算出した被写体の移動量を利用している点が第一の実施例とは異なる。
判定部２０５は、算出部６０４から得た変化量を用いて、動画像として記録するか静止画像として記録するかを判定する。判定した結果は出力部２０６に出力する。動画像として出力するか静止画像として出力するかの判断は、予め設定した閾値と該変化量を比較して、閾値を越える変化量の場合には動画像として出力し、閾値以下の変化量が入力された場合には、静止画像として出力する。なお、出力形式は、実施例１の場合と同様に動画像に対応したフレームまたは部分的な動画像とを対応づけ、記録形式を含むテーブルのみの出力や、フレームまたは動画像を記憶部に記録させてもよい。

このように本実施形態では、動画像のみの素材を入力として要約映像として残す価値のある部分画像を代表画像として自動的に検出した上で、代表画像を動画像として出力するか静止画像として出力するかを、被写体の移動量に応じて自動的に判定するように動作する。

以下により具体的に各構成要素の動作を説明する。図７に解析部２０２および追跡部６０２の解析結果の一例を示す。解析部２０２によって、動画像データをデコードして得られた静止画像フレーム毎に、検出された顔の数、検出された顔の信頼度を表す顔評価スコアが、さらに追跡部６０２によって追跡した被写体の顔、および画面内での被写体の移動量が出力されている。

続いて算出部６０４の詳細な動作について説明する。図８に算出部６０４の詳細な動作を示すフローチャートを示す。算出部６０４では、抽出部２０３によって抽出された代表画像ごとに、動画像データとして出力するか静止画像データとして出力するかを判断するための判断材料となる変化量を算出する。ここでは図７に示した動画像データを例に、フレームｑが代表画像として抽出された場合を想定する。説明を簡略化するため、代表画像を中心とし、代表画像を含む隣接５フレーム分から変化量を算出するものとして算出部の動作を説明する。

算出部６０４では、ステップＳ５２０１にてフレームｑ−２を注目フレームとして設定する。続いてステップＳ５２０２にて注目するフレームの被写体移動量を算出する。被写体移動量とは、注目するフレームと隣接フレームとを比較して被写体の位置に変化があるか否かを示す。被写体移動量の値が大きいほど動画として記録する価値の高い可能性を示唆する。スコアの設計方法は様々なものが考えられるが、本実施例では被写体移動量のスコアを以下の式に従って求めるものとする。

被写体移動量＝｜注目フレームで検出された被写体の移動量｜
最初のフレームｑ−２では被写体として１つの顔が検出されており、その移動量は０．２となっているため、被写体移動量は０．２である。続いてステップＳ５２０３では処理済みの被写体移動量の累積値を算出する。ここでは最初の処理のため被写体移動量をそのまま累積スコアとする．続いて現在処理している注目フレームが対象とする動画像信号の最終フレームであるかを判定し（ステップＳ５２０４）、最終フレームではない場合は注目フレーム番号を１つ増やして（ステップＳ５２０５）、同じ処理を繰り返す。図７の事例を用いたばくぁい、注目フレームｑ＋２が探索範囲の最終フレームとなり、ステップＳ５２０６にて累積スコアをそれまでに処理したフレーム数で平均化して、変化量を求める。なお処理対象とする代表画像点ｑを中心とした動画データでは、１．１／５＝０．２２となる。
続いて判定部２０５の動作について説明する．判定部２０５は、算出部６０４から得た変化量と閾値とを比較して、閾値よりも大きな変化量を持つ代表画像は動画像データとして出力すると判断し、閾値未満の変化量をもつ代表画像は静止画像データとして出力すると判断する。ここで閾値として０．２を設定すると、図７の代表画像ｑは動画像として記録すると判断される。

このように実施例２では、長時間の動画像データが入力された場合でも代表画像として検出すべき区間を自動的に判断すると共に、被写体の解析結果に応じて変化の少ないところは静止画像データとして、変化の大きなところは動画像データとして記録することを自動的に判定する。特に、被写体の数が変化しない動画でも、同一の被写体が画面内を大きく移動しなければ静止画像として、また移動している場合には動画像データとして、記録できるよう動作するため、被写体の内容により要約映像等に適した動画像、静止画像の切り替えが可能となる。

図９は本発明の第三の実施形態に関わる、信号処理装置の構成図である。入力部２０１、解析部２０２、抽出部２０３、算出部６０４、判定部２０５、出力部２０６、推定部８０１から構成される。本実施例では、音源を推定する推定部８０２が追加された点が第一の実施例及び第二の実施例と異なる。より具体的には入力部２０１から得た動画像データに対応する音声データを解析して動画像として記録する可能性のある音源が背景に流れているかを把握し、把握した音源の種類に応じて代表画像を動画像データとして出力するか、静止画像データとして出力するかを判断する点が異なる。なお、上述した第一の実施例及び第二の実施例と同等の構成については、同一の符号を付与し、その説明を省略する。

入力部２０１は、外部のデジタルビデオカメラ、デジタル放送等の受信チューナー、その他のデジタル機器から入力される動画像データを取得し、解析部２０２、出力部２０６へと渡すと同時に、動画像データに対応する音声データを取得し、推定部８０１に渡す。

推定部８０１は、入力部２０１から得た音声データを解析して、画像フレームに対応する各時刻でどのような音源が流れていたかを推定する。例えば、入力音声を音声・音楽・雑音・拍手・歓声・無音など事前に規定した音源のいずれに属するかを分類する。所望の音源が出現した場合に高いスコアを算出させ、動画像として記録する価値がある可能性を示すことができる。音源の分類の手段としては、例えばＧａｕｓｓｉａｎＭｉｘｔｕｒｅＭｏｄｅｌなどの統計モデルを音源の種類毎に学習しておき、モデルとの類似度の事後確率が最大となる音源の酒類を識別結果とする方法を用いればよい。ここでは、拍手・歓声・音声に分類された場合に、対象の音源が検出されたと判断し、拍手・歓声・音源に対する事後確率を音源評価スコアとする。

算出部６０４は、解析部２０２および推定部８０１から得た解析結果（音源評価スコア）と抽出部２０３から得た代表画像とを用いて、代表画像の動画像としての変化の大きさを変化量として算出し、算出した変化量を判定部２０５に出力する。第三の実施例では、推定部８０１から得る音源評価スコアを利用している点が第一の実施例及び第二の実施例とは異なる。
判定部２０５、算出部２０３から得た変化量を用いて、動画像として記録するか静止画像として記録するかを判定して、判定した結果を出力部２０６に出力する。動画像として記録するか静止画像として記録するかの判断は、設定した閾値と変化量とを比較して、閾値を越える変化量が入力された場合には動画像として記録し、閾値以下の変化量が入力された場合には、静止画像として記録する方法である。
続いて、以下により具体的に各構成要素の動作を説明する。図１０に解析部２０２および推定部８０１から入力された解析結果の一例を示す。解析部によって、動画像データをデコードして得られた静止画像フレーム毎に、検出された顔の数、検出された顔の信頼度を表す顔評価スコアが出力される。さらに推定部によって動画像として記録する可能性の高い音源が検出されたか否か、および音源の確からしさを表す音源評価スコアが出力されている。

算出部６０４の詳細な動作について説明する。図１１に算出部６０４の詳細な動作を説明するフローチャートを示す。算出部６０４では、抽出部２０３によって検出された代表画像ごとに、動画像データとして記録するか静止画像データとして記録するかを判断するための判断材料となる変化量を算出する。ここでは図１０に示した動画像データを例に、フレームｐが代表画像として検出された場合を想定する。説明を簡略化するため、代表画像を中心とし、代表画像を含む隣接５フレーム分から変化量を算出するものとして算出部の詳細な動作を説明する。

算出部６０４では、ステップＳ５３０１にてフレームｐ−２を注目フレームとして設定する。続いてステップＳ５３０２にて注目するフレームの音源評価スコアを算出する。音源評価スコアとは、注目するフレームにおいて動画像として記録する価値のある音源が鳴っているかを意味し、値が大きいほど動画として記録する可能性が高いことを示唆する。スコアの設計方法は様々なものが考えられるが、本実施例では以下の式に従って求めるものとする。

音源評価スコア＝｜注目フレームで検出された音源評価スコア｜
図１０では、最初のフレームｐ−２では音源が検出されていないため、音源評価スコアは０となる。続いてステップＳ５３０３では処理済みの音源評価スコアの累積値を算出する。ここでは最初の処理のため音源評価スコアをそのまま累積スコアとする。続いて現在処理している注目フレームが処理対象となる動画像の最終フレームであるかを判定し（ステップＳ５３０４）、最終フレームではない場合は注目フレーム番号を１つ増やして（ステップＳ５３０５）、同じ処理を繰り返す。この場合、注目フレームｐ＋２が探索範囲の最終フレームとなり、ステップＳ５３０６にて累積スコアをそれまでに処理したフレーム数で平均化して、変化量を求める．なお今回の処理対象とする代表画像ｐを中心とした動画データでは、１．７／５＝０．３４となる。

判定部２０５の詳細な動作について説明する。判定部２０５では、算出部６０４から得た変化量と閾値とを比較して、閾値よりも大きな変化量を持つ代表画像は動画像データとして記録すると判断し、閾値未満の変化量をもつ代表画像は静止画像データとして記録すると判断する。ここで閾値として０．２を設定すると、図９における代表画像点ｐは動画像として記録すると判断する。

このように本実施例では、長時間の動画像データが入力された場合でも代表画像として検出すべき区間を自動的に判断すると共に、被写体解析結果に応じて変化の少ないところは静止画像データとして、変化の大きなところは動画像データとして記録することを自動的に判定する。特に、本実施例で示したように、動画像としては変化の少ないものでも背景に動画として残すことに価値がある音源が流れている場合には、動画像データとして記録するように動作するため、被写体の内容により適した動画像、静止画像の切り替えが可能となる。

なお、本発明は上記実施形態そのままに限定されるものではなく、実施段階ではその要旨を逸脱しない範囲で構成要素を変形して具体化できる。また、上記実施形態に開示されている複数の構成要素の適宜な組み合わせにより、多くの発明を形成できる。例えば、実施形態に示される全構成要素からいくつかの構成要素を削除しても良い。さらに、異なる実施形態にわたる構成要素を適宜組み合わせても良い。

１０１・・・制御部、１０２・・・操作部、１０３・・・表示部、１０４、１０５・・・記憶部、１０６・・・入力部、１０７・・・外部記憶部、１０８・・・バス、
２０１、６０１・・・入力部、２０２・・・解析部、２０３・・・抽出部、２０４、６０４・・・算出部、２０５・・・判定部、２０６・・・出力部、６０２・・・追跡部、８０１・・・推定部

Claims

複数の画像を含む動画像を入力する入力部と、
前記動画像を解析して代表画像を抽出する抽出部と、
前記代表画像を含む部分動画の変化量を算出する算出部と、
前記変化量と所定の閾値とを比較して、動画像で出力するか静止画像として出力するかを判定する判定部と、
判定した出力の形式に従って動画像または静止画像を出力する出力部と、
を備えた信号処理装置。
前記抽出部は入力された前記画像に出現する物体を検出する解析部を更に備え、
前記物体の出現度合から代表画像としての評価スコアを算出し、該評価スコアが大きくなる点を代表画像点として検出することを特徴とする請求項１に記載の信号処理装置。
前記部分動画に対応する音響信号を解析し、音源の種類を決定する決定部を更に備え、
前記算出部は対応する前記音響信号の音源の種類から変化量を算出することを特徴とする請求項１に記載の信号処理装置。
検出された前記物体を追跡する追跡部をさらに備え、
前記算出部は、追跡された前記物体の移動量から変化量を算出することを特徴とする請求項２に記載の信号処理装置。
前記物体の総数を計測する計測部をさらに備え、
前記算出部は、前記物体の総数から変化量を算出することを特徴とする請求項２に記載の信号処理装置。
前記判定された動画像または静止画像を記録するための記憶部を更に備えることを特徴とする請求項１乃至５いずれか１項に記載の信号処理装置。