JP2014170978A

JP2014170978A - 情報処理装置、情報処理方法および情報処理プログラム

Info

Publication number: JP2014170978A
Application number: JP2011107102A
Authority: JP
Inventors: Masumi Ishikawa; 真澄石川
Original assignee: NEC Corp
Current assignee: NEC Corp
Priority date: 2011-05-12
Filing date: 2011-05-12
Publication date: 2014-09-18
Also published as: WO2012153868A1

Abstract

【課題】撮影対象の重要度の算出精度を向上させること。
【解決手段】撮影動画に含まれる少なくとも１つのフレーム画像内において、あらかじめ登録された特定対象を含む領域としての対象領域を検出する対象領域検出手段と、撮影動画に含まれる少なくとも１つのフレーム画像内において、撮影動画の撮影者がフォロー撮影によって追ったと推定されるフォロー対象を含む領域としてのフォロー領域を検出するフォロー領域検出手段と、対象領域検出手段が検出した対象領域と、フォロー領域検出手段が検出したフォロー領域とを比較することにより、特定対象とフォロー対象とが対応するか否かを判定する判定手段と、判定手段による判定結果に基づいて撮影動画に含まれる特定対象の重要度を算出する重要度算出手段と、を含むことを特徴とする。
【選択図】図１

Description

本発明は、撮影された対象物に対する重要度を算出するための技術に関する。

上記技術分野に属する技術が、特許文献１に開示されている。特許文献１では、映像中の顔画像を人物ごとにグループ分けし、グループに属する顔画像の枚数によって人物の登場時間を推定し、登場時間の長さをもとに人物の重要度を算出する。また、特許文献２では、映像を撮影する際のカメラ操作に、対象に対する撮影者の興味が反映されるとし、対象を追うようなカメラ操作（フォロー撮影）の行われた区間を検出する。さらに、フォロー撮影された対象（フォロー対象）の位置や照明条件等をもとにフレームの重要度を算出する。

特許第3315888公報特許第3525493公報

しかしながら、上記従来技術では、撮影対象の重要度の算出精度が十分ではなかった。

例えば、特許文献１では、撮影者が興味を持っていない特定対象についても、その特定対象が映像中に長時間出現する場合には、高い重要度が付与される。また、特許文献２では、特定対象ではない撮影対象がたまたまカメラの動きと似た動きをした場合に、その撮影対象に対して高い重要度が付与される。

本発明の目的は、上述の課題を解決する技術を提供することにある。

上記目的を達成するため、本発明に係る装置は、
撮影動画に含まれる少なくとも１つのフレーム画像内において、あらかじめ登録された特定対象を含む領域としての対象領域を検出する対象領域検出手段と、
前記撮影動画に含まれる少なくとも１つのフレーム画像内において、前記撮影動画の撮影者がフォロー撮影によって追ったと推定されるフォロー対象を含む領域としてのフォロー領域を検出するフォロー領域検出手段と、
前記対象領域検出手段が検出した前記対象領域と、前記フォロー領域検出手段が検出した前記フォロー領域とを比較することにより、前記特定対象と前記フォロー対象とが対応するか否かを判定する判定手段と、
前記判定手段による判定結果に基づいて前記撮影動画に含まれる前記特定対象の重要度を算出する重要度算出手段と、
を含むことを特徴とする。

上記目的を達成するため、本発明に係る方法は、
撮影動画に含まれる少なくとも１つのフレーム画像内において、あらかじめ登録された特定対象を含む領域としての対象領域を検出する対象領域検出ステップと、
前記撮影動画に含まれる少なくとも１つのフレーム画像内において、前記撮影動画の撮影者がフォロー撮影によって追ったと推定されるフォロー対象を含む領域としてのフォロー領域を検出するフォロー領域検出ステップと、
前記対象領域検出ステップで検出した前記対象領域と、前記フォロー領域検出ステップで検出した前記フォロー領域とを比較することにより、前記特定対象と前記フォロー対象とが対応するか否かを判定する判定ステップと、
前記判定ステップによる判定結果に基づいて前記撮影動画に含まれる前記特定対象の重要度を算出する重要度算出ステップと、
を含むことを特徴とする。

上記目的を達成するため、本発明に係るプログラムは、
撮影動画に含まれる少なくとも１つのフレーム画像内において、あらかじめ登録された特定対象を含む領域としての対象領域を検出する対象領域検出ステップと、
前記撮影動画に含まれる少なくとも１つのフレーム画像内において、前記撮影動画の撮影者がフォロー撮影によって追ったと推定されるフォロー対象を含む領域としてのフォロー領域を検出するフォロー領域検出ステップと、
前記対象領域検出ステップで検出した前記対象領域と、前記フォロー領域検出ステップで検出した前記フォロー領域とを比較することにより、前記特定対象と前記フォロー対象とが対応するか否かを判定する判定ステップと、
前記判定ステップによる判定結果に基づいて前記撮影動画に含まれる前記特定対象の重要度を算出する重要度算出ステップと、
をコンピュータに実行させることを特徴とする。

本発明によれば、撮影対象の重要度の算出精度を向上させることができる。

本発明の第１実施形態に係る情報処理装置の構成を示すブロック図である。本発明の第２実施形態に係る情報処理システムの構成を示すブロック図である。本発明の第２実施形態に係る情報処理システムの処理の流れを示すフローチャートである。本発明の第２実施形態に係る情報処理システムの動作を説明する図である。本発明の第２実施形態に係る情報処理システムにおけるフォロー対象と特定対象との対応関係の判定について説明する図である。本発明の第２実施形態に係る情報処理システムにおけるフォロー対象と特定対象との対応関係の判定について説明する図である。本発明の第２実施形態に係る情報処理システムにおけるフォロー対象と特定対象との対応関係の判定について説明する図である。本発明の第２実施形態に係る情報処理システムにおけるフォロー対象と特定対象との対応関係の判定について説明する図である。本発明の第２実施形態に係る情報処理システムにおけるフォロー対象と特定対象との対応関係の判定について説明する図である。本発明の第３実施形態に係る情報処理システムにおけるフォロー対象と特定対象との対応関係の判定について説明する図である。本発明の第３実施形態に係る情報処理システムにおけるフォロー対象と特定対象との対応関係の判定について説明する図である。本発明の第３実施形態に係る情報処理システムにおけるフォロー対象と特定対象との対応関係の判定について説明する図である。本発明の第３実施形態に係る情報処理システムにおけるフォロー対象と特定対象との対応関係の判定について説明する図である。本発明の第３実施形態に係る情報処理システムにおけるフォロー対象と特定対象との対応関係の判定について説明する図である。本発明の第３実施形態に係る情報処理システムにおけるフォロー対象と特定対象との対応関係の判定について説明する図である。

以下に、図面を参照して、本発明の実施の形態について例示的に詳しく説明する。ただし、以下の実施の形態に記載されている構成要素はあくまで例示であり、本発明の技術範囲をそれらのみに限定する趣旨のものではない。

［第１実施形態］
本発明の第１実施形態としての情報処理装置１００について、図１を用いて説明する。情報処理装置１００は、撮影動画を解析して、そこに写る対象の重要性を算出するための装置である。

図１に示すように、情報処理装置１００は、対象領域検出部１０１と、フォロー領域検出部１０２と判定部１０３と重要度算出部１０４とを含む。

対象領域検出部１０１は撮影動画１１０に含まれる少なくとも１つのフレーム画像内において、あらかじめ登録された特定対象を含む領域としての対象領域を検出する。

フォロー領域検出部１０２は、撮影動画に含まれる少なくとも１つのフレーム画像内において、撮影動画の撮影者がフォロー撮影によって追ったと推定されるフォロー対象を含む領域としてのフォロー領域を検出する。

判定部１０３は、対象領域検出部１０１が検出した対象領域と、フォロー領域検出部１０２が検出したフォロー領域とを比較することにより、特定対象とフォロー対象とが対応するか否かを判定する。

重要度算出部１０４は、判定部１０３による判定結果に基づいて撮影動画に含まれる特定対象の重要度を算出する。

以上の構成を有する情報処理装置によれば、撮影動画に含まれる撮影対象の重要度をより精度良く算出することができる。

［第２実施形態］
次に本発明の第２実施形態に係る情報処理システムについて、図２以降を用いて説明する。

（システム全体構成）
図２は、本実施形態に係る情報処理システム２００の全体構成を説明するための図である。情報処理システム２００は、動画を撮影する映像入力手段としてのビデオデバイス２１０と、プログラム制御により動作する情報処理装置２２０と、重要度を出力する出力手段としてのディスプレイ２３０とを含む。情報処理装置２２０は、対象領域検出部２２１と、フォロー領域検出部２２２と、対応関係判定部２２３と、重要度算出部２２４を含む。

ビデオデバイス２１０は、撮影動画を構成する各フレームについて、フレーム情報（ここでは時刻情報とフレーム画像データ）を対象領域検出部２２１とフォロー領域検出部２２２に入力する。時刻情報は、映像信号に記載された映像開始点からの時間的位置を示すフレーム番号やタイムコードであっても、映像を撮影した実際の時刻であってもよい。画像データは、フレームの画素情報とする。

対象領域検出部２２１は、ビデオデバイス２１０を用いて撮影された撮影動画に含まれる少なくとも１つのフレーム画像内において、特定対象を含む領域としての対象領域を検出する。この検出は、特定対象データベース２２５にあらかじめ登録された特定対象の登録データ（ここでは人の顔画像）に基づいて行なわれる。そして、その対象領域を表わす情報（対象領域ＩＤ・特定対象ＩＤ・時刻・座標位置・視覚的特徴量など）を対応関係判定部２２３に渡す。特定対象データベース２２５には、あらかじめ人物Ａ，Ｂの正面顔が特定対象として登録されているものとする。

フォロー領域検出部２２２は、撮影動画に含まれる少なくとも１つのフレーム画像内において、撮影動画２１１の撮影者がフォロー撮影によって追ったと推定されるフォロー対象を含む領域としてのフォロー領域を検出する。そして検出したフォロー領域を表わす情報（フォロー領域ＩＤ・特定対象ＩＤ・時刻・座標位置・視覚的特徴量など）を対応関係判定部２２３に渡す。

対応関係判定部２２３は、対象領域検出部２２１が検出した対象領域と、フォロー領域検出部２２２が検出したフォロー領域とを比較して、特定対象とフォロー対象とが対応しているか否かを判定する。対象領域に含まれる特定対象とフォロー領域に含まれるフォロー対象とが対応するか否かを判定する。対応関係判定部２２３は、フォロー領域の特定対象ＩＤに、フォロー領域と同一と判定した対象領域の関連情報である特定対象ＩＤを設定する。そしてさらに、対応関係判定部２２３は、フォロー領域と対象領域の関連情報（フォロー領域ＩＤ・特定対象ＩＤ・時刻・座標位置・視覚的特徴量）を重要度算出部２２４に入力する。

重要度算出部２２４は、対応関係判定部２２３が判定した結果に基づいて、撮影動画に含まれる各特定対象の重要度を算出する。さらに、重要度算出部２２４は、特定対象の重要度をディスプレイ２３０に出力する。重要度算出部２２４は、特定対象の関連情報として、さらに、出現時刻・位置・視覚的特徴量をディスプレイ２３０に出力してもよい。出現時刻は、特定対象に対応づけられた対象領域もしくはフォロー領域の出現時刻とする。位置は、特定対象に対応づけられた対象領域もしくはフォロー領域の位置とする。視覚的特徴量は、特定対象に対応づけられた対象領域もしくはフォロー領域の視覚的特徴量とする。

ディスプレイ２３０は、各特定対象の関連情報を出力する。特定対象ＩＤと重要度とを表形式で画面提示してもよいし、特定対象ＩＤと重要度に加えて特定対象の関連情報である出現時刻や位置を提示してもよい。また、重要度が規定値以上の特定対象との出現時刻や位置をもとに、入力映像から、重要度の高い特定対象を含むフレームを抽出してもよい。さらには、入力映像から重要度の高い特定対象の領域を切り出し、表示してもよい。あるいは、重要度が規定値以上の特定対象の出現時刻をもとに、特定対象を含むフレームの属する映像区間を入力映像から切り出して連結し、編集映像を生成してもよい。

（システム全体動作）
図３を用いて、上記構成を有する情報処理システム２００の処理の流れについて説明する。まずステップＳ３０１で、時刻情報およびフレーム画像データを入力する。次に、ステップＳ３０３において、特定対象データベース２２５を参照し、フレーム画像中に、特定対象の画像が含まれていれば、それを検出する。さらに、複数のフレーム画像を処理して、撮影者がフォロー撮影を行なったことをしめすフォロー領域を検出する。ステップＳ３０７では、全フレームについて処理が終了したか否か判定する。

ステップＳ３０９では、対象領域とフォロー領域の対応関係を判定する。つまり、対象領域とフォロー領域とが同一の対象を撮影した領域であるか否か判定する。言い換えれば、対象領域に含まれる特定対象とフォロー領域に含まれるフォロー対象とが対応するか否かをフレーム全体について判定する。

ステップＳ３１１では、特定対象データベース２２５にあらかじめ登録された各特定対象の重要度を出力する。

図４を用いて、上記構成および動作を有する情報処理システム２００の用途および効果の具体例を簡単に説明する。まず、特定対象データベース２２５には、名前と顔画像とが紐付けられてあらかじめ登録されている。これは、撮影者が撮影対象としてあらかじめ登録しておく。例えば、二人の子供を持つ親の場合、長男のＡ君と次男のＢ君とをそれぞれの顔を撮影した静止画と共に登録することにより、特定対象データベース２２５が生成される。図４では名前と顔画像の関連を図示しているが、さらに顔画像から抽出した特徴量を名前に関連付けて記憶してもよい。

撮影動画４２０にフレーム４２１〜４２８が含まれているとする。フレーム４２１〜４２８の中で、背景の木が左から右上に動いているのに対し、真ん中の人物の一部の領域Ｘが静止していることから、フレーム４２１〜４２５を比較することで、真ん中の人物をフォロー撮影していることが分かる。つまりフォロー領域Ｘを検出できる。しかし、この時点では、顔部分が小さすぎて、特定対象か否かについて判別がつかない。

これに対し、フレーム４２６〜４２８では、人物の顔部分が大きく撮影されているため、特定対象データベース２２５を参照することにより、対象領域ａ、ｂを検出できる。検出された対象領域ａ、ｂは、それぞれＡ君およびＢ君を撮影したものと判断できる。

次に、フォロー領域Ｘと対象領域ａ、ｂとを比較して、それらの撮影対象の対応関係について判断する。具体的にはフレーム４２６、４２７において、フォロー領域Ｘと対象領域ａとが重なり合っているため、これらの撮影対象は同一と判断できる。具体的には、フォロー対象がＡ君であることが分かる。

このため、特定対象データベース２２５に登録されたＡ君、Ｂ君、…のうち、Ａ君の重要度が大きく判定される。結果として、ディスプレイ２３０の画面４３０に、動画における重要度に応じて、少なくとも１つの特定対象の画像を表示する。この例では、フォロー対象であって、Ａ君を主役として取り上げる。

このように判定すれば、対象領域の登場数やフレーム数などで判断した場合（この場合、Ａ君もＢ君も同数のため同じ重要度と判断されてしまう）に比べて、より正確に、動画中の登場物の重要度を判定することができる。

（対象領域検出部の詳細）
次に、対象領域検出部２２１について、詳細に説明する。対象領域検出部は、あらかじめ登録された特徴量を有する顔を含む領域として、対象領域を検出する。そして、対象領域を特定するデータとして、特定対象の位置、出現時刻および視覚的特徴量の少なくとも１つをフレーム画像から抽出する。

なお、登録データは、人物の識別番号と顔データとを組み合わせて表形式で保存してもよい。顔データとしては、目・鼻・口の形状や位置関係などを数値的に記述した特徴ベクトルや、各画素の濃淡値の２次元配列として表現される特徴ベクトルや、Ｇａｂｏｒｊｅｔと呼ばれる特徴ベクトルなどが挙げられる。Ｇａｂｏｒｊｅｔは、顔の各特徴点においてウェーブレット変換を施すことで得られるパターンの局所的な周期性とその方向性を表現したものである。顔の認識については、赤松茂、“コンピュータによる顔の認識―サーベイ―”、電子情報通信学会論文誌Ｖｏｌ．Ｊ８０−ＡＮｏ．８ｐｐ．１２１５〜１２３０１９９７．について詳しい記述がある。

対象領域は、フレーム内において、あらかじめ登録された特定対象を少なくとも一部含む領域である。特定対象は、ある画像的なパターンを持った対象であり、木や建物のような静止物体でもよく、あるいは、人間や動物のような動物体でもよい。また、特定対象は、「人間の顔」や「動物」のような大きなカテゴリーに属する対象であっても、人物Ａの顔画像やペットＡのように世の中に１つしかない対象であってもよい。

特定対象を登録した登録データは、特定対象を識別する特定対象ＩＤと、特定対象の画像データもしくは特定対象の画像データから抽出された特徴量とを対応づけた表であればよい。対象領域は、対象領域ＩＤ・特定対象ＩＤ・出現時刻・位置・視覚的特徴量によって特定される。

対象領域ＩＤは、対象領域を識別する番号である。特定対象ＩＤは、対象領域が対応づけられた特定対象の特定対象ＩＤである。出現時刻は、対象領域が検出されたフレームの時刻情報とする。位置は、フレーム上での対象領域の位置を表す座標情報であり、対象領域の外接矩形の座標であってもよいし、対象領域の重心座標であってもよい。視覚的特徴量は、例えば色・エッジ・テクスチャに基づく画像データから得られる特徴量である。対象領域の画像データから抽出してもよいし、対象領域を中心とした規定範囲内の画像データから抽出される特徴量であってもよい。また、対象領域を中心とした規定範囲の画像データから対象領域に近いほど重みを持たせて抽出した特徴量であってもよい。

まず画像データから顔領域を検出し、この顔領域から抽出される顔データ（またはその特徴量）とあらかじめ登録された顔データ（またはその特徴量）とを比較し、ある特定対象と規定値以上の類似度を持った顔領域を、特定対象と対応する対象領域とする。

顔の検出方法として、顔全体から得られる情報を利用する手法がある。例えば様々な顔の映っている画像をテンプレートとして記憶し、入力画像とテンプレートの差分がある閾値以下のとき顔が入力画像中に存在すると判定する手法が挙げられる。また、肌色などの色情報や、エッジの方向や密度を組み合わせたモデルをあらかじめ記憶しておき、入力フレームからモデルに類似した領域が検出された場合に顔が存在すると判定する手法が考えられる。また、顔（頭部）の輪郭を楕円、目や口を細長の形状をしていることを利用して作成したテンプレートを用いて顔検出を行う手法がある。これは、岩井儀雄、山口修、平山高嗣、“画像処理による顔検出と顔認識”、情報処理学会研究報告（ＣＶＩＭ−１４９）、２００５年ｐｐ．３４３〜３６８に開示がある。さらに頬や額の部分は輝度が高く、目や口の部分の輝度は低いという輝度分布の特性を利用した顔検出手法や、顔の対称性や肌色領域と位置を利用して顔検出を行う手法などを用いてもよい。また、大量の人物顔と非顔の学習サンプルから得られた特徴量分布を統計的に学習し、入力画像から得られる特徴量が顔と非顔のどちらの分布に属するかを判定する手法として、ニューラルネットやサポートベクターマシン、ＡｄａＢｏｏｓｔ法などが挙げられる。顔の検出手法として、上記の例以外を適用しても構わない。

検出された顔と登録された顔の間の類似性は、例えば、顔の特徴ベクトルの差が小さいときに大きなスコアをもつ評価値によって表現できる。

（フォロー領域検出部の詳細）
フォロー領域検出部２２２は、撮影動画に含まれる複数フレーム画像に基づいて、フォロー領域を検出する。つまり、フォロー領域検出部２２２は、入力フレームの画像データから、動き特徴に基づいてフォロー領域を検出する。また、フォロー領域検出部２２２は、フォロー領域を特定するデータとして、フォロー対象の位置、出現時刻および視覚的特徴量の少なくとも１つをフレーム画像から抽出する。

フォロー領域の検出手法として、特開２００７−１９８１４号公報に記載のように、フォロー領域の動き特性を利用する手法がある。フォロー撮影では、フォロー対象の移動に合わせてカメラを動かす。そのため、フォロー対象のフレーム上での領域の見かけ上の動きは小さいが、フォロー対象の実際の動きは大きい。この点に着目し、フレーム上の領域のうち、固定時間後のフレームとの間で得られる見かけ上の動き（領域の移動ベクトル）が小さく、領域に対応する対象の実際の動き（領域の絶対ベクトル）が大きい領域を、フォロー領域として検出する。領域の絶対ベクトルは、領域の移動ベクトルにカメラの動きによる移動ベクトルを減算することで算出される。

また、特開２００９−１４９３７４号公報に記載の技術は、カメラの実際の動き（カメラの絶対ベクトル）と領域に対応する対象の実際の動き（領域の絶対ベクトル）を利用する。領域の移動ベクトルをもとにカメラの絶対ベクトルを推定し、領域の移動ベクトルとカメラの絶対ベクトルから領域の絶対ベクトルを推定する。カメラの絶対ベクトルの遷移であるカメラの移動軌跡と、画像領域の絶対ベクトルの遷移である対象の移動軌跡とが類似する領域をフォロー領域として検出する。フォロー領域を判定する他の技術は、特開２０１１−９８９３号公報にも開示されている。

なお、領域は、類似する色やテクスチャをもつ単位領域の集合であっても、互いに類似した移動ベクトルをもつ単位領域の集合であってもかまわない。また、領域の移動ベクトルは、領域に属する複数の特徴点、もしくは領域を構成する局所領域の移動ベクトルの平均であってもよい。また、カメラの動きによる移動ベクトルは、フレーム上の全特徴点や全領域の移動ベクトルの平均としてもよいし、フレーム上の全特徴点や全領域の移動ベクトルの最頻値としてもよい。カメラの絶対ベクトルは、カメラの動きによる移動ベクトルの逆ベクトルとしてもよいし、カメラに搭載されたセンサから得たカメラの移動量としてもよい。また、特徴点の移動ベクトルは、例えば固定時間間隔で連続する２フレームの間に共通して存在するコーナー点を対応付け、対となるコーナー点のうち前フレーム上の座標から後フレーム上の座標を結ぶベクトルで表現できる。領域の移動量は、例えば連続する２フレームの間に共通して存在する均等色領域を対応付け、対となる均等色領域のうち前フレーム上の重心座標から後フレーム上の重心座標を結ぶベクトルで表現できる。フォロー領域の関連情報とは、フォロー領域ＩＤ・特定対象ＩＤ・出現時刻・位置・視覚的特徴量とする。フォロー領域ＩＤは、フォロー領域を識別する番号である。特定対象ＩＤは、対応関係判定部２２３によってフォロー領域と対応づけられる特定対象の特定対象ＩＤであり、フォロー領域検出部２２２から対応関係判定部２２３に入力される際には、初期値が設定されているものとする。出現時刻は、フォロー領域が検出されたフレームの時刻情報とする。位置は、フレーム上でのフォロー領域の位置を表す座標情報であり、フォロー領域の外接矩形の座標であってもよいし、フォロー領域の重心座標であってもよい。

視覚的特徴量は、例えば色・エッジ・テクスチャに基づく画像データから得られる特徴量である。フォロー領域の画像データから抽出してもよいし、フォロー領域を中心とした規定範囲内の画像データから抽出される特徴量であっても、フォロー領域を中心とした規定範囲の画像データからフォロー領域に近いほど重みを持たせて抽出した特徴量であってもよい。

対象領域は画像情報に基づいて検出されるものであり、フォロー領域は動き情報に基づいて検出されるものであるため、対象領域とフォロー領域とは必ずしも同時には検出されない。対象領域については、特定対象の登録データと入力信号中の特定対象の画像データの間に類似性が小さい場合に、検出漏れが起こる場合がある。例えば、特定対象の登録情報が正面向きのとき、入力信号中で特定対象が横向きになると検出できない。また、入力信号中で特定対象の一部が他の物体によって隠された場合や、照明条件が登録情報と異なる場合に、特定対象と判定できない場合がある。フォロー領域については、対象の動き情報もしくはカメラの動き情報を正しく検出できない場合に、検出漏れする場合がある。例えば、空や雪のように特徴点の少ない背景の場合、固定間隔で連続する２フレーム間で特徴点もしくは領域の対応関係を正しく判定できず、カメラの動き情報が不正確になる。また、特定対象の動きに追従できず、カメラの動き情報と特定対象の動き情報とが異なる場合には、特定対象をフォロー領域として検出できない。

（対応関係判定部の詳細）
対象領域とフォロー領域がともに検出される場合であっても、同じ位置から検出されるとは限らない。例えば、特徴点の少ない特定対象については、特定対象の内部は対象領域として検出されるが、特定対象の輪郭がフォロー領域として検出される場合がある。そのように、同時かつ同一位置で検出されるとは限らない対象領域とフォロー領域の対象の対応関係を判定するため、対応関係判定部２２３は、対象領域とフォロー領域との空間的距離、時間的距離および視覚的類似性の少なくともいずれか一つを用いる。

例えば、同じフレームから検出されたフォロー領域と対象領域の間で、空間的な距離が近い領域を対応する特定対象のフレーム上での領域と判定する。空間的な距離が近いとは、重なった領域の面積が大きいこと、あるいは、領域の重心間の距離が近いこと、あるいは、領域間の最も近い特徴点間の距離が近いこと、あるいは、領域間の最も遠い特徴点間の距離が近いことを指す。

図５Ａに、対象領域およびフォロー領域の位置情報を外接矩形で表現した場合に、空間的距離で対応関係判定を行う方法の一例を示す。時刻ｔ１のフレームから対象領域５１１，５１２とフォロー領域５０１，５０２，５０３が検出されたとする。このとき、フォロー領域５０１は対象領域５１１と、フォロー領域５０２は対象領域５１２と重なりがあることから、フォロー領域５０１は対象領域５１１と同一、フォロー領域５０２は対象領域５１２と同一とする。一方、フォロー領域５０３は、いずれの対象領域ともの重なりがないことから、同一の対象領域はないと判定する。

これにより、対象領域とフォロー領域とがまったく同じ位置から検出されない場合であっても、領域間に重なりがある、もしくは、領域間距離が近い場合には特定対象とフォロー対象との対応関係を判断できる。

（重要度算出部の詳細）
重要度算出部２２４は、フォロー対象に対応すると判定された特定対象の重要度の値が、フォロー対象のいずれとも対応しない特定対象の重要度の値よりも大きくなるように、重要度を算出する。

重要度算出部２２４は、対応関係判定部２２３が対象領域に対応すると判定したフォロー領域の個数、位置、出現時刻および視覚的特徴量の少なくともいずれか１つに基づいて、対象領域に対応する特定対象の重要度を算出してもよい。

例えば、特定対象Ａの重要度ＳＡを、特定対象Ａと対応づけられたフォロー領域の個数をもとに、式（１）によって算出することができる。
ＳＡ＝｛（特定対象Ａに対応付けられたフォロー領域数）／（全特定対象に対応付けられたフォロー領域数）｝×１００・・・（１）

図５Ｂに示す入力映像について説明する。この入力映像では、対象領域５２１〜５２４と特定対象Ａ、Ｂとが、図６に示す表のように対応付けられているとする。また、フォロー領域５０１〜５０７と、対象領域５２１〜５２４とが、図７に示す表のように対応付けられているとする。このとき、フォロー領域５０１〜５０７と特定対象Ａ、Ｂとの対応を図８のように纏めることができる。これによると、特定対象Ａと対応づけられたフォロー領域は５個、特定対象Ｂと対応づけられたフォロー領域は１個のため、特定対象Ａの重要度は８３％（＝１００＊５／６）、特定対象Ｂの重要度は１７％（＝１００＊１／６）となる。これにより、長くフォローされた特定対象に対して高い重要度を付与できる。

以上説明したように、本実施の形態では、長時間出現する特定対象であってもフォロー撮影されていない特定対象については重要度を算出しないため、撮影者が興味を持って撮影していない特定対象に対しては、低い重要度が付与される。また、本実施の形態では、特定対象でない被写体に対しては重要度を算出しないため、特定対象でない対象がたまたまカメラと似た動きをした場合に、その対象に対して重要度が付与されない。また、本実施の形態では、対象領域とフォロー領域とが対応していることを、対象領域とフォロー領域の関係性をもとに判定するため、特定対象が断続的に検出される場合であっても、特定対象の重要度を判定できる。また、本実施の形態では、各特定対象の識別ＩＤと重要度が表示されるため、ユーザは所望の特定対象の重要度が高い映像を視聴するなど、重要度に応じて視聴映像を選択することができる。

［第３実施形態］
上記第２実施形態では、特定対象とフォロー対象との対応関係を、それらを含む対象領域とフォロー領域の空間的な距離で判定したが、本発明はそれに限定されるものではない。第２実施形態に記載の判定方法に代えて、または組み合わせて、以下の判定方法のいずれか少なくとも１つを用いてもよい。

〔時空間的距離に基づく対応判定方法〕
あるフレームから検出されたフォロー領域と、フォロー領域が検出されたフレームから時間的な距離が規定値以内であり、かつ、空間的な距離が近い領域を同一の対象のフレーム上の領域と判定する。

例えば、図９に、対象領域およびフォロー領域の位置情報を外接矩形で表現した場合に、時空間的距離をもとに対応関係判定を行う方法の一例を示す。フォロー領域９０１が時刻ｔ２に検出され、規定時間以内の時刻ｔ２＋Δｔのフレームから対象領域９１１が検出されたとする。このとき、対象領域９１１と時刻ｔ１でのフォロー領域９０１の位置が重なりを持つことから、フォロー領域９０１は対象領域９１１と同一と判定する。

これにより、対象領域とフォロー領域が同じ時刻に検出されない場合であっても、対応関係を判別できる。

〔視覚的特徴量の類似性に基づく対応判定方法〕
あるフレームから検出されたフォロー領域と、フォロー領域が検出されたフレームから規定時間以内のフレームから検出された対象領域との視覚的特徴量の類似性をもとに対応関係を判定する。例えば、図１０に、対象領域およびフォロー領域の位置情報を外接矩形で表現した場合に、視覚的特徴量の類似性をもとに対応関係判定を行う方法の一例を示す。フォロー領域１００１が時刻ｔ３に検出され、規定時間以内の時刻ｔ３＋Δｔのフレームから対象領域１０１１と対象領域１０１２とが検出されたとする。このとき、フォロー領域１００１および対象領域１０１１の視覚的特徴量が類似する場合には、フォロー領域１００１と対象領域１０１１とを同一対象に関する領域と判定する。これにより、対象領域とフォロー領域が同じ時刻に検出されない場合であっても、視覚的特徴量が類似する場合には、同一の対象と判定できる。また、空間距離もしくは時空間距離の近い対象領域とフォロー領域について、視覚的特徴量の類似性が低いときには、同一の対象とみなさないことで、対象が重なった際の誤判定を抑制できる。

〔領域間対応関係に基づく対応判定方法〕
フォロー領域と対象領域の対応関係を、フォロー領域間の対応関係をもとに判定してもよい。なおフォロー領域間の対応関係判定についても、空間的距離や時空間的距離や視覚的特徴量の類似性をもとに判定できる。

例えば、図１１に、対象領域およびフォロー領域の位置情報を外接矩形で表現した場合に、フォロー領域間の対応関係をもとに、対応関係判定を行う方法の一例を示す。フォロー領域１１０１〜１１０５が時刻ｔ４、ｔ４＋Δｔ、ｔ４＋２Δｔで検出されたとする。また、対象領域１１１１が時刻ｔ４＋２Δｔで検出されたとする。このとき、フォロー領域１１０１とフォロー領域１１０２とフォロー領域１１０４とは、時空間的距離をもとに同一と判定される。フォロー領域１１０３とフォロー領域１１０５、時空間的距離をもとに同一と判定される。また、フォロー領域１１０４とフォロー領域１１０５は視覚的特徴量の類似性から同一と判定される。さらに、フォロー領域１１０４が示すフォロー対象と、対象領域１１１１が示す特定対象とが対応することを、それらの領域の空間的距離から判定できる。

よって、フォロー領域１１０３と対象領域１１１１とは、対象が対応すると判定できる。これにより、フォロー領域１１０３と対象領域１１１１の時空間的距離が離れている場合、または、視覚的特徴量が類似しない場合であっても、それらの対象を同一と判定できる。フォロー領域が、すべての対象領域との間で同一と判定されない場合には、フォロー領域は特定対象のフレーム上の領域でないと判定してもよい。あるいは、すべての各フォロー領域について、空間的距離が最小もしくは時空間的距離が最小もしくは視覚的類似性が最高である対象領域と同一と判定してもよい。

［第４実施形態］
上記第２実施形態では、各特定対象の重要度を、それらを含む対象領域に対応するフォロー領域の数から算出したが、本発明はそれに限定されるものではない。第２実施形態に記載の重要度算出方法に代えて、またはそれに組み合わせて、以下の重要度算出方法のいずれか少なくとも１つを用いてもよい。

〔フォロー領域を含むフレーム数に基づく重要度算出方法〕
特定対象Ａの重要度ＳＡを、特定対象Ａと対応づけられたフォロー領域が検出されたフレーム数をもとに、式（２）によって算出する。
ＳＡ＝｛（特定対象Ａに対応付けられたフォロー領域を含むフレーム数）／（全特定対象に対応付けられたフォロー領域を含むフレーム数）｝×１００・・・（２）
例えば、図５Ｂに示す入力映像については、特定対象Ａと対応づけられたフォロー領域を含むフレーム数は３枚、特定対象Ｂと対応づけられたフォロー領域を含むフレーム数は１枚である。このため、特定対象Ａの重要度は７５％（＝１００＊３／４）、特定対象Ｂの重要度は２５％（＝１００＊１／４）となる。これにより、同じ特定対象に対して同時に複数のフォロー領域が検出される場合であっても、過剰に高い重要度を付与しない効果がある。

〔対象領域およびフォロー領域を含むフレーム数に基づく重要度算出方法〕
重要度算出部２２４は、対象領域に対応すると判定されたフォロー領域が複数フレーム画像に含まれる場合に、そのフレーム画像数に基づいて、対象領域に対応する特定対象の重要度を算出する。

特定対象Ａの重要度ＳＡを、特定対象Ａと対応づけられた対象領域とフォロー領域との両方が検出されたフレーム数をもとに、式（３）によって算出する。
ＳＡ＝｛（特定対象Ａのフォロー領域と特定対象Ａの対象領域との両方を含むフレーム数）／（対象領域に含まれる特定対象に対応付けられたフォロー領域および対象領域の両方を含むフレーム数）｝×１００・・・（３）

例えば、図５Ｂに示す入力映像については、特定対象Ａと対応づけられたフォロー領域と対象領域の同時検出数は時刻ｔ２とｔ３の２フレーム、特定対象Ｂと対応づけられたフォロー領域と対象領域の同時検出数は時刻ｔ４の１フレームである。このため、特定対象Ａの重要度は６７％（＝１００＊２／３）、特定対象Ｂの重要度は３３％（＝１００＊１／３）となる。これにより、登録データに近い状態でフォロー撮影された特定対象に対して高い重要度を算出できる。

〔フォロー領域の面積に基づく重要度算出方法〕
重要度算出部２２４は、対象領域に対応すると判定されたフォロー領域の面積に基づいて、対象領域に対応する特定対象の重要度を算出する。

例えば、特定対象Ａの重要度ＳＡを、特定対象Ａと対応づけられたフォロー領域の面積をもとに、式（４）によって算出する。
ＳＡ＝｛（特定対象Ａに対応付けられたフォロー領域の総面積）／（いずれかの特定対象に対応付けられたフォロー領域の総面積）｝×１００・・・（４）

図５Ｂに示す入力映像については、フォロー領域ｉの面積をＲｉとした場合に、特定対象Ａの重要度は１００＊（Ｒ５０１＋Ｒ５０２＋Ｒ５０３＋Ｒ５０４＋Ｒ５０５）／（Ｒ５０１＋Ｒ５０２＋Ｒ５０３＋Ｒ５０４＋Ｒ５０５＋Ｒ５０７）、特定対象Ｂの重要度は１００＊Ｒ５０７／（Ｒ５０１＋Ｒ５０２＋Ｒ５０３＋Ｒ５０４＋Ｒ５０５＋Ｒ５０７）となる。これにより、より広い領域をフォロー撮影されている特定対象に対して高い重要度を算出できる。

〔フォロー領域とフレーム中央との距離に基づく重要度算出方法〕
重要度算出部２２４は、対象領域に対応すると判定されたフォロー領域の位置に基づいて、対象領域に対応する特定対象の重要度を算出してもよい。例えば、重要度算出部２２４は、フォロー領域の重心座標とフレーム画像の中心座標との距離をもとに、対象領域に対応する特定対象の重要度を算出してもよい。

特定対象Ａの重要度ＳＡを、特定対象Ａと対応づけられたフォロー領域の重心座標とフレームの中心との距離である中心をもとに、式（５）によって算出する。
ＳＡ＝｛（特定対象Ａに対応付けられたフォロー領域のフレーム中心からの距離）／（いずれかの特定対象に対応付けられたフォロー領域のフレーム中心からの距離の総計）｝×１００・・・（５）

例えば、図５Ｂに示す入力映像については、フォロー領域ｉの中心間距離をＬｉとした場合、特定対象Ａの重要度は１００＊（Ｌ５０１＋Ｌ５０２＋Ｌ５０３＋Ｌ５０４＋Ｌ５０５）／（Ｌ５０１＋Ｌ５０２＋Ｌ５０３＋Ｌ５０４＋Ｌ５０５＋Ｌ５０７）、特定対象Ｂの重要度は１００＊Ｌ５０７／（Ｌ５０１＋Ｌ５０２＋Ｌ５０３＋Ｌ５０４＋Ｌ５０５＋Ｌ５０７）となる。これにより、画面の中央付近でフォロー撮影されている特定対象に対して高い重要度を算出できる。

〔フォロー領域の移動軌跡の安定性に基づく重要度算出方法〕
重要度算出部２２４は、対象領域に対応すると判定されたフォロー領域が、複数の連続したフレーム画像に含まれる場合に、その複数のフレーム画像間におけるフォロー領域の位置の変化に基づいて、対象領域に対応する特定対象の重要度を算出する。

特定対象Ａの重要度ＳＡを、特定対象Ａと対応づけられたフォロー領域に対するフォロー撮影の安定性を示す安定性スコアに基づいて、式（６）のように算出する。
ＳＡ＝｛（特定対象Ａに対応付けられたフォロー領域の安定性スコア）／（いずれかの特定対象に対応付けられたフォロー領域の総安定性スコア）｝×１００・・・（６）

安定性スコアは、例えば重心座標の移動軌跡から算出してもよい。特定対象の重心座標は、その特定対象に対応づけられたフォロー領域を含む各フレームについて１つ求められる。あるフレーム内のフォロー領域が１つの場合、そのフォロー領域の重心を用いる。フレーム内のフォロー領域が複数個の場合、例えば、各フォロー領域の重心を結ぶ線分の中点を用いてもよいし、フォロー領域の面積に応じた重みをもとに配分して検出される線分上の点を用いてもよい。各時刻の間の重心座標の移動量を算出し、移動量が規定値以下の区間安定と判定して、安定性スコアを１加算する。

図１２に示す入力映像については、特定対象Ａの重心座標の移動軌跡は図１３のように表される。移動量の規定値がＷ／４の場合、特定対象Ａの重心座標の移動軌跡は、時刻ｔ１とｔ２の間では安定、時刻ｔ２とｔ３の間では不安定のため、安定性スコアは１となる。また、特定対象Ｂについては、フォロー領域が１度しか検出されていないため、安定性スコアは０となる。これにより、画面上での位置変動が小さい特定対象に対して高い重要度を算出できる。

〔フォロー領域の視認性スコアに基づく重要度算出方法〕
重要度算出部２２４は、対象領域に対応すると判定されたフォロー領域の視認性に基づいて、対象領域に対応する特定対象の重要度を算出する。フォロー領域の視認性は、フォロー領域に含まれる画像のボケまたはモーションブラーに基づく評価値である。

特定対象Ａの重要度ＳＡを、特定対象Ａに対応づけられたフォロー領域の視認性の良さを表すスコアに基づいて、式（７）のように算出する。
ＳＡ＝｛（特定対象Ａに対応付けられたフォロー領域のフレーム中心からの距離）／（いずれかの特定対象に対応付けられたフォロー領域のフレーム中心からの距離の総計）｝×１００・・・（７）

視認性スコアは、例えば、フォロー領域内から検出されるエッジ成分に基づいて算出されるボケやモーションブラーが多く含まれるものほど低い値をとる指標を用いてもよいし、その他の指標を用いてもよい。これにより、ボケやモーションブラーが少ない鮮明な画像状態で撮影された特定対象に対して高い重要度を算出できる。

さらに、重要度算出部２２４は、対象領域の視認性に基づいて、対象領域に対応する特定対象の重要度を算出してもよい。ここで、対象領域の視認性とは、対象領域に含まれる特定対象の画像の正面性、輝度、および欠損率の少なくともいずれか１つに基づく評価値である。

〔フォロー領域と対象領域との重なり面積に基づく重要度算出方法〕
重要度算出部２２４は、対象領域に対応すると判定されたフォロー領域と対象領域との重複領域の面積に基づいて、特定対象の重要度を算出する。

特定対象Ａの重要度ＳＡを、特定対象Ａに対応づけられたフォロー領域と対象領域とが重なる領域の面積に基づいて、式（８）のように算出する。
ＳＡ＝｛（特定対象Ａに対応付けられた対象領域とフォロー領域とが重なる面積）／（いずれかの特定対象に対応付けられた対象領域とフォロー領域とが重なる面積の総計）｝×１００・・・（８）

これにより、より広い面積がフォロー撮影された特定対象に対して高い重要度を算出できる。

〔対象領域の関連情報との組み合わせに基づく重要度算出方法〕
さらに、上述の数式（１）〜（８）で表わされた重要度算出方法の少なくともいずれか１つに以下の方法を組合せて、特定対象Ａの重要度ＳＡを、求めてもよい。

・特定対象Ａに対応づけられた対象領域の個数、
・特定対象Ａに対応づけられた対象領域が検出されたフレーム数
・特定対象Ａに対応づけられた対象領域の面積
・特定対象Ａに対応づけられた対象領域のフレーム中心からの距離
・特定対象Ａに対応づけられた対象領域の重心座標の安定性
・特定対象Ａに対応づけられた対象領域の視認性スコア

なお、対象領域の視認性スコアは、対象領域とデータベースに登録された特定対象との類似性が高いほど、高い値をとる指標を用いてもよいし、対象領域の正面性や、輝度、欠損率に基づく指標を用いてもよい。これにより、フォロー撮影された特定対象について、撮影時間の長さ、フレーム上での面積、撮影の安定性、視認性に基づいて重要度を算出できる。

歩いて通り過ぎる特定対象を、横からフォロー撮影した場合の映像の一例を図１４に示す。まず、ビデオデバイス２１０は、対象領域検出部２２１とフォロー領域検出部２２２に、フレーム情報を入力する。対象領域検出部２２１は、入力されたフレームの画像データから、あらかじめ登録された各特定人物の領域を対象領域として検出する。

図１４に示す入力映像については、ｔ＋３Δｔまで処理した時点で、特定対象Ａとして対象領域１４１１が、特定対象Ｂとして対象領域１４１２から１４１４が検出される。時刻ｔ＋Δｔ以降は、人物Ａは横向きで撮影されるため、特定対象Ａに対応する対象領域は検出されない。また、時刻ｔ＋２Δｔでは、人物Ｂの領域は人物Ａによって隠されるために、特定対象Ｂに対応する対象領域は検出されない。

図１４の入力映像については、ｔ＋３Δｔまで処理した時点で、カメラの動き特徴と類似した動き特徴をもつフォロー領域１４２１〜１４２４が検出される。対応関係判定部２２３は、対象領域検出部２２１から入力される対象領域１４１１、１４１２の関連情報と、フォロー領域検出部２２２から入力されるフォロー領域１４２１〜１４２４の関連情報とをもとに、対象領域とフォロー領域とが同一の特定対象の領域であるか否かを判定する。ここでは、対象領域１４１１とフォロー領域１４２１との空間的位置関係から、それらが同じ対象について撮像された領域だと判断できる。一方、フォロー領域１４２２〜１４２４も、同じフォロー対象についての領域だと判断できる。これにより、特定対象Ａについてのフレーム数は４つとなり、特定対象Ｂについてのフレーム数は３つとなる。すなわちこの４つのフレームから判断する限り、特定対象Ａの重要度が大きくなる。

［第５実施形態］
上記第２実施形態では、ディスプレイ２３０の画面４３０に、動画における重要度に応じて、少なくとも１つの特定対象の画像を表示する方法について説明したが、本発明はそれに限定されるものではない。例えば、以下の表示方法が考えられる。

・重要度の高い対象を、重要度順に表形式でディスプレイに表示する方法
・重要度の高い対象を含むフレームを選択してディスプレイに上に並べて表示する方法
・重要度の高い対象を含むフレームを選択してスライドショーで提示する方法
・重要度の高い対象にあらかじめ対応づけられたメールアドレス宛てに、重要度の高い対象を含むフレームを送信する方法
・重要度の高い対象の情報をもとに、他の映像から重要度の高い対象の登場する映像区間を検出し、検出した区間を組み合わせて要約を生成する方法
・重要度の高い対象の情報をもとに、他の映像から重要度の高い対象の登場する映像区間を重要度の高さに応じた時間長で検出し、検出した区間を組み合わせて要約を生成する方法
・重要度の高さを撮影カメラの画面に表示する方法

［他の実施形態］
以上、本発明の実施形態について詳述したが、それぞれの実施形態に含まれる別々の特徴を如何様に組み合わせたシステムまたは装置も、本発明の範疇に含まれる。

また、本発明は、複数の機器から構成されるシステムに適用されてもよいし、単体の装置に適用されてもよい。さらに、本発明は、実施形態の機能を実現する情報処理プログラムが、システムあるいは装置に直接あるいは遠隔から供給される場合にも適用可能である。したがって、本発明の機能をコンピュータで実現するために、コンピュータにインストールされるプログラム、あるいはそのプログラムを格納した媒体、そのプログラムをダウンロードさせるＷＷＷ（ＷｏｒｌｄＷｉｄｅＷｅｂ）サーバも、本発明の範疇に含まれる。

Claims

撮影動画に含まれる少なくとも１つのフレーム画像内において、あらかじめ登録された特定対象を含む領域としての対象領域を検出する対象領域検出手段と、
前記撮影動画に含まれる少なくとも１つのフレーム画像内において、前記撮影動画の撮影者がフォロー撮影によって追ったと推定されるフォロー対象を含む領域としてのフォロー領域を検出するフォロー領域検出手段と、
前記対象領域検出手段が検出した前記対象領域と、前記フォロー領域検出手段が検出した前記フォロー領域とを比較することにより、前記特定対象と前記フォロー対象とが対応するか否かを判定する判定手段と、
前記判定手段による判定結果に基づいて前記撮影動画に含まれる前記特定対象の重要度を算出する重要度算出手段と、
を含むことを特徴とする情報処理装置。
前記重要度算出手段は、前記フォロー対象に対応すると判定された前記特定対象の重要度の値が、前記フォロー対象のいずれとも対応しない特定対象の重要度の値よりも大きくなるように、前記重要度を算出することを特徴とする請求項１に記載の情報処理装置。
前記対象領域検出手段は、前記対象領域を特定するデータとして、前記特定対象の位置、出現時刻および視覚的特徴量の少なくとも１つを前記フレーム画像から抽出することを特徴とする請求項１または２に記載の情報処理装置。
前記対象領域検出手段は、あらかじめ登録された特徴量を有する顔を含む領域として、前記対象領域を検出することを特徴とする請求項１、２または３に記載の情報処理装置。
前記フォロー領域検出手段は、前記撮影動画に含まれる複数フレーム画像に基づいて、前記フォロー領域を検出することを特徴とする請求項１乃至４のいずれか１項に記載の情報処理装置。
前記フォロー領域検出手段は、前記フォロー領域を特定するデータとして、前記フォロー対象の位置、出現時刻および視覚的特徴量の少なくとも１つを前記フレーム画像から抽出することを特徴とする請求項１乃至５のいずれか１項に記載の情報処理装置。
前記判定手段は、前記対象領域とフォロー領域との空間的距離、時間的距離および視覚的類似性の少なくともいずれか一つを用いて、前記特定対象と前記フォロー対象とが対応するか否かを判定することを特徴とする請求項１乃至６のいずれか１項に記載の情報処理装置。
前記重要度算出手段は、
前記判定手段が前記対象領域に対応すると判定した前記フォロー領域の個数、位置、出現時刻および視覚的特徴量の少なくともいずれか１つに基づいて、前記対象領域に対応する特定対象の重要度を算出することを特徴とする請求項１乃至７のいずれか１項に記載の情報処理装置。
前記重要度算出手段は、
前記対象領域の視認性に基づいて、前記対象領域に対応する特定対象の重要度を算出することを特徴とする請求項８に記載の情報処理装置。
前記重要度算出手段は、
前記対象領域に対応すると判定された前記フォロー領域が複数フレーム画像に含まれる場合に、そのフレーム画像数に基づいて、前記対象領域に対応する特定対象の重要度を算出することを特徴とする請求項１乃至９のいずれか１項に記載の情報処理装置。
前記重要度算出手段は、
前記対象領域に対応すると判定された前記フォロー領域の面積に基づいて、前記対象領域に対応する特定対象の重要度を算出することを特徴とする請求項１乃至１０のいずれか１項に記載の情報処理装置。
前記重要度算出手段は、
前記対象領域に対応すると判定された前記フォロー領域の位置に基づいて、前記対象領域に対応する特定対象の重要度を算出することを特徴とする請求項１乃至９のいずれか１項に記載の情報処理装置。
前記重要度算出手段は、
前記フォロー領域の重心座標と前記フレーム画像の中心座標との距離をもとに、前記対象領域に対応する特定対象の重要度を算出することを特徴とする請求項１２に記載の情報処理装置。
前記重要度算出手段は、
前記対象領域に対応すると判定された前記フォロー領域が、複数の連続したフレーム画像に含まれる場合に、その複数のフレーム画像間における前記フォロー領域の位置の変化に基づいて、前記対象領域に対応する特定対象の重要度を算出することを特徴とする請求項１乃至１３のいずれか１項に記載の情報処理装置。
前記重要度算出手段は、
前記対象領域に対応すると判定された前記フォロー領域の視認性に基づいて、前記対象領域に対応する特定対象の重要度を算出することを特徴とする請求項１乃至１４のいずれか１項に記載の情報処理装置。
前記フォロー領域の視認性は、前記フォロー領域に含まれる画像のボケまたはモーションブラーに基づく評価値であることを特徴とする請求項１５に記載の情報処理装置。
前記重要度算出手段は、
前記対象領域に対応すると判定された前記フォロー領域と、前記対象領域との重複領域の面積に基づいて、前記特定対象の重要度を算出することを特徴とする請求項１乃至１６のいずれか１項に記載の情報処理装置。
前記対象領域の視認性は、前記対象領域に含まれる前記特定対象の画像の正面性、輝度、および欠損率の少なくともいずれか１つに基づく評価値であることを特徴とする請求項１７に記載の情報処理装置。
撮影動画に含まれる少なくとも１つのフレーム画像内において、あらかじめ登録された特定対象を含む領域としての対象領域を検出する対象領域検出ステップと、
前記撮影動画に含まれる少なくとも１つのフレーム画像内において、前記撮影動画の撮影者がフォロー撮影によって追ったと推定されるフォロー対象を含む領域としてのフォロー領域を検出するフォロー領域検出ステップと、
前記対象領域検出ステップで検出した前記対象領域と、前記フォロー領域検出ステップで検出した前記フォロー領域とを比較することにより、前記特定対象と前記フォロー対象とが対応するか否かを判定する判定ステップと、
前記判定ステップによる判定結果に基づいて前記撮影動画に含まれる前記特定対象の重要度を算出する重要度算出ステップと、
を含むことを特徴とする情報処理方法。
撮影動画に含まれる少なくとも１つのフレーム画像内において、あらかじめ登録された特定対象を含む領域としての対象領域を検出する対象領域検出ステップと、
前記撮影動画に含まれる少なくとも１つのフレーム画像内において、前記撮影動画の撮影者がフォロー撮影によって追ったと推定されるフォロー対象を含む領域としてのフォロー領域を検出するフォロー領域検出ステップと、
前記対象領域検出ステップで検出した前記対象領域と、前記フォロー領域検出ステップで検出した前記フォロー領域とを比較することにより、前記特定対象と前記フォロー対象とが対応するか否かを判定する判定ステップと、
前記判定ステップによる判定結果に基づいて前記撮影動画に含まれる前記特定対象の重要度を算出する重要度算出ステップと、
をコンピュータに実行させることを特徴とする情報処理プログラム。