JP2011008509A

JP2011008509A - 重要情報抽出方法および装置

Info

Publication number: JP2011008509A
Application number: JP2009151022A
Authority: JP
Inventors: Tomohiko Takahashi; 知彦高橋; Masaru Sugano; 勝菅野; Shigeyuki Sakasawa; 茂之酒澤
Original assignee: KDDI Corp
Current assignee: KDDI Corp
Priority date: 2009-06-25
Filing date: 2009-06-25
Publication date: 2011-01-13
Anticipated expiration: 2029-06-25
Also published as: JP5360979B2

Abstract

【課題】映像から抽出した特徴量を当該映像の文脈が記述されたメタ情報と照合することにより、映像に含まれる重要オブジェクトを高い精度で抽出できる映像解析方法および装置を提供する。
【解決手段】映像から特徴量を抽出する特徴量抽出部１０２と、特徴量に基づいて映像を複数のショットに分割するショット分割部１０３と、重要オブジェクトが出現する重要フレームの代表的な特徴量を記憶するデータベース１０８と、各ショットから代表フレームを抽出する代表フレーム抽出部１０４ｂと、各代表フレームから抽出された重要フレーム候補を評価する重要フレーム候補評価部１０６と、映像のメタ情報を取得するメタ情報取得部１１０と、メタ情報および各重要フレーム候補の評価値に基づいて、重要フレーム候補の中から重要フレームを決定する重要フレーム決定部１０７とを具備した。
【選択図】図１

Description

本発明は、番組映像などの動画像を解析して重要情報を抽出する重要情報抽出方法および装置に係り、特に、映像から重要なオブジェクトが出現する重要フレームを抽出する重要情報抽出方法および装置に関する。

従来、映像中に含まれる物体や人物などのオブジェクトを認識する手法としては、対象とするオブジェクトの詳細な特徴量を利用する手法が一般的であった。非特許文献１には、国旗、山、警察官などの個々のオブジェクトに対して、それぞれの映像・音声の特徴量を事前に学習してデータベースに蓄積し、解析対象の映像から抽出した特徴量と、データベースに蓄積された前記各オブジェクトの特徴量とを比較し、両者の類似度に基づいてオブジェクトを認識する技術が開示されている。

また、特許文献１には、放送局や映像製作会社が製作・放映する番組映像の中から、特定の人物が映っている場面を画像特徴量に基づいて検出し、これらをサムネイル画像で一覧提示する技術が開示されている。

特開２００９−１１０４６０号公報

"High-Level Feature Extraction Experiments for TRECVID 2007", Proc of TRECVID 2007

しかしながら、上記の従来技術では、物体が存在するか否かのみが注目されており、番組制作者が視聴者に印象付けたい物体（以下、"重要オブジェクト"と表現する場合もある）か否かが考慮されていなかった。そのため、従来技術では例えば国旗が映っていることは判っても、それが視聴者に特に伝えるべき重要な情報であるか否かを判別していなかった。

本発明の目的は、上記した従来技術の課題を解決し、番組映像などから重要なオブジェクトが出現する重要フレームを抽出する重要情報抽出方法および装置を提供することにある。

上記の目的を達成するために、本発明は、映像を解析して重要情報を抽出する重要情報抽出装置において、以下のような手段を講じた点に特徴がある。

(1)映像から特徴量を抽出する手段と、前記特徴量に基づいて映像を複数のショットに分割する手段と、重要オブジェクトが出現する重要フレームの代表的な特徴量を記憶するデータベースと、各ショットから代表フレームを抽出する手段と、代表フレームから前記特徴量に基づいて重要フレーム候補を抽出する手段と、映像のメタ情報を取得する手段と、重要フレーム候補の特徴量を前記重要フレームの代表的な特徴量と比較して各重要フレーム候補を評価する手段と、メタ情報および各重要フレーム候補の評価値に基づいて、前記重要フレーム候補の中から重要フレームを抽出する手段とを具備したことを特徴とする。

(2)データベースにはオブジェクトの種別ごとに固有の特徴量が記憶され、前記評価手段は、各重要フレーム候補の特徴量を前記オブジェクトの種別ごとに記憶された各固有特徴量と比較してオブジェクト種別ごとに評価値を算出し、前記メタ情報には、重要オブジェクトの出現回数、出現順序およびオブジェクト種別が記述されており、前記重要フレームを抽出する手段は、重要フレーム候補の集合から、前記重要オブジェクトの出現順序および出現回数に応じた組合せで重要フレーム候補を抽出する手段と、抽出された各重要フレーム候補のオブジェクト種別毎の評価値を、前記各重要オブジェクトの種別に基づいて加算し、その総和が最大となる組合せの重要フレーム候補を重要フレームとして抽出する手段とを具備したことを特徴とする。

(3)代表フレームを抽出する手段は、静止画像区間のショットから代表フレームを抽出することを特徴とする。

(4)代表フレームを抽出する手段は、動物体フォロー区間のショットから代表フレームを抽出することを特徴とする。

(5)重要フレームをサムネイル化して一覧表示する手段をさらに具備し、

各サムネイル画像には、前記映像を各重要フレームの位置から再生させるための情報が紐付けられていることを特徴とする。

本発明によれば、以下のような効果が達成される。

(1)映像に含まれる重要オブジェクトを、その特徴量に基づく評価のみならず、当該映像の文脈等が記述されたメタ情報との照合結果に基づいて抽出するようにしたので、映像から重要オブジェクトを高い精度で抽出できるようになる。

(2)映像から抽出された各重要オブジェクト候補がオブジェクト種別ごとに評価され、このオブジェクト種別毎の評価値と、メタ情報に記述された重要オブジェクトの出現回数、出現順序およびオブジェクト種別とを照合して各重要オブジェクト候補が重要オブジェクトであるか否かが判断されるので、重要オブジェクトを高い精度で抽出できるようになる。

(3)静止画像区間を重要ショットと位置づけ、代表フレームを静止画像区間のショットから抽出するようにしたので、重要オブジェクトが出現する可能性の高い代表フレームを効率よく抽出できるようになる。

(4)動物体フォロー区間を重要ショットと位置づけ、代表フレームを動物体フォロー区間のショットから抽出するようにしたので、重要オブジェクトが出現する可能性の高い代表フレームを効率よく抽出できるようになる。

(5)映像から抽出された重要フレームをサムネイル化して一覧表示し、各サムネイル画像には各重要フレームの再生位置に関する情報を紐付けたので、重要フレームのサムネイルを指定するだけで、番組映像を所望の重要位置から再生できるようになる。

本発明に係る重要情報抽出装置を含むシステムの構成を示したブロック図である。メタ情報の一例を示した図である。本発明の一実施形態の動作を示したフローチャートである。フレーム間相関の算出手順を示したフローチャートである。情報密度分布の算出手順を示したフローチャートである。代表フレームの抽出方法を模式的に示した図である。重要フレーム候補の識別方法を模式的に示した図である。重要フレーム候補の評価方法を模式的に示した図である。重要フレームのサムネイル画像の表示例を示した図である。

以下、図面を参照して本発明の実施の形態について詳細に説明する。図１は、本発明に係る重要情報抽出装置を含むシステムの全体構成を示した機能ブロック図であり、解析対象の番組映像を配信する映像配信装置２と、番組映像ごとに別途に作成されたメタ情報を提供するメタ情報提供装置３と、番組映像から抽出された各フレームが重要フレームである尤度（重要フレームらしさ）と当該映像のメタ情報とを照合して映像内の重要フレームを抽出する重要情報抽出装置１とを主要な構成としている。

前記重要情報抽出装置１は、例えばSTB(Set-top Box)であり、番組映像から抽出された重要フレームのサムネイル画像をテレビ／モニタ装置４へ出力する。前記メタ情報としては、番組映像の放送前や放送後に、メタデータ事業者や視聴者により手作業で作成され、Web等で公開されている文脈情報を用いることができる。

重要情報抽出装置１において、映像受信部１０１は映像蓄積部１０１ａを備え、映像配信装置２から配信された番組映像およびその音声を受信して記憶する。特徴量抽出部１０２は、カメラモーション抽出部１０２ａ，ショット境界抽出部１０２ｂ，色ヒストグラム分布抽出部１０２ｂ，エッジ情報抽出部１０２ｄ，特徴点情報（コーナー）抽出部１０２ｅ、テロップ情報抽出部１０２ｆ，顔認識抽出部１０２ｇ，音声抽出部１０２ｈおよび音量抽出部１０２ｉを備え、一時記憶された映像およびその音声から、様々な画像特徴量および音声特徴量を抽出する。

ショット分割部１０３は、前記画像特徴量および音声特徴量に基づいて番組映像を複数のショットに分割する。出現時間長検出部１０４は、重要フレームを含む可能性の高い重要ショット（後述する「カメラ静止区間」および「動物体フォロー区間」）を対象に、同一のオブジェクトがショット境界を跨いで出現している総時間長を検出する。

前記出現時間長検出部１０４において、重要ショット検出部１０４ａは、前記カメラモーション特徴量に基づいて、カメラ静止区間および動物体フォロー区間を検出する。カメラ静止区間とは、カメラワークが一定時間以上存在しないショットであり、動物体フォロー区間とは、カメラが動物体を一定時間以上追跡するショットである。

重要オブジェクトにフォーカスしたショットでは、被写体が一定時間以上カメラに写される。そのため、被写体が静止物体であればカメラモーションが一定時間以上静止し、被写体が動物体であればカメラは一定時間以上その物体を追跡する。そこで、本実施形態ではカメラモーション特徴量に基づいて、一定時間以上の静止ショットおよび動物体フォローショットを検出し、これらを重要フレームを含む可能性の高い重要ショット候補と位置づけて抽出する。前記動物体フォローショットの抽出には、例えば「鳥井、他、"映像の動きを用いた動物体アップショット・フォローショット検出"、画像の認識・理解シンポジウム２００５，（２００５年７月）」で紹介された方式を用いることができる。

代表フレーム抽出部１０４ｂは、映像から抽出された各種の特徴量に基づいて、前記カメラ静止区間のショットおよび動物体フォロー区間のショットから代表フレームを抽出する。フレーム間相関算出部１０４ｃは、後に詳述するように、時系列で連続する２つの重要ショット候補の各代表フレームN，M間の画像特徴量に関するフレーム間相関を算出する。出現時間長計測部１０４ｄは、フレーム間相関が所定の閾値を超える代表フレームN，Mを含むショットの総時間長を計測し、この総時間長が所定の基準値を超えるとき、その総時間長を当該代表フレームが重要フレームである尤度（らしさ）の指標の一つとして出力する。

情報密度分布算出部１０５は、前記総時間長が閾値を超えた各重要ショット候補の代表フレームを対象に、その中心部をトリミングした中央画像および残りの周辺画像のそれぞれについて、Harris特徴量を検出する検出部１０５ａ、輝度平均を検出する検出部１０５ｂ、色相の標準偏差を検出する検出部１０５ｃおよびDCT係数を検出するDCT係数検出部１０５ｄを含む。

データベース(DB)１０８には、重要フレームの代表的な特徴量がオブジェクトの種別毎に記憶されている。本実施形態では、後に詳述するように、店の映像を代表するShop特徴量１０８ａ、製品の映像を代表するProduct特徴量１０８ｂ、および人間の映像を代表するPerson特徴量１０８ｃを含む各種のオブジェクト特徴量が記憶されている。

重要フレーム候補評価部１０６は、前記各重要ショット候補の時間長ならびに前記Harris特徴量、輝度平均、色相の標準偏差およびDCT係数を、前記データベースDB１０８に蓄積されている重要フレームの教師データと比較して、代表フレーム毎に重要フレームらしさの評価値を算出する。メタ情報取得部１１０は、解析対象の映像に関するメタ情報を前記メタ情報提供装置３から取得する。

図２は、前記メタ情報の一例を示した図であり、番組映像の放送チャンネル(<channel>)、放送開始時間(<Time>)、および番組名(<Title>)をインデックスとして、重要オブジェクトの出現期間を表す複数のサブセクション(<Subsection>)が記述されている。

この例では、プログラム中に３つのサブセクションが存在し、一番目のサブセクションは『「１３時０２分」から、「ABCレストラン(Shop)」、「特製カレーライス(Product)」および「特製ハンバーグ(Product)」が重要オブジェクトとして当該順序で出現する』ことを示している。また、二番目のサブセクションは『「１３時１５分」から、「雑貨店いろは(Shop)」が重要オブジェクトとして出現する』ことを示している。さらに、三番目のサブセクションは『「１３時３０分」から、「○×喫茶店(Shop)」、「自家製チーズケーキ(Product)」および「店長の佐藤さん(Person)」が重要オブジェクトとして当該順序で出現する』ことを示している。

このように、本実施形態では重要オブジェクトが店(Shop)，製品(Product)および人物(Person)のいずれかのオブジェクト種別に分類され、メタ情報には、映像内での重要オブジェクトの出現回数、出現順序およびオブジェクト種別が映像の文脈として記述されている。

図１へ戻り、重要フレーム決定部１０７は、後に詳述するように、前記番組映像から抽出された重要フレーム候補の集合から、前記メタ情報に記述された各重要オブジェクトの出現順序および出現回数に応じた組合せで重要フレーム候補を抽出する組合せ抽出部１０７ａ、および抽出された各重要フレーム候補のオブジェクト種別毎の評価値を、前記各重要オブジェクトの種別に基づいて加算し、その総和が最大となる組合せの重要フレーム候補を重要フレームに決定する評価部１０７ｂとを具備している。情報提供部１０９は、前記決定された重要フレームのサムネイル画像を生成してテレビ／モニタ装置４に提供する。

次いで、図３，４，５のフローチャートを参照して、本発明の一実施形態の動作を詳細に説明する。

ステップＳ１では、映像受信部１０１の映像蓄積部１０１ａに一時記憶されている映像が特徴量抽出部１０２に取り込まれ、ショット境界特徴量、カメラモーション特徴量、テロップ特徴量および顔認識特徴量を含む各種の特徴量が抽出される。

ショット境界とは、映像編集によってカメラの視点が切り替わった点（映像がカットされた点）であり、例えば特開２００７−１３４９８６号公報に開示されているように、連続するフレーム間の差分量に基づいて求めることができる。カメラモーションとは、映像を撮影するカメラの上下の動き（チルト）、左右の動き（パン）およびズーム操作であり、その特徴量は、例えばMPEGの符号化情報である動きベクトルやオプティカルフローを計算して求めることができる。

テロップ特徴量は、例えば特開平１２−２３０６２号公報に開示されているように、(1)テロップは画面の上部または下部の所定領域に表示される、(2)テロップ出現時およびテロップ終了時には輝度変化が生じる、という特徴を用いて検出できる。顔認識特徴量は、例えば特開２００６−５０８４６１号公報に開示されている従来手法で抽出できる。

ステップＳ２では、前記ショット分割部１０３において、番組映像が各特徴量に基づいて複数のショットに分割される。ステップＳ３では、番組映像からタイトル画面のようにテロップが中心となるテロップショットが除去される。ステップＳ４では、前記出現時間長検出部１０４の重要ショット検出部１０４ａにおいて、前記カメラモーション特徴量に基づいて、各ショットからカメラ静止区間および動物体フォロー区間が重要ショット候補として取得される。

ステップＳ５では、図６に一例を示したように、前記抽出されたカメラ静止区間および動物体フォロー区間から、前記代表フレーム抽出部１０４ｂにより代表フレームが取得される。代表フレームの取得方法は、同図右側に示したように、各区間の真ん中を取得する方法の他、同図左側に示したように、テロップは画面中に表示されている映像と紐付いている場合が非常に多いという特徴を利用し、区間中に新たなテロップが出現するような場合は、そのテロップが完全に出現した瞬間を代表フレームとして取得する方法であっても良い。ステップＳ６では、前記フレーム間相関算出部１０４ｃにより、連続する２つの重要ショット候補n，mの各代表フレームN，M間の画像特徴量に関するフレーム間相関が算出される。

図４は、前記フレーム間相関の算出手順を示したフローチャートであり、ステップＳ２１では、各重要ショット候補から抽出された代表フレームの中から、連続する２つのショットn，mの代表フレームが今回の注目フレームN，Mとして抽出される。ステップＳ２２では、先行の注目フレームNをランダムまたは所定の規則でトリミングして複数種の部分画像Nk(N1，N2，N3…)が生成される。ステップＳ２３では、注目フレームNおよびその部分画像後Nkと後続の注目フレームMとの間で、各特徴量に関するヒストグラムの相関値r(N,M)，r(N1,M)，r(N2,M)，r(N3,M)…が算出される。

ステップＳ２４では、前記ステップＳ２３で得られた全てのヒストグラム相関値の最大値Max{r(N,M)，r(N1,M)…}と基準相関値Rrefとが比較され、最大値Max{…}が基準相関値Rref以上であればステップＳ２５へ進む。ステップＳ２５では、注目フレームNを代表フレームとするショットnの時間長tnと注目フレームMを代表フレームとするショットmの時間長tmとの和[tn+tm]が基準時間長trefと比較される。時間長和[tn+tm]が基準時間長tref以上であればステップＳ２６へ進む。ステップＳ２６では、今回の２つの注目フレームM，Nがいずれも重要フレーム候補と判断され、その時間長和[tn+tm]と紐付けられる。

これに対して、前記ステップＳ２４において、最大値Max{…}が基準相関値Rref未満と判定されればステップＳ２７へ進み、注目フレームNを代表フレームとするショットの時間長tnが前記基準時間長trefと比較される。時間長tnが前記基準時間長tref以上であればステップＳ２８へ進み、今回の注目フレームNが重要フレーム候補と判断され、その時間長tnと紐付けられる。ステップＳ２９では、全ての代表フレームに関して上記の判断が完了したか否かが判定される。完了していなければステップＳ２１へ戻り、残りの代表フレームを対象に上記の各処理が繰り返される。

図７は、ある一連の映像シーケンスにおけるカメラモーションの推移、ショット境界の位置および代表フレームの関係を示している。

ここでは、代表フレーム１と代表フレーム２とでは出現するオブジェクトが異なるので、両者のヒストグラム相関値は低くなる。したがって、代表フレーム１は重要フレーム候補に分類されない。これに対して、代表フレーム２および代表フレーム３は、同一オブジェクトの静止画およびズーム画なので両者のヒストグラム相関値は高くなる。そして、各代表フレーム２，３を含む２つのショットの時間長t2，t3の和[t2+t3]が所定の閾値trefを超えていれば、代表フレーム２，３はいずれも重要フレーム候補とされる。

図３へ戻り、ステップＳ７では、前記情報密度分布算出部１０５により、前記抽出された重要フレーム候補を対象に、その画像中に含まれる情報量が中央にどれだけ偏在しているかを算出することにより、重要オブジェクトを含む重要フレームであるか否かが最終的に識別される。

図５は、前記情報密度分布の算出手順を示したフローチャートであり、ステップＳ４１では、各代表フレームから、画像中央部の一定領域（例えば、６０％程度）をトリミングした中央画像およびその周辺画像が抽出される。ステップＳ４２では、重要フレーム候補ごとに中央画像および周辺画像のHarris特徴量が算出される。ステップＳ４３では、重要フレーム候補ごとに中央画像および周辺画像の輝度平均が算出される。ステップＳ４４では、重要フレーム候補ごとに中央画像および周辺画像の色相の標準偏差（または分散）が算出される。ステップＳ４５では、重要フレーム候補ごとに中央画像および周辺画像のDCT係数が算出される。

図３へ戻り、ステップＳ８では、各重要フレーム候補について、オブジェクトの種別ごと（ここでは、"Person"、"Product"および"Shop"のそれぞれ）に評価値が算出される。なお、本実施形態では、映像を構成する３つの要素（登場人物、物体、背景）に着目すべく、オブジェクト種別がPerson、Product、Shopに３分類されるが、本発明はこれのみに限定されるものではなく、例えば、人工的な加工（テロップやアニメーション）に対するオブジェクト種別を追加あるいは入れ替えるようにしても良い。

評価値の算出には、前記特徴量抽出部１０２で抽出された特徴量から求まる画面の代表色、画面を3x3に分割した際の各領域毎の色ヒストグラム分布、およびエッジ分布等を用いる他、各種別に固有の特徴量として以下のパラメータを追加しても良い。

(1)Personの評価値算出

顔認識によって取得された顔領域の面積および顔領域の重心位置に基づいて確からしさを評価し、顔が中央に大きく映っている場合ほど高い評価値を与える。

なお、人物以外の重要オブジェクトについては、対象の大きさに基づいて２つの異なる仮定を用いる。すなわち、重要オブジェクトが撮影対象であれば、オブジェクトは画面フレーム中で視聴者に対して強調された形で提示されると想定できるため、オブジェクトの大きさに応じて以下の評価を行い、重要オブジェクトがProductである確からしさPp、Shopである確からしさPsが求められる。

(2)Productの確からしさ評価

ここでは、オブジェクトがカメラの撮影範囲に対して小さいという前提を用いる。すなわち、オブジェクトは画面の中央付近に表示され、フレームの上下左右端何れか、あるいはその全てに背景領域が存在する。撮影されているオブジェクトが重要物体であれば、映像撮影者は撮影対象を強調するように画面を構成する。

(2.1)そこで、本実施形態ではフレーム画面を中央領域Cおよび周辺量Oに分類し、中央領域Cの特徴点数をFC、周辺領域Oの特徴点数をFOとしたき、次式が成立すれば評価値Ppを増加させる。

FC＞FO×K

(2.2)さらに、フレーム画面の中央領域Cの色相の標準偏差をDev(Hc)、周辺領域Oの色相の標準偏差をDev(Ho)としたとき、次式が成立すれば評価値Ppを増加させる。

Dev(Hc)＞ Dev(Ho)× L

(2.3)さらに、フレーム画面の中央領域Cの輝度の平均値をAve(Vc)、周辺領域Oの輝度の平均値をAve(Vo)としたとき、次式が成立すれば評価値Ppを増加させる。

Ave(Vc) ＞ Ave(Vo) × M

ただし、K、L、Mは、それぞれ画像の中央領域Cと周辺領域Oとの面積比よって決定される変数である。

なお、前記中央領域Cは、フレーム画面の中心から画面の上下左右端を一定の割合でトリミングした領域とする他、一定の面積を窓として画面を走査し、特徴点の数が最も多くなる窓領域を中央領域Cとしても良い。

(3)Shopの確からしさ評価

ここでは、オブジェクトがカメラの撮影範囲に対して大きいという前提のもと、画像中の一定以上の領域に建物が撮影されていることを利用する。但し、上記のProductの場合と異なり、画像全体に建物が表示されることがある。この場合、フレーム画面の中央領域と周辺領域との間で、特徴点数や色相の分散による差が必ずしも存在しない。その一方、建物が表示されている領域は連続しており、また、建物は構造上の特徴から多くの直線を含む。そこで、本実施形態ではshopを評価するために以下の２つの特徴量を用いる。

(3.1)領域の連続性

フレーム画面の単位領域を、その色分布や周波数特性に応じてクラスタリングする。クラスタリングには、例えば平均値シフト法によって各画素の色特徴量の平均で注目画素の特徴量を置き換える処理を繰り返すことで、隣接する類似の特徴を持つ領域をまとめるといった手法を用いる。このようにしてまとめられた領域の大きさおよび重心から、画像がShopを重要オブジェクトとして含む確からしさPsを増加させる。

なお、平均値シフト法については、D. Comaniciu et al., "Mean Shift: A Robust Approach Toward Feature Space Analysis," IEEE Trans. Pattern Analysis and Machine Intelligence, vol.24, no.5, May 2002.で詳しく論じられている。

(3.2)エッジ分布

２値化された重要フレーム候補に対してエッジ抽出処理を行い、抽出された縦方向エッジのうち、一定以上の長さを持つエッジの数から、画像がShopを重要オブジェクトとして含む確からしさPsを増加させる。

本実施形態では、以上のように、Pp 、Psの値を、それぞれ評価値の重み付け総和として算出し、比較する他、算出した特徴量を、例えばSVM（Support Vector Machine）によるクラス分類処理等の統計的な処理に適用することにより、各重要フレームについて、Personらしさの評価値、Productらしさの評価値、およびShopらしさの評価値が算出される。

そして、本実施形態では"Person"、"Product"および"Shop"のオブジェクト種別ごとに、予め代表的な重要フレームの正例および負例のサンプルについて、上記各評価項目のデータを求め、これらを教師データとしてSVMを構築し、これに各重要フレーム候補から同様に抽出されたショットの時間長や各種の情報量を適用することで、各重要フレーム候補が重要フレームらしさ（尤度）が、オブジェクト種別ごとに算出される。

ステップＳ９では、重要フレーム決定部１０７の組合せ抽出部１０７ａにより、前記重要フレーム候補の集合から、前記メタ情報に記述された重要オブジェクトの出現順序および出現回数に応じた組合せで重要フレーム候補が抽出される。ステップＳ１０では、前記評価部１０７ｂにおいて、前記抽出された各重要フレーム候補のオブジェクト種別毎の評価値を、前記メタ情報に記述された各重要オブジェクトの種別に基づいて加算し、その総和が最大となる組合せの重要フレーム候補が重要フレームに決定される。

図８は、前記重要フレーム決定部１０７における各重要フレーム候補の評価方法を示した図であり、ここでは、図２に示したメタ情報の一番目のサブセクションに基づいて、このサブセクションに対応した映像期間から抽出された４つの重要フレーム候補A，B，C，Dを評価する場合を例にして説明する

本実施形態では、重要フレーム候補Aの"Shop"らしさの評価値は"0.95"，"Product"らしさの評価値は"0.21"である。同様に、重要フレーム候補Bの評価値はそれぞれ"0.51"，"0.41"、重要フレーム候補Cの評価値はそれぞれ"0.01"，"0.91"、重要フレーム候補Dの評価値はそれぞれ"0.34"，"0.85"である。

ここで、対応するサブセクションによれば出現する重要オブジェクトは３つであり、その出現順序は"Shop"→"Product"→"Product"である。そこで、４つの候補A，B，C，Dから当該順序で３つの候補を選択する全ての組合せ（[A，B，C]，[A，B，D]，[A，C，D]…）がステップＳ９で抽出され、一番目の候補が"Shop"であり、２番目および３番目の候補が"Product"であると仮定した場合の合計スコアがステップＳ１０で算出される。

例えば、候補[A，B，C]の組合せであれば、合計スコアは2.27(=0.95+0.41+0.91)となる。同様に、候補[A，B，D]の組合せであれば、合計スコアは2.21(=0.95+0.41+0.85)となる。そして、本実施形態では候補[A，C，D]の組合せのときに、合計スコアが最高スコア2.71(=0.95+0.91+0.85)となる。

ステップＳ１１では、前記合計スコアが最高スコア2.71である候補[A，C，D]が重要フレームの組合せとされる。したがって、ここでは候補Aが「ABCレストラン」に対応する重要フレームとされ、候補Cが「特製カレーライス」に対応する重要フレームとされ、候補Dが「特製ハンバーグ」に対応する重要フレームとされる。残った候補Bは誤認候補として破棄される。

以上の処理は全てのサブセクションに対して実行され、番組映像から全ての重要フレームの抽出が完了すると、ステップＳ１２では、前記情報提示部１０９において、前記重要フレームのサムネイルがオブジェクト種別ごとに作成される。

図９は、各重要フレームの画像をサムネイル化して一覧表示する際の表示方法の一例を示した図であり、本実施形態では「店舗」，「商品」，「出演者」のタブが用意されており、「店舗」タブがリモコン操作等によりクリックされると、前記"Shop"と判別された多数の重要フレームのサムネイル画像が表示される。同様に、「商品」タブがクリックされると、前記"Product"と判別された多数の重要フレームのサムネイル画像が表示される。同様に、「出演者」タブがクリックされると、前記"Person"と判別された多数の重要フレームのサムネイル画像が表示される。

各サムネイル画像には、当該画像の再生位置を示す情報および前記メタ情報に記述されているテキストデータが紐付けられており、視聴ユーザが所望のタブを選択し、一覧表示されたサムネイル画像の一つをクリックすると、当該サムネイル画像と紐付けられているテキスト情報が画面下に表示される。さらに、サムネイル画像がダブルクリック等されると、前記映像が当該サムネイル画像のフレーム位置から再生される。

なお、上記の実施形態では街を紹介する情報番組の映像から重要フレームを抽出する場合を例にして説明したが、例えば通信販売番組であれば、番組内で紹介された商品群の画像を高精度で抽出して視聴者に一覧提示できるので、視聴者は所望の商品に関する情報を素早く取得できるようになる。また、本実施形態では重要フレームのサムネイル画像にテキスト情報が紐付けられているので、例えばお気に入りの商品や出演者の名称をテキストで入力して検索を実行すれば、お気に入りの商品や出演者の映像を素早く視聴できるようになる。

１…重要情報抽出装置，２…映像配信装置，３…メタ情報提供装置，４…テレビ／モニタ，１０１…映像受信部，１０２…特徴量抽出部，１０３…ショット分割部，１０４…出現時間長検出部，１０５…画面内情報密度分布算出部，１０６…重要フレーム候補評価部，１０７…重要フレーム決定部，１０８…データベース，１０９…情報提示部，１１０…メタ情報取得部

Claims

映像を解析して重要情報を抽出する重要情報抽出装置において、
映像から特徴量を抽出する手段と、
前記特徴量に基づいて映像を複数のショットに分割する手段と、
重要オブジェクトが出現する重要フレームの代表的な特徴量を記憶するデータベースと、
前記各ショットから代表フレームを抽出する手段と、
前記代表フレームから前記特徴量に基づいて重要フレーム候補を抽出する手段と、
前記映像のメタ情報を取得する手段と、
前記重要フレーム候補の特徴量を前記重要フレームの代表的な特徴量と比較して各重要フレーム候補を評価する手段と、
前記メタ情報および各重要フレーム候補の評価値に基づいて、前記重要フレーム候補の中から重要フレームを抽出する手段とを具備したことを特徴とする重要情報抽出装置。
前記データベースにはオブジェクトの種別ごとに固有の特徴量が記憶され、
前記評価手段は、各重要フレーム候補の特徴量を前記オブジェクトの種別ごとに記憶された各固有特徴量と比較してオブジェクト種別ごとに評価値を算出し、
前記メタ情報には、重要オブジェクトの出現回数、出現順序およびオブジェクト種別が記述されており、
前記重要フレームを抽出する手段は、
重要フレーム候補の集合から、前記重要オブジェクトの出現順序および出現回数に応じた組合せで重要フレーム候補を抽出する手段と、
前記抽出された各重要フレーム候補のオブジェクト種別毎の評価値を、前記各重要オブジェクトの種別に基づいて加算し、その総和が最大となる組合せの重要フレーム候補を重要フレームとして抽出する手段とを具備したことを特徴とする請求項１に記載の重要情報抽出装置。
前記代表フレームを抽出する手段は、静止画像区間のショットから代表フレームを抽出することを特徴とする請求項１または２に記載の重要情報抽出装置。
前記代表フレームを抽出する手段は、動物体フォロー区間のショットから代表フレームを抽出することを特徴とする請求項１ないし３のいずれかに記載の重要情報抽出装置。
前記重要フレームをサムネイル化して一覧表示する手段をさらに具備し、
各サムネイル画像には、前記映像を各重要フレームの位置から再生させるための情報が紐付けられていることを特徴とする請求項１ないし４のいずれかに記載の重要情報抽出装置。
映像を解析して重要情報を抽出する重要情報抽出方法において、
映像から特徴量を抽出する手順と、
前記特徴量に基づいて映像を複数のショットに分割する手順と、
前記各ショットから代表フレームを抽出する手順と、
前記代表フレームから前記特徴量に基づいて、重要オブジェクトが出現する重要フレームの候補を抽出する手順と、
前記映像のメタ情報を取得する手順と、
前記重要フレーム候補の特徴量を、重要フレームの代表的な特徴量と比較して各重要フレーム候補を評価する手順と、
前記メタ情報および各重要フレーム候補の評価値に基づいて、前記重要フレーム候補の中から重要フレームを抽出する手順とを含むことを特徴とする重要情報抽出方法。