JP2011223325A

JP2011223325A - コンテンツ検索装置および方法、並びにプログラム

Info

Publication number: JP2011223325A
Application number: JP2010090606A
Authority: JP
Inventors: Kazumasa Tanaka; 和政田中; Kenji Tanaka; 健司田中; Yoshihiro Takahashi; 義博高橋
Original assignee: Sony Corp
Current assignee: Sony Corp
Priority date: 2010-04-09
Filing date: 2010-04-09
Publication date: 2011-11-04
Also published as: CN102860031A; KR20130045248A; EP2556663A1; US20130077876A1; US9594957B2; US9881215B2; US20170140226A1; WO2011125322A1; BR112012025207A2

Abstract

【課題】動画のコンテンツに対する画像の検索結果を、より分かりやすく表示させてユーザに確認させることができるようにする。
【解決手段】メディアアーカイブ２２は、コンテンツ入力部２１から入力されたコンテンツのデータを蓄積する。画像処理部２３は、コンテンツからメタデータを抽出し、コンテンツの識別情報と対応付けてメタデータデータベース２４に蓄積し、コンテンツから画像特徴量を抽出し、コンテンツの識別情報およびフレーム番号と対応付けて画像特徴量データベース２５に蓄積する。検索画像入力部３１は、静止画である検索画像の入力を受け付け、検索部３３が、検索画像に類似する静止画のフレームが検出されたコンテンツを特定して検索結果出力部３４に通知する。検索結果出力部３４は、メタデータデータベース２４からメタデータを読み出して、検索結果の表示データを生成する。
【選択図】図１

Description

本発明は、コンテンツ検索装置および方法、並びにプログラムに関し、特に、動画のコンテンツに対する画像の検索結果を、より分かりやすく表示させてユーザに確認させることができるようにするコンテンツ検索装置および方法、並びにプログラムに関する。

映像（動画）コンテンツに対する画像検索の技術が提案されている。

映像コンテンツに対する画像検索の結果を表示する場合、検索結果として得られたコンテンツの最初のフレームの画像やそのコンテンツの代表画像を表示することが一般的である。あるいはまた、検索結果としてコンテンツ内の検索画像に対応するフレームが検出される場合はそのフレームの画像などを表示する場合がある。

また、これら一覧の検索結果に対して、検索結果のコンテンツを選択し再生することで、映像を確認する方法がある（例えば、特許文献１参照）。

さらに、近年のコンテンツの編集処理においては、ユーザがコンテンツの時間的長さや再生位置を認識し易くするように、コンテンツの音声信号の波形を時間軸に合わせて表示するなどのタイムライン表示も用いられている。

特開２００３−２８９４８７号公報

しかしながら、従来の技術では、例えば、複数の検索結果が得られた場合に、それぞれの検索結果を動画像として比較することはできなかった。このため、検索結果に基づいてコンテンツの内容を比較などすることができなかった。

例えば、従来の技術では、検索結果としてサムネイル画像や代表画像が表示されるので、ユーザは、それらの複数の検索結果のそれぞれのサムネイル画像や代表画像を見比べることでコンテンツの内容を比較する他ない。

また、従来の技術では、検索結果として得られた画像が含まれるコンテンツを再生して内容を確認することはできるものの、複数の検索結果を動画として同時に比較することはできなかった。

本発明はこのような状況に鑑みてなされたものであり、動画のコンテンツに対する画像の検索結果を、より分かりやすく表示させてユーザに確認させることができるようにするものである。

本発明の一側面は、静止画である検索画像の入力を受け付ける検索画像入力手段と、予め定められた方式で前記検索画像の画像特徴量を抽出する画像特徴量抽出手段と、メディアアーカイブに蓄積された動画のコンテンツのそれぞれについて、前記コンテンツを構成するフレームの静止画から予め抽出された前記画像特徴量と、前記検索画像の画像特徴量との類似度を算出する類似度算出手段と、前記算出された類似度を予め定められた閾値と比較することにより、前記検索画像に類似する前記静止画を、前記静止画のフレームを有する前記コンテンツの識別情報とともに特定する特定手段と、前記特定された前記コンテンツの識別情報と、前記メディアアーカイブに蓄積された動画のコンテンツのそれぞれについて予め抽出されたメタデータに基づいて、前記検索画像に類似する前記静止画のフレームの時間的位置を表す記号とともに前記コンテンツを時間軸上に表示してタイムライン表示させるための表示データを生成するタイムライン表示手段とを備えるコンテンツ検索装置である。

前記タイムライン表示手段は、前記メタデータに含まれる前記コンテンツのシーンチェンジ点の情報に基づいて、前記コンテンツを構成するシーンを特定し、前記シーンの時間的長さに対応させて前記シーンのそれぞれを表示する図形を、画面の水平または垂直方向を時間軸として表示することで前記コンテンツをタイムライン表示させるようにすることができる。

前記タイムライン表示手段は、複数のコンテンツのそれぞれを同一画面上に前記タイムライン表示させ、前記複数のコンテンツのそれぞれにおいて、前記検索画像に類似する前記静止画のフレームの時間的位置が、前記時間軸上で同じ位置となるように前記コンテンツをタイムライン表示させるようにすることができる。

前記タイムライン表示手段は、前記タイムライン表示されたコンテンツの再生が指令された場合、前記同一画面上に前記タイムライン表示させた前記複数のコンテンツのそれぞれを、前記時間軸上の同じ位置のフレームが再生されるように再生させるようにすることができる。

前記タイムライン表示手段は、前記複数のコンテンツのそれぞれにおいて、前記検索画像に類似する前記静止画のフレームが含まれるシーンを抽出し、前記抽出されたシーンのそれぞれにおいて、前記検索画像に類似する前記静止画のフレームの時間的位置が、前記時間軸上で同じ位置となるように表示させるようにすることができる。

前記タイムライン表示手段は、前記シーンを表示する図形を、予め定められた方式により特定された前記シーンの代表色で表示して前記コンテンツをタイムライン表示させるようにすることができる。

本発明の一側面は、検索画像入力手段が、静止画である検索画像の入力を受け付け、画像特徴量抽出手段が、予め定められた方式で前記検索画像の画像特徴量を抽出し、類似度算出手段が、メディアアーカイブに蓄積された動画のコンテンツのそれぞれについて、前記コンテンツを構成するフレームの静止画から予め抽出された前記画像特徴量と、前記検索画像の画像特徴量との類似度を算出し、特定手段が、前記算出された類似度を予め定められた閾値と比較することにより、前記検索画像に類似する前記静止画を、前記静止画のフレームを有する前記コンテンツの識別情報とともに特定し、タイムライン表示手段が、前記特定された前記コンテンツの識別情報と、前記メディアアーカイブに蓄積された動画のコンテンツのそれぞれについて予め抽出されたメタデータに基づいて、前記検索画像に類似する前記静止画のフレームの時間的位置を表す記号とともに前記コンテンツを時間軸上に表示してタイムライン表示させるための表示データを生成するステップを含むコンテンツ検索方法である。

本発明の一側面は、コンピュータを、静止画である検索画像の入力を受け付ける検索画像入力手段と、予め定められた方式で前記検索画像の画像特徴量を抽出する画像特徴量抽出手段と、メディアアーカイブに蓄積された動画のコンテンツのそれぞれについて、前記コンテンツを構成するフレームの静止画から予め抽出された前記画像特徴量と、前記検索画像の画像特徴量との類似度を算出する類似度算出手段と、前記算出された類似度を予め定められた閾値と比較することにより、前記検索画像に類似する前記静止画を、前記静止画のフレームを有する前記コンテンツの識別情報とともに特定する特定手段と、前記特定された前記コンテンツの識別情報と、前記メディアアーカイブに蓄積された動画のコンテンツのそれぞれについて予め抽出されたメタデータに基づいて、前記検索画像に類似する前記静止画のフレームの時間的位置を表す記号とともに前記コンテンツを時間軸上に表示してタイムライン表示させるための表示データを生成するタイムライン表示手段とを備えるコンテンツ検索装置として機能させるプログラムである。

本発明の一側面においては、静止画である検索画像の入力を受け付けられ、予め定められた方式で前記検索画像の画像特徴量が抽出され、メディアアーカイブに蓄積された動画のコンテンツのそれぞれについて、前記コンテンツを構成するフレームの静止画から予め抽出された前記画像特徴量と、前記検索画像の画像特徴量との類似度が算出され、前記算出された類似度を予め定められた閾値と比較することにより、前記検索画像に類似する前記静止画が、前記静止画のフレームを有する前記コンテンツの識別情報とともに特定され、前記特定された前記コンテンツの識別情報と、前記メディアアーカイブに蓄積された動画のコンテンツのそれぞれについて予め抽出されたメタデータに基づいて、前記検索画像に類似する前記静止画のフレームの時間的位置を表す記号とともに前記コンテンツを時間軸上に表示してタイムライン表示させるための表示データが生成される。

本発明によれば、動画のコンテンツに対する画像の検索結果を、より分かりやすく表示させてユーザに確認させることができる。

本発明の一実施の形態に係るコンテンツ検索装置の構成例を示すブロック図である。検索画像の例を示す図である。検索結果の表示画面の例を示す図である。図３の画面においてコンテンツが再生された画面の例を示す図である。図４の状態からさらに時間が経過したとき表示される画面の例を示す図である。選択されたシーンを繰り返し再生させる場合の画面の例を示す図である。検索画像に類似する画像の含まれるシーンのみを抽出して表示する画面の例を示す図である。コンテンツ入力処理の例を説明するフローチャートである。検索結果表示処理の例を説明するフローチャートである。パーソナルコンピュータの構成例を示すブロック図である。

以下、図面を参照して、本発明の実施の形態について説明する。

図１は、本発明の一実施の形態に係るコンテンツ検索装置の構成例を示すブロック図である。

このコンテンツ検索装置１０は、動画のコンテンツをメディアアーカイブ２２に複数保存し、保存されたコンテンツの中から、入力された検索画像を含むコンテンツを検索するものとされる。

同図に示されるように、コンテンツ検索装置１０には、コンテンツ入力部２１、メディアアーカイブ２２、画像処理部２３、メタデータデータベース２４、および画像特徴量データベース２５が設けられている。また、コンテンツ検索装置１０には、検索画像入力部３１、画像特徴量抽出部３２、検索部３３、および検索結果出力部３４が設けられている。

コンテンツ入力部２１は、コンテンツのデータの入力を受け付ける。上述したように、コンテンツは、動画のコンテンツであり、必要に応じて音声やキャプションなども含まれている。これらのコンテンツは、例えば、放送される番組の一部として編集されたコンテンツなどとされる。

メディアアーカイブ２２は、コンテンツ入力部２１から入力されたコンテンツのデータを蓄積する。メディアアーカイブ２２は、例えば、各コンテンツを識別するための識別情報などが付されたコンテンツのデータを大量に蓄積し、必要に応じてそれらのデータを読み出して出力することができるようになされている。

画像処理部２３は、コンテンツ入力部２１から供給されたコンテンツのデータを解析し、それらのコンテンツからメタデータを抽出するようになされている。ここで、メタデータは、例えば、コンテンツのシーンチェンジ点に関する情報、後述するタイムライン表示する際に必要となる時刻に関する情報、ファイル名、データサイズなどの情報とされる。また、メタデータには、例えば、コンテンツの音声信号の波形などの情報が含まれるようにしてもよい。

画像処理部２３が抽出したメタデータは、後述するように、コンテンツをタイムライン表示する際に必要となる。画像処理部２３が抽出したメタデータは、例えば、コンテンツの識別情報と対応付けられてメタデータデータベース２４に蓄積されるようになされている。

また、画像処理部２３は、コンテンツ入力部２１から供給されたコンテンツのデータを解析し、それらのコンテンツから画像特徴量を抽出するようになされている。ここで、画像特徴量は、後述する検索部３３の処理において検索画像との類似度を得るために用いられる情報とされる。画像特徴量は、例えば、コンテンツを構成する１フレーム分の静止画のそれぞれを予め定められた複数の領域に分割し、それぞれの領域の代表色を記述した情報などとされる。また、画像特徴量は、例えば、１フレーム分の静止画の画素値のヒストグラムの情報などとされるようにしてもよいし、検索部３３の処理において検索画像との類似度を得られるものであればそれ以外の情報が画像特徴量とされてもよい。

画像処理部２３が抽出した画像特徴量は、例えば、コンテンツの識別情報およびフレーム番号と対応付けられて画像特徴量データベース２５に蓄積されるようになされている。

検索画像入力部３１は、静止画である検索画像の入力を受け付けるようになされている。検索画像は、例えば、ユーザが任意に選択した画像とされ、メディアアーカイブ２２に蓄積されているコンテンツの中から当該検索画像と類似した画像を検索するために入力される。

画像特徴量抽出部３２は、検索画像入力部３１を介して入力された検索画像から、画像処理部２３と同様に画像特徴量を抽出するようになされている。

検索部３３は、画像特徴量抽出部３２により抽出された検索画像の画像特徴量と、画像特徴量データベース２５に記憶されている画像特徴量とを所定の方式で比較する。これにより、検索画像の画像特徴量と、画像特徴量データベース２５に記憶されている各コンテンツを構成する１フレーム分の静止画のそれぞれの画像特徴量との類似度が数値として算出されるようになされている。

検索部３３は、例えば、検索画像の画像特徴量との類似度が所定の閾値以上の値となった画像特徴量を有する静止画を特定し、それらの静止画が検出されたコンテンツの識別情報およびそれらの静止画のフレーム番号などを検索結果出力部３４に供給する。なお、１つのコンテンツの中で、検索画像の画像特徴量との類似度が所定の閾値以上の値となった画像特徴量を有する静止画が複数検出された場合、検索部３３は、例えば、類似度の最も高い静止画のフレーム番号などを検索結果出力部３４に供給する。

検索部３３は、このようにして、検索画像と類似度の高い静止画のフレーム、すなわち検索画像に類似する静止画のフレームが検出されたコンテンツを特定して検索結果出力部３４に通知するのである。

検索結果出力部３４は、検索部３３から供給されたコンテンツの識別情報に基づいて、メタデータデータベース２４からそのコンテンツのメタデータを読み出す。そして、検索結果出力部３４は、検索部３３から供給された静止画のフレーム番号と、読み出されたメタデータに基づいて、検索結果の表示データを生成する。

なお、検索結果出力部３４から出力される表示データは、図示せぬディスプレイなどに供給され、後述するような画像として表示される。

次に、コンテンツ検索装置１０による検索結果の表示の例について説明する。

図２は、検索画像入力部３１を介して入力される検索画像（静止画）の例を示す図である。この例では、ミサイルと発射台の画像が示されている。

なお、検索画像は、ディスプレイに表示されるようにしてもよいし、表示されないようにしてもよい。

図３は、検索結果出力部３４から出力される表示データに基づいて図示せぬディスプレイなどに表示される画面の例を示す図である。同図は、図２に示される検索画像が検索画像入力部３１を介して入力され、メディアアーカイブ２２に蓄積されたコンテンツが検索された結果、表示される画面の例を示している。

図３に示される画面は、検索結果表示領域５１を有している。この例では、図２に示される検索画像と類似度の高い静止画が検出されたコンテンツが、検索結果表示領域５１に７つ表示されている。そして、検索結果表示領域５１は、上記の７つのコンテンツに関する情報をそれぞれ表示する領域５１−１乃至領域５１−７を有している。

領域５１−１には、第１番目のコンテンツに関する情報が表示される。

静止画表示部５２−１は、第１番目のコンテンツにおいて検出された検索画像と類似度の高い静止画を表示する領域とされる。なお、静止画表示部５２−１に表示された静止画の上部に示される「４１１３８８９.asf」は、第１番目のコンテンツの識別情報とされる。

タイムライン表示部５３−１は、第１番目のコンテンツに関するタイムライン表示のための領域とされ、図中水平方向がコンテンツの時間軸に対応する。

ここでは、所定のコンテンツを、コンテンツの時間的長さ、コンテンツの内部のシーン、フレームなどの時間的位置を、ユーザが視覚的に認識できるように表示させることをコンテンツに関するタイムライン表示と称している。なお、コンテンツの（に関する）タイムライン表示は、何らかの方式でそのコンテンツを表示させるものであるが、例えば、コンテンツが再生されて動画として表示されることなどを意味するものではない。タイムライン表示におけるコンテンツの表示は、例えば、そのコンテンツまたはそのコンテンツの構成部分を象徴する図形、波形、記号などを時間軸に対応させて表示させることを意味している。

タイムライン表示部５３−１に表示された逆三角形の記号６１−１は、第１番目のコンテンツにおいて、静止画表示部５２−１に表示された静止画のフレームの時間的位置を表示している。

タイムライン表示部５３−１の波形表示領域６２−１は、第１番目のコンテンツに含まれる音声の信号波形を表示する領域とされる。なお、波形表示領域６２−１には、画像の波形が表示されるようにしてもよい。また、タイムライン表示部５３−１には、波形表示領域６２−１が含まれないようにしてもよい。

タイムライン表示部５３−１に表示されたシーン表示領域６３−１は、第１番目のコンテンツにおけるシーンを表示する領域とされる。シーン表示領域６３−１には、第１番目のコンテンツの各シーンが、それぞれのシーンの時間的長さに対応する幅（長さ）の矩形として表示されている。すなわち、シーン表示領域６３−１には、３つの矩形が表示されており、第１番目のコンテンツが３つのシーンによって構成されていることが分かる。なお、各シーンの開始点および終了点は、メタデータデータベース２４から読み出されたメタデータに含まれるシーンチェンジ点の情報に基づいて特定され、シーン表示領域６３−１の矩形が表示されるようになされている。

シーン表示領域６３−１に示される各矩形は、そのシーンの代表色で表示されている。シーンの代表色は、例えば、シーン内に存在する全フレームの画素値の中で最も多い画素値に対応する色などとして特定されるようになされている。なお、それ以外の方式でシーンの代表色が特定されるようにしてもよい。要は、そのシーンの印象に適した色が代表色とされるようにすればよい。

シーンの代表色は、例えば、表示データを生成する際にコンテンツのデータを解析して特定されるようにしてもよいし、予め特定されてメタデータに含まれるようにしてもよい。

同様に、領域５１−２には、第２番目のコンテンツに関する情報が表示される。すなわち、静止画表示部５２−２は、第２番目のコンテンツにおいて検出された検索画像と類似度の高い静止画が表示され、タイムライン表示部５３−２は、第２番目のコンテンツに関するタイムライン表示のための領域とされる。

さらに、領域５１−３乃至領域５１−７についても、第３番目のコンテンツ乃至第７番目のコンテンツに関する情報がそれぞれ、領域５１−１、領域５１−２と同様に表示される。

なお、以下では、個々に区別する必要がない場合、適宜、静止画表示部５２、タイムライン表示部５３、記号６１、・・・のように記載することにする。

図３に示されるように、タイムライン表示部５３−１乃至タイムライン表示部５３−７は、図中水平方向の長さが同一とされている。また、タイムライン表示部５３−１乃至タイムライン表示部５３−７において、記号６１−１乃至記号６１−７の図中水平方向の位置が同一となるように表示されている。

すなわち、検索結果出力部３４が、次のように各表示領域の表示位置を定める。

第１番目のコンテンツ乃至第７番目のコンテンツの中で、コンテンツの開始時刻から記号６１までの時間的長さが最も長いコンテンツの開始位置がタイムライン表示部５３の左端の位置に合わせられる。同図の場合、第４番目のコンテンツの開始位置がタイムライン表示部５３の左端の位置とされている。また、第１番目のコンテンツ乃至第７番目のコンテンツの中で、コンテンツの終了時刻から記号６１までの時間的長さが最も長いコンテンツの終了位置がタイムライン表示部５３の右端の位置に合わせられる。同図の場合、第４番目のコンテンツと第５番目のコンテンツの終了位置がタイムライン表示部５３の右端の位置とされている。

なお、上述したように、検索部３３によって、検索画像と類似度の高い静止画のフレーム番号が特定されているので、コンテンツの開始時刻または終了時刻から記号６１までの時間的長さも特定することが可能である。

そして、第４番目のコンテンツと第５番目のコンテンツの時間的長さに基づいて、タイムライン表示部５３の水平方向の単位長に対応する時間が定められることになる。

検索結果出力部３４は、例えば、記号６１の図中水平方向の表示位置を、タイムライン表示部５３の中央とし、領域５１−１乃至領域５１−７における波形表示領域６２とシーン表示領域６３の表示位置を定める。そして、検索結果出力部３４は、図３に示されるような画像を表示するための表示データを生成する。

なお、この例では、タイムライン表示部５３において波形表示領域６２に表示される波形を時間軸に合わせて表示させるようにしたが、それ以外の方式でコンテンツがタイムライン表示されるようにしてもよい。例えば、上述したように、波形表示領域６２を含まないタイムライン表示部５３とされるようにしてもよいし、要は、ユーザがコンテンツの時間軸を認識し易いように表示されるようにすればよい。

また、図３に示されるボタン７１は、例えば、ＧＵＩの部品として構成される検索開始ボタンとされる。例えば、図２に示される検索画像が入力された後、ボタン７１が押下されることにより検索画像と類似度の高い静止画の検索が実行される。すなわち、図３の画面は、既にユーザがボタン７１を押下した後に表示される画面である。

図３に示されるボタン７２は、例えば、ＧＵＩの部品として構成され、同図の領域５１−１乃至領域５１−７のコンテンツの再生を指令するボタンとされる。同様に図３のボタン７３は、ボタン７２により開始されたコンテンツの再生を終了させるためのボタンとされる。

図３の状態で、ボタン７２が押下されると、領域５１−１乃至領域５１−７のコンテンツの再生が開始され、図４に示されるような画面が表示されることになる。

図４の画面では、コンテンツの再生が開始されたことにより、タイムライン表示部５３の中に、再生位置を表すスライダ６４が表示される。スライダ６４は、例えば、赤色の四角形の枠として表示され、時間の経過に伴って、図中水平方向の長さが増大するように表示される。スライダ６４の右端部が現在のコンテンツの再生位置を表すことになる。

図４の例では、まだ、コンテンツの再生が開始されて間もないので、第４番目のコンテンツの動画のみが再生されている。すなわち、スライダ６４−４は、波形表示領域６２−４に表示された波形に重ねられて表示されており、スライダ６４−４の右端部は、シーン表示領域６３−４の最も左側に表示された矩形のほぼ中央に位置している。一方、スライダ６４−１乃至スライダ６４−３、およびスライダ６４−５乃至スライダ６４−７の右端部は、それぞれシーン表示領域６３−１乃至シーン表示領域６３−３、およびシーン表示領域６３−５乃至シーン表示領域６３−７の最も左側に表示された矩形の位置に至っていない。

従って、図４の例では、第４番目のコンテンツの動画のみが再生され、再生された画像は、再生画像表示部５４−４に表示されている。すなわち、再生画像表示部５４−４には、第４番目のコンテンツを再生して得られる動画が表示されることになる。

なお、図４の例では既にコンテンツが再生されたため、ボタン７２は、コンテンツの再生を一時的に停止（Ｐａｕｓｅ）するボタンとされている。

図４の画面が表示された状態から、さらに時間が経過すると、図５に示されるような画面が表示されることになる。

図５の例では、コンテンツの再生が開始されてから時間が経過したことにより、図４の場合と比較してスライダ６４の図中水平方向の長さが伸びている。これにより、図５の例では、第４番目のコンテンツに加えて、第２番目のコンテンツ、第３番目のコンテンツの動画も再生されている。

すなわち、スライダ６４−２乃至スライダ６４−４は、それぞれ波形表示領域６２−２乃至波形表示領域６２−４に表示された波形に重ねられて表示されている。そして、スライダ６４−２乃至スライダ６４−４の右端部は、シーン表示領域６３−２乃至シーン表示領域６３−４に表示されたいずれかの矩形上に位置している。

従って、図５の例では、第２番目のコンテンツ乃至第４番目のコンテンツの動画が再生され、再生された画像は、再生画像表示部５４−２乃至再生画像表示部５４−４に表示されている。すなわち、再生画像表示部５４−２乃至再生画像表示部５４−４には、第２番目のコンテンツ乃至第４番目のコンテンツを再生して得られる動画がそれぞれ表示されることになる。

図４の画面が表示された状態から、さらに時間が経過すると、スライダ６４の図中水平方向の長さがさらに伸びて第５番目のコンテンツ、第６番目のコンテンツ、第１番目のコンテンツ、第７番目のコンテンツの再生がそれぞれ開始されていく。従って、再生画像表示部５４−５、再生画像表示部５４−６、再生画像表示部５４−１、再生画像表示部５４−７にも、それぞれのコンテンツを再生して得られる動画がそれぞれ表示されることになる。

そして、スライダ６４の右端部の図中垂直方向の位置が記号６１と同じ位置となったとき、静止画表示部５２に表示されている画像が、再生画像表示部５４に表示される。これにより、ユーザは、第１番目のコンテンツ乃至第７番目のコンテンツにおいてどのような編集がなされて検索画像と類似度の高い画像が表示されるのかを見比べることが可能となる。つまり、各コンテンツにおいてどの位置に、目的の画像（検索画像に類似する画像）が挿入されているかだけでなく、目的の画像の前後の画像を動画として比較することもできる。

また、コンテンツ検索装置１０による検索結果の表示画面において、ユーザは、タイムライン表示部５３のシーン表示領域６３に表示された矩形を選択することにより、選択された矩形に対応するシーンを繰り返し再生させることが可能となる。上述したように、シーン表示領域６３に表示された矩形のそれぞれは、そのコンテンツの各シーンに対応して表示される。

例えば、ユーザが第２番目のコンテンツにおいて静止画表示部５２−２に表示された画像が含まれるシーンを繰り返し再生したいと考えた場合、タイムライン表示部５３−２のシーン表示領域６３−２に表示された矩形のうち左から５番目の矩形を選択する。なお、記号６１−２の図中垂直方向の位置に基づいて、静止画表示部５２−２に表示された画像は、第２番目のコンテンツの中の第５番目のシーンに含まれていることが分かる。

この場合、図６に示されるような画面が表示される。図６の例では、タイムライン表示部５３−２のシーン表示領域６３−２に表示された矩形のうち左から５番目の矩形６３−２ａが選択されたことによりハイライト表示されている。これにより、矩形６３−２ａに対応するシーンの開始時刻からそのシーンの終了時刻までの間の動画が繰り返し再生画像表示部５４−２に表示される。

なお、ここでは、シーン表示領域６３の各矩形のそれぞれが、ＧＵＩの部品などとして表示されているものとし、例えば、ユーザが図示せぬポインティングデバイスなどを操作してシーン表示領域６３の任意の矩形を選択できるものとする。

この際、第２番目のコンテンツだけでなく、第１番目のコンテンツ、第３番目のコンテンツ乃至第７番目のコンテンツも、繰り返し再生される。つまり、全てのコンテンツにおいて矩形６３−２ａに対応するシーンの開始時刻からそのシーンの終了時刻までの間の動画が再生画像表示部５４に表示されるのである。

例えば、第１番目のコンテンツの場合、第２番目のシーンの途中から第３番目のシーンの途中までの動画が繰り返し再生画像表示部５４−１に表示される。また、例えば、第３番目のコンテンツの場合、第６番目のシーンのほぼ最初から第7番目のシーン全てと第８番目のシーンの途中までの動画が繰り返し再生画像表示部５４−３に表示される。

このように、どのコンテンツのシーンを選択したかにかかわらず、検索結果表示領域５１に表示されている全てのコンテンツが再生される。なお、図６の例では、スライダ６４の右端部は、記号６１のやや右側に位置しているので、静止画表示部５２に表示されている画像の直後に再生される画像が再生画像表示部５４に表示されている。ここでは、ミサイルの発射時の画像が再生画像表示部５４に表示されている。

図６の例の場合、シーン表示領域６３−２に表示された矩形のうち左から５番目の矩形が選択されたことにより、全てのコンテンツにおいて記号６１に対応する位置が再生される。従って、再生画像表示部５４−１乃至再生画像表示部５４−７において繰り返し再生される動画の中に、静止画表示部５２−１乃至静止画表示部５２−７に表示された画像がそれぞれ含まれることになる。このようにすることで、ユーザは目的の画像にさらに特化して各コンテンツを動画として比較することができるのである。

また、コンテンツ検索装置１０においては、各コンテンツから、検索画像に類似する画像が含まれるシーンのみを抽出することもできる。例えば、ユーザは、コンテンツ検索装置１０の図示せぬ操作部を操作することなどにより、検索画像に類似する画像が含まれるシーンの一覧の表示を指令することができる。

図７は、検索画像に類似する画像が含まれるシーンの一覧を表示する画面の例を示す図である。同図は、例えば、図２に示される画像を検索画像としてコンテンツが検索された結果、図３に示されるような検索結果が表示される場合における検索画像に類似する画像が含まれるシーンの一覧を表示する画面の例とされる。すなわち、図７の例における検索画像と検索結果については、図３を参照して上述した場合と同様である。

図７においては、図中垂直方向に並べられた領域１０１−１乃至領域１０１−７に、第１番目のコンテンツ乃至第７番目のコンテンツにおいて、検索画像に類似する画像が含まれるシーンのそれぞれが表示されている。ここで、領域１０１−１乃至領域１０１−７の水平方向がシーンの時間軸に対応し、各シーンは、その時間的長さに対応する図中水平方向の長さを有する矩形１１２−１乃至矩形１１２−７として表示されている。

図７の領域１０２−１乃至領域１０２−７には、各コンテンツにおいて検出された検索画像と類似度の高い静止画が表示されている。すなわち、領域１０２−１乃至領域１０２−７に表示された画像のそれぞれは、図３の静止画表示部５２−１乃至静止画表示部５２−７に表示された画像と同じである。

図７における逆三角形の記号１１１−１乃至記号１１１−７は、それぞれ矩形１１２−１乃至矩形１１２−７で表わされるシーンにおいて領域１０２−１乃至領域１０２−７に表示された画像が含まれる位置を示している。同図に示されるように、記号１１１−１乃至記号１１１−７の図中水平方向の位置が同一となるように、矩形１１２−１乃至矩形１１２−７のそれぞれが表示されている。

例えば、領域１０１−１乃至領域１０１−７に表示されたシーンの中で、シーンの開始時刻から記号１１１までの時間的長さが最も長いシーンの開始位置が領域１０１の左端の位置に合わせられる。同図の場合、上から２番目のシーンと３番目のシーンの開始位置が領域１０１の左端の位置とされている。また、領域１０１−１乃至領域１０１−７に表示されたシーンの中で、シーンの終了時刻から記号１１１までの時間的長さが最も長いシーンの終了位置が領域１０１の右端の位置に合わせられる。同図の場合、上から６番目のシーンの終了位置が領域１０１の右端の位置とされている。

また、シーンの開始時刻から記号１１１までの時間的長さが最も長いシーンに対応する矩形１１２−２の左端部１１２−２ａは、特定の色（例えば、赤色）で表示されるなどしてハイライトされる。同様に、シーンの終了時刻から記号１１１までの時間的長さが最も長いシーンに対応する矩形１１２−６の右端部１１２−６ｂも特定の色（例えば、青色）で表示されるなどしてハイライトされる。

このように表示することで、ユーザは、シーンの時間的長さ、シーンの開始時刻から目的の画像が表示される（記号１１１）までの時間的長さ、目的の画像が表示されてからシーンの終了時刻までの時間的長さを簡単に比較することができる。

このようにすることで、例えば、メディアアーカイブ２２に蓄積されたコンテンツのデータを用いて新たにコンテンツを編集する場合、相応しいシーンを簡単に見つけることが可能となる。また、例えば、内容が重複する可能性が高いシーンを削除するなどして、メディアアーカイブ２２を効率的に管理することも可能となる。さらに、例えば、放送時間が直前に変更されるような場合でも、どのコンテンツを放送すべきかを簡単に確認することができる。

従来、コンテンツに対する画像検索の結果を表示する場合、検索結果として得られたコンテンツの最初のフレームの画像やそのコンテンツの代表画像を表示したり、検索結果としてコンテンツ内の検索画像に対応するフレームが検出される場合はそのフレームの画像などを表示していた。

しかしながら、従来の技術では、例えば、複数の検索結果が得られた場合に、それぞれの検索結果を動画像として比較することはできなかった。このため、検索結果に基づいてコンテンツの内容を比較などすることができなかった。例えば、従来の技術では、検索結果としてサムネイル画像や代表画像が表示されるので、ユーザは、それらの複数の検索結果のそれぞれのサムネイル画像や代表画像を見比べることでコンテンツの内容を比較する他ない。また、従来の技術では、検索結果として得られた画像が含まれるコンテンツを再生して内容を確認することはできるものの、複数の検索結果を動画として同時に比較することはできなかった。

これに対して本発明によれば、図３乃至図７を参照して上述したように、動画のコンテンツに対する画像の検索結果を、複数のコンテンツについて同時に確認することができる。従って、動画のコンテンツに対する画像の検索結果を、より分かりやすく表示させてユーザに確認させることができる。

次に、図８のフローチャートを参照して、図１のコンテンツ検索装置１０によるコンテンツ入力処理の例について説明する。

ステップＳ２１において、コンテンツ入力部２１は、コンテンツのデータの入力を受け付ける。上述したように、コンテンツは、動画のコンテンツであり、必要に応じて音声やキャプションなども含まれている。これらのコンテンツは、例えば、放送される番組の一部として編集されたコンテンツなどとされる。

ステップＳ２２において、画像処理部２３は、ステップＳ２１の処理でコンテンツ入力部２１から供給されたコンテンツのデータを解析する。

ステップＳ２３において、画像処理部２３は、ステップＳ２２の処理による解析結果に基づいてメタデータを抽出する。ここで、メタデータは、例えば、コンテンツのシーンチェンジ点に関する情報、後述するタイムライン表示する際に必要となる時刻に関する情報、ファイル名、データサイズなどの情報とされる。

ステップＳ２４において、メタデータデータベース２４は、ステップＳ２３の処理で抽出されたメタデータを記憶する。なお、メタデータは、例えば、コンテンツの識別情報と対応付けられて記憶される。

ステップＳ２５において、画像処理部２３は、ステップＳ２２の処理による解析結果に基づいて画像特徴量を抽出する。ここで、画像特徴量は、検索部３３の処理において検索画像との類似度を得るために用いられる情報とされる。画像特徴量は、例えば、コンテンツを構成する１フレーム分の静止画のそれぞれを予め定められた複数の領域に分割し、それぞれの領域の代表色を記述した情報などとされる。また、画像特徴量は、１フレーム分の静止画像の画素値のヒストグラムの情報などとされるようにしてもよい。

ステップＳ２６において、画像特徴量データベース２５は、ステップＳ２５の処理で抽出された画像特徴量を記憶する。なお、画像特徴量は、例えば、コンテンツの識別情報およびフレーム番号と対応付けられて記憶される。

ステップＳ２７において、メディアアーカイブ２２は、ステップＳ２１の処理で入力が受け付けられたコンテンツのデータを記憶する。なお、メディアアーカイブ２２は、例えば、各コンテンツを識別するための識別情報などを付してコンテンツのデータを記憶するようになされている。

このようにしてコンテンツが入力されてメディアアーカイブ２２に蓄積される。

次に、図９のフローチャートを参照して図１のコンテンツ検索装置１０による検索結果表示処理の例について説明する。

ステップＳ４１において、検索画像入力部３１は、静止画である検索画像の入力を受け付ける。検索画像は、例えば、ユーザが任意に選択した画像とされ、メディアアーカイブ２２に蓄積されているコンテンツの中から当該検索画像と類似した画像を検索するために入力される。

ステップＳ４２において、画像特徴量抽出部３２は、ステップＳ４１の処理で検索画像入力部３１を介して入力された検索画像から、ステップＳ２５の処理と同様にして、画像特徴量を抽出する。

ステップＳ４４において、検索部３３は、ステップＳ４３の処理で抽出された検索画像の画像特徴量と、画像特徴量データベース２５に記憶されている画像特徴量とを所定の方式で比較する。これにより、検索画像の画像特徴量と、画像特徴量データベース２５に記憶されている各コンテンツを構成する１フレーム分の静止画のそれぞれの画像特徴量との類似度が数値として算出される。

ステップＳ４５において、検索部３３は、例えば、検索画像の画像特徴量との類似度が所定の閾値以上の値となった画像特徴量を有する静止画を特定し、それらの静止画が検出されたコンテンツの識別情報およびそれらの静止画のフレーム番号などを特定する。なお、１つのコンテンツの中で、検索画像の画像特徴量との類似度が所定の閾値以上の値となった画像特徴量を有する静止画が複数検出された場合、検索部３３は、例えば、類似度の最も高い静止画のフレーム番号などを特定する。

これにより、ステップＳ４１の処理で入力を受け付けた検索画像と類似する画像が含まれるコンテンツが、メディアアーカイブ２２に記憶されているコンテンツの中から検索されることになる。

ステップＳ４６において、検索部３３は、ステップＳ４５の処理結果を検索結果出力部３４に通知する。このとき、例えば、検索画像と類似する静止画が含まれるコンテンツの識別情報およびそれらの静止画のフレーム番号などが検索結果出力部３４に供給される。

ステップＳ４７において、検索結果出力部３４は、ステップＳ４６の処理で通知された情報に基づいて、検索結果の表示データを生成する。例えば、コンテンツの識別情報に基づいて、メタデータデータベース２４からそのコンテンツのメタデータが読み出され、静止画のフレーム番号と、読み出されたメタデータに基づいて、検索結果の表示データが生成される。

検索結果出力部３４から出力される表示データは、図示せぬディスプレイなどに供給され、後述するような画像として表示される。この結果、例えば、図３を参照して上述したような画面がディスプレイに表示される。

なお、その後、画面上のＧＵＩの操作などに対応して図４乃至図７に示されるような画面を表示するように、検索結果出力部３４は、適宜それらの画面を表示する表示データを生成するようになされている。

このようにして、検索結果表示処理が実行される。

なお、図１を参照して上述した例においては、コンテンツ検索装置１０に、コンテンツ入力部２１と画像処理部２３が設けられると説明したが、コンテンツ入力部２１と画像処理部２３とを有しない構成とすることも可能である。すなわち、予めデータが蓄積されているメディアアーカイブ２２、メタデータデータベース２４、および画像特徴量データベース２５を用いて、検索画像に類似する画像を有するコンテンツが検索されて表示データが生成されるようにすればよい。

また、以上においては、コンテンツ検索装置１０による検索結果の表示画面において、図中水平方向を時間軸に対応させてコンテンツをタイムライン表示するようにしたが、図中垂直方向を時間軸に対応させてコンテンツをタイムライン表示するようにしてもよい。

なお、上述した一連の処理は、ハードウェアにより実行させることもできるし、ソフトウェアにより実行させることもできる。上述した一連の処理をソフトウェアにより実行させる場合には、そのソフトウェアを構成するプログラムが、専用のハードウェアに組み込まれているコンピュータにネットワークや記録媒体からインストールされる。また、各種のプログラムをインストールすることで、各種の機能を実行することが可能な、例えば図１０に示されるような汎用のパーソナルコンピュータ７００などに、ネットワークや記録媒体からインストールされる。

図１０において、ＣＰＵ（Central Processing Unit）７０１は、ＲＯＭ（Read Only Memory）７０２に記憶されているプログラム、または記憶部７０８からＲＡＭ（Random Access Memory）７０３にロードされたプログラムに従って各種の処理を実行する。ＲＡＭ７０３にはまた、ＣＰＵ７０１が各種の処理を実行する上において必要なデータなども適宜記憶される。

ＣＰＵ７０１、ＲＯＭ７０２、およびＲＡＭ７０３は、バス７０４を介して相互に接続されている。このバス７０４にはまた、入出力インタフェース７０５も接続されている。

入出力インタフェース７０５には、キーボード、マウスなどよりなる入力部７０６、ＬＣＤ(Liquid Crystal display)などよりなるディスプレイ、並びにスピーカなどよりなる出力部７０７が接続されている。また、入出力インタフェース７０５には、ハードディスクなどより構成される記憶部７０８、モデム、LANカードなどのネットワークインタフェースカードなどより構成される通信部７０９が接続されている。通信部７０９は、インターネットを含むネットワークを介しての通信処理を行う。

入出力インタフェース７０５にはまた、必要に応じてドライブ７１０が接続され、磁気ディスク、光ディスク、光磁気ディスク、或いは半導体メモリなどのリムーバブルメディア７１１が適宜装着されている。そして、それらのリムーバブルメディアから読み出されたコンピュータプログラムが、必要に応じて記憶部７０８にインストールされる。

上述した一連の処理をソフトウェアにより実行させる場合には、そのソフトウェアを構成するプログラムが、インターネットなどのネットワークや、リムーバブルメディア７１１などからなる記録媒体からインストールされる。

なお、この記録媒体は、図１０に示される、装置本体とは別に、ユーザにプログラムを配信するために配布される、プログラムが記録されている磁気ディスク（フロッピディスク（登録商標）を含む）、光ディスク（CD-ROM(Compact Disk-Read Only Memory),DVD(Digital Versatile Disk)を含む）、光磁気ディスク（MD（Mini-Disk）（登録商標）を含む）、もしくは半導体メモリなどよりなるリムーバブルメディア７１１により構成されるものだけでなく、装置本体に予め組み込まれた状態でユーザに配信される、プログラムが記録されているＲＯＭ７０２や、記憶部７０８に含まれるハードディスクなどで構成されるものも含む。

なお、本明細書において上述した一連の処理は、記載された順序に沿って時系列的に行われる処理はもちろん、必ずしも時系列的に処理されなくとも、並列的あるいは個別に実行される処理をも含むものである。

また、本発明の実施の形態は、上述した実施の形態に限定されるものではなく、本発明の要旨を逸脱しない範囲において種々の変更が可能である。

１０コンテンツ検索装置，２１コンテンツ入力部，２２メディアアーカイブ，２３画像処理部，２４メタデータデータベース，２５画像特徴量データベース，３１検索画像入力部，３２画像特徴量処理部，３３検索部，３４検索結果出力部，７０１ＣＰＵ，７０２ＲＯＭ，７１１リムーバブルメディア

Claims

静止画である検索画像の入力を受け付ける検索画像入力手段と、
予め定められた方式で前記検索画像の画像特徴量を抽出する画像特徴量抽出手段と、
メディアアーカイブに蓄積された動画のコンテンツのそれぞれについて、前記コンテンツを構成するフレームの静止画から予め抽出された前記画像特徴量と、前記検索画像の画像特徴量との類似度を算出する類似度算出手段と、
前記算出された類似度を予め定められた閾値と比較することにより、前記検索画像に類似する前記静止画を、前記静止画のフレームを有する前記コンテンツの識別情報とともに特定する特定手段と、
前記特定された前記コンテンツの識別情報と、前記メディアアーカイブに蓄積された動画のコンテンツのそれぞれについて予め抽出されたメタデータに基づいて、前記検索画像に類似する前記静止画のフレームの時間的位置を表す記号とともに前記コンテンツを時間軸上に表示してタイムライン表示させるための表示データを生成するタイムライン表示手段と
を備えるコンテンツ検索装置。
前記タイムライン表示手段は、
前記メタデータに含まれる前記コンテンツのシーンチェンジ点の情報に基づいて、前記コンテンツを構成するシーンを特定し、
前記シーンの時間的長さに対応させて前記シーンのそれぞれを表示する図形を、画面の水平または垂直方向を時間軸として表示することで前記コンテンツをタイムライン表示させる
請求項１に記載のコンテンツ検索装置。
前記タイムライン表示手段は、
複数のコンテンツのそれぞれを同一画面上に前記タイムライン表示させ、
前記複数のコンテンツのそれぞれにおいて、前記検索画像に類似する前記静止画のフレームの時間的位置が、前記時間軸上で同じ位置となるように前記コンテンツをタイムライン表示させる
請求項２に記載のコンテンツ検索装置。
前記タイムライン表示手段は、
前記タイムライン表示されたコンテンツの再生が指令された場合、
前記同一画面上に前記タイムライン表示させた前記複数のコンテンツのそれぞれを、前記時間軸上の同じ位置のフレームが再生されるように再生させる
請求項３に記載のコンテンツ検索装置。
前記タイムライン表示手段は、
前記複数のコンテンツのそれぞれにおいて、前記検索画像に類似する前記静止画のフレームが含まれるシーンを抽出し、前記抽出されたシーンのそれぞれにおいて、前記検索画像に類似する前記静止画のフレームの時間的位置が、前記時間軸上で同じ位置となるように表示させる
請求項３に記載のコンテンツ検索装置。
前記タイムライン表示手段は、
前記シーンを表示する図形を、予め定められた方式により特定された前記シーンの代表色で表示して前記コンテンツをタイムライン表示させる
請求項２に記載のコンテンツ検索装置。
検索画像入力手段が、静止画である検索画像の入力を受け付け、
画像特徴量抽出手段が、予め定められた方式で前記検索画像の画像特徴量を抽出し、
類似度算出手段が、メディアアーカイブに蓄積された動画のコンテンツのそれぞれについて、前記コンテンツを構成するフレームの静止画から予め抽出された前記画像特徴量と、前記検索画像の画像特徴量との類似度を算出し、
特定手段が、前記算出された類似度を予め定められた閾値と比較することにより、前記検索画像に類似する前記静止画を、前記静止画のフレームを有する前記コンテンツの識別情報とともに特定し、
タイムライン表示手段が、前記特定された前記コンテンツの識別情報と、前記メディアアーカイブに蓄積された動画のコンテンツのそれぞれについて予め抽出されたメタデータに基づいて、前記検索画像に類似する前記静止画のフレームの時間的位置を表す記号とともに前記コンテンツを時間軸上に表示してタイムライン表示させるための表示データを生成するステップ
を含むコンテンツ検索方法。
コンピュータを、
静止画である検索画像の入力を受け付ける検索画像入力手段と、
予め定められた方式で前記検索画像の画像特徴量を抽出する画像特徴量抽出手段と、
メディアアーカイブに蓄積された動画のコンテンツのそれぞれについて、前記コンテンツを構成するフレームの静止画から予め抽出された前記画像特徴量と、前記検索画像の画像特徴量との類似度を算出する類似度算出手段と、
前記算出された類似度を予め定められた閾値と比較することにより、前記検索画像に類似する前記静止画を、前記静止画のフレームを有する前記コンテンツの識別情報とともに特定する特定手段と、
前記特定された前記コンテンツの識別情報と、前記メディアアーカイブに蓄積された動画のコンテンツのそれぞれについて予め抽出されたメタデータに基づいて、前記検索画像に類似する前記静止画のフレームの時間的位置を表す記号とともに前記コンテンツを時間軸上に表示してタイムライン表示させるための表示データを生成するタイムライン表示手段とを備えるコンテンツ検索装置として機能させる
プログラム。