JP2006054644A

JP2006054644A - 画像処理装置および方法、撮影装置、並びにプログラム

Info

Publication number: JP2006054644A
Application number: JP2004234392A
Authority: JP
Inventors: Makoto Murata; 誠村田; Machiko Segawa; 真智子瀬川; Keigo Ihara; 圭吾井原; Nobuyuki Matsushita; 伸行松下; Eiji Takahashi; 英治高橋; Tatsu Aoyama; 龍青山; Soki Riku; 曹毅陸; Hiroyuki Maruyama; 洋行丸山; Brian Clarkson; クラークソンブライアン
Original assignee: Sony Corp
Current assignee: Sony Corp
Priority date: 2004-08-11
Filing date: 2004-08-11
Publication date: 2006-02-23
Anticipated expiration: 2024-08-11
Also published as: US20060078312A1; US7907184B2; JP4140579B2

Abstract

【課題】似ているシーンを関連付けて扱うことができるようにする。
【解決手段】ビデオカメラ１においては、レンズ３を介した撮影とワイドアングルレンズ４を介した撮影とが同期して行われる。レンズ３を介して撮影された撮影画像列と、ワイドアングルレンズ４を介して撮影された認識用画像列を取り込んだパーソナルコンピュータ２においては、認識用画像列を用いて、シーン間の類似度が算出され、似ているシーン同士のリンク付け、およびクラスタリングが行われる。認識用画像列を用いて行われたリンク付け、クラスタリングの結果が、対応する撮影画像列の各シーンのリンク付け、クラスタリングの結果として用いられ、再生中のシーンと似ているシーンの表示、似ているシーン毎の撮影画像列の再生が実現される。本発明は、動画の撮影、または再生機能を有する機器に適用することができる。
【選択図】図１

Description

本発明は、画像処理装置および方法、撮影装置、並びにプログラムに関し、特に、似ているシーンを関連付けて扱うことができるようにする画像処理装置および方法、撮影装置、並びにプログラムに関する。

近年、製品の低価格化が進んでいることによりビデオカメラがますます普及する傾向にある。また、筐体の小型化もあって、動画の撮影が一般に、かつ気軽に行われるようになってきている。

動画の撮影は、また、例えば、携帯電話機やディジタルスチルカメラに搭載された動画撮影機能によっても気軽に行われている。

ところで、特許文献１には、被写体の人物の名前を、撮影した画像のメタデータとして記録しておく技術が開示されている。

このように、撮影後の取り扱い等を考慮して、撮影した画像に各種の属性情報を付加しておく技術はある。例えば、業務用のビデオカメラの中には、番組編集時の作業を容易に行うことができるように、撮影時の天候、位置、音量や、クリップ（撮影開始から撮影終了までの１回の撮影期間の動画）の代表画などの属性情報がそれぞれのシーンに付加されるようにしたものがある。
特開２００４−６２８６８号公報

しかしながら、上述したように、撮影自体は気軽に行うことができるようになっているものの、撮影後の取り扱いが煩雑である。

例えば、DV(Digital Video)方式の従来のビデオカメラの場合、撮影済みの動画の再生方法としては、基本的に、DVテープに記録されている動画を、その撮影順に再生する方法しかなく、ユーザは、撮影済みの動画を気軽に視聴することができない。

すなわち、ユーザが見たいシーンは、大体、DVテープに記録されている全シーンのうちの特定のシーンに限られるところ、そのような特定のシーンのみを抽出し、再生するといったことができないことから、ユーザは、時系列的に再生される不要なシーンも見なければならず、退屈することが多い。

ディジタルスチルカメラで撮影し、パーソナルコンピュータなどに取り込んだ静止画の場合、複数の静止画をディスプレイにサムネイル表示させるなどして必要なファイルのみを容易に選択したりすることができるが、動画の場合も、そのようにある特定のシーンのみを容易に選択し、再生することができれば、ユーザが退屈するのを防ぐことが可能になると期待できる。

近年は、パーソナルコンピュータでノンリニア編集を行い、頭出しができる点やメディア自体のサイズが小さいといった点から、テープメディアと較べて取り扱いが簡単なDVD(Digital Versatile Disc)などのメディアに必要なシーンのみを記録させ、それを再生させることができるようになってきてはいるものの、撮影した動画をパーソナルコンピュータに取り込む作業や編集作業自体が煩雑である。

例えば、１本のDVテープから数十乃至数百のクリップがパーソナルコンピュータに取り込まれた場合、ユーザは、必要なシーンのみを編集して集めようとしたとしても、結局、それぞれのクリップを再生させなければ、どのクリップがどのシーンの動画であるのかが分からず、編集作業に膨大な時間がかかることになる。

この場合も、少なくとも、特定のシーンを容易に選択することができれば、編集の作業負担を軽減することが可能になると期待できる。

本発明はこのような状況に鑑みてなされたものであり、似ているシーンを関連付けて扱うことができるようにするものである。

本発明の画像処理装置は、再生対象となる第１の画像列と同じタイミングで撮影された、第１の画像列を構成する画像より撮影範囲の広い画像からなる第２の画像列を取得する取得手段と、第２の画像列に含まれる所定の数の連続する画像からなるシーン間の類似度を算出する算出手段と、算出手段により算出された類似度を、対応する第１の画像列のシーン間の類似度とし、類似度の高い第１の画像列のシーン同士の関連付けを行う関連付け手段とを備えることを特徴とする。

第２の画像列を構成する画像は、さらに、第１の画像列を構成する画像より解像度が低いものであるようにすることができる。

関連付け手段は、第１の画像列のシーン同士の関連付けとして、第１の画像列の第１のシーンのリンク先に第１のシーンと類似度の高い第２のシーンを設定するようにすることができる。

関連付け手段は、第１のシーンと類似度の高いシーンのうち、第１のシーンの撮影時刻と所定の時間以上離れた時刻を撮影時刻とする第２のシーンを第１のシーンのリンク先に設定するようにすることができる。

関連付け手段は、さらに、算出手段により算出された類似度に基づいて第１の画像列のシーンを検索するようにすることができる。

本発明の画像処理装置は、第１の画像列を再生する再生手段と、再生手段により第１のシーンが再生されているとき、第１のシーンのリンク先として設定されている第２のシーンを、同じ画面内の、第１のシーンが表示されている位置と異なる位置に表示する表示手段とをさらに備えるようにすることができる。

再生手段は、表示手段により表示された第２のシーンがユーザにより選択されたとき、選択された第２のシーンの再生を開始するようにすることができる。

関連付け手段は、第１の画像列のシーン同士の関連付けとして、類似度に基づいてクラスタリングを行うようにすることができる。

関連付け手段は、クラスタの粒度を設定し、設定した粒度により定まる数のクラスタに第１の画像列の全てのシーンが属するようにクラスタリングを行うようにすることができる。

関連付け手段は、粒度を複数設定し、それぞれの粒度毎にクラスタリングを行うようにすることができる。

本発明の画像処理装置は、関連付け手段により行われたクラスタリングの結果に基づいて、第１の画像列のうちの所定のクラスタに属するシーンを再生する再生手段をさらに備えるようにすることができる。

本発明の画像処理装置は、関連付け手段により行われたクラスタリングの結果に基づいて、時間軸上におけるクラスタに属するシーンの分布を、同じ画面内の、再生手段により再生されているシーンが表示されている位置と異なる位置に表示する分布表示手段をさらに備えるようにすることができる。

再生手段は、分布表示手段により表示されているクラスタに属するシーンの分布の中から選択されたシーンの再生を開始するようにすることができる。

算出手段は、第２の画像列の１つのシーンを構成するそれぞれの画像の特徴量の時系列と、第２の画像列に基づいて生成されたHMMを用いてマッチングを行い、シーン間の類似度を算出するようにすることができる。

関連付け手段による関連付けの結果を表すメタデータを生成し、生成したメタデータを第１の画像列と対応付けて記憶させる生成手段をさらに備えるようにすることができる。

本発明の画像処理方法は、再生対象となる第１の画像列と同じタイミングで撮影された、第１の画像列を構成する画像より撮影範囲の広い画像からなる第２の画像列を取得する取得ステップと、第２の画像列に含まれる所定の数の連続する画像からなるシーン間の類似度を算出する算出ステップと、算出ステップの処理により算出された類似度を、対応する第１の画像列のシーン間の類似度とし、類似度の高い第１の画像列のシーン同士の関連付けを行う関連付けステップとを含むことを特徴とする。

本発明のプログラムは、再生対象となる第１の画像列と同じタイミングで撮影された、第１の画像列を構成する画像より撮影範囲の広い画像からなる第２の画像列を取得する取得ステップと、第２の画像列に含まれる所定の数の連続する画像からなるシーン間の類似度を算出する算出ステップと、算出ステップの処理により算出された類似度を、対応する第１の画像列のシーン間の類似度とし、類似度の高い第１の画像列のシーン同士の関連付けを行う関連付けステップとを含む処理をコンピュータに実行させることを特徴とする。

本発明の撮影装置は、第１の画像列を撮影する第１の撮影手段と、第２の画像列を撮影する第２の撮影手段とを備える撮影装置であって、再生対象となる第１の画像列と同じタイミングで撮影された、第１の画像列を構成する画像より撮影範囲の広い画像からなる第２の画像列を取得する取得手段と、第２の画像列に含まれる所定の数の連続する画像からなるシーン間の類似度を算出する算出手段と、算出手段により算出された類似度を、対応する第１の画像列のシーン間の類似度とし、類似度の高い第１の画像列のシーン同士の関連付けを行う関連付け手段とを備えることを特徴とする。

本発明の画像処理装置および方法、並びにプログラムにおいては、再生対象となる第１の画像列と同じタイミングで撮影された、第１の画像列を構成する画像より撮影範囲の広い画像からなる第２の画像列が取得され、第２の画像列に含まれる所定の数の連続する画像からなるシーン間の類似度が算出される。また、算出された類似度が、対応する第１の画像列のシーン間の類似度とされ、類似度の高い第１の画像列のシーン同士の関連付けが行われる。

本発明の撮影装置においては、再生対象となる第１の画像列と同じタイミングで撮影された、第１の画像列を構成する画像より撮影範囲の広い画像からなる第２の画像列が取得され、第２の画像列に含まれる所定の数の連続する画像からなるシーン間の類似度が算出される。また、算出された類似度が、対応する第１の画像列のシーン間の類似度とされ、類似度の高い第１の画像列のシーン同士の関連付けが行われる。

本発明によれば、似ているシーンを関連付けて扱うことができる。

また、本発明によれば、あるシーンの再生中に、それと似ているシーンをユーザに見せることができる。

さらに、本発明によれば、似ているシーンだけを連続してユーザに見せることができる。

以下に本発明の実施の形態を説明するが、本明細書に記載の発明と、発明の実施の形態との対応関係を例示すると、次のようになる。この記載は、請求項に記載されている発明をサポートする実施の形態が本明細書に記載されていることを確認するためのものである。従って、発明の実施の形態中には記載されているが、発明に対応するものとして、ここには記載されていない実施の形態があったとしても、そのことは、その実施の形態が、その発明に対応するものではないことを意味するものではない。逆に、実施の形態が発明に対応するものとしてここに記載されていたとしても、そのことは、その実施の形態が、その発明以外の発明には対応しないものであることを意味するものでもない。

さらに、この記載は、本明細書に記載されている発明の全てを意味するものではない。換言すれば、この記載は、本明細書に記載されている発明であって、この出願では請求されていない発明の存在、すなわち、将来、分割出願されたり、補正により追加される発明の存在を否定するものではない。

請求項１に記載の画像処理装置は、再生対象となる第１の画像列（撮影画像列）と同じタイミングで撮影された、前記第１の画像列を構成する画像より撮影範囲の広い画像からなる第２の画像列（認識用画像列）を取得する取得手段（例えば、図９のコーディング処理部９１）と、前記第２の画像列に含まれる所定の数の連続する画像からなるシーン間の類似度を算出する算出手段（例えば、図９のマッチング処理部９５）と、前記算出手段により算出された類似度を、対応する前記第１の画像列のシーン間の類似度とし、類似度の高い前記第１の画像列のシーン同士の関連付けを行う（リンク付け、またはクラスタリングを行う）関連付け手段（例えば、図９のリンク先選択部９６、図２７のクラスタリング部２０１）とを備えることを特徴とする。

請求項３に記載の画像処理装置の関連付け手段（例えば、図９のリンク先選択部９６）は、前記第１の画像列のシーン同士の関連付けとして、前記第１の画像列の第１のシーンのリンク先に前記第１のシーンと類似度の高い第２のシーンを設定することを特徴とする。

請求項４に記載の画像処理装置の関連付け手段は、前記第１のシーンと類似度の高いシーンのうち、前記第１のシーンの撮影時刻と所定の時間以上離れた時刻を撮影時刻とする前記第２のシーンを前記第１のシーンのリンク先に設定する（図１５に示すようにデッドゾーンを設定する）ことを特徴とする。

請求項６に記載の画像処理装置は、前記第１の画像列を再生する再生手段（例えば、図２０の再生制御部１２２）と、前記再生手段により前記第１のシーンが再生されているとき、前記第１のシーンのリンク先として設定されている前記第２のシーンを、同じ画面内の、前記第１のシーンが表示されている位置と異なる位置に表示する表示手段（例えば、図２０のリンク先表示部１２３）とをさらに備えることを特徴とする。

請求項８に記載の画像処理装置の関連付け手段（例えば、図２７のクラスタリング部２０１）は、前記第１の画像列のシーン同士の関連付けとして、類似度に基づいてクラスタリングを行うことを特徴とする。

請求項１１に記載の画像処理装置は、前記関連付け手段により行われたクラスタリングの結果に基づいて、前記第１の画像列のうちの所定のクラスタに属するシーンを再生する再生手段（例えば、図３５の再生制御部２１２）をさらに備えることを特徴とする。

請求項１２に記載の画像処理装置は、前記関連付け手段により行われたクラスタリングの結果に基づいて、時間軸上における前記クラスタに属するシーンの分布を、同じ画面内の、前記再生手段により再生されているシーンが表示されている位置と異なる位置に表示する分布表示手段（例えば、図３５のクラスタ分布表示部２１３）をさらに備えることを特徴とする。

請求項１５に記載の画像処理装置は、前記関連付け手段による関連付けの結果を表すメタデータ（例えば、リンクデータ）を生成し、生成したメタデータを前記第１の画像列と対応付けて記憶させる生成手段（例えば、図４２のファイル生成部３２１）をさらに備えることを特徴とする。

請求項１６に記載の画像処理方法は、再生対象となる第１の画像列（撮影画像列）と同じタイミングで撮影された、前記第１の画像列を構成する画像より撮影範囲の広い画像からなる第２の画像列（認識用画像列）を取得する取得ステップ（例えば、図２２のステップＳ１１）と、前記第２の画像列に含まれる所定の数の連続する画像からなるシーン間の類似度を算出する算出ステップ（例えば、図２３のステップＳ３２）と、前記算出ステップの処理により算出された類似度を、対応する前記第１の画像列のシーン間の類似度とし、類似度の高い前記第１の画像列のシーン同士の関連付けを行う（リンク付け、またはクラスタリングを行う）関連付けステップ（例えば、図２５のステップＳ４４、図３７のステップＳ１０１）とを含むことを特徴とする。

請求項１７に記載のプログラムにおいても、各ステップが対応する実施の形態（但し一例）は、請求項１６に記載の画像処理方法と同様である。

請求項１８に記載の撮影装置は、第１の画像列（撮影画像列）を撮影する第１の撮影手段（例えば、図４１のビデオカメラ部３１１を構成する、図３のカメラ部１１）と、第２の画像列（認識用画像列）を撮影する第２の撮影手段（例えば、図４１のビデオカメラ部３１１を構成する、図３の認識用カメラ部１２）とを備える撮影装置であって、再生対象となる前記第１の画像列と同じタイミングで撮影された、前記第１の画像列を構成する画像より撮影範囲の広い画像からなる前記第２の画像列を取得する取得手段（例えば、図９のコーディング処理部９１）と、前記第２の画像列に含まれる所定の数の連続する画像からなるシーン間の類似度を算出する算出手段（例えば、図９のマッチング処理部９５）と、前記算出手段により算出された類似度を、対応する前記第１の画像列のシーン間の類似度とし、類似度の高い前記第１の画像列のシーン同士の関連付けを行う関連付け手段（例えば、図９のリンク先選択部９６、図２７のクラスタリング部２０１）とを備えることを特徴とする。

以下、本発明の実施の形態について図を参照して説明する。

図１は、本発明を適用した撮影・表示システムの構成例を示す図である。

ビデオカメラ１は、ユーザが視聴したり、編集したりする画像列（動画）を撮影する機能の他に、似ているシーンを探したり、似ているシーン毎に画像列をクラスタリングするための認識用の画像列を撮影する機能を有する。

例えば、ユーザによる視聴、編集の対象となる画像列（以下、撮影画像列という）は、ビデオカメラ１に設けられるレンズ３を介して撮影され、認識用の画像列（以下、認識用画像列という）は、レンズ３と同じ方向を光軸方向とするワイドアングルレンズ４を介して撮影される。

ビデオカメラ１により撮影された撮影画像列、認識用画像列は、図１の実線矢印で示すように、有線または無線を介してパーソナルコンピュータ２に取り込まれ、パーソナルコンピュータ２において撮影画像列の再生が行われる。

パーソナルコンピュータ２は、ビデオカメラ１から取り込んだ撮影画像列の再生機能として、現在再生中のシーンとは別に、再生中のシーンと似ているシーンをユーザに提示し、その似ているシーンが選択されたとき、選択されたシーンに再生対象を切り替えるジャンプ再生の機能を有する。

ここで、「シーン」とは、撮影された画像（例えば、１フレームの画像）を時間軸上に並べた画像列全体のうちの、連続する所定の数の画像からなる画像列をいう。

すなわち、パーソナルコンピュータ２は、ユーザが現在見ているシーンと似ているシーンを自動的に提示することで、ユーザに、既視感のある他のシーンを連想させること、いわば「デジャヴ」を与えることができる。

また、ユーザは、提示されたシーンの中から選択することで、現在再生中のシーンと似ているシーンのみを視聴することができる。例えば、現在再生中のシーンが、ユーザが見たいと思って選択したシーンであれば、それと似たものだけが提示され、それを用いて再生するシーンを変えることができるため、ある一連の動画を、撮影した順序で単に時系列的に全てのシーンを見続ける場合に較べて退屈してしまうことが少ない。

このようなジャンプ再生を実現するために、シーンのリンク付け等を行う機能部を図２の上方の吹き出しに示すように「デジャヴエンジン」という。デジャヴエンジンにおいては、図２に示すように、認識用画像列全体から注目するシーンが選択され、その注目するシーンと、他のシーンとの類似度の計算結果に基づいて、類似度の高いシーン、すなわち、似ているシーンのリンク付けが行われる。

図２の上方の吹き出しに示す「デジャヴプレーヤ」は、デジャヴエンジンによるリンク付けに従って、現在再生中の画像の表示とともに、その再生中の画像にリンク付けされている画像の表示を行うプレーヤである。

また、図１のパーソナルコンピュータ２は、似ているシーンのまとまりを計算し、そのまとまり毎に画像列を再生する機能を有する。

これにより、ユーザは、あるまとまりを指定するだけで、似ているシーンのみを連続して視聴することができる。

このようなまとまり毎の再生を実現するために、各シーンをクラスタリングする機能部を図２の下方の吹き出しに示すように「クラスタリングエンジン」という。

また、クラスタリングエンジンによるクラスタリング結果に従って、まとまり毎の再生、表示を行うプレーヤを「ダイジェストプレーヤ」という。

図２の例においては、画像列全体がクラスタ＃１乃至＃３にクラスタリングされており、クラスタ＃１乃至＃３のうちの例えばクラスタ＃１が選択されたとき、クラスタ＃１に含まれる画像のみの再生が行われる。

なお、デジャヴプレーヤやダイジェストプレーヤにより再生対象となる画像列は、認識用画像列とは異なり、レンズ３を介して撮影された撮影画像列である。すなわち、認識用画像列は、再生対象となる撮影画像列の再生に必要なリンク付けに関する情報、クラスタに関する情報等のメタデータを生成するための画像列であり、それ自体再生対象となることはない。

以上のようなパーソナルコンピュータ２による撮影画像列の再生については後に詳述する。

図３は、図１のビデオカメラ１の構成例を示すブロック図である。

ビデオカメラ１は、基本的に、レンズ３を介して撮影を行うカメラ部１１、ワイドアングルレンズ４を介して撮影を行う認識用カメラ部１２、カメラ部１１および認識用カメラ部１２により撮影された画像列を記憶する記憶装置１３から構成される。記憶装置１３は、例えば、HDD(Hard Disk Drive)やフラッシュメモリなどにより構成される。

カメラ部１１と認識用カメラ部１２による撮影は、ユーザによる撮影開始、撮影終了の指示に応じて同じタイミングで行われる。従って、記憶装置１３には、図４に示すように、同じタイミングでカメラ部１１により撮影された撮影画像列と、認識用カメラ部１２により撮影された認識用画像列が記憶される。

後に詳述するように、パーソナルコンピュータ２により行われるシーン間の類似度計算は、例えば、認識用画像列を構成する各画像の、対応する画素の画素値の時間的変化を見ることで行われる。このように、時間的変化を見るだけであるから、認識用の画像には高い解像度は求められず、認識用カメラ部１２により撮影された画像は、例えば、３２×２４（横×縦）画素の低い解像度の画像に変換され、記憶装置１３に記憶される。

また、対応する画素の画素値の変化が大きい場合、画素値の変化が比較的小さい場合に較べて、シーンが似ているか否かの判定精度が落ちることから、認識用画像列を撮影するレンズには、魚眼レンズなどの、より広角のレンズであるワイドアングルレンズ４が用いられる。１画像の解像度（例えば３２×２４）が同じであるとすると、狭い画角のレンズで撮影するよりも、広い画角のレンズで撮影した方が、ビデオカメラ１の向きを変えたときの画素値の変化（シーンの変化）を抑えることができ、これにより、判定精度を高めることができる。

以上のことから、図４において、例えば、撮影画像列の左端の画像ｆと、認識用画像列の左端の画像ｆ’は同じタイミングで撮影されたものである。また、画像ｆ’は、画像ｆより解像度の低い画像であるとともに、撮影範囲の広い画像である。

なお、以下の説明においては、適宜、図４に示すように時間軸上に並ぶ画像列のそれぞれの画像の位置をフレームナンバで表す。画像列のそれぞれの画像が１フィールドの画像である場合、それぞれの位置をフィールドナンバで表すことも可能である。

図５は、ビデオカメラ１の詳細な構成例を示すブロック図である。

カメラ部１１の撮像素子２１は、CCD(Charge Coupled Device)などより構成され、レンズ３を介して受光した光に対応する信号をA/D(Analog /Digital)変換部２２に出力する。

A/D変換部２２は、撮像素子２１から供給されてきた信号をA/D変換し、取得した画像を圧縮処理部２３に順次出力する。

圧縮処理部２３は、A/D変換部２２から供給されてくる画像（画像列）を、例えば、MPEG(Moving Picture Experts Group)2方式などの所定の圧縮方式で圧縮し、圧縮して得られた画像列のデータを記憶装置１３の撮影画像列記憶部４１に出力する。

認識用カメラ部１２の撮像素子３１、A/D変換部３２は、カメラ部１１の撮像素子２１、A/D変換部２２とそれぞれ同様である。すなわち、撮像素子３１は、ワイドアングルレンズ４を介して受光した光に対応する信号をA/D変換部３２に出力し、A/D変換部３２は、撮像素子３１からの出力に基づいて得られた画像を解像度変換部３３に順次出力する。

解像度変換部３３は、A/D変換部３２から供給されてくる画像を低解像度の画像に変換し、変換して得られる低解像度の画像を記憶装置１３の認識用画像列記憶部４２に出力する。解像度変換部３３においては、必要に応じて低解像度化した画像列の圧縮も行われる。

記憶装置１３は、撮影画像列記憶部４１と認識用画像列記憶部４２からなる。このうちの撮影画像列記憶部４１は、カメラ部１１の圧縮処理部２３から供給されてきた画像を記憶し、認識用画像列記憶部４２は、認識用カメラ部１２の解像度変換部３３から供給されてきた画像を記憶する。撮影画像列記憶部４１と認識用画像列記憶部４２には、それぞれ、図４の撮影画像列と認識用画像列を表すデータが記憶される。

出力部５１は、パーソナルコンピュータ２との間でIEEE(Institute of Electrical and Electronics Engineers)1394ケーブルやUSB(Universal Serial Bus)ケーブルなどを介して有線の通信を行い、または、IEEE802.11a/b/gなどに準拠した無線通信を行い、撮影画像列記憶部４１から読み出した撮影画像列と認識用画像列記憶部４２から読み出した認識用画像列をパーソナルコンピュータ２に出力する。

なお、図５においては、認識用カメラ部１２にもCCDなどよりなる撮像素子３１が設けられるとしたが、上述したように、認識用の画像は解像度の低いものでよいことから、撮像素子３１に替えて、光センサアレイが認識用カメラ部１２に設けられるようにしてもよい。

例えば、５×５個の光センサアレイが撮像素子３１に替えて設けられることによっても、それぞれの光センサの出力の時間的変化から各シーンの類似度を計算することが可能になる。また、配列する光センサの数によっては、CCDを駆動させる場合に較べて消費電力を抑えることが可能になる。従って、認識用カメラ部１２により撮影される「画像」には、CCDにより得られた光学情報の他、それぞれの光センサにより得られた光学情報も含まれる。

ここで、図６のフローチャートを参照して、以上のような構成を有するビデオカメラ１の撮影処理について説明する。

ユーザにより撮影の開始が指示されたとき、ステップＳ１において、カメラ部１１と認識用カメラ部１２はそれぞれ撮影を開始する。

すなわち、A/D変換部２２は、撮像素子２１から供給されてきた信号に基づいて画像を取得し、それを圧縮処理部２３に順次出力する。圧縮処理部２３は、A/D変換部２２から供給されてきた画像列を所定の圧縮方式で圧縮し、撮影画像列記憶部４１に出力する。

一方、認識用カメラ部１２のA/D変換部３２は、撮像素子３１から供給されてきた信号に基づいて画像を取得し、それを解像度変換部３３に順次出力する。解像度変換部３３は、A/D変換部３２から供給されてきた画像を低解像度化し、得られた低解像度の画像列を認識用画像列記憶部４２に出力する。

ステップＳ２において、記憶装置１３の撮影画像列記憶部４１と認識用画像列記憶部４２は、それぞれ、カメラ部１１と認識用カメラ部１２から供給されてきた画像列を記憶する。

ステップＳ３において、撮影の終了がユーザから指示されたか否かが判定され、指示されたと判定されるまで、ステップＳ１以降の処理が繰り返される。ステップＳ３において撮影の終了が指示されたと判定された場合、処理は終了される。

以上の処理がユーザ操作に応じて繰り返し行われることにより、記憶装置１３には、様々な場所で撮影された撮影画像列と認識用画像列が記憶されることになる。

図７は、図１のパーソナルコンピュータ２の構成例を示すブロック図である。

CPU(Central Processing Unit)６１は、ROM(Read Only Memory)６２に記憶されているプログラム、または、記憶部６８からRAM(Random Access Memory)６３にロードされたプログラムに従って各種の処理を実行する。RAM６３にはまた、CPU６１が各種の処理を実行する上において必要なデータなどが適宜記憶される。

CPU６１、ROM６２、およびRAM６３は、バス６４を介して相互に接続されている。このバス６４にはまた、入出力インタフェース６５も接続されている。

入出力インタフェース６５には、キーボード、マウスなどよりなる入力部６６、LCD(Liquid Crystal Display)などよりなる表示部６７、ハードディスクなどよりなる記憶部６８、ビデオカメラ１との間で有線または無線の通信を行う通信部６９が接続されている。記憶部６８には、例えば、通信部６９を介してビデオカメラ１から取り込まれた撮影画像列と認識用画像列が記憶される。

入出力インタフェース６５にはまた、必要に応じてドライブ７０が接続され、磁気ディスク、光ディスク、光磁気ディスク、或いは半導体メモリなどよりなるリムーバブルメディア７１が適宜装着され、それから読み出されたコンピュータプログラムが、必要に応じて記憶部６８にインストールされる。ビデオカメラ１が、撮影した画像を光ディスクやフラッシュメモリなどのリムーバブルメディアに記憶するものである場合、ビデオカメラ１により撮影された撮影画像列と認識用画像列は、例えば、そのメディアを介して、ドライブ７０によりパーソナルコンピュータ２に取り込まれる。

図８は、パーソナルコンピュータ２の機能構成例を示すブロック図である。図８の各機能部の少なくとも一部は、CPU６１により所定のプログラムが実行されることで実現される。

デジャヴエンジン８１は、ビデオカメラ１から取り込まれた認識用画像列を取得し、取得した認識用画像列のシーン間の類似度（距離）を算出する。また、デジャヴエンジン８１は、シーン間の距離の算出結果に基づいて、距離の近い、すなわち似ているシーン同士のリンク付けを行う。デジャヴエンジン８１により算出された距離の情報はクラスタリングエンジン８３に出力され、リンク付けに関する情報はメタデータとしてデジャヴプレーヤ８２に出力される。

デジャヴプレーヤ８２は、デジャヴエンジン８１から供給されてきたメタデータに従って、記憶部６８に記憶されている撮影画像列の再生を行う。デジャヴプレーヤ８２により表示部６７に表示される画面には、再生中のシーンとともに、メタデータに基づいて選択される、その再生中のシーンと似ているシーンが表示される。

すなわち、撮影画像列と認識用画像列は同じタイミングで撮影されたものであり、認識用画像列のシーン間の似ている／似ていないは、対応する（撮影時刻が同じ）撮影画像列のシーン間の似ている／似ていないとほぼ一致するから、デジャヴプレーヤ８２においては、認識用画像列のシーン間の似ている／似ていないが、撮影画像列のシーン間の似ている／似ていないとして、撮影画像列の再生、表示が行われることになる。

後述するダイジェストプレーヤ８４においても、クラスタリングエンジン８３による認識用画像列のシーンのクラスタリング結果が、撮影画像列のシーンのクラスタリング結果として、撮影画像列の再生、表示が行われる。

クラスタリングエンジン８３は、デジャヴエンジン８１から供給されてきた距離情報に基づいてシーンのクラスタリングを行う。クラスタリング結果を表す、どのシーンがどのクラスタに属するかを表す情報は、メタデータとしてダイジェストプレーヤ８４に出力される。

ダイジェストプレーヤ８４は、クラスタリングエンジン８３から供給されてきたメタデータに従って、似ているシーンのまとまりであるクラスタ毎に撮影画像列の再生を行う。ダイジェストプレーヤ８４により表示部６７に表示される画面には、あるクラスタに属する再生中の画像とともに、時間軸上のクラスタに属するシーンの分布が表示される。

図９は、図８のデジャヴエンジン８１の機能構成例を示すブロック図である。なお、図９には、図７の記憶部６８の機能構成例の一部も示されている。

デジャヴエンジン８１は、コーディング処理部９１、特徴ベクトル算出部９２、特徴ベクトル記憶部９３、HMM(Hidden Markov Model)生成部９４、マッチング処理部９５、リンク先選択部９６から構成される。また、記憶部６８は、認識用画像列記憶部１１１、HMM記憶部１１２から構成される。

コーディング処理部９１は、ビデオカメラ１から取り込まれた認識用画像列を構成する画像のうち、不要であると考えられる画像を省くコーディング処理を行う。この処理は、図４に示すような認識用画像列の先頭の画像から、対象とする画像を時系列順に切り替えて行われる。コーディング処理により不要ではないと考えられる画像のみが認識用の画像として選択され、特徴ベクトル算出部９２と認識用画像列記憶部１１１に出力される。

例えば、コーディング処理部９１は、下式（１）に基づいて、今回取得された画像Ｚと、不要なものではないとして最後に選択した画像ｘ_iとの比較を行い、これらの２つの画像間の非類似度または時間間隔に、予め定められた閾値以上の差がある場合、その、今回取得された画像Ｚを認識用の画像として選択する。

ここで、Ｄ_maxはＤ(x_i-1，Z)の最大値である。関数Ｄは、後述する下式（３）で定義される。また、ρは画像ｘ_i-1、および画像Ｚの受付に必要となるパーセンテージ変化であり、βは適応速度を調整するためのファクタである。これらのρ，βには所定の値が設定される。さらに、ｔ_i-1は画像ｘ_i-1が取得された時刻であり、ｔ_Zは画像Ｚが取得された時刻である。

このように、２つの画像間の非類似度や時間間隔に基づいて画像を選択することにより、同一、または、ほぼ同一の画像が連続して選択されることを防止することができ、有用な画像情報を失うことなく、認識用画像列を圧縮することができる。

また、後述するように、コーディング処理部９１により選択された画像列に基づいてHMMが生成されるから、不要な画像が排除されるようにすることで、マッチング処理で利用可能な情報を効率的に多く含む、より大きなHMMを生成することが可能になる。

特徴ベクトル算出部９２は、コーディング処理部９１から供給されてきた画像の特徴を表す特徴ベクトル（特徴量）を算出し、算出した特徴ベクトルを特徴ベクトル記憶部９３に記憶させる。

例えば、特徴ベクトル算出部９２は、コーディング処理部９１から供給されてきた画像ｘ_iと、認識用画像列記憶部１１１に記憶されている画像｛x₁,…,x_M｝（コーディング処理部９１により過去に選択された認識用画像列）のそれぞれの距離を求め、その求めた各距離を要素とする特徴ベクトルを取得する。すなわち、下式（２）で表されるＭ次元の特徴ベクトルが得られる。

なお、Ｄ(x,y)は例えば下式（３）で表されるが、２つの画像ｘ，ｙ間の差を表すことができるものであれば他の任意の関数を用いることができる。式（３）において、HWはセンサ番号の高さ方向および幅方向の最大値である。また、ｌは画像のピクセル位置、ｃは色チャネル番号（通常１、２、３はそれぞれ赤、緑、青を示す）を表す。

特徴ベクトル記憶部９３は、例えば、サーキュラバッファ（Circular Buffer）により構成され、予め定められた数の特徴ベクトルを、特徴ベクトル算出部９２から供給されてきた順序で記憶する。特徴ベクトル記憶部９３に記憶される特徴ベクトルの順序は、認識用の画像が撮影された時間的な順序に対応する。

すなわち、特徴ベクトル記憶部９３に記憶されている内容は、特徴ベクトルを時系列的に並べたものであり、そのうちの最新の特徴ベクトルを「現在」とすると、その「現在」に至るまでの時間的な状況の遷移を表すことになる。このように所定の数の特徴ベクトルにより表される「現在」に至るまでの状況の遷移が、認識用画像列記憶部１１１に記憶されている画像により表される「過去」の状況の遷移とマッチングされる。

HMM生成部９４は、認識用画像列記憶部１１１に記憶されている認識用画像列に基づいてHMMを生成し、生成したHMMをHMM記憶部１１２に記憶させる。また、HMM生成部９４は、コーディング処理部９１により選択された認証用の画像が認識用画像列記憶部１１１に記憶される毎に、HMM記憶部１１２に記憶されているHMMを再構築する。

図１０は、HMM記憶部１１２に記憶されるHMMの例を示す図である。

図１０に示すように、HMM記憶部１１２には、Ｎ個の認証用の画像が各状態にそれぞれ対応するように構成されたHMMが記憶される。すなわち、デジャヴエンジン８１において用いられるモデルは、例えば、部分的にラベル付けされたデータから期待値最大化法（Expectation-Maximization）等を用いて推定されるパラメータよりなるものではなく、HMMの各状態を、認識用画像列記憶部１１１に記憶されているそれぞれの画像に直接対応させたものである。

また、その遷移パラメータとして、図１０の下方に示すように予め定められた値が設定される。図１０の遷移パラメータにおいて、縦軸は遷移確率であり、横軸は画像間（状態間）の時間的な距離である。例えば、図１０に示すように、距離が大きくなるに従って、遷移確率が０に近づくようなガウス分布に基づいて算出された値が設定される。これにより、遷移パラメータの最適化処理を行う必要がなく、処理負担を軽減させることができる。

このように、通常のように学習を行わずに、遷移パラメータとして予め定めたものを使用するのは、HMMの各状態に対応する画像は時系列的に順次取得されたものであり、ある状態（図１０の場合、状態４）から、時間的に遠い状態に遷移する可能性は小さいか、またはゼロであると考えられるためである。

図９の説明に戻り、マッチング処理部９５は、HMM記憶部１１２に記憶されているHMMによるビタビ時系列マッチを行い、特徴ベクトル記憶部９３に記憶されている特徴ベクトルの時系列と、HMMの状態とのマッチ度を算出する。特徴ベクトルの時系列は認識用画像のある期間の時系列を表し、また、HMMの各状態は認識用画像列（認識用画像列記憶部１１１に記憶されている認識用画像列）に対応するから、HMMによるマッチングにより得られるマッチ度の逆数により、特徴ベクトルで表される認識用画像列のある期間のシーンと、そのシーンとマッチングされたHMMの状態に対応するシーンとの距離が表される。

図１１は、マッチング処理部９５により行われるマッチングの概念を示す図である。図１１においては、説明の便宜上、特徴ベクトル記憶部９３に記憶されている特徴ベクトルの列を、それにより表される画像列（シーン）として示している。

図１１に示すように、マッチング処理部９５は、特徴ベクトル記憶部９３に記憶されている特徴ベクトルで表される注目シーンと、HMM記憶部１１２に記憶されている認識用画像列（HMMの状態に対応する画像列）のうちの所定の期間のシーンの時系列マッチを行い、それを、比較される側のシーンを１画像ずつずらしていくことによって、１つの注目シーンに対する、認識用画像列を構成する全てのシーンとの距離を取得する。

図１１においては、注目シーンと、認識用画像列全体のうちの期間＃０のシーンとの距離が求められ、次に、注目シーンと、期間＃０と１画像分だけずれた期間である期間＃１のシーンとの距離が求められる。これが、期間＃ｎのシーンが比較される側のシーンとされるまで繰り返されることによって、１つの注目シーンに対する、認識用画像列を構成する全てのシーンとの距離が取得される。

図１２は、１つの注目シーンに対する、認識用画像列を構成する全てのシーンとの距離をグラフ化したものである。縦軸はシーン間の距離を表し、横軸はシーンの位置（フレームナンバ）を表す。以下、シーン（例えば、注目シーン、注目シーンと比較される側のシーン）の位置を、そのシーンを構成する画像のうちの時間的に最も新しい画像のフレームナンバで表す。

なお、注目シーンは、認識用画像列全体のうちのどこかに含まれることから、注目シーンと、それと比較する認識用画像列のシーンが同じ画像の列になることがあり、この場合、それらのシーン間の距離はゼロになる。図１２においては、このグラフが得られた注目シーンの位置は、円で囲むフレームナンバＮで表されている。

さらに、マッチング処理部９５は、注目シーンも、それを構成する画像列を１画像ずつずらしていき、新たに選択した注目シーンと、認識用画像列を構成する他のシーンとの距離をビタビ時系列マッチにより取得する。

例えば、図１１において、期間＃０の画像列が注目シーンとされ、その注目シーンと、認識用画像列を構成する他のシーンとの距離が求められた場合、次に、期間＃１の画像列が注目シーンとされ、その注目シーンと、他のシーンとの距離が求められる。これが、期間＃ｎのシーンを注目シーンとして、他のシーンとの距離が取得されるまで繰り返されることによって、認識用画像列の全ての画像列を注目シーンとした場合のそれぞれの距離が求められる。

すなわち、期間＃０乃至＃ｎのそれぞれの画像列を注目シーンとして、認識用画像列を構成する他のシーンとの距離が求められることによって、図１２に示すようなグラフがｎ個だけ取得されることになる。

ここで、シーンＳ_iとシーンＳ_jの距離を距離ｄ_ij、認識用画像列の全画像数をＮとすると、図１３に示すように、シーン間の距離はＮ×Ｎの行列で表される。なお、ｉ＝ｊの場合、距離ｄ_ijはゼロである。

マッチング処理部９５は、このようにして取得した全シーン間の距離を表す距離情報（距離の行列）をリンク先選択部９６とクラスタリングエンジン８３に出力する。リンク先選択部９６においては、全シーン間の距離に基づいてシーン同士のリンク付けが行われ、クラスタリングエンジン８３に出力においては各シーンのクラスタリングが行われる。

ここで、マッチング処理部９５により行われるビタビ時系列マッチ（ビタビアルゴリズム）について説明する。

ビタビアルゴリズムは、以下のような最大化問題への解を提供する。下式（４）において、ｓ_iはｉ番目の画像ｘ_iに対応する状態を表し、ｓ^* _iは最適化された状態を表す。

ビタビアルゴリズムによって、図１４に示すように、特徴ベクトル記憶部９３に記憶されている特徴ベクトルの行列Ｈとして表されるＮ個の画像からなる注目シーンと、HMM記憶部１１２に記憶されている認識用画像列（HMM）をマッチさせる最適状態系列が決定され、その最適状態系列に沿って求められる確率が、シーン間の距離として取得される。図１４の例においては、太線矢印で示す｛S₁,S₁,S₂,S₃,S₃,S₂,S₃,S₄,S₄｝の系列が最適状態系列として決定されている。

以上においては、ビタビ時系列マッチによりシーン間の距離を算出するとしたが、当然、他の方法によりシーン間の距離が算出されるようにすることも可能である。なお、以上のようなシーン間の距離の算出やビタビ時系列マッチについては、本出願人による特願２００４−１９１３０８号に、さらにその詳細が開示されている。

リンク先選択部９６は、マッチング処理部９５から供給されてきた距離情報に基づいて、似ているシーン同士のリンク付けを行う。リンク先選択部９６によるリンク付けは、基本的に、注目シーンのリンク先としないシーンの範囲であるデッドゾーンを設定する処理、リンク先の候補を選択する処理、候補の中からリンク先を選択する処理の３つの処理からなる。

図１５は、デッドゾーンを設定する処理について示す図である。

図１５のグラフは、図１２のグラフと同じものである。以下、フレームナンバＮの画像を時間的に最も新しい画像として含むシーン（それを注目シーンとすることによって、図１２、図１５のグラフが得られたシーン）を注目シーンとして、その注目シーンのリンク先を選択する場合について説明する。

この場合、フレームナンバが近い、すなわち、注目シーンの撮影時刻に近い時刻を撮影時刻とするシーンは当然似ているから、そのような似ているのが当然であるようなシーンについては、リンク先として選択されないように、フレームナンバＮを中心として、所定の範囲のシーンがデッドゾーンとして設定される。図１５において、デッドゾーンには色が付されている。

図１６は、リンク先の候補を選択する処理について示す図である。

デッドゾーンが設定された後、図１６に示すように、注目シーンと距離の近いシーンが所定の数だけ選択される。図１６の例においては、３つの候補である候補＃１乃至＃３が選択されており、これらのシーンは、いずれもデッドゾーンの範囲外にあるシーンである。

図１７は、候補の中からリンク先のシーンを選択する処理について示す図である。

図１７の例においては、距離０．４近傍に閾値が設定されており、この閾値より注目シーンとの距離が近い、フレームナンバＮ₁をその位置とする候補＃１、および、フレームナンバＮ₂をその位置とする候補＃２のみがリンク先として選択されている（リンク先として選択されなかった候補＃３は点線で示されている）。

従って、この場合、図を参照して後述するように、フレームナンバＮのシーンが再生対象となっており、そのシーンが表示されているタイミングでは、フレームナンバＮ₁，Ｎ₂のシーンが、再生中のシーンと似ているシーンとして表示される。

以上のようなリンク先の選択がそれぞれのシーンに注目して行われることにより、例えば、図１８に示すようなシーンのリンク付けが行われる。

なお、図１５乃至図１７においては、グラフにより表されるのはシーン間の距離であるからシーン同士をリンク付けするとして説明したが、実際にリンク付けされるのは、リンク付けするものとして選択されたシーンの、例えば、時間的に最も新しい画像同士である。

図１８の例においては、リンクポイント＃１にある画像に対しては、３つの矢印で示すように、リンク先＃１として画像ｆ₁₁、リンク先＃２として画像ｆ₁₂、リンク先＃３として画像ｆ₁₃が選択されている。リンク先＃１，＃２，＃３の順番は、例えば、シーン間の距離により定まる。

同様に、リンクポイント＃２にある画像に対しては、２つの矢印で示すように、リンク先＃１として画像ｆ₂₁、リンク先＃２として画像ｆ₂₂が選択され、リンクポイント＃３にある画像に対しては、１つの矢印で示すように、リンク先＃１として画像ｆ₃₁が選択されている。

リンク先選択部９６は、以上のようにしてリンク先を選択し、どの画像に対してどの画像がリンク付けされているのかを表すリンクデータを生成する。

図１９は、リンクデータの例を示す図である。

図１９において、各行の左端に示す数字と「：（コロン）」は説明の便宜上付したものであり、リンクデータを構成するものではない。また、図１９に示すリンクデータは、図１８のリンク付けを表すものではない。

第１行目の「Frame0_LinkNum=3」は、フレームナンバ０の画像には、リンク先が３つ（Link0,1,2）設定されていることを表す。

第２行目の「Frame0_Link0=2452」は、フレームナンバ０の画像のリンク先の１つである「Link0」のフレームナンバが「2452」であることを表す。同様に、第３行目の「Frame0_Link1=5664」は、フレームナンバ０の画像のリンク先の１つである「Link1」のフレームナンバが「5664」であることを表す。

第４行目の「Frame0_Link2_FileName=family.mpg」は、フレームナンバ０の画像のリンク先の１つである「Link2」が、「family.mpg」の名前が設定されたファイルに格納されている画像であることを表す。

第５行目の「Frame0_Link2=343」は、その「family.mpg」の名前が設定されたファイル中のフレームナンバ「343」の画像が、フレームナンバ０の画像のリンク先（Link2）であることを表す。

このように、パーソナルコンピュータ２に記憶されている全ての画像列を対象としてシーン間の距離の算出、リンク先の選択が行われる場合、ファイルを越えてリンク付けがされることもある。

第６行目の「Frame0_Next=15」は、フレームナンバ０の画像の次に、リンク先に関する情報が設定されている画像のフレームナンバが「15」であることを表し、第７行目の「Frame15_LinkNum=0」は、フレームナンバ１５の画像にはリンク先がないことを表す。このように、リンク先がないことは、その画像が再生対象の画像になったとき、それまで表示していたリンク先の表示を消去することを表す。

従って、例えば、図１９のリンクデータに従って撮影画像列のフレームナンバ０の画像から再生が行われる場合、そのフレームナンバ０の画像の表示と同時に、似ているシーンの画像としてフレームナンバ２４５２，５６６４の画像、および、「family.mpg」の名前が設定されたファイルに格納されているファイルナンバ３４３の画像が表示される。その状態は、再生対象の画像がフレームナンバ１５の画像となるまで続けられる。

フレームナンバ１５の画像が現在の再生対象の画像になったとき、フレームナンバ２４５２，５６６４の画像、および、「family.mpg」の名前が設定されたファイルに格納されているファイルナンバ３４３の画像の表示は消去される。

第８行目の「Frame15_Next=476」は、フレームナンバ１５の次にリンク先に関する情報が設定されている画像のフレームナンバが「476」であることを表し、以降、同様の記述がリンクデータに含まれる。

このような記述を含むリンクデータが、メタデータとしてデジャヴエンジン８１からデジャヴプレーヤ８２に出力される。

以上のような構成を有するデジャヴエンジン８１の動作についてはフローチャートを参照して後述する。

図２０は、デジャヴプレーヤ８２の機能構成例を示すブロック図である。

デジャヴプレーヤ８２は、画像選択部１２１、再生制御部１２２、およびリンク先表示部１２３から構成される。

画像選択部１２１は、記憶部６８（図７）に記憶されている撮影画像列を読み出し、デジャヴエンジン８１から供給されてくるリンクデータとユーザ操作に基づいて、撮影画像列うちの必要な画像を選択する。画像選択部１２１は、撮影画像列から選択した再生対象とする画像を再生制御部１２２に出力するともに、再生制御部１２２により再生されている画像のリンク先を撮影画像列から選択し、その選択したリンク先をリンク先表示部１２３に出力する。

例えば、図１９のリンクデータが供給されている場合において、フレームナンバ０の画像が再生制御部１２２により再生されているとき、画像選択部１２１は、その画像のリンク先であるフレームナンバ２４５２，５５６４，３４３（「family.mpg」の名前が設定されたファイルにある画像）の画像を撮影画像列から選択し、それらをリンク先表示部１２３に出力する。

再生制御部１２２は、画像選択部１２１から供給されてきた画像を再生し、それを表示部６７の所定の位置に表示させる。

リンク先表示部１２３は、画像選択部１２１から供給されてきたリンク先を、再生制御部１２２により表示されている再生中の画像の位置と異なる位置に表示させる。

図２１は、デジャヴプレーヤ８２により表示される画面の例を示す図である。

中央上方の動画表示部１３１には、再生制御部１２２により再生されている画像（ユーザにより選択された動画）が表示され、画面の下方にあるリンク先表示部１３３−１乃至１３３−３には、そのとき動画表示部１３１に表示されている画像のリンク先が表示される。再生中の画像に応じてリンク先が異なるから、リンク先表示部１３３−１乃至１３３−３の表示は、適宜、そのときの動画表示部１３１の表示に連動して切り替わることになる。

これにより、再生中のシーンとは別に、ユーザが過去に見たであろう、その再生中のシーンと似ているシーンを提示することができ、ユーザに「デジャヴ」を与えることが可能になる。

例えば、いま、ユーザが先日スキー場に行ったときに撮影した動画を再生させている場合（その動画が動画表示部１３１に表示されている場合）、その動画とは別に、ユーザが去年行ったスキー場の動画がパーソナルコンピュータ２に記憶されているときには、その去年のスキー場のシーンなどが自動的に提示されることになる。従って、ユーザは、去年もスキー場に行ったことを思い出したりすることができる。

また、図２１の画面においては、リンク先表示部１３３−１乃至１３３−３に表示されている画像を選択することによって、その画像の位置から撮影画像列の再生を開始させることができるようになされている。従って、ユーザは、そのように自動的に提示される画像の中から選択するだけで、似たようなシーンに再生対象を替えることができる。

なお、リンク先表示部１３３−１乃至１３３−３には、リンク先の静止画、動画のいずれが表示されるようにしてもよい。動画が表示される場合、例えば、リンク先とされている画像以降の所定の期間のシーンが表示される。

図２１において、動画表示部１３１とリンク先表示部１３３−１乃至１３３−３の間にあるスライドバー１３２は、ユーザが再生対象として選択した動画ファイル全体のうちの、現在の再生位置を表す。ユーザは、このスライドバー１３２を操作することによっても再生位置を替えることができる。

次に、図２１の表示が実現されるまでのデジャヴエンジン８１およびデジャヴプレーヤ８２の一連の動作について説明する。

始めに、図２２のフローチャートを参照して、デジャヴエンジン８１により行われる認識用の画像の選択処理について説明する。

ステップＳ１１において、デジャヴエンジン８１のコーディング処理部９１（図９）は、ビデオカメラ１から取り込まれた認識用画像列のうちの１つの画像を取得し、ステップＳ１２に進み、今回取得した画像と、最後に選択した画像（不要でない画像として選択した画像）との比較を行い、これらの２つの画像間の非類似度または時間間隔に、予め定められた閾値以上の差があるか否かを判定する。上述したように、ここでの判定は、例えば、上式（１）に基づいて行われる。

コーディング処理部９１は、ステップＳ１２において、それらの画像の間に閾値以上の差がないと判定した場合、ステップＳ１１に戻り、次の画像を取得して以降の処理を繰り返す。

一方、ステップＳ１２において、コーディング処理部９１は、それらの画像の間に閾値以上の差があると判定した場合、ステップＳ１３に進み、その、今回取得した画像を認識用の画像として選択する。コーディング処理部９１により選択された画像は、記憶部６８の認識用画像列記憶部１１１に記憶されるとともに、特徴ベクトル算出部９２に出力される。

ステップＳ１４において、コーディング処理部９１は、ビデオカメラ１から取り込まれた認識用画像列のうちの最後の画像を取得したか否かを判定し、取得していないと判定した場合、ステップＳ１１に戻り、それ以降の処理を行う。コーディング処理部９１は、ステップＳ１４において、最後の画像を取得したと判定した場合、処理を終了させる。

次に、図２３のフローチャートを参照して、デジャヴエンジン８１のHMM生成処理について説明する。

ステップＳ２１において、デジャヴエンジン８１のHMM生成部９４は、認識用の画像がコーディング処理部９１により新たに選択され、それが認識用画像列記憶部１１１に記憶されたか否か、すなわち、認識用画像列記憶部１１１に記憶されている認識用画像列が更新されたか否かを判定し、更新されたと判定するまで待機する。

HMM生成部９４は、ステップＳ２１において、認識用画像列が更新されたと判定した場合、ステップＳ２２に進み、認識用画像列記憶部１１１に記憶されている認識用画像列に基づいてHMMを生成し、生成したHMMをHMM記憶部１１２に記憶させる。その後、処理は終了される。

これにより、HMM記憶部１１２には、図１１に示すような、Ｎ個の認証用の画像が各状態にそれぞれ対応するように構成されたHMMが記憶される。

なお、HMM記憶部１１２にHMMが既に記憶されている場合、HMM生成部９４は、その記憶されているHMMを、更新された認識用の画像に基づいて再構築する。

次に、図２４のフローチャートを参照して、デジャヴエンジン８１により行われるシーン間の距離算出処理について説明する。

ステップＳ３１において、特徴ベクトル算出部９２は、HMMの各状態に対応する認識用画像列とマッチングする注目シーンを設定する。すなわち、特徴ベクトル算出部９２は、注目シーンとする画像の特徴ベクトルを算出し、算出した特徴ベクトルを特徴ベクトル記憶部９３に記憶させる。

ステップＳ３２において、マッチング処理部９５は、ステップＳ３１で設定された注目シーンと、HMM記憶部１１２に記憶されているHMMの状態に対応するシーンの距離を算出する。また、マッチング処理部９５は、注目シーンとの距離の算出を、比較される側のシーンを１画像ずつずらして繰り返し行い、１つの注目シーンに対する、認識用画像列を構成する全てのシーンとの距離を算出する。

１つの注目シーンに対する全てのシーンとの距離が算出された場合、特徴ベクトル算出部９２は、ステップＳ３３において、注目シーンを１画像ずらして設定する。すなわち、特徴ベクトル算出部９２は、注目シーンとして加える１つの画像の特徴ベクトルを算出し、それを特徴ベクトル記憶部９３に記憶させる。なお、このとき、特徴ベクトル記憶部９３に記憶されていた時間的に最も古い画像の特徴ベクトルは削除される。

これにより、例えば、認識用画像列のうち、図１１の期間＃０のシーンがそれまで注目シーンとして設定されていた場合、注目シーンとする期間が１画像分移動し、期間＃１のシーンが新たに注目シーンとして設定されることになる。

ステップＳ３４において、特徴ベクトル算出部９２は、認識用画像列の最後の画像を含むシーンを注目シーンとして距離の算出を行ったか否かを判定し、まだ行っていないと判定した場合、ステップＳ３２に戻り、それ以降の処理を行う。すなわち、ステップＳ３３で設定された注目シーンに対する距離の算出が繰り返し行われる。

一方、特徴ベクトル算出部９２は、ステップＳ３４において、認識用画像列の最後の画像を含むシーンを注目シーンとして距離の算出を行ったと判定した場合、ステップＳ３５に進む。

ステップＳ３５において、マッチング処理部９５は、全シーン間の距離の行列を含む距離情報をリンク先選択部９６とクラスタリングエンジン８３に出力し、処理を終了させる。

次に、図２５のフローチャートを参照して、デジャヴエンジン８１のリンク先選択処理について説明する。

この処理は、例えば、図２４の処理が行われ、マッチング処理部９５からリンク先選択部９６に距離情報が供給されてきたときに開始される。

ステップＳ４１において、リンク先選択部９６は、マッチング処理部９５から供給されてきた距離情報を取得し、その中から、１つの注目シーンの距離情報を選択する。ここで選択される情報は、図１２に示すような距離情報、または、図１３の行列のうちの１行（または１列）の距離に関する距離情報である。例えば、認識用画像列全体のうち、最初の画像を含むシーンを注目シーンとして算出された距離情報から選択され、以降の処理が行われる。

ステップＳ４２において、リンク先選択部９６は、注目シーンのリンク先としないシーンの範囲であるデッドゾーンを設定する（図１５）。

また、リンク先選択部９６は、ステップＳ４３において、注目シーンとの距離が近いシーンをリンク先の候補のシーンとして所定の数だけ選択し（図１６）、ステップＳ４４に進み、選択した候補の中から、実際にリンク先とするシーンを閾値処理により選択する（図１７）。

ステップＳ４５において、リンク先選択部９６は注目シーンを１画像ずらし、新たに選択した注目シーンの距離情報を取得する。

ステップＳ４６において、リンク先選択部９６は、認識用画像列の最後の画像を含むシーンを注目シーンとしてリンク先を選択したか否かを判定し、選択していないと判定した場合、ステップＳ４２に戻り、それ以降の処理を行う。すなわち、ステップＳ４５で新たに選択された注目シーンのリンク先の選択が繰り返し行われる。

一方、リンク先選択部９６は、ステップＳ４６において、認識用画像列の最後の画像を含むシーンを注目シーンとしてリンク先を選択したと判定した場合、ステップＳ４７に進む。

ステップＳ４７において、リンク先選択部９６は、それまでに選択したリンク先に関する情報を記述するリンクデータを生成し、生成したリンクデータをデジャヴプレーヤ８２に出力する。その後、処理は終了される。

次に、図２６のフローチャートを参照して、デジャヴプレーヤ８２の再生処理について説明する。

ステップＳ６１において、デジャヴプレーヤ８２の画像選択部１２１（図２０）は、ユーザ操作に応じて、記憶部６８に記憶されている撮影画像列を読み出し、再生対象とする画像を選択する。例えば、記憶部６８に記憶されている所定の動画ファイルが選択されたとき、画像選択部１２１は、そのファイルに格納される撮影画像列の先頭の画像から順次選択し、それを再生制御部１２２に出力する。

また、画像選択部１２１は、ステップＳ６２において、デジャヴエンジン８１から供給されてきたリンクデータを参照し、現在の再生対象の画像のリンク先を撮影画像列から選択する。画像選択部１２１により選択されたリンク先はリンク先表示部１２３に出力される。なお、そのとき再生対象とされている画像にリンク先がない場合、リンク先表示部１２３にリンク先は出力されない。

ステップＳ６３において、再生制御部１２２は、画像選択部１２１から供給されてきた画像の再生を開始し、表示部６７の所定の位置に表示させる。

一方、リンク先表示部１２３は、ステップＳ６４において、画像選択部１２１から供給されてきたリンク先を表示部６７の所定の位置に表示させる。これにより、表示部６７には、例えば、図２１の画面が表示される。

ステップＳ６５において、画像選択部１２１は、現在、再生制御部１２２により再生されている画像のリンク先が、リンク先表示部１３３−１乃至１３３−３に表示されている画像と異なるか否かを判定する。すなわち、ステップＳ６３で再生が開始された後、再生対象の画像は時間の経過とともに順次変わるから、現在再生対象とされている画像のリンク先がリンク先表示部１３３−１乃至１３３−３に正しく表示されているか否かが判定される。

ステップＳ６５において、画像選択部１２１は、再生制御部１２２により再生対象とされている画像のリンク先が、リンク先表示部１３３−１乃至１３３−３に表示されている画像と異なると判定した場合、ステップＳ６６に進む。

ステップＳ６６において、画像選択部１２１は、リンク先として新たに表示させる画像をリンク先表示部１２３に供給し、リンク先表示部１３３−１乃至１３３−３の表示を変更させる。これにより、再生中の画像に連動して、リンク先の表示が切り替えられる。

ステップＳ６５において、現在再生中の画像のリンク先が正しくリンク先表示部１３３−１乃至１３３−３に表示されていると判定された場合、ステップＳ６６の処理はスキップされる。

ステップＳ６７において、画像選択部１２１は、ユーザ操作に基づいて、リンク先表示部１３３−１乃至１３３−３に表示しているリンク先が選択され、再生対象をリンク先に変更することが指示されたか否かを判定し、指示されたと判定した場合、ステップＳ６８に進む。

ステップＳ６８において、画像選択部１２１は、ユーザによりリンク先が選択された場合、その選択されたリンク先以降の画像を再生制御部１２２に供給し、再生を開始させる。これにより、それまでに再生されていたシーンの再生は終了され、新たに選択されたリンク先以降のシーンの再生が開始される。

ステップＳ６７において、リンク先が選択されていないと判定された場合、ステップＳ６８の処理はスキップされる。

ステップＳ６９において、画像選択部１２１は、再生を終了するか否かを判定し、終了しないと判定した場合、ステップＳ６５に戻り、それ以降の処理を繰り返す。例えば、ユーザにより再生の停止が指示された場合、または、ユーザにより選択された撮影画像列の最後の画像まで再生した場合、画像選択部１２１は、ステップＳ６９において、再生を終了すると判定し、処理を終了させる。

以上の一連の処理により、ユーザは、自分が選択したシーンを見ることができるとともに、そのシーンと似ているシーンも、同じ画面で確認することができる。また、ユーザは、似ているものとして表示されたシーンの中から所定のシーンを選択することによって、似ているシーンのジャンプ再生（図２の上方の吹き出しに示す再生方法）を容易に行うことができる。

次に、図２の下方の吹き出しに示す再生方法である、似ているシーンのまとまり毎の再生方法について説明する。

図２７は、図８のクラスタリングエンジン８３の機能構成例を示すブロック図である。

クラスタリングエンジン８３は、クラスタリング部２０１、リスト生成部２０２、リスト記憶部２０３、およびクラスタデータ生成部２０４から構成される。

クラスタリング部２０１は、デジャヴエンジン８１から供給されてきた距離情報（図１３の距離行列）に基づいて各シーンのクラスタリングを行う。

図２８は、クラスタリング部２０１により行われるクラスタリングの例を示す図である。

クラスタリング部２０１は、図２８の×印で示すように、デジャヴエンジン８１から供給されてきた距離情報に基づいて各シーンをプロットする。図２８において、１つの要素（×印）は１シーンを表し、要素間の距離はそれぞれの要素により表されるシーン間の距離を表す。

図２８の例においては、図の右方にプロットされている要素＃１と要素＃２は、それぞれシーン＃１、シーン＃２を表し、要素＃１と要素＃２の間の距離Ｌはシーン＃１とシーン＃２間の距離を表す。シーン＃１とシーン＃２間の距離Ｌは距離情報から得られる。

図２８に示すようにプロットを行った後、クラスタリング部２０１は、図２９に示すように、距離の近い要素が同じクラスタに属するものとなるようにクラスタリングを行う。図２９の例においては、クラスタ＃１乃至＃３に全ての要素が含まれるようにクラスタリングが行われている。

図３０は、クラスタリングのイメージをグラフ上で示す図である。

図３０のグラフは図１２のグラフと同じである。図３０に示すように、例えば、点線で囲まれるシーンが同じクラスタに属するものとされる。これらの点線で囲まれるシーンは、注目シーンと比較的近い距離のシーンである。

他のシーンを注目シーンとして算出された距離を表すグラフにおいても、同様に、距離の近いシーンが同じクラスタに属するものとなるようにクラスタリングが行われる。

なお、クラスタリングに用いられるクラスタの数は、その粒度で定められる。

ここで、クラスタの粒度は、基本的に、１つのクラスタに属する要素の数に対応し、粒度が細かい程、１つのクラスタに属する要素の数が少ないことを表す。従って、全ての要素を少ない数のクラスタでカバーしている状態が、粒度が粗い状態といえる。

図３１は、クラスタリングの過程をツリー状に表すクラスタツリーの例を示す図である。この図を用いてクラスタの粒度について説明する。

上述したように、デジャヴエンジン８１から供給されてきた距離情報を用いて、距離の近い要素同士を結びつけるように所定のアルゴリズムによってクラスタリングを行っていくと、図３１の一番下のノードに示す認識用画像列のそれぞれのシーンは、最終的には、１個のクラスタC₀に集結することになる。なお、図３１においても、それぞれのシーンの位置は、そのシーンを構成する画像のうちの時間的に最も新しい画像の位置で表している。

このようにクラスタリングの過程を表すクラスタツリーに適当な閾値（ツリーにおける階層の深さ）を設定することにより、閾値の線と、クラスタツリーの枝の交点によりクラスタが定義される。すなわち、交点の数により、全てのシーンをカバーするためのクラスタの数が定まる。また、そのクラスタの数によりそれぞれのクラスタに属するシーンの数が定まるから、これにより、クラスタの粒度が定まる。

例えば、図３１に示すように、適当な閾値として閾値＃０を設定した場合、交点の数は１個であり、１個のクラスタに全てのシーンが属することになる。また、閾値＃１を設定した場合、交点の数は２個であり、それぞれの交点の下の枝の全てのシーンが、２個のクラスタのそれぞれに属することになる。さらに、閾値＃２を設定した場合、交点の数は３個であり、それぞれの交点の下の枝の全てのシーンが、３個のクラスタのそれぞれに属することになる。

このように、クラスタは、クラスタツリーの閾値を下げると（深さを深くすると）、その数が多くなり、また、粒度が細かくなる性質を有する。従って、ユーザは、逆に、粒度を指定することによってクラスタの数を指定することができ、それにより、１つのクラスタに属するシーンの数を変えること、すなわち、ひとまとまりのものとして連続して再生されるシーンの期間を変えることができる。

なお、クラスタリングの手法としては、例えば、nearest neighbor，farest neighbor，centroidなどがあるが、どのような手法が用いられるようにしてもよい。

図２７の説明に戻り、クラスタリング部２０１は、このようなシーン間の距離に基づくクラスタリングを、クラスタの粒度を変えて適宜行い、それぞれの粒度におけるクラスタリングの結果をリスト生成部２０２に出力する。

リスト生成部２０２は、クラスタリング部２０１から供給されてくるクラスタリング結果に基づいて、それぞれのクラスタに属する画像のフレームナンバ（シーンを構成する画素のうちの時間的に最も新しい画像のフレームナンバ）からなるリストを生成し、生成したリストをリスト記憶部２０３に記憶させる。

リスト生成部２０２に対しては、クラスタリング部２０１からクラスタの粒度毎のクラスタリング結果が供給されてくるから、リスト記憶部２０３には、例えば、クラスタの数が２個の場合のそれぞれのクラスタに属する画像のフレームナンバのリスト、３個の場合のそれぞれのクラスタに属する画像のフレームナンバのリストというように、クラスタの粒度毎のフレームナンバのリストが記憶される。

クラスタデータ生成部２０４は、リスト記憶部２０３に記憶されているものの中から所定のリストを読み出し、読み出したリストに基づいて、各画像を時間軸上（フレームナンバ軸上）に並べ、それぞれの画像のクラスタに関するデータであるクラスタデータを生成する。

図３２は、クラスタリング結果の例を示す図である。

図３２においては、フレームナンバ０乃至４０００の画像が示されており、そのうちのフレームナンバ０乃至４４９の画像がクラスタ＃１、フレームナンバ４５０乃至１１４９の画像がクラスタ＃２、フレームナンバ１１５０乃至２２４９の画像がクラスタ＃１、フレームナンバ２２５０乃至２９７９の画像がクラスタ＃２、フレームナンバ２９８０乃至３３３９の画像がクラスタ＃３、フレームナンバ３３４０乃至４０００の画像がクラスタ＃１とされている。

このようにクラスタリングがされている場合において、ユーザが例えば再生対象のクラスタとしてクラスタ＃１を選択したとき、クラスタ＃１に属する画像であるフレームナンバ０の画像から再生が開始され、フレームナンバ４４９の画像の再生が終了したとき、フレームナンバ１１５０から再生が開始される。

また、フレームナンバ２２４９の画像が再生されたとき、フレームナンバ３３４０の画像から、フレームナンバ４０００の画像まで再生される。

図３３および図３４は、クラスタデータの例を示す図である。

図３３および図３４においても、図１９と同様、各行の左端に示す数字と「：」は説明の便宜上付したものである。また、図３３および図３４に示すクラスタデータは、図３２に示すクラスタリング結果を表すものではない。

「ClusterInfo」として記述される第１行目の「ClusterDepthNum=3」は、図３３および図３４のクラスタデータに記述されるクラスタの粒度が３段階あること、すなわち、クラスタの粒度を「粗い」、「中くらい」、「細かい」とした場合の、それぞれ場合のクラスタの情報が記述されていることを表す。

図３３および図３４においては、「ClusterDepth0」がクラスタの粒度が「粗い」場合のクラスタの情報を表し、「ClusterDepth1」がクラスタの粒度が「中くらい」の場合のクラスタの情報を表す。また、「ClusterDepth2」がクラスタの粒度が「細かい」場合のクラスタの情報を表す。撮影画像列の再生時には、ユーザにより指定された粒度に関する記述が参照される。

図３３の第２行目乃至第４行目には、「ClusterDepth0」（粒度が「粗い」）のクラスタの情報が記述されており、第５行目乃至第８行目には、「ClusterDepth1」（粒度が「中くらい」）のクラスタの情報が記述されている。また、第９行目乃至第１４行目には、「ClusterDepth2」（クラスタの粒度が「細かい」）のクラスタの情報が記述されている。

第２行目の「ClusterNum=2」は、「ClusterDepth0」である場合、クラスタの数は２個であることを表す。第３行目の「ClusterTitle0=家の中」と第４行目の「ClusterTitle1=庭」は、２個のうちの１つ目のクラスタのタイトルは「家の中」であり、２つ目のクラスタのタイトルは「庭」であることを表す。

クラスタのタイトルは、例えば、クラスタリングの結果であるそれぞれのクラスタのシーンを見たユーザにより設定される。

同様に、第５行目乃至第８行目には、「ClusterDepth1」である場合のクラスタの数と、それぞれのクラスタのタイトルが記述されている。また、第９行目乃至第１４行目には、「ClusterDepth2」である場合のクラスタの数と、それぞれのクラスタのタイトルが記述されている。

図３４の「ClusterData」は、それぞれのクラスタに属する画像の情報を表す。

第１行目の「Frame0_Depth0=1」は、「ClusterDepth0」である場合、フレームナンバ０の画像のクラスタ（フレームナンバ０の画像から次のクラスタの先頭画像までのクラスタ）がクラスタ１（図３３の第４行目の「ClusterTitle1=庭」のクラスタ）であることを表す。

第２行目の「Frame0_Depth1=2」は、「ClusterDepth1」である場合、フレームナンバ０の画像のクラスタ（フレームナンバ０の画像から次のクラスタの先頭画像までのクラスタ）がクラスタ２（図３３の第８行目の「ClusterTitle2=庭」のクラスタ）であることを表す。

第３行目の「Frame0_Depth2=4」は、「ClusterDepth2」である場合、フレームナンバ０の画像のクラスタ（フレームナンバ０の画像から次のクラスタの先頭画像までのクラスタ）がクラスタ４（図３３の第１４行目の「ClusterTitle4=庭」のクラスタ）であることを表す。

第４行目の「Frame0_Next_Depth0=443」は、「ClusterDepth0」である場合、フレームナンバ０の画像の次にクラスタの先頭画像となる画像のフレームナンバがフレームナンバ４４３であることを表す。

第５行目の「Frame0_Next_Depth1=200」は、「ClusterDepth1」である場合、フレームナンバ０の画像の次にクラスタの先頭画像となる画像のフレームナンバがフレームナンバ２００であることを表す。

第６行目の「Frame0_Next_Depth2=200」は、「ClusterDepth2」である場合、フレームナンバ０の画像の次にクラスタの先頭画像となる画像のフレームナンバがフレームナンバ２００であることを表す。

第７行目の「Frame200_Depth1=1」は、「ClusterDepth1」である場合、フレームナンバ２００の画像のクラスタ（フレームナンバ２００の画像から次のクラスタの先頭画像までのクラスタ）がクラスタ１（図３３の第７行目の「ClusterTitle1=玄関」のクラスタ）であることを表す。

第８行目の「Frame200_Depth2=2」は、「ClusterDepth2」である場合、フレームナンバ２００の画像のクラスタ（フレームナンバ２００の画像から次のクラスタの先頭画像までのクラスタ）がクラスタ２（図３３の第１２行目の「ClusterTitle2=玄関」のクラスタ）であることを表す。

第９行目の「Frame200_Next_Depth1=443」は、「ClusterDepth1」である場合、フレームナンバ２００の画像の次にクラスタの先頭画像となる画像のフレームナンバがフレームナンバ４４３であることを表す。

第１０行目の「Frame200_Next_Depth2=443」は、「ClusterDepth2」である場合、フレームナンバ２００の画像の次にクラスタの先頭画像となる画像のフレームナンバがフレームナンバ４４３であることを表す。

第１１行目の「Frame443_Depth0=0」は、「ClusterDepth0」である場合、フレームナンバ４４３の画像のクラスタ（フレームナンバ４３３の画像から最後の画像までのクラスタ）がクラスタ０（図３３の第３行目の「ClusterTitle0=家の中」のクラスタ）であることを表す。

第１２行目の「Frame443_Depth1=0」は、「ClusterDepth1」である場合、フレームナンバ４４３の画像のクラスタ（フレームナンバ４３３の画像から最後の画像までのクラスタ）がクラスタ０（図３３の第６行目の「ClusterTitle0=家の中」のクラスタ）であることを表す。

第１３行目の「Frame443_Depth2=0」は、「ClusterDepth2」である場合、フレームナンバ４４３の画像のクラスタがクラスタ０（図３３の第１０行目の「ClusterTitle0=家の中」のクラスタ）であることを表す。

第１４行目乃至第１６行目は、それぞれの「ClusterDepth」毎の、クラスタの先頭画像となる最後の画像のフレームナンバを表す。

このように、「ClusterInfo」、「ClusterDepth」、および「ClusterData」を含むクラスタデータがメタデータとしてクラスタリングエンジン８３からダイジェストプレーヤ８４に出力される。

以上のような構成を有するクラスタリングエンジン８３の動作についてはフローチャートを参照して後述する。

図３５は、図８のダイジェストプレーヤ８４の機能構成例を示すブロック図である。

ダイジェストプレーヤ８４は、画像選択部２１１、再生制御部２１２、およびクラスタ分布表示制御部２１３から構成される。

画像選択部２１１は、記憶部６８に記憶されている撮影画像列を読み出し、クラスタリングエンジン８３から供給されてくるクラスタデータとユーザ操作に基づいて、撮影画像列のうちの必要な画像を選択する。画像選択部２１１は、あるクラスタがユーザにより指定されたとき、そのクラスタに属する画像のみを撮影画像列から選択し、選択した画像を再生対象の画像として再生制御部２１２に出力する。

例えば、図３３および図３４のクラスタデータが供給されており、「ClusterDepth0」が選択され、かつ、再生するクラスタとして「ClusterTitle0=家の中」のクラスタが選択されている場合、画像選択部２１１は、その選択されたクラスタに属する画像であるフレームナンバ０の画像から再生制御部２１２に供給し、再生させる。

また、画像選択部２１１は、異なるクラスタの先頭画像となるフレームナンバ４４３まで（フレームナンバ４４３の画像を含まず）画像の供給を続けることにより、フレームナンバ０乃至４４２までの画像からなる、「ClusterDepth0」の場合の「ClusterTitle0」のクラスタの１つのまとまりの再生を行わせる。

再生制御部２１２は、画像選択部２１１から供給されてきた画像を再生し、表示部６７の所定の位置に表示させる。

クラスタ分布表示制御部２１３は、クラスタリングエンジン８３から供給されてきたクラスタデータに基づいてクラスタの時間軸上の分布を表示部６７に表示させる。

図３６は、ダイジェストプレーヤ８４により表示される画面の例を示す図である。

左上方の動画表示部２２１には、再生制御部２１２により再生されている画像が表示され、下方にあるクラスタ分布表示部２２５には、ユーザが選択したクラスタの時間軸上の分布が表示される。クラスタに属するシーンの分布は、画像のまとまりを表すムービーブロックにより表される。

図３６の例においては、同じクラスタに属するムービーブロック＃１乃至＃９がクラスタ分布表示部２２５に表示されており、そのうちの斜線で示すムービーブロック＃３が、現在、再生中のムービーブロックである。すなわち、図３６において、動画表示部２２１に表示されている画像は、ムービーブロック＃３に含まれる画像である。

例えば、現在再生されているムービーブロック＃３の最後の画像の再生が終了したとき、次に、ムービーブロック＃４の最初の画像から再生が開始される。これにより、ユーザは、自分が選択したシーンと似ているシーンだけをまとめて見ることができる。

また、ユーザは、現在再生中のムービーブロックとは異なるムービーブロックをクラスタ分布表示部２２５から選択することによって、その選択したムービーブロックの再生を開始させることができる。

なお、ムービーブロック＃１乃至＃９のクラスタとは異なるクラスタの表示もユーザにより指定されている場合、クラスタ分布表示部２２５には、それらのクラスタに属するシーンの分布も表示される。例えば、クラスタ分布表示部２２５に表示されるムービーブロックは、クラスタに応じて色分けされ、ユーザが、次にどのムービーブロックが再生されるのかを確認できるようになされる。

図３６の画面には、各種の操作ボタンが表示される操作ボタン表示部２２２、クラスタの粒度、および再生対象とするクラスタを選択するクラスタ選択部２２３、および、再生中のムービーブロックに関する情報を表示するムービーブロック情報表示部２２４も表示されている。

操作ボタン表示部２２２に表示されるファイル選択ボタン２４１は、ユーザが動画ファイルを選択するとき操作され、再生／一時停止ボタン２４２は、ユーザが再生を開始、または一時停止するとき操作される。また、移動ボタン２４３は、再生するムービーブロックを、現在再生中のものから隣のものに移動するとき操作され、速度選択ボタン２４４は、ムービーブロックの再生速度を選択するとき操作される。

クラスタ選択部２２３に表示される粒度選択部２５１は、ユーザがクラスタの粒度を指示するとき操作され、クラスタ選択部２５２，２５３は、再生対象とするクラスタを指示するとき操作される。

次に、図３６に示すような表示が実現されるまでの、クラスタリングエンジン８３およびダイジェストプレーヤ８４の一連の動作について説明する。

始めに、図３７のフローチャートを参照して、クラスタリングエンジン８３により行われるクラスタリング処理について説明する。

この処理は、例えば、デジャヴエンジン８１により図２４の処理が実行され、デジャヴエンジン８１から距離情報が供給されてきたときに開始される。

ステップＳ１０１において、クラスタリング部２０１は、デジャヴエンジン８１から供給されてきた距離情報を用いて各シーンのクラスタリングを行う。ここで行われるクラスタリングにより、例えば、図３１のクラスタリングツリーがクラスタリング結果として得られる。このクラスタリング結果はクラスタリング部２０１からリスト生成部２０２に供給される。

ステップＳ１０２において、リスト生成部２０２は、クラスタ数を２として設定し、ステップＳ１０３に進み、それぞれのクラスタに属する画像（それぞれのクラスタに属するシーンを構成する画像のうちの時間的に最も新しい画像）のフレームナンバからなるリストをリスト記憶部２０３に出力する。リスト記憶部２０３には、それぞれの粒度の場合において、どのクラスタにどの画像が含まれるかを表すフレームナンバのリストが記憶される。

例えば、リスト生成部２０２は、図３１のクラスタリングツリーの閾値として閾値＃１を設定し、それにより定義される２つのクラスタに属する画像のフレームナンバのリストをリスト記憶部２０３に出力する。このときリスト記憶部２０３に記憶されるリストには、図３１の交点Ｐ₁より下の枝にあるシーンと、交点Ｐ₂より下の枝にあるシーンのフレームナンバが記述される。

ステップＳ１０４において、リスト生成部２０２は、クラスタの数が最大のｎ個に達したか否かを判定し、達していないと判定した場合、ステップＳ１０５に進む。例えば、ダイジェストプレーヤ８４により表示可能な最大のクラスタの数が予め定められており、ここでは、その数に達したか否かが判定される。

ステップＳ１０５において、リスト生成部２０２は、クラスタの数を例えば１だけ増やし、ステップＳ１０３以降の処理を行う。例えば、クラスタの数が３である場合、リスト生成部２０２は、図３１のクラスタリングツリーの閾値として閾値＃２を設定し、それにより定義される３つのクラスタに属するシーンのフレームナンバのリストをリスト記憶部２０３に出力する。このときリスト記憶部２０３に記憶されるリストには、図３１の交点Ｐ₁₁より下の枝にあるシーン、交点Ｐ₁₂より下の枝にあるシーン、および、交点Ｐ₁₃より下の枝にあるシーンのフレームナンバが記述される。

一方、ステップＳ１０４において、リスト生成部２０２は、クラスタの数が最大のｎ個に達したと判定した場合、ステップＳ１０６に進む。クラスタの数が最大のｎ個に達した場合、そのことがリスト生成部２０２からクラスタデータ生成部２０４に通知される。

ステップＳ１０６において、クラスタデータ生成部２０４は、リスト記憶部２０３に記憶されているフレームナンバのリストうち、クラスタ数ｉ（ｉ≦ｎ）のときの、それぞれのクラスタに属する画像のフレームナンバのリストを読み出し、ステップＳ１０７に進み、それらの画像を時間軸上に並べる。

ステップＳ１０８において、クラスタデータ生成部２０４は、各画像がどのクラスタに属するのかを記述したクラスタデータを生成し、メタデータとしてダイジェストプレーヤ８４に出力する。

次に、図３８のフローチャートを参照して、ダイジェストプレーヤ８４の再生処理について説明する。

この処理は、例えば、クラスタリングエンジン８３からクラスタデータが供給されており、ユーザ操作に応じて図３６のプレーヤ画面が表示されている状態で行われる。

ステップＳ１２１において、画像選択部２１１は、ユーザによるクラスタの粒度の選択を受け付ける。また、画像選択部２１１は、ステップＳ１２２において、再生するクラスタの選択を受け付ける。

例えば、図３６の粒度選択部２５１、クラスタ選択部２５２，２５３にユーザにより所定の値が入力されたとき、画像選択部２１１は、入力されたクラスタの粒度と、クラスタの選択を受け付ける。ユーザにより選択されたクラスタの情報は、画像選択部２１１からクラスタ分布表示制御部２１３に通知される。

ステップＳ１２３において、クラスタ分布表示制御部２１３は、クラスタリングエンジン８３から供給されてきたクラスタデータを参照し、ユーザにより選択された粒度における、クラスタの時間軸上の分布をクラスタ分布表示部２２５に表示させる。これにより、ユーザは、クラスタに属するシーンの分布を確認することができるとともに、再生するムービーブロックを選択することができる。

ステップＳ１２４において、画像選択部２１１は、ユーザ操作に応じて、所定のムービーブロックの画像を再生制御部２１２に出力し、再生させる。

ステップＳ１２５において、画像選択部２１１は、ユーザにより、クラスタ分布表示部２２５に表示されているムービーブロックの中から、現在再生しているムービーブロック以外のブロックが選択されたか否かを判定し、選択されたと判定した場合、ステップＳ１２６に進む。

ステップＳ１２６において、画像選択部２１１は、ユーザにより新たに選択されたムービーブロックの最初の画像から、再生制御部２１２に供給し、再生対象を変更させる。

ステップＳ１２５において、現在再生しているムービーブロック以外のブロックが選択されていないと判定された場合、ステップＳ１２６の処理はスキップされる。

ステップＳ１２７において、画像選択部２１１は、現在再生中のムービーブロックの最後の画像まで再生したか否かを判定し、最後の画像まで再生したと判定するまで、ステップＳ１２５に戻り、それ以降の処理を繰り返し実行する。

また、画像選択部２１１は、ステップＳ１２７において、ムービーブロックの最後の画像まで再生したと判定した場合、ステップＳ１２８に進み、いま再生が終了したムービーブロックと同じクラスタに属するムービーブロックが残っているか否かを判定する。

ステップＳ１２８において、画像選択部２１１は、同じクラスタに属するムービーブロックが残っていると判定した場合、ステップＳ１２９に進み、その、再生が終了したムービーブロックの次のムービーブロックの最初の画像から再生を開始させる。これにより、似たようなシーンのまとまりからなるクラスタ毎の再生が実現される。

一方、ステップＳ１２８において、画像選択部２１１は、再生が終了したムービーブロックと同じクラスタに属するムービーブロックが残っていないと判定した場合、処理を終了させる。

以上の処理により、ユーザは、自分が見たいと思って選択したシーンと似ているシーンのみを容易に選択し、見ることができる。

なお、ユーザは、以上の処理により表示される図３６の画面からクラスタに属するシーンの分布を確認することができるが、例えば、図３９に示すような画面からも、それを確認することができるようにしてもよい。

図３９の表示部２６１乃至２６３には、クラスタの数がそれぞれ異なる場合（粒度が異なる場合）において、その上に表示される画像列全体のうちの、どの期間のシーンが、どのクラスタに属するのかが、水平方向（時間軸方向）の実線と、その実線の垂直方向の位置により表示される。

図３９の例においては、表示部２６１の表示はクラスタの数が３個の場合のクラスタに属するシーンの分布を表し、表示部２６２の表示はクラスタの数が５個の場合のクラスタに属するシーンの分布を表す。また、表示部２６３の表示はクラスタの数が１０個の場合のクラスタに属するシーンの分布を表す。

例えば、図３９の時刻ｔ₁乃至ｔ₂の期間にあるシーンは、クラスタの数が３個の場合、クラスタ００３に属し、クラスタの数が５個の場合、クラスタ００１に属することが表示部２６１と表示部２６２に表示されている。また、クラスタの数が１０個の場合、クラスタ００９のクラスタに属することが表示部２６３に表示されている。

また、図３９の例においては、ユーザは、画面の右端に表示されるスライドバー２６４を操作することによって、クラスタの数を変えることができるようになされている。例えば、図３９の状態でスライドバー２６４を下方向に移動させた場合、表示部２６１乃至２６３のそれぞれに、クラスタの数が１０個の以上の場合のクラスタに属するシーンの分布を表示させることができる。すなわち、ユーザは、図３１のクラスタツリーの閾値を、このスライドバー２６４を操作して設定することができることになる。

このような画面を用いることによって、ユーザは、図３６の画面において、クラスタの粒度をどの値に設定すればよいのか、或いは、どのクラスタを再生対象として設定すればよいのかなどを容易に確認することができる。

以上においては、ビデオカメラ１では撮影（撮影画像列と認識用画像列の撮影）のみが行われ、認識用画像列を用いたメタデータの生成と、生成したメタデータに基づく撮影画像列の再生はパーソナルコンピュータ２において行われるとしたが、メタデータの生成までがビデオカメラ１により行われるようにしてもよい。

図４０は、本発明を適用した撮影・表示システムの他の構成例を示す図である。

図４０のビデオカメラ３０１においては、撮影画像列と認識用画像列の撮影が行われ、撮影して得られた認識用画像列を用いて、上述したようなリンクデータ（図１９）、クラスタデータ（図３３および図３４）を含むメタデータが生成され、撮影画像列とともに内蔵の記憶装置に記憶される。

一方、実線矢印で示すように、ビデオカメラ３０１から撮影画像列とメタデータを取り込んだプレーヤ３０２においては、メタデータに基づいて、上述したような、リンクデータを用いた撮影画像列のジャンプ再生、または、クラスタデータを用いたクラスタ単位での撮影画像列の再生が行われる。

図４１は、図４０のビデオカメラ３０１の構成例を示すブロック図である。

ビデオカメラ３０１は、ビデオカメラ部３１１と情報処理部３１２から構成される。このうちのビデオカメラ部３１１は、図３（図５）の構成と同様の構成を有する。すなわち、ビデオカメラ部３１１は、レンズ３を介して撮影された撮影画像列とともに、ワイドアングルレンズ４を介して撮影画像列と同期して撮影された認識用画像列を記憶装置１３に記憶する。

図４２は、情報処理部３１２の構成例を示すブロック図である。上述したものと同じ構成には同じ符号を付してある。

情報処理部３１２は、デジャヴエンジン８１、クラスタリングエンジン８３、およびファイル生成部３２１から構成される。図４２に示すように、情報処理部３１２には、図８のデジャヴプレーヤ８２とダイジェストプレーヤ８４以外の構成が含まれる。

詳細な説明については省略するが、デジャヴエンジン８１は、ビデオカメラ部３１１の記憶装置１３に記憶されている認識用画像列を用いてシーン間の距離を算出し、算出した距離の行列を含む距離情報をクラスタリングエンジン８３に出力する。また、デジャヴエンジン８１は、算出したシーン間の距離に基づいてリンクデータを生成し、生成したリンクデータをメタデータとしてファイル生成部３２１に出力する。すなわち、図４２のデジャヴエンジン８１は、図９の構成と同じ構成を有する。

一方、図４２のクラスタリングエンジン８３は、デジャヴエンジン８１から供給されてきた距離情報に基づいて各シーンのクラスタリングを行い、クラスタリング結果から生成したクラスタデータをメタデータとしてファイル生成部３２１に出力する。すなわち、図４２のクラスタリングエンジン８３は、図２７の構成と同じ構成を有する。

ファイル生成部３２１は、デジャヴエンジン８１から供給されてきたメタデータと、クラスタリングエンジン８３から供給されてきたメタデータを統合し、１つのメタデータファイルを生成する。統合して生成された１つのメタデータファイルには、図１９に示すリンクデータと、図３３および図３４に示すクラスタデータの記述が含まれる。ファイル生成部３２１により生成されたメタデータファイルは、ビデオカメラ部３１１の記憶装置１３に出力され、撮影画像列とともに記憶される。

記憶装置１３に記憶されている撮影画像列とメタデータファイルは、所定のタイミングで、有線または無線を介してプレーヤ３０２に取り込まれる。

図４３は、図４０のプレーヤ３０２の機能構成例を示すブロック図である。プレーヤ３０２は、図７のパーソナルコンピュータ２の構成と同様の構成を有しており、そのCPUにより所定のプログラムが実行されることで図４３の各構成のうちの少なくとも一部が実現される。

図４３に示すように、プレーヤ３０２には、メタデータを生成するための構成である、図８のデジャヴエンジン８１とクラスタリングエンジン８３以外の構成が含まれる。

ファイル解析部３３１は、ビデオカメラ３０１から取り込まれ、図示せぬ記憶部に記憶されているメタデータファイルを解析し、メタデータファイルに記述されているリンクデータをデジャヴプレーヤ８２に、クラスタデータをダイジェストプレーヤ８４にそれぞれ出力する。

デジャヴプレーヤ８２は、ファイル解析部３３１から供給されてきたリンクデータに基づいて撮影画像列の再生、表示を行う。すなわち、デジャヴプレーヤ８２は、図２０の構成と同じ構成を有しており、プレーヤ３０２に接続される外部の表示部には図２１に示すような画面が表示される。

一方、ダイジェストプレーヤ８４は、ファイル解析部３３１から供給されてきたクラスタデータに基づいて撮影画像列の再生、表示を行う。すなわち、ダイジェストプレーヤ８４は、図３５の構成と同じ構成を有しており、プレーヤ３０２に接続される外部の表示部には図３６に示すような画面が表示される。

例えば、このように、カメラ側でメタデータが生成されることにより、ユーザは、撮影画像列とともに再生側の機器にそれを取り込むだけで、メタデータに基づく撮影画像列の再生を行わせることができる。

このように、図８に示す構成のうち、ある構成は撮影側の構成とし、他の構成は再生側の構成とするように、構成の配置は適宜変更可能である。

また、カメラ側でメタデータが生成されることにより、例えば、図４４に示すような画面の表示を再生側の機器に行わせることができる。図４４の画面は、例えば、撮影側で生成されたメタデータと撮影画像列の取り込み時に表示される。

図４４において、画面の右下方に表示されている画像＃０は現在の取り込み対象となっている画像であり、この画像が、メタデータの記述に基づいて画面の左方に表示されているそれぞれのクラスタの欄に移動するような表示が行われる。

例えば、画像＃０がクラスタ＃１に属する画像である場合、実線矢印で示すようにクラスタ＃１の欄に移動され、既に取り込まれたクラスタ＃１に属する他の画像とともにクラスタ＃１の欄にサムネイル表示される。図４４の例においては、画像＃１がクラスタ＃１の欄に表示されている。同様に、既に取り込まれた画像である画像＃２はクラスタ＃３の欄に表示され、画像＃３および＃４はクラスタ＃４の欄に表示されている。

このような表示により、ユーザは、撮影画像列の取り込みの際に、どのシーンがどのクラスタに属するものなのかを確認することができ、後から見たいシーンを容易に把握することができる。

以上においては、図１に示すように、レンズ３とワイドアングルレンズ４はその光軸が同じ方向であるとしたが、ワイドアングルレンズ４は、レンズ３が設けられているビデオカメラ筐体の面と異なる面に設けられ、それぞれの光軸が異なるものとなるようにしてもよい。すなわち、認識用画像列は、そのシーン間の似ている／似ていないによって、撮影画像列のシーンの似ている／似ていないを判別するためのものであるから、ユーザにより異なる場所で撮影が行われることにより異なるシーンの認識用画像列が得られる以上、それにより撮影画像列のシーンの判別も行うことができ、それらのレンズの光軸方向が一致している必要はない。

例えば、図４５Ａに示すように、ビデオカメラ１の筐体の上面にパノラマカメラ４０１を設け、それにより撮影された画像を用いて、シーン間の距離の算出等が行われるようにしてもよい。

さらに、当然、図４５Ｂに示すように、携帯電話機４１１のカメラ部４１２の近くに認識用カメラ部４１３を設けるといったように、撮影機能を有する機器であれば、ビデオカメラ以外の様々な機器に適用することも可能である。

また、以上においては、シーン間の距離を算出し、それに基づいて再生する画像列は、ビデオカメラで撮影された画像列であるとしたが、録画済みのテレビジョン番組を再生する場合にも適用可能である。

この場合、録画済みの番組の全シーン間の距離が算出され、ビデオカメラで撮影した画像列の場合と同様に各シーンがリンク付け、またはクラスタリングされる。

例えば、図２１の動画表示部１３１にユーザが選択した録画済みのテレビジョン番組が表示され、再生中のシーンと似ているシーンが自動的に提示されることによって、ユーザは、似ているシーンを含むテレビジョン番組を容易に探し出したり、その再生を開始させたりすることができる。

また、図３６の動画表示部２２１にユーザが選択した録画済みのテレビジョン番組が表示され、クラスタに属するシーンの分布が表示されることによっても、ユーザは、似ているシーンのみを連続して再生したりすることができる。

さらに、以上においては、シーンのクラスタリングは、似ているシーンだけを再生するために行われるとしたが、例えば、ユーザが、クラスタ単位で、撮影画像列をDVDなどの記憶メディアに記憶させたり、ネットワークを介して他の装置に送信したりすることができるようにしてもよい。

上述した一連の処理は、ハードウェアにより実行させることもできるが、ソフトウェアにより実行させることもできる。

一連の処理をソフトウェアにより実行させる場合には、そのソフトウェアを構成するプログラムが、専用のハードウェアに組み込まれているコンピュータ、または、各種のプログラムをインストールすることで、各種の機能を実行することが可能な、例えば、汎用のパーソナルコンピュータなどに、ネットワークや記録媒体からインストールされる。

この記録媒体は、図７に示されるように、装置本体とは別に、ユーザにプログラムを提供するために配布される、プログラムが記録されている磁気ディスク（フレキシブルディスクを含む）、光ディスク（CD-ROM(Compact Disk-Read Only Memory)，DVD(Digital Versatile Disk)を含む）、光磁気ディスク（MD（登録商標）(Mini-Disk)を含む）、もしくは半導体メモリなどよりなるリムーバブルメディア７１により構成されるだけでなく、装置本体に予め組み込まれた状態でユーザに提供される、プログラムが記録されているROM６２や、記憶部６８に含まれるハードディスクなどで構成される。

なお、本明細書において、各ステップは、記載された順序に従って時系列的に行われる処理はもちろん、必ずしも時系列的に処理されなくとも、並列的あるいは個別に実行される処理をも含むものである。

また、本明細書において、システムとは、複数の装置により構成される装置全体を表すものである。

本発明を適用した撮影・表示システムの構成例を示す図である。パーソナルコンピュータの再生機能について示す図である。図１のビデオカメラの構成例を示すブロック図である。画像列の例を示す図である。ビデオカメラの詳細な構成例を示すブロック図である。ビデオカメラの撮影処理について説明するフローチャートである。図１のパーソナルコンピュータの構成例を示すブロック図である。パーソナルコンピュータの機能構成例を示すブロック図である。デジャヴエンジンの機能構成例を示すブロック図である。 HMMの例を示す図である。マッチングの概念を示す図である。シーン間の距離をグラフ化した図である。シーン間の距離を表す行列の例を示す図である。ビタビ時系列マッチの例を示す図である。リンク先の選択の例を示す図である。リンク先の選択の他の例を示す図である。リンク先の選択のさらに他の例を示す図である。リンク先の例を示す図である。リンクデータの例を示す図である。デジャヴプレーヤの機能構成例を示すブロック図である。デジャヴプレーヤにより表示される画面の例を示す図である。デジャヴエンジンの画像選択処理について説明するフローチャートである。デジャヴエンジンのHMM生成処理について説明するフローチャートである。デジャヴエンジンの距離算出処理について説明するフローチャートである。デジャヴエンジンのリンク先選択処理について説明するフローチャートである。デジャヴプレーヤの再生処理について説明するフローチャートである。クラスタリングエンジンの機能構成例を示すブロック図である。クラスタリングの例を示す図である。クラスタリングの他の例を示す図である。クラスタリングのさらに他の例を示す図である。クラスタツリーの例を示す図である。クラスタリング結果の例を示す図である。クラスタデータの例を示す図である。クラスタデータの他の例を示す図である。ダイジェストプレーヤの機能構成例を示すブロック図である。ダイジェストプレーヤにより表示される画面の例を示す図である。クラスタリングエンジンのクラスタリング処理について説明するフローチャートである。ダイジェストプレーヤの再生処理について説明するフローチャートである。クラスタリング結果の表示の例を示す図である。本発明を適用した撮影・表示システムの他の構成例を示す図である。図４０のビデオカメラの構成例を示すブロック図である。図４０の情報処理部の機能構成例を示すブロック図である。図４０のプレーヤの機能構成例を示すブロック図である。クラスタリング結果の他の表示の例を示す図である。ビデオカメラの外観の例を示す図である。

符号の説明

１ビデオカメラ，２パーソナルコンピュータ，３レンズ，４ワイドアングルレンズ，８１デジャヴエンジン，８２デジャヴプレーヤ，８３クラスタリングエンジン，８４ダイジェストプレーヤ，９１コーディング処理部，９２特徴ベクトル算出部，９３特徴ベクトル記憶部，９５マッチング部，９６リンク先選択部，１２１画像選択部，１２２再生制御部，１２３リンク先表示部，２０１クラスタリング部，２０２リスト生成部，２０３リスト記憶部，２０４クラスタデータ生成部，２１１画像選択部，２１２再生制御部，２１３クラスタ分布表示制御部

Claims

再生対象となる第１の画像列と同じタイミングで撮影された、前記第１の画像列を構成する画像より撮影範囲の広い画像からなる第２の画像列を取得する取得手段と、
前記第２の画像列に含まれる所定の数の連続する画像からなるシーン間の類似度を算出する算出手段と、
前記算出手段により算出された類似度を、対応する前記第１の画像列のシーン間の類似度とし、類似度の高い前記第１の画像列のシーン同士の関連付けを行う関連付け手段と
を備えることを特徴とする画像処理装置。
前記第２の画像列を構成する画像は、さらに、前記第１の画像列を構成する画像より解像度が低い
ことを特徴とする請求項１に記載の画像処理装置。
前記関連付け手段は、前記第１の画像列のシーン同士の関連付けとして、前記第１の画像列の第１のシーンのリンク先に前記第１のシーンと類似度の高い第２のシーンを設定する
ことを特徴とする請求項１に記載の画像処理装置。
前記関連付け手段は、前記第１のシーンと類似度の高いシーンのうち、前記第１のシーンの撮影時刻と所定の時間以上離れた時刻を撮影時刻とする前記第２のシーンを前記第１のシーンのリンク先に設定する
ことを特徴とする請求項３に記載の画像処理装置。
前記関連付け手段は、さらに、前記算出手段により算出された類似度に基づいて前記第１の画像列のシーンを検索する
ことを特徴とする請求項１に記載の画像処理装置。
前記第１の画像列を再生する再生手段と、
前記再生手段により前記第１のシーンが再生されているとき、前記第１のシーンのリンク先として設定されている前記第２のシーンを、同じ画面内の、前記第１のシーンが表示されている位置と異なる位置に表示する表示手段と
をさらに備えることを特徴とする請求項３に記載の画像処理装置。
前記再生手段は、前記表示手段により表示された前記第２のシーンがユーザにより選択されたとき、選択された前記第２のシーンの再生を開始する
ことを特徴とする請求項６に記載の画像処理装置。
前記関連付け手段は、前記第１の画像列のシーン同士の関連付けとして、類似度に基づいてクラスタリングを行う
ことを特徴とする請求項１に記載の画像処理装置。
前記関連付け手段は、クラスタの粒度を設定し、設定した前記粒度により定まる数のクラスタに前記第１の画像列の全てのシーンが属するようにクラスタリングを行う
ことを特徴とする請求項８に記載の画像処理装置。
前記関連付け手段は、前記粒度を複数設定し、それぞれの粒度毎にクラスタリングを行う
ことを特徴とする請求項９に記載の画像処理装置。
前記関連付け手段により行われたクラスタリングの結果に基づいて、前記第１の画像列のうちの所定のクラスタに属するシーンを再生する再生手段をさらに備える
ことを特徴とする請求項８に記載の画像処理装置。
前記関連付け手段により行われたクラスタリングの結果に基づいて、時間軸上における前記クラスタに属するシーンの分布を、同じ画面内の、前記再生手段により再生されているシーンが表示されている位置と異なる位置に表示する分布表示手段をさらに備える
ことを特徴とする請求項１１に記載の画像処理装置。
前記再生手段は、前記分布表示手段により表示されている前記クラスタに属するシーンの分布の中から選択されたシーンの再生を開始する
ことを特徴とする請求項１２に記載の画像処理装置。
前記算出手段は、前記第２の画像列の１つのシーンを構成するそれぞれの画像の特徴量の時系列と、前記第２の画像列に基づいて生成されたHMM(Hidden Markov Model)を用いてマッチングを行い、シーン間の類似度を算出する
ことを特徴とする請求項１に記載の画像処理装置。
前記関連付け手段による関連付けの結果を表すメタデータを生成し、生成したメタデータを前記第１の画像列と対応付けて記憶させる生成手段をさらに備える
ことを特徴とする請求項１に記載の画像処理装置。
再生対象となる第１の画像列と同じタイミングで撮影された、前記第１の画像列を構成する画像より撮影範囲の広い画像からなる第２の画像列を取得する取得ステップと、
前記第２の画像列に含まれる所定の数の連続する画像からなるシーン間の類似度を算出する算出ステップと、
前記算出ステップの処理により算出された類似度を、対応する前記第１の画像列のシーン間の類似度とし、類似度の高い前記第１の画像列のシーン同士の関連付けを行う関連付けステップと
を含むことを特徴とする画像処理方法。
再生対象となる第１の画像列と同じタイミングで撮影された、前記第１の画像列を構成する画像より撮影範囲の広い画像からなる第２の画像列を取得する取得ステップと、
前記第２の画像列に含まれる所定の数の連続する画像からなるシーン間の類似度を算出する算出ステップと、
前記算出ステップの処理により算出された類似度を、対応する前記第１の画像列のシーン間の類似度とし、類似度の高い前記第１の画像列のシーン同士の関連付けを行う関連付けステップと
を含む処理をコンピュータに実行させるプログラム。
第１の画像列を撮影する第１の撮影手段と、
第２の画像列を撮影する第２の撮影手段と
を備える撮影装置において、
再生対象となる前記第１の画像列と同じタイミングで撮影された、前記第１の画像列を構成する画像より撮影範囲の広い画像からなる前記第２の画像列を取得する取得手段と、
前記第２の画像列に含まれる所定の数の連続する画像からなるシーン間の類似度を算出する算出手段と、
前記算出手段により算出された類似度を、対応する前記第１の画像列のシーン間の類似度とし、類似度の高い前記第１の画像列のシーン同士の関連付けを行う関連付け手段と
を備えることを特徴とする撮影装置。