以下、本発明の実施の形態について図を参照して説明する。
図1は、本発明を適用した撮影・表示システムの構成例を示す図である。
ビデオカメラ1は、ユーザが視聴したり、編集したりする画像(動画)を撮影する機能と、画像の撮影と同期して(開始、終了のタイミングを同じくして)、被写体である子供3−1乃至3−3がそれぞれ自分の服に付けているセンサバッジ4−1乃至4−3の発光パターンを検出する機能を有する。
センサバッジ4−1乃至4−3の発光パターンは、それを付けている子供に割り当てられているIDを表しており、ビデオカメラ1は、発光パターンにより表されるIDを認識し、撮影した画像に対応付けて記憶する。
図1の例においては、子供3−1が付けているセンサバッジ4−1に割り当てられているIDは「0」であり、子供3−2が付けているセンサバッジ4−2に割り当てられているIDは「1」である。また、子供3−3が付けているセンサバッジ4−3に割り当てられているIDは「2」である。
従って、撮影者が、子供3−1を被写体として撮影している場合、そのとき撮影した画像にはID「0」が対応付けて記憶される。また、ビデオカメラ1の撮影範囲に子供3−1の他に子供3−2,3−3も入っている場合、そのとき撮影している画像にはID「0」、「1」、「2」が対応付けて記憶される。
ビデオカメラ1により撮影された画像と、認識されたIDは、図1の矢印に示すように、有線または無線を介してパーソナルコンピュータ2に取り込まれる。パーソナルコンピュータ2においては、IDに基づいて生成されたメタデータに従って、ビデオカメラ1により撮影された画像の再生、編集等が行われる。以下、子供3−1乃至3−3をそれぞれ区別する必要がない場合、まとめて子供3といい、センサバッジ4−1乃至4−3をそれぞれ区別する必要がない場合、まとめてセンサバッジ4という。
図2は、パーソナルコンピュータ2における画像の取り扱いについて示す図である。
パーソナルコンピュータ2は、画像に対応付けて記憶されているIDに基づいてそれぞれのシーンに映っている被写体(図1の例の場合、子供3)を識別し、ユーザにより指定された被写体が映っているシーン毎の再生等を行う。
図2の例においては、撮影された画像が、「うちの子供」(例えば、パーソナルコンピュータ2のユーザの子供である子供3−1)が映っているシーン、「うちの子供」と「よその子供」(例えば、子供3−1と子供3−2)が映っているシーン、および、「よその子供」だけが映っているシーンの3つのシーンに分けられている(クラスタリングされている)。
例えば、このようにクラスタリングされている状態で、ユーザが、「うちの子供」が映っているシーンの再生を指示した場合、撮影した画像全体のうち、クラスタリングの結果を表すメタデータに基づいて、子供3−1が映っている時刻t1から時刻t2までのシーンの再生が行われる。
ここで、「シーン」とは、撮影された画像(例えば、1フレームの画像)を時間軸上に並べた画像列全体のうちの、連続する所定の数の画像からなる画像列をいう。
これにより、ユーザは、自分が見たいシーン、すなわち、自分が見たい子供が映っているシーンだけを見ることができ、撮影した画像全体を時系列的に見る場合に較べて退屈しなくて済む。
なお、被写体は子供3に限られず、大人でもよいことは当然のこと、動物、物などであってもよい。また、所定のIDを表すパターンで発光するものであれば、被写体が持つものはバッジ状のものに限られず、手に把持するものであってもよいし、首からぶら下げるようなものであってもよい。
以上のように、ある被写体が映っているシーンを再生させるユーザの一連の操作について、図3のフローチャートを参照して説明する。
ステップS1において、ユーザは、センサバッジ4に割り当てられているそれぞれのIDが誰を表すものであるのかをパーソナルコンピュータ2に設定する。例えば、ユーザは、ID「0」は「うちの子供(Aくん)」、ID「1」は「Bくん」、ID「2」は「Cくん」のように、IDと名前の対応付けを行う。
ステップS2において、ユーザは、センサバッジ4を付けた子供3をビデオカメラ1で撮影する。このとき、撮影された画像に対応付けて、その画像に映っている子供3のIDが記憶される。
ステップS3において、ユーザは、ビデオカメラ1とパーソナルコンピュータ2を有線または無線を介して接続し、ビデオカメラ1に記憶されている画像とIDをパーソナルコンピュータ2に取り込む。パーソナルコンピュータ2においては、ビデオカメラ1から取り込まれた画像のクラスタリング等が所定のタイミングで行われる。
ステップS4において、ユーザは、所定のカテゴリを指定し、そのカテゴリに属するシーンの再生(同じ子供が映っている画像のまとまり毎の再生)を行わせる。以上のようなユーザの操作に応じて行われる、ビデオカメラ1、パーソナルコンピュータ2等の処理については後述する。
図4は、図1のセンサバッジ4−1の構成例を示すブロック図である。センサバッジ4−2および4−3も同様の構成を有する。
センサバッジ4−1は、マイクロコンピュータ11とLED(Light Emitting Diode)12からなる。マイクロコンピュータ11は、LED12を制御し、マイクロコンピュータ11に割り当てられている例えばID「0」を表すパターンで発光させる。LED12は、マイクロコンピュータ11からの制御に従って固定の周波数で発光する。
図5は、マイクロコンピュータ11の機能構成例を示すブロック図である。
ID記憶部21は、マイクロコンピュータ11に割り当てられているIDを記憶する。
発光制御部22は、ID記憶部21に記憶されているIDを読み出し、読み出したIDを表すパターンでLED12を発光させる。
センサバッジ4−1に割り当てられているIDは、例えば、センサバッジ4−1の表面に示されており、ユーザが、それを見てIDと子供の対応付けを行うことができるようになされる。なお、ユーザが、パーソナルコンピュータ2とセンサバッジ4−1をケーブルを介して接続させるなどしてセンサバッジ4−1のIDを適宜書き換えることができるようにしてもよい。
図6は、図1のパーソナルコンピュータ2の構成例を示すブロック図である。
CPU(Central Processing Unit)31は、ROM(Read Only Memory)32に記憶されているプログラム、または、記憶部38からRAM(Random Access Memory)33にロードされたプログラムに従って各種の処理を実行する。RAM33にはまた、CPU31が各種の処理を実行する上において必要なデータなどが適宜記憶される。
CPU31、ROM32、およびRAM33は、バス34を介して相互に接続されている。このバス34にはまた、入出力インタフェース35も接続されている。
入出力インタフェース35には、キーボード、マウスなどよりなる入力部36、LCD(Liquid Crystal Display)などよりなる表示部37、ハードディスクなどよりなる記憶部38、ビデオカメラ1との間で有線または無線の通信を行う通信部39が接続されている。記憶部38には、例えば、通信部39を介してビデオカメラ1から取り込まれた画像とIDが記憶される。
入出力インタフェース35にはまた、必要に応じてドライブ40が接続される。ドライブ40には、磁気ディスク、光ディスク、光磁気ディスク、或いは半導体メモリなどよりなるリムーバブルメディア41が適宜装着され、それから読み出されたコンピュータプログラムが、必要に応じて記憶部38にインストールされる。ビデオカメラ1が、撮影した画像を光ディスクやフラッシュメモリなどのリムーバブルメディアに記憶するものである場合、ビデオカメラ1により撮影された画像とIDは、例えば、そのメディアを介して、ドライブ40によりパーソナルコンピュータ2に取り込まれる。
図7は、パーソナルコンピュータ2の機能構成例を示すブロック図である。図7の各機能部の少なくとも一部は、図6のCPU31により所定のプログラムが実行されることで実現される。
設定部51は、ユーザにより入力部36を用いて行われるIDと名前の設定を受け付け、受け付けたIDと名前をID/名前記憶部52に記憶させる。
ID/名前記憶部52はIDと名前を記憶する。これにより、パーソナルコンピュータ2内においては、ビデオカメラ1から取り込まれた画像に対応付けられているIDから、各シーンに映っている人物(の名前)を識別することが可能になる。
次に、図8のフローチャートを参照して、パーソナルコンピュータ2の名前設定処理について説明する。すなわち、この処理は、図3のステップS1のユーザ操作に応じて行われるものである。
ステップS11において、設定部51は、ユーザにより入力部36を用いて行われるIDと名前の設定を受け付け、ステップS12に進み、受け付けたIDと名前をID/名前記憶部52に記憶させる。このようにして記憶されたIDと名前に基づいて、各シーンを、それに映っている人物に基づいてクラスタリング等を行うパーソナルコンピュータ2の処理については後述する。
図9は、図1のビデオカメラ1の構成例を示すブロック図である。
撮像素子62は、CCD(Charge Coupled Device)やCMOS(Complementary Metal Oxide Semiconductor)などよりなり、その撮像領域には動画撮影領域71と認識画像撮影領域72が形成される。
動画撮影領域71は、例えば、30フレーム/秒などのフレームレートで撮影を行い、レンズ61を介して受光した光に対応する信号(撮影した画像)をDSP(Digital Signal Processor)63に出力する。認識画像撮影領域72は、動画撮影領域71より早いフレームレートで撮影を行い、得られた輝度信号をDSP63に出力する。
これらの動画撮影領域71と認識画像撮影領域72による撮影は、ユーザの撮影開始、撮影終了の操作に応じて同期して行われる。また、動画撮影領域71と認識画像撮影領域72の撮影範囲は、ほぼ同じ範囲とされる。従って、認識画像撮影領域72の撮影結果から認識されたIDが割り当てられている子供は、動画撮影領域71により撮影された画像にも映っていることになる。
DSP63は、認識画像撮影領域72から供給されてくる画像に基づいてIDを認識する。例えば、DSP63は、認識画像撮影領域72により撮影された画像の輝度値の変化を時系列的に比較することにより、センサバッジ4の発光パターン、すなわちIDを認識する。例えば、DSP63によるIDの認識は1秒毎に行われる。また、DSP63は、認識したIDを対応付けて、動画撮影領域71から供給されてきた画像を記憶部64に記憶させる。なお、撮影した画像からIDを認識する技術については、特開2000−214945号公報に、その詳細が開示されている。
記憶部64は、例えば、ハードディスク、DVD(Digital Versatile Disc)、フラッシュメモリ、テープメディアなど記憶媒体と、そのドライブにより構成される。
通信部65は、パーソナルコンピュータ2との間でIEEE(Institute of Electrical and Electronics Engineers)1394ケーブルやUSB(Universal Serial Bus)ケーブルなどを介して有線の通信を行い、または、IEEE802.11a/b/gなどに準拠した無線通信を行い、記憶部64に記憶されている画像とIDをパーソナルコンピュータ2に出力する。
次に、図10のフローチャートを参照して、ビデオカメラ1の撮影処理について説明する。すなわち、この処理は、図3のステップS2のユーザ操作に応じて行われるものである。
ユーザにより撮影の開始が指示されたとき、ステップS21において、撮像素子62の動画撮影領域71と認識画像撮影領域72によりそれぞれ撮影が開始される。動画撮影領域71により得られた画像と認識画像撮影領域72により得られた画像はDSP63に出力される。
ステップS22において、DSP63は、撮像素子62の認識画像撮影領域72から供給されてきた画像に基づいて所定の周期でIDを繰り返し認識し、ステップS23に進み、認識したIDを対応付けて、動画撮影領域71から供給されてきた画像を記憶部64に記憶させる。
ステップS24において、ユーザにより撮影の終了が指示されたか否かが判定され、指示されたと判定されるまで、ステップS21以降の処理が繰り返される。ステップS24において撮影の終了が指示されたと判定された場合、処理は終了される。
以上の処理がユーザ操作に応じて繰り返し行われることにより、記憶部64には、子供3−1のみが映っている画像、子供3−1と子供3−2が映っている画像といったように、センサバッジ4を付けた子供3が様々な組合せで映っている画像が記憶される。
図11は、IDの認識結果の例を示す図である。
図11の認識結果は、撮影開始後の各時間(認識時間)にID「0」乃至「2」(図1の子供3−1乃至3−3のID)が認識されたか否かを示している。
図11の例においては、撮影開始から例えば1秒経過後までのTime0の認識時間には、ID「0」とID「2」が認識され、ID「1」が認識されなかったものとされている。すなわち、このことは、Time0の認識時間に動画撮影領域71により撮影された画像に図1の子供3−1と子供3−3が映っていることを表している。
同様に、Time1の認識時間には、ID「0」とID「1」が認識され、ID「2」が認識されなかったものとされている。すなわち、このことは、Time1の認識時間に動画撮影領域71により撮影された画像には、図1の子供3−1と子供3−2が映っていることを表している。
このような各時間におけるIDの認識結果を表すデータが、図10の処理により記憶部64に記憶される。以下、図11に示すようなIDの認識結果を、認識されたそのままの状態のデータという意味でID生データという。
次に、ビデオカメラ1により撮影された画像とID生データを処理するパーソナルコンピュータ2の構成と動作について説明する。
図12は、パーソナルコンピュータ2の他の機能構成例を示すブロック図である。図7の構成と同様に、図12の各機能部の少なくとも一部も、図6のCPU31により所定のプログラムが実行されることで実現される。
取り込み部81は、通信部39(図6)を制御してビデオカメラ1との間で通信を行い、画像とID生データをビデオカメラ1から取り込む。取り込み部81は、取り込んだID生データをシーン判定部82に出力し、画像を再生制御部83に出力する。
シーン判定部82は、取り込み部81から供給されてきたID生データに基づいて、各シーンのクラスタリング、リンク付けを行い、それらの結果を記述したメタデータファイルを再生制御部83に出力する。シーン判定部82から出力されるメタデータファイルには、取り込み部81から再生制御部83に供給された画像のうち、どこからどこまでの画像がどのカテゴリに属するのかを表す情報、および、どの画像とどの画像がリンク付けされているのかを表す情報などが含まれる。
再生制御部83は、取り込み部81から供給されてきた画像を、シーン判定部82から供給されてきたメタデータファイルの記述に基づいて再生する。再生制御部83により表示部37に表示されるプレーヤ画面には、後述するように、ユーザが選択したカテゴリの画像のみが表示される。また、再生中の画像とは別に、それにリンク付けされている画像が表示される。
このように、パーソナルコンピュータ2においては、IDの認識結果に基づいて行われるクラスタリング、リンク付けの結果に基づいて、撮影された画像の再生が行われる。
図13は、IDの認識時間と、撮影された画像の関係を示す図である。
例えば、NTSC(National Television System Committee)方式で撮影が行われ、その撮影開始時刻と、IDの認識時間の開始時刻が一致する場合、IDの1つの認識時間を1秒間とすると、図13に示すように、認識時間Tの間には30フレームの画像(シーン)が撮影される。
シーン判定部82においては、図11に示すようなID生データにより表されるそれぞれの認識時間の認識結果に基づいて、各認識時間のクラスタリング、リンク付けが行われる。そして、上述したように、IDを認識するための画像の撮影範囲と、再生対象とする画像(図13の下段の各画像)の撮影範囲はほぼ一致するから、そのように、IDの認識結果に基づいて行われる認識時間のクラスタリング、リンク付けの結果は、その認識時間と同じ時間に撮影された画像を、それに映っている被写体に基づいてクラスタリング、リンク付けを行った場合の結果と同じになる。
以上のことから、IDの認識時間のクラスタリング、リンク付けの結果に基づいて動画を再生することは、被写体に基づいて動画のクラスタリング、リンク付けを行い、その結果に基づいて動画を再生することを意味し、パーソナルコンピュータ2においては、そのような動画の再生が行われる。
図14は、以上のように、認識時間のクラスタリング、リンク付けを通じて、撮影された画像のクラスタリング、リンク付けを行う図12のシーン判定部82の構成例を示すブロック図である。
シーン判定部82は、フィルタリング部91、クラスタリング部92、およびファイル生成部93からなる。始めに、フィルタリング部91について説明する。
フィルタリング部91は、図15に示すように、取り込み部81から供給されてきたID生データに基づいて、ある被写体が一瞬だけ映っていた、すなわち、あるIDが一瞬だけ認識された場合、それをノイズとして除去する処理、および、ある被写体が一瞬だけ映っていなかった、すなわち、その被写体のIDが一瞬だけ認識されなかった場合、それを埋める処理を行う。
図15において、時系列的に並ぶ1つのブロックはIDの1認識時間を表している。ブロックに色が付されている場合、それは、その認識時間にIDが認識されたことを表し、色が付されていない場合、それは、その認識時間にIDが認識されなかったことを表す。すなわち、図15は、1つのIDについて、図11に示すようなID生データの認識した/認識しないを時系列的に表したものである。
図16は、IDが一瞬(例えば、1認識時間)だけ認識されなかった場合に、それを埋めるフィルタリング部91の処理の例を示す図である。
図16は、1つのIDについての認識時間T0乃至T14の認識結果を示している。図16の例においては、その上段に示すように、認識時間T0乃至T2,T5,T10,T12乃至T14のそれぞれの時間ではIDが認識されており、それ以外の認識時間T3およびT4,T6乃至T9,T11のそれぞれの時間ではIDが認識されていない。
このような認識結果が取り込み部81から供給されてきた場合、フィルタリング部91は、例えば、注目している認識時間の1認識時間前にIDが認識されているとき、その注目している認識時間(IDが認識されなかった時間)には、IDが認識されたものとしてIDの穴を埋める処理を行う。
例えば、いま、図16の認識時間T3に注目している場合、その1認識時間前の認識時間T2にはIDが認識されているから、フィルタリング部91は、下段の時系列に示すように、認識時間T3には、そのIDが認識されたものとする。
また、フィルタリング部91は、いま、認識時間T6に注目している場合、その1認識時間前の認識時間T5にはIDが認識されているから、下段の時系列に示すように、認識時間T6には、そのIDが認識されたものとする。
同様に、フィルタリング部91は、いま、認識時間T11に注目している場合、その1認識時間前の認識時間T10にはIDが認識されているから、下段の時系列に示すように、認識時間T11には、そのIDが認識されたものとする。
図17は、IDが一瞬(例えば、1認識時間)だけ認識された場合に、それをノイズとして除去するフィルタリング部91の処理の例を示す図である。
図17も、1つのIDについての認識時間T0乃至T14の認識結果を示している。図17の例においては、図16と同様、認識時間T0乃至T2,T5,T10,T12乃至T14のそれぞれの時間ではIDが認識されており、それ以外の認識時間T3およびT4,T6乃至T9,T11のそれぞれの時間ではIDが認識されていない。
このような認識結果が取り込み部81から供給されてきた場合、フィルタリング部91は、例えば、注目している認識時間の1認識時間後にIDが認識されていないとき、その注目している認識時間(IDが認識された時間)には、IDが認識されなかったものとしてノイズを除去する処理を行う。
例えば、いま、図16の認識時間T2に注目している場合、その1認識時間後の認識時間T3にはIDが認識されていないから、フィルタリング部91は、下段の時系列に示すように、認識時間T2には、そのIDが認識されなかったものとする。
また、フィルタリング部91は、いま、認識時間T5に注目している場合、その1認識時間後の認識時間T6にはIDが認識されていないから、下段の時系列に示すように、認識時間T5には、そのIDが認識されなかったものとする。
同様に、フィルタリング部91は、いま、認識時間T10に注目している場合、その1認識時間後の認識時間T11にはIDが認識されていないから、下段の時系列に示すように、認識時間T10には、そのIDが認識されなかったものとする。
以下、適宜、IDが一瞬だけ認識されなかった場合に、それを埋める図16に示すような処理を「太らせる処理」といい、IDが一瞬だけ認識された場合に、それをノイズとして除去する図17に示すような処理を「痩せさせる処理」という。
なお、図16および図17においては、IDが認識されたものとして埋める時間、および、IDが認識されなかったものとして除去する時間はいずれも1認識時間であるとしたが、1認識時間に限らず、例えば、2認識時間連続してIDが認識されなかった場合に、その認識時間を、前後の認識結果からまとめて認識されたものとして埋めるようにしてもよいし、2認識時間連続してIDが認識された場合に、その認識時間を、前後の認識結果からまとめて認識されなかったものとして除去するようにしてもよい。
図18は、フィルタリング部91の処理の例を示す図である。
図18に示すように、フィルタリング部91は、以上のような太らせる処理を所定の回数だけ繰り返し、白抜き矢印A1の先に示すような時系列を得た後、さらに、これに対して、痩せさせる処理を所定の回数だけ繰り返し、白抜き矢印A2の先に示すような時系列を得る。
これにより、フィルタリング部91による処理が施される前はIDが認識されなかった時間である認識時間T11の穴が埋められる。
図19は、フィルタリング部91の他の処理の例を示す図である。
フィルタリング部91は、太らせる処理と痩せさせる処理をその順番で所定の回数ずつ、図18のように行った後、次に、図18の処理により得られた時系列に対して、図19に示すように、反対に、痩せさせる処理と太らせる処理をその順番で所定の回数ずつ行い、図19の白抜き矢印A2の先に示すような時系列を得る。
これにより、前後の認識時間にはIDが認識されていなかった認識時間T5,T10のノイズが除去される。
フィルタリング部91は、ID生データに含まれるそれぞれのIDについて、以上のように、太らせる処理と痩せさせる処理を所定の回数だけ所定の順番で行うことによってID生データに加工を施す。フィルタリング部91により得られた加工済みの各IDの時系列を表すデータはクラスタリング部92に出力される。以下、フィルタリング部91からクラスタリング部92に出力される加工済みのIDのデータをID加工データという。
次に、図14のクラスタリング部92について説明する。
クラスタリング部92は、フィルタリング部91から供給されてきたID加工データに基づいて、IDの認識時間(対応する時間のシーン)のクラスタリングを行う。クラスタリングにより各シーンが所定のカテゴリに分けられるが、そのカテゴリの意味は、例えば、ユーザにより設定される。
図20は、ユーザにより設定されたカテゴリ0乃至3の意味の例を示す図である。
カテゴリ0は、「うち子供」だけが映っているシーン(上述した例の場合、「Aくん」だけが映っているシーン)のカテゴリであり、カテゴリ0乃至3の中で最も重要なカテゴリとして設定されている。
カテゴリ1は、「うち子供」と「よその子供」が映っているシーン(例えば、「Aくん」と「Bくん」が映っているシーン)のカテゴリであり、カテゴリ0の次に重要なカテゴリとして設定されている。
カテゴリ2は、「よその子供」だけが映っているシーン(例えば、「Aくん」以外の子供だけが映っているシーン)のカテゴリであり、カテゴリ1の次に重要なカテゴリとして設定されている。
カテゴリ3は、だれも映っていないシーンのカテゴリであり、意味のないシーンのカテゴリとして設定されている。
クラスタリング部92においては、このように意味付けされたカテゴリに各シーンが属するようにクラスタリングが行われる。
図21は、クラスタリング部92により行われるクラスタリングの順番の例を示す図である。
例えば、図20に示すように、カテゴリ0,1,2,3の順番で重要度が設定された場合、最も重要なカテゴリ0からクラスタリングが行われ(ステップS41)、それが終了したとき、次に重要なカテゴリ1のクラスタリング(ステップS42)が行われる。カテゴリ1のクラスタリングが終了したとき、最後に、カテゴリ2のクラスタリング(ステップS43)が行われる。いずれのカテゴリにも属さないシーンはカテゴリ3に属するものとされる。
図22は、カテゴリ0のクラスタリング(図21のステップS41)の例を示す図である。
図22に示すように、クラスタリング部92は、「うちの子供」だけが映っているシーンを探すべく、フィルタリング部91から供給されてきたID加工データの中から「うちの子供」のIDの時系列に注目し、所定の数の連続する認識時間からなるウインドウ毎にカテゴリ(各ウインドウに対応するシーンのカテゴリ)を判断する。
例えば、「うちの子供」だけが映っているシーンは最も重要なシーンであるから、クラスタリング部92は、「うちの子供」のIDが認識された認識時間を1つでも含むウインドウのカテゴリをカテゴリ0として判断する。
図22の例においては、1つのウインドウは6つの連続する認識時間からなり、ウインドウ1と2のいずれにも、「うちの子供」のIDが認識された認識時間(ウインドウ1の認識時間T0乃至T3とウインドウ2の認識時間T8)が含まれるから、これらのウインドウ1と2のカテゴリはカテゴリ0として判断されている。
このようにして、「うちの子供」についての全てのウインドウのカテゴリが判断されたとき、カテゴリ0のクラスタリングが終了される。
なお、カテゴリ0のクラスタリングにおいては、「うちの子供」のIDの時系列しか注目されずに、「うちの子供」だけが映っているシーンが判断されているが、後述するように、カテゴリ1のクラスタリングのときには、「うちの子供」のIDの時系列の他に、「よその子供」のIDの時系列も注目され、「うちの子供」のIDだけでなく、「よその子供」のIDが認識された認識時間を含むウインドウがカテゴリ1として判断される。従って、図22に示すようにカテゴリ0として判断されたウインドウのうち、「よその子供」のIDが認識された認識時間も含むウインドウのカテゴリはカテゴリ1として変更されることになり、結局、「うちの子供」のIDが認識された認識時間だけを含むウインドウが、カテゴリ0として判断される。
図23は、カテゴリ1のクラスタリング(図21のステップS42)の例を示す図である。
クラスタリング部92は、カテゴリ0のクラスタリングの場合と同様に、「うちの子供」と「よその子供」が映っているシーンを探すべく、フィルタリング部91から供給されてきたID加工データの中から「うちの子供」のIDの時系列と「よその子供」のIDの時系列に注目し、ウインドウ毎にカテゴリを判断する。
例えば、「うち子供」が映っているシーンは最も重要なシーンであるから、クラスタリング部92は、「うちの子供」のIDが認識された認識時間を1つでも含み、かつ、「よその子供」のIDが認識された認識時間も含むウインドウのカテゴリをカテゴリ1として判断する。
図23の例においては、ウインドウ1と2のいずれにも、「うちの子供」のIDが認識された認識時間(ウインドウ1の認識時間T0乃至T2とウインドウ2の認識時間T8乃至T10)と、「よその子供」のIDが認識された認識時間(ウインドウ1の認識時間T1乃至T3とウインドウ2の認識時間T8)が含まれるから、これらのウインドウ1と2のカテゴリはカテゴリ1として判断されている。
「うちの子供」と「よその子供」のIDの全てのウインドウのカテゴリが判断されたとき、カテゴリ1のクラスタリングが終了される。
図24は、カテゴリ2のクラスタリング(図21のステップS43)の例を示す図である。
クラスタリング部92は、カテゴリ0と1のクラスタリングの場合と同様に、よその子供だけが映っているシーンを探すべく、フィルタリング部91から供給されてきたID加工データの中から「うちの子供」のIDの時系列と「よその子供」のIDの時系列に注目し、ウインドウ毎にカテゴリを判断する。
例えば、クラスタリング部92は、1つのウインドウの半分以上の時間において「よその子供」のIDだけが認識されている場合、そのウインドウのカテゴリをカテゴリ2として判断する。
図24の例においては、ウインドウ1(認識時間T0乃至T5の6認識時間)の半分以上の時間である認識時間T1乃至T3の3認識時間において「よその子供」のIDだけが認識されているから、ウインドウ1のカテゴリはカテゴリ2として判断されている。
また、ウインドウ2(認識時間T6乃至T11の6認識時間)のうち、「よその子供」のIDだけが認識されたのは認識時間T8だけであり、半分以上の時間において「よその子供」のIDだけが認識されていないから、ウインドウ2のカテゴリはカテゴリ2として判断されていない。
同様にして、全てのウインドウのカテゴリが判断されたとき、カテゴリ2のクラスタリングが終了される。
図25は、クラスタリング部92による一連のクラスタリングの結果の例を示す図である。
図25の1つのブロックは1つのウインドウ(連続する所定の数の認識時間)を表し、ブロックの中の数字は、そのブロックにより表されるウインドウのカテゴリを表す。図25にはウインドウW0乃至25が示されている。
図25の白抜き矢印A1の先に示すウインドウの時系列は、カテゴリ0のクラスタリング結果の例を示している。
この例においては、ウインドウW0乃至W25のうち、ウインドウW2乃至W9、ウインドウW15乃至W21、およびウインドウW24のカテゴリがカテゴリ0として判断されている。
また、図25の例においては、「まとまり」が太線で囲まれており、カテゴリ0として判断されたウインドウW2乃至W9、ウインドウW15乃至W21により、それぞれ、カテゴリ0のまとまりが構成されている。「まとまり」は、ユーザがそのカテゴリを選択した場合に再生対象となる連続するシーンを表し、1つのまとまりを構成する最小のウインドウ数は例えばユーザにより設定される。図25においては最小のウインドウ数は「4」とされている。
図25の白抜き矢印A2の先に示すウインドウの時系列は、カテゴリ1のクラスタリング結果の例を示している。
この例においては、カテゴリ0として判断されたウインドウW2乃至W9のうちのウインドウW4乃至W8と、ウインドウW15乃至W21のうちのウインドウW16乃至W21がカテゴリ1として判断されており、それらのウインドウによりカテゴリ1のまとまりが構成されている。すなわち、ウインドウW4乃至W8とウインドウW16乃至W21のカテゴリは、その時間に「うちの子供」のID以外にも「よその子供」のIDが認識された認識時間も含まれていることから、カテゴリ0からカテゴリ1にカテゴリの変更がなされている。
図25の白抜き矢印A3の先に示すウインドウの時系列は、カテゴリ2のクラスタリング結果の例を示している。
この例においては、ウインドウW11乃至W14のカテゴリがカテゴリ2として判断されており、カテゴリ2のまとまりが構成されている。
以上のような一連の処理が行われ、各カテゴリのまとまりが生成される。まとまりを構成しないウインドウのカテゴリは、意味のないシーンのカテゴリであるカテゴリ3とされる。クラスタリング部92によるクラスタリング結果である各ウインドウのカテゴリの情報、まとまりに関する情報等はクラスタリング部92からファイル生成部93(図14)に出力される。
以上のようにして、IDの認識結果に基づいて各認識時間(対応する時間に撮影されたシーン)がクラスタリングされ、まとまり毎に画像の再生が行われるから、例えば、再生するまとまりのカテゴリとしてカテゴリ0を選択することによって、ユーザは、「うちの子供」だけを含むシーンを連続してみることができる。また、ユーザは、カテゴリ1を選択することによって、「うちの子供」と「よその子供」を含むシーンを連続してみることができる。
反対に、ユーザは、カテゴリ2を選択しないことによって、「よその子供」が半分以上映っているシーンだけを見る必要がなくなり、カテゴリ3を選択しないことによって、誰も映っていないシーン、または、センサバッジ4を付けていない子供だけが映っているシーンを見る必要がなくなる。
次に、図14のファイル生成部93について説明する。
ファイル生成部93は、クラスタリング部92によるクラスタリング結果に基づいて、まとまり同士のリンク付けを行い、そのリンク付けの結果と、クラスタリング結果を記述するメタデータファイルを生成する。ファイル生成部93により生成されたメタデータファイルは図12の再生制御部83に出力される。
図26は、メタデータファイルに記述される情報(各シーンがどのカテゴリに属しているかを表す情報)の例を示す図である。
図26のウインドウの時系列は、図25の白抜き矢印A3の先に示す最終的なクラスタリング結果の時系列と同じものである。クラスタリング部92によるクラスタリングによって、図26のまとまりが生成されている場合、メタデータファイルには、各まとまりの先頭(例えば、フレーム番号)を表す情報と、まとまりのカテゴリを表す情報が記述される。
例えば、図26のまとまりM0の先頭のフレーム番号と、まとまりM0のカテゴリがカテゴリ0であること、まとまりM1の先頭のフレーム番号と、まとまりM1のカテゴリがカテゴリ1であること等がメタデータファイルに記述される。
図27は、メタデータファイルに記述される情報(各シーンが、他のどのシーンと同じカテゴリに属しているかを表す情報)の例を示す図である。
図27のウインドウの時系列も、図25の白抜き矢印A3の先に示す最終的なクラスタリング結果の時系列と同じものである。クラスタリング部92によるクラスタリングによって、図27のまとまりが生成されている場合、メタデータファイルには、まとまりの先頭(例えば、フレーム番号)を表す情報と、そのまとまりと同じカテゴリに属する他のまとまりの先頭を表す情報が記述される。
例えば、まとまりM0の先頭のフレーム番号と、同じカテゴリ0のまとまりであるまとまりM2とM4の先頭のフレーム番号等がメタデータファイルに記述される。
ファイル生成部93は、このような同じカテゴリのまとまりに関する情報に基づいてまとまりのリンク付けを行い、リンク付けされたまとまり同士の情報もメタデータファイル記述する。
例えば、ある注目するまとまりに対してリンク付けされる他のまとまりは、同じカテゴリのまとまりのうち、まとまりの長さ(時間)が比較的長いものとされる。
図28に示すように、いま、まとまりM2に注目しており、それと同じカテゴリの他のまとまりとして、まとまりM0,M1,M3乃至M5がある場合、ファイル生成部93は、まとまりM2に対して、長さの長い3つのまとまりであるまとまりM0,M4,M5をリンク付けし、そのリンク付けの結果であるまとまりM0,M4,M5の先頭のフレーム番号をメタデータファイルに記述する。図28の例においては、まとまりM4が1番長いまとまりであり、まとまりM0が2番目に長いまとまりであり、まとまりM5が3番目に長いまとまりである。
リンク付けに関する情報は、例えば、あるまとまりのシーンを再生しているときに、それとリンク付けされている他のシーンを表示するために用いられる。例えば、図28に示すようにまとまりM2に対してまとまりM0,M4,M5がリンク付けされている場合、まとまりM2のシーンが再生され、画面に表示されているときには、同じ画面内に、まとまりM0,M4,M5のシーンも表示されることになる。画面表示の具体例については後述する。
次に、図29乃至図32を参照して、メタデータファイルの記述の具体例について説明する。
図29乃至図32において、各行の左端に示す数字と「:(コロン)」は説明の便宜上付したものであり、メタデータを構成するものではない。
図29は、図29乃至図32のメタデータに従って再生される画像(動画)と、音声に関する記述の例を示す図である。
第1行目乃至第5行目は画像に関する記述である。第1行目の「framerate=15」はフレームレートを表し、第2行目の「height=120」と第3行目の「widht=160」は1フレームの大きさを表す。第4行目の「filename=sample.mpg」は動画のファイル名を表し、第5行目の「TotalLength=1800」は動画の総時間を表す。
第6行目は音声に関する記述である。第6行目の「filename=sample.wav」は音声のファイル名を表す。
図30および図31はクラスタ(上述の「まとまり」)に関する記述の例を示す図である。
「ClusterInfo」として記述される第1行目の「ClusterDepthNum=3」は、クラスタの粒度が3段階あること、すなわち、クラスタの粒度を「粗い」、「中くらい」、「細かい」とした場合の、それぞれ場合のクラスタの情報が記述されていることを表す。
クラスタの粒度(まとまりの粒度)は、例えば、上述した、1つのまとまりを構成する最小のウインドウの数(図25の場合「4」)に対応する。同じ動画を対象にした場合、通常、最小のウインドウの数が大きいほど、生成されるまとまりの数は少なくなり、1つのまとまりは大きくなるから、クラスタの粒度が「粗い」となり、一方、最小のウインドウの数が小さいほど、生成されるまとまりの数は多くなり、1つのまとまりは小さくなるから、クラスタの粒度が「細かい」となる。
ユーザは、このように、「粗い」、「中くらい」、「細かい」の中からクラスタの粒度を選択することによって、撮影した画像全体を大まかに見たり、全体を細かく見たりすることができる。すなわち、上述したようなクラスタリングは、クラスタの粒度毎に行われることになる。
図30および図31においては、「ClusterDepth0」がクラスタの粒度が「粗い」場合のクラスタの情報を表し、「ClusterDepth1」がクラスタの粒度が「中くらい」の場合のクラスタの情報を表す。また、「ClusterDepth2」がクラスタの粒度が「細かい」場合のクラスタの情報を表す。
図30の第2行目乃至第4行目には、「ClusterDepth0」(粒度が「粗い」)のクラスタの情報が記述されており、第5行目乃至第8行目には、「ClusterDepth1」(粒度が「中くらい」)のクラスタの情報が記述されている。また、第9行目乃至第14行目には、「ClusterDepth2」(クラスタの粒度が「細かい」)のクラスタの情報が記述されている。
第2行目の「ClusterNum=2」は、「ClusterDepth0」である場合、クラスタの数は2個であることを表す。第3行目の「ClusterTitle0=A」と第4行目の「ClusterTitle1=B」は、2個のうちの1つ目のクラスタのタイトルは「A」であり、2つ目のクラスタのタイトルは「B」であることを表す。
同様に、第5行目乃至第8行目には、「ClusterDepth1」である場合のクラスタの数と、それぞれのクラスタのタイトルが記述されている。また、第9行目乃至第14行目には、「ClusterDepth2」である場合のクラスタの数と、それぞれのクラスタのタイトルが記述されている。
図31の「ClusterData」は、各シーンのクラスタの情報(図26の情報)を表す。
第1行目の「Frame0_Depth0=1」は、「ClusterDepth0」である場合、フレームナンバ0の画像のクラスタ(フレームナンバ0の画像から次のクラスタの先頭までのクラスタ)がクラスタ1(図30の第4行目の「ClusterTitle1=B」のクラスタ)であることを表す。
第2行目の「Frame0_Depth1=2」は、「ClusterDepth1」である場合、フレームナンバ0の画像のクラスタ(フレームナンバ0の画像から次のクラスタの先頭までのクラスタ)がクラスタ2(図30の第8行目の「ClusterTitle2=B」のクラスタ)であることを表す。
第3行目の「Frame0_Depth2=4」は、「ClusterDepth2」である場合、フレームナンバ0の画像のクラスタ(フレームナンバ0の画像から次のクラスタの先頭までのクラスタ)がクラスタ4(図30の第14行目の「ClusterTitle4=B」のクラスタ)であることを表す。
第4行目の「Frame0_Next_Depth0=443」は、「ClusterDepth0」である場合、フレームナンバ0の画像の次にクラスタの先頭になる画像のフレームナンバがフレームナンバ443であることを表す。
第5行目の「Frame0_Next_Depth1=200」は、「ClusterDepth1」である場合、フレームナンバ0の画像の次にクラスタの先頭になる画像のフレームナンバがフレームナンバ200であることを表す。
第6行目の「Frame0_Next_Depth2=200」は、「ClusterDepth2」である場合、フレームナンバ0の画像の次にクラスタの先頭になる画像のフレームナンバがフレームナンバ200であることを表す。
第7行目の「Frame200_Depth1=1」は、「ClusterDepth1」である場合、フレームナンバ200の画像のクラスタ(フレームナンバ200の画像から次のクラスタの先頭までのクラスタ)がクラスタ1(図30の第7行目の「ClusterTitle1=C」のクラスタ)であることを表す。
第8行目の「Frame200_Depth2=2」は、「ClusterDepth2」である場合、フレームナンバ200の画像のクラスタ(フレームナンバ200の画像から次のクラスタの先頭までのクラスタ)がクラスタ2(図30の第12行目の「ClusterTitle2=C」のクラスタ)であることを表す。
第9行目の「Frame200_Next_Depth1=443」は、「ClusterDepth1」である場合、フレームナンバ200の画像の次にクラスタの先頭になる画像のフレームナンバがフレームナンバ443であることを表す。
第10行目の「Frame200_Next_Depth2=443」は、「ClusterDepth2」である場合、フレームナンバ200の画像の次にクラスタの先頭になる画像のフレームナンバがフレームナンバ443であることを表す。
第11行目の「Frame443_Depth0=0」は、「ClusterDepth0」である場合、フレームナンバ443の画像のクラスタ(フレームナンバ433の画像から最後の画像までのクラスタ)がクラスタ0(図30の第3行目の「ClusterTitle0=A」のクラスタ)であることを表す。
第12行目の「Frame443_Depth1=0」は、「ClusterDepth1」である場合、フレームナンバ443の画像のクラスタ(フレームナンバ433の画像から最後の画像までのクラスタ)がクラスタ0(図30の第6行目の「ClusterTitle0=A」のクラスタ)であることを表す。
第13行目の「Frame443_Depth2=0」は、「ClusterDepth2」である場合、フレームナンバ443の画像のクラスタがクラスタ0(図30の第10行目の「ClusterTitle0=A」のクラスタ)であることを表す。
第14行目乃至第16行目は、それぞれの「ClusterDepth」毎の、クラスタの先頭画像となる最後の画像のフレームナンバを表す。
図32は、クラスタのリンク付けに関する情報(図28の情報)の例を示す図である。
第1行目の「Frame0_LinkNum=3」は、フレームナンバ0の画像には、リンク先が3つ(Link0,1,2)設定されていることを表す。
第2行目の「Frame0_Link0=2452」は、フレームナンバ0の画像のリンク先の1つである「Link0」のフレームナンバが「2452」であることを表す。同様に、第3行目の「Frame0_Link1=5664」は、フレームナンバ0の画像のリンク先の1つである「Link1」のフレームナンバが「5664」であることを表す。
第4行目の「Frame0_Link2_FileName=family.mpg」は、フレームナンバ0の画像のリンク先の1つである「Link2」が、「family.mpg」の名前が設定されたファイルに格納されている画像であることを表す。
第5行目の「Frame0_Link2=343」は、その「family.mpg」の名前が設定されたファイル中のフレームナンバ「343」の画像が、フレームナンバ0の画像のリンク先(Link2)であることを表す。
第6行目の「Frame0_Next=15」は、フレームナンバ0の画像の次に、リンク先に関する情報が設定されている画像のフレームナンバが「15」であることを表し、第7行目の「Frame15_LinkNum=0」は、フレームナンバ15の画像にはリンク先がないことを表す。このように、リンク先がないことは、その画像が再生対象の画像になったとき、それまで表示していたリンク先の表示を消去することを表す。
従って、例えば、図32の記述に従って、フレームナンバ0の画像から動画の再生が行われる場合、そのフレームナンバ0の画像の表示と同時に、リンク付けされているシーンの画像としてフレームナンバ2452,5664の画像、および、「family.mpg」の名前が設定されたファイルに格納されているファイルナンバ343の画像が表示される。その状態は、再生対象の画像がフレームナンバ15の画像となるまで続けられる。
フレームナンバ15の画像が現在の再生対象の画像になったとき、フレームナンバ2452,5664の画像、および、「family.mpg」の名前が設定されたファイルに格納されているファイルナンバ343の画像の表示は消去される。
第8行目の「Frame15_Next=476」は、フレームナンバ15の次にリンク先に関する情報が設定されている画像のフレームナンバが「476」であることを表し、以降、同様の記述が「LinkData」に含まれる。
このような記述を含むメタデータファイルがファイル生成部93から再生制御部83に出力される。
ここで、以上のようなメタデータファイルが生成されるまでのパーソナルコンピュータ2の処理について説明する。
始めに、図33のフローチャートを参照して全体の処理について簡単に説明する。
パーソナルコンピュータ2によるメタデータファイルが生成されるまでの処理は、主に、取り込み部81による取り込み(ステップS31)、シーン判定部82のフィルタリング部91によるフィルタリング(ステップS32)、クラスタリング部92によるクラスタリング(ステップS33,S34)、ファイル生成部93によるファイルの作成(ステップS35)からなる。
すなわち、ステップS31において、取り込み部81は、撮影された画像とID生データを取り込み、取り込んだID生データをシーン判定部82に、画像を再生制御部83にそれぞれ出力する。
ステップS32において、フィルタリング部91は、取り込み部81から供給されてきたID生データに基づいて、ある被写体が一瞬だけ映っていた場合、それをノイズとして除去し、また、ある注目する被写体が一瞬だけ映っていなかった場合、それを埋める処理を行う。フィルタリング部91により得られたID加工データはクラスタリング部92に出力される。
ステップS33において、クラスタリング部92は、フィルタリング部91から供給されてきたID加工データに基づいて、各ウインドウにおいて主に認識されたのがどのIDであるのを判断し、各ウインドウをカテゴリに分ける。
また、クラスタリング部92は、ステップS34において、ステップS33の処理の結果に基づいて、同じカテゴリのウインドウが所定の数だけ連続しているか否かを判断し、連続している場合、それらの連続するウインドウを「まとまり」とする。上述したように、ここで生成されるまとまりを構成する最小のウインドウの数は粒度によって定まる。クラスタリング部92のクラスタリングの結果はファイル生成部93に出力される。
ステップS35において、ファイル生成部93は、クラスタリング部92によるクラスタリング結果に基づいてシーン同士のリンク付けを行い、そのリンク付けの結果と、クラスタリング結果を記述するメタデータファイルを生成する。ファイル生成部93により生成されたメタデータファイルは再生制御部83に出力される。
次に、図34乃至図38のフローチャートを参照して、シーン判定部82の処理についてより詳細に説明する。
ステップS51において、フィルタリング部91は、取り込み部81から供給されてきたID生データを取得し、ステップS52に進み、ID生データに記録されている全IDを探し出す。例えば、図1に示すように、ID「0」乃至「2」が割り当てられているセンサバッジ4を付けている子供3を撮影したものがパーソナルコンピュータ2に取り込まれた場合、ここでは、ID「0」乃至「2」の3つのIDが探し出される。探し出されたIDの数がMAXIDの値として設定される。
ステップS53において、フィルタリング部91は、MAXIDに設定されている値が0より大きい(0含まず)か否かを判定し、0より大きくない(0である)と判定した場合、処理を終了させる。
一方、フィルタリング部91は、ステップS53において、MAXIDに設定されている値が0より大きいと判定した場合、ステップS54に進み、ID生データに記録されているIDを1つ選択する。
ステップS55において、フィルタリング部91は、選択した1つのIDの認識結果を時系列的に並べ、図16を参照して説明したような「太らせる処理」をX回(X>0)だけ繰り返す。
ステップS56において、フィルタリング部91は、ステップS55で行われた「太らせる処理」により得られたIDの時系列に対して、図17を参照して説明したような「痩せさせる処理」をX回だけ繰り返す。
このステップS55およびS56の処理により、ステップS54で選択された1つのIDについて穴埋め(図18)が施される。
フィルタリング部91は、ステップS57において、穴埋めされたIDの時系列に対して、次に、「痩せさせる処理」をX回だけ繰り返す。
フィルタリング部91は、ステップS58において、ステップS57で行われた「痩せさせる処理」により得られたIDの時系列に対して「太らせる処理」をX回だけ繰り返す。
このステップS57およびS58の処理により、ステップS54で選択された1つのIDについてノイズの除去(図19)が施される。
フィルタリング部91は、1つのIDに加工を施した後、ステップS59に進み、いままで選択していたIDの次のIDを選択する。
ステップS60において、フィルタリング部91は、ID生データに記録されている全てのIDに穴埋めとノイズ除去の処理を施したか否か、すなわち、これまでに選択したIDの数がMAXIDに設定されている値を超えたか否かを判定し、これまでに選択したIDの数がMAXIDに設定されている値を超えていないと判定した場合、ステップS55に戻り、それ以降の処理を繰り返す。
一方、フィルタリング部91は、ステップS60において、これまでに選択したIDの数がMAXIDに設定されている値を超えたと判定した場合、ステップS61に進む。このとき、フィルタリング部91の処理により得られたID加工データがクラスタリング部92に供給される。
ステップS61において、クラスタリング部92は、フィルタリング部91から供給されてきたID加工データ(ローパスフィルタ通過後のID加工データ)に記録されている全てのIDを探し出し、記録されているIDの数をMAXIDの値として設定する。
ステップS62において、クラスタリング部92は、MAXIDに設定されている値が0より大きいか否かを判定し、0より大きくないと判定した場合、処理を終了させる。
一方、クラスタリング部92は、ステップS62において、MAXIDに設定されている数が0より大きいと判定した場合、ステップS63に進む。ステップS63以降の図35の処理が、カテゴリ0のクラスタリングに相当する。
ステップS63において、クラスタリング部92は、ID加工データに記録されているIDの時系列の先頭から順に注目し、認識結果を確認する。例えば、図23に示すように、「うちの子供」のIDの時系列と、「よその子供」のIDの時系列が選択され、先頭の認識時間T0から順に認識結果が確認される。
クラスタリング部92は、ステップS64において、注目している認識時間にID_P番のIDが認識されているか否かを判定する。クラスタリングは重要度の高いカテゴリから行われるから、ここでは、重要度の最も高いIDである「うちの子供」のID「0」がID_P番とされ、判定が行われる。例えば、図20に示すようにカテゴリの意味が設定されている場合、カテゴリ0が重要度の最も高いカテゴリであり、ここでの判定は、「うちの子供」が映っているか否か、すなわち、「うちの子供」に割り当てられているID「0」が、注目している認識時間に認識されているか否かに基づいて行われる。
ステップS64において、クラスタリング部92は、注目している認識時間にID_P番のIDが認識されていると判定した場合、ステップS65に進み、1つのウインドウ内で、ID_P番のIDが認識された数を表すカウンタNUMの値に1を加算する。ステップS64において、注目している認識時間にID_P番のIDが認識されていないと判定された場合、ステップS65の処理はスキップされる。
ステップS66において、クラスタリング部92は、注目した認識時間の数(確認した認識結果の数)が最小のウインドウサイズに達したか否かを判定する。
クラスタリング部92は、ステップS66において、注目した認識時間の数が最小のウインドウサイズに達していないと判定した場合、いま注目している認識時間の次の認識時間に注目し、ステップS64以降の処理を繰り返す。
ステップS66において、クラスタリング部92は、注目した認識時間の数が最小のウインドウサイズに達したと判定した場合、ステップS67に進み、カウンタNUMの値が0より大きいか否かを判定する。
ステップS67において、クラスタリング部92は、カウンタNUMの値が0より大きい、すなわち、1つのウインドウに、ID_P番のIDが認識された時間が含まれていると判定した場合、ステップS68に進み、そのウインドウのカテゴリをカテゴリ0として判断する。上述したように、重要度の最も高いIDが1つのウインドウ内で認識されている場合、そのウインドウのカテゴリはカテゴリ0として判断される。
ステップS69において、クラスタリング部92は、それまでに判断した各ウインドウのカテゴリを参照して、カテゴリ0のウインドウが連続してZ個(Z>0)続いたか否かを判定する。値Zには、例えば、まとまりの粒度に応じた値が設定される。
クラスタリング部92は、ステップS69において、カテゴリ0のウインドウが連続してZ個続いたと判定した場合、ステップS70に進み、その、連続するカテゴリ0のウインドウを1つの「まとまり」として判断し、まとまりの長さ(時間)を記憶する。
ステップS67においてカウンタNUMの値が0であると判定した場合、ステップS69において、カテゴリ0のウインドウが連続してZ個続いていないと判定した場合、または、ステップS70において、1つのまとまりの長さを記憶した場合、ステップS71に進み、クラスタリング部92は、次の認識時間に注目する。
ステップS72において、クラスタリング部92は、注目していた認識時間が最終の認識時間であったか否かを判定し、最終の認識時間ではないと判定した場合、ステップS64に戻り、それ以降の処理を繰り返し行う。
一方、クラスタリング部92は、ステップS72において、注目していた認識時間が最終の認識時間であったと判定した場合、ステップS73に進む。ステップS73以降の図36の処理が、カテゴリ1のクラスタリングに相当する。
ステップS73において、クラスタリング部92は、ID加工データに記録されているIDの時系列の先頭から順に注目し、認識結果を確認する。
クラスタリング部92は、ステップS74において、注目している認識時間にID_P番のIDとともに他のIDも認識されているか否かを判定する。例えば、図20に示すようにカテゴリの意味が設定されている場合、ここでの判定は、「うちの子供」に割り当てられているID「0」の他に、「よその子供」に割り当てられているID(「Bくん」に割り当てられているID「1」、「Cくん」に割り当てられているID「2」)が、注目している認識時間に認識されているか否かに基づいて行われる。
ステップS74において、クラスタリング部92は、注目している認識時間にID_P番のIDとともに他のIDも含まれていると判定した場合、ステップS75に進み、1つのウインドウ内で、ID_P番のIDと他のIDが認識された認識時間の数を表すカウンタNUMの値に1を加算する。ステップS74において、注目している認識時間にID_P番のIDとともに他のIDが認識されていないと判定された場合、ステップS75の処理はスキップされる。
ステップS76において、クラスタリング部92は、注目した認識時間の数が最小のウインドウサイズに達したか否かを判定する。
クラスタリング部92は、ステップS76において、注目した認識時間の数が最小のウインドウサイズに達していないと判定した場合、いま注目している認識時間の次の認識時間に注目し、ステップS74以降の処理を繰り返す。
ステップS76において、クラスタリング部92は、注目した認識時間の数が最小のウインドウサイズに達したと判定した場合、ステップS77に進み、カウンタNUMの値が0より大きいか否かを判定する。
ステップS77において、クラスタリング部92は、カウンタNUMの値が0より大きい、すなわち、1つのウインドウに、ID_P番のIDと他のIDが認識された認識時間が含まれていると判定した場合、ステップS78に進み、そのウインドウのカテゴリをカテゴリ1として判断する。
ステップS79において、クラスタリング部92は、それまでに判断した各ウインドウのカテゴリを参照して、カテゴリ1のウインドウが連続してZ個続いたか否かを判定する。
クラスタリング部92は、ステップS79において、カテゴリ1のウインドウが連続してZ個続いたと判定した場合、ステップS80に進み、その、連続するカテゴリ1のウインドウを1つの「まとまり」として判断し、まとまりの長さ(時間)を記憶する。
ステップS77においてカウンタNUMの値が0であると判定した場合、ステップS79において、カテゴリ0のウインドウが連続してZ個続いていないと判定した場合、または、ステップS80において1つのまとまりの長さを記憶した場合、ステップS81に進み、クラスタリング部92は、次の認識時間に注目する。
ステップS82において、クラスタリング部92は、注目していた認識時間が最終の認識時間であったか否かを判定し、最終の認識時間ではないと判定した場合、ステップS74に戻り、それ以降の処理を繰り返し行う。
一方、クラスタリング部92は、ステップS82において、注目していた認識時間が最終の認識時間であると判定した場合、ステップS83に進む。ステップS83以降の図37の処理が、カテゴリ2のクラスタリングに相当する。
ステップS83において、クラスタリング部92は、ID加工データに記録されているIDの時系列の先頭から順に注目し、認識結果を確認する。
クラスタリング部92は、ステップS84に進み、注目している認識時間にID_P番以外のIDのみが認識されているか否かを判定する。例えば、図20に示すようにカテゴリの意味が設定されている場合、ここでの判定は、「うちの子供」に割り当てられているID「0」以外の、「よその子供」に割り当てられているIDのみが、注目している認識時間に認識されているか否かに基づいて行われる。
ステップS84において、クラスタリング部92は、注目している認識時間にID_P番以外のIDのみが認識されていると判定した場合、ステップS85に進み、1つのウインドウの内で、ID_P番以外のIDのみが認識された認識時間の数を表すカウンタNUMの値に1を加算する。ステップS84において、注目している認識時間にID_P番以外のIDのみが認識されていないと判定された場合、ステップS85の処理はスキップされる。
ステップS86において、クラスタリング部92は、注目した認識時間の数が最小のウインドウサイズに達したか否かを判定する。
クラスタリング部92は、ステップS86において、注目した認識時間の数が最小のウインドウサイズに達していないと判定した場合、いま注目している認識時間の次の認識時間に注目し、ステップS84以降の処理を繰り返す。
ステップS86において、クラスタリング部92は、注目した認識時間の数が最小のウインドウサイズに達したと判定した場合、ステップS87に進み、カウンタNUMの値が、1つのウインドウを構成する認識時間の数の半分以上の値であるか否かを判定する。
ステップS87において、クラスタリング部92は、カウンタNUMの値が、1つのウインドウを構成する認識時間の数の半分以上の値であると判定した場合、すなわち、1つのウインドウの時間の半分以上の時間において、「よその子供」のIDだけが認識されている場合、ステップS88に進み、そのウインドウのカテゴリをカテゴリ2として判断する。
ステップS89において、クラスタリング部92は、それまでに判断した各ウインドウのカテゴリを参照して、カテゴリ2のウインドウが連続してZ個続いたか否かを判定する。
クラスタリング部92は、ステップS89において、カテゴリ2のウインドウが連続してZ個続いたと判定した場合、ステップS90に進み、その、連続するカテゴリ2のウインドウを1つの「まとまり」として判断し、まとまりの長さ(時間)を記憶する。
ステップS87において、1つのウインドウの時間の半分以上の時間において「よその子供」のIDだけが認識されていないと判定した場合、ステップS89において、カテゴリ2のウインドウが連続してZ個続いていないと判定した場合、または、ステップS90において、1つのまとまりの長さを記憶した場合、ステップS91に進み、クラスタリング部92は、次の認識時間に注目する。
ステップS92において、クラスタリング部92は、注目していた認識時間が最終の認識時間であったか否かを判定し、最終の認識時間ではないと判定した場合、ステップS84に戻り、それ以降の処理を繰り返し行う。
一方、クラスタリング部92は、ステップS92において、注目していた認識時間が最終の認識時間であったと判定した場合、ステップS93に進む。以上のようなクラスタリング部92によるクラスタリングの結果はファイル生成部93に供給される。
ステップS93において、ファイル生成部93は、クラスタリング部92によるクラスタリングの結果に基づいて、それぞれのまとまりがどのカテゴリ(クラスタ)に属しているのかをメタデータファイルに書き出す。これにより、例えば、図31に示すような「ClusterData」が書き出される。
ファイル生成部93は、ステップS94に進み、カテゴリ0,1,2のそれぞれにおいて、記憶していたまとまりの長さを比較し、例えば、最も長いものから上位3つのまとまりを選択する。
ステップS95において、ファイル生成部93は、それぞれのまとまりに対応するシーンがどのカテゴリに属するものであるのかを参照し、それぞれのカテゴリ毎に、長さの長いまとまりの上位3つをリンクポイントとしてメタデータファイルに書き出す。これにより、例えば、図32に示すような「LinkData」が書き出される。
図38の処理によりファイル生成部93により生成されたメタデータファイルは、再生制御部83に供給され、動画の再生に用いられる。なお、図38においては、「ClusterData」と「LinkData」のみが書き出されているが、図29、図30に示す他の情報もファイル生成部93によってメタデータファイルに書き出される。
次に、以上のようにしてシーン判定部82により生成されたメタデータファイルに基づいて動画の再生を行う図12の再生制御部83について説明する。
図39は、再生制御部83の機能構成例を示すブロック図である。
再生制御部83は、制御部101、再生部102、およびクラスタ分布表示制御部103から構成される。
制御部101は、取り込み部81から供給されてきた画像(動画)を取得し、シーン判定部82から供給されてくるメタデータファイルの記述とユーザ操作に基づいて、供給されてきた画像のうちの必要な画像を選択する。制御部101は、あるクラスタがユーザにより指定されたとき、そのクラスタに属する画像のみを選択し、選択した画像を再生対象の画像として再生部102に出力する。
例えば、図30および図31の記述がメタデータファイルに含まれており、ユーザにより、クラスタの粒度として「ClusterDepth0」が選択され、また、再生するクラスタとして「ClusterTitle0=A」のクラスタが選択されている場合、制御部101は、その選択されたクラスタに属する画像であるフレームナンバ0の画像から再生部102に供給し、再生させる。
再生部102は、制御部101から供給されてきた画像を再生し、表示部37の所定の位置に表示させる。
クラスタ分布表示制御部103は、シーン判定部82から供給されてきたメタデータファイルに含まれるクラスタに関する記述に基づいて、クラスタの時間軸上の分布を表示部37に表示させる。
図40は、再生制御部83により表示される画面の例を示す図である。
左上方の動画表示部111には、再生部102により再生されている画像が表示され、下方にあるクラスタ分布表示部115には、例えば、ユーザが選択したクラスタナンバ(カテゴリの番号(上述した例の場合、カテゴリ0,1,2,3))のクラスタの時間軸上の分布(例えば、「うちの子供」が映っているシーンのまとまりの分布、「うちの子供」と「よその子供」が映っているシーンのまとまりの分布)が表示される。クラスタ分布表示部115に表示されるクラスタのうち、現在、再生対象になっているクラスタは、例えば、再生対象となっていないクラスタと異なる色によって表示される。
図40の例においては、クラスタ分布表示部115に表示されるクラスタのうち、クラスタC1が、現在、再生対象になっているクラスタである。すなわち、図40の動画表示部111に表示されている画像はクラスタC1に属する画像である。
例えば、現在再生されているクラスタC1の最後の画像の再生が終了したとき、次に、クラスタC1の右隣に、所定の間隔だけ空けて表示されているクラスタC2の最初の画像から再生が開始される。クラスタC1とクラスタC2は、同じクラスタナンバのクラスタである。
これにより、ユーザは、「うちの子供」だけが映っているシーン、または、「うちの子供」と「よその子供」が映っているシーンといったように、自分が選択したシーンだけを連続して見ることができる。
また、ユーザは、現在再生中のクラスタとは異なるクラスタをクラスタ分布表示部115から選択することによって、その選択したクラスタの再生を開始させることができる。
なお、複数のクラスタナンバのクラスタの分布を表示することがユーザにより指定されている場合、クラスタ分布表示部115には、それぞれのクラスタナンバのクラスタの分布が、クラスタナンバ毎に色分けして表示される。
図40の画面には、各種の操作ボタンが表示される操作ボタン表示部112、クラスタの粒度、および再生対象とするクラスタを選択するクラスタ選択部113、および、再生中のクラスタに関する情報を表示するクラスタ情報表示部114も表示されている。
操作ボタン表示部112に表示されるファイル選択ボタン121は、ユーザが動画ファイルを選択するとき操作され、再生/一時停止ボタン122は、ユーザが再生を開始、または一時停止するとき操作される。また、移動ボタン123は、再生するクラスタを、現在再生中のものから隣のものに移動するとき操作され、速度選択ボタン124は、再生速度を選択するとき操作される。
クラスタ選択部113に表示される粒度選択部131は、ユーザがクラスタの粒度を指示するとき操作され、クラスタ選択部132,133は、再生対象とするクラスタを指示するとき操作される。
なお、再生対象とするクラスタ(まとまり)は、例えば、図41に示すような画面から選択されるようにしてもよい。
図41の画面には、上から、「Aくんだけ」の文字が表示されたカテゴリ選択ボタン141、「Aくんとよその子」の文字が表示されたカテゴリ選択ボタン142、「よその子だけ」の文字が表示されたカテゴリ選択ボタン143、および、「誰もいない/バッジを持たない人」の文字が表示されたカテゴリ選択ボタン144が表示されている。各ボタンに表示されている名前等は、ユーザによる設定(IDとの対応付け)に基づいて表示される。
例えば、カテゴリ選択ボタン141が押下された場合、「Aくん」だけが映っている画像のまとまりであるカテゴリ0のまとまりだけが再生される。このとき、クラスタ分布表示部115には、カテゴリ0のまとまりの分布が表示される。
また、カテゴリ選択ボタン142が押下された場合、「Aくん」と「よその子」(「Bくん」、「Cくん」)が映っている画像のまとまりであるカテゴリ1のまとまりだけが再生される。このとき、クラスタ分布表示部115には、カテゴリ1のまとまりの分布が表示される。
同様に、カテゴリ選択ボタン143が押下された場合、クラスタ分布表示部115にはカテゴリ2のまとまりの分布が表示されるとともに、「よその子」だけが映っている画像のまとまりであるカテゴリ2のまとまりだけが再生され、カテゴリ選択ボタン144が押下された場合、クラスタ分布表示部115にはカテゴリ3のまとまりの分布が表示されるとともに、誰も映っていないか、センサバッジ4を付けていた「Aくん」、「Bくん」、「Cくん」が映っていない画像のまとまりであるカテゴリ3のまとまりだけが再生される。
このような画面が表示されることにより、ユーザは、直感的に、再生するクラスタを選択することができる。
次に、図42のフローチャートを参照して、図40の画面を表示して動画の再生を行う再生制御部83の再生処理について説明する。
ステップS111において、制御部101は、シーン判定部82から供給されてきたメタデータファイルを読み込み、ステップS112に進み、ユーザによるClusterDepth(粒度)の指定を受け付ける。例えば、動画表示部111、クラスタ分布表示部115に何も表示されていない状態の図40の画面が表示され、ユーザが、粒度選択部131にClusterDepthを指定することができるようになされる。
ステップS113において、制御部101は、ユーザにより指定されたClusterDepthが、メタデータファイルの記述と矛盾しないか否かを判定し、矛盾すると判定した場合、ステップS112に戻り、それ以降の処理を行う。
例えば、メタデータファイルに記述されているClusterDepthが、「粗い」、「中くらい」、「細かい」の3つであるにも関わらず、ユーザにより、「粗い」、「中くらい」、「細かい」以外の粒度が指定された場合、指定された粒度と、メタデータファイルの記述が矛盾するとして判定される。
制御部101は、ステップS113において、ユーザにより指定されたClusterDepthがメタデータファイルの記述と矛盾しないと判定した場合、ステップS114に進み、クラスタナンバの指定を受け付ける。
ステップS115において、制御部101は、ユーザにより指定されたクラスタナンバが、メタデータファイルの記述と矛盾しないか否かを判定し、矛盾すると判定した場合、ステップS114に戻り、それ以降の処理を行う。
例えば、メタデータファイルに記述されているクラスタナンバが、クラスタ0,1,2,3(カテゴリ0,1,2,3)の4つであるにも関わらず、ユーザにより、それ以外のクラスタナンバが指定された場合、指定されたクラスタナンバと、メタデータファイルの記述が矛盾するとして判定される。
ステップS115において、ユーザにより指定されたクラスタナンバがメタデータファイルの記述と矛盾しないと判定した場合、制御部101は、ステップS116に進み、メタデータファイルのクラスタに関する記述のうち、ユーザにより指定されたClusterDepthの記述を参照し、指定されたクラスタナンバのクラスタをリンク付けする。
例えば、図31のClusterDataの記述があり、ユーザによりClusterDepth0、クラスタナンバ1が指定されている場合、第1行目、第4行目、第11行目、第14行目のClusterDepth0に関する記述が参照される。また、ClusterDepth0のときのクラスタナンバ1のクラスタが、フレームナンバ0から442までのクラスタ(第1行目と第4行目の記述により定められるクラスタ)以外にもある場合、それらのクラスタがリンク付けされる。制御部101によりリンク付けされたクラスタの情報は、制御部101からクラスタ分布表示制御部103に供給される。
ステップS117において、クラスタ分布表示制御部103は、制御部101から供給されてきた情報に基づいて、ユーザにより指定されたクラスタナンバのクラスタの時間軸上の分布をクラスタ分布表示部115に表示させる。
ステップS118において、制御部101は、再生対象とするクラスタを表すクラスタインデックスの値に0を設定する。クラスタインデックスの値0は、例えば、クラスタ分布表示部115に表示されるクラスタのうちの最も左側に表示されるクラスタを表す。
また、制御部101は、ステップS119において、クラスタ分布表示制御部103を制御し、クラスタ分布表示部115に表示されている再生対象のクラスタの色を例えば赤色などで強調して表示させる。
ステップS120において、制御部101は、撮影画像の中から選択したクラスタインデックスの値0のクラスタに属する画像を再生部102に供給し、その画像の再生を行わせる。
制御部101は、いま再生しているクラスタの最後のフレームまでを再生させた場合、ステップS121において、クラスタインデックスの値を1だけインクリメントし、ステップS122に進み、最後のクラスタの最後のフレームまで再生したか否かを判定する。
制御部101は、ステップS122において、最後のクラスタの最後のフレームまで再生していないと判定した場合、ステップS119に戻り、それ以降の処理を繰り返し実行し、最後のクラスタの最後のフレームまで再生したと判定した場合、処理を終了させる。
以上の処理により、ユーザは、自分が指定したカテゴリの画像を、所定のまとまり毎に見ることができる。
以上においては、図29乃至図32のメタデータファイルの記述のうちの、クラスタに関する記述(図31のClusterData)に基づいて画像が再生される場合について主に説明したが、次に、リンク付けに関する記述、すなわち、図32のLinkDataに基づいて撮影画像の再生を行う再生制御部83の構成、動作について説明する。
図43は、再生制御部83の他の構成例を示すブロック図である。図39と同じ構成には同じ符号を付してある。
制御部101は、取り込み部81から供給されてきた画像を取得し、シーン判定部82から供給されてきたメタデータファイルのうちのリンク付けに関する記述とユーザ操作に基づいて、取得した画像うちの必要な画像を選択する。制御部101は、再生対象とする画像を再生部102に出力するともに、再生部102により再生されている画像のリンク先の画像を、取り込み部81から供給されてきた画像の中から選択し、選択したリンク先の画像をリンク先表示部151に出力する。
例えば、図32のLinkDataの記述を含むメタデータファイルが供給されている場合において、フレームナンバ0の画像が再生部102により再生されているとき、制御部101は、その画像のリンク先であるフレームナンバ2452,5564,343(「family.mpg」の名前が設定されたファイルにある画像)の画像を選択し、それらをリンク先表示部151に出力する。
再生部102は、制御部101から供給されてきた画像を再生し、それを表示部37の所定の位置に表示させる。
リンク先表示部151は、制御部101から供給されてきたリンク先の画像を、再生部102により表示されている再生中の画像の位置と異なる位置に表示させる。
図44は、図43の再生制御部83により表示される画面の例を示す図である。
中央上方の動画表示部161には、再生部102により再生されている画像(ユーザにより選択された動画)が表示され、画面の下方のリンク先表示部163−1乃至163−3には、そのとき動画表示部161に表示されている画像のリンク先の画像が表示される。再生中の画像に応じてリンク先が異なるから、リンク先表示部163−1乃至163−3の表示は、適宜、そのときの動画表示部161の表示に連動して切り替わることになる。
これにより、再生制御部83は、再生中のシーンとは別に、その、再生中のシーンに映っている子供と同じ子供が映っている、ある程度の長さのある他のシーンを提示することができる。
また、図44の画面においては、ユーザは、リンク先表示部163−1乃至163−3に表示されている画像を選択することによって、その画像の位置から、動画の再生を開始させることができるようになされている。例えば、リンク先表示部163−1に表示されている画像が選択された場合、その画像を先頭の画像とするまとまりが再生され、再生された画像が動画表示部161に表示される。
なお、リンク先表示部163−1乃至163−3の表示は、リンク先の静止画、動画のいずれが表示されるようにしてもよい。動画が表示される場合、例えば、リンク先とされている画像以降の所定の時間のシーンが表示される。
動画表示部161とリンク先表示部163−1乃至163−3の間にあるスライドバー162は、ユーザが再生対象として選択した動画ファイル全体のうちの、現在の再生位置を表す。ユーザは、このスライドバー162を操作することによっても再生位置を替えることができる。
次に、図45のフローチャートを参照して、図43の再生制御部83の再生処理について説明する。
ステップS131において、再生制御部83の制御部101は、取り込み部81から供給されてくる画像を取得し、例えば、取得した画像の先頭から、順次、それを再生部102に出力する。
制御部101は、ステップS132において、シーン判定部82から供給されてきたリンクデータを参照し、取り込み部81から供給されてきた画像の中から、現在の再生対象の画像のリンク先の画像を選択する。制御部101により選択されたリンク先の画像はリンク先表示部151に出力される。なお、そのとき再生対象とされている画像にリンク先がない場合、リンク先表示部151にリンク先の画像は出力されない。
ステップS133において、再生部102は、制御部101から供給されてきた画像の再生を開始し、表示部37の所定の位置に表示させる。
一方、リンク先表示部151は、ステップS134において、制御部101から供給されてきたリンク先の画像を表示部37の所定の位置に表示させる。これにより、表示部37には、例えば、図44の画面が表示される。
ステップS135において、制御部101は、現在、再生部102により再生されている画像のリンク先の画像が、リンク先表示部163−1乃至163−3に表示されている画像と異なるか否かを判定する。すなわち、ステップS133で再生が開始された後、再生対象の画像は時間の経過とともに順次変わるから、現在、再生対象とされている画像のリンク先の画像がリンク先表示部163−1乃至163−3に正しく表示されているか否かが判定される。
ステップS135において、制御部101は、再生部102により再生対象とされている画像のリンク先の画像が、リンク先表示部163−1乃至163−3に表示されている画像と異なると判定した場合、ステップS136に進む。
ステップS136において、制御部101は、リンク先の画像として新たに表示させる画像をリンク先表示部151に供給し、リンク先表示部163−1乃至163−3の表示を変更させる。これにより、再生中の画像に連動して、リンク先の画像の表示が切り替えられる。
ステップS135において、現在再生中の画像のリンク先の画像が正しくリンク先表示部163−1乃至163−3に表示されていると判定された場合、ステップS136の処理はスキップされる。
ステップS137において、制御部101は、ユーザ操作に基づいて、リンク先表示部163−1乃至163−3に表示しているリンク先の画像が選択され、再生対象をリンク先の画像以降に変更することが指示されたか否かを判定し、指示されたと判定した場合、ステップS138に進む。
ステップS138において、制御部101は、ユーザによりリンク先の画像が選択された場合、その選択されたリンク先以降の画像を再生部102に供給し、再生を開始させる。このとき、それまで再生されていたまとまりの再生は終了され、新たに選択されたリンク先以降のまとまりの再生が開始される。
ステップS137において、リンク先が選択されていないと判定された場合、ステップS138の処理はスキップされる。
ステップS139において、制御部101は、再生を終了するか否かを判定し、終了しないと判定した場合、ステップS135に戻り、それ以降の処理を繰り返す。例えば、ユーザにより再生の停止が指示された場合、または、ユーザにより選択された動画の最後の画像まで再生した場合、制御部101は、ステップS139において、再生を終了すると判定し、処理を終了させる。
以上においては、ビデオカメラ1では撮影とID生データの取得のみが行われ、ID生データを用いたメタデータファイルの生成と、生成したメタデータに基づく動画の再生はパーソナルコンピュータ2において行われるとしたが、メタデータの生成までがビデオカメラ1により行われるようにしてもよい。
図46は、本発明を適用した撮影・表示システムの他の構成例を示す図である。
図46のビデオカメラ301においては、再生対象となる画像の撮影と、ID認識用の画像の撮影が行われ、撮影して得られたID生データを用いて、図28乃至図31に示すメタデータファイルが生成され、再生対象となる画像とともに内蔵の記憶部に記憶される。
一方、図46の矢印で示すように、ビデオカメラ301から画像とメタデータファイルを取り込んだプレーヤ302においては、メタデータファイルに基づいて、上述したような、ClusterDataを用いたクラスタ毎の再生、LinkDataを用いたジャンプ再生(再生対象のまとまりの変更)が行われる。
図47は、図46のビデオカメラ301の構成例を示すブロック図である。
ビデオカメラ301は、ビデオカメラ部311と情報処理部312から構成される。このうちのビデオカメラ部311は、図9の構成と同様の構成を有する。すなわち、ビデオカメラ部311は、レンズ61を介して撮影された再生対象となる画像とともに、撮影した画像から認識したID生データを記憶部64に記憶させる。
情報処理部312は、図14の構成と同様の構成を有する。すなわち、情報処理部312は、ビデオカメラ部311に記憶されているID生データを読み出し、IDの認識結果に対してフィルタリング、クラスタリングを施すことによって得られたクラスタリングの結果を表す情報、リンク付けの情報を含むメタデータファイルを生成する。生成されたメタデータファイルは、ビデオカメラ部311に供給され、再生対象となる画像とともに記憶される。
記憶部64に記憶されている撮影画像列とメタデータファイルは、所定のタイミングで、有線または無線を介してプレーヤ302に取り込まれる。
図48は、図46のプレーヤ302の機能構成例を示すブロック図である。プレーヤ302は、図6のパーソナルコンピュータ2の構成と同様の構成を有しており、そのCPUにより所定のプログラムが実行されることで図48の各構成のうちの少なくとも一部が実現される。
図48に示すように、プレーヤ302には、メタデータを生成するための構成である、図12のシーン判定部82以外の構成が含まれる。
取り込み部81は、ビデオカメラ301から取り込んだ画像とメタデータファイルを再生制御部83に出力する。取り込み部81から再生制御部83に供給される、ビデオカメラ301により生成されたメタデータファイルは、図29乃至図32に示すものと同様のものであり、再生制御部83においては、取り込み部81から供給されてきたメタデータファイルに基づいて、ClusterDataを用いたクラスタ毎の再生、LinkDataを用いたジャンプ再生が行われる。
例えば、カメラ側でメタデータが生成されることにより、ユーザは、画像とともに再生側の機器にそれを取り込むだけで、メタデータに基づく再生を行わせることができる。
このように、図12に示す構成のうち、シーン判定部82は撮影側の構成とするように、構成の配置は適宜変更可能である。
また、反対に、撮影側の構成であるDSP63などが再生側の構成として設けられるようにしてもよい。この場合、撮影側ではIDは認識されず、IDを認識するために認識画像撮影領域72により撮影された画像は、再生対象となる動画撮影領域71により撮影された画像とともに記憶部64に記憶される。それらの画像を取り込んだ再生側においては、認識画像撮影領域72により撮影された画像に基づくIDの認識、認識したIDに基づくメタデータファイルの生成等が行われ、動画撮影領域71により撮影された画像の再生がメタデータファイルに基づいて行われる。
さらに、以上においては、メタデータファイルは、撮影された画像を再生するために用いられるとしたが、例えば、ユーザが、まとまり単位で、撮影された画像をDVDなどの記憶メディアに記憶させたり、ネットワークを介して他の装置に送信したり、或いは、編集等を行うことができるようにしてもよい。
上述した一連の処理は、ハードウェアにより実行させることもできるが、ソフトウェアにより実行させることもできる。
一連の処理をソフトウェアにより実行させる場合には、そのソフトウェアを構成するプログラムが、専用のハードウェアに組み込まれているコンピュータ、または、各種のプログラムをインストールすることで、各種の機能を実行することが可能な、例えば、汎用のパーソナルコンピュータなどに、ネットワークや記憶媒体からインストールされる。
この記憶媒体は、図6に示されるように、装置本体とは別に、ユーザにプログラムを提供するために配布される、プログラムが記憶されている磁気ディスク(フレキシブルディスクを含む)、光ディスク(CD-ROM(Compact Disk-Read Only Memory),DVD(Digital Versatile Disk)を含む)、光磁気ディスク(MD(登録商標)(Mini-Disk)を含む)、もしくは半導体メモリなどよりなるリムーバブルメディア41により構成されるだけでなく、装置本体に予め組み込まれた状態でユーザに提供される、プログラムが記憶されているROM32や、記憶部38に含まれるハードディスクなどで構成される。
なお、本明細書において、各ステップは、記載された順序に従って時系列的に行われる処理はもちろん、必ずしも時系列的に処理されなくとも、並列的あるいは個別に実行される処理をも含むものである。
また、本明細書において、システムとは、複数の装置により構成される装置全体を表わすものである。
1 ビデオカメラ, 2 パーソナルコンピュータ, 4−1乃至4−3 センサバッジ, 81 取り込み部, 82 シーン判定部, 83 再生制御部, 91 フィルタリング部, 92 クラスタリング部, 93 ファイル生成部, 101 制御部, 102 再生部, 103 クラスタ分布表示制御部, 151 リンク先表示部