以下、図面を参照して、本発明の実施形態を説明する。
まず、図1および図2を参照して、本発明の一実施形態に係る電子機器の構成を説明する。本実施形態の電子機器は、例えば、情報処理装置として機能するノートブック型の携帯型パーソナルコンピュータ10から実現されている。
このパーソナルコンピュータ10は、放送番組データ、外部機器から入力されるビデオデータといった、映像コンテンツデータ(オーディオビジュアルコンテンツデータ)を記録および再生することができる。即ち、パーソナルコンピュータ10は、テレビジョン放送信号によって放送される放送番組データの視聴および録画を実行するためのテレビジョン(TV)機能を有している。このTV機能は、例えば、パーソナルコンピュータ10に予めインストールされているTVアプリケーションプログラムによって実現されている。また、TV機能は、外部のAV機器から入力されるビデオデータを記録する機能、および記録されたビデオデータおよび記録された放送番組データを再生する機能も有している。
さらに、パーソナルコンピュータ10は、パーソナルコンピュータ10に格納されたビデオデータ、放送番組データのような映像コンテンツデータに含まれる、人物がトークしているトーク区間の位置を検出し、その映像コンテンツデータのシーケンス内におけるトーク区間それぞれの位置を話者毎に分類して示すタイムバーを表示画面上に表示するインデキシング情報表示機能を有している。このインデキシング情報表示機能は、例えば、TV機能内にその一機能として実装されている。
また、インデキシング情報表示機能は、映像コンテンツデータに登場する人物の顔画像の一覧等を表示する顔画像一覧表示機能も有している。この顔画像一覧表示機能は、映像コンテンツデータ全体の中のどの時間帯にどの人物が登場するのかをユーザに提示することができる。また、タイムバー上の各トーク区間に関連づけて、そのトーク区間に登場する人物の顔画像を表示することもできる。
さらに、インデキシング情報表示機能は、映像コンテンツデータから抽出された静止画像の一覧等を表示するサムネイル画像表示機能も有している。
図1はコンピュータ10のディスプレイユニットを開いた状態における斜視図である。本コンピュータ10は、コンピュータ本体11と、ディスプレイユニット12とから構成されている。ディスプレイユニット12には、TFT−LCD(Thin Film Transistor Liquid Crystal Display)17から構成される表示装置が組み込まれている。
ディスプレイユニット12は、コンピュータ本体11に対し、コンピュータ本体11の上面が露出される開放位置とコンピュータ本体11の上面を覆う閉塞位置との間を回動自在に取り付けられている。コンピュータ本体11は薄い箱形の筐体を有しており、その上面にはキーボード13、本コンピュータ10をパワーオン/パワーオフするためのパワーボタン14、入力操作パネル15、タッチパッド16、およびスピーカ18A,18Bなどが配置されている。
入力操作パネル15は、押されたボタンに対応するイベントを入力する入力装置であり、複数の機能をそれぞれ起動するための複数のボタンを備えている。これらボタン群には、TV機能(視聴、録画、録画された放送番組データ/ビデオデータの再生)を制御するための操作ボタン群も含まれている。また、コンピュータ本体11の正面には、本コンピュータ10のTV機能をリモート制御するリモコンユニットとの通信を実行するためのリモコンユニットインタフェース部20が設けられている。リモコンユニットインタフェース部20は、赤外線信号受信部などから構成されている。
コンピュータ本体11の例えば右側面には、TV放送用のアンテナ端子19が設けられている。また、コンピュータ本体11の例えば背面には、例えばHDMI(high-definition multimedia interface)規格に対応した外部ディスプレイ接続端子が設けられている。この外部ディスプレイ接続端子は、放送番組データのような映像コンテンツデータに含まれる映像データ(動画像データ)を外部ディスプレイに出力するために用いられる。
次に、図2を参照して、本コンピュータ10のシステム構成について説明する。
本コンピュータ10は、図2に示されているように、CPU101、ノースブリッジ102、主メモリ103、サウスブリッジ104、グラフィクスプロセッシングユニット(GPU)105、ビデオメモリ(VRAM)105A、サウンドコントローラ106、BIOS−ROM109、LANコントローラ110、ハードディスクドライブ(HDD)111、DVDドライブ112、ビデオプロセッサ113、メモリ113A、カードコントローラ113、無線LANコントローラ114、IEEE 1394コントローラ115、エンベデッドコントローラ/キーボードコントローラIC(EC/KBC)116、TVチューナ117、およびEEPROM118等を備えている。
CPU101は本コンピュータ10の動作を制御するプロセッサであり、ハードディスクドライブ(HDD)111から主メモリ103にロードされる、オペレーティングシステム(OS)201、およびTVアプリケーションプログラム202のような各種アプリケーションプログラムを実行する。TVアプリケーションプログラム202はTV機能を実行するためのソフトウェアである。このTVアプリケーションプログラム202は、TVチューナ117によって受信された放送番組データを視聴するためのライブ再生処理、受信された放送番組データをHDD111に記録する録画処理、およびHDD111に記録された放送番組データ/ビデオデータを再生する再生処理等を実行する。また、CPU101は、BIOS−ROM109に格納されたBIOS(Basic Input Output System)も実行する。BIOSはハードウェア制御のためのプログラムである。
ノースブリッジ102はCPU101のローカルバスとサウスブリッジ104との間を接続するブリッジデバイスである。ノースブリッジ102には、主メモリ103をアクセス制御するメモリコントローラも内蔵されている。また、ノースブリッジ102は、PCI EXPRESS規格のシリアルバスなどを介してGPU105との通信を実行する機能も有している。
GPU105は、本コンピュータ10のディスプレイモニタとして使用されるLCD17を制御する表示コントローラである。このGPU105によって生成される表示信号はLCD17に送られる。また、GPU105は、HDMI制御回路3およびHDMI端子2を介して、外部ディスプレイ装置1にデジタル映像信号を送出することもできる。
HDMI端子2は上述の外部ディスプレイ接続端子である。HDMI端子2は、非圧縮のデジタル映像信号と、デジタルオーディオ信号とを一本のケーブルでテレビのような外部ディスプレイ装置1に送出することができる。HDMI制御回路3は、HDMIモニタと称される外部ディスプレイ装置1にデジタル映像信号をHDMI端子2を介して送出するためのインタフェースである。
サウスブリッジ104は、LPC(Low Pin Count)バス上の各デバイス、およびPCI(Peripheral Component Interconnect)バス上の各デバイスを制御する。また、サウスブリッジ104は、ハードディスクドライブ(HDD)111およびDVDドライブ112を制御するためのIDE(Integrated Drive Electronics)コントローラを内蔵している。さらに、サウスブリッジ104は、サウンドコントローラ106との通信を実行する機能も有している。
またさらに、サウスブリッジ104には、PCI EXPRESS規格のシリアルバスなどを介してビデオプロセッサ113が接続されている。
ビデオプロセッサ113は、音声インデキシング処理および映像インデキシング処理を実行するプロセッサである。
音声インデキシング処理は、映像コンテンツデータ内に含まれるオーディオデータを分析することにより、そのオーディオデータの音響特徴に基づいて、映像コンテンツデータ内に含まれる、人物によるトークが行われているトーク区間を検出するインデキシング処理である。この音声インデキシング処理においては、まず、オーディオデータの分析が行われ、これによってオーディオデータの周波数スペクトルのような音響特徴を示す音響特徴情報が生成される。そして、その音響特徴が解析され、映像コンテンツデータ内に含まれる、人物がトークしているトーク区間それぞれを検出してこれら検出されたトーク区間を互いに話者の異なる複数のグループに分類するというトーク区間検出処理が実行される。トーク区間の検出処理においては、例えば、話者セグメンテーション技術または話者クラスタリング技術等が用いられ、これによって話者の切り替わりも検出される。基本的には、同一の話者が連続してトークしている期間が、一つのトーク区間となる。また、トーク区間検出処理においては、複数人の話者が同時にトークしているトーク区間を、一人の話者がトークしているトーク区間と区別して検出することもできる。
さらに、音声インデキシング処理は、映像コンテンツデータ内の各部分データ(一定時間長のデータ)毎に歓声レベルを検出する歓声レベル検出処理、および映像コンテンツデータ内の各部分データ毎に盛り上がりレベルを検出する盛り上がりレベル検出処理を実行する。
歓声レベルは、歓声の大きさを示す。歓声は、大勢の人の声が合わさった音である。大勢の人の声が合わさった音は、ある特定の周波数スペクトルの分布を有する。歓声レベル検出処理においては、映像コンテンツデータに含まれるオーディオデータの周波数スペクトルが分析され、そしてその周波数スペクトルの分析結果に従って、各部分データの歓声レベルが検出される。盛り上がりレベルは、ある一定以上の音量レベルがある一定時間長以上連続的に発生する区間の音量レベルである。例えば、比較的盛大な拍手、大きな笑い声のような音の音量レベルが、盛り上がりレベルである。盛り上がりレベル検出処理においては、映像コンテンツデータに含まれるオーディオデータの音量の分布が分析され、その分析結果に従って、各部分データの盛り上がりレベルが検出される。
映像インデキシング処理においては、顔画像抽出処理が実行される。この顔画像抽出処理においては、ビデオプロセッサ113は、映像コンテンツデータに含まれる動画像データから複数の顔画像を抽出する。顔画像の抽出は、例えば、動画像データの各フレームから顔領域を検出する顔検出処理、検出された顔領域をフレームから切り出す切り出し処理等によって実行される。顔領域の検出は、例えば、各フレームの画像の特徴を解析して、予め用意された顔画像特徴サンプルと類似する特徴を有する領域を探索することによって行うことができる。顔画像特徴サンプルは、多数の人物それぞれの顔画像特徴を統計的に処理することによって得られた特徴データである。
映像インデキシング処理においては、サムネイル画像取得処理も実行する。サムネイル画像取得処理においては、ビデオプロセッサ113は、映像コンテンツデータのシーケンスを構成する複数の区間の各々から少なくとも1フレームの静止画像を抽出する。複数の区間それぞれの時間長は例えば等間隔である。この場合、ビデオプロセッサ113は、映像コンテンツデータに含まれる動画像データから等時間間隔毎に少なくとも1フレームの静止画像を抽出する。もちろん、複数の区間それぞれの時間長は必ずしも等間隔である必要はない。例えば、映像コンテンツデータに含まれる動画像データが圧縮符号化されているならば、フレーム内符号化されたピクチャであるI(イントラ)ピクチャのみを圧縮符号化された動画像データから抽出してもよい。また、ビデオプロセッサ113は、映像コンテンツデータ内の動画像データの各カットまたは各シーンを検出し、検出された各カットまたは各シーンから少なくとも1フレームの静止画像を抽出することもできる。
メモリ113Aは、ビデオプロセッサ113の作業メモリとして用いられる。インデキシング処理(映像インデキシング処理、および音声インデキシング処理)を実行するためには多くの演算量が必要とされる。本実施形態においては、CPU101とは異なる専用のプロセッサであるビデオプロセッサ113がバックエンドプロセッサとして使用され、このビデオプロセッサ113によってインデキシング処理が実行される。よって、CPU101の負荷の増加を招くことなく、インデキシング処理を実行することが出来る。
サウンドコントローラ106は音源デバイスであり、再生対象のオーディオデータをスピーカ18A,18BまたはHDMI制御回路3に出力する。
無線LANコントローラ114は、たとえばIEEE 802.11規格の無線通信を実行する無線通信デバイスである。IEEE 1394コントローラ115は、IEEE 1394規格のシリアルバスを介して外部機器との通信を実行する。
エンベデッドコントローラ/キーボードコントローラIC(EC/KBC)116は、電力管理のためのエンベデッドコントローラと、キーボード(KB)13およびタッチパッド16を制御するためのキーボードコントローラとが集積された1チップマイクロコンピュータである。このエンベデッドコントローラ/キーボードコントローラIC(EC/KBC)116は、ユーザによるパワーボタン14の操作に応じて本コンピュータ10をパワーオン/パワーオフする機能を有している。さらに、エンベデッドコントローラ/キーボードコントローラIC(EC/KBC)116は、リモコンユニットインタフェース20との通信を実行する機能を有している。
TVチューナ117はテレビジョン(TV)放送信号によって放送される放送番組データを受信する受信装置であり、アンテナ端子19に接続されている。このTVチューナ117は、例えば、地上波デジタルTV放送のようなデジタル放送番組データを受信可能なデジタルTVチューナとして実現されている。また、TVチューナ117は、外部機器から入力されるビデオデータをキャプチャする機能も有している。
次に、図3を参照して、本実施形態のインデキシング情報表示機能について説明する。
放送番組データのような映像コンテンツデータに対するインデキシング処理(映像インデキシング処理、および音声インデキシング処理)は、上述したように、インデキシング処理部として機能するビデオプロセッサ113によって実行される。
ビデオプロセッサ113は、TVアプリケーションプログラム202の制御の下、例えば、ユーザによって指定された録画済みの放送番組データ等の映像コンテンツデータに対してインデキシング処理を実行する。また、ビデオプロセッサ113は、TVチューナ117によって受信された放送番組データをHDD111に格納する録画処理と並行して、当該放送番組データに対するインデキシング処理を実行することもできる。
映像インデキシング処理においては、ビデオプロセッサ113は、顔画像を抽出する処理を実行する。ビデオプロセッサ113は、映像コンテンツデータに含まれる動画像データをフレーム単位で解析する。そして、ビデオプロセッサ113は、動画像データを構成する複数のフレームそれぞれから人物の顔画像を抽出すると共に、抽出された各顔画像が動画像データ内に登場する時点を示すタイムスタンプ情報を出力する。
さらに、ビデオプロセッサ113は、抽出された各顔画像のサイズ(解像度)も出力する。ビデオプロセッサ113から出力される顔検出結果データ(顔画像、タイムスタンプ情報TS、およびサイズ)は、データベース111Aに顔画像インデキシング情報として格納される。このデータベース111Aは、HDD111内に用意されたインデキシングデータ記憶用の記憶領域である。
さらに、映像インデキシング処理においては、ビデオプロセッサ113は、サムネイル画像取得処理も実行する。サムネイル画像は、映像コンテンツデータ内の動画像データを構成する複数の区間それぞれから抽出された複数のフレームの各々に対応する静止画像(縮小画像)である。すなわち、ビデオプロセッサ113は、動画像データの各区間毎に1以上のフレームを抽出し、抽出した各フレームに対応する画像(サムネイル画像)と、そのサムネイル画像が出現する時点を示すタイムスタンプ情報TSとを出力する。ビデオプロセッサ113から出力されるサムネイル画像取得結果データ(サムネイル画像、タイムスタンプ情報TS)は、データベース111Aにサムネイルインデキシング情報として格納される。
各サムネイル画像に対応するタイムスタンプ情報としては、映像コンテンツデータの開始から当該サムネイル画像のフレームが登場するまでの経過時間、または当該サムネイル画像のフレームのフレーム番号、等を使用することが出来る。
また、音声インデキシング処理においては、ビデオプロセッサ113は、映像コンテンツに含まれるオーディオデータを分析して、オーディオデータの音響特徴を示す音響特徴情報を所定時間単位で出力する。すなわち、音声インデキシング処理においては、オーディオデータを構成する所定時間分の部分データ単位で、その部分データから音響特徴が抽出される。そして、ビデオプロセッサ113は、各部分データの音響特徴を解析することにより、トーク区間検出処理を実行する。トーク区間検出処理では、トーク区間の検出と、トーク区間それぞれを話者別に分類する処理とが実行される。トーク区間の検出は、例えば、各部分データの音響特徴を予め用意された発話特徴モデルと比較することによって行うことが出来る。発話特徴モデルは、多数の人物それぞれの発話に関する音響特徴を統計的に処理することによって得られた特徴データである。
トーク区間それぞれを話者毎に分類する処理は、例えば、予め用意された発話特徴モデルに類似する音響特徴をそれぞれ有する部分データ間で、つまり人物の発話時の音響特徴をそれぞれ有する部分データ間で、音響特徴を比較し合い、同じ音響特徴を有する部分データ同士を特定することによって行うことが出来る。
また、トーク区間それぞれを話者毎に分類する処理は、(1)人物の発話時の音響特徴をそれぞれ有する部分データ間で音響特徴を比較し合うことによって、映像コンテンツデータ内に登場する複数の話者それぞれぞれの音響特徴を示す複数の音響特徴モデルをまず生成し、次いで、(2)オーディオデータの音響特徴と複数の音響特徴モデルそれぞれとの間の一致度を、部分データに対応する所定時間単位で算出する、という手順によっても実現することができる。
データベース111Aには、各部分データに対応する音響特徴情報、およびトーク区間情報が格納される。トーク区間情報は、トーク区間検出処理によって得られた情報であり、例えば、各トーク区間の開始および終了の時点を規定する情報、各トーク区間の話者別の分類結果を示す情報等を含む。
さらに、音声インデキシング処理においては、ビデオプロセッサ113は、上述の歓声レベル検出処理および盛り上がりレベル検出処理も実行する。これら歓声レベル検出処理の結果および盛り上がりレベル検出処理の結果も、データベース111Aにレベル情報として格納される。
TVアプリケーションプログラム202は、上述のインデキシング情報表示機能を実行するためのインデキシング情報表示処理部301を含んでいる。このインデキシング情報表示処理部301は、例えば、インデキシングビューワプログラムとして実現されており、データベース111Aに格納されたインデキシング情報(顔画像インデキシング情報、サムネイルインデキシング情報、音響特徴情報、トーク区間情報、等)を用いて、映像コンテンツデータの概要を俯瞰するためのインデキシングビュー画面を表示する。
具体的には、インデキシング情報表示処理部301は、データベース111Aからトーク区間情報を読み出し、そのトーク区間情報に従って、インデキシングビュー画面上に、映像コンテンツデータの開始位置から終端位置までのシーケンスを表すタイムバーを表示する。このタイムバー上には、映像コンテンツデータの開始位置から終端位置までのシーケンス内におけるトーク区間それぞれの位置を示す複数のバー領域が、話者毎に異なる表示形態で表示されている。例えば、複数のバー領域は話者毎に色分けされて表示される。この場合、同じ話者がトークしているトーク区間それぞれに対応するバー領域は同じ色で表示される。これにより、例えば、放送番組内の複数の箇所に同じ人物の発言場所が存在する場合には、それら発言場所を同じ色で表示することが出来る。また、放送番組内に他の人物の発言場所がある場合には、その発言場所は別の色で表示される。よって、ある同じ人物の発言位置が映像コンテンツデータ全体の中のどの辺りの時間帯にあるかを人物別に分類してユーザに提示することが可能となる。
なお、話者毎に色を変える代わりに、話者毎にバー領域の模様または形状を変えるようにしてもよい。
また、上述のトーク区間情報を生成するためのトーク区間検出処理は、ビデオプロセッサ113ではなく、インデキシング情報表示処理部301が実行してもよい。この場合、インデキシング情報表示処理部301は、データベース111Aから音響特徴情報を読み出し、その音響特徴情報にしたがって、トーク区間検出処理を実行する。また、ビデオプロセッサ113は、人物の発話時の音響特徴のみを部分データ毎に抽出してその音響特徴を示す音響特徴情報を出力することもでき、この場合には、インデキシング情報表示処理部301は、部分データ間で音響特徴情報を比較し合う処理を行うだけで、トーク区間検出処理を実行することができる。
さらに、インデキシング情報表示処理部301は、データベース111Aから歓声レベル情報および盛り上がりレベル情報を読み出し、それら歓声レベル情報および盛り上がりレベル情報に従って、映像コンテンツデータの開始位置から終端位置までのシーケンス内における歓声レベルの変化および盛り上がりレベルの変化をそれぞれ示すグラフを、インデキシングビュー画面上のレベル表示エリアに表示する。
このレベル表示エリアを見ることにより、ユーザに、映像コンテンツデータ内のどの辺りに大きな歓声が生じた区間が存在し、また映像コンテンツデータ内のどの辺りに盛り上がりの大きな区間が存在するかを提示することができる。
またインデキシング情報表示処理部301は、データベース111Aから顔画像インデキシング情報(顔画像、タイムスタンプ情報TS、およびサイズ)を読み出し、そしてその顔画像インデキシング情報を用いて、映像コンテンツデータに登場する人物の顔画像の一覧を、インデキシングビュー画面上の2次元の表示エリア(以下、顔サムネイル表示エリアと称する)上に表示する。
この場合、インデキシング情報表示処理部301は、映像コンテンツデータの総時間長を、例えば等間隔で、複数の時間帯に分割し、時間帯毎に、抽出された顔画像の内から当該時間帯に登場する顔画像を所定個選択する。そして、インデキシング情報表示処理部301は、時間帯毎に、選択した所定個の顔画像それぞれを並べて表示する。
すなわち、2次元の顔サムネイル表示エリアは、複数の行および複数の列を含むマトリクス状に配置された複数の顔画像表示エリアを含む。複数の列それぞれには、映像コンテンツデータの総時間長を構成する複数の時間帯が割り当てられている。具体的には、例えば、複数の列それぞれには、映像コンテンツデータの総時間長をこれら複数の列の数で等間隔に分割することによって得られる、互いに同一の時間長を有する複数の時間帯がそれぞれ割り当てられる。もちろん、各列に割り当てられる時間帯は必ずしも同一の時間長でなくてもよい。
インデキシング情報表示処理部301は、顔画像それぞれに対応するタイムスタンプ情報TSに基づき、各列内に属する行数分の顔画像表示エリア上に、当該各列に割り当てられた時間帯に属する顔画像それぞれを、例えば、それら顔画像の出現頻度順(顔画像の検出時間長順)のような順序で並べて表示する。この場合、例えば、当該各列に割り当てられた時間帯に属する顔画像の内から、出現頻度(登場頻度)の高い順に顔画像が行数分だけ選択され、選択された顔画像が登場頻度順に上から下に向かって並んで配置される。もちろん、出現頻度順ではなく、各列に割り当てられた時間帯に出現する顔画像それぞれを、その出現順に並べて表示してもよい。
顔サムネイル表示エリアは、タイムバーの上方側または下方側の一方に表示される。
この顔画像一覧表示機能により、映像コンテンツデータ全体の中のどの時間帯にどの人物が登場するのかをユーザに分かりやすく提示することができる。しかも、顔サムネイル表示エリアとタイムバーとの組み合わせによって、ユーザは、各トーク区間に出現する人物を顔画像によって知ることが出来る。顔サムネイル表示エリアの具体的な構成例については、図11以降で後述する。
また、インデキシング情報表示処理部301は、データベース111Aからサムネイルインデキシング情報(サムネイル、タイムスタンプ情報TS)を読み出し、そしてサムネイルインデキシング情報を用いて、サムネイル画像それぞれを、顔サムネイル表示エリアの下方側または上方側の一方に配置されたサムネイル表示エリア(以下、じゃばらサムネイル表示エリアと称する)上に、それらサムネイル画像の出現時間順に一列に並べて表示する。
映像コンテンツデータによっては、顔画像が登場しない時間帯も存在する。したがって、インデキシングビュー画面上に顔サムネイル表示エリアのみならず、じゃばらサムネイル表示エリアも表示することにより、顔画像が登場しない時間帯においても、その時間帯の映像コンテンツデータの内容をユーザに提示することができる。
次に、図4を参照して、インデキシングビューワプログラムと連携して動作するTVアプリケーションプログラム202の機能構成を説明する。
TVアプリケーションプログラム202は、上述のインデキシング情報表示処理部301に加え、記録処理部401、インデキシング制御部402、再生処理部403等を備えている。インデキシング情報表示処理部301、およびインデキシング制御部402は、インデキシングビューワプログラムによって実現することができる。
記録処理部401は、TVチューナ117によって受信された放送番組データ、または外部機器から入力されるビデオデータをHDD111に記録する記録処理を実行する。また、記録処理部401は、ユーザによって予め設定された録画予約情報(チャンネル番号、日時)によって指定される放送番組データをTVチューナ117を用いて受信し、その放送番組データをHDD111に記録する予約録画処理も実行する。
インデキシング制御部402は、ビデオプロセッサ(インデキシング処理部)113を制御して、インデキシング処理(映像インデキシング処理、音声インデキシング処理)をビデオプロセッサ113に実行させる。ユーザは、録画対象の放送番組データ毎にインデキシング処理を実行するか否かを指定することができる。例えば、インデキシング処理の実行が指示された録画対象の放送番組データについては、その放送番組データがHDD111に記録された後に、インデキシング処理が自動的に開始される。また、ユーザは、既にHDD111に格納されている映像コンテンツデータの内から、インデキシング処理を実行すべき映像コンテンツデータを指定することもできる。
再生処理部403は、HDD111に格納されている各映像コンテンツデータを、例えば、インデキシングビュー画面とは異なる画面(ウィンドウ)上で再生する処理を実行する。また、再生処理部404は、ある映像コンテンツデータの顔画像一覧の中の一つの顔画像が選択されている状態でユーザ操作によって再生指示イベントが入力された時、選択されている顔画像が登場する時点よりも所定時間前の時点から映像コンテンツデータの再生を開始する機能を有している。
なお、インデキシング処理は、必ずしもビデオプロセッサ113によって実行する必要はなく、例えば、TVアプリケーションプログラム202にインデキシング処理を実行する機能を設けてもよい。この場合、インデキシング処理は、インデキシングビューワプログラム、またはTVアプリケーションプログラム202の制御の下に、CPU101によって実行される。
次に、図5乃至図11を参照して、インデキシングビュー画面の例について説明する。
図5はインデキシングビュー画面の第1の例を示している。
図5のインデキシングビュー画面上には、タイムバーと、説明エリアとが表示される。タイムバー上には、トーク区間それぞれの位置を示す複数のバー領域が配置されている。これらバー領域は話者毎に色分けされている。
すなわち、図5においては、音響特徴の解析結果に基づいて、映像コンテンツデータ内のトーク区間それぞれが、“話者1”、“話者2”、“話者3”、および“話者4”(複数人)の4人分の話者、つまり4種類の音響特徴、にそれぞれ対応する4つのグループ(トーク区間グループ)に分類された場合を想定している。ここで、“話者4”は、複数話者によって会話が行われているトーク区間である。
本実施形態では、同じ音響特徴を持つトーク区間同士は同じトーク区間グループに分類され、同じトーク区間グループに属するトーク区間それぞれの位置を示すバー領域は同色で表示される。“話者1”に対応するトーク区間グループに属する各トーク区間の位置を示すバー領域は、色1(例えば、赤)で表示される。“話者2”に対応するトーク区間グループに属する各トーク区間の位置を示すバー領域は、色2(例えば、青)で表示される。“話者3”に対応するトーク区間グループに属する各トーク区間の位置を示すバー領域は、色3(例えば、緑)で表示される。“複数人”に対応するトーク区間グループに属する各トーク区間の位置を示すバー領域は、色4(例えば、黄)で表示される。
説明エリアは、各バー領域の色(各バー領域の表示形態)と話者との間の対応関係を説明するためのガイド情報を表示する領域である。この説明エリアにおいては、4つのトーク区間グループに適用された4つの色のサンプルを示す4つの色アイコン(赤色のアイコン、青色のアイコン、緑色のアイコン、黄色のアイコン)と、各色がどの話者(どのトーク区間グループ)に対応しているかを説明するテキスト(“話者1”,“話者2”,“話者3”,“複数人”)とが表示される。
このように、タイムバー上のバー領域それぞれを話者別(トーク区間グループ別)に色分けして表示することにより、例えば、放送番組内の複数箇所にある同じ人物の発言位置が存在する場合には、その同じ人物が発言している位置それぞれを示すタイムバー上のバー領域を同じ色で表示することができる。よって、ユーザは、ある特定の人物の個々の発言位置を探して、その個々の発言位置の映像コンテンツデータを再生するという操作を容易に行うことができる。
さらに、本実施形態のトーク区間検出処理では、個人が発言しているトーク区間だけでなく、複数人によって会話が行われているトーク区間も検出でき、複数人によって会話が行われているトーク区間の位置を示すバー領域は、個人が発言しているトーク区間とは異なる色で表示される。これにより、たとえばスタジオトークなどのように複数人による会話が行なわれているシーンと、特定人物のみが発言しているシーンとを色分けして表示することができ、タイムバーによって視覚的に番組構成をユーザに提示することができる。
なお、図5では複数のトーク区間が連続して存在する場合を例示しているが、隣の合うトーク区間の間にトーク区間以外の他の属性区間が存在する場合には、隣の合うトーク区間それぞれに対応するバー領域間には隙間が介在され、その隙間は、例えば黒、白、グレー、といった下地色で表示される。
図6はインデキシングビュー画面の第2の例を示している。
トーク区間検出処理では、例えば、複数人の音声の重なり等により、話者の交代位置を明確に区切ることが困難なことがある。そこで、図6のトークバーにおいては、音響特徴が最も明確な位置を中心として、音響特徴の明確性が低くなるほど色が徐々に薄くなるように、各バー領域の色にグラデーションをつけている。これにより、視覚的に見やすいタイムバーとすることができる。
図6のタイムバーのグラデーション表示は、例えば、オーディオデータの所定時間毎に、そのオーディオデータの音響特徴と、映像コンテンツデータ内に登場する複数の話者それぞれに対応する音響特徴モデルとの一致度を算出し、その算出された一致度に基づいて、バー領域に適用する色の濃さを調整することによって実行することができる。
すなわち、例えば、あるトーク区間に着目すると、そのトーク区間に対応するバー領域のグラデーション表示は、次のように行われる。
まず、部分データそれぞれの音響特徴を解析および分類することにより、映像コンテンツデータ内に登場する複数の話者それぞれに対応する音響特徴モデルが生成される。この後、あるトーク区間内のオーディオデータの音響特徴と、複数の話者に対応する音響特徴サンプルの各々との間の一致度の算出が、所定時間単位で実行される。そして、トーク区間内である音響特徴サンプルとの一致度が閾値を超える位置(時間帯)が検出される。そして、その検出された位置が最も色が濃く表示され且つ当該音響特徴サンプルと一致度が低い位置ほど色が薄くなるように、当該トーク区間に対応するバー領域に適用する色の濃さが調整される。また、一致度が所定の下限値を下回る位置は例えば黒、白、グレー、といった下地色で表示される。
図6のようなグラデーション表示を利用することにより、話者の交代位置が明確に判定できない場合でも、トーク区間の正しい位置をタイムバーによってユーザに提示することができる。
図7および図8は、インデキシングビュー画面の第3および第4の例をそれぞれ示している。
タイムバー上のバー領域それぞれを話者毎(トーク区間グループ毎)に色分けして表示しただけでは、ユーザは、話者の異同は認識できるものの、具体的な話者を知ることはできない。そこで、図7および図8では、トーク区間グループ毎に、当該グループに属するトーク区間に対応する時間帯に出現する特定し、その特定した顔画像を、当該グループの話者を識別するための代表顔画像として表示している。
図7および図8の各インデキシングビュー画面においては、顔画像1は“話者1”に対応するトーク区間グループの代表顔画像であり、顔画像2は“話者2”に対応するトーク区間グループの代表顔画像であり、顔画像3は“話者3”に対応するトーク区間グループの代表顔画像である。これら顔画像1,2,3は、タイムバー上の色分けされたバー領域がそれぞれどの話者に対応するかを示すために使用されている。これら顔画像1,2,3は、説明エリア上の“話者1”,“話者2”,“話者3”それぞれに対応する色アイコンに対応付けられた状態で表示される。
顔画像1としては、例えば、“話者1”に対応するトーク区間グループに属する複数のトーク区間に共通に出現する顔画像を使用することができる。もちろん、“話者1”に対応するトーク区間グループに属する3つのトーク区間それぞれに対応する時間帯に出現する3つの顔画像をそれぞれ個別に特定し、それら顔画像を、色1に対応する色アイコンの隣に並べて表示してもよい。
図9は、インデキシングビュー画面の第5の例を示している。この図9のインデキシングビュー画面においては、顔画像1,2,3は、説明エリア上ではなく、タイムバー上のバー領域にそれぞれ対応付けられた状態で表示されている。顔画像1は、“話者1”に対応するトーク区間グループに属する3つのトーク区間それぞれのバー領域の上側に表示され、顔画像2は、“話者2”に対応するトーク区間グループに属するトーク区間のバー領域の上側に表示され、顔画像3は、“話者3”に対応するトーク区間グループに属する2つのトーク区間それぞれのバー領域の上側に表示される。もちろん、トーク区間検出処理で検出された全てのトーク区間を対象に、それらトーク区間に対応する時間帯に出現する顔画像をそれぞれ個別に特定し、それら顔画像を、タイムバー上のトーク区間それぞれのバー領域の上側に表示してもよい。
図10は、インデキシングビュー画面の第6の例を示している。
このインデキシングビュー画面には、顔サムネイル表示エリア、レベル表示エリア、およびタイムバーが表示される。例えば、ユーザによる現在位置バーの移動操作等によってタイムバー上のある特定のバー領域、例えば色1のトーク区間グループに属するあるトーク区間に対応するバー領域が選択された場合、色1のトーク区間グループに属するトーク区間それぞれに共通に出現する人物の顔画像が検出される。そして、その検出された人物の顔画像の囲枠が強調表示される。
図11は、インデキシングビュー画面の第7の例を示している。
この図11のインデキシングビュー画面は、顔画像の一覧を表示するための上述の顔サムネイル表示エリアと、上述のレベル表示エリアと、上述のタイムバーと、サムネイル画像の一覧をじゃばら形式で表示するための上述のじゃばらサムネイル表示エリアとを含んでいる。
ここで、じゃばら形式とは、選択されているサムネイル画像を通常サイズで表示し、他の各サムネイル画像についてはその横方向サイズを縮小して表示する表示形式である。
つまり、インデキシング情報表示処理部301は、ユーザ操作によって選択されたサムネイル画像を第1の横幅サイズで表示し、他の各サムネイル画像の横幅サイズを第1の横幅サイズよりも小さい横幅サイズで表示する。図11においては、選択されたサムネイル画像との距離が大きいサムネイル画像ほど、その横方向サイズが縮小されている。つまり、選択されたサムネイル画像は通常サイズで表示され、その選択されたサムネイル画像の近傍の各サムネイル画像はその横幅が縮小された状態で表示され、さらに他の各サムネイル画像は僅かな横幅で表示される。選択されているサムネイル画像には、さらに矩形の枠を付加してもよい。
ユーザの操作(リモコンユニットのボタン、カーソルキー等)により、じゃばらサムネイル表示エリア上のいずれか1つのサムネイル画像を選択することができる。
レベル表示エリアにおいては、歓声レベルの変化を示すグラフ(図11中の濃い色で示されるグラフ)と、歓声レベルの変化を示すグラフ(図11中の薄い色で示されるグラフ)が表示される。
図12は、図10または図11のインデキシングビュー画面上に表示される顔サムネイル表示エリアの具体的な構成例が示されている。
顔サムネイル表示エリアは、複数の行と複数の列とを含むマトリクス状に配置された複数個の顔画像表示エリアを含んでいる。図12においては、顔サムネイル表示エリアは6行×16列から構成されている。顔サムネイル表示エリアに含まれる顔画像表示エリアの数は、96個である。
列1〜列16のそれぞれには、例えば、映像コンテンツデータ(映像コンテンツデータに含まれる動画像データ)の総時間長を列数(=16)で等間隔で分割することによって得られる、互いに同一の時間長Tを有する複数の時間帯がそれぞれ割り当てられる。
例えば、映像コンテンツデータの総時間長が2時間であるならば、その2時間が16個の時間帯に等間隔で分割される。この場合、各時間帯の時間長Tは、7.5分である。例えば、列1には、先頭0:00:00から0:07:30までの時間帯が割り当てられ、列2には、0:07:30から0:15:00までの時間帯が割り当てられ、列3には、0:15:00から0:22:30までの時間帯が割り当てられる。映像コンテンツデータの総時間長に応じて、各時間帯の時間長Tは変化する。
もちろん、複数の列それぞれに割り当てられる時間帯の長さは、必ずしも同一である必要はない。
インデキシング情報表示処理部301は、ビデオプロセッサ113によって抽出された顔画像それぞれに対応するタイムスタンプ情報に基づき、各列内の6個の顔画像表示エリア上に、当該各列に割り当てられた時間帯に属する顔画像それぞれをたとえば上述の頻度順に並べて表示する。この場合、インデキシング情報表示処理部301は、表示処理対象の列に割り当てられた時間帯に属する顔画像の内から行数分(6個)の顔画像を選択し、選択した行数分の顔画像それぞれを並べて表示する。
このように、顔サムネイル表示エリアにおいては、左端位置(1,1)を基点とし、右端位置(6,16)を映像コンテンツデータの終端とする時間軸が用いられている。
顔サムネイル表示エリアの各顔画像表示エリアに表示される顔画像のサイズは“大”、 “中”、“小”の内からユーザが選択することができる。行と列の数は、ユーザが選択した顔画像のサイズに応じて変化される。顔画像のサイズと行と列の数との関係は、次の通りである。
(1)“大”の場合; 3行×8列
(2)“中”の場合; 6行×16列
(3)“小”の場合: 10行×24列
“大”の場合においては、各顔画像は、例えば、180×180ピクセルのサイズで表示される。“中”の場合においては、各顔画像は、例えば、90×90ピクセルのサイズで表示される。“小”の場合においては、各顔画像は、例えば、60×60ピクセルのサイズで表示される。デフォルトの顔画像サイズは、例えば、“中”に設定されている。
顔サムネイル表示エリア内の各顔画像は、選択されていない“標準”状態、選択されている“フォーカス”状態の2つの状態のいずれかに設定される。“フォーカス”状態の顔画像のサイズは、“標準”状態の時のサイズ(180×180、90×90、または60×60)よりも大きく設定される。図12においては、座標(1,12)の顔画像が“フォーカス”状態である場合を示している。
じゃばらサムネイル表示エリアに表示されるサムネイル画像の枚数は、ユーザ設定に従って、例えば240枚、144枚、96枚、48枚のいずれかに設定される。デフォルトは例えば240枚である。この場合、動画像データは240個の区間(240個の時間帯)に区分され、240個の区間それぞれから抽出された240枚のサムネイル画像が時間順に並んでじゃばらサムネイル表示エリアに表示される。
サムネイル画像は、選択されていない“標準”状態、選択されている“フォーカス”状態の2つの状態のいずれかに設定される。“フォーカス”状態のサムネイル画像は、他のサムネイル画像よりも大きいサイズで表示される。
次に、図13を参照して、図11のインデキシングビュー画面上に表示される、顔サムネイル表示エリアとじゃばらサムネイル表示エリアとの関係について説明する。
同一列に属する顔画像表示エリア群の集合、つまり顔サムネイル表示エリア内の個々の列を“大区間”と称する。また、“大区間”をさらに分割したものを“小区間”と称する。1つの大区間に含まれる小区間の数は、じゃばらサムネイル表示エリアに表示されるサムネイル画像の数を顔サムネイル表示エリアの列数で割った商で与えられる。例えば、顔サムネイル表示エリアが6行×16列で、じゃばらサムネイル表示エリアに表示されるサムネイル画像の数が240枚であるならば、1つの大区間に含まれる小区間の数は、15(=240÷16)となる。1つの大区間は15個の小区間を含む。換言すれば、1つの大区間に対応する時間帯には、15枚のサムネイル画像が属することになる。
じゃばらサムネイル表示エリア上のあるサムネイル画像が選択された時、インデキシング情報表示処理部301は、選択されたサムネイル画像のタイムスタンプ情報に基づき、顔サムネイル表示エリア内の複数の列(複数の大区間)の内で、選択されたサムネイル画像が属する時間帯が割り当てられた列(大区間)を選択する。選択される大区間は、選択されたサムネイル画像が属する区間(小区間)を含む大区間である。そして、インデキシング情報表示処理部301は、選択した大区間を強調表示する。
さらに、インデキシング情報表示処理部301は、選択されたサムネイル画像と選択された大区間との間を接続する現在位置バー(縦長のバー)を表示する。この縦長のバーは、選択されたサムネイル画像に対応する小区間が、選択された大区間に含まれる15個の小区間の内のどの小区間に対応するかを提示するために使用される。縦長のバーは、選択された大区間に含まれる15個の小区間の内で、選択されたサムネイル画像に対応する小区間の位置に表示される。例えば、選択されたサムネイル画像が、ある大区間に対応する時間帯に属する15枚のサムネイル画像の内の先頭の画像、つまり大区間内の先頭の小区間に対応する画像であるならば、選択されたサムネイル画像は、縦長のバーによって大区間の左端に接続される。また、例えば、選択されたサムネイル画像が、ある大区間に対応する時間帯に属する15枚のサムネイル画像の内の終端の画像、つまり大区間内の終端の小区間に対応する画像であるならば、選択されたサムネイル画像は、縦長のバーによって大区間の右端に接続される。
このように、じゃばらサムネイル表示エリア上のサムネイル画像が選択された時には、顔サムネイル表示エリア内の複数の列の内から、選択されたサムネイル画像が属する時間帯が割り当てられている列(大区間)が自動選択される。これにより、ユーザは、選択したサムネイル画像が、顔サムネイル表示エリア内のどの列(大区間)に対応する画像であるかを識別することができる。さらに、縦長のバーにより、ユーザは、選択したサムネイル画像が、どの列(大区間)内のどの辺りの時点に対応する画像であるかも識別することができる。
また、インデキシング情報表示処理部301は、選択されたサムネイル画像のタイムスタンプ情報に基づいて、選択されたサムネイル画像が出現する時点を示す時間情報もインデキシングビュー画面上に表示する。
“現在位置変更”ボタンは選択されているサムネイル画像を変更するための操作ボタンである。“現在位置変更”ボタンがフォーカスされている状態でユーザが左カーソルキーまたは右カーソルキーを操作すると、選択対象のサムネイル画像は、例えば1小区間単位で、左または右に移動する。
次に、図14のフローチャートを参照して、インデキシングビュー画面上にタイムバーを表示する処理について説明する。
ここでは、映像コンテンツデータ中に2人の話者(話者1,話者2)それぞれの発言位置が出現する場合を想定する。
まず、ビデオプロセッサ113は、映像コンテンツデータに含まれるオーディオデータを分析することにより、そのオーディオデータの各部分データから音響特徴を抽出し、その音響特徴を示す音響特徴情報を出力する(ステップS11)。次いで、ビデオプロセッサ113またはインデキシング情報表示処理部301は、複数の部分データそれぞれに対応する音響特徴情報を解析して、映像コンテンツデータに含まれるトーク区間それぞれを検出する処理、およびそれらトーク区間を話者1がトークしている第1のトーク区間グループと話者2がトークしている第2のトーク区間グループとに分類する処理とを実行する(ステップS12,S13)。
ステップS12,S13においては、例えば、検出されたトーク区間間でそれらトーク区間それぞれの音響特徴を比較し合い、同じ音響特徴を有するトーク区間同士を特定する処理が行われる。これにより、検出されたトーク区間を、第1のトーク区間グループと第2のトーク区間グループとに分類することができる。
また、ステップS12,S13においては、まず、発話に関する音響特徴を話者別(話者1,話者2)に分類して、話者1,話者それぞれの音響特徴を示す音響特徴モデルを生成し、次いで、オーディオデータの音響特徴と話者1,話者それぞれの音響特徴モデルとの間の一致度を所定時間単位で算出して、オーディオデータの中から話者1の音響特徴モデルに類似する音響特徴を有する各トーク区間と話者2の音響特徴モデルに類似する音響特徴を有する各トーク区間とを検出するようにしてもよい。
次いで、インデキシング情報表示処理部301は、第1のトーク区間グループに属する各トーク区間の位置を示すバー領域を第1の色(第1の表示形態)でタイムバー上に表示すると共に、第2のトーク区間グループに属する各トーク区間の位置を示すバー領域を第2の色(第2の表示形態)でタイムバー上に表示する(ステップS14)。
この後、インデキシング情報表示処理部301は、映像コンテンツデータから抽出された複数の顔画像それぞれに対応するタイムスタンプ情報に基づいて、複数の顔画像の中から、第1のトーク区間グループに属するトーク区間に出現する顔画像と第2のトーク区間グループに属するトーク区間に出現する顔画像とを検出する(ステップS15)。ステップS15では、各トーク区間グループの話者の代表顔画像が特定される。例えば、トーク区間グループ内の複数のトーク区間それぞれに共通に出現する人物の顔画像を、当該トーク区間グループの代表顔画像に特定することができる。
そして、インデキシング情報表示処理部301は、各トーク区間グループ毎に特定された代表顔画像をタイムバー上の各トーク区間のバー領域または説明エリア上の色アイコンに関連付けて表示する(ステップS16)。
以上のように、本実施形態においては、トーク区間それぞれが話者別に複数のグループに分類され、トーク区間それぞれの位置を示すバー領域がグループ毎に異なる表示形態でタイムバー上に表示される。したがって、映像コンテンツデータを再生することなく、ある同じ人物の発言位置が映像コンテンツデータ全体の中のどの辺りの時間帯に出現するかを人物別に分類してユーザに提示することが可能となる。これにより、ユーザはタイムバーを見るだけで、特定の人物の発言位置を探したり、番組内の構成をグラフィカルに認識することが可能となり、番組内の観たい位置へのシークを容易にすることができる。
なお、本実施形態のインデキシング情報表示処理の手順は全てソフトウェアによって実現することができるので、このソフトウェアをコンピュータ読み取り可能な記憶媒体を通じて通常のコンピュータに導入することにより、本実施形態と同様の効果を容易に実現することができる。
また、本実施形態の電子機器はコンピュータ10によって実現するのみならず、例えば、HDDレコーダ、DVDレコーダ、テレビジョン装置といった様々なコンシューマ電子機器によって実現することもできる。この場合、インデキシング情報表示処理およびプレビュー処理の機能は、DSP、マイクロコンピュータのようなハードウェアによって実現することができる。
また、本発明は、上記実施形態そのままに限定されるものではなく、実施段階ではその要旨を逸脱しない範囲で構成要素を変形して具体化できる。また、上記実施形態に開示されている複数の構成要素の適宜な組み合わせにより種々の発明を形成できる。例えば、実施形態に示される全構成要素から幾つかの構成要素を削除してもよい。更に、異なる実施形態に構成要素を適宜組み合わせてもよい。