JP5330551B2

JP5330551B2 - 電子機器および表示処理方法

Info

Publication number: JP5330551B2
Application number: JP2012004987A
Authority: JP
Inventors: 哲也藤井
Original assignee: Toshiba Corp
Current assignee: Toshiba Corp
Priority date: 2012-01-13
Filing date: 2012-01-13
Publication date: 2013-10-30
Anticipated expiration: 2027-09-27
Also published as: JP2012090337A

Description

本発明は映像コンテンツデータの概要を表示する電子機器および表示方法に関する。

一般に、ビデオレコーダ、パーソナルコンピュータといった電子機器は、テレビジョン放送番組データのような各種映像コンテンツデータを記録および再生することが可能である。この場合、電子機器に格納された各映像コンテンツデータにはタイトル名が付加されるが、タイトル名だけでは、ユーザが、各映像コンテンツデータがどのような内容のものであるかを把握することは困難である。このため、映像コンテンツデータの内容を把握するためには、その映像コンテンツデータを再生することが必要となる。しかし、総時間長の長い映像コンテンツデータの再生には、たとえ早送り再生機能等を用いた場合であっても、多くの時間が要される。

特許文献１には、登場人物一覧表示機能を有する装置が開示されている。この装置は、映像コンテンツにおける登場人物の一覧として、映像コンテンツにおける登場人物それぞれの顔の画像を並べて表示する機能を有している。

特開２００１−３０９２６９号公報

しかし、単純に登場人物の一覧を表示しただけでは、ユーザは、放送番組のような映像コンテンツデータ内のどの辺りに人物の発言位置があるかを把握することは困難である。例えば、ユーザは、そのユーザにとって興味のある人物の発言位置それぞれを放送番組内から探して、それら発言位置それぞれに対応する部分のみを選択的に再生することを希望する場合もある。したがって、ある同じ人物の発言位置が映像コンテンツデータ全体の中のどの辺りの時間帯に出現するかを人物別に分類してユーザに提示するための新たな機能の実現が必要である。

本発明は上述の事情を考慮してなされたものであり、映像コンテンツデータを再生することなく、ある同じ人物の発言位置が映像コンテンツデータ全体の中のどの辺りの時間帯に出現するかを人物別に分類してユーザに提示することができる電子機器および表示処理方法を提供することを目的とする。

上述の課題を解決するため、本発明の電子機器は、映像コンテンツデータの情報を使用して、前記映像コンテンツデータに含まれる複数の区間にそれぞれ登場する人物に関する情報を取得する取得手段と、前記映像コンテンツデータのシーケンスを表すタイムバーであって、第１の人物がトークする第１の区間に対応する前記タイムバー内の第１の領域が第１の表示形態で表示され、前記第１の人物と異なる第２の人物がトークする第２の区間に対応する前記タイムバー内の第２の領域が前記第１の表示形態と異なる第２の表示形態で表示され、複数人がトークする第３の区間に対応する前記タイムバー内の第３の領域が前記第１および第２の表示形態と異なる第３の表示形態で表示されるタイムバーと、前記第１の人物に関する情報と、前記第２の人物に関する情報と、前記複数人に関する情報を表示する表示制御手段とを具備し、前記表示制御手段は、前記第１の人物に関する情報を、前記第１の領域に関連付けて表示し、前記第２の人物に関する情報を、前記第２の領域に関連付けて表示し、前記複数人に関する情報を、前記第３の領域に関連付けて表示することを特徴とする。

また、本発明の表示処理方法は、映像コンテンツデータの情報を使用して、前記映像コンテンツデータに含まれる複数の区間にそれぞれ登場する人物に関する情報を取得することと、前記映像コンテンツデータのシーケンスを表すタイムバーであって、第１の人物がトークする第１の区間に対応する前記タイムバー内の第１の領域が第１の表示形態で表示され、前記第１の人物と異なる第２の人物がトークする第２の区間に対応する前記タイムバー内の第２の領域が前記第１の表示形態と異なる第２の表示形態で表示され、複数人がトークする第３の区間に対応する前記タイムバー内の第３の領域が前記第１および第２の表示形態と異なる第３の表示形態で表示されるタイムバーと、前記第１の人物に関する情報と、前記第２の人物に関する情報と、前記複数人に関する情報を表示することとを具備し、前記表示することは、前記第１の人物に関する情報を、前記第１の領域に関連付けて表示し、前記第２の人物に関する情報を、前記第２の領域に関連付けて表示し、前記複数人に関する情報を、前記第３の領域に関連付けて表示することを特徴とする。

本発明によれば、映像コンテンツデータを再生することなく、ある同じ人物の発言位置が映像コンテンツデータ全体の中のどの辺りの時間帯に出現するかを人物別に分類してユーザに提示することができる。

本発明の一実施形態に係る電子機器の概観の例を示す斜視図。同実施形態の電子機器のシステム構成の例を示すブロック図。同実施形態の電子機器のインデキシング情報表示機能を説明するためのブロック図。同実施形態の電子機器で用いられるプログラムの機能構成を示すブロック図。同実施形態の電子機器によって表示装置に表示されるインデキシングビュー画面の第１の例を示す図。同実施形態の電子機器によって表示装置に表示されるインデキシングビュー画面の第２の例を示す図。同実施形態の電子機器によって表示装置に表示されるインデキシングビュー画面の第３の例を示す図。同実施形態の電子機器によって表示装置に表示されるインデキシングビュー画面の第４の例を示す図。同実施形態の電子機器によって表示装置に表示されるインデキシングビュー画面の第５の例を示す図。同実施形態の電子機器によって表示装置に表示されるインデキシングビュー画面の第６の例を示す図。同実施形態の電子機器によって表示装置に表示されるインデキシングビュー画面の第７の例を示す図。図１１のインデキシングビュー画面に表示される顔サムネイル表示エリアの構成を示す図。図１１のインデキシングビュー画面に表示される、顔サムネイル表示エリアとじゃばらサムネイル表示エリアとの関係を説明するための図。同実施形態の電子機器によって実行されるタイムバー表示処理の手順を示すフローチャート。

以下、図面を参照して、本発明の実施形態を説明する。
まず、図１および図２を参照して、本発明の一実施形態に係る電子機器の構成を説明する。本実施形態の電子機器は、例えば、情報処理装置として機能するノートブック型の携帯型パーソナルコンピュータ１０から実現されている。

このパーソナルコンピュータ１０は、放送番組データ、外部機器から入力されるビデオデータといった、映像コンテンツデータ（オーディオビジュアルコンテンツデータ）を記録および再生することができる。即ち、パーソナルコンピュータ１０は、テレビジョン放送信号によって放送される放送番組データの視聴および録画を実行するためのテレビジョン（ＴＶ）機能を有している。このＴＶ機能は、例えば、パーソナルコンピュータ１０に予めインストールされているＴＶアプリケーションプログラムによって実現されている。また、ＴＶ機能は、外部のＡＶ機器から入力されるビデオデータを記録する機能、および記録されたビデオデータおよび記録された放送番組データを再生する機能も有している。

さらに、パーソナルコンピュータ１０は、パーソナルコンピュータ１０に格納されたビデオデータ、放送番組データのような映像コンテンツデータに含まれる、人物がトークしているトーク区間の位置を検出し、その映像コンテンツデータのシーケンス内におけるトーク区間それぞれの位置を話者毎に分類して示すタイムバーを表示画面上に表示するインデキシング情報表示機能を有している。このインデキシング情報表示機能は、例えば、ＴＶ機能内にその一機能として実装されている。

また、インデキシング情報表示機能は、映像コンテンツデータに登場する人物の顔画像の一覧等を表示する顔画像一覧表示機能も有している。この顔画像一覧表示機能は、映像コンテンツデータ全体の中のどの時間帯にどの人物が登場するのかをユーザに提示することができる。また、タイムバー上の各トーク区間に関連づけて、そのトーク区間に登場する人物の顔画像を表示することもできる。

さらに、インデキシング情報表示機能は、映像コンテンツデータから抽出された静止画像の一覧等を表示するサムネイル画像表示機能も有している。

図１はコンピュータ１０のディスプレイユニットを開いた状態における斜視図である。本コンピュータ１０は、コンピュータ本体１１と、ディスプレイユニット１２とから構成されている。ディスプレイユニット１２には、ＴＦＴ−ＬＣＤ（Thin Film Transistor Liquid Crystal Display）１７から構成される表示装置が組み込まれている。

ディスプレイユニット１２は、コンピュータ本体１１に対し、コンピュータ本体１１の上面が露出される開放位置とコンピュータ本体１１の上面を覆う閉塞位置との間を回動自在に取り付けられている。コンピュータ本体１１は薄い箱形の筐体を有しており、その上面にはキーボード１３、本コンピュータ１０をパワーオン／パワーオフするためのパワーボタン１４、入力操作パネル１５、タッチパッド１６、およびスピーカ１８Ａ，１８Ｂなどが配置されている。

入力操作パネル１５は、押されたボタンに対応するイベントを入力する入力装置であり、複数の機能をそれぞれ起動するための複数のボタンを備えている。これらボタン群には、ＴＶ機能（視聴、録画、録画された放送番組データ／ビデオデータの再生）を制御するための操作ボタン群も含まれている。また、コンピュータ本体１１の正面には、本コンピュータ１０のＴＶ機能をリモート制御するリモコンユニットとの通信を実行するためのリモコンユニットインタフェース部２０が設けられている。リモコンユニットインタフェース部２０は、赤外線信号受信部などから構成されている。

コンピュータ本体１１の例えば右側面には、ＴＶ放送用のアンテナ端子１９が設けられている。また、コンピュータ本体１１の例えば背面には、例えばＨＤＭＩ(high-definition multimedia interface)規格に対応した外部ディスプレイ接続端子が設けられている。この外部ディスプレイ接続端子は、放送番組データのような映像コンテンツデータに含まれる映像データ（動画像データ）を外部ディスプレイに出力するために用いられる。

次に、図２を参照して、本コンピュータ１０のシステム構成について説明する。

本コンピュータ１０は、図２に示されているように、ＣＰＵ１０１、ノースブリッジ１０２、主メモリ１０３、サウスブリッジ１０４、グラフィクスプロセッシングユニット（ＧＰＵ）１０５、ビデオメモリ（ＶＲＡＭ）１０５Ａ、サウンドコントローラ１０６、ＢＩＯＳ−ＲＯＭ１０９、ＬＡＮコントローラ１１０、ハードディスクドライブ（ＨＤＤ）１１１、ＤＶＤドライブ１１２、ビデオプロセッサ１１３、メモリ１１３Ａ、カードコントローラ１１３、無線ＬＡＮコントローラ１１４、IEEE 1394コントローラ１１５、エンベデッドコントローラ／キーボードコントローラＩＣ（ＥＣ／ＫＢＣ）１１６、ＴＶチューナ１１７、およびＥＥＰＲＯＭ１１８等を備えている。

ＣＰＵ１０１は本コンピュータ１０の動作を制御するプロセッサであり、ハードディスクドライブ（ＨＤＤ）１１１から主メモリ１０３にロードされる、オペレーティングシステム（ＯＳ）２０１、およびＴＶアプリケーションプログラム２０２のような各種アプリケーションプログラムを実行する。ＴＶアプリケーションプログラム２０２はＴＶ機能を実行するためのソフトウェアである。このＴＶアプリケーションプログラム２０２は、ＴＶチューナ１１７によって受信された放送番組データを視聴するためのライブ再生処理、受信された放送番組データをＨＤＤ１１１に記録する録画処理、およびＨＤＤ１１１に記録された放送番組データ／ビデオデータを再生する再生処理等を実行する。また、ＣＰＵ１０１は、ＢＩＯＳ−ＲＯＭ１０９に格納されたＢＩＯＳ（Basic Input Output System）も実行する。ＢＩＯＳはハードウェア制御のためのプログラムである。

ノースブリッジ１０２はＣＰＵ１０１のローカルバスとサウスブリッジ１０４との間を接続するブリッジデバイスである。ノースブリッジ１０２には、主メモリ１０３をアクセス制御するメモリコントローラも内蔵されている。また、ノースブリッジ１０２は、PCI EXPRESS規格のシリアルバスなどを介してＧＰＵ１０５との通信を実行する機能も有している。

ＧＰＵ１０５は、本コンピュータ１０のディスプレイモニタとして使用されるＬＣＤ１７を制御する表示コントローラである。このＧＰＵ１０５によって生成される表示信号はＬＣＤ１７に送られる。また、ＧＰＵ１０５は、ＨＤＭＩ制御回路３およびＨＤＭＩ端子２を介して、外部ディスプレイ装置１にデジタル映像信号を送出することもできる。

ＨＤＭＩ端子２は上述の外部ディスプレイ接続端子である。ＨＤＭＩ端子２は、非圧縮のデジタル映像信号と、デジタルオーディオ信号とを一本のケーブルでテレビのような外部ディスプレイ装置１に送出することができる。ＨＤＭＩ制御回路３は、ＨＤＭＩモニタと称される外部ディスプレイ装置１にデジタル映像信号をＨＤＭＩ端子２を介して送出するためのインタフェースである。

サウスブリッジ１０４は、ＬＰＣ（Low Pin Count）バス上の各デバイス、およびＰＣＩ（Peripheral Component Interconnect）バス上の各デバイスを制御する。また、サウスブリッジ１０４は、ハードディスクドライブ（ＨＤＤ）１１１およびＤＶＤドライブ１１２を制御するためのＩＤＥ（Integrated Drive Electronics）コントローラを内蔵している。さらに、サウスブリッジ１０４は、サウンドコントローラ１０６との通信を実行する機能も有している。

またさらに、サウスブリッジ１０４には、PCI EXPRESS規格のシリアルバスなどを介してビデオプロセッサ１１３が接続されている。

ビデオプロセッサ１１３は、音声インデキシング処理および映像インデキシング処理を実行するプロセッサである。

音声インデキシング処理は、映像コンテンツデータ内に含まれるオーディオデータを分析することにより、そのオーディオデータの音響特徴に基づいて、映像コンテンツデータ内に含まれる、人物によるトークが行われているトーク区間を検出するインデキシング処理である。この音声インデキシング処理においては、まず、オーディオデータの分析が行われ、これによってオーディオデータの周波数スペクトルのような音響特徴を示す音響特徴情報が生成される。そして、その音響特徴が解析され、映像コンテンツデータ内に含まれる、人物がトークしているトーク区間それぞれを検出してこれら検出されたトーク区間を互いに話者の異なる複数のグループに分類するというトーク区間検出処理が実行される。トーク区間の検出処理においては、例えば、話者セグメンテーション技術または話者クラスタリング技術等が用いられ、これによって話者の切り替わりも検出される。基本的には、同一の話者が連続してトークしている期間が、一つのトーク区間となる。また、トーク区間検出処理においては、複数人の話者が同時にトークしているトーク区間を、一人の話者がトークしているトーク区間と区別して検出することもできる。

さらに、音声インデキシング処理は、映像コンテンツデータ内の各部分データ（一定時間長のデータ）毎に歓声レベルを検出する歓声レベル検出処理、および映像コンテンツデータ内の各部分データ毎に盛り上がりレベルを検出する盛り上がりレベル検出処理を実行する。

歓声レベルは、歓声の大きさを示す。歓声は、大勢の人の声が合わさった音である。大勢の人の声が合わさった音は、ある特定の周波数スペクトルの分布を有する。歓声レベル検出処理においては、映像コンテンツデータに含まれるオーディオデータの周波数スペクトルが分析され、そしてその周波数スペクトルの分析結果に従って、各部分データの歓声レベルが検出される。盛り上がりレベルは、ある一定以上の音量レベルがある一定時間長以上連続的に発生する区間の音量レベルである。例えば、比較的盛大な拍手、大きな笑い声のような音の音量レベルが、盛り上がりレベルである。盛り上がりレベル検出処理においては、映像コンテンツデータに含まれるオーディオデータの音量の分布が分析され、その分析結果に従って、各部分データの盛り上がりレベルが検出される。

映像インデキシング処理においては、顔画像抽出処理が実行される。この顔画像抽出処理においては、ビデオプロセッサ１１３は、映像コンテンツデータに含まれる動画像データから複数の顔画像を抽出する。顔画像の抽出は、例えば、動画像データの各フレームから顔領域を検出する顔検出処理、検出された顔領域をフレームから切り出す切り出し処理等によって実行される。顔領域の検出は、例えば、各フレームの画像の特徴を解析して、予め用意された顔画像特徴サンプルと類似する特徴を有する領域を探索することによって行うことができる。顔画像特徴サンプルは、多数の人物それぞれの顔画像特徴を統計的に処理することによって得られた特徴データである。

映像インデキシング処理においては、サムネイル画像取得処理も実行する。サムネイル画像取得処理においては、ビデオプロセッサ１１３は、映像コンテンツデータのシーケンスを構成する複数の区間の各々から少なくとも１フレームの静止画像を抽出する。複数の区間それぞれの時間長は例えば等間隔である。この場合、ビデオプロセッサ１１３は、映像コンテンツデータに含まれる動画像データから等時間間隔毎に少なくとも１フレームの静止画像を抽出する。もちろん、複数の区間それぞれの時間長は必ずしも等間隔である必要はない。例えば、映像コンテンツデータに含まれる動画像データが圧縮符号化されているならば、フレーム内符号化されたピクチャであるＩ（イントラ）ピクチャのみを圧縮符号化された動画像データから抽出してもよい。また、ビデオプロセッサ１１３は、映像コンテンツデータ内の動画像データの各カットまたは各シーンを検出し、検出された各カットまたは各シーンから少なくとも１フレームの静止画像を抽出することもできる。

メモリ１１３Ａは、ビデオプロセッサ１１３の作業メモリとして用いられる。インデキシング処理（映像インデキシング処理、および音声インデキシング処理）を実行するためには多くの演算量が必要とされる。本実施形態においては、ＣＰＵ１０１とは異なる専用のプロセッサであるビデオプロセッサ１１３がバックエンドプロセッサとして使用され、このビデオプロセッサ１１３によってインデキシング処理が実行される。よって、ＣＰＵ１０１の負荷の増加を招くことなく、インデキシング処理を実行することが出来る。

サウンドコントローラ１０６は音源デバイスであり、再生対象のオーディオデータをスピーカ１８Ａ，１８ＢまたはＨＤＭＩ制御回路３に出力する。

無線ＬＡＮコントローラ１１４は、たとえばIEEE 802.11規格の無線通信を実行する無線通信デバイスである。IEEE 1394コントローラ１１５は、IEEE 1394規格のシリアルバスを介して外部機器との通信を実行する。

エンベデッドコントローラ／キーボードコントローラＩＣ（ＥＣ／ＫＢＣ）１１６は、電力管理のためのエンベデッドコントローラと、キーボード（ＫＢ）１３およびタッチパッド１６を制御するためのキーボードコントローラとが集積された１チップマイクロコンピュータである。このエンベデッドコントローラ／キーボードコントローラＩＣ（ＥＣ／ＫＢＣ）１１６は、ユーザによるパワーボタン１４の操作に応じて本コンピュータ１０をパワーオン／パワーオフする機能を有している。さらに、エンベデッドコントローラ／キーボードコントローラＩＣ（ＥＣ／ＫＢＣ）１１６は、リモコンユニットインタフェース２０との通信を実行する機能を有している。

ＴＶチューナ１１７はテレビジョン（ＴＶ）放送信号によって放送される放送番組データを受信する受信装置であり、アンテナ端子１９に接続されている。このＴＶチューナ１１７は、例えば、地上波デジタルＴＶ放送のようなデジタル放送番組データを受信可能なデジタルＴＶチューナとして実現されている。また、ＴＶチューナ１１７は、外部機器から入力されるビデオデータをキャプチャする機能も有している。

次に、図３を参照して、本実施形態のインデキシング情報表示機能について説明する。

放送番組データのような映像コンテンツデータに対するインデキシング処理（映像インデキシング処理、および音声インデキシング処理）は、上述したように、インデキシング処理部として機能するビデオプロセッサ１１３によって実行される。

ビデオプロセッサ１１３は、ＴＶアプリケーションプログラム２０２の制御の下、例えば、ユーザによって指定された録画済みの放送番組データ等の映像コンテンツデータに対してインデキシング処理を実行する。また、ビデオプロセッサ１１３は、ＴＶチューナ１１７によって受信された放送番組データをＨＤＤ１１１に格納する録画処理と並行して、当該放送番組データに対するインデキシング処理を実行することもできる。

映像インデキシング処理においては、ビデオプロセッサ１１３は、顔画像を抽出する処理を実行する。ビデオプロセッサ１１３は、映像コンテンツデータに含まれる動画像データをフレーム単位で解析する。そして、ビデオプロセッサ１１３は、動画像データを構成する複数のフレームそれぞれから人物の顔画像を抽出すると共に、抽出された各顔画像が動画像データ内に登場する時点を示すタイムスタンプ情報を出力する。

さらに、ビデオプロセッサ１１３は、抽出された各顔画像のサイズ（解像度）も出力する。ビデオプロセッサ１１３から出力される顔検出結果データ（顔画像、タイムスタンプ情報ＴＳ、およびサイズ）は、データベース１１１Ａに顔画像インデキシング情報として格納される。このデータベース１１１Ａは、ＨＤＤ１１１内に用意されたインデキシングデータ記憶用の記憶領域である。

さらに、映像インデキシング処理においては、ビデオプロセッサ１１３は、サムネイル画像取得処理も実行する。サムネイル画像は、映像コンテンツデータ内の動画像データを構成する複数の区間それぞれから抽出された複数のフレームの各々に対応する静止画像（縮小画像）である。すなわち、ビデオプロセッサ１１３は、動画像データの各区間毎に１以上のフレームを抽出し、抽出した各フレームに対応する画像（サムネイル画像）と、そのサムネイル画像が出現する時点を示すタイムスタンプ情報ＴＳとを出力する。ビデオプロセッサ１１３から出力されるサムネイル画像取得結果データ（サムネイル画像、タイムスタンプ情報ＴＳ）は、データベース１１１Ａにサムネイルインデキシング情報として格納される。

各サムネイル画像に対応するタイムスタンプ情報としては、映像コンテンツデータの開始から当該サムネイル画像のフレームが登場するまでの経過時間、または当該サムネイル画像のフレームのフレーム番号、等を使用することが出来る。

また、音声インデキシング処理においては、ビデオプロセッサ１１３は、映像コンテンツに含まれるオーディオデータを分析して、オーディオデータの音響特徴を示す音響特徴情報を所定時間単位で出力する。すなわち、音声インデキシング処理においては、オーディオデータを構成する所定時間分の部分データ単位で、その部分データから音響特徴が抽出される。そして、ビデオプロセッサ１１３は、各部分データの音響特徴を解析することにより、トーク区間検出処理を実行する。トーク区間検出処理では、トーク区間の検出と、トーク区間それぞれを話者別に分類する処理とが実行される。トーク区間の検出は、例えば、各部分データの音響特徴を予め用意された発話特徴モデルと比較することによって行うことが出来る。発話特徴モデルは、多数の人物それぞれの発話に関する音響特徴を統計的に処理することによって得られた特徴データである。

トーク区間それぞれを話者毎に分類する処理は、例えば、予め用意された発話特徴モデルに類似する音響特徴をそれぞれ有する部分データ間で、つまり人物の発話時の音響特徴をそれぞれ有する部分データ間で、音響特徴を比較し合い、同じ音響特徴を有する部分データ同士を特定することによって行うことが出来る。

また、トーク区間それぞれを話者毎に分類する処理は、（１）人物の発話時の音響特徴をそれぞれ有する部分データ間で音響特徴を比較し合うことによって、映像コンテンツデータ内に登場する複数の話者それぞれぞれの音響特徴を示す複数の音響特徴モデルをまず生成し、次いで、（２）オーディオデータの音響特徴と複数の音響特徴モデルそれぞれとの間の一致度を、部分データに対応する所定時間単位で算出する、という手順によっても実現することができる。

データベース１１１Ａには、各部分データに対応する音響特徴情報、およびトーク区間情報が格納される。トーク区間情報は、トーク区間検出処理によって得られた情報であり、例えば、各トーク区間の開始および終了の時点を規定する情報、各トーク区間の話者別の分類結果を示す情報等を含む。

さらに、音声インデキシング処理においては、ビデオプロセッサ１１３は、上述の歓声レベル検出処理および盛り上がりレベル検出処理も実行する。これら歓声レベル検出処理の結果および盛り上がりレベル検出処理の結果も、データベース１１１Ａにレベル情報として格納される。

ＴＶアプリケーションプログラム２０２は、上述のインデキシング情報表示機能を実行するためのインデキシング情報表示処理部３０１を含んでいる。このインデキシング情報表示処理部３０１は、例えば、インデキシングビューワプログラムとして実現されており、データベース１１１Ａに格納されたインデキシング情報（顔画像インデキシング情報、サムネイルインデキシング情報、音響特徴情報、トーク区間情報、等）を用いて、映像コンテンツデータの概要を俯瞰するためのインデキシングビュー画面を表示する。

具体的には、インデキシング情報表示処理部３０１は、データベース１１１Ａからトーク区間情報を読み出し、そのトーク区間情報に従って、インデキシングビュー画面上に、映像コンテンツデータの開始位置から終端位置までのシーケンスを表すタイムバーを表示する。このタイムバー上には、映像コンテンツデータの開始位置から終端位置までのシーケンス内におけるトーク区間それぞれの位置を示す複数のバー領域が、話者毎に異なる表示形態で表示されている。例えば、複数のバー領域は話者毎に色分けされて表示される。この場合、同じ話者がトークしているトーク区間それぞれに対応するバー領域は同じ色で表示される。これにより、例えば、放送番組内の複数の箇所に同じ人物の発言場所が存在する場合には、それら発言場所を同じ色で表示することが出来る。また、放送番組内に他の人物の発言場所がある場合には、その発言場所は別の色で表示される。よって、ある同じ人物の発言位置が映像コンテンツデータ全体の中のどの辺りの時間帯にあるかを人物別に分類してユーザに提示することが可能となる。

なお、話者毎に色を変える代わりに、話者毎にバー領域の模様または形状を変えるようにしてもよい。

また、上述のトーク区間情報を生成するためのトーク区間検出処理は、ビデオプロセッサ１１３ではなく、インデキシング情報表示処理部３０１が実行してもよい。この場合、インデキシング情報表示処理部３０１は、データベース１１１Ａから音響特徴情報を読み出し、その音響特徴情報にしたがって、トーク区間検出処理を実行する。また、ビデオプロセッサ１１３は、人物の発話時の音響特徴のみを部分データ毎に抽出してその音響特徴を示す音響特徴情報を出力することもでき、この場合には、インデキシング情報表示処理部３０１は、部分データ間で音響特徴情報を比較し合う処理を行うだけで、トーク区間検出処理を実行することができる。

さらに、インデキシング情報表示処理部３０１は、データベース１１１Ａから歓声レベル情報および盛り上がりレベル情報を読み出し、それら歓声レベル情報および盛り上がりレベル情報に従って、映像コンテンツデータの開始位置から終端位置までのシーケンス内における歓声レベルの変化および盛り上がりレベルの変化をそれぞれ示すグラフを、インデキシングビュー画面上のレベル表示エリアに表示する。

このレベル表示エリアを見ることにより、ユーザに、映像コンテンツデータ内のどの辺りに大きな歓声が生じた区間が存在し、また映像コンテンツデータ内のどの辺りに盛り上がりの大きな区間が存在するかを提示することができる。

またインデキシング情報表示処理部３０１は、データベース１１１Ａから顔画像インデキシング情報（顔画像、タイムスタンプ情報ＴＳ、およびサイズ）を読み出し、そしてその顔画像インデキシング情報を用いて、映像コンテンツデータに登場する人物の顔画像の一覧を、インデキシングビュー画面上の２次元の表示エリア（以下、顔サムネイル表示エリアと称する）上に表示する。

この場合、インデキシング情報表示処理部３０１は、映像コンテンツデータの総時間長を、例えば等間隔で、複数の時間帯に分割し、時間帯毎に、抽出された顔画像の内から当該時間帯に登場する顔画像を所定個選択する。そして、インデキシング情報表示処理部３０１は、時間帯毎に、選択した所定個の顔画像それぞれを並べて表示する。

すなわち、２次元の顔サムネイル表示エリアは、複数の行および複数の列を含むマトリクス状に配置された複数の顔画像表示エリアを含む。複数の列それぞれには、映像コンテンツデータの総時間長を構成する複数の時間帯が割り当てられている。具体的には、例えば、複数の列それぞれには、映像コンテンツデータの総時間長をこれら複数の列の数で等間隔に分割することによって得られる、互いに同一の時間長を有する複数の時間帯がそれぞれ割り当てられる。もちろん、各列に割り当てられる時間帯は必ずしも同一の時間長でなくてもよい。

インデキシング情報表示処理部３０１は、顔画像それぞれに対応するタイムスタンプ情報ＴＳに基づき、各列内に属する行数分の顔画像表示エリア上に、当該各列に割り当てられた時間帯に属する顔画像それぞれを、例えば、それら顔画像の出現頻度順（顔画像の検出時間長順）のような順序で並べて表示する。この場合、例えば、当該各列に割り当てられた時間帯に属する顔画像の内から、出現頻度（登場頻度）の高い順に顔画像が行数分だけ選択され、選択された顔画像が登場頻度順に上から下に向かって並んで配置される。もちろん、出現頻度順ではなく、各列に割り当てられた時間帯に出現する顔画像それぞれを、その出現順に並べて表示してもよい。

顔サムネイル表示エリアは、タイムバーの上方側または下方側の一方に表示される。

この顔画像一覧表示機能により、映像コンテンツデータ全体の中のどの時間帯にどの人物が登場するのかをユーザに分かりやすく提示することができる。しかも、顔サムネイル表示エリアとタイムバーとの組み合わせによって、ユーザは、各トーク区間に出現する人物を顔画像によって知ることが出来る。顔サムネイル表示エリアの具体的な構成例については、図１１以降で後述する。

また、インデキシング情報表示処理部３０１は、データベース１１１Ａからサムネイルインデキシング情報（サムネイル、タイムスタンプ情報ＴＳ）を読み出し、そしてサムネイルインデキシング情報を用いて、サムネイル画像それぞれを、顔サムネイル表示エリアの下方側または上方側の一方に配置されたサムネイル表示エリア（以下、じゃばらサムネイル表示エリアと称する）上に、それらサムネイル画像の出現時間順に一列に並べて表示する。

映像コンテンツデータによっては、顔画像が登場しない時間帯も存在する。したがって、インデキシングビュー画面上に顔サムネイル表示エリアのみならず、じゃばらサムネイル表示エリアも表示することにより、顔画像が登場しない時間帯においても、その時間帯の映像コンテンツデータの内容をユーザに提示することができる。

次に、図４を参照して、インデキシングビューワプログラムと連携して動作するＴＶアプリケーションプログラム２０２の機能構成を説明する。

ＴＶアプリケーションプログラム２０２は、上述のインデキシング情報表示処理部３０１に加え、記録処理部４０１、インデキシング制御部４０２、再生処理部４０３等を備えている。インデキシング情報表示処理部３０１、およびインデキシング制御部４０２は、インデキシングビューワプログラムによって実現することができる。

記録処理部４０１は、ＴＶチューナ１１７によって受信された放送番組データ、または外部機器から入力されるビデオデータをＨＤＤ１１１に記録する記録処理を実行する。また、記録処理部４０１は、ユーザによって予め設定された録画予約情報（チャンネル番号、日時）によって指定される放送番組データをＴＶチューナ１１７を用いて受信し、その放送番組データをＨＤＤ１１１に記録する予約録画処理も実行する。

インデキシング制御部４０２は、ビデオプロセッサ（インデキシング処理部）１１３を制御して、インデキシング処理（映像インデキシング処理、音声インデキシング処理）をビデオプロセッサ１１３に実行させる。ユーザは、録画対象の放送番組データ毎にインデキシング処理を実行するか否かを指定することができる。例えば、インデキシング処理の実行が指示された録画対象の放送番組データについては、その放送番組データがＨＤＤ１１１に記録された後に、インデキシング処理が自動的に開始される。また、ユーザは、既にＨＤＤ１１１に格納されている映像コンテンツデータの内から、インデキシング処理を実行すべき映像コンテンツデータを指定することもできる。

再生処理部４０３は、ＨＤＤ１１１に格納されている各映像コンテンツデータを、例えば、インデキシングビュー画面とは異なる画面（ウィンドウ）上で再生する処理を実行する。また、再生処理部４０４は、ある映像コンテンツデータの顔画像一覧の中の一つの顔画像が選択されている状態でユーザ操作によって再生指示イベントが入力された時、選択されている顔画像が登場する時点よりも所定時間前の時点から映像コンテンツデータの再生を開始する機能を有している。

なお、インデキシング処理は、必ずしもビデオプロセッサ１１３によって実行する必要はなく、例えば、ＴＶアプリケーションプログラム２０２にインデキシング処理を実行する機能を設けてもよい。この場合、インデキシング処理は、インデキシングビューワプログラム、またはＴＶアプリケーションプログラム２０２の制御の下に、ＣＰＵ１０１によって実行される。

次に、図５乃至図１１を参照して、インデキシングビュー画面の例について説明する。

図５はインデキシングビュー画面の第１の例を示している。

図５のインデキシングビュー画面上には、タイムバーと、説明エリアとが表示される。タイムバー上には、トーク区間それぞれの位置を示す複数のバー領域が配置されている。これらバー領域は話者毎に色分けされている。

すなわち、図５においては、音響特徴の解析結果に基づいて、映像コンテンツデータ内のトーク区間それぞれが、“話者１”、“話者２”、“話者３”、および“話者４”（複数人）の４人分の話者、つまり４種類の音響特徴、にそれぞれ対応する４つのグループ（トーク区間グループ）に分類された場合を想定している。ここで、“話者４”は、複数話者によって会話が行われているトーク区間である。

本実施形態では、同じ音響特徴を持つトーク区間同士は同じトーク区間グループに分類され、同じトーク区間グループに属するトーク区間それぞれの位置を示すバー領域は同色で表示される。“話者１”に対応するトーク区間グループに属する各トーク区間の位置を示すバー領域は、色１（例えば、赤）で表示される。“話者２”に対応するトーク区間グループに属する各トーク区間の位置を示すバー領域は、色２（例えば、青）で表示される。“話者３”に対応するトーク区間グループに属する各トーク区間の位置を示すバー領域は、色３（例えば、緑）で表示される。“複数人”に対応するトーク区間グループに属する各トーク区間の位置を示すバー領域は、色４（例えば、黄）で表示される。

説明エリアは、各バー領域の色（各バー領域の表示形態）と話者との間の対応関係を説明するためのガイド情報を表示する領域である。この説明エリアにおいては、４つのトーク区間グループに適用された４つの色のサンプルを示す４つの色アイコン（赤色のアイコン、青色のアイコン、緑色のアイコン、黄色のアイコン）と、各色がどの話者（どのトーク区間グループ）に対応しているかを説明するテキスト（“話者１”，“話者２”，“話者３”，“複数人”）とが表示される。

このように、タイムバー上のバー領域それぞれを話者別（トーク区間グループ別）に色分けして表示することにより、例えば、放送番組内の複数箇所にある同じ人物の発言位置が存在する場合には、その同じ人物が発言している位置それぞれを示すタイムバー上のバー領域を同じ色で表示することができる。よって、ユーザは、ある特定の人物の個々の発言位置を探して、その個々の発言位置の映像コンテンツデータを再生するという操作を容易に行うことができる。

さらに、本実施形態のトーク区間検出処理では、個人が発言しているトーク区間だけでなく、複数人によって会話が行われているトーク区間も検出でき、複数人によって会話が行われているトーク区間の位置を示すバー領域は、個人が発言しているトーク区間とは異なる色で表示される。これにより、たとえばスタジオトークなどのように複数人による会話が行なわれているシーンと、特定人物のみが発言しているシーンとを色分けして表示することができ、タイムバーによって視覚的に番組構成をユーザに提示することができる。

なお、図５では複数のトーク区間が連続して存在する場合を例示しているが、隣の合うトーク区間の間にトーク区間以外の他の属性区間が存在する場合には、隣の合うトーク区間それぞれに対応するバー領域間には隙間が介在され、その隙間は、例えば黒、白、グレー、といった下地色で表示される。

図６はインデキシングビュー画面の第２の例を示している。

トーク区間検出処理では、例えば、複数人の音声の重なり等により、話者の交代位置を明確に区切ることが困難なことがある。そこで、図６のトークバーにおいては、音響特徴が最も明確な位置を中心として、音響特徴の明確性が低くなるほど色が徐々に薄くなるように、各バー領域の色にグラデーションをつけている。これにより、視覚的に見やすいタイムバーとすることができる。

図６のタイムバーのグラデーション表示は、例えば、オーディオデータの所定時間毎に、そのオーディオデータの音響特徴と、映像コンテンツデータ内に登場する複数の話者それぞれに対応する音響特徴モデルとの一致度を算出し、その算出された一致度に基づいて、バー領域に適用する色の濃さを調整することによって実行することができる。

すなわち、例えば、あるトーク区間に着目すると、そのトーク区間に対応するバー領域のグラデーション表示は、次のように行われる。

まず、部分データそれぞれの音響特徴を解析および分類することにより、映像コンテンツデータ内に登場する複数の話者それぞれに対応する音響特徴モデルが生成される。この後、あるトーク区間内のオーディオデータの音響特徴と、複数の話者に対応する音響特徴サンプルの各々との間の一致度の算出が、所定時間単位で実行される。そして、トーク区間内である音響特徴サンプルとの一致度が閾値を超える位置（時間帯）が検出される。そして、その検出された位置が最も色が濃く表示され且つ当該音響特徴サンプルと一致度が低い位置ほど色が薄くなるように、当該トーク区間に対応するバー領域に適用する色の濃さが調整される。また、一致度が所定の下限値を下回る位置は例えば黒、白、グレー、といった下地色で表示される。

図６のようなグラデーション表示を利用することにより、話者の交代位置が明確に判定できない場合でも、トーク区間の正しい位置をタイムバーによってユーザに提示することができる。

図７および図８は、インデキシングビュー画面の第３および第４の例をそれぞれ示している。

タイムバー上のバー領域それぞれを話者毎（トーク区間グループ毎）に色分けして表示しただけでは、ユーザは、話者の異同は認識できるものの、具体的な話者を知ることはできない。そこで、図７および図８では、トーク区間グループ毎に、当該グループに属するトーク区間に対応する時間帯に出現する特定し、その特定した顔画像を、当該グループの話者を識別するための代表顔画像として表示している。

図７および図８の各インデキシングビュー画面においては、顔画像１は“話者１”に対応するトーク区間グループの代表顔画像であり、顔画像２は“話者２”に対応するトーク区間グループの代表顔画像であり、顔画像３は“話者３”に対応するトーク区間グループの代表顔画像である。これら顔画像１，２，３は、タイムバー上の色分けされたバー領域がそれぞれどの話者に対応するかを示すために使用されている。これら顔画像１，２，３は、説明エリア上の“話者１”，“話者２”，“話者３”それぞれに対応する色アイコンに対応付けられた状態で表示される。

顔画像１としては、例えば、“話者１”に対応するトーク区間グループに属する複数のトーク区間に共通に出現する顔画像を使用することができる。もちろん、“話者１”に対応するトーク区間グループに属する３つのトーク区間それぞれに対応する時間帯に出現する３つの顔画像をそれぞれ個別に特定し、それら顔画像を、色１に対応する色アイコンの隣に並べて表示してもよい。

図９は、インデキシングビュー画面の第５の例を示している。この図９のインデキシングビュー画面においては、顔画像１，２，３は、説明エリア上ではなく、タイムバー上のバー領域にそれぞれ対応付けられた状態で表示されている。顔画像１は、“話者１”に対応するトーク区間グループに属する３つのトーク区間それぞれのバー領域の上側に表示され、顔画像２は、“話者２”に対応するトーク区間グループに属するトーク区間のバー領域の上側に表示され、顔画像３は、“話者３”に対応するトーク区間グループに属する２つのトーク区間それぞれのバー領域の上側に表示される。もちろん、トーク区間検出処理で検出された全てのトーク区間を対象に、それらトーク区間に対応する時間帯に出現する顔画像をそれぞれ個別に特定し、それら顔画像を、タイムバー上のトーク区間それぞれのバー領域の上側に表示してもよい。

図１０は、インデキシングビュー画面の第６の例を示している。

このインデキシングビュー画面には、顔サムネイル表示エリア、レベル表示エリア、およびタイムバーが表示される。例えば、ユーザによる現在位置バーの移動操作等によってタイムバー上のある特定のバー領域、例えば色１のトーク区間グループに属するあるトーク区間に対応するバー領域が選択された場合、色１のトーク区間グループに属するトーク区間それぞれに共通に出現する人物の顔画像が検出される。そして、その検出された人物の顔画像の囲枠が強調表示される。

図１１は、インデキシングビュー画面の第７の例を示している。

この図１１のインデキシングビュー画面は、顔画像の一覧を表示するための上述の顔サムネイル表示エリアと、上述のレベル表示エリアと、上述のタイムバーと、サムネイル画像の一覧をじゃばら形式で表示するための上述のじゃばらサムネイル表示エリアとを含んでいる。

ここで、じゃばら形式とは、選択されているサムネイル画像を通常サイズで表示し、他の各サムネイル画像についてはその横方向サイズを縮小して表示する表示形式である。

つまり、インデキシング情報表示処理部３０１は、ユーザ操作によって選択されたサムネイル画像を第１の横幅サイズで表示し、他の各サムネイル画像の横幅サイズを第１の横幅サイズよりも小さい横幅サイズで表示する。図１１においては、選択されたサムネイル画像との距離が大きいサムネイル画像ほど、その横方向サイズが縮小されている。つまり、選択されたサムネイル画像は通常サイズで表示され、その選択されたサムネイル画像の近傍の各サムネイル画像はその横幅が縮小された状態で表示され、さらに他の各サムネイル画像は僅かな横幅で表示される。選択されているサムネイル画像には、さらに矩形の枠を付加してもよい。

ユーザの操作（リモコンユニットのボタン、カーソルキー等）により、じゃばらサムネイル表示エリア上のいずれか１つのサムネイル画像を選択することができる。

レベル表示エリアにおいては、歓声レベルの変化を示すグラフ（図１１中の濃い色で示されるグラフ）と、歓声レベルの変化を示すグラフ（図１１中の薄い色で示されるグラフ）が表示される。

図１２は、図１０または図１１のインデキシングビュー画面上に表示される顔サムネイル表示エリアの具体的な構成例が示されている。

顔サムネイル表示エリアは、複数の行と複数の列とを含むマトリクス状に配置された複数個の顔画像表示エリアを含んでいる。図１２においては、顔サムネイル表示エリアは６行×１６列から構成されている。顔サムネイル表示エリアに含まれる顔画像表示エリアの数は、９６個である。

列１〜列１６のそれぞれには、例えば、映像コンテンツデータ（映像コンテンツデータに含まれる動画像データ）の総時間長を列数（＝１６）で等間隔で分割することによって得られる、互いに同一の時間長Ｔを有する複数の時間帯がそれぞれ割り当てられる。

例えば、映像コンテンツデータの総時間長が２時間であるならば、その２時間が１６個の時間帯に等間隔で分割される。この場合、各時間帯の時間長Ｔは、７．５分である。例えば、列１には、先頭0:00:00から0:07:30までの時間帯が割り当てられ、列２には、0:07:30から0:15:00までの時間帯が割り当てられ、列３には、0:15:00から0:22:30までの時間帯が割り当てられる。映像コンテンツデータの総時間長に応じて、各時間帯の時間長Ｔは変化する。

もちろん、複数の列それぞれに割り当てられる時間帯の長さは、必ずしも同一である必要はない。

インデキシング情報表示処理部３０１は、ビデオプロセッサ１１３によって抽出された顔画像それぞれに対応するタイムスタンプ情報に基づき、各列内の６個の顔画像表示エリア上に、当該各列に割り当てられた時間帯に属する顔画像それぞれをたとえば上述の頻度順に並べて表示する。この場合、インデキシング情報表示処理部３０１は、表示処理対象の列に割り当てられた時間帯に属する顔画像の内から行数分（６個）の顔画像を選択し、選択した行数分の顔画像それぞれを並べて表示する。

このように、顔サムネイル表示エリアにおいては、左端位置（1,1）を基点とし、右端位置(6,16)を映像コンテンツデータの終端とする時間軸が用いられている。

顔サムネイル表示エリアの各顔画像表示エリアに表示される顔画像のサイズは“大”、 “中”、“小”の内からユーザが選択することができる。行と列の数は、ユーザが選択した顔画像のサイズに応じて変化される。顔画像のサイズと行と列の数との関係は、次の通りである。

（１）“大”の場合；３行×８列
（２）“中”の場合；６行×１６列
（３）“小”の場合：１０行×２４列
“大”の場合においては、各顔画像は、例えば、１８０×１８０ピクセルのサイズで表示される。“中”の場合においては、各顔画像は、例えば、９０×９０ピクセルのサイズで表示される。“小”の場合においては、各顔画像は、例えば、６０×６０ピクセルのサイズで表示される。デフォルトの顔画像サイズは、例えば、“中”に設定されている。

顔サムネイル表示エリア内の各顔画像は、選択されていない“標準”状態、選択されている“フォーカス”状態の２つの状態のいずれかに設定される。“フォーカス”状態の顔画像のサイズは、“標準”状態の時のサイズ（１８０×１８０、９０×９０、または６０×６０）よりも大きく設定される。図１２においては、座標(１，１２)の顔画像が“フォーカス”状態である場合を示している。

じゃばらサムネイル表示エリアに表示されるサムネイル画像の枚数は、ユーザ設定に従って、例えば２４０枚、１４４枚、９６枚、４８枚のいずれかに設定される。デフォルトは例えば２４０枚である。この場合、動画像データは２４０個の区間（２４０個の時間帯）に区分され、２４０個の区間それぞれから抽出された２４０枚のサムネイル画像が時間順に並んでじゃばらサムネイル表示エリアに表示される。

サムネイル画像は、選択されていない“標準”状態、選択されている“フォーカス”状態の２つの状態のいずれかに設定される。“フォーカス”状態のサムネイル画像は、他のサムネイル画像よりも大きいサイズで表示される。

次に、図１３を参照して、図１１のインデキシングビュー画面上に表示される、顔サムネイル表示エリアとじゃばらサムネイル表示エリアとの関係について説明する。

同一列に属する顔画像表示エリア群の集合、つまり顔サムネイル表示エリア内の個々の列を“大区間”と称する。また、“大区間”をさらに分割したものを“小区間”と称する。１つの大区間に含まれる小区間の数は、じゃばらサムネイル表示エリアに表示されるサムネイル画像の数を顔サムネイル表示エリアの列数で割った商で与えられる。例えば、顔サムネイル表示エリアが６行×１６列で、じゃばらサムネイル表示エリアに表示されるサムネイル画像の数が２４０枚であるならば、１つの大区間に含まれる小区間の数は、１５（＝２４０÷１６）となる。１つの大区間は１５個の小区間を含む。換言すれば、１つの大区間に対応する時間帯には、１５枚のサムネイル画像が属することになる。

じゃばらサムネイル表示エリア上のあるサムネイル画像が選択された時、インデキシング情報表示処理部３０１は、選択されたサムネイル画像のタイムスタンプ情報に基づき、顔サムネイル表示エリア内の複数の列（複数の大区間）の内で、選択されたサムネイル画像が属する時間帯が割り当てられた列（大区間）を選択する。選択される大区間は、選択されたサムネイル画像が属する区間（小区間）を含む大区間である。そして、インデキシング情報表示処理部３０１は、選択した大区間を強調表示する。

さらに、インデキシング情報表示処理部３０１は、選択されたサムネイル画像と選択された大区間との間を接続する現在位置バー（縦長のバー）を表示する。この縦長のバーは、選択されたサムネイル画像に対応する小区間が、選択された大区間に含まれる１５個の小区間の内のどの小区間に対応するかを提示するために使用される。縦長のバーは、選択された大区間に含まれる１５個の小区間の内で、選択されたサムネイル画像に対応する小区間の位置に表示される。例えば、選択されたサムネイル画像が、ある大区間に対応する時間帯に属する１５枚のサムネイル画像の内の先頭の画像、つまり大区間内の先頭の小区間に対応する画像であるならば、選択されたサムネイル画像は、縦長のバーによって大区間の左端に接続される。また、例えば、選択されたサムネイル画像が、ある大区間に対応する時間帯に属する１５枚のサムネイル画像の内の終端の画像、つまり大区間内の終端の小区間に対応する画像であるならば、選択されたサムネイル画像は、縦長のバーによって大区間の右端に接続される。

このように、じゃばらサムネイル表示エリア上のサムネイル画像が選択された時には、顔サムネイル表示エリア内の複数の列の内から、選択されたサムネイル画像が属する時間帯が割り当てられている列（大区間）が自動選択される。これにより、ユーザは、選択したサムネイル画像が、顔サムネイル表示エリア内のどの列（大区間）に対応する画像であるかを識別することができる。さらに、縦長のバーにより、ユーザは、選択したサムネイル画像が、どの列（大区間）内のどの辺りの時点に対応する画像であるかも識別することができる。

また、インデキシング情報表示処理部３０１は、選択されたサムネイル画像のタイムスタンプ情報に基づいて、選択されたサムネイル画像が出現する時点を示す時間情報もインデキシングビュー画面上に表示する。

“現在位置変更”ボタンは選択されているサムネイル画像を変更するための操作ボタンである。“現在位置変更”ボタンがフォーカスされている状態でユーザが左カーソルキーまたは右カーソルキーを操作すると、選択対象のサムネイル画像は、例えば１小区間単位で、左または右に移動する。

次に、図１４のフローチャートを参照して、インデキシングビュー画面上にタイムバーを表示する処理について説明する。

ここでは、映像コンテンツデータ中に２人の話者（話者１，話者２）それぞれの発言位置が出現する場合を想定する。

まず、ビデオプロセッサ１１３は、映像コンテンツデータに含まれるオーディオデータを分析することにより、そのオーディオデータの各部分データから音響特徴を抽出し、その音響特徴を示す音響特徴情報を出力する（ステップＳ１１）。次いで、ビデオプロセッサ１１３またはインデキシング情報表示処理部３０１は、複数の部分データそれぞれに対応する音響特徴情報を解析して、映像コンテンツデータに含まれるトーク区間それぞれを検出する処理、およびそれらトーク区間を話者１がトークしている第１のトーク区間グループと話者２がトークしている第２のトーク区間グループとに分類する処理とを実行する（ステップＳ１２，Ｓ１３）。

ステップＳ１２，Ｓ１３においては、例えば、検出されたトーク区間間でそれらトーク区間それぞれの音響特徴を比較し合い、同じ音響特徴を有するトーク区間同士を特定する処理が行われる。これにより、検出されたトーク区間を、第１のトーク区間グループと第２のトーク区間グループとに分類することができる。

また、ステップＳ１２，Ｓ１３においては、まず、発話に関する音響特徴を話者別（話者１，話者２）に分類して、話者１，話者それぞれの音響特徴を示す音響特徴モデルを生成し、次いで、オーディオデータの音響特徴と話者１，話者それぞれの音響特徴モデルとの間の一致度を所定時間単位で算出して、オーディオデータの中から話者１の音響特徴モデルに類似する音響特徴を有する各トーク区間と話者２の音響特徴モデルに類似する音響特徴を有する各トーク区間とを検出するようにしてもよい。

次いで、インデキシング情報表示処理部３０１は、第１のトーク区間グループに属する各トーク区間の位置を示すバー領域を第１の色（第１の表示形態）でタイムバー上に表示すると共に、第２のトーク区間グループに属する各トーク区間の位置を示すバー領域を第２の色（第２の表示形態）でタイムバー上に表示する（ステップＳ１４）。

この後、インデキシング情報表示処理部３０１は、映像コンテンツデータから抽出された複数の顔画像それぞれに対応するタイムスタンプ情報に基づいて、複数の顔画像の中から、第１のトーク区間グループに属するトーク区間に出現する顔画像と第２のトーク区間グループに属するトーク区間に出現する顔画像とを検出する（ステップＳ１５）。ステップＳ１５では、各トーク区間グループの話者の代表顔画像が特定される。例えば、トーク区間グループ内の複数のトーク区間それぞれに共通に出現する人物の顔画像を、当該トーク区間グループの代表顔画像に特定することができる。

そして、インデキシング情報表示処理部３０１は、各トーク区間グループ毎に特定された代表顔画像をタイムバー上の各トーク区間のバー領域または説明エリア上の色アイコンに関連付けて表示する（ステップＳ１６）。

以上のように、本実施形態においては、トーク区間それぞれが話者別に複数のグループに分類され、トーク区間それぞれの位置を示すバー領域がグループ毎に異なる表示形態でタイムバー上に表示される。したがって、映像コンテンツデータを再生することなく、ある同じ人物の発言位置が映像コンテンツデータ全体の中のどの辺りの時間帯に出現するかを人物別に分類してユーザに提示することが可能となる。これにより、ユーザはタイムバーを見るだけで、特定の人物の発言位置を探したり、番組内の構成をグラフィカルに認識することが可能となり、番組内の観たい位置へのシークを容易にすることができる。

なお、本実施形態のインデキシング情報表示処理の手順は全てソフトウェアによって実現することができるので、このソフトウェアをコンピュータ読み取り可能な記憶媒体を通じて通常のコンピュータに導入することにより、本実施形態と同様の効果を容易に実現することができる。

また、本実施形態の電子機器はコンピュータ１０によって実現するのみならず、例えば、ＨＤＤレコーダ、ＤＶＤレコーダ、テレビジョン装置といった様々なコンシューマ電子機器によって実現することもできる。この場合、インデキシング情報表示処理およびプレビュー処理の機能は、ＤＳＰ、マイクロコンピュータのようなハードウェアによって実現することができる。

また、本発明は、上記実施形態そのままに限定されるものではなく、実施段階ではその要旨を逸脱しない範囲で構成要素を変形して具体化できる。また、上記実施形態に開示されている複数の構成要素の適宜な組み合わせにより種々の発明を形成できる。例えば、実施形態に示される全構成要素から幾つかの構成要素を削除してもよい。更に、異なる実施形態に構成要素を適宜組み合わせてもよい。

１０…電子機器（コンピュータ）、１１１Ａ…データベース、１１３…ビデオプロセッサ、１１７…ＴＶチューナ、３０１…インデキシング情報表示処理部、４０２…インデキシング制御部。

Claims

映像コンテンツデータの情報を使用して、前記映像コンテンツデータに含まれる複数の区間にそれぞれ登場する人物に関する情報を取得する取得手段と、
前記映像コンテンツデータのシーケンスを表すタイムバーであって、第１の人物がトークする第１の区間に対応する前記タイムバー内の第１の領域が第１の表示形態で表示され、前記第１の人物と異なる第２の人物がトークする第２の区間に対応する前記タイムバー内の第２の領域が前記第１の表示形態と異なる第２の表示形態で表示され、複数人がトークする第３の区間に対応する前記タイムバー内の第３の領域が前記第１および第２の表示形態と異なる第３の表示形態で表示されるタイムバーと、前記第１の人物に関する情報と、前記第２の人物に関する情報と、前記複数人に関する情報を表示する表示制御手段とを具備し、
前記表示制御手段は、前記第１の人物に関する情報を、前記第１の領域に関連付けて表示し、前記第２の人物に関する情報を、前記第２の領域に関連付けて表示し、前記複数人に関する情報を、前記第３の領域に関連付けて表示することを特徴とする電子機器。
前記複数の区間は複数のトーク区間である請求項１記載の電子機器。
前記第１の領域は、前記第１の領域の中心部から両側に向けて色が薄くなるように第１の色で表示され、前記第２の領域は、前記第２の領域の中心部から両側に向けて色が薄くなるように前記第１の色と異なる第２の色で表示され、前記第３の領域は、前記第３の領域の中心部から両側に向けて色が薄くなるように前記第１および第２の色と異なる第３の色で表示される請求項１記載の電子機器。
前記表示制御手段は、前記映像コンテンツデータのシーケンス内における歓声レベルまたは盛り上がりレベルの変化を示すグラフをさらに表示する請求項１記載の電子機器。
前記表示制御手段は、現在位置バーが前記第１の領域に移動された場合に前記第１の人物に関する情報を強調表示し、前記現在位置バーが前記第２の領域に移動された場合に前記第２の人物に関する情報を強調表示する請求項１記載の電子機器。
前記第１の人物に関する情報は前記第１の人物の顔画像を含み、前記第２の人物に関する情報は前記第２の人物の顔画像を含む請求項１記載の電子機器。
映像コンテンツデータの情報を使用して、前記映像コンテンツデータに含まれる複数の区間にそれぞれ登場する人物に関する情報を取得することと、
前記映像コンテンツデータのシーケンスを表すタイムバーであって、第１の人物がトークする第１の区間に対応する前記タイムバー内の第１の領域が第１の表示形態で表示され、前記第１の人物と異なる第２の人物がトークする第２の区間に対応する前記タイムバー内の第２の領域が前記第１の表示形態と異なる第２の表示形態で表示され、複数人がトークする第３の区間に対応する前記タイムバー内の第３の領域が前記第１および第２の表示形態と異なる第３の表示形態で表示されるタイムバーと、前記第１の人物に関する情報と、前記第２の人物に関する情報と、前記複数人に関する情報を表示することとを具備し、
前記表示することは、前記第１の人物に関する情報を、前記第１の領域に関連付けて表示し、前記第２の人物に関する情報を、前記第２の領域に関連付けて表示し、前記複数人に関する情報を、前記第３の領域に関連付けて表示することを特徴とする表示処理方法。
前記複数の区間は複数のトーク区間である請求項７記載の表示処理方法。
コンピュータにより実行されるプログラムであって、
映像コンテンツデータの情報を使用して、前記映像コンテンツデータに含まれる複数の区間にそれぞれ登場する人物に関する情報を取得する手順と、
前記映像コンテンツデータのシーケンスを表すタイムバーであって、第１の人物がトークする第１の区間に対応する前記タイムバー内の第１の領域が第１の表示形態で表示され、前記第１の人物と異なる第２の人物がトークする第２の区間に対応する前記タイムバー内の第２の領域が前記第１の表示形態と異なる第２の表示形態で表示され、複数人がトークする第３の区間に対応する前記タイムバー内の第３の領域が前記第１および第２の表示形態と異なる第３の表示形態で表示されるタイムバーと、前記第１の人物に関する情報と、前記第２の人物に関する情報と、前記複数人に関する情報を表示する手順とを前記コンピュータに実行させ、
前記表示する手順は、前記第１の人物に関する情報を、前記第１の領域に関連付けて表示し、前記第２の人物に関する情報を、前記第２の領域に関連付けて表示し、前記複数人に関する情報を、前記第３の領域に関連付けて表示する手順を含むプログラム。
前記複数の区間は複数のトーク区間である請求項９記載のプログラム。
前記第１の領域は、前記第１の領域の中心部から両側に向けて色が薄くなるように第１の色で表示され、前記第２の領域は、前記第２の領域の中心部から両側に向けて色が薄くなるように前記第１の色と異なる第２の色で表示され、前記第３の領域は、前記第３の領域の中心部から両側に向けて色が薄くなるように前記第１および第２の色と異なる第３の色で表示される請求項９記載のプログラム。
前記表示する手順は、前記映像コンテンツデータのシーケンス内における歓声レベルまたは盛り上がりレベルの変化を示すグラフを表示する手順を含む請求項９記載のプログラム。
前記表示する手順は、現在位置バーが前記第１の領域に移動された場合に前記第１の人物に関する情報を強調表示し、前記現在位置バーが前記第２の領域に移動された場合に前記第２の人物に関する情報を強調表示する手順を含む請求項９記載のプログラム。
前記第１の人物に関する情報は前記第１の人物の顔画像を含み、前記第２の人物に関する情報は前記第２の人物の顔画像を含む請求項９記載のプログラム。