JP5038836B2

JP5038836B2 - 情報処理装置

Info

Publication number: JP5038836B2
Application number: JP2007255030A
Authority: JP
Inventors: 秀年横井; 謙一田部
Original assignee: Toshiba Corp
Current assignee: Toshiba Corp
Priority date: 2007-09-28
Filing date: 2007-09-28
Publication date: 2012-10-03
Anticipated expiration: 2027-09-28
Also published as: JP2009088905A

Description

本発明は映像コンテンツデータに登場するサムネイル画像を表示する情報処理装置に関する。

一般に、ビデオレコーダ、パーソナルコンピュータといった情報処理装置は、テレビジョン放送番組データのような各種映像コンテンツデータを記録および再生することが可能である。この場合、情報処理装置に格納された各映像コンテンツデータにはタイトル名が付加されるが、タイトル名だけでは、ユーザが、各映像コンテンツデータがどのような内容のものであるかを把握することは困難である。このため、映像コンテンツデータの内容を把握するためには、その映像コンテンツデータを再生することが必要となる。しかし、総時間長の長い映像コンテンツデータの再生には、たとえ早送り再生機能等を用いた場合であっても、多くの時間が要される。

特許文献１には、映像コンテンツデータの内容を複数の静止画にして表示する機能を有する技術が開示されている。
特開２００６−１１３７１４号公報

しかし、特許文献１の技術であると、映像コンテンツデータの内容を複数のサムネイル画像にして表示する場合、フォーカスする場所は１カ所のみ可能となる。

本発明は上述の事情を考慮してなされたものであり、映像コンテンツデータの内容を複数のサムネイル画像にして表示する場合、複数箇所をフォーカスすることができる情報処理装置を提供することを目的とする。

上述の課題を解決するため、本発明の一態様によれば、映像コンテンツデータから複数の顔画像を抽出する顔画像抽出手段と、前記複数の顔画像の一覧を第１の表示エリア上に表示するよう制御する顔画像一覧表示制御手段と、映像コンテンツデータを所定の時間間隔で分割して得られる各区間の各々から少なくとも１フレームのサムネイル画像を抽出するサムネイル画像抽出手段と、前記画像抽出手段によって抽出された各サムネイル画像を、複数のサムネイル画像が通常サイズで表示され、その他のサムネイル画像が通常サイズよりも横方向サイズが縮小されて表示されるように、時系列順に並べて第２の表示エリア上に表示するよう制御するサムネイル画像一覧表示制御手段と、を備え、前記サムネイル画像一覧表示制御手段が通常サイズとして表示する前記複数のサムネイル画像は、前記第１の表示エリア上に表示される顔画像の一覧のうち選択された顔画像と関連するサムネイル画像である情報処理装置が提供される。

また、映像コンテンツデータの音声データから歓声レベルを時系列に検出する検出手段と、映像コンテンツデータを所定の時間間隔で分割して得られる各区間の各々から少なくとも１つのフレームのサムネイル画像を抽出するサムネイル画像抽出手段と、前記画像抽出手段によって抽出された各サムネイル画像を、複数のサムネイル画像が通常サイズで表示され、その他のサムネイル画像が通常サイズよりも横方向サイズが縮小されて表示されるように、時系列に並べて表示エリア上に表示するよう制御するサムネイル画像一覧表示制御手段と、を備え、前記サムネイル画像一覧表示制御手段が通常サイズで表示する前記複数のサムネイル画像は、前記検出手段で検出した歓声レベルに応じて抽出された複数のサムネイル画像である情報処理装置が提供される。

本発明によれば、映像コンテンツデータの内容を複数のサムネイル画像にして表示する場合、複数箇所をフォーカスすることができる。

以下、図面を参照して、本発明の実施形態を説明する。
まず、図１および図２を参照して、本発明の一実施形態に係る情報処理装置の構成を説明する。本実施形態の情報処理装置は、例えば、ノートブック型の携帯型パーソナルコンピュータ１０から実現されている。

このパーソナルコンピュータ１０は、放送番組データ、外部機器から入力されるビデオデータといった、映像コンテンツデータ（オーディオビジュアルコンテンツデータ）を記録および再生することができる。即ち、パーソナルコンピュータ１０は、テレビジョン放送信号によって放送される放送番組データの視聴および録画を実行するためのテレビジョン（ＴＶ）機能を有している。このＴＶ機能は、例えば、パーソナルコンピュータ１０に予めインストールされているＴＶアプリケーションプログラムによって実現されている。また、ＴＶ機能は、外部のＡＶ機器から入力されるビデオデータを記録する機能、および記録されたビデオデータおよび記録された放送番組データを再生する機能も有している。

さらに、パーソナルコンピュータ１０は、パーソナルコンピュータ１０に格納されたビデオデータ、放送番組データのような映像コンテンツデータに登場する人物の顔画像の一覧等を表示する顔画像一覧表示機能を有している。この顔画像一覧表示機能は、例えば、ＴＶ機能内にその一機能として実装されている。顔画像一覧表示機能は、映像コンテンツデータの概要等をユーザに提示するための映像インデキシング機能の一つである。この顔画像一覧表示機能は、映像コンテンツデータ全体の中のどの時間帯にどの人物が登場するのかをユーザに提示することができる。また、この顔画像一覧表示機能は、映像コンテンツデータの映像インデキシングを行う際に、人物の顔画像から特徴量を算出し、同一人物であるか否かの判別を行い、同一人物の顔画像を他の顔画像と区別（強調）して表示することもできる。

更にパーソナルコンピュータ１０は、等時間間隔で分割して得られる各区間の各々から少なくとも１フレームのサムネイル画像を抽出してこれらのサムネイル画像をじゃばら状に表示する機能を有する。じゃばら状の表示とは、少なくとも１枚のサムネイル画像を通常サイズで、それ以外のサムネイル画像を通常サイズ以下の横幅サイズとなるようにする表示方法であり、通常サイズで表示されるサムネイル画像から時間的に離れるほど、横幅サイズが縮小して表示される。本実施例のパーソナルコンピュータ１０では、この通常サイズで表示されるサムネイル画像を複数とすることが可能である。

図１はコンピュータ１０のディスプレイユニットを開いた状態における斜視図である。本コンピュータ１０は、コンピュータ本体１１と、ディスプレイユニット１２とから構成されている。ディスプレイユニット１２には、ＴＦＴ−ＬＣＤ（Thin Film Transistor Liquid Crystal Display）１７から構成される表示装置が組み込まれている。

ディスプレイユニット１２は、コンピュータ本体１１に対し、コンピュータ本体１１の上面が露出される開放位置とコンピュータ本体１１の上面を覆う閉塞位置との間を回動自在に取り付けられている。コンピュータ本体１１は薄い箱形の筐体を有しており、その上面にはキーボード１３、本コンピュータ１０をパワーオン／パワーオフするためのパワーボタン１４、入力操作パネル１５、タッチパッド１６、およびスピーカ１８Ａ，１８Ｂなどが配置されている。

入力操作パネル１５は、押されたボタンに対応するイベントを入力する入力装置であり、複数の機能をそれぞれ起動するための複数のボタンを備えている。これらボタン群には、ＴＶ機能（視聴、録画、録画された放送番組データ／ビデオデータの再生）を制御するための操作ボタン群も含まれている。また、コンピュータ本体１１の正面には、本コンピュータ１０のＴＶ機能をリモート制御するリモコンユニットとの通信を実行するためのリモコンユニットインタフェース部２０が設けられている。リモコンユニットインタフェース部２０は、赤外線信号受信部などから構成されている。

コンピュータ本体１１の例えば右側面には、ＴＶ放送用のアンテナ端子１９が設けられている。また、コンピュータ本体１１の例えば背面には、例えばＨＤＭＩ(high-definition multimedia interface)規格に対応した外部ディスプレイ接続端子が設けられている。この外部ディスプレイ接続端子は、放送番組データのような映像コンテンツデータに含まれる映像データ（動画像データ）を外部ディスプレイに出力するために用いられる。

次に、図２を参照して、本コンピュータ１０のシステム構成について説明する。

本コンピュータ１０は、図２に示されているように、ＣＰＵ１０１、ノースブリッジ１０２、主メモリ１０３、サウスブリッジ１０４、グラフィクスプロセッシングユニット（ＧＰＵ）１０５、ビデオメモリ（ＶＲＡＭ）１０５Ａ、サウンドコントローラ１０６、ＢＩＯＳ−ＲＯＭ１０９、ＬＡＮコントローラ１１０、ハードディスクドライブ（ＨＤＤ）１１１、ＤＶＤドライブ１１２、ビデオプロセッサ１１３、メモリ１１３Ａ、カードコントローラ１１３、無線ＬＡＮコントローラ１１４、IEEE 1394コントローラ１１５、エンベデッドコントローラ／キーボードコントローラＩＣ（ＥＣ／ＫＢＣ）１１６、ＴＶチューナ１１７、およびＥＥＰＲＯＭ１１８等を備えている。

ＣＰＵ１０１は本コンピュータ１０の動作を制御するプロセッサであり、ハードディスクドライブ（ＨＤＤ）１１１から主メモリ１０３にロードされる、オペレーティングシステム（ＯＳ）２０１、およびＴＶアプリケーションプログラム２０２のような各種アプリケーションプログラムを実行する。ＴＶアプリケーションプログラム２０２はＴＶ機能を実行するためのソフトウェアである。このＴＶアプリケーションプログラム２０２は、ＴＶチューナ１１７によって受信された放送番組データを視聴するためのライブ再生処理、受信された放送番組データをＨＤＤ１１１に記録する録画処理、およびＨＤＤ１１１に記録された放送番組データ／ビデオデータを再生する再生処理等を実行する。また、ＣＰＵ１０１は、ＢＩＯＳ−ＲＯＭ１０９に格納されたＢＩＯＳ（Basic Input Output System）も実行する。ＢＩＯＳはハードウェア制御のためのプログラムである。

ノースブリッジ１０２はＣＰＵ１０１のローカルバスとサウスブリッジ１０４との間を接続するブリッジデバイスである。ノースブリッジ１０２には、主メモリ１０３をアクセス制御するメモリコントローラも内蔵されている。また、ノースブリッジ１０２は、PCI EXPRESS規格のシリアルバスなどを介してＧＰＵ１０５との通信を実行する機能も有している。

ＧＰＵ１０５は、本コンピュータ１０のディスプレイモニタとして使用されるＬＣＤ１７を制御する表示コントローラである。このＧＰＵ１０５によって生成される表示信号はＬＣＤ１７に送られる。また、ＧＰＵ１０５は、ＨＤＭＩ制御回路３およびＨＤＭＩ端子２を介して、外部ディスプレイ装置１にデジタル映像信号を送出することもできる。

ＨＤＭＩ端子２は上述の外部ディスプレイ接続端子である。ＨＤＭＩ端子２は、非圧縮のデジタル映像信号と、デジタルオーディオ信号とを一本のケーブルでテレビのような外部ディスプレイ装置１に送出することができる。ＨＤＭＩ制御回路３は、ＨＤＭＩモニタと称される外部ディスプレイ装置１にデジタル映像信号をＨＤＭＩ端子２を介して送出するためのインタフェースである。

サウスブリッジ１０４は、ＬＰＣ（Low Pin Count）バス上の各デバイス、およびＰＣＩ（Peripheral Component Interconnect）バス上の各デバイスを制御する。また、サウスブリッジ１０４は、ハードディスクドライブ（ＨＤＤ）１１１およびＤＶＤドライブ１１２を制御するためのＩＤＥ（Integrated Drive Electronics）コントローラを内蔵している。さらに、サウスブリッジ１０４は、サウンドコントローラ１０６との通信を実行する機能も有している。

またさらに、サウスブリッジ１０４には、PCI EXPRESS規格のシリアルバスなどを介してビデオプロセッサ１１３が接続されている。

ビデオプロセッサ１１３は、前述の映像インデキシングに関する各種処理を実行するプロセッサである。このビデオプロセッサ１１３は、映像インデキシング処理を実行するためのインデキシング処理部として機能する。すなわち、映像インデキシング処理においては、ビデオプロセッサ１１３は、映像コンテンツデータに含まれる動画像データから複数の顔画像および顔画像の特徴量情報を抽出すると共に、抽出された各顔画像が映像コンテンツデータ内に登場する時点を示すタイムスタンプ情報、等を出力する。顔画像の抽出は、例えば、動画像データの各フレームから顔領域を検出する顔検出処理、検出された顔領域をフレームから切り出す切り出し処理等によって実行される。顔領域の検出は、例えば、各フレームの画像の特徴を解析して、予め用意された顔画像特徴サンプルと類似する特徴を有する領域を探索することによって行うことができる。顔画像特徴サンプルは、多数の人物それぞれの顔画像特徴を統計的に処理することによって得られた特徴データである。また、顔画像からの特徴量情報の抽出は、例えば、目、鼻、口等の顔の各パーツの大きさやパーツ同士の配置等を数値化したデータとして抽出する。そして、各特徴量情報同士を比較して類似度を求めることにより、同一人物であるか否かを判別する。

さらに、ビデオプロセッサ１１３は、例えば、映像コンテンツデータ内に含まれるコマーシャル（ＣＭ）区間を検出する処理、および音声インデキシング処理も実行する。通常、各ＣＭ区間の時間長は、予め決められた幾つかの時間長の内の１つに設定されている。

次に、音声インデキシング処理は、映像コンテンツデータ内に含まれるオーディオデータを分析して、映像コンテンツデータ内に含まれる、音楽が流れている音楽区間、および人物によるトークが行われているトーク区間を検出するインデキシング処理である。音声インデキシング処理は、映像コンテンツデータ内の各部分データ（一定時間長のデータ）毎に歓声レベルを検出する歓声レベル検出処理、および映像コンテンツデータ内の各部分データ毎に盛り上がりレベルを検出する盛り上がりレベル検出処理を実行する。

歓声レベルは、歓声の大きさを示す。歓声は、大勢の人の声が合わさった音である。大勢の人の声が合わさった音は、ある特定の周波数スペクトルの分布を有する。歓声レベル検出処理においては、映像コンテンツデータに含まれるオーディオデータの周波数スペクトルが分析され、そしてその周波数スペクトルの分析結果に従って、各部分データの歓声レベルが検出される。盛り上がりレベルは、ある一定以上の音量レベルがある一定時間長以上連続的に発生する区間の音量レベルである。例えば、比較的盛大な拍手、大きな笑い声のような音の音量レベルが、盛り上がりレベルである。盛り上がりレベル検出処理においては、映像コンテンツデータに含まれるオーディオデータの音量の分布が分析され、その分析結果に従って、各部分データの盛り上がりレベルが検出される。

メモリ１１３Ａは、ビデオプロセッサ１１３の作業メモリとして用いられる。インデキシング処理（ＣＭ検出処理、映像インデキシング処理、および音声インデキシング処理）を実行するためには多くの演算量が必要とされる。本実施形態においては、ＣＰＵ１０１とは異なる専用のプロセッサであるビデオプロセッサ１１３がバックエンドプロセッサとして使用され、このビデオプロセッサ１１３によってインデキシング処理が実行される。よって、ＣＰＵ１０１の負荷の増加を招くことなく、インデキシング処理を実行することが出来る。

サウンドコントローラ１０６は音源デバイスであり、再生対象のオーディオデータをスピーカ１８Ａ，１８ＢまたはＨＤＭＩ制御回路３に出力する。

無線ＬＡＮコントローラ１１４は、たとえばIEEE 802.11規格の無線通信を実行する無線通信デバイスである。IEEE 1394コントローラ１１５は、IEEE 1394規格のシリアルバスを介して外部機器との通信を実行する。

エンベデッドコントローラ／キーボードコントローラＩＣ（ＥＣ／ＫＢＣ）１１６は、電力管理のためのエンベデッドコントローラと、キーボード（ＫＢ）１３およびタッチパッド１６を制御するためのキーボードコントローラとが集積された１チップマイクロコンピュータである。このエンベデッドコントローラ／キーボードコントローラＩＣ（ＥＣ／ＫＢＣ）１１６は、ユーザによるパワーボタン１４の操作に応じて本コンピュータ１０をパワーオン／パワーオフする機能を有している。さらに、エンベデッドコントローラ／キーボードコントローラＩＣ（ＥＣ／ＫＢＣ）１１６は、リモコンユニットインタフェース２０との通信を実行する機能を有している。

ＴＶチューナ１１７はテレビジョン（ＴＶ）放送信号によって放送される放送番組データを受信する受信装置であり、アンテナ端子１９に接続されている。このＴＶチューナ１１７は、例えば、地上波デジタルＴＶ放送のようなデジタル放送番組データを受信可能なデジタルＴＶチューナとして実現されている。また、ＴＶチューナ１１７は、外部機器から入力されるビデオデータをキャプチャする機能も有している。

次に、図３を参照して、ＴＶアプリケーションプログラム２０２によって実行される顔画像一覧表示機能について説明する。

放送番組データのような映像コンテンツデータに対するインデキシング処理（映像インデキシング処理、および音声インデキシング処理等）は、上述したように、インデキシング処理部として機能するビデオプロセッサ１１３によって実行される。

ビデオプロセッサ１１３は、顔画像一覧表示処理部３０１を備えたＴＶアプリケーションプログラム２０２の制御の下、例えば、ユーザによって指定された録画済みの放送番組データ等の映像コンテンツデータに対してインデキシング処理を実行する。また、ビデオプロセッサ１１３は、ＴＶチューナ１１７によって受信された放送番組データをＨＤＤ１１１に格納する録画処理と並行して、当該放送番組データに対するインデキシング処理を実行することもできる。

映像インデキシング処理（顔画像インデキシング処理ともいう）においては、ビデオプロセッサ１１３は、映像コンテンツデータに含まれる動画像データをフレーム単位で解析する。そして、ビデオプロセッサ１１３は、動画像データを構成する複数のフレームそれぞれから人物の顔画像を抽出すると共に、抽出された各顔画像が映像コンテンツデータ内に登場する時点を示すタイムスタンプ情報を出力する。各顔画像に対応するタイムスタンプ情報としては、映像コンテンツデータの開始から当該顔画像が登場するまでの経過時間、または当該顔画像が抽出されたフレーム番号、等を使用することが出来る。

さらに、ビデオプロセッサ１１３は、抽出された各顔画像の特徴量（顔画像の主要パーツである、目、鼻、口等の大きさ、各パーツ同士の配置の間隔情報等）、さらに各顔画像のサイズ（解像度）も出力する。ビデオプロセッサ１１３から出力される顔検出結果データ（顔画像、タイムスタンプ情報ＴＳ、およびサイズ）は、データベース１１１Ａに顔画像インデキシング情報として格納される。このデータベース１１１Ａは、ＨＤＤ１１１内に用意されたインデキシングデータ記憶用の記憶領域である。

さらに、映像インデキシング処理においては、ビデオプロセッサ１１３は、顔画像を抽出する処理と並行して、サムネイル画像取得処理も実行する。サムネイル画像は、映像コンテンツデータから例えば等時間間隔で抽出された複数のフレームの各々に対応する画像（縮小画像）である。すなわち、ビデオプロセッサ１１３は、顔画像を含むフレームであるか否かに関係なく、映像コンテンツデータから例えば所定の等時間間隔でフレームを順次抽出し、抽出した各フレームに対応する画像（サムネイル画像）と、そのサムネイル画像が出現する時点を示すタイムスタンプ情報ＴＳとを出力する。ビデオプロセッサ１１３から出力されるサムネイル画像取得結果データ（サムネイル、タイムスタンプ情報ＴＳ）も、データベース１１１Ａにサムネイルインデキシング情報として格納される。

上述した特徴量は、図４に示されているように、例えば、抽出された各顔画像のファイルごとに、目の横幅、目の高さ、鼻の幅、鼻の長さ、口の横幅、口の高さ、目と目の間隔、目と鼻の距離、鼻と口の距離等のデータを検出する。例えば、抽出された「顔画像００００１」においては、目の横幅＝2.54ｃｍ、目の高さ＝1.22ｃｍ、鼻の幅＝1.54ｃｍ、鼻の長さ＝3.02ｃｍ、口の横幅＝5.24ｃｍ、口の高さ＝2.86ｃｍ、目と目の間隔＝4.59ｃｍ、目と鼻の距離＝3.87ｃｍ、鼻と口の距離＝2.35ｃｍとして検出して、ＨＤＤ１１１等の記憶装置に記憶する。以後、同様に、抽出された各顔画像のファイルについて特徴量を検出して、ＨＤＤ１１１等の記憶装置に記憶する。

尚、顔の特徴量としては、顔の各パーツ間の距離以外のデータを使用してもよい。例えば、顔の各パーツ間の距離間の比率等の情報を用いてもよい。このような距離感の比率を用いる場合には、同一人物の顔であるか否かは、該比率が一定誤差範囲内であるか否かに基づき判断することができる。

また、音声インデキシング処理においては、ビデオプロセッサ１１３は、映像コンテンツに含まれるオーディオデータを分析して、映像コンテンツデータ内に含まれる複数種の属性区間（ＣＭ区間、音楽区間、およびトーク区間）を検出し、検出された各属性区間の開始時点および終了時点を示す区間属性情報を出力する。この区間属性情報は、属性検出結果情報としてデータベース１１１Ａに格納される。さらに、音声インデキシング処理においては、ビデオプロセッサ１１３は、上述の歓声レベル検出処理および盛り上がりレベル検出処理も実行する。これら歓声レベル検出処理の結果および盛り上がりレベル検出処理の結果も、上述の属性検出結果情報の一部としてデータベース１１１Ａに格納される。

属性検出結果情報（区間属性情報）は、図５に示されているように、例えば、ＣＭ区間テーブル、音楽区間テーブル、トーク区間テーブル、および歓声／盛り上がりテーブルから構成されている。

ＣＭ区間テーブルは、検出されたＣＭ区間の開始時点および終了時点を示すＣＭ区間属性情報を格納する。映像コンテンツデータの開始位置から終端位置までのシーケンス内に複数のＣＭ区間が存在する場合には、それら複数のＣＭ区間それぞれに対応するＣＭ区間属性情報がＣＭ区間テーブルに格納される。ＣＭ区間テーブルにおいては、検出された各ＣＭ区間毎に当該ＣＭ区間の開始時点および終了時点をそれぞれ示すスタートタイム情報およびエンドタイム情報が格納される。

音楽区間テーブルは、検出された音楽区間の開始時点および終了時点を示す音楽区間属性情報を格納する。映像コンテンツデータの開始位置から終端位置までのシーケンス内に複数の音楽区間が存在する場合には、それら複数の音楽区間それぞれに対応する音楽区間属性情報が音楽区間テーブルに格納される。音楽区間テーブルにおいては、検出された各音楽区間毎に当該音楽区間の開始時点および終了時点をそれぞれ示すスタートタイム情報およびエンドタイム情報が格納される。

トーク区間テーブルは、検出されたトーク区間の開始時点および終了時点を示す音楽区間属性情報を格納する。映像コンテンツデータの開始位置から終端位置までのシーケンス内に複数のトーク区間が存在する場合には、それら複数のトーク区間それぞれに対応するトーク区間属性情報がトーク区間テーブルに格納される。トーク区間テーブルにおいては、検出された各トーク区間毎に当該トーク区間の開始時点および終了時点をそれぞれ示すスタートタイム情報およびエンドタイム情報が格納される。

歓声／盛り上がりテーブルは、映像コンテンツデータ内の一定時間長の部分データ（タイムセグメントＴ１，Ｔ２，Ｔ３，…）それぞれにおける歓声レベルおよび盛り上がりレベルを格納する。

図３に示されているように、ＴＶアプリケーションプログラム２０２は、顔画像一覧表示機能を実行するための顔画像一覧表示処理部３０１を含んでいる。この顔画像一覧表示処理部３０１は、例えば、インデキシングビューワプログラムとして実現されており、データベース１１１Ａに格納されたインデキシング情報（顔画像インデキシング情報、サムネイルインデキシング情報、区間属性情報、等）を用いて、映像コンテンツデータの概要を俯瞰するためのインデキシングビュー画面を表示する。

具体的には、顔画像一覧表示処理部３０１は、データベース１１１Ａから顔画像インデキシング情報（顔画像、タイムスタンプ情報ＴＳ、およびサイズ）を読み出し、そしてその顔画像インデキシング情報を用いて、映像コンテンツデータに登場する人物の顔画像の一覧を、インデキシングビュー画面上の２次元の表示エリア（以下、顔サムネイル表示エリアと称する）上に表示する。この場合、顔画像一覧表示処理部３０１は、映像コンテンツデータの総時間長を、例えば等間隔で、複数の時間帯に分割し、時間帯毎に、抽出された顔画像の内から当該時間帯に登場する顔画像を所定個選択する。そして、顔画像一覧表示処理部３０１は、時間帯毎に、選択した所定個の顔画像それぞれを並べて表示する。

すなわち、２次元の顔サムネイル表示エリアは、複数の行および複数の列を含むマトリクス状に配置された複数の顔画像表示エリアを含む。複数の列それぞれには、映像コンテンツデータの総時間長を構成する複数の時間帯が割り当てられている。具体的には、例えば、複数の列それぞれには、映像コンテンツデータの総時間長をこれら複数の列の数で等間隔に分割することによって得られる、互いに同一の時間長を有する複数の時間帯がそれぞれ割り当てられる。もちろん、各列に割り当てられる時間帯は必ずしも同一の時間長でなくてもよい。

顔画像一覧表示処理部３０１は、顔画像それぞれに対応するタイムスタンプ情報ＴＳに基づき、各列内に属する行数分の顔画像表示エリア上に、当該各列に割り当てられた時間帯に属する顔画像それぞれを、例えば、それら顔画像の出現頻度順（顔画像の検出時間長順）のような順序で並べて表示する。この場合、例えば、当該各列に割り当てられた時間帯に属する顔画像の内から、出現頻度（登場頻度）の高い順に顔画像が行数分だけ選択され、選択された顔画像が登場頻度順に上から下に向かって並んで配置される。もちろん、出現頻度順ではなく、各列に割り当てられた時間帯に出現する顔画像それぞれを、その出現順に並べて表示してもよい。

この顔画像一覧表示機能により、映像コンテンツデータ全体の中のどの時間帯にどの人物が登場するのかをユーザに分かりやすく提示することができる。

次に、図６を参照して、ＴＶアプリケーションプログラム２０２の機能構成を説明する。

ＴＶアプリケーションプログラム２０２は、上述の顔画像一覧表示処理部３０１に加え、記録処理部４０１、インデキシング制御部４０２、再生処理部４０３等を備えている。

顔画像一覧表示処理部３０１は、上述したように、映像コンテンツデータから複数の顔画像および、各顔画像の特徴量を抽出し、同一人物であるか否かの判別を行う。また、ユーザによって所定の顔画像が選択されると、選択された顔画像と同一人物であると判別された顔画像を他の顔画像と区別して強調表示する。また、選択された顔画像及び選択された顔画像の前後１つの計３つの顔画像に対応するじゃばら形式（後述）にサムネイル表示の３画像をフォーカス表示（後述）する。

記録処理部４０１は、ＴＶチューナ１１７によって受信された放送番組データ、または外部機器から入力されるビデオデータをＨＤＤ１１１に記録する記録処理を実行する。また、記録処理部４０１は、ユーザによって予め設定された録画予約情報（チャンネル番号、日時）によって指定される放送番組データをＴＶチューナ１１７を用いて受信し、その放送番組データをＨＤＤ１１１に記録する予約録画処理も実行する。

インデキシング制御部４０２は、ビデオプロセッサ（インデキシング処理部）１１３を制御して、インデキシング処理（映像インデキシング処理、音声インデキシング処理）をビデオプロセッサ１１３に実行させる。ユーザは、録画対象の放送番組データ毎にインデキシング処理を実行するか否かを指定することができる。例えば、インデキシング処理の実行が指示された録画対象の放送番組データについては、その放送番組データがＨＤＤ１１１に記録された後に、インデキシング処理が自動的に開始される。また、ユーザは、既にＨＤＤ１１１に格納されている映像コンテンツデータの内から、インデキシング処理を実行すべき映像コンテンツデータを指定することもできる。

再生処理部４０３は、ＨＤＤ１１１に格納されている各映像コンテンツデータを再生する処理を実行する。また、再生処理部４０３は、ある映像コンテンツデータの顔画像一覧の中の一つの顔画像が選択されている状態でユーザ操作によって再生指示イベントが入力された時、選択されている顔画像が登場する時点よりも所定時間前の時点から映像コンテンツデータの再生を開始する機能を有している。

ユーザは、１つの顔画像を選択的に指定することにより、特徴量により同一人物と判別された顔画像が区別して強調表示される。これらの強調表示された顔画像を含む表示の一覧およびじゃばら形式（後述）の表示を見ながら、映像コンテンツデータの再生位置を決定することができる。

なお、インデキシング処理は、必ずしもビデオプロセッサ１１３によって実行する必要はなく、例えば、ＴＶアプリケーションプログラム２０２にインデキシング処理を実行する機能を設けてもよい。この場合、インデキシング処理は、ＴＶアプリケーションプログラム２０２の制御の下に、ＣＰＵ１０１によって実行される。

次に、図７を参照して、インデキシングビュー画面の具体的な構成について説明する。

図７には、顔画像一覧表示処理部３０１によってＬＣＤ１７に表示されるインデキシングビュー画面の例が示されている。このインデキシングビュー画面は、ある映像コンテンツデータ（例えば放送番組データ）をインデキシング処理することによって得られた画面である。このインデキシングビュー画面には、顔画像の一覧を表示するための上述の顔サムネイル表示エリアと、上述のレベル表示エリアと、上述の区間バーと、サムネイル画像の一覧をじゃばら形式で表示するための上述のじゃばらサムネイル表示エリアとを含んでいる。

ここで、じゃばら形式とは、選択されているサムネイル画像を通常サイズ（フルサイズ）で表示し、他の各サムネイル画像についてはその横方向サイズを縮小して表示する表示形式である。図７においては、選択されたサムネイル画像５００との距離が大きいサムネイル画像ほど、その横方向サイズが縮小されている。

また、選択されたサムネイル画像５００と同一人物であると判別された顔画像は、その他の顔画像と区別するように強調表示される。例えば、該当の顔画像を太枠で囲むようにする。

レベル表示エリアにおいては、歓声レベルの変化を示すグラフが表示される。また、歓声レベルの上位３位までは、例えばレベル表示が濃い色で塗りつぶされる（図７：レベル表示７００、７０１、７０２参照）。

区間バーは、トーク区間バーと、音楽区間バーと、ＣＭ区間バーとを含んでいる。ＣＭ区間バーにおいては、各ＣＭ区間（各部分ＣＭ区間）の位置にバー領域（図７の黒色の帯状領域）が表示される。音楽区間バーにおいては、各音楽区間（各部分音楽区間）の位置にバー領域（図７のクロスハッチングされた帯状領域）が表示される。トーク区間バーにおいては、各トーク区間（各部分トーク区間）の位置にバー領域（図７のハッチングされた帯状領域）が表示される。ユーザは、リモコンユニットのボタン、上下左右等のカーソルキーの操作により、トーク区間バー、音楽区間バーと、ＣＭ区間バーのいずれか一つを選択することができる。また、ユーザは、リモコンユニットのボタン、上下左右等のカーソルキーの操作により、選択された区間バー内の一つのバー領域を選択することもできる。

次に、図８のフローチャートを参照して、顔画像一覧を表示する処理の手順を説明する。

コンピュータ１０のビデオプロセッサ１１３は、映像コンテンツデータから顔画像を抽出する。また、抽出された各顔画像から特徴量を抽出する（ステップＳ１０１）。抽出された複数の顔画像および特徴量は、ＨＤＤ１１１等に記憶する。

ビデオプロセッサ１１３は、抽出された複数の顔画像を図７に示すように、顔サムネイルとして表示する。ユーザによりある顔画像５００が選択されたと、ビデオプロセッサ１１３によって判別された場合は（ステップＳ１０２のＹＥＳ）、選択された顔画像５００（図７参照）の特徴量をＨＤＤ１１１から読み出し、選択された顔画像５００の特徴量と類似する特徴量をＨＤＤ１１１中から検索する（ステップＳ１０３）。例えば、図４に示したように、特徴量の各パラメータの誤差が０．０５以内である場合は同一人物と判別する。選択された顔画像５００と同一人物と判別された顔画像は、図７に示すように、その他の顔画像と区別するように強調表示される（同一人物の顔画像５０１〜５０６）。例えば、該当の顔画像を太枠で囲むようにする。さらに、強調表示された顔画像５０１〜５０６のうち、選択された顔画像５００および選択された顔画像５００の前後１つの顔画像５０１、５０２に対応するじゃばらサムネイル画像６００〜６０２（同一又は最も近接するタイムスタンプ情報を持つサムネイル画像であるものとする）をフォーカス表示する（図７参照）。また、これら３つのじゃばらサムネイル画像６００〜６０２以外のサムネイル画像はじゃばらサムネイル表示（圧縮して表示）している。さらに、強調表示された顔画像５０１〜５０６のうち、選択された顔画像５００および選択された顔画像５００の前後１つの顔画像５０１、５０２に対応しないサムネイル画像５０３〜５０６は、映像コンテンツデータの位置を示すマーキング表示（矢印Ａ、Ｂ：図７参照）をする。これにより、ユーザに、選択された顔画像５００および選択された顔画像５００の前後１つの顔画像５０１、５０２に対応しないサムネイル画像５０３〜５０６の存在を示すことができる（ステップＳ１０４）。また、同時に、映像コンテンツデータから抽出した歓声レベルによって、歓声レベルの上位３位までは、例えばレベル表示が濃い色で塗りつぶされる（図７：レベル表示７００、７０１、７０２参照）。なお、上述した内容では、選択された顔画像５００および選択された顔画像５００の前後１つの顔画像５０１、５０２に対応するじゃばらサムネイル画像６００〜６０２をフォーカス表示しているが、歓声レベルの上位３位の箇所に対応する３カ所のサムネイル画像（同一又は最も近接するタイムスタンプ情報を持つサムネイル画像であるものとする）をフォーカス表示するようにしてもよい。さらには、登場頻度の高い登場人物の上位３位の箇所に対応する３カ所のサムネイル画像をフォーカス表示するようにしてもよい。

ユーザによって、太枠で囲まれた顔画像のうち、１つが選択され、再生指示がされた場合は（ステップＳ１０５のＹＥＳ）、再生指示がされた顔画像に対応する位置から映像コンテンツデータを再生する（ステップＳ１０６）。なお、再生指示は、例えば、選択された顔画像をマウス等で右クリックしてメニューを表示させて、表示させたメニューから再生コマンドを選択する。また、選択された顔画像５００と同一人物と判別された顔画像をその他の顔画像と区別するように強調表示する場合、該当の顔画像を太枠で囲むようにする以外にも、その他の顔画像をグレーアウト（所定の領域にグレーのハッチングフィルターを被せて表示を見えにくくする）する等の処理を行ってもよい。

以上のように、本実施形態においては、映像コンテンツデータ全体を対象に顔画像の一覧を表示させ、映像コンテンツデータ全体の中の特定の人物に着目して顔画像の表示をその他の顔画像と区別するように強調表示し、そのうちの複数箇所をフォーカスして表示させ、所望の人物が登場する可能の映像コンテンツデータを容易に再生させることができる。また、映像コンテンツデータを再生する前に、映像コンテンツデータ全体の中のどの辺りの時間帯に所望の人物が登場するのかをユーザに提示できる。

なお、本実施形態では、インデキシング処理部として機能するビデオプロセッサ１１３によってインデキシング情報を生成したが、例えば、放送番組データ内に予め当該放送番組データに対応するインデキシング情報が含まれている場合には、インデキシング処理を行う必要はない。よって、本実施形態の顔画像一覧表示機能は、データベース１１１Ａと顔画像一覧表示処理部３０１のみによっても実現することが出来る。

また、本実施形態の顔画像一覧表示処理の手順は全てソフトウェアによって実現することができるので、このソフトウェアをコンピュータ読み取り可能な記憶媒体を通じて通常のコンピュータに導入することにより、本実施形態と同様の効果を容易に実現することができる。

また、本実施形態の電子機器はコンピュータ１０によって実現するのみならず、例えば、ＨＤＤレコーダ、ＤＶＤレコーダ、テレビジョン装置といった様々なコンシューマ電子機器によって実現することもできる。この場合、ＴＶアプリケーションプログラム２０２の機能は、ＤＳＰ（Digital Signal Processor）、マイクロコンピュータのようなハードウェアによって実現することができる。

また、本発明は、上記実施形態そのままに限定されるものではなく、実施段階ではその要旨を逸脱しない範囲で構成要素を変形して具体化できる。また、上記実施形態に開示されている複数の構成要素の適宜な組み合わせにより種々の発明を形成できる。例えば、実施形態に示される全構成要素から幾つかの構成要素を削除してもよい。更に、異なる実施形態に構成要素を適宜組み合わせてもよい。

本発明の一実施形態に係る情報処理装置の概観の例を示す斜視図。同実施形態の情報処理装置のシステム構成の例を示すブロック図。同実施形態の情報処理装置の顔画像一覧表示機能を説明するためのブロック図。同実施形態の情報処理装置で用いられる特徴量のパラメータの例を示す図。同実施形態の情報処理装置で用いられる区間属性情報（属性検出結果情報）の例を示す図。同実施形態の情報処理装置で用いられるプログラムの機能構成を示すブロック図。同実施形態の情報処理装置によって表示装置に表示されるインデキシングビュー画面の例を示す図。同実施形態の情報処理装置によって実行される顔画像一覧表示処理の手順の例を示すフローチャート。

符号の説明

１０…コンピュータ（情報処理装置）、１１１Ａ…データベース、１１３…ビデオプロセッサ、１１７…ＴＶチューナ、３０１…顔画像一覧表示処理部、４０２…インデキシング制御部、４０３…再生処理部。

Claims

映像コンテンツデータから複数の顔画像を抽出する顔画像抽出手段と、
前記複数の顔画像の一覧を第１の表示エリア上に表示するよう制御する顔画像一覧表示制御手段と、
映像コンテンツデータを所定の時間間隔で分割して得られる各区間の各々から少なくとも１フレームのサムネイル画像を抽出するサムネイル画像抽出手段と、
前記サムネイル画像抽出手段によって抽出された各サムネイル画像を、複数のサムネイル画像が通常サイズで表示され、その他のサムネイル画像が通常サイズよりも横方向サイズが縮小されて表示されるように、時系列順に並べて第２の表示エリア上に表示するよう制御するサムネイル画像一覧表示制御手段と、を備え、
前記サムネイル画像一覧表示制御手段が通常サイズとして表示する前記複数のサムネイル画像は、前記第１の表示エリア上に表示される顔画像の一覧のうち選択された顔画像と関連するサムネイル画像である情報処理装置。
前記第１の表示エリア上に表示されている前記複数の顔画像のうち、１つの顔画像が選択されると、前記選択された顔画像と前記第１の表示エリア上に表示されている前記複数の顔画像とを、前記抽出された特徴量情報に基づいて比較する比較手段と、
前記比較手段によって、前記第１の表示エリア上に表示されている前記複数の顔画像のうち、前記選択された顔画像と同一人物と判別された顔画像をその他の顔画像と区別して強調表示する強調表示手段と、をさらに備え、
前記顔画像抽出手段は、各顔画像と共に、該顔画像が映像コンテンツデータ内に登場する時点を示すタイムスタンプ情報を抽出し、
前記サムネイル画像抽出手段は、各サムネイル画像と共に、該サムネイル画像が映像コンテンツデータ内に登場するタイムスタンプ情報を抽出し、
前記サムネイル画像一覧表示制御手段が通常サイズとして表示する前記複数のサムネイル画像は、前記選択された顔画像及び前記強調表示手段が強調表示した顔画像と同一又は最も近接するタイムスタンプ情報を持つサムネイル画像である請求項１記載の情報処理装置。
前記サムネイル画像一覧表示制御手段が通常サイズとして表示する前記複数のサムネイル画像は、前記選択された顔画像、及び前記強調表示手段が強調表示した顔画像であって前記選択された顔画像の前後のタイムスタンプ情報を持つ顔画像と、同一又は最も近接するタイムスタンプ情報を持つ３つのサムネイル画像である請求項２記載の情報処理装置。
請求項３に記載の情報処理装置において、
前記強調表示手段が強調表示した顔画像と同一又は最も近接するタイムスタンプ情報を持つサムネイル画像であって、通常サイズよりも横方向が縮小されて表示されるサムネイル画像にマーキングする情報処理装置。
請求項１に記載の情報処理装置において、
前記比較手段により同一人物の登場回数をカウントし、前記登場回数が多い上位３位までの人物の顔画像と同一又は最も近接するタイムスタンプ情報を有する其々のサムネイル画像を、前記サムネイル画像一覧表示制御手段が通常サイズで表示する情報処理装置。
映像コンテンツデータの音声データから歓声レベルを時系列に検出する検出手段と、
映像コンテンツデータを所定の時間間隔で分割して得られる各区間の各々から少なくとも１つのフレームのサムネイル画像を抽出するサムネイル画像抽出手段と、
前記画像抽出手段によって抽出された各サムネイル画像を、複数のサムネイル画像が通常サイズで表示され、その他のサムネイル画像が通常サイズよりも横方向サイズが縮小されて表示されるように、時系列に並べて表示エリア上に表示するよう制御するサムネイル画像一覧表示制御手段と、を備え、
前記サムネイル画像一覧表示制御手段が通常サイズで表示する前記複数のサムネイル画像は、前記検出手段で検出した歓声レベルに応じて抽出された複数のサムネイル画像である情報処理装置。
前記サムネイル画像抽出手段は、各サムネイル画像と共に、該サムネイル画像が映像コンテンツデータ内に登場するタイムスタンプ情報を抽出し、
前記サムネイル画像一覧表示制御手段が通常サイズとして表示する前記複数のサムネイル画像は、前記検出手段で検出した歓声レベルの上位複数地点と同一又は最も近接するタイムスタンプ情報を持つサムネイル画像である請求項６記載の情報処理装置。
映像コンテンツデータから複数の顔画像を抽出し、
前記複数の顔画像の一覧を第１の表示エリア上に表示するよう制御し、
映像コンテンツデータを所定の時間間隔で分割して得られる各区間の各々から少なくとも１フレームのサムネイル画像を抽出し、
前記サムネイル画像を抽出することによって抽出された各サムネイル画像を、複数のサムネイル画像が通常サイズで表示され、その他のサムネイル画像が通常サイズよりも横方向サイズが縮小されて表示されるように、時系列順に並べて第２の表示エリア上に表示するよう制御する表示制御方法であって、
前記制御することが通常サイズとして表示する前記複数のサムネイル画像は、前記第１の表示エリア上に表示される顔画像の一覧のうち選択された顔画像と関連するサムネイル画像である表示制御方法。
映像コンテンツデータの音声データから歓声レベルを時系列に検出し、
映像コンテンツデータを所定の時間間隔で分割して得られる各区間の各々から少なくとも１つのフレームのサムネイル画像を抽出し、
前記抽出する手順によって抽出された各サムネイル画像を、複数のサムネイル画像が通常サイズで表示され、その他のサムネイル画像が通常サイズよりも横方向サイズが縮小されて表示されるように、時系列に並べて表示エリア上に表示するよう制御する表示制御方法であって、
前記制御することが通常サイズで表示する前記複数のサムネイル画像は、前記検出することで検出した歓声レベルに応じて抽出された複数のサムネイル画像である表示制御方法。
映像コンテンツデータから複数の顔画像を抽出する手順と、
前記複数の顔画像の一覧を第１の表示エリア上に表示するよう制御する手順と、
映像コンテンツデータを所定の時間間隔で分割して得られる各区間の各々から少なくとも１フレームのサムネイル画像を抽出する手順と、
前記サムネイル画像を抽出する手順によって抽出された各サムネイル画像を、複数のサムネイル画像が通常サイズで表示され、その他のサムネイル画像が通常サイズよりも横方向サイズが縮小されて表示されるように、時系列順に並べて第２の表示エリア上に表示するよう制御する手順とをコンピュータに実行させるプログラムであって、
前記制御する手順が通常サイズとして表示する前記複数のサムネイル画像は、前記第１の表示エリア上に表示される顔画像の一覧のうち選択された顔画像と関連するサムネイル画像であるプログラム。
映像コンテンツデータの音声データから歓声レベルを時系列に検出する手順と、
映像コンテンツデータを所定の時間間隔で分割して得られる各区間の各々から少なくとも１つのフレームのサムネイル画像を抽出する手順と、
前記抽出する手順によって抽出された各サムネイル画像を、複数のサムネイル画像が通常サイズで表示され、その他のサムネイル画像が通常サイズよりも横方向サイズが縮小されて表示されるように、時系列に並べて表示エリア上に表示するよう制御する手順とをコンピュータに実行させるプログラムであって、
前記制御する手順が通常サイズで表示する前記複数のサムネイル画像は、前記検出する手順で検出した歓声レベルに応じて抽出された複数のサムネイル画像であるプログラム。