JP5038836B2 - 情報処理装置 - Google Patents

情報処理装置 Download PDF

Info

Publication number
JP5038836B2
JP5038836B2 JP2007255030A JP2007255030A JP5038836B2 JP 5038836 B2 JP5038836 B2 JP 5038836B2 JP 2007255030 A JP2007255030 A JP 2007255030A JP 2007255030 A JP2007255030 A JP 2007255030A JP 5038836 B2 JP5038836 B2 JP 5038836B2
Authority
JP
Japan
Prior art keywords
thumbnail
displayed
images
image
face
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2007255030A
Other languages
English (en)
Other versions
JP2009088905A (ja
Inventor
秀年 横井
謙一 田部
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Original Assignee
Toshiba Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp filed Critical Toshiba Corp
Priority to JP2007255030A priority Critical patent/JP5038836B2/ja
Publication of JP2009088905A publication Critical patent/JP2009088905A/ja
Application granted granted Critical
Publication of JP5038836B2 publication Critical patent/JP5038836B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Description

本発明は映像コンテンツデータに登場するサムネイル画像を表示する情報処理装置に関する。
一般に、ビデオレコーダ、パーソナルコンピュータといった情報処理装置は、テレビジョン放送番組データのような各種映像コンテンツデータを記録および再生することが可能である。この場合、情報処理装置に格納された各映像コンテンツデータにはタイトル名が付加されるが、タイトル名だけでは、ユーザが、各映像コンテンツデータがどのような内容のものであるかを把握することは困難である。このため、映像コンテンツデータの内容を把握するためには、その映像コンテンツデータを再生することが必要となる。しかし、総時間長の長い映像コンテンツデータの再生には、たとえ早送り再生機能等を用いた場合であっても、多くの時間が要される。
特許文献1には、映像コンテンツデータの内容を複数の静止画にして表示する機能を有する技術が開示されている。
特開2006−113714号公報
しかし、特許文献1の技術であると、映像コンテンツデータの内容を複数のサムネイル画像にして表示する場合、フォーカスする場所は1カ所のみ可能となる。
本発明は上述の事情を考慮してなされたものであり、映像コンテンツデータの内容を複数のサムネイル画像にして表示する場合、複数箇所をフォーカスすることができる情報処理装置を提供することを目的とする。
上述の課題を解決するため、本発明の一態様によれば、映像コンテンツデータから複数の顔画像を抽出する顔画像抽出手段と、前記複数の顔画像の一覧を第1の表示エリア上に表示するよう制御する顔画像一覧表示制御手段と、映像コンテンツデータを所定の時間間隔で分割して得られる各区間の各々から少なくとも1フレームのサムネイル画像を抽出するサムネイル画像抽出手段と、前記画像抽出手段によって抽出された各サムネイル画像を、複数のサムネイル画像が通常サイズで表示され、その他のサムネイル画像が通常サイズよりも横方向サイズが縮小されて表示されるように、時系列順に並べて第2の表示エリア上に表示するよう制御するサムネイル画像一覧表示制御手段と、を備え、前記サムネイル画像一覧表示制御手段が通常サイズとして表示する前記複数のサムネイル画像は、前記第1の表示エリア上に表示される顔画像の一覧のうち選択された顔画像と関連するサムネイル画像である情報処理装置が提供される。
また、映像コンテンツデータの音声データから歓声レベルを時系列に検出する検出手段と、映像コンテンツデータを所定の時間間隔で分割して得られる各区間の各々から少なくとも1つのフレームのサムネイル画像を抽出するサムネイル画像抽出手段と、前記画像抽出手段によって抽出された各サムネイル画像を、複数のサムネイル画像が通常サイズで表示され、その他のサムネイル画像が通常サイズよりも横方向サイズが縮小されて表示されるように、時系列に並べて表示エリア上に表示するよう制御するサムネイル画像一覧表示制御手段と、を備え、前記サムネイル画像一覧表示制御手段が通常サイズで表示する前記複数のサムネイル画像は、前記検出手段で検出した歓声レベルに応じて抽出された複数のサムネイル画像である情報処理装置が提供される。
本発明によれば、映像コンテンツデータの内容を複数のサムネイル画像にして表示する場合、複数箇所をフォーカスすることができる。
以下、図面を参照して、本発明の実施形態を説明する。
まず、図1および図2を参照して、本発明の一実施形態に係る情報処理装置の構成を説明する。本実施形態の情報処理装置は、例えば、ノートブック型の携帯型パーソナルコンピュータ10から実現されている。
このパーソナルコンピュータ10は、放送番組データ、外部機器から入力されるビデオデータといった、映像コンテンツデータ(オーディオビジュアルコンテンツデータ)を記録および再生することができる。即ち、パーソナルコンピュータ10は、テレビジョン放送信号によって放送される放送番組データの視聴および録画を実行するためのテレビジョン(TV)機能を有している。このTV機能は、例えば、パーソナルコンピュータ10に予めインストールされているTVアプリケーションプログラムによって実現されている。また、TV機能は、外部のAV機器から入力されるビデオデータを記録する機能、および記録されたビデオデータおよび記録された放送番組データを再生する機能も有している。
さらに、パーソナルコンピュータ10は、パーソナルコンピュータ10に格納されたビデオデータ、放送番組データのような映像コンテンツデータに登場する人物の顔画像の一覧等を表示する顔画像一覧表示機能を有している。この顔画像一覧表示機能は、例えば、TV機能内にその一機能として実装されている。顔画像一覧表示機能は、映像コンテンツデータの概要等をユーザに提示するための映像インデキシング機能の一つである。この顔画像一覧表示機能は、映像コンテンツデータ全体の中のどの時間帯にどの人物が登場するのかをユーザに提示することができる。また、この顔画像一覧表示機能は、映像コンテンツデータの映像インデキシングを行う際に、人物の顔画像から特徴量を算出し、同一人物であるか否かの判別を行い、同一人物の顔画像を他の顔画像と区別(強調)して表示することもできる。
更にパーソナルコンピュータ10は、等時間間隔で分割して得られる各区間の各々から少なくとも1フレームのサムネイル画像を抽出してこれらのサムネイル画像をじゃばら状に表示する機能を有する。じゃばら状の表示とは、少なくとも1枚のサムネイル画像を通常サイズで、それ以外のサムネイル画像を通常サイズ以下の横幅サイズとなるようにする表示方法であり、通常サイズで表示されるサムネイル画像から時間的に離れるほど、横幅サイズが縮小して表示される。本実施例のパーソナルコンピュータ10では、この通常サイズで表示されるサムネイル画像を複数とすることが可能である。
図1はコンピュータ10のディスプレイユニットを開いた状態における斜視図である。本コンピュータ10は、コンピュータ本体11と、ディスプレイユニット12とから構成されている。ディスプレイユニット12には、TFT−LCD(Thin Film Transistor Liquid Crystal Display)17から構成される表示装置が組み込まれている。
ディスプレイユニット12は、コンピュータ本体11に対し、コンピュータ本体11の上面が露出される開放位置とコンピュータ本体11の上面を覆う閉塞位置との間を回動自在に取り付けられている。コンピュータ本体11は薄い箱形の筐体を有しており、その上面にはキーボード13、本コンピュータ10をパワーオン/パワーオフするためのパワーボタン14、入力操作パネル15、タッチパッド16、およびスピーカ18A,18Bなどが配置されている。
入力操作パネル15は、押されたボタンに対応するイベントを入力する入力装置であり、複数の機能をそれぞれ起動するための複数のボタンを備えている。これらボタン群には、TV機能(視聴、録画、録画された放送番組データ/ビデオデータの再生)を制御するための操作ボタン群も含まれている。また、コンピュータ本体11の正面には、本コンピュータ10のTV機能をリモート制御するリモコンユニットとの通信を実行するためのリモコンユニットインタフェース部20が設けられている。リモコンユニットインタフェース部20は、赤外線信号受信部などから構成されている。
コンピュータ本体11の例えば右側面には、TV放送用のアンテナ端子19が設けられている。また、コンピュータ本体11の例えば背面には、例えばHDMI(high-definition multimedia interface)規格に対応した外部ディスプレイ接続端子が設けられている。この外部ディスプレイ接続端子は、放送番組データのような映像コンテンツデータに含まれる映像データ(動画像データ)を外部ディスプレイに出力するために用いられる。
次に、図2を参照して、本コンピュータ10のシステム構成について説明する。
本コンピュータ10は、図2に示されているように、CPU101、ノースブリッジ102、主メモリ103、サウスブリッジ104、グラフィクスプロセッシングユニット(GPU)105、ビデオメモリ(VRAM)105A、サウンドコントローラ106、BIOS−ROM109、LANコントローラ110、ハードディスクドライブ(HDD)111、DVDドライブ112、ビデオプロセッサ113、メモリ113A、カードコントローラ113、無線LANコントローラ114、IEEE 1394コントローラ115、エンベデッドコントローラ/キーボードコントローラIC(EC/KBC)116、TVチューナ117、およびEEPROM118等を備えている。
CPU101は本コンピュータ10の動作を制御するプロセッサであり、ハードディスクドライブ(HDD)111から主メモリ103にロードされる、オペレーティングシステム(OS)201、およびTVアプリケーションプログラム202のような各種アプリケーションプログラムを実行する。TVアプリケーションプログラム202はTV機能を実行するためのソフトウェアである。このTVアプリケーションプログラム202は、TVチューナ117によって受信された放送番組データを視聴するためのライブ再生処理、受信された放送番組データをHDD111に記録する録画処理、およびHDD111に記録された放送番組データ/ビデオデータを再生する再生処理等を実行する。また、CPU101は、BIOS−ROM109に格納されたBIOS(Basic Input Output System)も実行する。BIOSはハードウェア制御のためのプログラムである。
ノースブリッジ102はCPU101のローカルバスとサウスブリッジ104との間を接続するブリッジデバイスである。ノースブリッジ102には、主メモリ103をアクセス制御するメモリコントローラも内蔵されている。また、ノースブリッジ102は、PCI EXPRESS規格のシリアルバスなどを介してGPU105との通信を実行する機能も有している。
GPU105は、本コンピュータ10のディスプレイモニタとして使用されるLCD17を制御する表示コントローラである。このGPU105によって生成される表示信号はLCD17に送られる。また、GPU105は、HDMI制御回路3およびHDMI端子2を介して、外部ディスプレイ装置1にデジタル映像信号を送出することもできる。
HDMI端子2は上述の外部ディスプレイ接続端子である。HDMI端子2は、非圧縮のデジタル映像信号と、デジタルオーディオ信号とを一本のケーブルでテレビのような外部ディスプレイ装置1に送出することができる。HDMI制御回路3は、HDMIモニタと称される外部ディスプレイ装置1にデジタル映像信号をHDMI端子2を介して送出するためのインタフェースである。
サウスブリッジ104は、LPC(Low Pin Count)バス上の各デバイス、およびPCI(Peripheral Component Interconnect)バス上の各デバイスを制御する。また、サウスブリッジ104は、ハードディスクドライブ(HDD)111およびDVDドライブ112を制御するためのIDE(Integrated Drive Electronics)コントローラを内蔵している。さらに、サウスブリッジ104は、サウンドコントローラ106との通信を実行する機能も有している。
またさらに、サウスブリッジ104には、PCI EXPRESS規格のシリアルバスなどを介してビデオプロセッサ113が接続されている。
ビデオプロセッサ113は、前述の映像インデキシングに関する各種処理を実行するプロセッサである。このビデオプロセッサ113は、映像インデキシング処理を実行するためのインデキシング処理部として機能する。すなわち、映像インデキシング処理においては、ビデオプロセッサ113は、映像コンテンツデータに含まれる動画像データから複数の顔画像および顔画像の特徴量情報を抽出すると共に、抽出された各顔画像が映像コンテンツデータ内に登場する時点を示すタイムスタンプ情報、等を出力する。顔画像の抽出は、例えば、動画像データの各フレームから顔領域を検出する顔検出処理、検出された顔領域をフレームから切り出す切り出し処理等によって実行される。顔領域の検出は、例えば、各フレームの画像の特徴を解析して、予め用意された顔画像特徴サンプルと類似する特徴を有する領域を探索することによって行うことができる。顔画像特徴サンプルは、多数の人物それぞれの顔画像特徴を統計的に処理することによって得られた特徴データである。また、顔画像からの特徴量情報の抽出は、例えば、目、鼻、口等の顔の各パーツの大きさやパーツ同士の配置等を数値化したデータとして抽出する。そして、各特徴量情報同士を比較して類似度を求めることにより、同一人物であるか否かを判別する。
さらに、ビデオプロセッサ113は、例えば、映像コンテンツデータ内に含まれるコマーシャル(CM)区間を検出する処理、および音声インデキシング処理も実行する。通常、各CM区間の時間長は、予め決められた幾つかの時間長の内の1つに設定されている。
次に、音声インデキシング処理は、映像コンテンツデータ内に含まれるオーディオデータを分析して、映像コンテンツデータ内に含まれる、音楽が流れている音楽区間、および人物によるトークが行われているトーク区間を検出するインデキシング処理である。音声インデキシング処理は、映像コンテンツデータ内の各部分データ(一定時間長のデータ)毎に歓声レベルを検出する歓声レベル検出処理、および映像コンテンツデータ内の各部分データ毎に盛り上がりレベルを検出する盛り上がりレベル検出処理を実行する。
歓声レベルは、歓声の大きさを示す。歓声は、大勢の人の声が合わさった音である。大勢の人の声が合わさった音は、ある特定の周波数スペクトルの分布を有する。歓声レベル検出処理においては、映像コンテンツデータに含まれるオーディオデータの周波数スペクトルが分析され、そしてその周波数スペクトルの分析結果に従って、各部分データの歓声レベルが検出される。盛り上がりレベルは、ある一定以上の音量レベルがある一定時間長以上連続的に発生する区間の音量レベルである。例えば、比較的盛大な拍手、大きな笑い声のような音の音量レベルが、盛り上がりレベルである。盛り上がりレベル検出処理においては、映像コンテンツデータに含まれるオーディオデータの音量の分布が分析され、その分析結果に従って、各部分データの盛り上がりレベルが検出される。
メモリ113Aは、ビデオプロセッサ113の作業メモリとして用いられる。インデキシング処理(CM検出処理、映像インデキシング処理、および音声インデキシング処理)を実行するためには多くの演算量が必要とされる。本実施形態においては、CPU101とは異なる専用のプロセッサであるビデオプロセッサ113がバックエンドプロセッサとして使用され、このビデオプロセッサ113によってインデキシング処理が実行される。よって、CPU101の負荷の増加を招くことなく、インデキシング処理を実行することが出来る。
サウンドコントローラ106は音源デバイスであり、再生対象のオーディオデータをスピーカ18A,18BまたはHDMI制御回路3に出力する。
無線LANコントローラ114は、たとえばIEEE 802.11規格の無線通信を実行する無線通信デバイスである。IEEE 1394コントローラ115は、IEEE 1394規格のシリアルバスを介して外部機器との通信を実行する。
エンベデッドコントローラ/キーボードコントローラIC(EC/KBC)116は、電力管理のためのエンベデッドコントローラと、キーボード(KB)13およびタッチパッド16を制御するためのキーボードコントローラとが集積された1チップマイクロコンピュータである。このエンベデッドコントローラ/キーボードコントローラIC(EC/KBC)116は、ユーザによるパワーボタン14の操作に応じて本コンピュータ10をパワーオン/パワーオフする機能を有している。さらに、エンベデッドコントローラ/キーボードコントローラIC(EC/KBC)116は、リモコンユニットインタフェース20との通信を実行する機能を有している。
TVチューナ117はテレビジョン(TV)放送信号によって放送される放送番組データを受信する受信装置であり、アンテナ端子19に接続されている。このTVチューナ117は、例えば、地上波デジタルTV放送のようなデジタル放送番組データを受信可能なデジタルTVチューナとして実現されている。また、TVチューナ117は、外部機器から入力されるビデオデータをキャプチャする機能も有している。
次に、図3を参照して、TVアプリケーションプログラム202によって実行される顔画像一覧表示機能について説明する。
放送番組データのような映像コンテンツデータに対するインデキシング処理(映像インデキシング処理、および音声インデキシング処理等)は、上述したように、インデキシング処理部として機能するビデオプロセッサ113によって実行される。
ビデオプロセッサ113は、顔画像一覧表示処理部301を備えたTVアプリケーションプログラム202の制御の下、例えば、ユーザによって指定された録画済みの放送番組データ等の映像コンテンツデータに対してインデキシング処理を実行する。また、ビデオプロセッサ113は、TVチューナ117によって受信された放送番組データをHDD111に格納する録画処理と並行して、当該放送番組データに対するインデキシング処理を実行することもできる。
映像インデキシング処理(顔画像インデキシング処理ともいう)においては、ビデオプロセッサ113は、映像コンテンツデータに含まれる動画像データをフレーム単位で解析する。そして、ビデオプロセッサ113は、動画像データを構成する複数のフレームそれぞれから人物の顔画像を抽出すると共に、抽出された各顔画像が映像コンテンツデータ内に登場する時点を示すタイムスタンプ情報を出力する。各顔画像に対応するタイムスタンプ情報としては、映像コンテンツデータの開始から当該顔画像が登場するまでの経過時間、または当該顔画像が抽出されたフレーム番号、等を使用することが出来る。
さらに、ビデオプロセッサ113は、抽出された各顔画像の特徴量(顔画像の主要パーツである、目、鼻、口等の大きさ、各パーツ同士の配置の間隔情報等)、さらに各顔画像のサイズ(解像度)も出力する。ビデオプロセッサ113から出力される顔検出結果データ(顔画像、タイムスタンプ情報TS、およびサイズ)は、データベース111Aに顔画像インデキシング情報として格納される。このデータベース111Aは、HDD111内に用意されたインデキシングデータ記憶用の記憶領域である。
さらに、映像インデキシング処理においては、ビデオプロセッサ113は、顔画像を抽出する処理と並行して、サムネイル画像取得処理も実行する。サムネイル画像は、映像コンテンツデータから例えば等時間間隔で抽出された複数のフレームの各々に対応する画像(縮小画像)である。すなわち、ビデオプロセッサ113は、顔画像を含むフレームであるか否かに関係なく、映像コンテンツデータから例えば所定の等時間間隔でフレームを順次抽出し、抽出した各フレームに対応する画像(サムネイル画像)と、そのサムネイル画像が出現する時点を示すタイムスタンプ情報TSとを出力する。ビデオプロセッサ113から出力されるサムネイル画像取得結果データ(サムネイル、タイムスタンプ情報TS)も、データベース111Aにサムネイルインデキシング情報として格納される。
上述した特徴量は、図4に示されているように、例えば、抽出された各顔画像のファイルごとに、目の横幅、目の高さ、鼻の幅、鼻の長さ、口の横幅、口の高さ、目と目の間隔、目と鼻の距離、鼻と口の距離等のデータを検出する。例えば、抽出された「顔画像00001」においては、目の横幅=2.54cm、目の高さ=1.22cm、鼻の幅=1.54cm、鼻の長さ=3.02cm、口の横幅=5.24cm、口の高さ=2.86cm、目と目の間隔=4.59cm、目と鼻の距離=3.87cm、鼻と口の距離=2.35cmとして検出して、HDD111等の記憶装置に記憶する。以後、同様に、抽出された各顔画像のファイルについて特徴量を検出して、HDD111等の記憶装置に記憶する。
尚、顔の特徴量としては、顔の各パーツ間の距離以外のデータを使用してもよい。例えば、顔の各パーツ間の距離間の比率等の情報を用いてもよい。このような距離感の比率を用いる場合には、同一人物の顔であるか否かは、該比率が一定誤差範囲内であるか否かに基づき判断することができる。
また、音声インデキシング処理においては、ビデオプロセッサ113は、映像コンテンツに含まれるオーディオデータを分析して、映像コンテンツデータ内に含まれる複数種の属性区間(CM区間、音楽区間、およびトーク区間)を検出し、検出された各属性区間の開始時点および終了時点を示す区間属性情報を出力する。この区間属性情報は、属性検出結果情報としてデータベース111Aに格納される。さらに、音声インデキシング処理においては、ビデオプロセッサ113は、上述の歓声レベル検出処理および盛り上がりレベル検出処理も実行する。これら歓声レベル検出処理の結果および盛り上がりレベル検出処理の結果も、上述の属性検出結果情報の一部としてデータベース111Aに格納される。
属性検出結果情報(区間属性情報)は、図5に示されているように、例えば、CM区間テーブル、音楽区間テーブル、トーク区間テーブル、および歓声/盛り上がりテーブルから構成されている。
CM区間テーブルは、検出されたCM区間の開始時点および終了時点を示すCM区間属性情報を格納する。映像コンテンツデータの開始位置から終端位置までのシーケンス内に複数のCM区間が存在する場合には、それら複数のCM区間それぞれに対応するCM区間属性情報がCM区間テーブルに格納される。CM区間テーブルにおいては、検出された各CM区間毎に当該CM区間の開始時点および終了時点をそれぞれ示すスタートタイム情報およびエンドタイム情報が格納される。
音楽区間テーブルは、検出された音楽区間の開始時点および終了時点を示す音楽区間属性情報を格納する。映像コンテンツデータの開始位置から終端位置までのシーケンス内に複数の音楽区間が存在する場合には、それら複数の音楽区間それぞれに対応する音楽区間属性情報が音楽区間テーブルに格納される。音楽区間テーブルにおいては、検出された各音楽区間毎に当該音楽区間の開始時点および終了時点をそれぞれ示すスタートタイム情報およびエンドタイム情報が格納される。
トーク区間テーブルは、検出されたトーク区間の開始時点および終了時点を示す音楽区間属性情報を格納する。映像コンテンツデータの開始位置から終端位置までのシーケンス内に複数のトーク区間が存在する場合には、それら複数のトーク区間それぞれに対応するトーク区間属性情報がトーク区間テーブルに格納される。トーク区間テーブルにおいては、検出された各トーク区間毎に当該トーク区間の開始時点および終了時点をそれぞれ示すスタートタイム情報およびエンドタイム情報が格納される。
歓声/盛り上がりテーブルは、映像コンテンツデータ内の一定時間長の部分データ(タイムセグメントT1,T2,T3,…)それぞれにおける歓声レベルおよび盛り上がりレベルを格納する。
図3に示されているように、TVアプリケーションプログラム202は、顔画像一覧表示機能を実行するための顔画像一覧表示処理部301を含んでいる。この顔画像一覧表示処理部301は、例えば、インデキシングビューワプログラムとして実現されており、データベース111Aに格納されたインデキシング情報(顔画像インデキシング情報、サムネイルインデキシング情報、区間属性情報、等)を用いて、映像コンテンツデータの概要を俯瞰するためのインデキシングビュー画面を表示する。
具体的には、顔画像一覧表示処理部301は、データベース111Aから顔画像インデキシング情報(顔画像、タイムスタンプ情報TS、およびサイズ)を読み出し、そしてその顔画像インデキシング情報を用いて、映像コンテンツデータに登場する人物の顔画像の一覧を、インデキシングビュー画面上の2次元の表示エリア(以下、顔サムネイル表示エリアと称する)上に表示する。この場合、顔画像一覧表示処理部301は、映像コンテンツデータの総時間長を、例えば等間隔で、複数の時間帯に分割し、時間帯毎に、抽出された顔画像の内から当該時間帯に登場する顔画像を所定個選択する。そして、顔画像一覧表示処理部301は、時間帯毎に、選択した所定個の顔画像それぞれを並べて表示する。
すなわち、2次元の顔サムネイル表示エリアは、複数の行および複数の列を含むマトリクス状に配置された複数の顔画像表示エリアを含む。複数の列それぞれには、映像コンテンツデータの総時間長を構成する複数の時間帯が割り当てられている。具体的には、例えば、複数の列それぞれには、映像コンテンツデータの総時間長をこれら複数の列の数で等間隔に分割することによって得られる、互いに同一の時間長を有する複数の時間帯がそれぞれ割り当てられる。もちろん、各列に割り当てられる時間帯は必ずしも同一の時間長でなくてもよい。
顔画像一覧表示処理部301は、顔画像それぞれに対応するタイムスタンプ情報TSに基づき、各列内に属する行数分の顔画像表示エリア上に、当該各列に割り当てられた時間帯に属する顔画像それぞれを、例えば、それら顔画像の出現頻度順(顔画像の検出時間長順)のような順序で並べて表示する。この場合、例えば、当該各列に割り当てられた時間帯に属する顔画像の内から、出現頻度(登場頻度)の高い順に顔画像が行数分だけ選択され、選択された顔画像が登場頻度順に上から下に向かって並んで配置される。もちろん、出現頻度順ではなく、各列に割り当てられた時間帯に出現する顔画像それぞれを、その出現順に並べて表示してもよい。
この顔画像一覧表示機能により、映像コンテンツデータ全体の中のどの時間帯にどの人物が登場するのかをユーザに分かりやすく提示することができる。
次に、図6を参照して、TVアプリケーションプログラム202の機能構成を説明する。
TVアプリケーションプログラム202は、上述の顔画像一覧表示処理部301に加え、記録処理部401、インデキシング制御部402、再生処理部403等を備えている。
顔画像一覧表示処理部301は、上述したように、映像コンテンツデータから複数の顔画像および、各顔画像の特徴量を抽出し、同一人物であるか否かの判別を行う。また、ユーザによって所定の顔画像が選択されると、選択された顔画像と同一人物であると判別された顔画像を他の顔画像と区別して強調表示する。また、選択された顔画像及び選択された顔画像の前後1つの計3つの顔画像に対応するじゃばら形式(後述)にサムネイル表示の3画像をフォーカス表示(後述)する。
記録処理部401は、TVチューナ117によって受信された放送番組データ、または外部機器から入力されるビデオデータをHDD111に記録する記録処理を実行する。また、記録処理部401は、ユーザによって予め設定された録画予約情報(チャンネル番号、日時)によって指定される放送番組データをTVチューナ117を用いて受信し、その放送番組データをHDD111に記録する予約録画処理も実行する。
インデキシング制御部402は、ビデオプロセッサ(インデキシング処理部)113を制御して、インデキシング処理(映像インデキシング処理、音声インデキシング処理)をビデオプロセッサ113に実行させる。ユーザは、録画対象の放送番組データ毎にインデキシング処理を実行するか否かを指定することができる。例えば、インデキシング処理の実行が指示された録画対象の放送番組データについては、その放送番組データがHDD111に記録された後に、インデキシング処理が自動的に開始される。また、ユーザは、既にHDD111に格納されている映像コンテンツデータの内から、インデキシング処理を実行すべき映像コンテンツデータを指定することもできる。
再生処理部403は、HDD111に格納されている各映像コンテンツデータを再生する処理を実行する。また、再生処理部403は、ある映像コンテンツデータの顔画像一覧の中の一つの顔画像が選択されている状態でユーザ操作によって再生指示イベントが入力された時、選択されている顔画像が登場する時点よりも所定時間前の時点から映像コンテンツデータの再生を開始する機能を有している。
ユーザは、1つの顔画像を選択的に指定することにより、特徴量により同一人物と判別された顔画像が区別して強調表示される。これらの強調表示された顔画像を含む表示の一覧およびじゃばら形式(後述)の表示を見ながら、映像コンテンツデータの再生位置を決定することができる。
なお、インデキシング処理は、必ずしもビデオプロセッサ113によって実行する必要はなく、例えば、TVアプリケーションプログラム202にインデキシング処理を実行する機能を設けてもよい。この場合、インデキシング処理は、TVアプリケーションプログラム202の制御の下に、CPU101によって実行される。
次に、図7を参照して、インデキシングビュー画面の具体的な構成について説明する。
図7には、顔画像一覧表示処理部301によってLCD17に表示されるインデキシングビュー画面の例が示されている。このインデキシングビュー画面は、ある映像コンテンツデータ(例えば放送番組データ)をインデキシング処理することによって得られた画面である。このインデキシングビュー画面には、顔画像の一覧を表示するための上述の顔サムネイル表示エリアと、上述のレベル表示エリアと、上述の区間バーと、サムネイル画像の一覧をじゃばら形式で表示するための上述のじゃばらサムネイル表示エリアとを含んでいる。
ここで、じゃばら形式とは、選択されているサムネイル画像を通常サイズ(フルサイズ)で表示し、他の各サムネイル画像についてはその横方向サイズを縮小して表示する表示形式である。図7においては、選択されたサムネイル画像500との距離が大きいサムネイル画像ほど、その横方向サイズが縮小されている。
また、選択されたサムネイル画像500と同一人物であると判別された顔画像は、その他の顔画像と区別するように強調表示される。例えば、該当の顔画像を太枠で囲むようにする。
レベル表示エリアにおいては、歓声レベルの変化を示すグラフが表示される。また、歓声レベルの上位3位までは、例えばレベル表示が濃い色で塗りつぶされる(図7:レベル表示700、701、702参照)。
区間バーは、トーク区間バーと、音楽区間バーと、CM区間バーとを含んでいる。CM区間バーにおいては、各CM区間(各部分CM区間)の位置にバー領域(図7の黒色の帯状領域)が表示される。音楽区間バーにおいては、各音楽区間(各部分音楽区間)の位置にバー領域(図7のクロスハッチングされた帯状領域)が表示される。トーク区間バーにおいては、各トーク区間(各部分トーク区間)の位置にバー領域(図7のハッチングされた帯状領域)が表示される。ユーザは、リモコンユニットのボタン、上下左右等のカーソルキーの操作により、トーク区間バー、音楽区間バーと、CM区間バーのいずれか一つを選択することができる。また、ユーザは、リモコンユニットのボタン、上下左右等のカーソルキーの操作により、選択された区間バー内の一つのバー領域を選択することもできる。
次に、図8のフローチャートを参照して、顔画像一覧を表示する処理の手順を説明する。
コンピュータ10のビデオプロセッサ113は、映像コンテンツデータから顔画像を抽出する。また、抽出された各顔画像から特徴量を抽出する(ステップS101)。抽出された複数の顔画像および特徴量は、HDD111等に記憶する。
ビデオプロセッサ113は、抽出された複数の顔画像を図7に示すように、顔サムネイルとして表示する。ユーザによりある顔画像500が選択されたと、ビデオプロセッサ113によって判別された場合は(ステップS102のYES)、選択された顔画像500(図7参照)の特徴量をHDD111から読み出し、選択された顔画像500の特徴量と類似する特徴量をHDD111中から検索する(ステップS103)。例えば、図4に示したように、特徴量の各パラメータの誤差が0.05以内である場合は同一人物と判別する。選択された顔画像500と同一人物と判別された顔画像は、図7に示すように、その他の顔画像と区別するように強調表示される(同一人物の顔画像501〜506)。例えば、該当の顔画像を太枠で囲むようにする。さらに、強調表示された顔画像501〜506のうち、選択された顔画像500および選択された顔画像500の前後1つの顔画像501、502に対応するじゃばらサムネイル画像600〜602(同一又は最も近接するタイムスタンプ情報を持つサムネイル画像であるものとする)をフォーカス表示する(図7参照)。また、これら3つのじゃばらサムネイル画像600〜602以外のサムネイル画像はじゃばらサムネイル表示(圧縮して表示)している。さらに、強調表示された顔画像501〜506のうち、選択された顔画像500および選択された顔画像500の前後1つの顔画像501、502に対応しないサムネイル画像503〜506は、映像コンテンツデータの位置を示すマーキング表示(矢印A、B:図7参照)をする。これにより、ユーザに、選択された顔画像500および選択された顔画像500の前後1つの顔画像501、502に対応しないサムネイル画像503〜506の存在を示すことができる(ステップS104)。また、同時に、映像コンテンツデータから抽出した歓声レベルによって、歓声レベルの上位3位までは、例えばレベル表示が濃い色で塗りつぶされる(図7:レベル表示700、701、702参照)。なお、上述した内容では、選択された顔画像500および選択された顔画像500の前後1つの顔画像501、502に対応するじゃばらサムネイル画像600〜602をフォーカス表示しているが、歓声レベルの上位3位の箇所に対応する3カ所のサムネイル画像(同一又は最も近接するタイムスタンプ情報を持つサムネイル画像であるものとする)をフォーカス表示するようにしてもよい。さらには、登場頻度の高い登場人物の上位3位の箇所に対応する3カ所のサムネイル画像をフォーカス表示するようにしてもよい。
ユーザによって、太枠で囲まれた顔画像のうち、1つが選択され、再生指示がされた場合は(ステップS105のYES)、再生指示がされた顔画像に対応する位置から映像コンテンツデータを再生する(ステップS106)。なお、再生指示は、例えば、選択された顔画像をマウス等で右クリックしてメニューを表示させて、表示させたメニューから再生コマンドを選択する。また、選択された顔画像500と同一人物と判別された顔画像をその他の顔画像と区別するように強調表示する場合、該当の顔画像を太枠で囲むようにする以外にも、その他の顔画像をグレーアウト(所定の領域にグレーのハッチングフィルターを被せて表示を見えにくくする)する等の処理を行ってもよい。
以上のように、本実施形態においては、映像コンテンツデータ全体を対象に顔画像の一覧を表示させ、映像コンテンツデータ全体の中の特定の人物に着目して顔画像の表示をその他の顔画像と区別するように強調表示し、そのうちの複数箇所をフォーカスして表示させ、所望の人物が登場する可能の映像コンテンツデータを容易に再生させることができる。また、映像コンテンツデータを再生する前に、映像コンテンツデータ全体の中のどの辺りの時間帯に所望の人物が登場するのかをユーザに提示できる。
なお、本実施形態では、インデキシング処理部として機能するビデオプロセッサ113によってインデキシング情報を生成したが、例えば、放送番組データ内に予め当該放送番組データに対応するインデキシング情報が含まれている場合には、インデキシング処理を行う必要はない。よって、本実施形態の顔画像一覧表示機能は、データベース111Aと顔画像一覧表示処理部301のみによっても実現することが出来る。
また、本実施形態の顔画像一覧表示処理の手順は全てソフトウェアによって実現することができるので、このソフトウェアをコンピュータ読み取り可能な記憶媒体を通じて通常のコンピュータに導入することにより、本実施形態と同様の効果を容易に実現することができる。
また、本実施形態の電子機器はコンピュータ10によって実現するのみならず、例えば、HDDレコーダ、DVDレコーダ、テレビジョン装置といった様々なコンシューマ電子機器によって実現することもできる。この場合、TVアプリケーションプログラム202の機能は、DSP(Digital Signal Processor)、マイクロコンピュータのようなハードウェアによって実現することができる。
また、本発明は、上記実施形態そのままに限定されるものではなく、実施段階ではその要旨を逸脱しない範囲で構成要素を変形して具体化できる。また、上記実施形態に開示されている複数の構成要素の適宜な組み合わせにより種々の発明を形成できる。例えば、実施形態に示される全構成要素から幾つかの構成要素を削除してもよい。更に、異なる実施形態に構成要素を適宜組み合わせてもよい。
本発明の一実施形態に係る情報処理装置の概観の例を示す斜視図。 同実施形態の情報処理装置のシステム構成の例を示すブロック図。 同実施形態の情報処理装置の顔画像一覧表示機能を説明するためのブロック図。 同実施形態の情報処理装置で用いられる特徴量のパラメータの例を示す図。 同実施形態の情報処理装置で用いられる区間属性情報(属性検出結果情報)の例を示す図。 同実施形態の情報処理装置で用いられるプログラムの機能構成を示すブロック図。 同実施形態の情報処理装置によって表示装置に表示されるインデキシングビュー画面の例を示す図。 同実施形態の情報処理装置によって実行される顔画像一覧表示処理の手順の例を示すフローチャート。
符号の説明
10…コンピュータ(情報処理装置)、111A…データベース、113…ビデオプロセッサ、117…TVチューナ、301…顔画像一覧表示処理部、402…インデキシング制御部、403…再生処理部。

Claims (11)

  1. 映像コンテンツデータから複数の顔画像を抽出する顔画像抽出手段と、
    前記複数の顔画像の一覧を第1の表示エリア上に表示するよう制御する顔画像一覧表示制御手段と、
    映像コンテンツデータを所定の時間間隔で分割して得られる各区間の各々から少なくとも1フレームのサムネイル画像を抽出するサムネイル画像抽出手段と、
    前記サムネイル画像抽出手段によって抽出された各サムネイル画像を、複数のサムネイル画像が通常サイズで表示され、その他のサムネイル画像が通常サイズよりも横方向サイズが縮小されて表示されるように、時系列順に並べて第2の表示エリア上に表示するよう制御するサムネイル画像一覧表示制御手段と、を備え、
    前記サムネイル画像一覧表示制御手段が通常サイズとして表示する前記複数のサムネイル画像は、前記第1の表示エリア上に表示される顔画像の一覧のうち選択された顔画像と関連するサムネイル画像である情報処理装置。
  2. 前記第1の表示エリア上に表示されている前記複数の顔画像のうち、1つの顔画像が選択されると、前記選択された顔画像と前記第1の表示エリア上に表示されている前記複数の顔画像とを、前記抽出された特徴量情報に基づいて比較する比較手段と、
    前記比較手段によって、前記第1の表示エリア上に表示されている前記複数の顔画像のうち、前記選択された顔画像と同一人物と判別された顔画像をその他の顔画像と区別して強調表示する強調表示手段と、をさらに備え、
    前記顔画像抽出手段は、各顔画像と共に、該顔画像が映像コンテンツデータ内に登場する時点を示すタイムスタンプ情報を抽出し、
    前記サムネイル画像抽出手段は、各サムネイル画像と共に、該サムネイル画像が映像コンテンツデータ内に登場するタイムスタンプ情報を抽出し、
    前記サムネイル画像一覧表示制御手段が通常サイズとして表示する前記複数のサムネイル画像は、前記選択された顔画像及び前記強調表示手段が強調表示した顔画像と同一又は最も近接するタイムスタンプ情報を持つサムネイル画像である請求項1記載の情報処理装置。
  3. 前記サムネイル画像一覧表示制御手段が通常サイズとして表示する前記複数のサムネイル画像は、前記選択された顔画像、及び前記強調表示手段が強調表示した顔画像であって前記選択された顔画像の前後のタイムスタンプ情報を持つ顔画像と、同一又は最も近接するタイムスタンプ情報を持つ3つのサムネイル画像である請求項2記載の情報処理装置。
  4. 請求項3に記載の情報処理装置において、
    前記強調表示手段が強調表示した顔画像と同一又は最も近接するタイムスタンプ情報を持つサムネイル画像であって、通常サイズよりも横方向が縮小されて表示されるサムネイル画像にマーキングする情報処理装置。
  5. 請求項1に記載の情報処理装置において、
    前記比較手段により同一人物の登場回数をカウントし、前記登場回数が多い上位3位までの人物の顔画像と同一又は最も近接するタイムスタンプ情報を有する其々のサムネイル画像を、前記サムネイル画像一覧表示制御手段が通常サイズで表示する情報処理装置。
  6. 映像コンテンツデータの音声データから歓声レベルを時系列に検出する検出手段と、
    映像コンテンツデータを所定の時間間隔で分割して得られる各区間の各々から少なくとも1つのフレームのサムネイル画像を抽出するサムネイル画像抽出手段と、
    前記画像抽出手段によって抽出された各サムネイル画像を、複数のサムネイル画像が通常サイズで表示され、その他のサムネイル画像が通常サイズよりも横方向サイズが縮小されて表示されるように、時系列に並べて表示エリア上に表示するよう制御するサムネイル画像一覧表示制御手段と、を備え、
    前記サムネイル画像一覧表示制御手段が通常サイズで表示する前記複数のサムネイル画像は、前記検出手段で検出した歓声レベルに応じて抽出された複数のサムネイル画像である情報処理装置。
  7. 前記サムネイル画像抽出手段は、各サムネイル画像と共に、該サムネイル画像が映像コンテンツデータ内に登場するタイムスタンプ情報を抽出し、
    前記サムネイル画像一覧表示制御手段が通常サイズとして表示する前記複数のサムネイル画像は、前記検出手段で検出した歓声レベルの上位複数地点と同一又は最も近接するタイムスタンプ情報を持つサムネイル画像である請求項記載の情報処理装置。
  8. 映像コンテンツデータから複数の顔画像を抽出し、
    前記複数の顔画像の一覧を第1の表示エリア上に表示するよう制御し、
    映像コンテンツデータを所定の時間間隔で分割して得られる各区間の各々から少なくとも1フレームのサムネイル画像を抽出し、
    前記サムネイル画像を抽出することによって抽出された各サムネイル画像を、複数のサムネイル画像が通常サイズで表示され、その他のサムネイル画像が通常サイズよりも横方向サイズが縮小されて表示されるように、時系列順に並べて第2の表示エリア上に表示するよう制御する表示制御方法であって、
    前記制御することが通常サイズとして表示する前記複数のサムネイル画像は、前記第1の表示エリア上に表示される顔画像の一覧のうち選択された顔画像と関連するサムネイル画像である表示制御方法。
  9. 映像コンテンツデータの音声データから歓声レベルを時系列に検出し、
    映像コンテンツデータを所定の時間間隔で分割して得られる各区間の各々から少なくとも1つのフレームのサムネイル画像を抽出し、
    前記抽出する手順によって抽出された各サムネイル画像を、複数のサムネイル画像が通常サイズで表示され、その他のサムネイル画像が通常サイズよりも横方向サイズが縮小されて表示されるように、時系列に並べて表示エリア上に表示するよう制御する表示制御方法であって、
    前記制御することが通常サイズで表示する前記複数のサムネイル画像は、前記検出することで検出した歓声レベルに応じて抽出された複数のサムネイル画像である表示制御方法。
  10. 映像コンテンツデータから複数の顔画像を抽出する手順と、
    前記複数の顔画像の一覧を第1の表示エリア上に表示するよう制御する手順と、
    映像コンテンツデータを所定の時間間隔で分割して得られる各区間の各々から少なくとも1フレームのサムネイル画像を抽出する手順と、
    前記サムネイル画像を抽出する手順によって抽出された各サムネイル画像を、複数のサムネイル画像が通常サイズで表示され、その他のサムネイル画像が通常サイズよりも横方向サイズが縮小されて表示されるように、時系列順に並べて第2の表示エリア上に表示するよう制御する手順とをコンピュータに実行させるプログラムであって、
    前記制御する手順が通常サイズとして表示する前記複数のサムネイル画像は、前記第1の表示エリア上に表示される顔画像の一覧のうち選択された顔画像と関連するサムネイル画像であるプログラム。
  11. 映像コンテンツデータの音声データから歓声レベルを時系列に検出する手順と、
    映像コンテンツデータを所定の時間間隔で分割して得られる各区間の各々から少なくとも1つのフレームのサムネイル画像を抽出する手順と、
    前記抽出する手順によって抽出された各サムネイル画像を、複数のサムネイル画像が通常サイズで表示され、その他のサムネイル画像が通常サイズよりも横方向サイズが縮小されて表示されるように、時系列に並べて表示エリア上に表示するよう制御する手順とをコンピュータに実行させるプログラムであって、
    前記制御する手順が通常サイズで表示する前記複数のサムネイル画像は、前記検出する手順で検出した歓声レベルに応じて抽出された複数のサムネイル画像であるプログラム。
JP2007255030A 2007-09-28 2007-09-28 情報処理装置 Active JP5038836B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2007255030A JP5038836B2 (ja) 2007-09-28 2007-09-28 情報処理装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2007255030A JP5038836B2 (ja) 2007-09-28 2007-09-28 情報処理装置

Publications (2)

Publication Number Publication Date
JP2009088905A JP2009088905A (ja) 2009-04-23
JP5038836B2 true JP5038836B2 (ja) 2012-10-03

Family

ID=40661753

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2007255030A Active JP5038836B2 (ja) 2007-09-28 2007-09-28 情報処理装置

Country Status (1)

Country Link
JP (1) JP5038836B2 (ja)

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3826598B2 (ja) * 1999-01-29 2006-09-27 株式会社日立製作所 画像監視装置及び記録媒体
JP4226237B2 (ja) * 2001-09-11 2009-02-18 日本放送協会 漫画生成装置及び漫画生成プログラム
JP4235393B2 (ja) * 2002-03-11 2009-03-11 富士フイルム株式会社 インデックス画像表示制御装置
JP4525558B2 (ja) * 2005-11-08 2010-08-18 ソニー株式会社 情報処理装置、撮像装置、および情報処理方法、並びにコンピュータ・プログラム
JP4671133B2 (ja) * 2007-02-09 2011-04-13 富士フイルム株式会社 画像処理装置

Also Published As

Publication number Publication date
JP2009088905A (ja) 2009-04-23

Similar Documents

Publication Publication Date Title
JP4834640B2 (ja) 電子機器および画像表示制御方法
JP5057918B2 (ja) 電子機器およびシーン種類表示方法
JP4909856B2 (ja) 電子機器および表示方法
JP4331240B2 (ja) 電子機器および画像表示方法
JP4496264B2 (ja) 電子機器及び映像表示方法
JP4322945B2 (ja) 電子機器、及び画像表示制御方法
JP4834639B2 (ja) 電子機器および画像表示制御方法
JP2009076982A (ja) 電子機器および顔画像表示方法
US20100275164A1 (en) Authoring apparatus
JP2009038680A (ja) 電子機器および顔画像表示方法
JP2009089065A (ja) 電子機器および顔画像表示装置
JP4856105B2 (ja) 電子機器および表示処理方法
JP2009081699A (ja) 電子機器および顔画像抽出制御方法
JP5330551B2 (ja) 電子機器および表示処理方法
JP4709929B2 (ja) 電子機器および表示制御方法
JP5039020B2 (ja) 電子機器および映像コンテンツ情報表示方法
JP4625862B2 (ja) オーサリング装置およびオーサリング方法
JP5038836B2 (ja) 情報処理装置
JP5232291B2 (ja) 電子機器および顔画像表示方法
JP2009088904A (ja) 情報処理装置および顔画像表示方法
JP5198609B2 (ja) 電子機器および表示制御方法並びにプログラム
JP4987653B2 (ja) 電子機器および画像表示方法
JP2009200827A (ja) 電子機器および画像表示方法
JP5566984B2 (ja) 電子機器および画像表示方法
JP5349651B2 (ja) 電子機器、顔画像抽出制御方法およびプログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20100720

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20111114

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20111122

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20120120

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20120529

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20120612

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20120706

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20150713

Year of fee payment: 3

R151 Written notification of patent or utility model registration

Ref document number: 5038836

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20150713

Year of fee payment: 3

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313117

Free format text: JAPANESE INTERMEDIATE CODE: R313121

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350