JP2012054948A

JP2012054948A - 情報処理装置および方法、並びにプログラム

Info

Publication number: JP2012054948A
Application number: JP2011208837A
Authority: JP
Inventors: Kaname Ogawa; 要小川; Keiji Kanoda; 啓二叶多; Makoto Yamada; 誠山田; Hiroshi Jinno; 比呂志陣野
Original assignee: Sony Corp
Current assignee: Sony Corp
Priority date: 2011-09-26
Filing date: 2011-09-26
Publication date: 2012-03-15
Anticipated expiration: 2026-07-04
Also published as: JP5392584B2

Abstract

【課題】動画コンテンツに登場する人物やその登場位置を、ユーザに適切かつ判り易く提
示することができるようにする。
【解決手段】１以上の画像コンテンツのそれぞれについての各インデックスを含む第１のGUI画像から１のインデックスがユーザにより選択されたとき、選択されたインデックスに対応する画像コンテンツの顔区間をユーザが選択するインデックスとして、その顔区間から検出された人物の顔に対応する顔サムネイル画像２１乃至２４を含む第２のGUI画像が表示される。ユーザは、この顔サムネイル画像２１乃至２４のうちの１以上を選択することで、選択された１以上の顔画像のそれぞれに対応する１以上の顔区間が連続再生される。本発明は、動画コンテンツの再生装置に適用可能である。
【選択図】図１３

Description

本発明は、情報処理装置および方法並びにプログラムに関し、特に、動画コンテンツに登場する人物やその登場位置を、ユーザに適切かつ判り易く提示することができるようになった情報処理装置および方法並びにプログラムに関する。

動画コンテンツには、様々な登場人物が含まれていることが多い。従って、登場人物から動画コンテンツの内容を把握したり、様々な登場人物の中から特定人物のシーンを検索して再生したい、といった要望が近年挙げられている。

このような様々な登場人物を含む動画コンテンツを取り扱う従来の技術としては、例えば特許文献１，２に開示された技術が存在する。

特許３３１５８８８号公報特開２００４−３６３７７５号公報

しかしながら、特許文献１，２等の従来の技術では、上述した要望に応えることが十分にできていない状況である。特許文献１，２等の従来の技術をただ単に組み合わせただけでは、動画コンテンツに登場する人物やその登場位置を、ユーザに適切かつ判り易く提示することは困難だからである。

本発明は、このような状況に鑑みてなされたものであり、動画コンテンツに登場する人物やその登場位置を、ユーザに適切かつ判り易く提示することができるようにするものである。

本発明の一側面の情報処理装置は、画像コンテンツの全部または一部分をユーザが選択するインデックスを含むGUI(Graphical User Interface)画像の表示を制御する情報処理装置であって、１以上の画像コンテンツのそれぞれについての各インデックスを含む第１のGUI画像の表示を制御し、前記第１のGUI画像から１のインデックスが前記ユーザにより選択されたとき、選択されたインデックスに対応する画像コンテンツの全部または一部分を前記ユーザが選択するインデックスとして、その全部または一部から検出された人物の顔に対応する顔サムネイル画像を含む第２のGUI画像の表示を制御する制御手段を備える。

前記制御手段は、前記第２のGUI画像から前記顔サムネイル画像が前記ユーザにより選択されたとき、さらに、前記第１のGUI画像から選択された前記インデックスに対応する前記画像コンテンツのうちの、前記顔サムネイル画像に対応する前記顔が検出された前記全部または一部分の再生を制御する。

前記１以上の画像コンテンツは、動画コンテンツを含み、前記動画コンテンツにおける１以上の一部分のそれぞれから、他の一部分とは異なる人物と判断される顔がそれぞれ検出されており、前記制御手段は、前記第１のGUI画像から前記動画コンテンツのインデックスが前記ユーザにより選択されたとき、前記動画コンテンツにおける前記１以上の一部分のそれぞれのインデックスとして、それぞれの一部分から検出された前記顔のそれぞれに対応する１以上の顔サムネイル画像を含む前記第２のGUI画像の表示を制御する。

前記動画コンテンツにおける１つの前記一部分の前記顔サムネイル画像は、その一部分から生成された静止画像に含まれていた前記顔の領域が切り出された結果得られる画像自身、またはその画像に基づいて生成された画像である。

前記制御手段は、さらに、前記第２のGUI画像に代えて、１以上の前記顔サムネイル画像のそれぞれが生成された元の前記静止画像にそれぞれ対応する１以上のサムネイル画像を、それぞれに対応する前記一部分のインデックスとして含む第３のGUI画像の表示を制御する。

前記制御手段は、さらに、前記第２のGUI画像において選択されている前記顔サムネイル画像に対応する前記一部分の前記動画コンテンツにおける位置を示す画像を含む第４のGUI画像の表示を制御する。

前記動画コンテンツと、前記１以上の顔サムネイル画像とが対応付けられて記録媒体に記録されており、前記制御手段は、前記記録媒体から前記１以上の顔サムネイル画像を読み出す制御をさらに行い、読み出された前記１以上の顔サムネイル画像を含む前記第２のGUI画像の表示を制御する。

本発明の一側面の情報処理方法は、画像コンテンツの全部または一部分をユーザが選択するインデックスを含むGUI(Graphical User Interface)画像の表示を制御する情報処理装置の情報処理方法であって、１以上の画像コンテンツのそれぞれについての各インデックスを含む第１のGUI画像の表示を制御し、前記第１のGUI画像から１のインデックスが前記ユーザにより選択されたとき、選択されたインデックスに対応する画像コンテンツの全部または一部分を前記ユーザが選択するインデックスとして、その全部または一部から検出された人物の顔に対応する顔サムネイル画像を含む第２のGUI画像の表示を制御するステップを含む。

本発明の一側面のプログラムは、上述した本発明の一側面の情報処理方法に対応するプログラムである。

本発明の一側面の情報処理装置および方法並びにプログラムにおいては、画像コンテンツの全部または一部分をユーザが選択するインデックスを含むGUI(Graphical User Interface)画像の表示が次のように制御される。即ち、１以上の画像コンテンツのそれぞれについての各インデックスを含む第１のGUI画像の表示が制御され、前記第１のGUI画像から１のインデックスが前記ユーザにより選択されたとき、選択されたインデックスに対応する画像コンテンツの全部または一部分を前記ユーザが選択するインデックスとして、その全部または一部から検出された人物の顔に対応する顔サムネイル画像を含む第２のGUI画像の表示が制御される。

以上のごとく、本発明の一側面によれば、動画コンテンツに登場する人物やその登場位置を、ユーザに提示することができる。特に、動画コンテンツに登場する人物やその登場位置を、ユーザに適切かつ判り易く提示することができるようになる。

本発明により実現可能な動画コンテンツの再生指示操作例を説明する図である。顔区間の特定手法の一例と顔サムネイル画像の作成手法の一例とを説明する図である。顔区間の特定や顔サムネイル画像の作成に必要な静止画像の生成手法の一例を説明する図である。本発明が適用される記録メディアの構造例を示す図である。図４の記録メディアのメタファイルに含められる顔区間メタ情報の構造例を示す図である。本発明が適用される情報処理装置としての再生装置の機能的構成例を示す機能ブロック図である。図６のRAMの管理情報領域の構造例を示す図である。図７の構造の管理情報領域に記録され得るデータ例を示す図である。ユーザにより再生指示操作が行われる場合に図６の再生装置が採り得る状態一例を示す状態遷移図である。図９の動画選択画面表示状態のときに表示される画像の一例を示す図である。図９の動画選択画面表示状態のときに表示される画像の一例を示す図である。図９の顔区間再生選択画面表示状態のときに表示される画像の一例を示す図である。図９の顔区間再生選択画面表示状態のときに表示される画像の一例を示す図である。図９の顔区間再生選択画面表示状態の詳細例を示す状態遷移図である。本発明が適用される一括書込転送手法を説明する図である。図１２の画像に対して、一括書込転送手法を適用した場合の例を示す図である。本発明が適用される情報処理装置のうちの、一括書込転送手法の実現が可能な記録再生装置の機能的構成例を示す機能ブロック図である。図１７の記録再生装置が実行する一括書き出し処理例を説明するフローチャートである。図１８の一括書き出し処理の処理結果の具体例を示す図である。顔サムネイル画像を静止画コンテンツに適用する場合の例を説明する図である。図９の静止画選択画面表示状態の詳細例を示す状態遷移図である。図２１の顔サムネイル画面表示状態のときに表示される画像の一例を示す図である。図２１の顔サムネイル元画像画面表示状態のときに表示される画像の一例を示す図である。図２１の顔サムネイル画面表示状態のときに表示される画像の一例を示す図である。図２１の選択人物元画像一覧画面表示状態のときに表示される画像の一例を示す図である。図２１の静止画表示状態のときに表示される画像の一例を示す図である。静止画コンテンツに対して、一括書込転送手法を適用した場合の例を示す図である。本発明が適用される情報処理装置としての画像記録装置の機能的構成例を示す機能ブロック図である。図２８の画像記録装置の画像加工部の詳細な機能的構成例を示す機能ブロック図である。図２９の画像加工部の画像情報検出部の詳細な機能的構成例を示す機能ブロック図である。図３０の画像情報検出部等が実行するリソースデータ生成記録処理例を説明するフローチャートである。図３１のリソースデータ生成記録処理の処理結果の具体例を示す図である。図３１のリソースデータ生成記録処理の処理結果の具体例を示す図である。図３１のリソースデータ生成記録処理の処理結果の具体例を示す図である。図３１のリソースデータ生成記録処理のうちの顔画像テーブル生成／更新処理により生成／更新される顔画像テーブルの一例を示す図である。図３１のリソースデータ生成記録処理の処理結果の具体例を示す図である。図３１のリソースデータ生成記録処理の処理結果の具体例を示す図である。図３１のリソースデータ生成記録処理のうちの顔画像テーブル生成／更新処理の一部の処理内容例を説明する図である。図３１のリソースデータ生成記録処理のうちの顔画像テーブル生成／更新処理の一部の処理内容例を説明する図である。図３１のリソースデータ生成記録処理のうちの顔画像テーブル生成／更新処理の一部の処理内容例を説明する図である。図３１のリソースデータ生成記録処理のうちの顔画像テーブル生成／更新処理の一部の処理内容例を説明する図である。図３１のリソースデータ生成記録処理のうちの顔画像テーブル生成／更新処理の一部の処理内容例を説明する図である。図３１のリソースデータ生成記録処理のうちの顔画像テーブル生成／更新処理の詳細例を説明するフローチャートである。本発明が適用される情報処理装置としてのパーソナルコンピュータの構成例を示すブロック図である。

以下に本発明の実施の形態を説明するが、本発明の構成要件と、明細書又は図面に記載の実施の形態との対応関係を例示すると、次のようになる。この記載は、本発明をサポートする実施の形態が、明細書又は図面に記載されていることを確認するためのものである。従って、明細書又は図面中には記載されているが、本発明の構成要件に対応する実施の形態として、ここには記載されていない実施の形態があったとしても、そのことは、その実施の形態が、その構成要件に対応するものではないことを意味するものではない。逆に、実施の形態が構成要件に対応するものとしてここに記載されていたとしても、そのことは、その実施の形態が、その構成要件以外の構成要件には対応しないものであることを意味するものでもない。

本発明の一側面の情報処理装置（例えば、図６の再生装置）は、
画像コンテンツの全部または一部分をユーザが選択するインデックスを含むGUI(Graphical User Interface)画像の表示を制御する情報処理装置であって、
１以上の画像コンテンツのそれぞれについての各インデックスを含む第１のGUI画像（例えば図１０や図１１の動画選択GUI画像１５０）の表示を制御し、
前記第１のGUI画像から１のインデックスが前記ユーザにより選択されたとき（例えば図１１の例ではカーソル１５２が配置されたサムネイル画像１５１が選択されたとき）、
選択されたインデックスに対応する画像コンテンツの全部または一部分を前記ユーザが選択するインデックスとして、その全部または一部から検出された人物の顔に対応する顔サムネイル画像（例えば図１の動画コンテンツ１の顔区間１１乃至１４のそれぞれに対応する顔サムネイル画像２１乃至２４）を含む第２のGUI画像（例えば図１２や図１３の顔サムネイルGUI画像１６１）の表示を制御する制御手段（例えば図６の制御部７１）
を備える。

前記制御手段は、
前記第２のGUI画像から前記顔サムネイル画像が前記ユーザにより選択されたとき、さらに、
前記第１のGUI画像から選択された前記インデックスに対応する前記画像コンテンツのうちの、前記顔サムネイル画像に対応する前記顔が検出された前記全部または一部分の再生（例えば図１２の例では顔サムネイル画像２２がカーソル２０１により選択されているので、図１の顔区間１１の再生）を制御する（例えば、図６の制御部７１のシステム制御部９１等が、ビデオデコード部７６や画像合成部７８を制御することで、画像表示部７９に動画像等を表示させる）。

前記１以上の画像コンテンツは、動画コンテンツ（例えば図１の動画コンテンツ１）を含み、
前記動画コンテンツにおける１以上の一部分のそれぞれから、他の一部分とは異なる人物と判断される顔がそれぞれ検出されており、
前記制御手段は、前記第１のGUI画像から前記動画コンテンツのインデックスが前記ユーザにより選択されたとき、前記動画コンテンツにおける前記１以上の一部分のそれぞれのインデックスとして、それぞれの一部分から検出された前記顔のそれぞれに対応する１以上の顔サムネイル画像（例えば図１や図１２等の顔サムネイル画像２１乃至２４）を含む前記第２のGUI画像の表示を制御する。

前記動画コンテンツにおける１つの前記一部分の前記顔サムネイル画像（例えば図１の顔サムネイル画像２１）は、その一部分から生成された静止画像（例えば図２の静止画像３１−１）に含まれていた前記顔の領域（例えば図２の顔３２−１）が切り出された結果得られる画像自身、またはその画像に基づいて生成された画像である。

前記制御手段は、さらに、前記第２のGUI画像に代えて、１以上の前記顔サムネイル画像のそれぞれ（例えば図１２や図１３の顔サムネイル画像２１乃至２４のそれぞれ）が生成された元の前記静止画像にそれぞれ対応する１以上のサムネイル画像（例えば図１２や図１３のサムネイル画像１８１乃至１８４）を、それぞれに対応する前記一部分のインデックスとする第３のGUI画像（例えば図１２や図１３の元シーンGUI画像１６２）の表示を制御する。

前記制御手段は、さらに、前記第２のGUI画像において選択されている前記顔サムネイル画像に対応する前記一部分の前記動画コンテンツにおける位置を示す画像（例えば図１２や図１３のタイムライン１９１）を含む第４のGUI画像（例えば図１２や図１３のタイムラインGUI画像１６３）の表示を制御する。

前記動画コンテンツと、前記１以上の顔サムネイル画像とが対応付けられて記録媒体（例えば図４の記録メディア５１）に記録されており、前記制御手段は、前記記録媒体から前記１以上の顔サムネイル画像を読み出す制御をさらに行い、読み出された前記１以上の顔サムネイル画像を含む前記第２のGUI画像の表示を制御する。

本発明の一側面の情報処理方法は、
画像コンテンツの全部または一部分をユーザが選択するインデックスを含むGUI(Graphical User Interface)画像の表示を制御する情報処理装置の情報処理方法（例えば、図６の再生装置の図１４に示される処理方法）において、
１以上の画像コンテンツのそれぞれについての各インデックスを含む第１のGUI画像の表示を制御し（例えば図１４の動画選択画面表示状態Ｓ３−２を維持する制御を行い）、
前記第１のGUI画像から１のインデックスが前記ユーザにより選択されたとき（例えば状態遷移条件Ｃ１２が満たされたとき）、選択されたインデックスに対応する画像コンテンツの全部または一部分を前記ユーザが選択するインデックスとして、その全部または一部から検出された人物の顔に対応する顔サムネイル画像を含む第２のGUI画像の表示を制御する（例えば、再生装置の状態を動画選択画面表示状態Ｓ３−２から顔サムネイル画面表示状態Ｓ５−１に遷移させ、その状態Ｓ５−１を維持する制御を行う）
ステップを含む。

本発明の一側面のプログラムは、例えば上述した本発明の一側面の情報処理方法のステップを含むプログラムであって、例えば図４４のパーソナルコンピュータにより実行される。

次に、本発明の理解を容易なものとするため、はじめに、図１を参照して、本発明により実現可能な動画コンテンツの再生指示操作の概略について説明する。

ここに、コンテンツとは人間の創造的活動により生み出されるものをいい、それらのうちの画像を少なくとも含むコンテンツを画像コンテンツという。また、画像コンテンツは、主に動画像から構成される動画コンテンツと、主に静止画像から構成される静止画コンテンツとに大別される。ただし、本明細書では、いわゆるコンテンツデータ、即ち、人間の創造的活動により生み出されたものが装置によって処理可能な形態とされたもの、例えば電気信号とされたものや記録媒体に記録されたもの等も、特に区別せずにまとめて、コンテンツと称する。

また、以下の説明では、コンテンツはファイル単位で記録媒体に記録されるとし、コンテンツの個数はファイル単位で表現する。即ち、以下の説明では、１つのコンテンツとは、１つのファイルとして記録媒体に記録され得るコンテンツをいう。

従来、複数の動画コンテンツの中から所望の１つの再生を指示するための再生指示操作として、次のような操作が知られている。即ち、複数の動画コンテンツのインデックスとしての各サムネイル画像の一覧がユーザに提示され、ユーザは、その一覧の中から、再生を所望する動画コンテンツに対応するサムネイル画像を選択する、といった再生指示操作が知られている。

本発明では、このような再生指示操作に加えて、さらに、例えば図１に示されるような再生指示操作が可能になる。

図１の例では、再生対象の動画コンテンツ１のうちの、特定人物が連続して登場してきていると判断される区間１１に対して、その特定人物の顔の画像がサムネイル画像２１として対応付けられている。

なお、以下、区間１１のように、動画像中に特定人物が連続して登場してきていると判断される区間を、顔区間と称する。また、サムネイル画像２１のように、顔の画像がサムネイル画像として採用されている場合、そのサムネイル画像を特に顔サムネイル画像と称する。

このような顔区間１１の他、動画コンテンツ１には顔区間１２乃至１４のそれぞれがさらに存在し、顔サムネイル画像２２乃至２４のそれぞれが対応付けられている。

これにより、動画コンテンツ１のうちの顔区間１１乃至１４の各インデックスの一覧として、顔サムネイル画像２１乃至２４の一覧がユーザに提示され、ユーザは、その一覧の中から、再生を所望する顔区間に対応する顔サムネイル画像を選択する、といった再生指示操作が可能になる。なお、このような再生指示操作や、それに対応する装置側の処理の詳細については、図４以降の図面を用いて後述する。

換言すると、動画コンテンツに登場する人物やその登場位置を、ユーザに適切かつ判り易く提示すべく、人物の登場位置のひとつとして顔区間が採用され、その顔区間のインデックスとして、その顔区間に登場している人物の顔を含む顔サムネイル画像が採用されている。従って、このような顔サムネイル画像や顔区間を利用することで、上述した要望、即ち、登場人物から動画コンテンツの内容を把握したり、様々な登場人物の中から特定人物のシーンを検索して再生したいといった要望に適切に応えることが可能になる。

以下、このような顔区間の特定手法と顔サムネイル画像の作成手法の概略について、図２と図３を参照して説明する。ただし、各手法の概略の説明において、処理の主体は、単に装置と称する。

図２の例では、動画コンテンツ１は、MPEG（Moving Picture Experts Group）データとして構成されている。即ち、動画コンテンツ１は、複数のGOP(Group Of Picture)から構成されている。

この場合、装置は、動画コンテンツ１を所定の単位毎に区分し、各単位のそれぞれから１枚の静止画像をそれぞれ生成する。この単位は特に限定されず、後述する別の例では主に１つのGOPからなる単位（以下、1GOP単位と称する。同様に以下、ｋ個のGOPからなる単位をkGOP単位と称する）とされているが、ここでは、図２にあわせて２GOP単位であるとする。即ち、ここでは、２GOP単位から1枚の静止画像が生成されるとする。

なお、静止画像の生成手法自体は、特に限定されず、例えば図２の例では、２GOP単位のうちの先頭のGOPから静止画像を生成する手法が採用されている。さらに、そのGOPから静止画像を生成する手法も、特に限定されず、例えば図３に示される手法等を採用することができる。

即ち、図３において、Ｂと記述された四角はＢピクチャを示しており、Ｉと記述された四角はＩピクチャを示しており、また、Ｐと記述された四角はＰピクチャを示している。また、各ピクチャ内の左端付近の数字は、自身が属するGOPにおける先頭からの自身の配置順番を示している。即ち、図３の例では、１つのGOPは１５のピクチャから構成されている。

この場合、例えば、装置は、Ｂピクチャを静止画像として生成することができる。具体的には、装置は、参照しているＩピクチャを読み出し、そのＩピクチャに基づいてＢピクチャを静止画像として生成する。なお、図３には、３番目のＩピクチャに基づいて１番目のＢピクチャが静止画像として生成された例が示されている。

また例えば、装置は、GOPの先頭から各ピクチャを順次読み出していき、Ｉピクチャを読み出した段階で、そのIピクチャを静止画像として生成することができる。なお、図３には、３番目のＩピクチャが静止画像として生成された例が示されている。

図２に戻り、装置は、このようにして２GOP単位から静止画像を生成すると、その静止画像から顔の検出を試みる。

例えばここで、図２中左から３番目の２GOP単位が処理対象単位とされており、その処理対象単位から静止画像３１−１が生成されたとする。また、図２の例では、卵型の形状が人間の顔とされている。この場合、静止画像３１−１には、人間の顔が含まれているので、その顔の領域が検出されることになる。そこで、装置は、検出した顔を含む画像（以下、顔画像と称する）３２−１を静止画像３１−１から抽出する。

このとき、処理対象単位の直前の2GOP単位、即ち、図２の例では２番目の２GOP単位から顔が検出されていなければ、装置は、顔が検出された処理対象単位の先頭位置、即ち、図２の例では３番目の２GOP単位の先頭位置を顔区間１１の開始位置として決定する。

ただし、静止画像を生成する単位が２GOP単位以上の長さの場合、処理対象単位の直前の単位に含まれる後半部分のGOPには、同一人物の顔が含まれている可能性がある。そこで、装置は、図２の例のように３番目の２GOP単位の先頭位置を、顔区間１１の開始位置と直ちに決定せずに、開始位置の候補にするに留め、その候補の直前の幾つかのGOPについても、同一人物の顔が含まれているか否かを判定し、含まれていない場合には、その候補を顔区間１１の開始位置として確定する一方、含まれている場合には、同一人物の顔が含まれている最先のGOPの先頭位置を、顔区間１１の開始位置として確定するようにしてもよい。

このようにして顔区間１１の開始位置を決定すると引き続き、装置は、それ以降の各2GOP単位を順次処理対象単位としていき、処理対象単位から静止画像を生成し、その静止画像から顔画像の抽出を試みていく、といった処理を繰り返す。

例えば、図２の例では４番目の2GOP単位が処理対象単位とされている場合には、静止画像３１−２が生成され、それから顔画像３２−２が抽出される。この場合、装置は、この顔画像３２−２と、その前に抽出された顔画像３２−１との比較判断を行い、同一人物の顔であると判断したときは、顔画像３２−２が抽出された２GOP単位、即ち、４番目の2GOP単位も顔区間１１の範囲内であると判断する。

同様に、装置は、次の５番目の２GOP単位を処理対象単位として、それから静止画像３１−３を生成し、顔画像３２−３を抽出する。そして、装置は、この顔画像３２−３と、その前に抽出された顔画像３２−２との比較判断を行い、同一人物の顔であると判断したときには、顔画像３２−３が抽出された2GOP単位、即ち、５番目の2GOP単位も顔区間１１の範囲内であると判断する。

さらに、装置は、次の６番目の２GOP単位を処理対象単位として、それから静止画像３１−４を生成し、顔の検出を試みる。図２の例の静止画像３１−４には顔が含まれていないので、顔は検出されない。そこで、装置は、顔が検出されなくなった2GOP単位、即ち、６番目の2GOP単位の先頭位置、換言すると、その前の５番目の2GOP単位の最後尾位置を、顔区間１１の終了位置の候補とする。

ここで、「候補」と記述したのは、2GOP単位に相当する時間は人間にとって短時間であり、そのような短時間に顔が検出されなくとも、その後に同一人物の顔が再度検出されれば、その顔が検出されなかった短時間についても、顔区間が継続している最中であるとみなすことができるからである。即ち、装置は、顔区間１１の終了位置の候補決定後も、それ以降の幾つかの2GOP単位について同様に顔の検出を行い、顔が検出されない期間がある程度継続した段階で、顔区間１１の終了位置の候補を、顔区間１１の終了位置として確定する。

このようにして顔区間１１の特定が終了すると、装置は、その顔区間１１のインデックスとして顔サムネイル画像２１を生成し、顔区間１１と対応付ける。なお、顔区間１１の顔サムネイル画像２１は、上述した静止画像３２−１乃至３２−３から検出された顔と同一人物と判断される顔の画像であれば足りる。従って、例えば、装置は、顔区間１１決定後、その顔区間１１から新たな顔画像を生成して、それを顔サムネイル画像２１として採用してもよい。また、例えば、装置は、顔区間１１を特定している最中に使用した顔画像のうちの何れか１枚を顔サムネイル画像２１として採用することもできる。なお、図２の例では、後者の手法が採用されており、顔画像３２−１乃至３２−３のうちの最初に使用された顔画像３２−１が、顔サムネイル画像２１として採用されている。

また、装置は、ユーザの便宜のため、顔区間１１のインデックスとして、顔サムネイル画像２１の他、顔サムネイル画像２１の顔を含む静止画像全体をサムネイル画像４１として生成することもできる。例えば、図２の例では、顔画像３２−１が顔サムネイル画像２１として採用されているため、顔画像３２−１の抽出元である静止画像３１−１全体がサムネイル画像４１として採用されている。

即ち、図１には図示されていないが、動画コンテンツ１のうちの顔区間１１乃至１４のそれぞれのインデックスとして、各顔サムネイル画像２１乃至２４の他、対応する各静止画像全体の各サムネイル画像もそれぞれも生成することができる。この場合、それらのサムネイル画像の一覧もユーザに提示され、ユーザは、その一覧の中から、再生を所望する顔区間に対応するサムネイル画像を選択する、といった再生指示操作も可能になる。なお、このような再生指示操作や、それに対応する装置側の処理の詳細については、図４以降の図面を用いて後述する。

以上、図２と図３を参照して、顔区間の特定手法と顔サムネイル画像の作成手法の概略について説明した。各手法のさらなる詳細な説明については、図３１以降の図面を用いて後述する。

以上説明した顔サムネイル画像の指定による顔区間の再生を可能とするように、コンテンツを記録メディアに記録させる場合、その記録メディアは例えば図４の構造を取ることができる。即ち、図４は、本発明が適用される記録メディアの構造例を示している。

図４の例の記録メディア５１には、実データ領域５２とリソースデータ領域５３とが形成されている。

実データ領域５２には、Ｎ個（Ｎは０以上の整数値）のコンテンツ６４−１乃至６４−Ｎが記録される。図４の例では、１つのコンテンツ６４−Ｋ（Ｋは１乃至Ｎのうちの何れかの値）は、ビデオデータとオーディオデータとから構成されている。即ち、１つのコンテンツ６４−Ｋは、ビデオデータとオーディオデータとを含む１つのファイルを意味する。

１つのコンテンツ６４−Ｋに対して、それを再生するために必要なリソースデータ６５−Ｋがリソースデータ領域５３に記録される。

リソースデータ６５−Ｋには、コンテンツ６４−Ｋについての、管理情報、サムネイル情報および各サムネイル、並びに、コンテンツメタ情報、顔区間メタ情報、および、顔サムネイルが含まれる。

管理情報とは、コンテンツ６４−Ｋ全体を管理するための各種情報の集合体である。

サムネイルとは、図２のサムネイル画像４１等、コンテンツ６４−Ｋのうちの所定の再生期間のインデックスとしての画像である。ただし、かかる画像は、所定の形式の画像データとしてリソースデータ領域５３に記録されている。

サムネイル情報とは、上述した各サムネイルに関する各種情報の集合体である。

コンテンツメタ情報とは、コンテンツ６４−Ｋに関するメタ情報であり、例えばコンテンツ６４−Ｋを再生するために必要な基本情報等を含む。ただし、次の顔区間メタ情報は除く。

顔区間メタ情報とは、図１の顔区間１１乃至１４等の顔区間を再生するために必要な各種情報の集合体である。例えば本実施の形態では、図５に示されるように、顔区間メタ情報は、再生情報、開始時間、再生時間、および記録位置を含んでいる。再生情報とは、例えばコンテンツ６４−Ｋについてのいわゆるコーデック情報である。開始時間とは、顔区間の開始位置を示す情報であり、例えば開始位置を再生時刻に換算した値や、開始位置に対応するGOPのGOP番号等の形態で記載される。再生位置とは、顔区間の長さを示す情報であり、例えば顔区間の長さを再生時間に換算した値や、顔区間の長さをGOP数に換算した値等の形態で記載される。記録位置とは、例えば顔区間が記録されている実データ領域５２内の位置を特定する情報、例えば記録メディア５１が光ディスクである場合にはセクタ等を示す情報である。

図４に戻り、顔サムネイルとは、図１の顔サムネイル画像２１乃至２４等、顔区間のインデックスとしての画像である。ただし、かかる画像は、所定の形式の画像データとしてリソースデータ領域５３に記録されている。なお、顔サムネイルは、そのインデックスとなっている顔区間の顔区間メタ情報と対応付けて記録されている。

ただし、図４の例では、コンテンツ６４−Ｋのリソースデータ６５−Ｋは１つのファイルではなく、管理情報ファイル６１、サムネイル画像ファイル６２、およびメタファイル６３のそれぞれに分割されて記録される。

換言すると、コンテンツ６４−１乃至６４−Ｎのそれぞれの管理情報はまとめて、管理情報ファイル６１に含められる。コンテンツ６４−１乃至６４−Ｎのそれぞれのサムネイル情報および各サムネイルは、サムネイル画像ファイルに含められる。コンテンツ６４−１乃至６４−Ｎのそれぞれのコンテンツメタ情報並びに各顔区間メタ情報および顔サムネイルは、メタファイル６３に含められる。

即ち、コンテンツ６４−Ｋの各顔区間メタ情報および顔サムネイルは、コンテンツ６４−Ｋのメタ情報のひとつとしてメタファイルに６３に含められる。具体的には例えば、コンテンツ６４−Ｋが図１の動画コンテンツ１である場合には、顔区間１１についての顔区間メタ情報と顔サムネイル画像２１との組、顔区間１２についての顔区間メタ情報と顔サムネイル画像２２との組、顔区間１３についての顔区間メタ情報と顔サムネイル画像２３との組、および、顔区間１４についての顔区間メタ情報と顔サムネイル画像２４との組、並びに、コンテンツ１のコンテンツメタ情報の集合体が、メタファイル６３に含められる。

このようなリソースデータ６５−Ｋ等のリソースデータを利用することにより、後述する登場人物の顔一覧や位置の表示を再検索なしで、高速に表示することができる。外部からのコンテンツに関する情報の検索要求に対して、リソースデータのみを送信することにより、応答性を改善することができる。

また、リソースデータを利用することで、例えば後述するように、特定の人物が記録されている部分を抽出して新たな動画像データを生成したり、特定の人物が記録されている動画像データのみを再生させたり、特定の人物が記録されている動画像データのみをバックアップさせたりすることが可能となり、自動編集/自動再生/自動バックアップを行う際のデータ抽出に利用することができる。

図６は、かかる図４の構造を有する記録メディア５１に記録されたコンテンツ６４−Ｋを再生する再生装置の機能的構成例を示している。即ち、図６は、本発明が適用される情報処理装置としての再生装置の機能的構成例を示している。

ユーザは、図６の例の再生装置に対して、図１を用いて上述した再生指示操作、即ち、顔サムネイル画像を指定することで顔区間の再生を指示する操作を行うことができる。換言すると、図６の例の再生装置は、かかる再生指示操作に対応する処理を実行し、また、記録メディア５１に記録されたコンテンツ６４−Ｋのうちの、再生指示操作で指示された顔区間の再生を行う処理を実行することができる。

このため、図６の例の再生装置は、制御部７１乃至操作部８０を含むように構成されている。

制御部７１は、システム制御部９１、ＵＩ制御部９２、およびコンテンツ管理情報制御部９３を含むように構成されている。

システム制御部９１は、オーディオデコード部７４、ビデオデコード部７６、静止画デコード部７７、および画像合成部７８に対する各種制御処理を実行する。

UI(User Interface)制御部９２は、画像表示部７９に表示されるGUI（Graphical User Interface）画像、例えば後述する図１０乃至図１３に示されるGUI画像と操作部８０とを利用したGUIについての各種制御を行う。

コンテンツ管理情報制御部９３は、記録メディア５１に記録されている図４のコンテンツ６４−Ｋの再生を行うための管理情報、即ち、リソースデータ６５−Ｋのうちの必要な情報を適宜RAM７３の管理情報領域１０１上に展開する。また、コンテンツ管理情報制御部９３は、その管理情報領域１０１上に展開された各種情報を利用して、例えば後述する図１０乃至図１３に示されるGUI画像の生成や更新を画像データの形態で実行し、その画像データを静止画デコード部７７に提供する。なお、管理情報領域１０１上に展開される情報の具体例については、図７と図８を用いて後述する。

分離部７２は、記録メディア５１に記録されているコンテンツ６４−１乃至６４−Ｎのうちの再生対象のコンテンツ６４−Ｋの少なくとも一部を読み出して、オーディオデータとビデオデータとに分離して、それぞれRAM７３の実データ領域１０２に記憶させる。なお、「コンテンツ６４−Ｋの少なくとも一部を読み出して」と記述したのは、上述したように、コンテンツ６４−Ｋの一部の区間、例えば顔区間だけの再生も可能だからである。

RAM（Random Access Memory）７３には、実データ領域１０２と管理情報領域１０１とが設けられている。実データ領域１０２には、上述したように、ビデオデータとオーディオデータ等の実データが記憶される。管理情報領域１０１には、上述したように、記録メディア５１のリソースデータ６５−Ｋのうちの幾つかの情報が管理情報として記憶される。管理情報領域１０１のさらなる詳細については、図７と図８を用いて後述する。

オーディオデコード部７４は、システム制御部９１の制御に基づいて、実データ領域１０２からオーディオデータを読み出して、音声出力部７５のフォーマットの音声信号に変換する変換処理を実行し、その結果得られる音声信号を音声出力部７５に提供する。音声出力部７５は、オーディオデコード部７４からの音声信号に対応する音声、即ち、再生対象のコンテンツ６４−Ｋのオーディオデータに対応する音声を出力する。

ビデオデコード部７６は、システム制御部９１の制御に基づいて、実データ領域１０２からビデオデータを読み出して、画像表示部７９のフォーマットの画像信号に変換する変換処理を実行し、例えばビデオデータがMPEGデータの場合にはいわゆるMPEGデコード処理を実行し、その結果得られる画像信号を画像合成部７８に提供する。

静止画デコード部７７は、システム制御部９１の制御に基づいて、管理情報領域１０１から静止画データを読み出し、例えば静止画データの形態のGUI画像を読み出して、画像表示部７９のフォーマットの画像信号に変換する変換処理を実行し、その結果得られる画像信号を画像合成部７８に提供する。

画像合成部７８は、ビデオデコード部７６からの画像信号と静止画デコード部７７からの画像信号とを合成し、画像表示部７９に提供する。画像表示部７９は、画像表示部７９からの画像信号に対応する画像を表示する。即ち、再生対象のコンテンツ６４−Ｋのビデオデータに対応する動画像や、後述する図１０乃至図１３のGUI画像等が画像表示部７９に表示される。また、図１４乃至図１６を用いて後述する静止画像も画像表示部７９に表示される。

ここで、図７と図８を参照して、RAM７３の管理情報領域１０１の詳細例について説明する。

図７に示されるように、管理情報領域１０１には、画像処理用領域１１１、プロパティ領域１１２、サムネイル領域１１３、およびメタ領域１１４が形成されている。

画像処理用領域１１１には、例えば、後述する図１０乃至図１３のGUI画像の画像データや、その画像データに対してコンテンツ管理情報制御部９３が画像処理を施すために必要な各種情報が記憶される。

プロパティ領域１１２には、エントリ数やコンテンツ６４−Ｋのサイズ等、図４の記録メディア５１へのアクセスに必要な共通情報や、各エントリのプロパティデータ（以下、プロパティエントリと称する）が記憶される。

エントリとは、コンテンツ６４−Ｋのうちの、再生指示がなされた区間をいい、例えば図１の例の顔区間１１乃至１４等の各顔区間もエントリの１つとなり得る。従って、エントリのプロパティエントリとは、その区間を再生するために必要な各種情報である。

サムネイル領域１１３には、各エントリのサムネイル等の情報（以下、サムネイルエントリと称する）が記憶される。

メタ領域１１４には、各エントリのメタデータ等の情報（以下、メタエントリと称する）が記憶される。なお、顔区間がエントリとなっている場合、そのエントリのメタエントリには、対応する顔区間メタ情報と顔サムネイルとの組（図４参照）が含まれる。

ただし、各エントリのプロパティエントリ、メタエントリ、および、サムネイルエントリのそれぞれは、プロパティ領域１１２、サムネイル領域１１３、およびメタ領域１１４のそれぞれにばらばらに記憶されるのではなく、図８の各矢印に示されるように、エントリ毎に対応付けられて記憶される。

次に、このような図６の例の再生装置を利用したユーザの再生指示操作と、その再生指示操作に対応する再生装置の処理との一例について説明する。

図９は、再生指示操作に対応して再生装置が取り得る各状態の一例を示している。

図９において、各状態は、１つのブロックで示されており、そのブロックに引かれた“Ｓ”を含む符号により判別される。１つの状態から１つの状態への状態遷移（同一の状態に留まる場合も含む）は、所定の条件（以下、状態遷移条件と称する）が満たされると実行される。このような状態遷移条件は、図９おいては、１つの状態から１つの状態への遷移を表す矢印に、“Ｃ”を含む符号を付して表されている。なお、これらの内容は、後述する他の状態遷移図についても同様である。

例えば再生指示の開始を示す操作が操作部８０によりなされた場合、UI制御部９２は、状態遷移条件Ｃ１が満たされたと判定し、再生装置の状態をメディア一覧表示状態Ｓ１に遷移させる。

メディア一覧表示状態Ｓ１に遷移すると、コンテンツ管理情報制御部９３は、メディア一覧GUI画像を画像データの形態でRAM７３の管理情報領域１０１上に生成し、静止画デコード部７７に提供する。システム制御部９１は、静止画デコード部７７と画像合成部７８を制御することで、メディア一覧GUI画像の形態を画像データから画像信号に変換して、画像表示部７９に提供する。すると、画像表示部７９には、メディア一覧GUI画像が表示される。これにより、メディア一覧GUI画像と操作部８０とを利用したGUIが可能になる。

ここに、メディア一覧とは、再生装置が再生可能な各種記録メディアのそれぞれのインデックスの一覧をいう。即ち、図示はしないが、かかるメディア一覧が表示され、その一覧の中から所望の記録メディアに対応するインデックスを選択する操作を受け付けるGUI画像が、メディア一覧GUI画像である。

なお、後述する別のGUI画像が画面表示部７９に表示されて、その別のGUI画像と操作部８０とを利用するGUIが可能になるまでの一連の処理は、上述したメディア一覧GUI画像についての一連の処理と基本的に同様の処理となる。従って、以下、それらの一連の処理は、処理対象のGUI画像の表示処理と称し、その詳細の説明は省略する。

メディア一覧の中から所望の１つの記録メディアを選択する操作が操作部８０によりなされた場合、UI制御部９２は、状態遷移条件Ｃ２が満たされたと判定し、再生装置の状態をメディア一覧表示状態Ｓ１からファイル／フォルダ一覧表示状態Ｓ２に遷移させる。

ファイル／フォルダ一覧表示状態Ｓ２に遷移すると、制御部７１は、ファイル／フォルダ一覧GUI画像の表示処理を実行する。

ファイル／フォルダ一覧とは、選択された記録メディアに含まれるフォルダやファイルのアイコンを例えばツリー構造で示す一覧をいう。即ち、図示はしないが、かかるファイル／フォルダ一覧が表示され、その表示の中から所望の１つのフォルダ等に対応するアイコンを選択する操作を受け付けるGUI画像が、ファイル／フォルダ一覧GUI画像である。

なお、ファイル／フォルダ一覧GUI画像には、例えばメディア一覧GUI画像を再表示させるためのソフトウエアボタンが含まれており、かかるソフトウエアボタンを押下する操作がなされると、状態遷移条件Ｃ３が満たされたと判定されて、再生装置の状態がファイル／フォルダ一覧表示状態Ｓ２からメディア一覧表示状態Ｓ１に遷移する。

また、ファイル／フォルダ一覧GUI画像の中から所望の１つのフォルダを選択する操作が操作部８０によりなされた場合、UI制御部９２は、状態遷移条件Ｃ４が満たされたと判定し、再生装置の状態をファイル／フォルダ一覧表示状態Ｓ２からフォルダ内ファイル表示状態Ｓ３に遷移させる。

具体的には例えば本実施の形態では、フォルダ内ファイル表示状態Ｓ３には、一般表示状態Ｓ３−１、動画選択画面表示状態Ｓ３−２、および、静止画選択画面表示状態Ｓ３−３といった３状態が存在する。ファイル／フォルダ一覧表示状態Ｓ２からは、これらの３状態うちの一般表示状態Ｓ３−１に遷移する。即ち、一般表示状態Ｓ３−１が、フォルダ内ファイル表示状態Ｓ３のデフォルト状態である。

一般表示状態Ｓ３−１に遷移すると、制御部７１は、ファイル選択GUI画像の表示処理を実行する。

なお、図示はしないが、ファイル選択GUI画像には、例えばファイル／フォルダ一覧GUI画像を再表示させるためのソフトウエアボタンが含まれており、かかるソフトウエアボタンを押下する操作がなされると、状態遷移条件Ｃ５が満たされたと判定されて、再生装置の状態が一般表示状態Ｓ３−１からファイル／フォルダ一覧表示状態Ｓ２に遷移する。

ここに、ファイル選択GUI画像とは、例えば図示はしないが、選択された記録メディアのフォルダ内に含まれる各ファイルがアイコン等で表示され、所定のアイコンを選択する操作を受け付けるGUI画像をいう。アイコンを選択するとは、そのアイコンに対応するファイルを選択したことを意味する。

この場合、例えば、選択された記録メディアが上述した図４の記録メディア５１であるときには、動画コンテンツとしてのコンテンツ６４−１乃至６４−Ｎはファイルとして形成されている。従って、コンテンツ６４−Ｋのファイルを選択する操作を行うということは、コンテンツ６４−Ｋの再生指示操作を行うことに他ならない。

しかしながら、ユーザは、ファイルのアイコンを見ただけでは、そのアイコンは、動画コンテンツのファイルであるのか、それとも別の種類のファイルであるのかを判別することは困難である。さらに、ユーザは、動画コンテンツであることまで判別できたとしても、その動画コンテンツのアイコンを見ただけでは、その内容まで認識することは非常に困難である。

そこで、例えば本実施の形態では、図１０に示されるような動画選択GUI画像１５０が用意されている。即ち、動画選択GUI画像１５０とは、ファイル形態の各動画コンテンツのそれぞれのインデックスとして、各動画コンテンツの代表画像がそれぞれサムネイル画像１５１として一覧表示され、各サムネイル画像１５１のうちの所定のものを選択する操作を受け付けるGUI画像をいう。

このような動画選択GUI画像１５０を表示させるためのソフトウエアボタンが、図示はしないが、ファイル選択GUI画像に含まれており、かかるソフトウエアボタンを押下する操作がなされると、図９の状態遷移条件Ｃ６が満たされたと判定されて、再生装置の状態が一般表示状態Ｓ３−１から動画選択画面表示状態Ｓ３−２に遷移する。

動画選択画面表示状態Ｓ３−２に遷移すると、制御部７１は、上述した図１０の動画選択GUI画像１５０の表示処理を実行する。

なお、図１０には図示はしないが、動画選択GUI画像１５０には、例えばファイル選択GUI画像を再表示させるためのソフトウエアボタンが含まれており、かかるソフトウエアボタンを押下する操作がなされると、状態遷移条件Ｃ７が満たされたと判定されて、再生装置の状態が動画選択画面表示状態Ｓ３−２から一般表示状態Ｓ３−１に遷移する。

図１０の動画選択GUI画像１５０が表示された状態で、例えば図１１に示されるように、ユーザは、操作部８０を操作することでカーソル１５２を所望のサムネイル画像１５１の位置まで移動させ、操作部８０の所定の操作を行うことで、そのカーソル１５２が配置されたサムネイル画像１５１を選択することができる。

この場合、サムネイル画像１５１の選択とは、サムネイル画像１５１に対応する動画コンテンツの再生指示操作を行ったことを意味する。ただし、本実施の形態では、図１を用いて説明したように、動画コンテンツ全体の再生を指示する再生指示操作（以下、全体再生指示操作）と、動画コンテンツの一部分である顔区間の再生を指示する再生指示操作（以下、顔区間再生指示操作）との２種類が少なくとも存在する。

従って、サムネイル画像１５１の選択操作についても、全体再生指示操作に対応する第１の選択操作と、顔区間再生指示操作に対応する第２の選択操作との２種類が存在する。

この場合、第１の選択操作がなされると、状態遷移条件Ｃ１０が満たされたと判定されて、再生装置の状態が動画選択画面表示状態Ｓ３−２から動画再生状態Ｓ６に遷移する。

動画再生状態Ｓ６に遷移すると、制御部７１は、全体再生指示操作がなされた動画コンテンツの再生を行う。即ち、状態遷移条件Ｃ１０が満たされて動画再生状態Ｓ６に遷移すると、記録メディアから動画コンテンツ全体が読み出されて、その最初からの再生が行われる。なお、この再生の動作は、図６の構成の説明を参照することで容易に理解できると思われるので、ここではその説明は省略する。

動画コンテンツの最後までの再生が終了したときや、動画コンテンツの再生の停止操作等がなされたとき、状態遷移条件Ｃ１１が満たされたと判定されて、再生装置の状態が動画再生状態Ｓ６から動画選択画面表示状態Ｓ３−２に遷移する。

これに対して、顔区間再生指示操作に対応する第２の選択操作がなされると、状態遷移条件Ｃ１２が満たされたと判定されて、再生装置の状態が動画選択画面表示状態Ｓ３−２から顔区間再生選択画面表示状態Ｓ５に遷移する。

顔区間再生選択画面表示状態Ｓ５に遷移すると、顔区間再生選択GUI画像の表示処理を実行する。

ここに、顔区間再生選択GUI画像とは、動画選択画面GUI画像にて選択された動画コンテンツのうちの、所望の顔区間の再生指示操作を受け付けるGUI画像をいう。

顔区間再生選択GUI画像として、本実施の形態では例えば、図１２に示されるような３つのGUI画像１６１乃至１６３が用意されている。

図１２において、左方のGUI画像１６１は、動画コンテンツに含まれる各顔区間のそれぞれのインデックス一覧として、顔サムネイル画像の一覧が表示され、その一覧の中から所定の顔画像サムネイルを選択することで、その顔サムネイル画像に対応する顔区間の再生指示操作を受け付けるGUI画像である。かかるGUI画像１６１を、以下、顔サムネイルGUI画像１６１と称する。

例えば図１２の例では、上述した図１のコンテンツ１が選択されたとして、そのコンテンツ１に含まれる顔区間１１乃至１４のそれぞれに対応する顔サムネイル画像２１乃至２４のそれぞれの一覧が、顔サムネイルGUI画像１６１に表示されている。

図１２の顔サムネイルGUI画像１６１が表示された状態で、例えば図１２に示されるように、ユーザは、操作部８０を操作することでカーソル２０１を所望の顔サムネイル画像の位置まで移動させ、操作部８０の所定の操作を行うことで、そのカーソル２０１が配置された顔サムネイル画像に対応する顔区間の再生指示操作を行うことができる。

例えば図１２の例ではカーソル２０１は顔サムネイル画像２２に配置されているので、図１の顔区間１２の再生指示操作が行われることになる。この場合、記録メディア５１等から動画コンテンツ１のうちの顔区間１２が読み出されて、その再生が行われる。なお、この再生の動作は、図６の構成の説明を参照することで容易に理解できると思われるので、ここではその説明は省略する。

ここで、コンテンツ１の中から顔区間１２として読み出す範囲を特定する手法の一例について、以下、簡単に説明する。上述したように、記録メディア５１に記録されている顔区間１２についての顔区間メタ情報（図５）により、コンテンツ１のうちの顔区間１２に対応する範囲の特定は可能である。従って、顔サムネイル画像２２の選択操作の前に、顔区間１２のエントリが既に行われていれば、顔区間１２についての顔区間メタ情報は、そのエントリのメタエントリとして管理情報領域１０１に記録されている（図８参照）。そこで、このメタエントリにより、顔区間１２として読み出す範囲を特定することができる。また、顔サムネイル画像２２の選択操時点で、顔区間１２のエントリが行われていなければ、その時点で、顔区間１２のエントリを行えばよい。

このような顔サムネイルGUI画像１６１に対して、GUI画像１６２においては、顔区間のインデックスとして、顔画像ではなく、その顔画像が抽出された元の静止画像全体に対応するサムネイル画像が採用されている。そこで、かかるGUI画像１６２を、以下、元シーンGUI画像１６２と称する。

例えば図１２の例では、顔サムネイル画像２１乃至２４のそれぞれが抽出された元の静止画像に対応するサムネイル画像１８１乃至１８４のそれぞれが、顔区間１１乃至１４のそれぞれのインデックスとして元シーンGUI画像１６２に表示されている。

従って、図１２の元シーンGUI画像１６２が表示された状態で、例えば図１２に示されるように、ユーザは、操作部８０を操作することでカーソル２０１を所望のサムネイル画像の位置まで移動させ、操作部８０の所定の操作を行うことで、そのカーソル２０１が配置されたサムネイル画像に対応する顔区間の再生指示操作を行うことができる。

例えば図１２の例ではカーソル２０１はサムネイル画像１８２に配置されているので、図１の顔区間１２の再生指示操作が行われることになる。すると、記録メディア５１等から動画コンテンツ１のうちの顔区間１２が読み出されて、その再生が行われる。

さらに、本実施の形態では、ユーザは、顔サムネイルGUI画像１６１上で所望の顔サムネイル画像にカーソル２０１を配置させた後、または、元シーンGUI画像１６２上で所望のサムネイル画像にカーソル２０１を配置させた後、即ち、顔サムネイルGUI画像１６１または元シーンGUI画像１６２において所定の顔区間を選択した後、操作部８０の所定の操作を行うことで、その所定の顔区間についての動画コンテンツ中の時間位置を示すタイムライン１９１を含むGUI画像１６３を表示させることができる。例えば、図１２の例では、上述したように顔区間１２が選択されているので、タイムライン１９１としては、図１の動画コンテンツ１に対応する帯状の画像が表示され、その帯状の画像内に顔区間１２を示す画像のみが表示されている。以下、このようなGUI画像１６３を、タイムラインGUI画像１６３と称する。

このタイムラインGUI画像１６３が表示された状態で、ユーザは、操作部８０の所定の操作を行うことで、そのタイムライン１９１に表示された顔区間の再生指示操作を行うことができる。

例えば図１２の例ではタイムライン１９１には、図１の顔区間１２のみが表示されているので、その顔区間１２の再生指示操作が行われることになる。すると、記録メディア５１等から動画コンテンツ１のうちの顔区間１２が読み出されて、その再生が行われる。

さらにまた、図１２の例では、１つの顔サムネイル画像２１または１つのサムネイル画像１８１が選択されているのみであるが、図１３に示されるように顔サムネイル画像２１乃至２４の全部またはサムネイル画像１８１乃至１８４の全部を選択することもできるし、或いは、それらのうちの幾つかの顔サムネイル画像またはサムネイル画像だけを選択することができる。即ち、１回の再生指示操作で複数の顔区間の選択も可能である。

この場合、１回の再生指示操作で選択された各顔区間、例えば図１３の例では顔区間１１乃至１４（図１参照）が順番に連続再生されることになる。

このように、本実施の形態では、顔区間再生選択GUI画像として、図１２に示されるような３種類のGUI画像、即ち、顔サムネイルGUI画像１６１、元シーンGUI画像１６２、および、タイムラインGUI画像１６３のそれぞれが用意されている。従って、図１４に示されるように、顔区間選択画面表示状態Ｓ５には、顔サムネイルGUI画像１６１が表示される顔サムネイル画面表示状態Ｓ５−１、元シーンGUI画像１６２が表示される元シーン画面表示状態Ｓ５−２、および、タイムラインGUI画像１６３が表示されるタイムライン画面表示状態Ｓ５−３の３状態が存在する。

顔サムネイル画面表示状態Ｓ５−１、元シーン画面表示状態Ｓ５−２、または、タイムライン画面表示状態Ｓ５−３で、上述した１以上の顔区間の再生指示操作が行われると、状態遷移条件Ｃ１４−１、Ｃ１４−２、またはＣ１４−３が満たされたと判定されて、再生装置の状態が動画再生状態Ｓ６に遷移する。

動画再生状態Ｓ６に遷移すると、制御部７１は、上述したように、再生指示操作がなされた１以上の顔区間の連続再生を行う。

１以上の顔区間の最後までの連続再生が終了したときや、途中で再生の停止操作等がなされたとき、状態遷移条件Ｃ１１が満たされたと判定されて、再生装置の状態が動画再生状態Ｓ６から動画選択画面表示状態Ｓ３−２に遷移する。

また、図示はしないが、顔サムネイルGUI画像１６１、元シーンGUI画像１６２、および、タイムラインGUI画像１６３のそれぞれには、例えば動画選択GUI画像１５０を再表示させるためのソフトウエアボタンが含まれており、かかるソフトウエアボタンを押下する操作がなされると、状態遷移条件Ｃ１３−１、Ｃ１３−２、またはＣ１３−３が満たされたと判定されて、再生装置の状態が動画選択画面表示状態Ｓ３−２に遷移する。

また、図示はしないが、顔サムネイルGUI画像１６１、元シーンGUI画像１６２、および、タイムラインGUI画像１６３のそれぞれには、例えば別の種類の顔区間選択GUI画像を表示させるためのソフトウエアボタンが含まれており、かかるソフトウエアボタンを押下する操作がなされると、状態遷移条件Ｃ２１乃至Ｃ２６のうちの何れかが満たされたと判定されて、再生装置の状態が、顔サムネイル画面表示状態Ｓ５−１、元シーン画面表示状態Ｓ５−２、および、タイムライン画面表示状態Ｓ５−３のうちの、所定の１つから選択指示された別の１つに遷移する。

以上説明したように、図６等の構成を有する本発明が適用される再生装置は、顔サムネイルGUI画像１６１等をユーザに提示して顔サムネイル画像等をユーザに選択させることで、選択された顔サムネイル画像等に対応する顔区間の再生を行うことができる。

また、ユーザは、顔サムネイル画像等を１つのみならず複数選択可能である。この場合、選択された複数の顔サムネイル画像等のそれぞれに対応する複数の顔区間が連続して再生される。例えば、上述した図１３の例では、図１の動画コンテンツ１の顔区間１１乃至１４のそれぞれに対応する顔サムネイル画像２１乃至２４またはサムネイル画像１８１乃至１８４が選択されているので、顔区間１１乃至１４がその順番で連続して再生される。

そこで、さらに、選択された１以上の顔区間を１つの新コンテンツとして、即ち、１つの新ファイルとして生成し、それを外部の記録メディア５１等に新たに記録させたり、また、ネットワークを介する等して外部の図示せぬ装置に転送する、といった手法の実現も可能である。以下、かかる手法を、一括書込転送手法と称する。

具体的には例えば、図１５の例のように、動画コンテンツ１の顔区間１１乃至１４のそれぞれに対応する顔サムネイル画像２１乃至２４が選択された後、所定の操作に応じて、顔区間１１乃至１４がその順番で再生される新コンテンツ２１１を生成し、新コンテンツ２１１のインデックスとしてのサムネイル画像２１２を動画選択GUI画像１５０に新規追加したり、新コンテンツ２１１を記録メディア５１に記録する、といった一括書込転送手法の実現も可能になる。

ただし、一括書込転送手法を装置に適用するためには、図４乃至図１４を用いて上述した内容に加えてさらに、例えば次の図１６乃至図１８に示される措置が必要となる。

即ち、上述した図１２の顔サムネイルGUI画像１６１と元シーンGUI画像１６２のそれぞれを利用して、一括書込転送手法を実現するためには、例えば、図１６に示されるように、顔サムネイルGUI画像１６１にソフトウエアボタン２５１−１乃至２５３−１を追加したり、元シーンGUI画像１６２にソフトウエアボタン２５１−２乃至２５３−２を追加するとよい。

なお、以下、ソフトウエアボタン２５１−１乃至２５３−１のそれぞれと、ソフトウエアボタン２５１−２乃至２５３−２のそれぞれとを個々に区別する必要がない場合、それらをまとめて単に、ソフトウエアボタン２５１乃至２５３のそれぞれと称する。さらに、以下、ソフトウエアボタン２５１乃至２５３のそれぞれを、図１６の記載に併せて、再生ボタン２５１、ファイル生成ボタン２５２、および、外部書込みボタン２５３のそれぞれと称する。

再生ボタン２５１とは、選択された１以上の顔サムネイル画像またはサムネイル画像のそれぞれに対応する１以上の顔区間をその順番で連続して再生させるための再生指示操作を行うソフトウエアボタンをいう。

ファイル生成ボタン２５２とは、選択された１以上の顔サムネイル画像またはサムネイル画像のそれぞれに対応する１以上の顔区間を新コンテンツとして、即ち、新ファイルとして生成し、再生装置内部のメモリ、例えば後述する図１７のRAM７３等に記憶させるための指示操作を行うソフトウエアボタンをいう。このファイル生成ボタン２５２の押下操作により、上述した図１５の新コンテンツ２１１の例のように、新コンテンツに対応するサムネイル画像が動画選択GUI画像１５０に新規追加される。従って、ユーザは、新規追加のサムネイル画像を選択することで、新コンテンツの再生指示操作を行うことが可能になる。

外部書込みボタン２５３とは、選択された１以上の顔サムネイル画像またはサムネイル画像のそれぞれに対応する１以上の顔区間を新コンテンツとして、即ち、新ファイルとして生成し、外部の記録媒体５１等に記録させたり、ネットワークを介在する等して外部の装置に転送するための指示操作を行うソフトウエアボタンをいう。この外部書込みボタン２５３の押下により、上述した図１５の新コンテンツ２１１の例のように、新コンテンツを記録メディア５１等に記録させることが可能になる。

図１７は、一括書込転送手法が適用された記録再生装置の構成例を示している。即ち、図１７は、本発明が適用される情報処理装置としての記録再生装置の構成例であって、図６とは異なる例を示している。

なお、図１７の記録再生装置において、図６の再生装置と対応する部分には対応する符号を付してあり、対応する部分については適宜説明を省略する。

上述したように、一括書込転送手法では、顔サムネイル画像等を用いて選択された１以上の顔区間を１つの新コンテンツとして、即ち、１つの新ファイルとして生成することが可能になる。ただし、複数の顔区間が選択された場合、それらの複数の顔区間のそれぞれを繋げる編集作業が必要となる。この編集作業は、例えば本実施の形態では、ベースバンド信号の状態で行われる。そこで、図１７の記録再生装置では、図６の再生装置のオーディオデコード部７４、ビデオデコード部７６、および、静止画デコード部７７のそれぞれの代わりに、デコード処理（圧縮符号化）に加えてさらにエンコード処理（伸張復号処理）も可能な各機能ブロック、即ち、オーディオエンコードデコード部２６１、ビデオエンコードデコード部２６２、および、静止画エンコードデコード部２６３のそれぞれが設けられているのである。

即ち、図１７の記録再生装置が、例えば図１５の例の新コンテンツ２１１を生成する場合には、その処理の一環として次のような処理を実行する。即ち、例えば顔区間１１乃至１４がMPEGデータの形態でRAM７３に格納されているとする。この場合、ビデオエンコードデコード部２６２は、顔区間１１乃至１４のそれぞれに対して、いわゆるMPEGエンコード処理（伸張復号処理）を施すことで、その形態をMPEGデータからベースバンド信号の形態に変換する。ベースバンド信号の顔区間１１乃至１４は、例えばRAM７３の管理情報領域１０１の画像処理用領域１１１（図７）に記憶される。制御部７１は、この顔区間１１乃至１４を繋ぎ合わせた新コンテンツ２１１をベースバンド信号の形態で生成し、ビデオエンコードデコード部２６２に提供する。すると、ビデオエンコードデコード部２６２は、新コンテンツ２１１に対していわゆるMPEGデコード処理（圧縮符号化処理）を施すことで、その形態をベースバンド信号からMPEGデータに変換し、RAM７３の実データ領域７３等に記憶させる。

なお、新コンテンツ２１１に音声が含まれる場合には、オーディオエンコードデコード部２６１によって、上述したビデオエンコードデコード部２６２と同様の処理が実行される。

また、図１７の例では、このような新コンテンツ２１１等の新コンテンツを記録メディア５１に記録させるべく、コンテンツ管理情報制御部９３が記録メディア５１に対して直接アクセスできるように構成されている。

このような図１７の構成を有する記録再生装置は、図９乃至図１４を用いて上述した処理を、図６の再生装置と全く同様に実行できる。即ち、図１７の記録再生装置は、ユーザの再生指示操作に対応する処理と、その再生指示操作を受けてコンテンツを再生する処理とを実行できる。

さらに、図１７の記録再生装置は、例えば図１８に例示されているような一括書き出し処理を実行できる。

なお、この一括書き出し処理は、記録再生装置の状態が上述した図１４の顔区間選択画面表示状態Ｓ５となっている場合に実行される。即ち、例えば本実施の形態では、上述した図１６の顔サムネイルGUI画像１６１や元シーンGUI１画像６２が画像表示部７９に表示されている状態で、一括書き出し処理が実行される。

図１８のステップＳ２１において、図１７の制御部７１のＵＩ制御部９２は、ファイル生成ボタン２５２または外部書込みボタン２５３が押下されたか否かを判定する。

ファイル生成ボタン２５２または外部書込みボタン２５３の何れもが押下されていない場合、ステップＳ２１の処理でＮＯであると判定されて、処理はステップＳ２１に戻され、再度ステップＳ２１の判定処理が繰り返される。

その後、ファイル生成ボタン２５２または外部書込みボタン２５３が押下されると、ステップＳ２１の処理でＹＥＳであると判定されて、処理はステップＳ２２に進む。

ステップＳ２２において、コンテンツ管理制御部９３は、選択されている顔サムネイル画像またはサムネイル画像に対応する部分を連続再生するためのリソースデータを生成する。

ステップＳ２３において、コンテンツ管理制御部９３は、そのリソースデータを含む一時フォルダをRAM７３の管理情報領域１０１に生成する。

具体的には例えば、図１９の例のように、顔サムネイルGUI画像１６１が利用されて、顔サムネイル画像２１乃至２４が選択された後、ファイル生成ボタン２５２−１または外部書込みボタン２５３−１が押下されたとする。

この場合、顔サムネイル画像２１乃至２４のそれぞれは顔区間１１乃至１４のそれぞれのインデックスとされていることから、ステップＳ２２の処理で、顔区間１１乃至１４のそれぞれを再生するためのリソースデータ２７１乃至２７４が生成され、ステップＳ２３の処理で、それらを含む一時フォルダ２６１がRAM７３の管理情報領域１０１に記録される。ここで、リソースデータ２７１乃至２７４とは、例えば顔区間１１乃至１４についての顔区間メタ情報と顔サムネイルとの組（図４参照）を含むデータである。

図１８のステップＳ２４において、UI制御部９２は、押下されたボタンは、ファイル生成ボタン２５２であるか否かを判定する。

ファイル生成ボタン２５２が押下された場合には、ステップＳ２４の処理でＹＥＳであると判定されて、処理はステップＳ２５に進む。

ステップＳ２５において、コンテンツ管理情報制御部９３は、RAM７３の共通管理情報領域に一時フォルダの情報を書き込むことで、その一時フォルダを恒久的なフォルダにする。これにより、一括書き出し処理は終了となる。

これに対して、外部書込みボタン２５３が押下された場合には、ステップＳ２４の処理でＮＯであると判定されて、処理はステップＳ２６に進む。

ステップＳ２６において、コンテンツ管理情報制御部９３とシステム制御部９１は、一時フォルダ内のリソースデータと実データとを一体にした新コンテンツをファイルとして作成する。なお、実データの作成処理については、ビデオエンコードデコード部２６２の説明等で上述したとおりである。

ステップＳ２７において、コンテンツ管理情報制御部９３は、新コンテンツをファイルとして外部の記録メディア５１等に記録させる。これにより、一括書き出し処理は終了となる。

なお、図１７の例では図示していないが、記録再生装置が、他の装置との通信機能を有していれば、ステップＳ２７の処理として、その通信機能を利用して、新コンテンツを他の装置に送信するようにしてもよい。

ところで、上述した例では、顔サムネイル画像は動画コンテンツに対応付けられていたが、顔サムネイル画像は静止画コンテンツに対応付けることも可能である。これにより、ユーザは、動画コンテンツの場合と全く同様に、顔サムネイル画像の一覧が表示されたGUI画像を利用して、静止画コンテンツの検索操作や再生指示操作を行うことができる。

ただし、再生指示操作で指定可能な静止画コンテンツの数は、動画コンテンツに比較すると遥かに多い場合が多々ある。このような場合には、静止画コンテンツの全てに対応する顔サムネイル画像の一覧を表示させるよりも、例えば、同一人物が含まれると判断される静止画コンテンツを１つのグループにまとめ、そのグループに属する静止画像のうちの所定の１枚の顔サムネイル画像を代表顔サムネイル画像として、各グループの代表顔サムネイル画像の一覧を表示させる方が、ユーザにとって便宜である。

具体的には例えば、図２０に示されるように、記録メディア５１に記録されている静止画コンテンツが、３人のそれぞれの人物を示す３つのグループに属するとすれば、３つのグループのそれぞれに対してフォルダ２７１乃至２７３（以下、人物フォルダ２７１乃至２７３と称する）のそれぞれを設け、それらの人物フォルダ２７１乃至２７３のそれぞれの中に、対応するグループに属する１以上の静止画像のそれぞれを表示するための各リソースデータを含めればよい。例えばリソースデータとしては、対応する顔サムネイル画像と、その顔サムネイル画像と静止画コンテンツのリンク情報とを含むデータを採用することができる。

この場合、この人物フォルダ２７１乃至２７３は、記録メディア５１等に予め記憶させておいてもよいし、図６の再生装置等により後程生成されて自身のRAM７３の管理情報領域１０１等に記憶されるようにしてもよい。

以下、人物フォルダ２７１乃至２７３がRAM７３の管理情報領域１０１等に記憶されている場合に実現可能な図６の再生装置の処理例について説明する。

この場合、再生装置の状態は、上述した図９の各状態のうちの未説明の静止画像選択画面表示状態Ｓ３−３を取り得る。

静止画像選択画面表示状態Ｓ３−３とは、静止画選択GUI画像を表示している状態をいう。

静止画選択GUI画像とは、各人物ファイルのインデックスとして、対応する代表顔サムネイル画像等が一覧表示され、所望の人物ファイルに対応する代表顔サムネイル画像を選択する操作を受け付けるGUI画像等のGUI画像をいう。ここに、「等」と記載したのは、左記のGUI画像により１つの人物ファイルが選択された後に、その人物ファイルに含まれる各サムネイル画像等が一覧表示されるGUI画像も、静止画選択GUI画像のひとつとして含むからである。なお、静止画選択GUI画像の具体例については、図２２乃至図２５を用いて後述する。

このような静止画選択GUI画像を表示させるためのソフトウエアボタンが、図示はしないが、一般表示状態Ｓ３−１において表示されるファイル選択GUI画像に含まれており、かかるソフトウエアボタンを押下する操作がなされると、状態遷移条件Ｃ８が満たされたと判定されて、再生装置の状態が一般表示状態Ｓ３−１から静止画選択画面表示状態Ｓ３−３に遷移する。

静止画選択画面表示状態Ｓ３−３に遷移すると、図６の制御部７１は、静止画選択GUI画像の表示処理を実行する。

具体的には例えば本実施の形態では、静止画選択画面表示状態Ｓ３−３には、図２１に示されるように、静止画一覧画面表示状態Ｓ３１、顔サムネイル画面表示状態Ｓ３２、顔サムネイル元画像画面表示状態Ｓ３３、および、選択人物元画像一覧画面表示状態Ｓ３４の４状態が存在する。

一般表示状態Ｓ３−１からは、これら４状態のうちの静止画一覧画面表示状態Ｓ３１に遷移する。即ち、静止画一覧画面表示状態Ｓ３１が、静止画選択画面表示状態Ｓ３−３のデフォルト状態である。

静止画一覧画面表示状態Ｓ３１に遷移すると、制御部７１は、静止画一覧GUI画像の表示処理を実行する。

なお、図示はしないが、静止画一覧GUI画像には、例えばファイル選択GUI画像を再表示させるためのソフトウエアボタンが含まれており、かかるソフトウエアボタンを押下する操作がなされると、状態遷移条件Ｃ９が満たされたと判定されて、再生装置の状態が静止画一覧画面表示状態Ｓ３１から一般表示状態Ｓ３−１に遷移する。

ここに、静止画一覧GUI画像とは、例えば図示はしないが、選択されたフォルダ内にファイルとして含まれる全ての静止画コンテンツのインデックスの一覧表示として、その静止画コンテンツ自身に対応するサムネイル画像の一覧が表示され、その一覧の中から所望のサムネイル画像を選択する操作を受け付けるGUI画像をいう。

この静止画一覧GUI画像が表示された状態で所定のサムネイル画像が選択されると、即ち、そのサムネイル画像に対応する静止画コンテンツの再生指示がなされると、状態遷移条件Ｃ１５−１が満たされたと判定されて、再生装置の状態が静止画一覧画面表示状態Ｓ３１から静止画表示状態Ｓ４に遷移する。

静止画表示状態Ｓ４に遷移すると、制御部７１は、再生指示操作がなされた静止画コンテンツの再生を行う。即ち、状態遷移条件Ｃ１５−１が満たされて静止画表示状態Ｓ４に遷移すると、記録メディア５１等から静止画コンテンツが読み出されて、その再生が行われる。即ち図６の画像表示部７９に静止画像が表示される。なお、この静止画コンテンツの再生の動作は、動作対象のひとつとして図６のビデオデコード部７６の代わりに静止画デコード部７７が利用される以外は、動画コンテンツの再生動作と基本的に同様であるので、ここではその説明は省略する。

静止画コンテンツの再生の停止操作等がなされたとき、状態遷移条件Ｃ１６−１が満たされたと判定されて、再生装置の状態が静止画表示状態Ｓ４から静止画一覧画面表示状態Ｓ３１に遷移する。

ところで、上述したように、静止画一覧GUIではサムネイル画像として全ての静止画コンテンツ自体が表示されることになるので、その静止画コンテンツの数が多いときは、サムネイル画像の数もその分多くなる。従って、そのような数多くのサムネイル画像の中から所望の１つを選択するのはユーザにとって酷である。

そこで、本実施の形態では、上述したように、人物フォルダ毎に、各人物を示す代表顔サムネイル画像が１つずつ対応付けられており、かかる代表顔サムネイル画像の一覧が表示され、その一覧から所望の代表顔サムネイル画像の選択を受け付けるGUI画像が設けられている。以下、かかるGUI画像も、顔サムネイルGUI画像と称する。

図示はしないが、静止画一覧GUI画像には、例えば顔サムネイルGUI画像を表示させるためのソフトウエアボタンが含まれており、かかるソフトウエアボタンを押下する操作がなされると、状態遷移条件Ｃ５１が満たされたと判定されて、再生装置の状態が静止画一覧画面表示状態Ｓ３１から顔サムネイル画面表示状態Ｓ３２に遷移する。

顔サムネイル画面表示状態Ｓ３２に遷移すると、制御部７１は、顔サムネイルGUI画像の表示処理を実行する。

これにより、例えば図２２に示されるような顔サムネイルGUI画像３０１が表示される。図２２の例では、４つの人物フォルダのそれぞれのインデックスとしての代表顔サムネイル画像３１１乃至３１４の一覧が、顔サムネイルGUI画像３０１に表示されている。

なお、実際には、代表顔サムネイル画像３１１乃至３１４のそれぞれには、人物の顔の画像が含まれることになるが、図２２の例では説明を容易なものとするために、人物の名称を示すα乃至θが図示されている。即ち、図２２の例では、代表顔サムネイル画像３１１は、人物αの人物フォルダのインデックスであり、実際には人物αの顔の画像が含まれる。同様に、代表顔サムネイル画像３１２は、人物βの人物フォルダのインデックスであり、実際には人物βの顔の画像が含まれる。代表顔サムネイル画像３１３は、人物γの人物フォルダのインデックスであり、実際には人物γの顔の画像が含まれる。代表顔サムネイル画像３１４は、人物θの人物フォルダのインデックスであり、実際には人物θの顔の画像が含まれる。

なお、本実施の形態ではさらに、図２３に示されるGUI画像３０２、即ち、人物フォルダのインデックスとして、代表顔画像ではなく、その代表顔画像が抽出された元の静止画像がサムネイル画像として表示されたGUI画像３０２も用意されている。そこで、かかるGUI画像３０２を、以下、顔サムネイル元画像GUI画像３０２と称する。

例えば図２３の例では、図２２の代表顔サムネイル画像３１１乃至３１４のそれぞれが抽出された元の静止画像であるサムネイル画像３２１乃至３２４の一覧が、顔サムネイル元画像GUI画像３０２に表示されている。なお、カーソル３３１については後述する。

図示はしないが、図２２の顔サムネイルGUI画像３０１には、例えば図２３の顔サムネイル元画像GUI画像３０２を表示させるためのソフトウエアボタンが含まれており、かかるソフトウエアボタンを押下する操作がなされると、図２１の状態遷移条件Ｃ５３が満たされたと判定されて、再生装置の状態が顔サムネイル画面表示状態Ｓ３２から顔サムネイル元画像画面表示状態Ｓ３３に遷移する。

顔サムネイル元画像画面表示状態Ｓ３３に遷移すると、制御部７１は、顔サムネイル元画像GUI画像３０２の表示処理を実行する。これにより、例えば図２３の顔サムネイル元画像GUI画像３０２が表示される。

また、図示はしないが、図２３の顔サムネイル元画像GUI画像３０２には、例えば図２２の顔サムネイルGUI画像３０１を表示させるためのソフトウエアボタンが含まれており、かかるソフトウエアボタンを押下する操作がなされると、図２１の状態遷移条件Ｃ５４が満たされたと判定されて、再生装置の状態が顔サムネイル元画像画面表示状態Ｓ３３から顔サムネイル画面表示状態Ｓ３２に遷移する。

また、図２２の顔サムネイルGUI画像３０１が表示された状態で、例えば図２４に示されるように、ユーザは、操作部８０を操作することでカーソル３４１を所望の代表顔サムネイル画像３１１の位置まで移動させ、操作部８０の所定の操作を行うことで、そのカーソル３４１が配置された代表顔サムネイル画像３１１に対応する人物フォルダ、即ち、人物αの人物フォルダの再生指示操作を行うことができる。

同様に、図２３の顔サムネイル元画像GUI画像３０２が表示された状態で、例えば同図に示されるように、ユーザは、操作部８０を操作することでカーソル３３１を所望のサムネイル画像３２１の位置まで移動させ、操作部８０の所定の操作を行うことで、そのカーソル３３１が配置されたサムネイル画像３２１に対応する人物フォルダ、即ち、人物αの人物フォルダの再生指示操作を行うことができる。

このようにして、図２４の顔サムネイルGUI画像３０１が表示された状態で人物αの人物フォルダの再生指示操作が行われ場合には、図２１の状態遷移条件Ｃ５５が満たされ、また、図２３の顔サムネイル元画像GUI画像３０２が表示された状態で人物αの人物フォルダの再生指示操作が行われ場合には、状態遷移条件Ｃ５７が満たされ、その結果、再生装置の状態は選択人物元画像一覧画面表示状態Ｓ３４に遷移する。

選択人物元画像一覧画面表示状態Ｓ３４に遷移すると、制御部７１は、選択人物元画像一覧GUI画像の表示処理を実行する。

ここに、選択人物元画像一覧GUI画像とは、選択された人物フォルダ内に含まれる全ての静止画コンテンツ自身、即ち、選択された人物を含む静止画コンテンツ自身がサムネイル画像として一覧表示され、所定のサムネイル画像を選択する操作を受け付けるGUI画像をいう。

例えばここでは、人物αの人物フォルダが選択されたので、図２５に示されるように、人物αを含む静止画像３５１乃至３５６がサムネイル画像として一覧表示された選択人物元画像一覧GUI画像３０３が表示される。

なお、図示はしないが、この選択人物元画像一覧GUI画像３０３には、例えば図２２の顔サムネイルGUI画像３０１を表示させるためのソフトウエアボタンが含まれており、かかるソフトウエアボタンを押下する操作がなされると、図２１の状態遷移条件Ｃ５６が満たされたと判定されて、再生装置の状態が選択人物元画像一覧画面表示状態Ｓ３４から顔サムネイル画面表示状態Ｓ３２に遷移する。

図２５の選択人物元画像一覧GUI画像３０３が表示された状態で、例えば同図に示されるように、ユーザは、操作部８０を操作することでカーソル３６１を所望のサムネイル画像３５６の位置まで移動させ、操作部８０の所定の操作を行うことで、そのカーソル３６１が配置されたサムネイル画像３５６に対応する静止画コンテンツの再生指示操作を行うことができる。

このようにして静止画コンテンツの再生指示がなされると、図２１の状態遷移条件Ｃ１５−２が満たされたと判定されて、再生装置の状態が選択人物元画像一覧画面表示状態Ｓ３４から静止画表示状態Ｓ４に遷移する。

静止画表示状態Ｓ４に遷移すると、制御部７１は、再生指示操作がなされた静止画コンテンツの再生を行う。即ち、状態遷移条件Ｃ１５−１が満たされて静止画表示状態Ｓ４に遷移すると、記録メディア５１等から静止画コンテンツが読み出されて、その再生が行われる。具体的には例えば、図２６に示されるように、再生対象の静止画像３５６を含むGUI３０４が表示される。

なお、説明の簡略上、図２５と図２６の静止画像３５６は同符号が付されているが、実際には、図２６の静止画像３５６がオリジナルサイズ（オリジナル解像度）であり、そのオリジナルサイズの縮小画像等が、図２５の選択人物元画像一覧GUI画像３０３におけるサムネイル画像として利用されている。

静止画コンテンツの再生の停止操作等がなされたとき、図２１の状態遷移条件Ｃ１６−２が満たされたと判定されて、再生装置の状態が静止画表示状態Ｓ４から選択人物元画像一覧画面表示状態Ｓ３４に遷移する。

以上、図２１乃至図２６を用いて、静止画コンテンツの再生指示操作に対する処理の説明をしたが、その処理の実行主体は図６の構成の再生装置とされた。ただし、その実行主体は図６の再生装置に限定されず、例えば上述した図１７の記録再生装置も動作主体となり得る。

この場合、図１７の記録再生装置は、図１５を用いて上述した一括書込転送手法が適用可能であることから、かかる一括書込転送手法を静止画コンテンツに対した処理として、例えば次のような処理も実行できる。即ち、図１７の記録再生装置は、上述した人物フォルダを新たに生成し、その新たな人物フォルダに対応する代表顔サムネイル画像を図２２の顔サムネイルGUI画像３０１に追加したり、その新たな人物フォルダと、対応する幾つかの静止画コンテンツとを、外部の記録メディア５１に新たに記録させたり、また、ネットワークを介する等して外部の図示せぬ装置に転送することもできる。

具体的には例えば、図２７に示されるように、静止画一覧GUI画像３６１に、図１６と同様の再生ボタン２５１−３、ファイル生成ボタン２５２−３、および、外部書込みボタン２５３−３を追加することで、図１７の記録再生装置は例えば次のような処理を実行できる。

なお、図２７の例では、静止画一覧GUI画像３６１におけるサムネイル画像３７１乃至３７４のそれぞれは、静止画コンテンツ３８１乃至３８４のそれぞれのインデックスとされている。

例えばここで、静止画一覧GUI画像３６１において、サムネイル画像３７１乃至３７４の全てが選択された後、ファイル生成ボタン２５２−３または外部書込みボタン２５３−３が押下されたとする。

この場合、図１７の記録再生装置の制御部７１は、静止画コンテンツ３８１乃至３８４のそれぞれを再生するためのリソースデータ３９１乃至３９４を生成して、それらを含む一時フォルダ３９８を例えばRAM７３の管理情報領域１０１に記録する。ここで、リソースデータ３９１乃至３９４として、例えば上述したように、静止画コンテンツ３８１乃至３８４のそれぞれについての、対応する顔サムネイル画像と、その顔サムネイルと自身のリンク情報とを含むデータを採用することができる。この場合、これらの顔サムネイル画像のうちの所定の1枚を代表顔サムネイル画像として採用することができる。

そして、ファイル生成ボタン２５２−３が押下された場合には、図１７のコンテンツ管理情報制御部９３は、RAM７３の共通管理情報領域に一時フォルダ３９８の情報を書き込むことで、その一時フォルダ３９８を恒久的なフォルダにする。これにより、一括書き出し処理は終了となる。

これに対して、外部書込みボタン２５３−３が押下された場合には、図１７のコンテンツ管理情報制御部９３とシステム制御部９１は、一時フォルダ３９８内のリソースデータ３９１乃至３９４と静止画コンテンツ３８１乃至３８４とを一体にした新コンテンツをファイルとして作成する。そして、コンテンツ管理情報制御部９３は、新コンテンツをファイルとして外部の記録メディア５１に記録させたり、図示せぬ他の装置に送信する。

以上、本発明が適用される情報処理装置の実施の形態として、図４の記録メディア５１に記録されている動画コンテンツまたは静止画コンテンツを再生可能な装置であって、顔サムネイル画像を利用した再生指示操作のGUIを提供可能な装置について説明してきた。

次に、本発明が適用される情報処理装置の実施の別の形態として、顔サムネイル画像を利用した再生指示操作のGUIを提供可能とするように、動画コンテンツや静止画コンテンツを記録媒体５１等に記録する画像記録装置について説明する。

図２８は、かかる画像記録装置の機能的構成例を示している。

図２８の例では、画像記録装置４０１は、制御部４１１乃至書込部４１５を含むように構成されている。

制御部４１１は、例えばCPU（Central Processing Unit）等で構成され、図示せぬROM（Read Only Memory）等に記憶されているプログラムに従って各種の制御処理を実行する。即ち、制御部４１１は、撮像部４１２乃至書込部４１５のそれぞれの動作を制御する。

撮像部４１２は、例えばデジタルビデオカメラ等で構成され、被写体を撮像し、その撮像の結果得られる画像信号を例えばベースバンド信号の形態で画像加工部４１３に提供する。

画像加工部４１３は、撮像部４１２からの画像信号に対して各種画像処理を施すことで、画像信号に対応する動画像または静止画像に対して各種加工を施し、各種加工後の動画像または静止画像に対応する画像信号をベースバンド信号の形態で画像圧縮部４１４に提供する。なお、詳細については後述するが、ここでいう「画像の加工」として、上述した顔区間の特定や、その顔区間のインデックスとしての顔サムネイル画像やサムネイル画像の作成も含まれており、かかる顔区間の情報や、顔サムネイル画像やサムネイル画像も所定のデータとして画像加工部４１３から出力されて、制御部４１１や書込部４１５に提供される。

画像圧縮部４１４は、撮像部４１２から画像加工部４１３を介してベースバンド信号の形態で提供されてきた画像信号に対して、所定の圧縮符号化処理を施し、例えば動画像信号であればいわゆるMPEGデコード処理を施し、その結果得られる圧縮画像データを書込部４１５に提供する。なお、後述するように、この圧縮画像データ（MPEGデータ等）は、顔区間検出用の画像信号として画像加工部４１３に提供される場合もある。

書込部４１５は、画像圧縮部４１４から提供されてきた画像データを画像コンテンツとして、即ち、１ファイルとして記録メディア５１に書き込むとともに、その画像コンテンツのリソースデータも記録メディア５１に書き込む。このリソースデータの中には、画像加工部４１３または制御部４１１から提供された顔サムネイル画像や顔区間の情報を含む。即ち、顔サムネイル画像や顔区間の情報が、上述した図４の顔サムネイルと顔区間メタ情報との組として、記録メディア５１のリソースデータ領域５３に書き込まれる。

図２９は、かかる画像記録装置４０１のうちの画像加工部４１３の詳細な機能的構成例を示している。

図２９の例では、画像加工部４１３は、ノイズ除去部４２１乃至画像情報検出部４２７を含むように構成されている。

ノイズ除去部４２１は、制御部４１１の制御に基づいて、撮像部４１２から提供される画像信号に対して、その画像信号に対応するカメラ撮像画像に含まれる不要なノイズを除去するノイズ除去処理を施し、その結果得られる画像信号を拡大／縮小部４２３に提供する。

具体的には例えば、ノイズ除去部４２１は、そのノイズ除去処理として、フレームメモリ４２２を用いて次のような処理を実行する。即ち、ノイズ除去部４２１は、フレームメモリ４２２から読み出すノイズ除去後の１フレーム前（処理対象フレームに対して1つ前）の画像信号と、撮像部４１２から現時点で入力されてくる処理対象フレームについての画像信号とを用いて、２つの画像信号間から得られるノイズ成分を、処理対象フレームについての画像信号から除去する。そして、ノイズ除去部４２１は、ノイズが除去された処理対象フレームについての画像信号を、拡大／縮小部４２３に提供する。かかる画像信号はまた、次のフレームが処理対象フレームとなったときに１フレーム前の画像信号として利用されるように、フレームメモリ４２２に書き戻される。なお、その際、除去する強度調節パラメータが制御部４１１から提供されるので、ノイズ除去部４２１においては、カメラ撮像画像に応じたノイズ除去処理がなされる。

拡大／縮小部４２３は、制御部４１１からの所定の拡大率あるいは縮小率の指示に従って、ノイズ除去部４２１からの画像信号に対して拡大または縮小処理を施し、その結果得られる画像信号を信号変換部４２４に提供する。なお、制御部４１１からの指示がない場合、または拡大率若しくは縮小率として等倍率が指示された場合、拡大／縮小部４２３は、画像信号をそのまま、即ち、そのままの画像のサイズの状態で、信号変換部４２４に提供する。

信号変換部４２４は、拡大／縮小部４２３から提供された画像信号に対して、制御部４１１から指示されたビデオエフェクト種類についての画像処理を施し、その結果得られる画像信号を画像合成部４２５に提供するとともに、画像情報検出部４２７に提供する。信号変換部４２４の画像処理の種類は特に限定されず、例えば、セピアやモノクロやネガポジ反転に変換したり、モザイク処理やぼかし処理などを採用できる。なお、信号変換部４２４は、拡大／縮小部４２３から提供された画像信号を、何の画像処理も施さずに、即ち何の加工もせずにそのまま画像合成部４２５等に提供することもある。

画像合成部４２５は、信号変換部４２４から提供された画像信号に対して、制御部４１１から指示された合成種類についての合成処理を施して、その結果得られる画像信号を画像圧縮部４１４に提供する。なお、画像合成部４２５の画像処理の種類は特に限定されず、例えば、フレームメモリ４２６に事前に用意されたグラフィック画像とαブレンディングによる透過合成を施す合成処理や、フレームメモリ４２６に事前に用意された画像との間で時間軸に沿って徐々に遷移させるフェーダー合成処理、即ちフェードインやフェードアウト処理等を採用することができる。なお、画像合成部４２５は、信号変換部４２４から提供された画像信号に対して、何の合成処理も施さずに、即ち何の画像も合成せずにそのまま画像圧縮部４１４に出力することもある。

画像情報検出部４２７は、制御部４１１の制御に基づいて、信号変換部４２４または画像圧縮部４１４からの画像信号に対して各種画像処理を施すことで、文字情報や顔情報を抽出し、書込部４１５や制御部４１１に提供する。ここに顔情報とは、上述した顔区間の情報や顔サムネイル画像等を含む情報である。

図３０は、かかる画像情報検出部４２７の詳細な機能的構成例を示している。

図３０の例では、画像情報検出部４２７は、静止画生成部４３１、顔画像処理部４３２、および、サムネイル生成部４３３を含むように構成されている。

静止画生成部４３１は、信号変換部４２４または画像圧縮部４１４から提供された画像信号から、静止画像を画像データの形式で生成し、顔画像処理部４３２に提供する。なお、信号変換部４２４または画像圧縮部４１４から静止画像に対応する画像信号が提供された場合には、その画像信号はそのまま顔画像処理部４３２に提供される。

顔画像処理部４３２は、制御部４１１の制御に基づいて、静止画生成部４３１により提供された静止画像から人物の顔を検出し、その人物の顔画像を静止画像から抽出する等の各種処理を実行する。これらの各種処理結果は、制御部４１１やサムネイル生成部４３３に提供される。なお、ここでいう各処理結果の一例として、例えば後述する図３５の顔画像テーブル等が挙げられる。

サムネイル生成部４３３は、制御部４１１の制御に基づいて、顔画像処理部４３２または制御部４１１からの情報を利用して、上述した顔区間を特定し、またその顔区間のインデックスとしての顔サムネイル画像等を生成し、その結果得られる顔区間の情報や顔サムネイル画像等を制御部４１１や書込部４１５に提供する。

次に、図３１のフローチャートを参照して、図３０の画像情報検出部４２７や制御部４１１等が実行するリソースデータ生成記録処理の一例について説明する。

ここに、図３１に例示されているリソースデータ生成記録処理とは、上述した図４の記録メディア５１に対して動画コンテンツ６４−Ｋとともに記録されるリソースデータ６５−Ｋのうちの、特に顔サムネイルと顔区間メタ情報との組についての処理であって、具体的には、その組が生成されて記録メディア５１に記録されるまでの一連の処理をいう。

なお、図３１のフローチャートは、画像圧縮部４１４からMPEGデータの形態で画像信号が提供される場合の例を示している。即ち、図３１の例では、MPEGデータを構成する複数のGOPが所定の順番で順次画像情報検出部４２７に提供されてくることが前提とされている。換言すると、図３１は、図２を用いて上述した静止画像を生成する単位が１GOP単位の場合の例を示している。従って、かかる単位が１GOP単位以外の場合であっても、後述する処理対象GOPをかかる単位に置き換えることで、後述するリソースデータ生成記録処理が実行できる。

図３１のステップＳ１０１において、画像情報検出部４２７の静止画生成部４３１は、最新のGOPを処理対象GOPに設定する。

ステップＳ１０２において、静止画生成部４３１は、処理対象GOPから静止画像を生成する。なお、ステップＳ１０２における静止画像の生成手法は特に限定されないが、ここでは、MPEGデータのGOPが提供されてきているので、図３を用いて上述した手法を採用することができる。

ステップＳ１０３において、静止画生成部４３１は、静止画像のサイズを変更する。

サイズ変更後の静止画像が静止画生成部４３１から顔画像処理部４３２に提供されると、処理はステップＳ１０４に進む。

ステップＳ１０４において、顔画像処理部４３２は、静止画像から顔の検出を試みる。なお、顔の検出手法自体は特に限定されないが、ここでは、静止画像に複数の顔が含まれている場合には１つの顔ずつ順次検出する手法が採用されているとする。

ステップＳ１０５において、顔画像処理部４３２は、顔が検出されたか否かを判定する。

ステップＳ１０５において、１つの顔を検出したと判定した場合、顔画像処理部４３２は、ステップＳ１０６において、その検出した１つの顔に関する顔検出情報を生成する。かかる顔検出情報については後述する。

その後、処理はステップＳ１０４に戻され、それ以降の処理が繰り返される。即ち、静止画像に複数の顔が含まれている場合には、それらの複数の顔が順次検出され、それらの複数の顔のそれぞれに関する顔検出情報が順次生成される。

ここで、図３２と図３３を用いて、顔検出情報の具体例について説明する。

例えば、ステップＳ１０１の処理で、図３２に示されるGOPが処理対象GOPに設定されて、ステップＳ１０２の処理で静止画像５０１が生成され、ステップＳ１０３の処理で静止画像５０１のサイズが変更されて、その結果、静止画像５０２が得られたとする。

この静止画像５０２には、図３３に示されるように顔の領域５０２−１，５０２−２（以下単に、顔５０２−１，５０２−２と称する）が含まれているとする。

この場合、ステップＳ１０４の処理で顔５０２−１が検出され、ステップＳ１０５の処理でＹＥＳであると判定された後、ステップＳ１０６の処理で、図３３に示される顔検出情報５０３−１が生成される。

図３３の例では、顔検出情報５０３−１には、GOP番号、顔ID、位置、高さ、幅、サイズ、および類似度（スコア）が含まれている。GOP番号とは、例えば処理対象GOPに付されている番号である。顔IDとは、例えば顔５０２−１を他の顔と区別するための識別子である。位置とは、例えば顔５０２−１の静止画像５０２における位置、具体的には例えば、左上端の画素の位置である。高さとは、例えば顔５０２−１の高さ方向の画素数である。幅とは、例えば顔５０２−１の横方向の画素数である。サイズとは、例えば顔５０２−１のサイズ、即ち解像度である。なお、類似度（スコア）については、後述するが、ステップＳ１０６の処理の段階では、所定の初期値、例えば０が代入されるとする。

このような顔検出情報５０３−１が生成されると、処理はステップＳ１０４に戻されて、今度は、顔５０２−２が検出され、ステップＳ１０５の処理でＹＥＳであると判定された後、ステップＳ１０６の処理で図３３に示される顔検出情報５０３−２が生成される。

その後、処理はステップＳ１０４に戻されるが、この時点になると、静止画像５０２には未検出の顔は含まれていないので、ステップＳ１０５の処理でＮＯであると判定されて、処理はステップＳ１０７に進む。

以下引き続き、図３１のステップＳ１０７以降の処理について説明する。

ステップＳ１０７において、顔画像処理部４３２は、１以上の顔検出情報が生成されたか否かを判定する。

図示はしないが、静止画像に１つの顔も含まれていない場合、当然ながら顔は検出されず、顔検出情報も生成されない。従って、このような場合、ステップＳ１０７の処理でＮＯであると判定されて、処理はステップＳ１１０に進む。ただし、ステップＳ１１０以降の処理については後述する。

これに対して、静止画像に1以上の顔が含まれており、これらのうちの少なくとも１つの検出に成功した場合には、顔検出情報も少なくとも１つ生成される。従って、このような場合、ステップＳ１０７の処理でＹＥＳであると判定されて、処理はステップＳ１０８に進む。

ステップＳ１０８において、顔画像処理部４３２は、１以上の顔検出情報のそれぞれに基づいて、静止画像から１以上の顔画像のそれぞれを切り出す。

具体的には例えば上述した図３３に示される２つの顔検出情報５０３−１，５０３−２が生成された場合には、図３４に示されるような顔画像５１１−１，顔画像５１１−２が切り出される。ここに、顔画像５１１−１とは、図３３の静止画像５０２のうちの顔５０２−１に対応する静止画像である。また、顔画像５１１−２とは、図３３の静止画像５０２のうちの顔５０２−２に対応する静止画像である。

次に、図３１のステップＳ１０９において、顔画像処理部４３２は、図３５に示されるようなテーブルの生成や更新をするために必要な各種処理を実行する。

例えば処理対象GOPの番号が１であった場合には、図３５に示されるようなテーブルが新規に生成される。その新規生成された段階のテーブルは、代表顔画像とGOP番号１の行のみから構成されている。その後、処理対象GOPが番号ｉ（ｉは図３５の例では１乃至ｎのうちの何れかの値）になると、図３５のテーブルのうちの、GOP番号ｉに対応する行が追加され、そのGOP番号iの各項目に対して、「顔情報」または「無」の情報が記載されることで、テーブルの更新が行われていく。

即ち、図３５のテーブルにおいてGOP番号ｉの行は、番号ｉのGOPについての次のような情報が記載される。即ち、図３５の各列は、現在リソースデータの生成対象となっている動画コンテンツの各登場人物を示している。なお、図３５の例では、説明を容易なものとするために、各列の一番上には、登場人物の名としてＡ乃至Ｈが記載されているが、実際のテーブルにはかかる記載は必須ではない。また、ここでは、１つの列に対応する人物は、他の列に対応する人物とは別人物であるとするが、実世界においては同一人物である場合もある。即ち、詳細については図３６を用いて後述するが、例えば人物Ｂと人物Ｄとは、実世界において同一人物（図３６でいう実人物ｂ）であるが、図３５の例では別人物として判断されている。

例えば、図３５のテーブルの一番左方の列、即ち人物Ａを示す列において、一番上の行には、人物Ａの代表顔画像が画像データの形態で格納される。人物Ａの代表画像とは、例えば、番号１乃至ｎのそれぞれのGOPに対して実行された図３１のステップＳ１０８の処理において、それぞれ切り出された人物Ａの顔画像のうちの所定の１枚をいう。なお、例えば本実施の形態では、最初に切り出された顔画像が代表画像として採用される。

また、人物Ａを示す列において、番号ｉの行には、「顔情報」または「無」が記載される。番号ｉの行に「顔情報」が記載されている場合には、番号ｉのGOPから生成された静止画像に人物Ａが含まれていると判断されたことを意味する。これに対して、番号ｉの行に「無」が記載されている場合には、番号ｉのGOPから生成された静止画像に人物Ａが含まれていないと判断されたことを意味する。なお、人物Ａが含まれるか否かの判断の手法は、特に限定されない。かかる手法の具体例については、例えば図３８乃至図４１を用いて後述する。

なお、以下、このような図３５のテーブルを顔画像テーブルと称する。また、以下、上述したような図３１のステップＳ１０９の処理、即ち、処理対象GOPの番号が１の場合には図３５の顔画像テーブルを生成してGOP番号１の行の各項目に「顔情報」または「無」を記載し、また、処理対象GOPの番号がｉの場合には図３５の顔画像テーブルのうちのGOP番号ｉの行の各項目に「顔情報」または「無」を記載する処理を、顔画像テーブル生成／更新処理と称する。

なお、ステップＳ１０９の顔画像テーブル生成／更新処理の詳細例については、図３８乃至図４２を参照して後述する。

このようなステップＳ１０９の顔画像テーブル生成／更新処理が終了すると、図３１に示されるように、処理はステップＳ１１０に進む。

ステップＳ１１０において、顔画像処理部４３２は、処理対象GOPは最後のGOPであるか否かを判定する。

処理対象GOPが最後のGOPではない場合、処理はステップＳ１０１に戻されそれ以降の処理が繰り返される。即ち、例えば図３５の例では、番号ｎのGOPが最後のGOPであるので、番号１乃至ｎのそれぞれのGOPに対してステップＳ１０１乃至Ｓ１１０のループ処理が繰り返し実行される。

そして、最後の番号ｎのGOPについてのステップＳ１０９の顔画像テーブル生成／更新処理が終了すると、顔画像テーブルの記載状態は図３５に示される状態となり、次のステップＳ１１０の処理でＹＥＳであると判定される。すると、図３５の記載状態の顔画像テーブルがサムネイル生成部４３３に提供されて、処理はステップＳ１１１に進む。

ステップＳ１１１において、サムネイル生成部４３３は、顔画像テーブルに基づいて、各人物毎に、顔サムネイル画像の生成と顔区間の特定をそれぞれ行う。

ステップＳ１１１における各人物とは、顔画像テーブルに登録されている各人物、具体的には例えば図３５の例では人物Ａ乃至Ｈをいう。

ここで、図３６と図３７を参照して、ステップＳ１１１の処理についてさらに詳しく説明する。

図３６は、図３５の例の顔画像テーブルのうちの人物Ａ乃至Ｅまでの情報を、タイミングチャート形式に描き直した図である。図３６において、横軸は、GOP番号を示している。また、図３６中一番上から、実人物ａ、実人物ｂ、実人物c、および実人物ｄのそれぞれについてのタイミングチャートが示されている。これらの各タイミングチャートは、楕円が内在する四角の横方向への積み重ねにより構成されている。この楕円が内在する四角は、所定のGOPから抽出された1枚の顔画像を示している。即ち、番号ｉのGOPにおいて顔画像が存在していることは、図３５のGOP番号ｉの項目に「顔情報」が記載されていることを意味し、一方、顔画像が存在しないことは、図３５の番号ｉの項目に「無」が記載されていることを意味する。また、各タイミングチャートの下方の大文字のアルファベットは、図３５の例の人物の名称に対応している。

即ち、ここで注意すべき点は、図３５の例では人物の名称として大文字のアルファベットが採用されているのに対して、図３６の例では人物の名称として小文字のアルファベットが採用され、かつ実人物と記載されている点である。即ち、図３５の例で大文字のアルファベットを用いて記載されている人物Ａ乃至Ｅとは、後述するように、画像情報検出部４２７により検出された人物をいう。これに対して、図３６の例で小文字のアルファベットにより記載された実人物ａ乃至ｄとは、実世界に現存する人物をいう。即ち、図３５と図３６の例では、画像情報検出部４２７により別人物として検出された人物Ｂと人物Ｄとは、実世界では同一の実人物ｂとして現存している。この点の理由については後述する。

例えば、実人物ａについては、GOP番号１乃至３の各GOPで顔画像が生成され、GOP番号４のGOPでは顔画像は生成されなかったが、その後、GOP番号５，６において再度顔画像が生成されている。このように、数GOP程度の短期間内に顔画像が生成されなかったような場合には、同一人物Ａが連続して登場していると認定される。即ち、このような場合、サムネイル生成部４３３は、人物Ａの顔区間とは、GOP番号１乃至３のGOPからなる区間ではなく、図３７に示されるように、GOP番号１乃至６のGOPからなる区間５２１−Ａであると特定する。そして、サムネイル生成部４３３は、人物Ａの顔区間５２１−Ａのインデックスとして顔サムネイル画像５２２−Ａを生成する。

なお、顔サムネイル画像５２２−Ａの生成手法については、特に限定せず、新たに生成してもよいが、ここでは図３５の顔画像テーブルに人物Ａの代表画像が含まれているので、かかる代表画像が顔サムネイル画像５２２−Ａとして利用されるとする。なお、他の顔サムネイル画像についても、この生成手法に従って同様に生成されるとする。

一方、実人物ｂについては、GOP番号１乃至４の各GOPで顔画像が生成された、その後顔画像は長期間生成されず、GOP番号n-5乃至ｎにおいて再度顔画像が生成されている。このように、長期間顔画像が生成されなかった場合には、顔画像処理部４３２によりそれぞれ別人物Ｂ，Ｃと認定される。その結果、図３５の顔画像テーブルでは、それぞれ別人物Ｂ，Ｃとして別々に登録されるのである。ただし、このことの詳細については、図４２を参照して後述する。

この場合、サムネイル生成部４３３は、人物Ｂの顔区間とは、図３７に示されるように、GOP番号１乃至４のGOPからなる区間５２１−Ｂであると特定する。そして、サムネイル生成部４３３は、人物Ｂの顔区間５２１−Ｂのインデックスとして顔サムネイル画像５２２−Ｂを生成する。

また、サムネイル生成部４３３は、人物Ｄの顔区間とは、図３７に示されるように、GOP番号n-5乃至nのGOPからなる区間５２１−Ｄであると特定する。そして、サムネイル生成部４３３は、人物Ｄの顔区間５２１−Ｄのインデックスとして顔サムネイル画像５２２−Ｄを生成する。

なお、同一人物か否かの判定となる期間は、特に限定されない。即ち、顔画像が登場しなかった期間が短期間であれば、連続した顔区間の一部とみなす一方、長期間であれば顔区間とはみなさないと上述したが、その短期間と長期間との判断手法は特に限定されない。例えば、顔画像が生成される単位、即ち図３６や図３７の例では１GOP単位の所定の整数倍を閾値として予め設定し、顔画像が登場しなかった期間が閾値以下であれば、顔区間の一部とみなし、閾値を超えていれば顔区間とはみなさない、といった判断手法を採用できる。なお、かかる判断手法が適用された処理が、後述する図４のステップＳ１２４周辺の処理である。

その他の人物についても同様に顔区間の特定と顔サムネイルの生成が行われる。

即ち、サムネイル生成部４３３は、実人物ｃに対応する人物Ｃの顔区間とは、図３７に示されるように、GOP番号２乃至ｎのGOPからなる区間５２１−Ｃであると特定する。そして、サムネイル生成部４３３は、人物Ｃの顔区間５２１−Ｃのインデックスとして顔サムネイル画像５２２−Ｃを生成する。

また、サムネイル生成部４３３は、実人物ｄに対応する人物Ｅの顔区間とは、図３７に示されるように、GOP番号n-3乃至ｎのGOPからなる区間５２１−Ｅであると特定する。そして、サムネイル生成部４３３は、人物Ｅの顔区間５２１−Ｅのインデックスとして顔サムネイル画像５２２−Ｅを生成する。

その他図示はしないが、図３５でいう人物Ｆ乃至Ｈのそれぞれについても、顔区間が特定され、その顔区間に対応する顔サムネイル画像が生成される。

すると、図３１のステップＳ１１１の処理は終了し、その処理結果、即ち、各人物のそれぞれについての顔区間と顔サムネイルの各組が、サムネイル生成部４３３から制御部４１１または書込部４１５に提供される。

ステップＳ１１２において、制御部４１１または書込部４１５は、各人物の顔サムネイルと顔区間とを含むメタ情報、即ち、図４の顔区間メタ情報と顔サムネイルとの組からなるメタ情報を生成する。制御部４１１によりメタ情報が生成された場合には、そのメタ情報は書込部４１５に提供される。

ステップＳ１１３において、書込部４１５は、ステップＳ１１２の処理で生成されたメタ情報を、管理情報等ともにコンテンツのリソースデータとして、記録メディア５１等に記録する。

これにより、リソースデータ生成記録処理は終了となる。

次に、図３８乃至図４３を参照して、かかる図３１のリソースデータ生成記録処理のうちのステップＳ１０９の処理、即ち、顔画像テーブル生成／更新処理の詳細例について説明する。

図３５の例の顔画像テーブルを用いて説明したように、顔画像テーブル生成／更新処理では、処理対象GOPの番号ｉの行についての各項目に「顔情報」または「無」がそれぞれ記載される。具体的には例えば人物Ａについて、番号ｉの処理対象GOPに、人物Ａの顔画像が登場していると判定される場合には、人物Ａを示す列の番号ｉの行の項目に「顔情報」と記載される一方、人物Ａの顔画像が登場していないと判定される場合には、人物Ａを示す列の番号ｉの行の項目に「無」と記載される。他の人物Ｂ乃至Ｈのそれぞれについても同様である。

従って、顔画像テーブル生成／更新処理では、番号ｉの処理対象GOPに、特定人物の顔画像が登場しているか否かの判定処理が必要となる。この判定処理のアルゴリズム、即ち、判定手法自体は、特に限定されないが、例えば本実施の形態では、図３８乃至図４１に示される手法が採用されているとする。即ち、図３８乃至図４１に示される手法とは、本発明が適用される手法のひとつであり、以下、顔画像有無判定手法と称する。

図３８において、静止画像６０２は、図３１のステップＳ１０２の処理で番号ｉの処理対象GOPから生成された静止画像を示している。顔画像６１２−１乃至６１２−３のそれぞれは、各ステップＳ１０４の処理で静止画像６０２からそれぞれ検出された顔６０２−１乃至６０２−３のそれぞれに対応する顔画像を示している。即ち、ステップＳ１０８の処理で静止画像６０２からそれぞれ切り出された顔画像が、顔画像６１２−1乃至６１２−３である。

一方、静止画像６０１は、処理対象GOPの１つ前のGOP、即ち、番号i-1のGOPから生成された静止画像を示している。顔画像６１１−１，６１１−２のそれぞれは、静止画像６０１からそれぞれ検出された顔６０１−１，６０１−２のそれぞれに対応する顔画像を示している。即ち、静止画像６０１からそれぞれ切り出された顔画像が、顔画像６１１−1，６１１−２である。

この場合、図３０の顔画像処理部４３２は、図３８に示されるように、番号ｉの処理対象GOPについての顔画像６１２−１乃至６１２−３を比較対象として、それよりも前のGOPについての顔画像、即ち図３８の例では顔画像６１１−１，６１１−２を被比較対象として、各比較対象と各被比較対象との組合せ全てについて、それぞれの比較処理、例えばいわゆるマッチング処理を実行することで、各組合せにおける比較対象と被比較対象とは同一人物の顔画像であるか否かをそれぞれ評価する。

このマッチング処理の手法自体は、特に限定されないが、例えば本実施の形態では、次の手法が採用されている。即ち、番号ｋ（ｋは、組合せの番号であって、１以上組合せ総数以下の番号）の組合せについては、比較対象の顔画像と被比較対象の顔画像との類似度（以下、ａｋと記述する）と、比較対象の顔画像の静止画像内における座標と被比較対象の顔画像の静止画像内における座標との距離（以下、ｂｋと記述する）との両者を用いた所定の演算により得られる値をスコアＳｋとして、そのスコアＳｋにより、比較対象と被比較対象とは同一人物の顔画像であるか否かを評価する、といった手法が採用されている。

ここで、スコアのＳｋの演算手法自体は、ａｋとｂｋとを用いれば足り、例えば本実施の形態では、次の式（１）によりスコアＳｋが演算されるとする。なお、式（１）において、α，βは、距離と類似度とを比較可能とするためのパラメータ、即ち、正規化のためのパラメータを示している。

Ｓｋ＝ √α＊ａｋ＋β＊ｂｋ・・・（１）

また、ａｋの演算手法も特に限定されず、例えば、いわゆる主成分分析を用いた類似度の演算手法等を採用できる。また、ｂｋの演算手法については、例えば次のような手法を採用することができる。即ち、比較対象と被比較対象となる各顔画像は、各顔検出情報に基づいて生成されたものである。この顔検出情報は、図３３に示されるように、静止画像における顔の位置を有している。従って、比較対象についての顔検出情報に記載された位置と、被比較対象についての顔検出情報に記載された位置との差分をｂｋとする、といったｂｋの演算手法を採用することができる。

このようにして、図３０の顔画像処理部４３２は、各比較対象と各被比較対象との全組合せについてのスコアＳｋを演算すると、次に、各スコアＳｋに基づいて、全組合せの中から、同一人物の顔画像の組合せであると判定できるペア（以下、マッチペアと称する）を選抜していく。

具体的には例えば本実施の形態では、図３９乃至図４１に示されるようにして、マッチペアが選抜されていく。

即ち、図３９は、マッチペアの選択の基本原則を説明する図である。図３９には、図３８と同様の顔画像、即ち、比較対象としての顔画像６１２−１乃至６１２−３と、被比較対象としての顔画像６１１−１，６１１−２が示されている。

図３９において、比較対象としての顔画像６１２−１乃至６１２−３のうちの所定のひとつから、被比較対象としての顔画像６１１−１，６１１−２のうちの所定のひとつに引かれた各両矢印は、スコアＳｋが演算された組合せを示している。また、実線の両矢印は、現存する組合せの中で最高のスコアＳｋを有する組合せを示しており、点線の両矢印は、それ以外の組合せを示している。ただし、詳細については後述するが、最高のスコアＳｋを有する組合せであっても、そのスコアＳｋが閾値以下の組み合わせについては、点線の両矢印で示されている。この両矢印の内容については、後述する図４０と図４１とにおいても同様である。

図３９の各両矢印で示されるように、図３０の顔画像処理部４３２は、原則として、現存する組合せの中で最高のスコアＳｋを有する組合せを、マッチペアとして選抜する。

具体的には例えば、図３９の白抜き矢印の左方の例の場合、即ち、比較対象としての顔画像６１２−１乃至６１２―３と、被比較対象としての顔画像６１１−１，６１１−２との全ての組合せが存在する場合には、顔画像６１２−１と顔画像６１１−１とが実線の両矢印で結ばれていることから、即ち、最高のスコアＳｋを有することから、この組合せがマッチペアとして最初に選抜される。

次に、顔画像処理部４３２は、選抜されたマッチペアに含まれる顔画像６１１−１，６１２−１のうちの何れか一方を含む他の組合せ全てを、次のマッチペアの選抜候補から除外する。その結果、図３９の白抜き矢印の右方に示されるように、比較対象としての顔画像６１２−２，６１２−３と、被比較対象としての顔画像６１１−２との全組合せが次のマッチペアの選抜候補となる。この場合、顔画像６１２−３と顔画像６１１−２とが実線の両矢印で結ばれていることから、即ち、最高のスコアＳｋを有することから、この組合せがマッチペアとして次に選抜される。

図３９の例では、２回目に選抜されたマッチペアに含まれる顔画像６１１−２，６１２−３の何れか一方を含む他の組合せの全てが除外されると、スコアＳｋが演算された組合せ自体が存在しなくなることから、マッチング処理は終了となる。これに対して、図示はしないが、仮に組合せが残存している場合には、組合せがなくなるまで、上述した一連の処理が繰り返されてマッチペアが順次選抜されていく。

以上、図３９を用いてマッチペアの選抜手法の基本原則について説明したが、本実施の形態では、この基本原則に基づく図４０と図４１に示されるマッチペアの選抜手法が採用されている。なお、図４０と図４１の例では、説明の簡略上、比較対象から顔画像６１２−３は省略されている。以下、図４０と図４１とのマッチペアの選択手法について、図３９を用いて説明した基本原則との差異を中心に説明していく。

即ち、図３９の例では、説明の簡略上、被比較対象の顔画像は、番号ｉの処理対象GOPのひとつ前の番号i-1のGOPについての顔画像６１１−１，６１１−２のみとされた。しかしながら、番号i-1のGOPから生成された静止画像には特定人物の顔が含まれているとは限らない。そこで、本実施の形態では、特定人物の被比較対象の顔画像としては、処理対象GOPに対して、一番近い過去のGOPから生成された顔画像（以下、最新の顔画像と称する）が採用される。

具体的には例えば、図４０の例では、処理対象GOPの１つ前の番号i-1のGOPからは、人物Ａの顔画像６１１−１と、人物Ｂの顔画像６１１−２とが生成されている。また、処理対象GOPの２つ前の番号i-2のGOPから、人物Ａの顔画像６１０−１と、人物Ｂの顔画像６１０−２とが生成されている。そして、処理対象GOPの３つ前の番号i-3のGOPからは、人物Ｂの顔画像６０９−２と、人物Ｃの顔画像６０９−３とが生成されている。

この場合、人物Ａと人物Ｂについては、最新の顔画像は顔画像６１１−１，６１１−２のそれぞれとなり、図３９の例と同様に、これらの顔画像６１１−１，６１１−２が被比較対象となる。ところが、番号i-1，i-2のGOPにおいて、人物Ｃは登場しておらず、即ち、人物Ｃの顔画像は生成されていない。そこで、このような場合、番号i-3のGOPから生成された顔画像６０９−３が最新の顔画像となることから、かかる顔画像６０９−３が、人物Ｃについての被比較対象となるのである。

このようにして被比較対象が決定された後は、原則として図３９を用いて説明したマッチング処理（基本原則の処理）が行われて、順次マッチペアが選抜されていく。

例えば図４０の例では、図３９の例と同様に、最初に、顔画像６１２−１と顔画像６１１−１との組合せがマッチペアとして選抜される。これにより、番号ｉのGOPについての顔画像６１２−１は人物Ａの顔画像であると判定され、その結果、図３５の顔画像テーブルの人物Ａの番号ｉの項目には「顔情報」が記載される。

そして、選抜されたマッチペアに含まれる顔画像６１１−１，６１２−１のうちの少なくとも一方を含む他の組合せの全てが、次のマッチペアの選抜候補から除外される。すると、図４０の例では、顔画像６１２−２と顔画像６１１−２との組合せと、顔画像６１２−２と顔画像６０９−３との組合せとが次のマッチペアの選抜候補となり、これらの選抜候補の中から次のマッチペアが選抜される。具体的には、顔画像６１２−２と顔画像６１１−２とが実線の両矢印で結ばれていることから、即ち、最高のスコアＳｋを有することから、この組合せがマッチペアとして次に選抜される。これにより、番号ｉのGOPについての顔画像６１２−２は人物Ｂの顔画像であると判定され、その結果、図３５の顔画像テーブルの人物Ｂの番号ｉの項目には「顔情報」が記載される。

ただし、顔画像６１２−２と顔画像６１１−２との組合せが、現存する組合せの中で最高のスコアＳｋを有するといっても、そのスコアＳｋがあまりに低い値の場合には、番号ｉのGOPについての顔画像６１２−２は人物Ｂの顔画像であると判定することは無理がある。従って、このような場合を考慮して、本実施の形態では例えば、スコアＳｋが所定の閾値以下の組み合わせについては、マッチペアとはせずに（マッチペア候補から除外し）、その組合せに含まれる比較対象の顔画像は新たな登場人物の顔画像であると判定することにする。

具体的には例えば図４１の例では、顔画像６１２−２と顔画像６１１−２との組合せのスコアＳｋが所定の閾値以下であるとされており、その結果、顔画像６１−２は、人物Ｂではなく新たな登場人物Ｄの顔画像で有ると判定されている。この場合、図３５の顔画像テーブルに人物Ｄの列が新たに登録され、その人物Ｄの列の番号１乃至i-1の各項目には「無」が記載され、番号ｉの項目には「顔情報」が記載される。

また、例えば上述した図３６に示されるように、実世界の実人物ｂについては、番号4までのGOPを最後としてその後顔画像は長期間生成されず、番号n-5のGOPになって再度顔画像が生成されている。この番号n-5のGOPが処理対象GOPとなっている場合、人物Ｂの被比較対象として採用される最新の顔画像とは、番号4のGOPについての顔画像となる。このような場合、比較対象である番号n-5の顔画像と、被比較対象である番号4のGOPについての顔画像との組合せのスコアＳｋがたとえ最高値であったとしても、期間が離れすぎていることから、例えば実施の形態では、番号n-5の顔画像は、人物Ｂの顔画像とは判定せずに、人物Ｂとは別の人物Ｄの顔画像と判定することにする。この場合も、図３５の顔画像テーブルの列に人物Ｄの列が新たに登録され、その人物Ｄの列の番号１乃至n-6の各項目には「無」が記載され、番号n-5の項目には「顔情報」が記載される。

なお、別人物とみなす期間の設定については、上述したように特に限定されず、例えば３秒に相当するGOP期間、といったように設計者等が任意に設定可能である。

また、以上のようにして選抜されたマッチペアについてのスコアＳｋが、そのマッチペアに含まれる比較対象についての顔検出情報の「類似度（スコア）」の項目（図３３参照）に記載される。

以上、図３８乃至図４１を参照して、本発明が適用される手法のひとつの顔画像有無判定手法について説明した。

かかる顔画像有無判定手法が適用された場合の図３１のステップＳ１０９の処理、即ち、顔画像テーブル生成／更新処理の一例が、図４２のフローチャートとして示されている。

図４２のステップＳ１２１において、図３０の顔画像処理部４３２は、処理対象GOPについての１以上の各顔画像と、顔画像テーブルに登録されている全人物の各顔画像との組合せの全てについて、それぞれマッチング処理を実行して、スコアＳｋをそれぞれ算出する。

なお、処理対象GOPについての１以上の各顔画像が上述した比較対象であり、顔画像テーブルに登録されている全人物の各顔画像が、上述した最新の顔画像としての被比較対象である。顔画像テーブルに登録されている全人物とは、例えば図３５の例では、人物Ａ乃至Ｈである。

ステップＳ１２２において、顔画像処理部４３２は、最高のスコアＳｋを有する組合せを、処理対象組として設定する。

ステップＳ１２３において、顔画像処理部４３２は、処理対象組のスコアＳｋは閾値を超えているか否かを判定する。

処理対象組のスコアＳｋが閾値を超えている場合、ステップＳ１２３の処理でＹＥＳであると判定されて、処理はステップＳ１２４に進む。

ステップＳ１２４において、顔画像処理部４３２は、処理対象組の時間間隔は閾値以下であるか否かを判定する。ここで、時間間隔とは、例えば、処理対象組に含まれる２つの顔画像のそれぞれが生成された２つのGOPの時間間隔をいう。具体的には例えば、処理対象GOPの番号iに対して、処理対象組に含まれる被比較対象についてのGOPの番号がｊ（ｊはｉ-1以下の整数値）の場合、i-j等が時間間隔として採用可能である。

処理対象組の時間間隔が閾値以下の場合、ステップＳ１２４の処理でＹＥＳであると判定されて、処理はステップＳ１２５に進む。

ステップＳ１２５において、顔画像処理部４３２は、処理対象組をマッチペアとして確定する。

ステップＳ１２６において、顔画像処理部４３２は、マッチペアに含まれる処理対象GOPについての顔画像の人物と、そのマッチペアに含まれる他方の顔画像の人物とは同一人物であると認定する。

ステップＳ１２７において、顔画像処理部４３２は、顔画像テーブルのうちの、マッチペアに含まれる顔画像の人物の処理対象GOPの項目に「顔情報」と記載する。

ステップＳ１２８において、顔画像処理部４３２は、マッチペアに含まれる顔画像についての全組合せ（マッチペア含む）を除外する。

ステップＳ１２９において、顔画像処理部４３２は、組合せは残っているか否かを判定する。

組合せが残っている場合には、ステップＳ１２９の処理でＹＥＳであると判定されて、処理はステップＳ１２３の処理に戻され、それ以降の処理が繰り返される。即ち、次のステップＳ１２２の処理で、残っている組合せの中で最高のスコアＳｋを有する組合せが処理対象組として設定されて、ステップＳ１２３以降の処理が繰り返される。

ただし、処理対象組のスコアＳｋが閾値以下の場合にはステップＳ１２３の処理でＮＯであると判定され、また、処理対象組の時間間隔が閾値を超えている場合にはステップＳ１２４の処理でＮＯであると判定されて、それぞれ処理はステップＳ１３０に進む。

ステップＳ１３０において、顔画像処理部４３２は、処理対象組に含まれる顔画像を、新たな登場人物の代表画像として顔画像テーブルに登録する。その後、処理はステップＳ１２９に進み、それ以降の処理が実行される。

以上のステップＳ１２２乃至Ｓ１３０のループ処理が実行されて、その結果組合せが存在しなくなると、ステップＳ１２９の処理でＮＯであると判定されて、処理はステップＳ１３１に進む。

ステップＳ１３１において、顔画像処理部４３２は、顔画像テーブルにおける未記載の処理対象GOPの項目に対して「無」と記載する。

これにより、顔画像テーブル生成／更新処理は終了となる。即ち、図３１のステップＳ１０９の処理は終了し、処理はステップＳ１１０に進むことになる。

以上、図２９の画像加工部４１３の画像情報検出部４２７の処理として、動画コンテンツ用のリソースデータを生成して記録する処理、即ち図３１のリソースデータ生成記録処理について説明してきた。

さらに、画像情報検出部４２７は、図４３に示される静止画リソースデータ生成記録処理を実行することで、静止画コンテンツ用のリソースデータとして、上述した図２０の人物フォルダ２７１乃至２７３等を生成して記録メディア５１に記録させることもできる。

即ち、図４３のステップＳ１５１において、画像情報検出部４２７は、記録対象の１以上の静止画コンテンツのうちの所定の１つを処理対象静止画像に設定する。記録対象の１以上の静止画コンテンツとは、例えば図２０の例では記録メディア５１に記録されている全静止画コンテンツをいう。

ステップＳ１５１の処理後、ステップＳ１５２乃至Ｓ１５７の処理が実行される。このステップＳ１５２乃至Ｓ１５７のそれぞれの処理は、上述した図３１のステップＳ１０３乃至Ｓ１０８のそれぞれの処理と基本的に同様の処理であるため、ここではその説明は省略する。ただし、顔検出情報が１つも生成されなかった場合には、図４３の例ではステップＳ１５６の処理でＮＯであると判定されて処理はステップＳ１６４に進む点が、図３１の例の処理とは異なる点である。なお、ステップＳ１６４以降の処理については後述する。

ステップＳ１５７の処理の結果、処理対象静止画像から１以上の顔画像が切り出されると、処理はステップＳ１５８に進む。

ステップＳ１５８において、画像情報検出部４２７は、1以上の顔画像のうちの所定の１枚を処理対象顔画像に設定する。

ステップＳ１５９において、画像情報検出部４２７は、処理対象顔画像は新規の人物の顔画像であるか否かを判定する。

ステップＳ１５９において、処理対象顔画像は新規の人物の顔画像であると判定した場合、画像情報検出部４２７は、ステップＳ１６０において、新規人物用の人物フォルダを製作する。これにより、処理はステップＳ１６１に進む。

これに対して、ステップＳ１５９において、処理対象顔画像は新規の人物の顔画像ではないと判定した場合、即ち、処理対象顔画像は既出人物の顔画像であると判定した場合、画像情報検出部４２７は、ステップＳ１６０の処理を実行せずに、処理をステップＳ１６１に進める。

ステップＳ１６１において、画像情報検出部４２７は、処理対象顔画像から顔サムネイル画像等の静止画リソースデータを生成する。そして、ステップＳ１６２において、画像情報検出部４２７は、その静止画リソースデータを、対応する人物フォルダに含める。

ステップＳ１６３において、画像情報検出部４２７は、未設定の顔画像は存在するか否かを判定する。

ステップＳ１５７の処理の結果として処理対象静止画像から切り出された１以上の顔画像の中に、処理対象顔画像にまだ設定されていない顔画像が存在する場合、ステップＳ１６３の処理でＹＥＳであると判定されて、処理はステップＳ１５８に戻り、それ以降の処理が繰り返される。

即ち、ステップＳ１５７の処理の結果として処理対象静止画像から切り出された１以上の顔画像のそれぞれに対して、ステップＳ１５８乃至Ｓ１６３のループ処理が繰り返し実行される。すると、ステップＳ１６３の処理でＮＯであると判定されて、処理はステップＳ１６４に進む。

また、上述したように、ステップＳ１５６の処理でＮＯであると判定された場合も処理はステップＳ１６４に進む。

ステップＳ１６４において、画像情報検出部４２７は、未設定の静止画コンテンツは存在するか否かを判定する。

記録対象の１以上の静止画コンテンツの中に、処理対象静止画像にまだ設定されていないものが存在する場合、ステップＳ１６４の処理でＹＥＳであると判定されて、処理はステップＳ１５１に戻り、それ以降の処理が繰り返される。

即ち、記録対象の１以上の静止画コンテンツのそれぞれに対して、ステップＳ１５１乃至Ｓ１６４のループ処理が実行される。すると、ステップＳ１６４の処理でＮＯであると判定されて、処理はステップＳ１６５に進む。

ステップＳ１６５において、画像情報検出部４２７は、各人物フォルダを管理情報等ともに、静止画リソースデータとして記録メディア５１等に記録する。

これにより、静止画リソースデータ生成処理は終了となる。

ところで、上述した一連の処理は、ハードウエアにより実行させることもできるし、ソフトウエアにより実行させることもできる。一連の処理をソフトウエアにより実行させる場合には、そのソフトウエアを構成するプログラムが、専用のハードウエアに組み込まれているコンピュータ、または、各種のプログラムをインストールすることで、各種の機能を実行することが可能な、例えば汎用のパーソナルコンピュータなどに、プログラム記録媒体からインストールされる。

図４４は、上述した一連の処理をプログラムにより実行するパーソナルコンピュータの構成の例を示すブロック図である。即ち、図６の再生装置、図１７の記録再生装置、および、図２８の画像記録装置４０１のそれぞれの全体または一部分を、図４４のパーソナルコンピュータで構成することもできる。

図４４において、CPU（Central Processing Unit）７０１は、ROM（Read Only Memory）７０２、または記憶部７０８に記憶されているプログラムに従って各種の処理を実行する。RAM（Random Access Memory）７０３には、CPU７０１が実行するプログラムやデータなどが適宜記憶される。これらのCPU７０１、ROM７０２、およびRAM７０３は、バス７０４により相互に接続されている。

CPU７０１にはまた、バス７０４を介して入出力インタフェース７０５が接続されている。入出力インタフェース７０５には、キーボード、マウス、マイクロホンなどよりなる入力部７０６、ディスプレイ、スピーカなどよりなる出力部７０７が接続されている。CPU７０１は、入力部７０６から入力される指令に対応して各種の処理を実行する。そして、CPU７０１は、処理の結果を出力部７０７に出力する。

入出力インタフェース７０５に接続されている記憶部７０８は、例えばハードディスクからなり、CPU７０１が実行するプログラムや各種のデータを記憶する。通信部７０９は、インターネットやローカルエリアネットワークなどのネットワークを介して外部の装置と通信する。

また、通信部７０９を介してプログラムを取得し、記憶部７０８に記憶してもよい。

入出力インタフェース７０５に接続されているドライブ２１０は、磁気ディスク、光ディスク、光磁気ディスク、或いは半導体メモリなどのリムーバブルメディア２１１が装着されたとき、それらを駆動し、そこに記録されているプログラムやデータなどを取得する。取得されたプログラムやデータは、必要に応じて記憶部７０８に転送され、記憶される。

コンピュータにインストールされ、コンピュータによって実行可能な状態とされるプログラムを格納するプログラム記録媒体は、図４４に示されるように、磁気ディスク（フレキシブルディスクを含む）、光ディスク（CD-ROM(Compact Disc-Read Only Memory),DVD(Digital Versatile Disc)を含む）、光磁気ディスク、もしくは半導体メモリなどよりなるパッケージメディアであるリムーバブルメディア２１１、または、プログラムが一時的もしくは永続的に格納されるROM７０２や、記憶部７０８を構成するハードディスクなどにより構成される。プログラム記録媒体へのプログラムの格納は、必要に応じてルータ、モデムなどのインタフェースである通信部７０９を介して、ローカルエリアネットワーク、インターネット、デジタル衛星放送といった、有線または無線の通信媒体を利用して行われる。

なお、本明細書において、プログラム記録媒体に格納されるプログラムを記述するステップは、記載された順序に沿って時系列的に行われる処理はもちろん、必ずしも時系列的に処理されなくとも、並列的あるいは個別に実行される処理をも含むものである。

また、本明細書において、システムとは、複数の装置または回路により構成される装置または回路全体を表すものである。

１動画コンテンツ，１１乃至１４顔区間，２１乃至２４顔サムネイル画像，４１サムネイル画像，５１記録メディア，５２実データ領域，５３リソースデータ領域，６１管理情報ファイル，６２サムネイルファイル，６３メタファイル，６４コンテンツ，６５リソースデータ，７１制御部，９１システム制御部，９２ UI制御部，９３コンテンツ管理情報制御部，１０１管理情報領域，１０２実データ領域，１１１画像処理用領域，１１２プロパティ領域，１１３サムネイル領域，１１４メタ領域，１６１顔サムネイルGUI画像，１６２元シーンGUI画像，１６３タイムラインGUI画像，１８１乃至１８４サムネイル画像，１９１タイムライン，３０１顔サムネイルGUI画像，３０２顔サムネイル元画像GUI画像，３０３選択人物元画像GUI画像，３１１乃至３１４代表顔サムネイル画像，３２１乃至３２４サムネイル画像，４０１画像記録装置，４１１制御部，４１３画像加工部，４２７画像情報検出部，４３１静止画生成部，４３２顔画像処理部，４３３サムネイル生成部，５１１顔画像，５２１顔区間，５２２顔サムネイル画像，６０１，６０２静止画像，６０９乃至６１２顔画像，７０１ CPU，７０２ ROM，７０８記憶部，２１１リムーバブルメディア

本発明の一側面の情報処理装置は、画像の表示を制御する情報処理装置において、画像コンテンツの表示を制御する制御手段を有し、前記制御手段は、１以上の画像コンテンツのそれぞれについての各インデックスを含む第１のGUI画像の表示を制御し、前記第１のGUI画像から１のインデックスがユーザにより選択されたとき、選択されたインデックスに対応する画像コンテンツの全部または一部分を前記ユーザが選択するインデックスとして、その全部または一部から検出された人物の顔に対応する顔サムネイル画像を含む第２のGUI画像の表示を制御し、前記顔サムネイル画像のそれぞれが生成された元の静止画像にそれぞれ対応する元シーンサムネイル画像をインデックスとして含む第３のGUI画像の表示を制御し、第２のＧＵＩ画像と第３のＧＵＩ画像を切り替えるとき、第２のＧＵＩ画像における前記顔サムネイル画像と、第３のＧＵＩ画像における前記元シーンサムネイル画像とを対応する位置に表示することを特徴とする。
前記制御手段は、複数の前記顔サムネイル画像を有する第２のＧＵＩ画像と、複数の前記元シーンサムネイル画像を有する第３のＧＵＩ画像とを切り替えるとき、前記複数の前記顔サムネイル画像のそれぞれと、前記複数の前記元シーンサムネイル画像のそれぞれとを対応する位置に表示するようにすることができる。
前記画像コンテンツは、動画コンテンツを含み、前記制御手段は、特定人物が連続して登場している区間である顔区間の前記動画コンテンツ中での時間位置を示すタイムラインを含むＧＵＩ画像である第４のＧＵＩ画像の表示を制御するようにすることができる。
前記制御手段は、前記第２のＧＵＩ画像中の前記顔サムネイル画像または前記第３のＧＵＩ画像中の前記元シーンサムネイル画像から選択されたサムネイルに対応する前記顔区間のみを示すタイムラインを前記第４のＧＵＩ画像に表示するようにすることができる。

本発明の一側面の情報処理方法は、画像の表示を制御する情報処理装置の情報処理方法において、画像コンテンツの表示を制御する制御ステップを含み、前記制御ステップの処理では手段は、１以上の画像コンテンツのそれぞれについての各インデックスを含む第１のGUI画像の表示を制御し、前記第１のGUI画像から１のインデックスがユーザにより選択されたとき、選択されたインデックスに対応する画像コンテンツの全部または一部分を前記ユーザが選択するインデックスとして、その全部または一部から検出された人物の顔に対応する顔サムネイル画像を含む第２のGUI画像の表示を制御し、前記顔サムネイル画像のそれぞれが生成された元の静止画像にそれぞれ対応する元シーンサムネイル画像をインデックスとして含む第３のGUI画像の表示を制御し、第２のＧＵＩ画像と第３のＧＵＩ画像を切り替えるとき、第２のＧＵＩ画像における前記顔サムネイル画像と、第３のＧＵＩ画像における前記元シーンサムネイル画像とを対応する位置に表示することを特徴とする。

本発明の一側面の情報処理装置および方法並びにプログラムにおいては、画像コンテンツの表示が制御される。また、１以上の画像コンテンツのそれぞれについての各インデックスを含む第１のGUI画像の表示が制御され、前記第１のGUI画像から１のインデックスがユーザにより選択されたとき、選択されたインデックスに対応する画像コンテンツの全部または一部分を前記ユーザが選択するインデックスとして、その全部または一部から検出された人物の顔に対応する顔サムネイル画像を含む第２のGUI画像の表示が制御され、前記顔サムネイル画像のそれぞれが生成された元の静止画像にそれぞれ対応する元シーンサムネイル画像をインデックスとして含む第３のGUI画像の表示が制御され、第２のＧＵＩ画像と第３のＧＵＩ画像を切り替えるとき、第２のＧＵＩ画像における前記顔サムネイル画像と、第３のＧＵＩ画像における前記元シーンサムネイル画像とを対応する位置に表示される。

Claims

画像コンテンツの全部または一部分をユーザが選択するインデックスを含むGUI(Graphical User Interface)画像の表示を制御する情報処理装置において、
１以上の画像コンテンツのそれぞれについての各インデックスを含む第１のGUI画像の表示を制御し、
前記第１のGUI画像から１のインデックスが前記ユーザにより選択されたとき、選択されたインデックスに対応する画像コンテンツの全部または一部分を前記ユーザが選択するインデックスとして、その全部または一部から検出された人物の顔に対応する顔サムネイル画像を含む第２のGUI画像の表示を制御する制御手段
を備える情報処理装置。
前記制御手段は、
前記第２のGUI画像から前記顔サムネイル画像が前記ユーザにより選択されたとき、さらに、
前記第１のGUI画像から選択された前記インデックスに対応する前記画像コンテンツのうちの、前記顔サムネイル画像に対応する前記顔が検出された前記全部または一部分の再生を制御する
請求項１に記載の情報処理装置。
前記１以上の画像コンテンツは、動画コンテンツを含み、
前記動画コンテンツにおける１以上の一部分のそれぞれから、他の一部分とは異なる人物と判断される顔がそれぞれ検出されており、
前記制御手段は、前記第１のGUI画像から前記動画コンテンツのインデックスが前記ユーザにより選択されたとき、前記動画コンテンツにおける前記１以上の一部分のそれぞれのインデックスとして、それぞれの一部分から検出された前記顔のそれぞれに対応する１以上の顔サムネイル画像を含む前記第２のGUI画像の表示を制御する
請求項１に記載の情報処理装置。
前記動画コンテンツにおける１つの前記一部分の前記顔サムネイル画像は、その一部分から生成された静止画像に含まれていた前記顔の領域が切り出された結果得られる画像自身、またはその画像に基づいて生成された画像である
請求項３に記載の情報処理装置。
前記制御手段は、さらに、前記第２のGUI画像に代えて、１以上の前記顔サムネイル画像のそれぞれが生成された元の前記静止画像にそれぞれ対応する１以上のサムネイル画像を、それぞれに対応する前記一部分のインデックスとして含む第３のGUI画像の表示を制御する
請求項４に記載の情報処理装置。
前記制御手段は、さらに、前記第２のGUI画像において選択されている前記顔サムネイル画像に対応する前記一部分の前記動画コンテンツにおける位置を示す画像を含む第４のGUI画像の表示を制御する
請求項４に記載の情報処理装置。
前記動画コンテンツと、前記１以上の顔サムネイル画像とが対応付けられて記録媒体に記録されており、
前記制御手段は、前記記録媒体から前記１以上の顔サムネイル画像を読み出す制御をさらに行い、読み出された前記１以上の顔サムネイル画像を含む前記第２のGUI画像の表示を制御する
請求項３に記載の情報処理装置。
画像コンテンツの全部または一部分をユーザが選択するインデックスを含むGUI(Graphical User Interface)画像の表示を制御する情報処理装置の情報処理方法において、
１以上の画像コンテンツのそれぞれについての各インデックスを含む第１のGUI画像の表示を制御し、
前記第１のGUI画像から１のインデックスが前記ユーザにより選択されたとき、選択されたインデックスに対応する画像コンテンツの全部または一部分を前記ユーザが選択するインデックスとして、その全部または一部から検出された人物の顔に対応する顔サムネイル画像を含む第２のGUI画像の表示を制御する
ステップを含む情報処理方法。
画像コンテンツの全部または一部分をユーザが選択するインデックスを含むGUI(Graphical User Interface)画像の表示を制御するコンピュータが実行するプログラムであって、
１以上の画像コンテンツのそれぞれについての各インデックスを含む第１のGUI画像の表示を制御し、
前記第１のGUI画像から１のインデックスが前記ユーザにより選択されたとき、選択されたインデックスに対応する画像コンテンツの全部または一部分を前記ユーザが選択するインデックスとして、その全部または一部から検出された人物の顔に対応する顔サムネイル画像を含む第２のGUI画像の表示を制御する
ステップを含むプログラム。