JP4462290B2

JP4462290B2 - コンテンツ管理情報記録装置、コンテンツ再生装置、コンテンツ再生システム、撮像装置、コンテンツ管理情報記録方法およびプログラム

Info

Publication number: JP4462290B2
Application number: JP2007134947A
Authority: JP
Inventors: 修伊達; 敏弥石坂
Original assignee: Sony Corp
Current assignee: Sony Corp
Priority date: 2007-04-04
Filing date: 2007-05-22
Publication date: 2010-05-12
Anticipated expiration: 2027-05-22
Also published as: JP2008276706A

Description

本発明は、コンテンツ管理情報記録装置に関し、特に、コンテンツ管理情報を記録するコンテンツ管理情報記録装置、コンテンツ再生装置、撮像装置、コンテンツ再生システム、および、これらにおける処理方法ならびに当該方法をコンピュータに実行させるプログラムに関する。

従来、静止画や動画等のコンテンツと、このコンテンツに付随するデータであるメタデータとを関連付けて記録しておき、このメタデータを用いて各種操作を容易にするための技術が多数提案されている。

また、近年では、静止画や動画等のコンテンツに含まれる人物の顔を検出する技術が存在し、検出された顔に関する情報をメタデータとして登録する技術が提案されている。また、この検出された人物の顔が特定人物の顔であるか否かを識別する識別処理が可能となっている。

例えば、撮影された画像から顔を検出し、検出された顔を含む矩形領域と人の名前等の個人情報とをＸＭＬ形式でメタデータとして保存し、これらのメタデータを画像ファイルの一部に書き込んで登録するメタデータ登録方法が提案されている（例えば、特許文献１参照。）。
特開２００４−３３６４６６号公報（図２）

上述の従来技術では、検出された顔を含む矩形領域と個人情報とを含むメタデータが画像ファイルの一部として保存されている。このため、この画像ファイルを閲覧している場合に、例えば、所定の顔をクリックすることによって、その顔に対応して登録されているメタデータを用いた操作を行うことができる。

ここで、画像ファイルを検索する場合について考える。上述の従来技術により登録されたメタデータを用いて画像ファイルの検索をする場合には、メタデータが画像ファイルの一部に書き込まれているため、画像ファイルのオープンおよびクローズを繰り返して、検索に用いるメタデータを読み出す必要がある。この場合には、検索に用いるメタデータを読み出す時間が必要であり、画像ファイルの検索時間が増大する。このため、コンテンツを迅速に利用することができない。

そこで、本発明は、コンテンツを迅速に利用することを目的とする。

本発明は、上記課題を解決するためになされたものであり、その第１の側面は、コンテンツを入力する入力部と、上記コンテンツに含まれる被写体の顔を検出する顔検出部と、上記コンテンツに基づいて上記コンテンツを管理するための管理情報と上記コンテンツに関する属性情報とを作成し、上記検出された顔に基づいて当該顔が検出された際における上記コンテンツに関する属性情報を含むメタデータであって上記コンテンツに含まれる顔に関する顔メタデータを作成する作成部と、階層構造により構成される階層エントリを記録するコンテンツ管理ファイルに、上記作成された管理情報および上記作成された属性情報を含む上記階層エントリであるファイルエントリと、当該ファイルエントリの下位階層に連結される上記階層エントリであって上記作成された顔メタデータを含むメタデータエントリとを記録する記録制御部と、上記コンテンツをコンテンツファイルとして記憶するコンテンツ記憶部と、操作入力を受け付ける操作受付部と、上記受け付けられた操作入力に応じて上記コンテンツ管理ファイルに記録されているファイルエントリの中から所望のファイルエントリを選択する選択部と、上記選択されたファイルエントリに含まれる管理情報に基づいて上記コンテンツ記憶部に記憶されているコンテンツファイルを抽出し、上記抽出されたコンテンツファイルに関する属性情報と上記選択されたファイルエントリの下位階層に連結されているメタデータエントリに含まれる属性情報との比較により上記抽出されたコンテンツファイルとこれに対応するメタデータエントリおよびファイルエントリとの不整合を判定して、不整合でないと判定された場合に、上記選択されたファイルエントリの下位階層に連結されているメタデータエントリに含まれる顔メタデータに基づいて上記抽出されたコンテンツファイルに含まれる顔を含む顔画像を順次抽出し、上記抽出されたコンテンツファイルの再生開始位置を選択するための画像として当該抽出された顔画像を表示させる表示制御部とを具備するコンテンツ再生システムおよびその処理方法ならびに当該方法をコンピュータに実行させるプログラムである。これにより、コンテンツに含まれる被写体の顔を検出し、そのコンテンツに基づいて管理情報および属性情報を作成するとともにそのコンテンツに含まれる顔に関する顔メタデータを作成し、その作成された管理情報および属性情報を含むファイルエントリと、このファイルエントリの下位階層に連結されその作成された顔メタデータを含むメタデータエントリとをコンテンツ管理ファイルに記録し、受け付けられた操作入力に応じて所望のファイルエントリを選択し、この選択されたファイルエントリに含まれる管理情報に基づいてコンテンツファイルを抽出し、この抽出されたコンテンツファイルとこれに対応するメタデータエントリおよびファイルエントリとが不整合でないと判定された場合に、その選択されたファイルエントリの下位階層に連結されているメタデータエントリに含まれる顔メタデータに基づいてその抽出されたコンテンツファイルに含まれる顔を含む顔画像を順次抽出し、この抽出されたコンテンツファイルの再生開始位置を選択するための画像としてその抽出された顔画像を表示させるという作用をもたらす。

また、本発明の第２の側面は、コンテンツを入力する入力部と、上記コンテンツに含まれる被写体の顔を検出する顔検出部と、上記コンテンツに基づいて上記コンテンツを管理するための管理情報と上記コンテンツに関する属性情報とを作成し、上記検出された顔に基づいて当該顔が検出された際における上記コンテンツに関する属性情報を含むメタデータであって上記コンテンツに含まれる各顔を抽出するための顔メタデータを作成する作成部と、階層構造により構成される階層エントリを記録するコンテンツ管理ファイルに、上記作成された管理情報および上記作成された属性情報を含む上記階層エントリであるファイルエントリと、当該ファイルエントリの下位階層に連結される上記階層エントリであって上記作成された顔メタデータを含むメタデータエントリとを記録し、上記コンテンツ管理ファイルに記録されているメタデータエントリに含まれる属性情報と当該メタデータエントリの上位階層に連結されているファイルエントリに対応するコンテンツに関する属性情報との比較により当該コンテンツとこれに対応するメタデータエントリおよびファイルエントリとの不整合を判定して、不整合であると判定されたコンテンツについては、当該不整合であると判定されたコンテンツに含まれる被写体の顔を上記顔検出部に検出させ、当該不整合であると判定されたコンテンツに関する上記管理情報と上記属性情報と上記顔メタデータとを上記作成部に作成させ、上記コンテンツ管理ファイルにおいて当該不整合であると判定されたコンテンツに対応するファイルエントリに当該コンテンツについて作成された上記管理情報および上記属性情報を記録し、当該ファイルエントリの下位階層に連結されているメタデータエントリに当該不整合であると判定されたコンテンツについて作成された上記顔メタデータを記録する記録制御部とを具備するコンテンツ管理情報記録装置およびその処理方法ならびに当該方法をコンピュータに実行させるプログラムである。これにより、コンテンツに含まれる被写体の顔を検出し、そのコンテンツに基づいて管理情報および属性情報を作成するとともにそのコンテンツに含まれる各顔を抽出するための顔メタデータを作成し、その作成された管理情報および属性情報を含むファイルエントリと、このファイルエントリの下位階層に連結されその作成された顔メタデータを含むメタデータエントリとをコンテンツ管理ファイルに記録し、コンテンツとこれに対応するメタデータエントリおよびファイルエントリとが不整合であると判定されたコンテンツについては、このコンテンツに関する管理情報と属性情報と顔メタデータとを作成させ、コンテンツ管理ファイルにおいて、対応するファイルエントリおよびメタデータエントリに記録するという作用をもたらす。

また、この第２の側面において、上記記録制御部は、上記階層エントリを識別するエントリ識別子を上記階層エントリのそれぞれに付与するとともに上記ファイルエントリの下位階層に連結されるメタデータエントリに当該ファイルエントリのエントリ識別子を記録して上記メタデータエントリの上位階層に連結されるファイルエントリに当該メタデータエントリのエントリ識別子を記録することができる。これにより、エントリ識別子を階層エントリのそれぞれに付与するとともに、各階層エントリの親エントリおよび子エントリのエントリ識別子について記録するという作用をもたらす。

また、この第２の側面において、上記管理情報は、当該管理情報を含むファイルエントリに対応するコンテンツファイルのファイルシステム上の記録位置を含むことができる。これにより、コンテンツファイルのファイルシステム上の記録位置を管理情報に含めるという作用をもたらす。

また、この第２の側面において、上記記録制御部は、上記コンテンツを分類して管理するための上記階層エントリであるフォルダエントリを上記コンテンツ管理ファイルに記録するとともに当該フォルダエントリの下位階層に上記作成されたファイルエントリを分類して記録することができる。これにより、コンテンツファイルを分類して管理するフォルダエントリをコンテンツ管理ファイルに記録して、フォルダエントリの下位階層にファイルエントリを分類して記録するという作用をもたらす。この場合において、上記記録制御部は、上記階層エントリを識別するエントリ識別子を上記階層エントリのそれぞれに付与するとともに上記フォルダエントリの下位階層に連結されるファイルエントリに当該フォルダエントリのエントリ識別子を記録して上記ファイルエントリの上位階層に連結されるフォルダエントリに当該ファイルエントリのエントリ識別子を記録することができる。これにより、エントリ識別子を階層エントリのそれぞれに付与するとともに、各階層エントリの親エントリおよび子エントリのエントリ識別子について記録するという作用をもたらす。

また、この第２の側面において、上記階層エントリを、１または複数の物理的に固定長のデータ領域であるスロットで構成された階層エントリとすることができる。これにより、１または複数の物理的に固定長のデータ領域であるスロットで構成された階層エントリに、管理情報および属性情報を関連付けて格納するという作用をもたらす。この場合において、上記スロットは、上記コンテンツ管理ファイルに含まれるプロパティファイルに順番に記録され、上記階層エントリのそれぞれに付与される上記階層エントリを識別するためのエントリ識別子を、上記プロパティファイルに記録された先頭のスロットからの上記階層エントリを構成するスロットの順番に応じて付与されるエントリ番号とすることができる。これにより、各スロットはプロパティファイルに順番に記録され、エントリ識別子はプロパティファイルに記録された先頭のスロットからの順番に応じて付与されるという作用をもたらす。

また、この第２の側面において、上記コンテンツ管理ファイルは、上記コンテンツに対応するコンテンツファイルとは異なるディレクトリ下に格納され、当該ディレクトリは不可視となるように設定することができる。これにより、コンテンツ管理ファイルは、コンテンツファイルとは異なるディレクトリ下に格納され、そのディレクトリは不可視となるように設定されるという作用をもたらす。

また、この第２の側面において、上記コンテンツは、画像コンテンツであり、上記顔メタデータは、少なくとも上記画像コンテンツに含まれる顔の位置および大きさを含むことができる。これにより、画像コンテンツに含まれる顔の位置および大きさを含むメタデータを作成するという作用をもたらす。

また、この第２の側面において、上記記録制御部は、上記コンテンツについて作成された上記顔メタデータを当該コンテンツに対応するコンテンツファイルに記録することができる。これにより、コンテンツについて作成された顔メタデータを、そのコンテンツに対応するコンテンツファイルに記録するという作用をもたらす。また、この場合において、上記記録制御部は、上記コンテンツファイルがＤＣＦ規格により記録される静止画コンテンツファイルである場合には当該静止画コンテンツファイルに関する上記顔メタデータを当該静止画コンテンツファイルにおけるメーカーノートに記録することができる。これにより、ＤＣＦ規格により記録される静止画コンテンツファイルに関する顔メタデータをそのメーカーノートに記録するという作用をもたらす。

また、この第２の側面において、上記作成部は、上記コンテンツファイルが動画コンテンツファイルである場合には当該動画コンテンツファイルに関する上記顔メタデータを当該動画コンテンツファイルにおける所定の条件を満たす位置毎に作成し、上記記録制御部は、上記動画コンテンツファイルに関して上記所定の条件を満たす位置毎に作成された上記顔メタデータを当該動画コンテンツファイルに記録することができる。これにより、動画コンテンツファイルに関する顔メタデータを所定の条件を満たす位置毎に作成し、この作成された顔メタデータを、対応する動画コンテンツファイルに記録するという作用をもたらす。また、この場合において、上記作成部は、上記コンテンツファイルがＡＶＣコーデックされた動画コンテンツファイルである場合には当該動画コンテンツファイルに関する上記顔メタデータをＳＰＳが付加されたＡＵに含まれるＩＤＲピクチャまたはＩピクチャ毎に作成し、上記記録制御部は、上記動画コンテンツファイルに関して上記ＩＤＲピクチャまたはＩピクチャ毎に作成された上記顔メタデータを当該ＩＤＲピクチャまたはＩピクチャを含むＡＵにおけるＳＥＩに記録することができる。これにより、ＡＶＣコーデックされた動画コンテンツファイルに関する顔メタデータを、ＳＰＳが付加されたＡＵに含まれるＩＤＲピクチャまたはＩピクチャ毎に作成し、ＩＤＲピクチャまたはＩピクチャ毎に作成された顔メタデータを、対応するＩＤＲピクチャまたはＩピクチャを含むＡＵにおけるＳＥＩに記録するという作用をもたらす。

また、この第２の側面において、上記記録制御部は、上記動画コンテンツファイルに関して所定間隔で作成された上記顔メタデータを当該動画コンテンツファイルに記録する場合には上記コンテンツ管理ファイルに上記顔メタデータを記録する場合における記録条件よりも緩和された記録条件を用いて上記顔メタデータを上記動画コンテンツファイルに記録することができる。これにより、コンテンツ管理ファイルに顔メタデータを記録する場合における記録条件よりも緩和された記録条件を用いて、顔メタデータを動画コンテンツファイルに記録するという作用をもたらす。

また、この第２の側面において、上記コンテンツから当該コンテンツの代表画像を抽出する代表画像抽出部をさらに具備し、上記コンテンツ管理ファイルは、上記抽出された代表画像を記録する代表画像ファイルを含み、上記作成部は、上記抽出された代表画像の上記代表画像ファイルにおける記録位置を当該代表画像が抽出されたコンテンツに関する上記属性情報に含めて当該属性情報を作成し、上記記録制御部は、上記抽出された代表画像を上記コンテンツ管理ファイルに含まれる代表画像ファイルに記録することができる。これにより、コンテンツから代表画像を抽出し、この抽出された代表画像の記録位置を含めて属性情報を作成するとともに、その代表画像を代表画像ファイルに記録するという作用をもたらす。

また、本発明の第３の側面は、属性情報が含まれるコンテンツファイルを記憶するコンテンツ記憶部と、階層構造により構成される階層エントリであって上記コンテンツファイルを管理するための管理情報と当該コンテンツファイルに関する属性情報とを含むファイルエントリと、当該ファイルエントリの下位階層に連結される上記階層エントリであって当該コンテンツファイルに含まれる顔が検出された際における当該コンテンツファイルに関する属性情報を含むメタデータであり当該顔に関する顔メタデータを含むメタデータエントリとが記録されているコンテンツ管理ファイルを記憶するコンテンツ管理ファイル記憶部と、上記コンテンツ管理ファイルに記録されているメタデータエントリに含まれる属性情報と、当該メタデータエントリの上位階層に連結されているファイルエントリに対応するコンテンツファイルに含まれる属性情報とを比較することにより、当該コンテンツファイルとこれに対応するメタデータエントリおよびファイルエントリとの不整合を判定する不整合判定部と、上記不整合検出部により不整合でないと判定されたコンテンツファイルについて、上記コンテンツ管理ファイルに記録されているメタデータエントリに含まれる顔メタデータに基づいて、当該メタデータエントリの上位階層に連結されているファイルエントリに対応する当該コンテンツファイルに含まれる顔を含む顔画像を順次抽出し、当該抽出された顔画像を表示させる表示制御部とを具備するコンテンツ再生装置およびその処理方法ならびに当該方法をコンピュータに実行させるプログラムである。これにより、コンテンツ管理ファイルに記録されているメタデータエントリに含まれる属性情報と、このメタデータエントリの上位階層に連結されているファイルエントリに対応するコンテンツファイルに含まれる属性情報とを比較することにより、コンテンツファイルとこれに対応するメタデータエントリおよびファイルエントリとの不整合を判定し、不整合でないと判定されたコンテンツファイルについて、コンテンツ管理ファイルに記録されているメタデータエントリに含まれる顔メタデータに基づいて、そのメタデータエントリの上位階層に連結されているファイルエントリに対応するそのコンテンツファイルに含まれる顔を含む顔画像を順次抽出し、この抽出された顔画像を表示させるという作用をもたらす。

また、本発明の第４の側面は、属性情報が含まれるコンテンツファイルを記憶するコンテンツ記憶部と、階層構造により構成される階層エントリであって上記コンテンツファイルを管理するための管理情報と当該コンテンツファイルに関する属性情報とを含むファイルエントリと、当該ファイルエントリの下位階層に連結される上記階層エントリであって当該コンテンツファイルに含まれる顔が検出された際における当該コンテンツファイルに関する属性情報を含むメタデータであり当該顔に関する顔メタデータを含むメタデータエントリとが記録されているコンテンツ管理ファイルを記憶するコンテンツ管理ファイル記憶部と、上記コンテンツ管理ファイルに記録されているメタデータエントリに含まれる顔メタデータに基づいて、当該メタデータエントリの上位階層に連結されているファイルエントリに対応するコンテンツファイルに含まれる顔を含む顔画像を順次抽出し、当該抽出された顔画像を表示させる表示制御部と、上記コンテンツ管理ファイルに記録されているメタデータエントリに含まれる属性情報と、当該メタデータエントリの上位階層に連結されているファイルエントリに対応するコンテンツファイルに含まれる属性情報とを比較することにより、当該コンテンツファイルとこれに対応するメタデータエントリおよびファイルエントリとの不整合を判定する不整合判定部と、上記不整合検出部により不整合であると判定されたコンテンツファイルに含まれる被写体の顔を検出する顔検出部と、上記不整合であると判定されたコンテンツファイルに基づいて当該コンテンツファイルを管理するための上記管理情報と当該コンテンツファイルに関する上記属性情報とを作成し、上記検出された顔に基づいて上記コンテンツファイルに含まれる顔に関する上記顔メタデータを作成する作成部と、上記コンテンツ管理ファイルにおいて上記不整合検出部により不整合であると判定されたファイルエントリに上記作成された管理情報および上記作成された属性情報を記録し、当該ファイルエントリの下位階層に連結されているメタデータエントリに上記作成された顔メタデータを記録する記録制御部とを具備するコンテンツ再生装置およびその処理方法ならびに当該方法をコンピュータに実行させるプログラムである。これにより、コンテンツ管理ファイルに記録されているメタデータエントリに含まれる属性情報と、そのメタデータエントリの上位階層に連結されているファイルエントリに対応するコンテンツファイルに含まれる属性情報とを比較することにより、そのコンテンツファイルとこれに対応するメタデータエントリおよびファイルエントリとの不整合を判定し、不整合であると判定されたコンテンツファイルに含まれる被写体の顔を検出し、不整合であると判定されたコンテンツファイルに基づいて管理情報および属性情報を作成し、その検出された顔に基づいて顔メタデータを作成し、コンテンツ管理ファイルにおいて、不整合であると判定されたファイルエントリにその作成された管理情報および属性情報を記録し、そのファイルエントリの下位階層に連結されているメタデータエントリにその作成された顔メタデータを記録するという作用をもたらす。

また、この第３の側面において、操作入力を受け付ける操作受付部と、上記受け付けられた操作入力に応じて上記コンテンツ管理ファイルに記録されているファイルエントリの中から所望のファイルエントリを選択する選択部とをさらに具備し、上記表示制御部は、上記選択されたファイルエントリに含まれる管理情報に基づいて上記コンテンツ記憶部に記憶されているコンテンツファイルを抽出し、上記抽出されたコンテンツファイルが上記不整合検出部により不整合でないと判定された場合に、上記選択されたファイルエントリの下位階層に連結されているメタデータエントリに含まれる顔メタデータに基づいて上記抽出されたコンテンツファイルに含まれる顔を含む顔画像を順次抽出し、当該抽出された顔画像を表示させることができる。これにより、受け付けられた操作入力に応じて所望のファイルエントリを選択し、この選択されたファイルエントリに含まれる管理情報に基づいてコンテンツファイルを抽出し、この抽出されたコンテンツファイルが不整合でないと判定された場合に、その選択されたファイルエントリの下位階層に連結されているメタデータエントリに含まれる顔メタデータに基づいてその抽出されたコンテンツファイルに含まれる顔を含む顔画像を抽出し、この抽出された顔画像を表示させるという作用をもたらす。

また、この第３の側面において、上記コンテンツ管理ファイルは、上記コンテンツファイルの代表画像を記録する代表画像ファイルを含み、上記属性情報は、当該属性情報に係るコンテンツファイルの代表画像の上記代表画像ファイルにおける記録位置を含み、上記表示制御部は、上記代表画像ファイルに記録されている代表画像を表示させ、上記選択部は、上記代表画像ファイルに含まれる代表画像のうちから所望の代表画像を選択する操作入力が上記操作受付部により受け付けられた場合には、上記コンテンツ管理ファイルに記録されているファイルエントリの中から当該選択された代表画像に対応するファイルエントリを選択することができる。これにより、代表画像ファイルに記録されている代表画像を表示させ、代表画像ファイルに含まれる代表画像のうちから所望の代表画像を選択する操作入力が受け付けられた場合には、コンテンツ管理ファイルに記録されているファイルエントリの中からその選択された代表画像に対応するファイルエントリを選択するという作用をもたらす。

また、この第３の側面において、操作入力を受け付ける操作受付部と、上記表示制御部は、上記表示されている顔画像のうちから所望の顔画像を選択する操作入力が上記操作受付部により受け付けられた場合には、上記コンテンツ管理ファイルに記録されているメタデータエントリに含まれる顔メタデータの中の上記選択された顔画像に対応する顔メタデータに基づいて、当該顔メタデータを含むメタデータエントリの上位階層に連結されているファイルエントリに対応するコンテンツファイルを再生させることができる。これにより、表示されている顔画像のうちから所望の顔画像を選択する操作入力が受け付けられた場合には、その選択された顔画像に対応する顔メタデータに基づいて、そのメタデータエントリの上位階層に連結されているファイルエントリに対応するコンテンツファイルを再生させるという作用をもたらす。この場合において、上記表示制御部は、上記選択された顔画像に対応する顔メタデータに基づいて、上記再生対象となるコンテンツファイルのうち、上記選択された顔画像の記録時間以降に記録されたコンテンツを再生させることができる。これにより、選択された顔画像に対応する顔メタデータに基づいて、再生対象となるコンテンツファイルのうち、その選択された顔画像の記録時間以降に記録されたコンテンツを再生させるという作用をもたらす。

また、この第３の側面において、上記コンテンツファイルは、画像コンテンツファイルまたは動画コンテンツファイルであり、上記顔メタデータは、上記コンテンツファイルが上記画像コンテンツファイルである場合には少なくとも上記画像コンテンツファイルに含まれる顔の位置および大きさを含み、上記コンテンツファイルが上記動画コンテンツファイルである場合には少なくとも上記動画コンテンツファイルに含まれる顔の位置および大きさとその記録時間とを含むことができる。これにより、少なくとも画像コンテンツファイルに含まれる顔の位置および大きさを含む顔メタデータ、または、少なくとも動画コンテンツファイルに含まれる顔の位置および大きさとその記録時間とを含む顔メタデータを利用するという作用をもたらす。

また、本発明の第５の側面は、被写体の画像を撮像する撮像部と、上記撮像された画像に含まれる被写体の顔を検出する顔検出部と、上記撮像された画像に基づいて上記撮像された画像を管理するための管理情報と上記撮像された画像に関する属性情報とを作成し、上記検出された顔に基づいて当該顔が検出された際における上記撮像された画像に関する属性情報を含むメタデータであって上記撮像された画像に含まれる各顔を抽出するための顔メタデータを作成する作成部と、階層構造により構成される階層エントリを記録するコンテンツ管理ファイルに、上記作成された管理情報および上記作成された属性情報を含む上記階層エントリであるファイルエントリと、当該ファイルエントリの下位階層に連結される上記階層エントリであって上記作成された顔メタデータを含むメタデータエントリとを記録し、上記コンテンツ管理ファイルに記録されているメタデータエントリに含まれる属性情報と当該メタデータエントリの上位階層に連結されているファイルエントリに対応する画像に関する属性情報との比較により当該画像とこれに対応するメタデータエントリおよびファイルエントリとの不整合を判定して、不整合であると判定された画像については、当該不整合であると判定された画像に含まれる被写体の顔を上記顔検出部に検出させ、当該不整合であると判定された画像に関する上記管理情報と上記属性情報と上記顔メタデータとを上記作成部に作成させ、上記コンテンツ管理ファイルにおいて当該不整合であると判定された画像に対応するファイルエントリに当該画像について作成された上記管理情報および上記属性情報を記録し、当該ファイルエントリの下位階層に連結されているメタデータエントリに当該不整合であると判定された画像について作成された上記顔メタデータを記録する記録制御部とを具備する撮像装置およびその処理方法ならびに当該方法をコンピュータに実行させるプログラムである。これにより、撮像された画像に含まれる被写体の顔を検出し、その画像に基づいて管理情報および属性情報を作成するとともにその画像に含まれる各顔を抽出するための顔メタデータを作成し、その作成された管理情報および属性情報を含むファイルエントリと、このファイルエントリの下位階層に連結されその作成された顔メタデータを含むメタデータエントリとをコンテンツ管理ファイルに記録し、画像とこれに対応するメタデータエントリおよびファイルエントリとが不整合であると判定されたコンテンツについては、この画像に関する管理情報と属性情報と顔メタデータとを作成させ、コンテンツ管理ファイルにおいて、対応するファイルエントリおよびメタデータエントリに記録するという作用をもたらす。

本発明によれば、コンテンツを迅速に利用することができるという優れた効果を奏し得る。

次に本発明の実施の形態について図面を参照して詳細に説明する。

図１は、本発明の実施の形態における撮像装置１００の構成を示すブロック図である。この撮像装置１００は、大きく分けると、カメラ部１１０と、カメラＤＳＰ（Digital Signal Processor）１２０と、ＳＤＲＡＭ（Synchronous Dynamic Random Access Memory）１２１と、制御部１３０と、操作部１４０と、媒体インタフェース（以下、媒体Ｉ／Ｆという。）１５０と、ＬＣＤ（Liquid Crystal Display）コントローラ１６１と、ＬＣＤ１６２と、外部インタフェース（以下、外部Ｉ／Ｆという。）１６３と、通信インタフェース（以下、通信Ｉ／Ｆという。）１６４とを備える。なお、媒体インタフェース１５０と接続される記録媒体１７０については、撮像装置１００に内蔵するようにしてもよく、撮像装置１００から着脱可能とするようにしてもよい。

記録媒体１７０は、半導体メモリを用いたいわゆるメモリカード、記録可能なＤＶＤ（Digital Versatile Disc）、記録可能なＣＤ（Compact Disc）等の光記録媒体、磁気ディスク、ＨＤＤ（Hard Disk Drive）等の種々のものを用いるようにすることが考えられる。

カメラ部１１０は、光学ブロック１１１、ＣＣＤ（Charge Coupled Device）１１２、前処理回路１１３、光学ブロック用ドライバ１１４、ＣＣＤ用ドライバ１１５、および、タイミング生成回路１１６を備えるものである。ここで、光学ブロック１１１は、レンズ、フォーカス機構、シャッター機構、および、絞り（アイリス）機構などを備えるものである。

また、制御部１３０は、ＣＰＵ（Central Processing Unit）１４１、ＲＡＭ（Random Access Memory）１４２、フラッシュＲＯＭ（Read Only Memory）１４３、および、時計回路１４４が、システムバス１４５を通じて接続されて構成されている。制御部１３０は、例えば、汎用の組み込み型のマイクロコンピュータまたは専用のシステムＬＳＩ（Large Scale Integrated circuit）などからなる。また、制御部１３０は、撮像装置１００の各部を制御するものである。

ここで、ＲＡＭ１４２は、処理の途中結果を一時記憶する等、主に作業領域として用いられるものである。また、フラッシュＲＯＭ１４３は、ＣＰＵ１４１において実行される種々のプログラムや、処理に必要になるデータなどを記憶したものである。また、時計回路１４４は、現在年月日、現在曜日、現在時刻を提供するとともに、撮影日時等を提供するものである。

そして、画像の撮影時においては、光学ブロック用ドライバ１１４は、制御部１３０からの制御に応じて、光学ブロック１１１を動作させるようにする駆動信号を形成し、これを光学ブロック１１１に供給して、光学ブロック１１１を動作させるようにする。光学ブロック用ドライバ１１４からの駆動信号に応じて、光学ブロック１１１のフォーカス機構、シャッター機構、および、絞り機構が制御される。光学ブロック１１１は、被写体の光学的な画像を取り込んで、これをＣＣＤ１１２に結像させる。

ＣＣＤ１１２は、光学ブロック１１１からの光学的な画像を光電変換して、変換により得られた画像の電気信号を出力する。すなわち、ＣＣＤ１１２は、ＣＣＤ用ドライバ１１５からの駆動信号に応じて動作し、光学ブロック１１１からの光学的な被写体の画像を取り込むとともに、制御部１３０によって制御されるタイミング生成回路１１６からのタイミング信号に基づいて、取り込んだ被写体の画像（画像情報）を電気信号として前処理回路１１３に供給する。なお、ＣＣＤ１１２の代わりに、ＣＭＯＳ（Complementary Metal-Oxide Semiconductor）センサなどの光電変換デバイスを用いるようにしてもよい。

また、上述のように、タイミング生成回路１１６は、制御部１３０からの制御に応じて、所定のタイミングを提供するタイミング信号を形成するものである。また、ＣＣＤドライバ１１５は、タイミング生成回路１１６からのタイミング信号に基づいて、ＣＣＤ１１２に供給する駆動信号を形成するものである。

前処理回路１１３は、ＣＣＤ１１２から供給された電気信号の画像情報に対して、ＣＤＳ（Correlated Double Sampling）処理を行って、Ｓ／Ｎ比を良好に保つようにするとともに、ＡＧＣ（Automatic Gain Control）処理を行って、利得を制御し、そして、Ａ／Ｄ（Analog/Digital）変換を行って、デジタル信号とされた画像データを形成する。

前処理回路１１３においてデジタル信号とされた画像データは、カメラＤＳＰ１２０に供給される。カメラＤＳＰ１２０は、これに供給された画像データに対して、ＡＦ（Auto Focus）、ＡＥ（Auto Exposure）、および、ＡＷＢ（Auto White Balance）などのカメラ信号処理を施す。このようにして種々の調整がされた画像データは、例えば、ＪＰＥＧ（Joint Photographic Experts Group）またはＪＰＥＧ２０００などの所定の符号化方式で符号化され、システムバス１４５および媒体Ｉ／Ｆ１５０を通じて記録媒体１７０に供給され、記録媒体１７０にファイルとして記録される。また、カメラＤＳＰ１２０は、ＭＰＥＧ４−ＡＶＣ規格に基づいて、データ圧縮処理およびデータ伸長処理を行う。

また、記録媒体１７０に記録された画像データは、タッチパネルやコントロールキーなどからなる操作部１４０を通じて受け付けたユーザからの操作入力に応じて、目的とする画像データが媒体Ｉ／Ｆ１５０を通じて記録媒体１７０から読み出され、これがカメラＤＳＰ１２０に供給される。

カメラＤＳＰ１２０は、記録媒体１７０から読み出され、媒体Ｉ／Ｆ１５０を通じて供給された符号化されている画像データを復号し、復号後の画像データをシステムバス１４５を通じてＬＣＤコントローラ１６１に供給する。ＬＣＤコントローラ１６１は、これに供給された画像データからＬＣＤ１６２に供給する画像信号を形成し、これをＬＣＤ１６２に供給する。これにより、記録媒体１７０に記録されている画像データに応じた画像が、ＬＣＤ１６２の表示画面に表示される。なお、カメラＤＳＰ１２０は、前処理回路１１３または記録媒体１７０から供給された画像データに含まれる顔を検出して、検出された顔に関する情報を制御部１３０に出力する。

また、撮像装置１００には、外部Ｉ／Ｆ１６３が設けられている。この外部Ｉ／Ｆ１６３を通じて、例えば外部のパーソナルコンピュータと接続して、パーソナルコンピュータから画像データの供給を受けて、これを撮像装置１００に装着された記録媒体１７０に記録したり、また、撮像装置１００に装着された記録媒体１７０に記録されている画像データを外部のパーソナルコンピュータ等に供給したりすることもできるものである。

また、通信Ｉ／Ｆ１６４は、いわゆるネットワークインターフェースカード（ＮＩＣ）などからなり、ネットワークに接続して、ネットワークを通じて種々の画像データやその他の情報を取得する。

また、外部のパーソナルコンピュータやネットワークを通じて取得し、記録媒体１７０に記録された画像データ等の情報についても、上述したように、撮像装置１００において読み出して再生し、ＬＣＤ１６２に表示してユーザが利用することもできる。

なお、通信Ｉ／Ｆ１６４は、ＩＥＥＥ（Institute of Electrical and Electronic Engineers）１３９４またはＵＳＢ（Universal Serial Bus）などの規格に準拠した有線用インタフェースとして設けることも可能であり、また、ＩＥＥＥ８０２．１１ａ、ＩＥＥＥ８０２．１１ｂ、ＩＥＥＥ８０２．１１ｇ、または、ブルートゥースの規格に準拠した光や電波による無線インタフェースとして設けることも可能である。すなわち、通信Ｉ／Ｆ１６４は、有線または無線の何れのインタフェースであってもよい。

このように、撮像装置１００は、被写体の画像を撮影して、撮像装置１００に装填された記録媒体１７０に記録することができるとともに、記録媒体１７０に記録された画像データを読み出して、これを再生し、利用することができるものである。また、外部のパーソナルコンピュータやネットワークを通じて、画像データの提供を受けて、これを撮像装置１００に装填された記録媒体１７０に記録したり、また、読み出して再生したりすることもできる。

次に、本発明の実施の形態で用いる動画コンテンツファイルについて図面を詳細に説明する。

図２は、撮像装置１００で撮影された画像データがＭＰＥＧ４−ＡＶＣ（MPEG-4 part10:AVC）で符号化された、ビデオ信号の所定フレームを模式的に示す図である。

本発明の実施の形態では、ＭＰＥＧ４−ＡＶＣで符号化されたビデオ信号の何れかのフレームに含まれる人間の顔を検出し、検出された顔に対応する顔メタデータを記録する記録方法について説明する。

ＭＰＥＧ４−ＡＶＣ規格では、動画像符号化処理を扱うＶＣＬ（Video Coding Layer）と、符号化された情報を伝送、蓄積する下位システムとの間にＮＡＬ（Network Abstraction Layer）が存在する。また、シーケンスやピクチャのヘッダ情報に相当するパラメータセットをＶＣＬで生成された情報と分離して扱うことができる。さらに、ＭＰＥＧ−２システムなどの下位システムへのビットストリームの対応付けは、ＮＡＬの一区切りである「ＮＡＬユニット」を単位として行われる。

ここでは、主なＮＡＬユニットについて説明する。ＳＰＳ（Sequence Parameter Set）ＮＡＬユニットには、プロファイル、レベル情報等シーケンス全体の符号化に関わる情報が含まれる。後述するＡＵ（Access Unit）において、ＳＰＳＮＡＬユニットが挿入されているＡＵ区間が、一般的には１シーケンスとされる。そして、この１シーケンスを編集単位として、ストリームの部分消去、結合等の編集が行われる。ＰＰＳ（Picture Parameter Set）ＮＡＬユニットには、エントロピー符号化モード、ピクチャ単位の量子化パラメータ等のピクチャ全体の符号化モードに関する情報が含まれる。

ＣｏｄｅｄＳｌｉｃｅｏｆａｎＩＤＲｐｉｃｔｕｒｅＮＡＬユニットには、ＩＤＲ（Instantaneous Decoder Refresh）ピクチャの符号化データが格納される。ＣｏｄｅｄＳｌｉｃｅｏｆａｎｏｎＩＤＲｐｉｃｔｕｒｅＮＡＬユニットには、ＩＤＲピクチャでない、その他のピクチャの符号化データが格納される。

ＳＥＩ（Supplemental Enhancement Information）ＮＡＬユニットには、ＶＣＬの符号に必須でない付加情報が格納される。例えば、ランダムアクセスを行うのに便利な情報、ユーザが独自に定義する情報等が格納される。ＡＵＤ（Access Unit Delimiter）ＮＡＬユニットは、後述するアクセスユニット（ＡＵ）の先頭に付加される。このＡＵＤＮＡＬユニットには、アクセスユニットに含まれるスライスの種類を示す情報が含まれる。その他、シーケンスの終了を示すＥＯＳ（End Of Sequence）ＮＡＬユニット、および、ストリームの終了を示すＥＯＳＴ（End Of Stream）ＮＡＬユニットが定義されている。

ビットストリーム中の情報をピクチャ単位にアクセスするために、いくつかのＮＡＬユニットをまとめたものをアクセスユニット（ＡＵ）と呼ぶ。アクセスユニットには、ピクチャのスライスに相当するＮＡＬユニット（Coded Slice of an IDR picture ＮＡＬユニットまたはCoded Slice of a non IDR picture ＮＡＬユニット）が必ず含まれる。本発明の実施の形態では、あるＳＰＳＮＡＬユニットを含むＡＵを始点とし、ＥＯＳＮＡＬユニットを含むＡＵを終点とした一連のＡＵの括りを１シーケンスとして定義する。さらにＳＰＳを含むＡＵは、ＩＤＲピクチャまたはＩピクチャのスライスに相当されるＮＡＬユニットを含むものとする。つまり、１シーケンスの復号化順における先頭には他のピクチャに依存せずに復号可能なＩＤＲピクチャまたはＩピクチャを有することになるため、１シーケンスをランダムアクセスの単位、または編集における編集単位とすることが可能となる。

例えば、図２に示すように、ＳＰＳを含むＡＵ１８０には、ＳＥＩＮＡＬユニット１８１が含まれ、ＳＰＳを含むＡＵ１９０には、ＳＥＩＮＡＬユニット１９１が含まれているものとする。このＳＥＩＮＡＬユニット１８１およびＳＥＩＮＡＬユニット１９１については、本発明の実施の形態の変形例において詳細に説明する。

なお、本発明の実施の形態では、動画コンテンツから人間の顔を抽出する際、その検出の単位をこの１シーケンスとする。すなわち、１シーケンス内において、このシーケンスに含まれる１フレームのみから顔を検出し、他のフレームからは顔を検出しない。ただし、所定シーケンス間隔おきに顔を検出するようにしてもよく、ＩＤＲを含むシーケンスおきに顔を検出するようにしてもよい。

次に、記録媒体１７０に記録されている実ファイルについて図面を参照して詳細に説明する。

図３は、ファイルシステム（File System）上に登録されている実ファイルのファイル構造を概略的に示す図である。本発明の実施の形態では、動画または静止画コンテンツファイルとこれらのコンテンツファイルに関する顔メタデータとについて、実ディレクトリとは異なる仮想的なエントリ構造で管理する。具体的には、動画または静止画コンテンツファイル以外に、これらのファイルと顔メタデータとを管理するコンテンツ管理ファイル３４０が記録媒体１７０に記録される。

ルートディレクトリ３００には、動画コンテンツフォルダ３１０と、静止画コンテンツフォルダ３２０と、コンテンツ管理フォルダ３３０とが属する。

動画コンテンツフォルダ３１０は、撮像装置１００で撮像された動画データである動画コンテンツファイル３１１および３１２が属する動画コンテンツフォルダである。なお、この例では、動画コンテンツファイル３１１および３１２が動画コンテンツフォルダ３１０に属するものと想定している。

静止画コンテンツフォルダ３２０は、撮像装置１００で撮像された静止画データである静止画コンテンツファイル３２１および３２２が属する静止画コンテンツフォルダである。なお、この例では、静止画コンテンツファイル３２１および３２２が静止画コンテンツフォルダ３２０に属するものと想定している。

コンテンツ管理フォルダ３３０は、コンテンツ管理ファイル３４０が属するコンテンツ管理フォルダである。コンテンツ管理ファイル３４０は、動画コンテンツフォルダ３１０および静止画コンテンツフォルダ３２０に属する各コンテンツファイルを仮想的な階層エントリで管理するファイルであり、プロパティファイル４００とサムネイルファイル５００とで構成されている。プロパティファイル４００は、各コンテンツファイルを仮想的に管理するための管理情報と、各コンテンツファイルの作成日時等のコンテンツ属性情報と、顔メタデータ等の各コンテンツファイルに付随するメタデータとが記録されているファイルである。また、サムネイルファイル５００は、各コンテンツファイルの代表サムネイル画像が格納されているファイルである。なお、プロパティファイル４００およびサムネイルファイル５００の詳細については、図４乃至図８等を参照して詳細に説明する。

ここで、動画コンテンツフォルダ３１０に属する各動画コンテンツファイル、および、静止画コンテンツフォルダ３２０に属する各静止画コンテンツファイルは、ユーザに可視である。すなわち、ユーザからの操作入力によって、これらのコンテンツファイルに対応する画像をＬＣＤ１６２に表示させることが可能である。

一方、コンテンツ管理ファイル３４０については、コンテンツ管理ファイル３４０の内容がユーザに改変されることを避けるため、ユーザに不可視とする。コンテンツ管理ファイル３４０の内容を不可視とする具体的な設定方法として、例えば、ファイルシステムの対象となるコンテンツ管理フォルダ３３０を不可視にするフラグをオンにすることによってコンテンツ管理ファイル３４０の内容を不可視とすることができる。さらに、不可視にするタイミングとして、例えば、撮像装置１００がＵＳＢ（Universal Serial Bus）経由でＰＣ（パーソナルコンピュータ）と接続された場合（マスストレージ接続）において、撮像装置１００が接続を感知したとき（接続が正しく行えたという信号をＰＣ（ホスト）から受信したとき）に、上記フラグをオンにするようにしてもよい。

次に、プロパティファイル４００の仮想的なエントリ構造について図面を参照して詳細に説明する。

図４は、プロパティファイル４００が管理する仮想フォルダおよび仮想ファイルの構成例を示す図である。

プロパティファイル４００は、上述したように、記録媒体１７０に記録されている動画または静止画コンテンツファイルを管理するものであり、アプリケーションに応じた柔軟性のある管理方法が可能である。例えば、動画または静止画コンテンツファイルが撮像装置１００に記録された日時に応じて管理することができる。また、動画または静止画の種別に応じて管理することができる。ここでは、記録された日時に応じて動画コンテンツファイルを分類して管理する管理方法について説明する。また、各エントリ内に示す数字は、エントリ番号を示す数字である。なお、エントリ番号については、図７を参照して詳細に説明する。

ルートエントリ４０７は、階層型エントリ構造における最上階層のエントリである。この例では、ルートエントリ４０７には、動画フォルダエントリ４１０および静止画フォルダエントリ４０９が属する。また、プロファイルエントリ４０８（エントリ番号：＃１５０）は、各ファイルエントリのコーデック情報（符号化フォーマット、画サイズ、ビットレート等）を一括して保存するエントリである。なお、プロファイルエントリ４０８については、図７（ｃ）を参照して詳細に説明する。静止画フォルダエントリ４０９は、静止画に関する日付フォルダエントリを下位の階層で管理するエントリである。動画フォルダエントリ４１０（エントリ番号：＃１）は、日付フォルダエントリを下位の階層で管理するエントリである。この例では、動画フォルダエントリ４１０には、日付フォルダエントリ４１１および日付フォルダエントリ４１６が属する。

日付フォルダエントリ４１１（エントリ番号：＃３）および日付フォルダエントリ４１６（エントリ番号：＃５）は、記録媒体１７０に記録されている動画コンテンツファイルを日付毎に分類して管理するエントリであり、分類された動画コンテンツファイルを下位の階層で管理するエントリである。この例では、日付フォルダエントリ４１１は、「２００６／１／１１」に記録された動画コンテンツファイルを管理するエントリとし、日付フォルダエントリ４１１には動画ファイルエントリ４１２および動画ファイルエントリ４１４が属する。また、日付フォルダエントリ４１６は、「２００６／７／２８」に記録された動画コンテンツファイルを管理するエントリとし、日付フォルダエントリ４１６には動画ファイルエントリ４１７および動画ファイルエントリ４１９が属する。なお、フォルダエントリの詳細については、図５を参照して詳細に説明する。

動画ファイルエントリ４１２（エントリ番号：＃７）、動画ファイルエントリ４１４（エントリ番号：＃２８）、動画ファイルエントリ４１７（エントリ番号：＃１４）、動画ファイルエントリ４１９（エントリ番号：＃２１）には、記録媒体１７０に記録されている各動画コンテンツファイルを仮想的に管理するための管理情報と、各動画コンテンツファイルの作成日時等のコンテンツ属性情報とが格納されている。なお、ファイルエントリの詳細については、図５を参照して詳細に説明する。

メタデータエントリ４１３（エントリ番号：＃１０）、メタデータエントリ４１５（エントリ番号：＃３１）、メタデータエントリ４１８（エントリ番号：＃１７）、メタデータエントリ４２０（エントリ番号：＃２４）は、それぞれ連結されている動画ファイルエントリが管理する動画コンテンツファイルに付随するメタデータを格納するメタデータエントリである。メタデータとして、この例では、動画コンテンツファイルから抽出された顔データが格納される。この顔データは、動画コンテンツファイルから抽出された顔に関する各種データであり、例えば、図１１に示すように、顔検出時刻情報、顔基本情報、顔スコア、笑顔スコア等のデータである。なお、メタデータエントリの詳細については、図５乃至図１６を参照して詳細に説明する。

次に、コンテンツ管理ファイルとコンテンツファイルとの関係について図面を参照して詳細に説明する。

図５は、コンテンツ管理ファイル３４０を構成するプロパティファイル４００およびサムネイルファイル５００と、動画コンテンツフォルダ３１０に属する動画コンテンツファイル３１１乃至３１６との関係を概略的に示す図である。ここでは、図４に示す日付フォルダエントリ４１１、動画ファイルエントリ４１４、メタデータエントリ４１５と、代表サムネイル画像５０２と、動画コンテンツファイル３１２との関係について説明する。

日付フォルダエントリ４１１は、実コンテンツファイルの日付を仮想的に管理するフォルダエントリであり、「エントリ種別」、「親エントリリスト」、「親エントリ種別」、「子エントリリスト」、「子エントリ種別」、「スロット有効フラグ」、「スロットチェーン」等の情報が格納されている。

なお、エントリ番号は、各エントリを識別するための識別番号であり、日付フォルダエントリ４１１のエントリ番号として「＃３」が割り当てられる。なお、このエントリ番号の割り当て方法については、図７および図８を参照して説明する。

「エントリ種別」は、このエントリの種類を示すものであり、エントリの種類に応じて「動画フォルダエントリ」、「日付フォルダエントリ」、「動画ファイルエントリ」、「静止画ファイルエントリ」、「メタデータエントリ」等が格納される。例えば、日付フォルダエントリ４１１の「エントリ種別」には「日付フォルダエントリ」が格納される。

「親エントリリスト」には、このエントリが属する上位の階層エントリである親エントリに対応するエントリ番号が格納される。例えば、日付フォルダエントリ４１１の「親エントリリスト」には「＃１」が格納される。

「親エントリ種別」は、「親エントリリスト」に格納されているエントリ番号に対応する親エントリの種類を示すものであり、親エントリの種類に応じて「動画フォルダエントリ」、「日付フォルダエントリ」、「動画ファイルエントリ」、「静止画ファイルエントリ」等が格納される。例えば、日付フォルダエントリ４１１の「親エントリ種別」には「動画フォルダエントリ」が格納される。

「子エントリリスト」は、このエントリに属する下位階層のエントリである子エントリに対応するエントリ番号が記録される。例えば、日付フォルダエントリ４１１の「子エントリリスト」には「＃７」および「＃２８」が格納される。

「子エントリ種別」は、「子エントリリスト」に格納されているエントリ番号に対応する子エントリの種類を示すものであり、子エントリの種類に応じて「動画フォルダエントリ」、「日付フォルダエントリ」、「動画ファイルエントリ」、「静止画ファイルエントリ」、「メタデータエントリ」等が記録される。例えば、日付フォルダエントリ４１１の「子エントリ種別」には「動画ファイルエントリ」が格納される。

「スロット有効フラグ」は、このエントリを構成する各スロットが有効であるか無効であるかを示すフラグである。「スロットチェーン」は、このエントリを構成する各スロットに関するリンクや連結等の情報である。なお、「スロット有効フラグ」および「スロットチェーン」については、図７（ｂ）を参照して詳細に説明する。

動画ファイルエントリ４１４は、実コンテンツファイルを仮想的に管理するファイルエントリであり、仮想管理情報４０１およびコンテンツ属性情報４０２が格納されている。仮想管理情報４０１には、「エントリ種別」、「コンテンツ種別」、「コンテンツアドレス」、「親エントリリスト」、「親エントリ種別」、「子エントリリスト」、「子エントリ種別」、「スロット有効フラグ」、「スロットチェーン」等の情報が格納されている。なお、「エントリ種別」、「親エントリリスト」、「親エントリ種別」、「子エントリリスト」、「子エントリ種別」、「スロット有効フラグ」、「スロットチェーン」については、日付フォルダエントリ４１１で示したものと同様であるため、ここでの説明は省略する。

「コンテンツ種別」は、このファイルエントリに対応するコンテンツファイルの種類を示すものであり、ファイルエントリに対応するコンテンツファイルの種類に応じて、「動画コンテンツファイル」、「静止画コンテンツファイル」等が記録される。例えば、動画ファイルエントリ４１４の「コンテンツ種別」には「動画コンテンツファイル」が格納される。

「コンテンツアドレス」は、記録媒体１７０に記録されている動画コンテンツファイルの記録位置を示す情報であり、この記録位置情報によって記録媒体１７０に記録されている動画コンテンツファイルへのアクセスが可能となる。例えば、動画ファイルエントリ４１４の「コンテンツアドレス」には、動画コンテンツファイル３１２のアドレスを示す「Ａ３１２」が格納される。

コンテンツ属性情報４０２は、仮想管理情報４０１に格納されているコンテンツファイルの属性情報であり、「作成日時」、「更新日時」、「区間情報」、「サイズ情報」、「サムネイルアドレス」、「プロファイル情報」等の情報が格納されている。

「作成日時」には、このファイルエントリに対応するコンテンツファイルが作成された日時が格納される。「更新日時」には、このファイルエントリに対応するコンテンツファイルが更新された日時が格納される。なお、「更新日時」を用いて、メタデータの不整合が判別される。「区間情報」には、このファイルエントリに対応するコンテンツファイルの時間の長さを示す情報が格納される。「サイズ情報」は、このファイルエントリに対応するコンテンツファイルのサイズを示す情報が格納される。

「サムネイルアドレス」は、サムネイルファイル５００に格納されている代表サムネイル画像の記録位置を示す情報であり、この位置情報によってサムネイルファイル５００に格納されている代表サムネイル画像へのアクセスが可能となる。例えば、動画ファイルエントリ４１４の「サムネイルアドレス」には、動画コンテンツファイル３１２の代表画像である代表サムネイル画像５０２のサムネイルファイル５００内部におけるエントリ番号が格納される。

「プロファイル情報」には、プロファイルエントリ４０８内部に格納されているビデオ・オーディオエントリ（video audio entry）のエントリ番号が記録されている。なお、ビデオ・オーディオエントリについては、図７（ｃ）を参照して詳細に説明する。

メタデータエントリ４１５には、「エントリ種別」、「親エントリリスト」、「親エントリ種別」、「スロット有効フラグ」、「スロットチェーン」、「メタデータ」等の情報が格納されている。なお、「エントリ種別」、「親エントリリスト」、「親エントリ種別」「スロット有効フラグ」、「スロットチェーン」については、日付フォルダエントリ４１１で示したものと同様であるため、ここでの説明は省略する。

「メタデータ」は、このメタデータエントリが属する上位の階層ファイルエントリである親エントリに対応するコンテンツファイルから取得された各種属性情報（メタデータ）である。この「メタデータ」に格納される各種情報については、図９乃至図１６を参照して詳細に説明する。

サムネイルファイル５００は、各コンテンツファイルの代表画像である代表サムネイル画像が格納されるサムネイルファイルである。例えば、図５に示すように、動画コンテンツフォルダ３１０に属する動画コンテンツファイル３１１乃至３１６の代表画像として、代表サムネイル画像５０１乃至５０６がサムネイルファイル５００に格納されている。なお、サムネイルファイル５００に格納されている各サムネイル画像については、プロパティファイル４００に含まれるコンテンツ属性情報４０２の「サムネイルアドレス」に基づいてアクセスすることができる。また、各コンテンツファイルについては、プロパティファイル４００に含まれる仮想管理情報４０１の「コンテンツアドレス」に基づいてアクセスすることができる。

次に、プロパティファイルに格納されている各エントリの親子関係について図面を参照して詳細に説明する。

図６は、図４に示す動画フォルダエントリ４１０と、日付フォルダエントリ４１１と、動画ファイルエントリ４１２および４１４と、メタデータエントリ４１３および４１５との親子関係を概略的に示す図である。

動画フォルダエントリ４１０（エントリ番号：＃１）には、「子エントリリスト」等の情報が格納されている。例えば、「子エントリリスト」には「＃３」および「＃５」が格納される。

日付フォルダエントリ４１１（エントリ番号：＃３）には、「親エントリリスト」、「子エントリリスト」等の情報が格納されている。例えば、「親エントリリスト」には「＃１」が格納され、「子エントリリスト」には「＃７」および「＃２８」が格納される。

動画ファイルエントリ４１２（エントリ番号：＃７）および４１４（エントリ番号：＃２８）には、「親エントリリスト」、「子エントリリスト」、「コンテンツアドレス」、「サムネイルアドレス」等の情報が格納されている。例えば、動画ファイルエントリ４１２において、「親エントリリスト」には「＃３」が格納され、「子エントリリスト」には「＃１０」が格納され、「コンテンツアドレス」には「Ａ３１１」が格納され、「サムネイルアドレス」には「＃１」が格納される。なお、「サムネイルアドレス」に格納される「＃１」は、サムネイルファイル５００におけるエントリ番号であり、プロパティファイル４００に格納されている各エントリのエントリ番号とは異なる。なお、「サムネイルアドレス」については、図７を参照した説明において詳細する。

メタデータエントリ４１３（エントリ番号：＃１０）および４１５（エントリ番号：＃３１）には、「親エントリリスト」等の情報が格納されている。例えば、メタデータエントリ４１３において、「親エントリリスト」には「＃７」が格納される。これらの親子関係については、図６において、各エントリの親子関係について、「親エントリリスト」または「子エントリリスト」からの矢印で示す。また、図４に示す動画フォルダエントリ４１０と、日付フォルダエントリ４１６と、動画ファイルエントリ４１７および４１９と、メタデータエントリ４１８および４２０とについても、同様の親子関係が成立している。

なお、図４および図６に示すプロパティファイル４００においては、１つのファイルエントリに１つのメタデータエントリを関連付けた構成例を示すが、１つのファイルエントリに複数のメタデータエントリを関連付けるようにしてもよい。すなわち、１つの親ファイルエントリに複数の子メタデータエントリを対応させることができる。

例えば、動画ファイルエントリ４１２の子メタデータエントリとして、顔メタデータを格納するメタデータエントリ４１３とともに、ＧＰＳ情報を格納するメタデータエントリ（エントリ番号：＃４０）（図示せず）を対応させ、動画ファイルエントリ４１２の子エントリリストに「＃１０」および「＃４０」を記録する。この場合には、子エントリリストの格納順序をメタデータの種類に応じて予め決めておくようにする。これにより、１つのファイルエントリに複数のメタデータを格納する場合において、メタデータの数が増加した場合でも、データ管理が煩雑になることを防止して、所望のメタデータの抽出時間を短縮することができる。なお、ここでのメタデータの種類とは、単なるデータの種類（顔メタ、ＧＰＳ等の種類）でもよく、メタデータがバイナリデータかテキストデータかというコーディングの種類でもよい。

図７（ａ）は、プロパティファイル４００の基本構造の一例を示す図であり、図７（ｂ）は、各エントリを構成するスロットの構造を示す図であり、図７（ｃ）は、プロファイルエントリに含まれる情報の一例を示す図であり、図７（ｄ）は、ヘッダ部４３０に含まれる情報のうちで、コンテンツ管理ファイル３４０が管理するコンテンツの種別を示す情報の一例を示す図である。また、図８は、図４に示すプロパティファイル４００の全体構造を概略的に示す図である。

プロパティファイル４００は、図７（ａ）に示すように、ヘッダ部４３０およびエントリ部４４０の基本構造を有するファイルであり、これらの各エントリが１つの仮想フォルダや仮想ファイル等を示す単位となる。

エントリ部４４０を構成する各エントリは、１または複数のスロットで構成されている。なお、各エントリに格納されるデータの容量に応じて、各エントリには１または複数のスロットが割り当てられる。また、各エントリを構成するスロットは、プロパティファイルやサムネイルファイル等のファイル毎に決められた固定長のデータブロックとして定義されている。ただし、エントリによっては、構成されるスロット数が異なるため、スロットの整数倍で各エントリが可変長となる。

例えば、図７（ａ）に示すように、動画フォルダエントリ４１０には、格納されるデータ４５１のデータ容量に応じて２つのスロット４４１および４４２が割り当てられる。また、日付フォルダエントリ４１１には、格納されるデータ４５２のデータ容量に応じて２つのスロット４４３および４４４が割り当てられる。

なお、スロットが固定長であるため、スロットの全ての領域が有効データで埋められることがない場合があり、データ的にロスが発生する場合があるものの、スロットを固定長とすることによるデータアクセス性やデータ管理性を重視するため、このような構造とすることが好ましい。

また、エントリ部４４０を構成する各エントリは、図４および図６で示すように、エントリ番号で管理される。このエントリ番号は、エントリを構成する先頭のスロットが、プロパティファイル４００の全体を構成するスロットの先頭から何番目のスロットに該当するかに応じて割り当てられる。例えば、図７（ａ）および図８に示すように、動画フォルダエントリ４１０は、このエントリ内の先頭のスロットが、プロパティファイル４００の全体を構成するスロットの先頭から数えて１番目のスロットとなるため、エントリ番号として「＃１」が割り当てられる。また、日付フォルダエントリ４１１は、このエントリ内の先頭のスロットが、プロパティファイル４００の全体を構成するスロットの先頭から数えて３番目のスロットとなるため、エントリ番号として「＃３」が割り当てられる。また、日付フォルダエントリ４１６は、このエントリ内の先頭のスロットが、プロパティファイル４００の全体を構成するスロットの先頭から数えて５番目のスロットとなるため、エントリ番号として「＃５」が割り当てられる。なお、他の各エントリに割り当てられるエントリ番号についても同様である。これらのエントリ番号に基づいて、各エントリが管理されるとともに各エントリの親子関係が管理される。なお、エントリをサーチする場合には、エントリ部４４０を構成するスロットを最初からカウントして対象となるエントリをサーチする。

各エントリを構成するスロットは、図７（ｂ）に示すように、スロットヘッダ部４６０および実データ部４７０の構造を有するスロットである。スロットヘッダ部４６０は、スロットが有効であるか無効であるかを示す有効／無効フラグ４６１と、チェーン４６２とで構成されている。

有効／無効フラグ４６１には、対応するコンテンツファイルが有効に存在する場合には有効フラグが立てられ、対応するコンテンツファイルが削除された場合には無効フラグが立てられる。このように、対応するコンテンツファイルが削除された場合には有効／無効フラグ４６１に無効フラグを立てることによって、この削除されたコンテンツファイルに対応するスロット内部の情報を削除する処理を発生させずに、このスロットが見かけ上存在しないことを示すことができる。仮に、有効／無効フラグ４６１がない場合には、対応するコンテンツファイルが削除されると、この削除されたコンテンツファイルに対応するスロット内部の情報を削除する処理が必要であるとともに、削除されたスロットの物理的に後ろに存在するスロット内部の情報を前につめる必要があるため、処理が煩雑になる。

チェーン４６２には、各スロットを連結するためのリンクや連結等の情報が格納される。このチェーン４６２に格納される情報により、複数のスロットが連結されて１つのエントリが構成される。また、実データ部４７０には、各エントリの実データが格納されている。

プロファイルエントリ４０８には、各コンテンツファイルのビデオおよびオーディオに関するコーデック情報が１対となった１００種類程度のデータが記録されている。ビデオに関するコーデック情報として、ビデオエントリ（video entry）には、「符号化フォーマット（codec type）」、「画サイズ（visual size）」、「ビットレート（bit rate）」等が格納されている。また、オーディオに関するコーデック情報として、オーディオエントリ（audio entry）には、「符号化フォーマット（codec type）」、「サンプリングレート（sampling rate）」等が格納されている。また、各ビデオ・オーディオエントリには、エントリ番号が割り当てられている。このエントリ番号として、プロファイルエントリ４０８内部における記録順序を示す番号が割り当てられる。例えば、図７（ｃ）に示すように、最初のビデオ・オーディオエントリ４７１には「＃１」が割り当てられ、２番目のビデオ・オーディオエントリ４７２には「＃２」が割り当てられる。なお、このビデオ・オーディオエントリのエントリ番号が、ファイルエントリの「プロファイル情報」（図５に示す）に記録される。そして、「プロファイル情報」に記録されているエントリ番号に基づいて、ファイルエントリに対応するコンテンツファイルのコーデック情報が読み出される。

サムネイルファイル５００（図５に示す）は、基本的な構造はプロパティファイル４００と同様であり、各エントリが１または複数のスロットで構成されている。これらの各エントリが１つの代表サムネイル画像を示す単位となる。ただし、サムネイルファイル５００にはヘッダ部が存在しない。各スロットは、ファイル内で固定長であり、この１スロットの固定長に関するスロットサイズは、プロパティファイル４００のヘッダ部４３０に記録されている。また、サムネイルファイル５００の各エントリの対応関係は、プロパティファイル４００に格納されている。なお、サムネイルファイル５００のスロットサイズは、プロパティファイル４００のスロットサイズとは異なる。

サムネイルファイル５００のスロットの容量は、サムネイルファイル毎に設定することができ、この容量はプロパティファイル４００のヘッダ部４３０に記録される。また、ヘッダ部４３０にはサムネイルファイル５００のサムネイルファイル名が記録されている。

サムネイルファイル５００には、コンテンツファイルの代表画像である代表サムネイル画像が、コンテンツファイルに対応するファイルエントリ毎に１枚記録されている。コンテンツファイルの代表画像は、例えば、コンテンツファイルが動画の場合には、その先頭画像である画面全体の画像とすることができる。また、通常のサムネイルファイルの場合には、１つのファイルエントリについて１つのスロットが対応する。また、サムネイルファイル５００を構成する各エントリには、エントリ番号が割り当てられている。このサムネイルファイルのエントリ番号は、サムネイルファイル内を１エントリに１スロットを対応させる構成とする場合には、スロット番号となる。また、このサムネイルファイルのエントリ番号が、各ファイルエントリの「サムネイルアドレス」（図５に示す）に格納される。

ヘッダ部４３０には、各エントリを管理する各種情報が記録されている。例えば、図７（ｄ）に示すように、コンテンツ管理ファイル３４０が管理するコンテンツファイルの種別を示す情報がヘッダ部４３０に格納されている。なお、図７（ｄ）に示す例では、コンテンツ管理ファイル３４０が管理するコンテンツファイルは、ＨＤ動画およびＳＤ動画となり、静止画は管理しないことになる。これは、動画および静止画を記録することができるコンテンツ記録装置であっても、静止画はコンテンツ管理ファイル３４０で管理しない場合があるからである。図７（ｄ）に示すようにヘッダ部４３０に記録されている場合には、静止画は、通常のファイルシステムに基づいて管理されることになる。なお、動画についても、通常のファイルシステムで管理されているため、コンテンツ管理ファイルを理解することができないコンテンツ再生装置等では、ファイルシステムの情報に基づいてコンテンツの再生が実行される。また、撮像装置１００を他のコンテンツ再生装置に接続する場合や、着脱可能な記録媒体を他のコンテンツ再生装置に移動させて再生する場合等において、他のコンテンツ再生装置がコンテンツ管理ファイルを理解することができる場合には、コンテンツ管理ファイルに基づいてコンテンツファイルの読み出し等が実行される。また、ヘッダ部４３０には、プロファイルエントリ４０８（エントリ番号：＃１５０）のエントリ番号が記録されている。これにより、エントリ部４４０を構成する各エントリの中からプロファイルエントリの位置を特定することができる。

図８には、図４に示すプロパティファイル４００を構成する各エントリと、各エントリに対応するスロットと、各スロットに格納されるデータとの関係を概略的に示す。なお、各エントリの名称については省略してエントリ番号を記載する。

図９は、メタデータエントリ６００の内部構成を概略的に示す図である。なお、メタデータエントリ６００は、図４または図６等に示すメタデータエントリ４１３、４１５、４１８、４２０に対応する。また、本発明の実施の形態では、１つの動画コンテンツファイル毎に顔メタデータが記録されるものとする。

メタデータエントリ６００は、１または複数のメタデータユニット（Meta_Data_Unit）から構成されている。また、メタデータユニット６１０は、データユニットサイズ（data_unit_size）６１１と、言語（language）６１２と、符号化形式（encoding_type）６１３と、メタデータの種類（data_type_ID）６１４と、メタデータ６１５とから構成されている。

データユニットサイズ６１１には、メタデータユニット６１０に格納されているメタデータのサイズが記録される。言語６１２には、メタデータユニット６１０に格納されているメタデータの言語が記録される。符号化形式６１３には、メタデータユニット６１０に格納されているメタデータの符号化形式が記録される。メタデータの種類６１４には、個々のメタデータの種類を識別するための識別情報が記録される。

なお、メタデータ６１５には、顔メタデータ６２０が記録されるとともに、顔メタデータ以外のメタデータである他のメタデータ６５０が記録される。例えば、他のメタデータ６５０として、コンテンツファイルのタイトル情報やジャンル情報等の情報が格納される。

顔メタデータ６２０は、ヘッダ部６３０と顔データ部６４０とから構成されている。ヘッダ部６３０には、顔メタデータを管理する情報が格納される。また、ヘッダ部６３０は動画コンテンツ毎に固定長とする。顔データ部６４０には、動画コンテンツファイルから検出された顔について顔メタデータとして記録される顔毎に顔データが記録される。例えば、顔データ部６４０には、顔データ６２１乃至６２３等が格納される。この顔データは、図１１に示すように、顔検出時刻情報、顔基本情報、顔スコア、笑顔スコア等のデータである。また、顔データ部６４０は、１つの動画コンテンツファイルで固定長とする。このように、ヘッダ部６３０および顔データ部６４０が固定長であるため、顔データへのアクセスを容易に行うことができる。

また、他のメタデータ６５０の構成についても、顔メタデータ６２０の構成と同様である。

なお、本発明の実施の形態においては、１フレーム内において検出された顔のうちで、顔データ部に記録すべき顔データの値を規定する。例えば、１フレーム内において検出された顔の大きさや顔スコアの上位の顔等の所定の条件に基づいて、顔データ部に記録する顔データの最大値を規定して制限することができる。このように制限することによって、１フレーム内において不必要な顔（条件の悪い顔、顔らしくない顔等）を顔データ部に記録することによる記録媒体１７０の容量圧迫を防止することができる。

また、動画コンテンツファイルを記録媒体１７０に記録する場合において、顔検出エンジンにより検出された全ての顔毎に顔データが作成された場合には、作成された顔データの容量が莫大なものになる。また、顔を検出する時間間隔が小さい場合には、さらに容量が増加する。このため、例えば、時刻ｔ０のフレームに対して記録すべき顔の顔データの個数が、次の検出時刻である時刻ｔ１のフレームに対して記録すべき顔の顔データの個数が同数である場合には、時刻ｔ１で検出した顔に対する顔データを顔データ部に記録しないようにする。これは、検出された顔の個数が同数であるため、同じ顔に関するメタデータが記録される可能性が高いためである。つまり、顔を検出する時刻の前後で記録すべき顔データの個数に変化がある場合にのみ、顔データを記録することによって記録媒体に不必要な重複顔データの記録を防ぐことができる。このように、本発明の実施の形態においては、１フレーム内において検出された顔の全てについて顔データを作成する必要はない。

図１０は、ヘッダ部６３０に格納される各種情報の概略を示す図である。

ヘッダ部６３０には、ヘッダサイズ６３１と、メタデータバージョン６３２と、コンテンツ更新日時６３３と、顔データ構造フラグ６６０と、タイムスケール６３４と、顔データ個数６３５と、顔データサイズ６３６と、顔検出エンジンバージョン６３７と、コンテンツ画像サイズ６３８と、誤り検出符号値６３９とが格納される。なお、これらの格納単位は、図１０の「サイズ」に示すように、バイトで規定される。

ヘッダサイズ６３１には、ヘッダ部６３０のデータサイズが格納される。このヘッダサイズ６３１によって、顔データ部６４０にアクセスする場合に、ヘッダ部６３０をジャンプして即座にアクセスすることが可能である。また、データサイズとして２バイトが規定されている。

メタデータバージョン６３２には、ヘッダ部６３０に対応する顔データ部６４０に記録されている顔メタデータのバージョン情報が格納される。コンテンツ再生装置でコンテンツファイルを再生する場合には、メタデータバージョン６３２に格納されている内容を確認することによって、そのコンテンツ再生装置が対応可能なデータであるか否かを装置自体が確認することが可能となる。本発明の実施の形態では、例えば、「１．００」が記録されるものとする。また、データサイズとして２バイトが規定され、上位８ビットがメジャーバージョンを示し、下位８ビットがマイナーバージョンを示す。なお、将来、顔メタデータフォーマットが拡張された場合には、更新されたバージョン情報が格納される。

コンテンツ更新日時６３３には、動画コンテンツファイルに記録される更新日時が格納される。例えば、撮像装置１００で撮影された動画コンテンツファイルが他の装置に移動して編集された後に、この編集された動画コンテンツファイルが撮像装置１００に再度記録されたような場合には、編集後の動画コンテンツファイルと顔メタデータと間で不整合が発生する。具体的には、以下で示す（１）乃至（３）のステップで動画コンテンツファイルが移動する場合が考えられる。このような場合に、これらの不整合を検出して、動画コンテンツファイルＢから顔メタデータを再検出させ、編集後の動画コンテンツファイルと顔メタデータと間で発生した不整合を修正することが可能となる。

（１）ステップ１
コンテンツ記録装置Ａで動画コンテンツファイルＡが記録され、動画コンテンツファイルＡに対応する顔メタデータが生成される。この場合には、動画コンテンツファイルＡの作成日時および更新日時と、顔メタデータのコンテンツ更新日時とが同じ値となる。

（２）ステップ２
動画コンテンツファイルＡがコンテンツ再生装置Ｂに移動された後に、コンテンツ再生装置Ｂで編集されて、動画コンテンツファイルＢとなる。この場合には、動画コンテンツファイルＢの更新日時が編集時の日時に更新される。

（３）ステップ３
動画コンテンツファイルＢがコンテンツ記録装置Ａに戻される。この場合には、動画コンテンツファイルＢと、顔メタデータのコンテンツ更新日時との値が異なる。

顔データ構造フラグ６６０には、顔データ部６４０に格納される顔データで定義されたメタデータの有無を示すフラグが格納される。なお、顔データ構造フラグ６６０については、図１２乃至図１６を参照して詳細に説明する。

タイムスケール６３４には、顔データ部で使用される時刻情報のタイムスケール（１秒あたりのユニット数を表す値）が格納される。すなわち、動画コンテンツファイルから顔が検出された時刻を示す情報（顔検出時刻情報）が顔データとして顔データ部に記録されるが、その時刻情報のタイムスケールがタイムスケール６３４に格納される。なお、単位はＨｚである。

顔データ個数６３５は、ヘッダ部６３０に続いて記録される顔データの個数を示す情報が格納される。顔を検出しなかった場合には、「０」が記録される。

顔データサイズ６３６には、ヘッダ部６３０に続いて記録される１つの顔データのデータサイズを示す情報が格納される。この顔データサイズ６３６に格納される情報に基づいて個々の顔データ間をジャンプすることが可能となる。なお、顔が検出されなかった場合には、「０」が記録される。

顔検出エンジンバージョン６３７には、動画コンテンツファイルから顔を検出する顔検出エンジンに関する情報が記録される。これは、顔メタデータの再生時において、自機よりも性能の低い顔検出エンジンで検出された顔メタデータであることを認識した場合に、顔メタデータを再検出するか否かの指標として使用される。顔検出エンジンに関する情報は、例えば、ＡＳＣＩＩコードで記述される。

例えば、メタデータバージョンが「１．００」の場合には、図１１に示すデータの順序で顔データ部６４０に各データが記録される。このため、コンテンツ再生装置がメタデータバージョンを「１．００」であると認識した場合には、それぞれのデータが固定長に、かつ予め決められた位置に配置されているため、顔データ部６４０の所望のデータの位置まで迅速にアクセスすることが可能となる。

コンテンツ画像サイズ６３８には、顔が検出された画像の高さおよび幅を示す情報が記録される。また、誤り検出符号値６３９には、顔が検出された画像において所定範囲で計算された誤り検出符号値（エラー訂正符号値）を示す情報が記録される。例えば、誤り検出符号値６３９には、顔メタデータの作成時において、対応する画像データから計算されたチェックサムの値が記録される。なお、誤り検出符号値としては、チェックサム以外に、ＣＲＣ（Cyclic Redundancy Check：巡回冗長検査）やハッシュ関数を用いたハッシュ値等を用いることが可能である。

コンテンツ画像サイズ６３８および誤り検出符号値６３９は、コンテンツ更新日時６３３と同様に、動画コンテンツファイルと顔メタデータとの間で発生する不整合を検出するために用いられる。この不整合発生のメカニズムは、上述した（１）ステップ１乃至（３）ステップ３と同様である。例えば、静止画コンテンツファイルについては、静止画編集ソフトが数多く存在しているものの、これらの静止画編集ソフトの中には、静止画が編集された場合でもコンテンツ内部のコンテンツ日時情報が更新されないものが存在する。このような場合においては、コンテンツ更新日時の比較とともに、このコンテンツ画像サイズを用いた比較をすることによって、さらに確実な不整合を検出することが可能である。

図１１は、顔データ部６４０に格納される顔データの概略を示す図である。なお、顔データ部６４０には、ヘッダ部６３０の顔データ構造フラグ６６０でビットアサインされた順序で各顔データが格納される。

顔データ部６４０には、顔検出時刻情報６４１と、顔基本情報６４２と、顔スコア６４３と、笑顔スコア６４４と、顔重要度６４５とが記録される。なお、これらの格納単位は、バイトで規定される。ここでは、上述したように、メタデータバージョンが「１．００」の場合における顔データとして定義されるメタデータを例にして説明する。

顔検出時刻情報６４１には、対応する動画コンテンツファイルの先頭を「０」として、この顔データが検出されたフレームの時刻が記録される。なお、顔検出時刻情報６４１には、ヘッダ部６３０のタイムスケール６３４に格納されたタイムスケールの整数倍の値が格納される。

顔基本情報６４２には、動画コンテンツファイルを構成する各フレームから検出された顔の位置および大きさが格納される。顔基本情報６４２として、顔位置情報が上位４バイトで規定され、顔サイズ情報が下位４バイトで規定される。また、顔位置情報は、例えば、顔が検出された画像における左上部分から検出された顔の左上部分までの差の値であり、上位１６ビットで横軸の位置の値が規定され、下位１６ビットで縦軸の位置の値が規定される。また、顔サイズ情報は、例えば、検出された顔の画像サイズを示す値であり、上位１６ビットで顔の幅を示す値が規定され、下位１６ビットで顔の高さを示す値が規定される。なお、顔基本情報６４２は、顔メタデータを利用するアプリケーションとしては最も重要なメタデータである。

顔スコア６４３には、検出された顔の顔らしさを表すスコアに関する情報が格納される。

笑顔スコア６４４には、検出された顔がどのくらい笑っているかに関するスコア情報が格納される。

顔重要度６４５には、同一時刻で検出された画像の優先順位（重要度）を示す情報が格納される。これは、例えば、１フレーム中で複数の顔が検出された場合において、画面の中心に近い顔から高い優先順位を割り当てたり、フォーカスされている顔に高い優先順位を割り当てることができる。格納される情報としては、例えば、小さい値ほど重要度が大きいと規定して、「１」を最大重要度と規定することができる。これにより、例えば、画像を表示する表示部が小さいモバイル機器を使用する場合でも、全ての顔画像を小さく表示する代わりに、優先順位の高い顔のみを大きく表示させることが可能となる。

本発明の実施の形態では、顔データを検出された時刻順序に記録する。これにより、時間順で検索する場合に迅速に行うことができる。さらに、同一の動画コンテンツファイルにおいては、全ての顔データに含まれるメタデータの種別は同じものとし、図１１に示す順序で顔データを記録する。ただし、図１１に示す全てのデータを記録する必要はないものの、同一の動画コンテンツファイルで同種のメタデータを記録する。これにより、全ての顔データが固定長となり、顔データへのアクセス性を向上させることができる。また、同一の動画コンテンツファイルで同種のメタデータが格納されているため、所定のメタデータへのアクセスを向上させることができる。

図１２は、図１０に示すヘッダ部６３０の顔データ構造フラグ６６０のデータ構造を示す図である。図１３乃至図１６は、顔データ構造フラグ６６０に格納されたビットと、顔データ部６４０に格納された顔データとの関係を示す図である。

本発明の実施の形態では、図１１に示すように、顔データ部６４０において５個のメタデータが定義されているため、顔データ構造フラグ６６０のＬＳＢ（Least Significant Bit）から順番に、顔データ部６４０の順序に従って、０−４ビットにそれぞれのデータが割り当てられる。そして、顔データ構造フラグ６６０の各ビットには、顔メタデータのデータフィールドのデータの有無が格納される。すなわち、顔データ構造フラグ６６０の各ビットには、顔メタデータのデータフィールドにデータが存在する場合には「１」が格納され、データが存在しない場合には「０」が格納される。このように、顔データ部６４０に存在するメタデータが存在する場合には、対応するビットに「１」が設定される。なお、６ビット目以降は将来の顔データ内部のデータの拡張のための予約領域となる。

具体的には、例えば、図１３（ａ）に示すように、顔データ部６４０には、メタデータバージョンが「１．００」で規定されたデータが格納されているとする。この場合には、図１３（ｂ）に示すように、ＬＳＢから０−４ビットのそれぞれには「１」が格納される。なお、コンテンツ記録装置は定義された全てのデータを記録する必要はなく、必要なデータのみを記録することができる。これにより、顔メタデータを利用するアプリケーションに応じた柔軟な顔メタデータの記録が可能となり、データ量を削減することも可能となる。

また、図１４（ａ）に示すように、顔データ部６４０には、メタデータバージョンが「１．００」で規定された５つのデータのうちの３つのデータが、他のコンテンツ記録装置によって格納されているとする。この場合には、記録される顔データの順序は、図１１に示す順序となり、記録されないデータの分はつめて記録される。図１４（ｂ）は、上記他のコンテンツ記録装置によって記録された顔データ構造フラグ６６０の実データの例を示すものであり、顔データとして存在するデータフィールドに割り当てられたフラグに「１」が格納される。このように、メタデータバージョンが「１．００」で規定された範囲内であれば、コンテンツ記録装置は、何れのメタデータでも記録することができる。また、顔メタデータを再生するコンテンツ再生装置は、他のコンテンツ記録装置により異なるメタデータが記録されていたとしても、ヘッダ部の情報を参照することによって顔データ内部のメタデータの有無を確認することができる。また、顔データが固定長であるため、所望のメタデータへのアクセスを高速に行うことが可能となる。

次に、本発明の実施の形態における顔データ部６４０に格納される顔データの拡張方法について図面を参照して説明する。

将来的に顔検出技術が向上した場合や検出された顔の結果を新たなアプリケーションで利用する場合等において、メタデータバージョンが「１．００」で規定された顔メタデータのみでは不十分な場合が想定される。

図１５（ａ）に拡張された顔データの例を示す。ここでは、検出された顔の性別度合いを示す「性別スコア」と、フレーム上の顔の傾き度合いを示す「角度情報」とが拡張された顔データとして示されている。これらを追加した顔メタデータのメタデータバージョンが「１．１０」として定義され、ヘッダ部のメタデータバージョンフィールドには「１．１０」が記録される。メタデータの拡張の方法は、前バージョンで定義されたデータ下に新規メタデータを追加する形で行われる。具体的には、データを記録媒体１７０に記録する際には、顔データ単位でバージョン「１．００」で規定されたデータが記録された物理アドレスに連続する物理アドレスからバージョン「１．１０」で規定されたデータを記録する。そして、バージョン「１．１０」規定のメタデータが記録された物理アドレスに連続するアドレスに同様に次の顔データ単位のメタデータの記録が開始される。

図１６（ｂ）には、バージョン「１．１０」で定義されたメタデータのうち、ある記録機によって記録されたメタデータを示す。例えば、図１５（ａ）に示す拡張された顔データが記録される場合でも、図１５（ａ）に示す顔データの全てが記録される必要はない。ただし、このように記録されない顔データが存在する場合には、図１５（ａ）に示す顔データのうちの所定の顔データが図１６（ａ）に示す順序で記録されるとともに、顔データが記録されないフィールド分はつめて記録される。

さらに、バージョン「１．１０」へのバージョンアップにともない顔データ構造フラグも拡張され、バージョン「１．００」時には予約領域だったビットに、図１５（ａ）で定義されたフィールド順序に従い新規ビットが割り当てられ、顔データ部にデータが存在するビットには、図１５（ｂ）のように「１」がセットされる。これにより、バージョン「１．１０」に対応した再生機では、ヘッダ部の顔データ構造フラグのビット列を確認することにより、顔データ部のデータ構造を理解可能となり、個々の顔データは固定長となるため所望のメタデータまで迅速にアクセス可能となる。

さらに、バージョン「１．１０」に対応する記録機によって、着脱可能な記録媒体に顔メタデータが記録され、この記録媒体がバージョン「１．００」にのみ対応する再生機に移動された場合を考える。この場合において、この再生機はヘッダ部の顔データ構造フラグの０−４ビットまでは認識可能である。また、顔データサイズの仕様が変わっていないため、バージョン「１．００」で想定されていない顔データが格納されていたとしても、この再生機は、バージョン「１．００」で規定されている顔データを認識することが可能である。例えば、図１６に示す例では、この再生機は、「顔検出時刻情報」、「顔基本情報」、「顔スコア」、「顔重要度」を理解することができる。このため、この再生機は、これらのメタデータへのアクセスが可能である。このように、メタデータエントリは、アクセス性に優れているデータ構造であるとともに、記録機または再生機のバージョンが変更された場合でも、この変更に対応することが可能である。

次に、本発明の実施の形態における撮像装置１００の機能構成例について図面を参照して説明する。

図１７は、本発明の実施の形態における撮像装置１００の機能構成例を示すブロック図である。この撮像装置１００は、コンテンツ管理ファイル記憶部２１０と、コンテンツ入力部２１１と、顔検出部２１２と、顔メタデータ作成部２１３と、仮想管理情報作成部２１４と、代表サムネイル画像抽出部２１５と、コンテンツ属性情報作成部２１６と、記録制御部２１７とを備える。

コンテンツ管理ファイル記憶部２１０は、仮想的な階層構造により構成される階層エントリを記録するコンテンツ管理ファイル３４０を記憶するものである。なお、コンテンツ管理ファイル３４０の詳細については、図３乃至図９等に示す。

コンテンツ入力部２１１は、コンテンツファイルを入力するものであり、入力されたコンテンツファイルを、顔検出部２１２、顔メタデータ作成部２１３、仮想管理情報作成部２１４、代表サムネイル画像抽出部２１５およびコンテンツ属性情報作成部２１６に出力する。具体的には、カメラ部１１０で撮影されたフレームがコンテンツ入力部２１１から順次入力される。

顔検出部２１２は、コンテンツ入力部２１１から入力されたコンテンツファイルに含まれる顔を検出するものであり、検出された顔の出現時刻および位置等を顔メタデータ作成部２１３に出力する。なお、同一時刻の画像から複数の顔が検出された場合には、検出された各顔についての出現時刻および位置等を顔メタデータ作成部２１３に出力する。

顔メタデータ作成部２１３は、コンテンツ入力部２１１から入力されたコンテンツファイルに基づいて顔メタデータを作成するものであり、作成された顔メタデータを記録制御部２１７に出力する。この顔メタデータ作成部２１３は、顔データ作成部２１８およびヘッダ情報作成部２１９を含む。顔データ作成部２１８は、顔検出部２１２により検出された顔の出現時刻および位置等に基づいてその顔に関する顔データ（図１１の顔データ部６４０の各データ）を作成するものである。また、ヘッダ情報作成部２１９は、顔データ作成部２１８により作成された顔データを管理するヘッダ情報（図１０のヘッダ部６３０の各情報）を作成するものである。これら顔データ作成部２１８により作成された顔データおよびヘッダ情報作成部２１９により作成されたヘッダ情報は、記録制御部２１７に出力される。また、顔データ作成部２１８は、所定間隔で検出された顔のうちで所定条件を満たさない顔については、顔に関する顔データを作成しないようにしてもよい。

仮想管理情報作成部２１４は、コンテンツ入力部２１１から入力されたコンテンツファイルを仮想的に管理するための仮想管理情報４０１（図５）を、そのコンテンツファイルに基づいて作成するものであり、作成された仮想管理情報を記録制御部２１７に出力する。

代表サムネイル画像抽出部２１５は、コンテンツ入力部２１１から入力されたコンテンツファイルから、そのコンテンツファイルの代表サムネイル画像５０１乃至５０６（図５）を抽出するものであり、抽出された代表サムネイル画像をコンテンツ属性情報作成部２１６および記録制御部２１７に出力する。

コンテンツ属性情報作成部２１６は、コンテンツ入力部２１１から入力されたコンテンツファイルに関するコンテンツ属性情報４０２（図５）を、そのコンテンツファイルに基づいて作成するものであり、作成されたコンテンツ属性情報を記録制御部２１７に出力する。また、コンテンツ属性情報作成部２１６は、代表サムネイル画像抽出部２１５により抽出された代表サムネイル画像に対応するコンテンツファイルに関するコンテンツ属性情報にその代表サムネイル画像のサムネイルファイル５００における記録位置（サムネイルアドレス）を含めて属性情報を作成する。

記録制御部２１７は、仮想管理情報作成部２１４により作成された仮想管理情報４０１とコンテンツ属性情報作成部２１６により作成されたコンテンツ属性情報４０２とを含む動画ファイルエントリ４１４をプロパティファイル４００としてコンテンツ管理ファイル記憶部２１０に記録するものである。また、記録制御部２１７は、顔メタデータ作成部２１３により作成された顔メタデータを含むメタデータエントリ４１５を、その顔メタデータが作成されたコンテンツファイルに対応する動画ファイルエントリ４１４のプロパティファイル４００における下位の階層としてコンテンツ管理ファイル記憶部２１０に記録する。さらに、記録制御部２１７は、代表サムネイル画像抽出部２１５により抽出された代表サムネイル画像をサムネイルファイル５００としてコンテンツ管理ファイル記憶部２１０に記録する。

図１８は、本発明の実施の形態における撮像装置１００の機能構成例を示すブロック図である。この撮像装置１００は、コンテンツ管理ファイル記憶部２１０と、操作受付部２２１と、コンテンツ記憶部２２３と、選択部２２４と、抽出部２２５と、描画部２２６と、表示部２２７とを備える。

コンテンツ管理ファイル記憶部２１０は、記録制御部２１７（図１７）によって記録されたコンテンツ管理ファイル３４０を記憶するものである。そして、コンテンツ管理ファイル３４０に記録されている各エントリを選択部２２４および抽出部２２５に出力する。

操作受付部２２１は、各種入力キーを備え、これらの入力キーから操作入力を受け付けると、受け付けた操作入力の内容を選択部２２４に出力するものである。なお、操作受付部２２１の少なくとも一部と表示部２２７とをタッチパネルとして一体化して構成するようにしてもよい。

コンテンツ記憶部２２３は、動画や静止画等のコンテンツファイルを記憶するものであり、記憶されているコンテンツファイルを抽出部２２５および描画部２２６に出力する。

選択部２２４は、操作受付部２２１から入力された操作入力に応じた選択処理を実行し、この選択結果を抽出部２２５に出力するものである。具体的には、選択部２２４は、表示部２２７に表示されている代表サムネイル画像のうちから１つの代表サムネイル画像を選択する旨の操作入力を操作受付部２２１から入力すると、その操作入力に応じて、選択された代表サムネイル画像に対応するファイルエントリを選択して、その選択されたファイルエントリのエントリ番号を抽出部２２５に出力する。また、選択部２２４は、表示部２２７に表示されている顔サムネイル画像のうちから１つの顔サムネイル画像を選択する旨の操作入力を操作受付部２２１から入力すると、その操作入力に応じて、選択された顔サムネイル画像に対応する顔データを選択して、その選択された顔データの顔検出時刻情報６４１を抽出部２２５に出力する。すなわち、選択部２２４は、コンテンツ管理ファイル記憶部２１０に記憶されているコンテンツ管理ファイルに記録されているファイルエントリの中から所望のファイルエントリを選択するものであり、また、メタデータエントリに含まれる顔メタデータの顔データの中から、所望する顔データを選択するものである。

抽出部２２５は、選択部２２４から入力されたファイルエントリのエントリ番号に基づいて、コンテンツ記憶部２２３に記憶されているコンテンツファイルを抽出するものである。また、抽出部２２５は、選択部２２４から入力されたエントリ番号に対応するファイルエントリの下位階層に記録されているメタデータエントリに含まれる顔データを抽出し、この顔データに含まれる顔の時刻および位置等に基づいて、この顔データに対応する顔サムネイル画像をコンテンツファイルから抽出する。さらに、抽出部２２５は、選択部２２４から入力された選択された顔データの顔検出時刻情報６４１が含まれるメタデータエントリの上位階層に記録されているファイルエントリに基づいてコンテンツファイルを抽出する。また、抽出部２２５は、選択部２２４から入力された顔検出時刻情報６４１に対応する記録時間以降に記録された動画を、コンテンツ記憶部２２３に記憶されているコンテンツファイルから抽出する。なお、抽出部２２５は、これらの抽出した結果を描画部２２６に出力する。なお、これらの選択および抽出については、図１９および図２０を参照して詳細に説明する。

また、抽出部２２５は、コンテンツ記憶部２２３に記憶されているコンテンツファイルに対応する画像とこの画像に対応する顔データとについて所定の条件を満たすか否かを確認して、所定の条件を満たす画像に含まれる顔に関する顔データについて、所望の要素情報の各顔データにおける先頭からの記録オフセット値を算出し、この算出された記録オフセット値に基づいて顔データから所望の要素情報を読み出す。また、抽出部２２５は、所定の条件を満たさない場合には、所定の条件を満たさないと判断された画像とは異なる画像に対応する顔データおよび顔データ管理情報を検索する。なお、これらの要素情報の読出しは、図２６、図２７、図３１、図３２を参照して詳細に説明する。

描画部２２６は、抽出部２２５から入力された抽出結果に基づいて、コンテンツ記憶部２２３に記憶されているコンテンツファイルから抽出された顔サムネイル画像、コンテンツ記憶部２２３に記憶されているコンテンツファイルから抽出された動画等を描画するものである。また、描画部２２６は、コンテンツ管理ファイル記憶部２１０のサムネイルファイル５００に記憶されている代表サムネイル画像を描画するものである。

表示部２２７は、描画部２２６により描画された画像を表示するものである。

次に、プロパティファイルと、サムネイルファイルと、動画コンテンツファイルとの関係について図面を参照して詳細に説明する。

図１９は、動画ファイルエントリ４１４と、メタデータエントリ４１５と、サムネイルファイル５００と、動画コンテンツファイル３１２との関係を概略的に示す図である。

例えば、図１９に示すように、動画ファイルエントリ４１４には、動画コンテンツファイル３１２のコンテンツアドレスを示す「Ａ３１２」と、動画コンテンツファイル３１２に対応する代表サムネイル画像５０２のサムネイルアドレスを示す「＃２」が格納されている。また、動画ファイルエントリ４１４の子エントリリストには、動画コンテンツファイル３１２に関するメタデータが格納されているメタデータエントリ４１５のエントリ番号「＃３１」が格納されている。また、メタデータエントリ４１５の親エントリリストには、動画ファイルエントリ４１４のエントリ番号「＃２８」が格納されている。さらに、メタデータエントリ４１５の顔メタデータには、図９および図１１に示すように、検出された顔に関する各種の顔メタデータが格納されている。この顔メタデータのうちの顔検出時刻情報および顔基本情報に基づいて、動画コンテンツファイル３１２の各フレームのうちから、１つのフレームを特定することができる。なお、これらの関係を矢印で示す。

このように各エントリの内容を関連付けて管理することによって、コンテンツファイルのサーチを迅速に行うことができる。

例えば、２００６年１月１１日に撮影された動画像の一覧を表示する場合には、プロパティファイル４００の各エントリの中で、動画コンテンツファイルを管理する動画フォルダエントリ４１０がサーチされ、サーチされた動画フォルダエントリ４１０の中の子エントリリストに格納された日付フォルダエントリ４１１および４１６の中から、２００６年１月１１日の日付に対応するファイルを管理する日付フォルダエントリ４１１がサーチされる。続いて、サーチされた日付フォルダエントリ４１１の子エントリリストに格納された動画ファイルエントリ４１２および４１４がサーチされ、各動画ファイルエントリ４１２および４１４に記録されたサムネイルファイル５００のサムネイルアドレス（エントリ参照情報）が抽出される。続いて、サムネイルファイル５００がオープンされ、抽出されたサムネイルアドレスに基づいてサムネイルファイル５００から代表サムネイル画像が抽出され、抽出された代表サムネイル画像が表示される。

なお、コンテンツ管理ファイル３４０を用いずに、２００６年１月１１日に撮影された動画像の一覧を表示する場合には、各コンテンツファイルをサーチするために、全ての実コンテンツファイルのオープンおよびクローズが必要となり、処理に時間を要する。さらに、代表サムネイル画像を表示する場合には、実コンテンツファイルに対応する画像を縮小して表示するという処理が必要になるため、さらに処理時間を要することになる。

また、例えば、２００６年１月１１日に記録された動画像に登場する人物の顔を表示する場合には、表示されている代表サムネイル画像５０２に基づいて、動画ファイルエントリ４１４およびメタデータエントリ４１５が抽出され、動画ファイルエントリ４１４が管理する動画コンテンツファイル３１２にアクセスされ、メタデータエントリ４１５に記憶されている顔メタデータ（顔検出時刻情報６４１、顔基本情報６４２）に基づいて動画コンテンツファイル３１２から顔画像が抽出され、抽出された顔画像を表示させることができる。

図２０は、コンテンツ管理ファイル３４０を用いたアプリケーションの一例を示す図である。ここでは、動画コンテンツファイル３１２に関する各種画像をＬＣＤ１６２に表示させ、動画コンテンツファイル３１２に対応する画像を所望の時刻から再生する場合について説明する。

最初に、図１９で示したように、サムネイルファイル５００がオープンされ、サムネイルファイル５００に格納されている代表サムネイル画像５０１乃至５０６の一覧がＬＣＤ１６２に表示される。例えば、表示画面７１０に示すように、代表サムネイル画像５０１乃至５０３が表示される。また、選択マーク７１５が付されている代表サムネイル画像５０２の右側には、代表サムネイル画像５０２に対応する動画コンテンツファイル３１２の記録日時７１４が表示されている。また、上ボタン７１１または下ボタン７１２を押下することによって、スクロールバー７１３を上下に移動させ、表示画面７１０に表示される代表サムネイル画像を上下に移動させ、他の代表サムネイル画像を表示させることができる。また、代表サムネイル画像は、例えば、記録日時の順番で上から表示させることができる。

表示画面７１０において、代表サムネイル画像５０２を選択する旨の操作入力がされると、代表サムネイル画像５０２に対応する動画ファイルエントリ４１４に格納されているコンテンツアドレスに基づいて、動画ファイルエントリ４１４に対応する動画コンテンツファイル３１２が抽出される。そして、動画ファイルエントリ４１４に格納されている子エントリリストに基づいて、動画ファイルエントリ４１４に対応するメタデータエントリ４１５が抽出される。続いて、メタデータエントリ４１５に格納されている顔メタデータに基づいて、動画コンテンツファイル３１２から顔サムネイル画像が抽出され、抽出された顔サムネイル画像の一覧がＬＣＤ１６２に表示される。この顔サムネイル画像は、例えば、表示画面７２０に示すように、一人の顔を含む矩形画像である。また、例えば、表示画面７２０に示すように、表示画面７１０で選択された代表サムネイル画像５０２が左側に表示されるとともに、右側の顔サムネイル画像表示領域７２５には、抽出された顔サムネイル画像７３０乃至７３２が表示される。また、選択されている顔サムネイル画像には、選択マーク７２６が付される。また、表示画面７１０で選択された代表サムネイル画像５０２に対応する動画コンテンツファイル３１２の記録日時７２４が表示されている。また、左ボタン７２１または右ボタン７２２を押下することによって、スクロールバー７２３を左右に移動させ、表示画面７２０に表示される顔サムネイル画像を左右に移動させ、他の顔サムネイル画像を表示させることができる。また、顔サムネイル画像は、例えば、記録日時の順番で左から表示させることができる。

表示画面７２０において、例えば、顔サムネイル画像７３１を選択する旨の操作入力がされると、メタデータエントリ４１５に格納されている顔メタデータの顔検出時刻情報の中から、顔サムネイル画像７３１に対応する顔検出時刻情報が抽出される。この場合に、選択された顔サムネイル画像７３１についての先頭から順番に基づいて、メタデータエントリ４１５に格納されている顔メタデータから、顔サムネイル画像７３１に対応する顔データが特定され、この顔データに含まれる顔検出時刻情報が抽出される。続いて、抽出された顔検出時刻情報に基づいて、動画コンテンツファイル３１２のうちの顔検出時刻情報に対応する時刻からの再生画像がＬＣＤ１６２に表示される。例えば、図１９に示すように、動画コンテンツファイル３１２のフレーム７０４から動画が再生される。そして、表示画面７４０に示すように、その再生画像が表示されるとともに、右上部分には再生画像の記録日時７４１が表示される。このように、所定の人物（例えば、本人）が出現する時刻から動画を再生させたい場合には、その人物に関する顔サムネイル画像を選択することによって、その時刻からの再生を容易に行うことができる。なお、同一時刻の画像から複数の顔が検出された場合には、同一時刻の複数の顔データが作成される。この場合には、それぞれの顔データに基づいて顔サムネイル画像が抽出される。このため、同一時刻の顔サムネイル画像が複数表示される場合がある。このように、同一時刻の顔サムネイル画像が複数表示されている場合においては、同一時刻の顔サムネイル画像の何れかが選択された場合でも、同一時刻からの動画が再生される。

このように、仮想ファイル構造であるエントリから実ファイル構造への連結情報（コンテンツアドレス）が格納されているため、ファイルエントリ内の何らかの情報（例えば、記録日時に関する情報）からコンテンツファイルを検索して再生する場合には、その日時が記録されているファイルエントリを検索し、そのファイルエントリ内のコンテンツアドレスに基づいてコンテンツファイルを再生することができる。このように、全てのコンテンツファイルをオープンさせずにプロパティファイルのみをオープンさせればよく、さらに、スロットによる固定長管理（エントリ番号管理）であるため、迅速な処理が可能となる。

仮に、仮想ファイル管理をしない場合において、同様の検索を行う場合には、実際にコンテンツファイルをオープンさせた後に、その内部の情報（例えば、記録日時情報）を読み出し、ファイルクローズし、さらに次のコンテンツファイルをオープンするという処理が必要となり検索に莫大な時間を要する。また、記録媒体の記録容量が大きくなれば、記録されるコンテンツ数も増加するため、問題がさらに顕著になる。

次に、本発明の実施の形態における撮像装置１００の動作について図面を参照して説明する。

図２１は、撮像装置１００によるプロパティファイル４００の記録処理の処理手順を示すフローチャートである。なお、ここでは、コンテンツファイルとして、撮像された画像データに対応する動画コンテンツファイルが入力された場合について説明する。

最初に、カメラ部１１０で撮像された画像が符号化され、符号化された画像データであるストリームがコンテンツ入力部２１１に入力される（ステップＳ９０１）。

続いて、入力されたストリームを構成するフレームが、シーケンスの先頭のＩピクチャまたはＩＤＲピクチャであるか否かが順次判断される（ステップＳ９０２）。入力されたストリームを構成するフレームが、ＩピクチャおよびＩＤＲピクチャの何れでもなければ（ステップＳ９０２）、ストリームの入力が継続される（ステップＳ９０１）。

一方、入力されたストリームを構成するフレームが、ＩピクチャまたはＩＤＲピクチャであれば（ステップＳ９０２）、そのフレームから顔検出部２１２が顔を検出する（ステップＳ９０３）。続いて、検出された顔が所定条件の範囲内の顔であるか否かが判断される（ステップＳ９０４）。顔が検出されなかった場合、または、検出された顔が所定条件の範囲内の顔でなかった場合には（ステップＳ９０４）、ステップＳ９０３に戻り、フレームからの顔の検出を繰り返す。

一方、検出された顔が所定条件の範囲内の顔であった場合には（ステップＳ９０４）、検出された顔に基づいて顔データが作成され、作成された顔データがメモリに記録される（ステップＳ９０５）。続いて、１つのフレーム内において顔の検出が終了したか否かが判断される（ステップＳ９０６）。つまり、１フレーム内の全ての領域で顔検出を行う。１つのフレーム内において顔の検出が終了していなければ（ステップＳ９０６）、ステップＳ９０３に戻り、フレームからの顔の検出を繰り返す。

一方、１つのフレーム内において顔の検出が終了していれば（ステップＳ９０６）、ストリームの入力が終了したか否かが判断される（ステップＳ９０７）。つまり、１つのまとまった画像コンテンツの入力が終了したか否かが判断される（ステップＳ９０７）。ストリームの入力が終了していなければ（ステップＳ９０７）、ステップＳ９０１に戻り、ストリームの入力を継続する。

ストリームの入力が終了していれば（ステップＳ９０７）、メモリに記録されている顔データに基づいて顔メタデータのヘッダ部６３０（図１０）に記録されるヘッダ情報が作成される（ステップＳ９０８）。

続いて、作成されたヘッダ情報を記録するヘッダ部と、検出された顔に対応する顔データを記録する顔データ部とを含むメタデータエントリが作成される（ステップＳ９０９）。続いて、入力されたストリームに対応する動画コンテンツファイルを管理するファイルエントリが作成される（ステップＳ９１０）。

続いて、プロパティファイル４００がオープンされ（ステップＳ９１１）、作成されたメタデータエントリおよびファイルエントリについてのエントリ番号が計算され、この計算された結果に基づいて、作成されたメタデータエントリおよびファイルエントリがプロパティファイル４００に割り当てられる（ステップＳ９１２）。つまり、複数のエントリがスロット番号順にプロパティファイル４００に割り当てられる。

続いて、プロパティファイル４００に割り当てられたファイルエントリの子エントリリストに、このファイルエントリに属するメタデータエントリのエントリ番号が記録され、また、このメタデータエントリの親エントリリストに、このメタデータエントリが属するファイルエントリのエントリ番号が記録される（ステップＳ９１３）。

続いて、プロパティファイル４００に割り当てられたファイルエントリが属するフォルダエントリの子エントリリストに、このファイルエントリのエントリ番号が記録され、また、このファイルエントリの親エントリリストに、このフォルダエントリのエントリ番号が記録される（ステップＳ９１４）。続いて、プロパティファイル４００がクローズされて（ステップＳ９１５）、プロパティファイル４００の記録処理の処理手順が終了する。

なお、ステップＳ９０１で入力されたストリームを構成するフレームが、先頭のフレームである場合には、代表画像である代表サムネイル画像が抽出され（ステップＳ９０３）、この代表サムネイル画像がサムネイルファイル５００に格納されるとともに、この代表サムネイル画像のサムネイルアドレスが、対応するファイルエントリのサムネイルアドレスに記録される（ステップＳ９１２）。また、入力されたストリームに対応するコンテンツファイルのコンテンツアドレスが、対応するファイルエントリのコンテンツアドレスに格納される（ステップＳ９１２）。

次に、動画コンテンツファイルを再生する場合に、所望する撮影時刻から再生させる場合における動作について図面を参照して説明する。

図２２乃至図２４は、撮像装置１００による動画コンテンツファイルの再生処理の処理手順を示すフローチャートである。

操作部１４０からの操作入力を監視して、動画コンテンツファイルの一覧表示を指示する旨の操作入力がされたか否かが判断される（ステップＳ９２１）。コンテンツ一覧表示を指示する旨の操作入力がされなければ（ステップＳ９２１）、操作入力の監視を継続する。

コンテンツ一覧表示を指示する旨の操作入力がされると（ステップＳ９２１）、プロパティファイル４００をオープンさせ（ステップＳ９２２）、プロパティファイル４００から動画コンテンツファイルを管理するフォルダエントリが抽出される（ステップＳ９２３）。続いて、抽出されたフォルダエントリに記録されている子エントリリストから、日付フォルダエントリのエントリ番号が抽出され、抽出されたエントリ番号に基づいて日付フォルダエントリが抽出される（ステップＳ９２４）。

続いて、抽出された日付フォルダエントリに記録されている子エントリリストから、動画ファイルエントリのエントリ番号が抽出され、抽出されたエントリ番号に基づいて動画ファイルエントリが抽出される（ステップＳ９２５）。続いて、抽出されたファイルエントリのエントリ番号がメモリに順次記録される（ステップＳ９２６）。続いて、メモリに記録されたエントリ番号に対応するファイルエントリに記録されているサムネイルアドレスがメモリに順次記録される（ステップＳ９２７）。

続いて、１つの日付フォルダエントリに属するファイルエントリに記録されているサムネイルアドレスの抽出が全て終了したか否かが判断される（ステップＳ９２８）。終了していなければ、ステップＳ９２７に戻り、抽出処理を繰り返す。

一方、サムネイルアドレスの抽出が全て終了していれば（ステップＳ９２８）、全ての日付フォルダエントリについての抽出が終了したか否かが判断される（ステップＳ９２９）。全ての日付フォルダエントリについての抽出が終了していなければ（ステップＳ９２９）、ステップＳ９２５に戻り、抽出処理を繰り返す。

全ての日付フォルダエントリについての抽出が終了していれば（ステップＳ９２９）、プロパティファイル４００をクローズさせ（ステップＳ９３０）、サムネイルファイル５００をオープンさせる（ステップＳ９３１）。続いて、ステップＳ９２７においてメモリに記録されたサムネイルアドレスに基づいて、サムネイルファイル５００から代表サムネイル画像が読み出され、読み出された代表サムネイル画像がメモリに順次記録される（ステップＳ９３２）。続いて、サムネイルファイル５００をクローズさせる（ステップＳ９３３）。続いて、ステップＳ９３２においてメモリに記録された代表サムネイル画像がＬＣＤ１６２に表示される（ステップＳ９３４）。例えば、図２０の表示画面７１０に示すように表示される。

続いて、ＬＣＤ１６２に表示されているサムネイル画像の中から、１つのサムネイル画像を選択する旨の操作入力が操作部１４０からされたか否かが判断される（ステップＳ９３５）。この操作入力がなければ（ステップＳ９３５）、操作入力の監視を継続する。

代表サムネイル画像を選択する旨の操作入力がされると（ステップＳ９３５）、選択された代表サムネイル画像の順番に基づいて、ステップＳ９２６においてメモリに記録されたファイルエントリのエントリ番号が抽出される（ステップＳ９３６）。続いて、プロパティファイル４００がオープンされ（ステップＳ９３７）、抽出されたエントリ番号に対応するファイルエントリがプロパティファイル４００から抽出される（ステップＳ９３８）。

続いて、抽出されたファイルエントリに記録されている子エントリリストからメタデータエントリのエントリ番号が抽出され、抽出されたメタデータエントリのエントリ番号がメモリに記録される（ステップＳ９３９）。続いて、メモリに記録されたエントリ番号に対応するメタデータエントリがプロパティファイルから抽出される（ステップＳ９４０）。続いて、抽出されたメタデータエントリから顔メタデータが抽出され（ステップＳ９４１）、抽出された顔メタデータのヘッダ部の情報が確認される（ステップＳ９４２）。

続いて、ヘッダ部の情報に基づいて顔データが順次読み出され（ステップＳ９４３）、読み出された顔データに含まれる顔基本情報がメモリに順次記録される（ステップＳ９４４）。続いて、全ての顔データの読み出しが終了したか否かが判断される（ステップＳ９４５）。全ての顔データの読み出しが終了していなければ（ステップＳ９４５）、顔データの読み出しおよびメモリへの記録を継続する（ステップＳ９４３およびステップＳ９４４）。全ての顔データの読み出しが終了していれば（ステップＳ９４５）、プロパティファイル４００をクローズさせ（ステップＳ９４６）、ステップＳ９４４においてメモリに記録された顔基本情報に基づいて、動画コンテンツファイルから顔サムネイル画像が作成され、作成された顔サムネイル画像がメモリに順次記録される（ステップＳ９４７）。続いて、ステップＳ９４７においてメモリに記録された顔サムネイル画像がＬＣＤ１６２に表示される（ステップＳ９４８）。例えば、図２０の表示画面７２０に示すように表示される。

続いて、ＬＣＤ１６２に表示されている顔サムネイル画像の中から、１つの顔サムネイル画像を選択する旨の操作入力が操作部１４０からされたか否かが判断される（ステップＳ９４９）。この操作入力がなければ（ステップＳ９４９）、操作入力の監視を継続する。

顔サムネイル画像を選択する旨の操作入力がされると（ステップＳ９４９）、選択された顔サムネイル画像の表示順に応じた番号がメモリに記録される（ステップＳ９５０）。続いて、プロパティファイル４００がオープンされ（ステップＳ９５１）、ステップＳ９３９においてメモリに記録されたメタデータエントリのエントリ番号に基づいて、このメタデータエントリがプロパティファイル４００から抽出される（ステップＳ９５２）。

続いて、抽出されたメタデータエントリから顔メタデータが抽出され（ステップＳ９５３）、抽出された顔メタデータから、ステップＳ９５０においてメモリに記録された番号に対応する顔データが抽出される（ステップＳ９５４）。続いて、抽出された顔データから顔検出時刻情報が抽出され、抽出された顔検出時刻情報がメモリに記録される（ステップＳ９５５）。

続いて、メモリにエントリ番号が記録されているメタデータエントリの親エントリリストに対応するファイルエントリのエントリ番号が抽出され（ステップＳ９５６）、抽出されたエントリ番号に対応するファイルエントリがプロパティファイル４００から抽出される（ステップＳ９５７）。続いて、抽出されたファイルエントリに記録されているコンテンツアドレスが抽出され、抽出されたコンテンツアドレスがメモリに記録される（ステップＳ９５８）。そして、プロパティファイル４００がクローズされる（ステップＳ９５９）。

続いて、ステップＳ９５７において抽出されたコンテンツアドレスに対応するコンテンツファイルについて、ステップＳ９５５においてメモリに記録された顔検出時刻情報に対応する時刻から再生を開始させる（ステップＳ９６０）。

図２５は、図９に示すメタデータエントリ６００に含まれる顔メタデータ６２０の構成を概略的に示す図である。ここでは、顔データに記録されているデータをデータ１乃至６として、顔データの読出処理における顔データのオフセット値の計算方法について説明する。

顔メタデータ６２０のヘッダサイズａは、顔メタデータ６２０のヘッダ部６３０のヘッダサイズ６３１に記録されている。また、顔メタデータ６２０の顔データサイズｂは、顔メタデータ６２０のヘッダ部６３０の顔データサイズ６３６に記録されている。ｃは、１つの顔データの所望データまでの距離を示す。顔メタデータ６２０から必要なデータを読み出す場合には、各顔データの先頭からのオフセット値を、以下に示す式１を用いて計算し、計算して求められたオフセット値を用いてデータを読み出す。これにより、顔データに記録されているデータから所望のデータを読み出す場合に、読出処理を迅速に行うことができる。例えば、図２５には、必要なデータ（所望データ）がデータ３である場合を示す。
ａ＋ｃ＋ｎ×ｂ（ｎ：０以上の整数）［ｂｙｔｅ］……（式１）

図２６は、撮像装置１００による顔データの読出処理の処理手順を示すフローチャートである。この処理手順は、例えば、図２３に示すステップＳ９４１乃至ステップＳ９４３に対応する。ここでは、図１０に示すヘッダ部６３０を参照して説明する。

最初に、メタデータエントリから顔メタデータが読み出される（ステップＳ９７１）。続いて、読み出された顔メタデータのヘッダ部６３０の情報が読み出される（ステップＳ９７２）。続いて、読み出されたヘッダ部６３０のメタデータバージョン６３２に記録されている顔メタデータのバージョン情報に基づいて、撮像装置１００が対応可能な顔メタデータのバージョンであるか否かが判断される（ステップＳ９７３）。なお、ここでは、所望するデータが存在する顔メタデータのバージョンであるか否かも判断される。例えば、バージョン「１．１０」から付加された顔メタデータを使用する場合において、バージョン「１．００」が確認された場合には、ステップＳ９８０に進む。

対応可能な顔メタデータのバージョンではない場合には（ステップＳ９７３）、ステップＳ９８０に進み、コンテンツ記憶部２２３に記憶されている全てのコンテンツについて顔データの読出処理が終了したか否かが判断される（ステップＳ９８０）。

対応可能な顔メタデータのバージョンである場合には（ステップＳ９７３）、対応する動画コンテンツファイルの更新日時と、ヘッダ部６３０のコンテンツ更新日時６３３に記録されている更新日時とが同じであるか否かが判断される（ステップＳ９７４）。

動画コンテンツファイルの更新日時と、ヘッダ部６３０のコンテンツ更新日時６３３に記録されている更新日時とが同じでない場合には（ステップＳ９７４）、顔の再検出を行う設定であるか否かが判断される（ステップＳ９８２）。顔の再検出を行う設定である場合には、更新日時が同じでないと判断された動画コンテンツファイルについて、ステップＳ９００のプロパティファイルの記録処理を実行して（ステップＳ９００）、ステップＳ９７１に戻る。そして、プロパティファイルの記録処理が実行された動画コンテンツファイルに対応するメタデータエントリから顔メタデータが読み出される（ステップＳ９７１）。

動画コンテンツファイルの更新日時と、ヘッダ部６３０のコンテンツ更新日時６３３に記録されている更新日時とが同じある場合には（ステップＳ９７４）、対応する動画コンテンツファイルの画像サイズと、ヘッダ部６３０のコンテンツ画像サイズ６３８に記録されている画像サイズとが同じであるか否かが判断される（ステップＳ９７５）。動画コンテンツファイルの画像サイズと、ヘッダ部６３０のコンテンツ画像サイズ６３８に記録されている画像サイズとが同じでない場合には（ステップＳ９７５）、ステップＳ９８２に進み、上述した処理を繰り返す。

動画コンテンツファイルの画像サイズと、ヘッダ部６３０のコンテンツ画像サイズ６３８に記録されている画像サイズとが同じである場合には（ステップＳ９７５）、ヘッダ部６３０の顔データ個数６３５に「０」が記録されているか否かが判断される（ステップＳ９７６）。顔データ個数６３５に「０」が記録されている場合には（ステップＳ９７６）、対象となる動画コンテンツファイルから顔が検出されず、顔データが存在しない場合であるため、ステップＳ９８０に進む。

顔データ個数６３５に「０」が記録されていない場合には（ステップＳ９７６）、ヘッダ部６３０の顔データ構造フラグ６６０の記録に基づいて、必要なデータが顔データとして記録されているか否かが判断される（ステップＳ９７７）。これは、バージョンが同じでも、必要なデータが含まれていない可能性があるために行うものである。必要なデータが顔データとして記録されていない場合には（ステップＳ９７７）、ステップＳ９８０に進む。

必要なデータが顔データとして記録されている場合には（ステップＳ９７７）、顔データ構造フラグ６６０の記録に基づいて、式１を用いて顔データ内の必要なデータまでのオフセット値が計算される（ステップＳ９７８）。これは、必要なデータが顔データ内で先頭から何バイト目から始まるかを求めるためのものである。また、顔データがどのような構造であるかを検索するためのものである。続いて、計算して求められたオフセット値に基づいて、顔データを読み出す（ステップＳ９７９）。続いて、コンテンツ記憶部２２３に記憶されている全てのコンテンツについて顔データの読出処理が終了したか否かが判断される（ステップＳ９８０）。コンテンツ記憶部２２３に記憶されている全てのコンテンツについて顔データの読出処理が終了した場合には（ステップＳ９８０）、顔データの読出処理を終了する。

一方、コンテンツ記憶部２２３に記憶されている全てのコンテンツについて顔データの読出処理が終了していない場合には（ステップＳ９８０）、コンテンツ記憶部２２３に記憶されているコンテンツの中で、顔データの読出処理が終了していないコンテンツに対応するメタデータエントリから顔メタデータが選択され（ステップＳ９８１）、顔データの読出処理を繰り返す（ステップＳ９７１乃至ステップＳ９７９）。なお、この例では、コンテンツ記憶部２２３に記憶されている全てのコンテンツについて、顔データの読出処理を実行する場合について説明したが、コンテンツ記憶部２２３に記憶されているコンテンツの中の所望のコンテンツについてのみ顔データの読出処理を実行する場合についても、この例を適用することができる。

このように、コンテンツ更新日時の比較とともに、コンテンツ画像サイズを用いた比較をすることによって、さらに確実な不整合を検出することが可能である。

図２７は、撮像装置１００による顔データの読出処理の処理手順を示すフローチャートである。この処理手順は、チェックサムを用いて不整合を検出する処理手順であり、図２６に示す処理手順において、ステップＳ９７４およびステップＳ９７５の代わりに、ステップＳ９８３およびステップＳ９８４の処理を行うものである。このため、ステップＳ９８３およびステップＳ９８４について詳細に説明し、他の処理についての説明を省略する。また、ここでは、図１０に示すヘッダ部６３０を参照して説明する。

ステップＳ９７２で読み出されたヘッダ部６３０のメタデータバージョン６３２に記録されている顔メタデータのバージョン情報に基づいて、撮像装置１００が対応可能な顔メタデータのバージョンであるか否かが判断される（ステップＳ９７３）。そして、対応可能な顔メタデータのバージョンである場合には（ステップＳ９７３）、対応する動画コンテンツファイルの画像データからチェックサムが計算される（ステップＳ９８３）。このチェックサムの計算を行う場合において、対応する全ての画像データに基づいてチェックサムの計算を行うと、多くの処理時間を要すると考えられる。このため、対応する画像データのうちから、記録再生処理に支障がない程度の画像データを抽出して、この抽出された画像データを用いてチェックサムを計算するようにしてもよい。例えば、画像データの開始から１００バイトまでの値を用いてチェックサムを計算することができる。この場合には、ヘッダ部６３０の誤り検出符号値６３９に記録されているチェックサムの値についても、画像データの開始から１００バイトまでの値を用いて計算されている。

続いて、計算して求められたチェックサムの値と、ヘッダ部６３０の誤り検出符号値６３９に記録されているチェックサムの値とが同じであるか否かが判断される（ステップＳ９８４）。

計算して求められたチェックサムの値と、ヘッダ部６３０の誤り検出符号値６３９に記録されているチェックサムの値とが同じである場合には（ステップＳ９８４）、顔メタデータが信頼できるものであると判断することができるため、ステップＳ９７６に進む。一方、計算して求められたチェックサムの値と、ヘッダ部６３０の誤り検出符号値６３９に記録されているチェックサムの値とが同じでない場合には（ステップＳ９８４）、ステップＳ９８２に進む。ここで、誤り検出符号値として、ＣＲＣやハッシュ関数を用いたハッシュ値を用いる場合についても同様にこの処理手順を適用することができる。また、図２６および図２７で示したコンテンツ更新日時の比較（ステップＳ９７４）、コンテンツ画像サイズの比較（ステップＳ９７５）、チェックサムの比較（ステップＳ９８３およびステップＳ９８４）のうちの少なくとも２つを組み合わせて不整合を検出するようにしてもよい。

次に本発明の実施の形態の変形例について図面を参照して詳細に説明する。

ここでは、コンテンツファイルが動画コンテンツファイルである場合において、この動画コンテンツファイルに基づいて作成された顔メタデータを含むメタデータエントリをコンテンツ管理ファイル３４０に記録するとともに、この動画コンテンツファイル内部にも記録を行う例について説明する。この例では、顔メタデータを、図２に示すＡＵ（アクセスユニット）に含まれるＳＥＩＮＡＬユニットの付加情報として記録する場合について説明する。

図２を参照して説明したように、本発明の実施の形態において、ＭＰＥＧ４−ＡＶＣで符号化された動画ストリームに含まれる顔を検出するタイミングは、ＩＤＲＡＵまたはｎｏｎ−ＩＤＲ−ＩＡＵが出現するタイミングである。このため、例えば、ＩＤＲＡＵに対応するフレームから顔が検出された場合には、この検出された顔に関する顔メタデータが、そのＩＤＲＡＵの中に含まれるＳＥＩＮＡＬユニットの付加情報として記録される。例えば、図２に示すように、ＡＵ１８０に対応するフレームから顔が検出された場合には、この検出された顔に関する顔メタデータが、ＡＵ１８０に含まれるＳＥＩＮＡＬユニット１８１の付加情報として記録される。また、ＡＵ１９０に対応するフレームから顔が検出された場合には、この検出された顔に関する顔メタデータが、ＡＵ１９０に含まれるＳＥＩＮＡＬユニット１９１の付加情報として記録される。

ここで、ＳＥＩＮＡＬユニット（以下、ＳＥＩと称する。）に記録される顔メタデータは、例えば、図１０に示すヘッダ部６３０および図１１に示す顔データ部６４０から構成される顔メタデータ６２０である。なお、図１３乃至図１６等を参照して説明したように、顔データ部６４０については、必要な情報のみとすることができる。

ここで、ＳＥＩに記録される顔データが満たすべき所定の条件について図２８を参照して詳細に説明する。上述したように、コンテンツ管理ファイル３４０において顔データ部に顔データの値を記録する場合には、例えば、所定の条件（顔の大きさ、位置、直前に検出された顔の個数の増減等）に基づいて、１フレーム内において検出された顔のうちで、顔データ部に記録すべき顔データを規定して制限していた。これに対して、ＳＥＩに顔データを記録する場合には、１フレーム内において検出された顔に関する顔メタデータを極力記録するものとする。すなわち、ＳＥＩに顔データを記録する場合には、コンテンツ管理ファイル３４０に顔データを記録する場合における所定の条件よりも緩和された条件に基づいて記録するものとする。

例えば、ＳＥＩに格納する顔の個数の上限値を予め決めておき、検出された顔が上限値を超えた場合にのみ、検出された顔の大きさや位置等に基づいて、ＳＥＩに記録される顔メタデータを制限する。ここで、図２８を参照して顔データの記録方法の一例を説明する。

図２８は、動画コンテンツファイルを構成するフレーム８２３乃至８２８において検出された顔と、顔データ部６４０に記録される顔データ８１１乃至８２２との関係を示す図である。なお、図２８では、フレーム８２３乃至８２８において検出された顔が四角の枠で囲まれている状態を示す。また、フレーム８２３または８２４では１人の顔が検出され、フレーム８２５または８２７では２人の顔が検出され、フレーム８２６または８２８では３人の顔が検出されたものとする。

例えば、検出時刻ｔ１のフレーム８２３において検出された顔の数と、検出時刻ｔ２のフレーム８２４において検出された顔の数とが同数である場合においても、検出された顔の数が上限値を超えていなければ、検出時刻ｔ１のフレーム８２３および検出時刻ｔ２のフレーム８２４において検出された顔の顔データを顔データ部６４０に記録する。また、同様に、時刻ｔ５のフレーム８２７において検出された顔の数は、時刻ｔ４のフレーム８２６において検出された顔の数よりも少ないものの、検出された顔の数が上限値を超えていなければ、検出時刻ｔ４のフレーム８２６および検出時刻ｔ５のフレーム８２７において検出された顔の顔データを顔データ部６４０に記録する。

これに対して、コンテンツ管理ファイル３４０に顔データを記録する場合における所定の条件は、例えば、ある検出時刻のフレームにおいて検出された顔の個数と、次の検出時刻のフレームにおいて検出された顔の個数とが同数である場合には、次の検出時刻で検出された顔に関する顔データを顔データ部に記録しないとする条件である。これは、検出された顔の個数が同数であるため、同じ顔に関するメタデータが記録される可能性が高いためである。また、ある検出時刻のフレームにおいて検出された顔の個数よりも、次の検出時刻のフレームにおいて検出された顔の個数が少ない場合についても、同様に、次の検出時刻で検出された顔に関する顔データを顔データ部に記録しないようにすることができる。

例えば、図２８に示すように、検出時刻ｔ１のフレーム８２３において検出された顔の数と、検出時刻ｔ２のフレーム８２４において検出された顔の数とが同数である場合において、コンテンツ管理ファイル３４０に顔データを記録する場合には、検出時刻ｔ２のフレーム８２４において検出された顔の顔データは、顔データ部６４０に記録されない。また、検出時刻ｔ５のフレーム８２７において検出された顔の数は、検出時刻ｔ４のフレーム８２６において検出された顔の数よりも少ない。このため、検出時刻ｔ５のフレーム８２５において検出された顔の顔データは、顔データ部６４０に記録されない。

このように、ＳＥＩに顔データを記録する場合には、コンテンツ管理ファイルに顔メタデータを記録する場合における条件よりも緩和された条件に基づいて、顔メタデータの記録の是非を判定するようにする。これにより、顔データが記録されているＳＥＩを含むコンテンツファイルが、この顔データが記録された記録機器から他の機器に移動された場合でも、このコンテンツファイルを移動先の機器におけるアプリケーションに広く対応させることができる。

例えば、検出された顔に関する顔メタデータが記録機器の所定条件に基づいて記録された場合において、この移動元の記録機器の所定条件により記録された顔メタデータが移動先の機器において有用だとは限らない。そこで、移動先の機器におけるアプリケーションに広く対応させることができるように、ＳＥＩに顔データを記録する場合における条件を緩和して比較的多数の顔データを記録しておく。これにより、顔メタデータの取捨選択の幅を持たせておくことができる。

しかしながら、コンテンツ管理ファイルと動画ストリームとの両方に顔メタデータを記録する場合においては、同じ顔メタデータをそれぞれに記録する必要はない。例えば、コンテンツ管理ファイルと動画ストリームとの両方に顔メタデータを記録する場合において、コンテンツ管理ファイルに顔検出時刻情報が記録されている場合でも、ＳＥＩを含むＡＵにおける他のＮＡＬユニットに時刻情報が記録されているため、ＳＥＩには顔検出時刻情報を記録しないようにすることができる。これにより、顔メタデータの容量を削減することが可能となる。また、顔が検出されたＡＵは、通常は編集点となるＡＵである。このため、動画ストリームが途中で削除された場合でも顔検出時刻情報については正しい値を保持することができる。また、動画ストリームを編集する場合において、コンテンツ管理ファイル内の顔メタデータをメンテナンスする場合にも、ＳＥＩを含むＡＵの他のＮＡＬユニットに記録されている時刻情報を利用することが可能となる。

さらに、コンテンツ管理ファイルを備えた記録機器において、ストリーム内部に顔メタデータを記録することによって、コンテンツ管理ファイルが何らかの事情で破壊された場合には、ストリーム内部の顔メタデータを用いて迅速にコンテンツ管理ファイルの顔メタデータの再構築を行うことができる。これにより、全てのストリームから顔を検出して顔メタデータの補修を行うよりも、迅速にコンテンツ管理ファイルの顔メタデータの再構築を行うことができる。

コンテンツ管理ファイルを備えていない記録機器の場合には、動画ストリームの所定ＡＵにおけるＳＥＩＮＡＬユニットにのみ顔メタデータが記録されることになる。この場合には、この動画ストリーム内部に記録された顔メタデータを使用することによって、迅速にアプリケーションを実行することができる。これに対して、顔メタデータが記録されていない動画ストリームについて顔メタデータを用いるアプリケーションを実行する場合には、動画ストリームから顔を検出する必要があるため、アプリケーションの実行を迅速に行うことができない場合がある。

次に、コンテンツファイルが静止画コンテンツファイルである場合において、この静止画コンテンツファイルに基づいて作成された顔メタデータを、コンテンツ管理ファイル３４０に記録せずに、この静止画コンテンツファイル内部に記録する例について説明する。

図２９は、ＤＣＦ（Design rule for Camera File system）規格により記録される静止画ファイルのファイル構造の概略を示す図である。ＤＣＦは、デジタルスチルカメラやプリンタ等の機器間で、記録媒体を介して画像の相互利用を実現するためのファイルシステム規格であり、Ｅｘｉｆ（Exchangeable image file format）をベースにして記録媒体に記録する場合におけるファイル名の付け方やフォルダの構成が規定されている。このＥｘｉｆは、画像ファイルの中に画像データおよびカメラ情報を付加するための規格であり、画像ファイルを記録するための形式（ファイルフォーマット）を規定するものである。

静止画ファイル８００は、ＤＣＦ規格により記録される静止画ファイルであり、図２９（ａ）に示すように、付属情報８０１および画像情報８０２から構成されている。画像情報８０２は、例えば、カメラ部１１０により撮像された被写体の画像データである。

付属情報８０１は、図２９（ｂ）に示すように、属性情報８０３およびメーカーノート（maker note）８０４から構成されている。属性情報８０３は、静止画ファイル８００に関する属性情報等であり、例えば、撮影更新日時、画サイズ、色空間情報、メーカー名等が含まれる。また、属性情報８０３には、画像の回転の有無を示す回転情報（ＴＡＧＩＤ＝２７４、Orientation）が含まれる。なお、この回転情報については、Ｅｘｉｆ情報として画像の回転情報を記録しない設定（すなわち、回転情報をタグに記録しない設定）をすることができる。この設定がされている場合には、無効値として「０」が記録される。

メーカーノート８０４は、一般的にユーザ独自のデータが記録される領域であり、各メーカーが自由に情報を記録することができる拡張領域である（ＴＡＧＩＤ＝３７５００、MakerNote）。この例では、図２９（ｃ）に示すように、このメーカーノート８０４に顔メタデータが記録される。すなわち、メーカーノート８０４は、顔メタデータ８０７等の１または複数の顔メタデータを記録する顔メタデータ記録領域８０５と、他の独自メタデータ等を記録する記録領域８０６とから構成されている。このように、顔メタデータを静止画ファイルに記録する場合には、Ｅｘｉｆで規定されたメーカーノート８０４の内部に顔メタデータが記録される。

ここで、メーカーノート８０４に記録される顔メタデータについて説明する。メーカーノート８０４に記録される顔メタデータは、例えば、図１０に示すヘッダ部６３０および図１１に示す顔データ部６４０から構成される顔メタデータ６２０である。ここで、顔データ部６４０については、図１３乃至図１６等を参照して説明したように、必要な情報のみとすることができる。ただし、静止画の場合は、ヘッダ部６３０に記録される各情報のうちでタイムスケール６３５が必要ないものの、静止画のタイムスケール６３５には「０」が記録される。これは、動画または静止画に応じて異なるメタデータ量にするよりも、同じメタデータ量とする方がヘッダ部６３０を固定長とすることができるため、データのアクセスを容易にすることができる。また、動画または静止画において、異なるメタデータを記録することは、記録機器のシステム的に負荷が重い。このため、動画または静止画で検出された顔に関する顔メタデータを作成する場合には、それぞれ同様のメタデータとすることによって、負荷を軽減することが可能となる。

図３０は、本発明の実施の形態の変形例における撮像装置１００の機能構成例を示すブロック図である。この撮像装置１００は、コンテンツ管理ファイル記憶部２１０と、コンテンツ入力部２１１と、顔検出部２１２と、顔メタデータ作成部２１３と、仮想管理情報作成部２１４と、代表サムネイル画像抽出部２１５と、コンテンツ属性情報作成部２１６と、記録制御部２３０と、コンテンツ記憶部２２３とを備える。ここでは、コンテンツ管理ファイル記憶部２１０と、コンテンツ入力部２１１と、記録制御部２３０と、コンテンツ記憶部２２３とについて、図１７に示すものと異なる部分を詳細に説明して、他の構成については、ここでの説明を省略する。

コンテンツ管理ファイル記憶部２１０は、仮想的な階層構造により構成される階層エントリを記録するコンテンツ管理ファイル３４０を記憶するものである。なお、この変形例では、コンテンツ管理ファイル記憶部２１０には、静止画に関する階層エントリを記録しにしない。

コンテンツ入力部２１１は、コンテンツファイルを入力するものであり、入力されたコンテンツファイルを、顔検出部２１２、顔メタデータ作成部２１３、仮想管理情報作成部２１４、代表サムネイル画像抽出部２１５、コンテンツ属性情報作成部２１６および記録制御部２３０に出力する。具体的には、動画の場合には、カメラ部１１０で撮影されたフレームがコンテンツ入力部２１１から順次入力される。静止画の場合には、カメラ部１１０で撮影された画像がコンテンツ入力部２１１から順次入力される。

記録制御部２３０は、顔メタデータ作成部２１３により作成された顔メタデータを、この顔メタデータに対応するコンテンツファイルに記録する。また、記録制御部２３０は、動画コンテンツファイルに関して、ＩＤＲピクチャまたはＩピクチャ毎に作成された顔メタデータを、この顔メタデータに対応するＩＤＲピクチャまたはＩピクチャを含むＡＵにおけるＳＥＩに記録する。さらに、記録制御部２３０は、動画コンテンツファイルに関して所定間隔で作成された顔メタデータを動画コンテンツファイルに記録する場合には、コンテンツ管理ファイル３４０に顔メタデータを記録する場合における記録条件よりも緩和された記録条件を用いて、動画コンテンツファイルに顔メタデータを記録する。また、記録制御部２３０は、静止画に関する顔メタデータについては、コンテンツ管理ファイル３４０に記録しない。

コンテンツ記憶部２２３は、顔メタデータが記録された動画や静止画等のコンテンツファイルを記憶するものである。

ここで、静止画および動画の利用環境等について簡単に説明する。

一般的に、静止画は、記録媒体に記録されて機器間を移動することが多く、動画に比べて可搬性が高いと考えられる。このように静止画が移動される場合においては、移動先の機器においてコンテンツ管理ファイルを理解することができない市販の画像管理アプリケーションソフトウェアが利用されている可能性が高いと考えられる。このため、静止画については、コンテンツ管理ファイルで管理しなくてもよいと考えられる。

また、静止画の場合は、静止画ファイルをＰＣ上で編集可能なＰＣアプリケーションソフトウェアが多く存在している。これらのＰＣアプリケーションソフトウェアの中には、静止画がトリミングや回転処理された場合においても、Ｅｘｉｆのメーカーノート以外のカメラ情報（更新日時や回転情報等）を正しくメンテナンスしないものも多い。そのようなＰＣアプリケーションソフトウェアで編集された静止画ファイルが、顔が検出された記録機器に戻される場合がある。この場合において、例えば、顔位置を示す顔データを用いて静止画から顔を切り出す処理を実行しても、顔が正しく切り出されていないということが生じ得る。

このような場合を極力避けるために、静止画コンテンツ内にある更新日時情報とともに、画像サイズ情報等を用いることによって、不整合検出の可能性を高めることができる。

一方、動画については、ＡＶＣＨＤ（Advanced Video Codec High Definition）、ＢＤ（Blu-ray Disc：ブルーレイディスク）等の再生環境が整っていない段階では、動画が撮影された撮像装置に付属するＰＣアプリケーションソフトウェアでないと再生できない可能性が高い。このため、動画については、コンテンツ管理ファイルを理解することができるＰＣアプリケーションソフトウェアをユーザが使用する可能性が高く、メタデータへのアクセス性等のメリットを考えてコンテンツ管理ファイルで動画コンテンツを管理する。また、動画コンテンツのメタデータもコンテンツ管理ファイルに記録する。

動画ファイルが編集される場合には、上述したように、動画対応フォーマットに対応する編集アプリケーションが少なければ、独自ファイルであるコンテンツ管理ファイルや動画ファイルに記録される更新日時情報が、その独自ファイルに対応するＰＣアプリケーションソフトウェアにより確実にメンテナンスされる可能性が高い。

以上で示したように、静止画および動画の使用環境が異なるため、この変形例では、動画コンテンツファイルと、この動画コンテンツファイルから検出されたメタデータ（顔メタデータに限定されず）とをコンテンツ管理ファイルで管理する。一方、静止画コンテンツファイルについては、コンテンツ管理ファイルで管理せずに、通常のファイルシステムで管理して、この静止画コンテンツファイルに含まれるメタデータを、この静止画ファイル内（すなわち、Ｅｘｉｆのメーカーノート）に記録する。

次に、本発明の実施の形態の変形例における顔データの読出処理について図面を参照して詳細に説明する。

図３１および図３２は、撮像装置１００による顔データの読出処理の処理手順を示すフローチャートである。この例では、メーカーノート８０４に顔メタデータが記録されている静止画について、コンテンツ更新日時、コンテンツ画像サイズ、コンテンツ回転情報を用いて、静止画とメタデータとの不整合を検出する処理手順を示す。この処理手順は、図２６に示す処理手順において、ステップＳ９７５とステップＳ９７６との処理の間に、ステップＳ９８５の処理を行うものである。このため、ステップＳ９８５について詳細に説明し、他の処理についての説明を省略する。また、ここでは、図１０に示すヘッダ部６３０を参照して説明する。

ステップＳ９７２で読み出されたヘッダ部６３０のメタデータバージョン６３２に記録されている顔メタデータのバージョン情報に基づいて、撮像装置１００が対応可能な顔メタデータのバージョンであるか否かが判断される（ステップＳ９７３）。そして、対応可能な顔メタデータのバージョンである場合において（ステップＳ９７３）、対応する静止画コンテンツファイルの更新日時と、ヘッダ部６３０のコンテンツ更新日時６３３に記録されている更新日時とが同じでない場合（ステップＳ９７４）、または、対応する静止画コンテンツファイルの画像サイズと、ヘッダ部６３０のコンテンツ画像サイズ６３８に記録されている画像サイズとが同じでない場合には（ステップＳ９７５）、対応する静止画コンテンツファイルの画像がトリミングや解像度変換等の処理を施されている可能性が高いため、ステップＳ９８２に進み、上述した処理を繰り返す。

一方、対応する静止画コンテンツファイルの更新日時と、ヘッダ部６３０のコンテンツ更新日時６３３に記録されている更新日時とが同じであり（ステップＳ９７４）、かつ、対応する静止画コンテンツファイルの画像サイズと、ヘッダ部６３０のコンテンツ画像サイズ６３８に記録されている画像サイズとが同じである場合には（ステップＳ９７５）、対応する静止画コンテンツファイルの回転情報が存在し、かつ、この回転情報に無効値が記録されていないか否かが判断される（ステップＳ９８５）。対応する静止画コンテンツファイルの回転情報が存在し、かつ、この回転情報に無効値が記録されていない場合には（ステップＳ９８５）、ステップＳ９７６に進む。

一方、対応する静止画コンテンツファイルの回転情報が存在しない場合、または、この回転情報に無効値が記録されている場合には（ステップＳ９８５）、画像が回転処理されている可能性が高いため、ステップＳ９８２に進み、上述した処理を繰り返す。これらにより、静止画ファイルの編集において比較的多く用いられる画像の回転、トリミング、解像度変換等を考慮して不整合検出の可能性を高めることができる。なお、図２６、図２７、図３１で示したコンテンツ更新日時の比較、コンテンツ画像サイズの比較、チェックサムの比較、回転情報の確認のうちの少なくとも２つを組み合わせて不整合を検出するようにしてもよい。

次に、顔メタデータを利用したアプリケーションの実行例について図面を参照して詳細に説明する。

図３３は、静止画コンテンツファイルについてのスライドショーが実行される場合における表示例を示す図である。図３３（ａ）は、顔８５１を含む画像が表示部８５０に表示されている状態を示す図である。顔８５１については、静止画ファイル内のメーカーノートに顔データが記録されており、この顔データにより顔８５１を含む領域８５２を認識することが可能である。

従来では、１枚の画像をスライドショーによって表示させる場合には、例えば、１枚の画像の真中部分を上下に切り分け、この切り分けられた画像の上部分を画面上の右側から進入させるとともに、画像の下部分を画面上の左側から進入させていき、一枚の画像を再生するトランジション効果によって表示させるスライドショーが行われている。

例えば、図３３（ａ）に示す画像についてトランジション効果によりスライドショー表示させる場合には、図３３（ａ）に示す点線８５３で示す真中部分で画像を上下に切り分けて、図３３（ｂ）に示すように、上部分の画像を矢印８５５方向に順次移動させるとともに、下部分の画像を矢印８５６方向に順次移動させていき、この画像全体を表示させることができる。しかしながら、このように点線８５３で示す部分で画像を上下に切り分けた場合には、この画像に含まれる顔８５１が上下に分かれてしまうため、上下に分かれた画像が組み合わされるまでの間は、顔８５１の全体を閲覧することができない。

そこで、顔を含む画像についてトランジション効果によりスライドショー表示させる場合には、トランジションをかける前に、メーカーノートに記録されている顔メタデータに含まれる顔基本情報に基づいて、顔の位置を把握して、画像の上下を区切る位置を調節することができる。これにより、領域８５２に含まれる顔８５１が切り分けられないようにすることができる。例えば、領域８５２に含まれる顔８５１が切り分けられないように、図３３（ａ）に示す点線８５４で示す部分で画像を上下に切り分けることができる。これにより、図３３（ｃ）に示すように、上下に区切られた画像が移動中であっても、顔８５１の全体を閲覧することができる。

また、図３３（ａ）に示すように、メーカーノートに顔データが記録されている画像については、上述したトランジション効果とは異なるトランジション効果によりスライドショー表示させることができる。例えば、顔が含まれる画像については、画像に含まれる顔のズームから、通常の顔の大きさに戻す等のように、画像に含まれる顔が切り分けられないようなトランジション効果を用いることができる。顔が含まれる画像と顔が含まれない画像とについて、トランジションを切り替えることによって、画像に含まれる顔を効果的に表示させることができるスライドショーを実行することができる。

次に、デジタルスチルカメラやデジタルビデオカメラ等の記録装置により撮像された画像データに付加された顔メタデータを、ビデオプレイヤーのような再生装置が利用する例について図面を参照して詳細に説明する。

図３４は、着脱可能な記録媒体８３１を接続することが可能な画像記録装置８３０および画像再生装置８３４を示す図である。ここでは、顔メタデータがコンテンツファイル内に内包される場合における顔メタデータの利用例について説明する。なお、画像記録装置８３０および画像再生装置８３４の構成は、図１７、図１８および図３０に示す撮像装置１００の構成とほぼ同様である。

図３４（ａ）に示すように、画像記録装置８３０に記録媒体８３１が接続されている状態で被写体の撮像が行われ、これにより撮像された画像データおよびこの画像データにより作成された顔メタデータが記録媒体８３１にコンテンツファイル８３２として記録される。そして、コンテンツファイル８３２を画像再生装置８３４によって再生させる場合には、図３４（ｂ）に示すように、画像記録装置８３０から記録媒体８３１を取り外し、図３４（ｃ）に示すように、画像再生装置８３４に記録媒体８３１を接続することによって、記録媒体８３１に記録されているコンテンツファイル８３２を画像再生装置８３４に入力して再生させることができる。

このように画像記録装置８３０により付加されたメタデータを画像再生装置８３４が利用することができるため、画像再生装置８３４が顔検出機能を有しない場合でも、顔メタデータを用いた再生を画像再生装置８３４が行うことができる。これにより、モバイル機器のように大きな再生負荷をかけることができない機器の場合においても高度な再生アプリケーションを実現することが可能となる。また、顔検出機能を有する再生機器においても、再生時に顔を検索する必要がないため、再生処理に要する時間を大幅に短縮することが可能となる。

図３５は、画像記録装置８７０および画像再生装置８８０で構成されている画像処理システム８６０の概略を示すシステム構成図である。画像記録装置８７０および画像再生装置８８０は、ＵＳＢケーブル等の装置間インタフェースで接続される。

画像記録装置８７０は、デジタルスチルカメラやデジタルビデオカメラ等の画像記録装置であり、撮像された画像データをコンテンツファイルとしてコンテンツファイル記憶部８７２に記憶するとともに、このコンテンツファイルに関する顔メタデータをコンテンツ管理ファイル８７１に記録する画像記録装置である。

画像再生装置８８０は、送信要求出力部８８１と、再生制御部８８２と、表示部８８３とを備え、装置間インタフェースで接続されている画像記録装置８７０のコンテンツファイル記憶部８７２に記憶されているコンテンツファイルを読み出し、読み出されたコンテンツファイルを表示部８８３に表示して再生する画像再生装置である。なお、画像記録装置８７０の構成は、図１７、図１８および図３０に示す撮像装置１００の構成とほぼ同様であるため、その他の構成に関する図示および説明は省略する。

送信要求出力部８８１は、画像記録装置８７０のコンテンツ管理ファイル８７１に記録されているメタデータエントリに含まれるメタデータの中から所望のメタデータを抽出するための送信要求を、信号線８８４に出力するものである。この信号線８８４に出力された送信要求に応答して、コンテンツ管理ファイル８７１に記録されているメタデータエントリに含まれるメタデータの中から所望のメタデータが抽出されるとともに、この抽出されたメタデータを含むメタデータエントリの上位階層に記録されているファイルエントリに含まれる仮想管理情報に基づいてコンテンツファイル記憶部８７２に記録されているコンテンツファイルが抽出される。そして、コンテンツ管理ファイル８７１から抽出されたメタデータが信号線８８５に出力されるとともに、コンテンツファイル記憶部８７２から抽出されたコンテンツファイルが信号線８８６に出力される。

再生制御部８８２は、コンテンツ管理ファイル８７１から信号線８８５に出力されたメタデータを用いて、コンテンツファイル記憶部８７２から信号線８８６に出力されて表示部８８３に表示されるコンテンツファイルの再生を制御する再生制御部である。

このように、画像再生装置８８０は、画像記録装置８７０に記録されているコンテンツ管理ファイル８７１を読み出し、読み出されたコンテンツ管理ファイル８７１の中から必要なメタデータを抽出して、抽出されたメタデータをコンテンツファイルの再生時に用いる。これにより、例えば、図３３を参照して説明したように、画像記録装置８７０に記録されているコンテンツ管理ファイル８７１のメタデータを用いて、コンテンツファイル記憶部８７２に記憶されているコンテンツファイルを表示部８８３に表示することができる。

ここでは、画像記録装置８７０および画像再生装置８８０を接続する接続手段としてＵＳＢケーブル等の装置間インタフェースを用いた例について説明したが、有線回線または無線回線を用いたネットワーク等の他の接続手段を用いるようにしてもよい。

このように、本発明の実施の形態によれば、所望のメタデータを迅速に検索することができ、対応するコンテンツファイルを迅速にサーチすることができる。このため、所望のアプリケーションを迅速に実行することができる。また、コンテンツファイルに関するメタデータを迅速に利用することができる。

また、現在では、顔メタデータを利用するアプリケーションが多数開発されており、顔メタデータを利用するアプリケーションは今後も種々多様化するものと考えられる。このため、将来は、顔メタデータのフォーマット拡張が予想される。このような顔メタデータのフォーマットが拡張された場合であっても、本発明の実施の形態によれば、そのフォーマットの拡張に対して再生機器において互換性を確保することができるため、コンテンツファイルに関するメタデータを迅速に利用することができる。

このように、本発明の実施の形態によれば、コンテンツファイルを迅速に利用することができる。

なお、本発明の実施の形態では、メタデータとして、人の顔に関する顔メタデータを一例として示したが、他のメタデータについても本発明の実施の形態を適用することができる。例えば、動物またはペット認識アルゴリズムを用いて画像に含まれる動物等を検出し、検出された動物の顔等に関する情報に対応するメタデータについて、本発明の実施の形態を適用することができる。例えば、顔検出エンジンの代わりに、ペット検出エンジンを設け、このペット検出エンジンによって検出されたペットに関するメタデータを用いて、本発明の実施の形態を適用することができる。また、人物または動物等の行動を認識し、この認識された行動が所定の記述により記録されたメタデータについても、本発明の実施の形態を適用することができる。また、本発明の実施の形態では、コンテンツ記録装置の一例として撮像装置について説明したが、コンテンツファイルを記録する携帯端末装置等の他のコンテンツ記録装置に本発明の実施の形態を適用することができる。また、本発明の実施の形態では、コンテンツ再生装置の一例として撮像装置について説明したが、コンテンツを再生するＤＶＤ（Digital Versatile Disc）レコーダ等の他のコンテンツ再生装置に本発明の実施の形態を適用することができる。

なお、本発明の実施の形態は本発明を具現化するための一例を示したものであり、以下に示すように特許請求の範囲における発明特定事項とそれぞれ対応関係を有するが、これに限定されるものではなく本発明の要旨を逸脱しない範囲において種々の変形を施すことができる。

なお、本発明の実施の形態において説明した処理手順は、これら一連の手順を有する方法として捉えてもよく、また、これら一連の手順をコンピュータに実行させるためのプログラム乃至そのプログラムを記憶する記録媒体として捉えてもよい。

撮像装置１００の構成を示すブロック図である。撮像装置１００で撮影された画像データがＭＰＥＧ４−ＡＶＣで符号化された、ビデオ信号の所定フレームを模式的に示す図である。ファイルシステム上に登録されている実ファイルのファイル構造を概略的に示す図である。プロパティファイル４００が管理する仮想フォルダおよび仮想ファイルの構成例を示す図である。プロパティファイル４００およびサムネイルファイル５００と、動画コンテンツファイル３１１乃至３１６との関係を概略的に示す図である。動画フォルダエントリ４１０、日付フォルダエントリ４１１、動画ファイルエントリ、メタデータエントリの親子関係を概略的に示す図である。プロパティファイル４００の基本構造の一例を示す図である。プロパティファイル４００の全体構造を概略的に示す図である。メタデータエントリ６００の内部構成を概略的に示す図である。ヘッダ部６３０に格納される各種情報の概略を示す図である。顔データ部６４０に格納される顔データの概略を示す図である。ヘッダ部６３０の顔データ構造フラグ６６０のデータ構造を示す図である。顔データ構造フラグ６６０に格納されたビットと、顔データ部６４０に格納された顔データとの関係を示す図である。顔データ構造フラグ６６０に格納されたビットと、顔データ部６４０に格納された顔データとの関係を示す図である。顔データ構造フラグ６６０に格納されたビットと、顔データ部６４０に格納された顔データとの関係を示す図である。顔データ構造フラグ６６０に格納されたビットと、顔データ部６４０に格納された顔データとの関係を示す図である。撮像装置１００の機能構成例を示すブロック図である。撮像装置１００の機能構成例を示すブロック図である。動画ファイルエントリ４１４とメタデータエントリ４１５とサムネイルファイル５００と動画コンテンツファイル３１２との関係を概略的に示す図である。コンテンツ管理ファイル３４０を用いたアプリケーションの一例を示す図である。撮像装置１００によるプロパティファイル４００の記録処理の処理手順を示すフローチャートである。撮像装置１００による動画コンテンツファイルの再生処理の処理手順を示すフローチャートである。撮像装置１００による動画コンテンツファイルの再生処理の処理手順を示すフローチャートである。撮像装置１００による動画コンテンツファイルの再生処理の処理手順を示すフローチャートである。メタデータエントリ６００に含まれる顔メタデータ６２０の構成を概略的に示す図である。撮像装置１００による顔データの読出処理の処理手順を示すフローチャートである。撮像装置１００による顔データの読出処理の処理手順を示すフローチャートである。フレーム８２３乃至８２８において検出された顔と顔データ８１１乃至８２２との関係を示す図である。ＤＣＦ規格により記録される静止画ファイルのファイル構造の概略を示す図である。本発明の実施の形態の変形例における撮像装置１００の機能構成例を示すブロック図である。撮像装置１００による顔データの読出処理の処理手順を示すフローチャートである。撮像装置１００による顔データの読出処理の処理手順を示すフローチャートである。静止画コンテンツファイルについてのスライドショーが実行される場合における表示例を示す図である。着脱可能な記録媒体８３１を接続することが可能な画像記録装置８３０および画像再生装置８３４を示す図である。画像記録装置８７０および画像再生装置８８０で構成されている画像処理システム８６０の概略を示すシステム構成図である。

符号の説明

１００撮像装置
１１０カメラ部
１１１光学ブロック
１１２ＣＣＤ
１１３前処理回路
１１４光学ブロック用ドライバ
１１５ＣＣＤ用ドライバ
１１６タイミング生成回路
１２０カメラＤＳＰ
１２１ＳＤＲＡＭ
１３０制御部
１４０操作部
１４１ＣＰＵ
１４２ＲＡＭ
１４３フラッシュＲＯＭ
１４４時計回路
１４５システムバス
１５０媒媒体Ｉ／Ｆ
１６１ＬＣＤコントローラ
１６２ＬＣＤ
１６３外部Ｉ／Ｆ
１６４通信Ｉ／Ｆ
１７０記録媒体
２１０コンテンツ管理ファイル記憶部
２１１コンテンツ入力部
２１２顔検出部
２１３顔メタデータ作成部
２１４仮想管理情報作成部
２１５代表サムネイル画像抽出部
２１６コンテンツ属性情報作成部
２１７記録制御部
２１８顔データ作成部
２１９ヘッダ情報作成部
２２１操作受付部
２２３コンテンツ記憶部
２２４選択部
２２５抽出部
２２６描画部
２２７表示部

Claims

コンテンツを入力する入力部と、
前記コンテンツに含まれる被写体の顔を検出する顔検出部と、
前記コンテンツに基づいて前記コンテンツを管理するための管理情報と前記コンテンツに関する属性情報とを作成し、前記検出された顔に基づいて当該顔が検出された際における前記コンテンツに関する属性情報を含むメタデータであって前記コンテンツに含まれる顔に関する顔メタデータを作成する作成部と、
階層構造により構成される階層エントリを記録するコンテンツ管理ファイルに、前記作成された管理情報および前記作成された属性情報を含む前記階層エントリであるファイルエントリと、当該ファイルエントリの下位階層に連結される前記階層エントリであって前記作成された顔メタデータを含むメタデータエントリとを記録する記録制御部と、
前記コンテンツをコンテンツファイルとして記憶するコンテンツ記憶部と、
操作入力を受け付ける操作受付部と、
前記受け付けられた操作入力に応じて前記コンテンツ管理ファイルに記録されているファイルエントリの中から所望のファイルエントリを選択する選択部と、
前記選択されたファイルエントリに含まれる管理情報に基づいて前記コンテンツ記憶部に記憶されているコンテンツファイルを抽出し、前記抽出されたコンテンツファイルに関する属性情報と前記選択されたファイルエントリの下位階層に連結されているメタデータエントリに含まれる属性情報との比較により前記抽出されたコンテンツファイルとこれに対応するメタデータエントリおよびファイルエントリとの不整合を判定して、不整合でないと判定された場合に、前記選択されたファイルエントリの下位階層に連結されているメタデータエントリに含まれる顔メタデータに基づいて前記抽出されたコンテンツファイルに含まれる顔を含む顔画像を順次抽出し、前記抽出されたコンテンツファイルの再生開始位置を選択するための画像として当該抽出された顔画像を表示させる表示制御部と
を具備するコンテンツ再生システム。
コンテンツを入力する入力部と、
前記コンテンツに含まれる被写体の顔を検出する顔検出部と、
前記コンテンツに基づいて前記コンテンツを管理するための管理情報と前記コンテンツに関する属性情報とを作成し、前記検出された顔に基づいて当該顔が検出された際における前記コンテンツに関する属性情報を含むメタデータであって前記コンテンツに含まれる各顔を抽出するための顔メタデータを作成する作成部と、
階層構造により構成される階層エントリを記録するコンテンツ管理ファイルに、前記作成された管理情報および前記作成された属性情報を含む前記階層エントリであるファイルエントリと、当該ファイルエントリの下位階層に連結される前記階層エントリであって前記作成された顔メタデータを含むメタデータエントリとを記録し、前記コンテンツ管理ファイルに記録されているメタデータエントリに含まれる属性情報と当該メタデータエントリの上位階層に連結されているファイルエントリに対応するコンテンツに関する属性情報との比較により当該コンテンツとこれに対応するメタデータエントリおよびファイルエントリとの不整合を判定して、不整合であると判定されたコンテンツについては、当該不整合であると判定されたコンテンツに含まれる被写体の顔を前記顔検出部に検出させ、当該不整合であると判定されたコンテンツに関する前記管理情報と前記属性情報と前記顔メタデータとを前記作成部に作成させ、前記コンテンツ管理ファイルにおいて当該不整合であると判定されたコンテンツに対応するファイルエントリに当該コンテンツについて作成された前記管理情報および前記属性情報を記録し、当該ファイルエントリの下位階層に連結されているメタデータエントリに当該不整合であると判定されたコンテンツについて作成された前記顔メタデータを記録する記録制御部と
を具備するコンテンツ管理情報記録装置。
前記記録制御部は、前記階層エントリを識別するエントリ識別子を前記階層エントリのそれぞれに付与するとともに前記ファイルエントリの下位階層に連結されるメタデータエントリに当該ファイルエントリのエントリ識別子を記録して前記メタデータエントリの上位階層に連結されるファイルエントリに当該メタデータエントリのエントリ識別子を記録する請求項２記載のコンテンツ管理情報記録装置。
前記管理情報は、当該管理情報を含むファイルエントリに対応するコンテンツファイルのファイルシステム上の記録位置を含む請求項２記載のコンテンツ管理情報記録装置。
前記記録制御部は、前記コンテンツを分類して管理するための前記階層エントリであるフォルダエントリを前記コンテンツ管理ファイルに記録するとともに当該フォルダエントリの下位階層に前記作成されたファイルエントリを分類して記録する請求項２記載のコンテンツ管理情報記録装置。
前記記録制御部は、前記階層エントリを識別するエントリ識別子を前記階層エントリのそれぞれに付与するとともに前記フォルダエントリの下位階層に連結されるファイルエントリに当該フォルダエントリのエントリ識別子を記録して前記ファイルエントリの上位階層に連結されるフォルダエントリに当該ファイルエントリのエントリ識別子を記録する請求項５記載のコンテンツ管理情報記録装置。
前記階層エントリは、１または複数の物理的に固定長のデータ領域であるスロットで構成された階層エントリである請求項２記載のコンテンツ管理情報記録装置。
前記スロットは、前記コンテンツ管理ファイルに含まれるプロパティファイルに順番に記録され、
前記階層エントリのそれぞれに付与される前記階層エントリを識別するためのエントリ識別子は、前記プロパティファイルに記録された先頭のスロットからの前記階層エントリを構成するスロットの順番に応じて付与されるエントリ番号である請求項７記載のコンテンツ管理情報記録装置。
前記コンテンツ管理ファイルは、前記コンテンツに対応するコンテンツファイルとは異なるディレクトリ下に格納され、当該ディレクトリは不可視となるように設定される請求項２記載のコンテンツ管理情報記録装置。
前記コンテンツは、画像コンテンツであり、
前記顔メタデータは、少なくとも前記画像コンテンツに含まれる顔の位置および大きさを含む
請求項２記載のコンテンツ管理情報記録装置。
前記記録制御部は、前記コンテンツについて作成された前記顔メタデータを当該コンテンツに対応するコンテンツファイルに記録する請求項２記載のコンテンツ管理情報記録装置。
前記記録制御部は、前記コンテンツファイルがＤＣＦ規格により記録される静止画コンテンツファイルである場合には当該静止画コンテンツファイルに関する前記顔メタデータを当該静止画コンテンツファイルにおけるメーカーノートに記録する請求項１１記載のコンテンツ管理情報記録装置。
前記作成部は、前記コンテンツファイルが動画コンテンツファイルである場合には当該動画コンテンツファイルに関する前記顔メタデータを当該動画コンテンツファイルにおける所定の条件を満たす位置毎に作成し、
前記記録制御部は、前記動画コンテンツファイルに関して前記所定の条件を満たす位置毎に作成された前記顔メタデータを当該動画コンテンツファイルに記録する
請求項１１記載のコンテンツ管理情報記録装置。
前記作成部は、前記コンテンツファイルがＡＶＣコーデックされた動画コンテンツファイルである場合には当該動画コンテンツファイルに関する前記顔メタデータをＳＰＳが付加されたＡＵに含まれるＩＤＲピクチャまたはＩピクチャ毎に作成し、
前記記録制御部は、前記動画コンテンツファイルに関して前記ＩＤＲピクチャまたはＩピクチャ毎に作成された前記顔メタデータを当該ＩＤＲピクチャまたはＩピクチャを含むＡＵにおけるＳＥＩに記録する
請求項１３記載のコンテンツ管理情報記録装置。
前記記録制御部は、前記動画コンテンツファイルに関して所定間隔で作成された前記顔メタデータを当該動画コンテンツファイルに記録する場合には前記コンテンツ管理ファイルに前記顔メタデータを記録する場合における記録条件よりも緩和された記録条件を用いて前記顔メタデータを前記動画コンテンツファイルに記録する請求項１３記載のコンテンツ管理情報記録装置。
前記コンテンツから当該コンテンツの代表画像を抽出する代表画像抽出部をさらに具備し、
前記コンテンツ管理ファイルは、前記抽出された代表画像を記録する代表画像ファイルを含み、
前記作成部は、前記抽出された代表画像の前記代表画像ファイルにおける記録位置を当該代表画像が抽出されたコンテンツに関する前記属性情報に含めて当該属性情報を作成し、
前記記録制御部は、前記抽出された代表画像を前記コンテンツ管理ファイルに含まれる代表画像ファイルに記録する
請求項２記載のコンテンツ管理情報記録装置。
属性情報が含まれるコンテンツファイルを記憶するコンテンツ記憶部と、
階層構造により構成される階層エントリであって前記コンテンツファイルを管理するための管理情報と当該コンテンツファイルに関する属性情報とを含むファイルエントリと、当該ファイルエントリの下位階層に連結される前記階層エントリであって当該コンテンツファイルに含まれる顔が検出された際における当該コンテンツファイルに関する属性情報を含むメタデータであり当該顔に関する顔メタデータを含むメタデータエントリとが記録されているコンテンツ管理ファイルを記憶するコンテンツ管理ファイル記憶部と、
前記コンテンツ管理ファイルに記録されているメタデータエントリに含まれる顔メタデータに基づいて、当該メタデータエントリの上位階層に連結されているファイルエントリに対応するコンテンツファイルに含まれる顔を含む顔画像を順次抽出し、当該抽出された顔画像を表示させる表示制御部と、
前記コンテンツ管理ファイルに記録されているメタデータエントリに含まれる属性情報と、当該メタデータエントリの上位階層に連結されているファイルエントリに対応するコンテンツファイルに含まれる属性情報とを比較することにより、当該コンテンツファイルとこれに対応するメタデータエントリおよびファイルエントリとの不整合を判定する不整合判定部と、
前記不整合検出部により不整合であると判定されたコンテンツファイルに含まれる被写体の顔を検出する顔検出部と、
前記不整合であると判定されたコンテンツファイルに基づいて当該コンテンツファイルを管理するための前記管理情報と当該コンテンツファイルに関する前記属性情報とを作成し、前記検出された顔に基づいて前記コンテンツファイルに含まれる顔に関する前記顔メタデータを作成する作成部と、
前記コンテンツ管理ファイルにおいて前記不整合検出部により不整合であると判定されたファイルエントリに前記作成された管理情報および前記作成された属性情報を記録し、当該ファイルエントリの下位階層に連結されているメタデータエントリに前記作成された顔メタデータを記録する記録制御部と
を具備するコンテンツ再生装置。
属性情報が含まれるコンテンツファイルを記憶するコンテンツ記憶部と、
階層構造により構成される階層エントリであって前記コンテンツファイルを管理するための管理情報と当該コンテンツファイルに関する属性情報とを含むファイルエントリと、当該ファイルエントリの下位階層に連結される前記階層エントリであって当該コンテンツファイルに含まれる顔が検出された際における当該コンテンツファイルに関する属性情報を含むメタデータであり当該顔に関する顔メタデータを含むメタデータエントリとが記録されているコンテンツ管理ファイルを記憶するコンテンツ管理ファイル記憶部と、
前記コンテンツ管理ファイルに記録されているメタデータエントリに含まれる属性情報と、当該メタデータエントリの上位階層に連結されているファイルエントリに対応するコンテンツファイルに含まれる属性情報とを比較することにより、当該コンテンツファイルとこれに対応するメタデータエントリおよびファイルエントリとの不整合を判定する不整合判定部と、
前記不整合検出部により不整合でないと判定されたコンテンツファイルについて、前記コンテンツ管理ファイルに記録されているメタデータエントリに含まれる顔メタデータに基づいて、当該メタデータエントリの上位階層に連結されているファイルエントリに対応する当該コンテンツファイルに含まれる顔を含む顔画像を順次抽出し、当該抽出された顔画像を表示させる表示制御部と
を具備するコンテンツ再生装置。
操作入力を受け付ける操作受付部と、
前記受け付けられた操作入力に応じて前記コンテンツ管理ファイルに記録されているファイルエントリの中から所望のファイルエントリを選択する選択部とをさらに具備し、
前記表示制御部は、前記選択されたファイルエントリに含まれる管理情報に基づいて前記コンテンツ記憶部に記憶されているコンテンツファイルを抽出し、前記抽出されたコンテンツファイルが前記不整合検出部により不整合でないと判定された場合に、前記選択されたファイルエントリの下位階層に連結されているメタデータエントリに含まれる顔メタデータに基づいて前記抽出されたコンテンツファイルに含まれる顔を含む顔画像を順次抽出し、当該抽出された顔画像を表示させる
請求項１８記載のコンテンツ再生装置。
前記コンテンツ管理ファイルは、前記コンテンツファイルの代表画像を記録する代表画像ファイルを含み、
前記属性情報は、当該属性情報に係るコンテンツファイルの代表画像の前記代表画像ファイルにおける記録位置を含み、
前記表示制御部は、前記代表画像ファイルに記録されている代表画像を表示させ、
前記選択部は、前記代表画像ファイルに含まれる代表画像のうちから所望の代表画像を選択する操作入力が前記操作受付部により受け付けられた場合には、前記コンテンツ管理ファイルに記録されているファイルエントリの中から当該選択された代表画像に対応するファイルエントリを選択する
請求項１９記載のコンテンツ再生装置。
操作入力を受け付ける操作受付部と、
前記表示制御部は、前記表示されている顔画像のうちから所望の顔画像を選択する操作入力が前記操作受付部により受け付けられた場合には、前記コンテンツ管理ファイルに記録されているメタデータエントリに含まれる顔メタデータの中の前記選択された顔画像に対応する顔メタデータに基づいて、当該顔メタデータを含むメタデータエントリの上位階層に連結されているファイルエントリに対応するコンテンツファイルを再生させる
請求項１８記載のコンテンツ再生装置。
前記表示制御部は、前記選択された顔画像に対応する顔メタデータに基づいて、前記再生対象となるコンテンツファイルのうち、前記選択された顔画像の記録時間以降に記録されたコンテンツを再生させる請求項２１記載のコンテンツ再生装置。
前記コンテンツファイルは、画像コンテンツファイルまたは動画コンテンツファイルであり、
前記顔メタデータは、前記コンテンツファイルが前記画像コンテンツファイルである場合には少なくとも前記画像コンテンツファイルに含まれる顔の位置および大きさを含み、前記コンテンツファイルが前記動画コンテンツファイルである場合には少なくとも前記動画コンテンツファイルに含まれる顔の位置および大きさとその記録時間とを含む
請求項１８記載のコンテンツ再生装置。
被写体の画像を撮像する撮像部と、
前記撮像された画像に含まれる被写体の顔を検出する顔検出部と、
前記撮像された画像に基づいて前記撮像された画像を管理するための管理情報と前記撮像された画像に関する属性情報とを作成し、前記検出された顔に基づいて当該顔が検出された際における前記撮像された画像に関する属性情報を含むメタデータであって前記撮像された画像に含まれる各顔を抽出するための顔メタデータを作成する作成部と、
階層構造により構成される階層エントリを記録するコンテンツ管理ファイルに、前記作成された管理情報および前記作成された属性情報を含む前記階層エントリであるファイルエントリと、当該ファイルエントリの下位階層に連結される前記階層エントリであって前記作成された顔メタデータを含むメタデータエントリとを記録し、前記コンテンツ管理ファイルに記録されているメタデータエントリに含まれる属性情報と当該メタデータエントリの上位階層に連結されているファイルエントリに対応する画像に関する属性情報との比較により当該画像とこれに対応するメタデータエントリおよびファイルエントリとの不整合を判定して、不整合であると判定された画像については、当該不整合であると判定された画像に含まれる被写体の顔を前記顔検出部に検出させ、当該不整合であると判定された画像に関する前記管理情報と前記属性情報と前記顔メタデータとを前記作成部に作成させ、前記コンテンツ管理ファイルにおいて当該不整合であると判定された画像に対応するファイルエントリに当該画像について作成された前記管理情報および前記属性情報を記録し、当該ファイルエントリの下位階層に連結されているメタデータエントリに当該不整合であると判定された画像について作成された前記顔メタデータを記録する記録制御部と
を具備する撮像装置。
顔検出部が、入力されたコンテンツに含まれる被写体の顔を検出する顔検出手順と、
作成部が、前記コンテンツに基づいて前記コンテンツを管理するための管理情報と前記コンテンツに関する属性情報とを作成し、前記検出された顔に基づいて当該顔が検出された際における前記コンテンツに関する属性情報を含むメタデータであって前記コンテンツに含まれる各顔を抽出するための顔メタデータを作成する作成手順と、
記録制御部が、階層構造により構成される階層エントリを記録するコンテンツ管理ファイルに、前記作成された管理情報および前記作成された属性情報を含む前記階層エントリであるファイルエントリと、当該ファイルエントリの下位階層に連結される前記階層エントリであって前記作成された顔メタデータを含むメタデータエントリとを記録し、前記コンテンツ管理ファイルに記録されているメタデータエントリに含まれる属性情報と当該メタデータエントリの上位階層に連結されているファイルエントリに対応するコンテンツに関する属性情報との比較により当該コンテンツとこれに対応するメタデータエントリおよびファイルエントリとの不整合を判定して、不整合であると判定されたコンテンツについては、当該不整合であると判定されたコンテンツに含まれる被写体の顔を前記顔検出部に検出させ、当該不整合であると判定されたコンテンツに関する前記管理情報と前記属性情報と前記顔メタデータとを前記作成部に作成させ、前記コンテンツ管理ファイルにおいて当該不整合であると判定されたコンテンツに対応するファイルエントリに当該コンテンツについて作成された前記管理情報および前記属性情報を記録し、当該ファイルエントリの下位階層に連結されているメタデータエントリに当該不整合であると判定されたコンテンツについて作成された前記顔メタデータを記録する記録制御手順と
を具備するコンテンツ管理情報記録方法。
入力されたコンテンツに含まれる被写体の顔を検出する顔検出手順と、
前記コンテンツに基づいて前記コンテンツを管理するための管理情報と前記コンテンツに関する属性情報とを作成し、前記検出された顔に基づいて当該顔が検出された際における前記コンテンツに関する属性情報を含むメタデータであって前記コンテンツに含まれる各顔を抽出するための顔メタデータを作成する作成手順と、
階層構造により構成される階層エントリを記録するコンテンツ管理ファイルに、前記作成された管理情報および前記作成された属性情報を含む前記階層エントリであるファイルエントリと、当該ファイルエントリの下位階層に連結される前記階層エントリであって前記作成された顔メタデータを含むメタデータエントリとを記録し、前記コンテンツ管理ファイルに記録されているメタデータエントリに含まれる属性情報と当該メタデータエントリの上位階層に連結されているファイルエントリに対応するコンテンツに関する属性情報との比較により当該コンテンツとこれに対応するメタデータエントリおよびファイルエントリとの不整合を判定して、不整合であると判定されたコンテンツについては、当該不整合であると判定されたコンテンツに含まれる被写体の顔を顔検出部に検出させ、当該不整合であると判定されたコンテンツに関する前記管理情報と前記属性情報と前記顔メタデータとを作成部に作成させ、前記コンテンツ管理ファイルにおいて当該不整合であると判定されたコンテンツに対応するファイルエントリに当該コンテンツについて作成された前記管理情報および前記属性情報を記録し、当該ファイルエントリの下位階層に連結されているメタデータエントリに当該不整合であると判定されたコンテンツについて作成された前記顔メタデータを記録する記録制御手順と
をコンピュータに実行させるプログラム。