JP2010039724A

JP2010039724A - 画像処理装置、撮像装置、画像処理方法およびプログラム

Info

Publication number: JP2010039724A
Application number: JP2008201295A
Authority: JP
Inventors: Toshiya Ishizaka; 敏弥石坂
Original assignee: Sony Corp
Current assignee: Sony Corp
Priority date: 2008-08-04
Filing date: 2008-08-04
Publication date: 2010-02-18
Anticipated expiration: 2028-08-04
Also published as: US8269857B2; CN101645089B; CN101645089A; US20100026842A1; JP4636135B2

Abstract

【課題】特定顔を含むコンテンツを迅速に利用する。
【解決手段】コンテンツ管理ファイル記憶部２５０は、特定顔を管理する登録顔エントリと、これに連結して特定顔の特徴量を含むメタデータエントリと、コンテンツを管理するファイルエントリとを格納するプロパティファイルを記憶する。顔検出部２１２は、撮像部２１１からの撮像画像に含まれる顔を検出する。特徴量抽出部２２１は、検出された顔に関する特徴量を抽出する。顔識別部２２２は、プロパティファイルのメタデータエントリに含まれる特徴量と、特徴量抽出部２２１により抽出された特徴量とを比較して、検出された顔が特定顔であるか否かを識別する。記録制御部２２３は、検出された顔が特定顔である場合には、その特定顔を管理する登録顔エントリに、検出された顔が含まれるコンテンツを管理するファイルエントリのエントリ番号を記録する。
【選択図】図２３

Description

本発明は、画像処理装置に関し、特に、コンテンツに含まれる顔を検出することが可能な画像処理装置、撮像装置、および、これらにおける処理方法ならびに当該方法をコンピュータに実行させるプログラムに関する。

従来、静止画や動画等のコンテンツと、このコンテンツに付随するデータであるメタデータとを関連付けて記録しておき、このメタデータを用いて各種操作を容易にするための技術が提案されている。また、近年では、静止画や動画等のコンテンツに含まれる人物の顔を検出する技術が存在し、検出された顔に関する情報をメタデータとして登録する技術が提案されている。

例えば、撮像画像から顔を検出し、検出された顔を含む矩形領域と氏名等の個人情報とをＸＭＬ形式でメタデータとして保存し、このメタデータを画像ファイルの一部に書き込んで登録するメタデータ登録方法が提案されている（例えば、特許文献１参照。）。
特開２００４−３３６４６６号公報（図２）

上述の従来技術によれば、メタデータが書き込まれている画像ファイルを閲覧している場合に、例えば、所望の顔をクリックすることにより、その顔に対応して登録されているメタデータを参照して操作を行うことができる。

ここで、上述の従来技術により登録されたメタデータを用いて、複数のコンテンツの中から特定顔を含むコンテンツを検索する場合を考える。この検索を行う場合には、メタデータがコンテンツに書き込まれているため、コンテンツのオープンおよびクローズを繰り返し、検索に用いるメタデータを読み出す必要がある。このため、特定顔を含むコンテンツの検索時間が増大する。

また、近年では、画像に含まれる人物の顔が特定人物の顔（特定顔）であるか否かを識別する顔識別技術が提案されている。また、最近では、ユーザに待ち時間を意識させない程度に顔識別処理を高速で行うことが可能な顔識別技術も提案されている。そこで、顔識別処理を高速で行うことが可能な画像処理装置を用いて、複数のコンテンツの中から特定顔を含むコンテンツを検索する場合を考える。この検索を行う場合には、顔識別処理のため、各コンテンツのオープンおよびクローズを繰り返し、各コンテンツを読み出す必要がある。このため、各コンテンツを読み出す時間および顔識別処理に要する時間が必要であり、特定顔を含むコンテンツの検索時間が増大する。このため、特定顔を含むコンテンツを迅速に利用することができない。

そこで、本発明は、特定顔を含むコンテンツを迅速に利用することを目的とする。

本発明は、上記課題を解決するためになされたものであり、その第１の側面は、階層構造により構成される階層エントリであってコンテンツを管理するためのファイルエントリと、特定人物の顔である特定顔を管理するための前記階層エントリである特定顔エントリとを記録するコンテンツ管理ファイルを記憶する記憶部と、前記コンテンツに含まれる顔を検出する顔検出部と、前記特定顔および前記検出された顔を比較することにより前記検出された顔が前記特定顔であるか否かを識別する顔識別部と、前記検出された顔が前記特定顔であると識別された場合には前記特定顔エントリに前記ファイルエントリを関連付ける制御を行う制御部とを具備する画像処理装置およびこれにおける処理方法ならびに当該方法をコンピュータに実行させるプログラムである。これにより、特定顔および検出された顔を比較して、検出された顔が特定顔であるか否かを識別し、検出された顔が特定顔であると識別された場合には、特定顔エントリにファイルエントリを関連付ける制御を行うという作用をもたらす。

また、この第１の側面において、前記コンテンツ管理ファイルには、前記特定顔に関する特徴量を含む前記階層エントリである特徴量エントリが前記特定顔エントリの下位階層に連結して記録され、前記検出された顔に関する特徴量を抽出する特徴量抽出部をさらに具備し、前記顔識別部は、前記特徴量エントリに含まれる特徴量および前記抽出された特徴量を比較することにより前記検出された顔が前記特定顔であるか否かを識別するようにしてもよい。これにより、検出された顔に関する特徴量を抽出し、特徴量エントリに含まれる特徴量と、抽出された特徴量とを比較して、検出された顔が特定顔であるか否かを識別するという作用をもたらす。

また、この第１の側面において、前記コンテンツ管理ファイルには、前記検出された顔に関する顔データを含む前記階層エントリであるメタデータエントリが前記ファイルエントリの下位階層に連結して記録され、前記制御部は、前記検出された顔が前記特定顔であると識別された場合には前記抽出された特徴量を前記メタデータエントリに含まれる前記顔データに記録するようにしてもよい。これにより、検出された顔が特定顔であると識別された場合には、抽出された特徴量をメタデータエントリに含まれる顔データに記録するという作用をもたらす。

また、この第１の側面において、前記特定顔エントリには、前記特定人物を識別する特定人物識別子が記録され、前記コンテンツ管理ファイルには、前記検出された顔に関する顔データを含む前記階層エントリであるメタデータエントリが前記ファイルエントリの下位階層に連結して記録され、前記制御部は、前記検出された顔が前記特定顔であると識別された場合には前記特定人物識別子を前記メタデータエントリに含まれる前記顔データに記録するようにしてもよい。これにより、検出された顔が特定顔であると識別された場合には、特定人物識別子をメタデータエントリに含まれる顔データに記録するという作用をもたらす。

また、この第１の側面において、前記階層エントリのそれぞれには、前記階層エントリを識別するエントリ識別子が付与され、前記制御部は、前記検出された顔が前記特定顔であると識別された場合には前記ファイルエントリのエントリ識別子を前記特定顔エントリに記録することにより前記特定顔エントリに前記ファイルエントリを関連付けるようにしてもよい。これにより、検出された顔が特定顔であると識別された場合には、ファイルエントリのエントリ識別子を特定顔エントリに記録するという作用をもたらす。

また、この第１の側面において、前記コンテンツ管理ファイルには、前記特定顔の少なくとも一部を含む特定顔画像が記録され、前記特定顔エントリには、前記特定顔画像の前記コンテンツ管理ファイル上の記録位置が記録されるようにしてもよい。これにより、検出された顔が特定顔であると識別された場合には、ファイルエントリを特定顔画像に間接的に関連付ける制御を行うという作用をもたらす。

また、本発明の第２の側面は、コンテンツを記憶するコンテンツ記憶部と、階層構造により構成される各階層エントリを識別するエントリ識別子がそれぞれに付与されている前記階層エントリが記録されているコンテンツ管理ファイルであって、前記コンテンツを管理するための前記階層エントリであるファイルエントリと、特定人物の顔である特定顔を管理するための前記階層エントリであり前記コンテンツ記憶部に記憶されているコンテンツの中で前記特定顔が含まれるコンテンツに対応するファイルエントリのエントリ識別子を記録する特定顔エントリと、前記特定顔の少なくとも一部を含み前記特定顔エントリに関連付けられている画像である特定顔画像とが記録されているコンテンツ管理ファイルを記憶するコンテンツ管理ファイル記憶部と、前記コンテンツ管理ファイルに記録されている特定顔画像の中から所望の特定顔画像を選択する選択操作を受け付ける操作受付部と、前記コンテンツ管理ファイルに記録されている特定顔エントリの中から前記選択された特定顔画像に対応する特定顔エントリを選択する選択部と、前記コンテンツ記憶部に記憶されているコンテンツの中から前記選択された特定顔エントリに記録されているエントリ識別子に対応するコンテンツを抽出する抽出部と、前記抽出されたコンテンツを表示する表示部とを具備する画像処理装置およびこれにおける処理方法ならびに当該方法をコンピュータに実行させるプログラムである。これにより、特定顔画像の中から所望の特定顔画像を選択し、特定顔エントリの中から、その選択された特定顔画像に対応する特定顔エントリを選択し、コンテンツの中から、その選択された特定顔エントリに記録されているエントリ識別子に対応するコンテンツを抽出し、この抽出されたコンテンツを表示するという作用をもたらす。

また、本発明の第３の側面は、階層構造により構成される階層エントリであって撮像動画を管理するためのファイルエントリと、特定人物の顔である特定顔を管理するための前記階層エントリである特定顔エントリとを記録するコンテンツ管理ファイルを記憶する記憶部と、被写体を撮像して前記撮像動画を生成する撮像部と、前記撮像動画に含まれる顔を検出する顔検出部と、前記特定顔および前記検出された顔を比較することにより前記検出された顔が前記特定顔であるか否かを識別する顔識別部と、前記検出された顔が前記特定顔であると識別された場合には前記特定顔エントリに前記ファイルエントリを関連付ける制御を行う制御部とを具備する撮像装置およびこれにおける処理方法ならびに当該方法をコンピュータに実行させるプログラムである。これにより、特定顔および検出された顔を比較して、検出された顔が特定顔であるか否かを識別し、検出された顔が特定顔であると識別された場合には、特定顔エントリにファイルエントリを関連付ける制御を行うという作用をもたらす。

本発明によれば、特定顔を含むコンテンツを迅速に利用することができるという優れた効果を奏し得る。

次に本発明の実施の形態について図面を参照して詳細に説明する。

図１は、本発明の実施の形態における撮像装置１００の内部構成例を示すブロック図である。撮像装置１００は、カメラ部１１０と、カメラＤＳＰ（Digital Signal Processor）１２０と、ＳＤＲＡＭ（Synchronous Dynamic Random Access Memory）１２１とを備える。また、撮像装置１００は、制御部１３０と、操作受付部１４０と、媒体Ｉ／Ｆ（インターフェース）１５０とを備える。また、撮像装置１００は、ＬＣＤ（Liquid Crystal Display）コントローラ１７１と、外部Ｉ／Ｆ（インターフェース）１７２と、通信Ｉ／Ｆ（インターフェース）１７３と、ＬＣＤ１８０とを備える。撮像装置１００は、例えば、被写体が撮像された撮像画像について、画像解析により特徴量を抽出し、この特徴量を用いて各種画像処理を施すことが可能なカムコーダ（camcorder：camera and recorder）により実現することができる。

カメラ部１１０は、光学ブロック１１１と、ＣＣＤ（Charge Coupled Device）１１２と、前処理回路１１３と、光学ブロックドライバ１１４と、ＣＣＤドライバ１１５と、タイミング生成回路１１６とを備える。

光学ブロック１１１は、被写体からの光を集光する複数のレンズ、フォーカス機構、シャッター機構、絞り（アイリス）機構等を備える。また、光学ブロック１１１は、入射された被写体からの光を、これらのレンズおよび絞り機構を介してＣＣＤ１１２に出力する。

ＣＣＤ１１２は、ＣＣＤドライバ１１５からの駆動信号に応じて動作し、光学ブロック１１１から出力された被写体からの入射光を取り込み、タイミング生成回路１１６からのタイミング信号に基づいてその入射光を光電変換して電気信号を生成するものである。そして、生成された電気信号（画像情報）を前処理回路１１３に出力する。なお、ＣＣＤ１１２の代わりに、ＣＭＯＳ（Complementary Metal-Oxide Semiconductor）センサ等の光電変換デバイス（撮像素子）を用いるようにしてもよい。

前処理回路１１３は、ＣＣＤ１１２から出力された電気信号に対して、各種信号処理を施してデジタル画像データを生成するものであり、生成されたデジタル画像データをカメラＤＳＰ１２０に出力する。すなわち、前処理回路１１３は、ＣＣＤ１１２から出力された電気信号に対して、ＣＤＳ（Correlated Double Sampling）処理を行うことによりＳ／Ｎ比を良好に保つようにする。そして、ＡＧＣ（Automatic Gain Control）処理を行うことにより利得を制御する。さらに、Ａ／Ｄ（Analog/Digital）変換処理を行うことによりデジタル信号（デジタル画像データ）を生成する。

光学ブロックドライバ１１４は、制御部１３０からの制御に基づいて、光学ブロック１１１を動作させるための駆動信号を生成するものであり、生成された駆動信号を光学ブロック１１１に供給する。この光学ブロックドライバ１１４からの駆動信号に応じて、光学ブロック１１１のフォーカス機構、シャッター機構および絞り機構が制御される。

ＣＣＤドライバ１１５は、タイミング生成回路１１６からのタイミング信号に基づいて、ＣＣＤ１１２を動作させるための駆動信号を生成するものであり、生成された駆動信号をＣＣＤ１１２に供給する。

タイミング生成回路１１６は、制御部１３０からの制御に基づいて、所定のタイミングを提供するタイミング信号を生成するものであり、生成されたタイミング信号をＣＣＤ１１２およびＣＣＤドライバ１１５に出力する。

カメラＤＳＰ１２０は、ＳＤＲＡＭ１２１と接続され、前処理回路１１３から出力されたデジタル画像データに対して、各種カメラ信号処理を施すものである。このカメラ信号処理として、例えば、ＡＦ（Auto Focus）、ＡＥ（Auto Exposure）、ＡＷＢ（Auto White Balance）等が施される。このようにカメラ信号処理が施された画像データは、例えば、ＪＰＥＧ（Joint Photographic Experts Group）またはＪＰＥＧ２０００等の所定の符号化方式で符号化される。そして、システムバス１３５および媒体Ｉ／Ｆ１５０を介して記録媒体１６０に供給され、画像ファイルとして記録媒体１６０に記録される。また、カメラＤＳＰ１２０は、媒体Ｉ／Ｆ１５０を介して記録媒体１６０から読み出された符号化された画像データを復号し、この復号された画像データをシステムバス１３５を介してＬＣＤコントローラ１７１に供給する。なお、カメラＤＳＰ１２０は、前処理回路１１３または記録媒体１６０から出力された画像データに含まれる顔を検出し、この検出された顔を含む顔画像を正規化して正規化顔画像を生成する。そして、検出された顔に関する顔検出情報および正規化顔画像を制御部１３０に出力する。

制御部１３０は、ＣＰＵ（Central Processing Unit）１３１と、ＲＡＭ（Random Access Memory）１３２と、フラッシュＲＯＭ（Read Only Memory）１３３と、時計回路１３４とを備える。また、ＣＰＵ１３１と、ＲＡＭ１３２と、フラッシュＲＯＭ１３３と、時計回路１３４とがシステムバス１３５を介して接続されている。制御部１３０は、例えば、汎用の組み込み型のマイクロコンピュータまたは専用のシステムＬＳＩ（Large Scale Integrated circuit）等により実現される。

ＣＰＵ１３１は、フラッシュＲＯＭ１３３等に記憶されている種々のプログラムに基づいて各処理を実行するものである。

ＲＡＭ１３２は、ＣＰＵ１３１による各処理の途中結果を一時的に記憶する等のように、主に作業領域として用いられるメモリである。

フラッシュＲＯＭ１３３は、ＣＰＵ１３１により実行される種々のプログラムや、ＣＰＵ１３１による処理に必要となるデータ等を記憶するメモリである。

時計回路１３４は、現在年月日、現在曜日、現在時刻をＣＰＵ１３１に供給するとともに、撮影日時等をＣＰＵ１３１に供給するものである。

操作受付部１４０は、ユーザによって入力された操作内容を受け付ける操作受付部であり、受け付けられた操作内容に応じた制御信号をＣＰＵ１３１に出力する。操作受付部１４０として、例えば、登録顔記録モード設定／解除ボタン、登録ボタン、動画記録モード設定／解除ボタン、録画ボタン等の操作部材が撮像装置１００に備えられている。また、静止画記録モード設定／解除ボタン、シャッターボタン、再生モード設定／解除ボタン、再生ボタン等の操作部材が撮像装置１００に備えられている。また、操作受付部１４０は、例えば、図２８乃至図３１に示すように、タッチパネルとして構成される。登録顔記録モード設定／解除ボタンは、前処理回路１１３または記録媒体１６０から出力された画像データに含まれる顔の顔識別処理に用いられる特定人物の顔（特定顔）の登録を可能な状態にする登録顔記録モードの設定または解除を行うためのボタンである。登録ボタンは、登録顔記録モードが設定されている場合に、現在撮像中の顔（顔画像）を登録する際に押下されるボタンである。動画記録モード設定／解除ボタンは、動画の記録を可能な状態にする動画記録モードの設定または解除を行うためのボタンである。録画ボタンは、動画記録モードに設定されている場合に、動画の記録を開始または終了する際に押下されるボタンである。静止画記録モード設定／解除ボタンは、静止画の記録を可能な状態にする静止画記録モードの設定または解除を行うためのボタンである。シャッターボタンは、静止画記録モードが設定されている場合に、現在撮像中の画像（静止画）を記録する際に押下されるボタンである。再生モード設定／解除ボタンは、記録媒体１６０に記録されているコンテンツファイルまたは外部装置から取得されたコンテンツファイルの再生を可能な状態にする再生モードの設定または解除を行うためのボタンである。再生ボタンは、再生モードに設定されている場合に、コンテンツの再生を開始または終了する際に押下されるボタンである。

媒体Ｉ／Ｆ１５０は、記録媒体１６０と接続し、記録媒体１６０との間で種々の画像データやその他の情報を送受信するためのインターフェースである。

記録媒体１６０は、カメラＤＳＰ１２０により生成された画像データに対応するコンテンツファイルを記憶する記録媒体である。また、記録媒体１６０は、外部のＰＣ（Personal Computer：パーソナルコンピュータ）から撮像装置１００に出力された画像データやネットワークを介して撮像装置１００により取得された画像データ等に対応する各種情報を記録する。なお、記録媒体１６０は、撮像装置１００に内蔵するようにしてもよく、撮像装置１００から着脱可能とするようにしてもよい。また、記録媒体１６０として、メモリカード、光記録媒体、磁気ディスク、ＨＤＤ（Hard Disk Drive）等の種々のものを用いることができる。なお、光記録媒体は、例えば、記録可能なＤＶＤ（Digital Versatile Disc）、記録可能なＣＤ（Compact Disc）、ブルーレイディスク（Blu-ray Disc（登録商標））等を用いることができる。

ＬＣＤコントローラ１７１は、カメラＤＳＰ１２０から出力された画像データに対応する画像をＬＣＤ１８０に表示させるための画像信号を生成するものであり、生成された画像信号をＬＣＤ１８０に供給する。

外部Ｉ／Ｆ１７２は、ＰＣ等の外部装置と撮像装置１００との間で各種データの送受信を行う際に用いられるインターフェースである。例えば、外部Ｉ／Ｆ１７２を介して撮像装置１００およびＰＣを接続し、このＰＣから出力された画像データを撮像装置１００が入力し、この入力された画像データを記録媒体１６０に記録することができる。また、記録媒体１６０に記録されている画像データをＰＣに供給することができる。

通信Ｉ／Ｆ１７３は、ネットワークインターフェースカード（ＮＩＣ）等からなり、インターネット等のネットワークと接続して種々の画像データやその他の情報を送受信するためのインターフェースである。なお、通信Ｉ／Ｆ１７３は、所定の規格に準拠した有線用インターフェースとして設けることも可能である。この規格として、例えば、ＩＥＥＥ（Institute of Electrical and Electronic Engineers）１３９４、ＵＳＢ（Universal Serial Bus）等の規格を用いることができる。また、ＩＥＥＥ８０２．１１ａ、ＩＥＥＥ８０２．１１ｂ、ＩＥＥＥ８０２．１１ｇ、または、ブルートゥースの規格に準拠した光や電波による無線インターフェースとして設けることも可能である。すなわち、通信Ｉ／Ｆ１７３は、有線または無線の何れのインターフェースであってもよい。

ＬＣＤ１８０は、ＬＣＤコントローラ１７１により生成された画像信号に対応する画像を表示するものである。例えば、記録媒体１６０に記録されている動画コンテンツファイルに対応する動画が、ＬＣＤ１８０に表示される。なお、これらの表示例については、図２８乃至図３１を参照して詳細に説明する。

このように、撮像装置１００は、被写体を撮像して生成された撮像画像または撮像動画を記録媒体１６０に記録するとともに、記録媒体１６０に記録されている撮像画像または撮像動画を読み出してＬＣＤ１８０に表示する。また、撮像装置１００は、外部のＰＣから出力された画像データやネットワークを介して取得された画像データ等を記録媒体１６０に記憶することが可能である。また、外部のＰＣ等から取得して記録媒体１６０に記録されている画像データ等を読み出してＬＣＤ１８０に表示することが可能である。

次に、記録媒体１６０に記録されている実ファイルについて図面を参照して詳細に説明する。

図２は、本発明の実施の形態におけるファイルシステム（File System）上に登録されている実ファイルのファイル構造を概略的に示す図である。本発明の実施の形態では、動画または静止画コンテンツファイルと、これらのコンテンツファイルに関する顔メタデータと、登録顔情報とについて、実ディレクトリとは異なる階層構造の階層エントリで管理する。具体的には、動画または静止画コンテンツファイル以外に、これらのファイルと顔メタデータと登録顔情報とを管理するコンテンツ管理ファイル３４０が記録媒体１６０に記録される。ここで、登録顔情報は、撮像装置１００に登録されている特定人物の顔（特定顔）に関する情報（図９に示す登録顔管理情報や登録顔属性情報等）であり、コンテンツ管理ファイル３４０に記録される。また、本発明の実施の形態では、コンテンツ管理ファイル３４０に登録顔情報が記録されている特定顔を登録顔と称して説明する。

ルートディレクトリ３００には、動画コンテンツフォルダ３１０と、静止画コンテンツフォルダ３２０と、コンテンツ管理フォルダ３３０とが属する。

動画コンテンツフォルダ３１０は、撮像装置１００により生成された動画データである動画コンテンツファイル３１１および３１２が属する動画コンテンツフォルダである。なお、この例では、動画コンテンツファイル３１１および３１２が動画コンテンツフォルダ３１０に属するものと想定している。

静止画コンテンツフォルダ３２０は、撮像装置１００により生成された静止画データである静止画コンテンツファイル３２１および３２２が属する静止画コンテンツフォルダである。なお、この例では、静止画コンテンツファイル３２１および３２２が静止画コンテンツフォルダ３２０に属するものと想定している。

コンテンツ管理フォルダ３３０は、コンテンツ管理ファイル３４０が属するコンテンツ管理フォルダである。コンテンツ管理ファイル３４０は、動画コンテンツフォルダ３１０および静止画コンテンツフォルダ３２０に属する各コンテンツファイルを階層エントリで管理するものであり、プロパティファイル４００とサムネイルファイル５００とで構成されている。プロパティファイル４００は、各コンテンツファイルを管理するためのファイルエントリおよびメタデータエントリや、登録顔情報を管理するための登録顔エントリおよびメタデータエントリ等が記録されているファイルである。また、サムネイルファイル５００は、各コンテンツファイルの代表サムネイル画像と、登録顔を含む登録顔画像とが格納されているファイルである。なお、プロパティファイル４００およびサムネイルファイル５００の詳細については、図３乃至図１１等を参照して詳細に説明する。

ここで、動画コンテンツフォルダ３１０に属する各動画コンテンツファイル、および、静止画コンテンツフォルダ３２０に属する各静止画コンテンツファイルは、ユーザに可視である。すなわち、ユーザからの操作入力によって、これらのコンテンツファイルに対応する画像（例えば、コンテンツファイルを表すアイコン）をＬＣＤ１８０に表示させることが可能である。一方、コンテンツ管理ファイル３４０については、コンテンツ管理ファイル３４０の内容がユーザに改変されることを避けるため、ユーザに不可視とする。コンテンツ管理ファイル３４０の内容を不可視とする設定方法として、例えば、ファイルシステムの対象となるコンテンツ管理フォルダ３３０を不可視にするフラグをオンにすることによってコンテンツ管理ファイル３４０の内容を不可視とすることができる。さらに、不可視にするタイミングとして、例えば、撮像装置１００がＵＳＢ（Universal Serial Bus）経由でＰＣ（ホスト）と接続された場合（マスストレージ接続）を想定する。この場合には、例えば、撮像装置１００が接続を感知したとき（接続が正しく行えたという信号をＰＣから受信したとき）に上記フラグをオンにする。

次に、プロパティファイル４００のエントリ構造について図面を参照して詳細に説明する。

図３は、本発明の実施の形態におけるプロパティファイル４００が管理するフォルダおよびファイルの構成例を示す図である。

プロパティファイル４００は、上述したように、記録媒体１６０に記録されている動画または静止画コンテンツファイルを管理するものであり、アプリケーションに応じた柔軟性のある管理方法が可能である。例えば、動画または静止画コンテンツファイルが撮像装置１００に記録された日時に応じて管理することができる。また、動画または静止画の種別に応じて管理することができる。本発明の実施の形態では、記録された日時に応じて動画コンテンツファイルを分類して管理するとともに、登録顔を含む動画コンテンツファイルをその登録顔に関連付けて管理する管理方法を例にして説明する。ここで、図３に示す各エントリ内に示す数字は、各エントリを識別するためのエントリ番号を示す数字であり、以下では、エントリ番号の前に「＃」を付して説明する。このエントリ番号については、図１２および図１３を参照して詳細に説明する。

ルートエントリ４０５は、階層型エントリ構造における最上階層のエントリである。この例では、ルートエントリ４０５には、動画フォルダエントリ（＃１）４１０と、静止画フォルダエントリ（＃３）４５０と、登録顔フォルダエントリ（＃５）４６０とが属する。また、プロファイルエントリ（＃１５０）４０６は、各ファイルエントリのコーデック情報（符号化フォーマット、画サイズ、ビットレート等）を一括して保存するエントリである。なお、プロファイルエントリ（＃１５０）４０６については、図１２（ｃ）を参照して詳細に説明する。

動画フォルダエントリ（＃１）４１０は、動画に関する日付フォルダエントリを下位の階層で管理するエントリである。この例では、動画フォルダエントリ４１０（＃１）には、日付フォルダエントリ（＃３５）４２０、（＃５１）４３０および（＃６７）４４０が属する。

静止画フォルダエントリ（＃３）４５０は、静止画に関する日付フォルダエントリを下位の階層で管理するエントリである。なお、本発明の実施の形態では、動画に関する各エントリを中心に説明し、静止画に関する各エントリの説明の一部を省略する。

日付フォルダエントリ（＃３５）４２０、（＃５１）４３０および（＃６７）４４０は、記録媒体１６０に記録されている動画コンテンツファイルを日付毎に分類して管理するエントリであり、分類された動画コンテンツファイルを下位の階層で管理する。この例では、日付フォルダエントリ（＃３５）４２０は、「２００８／５／５」に記録された動画コンテンツファイルを管理するエントリであるものとし、動画ファイルエントリ（＃３７）４２１および（＃４４）４２３が属するものとする。また、日付フォルダエントリ（＃５１）４３０は、「２００８／６／１４」に記録された動画コンテンツファイルを管理するエントリであるものとし、動画ファイルエントリ（＃５３）４３１および（＃６０）４３３が属するものとする。さらに、日付フォルダエントリ（＃６７）４４０は、「２００８／７／１９」に記録された動画コンテンツファイルを管理するエントリであるものとし、動画ファイルエントリ（＃６９）４４１が属するものとする。なお、フォルダエントリの詳細については、図８等を参照して詳細に説明する。

動画ファイルエントリ（＃３７）４２１、（＃４４）４２３、（＃５３）４３１、（＃６０）４３３および（＃６９）４４１には、各動画コンテンツファイルを管理するためのコンテンツ管理情報およびコンテンツ属性情報が格納されている。また、各動画ファイルエントリには、対応する動画コンテンツファイルに付随するメタデータを格納するメタデータエントリが連結されている。なお、動画ファイルエントリおよび動画コンテンツファイルの関係については、図４等を参照して詳細に説明する。また、コンテンツ管理情報およびコンテンツ属性情報等のファイルエントリの詳細については、図８等を参照して詳細に説明する。

メタデータエントリ（＃４０）４２２、（＃４７）４２４、（＃５６）４３２、（＃６３）４３４および（＃７２）４４２は、それぞれ連結されている動画ファイルエントリが管理する動画コンテンツファイルに付随するメタデータを格納するエントリである。メタデータとして、この例では、動画ファイルエントリに属する各メタデータエントリには、動画コンテンツファイルから抽出された顔データが格納される。この顔データは、動画コンテンツファイルから検出された顔に関する各種データであり、例えば、図１６に示すように、顔検出時刻情報、顔基本情報、顔スコア、笑顔スコア等のデータである。なお、メタデータエントリの詳細については、図８および図１４等を参照して詳細に説明する。

登録顔フォルダエントリ（＃５）４６０は、登録顔を管理するための登録顔エントリを下位の階層で管理するエントリである。この例では、登録顔フォルダエントリ（＃５）４６０には、登録顔エントリ（＃７）４６１、（＃１４）４６３、（＃２１）４６５および（＃２８）４６７が属する。

登録顔エントリ（＃７）４６１、（＃１４）４６３、（＃２１）４６５および（＃２８）４６７は、登録顔を管理するエントリである。この登録顔エントリは、その登録顔が登場するコンテンツを示すリストや、その登録顔の属性情報を含むエントリである。なお、登録顔エントリおよび特定人物の関係については、図４等を参照して詳細に説明する。また、登録顔エントリの詳細については、図９を参照して詳細に説明する。なお、登録顔エントリは、特許請求の範囲に記載の特定顔エントリの一例である。

メタデータエントリ（＃１０）４６２、（＃１７）４６４、（＃２４）４６６および（＃３１）４６８は、それぞれ連結されている登録顔エントリが管理する登録顔に関するメタデータを格納するエントリである。メタデータとして、この例では、登録顔を含む登録顔画像から抽出された特徴量が格納される。ここで、特徴量は、コンテンツから検出された顔が登録顔に該当するか否かを識別するために用いられる識別情報であり、例えば、顔を構成する目や鼻、口、眉等の各部の位置関係や形状を認識するための顔画像の特徴や特性を示すデータである。この特徴量は、例えば、色や輝度等の値に基づいて抽出される。なお、メタデータエントリの詳細については、図９および図１４等を参照して詳細に説明する。なお、登録顔フォルダエントリに属するメタデータエントリは、特許請求の範囲に記載の特徴量エントリの一例である。

図４は、本発明の実施の形態におけるプロパティファイル４００と、動画コンテンツファイルと、特定人物との対応関係を概略的に示す図である。なお、動画ファイルエントリ（＃３７）４２１、（＃４４）４２３、（＃５３）４３１、（＃６０）４３３、（＃６９）４４１、登録顔エントリ（＃７）４６１、（＃１４）４６３、（＃２１）４６５、（＃２８）４６７は、図３に示すものと同一である。また、本発明の実施の形態では、撮像装置１００に登録顔が登録されている特定人物として、甲田一郎５２１、乙口五郎５２２、山川花子５２３および丙谷良美５２４を例にして説明する。

動画コンテンツファイル３１１乃至３１５は、撮像装置１００により撮像されて記録媒体１６０に記憶されている動画コンテンツファイルであり、動画コンテンツフォルダ３１０に属する動画コンテンツファイルである。図４では、動画コンテンツファイル３１１乃至３１５と、動画ファイルエントリ（＃３７）４２１、（＃４４）４２３、（＃５３）４３１、（＃６０）４３３および（＃６９）４４１との対応関係を破線の矢印で結んで示す。

甲田一郎５２１、乙口五郎５２２、山川花子５２３および丙谷良美５２４（以下では、この４人を人物５２１乃至５２４と称する場合がある。）は、登録顔エントリ４６１、４６３、４６５および４６７に登録顔が管理されている特定人物である。また、人物５２１乃至５２４に関する顔画像の特徴量が、図３に示すメタデータエントリ（＃１０）４６２、（＃１７）４６４、（＃２４）４６６および（＃３１）４６８に格納されている。図４では、人物５２１乃至５２４と、登録顔エントリ（＃７）４６１、（＃１４）４６３、（＃２１）４６５および（＃２８）４６７との対応関係を破線の矢印で結んで示す。

図５は、本発明の実施の形態におけるサムネイルファイル５００に格納されている各画像と、動画コンテンツファイルと、人物との対応関係を概略的に示す図である。図５に示す人物５２１乃至５２４と、動画コンテンツファイル３１１乃至３１５とは、図４に示すものと同一である。

サムネイルファイル５００は、各コンテンツファイルの代表画像である代表サムネイル画像と、少なくとも特定人物の顔の一部を含む画像である登録顔画像とが格納されるファイルである。代表サムネイル画像は、例えば、動画コンテンツファイルから抽出された少なくとも１つの画像であり、例えば、動画コンテンツファイルを構成するフレームのうち先頭フレームに対応する画像が代表サムネイル画像として抽出される。

例えば、図５に示すように、人物５２１乃至５２４の登録顔画像として、顔画像５１１乃至５１４がサムネイルファイル５００に格納されている。また、動画コンテンツファイル３１１乃至３１５の代表画像として、代表サムネイル画像５０１乃至５０６がサムネイルファイル５００に格納されている。なお、登録顔画像の登録方法については、図６および図２４を参照して詳細に説明する。

図６は、本発明の実施の形態におけるサムネイルファイル５００に格納される登録顔画像の登録方法の概略を示す図である。図６に示す例では、撮像装置１００が登録顔記録モードに設定されている場合に登録顔画像を登録する登録方法を示す。

図６（ａ）には、登録顔記録モードが設定されている場合にＬＣＤ１８０に表示されるアシスト画像５３１を含むテンプレート画像５３０を示す。アシスト画像５３１は、登録顔画像を撮像する場合に、撮像の対象となる人物の顔の位置が、撮像画像内で適切な位置となるように、補助するための画像である。例えば、図６（ｂ）に示すように、登録顔記録モードが設定されている場合には、ＬＣＤ１８０にアシスト画像５３１が表示される。そして、ＬＣＤ１８０にアシスト画像５３１が表示されている状態で、カメラＤＳＰ１２０により生成された画像データに対応する撮像画像（いわゆる、スルー画像）がＬＣＤ１８０に表示される。

ここで、図６（ｂ）に示すように、ＬＣＤ１８０に表示されているアシスト画像５３１と、撮像画像に含まれる顔（登録すべき顔）の輪郭とが略同一となった際に、ユーザが登録ボタンを押下する。図６（ｂ）では、山川花子５２３を撮像する場合を例にして示す。このように登録ボタンが押下されると、この押下の際にカメラＤＳＰ１２０により生成された撮像画像に含まれる一定範囲の画像が、登録顔画像としてサムネイルファイル５００に記録される。図６（ｃ）では、サムネイルファイル５００に記録される登録顔画像として、山川花子５２３の登録顔画像５１３を例にして示す。また、サムネイルファイル５００への登録顔画像の記録とともに、登録顔フォルダエントリ（＃５）４６０の下位階層に属する登録顔エントリに登録顔管理情報および登録顔属性情報（図９に示す）が記録される。さらに、その登録顔画像から特徴量が抽出され、その登録顔エントリの下位階層に連結されるメタデータエントリに、抽出された特徴量が記録される。例えば、図５に示すように、山川花子５２３の登録顔画像５１３がサムネイルファイル５００に記録されるとともに、山川花子５２３の登録顔画像５１３の登録顔管理情報および登録顔属性情報が登録顔エントリ（＃２１）４６５（図４等に示す）に記録される。また、山川花子５２３の登録顔画像５１３の特徴量がメタデータエントリ（＃２４）４６６（図３等に示す）に記録される。なお、登録顔画像の特徴量の抽出については、図２４を参照して詳細に説明する。また、登録顔画像については、図２４に示すように、例えば、目を基準として正規化した後にサムネイルファイル５００に記録するようにしてもよい。

図７は、本発明の実施の形態における記録媒体１６０に記憶されている動画コンテンツファイル３１１乃至３１５と、登録顔画像５１１乃至５１４との関係を概略的に示す図である。図７では、動画コンテンツファイル３１１乃至３１５を矩形で模式的に示し、この矩形内に、一定間隔毎のフレームに対応する画像を並べて配置する。また、各矩形内の左隅には、先頭フレームに対応する画像である代表サムネイル画像５０１乃至５０６を配置する。例えば、動画コンテンツファイル３１１を表す矩形内には、撮影時刻の時間列に沿って、一定間隔毎のフレームに対応する代表サムネイル画像５０１、画像５４１乃至５４４を並べて配置する。また、代表サムネイル画像５０１、画像５４１および５４２には、登録顔画像５１１の顔（甲田一郎）が含まれているものとする。

また、例えば、動画コンテンツファイル３１２を構成する代表サムネイル画像５０２、画像５４５乃至５４８については、画像５４５乃至５４８には登録顔画像５１１の顔（甲田一郎）が含まれているものとする。同様に、画像５４６乃至５４８には登録顔画像５１３の顔（山川花子）が含まれ、画像５４８には登録顔画像５１４の顔（丙谷良美）が含まれているものとする。このように、図７では、動画コンテンツファイル３１１乃至３１５を構成する各画像について、登録顔画像５１１乃至５１４の顔が含まれる画像と、対応する登録顔画像５１１乃至５１４とを線分で結んで示す。

ここで、動画コンテンツファイルを構成する各フレームにおいて検出された顔に関する顔データが、その動画コンテンツファイルに対応する動画ファイルエントリの下位階層に連結されるメタデータエントリに順次記録される。また、検出された顔から抽出された特徴量に基づいて顔識別が順次行われる。そして、検出された顔が登録顔であると識別された場合には、その登録顔に対応する登録顔エントリに、動画ファイルエントリのエントリ番号が記録される。また、本発明の実施の形態では、その登録顔に対応する個人識別ＩＤが顔データに含めてメタデータエントリに記録される例について説明する。なお、これらの記録については、図１０および図１１等を参照して詳細に説明する。

次に、コンテンツ管理ファイル３４０およびコンテンツファイルの関係について図面を参照して詳細に説明する。

図８は、本発明の実施の形態におけるコンテンツ管理ファイル３４０を構成するプロパティファイル４００およびサムネイルファイル５００と、動画コンテンツフォルダ３１０に属する動画コンテンツファイル３１１乃至３１５との関係を概略的に示す図である。ここでは、図３に示す日付フォルダエントリ（＃３５）４２０、動画ファイルエントリ（＃４４）４２３、メタデータエントリ（＃４７）４２４と、代表サムネイル画像５０２と、動画コンテンツファイル３１２との対応関係を中心にして説明する。なお、サムネイルファイル５００内に示す代表サムネイル画像５０１乃至５０５と、動画コンテンツフォルダ３１０内に示す動画コンテンツファイル３１１乃至３１５とは、図５に示すものと同一であるため、ここでの説明を省略する。

日付フォルダエントリ（＃３５）４２０は、実コンテンツファイルの日付を管理するフォルダエントリである。そして、「エントリ種別」、「親エントリリスト」、「親エントリ種別」、「子エントリリスト」、「子エントリ種別」、「スロット有効フラグ」、「スロットチェーン」等の情報が格納されている。なお、エントリ番号は、各エントリを識別するための識別番号であり、日付フォルダエントリ４２０のエントリ番号として「＃３」が割り当てられる。なお、このエントリ番号の割り当て方法については、図１２および図１３を参照して説明する。

「エントリ種別」は、エントリの種類を示すものである。そして、エントリの種類に応じて、「動画フォルダエントリ」、「静止画フォルダエントリ」、「日付フォルダエントリ」、「動画ファイルエントリ」、「メタデータエントリ」、「登録顔フォルダエントリ」、「登録顔エントリ」等が格納される。例えば、日付フォルダエントリ（＃３５）４２０の「エントリ種別」には「日付フォルダエントリ」が格納される。

「親エントリリスト」には、このエントリが属する上位の階層エントリである親エントリに対応するエントリ番号が格納される。例えば、日付フォルダエントリ（＃３５）４２０の「親エントリリスト」には「＃１」が格納される。

「親エントリ種別」は、「親エントリリスト」に格納されているエントリ番号に対応する親エントリの種類を示すものである。そして、親エントリの種類に応じて、「動画フォルダエントリ」、「日付フォルダエントリ」、「動画ファイルエントリ」、「静止画フォルダエントリ」、「登録顔フォルダエントリ」、「登録顔エントリ」等が格納される。例えば、日付フォルダエントリ（＃３５）４２０の「親エントリ種別」には「動画フォルダエントリ」が格納される。

「子エントリリスト」は、このエントリに属する下位階層のエントリである子エントリに対応するエントリ番号が記録される。例えば、日付フォルダエントリ（＃３５）４２０の「子エントリリスト」には「＃３７」および「＃４４」が格納される。

「子エントリ種別」は、「子エントリリスト」に格納されているエントリ番号に対応する子エントリの種類を示すものである。そして、子エントリの種類に応じて、「動画フォルダエントリ」、「静止画フォルダエントリ」、「日付フォルダエントリ」、「動画ファイルエントリ」、「静止画ファイルエントリ」、「メタデータエントリ」、「登録顔エントリ」等が記録される。例えば、日付フォルダエントリ（＃３５）４２０の「子エントリ種別」には「動画ファイルエントリ」が格納される。

「スロット有効フラグ」は、このエントリを構成する各スロットが有効であるか無効であるかを示すフラグである。「スロットチェーン」は、このエントリを構成する各スロットに関するリンクや連結等の情報である。なお、「スロット有効フラグ」および「スロットチェーン」については、図１２を参照して詳細に説明する。

動画ファイルエントリ（＃４４）４２３は、実コンテンツファイルを管理するファイルエントリであり、コンテンツ管理情報４０１およびコンテンツ属性情報４０２が格納されている。コンテンツ管理情報４０１には、「エントリ種別」、「コンテンツ種別」、「コンテンツアドレス」、「親エントリリスト」、「親エントリ種別」が格納される。また、コンテンツ管理情報４０１には、「子エントリリスト」、「子エントリ種別」、「登場登録顔リスト」、「スロット有効フラグ」、「スロットチェーン」等の情報が格納される。なお、「エントリ種別」、「親エントリリスト」、「親エントリ種別」、「子エントリリスト」、「子エントリ種別」、「スロット有効フラグ」、「スロットチェーン」については、日付フォルダエントリ（＃３５）４２０に示すものと同様である。このため、ここでの説明は省略する。

「コンテンツ種別」は、このファイルエントリに対応するコンテンツファイルの種類を示すものであり、ファイルエントリに対応するコンテンツファイルの種類に応じて、「動画コンテンツファイル」、「静止画コンテンツファイル」等が記録される。例えば、動画ファイルエントリ（＃４４）４２３の「コンテンツ種別」には「動画コンテンツファイル」が格納される。

「コンテンツアドレス」は、記録媒体１６０に記録されている動画コンテンツファイルの記録位置を示す情報であり、この記録位置情報によって記録媒体１６０に記録されている動画コンテンツファイルへのアクセスが可能となる。例えば、動画ファイルエントリ（＃４４）４２３の「コンテンツアドレス」には、動画コンテンツファイル３１２のアドレスを示す「Ａ３１２」が格納される。

「登場登録顔リスト」は、このファイルエントリに対応するコンテンツファイルに含まれる登録顔に対応する登録顔エントリのエントリ番号を記録するリストである。例えば、動画ファイルエントリ（＃４４）４２３に対応する動画コンテンツファイル３１２には、図７に示すように、登録顔画像５１１、５１３および５１４の顔が含まれている。このため、動画ファイルエントリ（＃４４）４２３の「登場登録顔リスト」には、登録顔画像５１１、５１３、５１４のそれぞれに対応する登録顔エントリ４６１、４６５、４６７の各エントリ番号「＃７」、「＃２１」、「＃２８」が格納される（図１０参照）。

コンテンツ属性情報４０２は、コンテンツ管理情報４０１に格納されているコンテンツファイルの属性情報であり、「作成日時」、「更新日時」、「区間情報」、「サイズ情報」、「サムネイルアドレス」、「プロファイル情報」等の情報が格納されている。

「作成日時」には、このファイルエントリに対応するコンテンツファイルが作成された日時が格納される。「更新日時」には、このファイルエントリに対応するコンテンツファイルが更新された日時が格納される。なお、「更新日時」を用いて、メタデータの不整合が判別される。「区間情報」には、このファイルエントリに対応するコンテンツファイルの時間の長さを示す情報が格納される。「サイズ情報」は、このファイルエントリに対応するコンテンツファイルのサイズを示す情報が格納される。

「サムネイルアドレス」は、サムネイルファイル５００に格納されている代表サムネイル画像の記録位置を示す情報であり、この記録位置情報によってサムネイルファイル５００に格納されている代表サムネイル画像へのアクセスが可能となる。例えば、動画ファイルエントリ（＃４４）４２３の「サムネイルアドレス」には、動画コンテンツファイル３１２の代表画像である代表サムネイル画像５０２のサムネイルファイル５００内部におけるエントリ番号「＃０２」が格納される。なお、サムネイルファイル５００内部におけるエントリ番号については、図１２を参照して詳細に説明する。

「プロファイル情報」には、プロファイルエントリ（＃１５０）４０６内部に格納されているビデオ・オーディオエントリ（video audio entry）のエントリ番号が記録されている。なお、ビデオ・オーディオエントリについては、図１２（ｃ）を参照して詳細に説明する。

メタデータエントリ（＃４７）４２４には、「エントリ種別」、「親エントリリスト」、「親エントリ種別」、「スロット有効フラグ」、「スロットチェーン」、「メタデータ」等の情報が格納されている。なお、「エントリ種別」、「親エントリリスト」、「親エントリ種別」、「スロット有効フラグ」、「スロットチェーン」については、日付フォルダエントリ（＃３５）４２０に示すものと同様であるため、ここでの説明は省略する。

「メタデータ」には、このメタデータエントリが属する上位階層の動画ファイルエントリに対応するコンテンツファイルから取得された各種属性情報（メタデータ）が格納される。この「メタデータ」に格納される各種情報については、図１６等を参照して詳細に説明する。

図９は、本発明の実施の形態におけるコンテンツ管理ファイル３４０を構成するプロパティファイル４００およびサムネイルファイル５００の関係を概略的に示す図である。ここでは、図３に示す登録顔エントリ（＃７）４６１と、メタデータエントリ（＃１０）４６２と、登録顔画像５１１との対応関係を中心にして説明する。なお、サムネイルファイル５００内に示す登録顔画像５１１乃至５１４は、図５に示すものと同一であるため、ここでの説明を省略する。

登録顔エントリ（＃７）４６１は、登録顔を管理するエントリであり、登録顔管理情報４０３および登録顔属性情報４０４が格納されている。登録顔管理情報４０３には、「エントリ種別」、「親エントリリスト」、「親エントリ種別」、「子エントリリスト」、「子エントリ種別」、「登録顔登場コンテンツリスト」、「スロット有効フラグ」、「スロットチェーン」等の情報が格納されている。なお、これらの情報のうちで、図８に示す日付フォルダエントリ（＃３５）４２０または動画ファイルエントリ（＃４４）４２３に示す情報と同一のものについては、ここでの説明を省略する。具体的に、同一の情報は、「エントリ種別」、「親エントリリスト」、「親エントリ種別」、「子エントリリスト」、「子エントリ種別」、「スロット有効フラグ」、「スロットチェーン」である。

「登録顔登場コンテンツリスト」は、この登録顔エントリに対応する登録顔が含まれるコンテンツファイルのリストを示すものであり、その登録顔が含まれるコンテンツファイルに対応するファイルエントリのエントリ番号が記録される。例えば、登録顔エントリ（＃７）４６１に対応する登録顔画像５１１の顔は、図７に示すように、動画コンテンツファイル３１１、３１２および３１５に登場する。このため、登録顔エントリ（＃７）４６１の「登録顔登場コンテンツリスト」には、動画コンテンツファイル３１１、３１２、３１５のそれぞれに対応する動画ファイルエントリ４２１、４２３、４４１のエントリ番号が記録される（図１１参照）。すなわち、動画ファイルエントリ４２１、４２３、４４１のエントリ番号「＃３７」、「＃４４」、「＃６９」が記録される。

登録顔属性情報４０４は、登録顔管理情報４０３に格納されている登録顔の属性情報であり、「作成日時」、「更新日時」、「登録顔の氏名」、「個人識別ＩＤ」、「サムネイルアドレス」等の情報が格納されている。

「作成日時」には、この登録顔エントリに対応する登録顔画像が作成された日時が格納される。「更新日時」には、この登録顔エントリに対応する登録顔画像が更新された日時が格納される。

「登録顔の氏名」には、この登録顔エントリに対応する登録顔の人物の氏名が格納される。この氏名は、例えば、ユーザによる手動操作により入力される。

「個人識別ＩＤ」には、この登録顔エントリに対応する登録顔に付与される個人を識別するためのＩＤが格納される。この個人識別ＩＤは、例えば、登録順に識別番号が自動で付与される。

「サムネイルアドレス」は、サムネイルファイル５００に格納されている登録顔画像の記録位置を示す情報であり、この記録位置情報によってサムネイルファイル５００に格納されている登録顔画像へのアクセスが可能となる。例えば、登録顔エントリ（＃７）４６１の「サムネイルアドレス」には、登録顔画像５１１のサムネイルファイル５００内部におけるエントリ番号「＃１１」が格納される。なお、サムネイルファイル５００内部におけるエントリ番号については、図１２を参照して詳細に説明する。

メタデータエントリ（＃１０）４６２には、「エントリ種別」、「親エントリリスト」、「親エントリ種別」、「スロット有効フラグ」、「スロットチェーン」、「メタデータ」等の情報が格納されている。なお、「エントリ種別」、「親エントリリスト」、「親エントリ種別」「スロット有効フラグ」、「スロットチェーン」については、日付フォルダエントリ（＃３５）４２０に示すものと同様であるため、ここでの説明は省略する。

「メタデータ」には、このメタデータエントリが属する上位階層の登録顔エントリに対応する登録顔画像から取得された各種属性情報（メタデータ）が格納される。ここで、登録顔エントリの下位階層に連結されるメタデータエントリと、ファイルエントリの下位階層に連結されるメタデータエントリとは、基本的な構成は同一である。しかし、登録顔エントリの下位階層に連結されるメタデータエントリの「メタデータ」には、主に、顔識別に用いられる特徴量が格納される点が、ファイルエントリの下位階層に連結されるメタデータエントリとは異なる。この「メタデータ」に格納される各種情報については、図１６等を参照して詳細に説明する。

次に、プロパティファイルに格納されている各エントリの親子関係、登場登録顔リストおよび登録顔登場コンテンツリストの対応関係について図面を参照して詳細に説明する。

図１０は、本発明の実施の形態における動画フォルダエントリ、日付フォルダエントリ、動画ファイルエントリおよびメタデータエントリの親子関係と、登場登録顔リストの対応関係とを概略的に示す図である。図１０では、図３に示す動画フォルダエントリ（＃１）４１０、日付フォルダエントリ（＃３５）４２０、動画ファイルエントリ（＃３７）４２１および（＃４４）４２３、メタデータエントリ（＃４０）４２２および（＃４７）４２４を例にして説明する。

動画フォルダエントリ（＃１）４１０には、「子エントリリスト」等の情報が格納されている。例えば、「子エントリリスト」には「＃３５」、「＃５１」、「＃６７」が格納される。

日付フォルダエントリ（＃３５）４２０には、「親エントリリスト」、「子エントリリスト」等の情報が格納されている。例えば、「親エントリリスト」には「＃１」が格納され、「子エントリリスト」には「＃７」および「＃２８」が格納される。

動画ファイルエントリ（＃３７）４２１および（＃４４）４２３には、「親エントリリスト」、「子エントリリスト」、「コンテンツアドレス」、「サムネイルアドレス」、「登場登録顔リスト」等の情報が格納されている。例えば、動画ファイルエントリ（＃３７）４２１において、「親エントリリスト」には「＃３５」が格納され、「子エントリリスト」には「＃４０」が格納される。また、「コンテンツアドレス」には「Ａ３１１」が格納され、「サムネイルアドレス」には「＃０１」が格納され、「登場登録顔リスト」には「＃７」が格納される。なお、「サムネイルアドレス」に格納される「＃０１」は、サムネイルファイル５００におけるエントリ番号であり、プロパティファイル４００に格納されている各エントリのエントリ番号とは異なる。また、図１１に示す「サムネイルアドレス」についても同様である。

メタデータエントリ（＃４０）４２２および（＃４７）４２４には、「親エントリリスト」等の情報が格納されている。例えば、メタデータエントリ（＃４０）４２２において、「親エントリリスト」には「＃３７」が格納される。これらの各エントリの親子関係については、図１０において、「親エントリリスト」または「子エントリリスト」からの矢印で示す。また、各動画ファイルエントリの登場登録顔リストの対応関係については、図１０において、「登場登録顔リスト」からの矢印で示す。

図１１は、本発明の実施の形態における登録顔フォルダエントリ、登録顔エントリおよびメタデータエントリの親子関係と、登録顔登場コンテンツリストの対応関係とを概略的に示す図である。図１１では、図３に示す登録顔フォルダエントリ（＃５）４６０、登録顔エントリ（＃７）４６１および（＃１４）４６３、メタデータエントリ（＃１０）４６２および（＃１７）４６４の親子関係を例にして説明する。

登録顔フォルダエントリ（＃５）４６０には、「子エントリリスト」等の情報が格納されている。例えば、「子エントリリスト」には「＃７」、「＃１４」、「＃２１」、「＃２８」が格納される。

登録顔エントリ（＃７）４６１および（＃１４）４６３には、「親エントリリスト」、「子エントリリスト」、「サムネイルアドレス」、「登録顔登場コンテンツリスト」等の情報が格納されている。例えば、登録顔エントリ（＃７）４６１において、「親エントリリスト」には「＃５」が格納され、「子エントリリスト」には「＃１０」が格納される。また、「サムネイルアドレス」には「＃１１」が格納され、「登録顔登場コンテンツリスト」には「＃３７」、「＃４４」、「＃６９」が格納される。

メタデータエントリ（＃１０）４６２および（＃１７）４６４には、「親エントリリスト」等の情報が格納されている。例えば、メタデータエントリ（＃１０）４６２において、「親エントリリスト」には「＃７」が格納される。これらの各エントリの親子関係については、図１１において、「親エントリリスト」または「子エントリリスト」からの矢印で示す。また、各登録顔エントリの登録顔登場コンテンツリストの対応関係については、図１１において、「登録顔登場コンテンツリスト」からの矢印で示す。なお、図３に示す他のエントリの親子関係についての説明は省略するが、図１０および図１１に示す場合と同様に親子関係が成立しているものとする。また、図３に示す他の動画ファイルエントリの登場登録顔リストの対応関係、および、図３に示す他の登録顔エントリの登録顔登場コンテンツリストの対応関係についても、図１０および図１１に示す場合と同様に対応関係が成立しているものとする。

なお、図３に示すプロパティファイル４００においては、１つのファイルエントリに１つのメタデータエントリを連結させる構成例を示すが、１つのファイルエントリに複数のメタデータエントリを連結させるようにしてもよい。すなわち、１つの親ファイルエントリに複数の子メタデータエントリを対応させることができる。

例えば、動画ファイルエントリ（＃３７）４２１の子メタデータエントリとして、顔メタデータを格納するメタデータエントリ（＃４０）４２２とともに、ＧＰＳ情報を格納するメタデータエントリ（＃７６）（図示せず）を対応させる。そして、動画ファイルエントリ（＃３７）４２１の子エントリリストに「＃４０」および「＃７６」を記録する。この場合には、子エントリリストの格納順序をメタデータの種類に応じて予め決めておくようにする。これにより、１つのファイルエントリに複数のメタデータを格納する場合において、メタデータの数が増加した場合でも、データ管理が煩雑になることを防止して、所望のメタデータの抽出時間を短縮することができる。なお、ここでのメタデータの種類とは、単なるデータの種類（顔メタ、ＧＰＳ等の種類）でもよく、メタデータがバイナリデータかテキストデータかというコーディングの種類でもよい。

また、図３に示すプロパティファイル４００においては、１つの登録顔エントリに１つのメタデータエントリを連結させる構成例を示すが、１つの登録顔エントリに複数のメタデータエントリを連結させるようにしてもよい。すなわち、１つの親の登録顔エントリに複数の子のメタデータエントリを対応させることができる。

例えば、「甲田一郎」の通常顔に関する特徴データを格納するメタデータエントリを、メタデータエントリ（＃１０）４６２とし、「甲田一郎」の笑顔に関する特徴データを格納するメタデータエントリをメタデータエントリ（＃８０）（図示せず）とする。そして、登録顔エントリ（＃７）４６１の子メタデータエントリとして、メタデータエントリ（＃１０）４６２およびメタデータエントリ（＃８０）を対応させるため、登録顔エントリ（＃７）４６１の子エントリリストに「＃１０」および「＃８０」を記録する。また、笑顔、怒った顔、泣き顔のように３以上のメタデータエントリを１つの登録顔エントリに対応させるようにしてもよい。これにより、「甲田一郎」が異なる複数の表情で撮像されている複数のコンテンツがあった場合でも、「甲田一郎」が含まれるコンテンツを適切に識別して登録顔エントリ（＃７）４６１の登録顔登場コンテンツリストに記録することができる。

図１２は、本発明の実施の形態におけるプロパティファイル４００の基本構造を概略的に示す図である。図１２（ａ）には、プロパティファイル４００の基本構造の一例を示し、図１２（ｂ）には、各エントリを構成するスロットの構造を示し、図１２（ｃ）には、プロファイルエントリ（＃１５０）４０６に含まれる情報の一例を示す。また、図１２（ｄ）には、ヘッダ部４３０に含まれる情報のうちで、コンテンツ管理ファイル３４０が管理するコンテンツの種別を示す情報の一例を示す図である。

図１３は、本発明の実施の形態におけるプロパティファイル４００の全体構造を概略的に示す図である。

プロパティファイル４００は、図１２（ａ）に示すように、ヘッダ部４７０およびエントリ部４８０の基本構造を有するファイルであり、これらの各エントリが１つのフォルダやファイル等を示す単位となる。

エントリ部４８０を構成する各エントリは、１または複数のスロットで構成されている。なお、各エントリに格納されるデータの容量に応じて、各エントリには１または複数のスロットが割り当てられる。また、各エントリを構成するスロットは、プロパティファイルやサムネイルファイル等のファイル毎に決められた固定長のデータブロックとして定義されている。ただし、エントリによっては、構成されるスロット数が異なるため、スロットの整数倍で各エントリが可変長となる。

例えば、図１２（ａ）に示すように、動画フォルダエントリ（＃１）４１０には、格納されるデータ４８７のデータ容量に応じて２つのスロット４８１および４８２が割り当てられる。また、静止画フォルダエントリ（＃３）４５０には、格納されるデータ４８８のデータ容量に応じて２つのスロット４８３および４８４が割り当てられる。

なお、スロットが固定長であるため、スロットの全ての領域が有効データで埋められることがない場合があり、データ的にロスが発生する場合がある。しかし、スロットを固定長とすることによるデータアクセス性やデータ管理性を重視するため、このような構造とすることが好ましい。

また、エントリ部４８０を構成する各エントリは、図３等に示すように、エントリ番号で管理される。このエントリ番号は、エントリを構成する先頭のスロットが、プロパティファイル４００全体を構成するスロットの先頭から何番目のスロットに該当するかに応じて割り当てられる。例えば、図１２（ａ）および図１３に示すように、動画フォルダエントリ（＃１）４１０を構成するスロット４８１および４８２のうちの先頭のスロット４８１が、プロパティファイル４００全体を構成するスロットの先頭から数えて１番目のスロットとなる。このため、動画フォルダエントリ（＃１）４１０のエントリ番号として「＃１」が割り当てられる。また、静止画フォルダエントリ（＃３）４５０を構成するスロット４８３および４８４のうちの先頭のスロット４８３が、プロパティファイル４００全体を構成するスロットの先頭から数えて３番目のスロットとなる。このため、静止画フォルダエントリ（＃３）４５０のエントリ番号として「＃３」が割り当てられる。また、登録顔フォルダエントリ（＃５）４６０を構成するスロット４８５および４８６のうちの先頭のスロット４８５が、プロパティファイル４００全体を構成するスロットの先頭から数えて５番目のスロットとなる。このため、登録顔フォルダエントリ（＃５）４６０のエントリ番号として「＃５」が割り当てられる。なお、他の各エントリのエントリ番号についても同様に割り当てられる。これらのエントリ番号に基づいて、各エントリが管理されるとともに各エントリの親子関係および各リストの対応関係が管理される。なお、エントリをサーチする場合には、エントリ部４８０を構成する各スロットを最初からカウントして対象となるエントリをサーチする。

各エントリを構成するスロットは、図１２（ｂ）に示すように、スロットヘッダ部４９１および実データ部４９４の構造を有する。スロットヘッダ部４９１は、スロットが有効であるか無効であるかを示す有効／無効フラグ４９２と、チェーン４９３とで構成されている。

有効／無効フラグ４９２には、対応するコンテンツファイルが有効に存在する場合には有効フラグが立てられ、対応するコンテンツファイルが削除された場合には無効フラグが立てられる。このように、対応するコンテンツファイルが削除された場合に無効フラグを立てることにより、この削除されたコンテンツファイルに対応するスロット内部の情報を削除する処理を発生させずに、このスロットが見かけ上存在しないことを示すことができる。仮に、有効／無効フラグ４９２がない場合には、対応するコンテンツファイルが削除されると、この削除されたコンテンツファイルに対応するスロット内部の情報を削除する処理が必要である。また、この削除処理とともに、削除されたスロットの物理的に後ろに存在するスロット内部の情報を前につめる必要がある。このように、有効／無効フラグ４９２がない場合には処理が煩雑になる。

チェーン４９３には、各スロットを連結するためのリンクや連結等の情報が格納される。このチェーン４９３に格納される情報により、複数のスロットが連結されて１つのエントリが構成される。また、実データ部４９４には、各エントリの実データが格納されている。

プロファイルエントリ（＃１５０）４０６には、各コンテンツファイルのビデオおよびオーディオに関するコーデック情報が１対となった１００種類程度のデータが記録されている。ビデオに関するコーデック情報として、ビデオエントリ（video entry）には、「符号化フォーマット（codec type）」、「画サイズ（visual size）」、「ビットレート（bit rate）」等が格納されている。また、オーディオに関するコーデック情報として、オーディオエントリ（audio entry）には、「符号化フォーマット（codec type）」、「サンプリングレート（sampling rate）」等が格納されている。また、各ビデオ・オーディオエントリには、エントリ番号が割り当てられている。このエントリ番号として、プロファイルエントリ（＃１５０）４０６内部における記録順序を示す番号が割り当てられる。例えば、図１２（ｃ）に示すように、最初のビデオ・オーディオエントリ４９５には「＃１」が割り当てられ、２番目のビデオ・オーディオエントリ４９６には「＃２」が割り当てられる。なお、このビデオ・オーディオエントリのエントリ番号が、ファイルエントリの「プロファイル情報」（図８に示す）に記録される。そして、「プロファイル情報」に記録されているエントリ番号に基づいて、ファイルエントリに対応するコンテンツファイルのコーデック情報が読み出される。

サムネイルファイル５００は、基本的な構造はプロパティファイル４００と同様であり、各エントリが１または複数のスロットで構成されている。これらの各エントリが１つの代表サムネイル画像または登録顔画像の単位となる。ただし、サムネイルファイル５００にはヘッダ部が存在しない。各スロットは、ファイル内で固定長であり、この１スロットの固定長に関するスロットサイズは、プロパティファイル４００のヘッダ部４７０に記録されている。また、サムネイルファイル５００の各エントリの対応関係は、プロパティファイル４００に格納されている。なお、この例では、サムネイルファイル５００のスロットサイズは、プロパティファイル４００のスロットサイズとは異なるようにする。

サムネイルファイル５００のスロットの容量は、サムネイルファイル毎に設定することができ、この容量はプロパティファイル４００のヘッダ部４７０に記録される。また、ヘッダ部４７０にはサムネイルファイル５００のサムネイルファイル名が記録されている。

サムネイルファイル５００には、コンテンツファイルの代表サムネイル画像が、コンテンツファイルに対応するファイルエントリ毎に１枚記録されている。ここで、通常のサムネイルファイルの場合には、１つのファイルエントリについて１つのスロットが対応する。また、サムネイルファイル５００を構成する各エントリには、エントリ番号が割り当てられている。このサムネイルファイルのエントリ番号は、サムネイルファイル内を１エントリに１スロットを対応させる構成とする場合には、スロット番号となる。また、このサムネイルファイルのエントリ番号が、各ファイルエントリの「サムネイルアドレス」（図８乃至図１１に示す）に格納される。

ヘッダ部４７０には、各エントリを管理する各種情報が記録されている。例えば、図１２（ｄ）に示すように、コンテンツ管理ファイル３４０が管理するコンテンツファイルの種別を示す情報がヘッダ部４７０に格納されている。なお、図１２（ｄ）に示す例では、コンテンツ管理ファイル３４０が管理するコンテンツファイルは、ＨＤ（High Definition）動画およびＳＤ（Standard Definition）動画となり、静止画は管理しないことになる。これは、動画および静止画を記録することができるコンテンツ記録装置であっても、静止画はコンテンツ管理ファイル３４０で管理しない場合があるからである。図１２（ｄ）に示すようにヘッダ部４７０に記録されている場合には、静止画は、通常のファイルシステムに基づいて管理されることになる。なお、動画についても、通常のファイルシステムで管理されているため、コンテンツ管理ファイルを理解することができないコンテンツ再生装置等では、ファイルシステムの情報に基づいてコンテンツの再生が実行される。また、撮像装置１００を他のコンテンツ再生装置に接続する場合や、着脱可能な記録媒体を他のコンテンツ再生装置に移動させて再生する場合等を想定する。この場合において、他のコンテンツ再生装置がコンテンツ管理ファイルを理解することができる場合には、コンテンツ管理ファイルに基づいてコンテンツファイルの読み出し等が実行される。また、ヘッダ部４７０には、プロファイルエントリ（＃１５０）４０６のエントリ番号が記録されている。これにより、エントリ部４８０を構成する各エントリの中からプロファイルエントリの位置を特定することができる。

図１３には、プロパティファイル４００を構成する各エントリと、各エントリに対応するスロットと、各スロットに格納されるデータとの関係を概略的に示す。なお、図１３では、各エントリを示す矩形内において、各エントリの名称の記載を省略してエントリ番号のみを記載する。また、図１３では、図３に示す各エントリのうちで、エントリ番号が小さいエントリおよびプロファイルエントリのみを代表して示す。

図１４は、本発明の実施の形態におけるメタデータエントリ６００の内部構成を概略的に示す図である。なお、メタデータエントリ６００は、図３に示す動画フォルダエントリ（＃１）４１０の下位階層に属するメタデータエントリ（＃４０）４２２等と、登録顔フォルダエントリ（＃５）４６０の下位階層に属するメタデータエントリ（＃１０）４６２等とに対応する。また、本発明の実施の形態では、１つの動画コンテンツファイル毎に顔メタデータが記録されるものとする。また、１人の特定人物毎に顔メタデータ（特徴量）が記録されるものとする。

メタデータエントリ６００は、１または複数のメタデータユニット（Meta_Data_Unit）６１０から構成されている。メタデータユニット６１０は、データユニットサイズ（data_unit_size）６１１と、言語（language）６１２と、符号化形式（encoding_type）６１３とにより構成される。また、メタデータユニット６１０は、メタデータの種類（data_type_ID）６１４と、メタデータ（meta_data()）６１５とより構成される。

データユニットサイズ６１１には、メタデータユニット６１０に格納されているメタデータのサイズが記録される。言語６１２には、メタデータユニット６１０に格納されているメタデータの言語が記録される。符号化形式６１３には、メタデータユニット６１０に格納されているメタデータの符号化形式が記録される。メタデータの種類６１４には、個々のメタデータの種類を識別するための識別情報が記録される。

なお、メタデータ６１５には、顔メタデータ６２０が記録されるとともに、顔メタデータ以外のメタデータである他のメタデータ６５０が記録される。例えば、他のメタデータ６５０として、コンテンツファイルのタイトル情報やジャンル情報等の情報が格納される。

顔メタデータ６２０は、ヘッダ部６３０と顔データ部６４０とから構成されている。ヘッダ部６３０には、顔メタデータを管理する情報が格納される。また、ヘッダ部６３０はコンテンツファイルまたは登録顔毎に固定長とする。コンテンツファイルに対応する顔データ部６４０には、コンテンツファイルから検出された顔について、顔メタデータとして記録される顔毎に顔データが記録される。例えば、顔データ部６４０には、顔データ６２１乃至６２３等が格納される。これらの顔データは、図１６に示すように、顔検出時刻情報、顔基本情報、顔スコア、笑顔スコア等のデータである。また、顔データ部６４０は、１つの動画コンテンツファイルで固定長とする。一方、登録顔に対応する顔データ部６４０には、特定人物の登録顔画像から抽出された特徴量が顔メタデータとして記録される。この顔データは、図１６に示すように、個人識別ＩＤ、顔特徴量等のデータである。また、顔データ部６４０は、一人の登録顔画像で固定長とする。このように、ヘッダ部６３０および顔データ部６４０が固定長であるため、顔データへのアクセスを容易に行うことができる。

また、他のメタデータ６５０の構成は、顔メタデータ６２０の構成とほぼ同様であるため、ここでの説明を省略する。

図１５は、本発明の実施の形態におけるヘッダ部６３０に格納される各種情報を概略的に示す図である。

ヘッダ部６３０には、ヘッダサイズ６３１と、メタデータバージョン６３２と、コンテンツ更新日時６３３と、顔データ構造フラグ６６０と、タイムスケール６３４と、顔データ個数６３５とが格納される。また、ヘッダ部６３０には、顔データサイズ６３６と、顔検出エンジンバージョン６３７と、コンテンツ画像サイズ６３８と、誤り検出符号値６３９とが格納される。なお、これらの格納単位は、例えば、図１５の「サイズ」に示すように、バイトで規定される。また、以下では、動画コンテンツファイルに関する顔メタデータ（動画ファイルエントリの下位階層のメタデータエントリ）を中心に説明する。登録顔に関する顔メタデータ（登録顔エントリの下位階層のメタデータエントリ）については、例えば、ヘッダサイズ６３１および顔データ構造フラグ６６０以外は「０」が記録される。

ヘッダサイズ６３１には、ヘッダ部６３０のデータサイズが格納される。このヘッダサイズ６３１により、顔データ部６４０にアクセスする場合に、ヘッダ部６３０をジャンプして即座にアクセスすることが可能である。また、データサイズとして２バイトが規定されている。

メタデータバージョン６３２には、ヘッダ部６３０に対応する顔データ部６４０に記録されている顔メタデータのバージョン情報が格納される。コンテンツ再生装置でコンテンツファイルを再生する場合には、メタデータバージョン６３２に格納されている内容を確認することによって、そのコンテンツ再生装置が対応可能なデータであるか否かを装置自体が確認することが可能となる。本発明の実施の形態では、例えば、「１．００」が記録されるものとする。また、データサイズとして２バイトが規定され、上位８ビットがメジャーバージョンを示し、下位８ビットがマイナーバージョンを示す。なお、将来、顔メタデータフォーマットが拡張された場合には、更新されたバージョン情報が格納される。

コンテンツ更新日時６３３には、コンテンツファイルが記録された更新日時が格納される。例えば、撮像装置１００により記録された動画コンテンツファイルが他の装置に移動して編集された後に、この編集された動画コンテンツファイルが撮像装置１００に再度記録されたような場合を想定する。この場合には、編集後の動画コンテンツファイルと顔メタデータと間で不整合が発生する。具体的には、以下で示す（１）乃至（３）のステップで動画コンテンツファイルが移動する場合が考えられる。このような場合に、これらの不整合を検出して、動画コンテンツファイルＢから顔メタデータを再検出させ、編集後の動画コンテンツファイルと顔メタデータと間で発生した不整合を修正することが可能となる。

（１）ステップ１
コンテンツ記録装置Ａで動画コンテンツファイルＡが記録され、動画コンテンツファイルＡに対応する顔メタデータが生成される。この場合には、動画コンテンツファイルＡの作成日時および更新日時と、顔メタデータのコンテンツ更新日時とが同じ値となる。

（２）ステップ２
動画コンテンツファイルＡがコンテンツ再生装置Ｂに移動された後に、コンテンツ再生装置Ｂで編集されて、動画コンテンツファイルＢとなる。この場合には、動画コンテンツファイルＢの更新日時が編集時の日時に更新される。

（３）ステップ３
動画コンテンツファイルＢがコンテンツ記録装置Ａに戻される。この場合には、動画コンテンツファイルＢと、顔メタデータのコンテンツ更新日時との値が異なる。

顔データ構造フラグ６６０には、顔データ部６４０に格納される顔データで定義されたメタデータの有無を示すフラグが格納される。なお、顔データ構造フラグ６６０については、図１７乃至図２２を参照して詳細に説明する。

タイムスケール６３４には、顔データ部で使用される時刻情報のタイムスケール（１秒あたりのユニット数を表す値）が格納される。すなわち、動画コンテンツファイルから顔が検出された時刻を示す情報（顔検出時刻情報）が顔データとして顔データ部に記録されるが、その時刻情報のタイムスケールがタイムスケール６３４に格納される。なお、単位はＨｚである。

顔データ個数６３５は、ヘッダ部６３０に続いて記録される顔データの個数を示す情報が格納される。顔を検出しなかった場合には、「０」が記録される。

顔データサイズ６３６には、ヘッダ部６３０に続いて記録される１つの顔データのデータサイズを示す情報が格納される。この顔データサイズ６３６に格納される情報に基づいて個々の顔データ間をジャンプすることが可能となる。なお、顔が検出されなかった場合には、「０」が記録される。

顔検出エンジンバージョン６３７には、動画コンテンツファイルから顔を検出する顔検出エンジンに関する情報が記録される。これは、顔メタデータの再生時において、自機よりも性能の低い顔検出エンジンで検出された顔メタデータであることを認識した場合に、顔メタデータを再検出するか否かの指標として使用される。顔検出エンジンに関する情報は、例えば、ＡＳＣＩＩコードで記述される。

例えば、メタデータバージョンが「１．００」の場合には、図１６に示すデータの順序で顔データ部６４０に各データが記録される。このため、コンテンツ再生装置がメタデータバージョンを「１．００」であると認識した場合には、それぞれのデータが固定長に、かつ予め決められた位置に配置されているため、顔データ部６４０の所望のデータの位置まで迅速にアクセスすることが可能となる。

コンテンツ画像サイズ６３８には、顔が検出された画像の高さおよび幅を示す情報が記録される。また、誤り検出符号値６３９には、顔が検出された画像において所定範囲で計算された誤り検出符号値（エラー訂正符号値）を示す情報が記録される。例えば、誤り検出符号値６３９には、顔メタデータの作成時において、対応する画像データから計算されたチェックサムの値が記録される。なお、誤り検出符号値としては、チェックサム以外に、ＣＲＣ（Cyclic Redundancy Check：巡回冗長検査）やハッシュ関数を用いたハッシュ値等を用いることが可能である。

コンテンツ画像サイズ６３８および誤り検出符号値６３９は、コンテンツ更新日時６３３と同様に、動画コンテンツファイルと顔メタデータとの間で発生する不整合を検出するために用いられる。この不整合発生のメカニズムは、上述した（１）ステップ１乃至（３）ステップ３と同様である。例えば、静止画コンテンツファイルについては、静止画編集ソフトが数多く存在しているものの、これらの静止画編集ソフトの中には、静止画が編集された場合でもコンテンツ内部のコンテンツ日時情報が更新されないものが存在する。このような場合においては、コンテンツ更新日時の比較とともに、このコンテンツ画像サイズを用いた比較をすることによって、さらに確実な不整合を検出することが可能である。

図１６は、本発明の実施の形態における顔データ部６４０に格納される顔データを概略的に示す図である。なお、顔データ部６４０には、ヘッダ部６３０の顔データ構造フラグ６６０でビットアサインされた順序で各顔データが格納される。

顔データ部６４０には、顔検出時刻情報６４１と、顔基本情報６４２と、顔スコア６４３と、笑顔スコア６４４と、顔重要度６４５と、個人識別ＩＤ６４６と、顔特徴量６４７とが記録される。なお、これらの格納単位は、バイトで規定される。ここで、動画コンテンツファイルに関する顔メタデータ（動画ファイルエントリの下位階層のメタデータエントリ）については、上述したように、メタデータバージョンが「１．００」の顔データとして定義される場合を例にして説明する。また、登録顔に関する顔メタデータ（登録顔エントリの下位階層のメタデータエントリ）については、例えば、個人識別ＩＤ６４６および顔特徴量６４７のみが記録される。

顔検出時刻情報６４１には、対応する動画コンテンツファイルの先頭を「０」として、この顔データが検出されたフレームの時刻が記録される。なお、顔検出時刻情報６４１には、ヘッダ部６３０のタイムスケール６３４に格納されたタイムスケールの整数倍の値が格納される。

顔基本情報６４２には、動画コンテンツファイルを構成する各フレームから検出された顔の位置および大きさが格納される。顔基本情報６４２として、顔位置情報が上位４バイトで規定され、顔サイズ情報が下位４バイトで規定される。また、顔位置情報は、例えば、顔が検出された画像における左上部分から検出された顔の左上部分までの差の値であり、上位１６ビットで横軸の位置の値が規定され、下位１６ビットで縦軸の位置の値が規定される。また、顔サイズ情報は、例えば、検出された顔の画像サイズを示す値であり、上位１６ビットで顔の幅を示す値が規定され、下位１６ビットで顔の高さを示す値が規定される。なお、顔基本情報６４２は、顔メタデータを利用するアプリケーションとしては最も重要なメタデータである。

顔スコア６４３には、検出された顔の顔らしさを表す顔スコアに関する情報が格納される。

笑顔スコア６４４には、検出された顔がどの程度笑っているかを表す笑顔スコアに関する情報が格納される。

顔重要度６４５には、同一時刻で検出された画像の優先順位（重要度）を示す情報が格納される。これは、例えば、１フレーム中で複数の顔が検出された場合において、画面の中心に近い顔から高い優先順位を割り当てたり、フォーカスされている顔に高い優先順位を割り当てることができる。格納される情報としては、例えば、小さい値ほど重要度が大きいと規定して、「１」を最大重要度と規定することができる。これにより、例えば、画像を表示する表示部が小さいモバイル機器を使用する場合でも、全ての顔画像を小さく表示する代わりに、優先順位の高い顔のみを大きく表示させることが可能となる。

個人識別ＩＤ６４６には、検出された顔を識別するための登録顔毎に付与される識別子が格納される。例えば、登録顔に関する顔メタデータ（登録顔エントリの下位階層のメタデータエントリ）については、上位階層の登録顔エントリに対応する登録顔の個人識別ＩＤが格納される。また、動画コンテンツファイルに関する顔メタデータ（動画ファイルエントリの下位階層のメタデータエントリ）については、検出された顔が何れかの登録顔に該当すると判断された場合に、その登録顔に対応する個人識別ＩＤが格納される。

顔特徴量６４７には、検出された顔について顔識別処理を行う場合に、検出された顔から特徴量を抽出する際に用いられるアルゴリズムと、顔識別に用いられる辞書等を識別する識別情報が格納される。また、登録顔に関する顔メタデータ（登録顔エントリの下位階層のメタデータエントリ）については、顔特徴量６４７には、個人を識別するための特徴量が格納される。なお、動画コンテンツファイルに関する顔メタデータ（動画ファイルエントリの下位階層のメタデータエントリ）についても、検出された顔が何れかの登録顔に該当すると判断された場合に、検出された顔から抽出された特徴量を格納するようにしてもよい。

本発明の実施の形態では、検出された顔に関する顔データを記録する場合には、検出された時刻順序に顔データを記録する。これにより、時間順で検索する場合に迅速に行うことができる。さらに、同一の動画コンテンツファイルにおいては、全ての顔データに含まれるメタデータの種別は同じものとし、図１６に示す順序で顔データを記録する。ただし、図１６に示す全てのデータを記録する必要はないが、同一の動画コンテンツファイルで同種のメタデータを記録する。これにより、全ての顔データが固定長となり、顔データへのアクセス性を向上させることができる。また、同一の動画コンテンツファイルで同種のメタデータが格納されているため、所定のメタデータへのアクセスを向上させることができる。

図１７は、本発明の実施の形態におけるヘッダ部６３０（図１５に示す）の顔データ構造フラグ６６０のデータ構造を示す図である。図１８乃至図２２は、本発明の実施の形態における顔データ構造フラグ６６０に格納されたビットと、顔データ部６４０に格納された顔データとの関係を示す図である。

本発明の実施の形態では、図１６に示すように、顔データ部６４０において７個のメタデータが定義されている。このため、顔データ構造フラグ６６０のＬＳＢ（Least Significant Bit）から順番に、顔データ部６４０の順序に従って、０−６ビットにそれぞれのデータが割り当てられる。そして、顔データ構造フラグ６６０の各ビットには、顔メタデータのデータフィールドのデータの有無が格納される。すなわち、顔データ構造フラグ６６０の各ビットには、顔メタデータのデータフィールドにデータが存在する場合には「１」が格納され、データが存在しない場合には「０」が格納される。このように、顔データ部６４０に存在するメタデータが存在する場合には、対応するビットに「１」が設定される。なお、７ビット目以降は将来の顔データ内部のデータの拡張のための予約領域となる。

具体的に、例えば、動画コンテンツファイルに関する顔メタデータについては、図１８（ａ）に示すように、顔データ部６４０には、メタデータバージョンが「１．００」で規定されたデータが格納されているものとする。この場合には、図１８（ｂ）に示すように、ＬＳＢから０−６ビットのそれぞれには「１」が格納される。なお、撮像装置１００は定義された全てのデータを記録する必要はなく、必要なデータのみを記録することができる。これにより、顔メタデータを利用するアプリケーションに応じた柔軟な顔メタデータの記録が可能となり、データ量を削減することも可能となる。

また、例えば、登録顔に関する顔メタデータ（登録顔エントリの下位階層のメタデータエントリ）については、図１９（ａ）に示すように、顔データ部６４０には、個人識別ＩＤおよび顔特徴量のデータが格納されているとする。この場合には、図１９（ｂ）に示すように、ＬＳＢから０−４ビットのそれぞれには「０」が格納され、５−６ビットのそれぞれには「１」が格納される。

また、動画コンテンツファイルに関する顔メタデータ（動画ファイルエントリの下位階層のメタデータエントリ）については、例えば、図２０乃至図２０に示すように、顔データ部６４０におけるメタデータを定義することができる。

例えば、図２０（ａ）に示すように、顔データ部６４０には、メタデータバージョンが「１．００」で規定された７つのデータのうちの３つのデータが、他のコンテンツ記録装置によって格納されているものとする。この場合には、記録される顔データの順序は、図１６に示す順序となり、記録されないデータの分はつめて記録される。図２０（ｂ）は、上記他のコンテンツ記録装置によって記録された顔データ構造フラグ６６０の実データの例を示すものであり、顔データとして存在するデータフィールドに割り当てられたフラグに「１」が格納される。このように、メタデータバージョンが「１．００」で規定された範囲内であれば、撮像装置１００は、何れのメタデータでも記録することができる。また、顔メタデータを再生するコンテンツ再生装置は、他のコンテンツ記録装置により異なるメタデータが記録されていたとしても、ヘッダ部６３０の情報を参照することによって顔データ内部のメタデータの有無を確認することができる。また、顔データが固定長であるため、所望のメタデータへのアクセスを高速に行うことが可能となる。

次に、本発明の実施の形態における顔データ部６４０に格納される顔データの拡張方法について図面を参照して説明する。

将来的に顔検出技術が向上した場合や検出された顔の結果を新たなアプリケーションで利用する場合等において、メタデータバージョンが「１．００」で規定された顔メタデータのみでは不十分な場合が想定される。そこで、以下では、顔データ部６４０に格納される顔データを拡張する場合の例を示す。

図２１（ａ）に拡張された顔データの例を示す。ここでは、検出された顔の性別度合いを示す「性別スコア」と、フレーム上の顔の傾き度合いを示す「角度情報」とが拡張された顔データとして示されている。これらを追加した顔メタデータのメタデータバージョンが「１．１０」として定義され、ヘッダ部６３０のメタデータバージョン６３２のフィールドには「１．１０」が記録される。メタデータの拡張の方法は、前バージョンで定義されたデータ下に新規メタデータを追加する形で行われる。具体的には、データを記録媒体１６０に記録する際には、顔データ単位でバージョン「１．００」で規定されたデータが記録された物理アドレスに連続する物理アドレスからバージョン「１．１０」で規定されたデータを記録する。そして、バージョン「１．１０」規定のメタデータが記録された物理アドレスに連続するアドレスに同様に次の顔データ単位のメタデータの記録が開始される。

図２２には、バージョン「１．１０」で定義されたメタデータのうち、ある記録装置によって記録されたメタデータを示す。図２２に示すように、例えば、図２１（ａ）に示す拡張された顔データが記録される場合でも、図２１（ａ）に示す顔データの全てが記録される必要はない。ただし、このように記録されない顔データが存在する場合には、図２１（ａ）に示す顔データのうちの所定の顔データが図２２（ａ）に示す順序で記録されるとともに、顔データが記録されないフィールド分はつめて記録される。

さらに、バージョン「１．１０」へのバージョンアップにともない顔データ構造フラグも拡張され、バージョン「１．００」時には予約領域だったビットに、図２１（ａ）で定義されたフィールド順序に従い新規ビットが割り当てられる。そして、顔データ部にデータが存在するビットには、図２１（ｂ）のように「１」がセットされる。これにより、バージョン「１．１０」に対応した再生装置では、ヘッダ部の顔データ構造フラグのビット列を確認することにより、顔データ部のデータ構造を理解可能となり、個々の顔データは固定長となるため所望のメタデータまで迅速にアクセス可能となる。

さらに、バージョン「１．１０」に対応する記録装置によって、着脱可能な記録媒体に顔メタデータが記録され、この記録媒体がバージョン「１．００」にのみ対応する再生装置に移動された場合を考える。この場合において、この再生装置はヘッダ部の顔データ構造フラグの０−６ビットまでは認識可能である。また、顔データサイズの仕様が変わっていないため、バージョン「１．００」で想定されていない顔データが格納されていたとしても、この再生装置は、バージョン「１．００」で規定されている顔データを認識することが可能である。例えば、図２２に示す例では、この再生装置は、「顔検出時刻情報」、「顔基本情報」、「顔スコア」、「顔重要度」、「個人識別ＩＤ」、「顔特徴量」を理解することができる。このため、この再生装置は、これらのメタデータへのアクセスが可能である。このように、メタデータエントリは、アクセス性に優れているデータ構造であるとともに、記録機または再生機のバージョンが変更された場合でも、この変更に対応することが可能である。

次に、本発明の実施の形態における撮像装置１００の機能構成について図面を参照して説明する。

図２３は、本発明の実施の形態における撮像装置１００の記録に関する機能構成例を示すブロック図である。撮像装置１００は、操作受付部１４０と、撮像部２１１と、顔検出部２１２と、顔メタデータ作成部２１３と、コンテンツ管理情報作成部２１４と、代表サムネイル画像抽出部２１５と、コンテンツ属性情報作成部２１６とを備える。また、撮像装置１００は、正規化部２２０と、特徴量抽出部２２１と、顔識別部２２２と、記録制御部２２３と、コンテンツ管理ファイル記憶部２５０と、コンテンツ記憶部２６０とを備える。なお、操作受付部１４０は、図１に示すものと同一であるため、同一の符号を付して詳細な説明は省略する。

コンテンツ管理ファイル記憶部２５０は、階層構造により構成される階層エントリを記録するコンテンツ管理ファイル３４０を記憶するものである。なお、コンテンツ管理ファイル３４０の詳細については、図３乃至図１１等に示す。また、コンテンツ管理ファイル記憶部２５０は、特許請求の範囲に記載の記憶部の一例である。

コンテンツ記憶部２６０は、動画や静止画等のコンテンツファイルを記憶するものである。なお、コンテンツ管理ファイル記憶部２５０およびコンテンツ記憶部２６０は、例えば、図１に示す記録媒体１６０に対応する。

撮像部２１１は、撮像画像（フレーム）を生成するものであり、生成された撮像画像を各部に出力するものである。すなわち、生成された撮像画像が、顔検出部２１２、顔メタデータ作成部２１３、コンテンツ管理情報作成部２１４、代表サムネイル画像抽出部２１５、コンテンツ属性情報作成部２１６、正規化部２２０および記録制御部２２３に出力される。撮像部２１１は、例えば、図１に示すカメラ部１１０およびカメラＤＳＰ１２０に対応する。

顔検出部２１２は、撮像部２１１から出力された撮像画像に含まれる顔を検出するものであり、検出された顔の出現時刻および位置等を顔メタデータ作成部２１３および正規化部２２０に出力する。なお、同一時刻の画像から複数の顔が検出された場合には、検出された各顔についての出現時刻および位置等が出力される。ここで、顔検出方法として、例えば、顔の輝度分布情報が記録されているテンプレートと実画像とのマッチングによる顔検出方法（例えば、特開２００４−１３３６３７参照。）、撮像画像に含まれる肌色の部分や人間の顔の特徴量等に基づいた顔検出方法等を用いることができる。

顔メタデータ作成部２１３は、撮像部２１１から出力された撮像画像に基づいて顔メタデータを作成するものであり、作成された顔メタデータを記録制御部２２３に出力する。顔メタデータ作成部２１３は、顔データ作成部２１８およびヘッダ情報作成部２１９を含む。顔データ作成部２１８は、顔検出部２１２により検出された顔の出現時刻および位置等に基づいてその顔に関する顔データ（図１６の顔データ部６４０の各データ）を作成するものである。また、ヘッダ情報作成部２１９は、顔データ作成部２１８により作成された顔データを管理するヘッダ情報（図１５のヘッダ部６３０の各情報）を作成するものである。顔データ作成部２１８により作成された顔データおよびヘッダ情報作成部２１９により作成されたヘッダ情報は、記録制御部２２３に出力される。また、顔データ作成部２１８は、所定間隔で検出された顔のうちで所定条件を満たさない顔については、顔に関する顔データを作成しないようにしてもよい。

コンテンツ管理情報作成部２１４は、撮像部２１１から出力された撮像画像により構成されるコンテンツを管理するためのコンテンツ管理情報４０１（図８に示す）を、そのコンテンツに基づいて作成するものである。そして、作成されたコンテンツ管理情報を記録制御部２２３に出力する。

代表サムネイル画像抽出部２１５は、撮像部２１１から出力された撮像画像により構成されるコンテンツから、そのコンテンツの代表サムネイル画像５０１乃至５０６（図５等に示す）を抽出するものである。そして、抽出された代表サムネイル画像をコンテンツ属性情報作成部２１６および記録制御部２２３に出力する。

コンテンツ属性情報作成部２１６は、撮像部２１１から出力された撮像画像により構成されるコンテンツに関するコンテンツ属性情報４０２（図８に示す）を、そのコンテンツに基づいて作成するものである。そして、作成されたコンテンツ属性情報を記録制御部２２３に出力する。また、コンテンツ属性情報作成部２１６は、代表サムネイル画像抽出部２１５により抽出された代表サムネイル画像の記録位置を含めて属性情報を作成する。すなわち、代表サムネイル画像抽出部２１５により抽出された代表サムネイル画像に対応するコンテンツに関するコンテンツ属性情報に、その代表サムネイル画像のサムネイルファイル５００における記録位置（サムネイルアドレス）を含めて属性情報が作成される。

正規化部２２０は、顔検出部２１２により検出された顔に対応する顔画像について、その顔に含まれる両目に基づいて正規化を行うものであり、正規化された顔画像（正規化顔画像）を特徴量抽出部２２１および記録制御部２２３に出力する。なお、両目の検出方法として、例えば、顔検出方法と同様に、目の輝度分布情報が記録されているテンプレートと実画像とのマッチングによる目検出方法等を用いることができる。また、正規化部２２０は、正規化を行うための正規化テンプレートを保持し、この正規化テンプレートに基づいて顔画像を正規化する。この正規化テンプレートとして、例えば、図２４（ｃ）に示すように、顔画像における両目の位置を基準とする正規化テンプレート２８０を用いることができる。すなわち、正規化部２２０は、顔画像における両目の位置が、正規化テンプレート２８０における両目の位置と合致するように、顔画像に拡大縮小処理および回転処理を施すとともに解像度変換を施し、その顔画像を正規化する。なお、顔画像の正規化および正規化テンプレートについては、図２４を参照して詳細に説明する。

特徴量抽出部２２１は、正規化部２２０から出力された正規化顔画像における特徴量を抽出するものであり、抽出された特徴量を顔識別部２２２および記録制御部２２３に出力する。この特徴量は、顔識別部２２２による顔識別処理に用いられる特徴量であり、顔データ部６４０の顔特徴量６４７に特徴量を抽出する際に用いられるアルゴリズムが記録されている。

顔識別部２２２は、顔検出部２１２により検出された顔が、コンテンツ管理ファイル記憶部２５０に記憶されている登録顔であるか否かを識別するものであり、識別結果を記録制御部２２３に出力する。すなわち、顔識別部２２２は、特徴量抽出部２２１から出力された特徴量と、登録顔エントリの下位階層に連結されているメタデータエントリに格納されている特徴量とを比較することにより、顔検出部２１２により検出された顔が登録顔であるか否かを識別する。また、識別結果として、例えば、識別された登録顔に対応する個人識別ＩＤおよび顔検出時刻情報が記録制御部２２３に出力される。なお、複数の登録顔エントリがコンテンツ管理ファイル記憶部２５０に記憶されている場合には、各登録顔エントリの下位階層に連結されているメタデータエントリに格納されている特徴量を用いて、それぞれ識別処理が行われる。この顔識別方法として、例えば、比較対象となる登録顔画像および正規化顔画像のそれぞれから特徴量を抽出し、この抽出された特徴量に基づいて顔識別を行う顔識別方法を用いることができる。すなわち、登録顔画像から抽出された特徴量と、正規化顔画像から抽出された特徴量とが比較されることにより、これらの特徴量の類似度が算出される。そして、この算出された類似度が閾値を超えた場合に、その正規化顔画像に含まれる顔が登録顔であると判定される。また、顔識別方法として、例えば、比較対象となる登録顔画像および正規化顔画像のそれぞれの画像上の２点間の特徴量の差分値を用いた弱判別器による識別処理を行う識別方法を用いることができる。さらに、例えば、特徴量として特徴ベクトルを用いて識別処理を行う識別方法を用いることができる（例えば、特開２００８−１２９８３０号参照。）

記録制御部２２３は、コンテンツ管理情報作成部２１４により作成されたコンテンツ管理情報４０１とコンテンツ属性情報作成部２１６により作成されたコンテンツ属性情報４０２とを含む動画ファイルエントリをコンテンツ管理ファイル記憶部２５０に記録する。また、記録制御部２２３は、顔メタデータ作成部２１３により作成された顔メタデータを含むメタデータエントリを、その顔メタデータが作成されたコンテンツファイルに対応する動画ファイルエントリの下位階層に記録する。さらに、記録制御部２２３は、代表サムネイル画像抽出部２１５により抽出された代表サムネイル画像をサムネイルファイル５００としてコンテンツ管理ファイル記憶部２５０に記録する。また、記録制御部２２３は、顔識別部２２２から登録顔であることを識別した識別結果が出力された場合には、作成されたメタデータエントリにその識別結果を記録する。また、その登録顔に対応する登録顔エントリの識別番号を、作成された動画ファイルエントリに記憶する。さらに、作成された動画ファイルエントリのエントリ番号をその登録顔に対応する登録顔エントリに記憶する。また、記録制御部２２３は、登録顔を登録処理する場合には、正規化部２２０から出力された正規化顔画像を登録顔画像としてサムネイルファイル５００に記録する。また、記録制御部２２３は、特徴量抽出部２２１から出力された特徴量に基づいて顔メタデータのヘッダ部６３０に記録されるヘッダ情報を作成する。そして、作成されたヘッダ情報を記録するヘッダ部と、その特徴量に対応する顔データを記録する顔データ部とを含むメタデータエントリを作成する。また、記録制御部２２３が、作成されたメタデータエントリに対応する登録顔を管理する登録顔エントリを作成する。そして、作成されたメタデータエントリおよび登録顔エントリをコンテンツ管理ファイル記憶部２５０に記録する。なお、記録制御部２２３は、特許請求の範囲に記載の制御部の一例である。

図２４は、本発明の実施の形態における撮像画像に含まれる顔を識別する場合、および、撮像画像に含まれる顔を登録顔画像として登録する場合における遷移を概略的に示す図である。図２４（ａ）には、撮像部２１１から出力されたフレームに対応する画像２７０を示し、図２４（ｂ）には、顔検出部２１２により検出された顔を含む顔画像２７３を示す。また、図２４（ｃ）は、正規化テンプレート２８０を用いて正規化された正規化顔画像２７６を示し、図２４（ｄ）には、正規化顔画像２７６に含まれる顔を識別する場合、および、正規化顔画像２７６を登録顔画像として登録する場合を示す。なお、画像２７０に含まれる人物を甲田一郎５２１とする。

図２４（ａ）に示すように、例えば、撮像部２１１から出力された画像２７０が顔検出部２１２に入力されると、顔検出部２１２は画像２７０に含まれる甲田一郎５２１の顔２７２を検出する。なお、図２４（ｂ）では、顔画像２７３に含まれる甲田一郎５２１の顔２７２の両目の中心位置を目の位置２７４および２７５として示す。

正規化部２２０は、顔画像２７３に含まれる両目の位置２７４および２７５が、図２４（ｃ）に示す正規化テンプレート２８０における基準位置２８１および２８２に合致するように、顔画像２７３について拡大縮小処理および回転処理等を行う。ここで、正規化テンプレート２８０は、正規化部２２０に保持されて、正規化部２２０が正規化を行う際に用いられるテンプレートである。例えば、顔画像２７３について回転処理が行われ、正規化された顔画像である正規化顔画像２７６が生成される。図２４（ｃ）に示すように、正規化顔画像２７６は、顔２７２の目の位置２７４および２７５が、正規化テンプレート２８０における基準位置２８１および２８２に合致する。

図２４（ｄ）に示すように、正規化部２２０により正規化された正規化顔画像２７６が特徴量抽出部２２１に入力されると、特徴量抽出部２２１は正規化顔画像２７６から特徴量を抽出する。この抽出された特徴量が、顔識別部２２２に出力されると、顔識別部２２２は、登録顔エントリの下位階層に連結されているメタデータエントリに記録されている特徴量を用いて顔識別処理を行う。この顔識別処理の結果が、記録制御部２２３に出力される。例えば、顔識別処理の結果、正規化顔画像に含まれる顔が登録顔であると識別された場合には、識別された登録顔に対応する個人識別ＩＤおよび顔検出時刻情報が記録制御部２２３に出力される。

また、図２４（ｄ）に示すように、登録ボタンが押下された場合には、正規化部２２０から出力された正規化顔画像がサムネイルファイル５００に記録されるとともに、この正規化顔画像に対応する登録顔エントリがプロパティファイル４００に作成される。また、その登録顔エントリの下位階層に連結してメタデータエントリが作成され、このメタデータエントリに特徴量抽出部２２１から出力された特徴量が記録される。例えば、甲田一郎５２１の顔を登録する場合には、図２４（ｄ）に示すように、サムネイルファイル５００に登録顔画像５１１が記録される。そして、登録顔画像５１１から抽出された特徴量が記録されたメタデータエントリ（＃１０）４６２が作成され、このメタデータエントリ（＃１０）４６２がプロパティファイル４００に記録される。

このように、特定人物の顔を登録する場合には、正規化顔画像を登録顔画像として登録することができる。なお、撮像時における顔画像を登録顔画像として登録するようにしてもよい。また、例えば、顔識別処理により、検出された顔が登録顔ではないと識別された場合には、その検出された顔を新たな登録顔として順次登録するようにしてもよい。

ここで、例えば、動画コンテンツファイルを記録媒体１６０に記録する場合において、顔検出部２１２により検出された全ての顔毎に顔データが作成された場合には、作成された顔データの容量が莫大なものになる。また、顔を検出する時間間隔を短く設定する場合には、さらに容量が増加することが想定され、記録媒体１６０に記録されるデータ容量が増加する。そこで、記録媒体１６０に記録されるデータ容量を削減するため、以下では、不必要な顔データを記録することを防止する例について説明する。

例えば、１フレーム内において検出された顔のうちで、顔データ部６４０に記録すべき顔データの値を規定することができる。例えば、１フレーム内において検出された顔の大きさや位置、顔スコアの上位の顔等の所定の条件に基づいて、顔データ部６４０に記録する顔データの最大値を規定して制限することができる。また、例えば、顔データ部６４０に格納する顔の個数の上限値を予め決めておき、検出された顔が上限値を超えた場合には、検出された顔の大きさや位置等に基づいて、顔メタデータを制限するようにしてもよい。このように制限することによって、１フレーム内において不必要な顔（条件の悪い顔、顔らしくない顔等）を顔データ部６４０に記録することによる記録媒体１６０の容量圧迫を防止することができる。このように、１フレーム内において検出された顔の全てについて顔データを作成する必要はない。

また、例えば、顔検出対象となる連続するフレームから検出された顔の個数に変化がある場合にのみ、顔データを記録するようにしてもよい。この例については、図２５を参照して詳細に説明する。

図２５は、動画コンテンツファイルを構成するフレーム８２３乃至８２８において検出された顔と、顔データ部６４０に記録される顔データ８１１乃至８２２との関係を示す図である。なお、図２５では、フレーム８２３乃至８２８において検出された顔を四角の枠で囲んだ状態を示す。また、フレーム８２３または８２４では１人の顔が検出され、フレーム８２５または８２７では２人の顔が検出され、フレーム８２６または８２８では３人の顔が検出されたものとする。

図２５に示す例では、コンテンツ管理ファイル３４０に顔データを記録する条件として、条件（１）および条件（２）を設定する場合を示す。条件（１）は、ある検出時刻のフレームにおいて検出された顔の個数と、次の検出時刻のフレームにおいて検出された顔の個数とが同数である場合には、次の検出時刻で検出された顔に関する顔データを顔データ部６４０に記録しないとする条件である。これは、検出された顔の個数が同数であるため、同じ顔に関するメタデータが記録される可能性が高いためである。また、条件（２）は、ある検出時刻のフレームにおいて検出された顔の個数よりも、次の検出時刻のフレームにおいて検出された顔の個数が少ない場合には、次の検出時刻で検出された顔に関する顔データを顔データ部６４０に記録しないとする条件である。これは、検出された顔の個数が少ない場合でも、同じ顔に関するメタデータが記録される可能性が高いためである。

例えば、検出時刻ｔ１のフレーム８２３において検出された顔の数と、検出時刻ｔ２のフレーム８２４において検出された顔の数とが同数である。この場合には、検出時刻ｔ１のフレーム８２３において検出された顔の顔データは顔データ部６４０に記録されるが、検出時刻ｔ２のフレーム８２４において検出された顔の顔データは顔データ部６４０に記録されない。また、時刻ｔ５のフレーム８２７において検出された顔の数は、時刻ｔ４のフレーム８２６において検出された顔の数よりも少ない。この場合も同様に、検出時刻ｔ４のフレーム８２６において検出された顔の顔データが顔データ部６４０に記録されるが、検出時刻ｔ５のフレーム８２７において検出された顔の顔データは顔データ部６４０に記録されない。このように、顔検出対象となる連続するフレームから検出された顔の個数に増加の変化がある場合にのみ、顔データを記録する。これにより、記録媒体１６０に略同一の重複する顔データが記録されることを防止することができる。

図２６は、本発明の実施の形態における撮像装置１００の再生に関する機能構成例を示すブロック図である。撮像装置１００は、操作受付部１４０と、選択部２３１と、抽出部２３２と、描画部２３３と、表示部２３４と、コンテンツ管理ファイル記憶部２５０と、コンテンツ記憶部２６０とを備える。なお、操作受付部１４０は、図１に示すものと同一であるため、同一の符号を付して詳細な説明は省略する。

コンテンツ管理ファイル記憶部２５０は、図２３示す記録制御部２２３により記録されたコンテンツ管理ファイル３４０を記憶するものである。そして、コンテンツ管理ファイル３４０に記録されている各エントリおよび各画像を選択部２３１および抽出部２３２に供給する。

コンテンツ記憶部２６０は、図２３示す記録制御部２２３により記録されたコンテンツファイルを記憶するものである。そして、記録されている各コンテンツファイルを抽出部２３２に供給する。

選択部２３１は、操作受付部１４０から入力された操作入力に応じた選択処理を実行し、この選択結果を抽出部２３２に出力するものである。具体的には、選択部２３１は、表示部２３４に表示されている登録顔画像のうちから１つの登録顔画像を選択する選択操作を操作受付部１４０から入力すると、選択された登録顔画像に対応する登録顔エントリのリストに記録されているエントリ番号を選択する。そして、その選択された登録顔エントリのエントリ番号を抽出部２３２に出力する。また、選択部２３１は、表示部２３４に表示されている代表サムネイル画像のうちから１つの代表サムネイル画像を選択する選択操作を操作受付部１４０から入力すると、選択された代表サムネイル画像に対応するファイルエントリを選択する。そして、その選択されたファイルエントリのエントリ番号を抽出部２３２に出力する。また、選択部２３１は、表示部２３４に表示されている顔サムネイル画像のうちから１つの顔サムネイル画像を選択する選択操作を操作受付部１４０から入力すると、選択された顔サムネイル画像に対応する顔データを選択する。そして、その選択された顔データの顔検出時刻情報６４１を抽出部２３２に出力する。すなわち、選択部２３１は、コンテンツ管理ファイル記憶部２５０に記憶されているコンテンツ管理ファイル３４０に記録されている各エントリの中から所望のエントリを選択するものである。また、メタデータエントリに含まれる顔メタデータの顔データの中から所望の顔データを選択するものである。

抽出部２３２は、選択部２３１から出力されたエントリ番号に基づいて、コンテンツ管理ファイル記憶部２５０に記憶されている登録顔画像または代表サムネイル画像を抽出するものである。また、抽出部２３２は、選択部２３１から出力されたエントリ番号に基づいて、コンテンツ記憶部２６０に記憶されているコンテンツファイルを抽出する。また、抽出部２３２は、選択部２３１から出力されたエントリ番号に対応するファイルエントリの下位階層に記録されているメタデータエントリに含まれる顔データを抽出する。そして、この顔データに含まれる顔検出時刻情報および位置等に基づいて、この顔データに対応する顔サムネイル画像をコンテンツファイルから抽出する。さらに、抽出部２３２は、選択部２３１から出力された顔データの顔検出時刻情報６４１が含まれるメタデータエントリの上位階層に記録されているファイルエントリに基づいてコンテンツファイルを抽出する。そして、その顔検出時刻情報６４１に対応する記録時間以降に記録された動画を、コンテンツ記憶部２６０に記憶されているコンテンツファイルから抽出する。なお、抽出部２３２は、これらの抽出した結果を描画部２３３に出力する。なお、これらの選択および抽出については、図２７乃至図３１を参照して詳細に説明する。

描画部２３３は、抽出部２３２から出力された抽出結果に基づいて画像を描画するものである。すなわち、抽出部２３２から出力された抽出結果に基づいて、コンテンツ記憶部２６０に記憶されているコンテンツファイルから抽出された顔サムネイル画像や、コンテンツ記憶部２６０に記憶されているコンテンツファイルから抽出された動画等を描画する。また、描画部２３３は、コンテンツ管理ファイル記憶部２５０のサムネイルファイル５００に記憶されている代表サムネイル画像を描画するものである。

表示部２３４は、描画部２３３により描画された画像を表示するものである。なお、表示部２３４は、例えば、図１に示すＬＣＤ１８０に対応する。また、表示部２３４の表示例については、図２７乃至図３１を参照して詳細に説明する。

次に、プロパティファイル４００およびサムネイルファイル５００を用いて動画コンテンツファイルを再生させる場合について図面を参照して詳細に説明する。

図２７は、本発明の実施の形態における登録顔エントリ（＃７）４６１と、動画ファイルエントリ（＃４４）４２３と、メタデータエントリ（＃４７）４２４と、サムネイルファイル５００と、動画コンテンツファイル３１２との関係を概略的に示す図である。

例えば、登録顔エントリ（＃７）４６１には、登録顔画像５１１のサムネイルアドレスを示す「＃１１」が格納されている。また、登録顔画像５１１に含まれる登録顔が登場する動画コンテンツファイル３１２に対応する動画ファイルエントリ（＃４４）４２３のエントリ番号「＃４４」が格納されている。

また、例えば、動画ファイルエントリ（＃４４）４２３には、動画コンテンツファイル３１２のコンテンツアドレスを示す「Ａ３１２」と、動画コンテンツファイル３１２の代表サムネイル画像５０２のサムネイルアドレスを示す「＃０２」が格納されている。また、動画ファイルエントリ（＃４４）４２３の子エントリリストには、動画コンテンツファイル３１２に関するメタデータが格納されているメタデータエントリ（＃４７）４２４のエントリ番号「＃４７」が格納されている。また、メタデータエントリ（＃４７）４２４の親エントリリストには、動画ファイルエントリ（＃４４）４２３のエントリ番号「＃４４」が格納されている。さらに、メタデータエントリ（＃４７）４２４の顔メタデータには、図１６に示すように、検出された顔に関する各種の顔メタデータが格納されている。

例えば、メタデータエントリ（＃４７）４２４の顔メタデータの顔検出時刻情報に基づいて、動画コンテンツファイル３１２の各フレームのうちの１つのフレーム（例えば、フレーム７０４）を特定することができる。また、メタデータエントリ（＃４７）４２４の顔メタデータの顔基本情報に基づいて、特定されたフレームから顔画像を取り出すことができる。さらに、メタデータエントリ（＃４７）４２４の顔メタデータの個人識別ＩＤに基づいて、特定人物の顔画像のみを取り出すことができる。なお、図２７では、これらの対応関係を矢印で示す。

このように各エントリの内容を関連付けて管理することによって、コンテンツファイルおよび特定人物の顔画像のサーチを迅速に行うことができる。以下では、コンテンツ管理ファイル３４０を用いたアプリケーションについて図面を参照して詳細に説明する。

図２８乃至図３１は、本発明の実施の形態におけるコンテンツ管理ファイル３４０を用いたアプリケーションの一例を示す図である。この例では、甲田一郎５２１が登場する動画コンテンツファイルを検索し、この動画コンテンツファイルについて甲田一郎５２１が登場する場面から再生を開始させる場合について説明する。

例えば、甲田一郎５２１の顔が登場する動画コンテンツファイルを検索するため、登録顔の一覧を表示させる登録顔画像一覧表示の指示操作を操作受付部１４０からユーザが行う。この指示操作が受け付けられると、プロパティファイル４００がオープンされ、プロパティファイル４００における登録顔エントリがサーチされる。続いて、全ての登録顔エントリに記録されたサムネイルファイル５００のサムネイルアドレスが抽出される。続いて、サムネイルファイル５００がオープンされ、図２８（ａ）に示すように、抽出されたサムネイルアドレスに基づいてサムネイルファイル５００から登録顔画像５１１乃至５１４が抽出される。そして、図２８（ｂ）に示すように、例えば、ＬＣＤ１８０上の登録顔画像表示領域７００に登録顔画像５１１乃至５１３が表示される。

ここで、例えば、登録顔画像表示領域７００に表示されている登録顔画像５１１乃至５１３の右側には、各登録顔エントリに記録されている登録顔の氏名が表示される。また、上ボタン７０１、７０５、下ボタン７０２、７０３の押下操作、または、スクロールバー７０２の移動操作により、登録顔画像表示領域７００に表示されている登録顔画像を上下に移動させ、他の登録顔画像を表示させることができる。他の登録顔画像として、例えば、登録顔画像５１４を表示させることができる。また、戻るボタン７０４の押下操作により、直前に表示されている画面に戻ることができる。なお、図２８乃至図３１では、表示画面に表示されている各画像のうちで、ユーザにより選択された画像に選択マーク７０７を付して説明する。例えば、図２８（ｂ）では、登録顔画像５１１に選択マーク７０７が付されている状態を示す。この登録顔画像の選択操作は、例えば、ユーザによるＬＣＤ１８０上のタッチパネルの押下操作により行うことができる。

図２８（ｂ）に示す表示画面において、例えば、登録顔画像５１１の選択操作が行われた場合には、プロパティファイル４００がオープンされる。そして、図２９（ａ）に示すように、選択された登録顔画像５１１に対応する登録顔エントリ（＃７）４６１の登録顔登場コンテンツリストに記録されている各エントリ番号に対応する動画ファイルエントリが抽出される。例えば、登録顔エントリ（＃７）４６１の登録顔登場コンテンツリストに記録されているエントリ番号「＃３７」、「＃４４」、「＃６９」に対応する各動画ファイルエントリが抽出される。続いて、抽出された動画ファイルエントリ（＃３７）４２１、（＃４４）４２３および（＃６９）４４１に記録されているサムネイルアドレス「＃０１」、「＃０２」、「＃０５」が抽出される。続いて、サムネイルファイル５００がオープンされ、抽出されたサムネイルアドレスに基づいてサムネイルファイル５００から代表サムネイル画像５０１、５０２および５０５が抽出される。そして、図２９（ｂ）に示すように、例えば、ＬＣＤ１８０上の代表サムネイル画像表示領域７１０に代表サムネイル画像５０１、５０２および５０５が表示される。

ここで、例えば、代表サムネイル画像表示領域７１０の左側には、直前の画面で選択操作が行われた特定人物の顔画像（例えば、登録顔画像５１１）が表示される。なお、代表サムネイル画像表示領域７１０に表示可能な代表サムネイル画像の数よりも、抽出された代表サムネイル画像の数が多い場合には、上ボタン、下ボタンまたはスクロールバーの操作により他の代表サムネイル画像を表示させることができる。また、戻るボタン７１４の押下操作により、図２８（ｂ）に示す登録顔画像の一覧画面に戻ることができる。

図２９（ｂ）に示す表示画面において、例えば、代表サムネイル画像５０２の選択操作が行われた場合には、プロパティファイル４００がオープンされる。そして、図３０（ａ）に示すように、代表サムネイル画像５０２に対応する動画ファイルエントリ（＃４４）４２３に記録されているコンテンツアドレス「Ａ３１２」に基づいて動画コンテンツファイル３１２が抽出される。また、動画ファイルエントリ（＃４４）４２３に格納されている子エントリリスト「＃４７」に基づいてメタデータエントリ（＃４７）４２４が抽出される。続いて、メタデータエントリ（＃４７）４２４に記録されている顔メタデータ（顔検出時刻情報６４１、顔基本情報６４２、個人識別ＩＤ６４６）に基づいて、動画コンテンツファイル３１２から甲田一郎の顔サムネイル画像が生成される。そして、図３０（ｂ）に示すように、例えば、ＬＣＤ１８０上の顔サムネイル画像表示領域７２０に顔サムネイル画像７２１乃至７２４が表示される。これらの顔サムネイル画像は、例えば、図３０（ｂ）に示すように、甲田一郎の顔を含む矩形画像である。なお、この例では、顔サムネイル画像を生成する場合に、個人識別ＩＤ６４６を用いて特定の顔を識別する例を示す。ただし、例えば、顔特徴量６４７に検出顔の特徴量を順次記録しておき、顔サムネイル画像を生成する場合に、この特徴量を用いて顔を識別して顔サムネイル画像を生成するようにしてもよい。

ここで、図３０（ｂ）には、顔サムネイル画像表示領域７２０に表示されている顔サムネイル画像７２１乃至７２４と、これらに対応する動画コンテンツファイル３１２の記録位置との対応関係を矢印で結んで示す。なお、顔サムネイル画像表示領域７２０に表示可能な顔サムネイル画像の数よりも、抽出された顔サムネイル画像の数が多い場合には、左ボタン、右ボタンまたはスクロールバーの操作により、他の顔サムネイル画像を表示させることができる。また、戻るボタン７３０の押下操作により、図２９（ｂ）に示す代表サムネイル画像の一覧画面に戻ることができる。

図３０（ｂ）に示す表示画面において、例えば、顔サムネイル画像７２３の選択操作が行われた場合には、プロパティファイル４００がオープンされる。そして、図３１（ａ）に示すように、メタデータエントリ（＃４７）４２４に記録されている顔メタデータの顔検出時刻情報の中から、顔サムネイル画像７２３に対応する顔検出時刻情報が抽出される。この場合に、選択された顔サムネイル画像７２３の先頭から順番に基づいて、メタデータエントリ（＃４７）４２４に格納されている顔メタデータから、顔サムネイル画像７２３に対応する顔データが特定される。そして、この特定された顔データに含まれる顔検出時刻情報が抽出される。続いて、抽出された顔検出時刻情報に基づいて、動画コンテンツファイル３１２のうちの顔検出時刻情報に対応する時刻からの動画がＬＣＤ１８０に表示される。例えば、図３０（ｂ）に示す動画コンテンツファイル３１２のフレーム位置７３１から動画が再生される。

また、例えば、図３１（ｂ）に示すように、顔サムネイル画像７２３に対応する顔が登場する場面からの動画が動画再生領域７４０に表示される。なお、操作ボタン７４１乃至７４４の押下操作により、動画再生領域７４０に表示されている動画の早送り、停止等を行うことができる。また、戻るボタン７４５の押下操作により、図３０（ｂ）に示す顔サムネイル画像の一覧画面に戻ることができる。

このように、特定人物（例えば、甲田一郎）が登場する動画を検索する場合に、その特定人物の登録顔画像をＬＣＤ１８０上で選択することにより、その特定人物が登場する動画を容易に検索することができる。また、その特定人物が登場する動画について、その人物が登場する場面から再生を開始させる場合には、検索された動画コンテンツに含まれる特定人物の顔サムネイル画像をＬＣＤ１８０上に表示させる。そして、表示されている顔サムネイル画像をＬＣＤ１８０上で選択することにより、選択された顔サムネイル画像に含まれる特定人物が登場する場面から再生を開始させることができる。

このように、特定人物が登場するコンテンツファイルを表示させる場合には、全てのコンテンツファイルをオープンさせずに、プロパティファイルおよびサムネイルファイルのみをオープンさせればよいため、迅速な処理が可能となる。また、スロットによる固定長管理（エントリ番号管理）であるため、さらに迅速な処理が可能となる。

次に、本発明の実施の形態における撮像装置１００の動作について図面を参照して説明する。

図３２は、本発明の実施の形態における撮像装置１００による登録顔の登録処理の処理手順を示すフローチャートである。この例では、登録顔記録モードが設定されている場合に登録顔を登録する登録処理について説明する。

最初に、登録顔記録モードが設定されているか否かが判断される（ステップＳ９０１）。登録顔記録モードが設定されていない場合には（ステップＳ９０１）、登録顔の登録処理を終了する。登録顔記録モードが設定されている場合には（ステップＳ９０１）、撮像部２１１により撮像画像が生成され（ステップＳ９０２）、生成された撮像画像にアシスト画像（図６に示す）を合成した合成画像がＬＣＤ１８０に表示される（ステップＳ９０３）。

続いて、登録ボタンが押下されたか否かが判断される（ステップＳ９０４）。登録ボタンが押下されない場合には（ステップＳ９０４）、ステップＳ９１９に進む。

登録ボタンが押下された場合には（ステップＳ９０４）、顔検出部２１２が、撮像画像に含まれる顔を検出する（ステップＳ９０５）。続いて、正規化部２２０が、検出された顔を含む顔画像を正規化して正規化顔画像を生成する（ステップＳ９０６）。続いて、特徴量抽出部２２１が、生成された正規化顔画像から特徴量を抽出する（ステップＳ９０７）。続いて、記録制御部２２３が、コンテンツ管理ファイル記憶部２５０のサムネイルファイル５００をオープンさせ（ステップＳ９０８）、生成された正規化顔画像を登録顔画像としてサムネイルファイル５００に記録する（ステップＳ９０９）。この際に、登録顔画像のサムネイルファイル５００のサムネイルアドレスをメモリに記録する。続いて、記録制御部２２３が、サムネイルファイル５００をクローズさせる（ステップＳ９１０）。

続いて、記録制御部２２３が、抽出された特徴量に基づいて顔メタデータのヘッダ部６３０に記録されるヘッダ情報を作成する（ステップＳ９１１）。続いて、記録制御部２２３が、作成されたヘッダ情報を記録するヘッダ部と、抽出された特徴量に対応する顔データを記録する顔データ部とを含むメタデータエントリを作成する（ステップＳ９１２）。

続いて、記録制御部２２３が、作成されたメタデータエントリに対応する登録顔を管理する登録顔エントリを作成する（ステップＳ９１３）。この登録顔エントリのサムネイルアドレスには、ステップＳ９０９でサムネイルファイル５００に記録された登録顔画像のサムネイルアドレスが記録される。

続いて、記録制御部２２３が、コンテンツ管理ファイル記憶部２５０のプロパティファイル４００をオープンさせる（ステップＳ９１４）。続いて、記録制御部２２３が、作成されたメタデータエントリおよび登録顔エントリに関するエントリ番号を計算し、この計算結果に基づいて、作成されたメタデータエントリおよび登録顔エントリをプロパティファイル４００に記録する（ステップＳ９１５）。つまり、メタデータエントリおよび登録顔エントリがスロット番号順にプロパティファイル４００に割り当てられる。

続いて、記録制御部２２３が、プロパティファイル４００に記録された登録顔エントリの子エントリリストにメタデータエントリのエントリ番号を記録し、メタデータエントリの親エントリリストに登録顔エントリのエントリ番号を記録する（ステップＳ９１６）。

続いて、記録制御部２２３が、プロパティファイル４００に記録された登録顔エントリが属する登録顔フォルダエントリの子エントリリストに、この登録顔エントリのエントリ番号を記録する。また、この登録顔エントリの親エントリリストに、登録顔フォルダエントリのエントリ番号を記録する（ステップＳ９１７）。続いて、記録制御部２２３が、プロパティファイル４００がクローズさせ（ステップＳ９１８）、登録顔記録モードが解除されたか否かが判断される（ステップＳ９１９）。登録顔記録モードが解除された場合には（ステップＳ９１９）、登録顔の登録処理を終了する。一方、登録顔記録モードが解除されていない場合には（ステップＳ９１９）、ステップＳ９０２に戻る。

図３３は、本発明の実施の形態における撮像装置１００によるコンテンツ管理ファイル３４０の記録処理の処理手順を示すフローチャートである。この例では、動画記録モードが設定されている場合に動画コンテンツファイルを記録する記録処理について説明する。

最初に、動画記録モードが設定されているか否かが判断される（ステップＳ９２１）。動画記録モードが設定されていない場合には（ステップＳ９２１）、コンテンツ管理ファイル３４０の記録処理を終了する。動画記録モードが設定されている場合には（ステップＳ９２１）、録画ボタンが押下されたか否かが判断される（ステップＳ９２２）。録画ボタンが押下されない場合には（ステップＳ９２２）、ステップＳ９２１に戻る。

録画ボタンが押下された場合には（ステップＳ９２２）、撮像部２１１が撮像画像を生成し（ステップＳ９２３）、顔検出部２１２が、撮像画像に含まれる顔を検出する顔検出処理を行う（ステップＳ９２４）。この顔検出処理については、生成された撮像画像毎に行うようにしてもよく、一定間隔毎の撮像画像について行うようにしてもよい。なお、ステップＳ９２４は、特許請求の範囲に記載の顔検出手順の一例である。続いて、撮像画像から顔が検出されたか否かが判断され（ステップＳ９２５）、撮像画像から顔が検出されていない場合には（ステップＳ９２５）、ステップＳ９３３に進む。なお、ステップＳ９２５において、撮像画像から顔が検出された場合でも、検出された顔が所定条件の範囲内の顔であるか否かを判断し、検出された顔が所定条件の範囲内の顔でなかった場合には、ステップＳ９３３に進むようにしてもよい。

一方、撮像画像から顔が検出された場合には（ステップＳ９２５）、顔データ作成部２１８が、検出された顔に基づいて顔データを作成する（ステップＳ９２６）。この作成された顔データは、録画ボタンが押下されるまでの間、メモリに記録される。また、生成された撮像画像が、先頭フレームに対応する撮像画像である場合には、代表サムネイル画像抽出部２１５によりその撮像画像（代表サムネイル画像）が抽出されてメモリに記録される。

続いて、正規化部２２０が、検出された顔を含む顔画像を正規化して正規化顔画像を生成する（ステップＳ９２７）。続いて、特徴量抽出部２２１が、生成された正規化顔画像から特徴量を抽出する（ステップＳ９２８）。続いて、顔識別部２２２が、コンテンツ管理ファイル記憶部２５０の各登録顔エントリに連結されているメタデータエントリに記録されている特徴量と、抽出された特徴量とを比較することにより顔識別処理を行う（ステップＳ９２９）。なお、ステップＳ９２９は、特許請求の範囲に記載の顔識別手順の一例である。この顔識別処理により、検出された顔が、登録顔エントリに管理されている登録顔であると識別されたか否かが判断される（ステップＳ９３０）。検出された顔が、登録顔であると識別されない場合には（ステップＳ９３０）、ステップＳ９３２に進む。一方、検出された顔が登録顔であると識別された場合には（ステップＳ９３０）、その登録顔に対応する登録顔エントリのエントリ番号、その登録顔に対応する個人識別ＩＤおよび顔検出時刻情報がメモリに記録される（ステップＳ９３１）。

続いて、撮像画像から検出された全ての顔について顔識別処理が終了したか否かが判断される（ステップＳ９３２）。撮像画像から検出された全ての顔について顔識別処理が終了していない場合には（ステップＳ９３２）、ステップＳ９２７に戻る。すなわち、１フレーム内の全ての顔について顔識別処理を繰り返す。一方、撮像画像から検出された全ての顔について顔識別処理が終了した場合には（ステップＳ９３２）、録画ボタンが押下されたか否かが判断される（ステップＳ９３３）。録画ボタンが押下されない場合には（ステップＳ９３３）、ステップＳ９２３に戻る。

録画ボタンが押下された場合には（ステップＳ９３３）、記録制御部２２３が、コンテンツ管理ファイル記憶部２５０のサムネイルファイル５００をオープンさせる（ステップＳ９３４）。そして、ステップＳ９２６でメモリに記録された先頭フレームに対応する撮像画像を代表サムネイル画像としてサムネイルファイル５００に記録する（ステップＳ９３５）。この際に、代表サムネイル画像のサムネイルファイル５００のサムネイルアドレスをメモリに記録する。続いて、記録制御部２２３が、サムネイルファイル５００をクローズさせる（ステップＳ９３６）。

続いて、ヘッダ情報作成部２１９が、メモリに記録されている顔データに基づいて顔メタデータのヘッダ部６３０に記録されるヘッダ情報を作成する（ステップＳ９３７）。続いて、記録制御部２２３が、作成されたヘッダ情報を記録するヘッダ部と、検出された顔に対応する顔データを記録する顔データ部とを含むメタデータエントリを作成する（ステップＳ９３８）。このメタデータエントリには、ステップＳ９３１でメモリに記録された顔検出時刻情報に対応する顔データに、ステップＳ９３１でメモリに記録された個人識別ＩＤが記録される。

続いて、記録制御部２２３が、撮像部２１１により生成された撮像動画に対応する動画コンテンツファイルを管理する動画ファイルエントリを作成する（ステップＳ９３９）。この動画ファイルエントリのサムネイルアドレスには、ステップＳ９３５でサムネイルファイル５００に記録された代表サムネイル画像のサムネイルアドレスが記録される。また、この動画ファイルエントリの登場登録顔リストには、ステップＳ９３１でメモリに記録された登録顔エントリのエントリ番号が記録される。

続いて、記録制御部２２３が、コンテンツ管理ファイル記憶部２５０のプロパティファイル４００をオープンさせる（ステップＳ９４０）。続いて、記録制御部２２３が、作成されたメタデータエントリおよび動画ファイルエントリに関するエントリ番号を計算する。そして、この計算結果に基づいて、作成されたメタデータエントリおよび動画ファイルエントリをプロパティファイル４００に記録する（ステップＳ９４１）。つまり、メタデータエントリおよび動画ファイルエントリがスロット番号順にプロパティファイル４００に割り当てられる。

続いて、記録制御部２２３が、プロパティファイル４００に記録された動画ファイルエントリの子エントリリストに、この動画ファイルエントリに属するメタデータエントリのエントリ番号を記録する。また、メタデータエントリの親エントリリストに、このメタデータエントリが属する動画ファイルエントリのエントリ番号を記録する（ステップＳ９４２）。

続いて、記録制御部２２３が、プロパティファイル４００に記録された動画ファイルエントリが属する動画フォルダエントリの子エントリリストに、この動画ファイルエントリのエントリ番号を記録する。また、この動画ファイルエントリの親エントリリストに、動画フォルダエントリのエントリ番号を記録する（ステップＳ９４３）。

続いて、記録制御部２２３が、ステップＳ９３１でメモリに記録されたエントリ番号に対応する登録顔エントリの登録顔登場コンテンツリストに、この動画ファイルエントリのエントリ番号を記録する（ステップＳ９４４）。なお、ステップＳ９４４は、特許請求の範囲に記載の制御手順の一例である。続いて、記録制御部２２３が、プロパティファイル４００がクローズさせ（ステップＳ９４５）、コンテンツ管理ファイル３４０の記録処理を終了する。

次に、動画コンテンツファイルを再生させる場合に、所望する登録人物が登場する動画コンテンツファイルについて、その登場人物が登場する場面から再生させる場合における動作について図面を参照して説明する。

図３４乃至図３６は、本発明の実施の形態における撮像装置１００による動画コンテンツファイルの再生処理の処理手順を示すフローチャートである。

操作受付部１４０からの操作入力を監視して、登録顔画像の一覧表示を指示する指示操作がされたか否かが判断される（ステップＳ９５１）。登録顔画像の一覧表示を指示する指示操作がされなければ（ステップＳ９５１）、操作入力の監視を継続する。

登録顔画像の一覧表示を指示する指示操作がされると（ステップＳ９５１）、プロパティファイル４００がオープンされ（ステップＳ９５２）、プロパティファイル４００から各登録顔エントリが抽出される（ステップＳ９５３）。続いて、抽出された登録顔エントリに記録されているサムネイルアドレスがメモリに順次記録される（ステップＳ９５４）。

続いて、プロパティファイル４００がクローズされ（ステップＳ９５５）、サムネイルファイル５００がオープンされる（ステップＳ９５６）。続いて、ステップＳ９５４でメモリに記録されたサムネイルアドレスに基づいて、サムネイルファイル５００から登録顔画像が読み出され、読み出された登録顔画像がメモリに順次記録される（ステップＳ９５７）。続いて、サムネイルファイル５００がクローズされる（ステップＳ９５８）。続いて、ステップＳ９５７でメモリに記録された登録顔画像がＬＣＤ１８０に表示される（ステップＳ９５９）。例えば、図２８（ｂ）に示すように表示される。

続いて、ＬＣＤ１８０に表示されている登録顔画像の中から１つの登録顔画像を選択する選択操作がされたか否かが判断される（ステップＳ９６０）。登録顔画像を選択する選択操作がされなければ（ステップＳ９６０）、操作入力の監視を継続する。

登録顔画像を選択する選択操作がされると（ステップＳ９６０）、プロパティファイル４００がオープンされ（ステップＳ９６１）、選択された登録顔画像に対応する登録顔エントリが抽出される（ステップＳ９６２）。続いて、抽出された登録顔エントリの登録顔登場コンテンツリストに記録されている動画ファイルエントリのエントリ番号が抽出され、抽出されたエントリ番号に基づいて動画ファイルエントリが抽出される（ステップＳ９６３）。続いて、抽出された動画ファイルエントリのエントリ番号がメモリに順次記録される（ステップＳ９６４）。

続いて、抽出された動画ファイルエントリに記録されているサムネイルアドレスがメモリに順次記録される（ステップＳ９６５）。続いて、プロパティファイル４００がクローズされ（ステップＳ９６６）、サムネイルファイル５００がオープンされる（ステップＳ９６７）。続いて、ステップＳ９６４でメモリに記録されたサムネイルアドレスに基づいて、サムネイルファイル５００から代表サムネイル画像が読み出され、読み出された代表サムネイル画像がメモリに順次記録される（ステップＳ９６８）。続いて、サムネイルファイル５００がクローズされる（ステップＳ９６９）。続いて、ステップＳ９６８でメモリに記録された代表サムネイル画像がＬＣＤ１８０に表示される（ステップＳ９７０）。例えば、図２９（ｂ）に示すように表示される。

続いて、ＬＣＤ１８０に表示されている代表サムネイル画像の中から１つの代表サムネイル画像を選択する選択操作がされたか否かが判断される（ステップＳ９７１）。代表サムネイル画像を選択する選択操作がされなければ（ステップＳ９７１）、操作入力の監視を継続する。

代表サムネイル画像を選択する選択操作がされると（ステップＳ９７１）、選択された代表サムネイル画像の順番に基づいて、ステップＳ９６４でメモリに記録された動画ファイルエントリのエントリ番号が抽出される（ステップＳ９７２）。続いて、プロパティファイル４００がオープンされ（ステップＳ９７３）、抽出されたエントリ番号に対応する動画ファイルエントリがプロパティファイル４００から抽出される（ステップＳ９７４）。

続いて、抽出された動画ファイルエントリの子エントリリストに記録されているメタデータエントリのエントリ番号が抽出され、抽出されたメタデータエントリのエントリ番号がメモリに記録される（ステップＳ９７５）。続いて、ステップＳ９７５でメモリに記録されたエントリ番号に対応するメタデータエントリがプロパティファイル４００から抽出される（ステップＳ９７６）。続いて、抽出されたメタデータエントリから顔メタデータが抽出され（ステップＳ９７７）、抽出された顔メタデータのヘッダ部の情報が確認される（ステップＳ９７８）。

続いて、ヘッダ部の情報に基づいて顔データが順次読み出され（ステップＳ９７９）、読み出された顔データに含まれる顔基本情報（顔検出時刻情報６４１、顔基本情報６４２、個人識別ＩＤ６４６）がメモリに順次記録される（ステップＳ９８０）。続いて、全ての顔データの読み出しが終了したか否かが判断される（ステップＳ９８１）。全ての顔データの読み出しが終了していなければ（ステップＳ９８１）、顔データの読み出しおよびメモリへの記録を継続する（ステップＳ９７９およびステップＳ９８０）。全ての顔データの読み出しが終了していれば（ステップＳ９８１）、プロパティファイル４００がクローズされる（ステップＳ９８２）。そして、ステップＳ９８０でメモリに記録された顔基本情報に基づいて、動画コンテンツファイルから顔サムネイル画像が作成され、作成された顔サムネイル画像がメモリに順次記録される（ステップＳ９８３）。続いて、ステップＳ９８３でメモリに記録された顔サムネイル画像がＬＣＤ１８０に表示される（ステップＳ９８４）。例えば、図３０（ｂ）に示すように表示される。

続いて、ＬＣＤ１８０に表示されている顔サムネイル画像の中から１つの顔サムネイル画像を選択する選択操作がされたか否かが判断される（ステップＳ９８５）。顔サムネイル画像を選択する選択操作がされなければ（ステップＳ９８５）、操作入力の監視を継続する。

顔サムネイル画像を選択する選択操作がされると（ステップＳ９８５）、選択された顔サムネイル画像の表示順に応じた番号がメモリに記録される（ステップＳ９８６）。続いて、プロパティファイル４００がオープンされ（ステップＳ９８７）、ステップＳ９７５でメモリに記録されたメタデータエントリのエントリ番号に基づいて、メタデータエントリがプロパティファイル４００から抽出される（ステップＳ９８８）。

続いて、抽出されたメタデータエントリから顔メタデータが抽出され（ステップＳ９８９）、抽出された顔メタデータから、ステップＳ９８６でメモリに記録された番号に対応する顔データが抽出される（ステップＳ９９０）。続いて、抽出された顔データから顔検出時刻情報が抽出され、抽出された顔検出時刻情報がメモリに記録される（ステップＳ９９１）。

続いて、ステップＳ９７５でメモリに記録されたメタデータエントリの親エントリリストに対応する動画ファイルエントリのエントリ番号が抽出される（ステップＳ９９２）。そして、抽出されたエントリ番号に対応する動画ファイルエントリがプロパティファイル４００から抽出される（ステップＳ９９３）。続いて、抽出された動画ファイルエントリに記録されているコンテンツアドレスが抽出され、抽出されたコンテンツアドレスがメモリに記録される（ステップＳ９９４）。そして、プロパティファイル４００がクローズされる（ステップＳ９９５）。

続いて、ステップＳ９９３で抽出されたコンテンツアドレスに対応する動画コンテンツファイルについて、ステップＳ９９１でメモリに記録された顔検出時刻情報に対応する時刻から再生を開始させる（ステップＳ９９６）。例えば、図３１（ｂ）に示すように再生が開始される。

次に、本発明の実施の形態における撮像装置１００を含む画像処理システムについて図面を参照して詳細に説明する。

図３７は、本発明の実施の形態における画像処理システム８５０を示すシステム構成図である。画像処理システム８５０は、撮像装置１００と、ネットワークサーバ８６０と、ＰＣ８７０と、画像処理装置８８０とで構成されている画像処理システムである。

ネットワークサーバ８６０は、ネットワーク８５１を介して撮像装置１００との間で通信が可能なサーバである。また、ネットワークサーバ８６０は、コンテンツファイルおよびコンテンツ管理ファイルを記憶する記憶部８６１を備える。

ＰＣ８７０は、例えば、ＵＳＢ（Universal Serial Bus）ケーブル等の装置間インターフェースを介して撮像装置１００との間で通信が可能なパーソナルコンピュータである。また、ＰＣ８７０は、コンテンツファイルおよびコンテンツ管理ファイルを記憶する記憶部８７１を備える。なお、装置間インターフェースとして、ＵＳＢケーブル等の有線ケーブル以外に、ＵＷＢ（Ultra Wide Band：超広帯域無線）等の無線インターフェースを用いることができる。

画像処理装置８８０は、例えば、無線回線を介して撮像装置１００との間で通信が可能な画像処理装置である。また、画像処理装置８８０は、コンテンツファイルおよびコンテンツ管理ファイルを記憶する記憶部８８１を備える。なお、これらの接続手段としては、有線回線または無線回線を用いたネットワーク等の他の接続手段を用いるようにしてもよい。

ここで、記憶部８６１、８７１、８８１に記憶されているコンテンツ管理ファイルは、本発明の実施の形態におけるコンテンツ管理ファイル３４０と同じファイルであるものとする。

画像処理システム８５０において、同一人物には同一の個人識別ＩＤが付与されるものとする。例えば、記憶部８６１、８７１、８８１のコンテンツ管理ファイルに記録されている個人識別ＩＤと、撮像装置１００に記録されている個人識別ＩＤとを用いて、記憶部８６１、８７１、８８１に記憶されているコンテンツファイルを検索することができる。例えば、撮像装置１００に記録されている個人識別ＩＤと同一の個人識別ＩＤが記録されたコンテンツファイルを撮像装置１００が取得することができる。これにより、特定人物が登場する外部装置のコンテンツファイルを撮像装置１００が容易に取得することができる。また、個人識別ＩＤを用いて、外部装置のコンテンツファイルに関する顔サムネイル画像等を表示することができる。

このように、本発明の実施の形態によれば、特定人物が登場するコンテンツファイルを迅速にサーチすることができる。例えば、特定人物が登場するコンテンツファイルに対応する代表サムネイル画像の一覧を迅速に表示させることができる。このため、所望のアプリケーションを迅速に実行することができる。また、コンテンツファイルに関するメタデータを迅速に利用することができる。すなわち、本発明の実施の形態によれば、特定人物が登場するコンテンツファイルを迅速に利用することができる。

また、現在では、顔メタデータを利用するアプリケーションが多数開発されており、顔メタデータを利用するアプリケーションは今後も種々多様化するものと考えられる。このため、将来は、顔メタデータのフォーマット拡張が予想される。このような顔メタデータのフォーマットが拡張された場合であっても、本発明の実施の形態によれば、そのフォーマットの拡張に対して再生機器において互換性を確保することができるため、コンテンツファイルに関するメタデータを迅速に利用することができる。

なお、本発明の実施の形態では、コンテンツとして撮像動画を例にして説明したが、静止画等のコンテンツについても本発明の実施の形態を適用することができる。また、外部から入力されたコンテンツについても本発明の実施の形態を適用することができる。また、メタデータとして、人の顔に関する顔メタデータを一例として示したが、他のメタデータについても本発明の実施の形態を適用することができる。例えば、動物またはペット認識アルゴリズムを用いて画像に含まれる動物等を検出し、検出された動物の顔等に関する情報に対応するメタデータについて、本発明の実施の形態を適用することができる。例えば、顔検出エンジンの代わりに、ペット検出エンジンを設け、このペット検出エンジンによって検出されたペットに関するメタデータを用いて、本発明の実施の形態を適用することができる。また、人物または動物等の行動を認識し、この認識された行動が所定の記述により記録されたメタデータについても、本発明の実施の形態を適用することができる。また、本発明の実施の形態では、画像処理装置の一例として撮像装置について説明したが、コンテンツを記録する携帯端末装置等の他のコンテンツ記録装置に本発明の実施の形態を適用することができる。また、本発明の実施の形態では、コンテンツを再生する装置の一例として撮像装置について説明したが、コンテンツを再生するＤＶＤレコーダ等の他のコンテンツ再生装置に本発明の実施の形態を適用することができる。

なお、本発明の実施の形態は本発明を具現化するための一例を示したものであり、上述のように特許請求の範囲における発明特定事項とそれぞれ対応関係を有する。ただし、本発明は実施の形態に限定されるものではなく、本発明の要旨を逸脱しない範囲において種々の変形を施すことができる。

また、本発明の実施の形態において説明した処理手順は、これら一連の手順を有する方法として捉えてもよく、また、これら一連の手順をコンピュータに実行させるためのプログラム乃至そのプログラムを記憶する記録媒体として捉えてもよい。この記録媒体として、例えば、ＣＤ（Compact Disc）、ＭＤ（MiniDisc）、ＤＶＤ（Digital Versatile Disk）、メモリカード、ブルーレイディスク（Blu-ray Disc（登録商標））等を用いることができる。

本発明の実施の形態における撮像装置１００の内部構成例を示すブロック図である。本発明の実施の形態におけるファイルシステム（File System）上に登録されている実ファイルのファイル構造を概略的に示す図である。本発明の実施の形態におけるプロパティファイル４００が管理するフォルダおよびファイルの構成例を示す図である。本発明の実施の形態におけるプロパティファイル４００と、動画コンテンツファイルと、特定人物との対応関係を概略的に示す図である。本発明の実施の形態におけるサムネイルファイル５００に格納されている各画像と、動画コンテンツファイルと、人物との対応関係を概略的に示す図である。本発明の実施の形態におけるサムネイルファイル５００に格納される登録顔画像の登録方法の概略を示す図である。本発明の実施の形態における記録媒体１６０に記憶されている動画コンテンツファイル３１１乃至３１５と、登録顔画像５１１乃至５１４との関係を概略的に示す図である。本発明の実施の形態におけるプロパティファイル４００およびサムネイルファイル５００と、動画コンテンツファイル３１１乃至３１５との関係を概略的に示す図である。こ本発明の実施の形態におけるコンテンツ管理ファイル３４０を構成するプロパティファイル４００およびサムネイルファイル５００の関係を概略的に示す図である。本発明の実施の形態における動画フォルダエントリ、日付フォルダエントリ、動画ファイルエントリおよびメタデータエントリの親子関係と、登場登録顔リストの対応関係とを概略的に示す図である。本発明の実施の形態における登録顔フォルダエントリ、登録顔エントリおよびメタデータエントリの親子関係と、登録顔登場コンテンツリストの対応関係とを概略的に示す図である。本発明の実施の形態におけるプロパティファイル４００の基本構造を概略的に示す図である。本発明の実施の形態におけるプロパティファイル４００の全体構造を概略的に示す図である。本発明の実施の形態におけるメタデータエントリ６００の内部構成を概略的に示す図である。本発明の実施の形態におけるヘッダ部６３０に格納される各種情報を概略的に示す図である。本発明の実施の形態における顔データ部６４０に格納される顔データを概略的に示す図である。本発明の実施の形態におけるヘッダ部６３０の顔データ構造フラグ６６０のデータ構造を示す図である。本発明の実施の形態における顔データ構造フラグ６６０に格納されたビットと、顔データ部６４０に格納された顔データとの関係を示す図である。本発明の実施の形態における顔データ構造フラグ６６０に格納されたビットと、顔データ部６４０に格納された顔データとの関係を示す図である。本発明の実施の形態における顔データ構造フラグ６６０に格納されたビットと、顔データ部６４０に格納された顔データとの関係を示す図である。本発明の実施の形態における顔データ構造フラグ６６０に格納されたビットと、顔データ部６４０に格納された顔データとの関係を示す図である。本発明の実施の形態における顔データ構造フラグ６６０に格納されたビットと、顔データ部６４０に格納された顔データとの関係を示す図である。本発明の実施の形態における撮像装置１００の記録に関する機能構成例を示すブロック図である。本発明の実施の形態における撮像画像に含まれる顔を識別する場合、および、撮像画像に含まれる顔を登録顔画像として登録する場合における遷移を概略的に示す図である。動画コンテンツファイルを構成するフレーム８２３乃至８２８において検出された顔と、顔データ部６４０に記録される顔データ８１１乃至８２２との関係を示す図である。本発明の実施の形態における撮像装置１００の再生に関する機能構成例を示すブロック図である。本発明の実施の形態における登録顔エントリと、動画ファイルエントリと、メタデータエントリと、サムネイルファイル５００と、動画コンテンツファイル３１２との関係を概略的に示す図である。本発明の実施の形態におけるコンテンツ管理ファイル３４０を用いたアプリケーションの一例を示す図である。本発明の実施の形態におけるコンテンツ管理ファイル３４０を用いたアプリケーションの一例を示す図である。本発明の実施の形態におけるコンテンツ管理ファイル３４０を用いたアプリケーションの一例を示す図である。本発明の実施の形態におけるコンテンツ管理ファイル３４０を用いたアプリケーションの一例を示す図である。本発明の実施の形態における撮像装置１００による登録顔の登録処理の処理手順を示すフローチャートである。本発明の実施の形態における撮像装置１００によるコンテンツ管理ファイル３４０の記録処理の処理手順を示すフローチャートである。本発明の実施の形態における撮像装置１００による動画コンテンツファイルの再生処理の処理手順を示すフローチャートである。本発明の実施の形態における撮像装置１００による動画コンテンツファイルの再生処理の処理手順を示すフローチャートである。本発明の実施の形態における撮像装置１００による動画コンテンツファイルの再生処理の処理手順を示すフローチャートである。本発明の実施の形態における画像処理システム８５０を示すシステム構成図である。

符号の説明

１００撮像装置
１１０カメラ部
１１１光学ブロック
１１２ＣＣＤ
１１３前処理回路
１１４光学ブロックドライバ
１１５ＣＣＤドライバ
１１６タイミング生成回路
１２０カメラＤＳＰ
１２１ＳＤＲＡＭ
１３０制御部
１３１ＣＰＵ
１３２ＲＡＭ
１３３フラッシュＲＯＭ
１３４時計回路
１３５システムバス
１４０操作受付部
１５０媒体Ｉ／Ｆ
１６０記録媒体
１７１ＬＣＤコントローラ
１７２外部Ｉ／Ｆ
１７３通信Ｉ／Ｆ
１８０ＬＣＤ
２１１撮像部
２１２顔検出部
２１３顔メタデータ作成部
２１４コンテンツ管理情報作成部
２１５代表サムネイル画像抽出部
２１６コンテンツ属性情報作成部
２１８顔データ作成部
２１９ヘッダ情報作成部
２２０正規化部
２２１特徴量抽出部
２２２顔識別部
２２３記録制御部
２３１選択部
２３２抽出部
２３３描画部
２３４表示部
２５０コンテンツ管理ファイル記憶部
２６０コンテンツ記憶部

Claims

階層構造により構成される階層エントリであってコンテンツを管理するためのファイルエントリと、特定人物の顔である特定顔を管理するための前記階層エントリである特定顔エントリとを記録するコンテンツ管理ファイルを記憶する記憶部と、
前記コンテンツに含まれる顔を検出する顔検出部と、
前記特定顔および前記検出された顔を比較することにより前記検出された顔が前記特定顔であるか否かを識別する顔識別部と、
前記検出された顔が前記特定顔であると識別された場合には前記特定顔エントリに前記ファイルエントリを関連付ける制御を行う制御部と
を具備する画像処理装置。
前記コンテンツ管理ファイルには、前記特定顔に関する特徴量を含む前記階層エントリである特徴量エントリが前記特定顔エントリの下位階層に連結して記録され、
前記検出された顔に関する特徴量を抽出する特徴量抽出部をさらに具備し、
前記顔識別部は、前記特徴量エントリに含まれる特徴量および前記抽出された特徴量を比較することにより前記検出された顔が前記特定顔であるか否かを識別する
請求項１記載の画像処理装置。
前記コンテンツ管理ファイルには、前記検出された顔に関する顔データを含む前記階層エントリであるメタデータエントリが前記ファイルエントリの下位階層に連結して記録され、
前記制御部は、前記検出された顔が前記特定顔であると識別された場合には前記抽出された特徴量を前記メタデータエントリに含まれる前記顔データに記録する
請求項２記載の画像処理装置。
前記特定顔エントリには、前記特定人物を識別する特定人物識別子が記録され、
前記コンテンツ管理ファイルには、前記検出された顔に関する顔データを含む前記階層エントリであるメタデータエントリが前記ファイルエントリの下位階層に連結して記録され、
前記制御部は、前記検出された顔が前記特定顔であると識別された場合には前記特定人物識別子を前記メタデータエントリに含まれる前記顔データに記録する
請求項１記載の画像処理装置。
前記階層エントリのそれぞれには、前記階層エントリを識別するエントリ識別子が付与され、
前記制御部は、前記検出された顔が前記特定顔であると識別された場合には前記ファイルエントリのエントリ識別子を前記特定顔エントリに記録することにより前記特定顔エントリに前記ファイルエントリを関連付ける
請求項１記載の画像処理装置。
前記コンテンツ管理ファイルには、前記特定顔の少なくとも一部を含む特定顔画像が記録され、
前記特定顔エントリには、前記特定顔画像の前記コンテンツ管理ファイル上の記録位置が記録される
請求項１記載の画像処理装置。
コンテンツを記憶するコンテンツ記憶部と、
階層構造により構成される各階層エントリを識別するエントリ識別子がそれぞれに付与されている前記階層エントリが記録されているコンテンツ管理ファイルであって、前記コンテンツを管理するための前記階層エントリであるファイルエントリと、特定人物の顔である特定顔を管理するための前記階層エントリであり前記コンテンツ記憶部に記憶されているコンテンツの中で前記特定顔が含まれるコンテンツに対応するファイルエントリのエントリ識別子を記録する特定顔エントリと、前記特定顔の少なくとも一部を含み前記特定顔エントリに関連付けられている画像である特定顔画像とが記録されているコンテンツ管理ファイルを記憶するコンテンツ管理ファイル記憶部と、
前記コンテンツ管理ファイルに記録されている特定顔画像の中から所望の特定顔画像を選択する選択操作を受け付ける操作受付部と、
前記コンテンツ管理ファイルに記録されている特定顔エントリの中から前記選択された特定顔画像に対応する特定顔エントリを選択する選択部と、
前記コンテンツ記憶部に記憶されているコンテンツの中から前記選択された特定顔エントリに記録されているエントリ識別子に対応するコンテンツを抽出する抽出部と、
前記抽出されたコンテンツを表示する表示部と
を具備する画像処理装置。
階層構造により構成される階層エントリであって撮像動画を管理するためのファイルエントリと、特定人物の顔である特定顔を管理するための前記階層エントリである特定顔エントリとを記録するコンテンツ管理ファイルを記憶する記憶部と、
被写体を撮像して前記撮像動画を生成する撮像部と、
前記撮像動画に含まれる顔を検出する顔検出部と、
前記特定顔および前記検出された顔を比較することにより前記検出された顔が前記特定顔であるか否かを識別する顔識別部と、
前記検出された顔が前記特定顔であると識別された場合には前記特定顔エントリに前記ファイルエントリを関連付ける制御を行う制御部と
を具備する撮像装置。
コンテンツに含まれる顔を検出する顔検出手順と、
特定人物の顔である特定顔および前記検出された顔を比較することにより前記検出された顔が前記特定顔であるか否かを識別する顔識別手順と、
前記検出された顔が前記特定顔であると識別された場合には、階層構造により構成される階層エントリであって前記コンテンツを管理するためのファイルエントリを、前記特定顔を管理するための前記階層エントリである特定顔エントリに関連付ける制御を行う制御手順と
を具備する画像処理方法。
コンテンツに含まれる顔を検出する顔検出手順と、
特定人物の顔である特定顔および前記検出された顔を比較することにより前記検出された顔が前記特定顔であるか否かを識別する顔識別手順と、
前記検出された顔が前記特定顔であると識別された場合には、階層構造により構成される階層エントリであって前記コンテンツを管理するためのファイルエントリを、前記特定顔を管理するための前記階層エントリである特定顔エントリに関連付ける制御を行う制御手順と
をコンピュータに実行させるプログラム。