次に本発明の実施の形態について図面を参照して詳細に説明する。
図1は、本発明の実施の形態における撮像装置100の内部構成例を示すブロック図である。撮像装置100は、カメラ部110と、カメラDSP(Digital Signal Processor)120と、SDRAM(Synchronous Dynamic Random Access Memory)121とを備える。また、撮像装置100は、制御部130と、操作受付部140と、媒体I/F(インターフェース)150とを備える。また、撮像装置100は、LCD(Liquid Crystal Display)コントローラ171と、外部I/F(インターフェース)172と、通信I/F(インターフェース)173と、LCD180とを備える。撮像装置100は、例えば、被写体が撮像された撮像画像について、画像解析により特徴量を抽出し、この特徴量を用いて各種画像処理を施すことが可能なカムコーダ(camcorder:camera and recorder)により実現することができる。
カメラ部110は、光学ブロック111と、CCD(Charge Coupled Device)112と、前処理回路113と、光学ブロックドライバ114と、CCDドライバ115と、タイミング生成回路116とを備える。
光学ブロック111は、被写体からの光を集光する複数のレンズ、フォーカス機構、シャッター機構、絞り(アイリス)機構等を備える。また、光学ブロック111は、入射された被写体からの光を、これらのレンズおよび絞り機構を介してCCD112に出力する。
CCD112は、CCDドライバ115からの駆動信号に応じて動作し、光学ブロック111から出力された被写体からの入射光を取り込み、タイミング生成回路116からのタイミング信号に基づいてその入射光を光電変換して電気信号を生成するものである。そして、生成された電気信号(画像情報)を前処理回路113に出力する。なお、CCD112の代わりに、CMOS(Complementary Metal-Oxide Semiconductor)センサ等の光電変換デバイス(撮像素子)を用いるようにしてもよい。
前処理回路113は、CCD112から出力された電気信号に対して、各種信号処理を施してデジタル画像データを生成するものであり、生成されたデジタル画像データをカメラDSP120に出力する。すなわち、前処理回路113は、CCD112から出力された電気信号に対して、CDS(Correlated Double Sampling)処理を行うことによりS/N比を良好に保つようにする。そして、AGC(Automatic Gain Control)処理を行うことにより利得を制御する。さらに、A/D(Analog/Digital)変換処理を行うことによりデジタル信号(デジタル画像データ)を生成する。
光学ブロックドライバ114は、制御部130からの制御に基づいて、光学ブロック111を動作させるための駆動信号を生成するものであり、生成された駆動信号を光学ブロック111に供給する。この光学ブロックドライバ114からの駆動信号に応じて、光学ブロック111のフォーカス機構、シャッター機構および絞り機構が制御される。
CCDドライバ115は、タイミング生成回路116からのタイミング信号に基づいて、CCD112を動作させるための駆動信号を生成するものであり、生成された駆動信号をCCD112に供給する。
タイミング生成回路116は、制御部130からの制御に基づいて、所定のタイミングを提供するタイミング信号を生成するものであり、生成されたタイミング信号をCCD112およびCCDドライバ115に出力する。
カメラDSP120は、SDRAM121と接続され、前処理回路113から出力されたデジタル画像データに対して、各種カメラ信号処理を施すものである。このカメラ信号処理として、例えば、AF(Auto Focus)、AE(Auto Exposure)、AWB(Auto White Balance)等が施される。このようにカメラ信号処理が施された画像データは、例えば、JPEG(Joint Photographic Experts Group)またはJPEG2000等の所定の符号化方式で符号化される。そして、システムバス135および媒体I/F150を介して記録媒体160に供給され、画像ファイルとして記録媒体160に記録される。また、カメラDSP120は、媒体I/F150を介して記録媒体160から読み出された符号化された画像データを復号し、この復号された画像データをシステムバス135を介してLCDコントローラ171に供給する。なお、カメラDSP120は、前処理回路113または記録媒体160から出力された画像データに含まれる顔を検出し、この検出された顔を含む顔画像を正規化して正規化顔画像を生成する。そして、検出された顔に関する顔検出情報および正規化顔画像を制御部130に出力する。
制御部130は、CPU(Central Processing Unit)131と、RAM(Random Access Memory)132と、フラッシュROM(Read Only Memory)133と、時計回路134とを備える。また、CPU131と、RAM132と、フラッシュROM133と、時計回路134とがシステムバス135を介して接続されている。制御部130は、例えば、汎用の組み込み型のマイクロコンピュータまたは専用のシステムLSI(Large Scale Integrated circuit)等により実現される。
CPU131は、フラッシュROM133等に記憶されている種々のプログラムに基づいて各処理を実行するものである。
RAM132は、CPU131による各処理の途中結果を一時的に記憶する等のように、主に作業領域として用いられるメモリである。
フラッシュROM133は、CPU131により実行される種々のプログラムや、CPU131による処理に必要となるデータ等を記憶するメモリである。
時計回路134は、現在年月日、現在曜日、現在時刻をCPU131に供給するとともに、撮影日時等をCPU131に供給するものである。
操作受付部140は、ユーザによって入力された操作内容を受け付ける操作受付部であり、受け付けられた操作内容に応じた制御信号をCPU131に出力する。操作受付部140として、例えば、登録顔記録モード設定/解除ボタン、登録ボタン、動画記録モード設定/解除ボタン、録画ボタン等の操作部材が撮像装置100に備えられている。また、静止画記録モード設定/解除ボタン、シャッターボタン、再生モード設定/解除ボタン、再生ボタン等の操作部材が撮像装置100に備えられている。また、操作受付部140は、例えば、図28乃至図31に示すように、タッチパネルとして構成される。登録顔記録モード設定/解除ボタンは、前処理回路113または記録媒体160から出力された画像データに含まれる顔の顔識別処理に用いられる特定人物の顔(特定顔)の登録を可能な状態にする登録顔記録モードの設定または解除を行うためのボタンである。登録ボタンは、登録顔記録モードが設定されている場合に、現在撮像中の顔(顔画像)を登録する際に押下されるボタンである。動画記録モード設定/解除ボタンは、動画の記録を可能な状態にする動画記録モードの設定または解除を行うためのボタンである。録画ボタンは、動画記録モードに設定されている場合に、動画の記録を開始または終了する際に押下されるボタンである。静止画記録モード設定/解除ボタンは、静止画の記録を可能な状態にする静止画記録モードの設定または解除を行うためのボタンである。シャッターボタンは、静止画記録モードが設定されている場合に、現在撮像中の画像(静止画)を記録する際に押下されるボタンである。再生モード設定/解除ボタンは、記録媒体160に記録されているコンテンツファイルまたは外部装置から取得されたコンテンツファイルの再生を可能な状態にする再生モードの設定または解除を行うためのボタンである。再生ボタンは、再生モードに設定されている場合に、コンテンツの再生を開始または終了する際に押下されるボタンである。
媒体I/F150は、記録媒体160と接続し、記録媒体160との間で種々の画像データやその他の情報を送受信するためのインターフェースである。
記録媒体160は、カメラDSP120により生成された画像データに対応するコンテンツファイルを記憶する記録媒体である。また、記録媒体160は、外部のPC(Personal Computer:パーソナルコンピュータ)から撮像装置100に出力された画像データやネットワークを介して撮像装置100により取得された画像データ等に対応する各種情報を記録する。なお、記録媒体160は、撮像装置100に内蔵するようにしてもよく、撮像装置100から着脱可能とするようにしてもよい。また、記録媒体160として、メモリカード、光記録媒体、磁気ディスク、HDD(Hard Disk Drive)等の種々のものを用いることができる。なお、光記録媒体は、例えば、記録可能なDVD(Digital Versatile Disc)、記録可能なCD(Compact Disc)、ブルーレイディスク(Blu-ray Disc(登録商標))等を用いることができる。
LCDコントローラ171は、カメラDSP120から出力された画像データに対応する画像をLCD180に表示させるための画像信号を生成するものであり、生成された画像信号をLCD180に供給する。
外部I/F172は、PC等の外部装置と撮像装置100との間で各種データの送受信を行う際に用いられるインターフェースである。例えば、外部I/F172を介して撮像装置100およびPCを接続し、このPCから出力された画像データを撮像装置100が入力し、この入力された画像データを記録媒体160に記録することができる。また、記録媒体160に記録されている画像データをPCに供給することができる。
通信I/F173は、ネットワークインターフェースカード(NIC)等からなり、インターネット等のネットワークと接続して種々の画像データやその他の情報を送受信するためのインターフェースである。なお、通信I/F173は、所定の規格に準拠した有線用インターフェースとして設けることも可能である。この規格として、例えば、IEEE(Institute of Electrical and Electronic Engineers)1394、USB(Universal Serial Bus)等の規格を用いることができる。また、IEEE802.11a、IEEE802.11b、IEEE802.11g、または、ブルートゥースの規格に準拠した光や電波による無線インターフェースとして設けることも可能である。すなわち、通信I/F173は、有線または無線の何れのインターフェースであってもよい。
LCD180は、LCDコントローラ171により生成された画像信号に対応する画像を表示するものである。例えば、記録媒体160に記録されている動画コンテンツファイルに対応する動画が、LCD180に表示される。なお、これらの表示例については、図28乃至図31を参照して詳細に説明する。
このように、撮像装置100は、被写体を撮像して生成された撮像画像または撮像動画を記録媒体160に記録するとともに、記録媒体160に記録されている撮像画像または撮像動画を読み出してLCD180に表示する。また、撮像装置100は、外部のPCから出力された画像データやネットワークを介して取得された画像データ等を記録媒体160に記憶することが可能である。また、外部のPC等から取得して記録媒体160に記録されている画像データ等を読み出してLCD180に表示することが可能である。
次に、記録媒体160に記録されている実ファイルについて図面を参照して詳細に説明する。
図2は、本発明の実施の形態におけるファイルシステム(File System)上に登録されている実ファイルのファイル構造を概略的に示す図である。本発明の実施の形態では、動画または静止画コンテンツファイルと、これらのコンテンツファイルに関する顔メタデータと、登録顔情報とについて、実ディレクトリとは異なる階層構造の階層エントリで管理する。具体的には、動画または静止画コンテンツファイル以外に、これらのファイルと顔メタデータと登録顔情報とを管理するコンテンツ管理ファイル340が記録媒体160に記録される。ここで、登録顔情報は、撮像装置100に登録されている特定人物の顔(特定顔)に関する情報(図9に示す登録顔管理情報や登録顔属性情報等)であり、コンテンツ管理ファイル340に記録される。また、本発明の実施の形態では、コンテンツ管理ファイル340に登録顔情報が記録されている特定顔を登録顔と称して説明する。
ルートディレクトリ300には、動画コンテンツフォルダ310と、静止画コンテンツフォルダ320と、コンテンツ管理フォルダ330とが属する。
動画コンテンツフォルダ310は、撮像装置100により生成された動画データである動画コンテンツファイル311および312が属する動画コンテンツフォルダである。なお、この例では、動画コンテンツファイル311および312が動画コンテンツフォルダ310に属するものと想定している。
静止画コンテンツフォルダ320は、撮像装置100により生成された静止画データである静止画コンテンツファイル321および322が属する静止画コンテンツフォルダである。なお、この例では、静止画コンテンツファイル321および322が静止画コンテンツフォルダ320に属するものと想定している。
コンテンツ管理フォルダ330は、コンテンツ管理ファイル340が属するコンテンツ管理フォルダである。コンテンツ管理ファイル340は、動画コンテンツフォルダ310および静止画コンテンツフォルダ320に属する各コンテンツファイルを階層エントリで管理するものであり、プロパティファイル400とサムネイルファイル500とで構成されている。プロパティファイル400は、各コンテンツファイルを管理するためのファイルエントリおよびメタデータエントリや、登録顔情報を管理するための登録顔エントリおよびメタデータエントリ等が記録されているファイルである。また、サムネイルファイル500は、各コンテンツファイルの代表サムネイル画像と、登録顔を含む登録顔画像とが格納されているファイルである。なお、プロパティファイル400およびサムネイルファイル500の詳細については、図3乃至図11等を参照して詳細に説明する。
ここで、動画コンテンツフォルダ310に属する各動画コンテンツファイル、および、静止画コンテンツフォルダ320に属する各静止画コンテンツファイルは、ユーザに可視である。すなわち、ユーザからの操作入力によって、これらのコンテンツファイルに対応する画像(例えば、コンテンツファイルを表すアイコン)をLCD180に表示させることが可能である。一方、コンテンツ管理ファイル340については、コンテンツ管理ファイル340の内容がユーザに改変されることを避けるため、ユーザに不可視とする。コンテンツ管理ファイル340の内容を不可視とする設定方法として、例えば、ファイルシステムの対象となるコンテンツ管理フォルダ330を不可視にするフラグをオンにすることによってコンテンツ管理ファイル340の内容を不可視とすることができる。さらに、不可視にするタイミングとして、例えば、撮像装置100がUSB(Universal Serial Bus)経由でPC(ホスト)と接続された場合(マスストレージ接続)を想定する。この場合には、例えば、撮像装置100が接続を感知したとき(接続が正しく行えたという信号をPCから受信したとき)に上記フラグをオンにする。
次に、プロパティファイル400のエントリ構造について図面を参照して詳細に説明する。
図3は、本発明の実施の形態におけるプロパティファイル400が管理するフォルダおよびファイルの構成例を示す図である。
プロパティファイル400は、上述したように、記録媒体160に記録されている動画または静止画コンテンツファイルを管理するものであり、アプリケーションに応じた柔軟性のある管理方法が可能である。例えば、動画または静止画コンテンツファイルが撮像装置100に記録された日時に応じて管理することができる。また、動画または静止画の種別に応じて管理することができる。本発明の実施の形態では、記録された日時に応じて動画コンテンツファイルを分類して管理するとともに、登録顔を含む動画コンテンツファイルをその登録顔に関連付けて管理する管理方法を例にして説明する。ここで、図3に示す各エントリ内に示す数字は、各エントリを識別するためのエントリ番号を示す数字であり、以下では、エントリ番号の前に「#」を付して説明する。このエントリ番号については、図12および図13を参照して詳細に説明する。
ルートエントリ405は、階層型エントリ構造における最上階層のエントリである。この例では、ルートエントリ405には、動画フォルダエントリ(#1)410と、静止画フォルダエントリ(#3)450と、登録顔フォルダエントリ(#5)460とが属する。また、プロファイルエントリ(#150)406は、各ファイルエントリのコーデック情報(符号化フォーマット、画サイズ、ビットレート等)を一括して保存するエントリである。なお、プロファイルエントリ(#150)406については、図12(c)を参照して詳細に説明する。
動画フォルダエントリ(#1)410は、動画に関する日付フォルダエントリを下位の階層で管理するエントリである。この例では、動画フォルダエントリ410(#1)には、日付フォルダエントリ(#35)420、(#51)430および(#67)440が属する。
静止画フォルダエントリ(#3)450は、静止画に関する日付フォルダエントリを下位の階層で管理するエントリである。なお、本発明の実施の形態では、動画に関する各エントリを中心に説明し、静止画に関する各エントリの説明の一部を省略する。
日付フォルダエントリ(#35)420、(#51)430および(#67)440は、記録媒体160に記録されている動画コンテンツファイルを日付毎に分類して管理するエントリであり、分類された動画コンテンツファイルを下位の階層で管理する。この例では、日付フォルダエントリ(#35)420は、「2008/5/5」に記録された動画コンテンツファイルを管理するエントリであるものとし、動画ファイルエントリ(#37)421および(#44)423が属するものとする。また、日付フォルダエントリ(#51)430は、「2008/6/14」に記録された動画コンテンツファイルを管理するエントリであるものとし、動画ファイルエントリ(#53)431および(#60)433が属するものとする。さらに、日付フォルダエントリ(#67)440は、「2008/7/19」に記録された動画コンテンツファイルを管理するエントリであるものとし、動画ファイルエントリ(#69)441が属するものとする。なお、フォルダエントリの詳細については、図8等を参照して詳細に説明する。
動画ファイルエントリ(#37)421、(#44)423、(#53)431、(#60)433および(#69)441には、各動画コンテンツファイルを管理するためのコンテンツ管理情報およびコンテンツ属性情報が格納されている。また、各動画ファイルエントリには、対応する動画コンテンツファイルに付随するメタデータを格納するメタデータエントリが連結されている。なお、動画ファイルエントリおよび動画コンテンツファイルの関係については、図4等を参照して詳細に説明する。また、コンテンツ管理情報およびコンテンツ属性情報等のファイルエントリの詳細については、図8等を参照して詳細に説明する。
メタデータエントリ(#40)422、(#47)424、(#56)432、(#63)434および(#72)442は、それぞれ連結されている動画ファイルエントリが管理する動画コンテンツファイルに付随するメタデータを格納するエントリである。メタデータとして、この例では、動画ファイルエントリに属する各メタデータエントリには、動画コンテンツファイルから抽出された顔データが格納される。この顔データは、動画コンテンツファイルから検出された顔に関する各種データであり、例えば、図16に示すように、顔検出時刻情報、顔基本情報、顔スコア、笑顔スコア等のデータである。なお、メタデータエントリの詳細については、図8および図14等を参照して詳細に説明する。
登録顔フォルダエントリ(#5)460は、登録顔を管理するための登録顔エントリを下位の階層で管理するエントリである。この例では、登録顔フォルダエントリ(#5)460には、登録顔エントリ(#7)461、(#14)463、(#21)465および(#28)467が属する。
登録顔エントリ(#7)461、(#14)463、(#21)465および(#28)467は、登録顔を管理するエントリである。この登録顔エントリは、その登録顔が登場するコンテンツを示すリストや、その登録顔の属性情報を含むエントリである。なお、登録顔エントリおよび特定人物の関係については、図4等を参照して詳細に説明する。また、登録顔エントリの詳細については、図9を参照して詳細に説明する。なお、登録顔エントリは、特許請求の範囲に記載の特定顔エントリの一例である。
メタデータエントリ(#10)462、(#17)464、(#24)466および(#31)468は、それぞれ連結されている登録顔エントリが管理する登録顔に関するメタデータを格納するエントリである。メタデータとして、この例では、登録顔を含む登録顔画像から抽出された特徴量が格納される。ここで、特徴量は、コンテンツから検出された顔が登録顔に該当するか否かを識別するために用いられる識別情報であり、例えば、顔を構成する目や鼻、口、眉等の各部の位置関係や形状を認識するための顔画像の特徴や特性を示すデータである。この特徴量は、例えば、色や輝度等の値に基づいて抽出される。なお、メタデータエントリの詳細については、図9および図14等を参照して詳細に説明する。なお、登録顔フォルダエントリに属するメタデータエントリは、特許請求の範囲に記載の特徴量エントリの一例である。
図4は、本発明の実施の形態におけるプロパティファイル400と、動画コンテンツファイルと、特定人物との対応関係を概略的に示す図である。なお、動画ファイルエントリ(#37)421、(#44)423、(#53)431、(#60)433、(#69)441、登録顔エントリ(#7)461、(#14)463、(#21)465、(#28)467は、図3に示すものと同一である。また、本発明の実施の形態では、撮像装置100に登録顔が登録されている特定人物として、甲田一郎521、乙口五郎522、山川花子523および丙谷良美524を例にして説明する。
動画コンテンツファイル311乃至315は、撮像装置100により撮像されて記録媒体160に記憶されている動画コンテンツファイルであり、動画コンテンツフォルダ310に属する動画コンテンツファイルである。図4では、動画コンテンツファイル311乃至315と、動画ファイルエントリ(#37)421、(#44)423、(#53)431、(#60)433および(#69)441との対応関係を破線の矢印で結んで示す。
甲田一郎521、乙口五郎522、山川花子523および丙谷良美524(以下では、この4人を人物521乃至524と称する場合がある。)は、登録顔エントリ461、463、465および467に登録顔が管理されている特定人物である。また、人物521乃至524に関する顔画像の特徴量が、図3に示すメタデータエントリ(#10)462、(#17)464、(#24)466および(#31)468に格納されている。図4では、人物521乃至524と、登録顔エントリ(#7)461、(#14)463、(#21)465および(#28)467との対応関係を破線の矢印で結んで示す。
図5は、本発明の実施の形態におけるサムネイルファイル500に格納されている各画像と、動画コンテンツファイルと、人物との対応関係を概略的に示す図である。図5に示す人物521乃至524と、動画コンテンツファイル311乃至315とは、図4に示すものと同一である。
サムネイルファイル500は、各コンテンツファイルの代表画像である代表サムネイル画像と、少なくとも特定人物の顔の一部を含む画像である登録顔画像とが格納されるファイルである。代表サムネイル画像は、例えば、動画コンテンツファイルから抽出された少なくとも1つの画像であり、例えば、動画コンテンツファイルを構成するフレームのうち先頭フレームに対応する画像が代表サムネイル画像として抽出される。
例えば、図5に示すように、人物521乃至524の登録顔画像として、顔画像511乃至514がサムネイルファイル500に格納されている。また、動画コンテンツファイル311乃至315の代表画像として、代表サムネイル画像501乃至506がサムネイルファイル500に格納されている。なお、登録顔画像の登録方法については、図6および図24を参照して詳細に説明する。
図6は、本発明の実施の形態におけるサムネイルファイル500に格納される登録顔画像の登録方法の概略を示す図である。図6に示す例では、撮像装置100が登録顔記録モードに設定されている場合に登録顔画像を登録する登録方法を示す。
図6(a)には、登録顔記録モードが設定されている場合にLCD180に表示されるアシスト画像531を含むテンプレート画像530を示す。アシスト画像531は、登録顔画像を撮像する場合に、撮像の対象となる人物の顔の位置が、撮像画像内で適切な位置となるように、補助するための画像である。例えば、図6(b)に示すように、登録顔記録モードが設定されている場合には、LCD180にアシスト画像531が表示される。そして、LCD180にアシスト画像531が表示されている状態で、カメラDSP120により生成された画像データに対応する撮像画像(いわゆる、スルー画像)がLCD180に表示される。
ここで、図6(b)に示すように、LCD180に表示されているアシスト画像531と、撮像画像に含まれる顔(登録すべき顔)の輪郭とが略同一となった際に、ユーザが登録ボタンを押下する。図6(b)では、山川花子523を撮像する場合を例にして示す。このように登録ボタンが押下されると、この押下の際にカメラDSP120により生成された撮像画像に含まれる一定範囲の画像が、登録顔画像としてサムネイルファイル500に記録される。図6(c)では、サムネイルファイル500に記録される登録顔画像として、山川花子523の登録顔画像513を例にして示す。また、サムネイルファイル500への登録顔画像の記録とともに、登録顔フォルダエントリ(#5)460の下位階層に属する登録顔エントリに登録顔管理情報および登録顔属性情報(図9に示す)が記録される。さらに、その登録顔画像から特徴量が抽出され、その登録顔エントリの下位階層に連結されるメタデータエントリに、抽出された特徴量が記録される。例えば、図5に示すように、山川花子523の登録顔画像513がサムネイルファイル500に記録されるとともに、山川花子523の登録顔画像513の登録顔管理情報および登録顔属性情報が登録顔エントリ(#21)465(図4等に示す)に記録される。また、山川花子523の登録顔画像513の特徴量がメタデータエントリ(#24)466(図3等に示す)に記録される。なお、登録顔画像の特徴量の抽出については、図24を参照して詳細に説明する。また、登録顔画像については、図24に示すように、例えば、目を基準として正規化した後にサムネイルファイル500に記録するようにしてもよい。
図7は、本発明の実施の形態における記録媒体160に記憶されている動画コンテンツファイル311乃至315と、登録顔画像511乃至514との関係を概略的に示す図である。図7では、動画コンテンツファイル311乃至315を矩形で模式的に示し、この矩形内に、一定間隔毎のフレームに対応する画像を並べて配置する。また、各矩形内の左隅には、先頭フレームに対応する画像である代表サムネイル画像501乃至506を配置する。例えば、動画コンテンツファイル311を表す矩形内には、撮影時刻の時間列に沿って、一定間隔毎のフレームに対応する代表サムネイル画像501、画像541乃至544を並べて配置する。また、代表サムネイル画像501、画像541および542には、登録顔画像511の顔(甲田一郎)が含まれているものとする。
また、例えば、動画コンテンツファイル312を構成する代表サムネイル画像502、画像545乃至548については、画像545乃至548には登録顔画像511の顔(甲田一郎)が含まれているものとする。同様に、画像546乃至548には登録顔画像513の顔(山川花子)が含まれ、画像548には登録顔画像514の顔(丙谷良美)が含まれているものとする。このように、図7では、動画コンテンツファイル311乃至315を構成する各画像について、登録顔画像511乃至514の顔が含まれる画像と、対応する登録顔画像511乃至514とを線分で結んで示す。
ここで、動画コンテンツファイルを構成する各フレームにおいて検出された顔に関する顔データが、その動画コンテンツファイルに対応する動画ファイルエントリの下位階層に連結されるメタデータエントリに順次記録される。また、検出された顔から抽出された特徴量に基づいて顔識別が順次行われる。そして、検出された顔が登録顔であると識別された場合には、その登録顔に対応する登録顔エントリに、動画ファイルエントリのエントリ番号が記録される。また、本発明の実施の形態では、その登録顔に対応する個人識別IDが顔データに含めてメタデータエントリに記録される例について説明する。なお、これらの記録については、図10および図11等を参照して詳細に説明する。
次に、コンテンツ管理ファイル340およびコンテンツファイルの関係について図面を参照して詳細に説明する。
図8は、本発明の実施の形態におけるコンテンツ管理ファイル340を構成するプロパティファイル400およびサムネイルファイル500と、動画コンテンツフォルダ310に属する動画コンテンツファイル311乃至315との関係を概略的に示す図である。ここでは、図3に示す日付フォルダエントリ(#35)420、動画ファイルエントリ(#44)423、メタデータエントリ(#47)424と、代表サムネイル画像502と、動画コンテンツファイル312との対応関係を中心にして説明する。なお、サムネイルファイル500内に示す代表サムネイル画像501乃至505と、動画コンテンツフォルダ310内に示す動画コンテンツファイル311乃至315とは、図5に示すものと同一であるため、ここでの説明を省略する。
日付フォルダエントリ(#35)420は、実コンテンツファイルの日付を管理するフォルダエントリである。そして、「エントリ種別」、「親エントリリスト」、「親エントリ種別」、「子エントリリスト」、「子エントリ種別」、「スロット有効フラグ」、「スロットチェーン」等の情報が格納されている。なお、エントリ番号は、各エントリを識別するための識別番号であり、日付フォルダエントリ420のエントリ番号として「#3」が割り当てられる。なお、このエントリ番号の割り当て方法については、図12および図13を参照して説明する。
「エントリ種別」は、エントリの種類を示すものである。そして、エントリの種類に応じて、「動画フォルダエントリ」、「静止画フォルダエントリ」、「日付フォルダエントリ」、「動画ファイルエントリ」、「メタデータエントリ」、「登録顔フォルダエントリ」、「登録顔エントリ」等が格納される。例えば、日付フォルダエントリ(#35)420の「エントリ種別」には「日付フォルダエントリ」が格納される。
「親エントリリスト」には、このエントリが属する上位の階層エントリである親エントリに対応するエントリ番号が格納される。例えば、日付フォルダエントリ(#35)420の「親エントリリスト」には「#1」が格納される。
「親エントリ種別」は、「親エントリリスト」に格納されているエントリ番号に対応する親エントリの種類を示すものである。そして、親エントリの種類に応じて、「動画フォルダエントリ」、「日付フォルダエントリ」、「動画ファイルエントリ」、「静止画フォルダエントリ」、「登録顔フォルダエントリ」、「登録顔エントリ」等が格納される。例えば、日付フォルダエントリ(#35)420の「親エントリ種別」には「動画フォルダエントリ」が格納される。
「子エントリリスト」は、このエントリに属する下位階層のエントリである子エントリに対応するエントリ番号が記録される。例えば、日付フォルダエントリ(#35)420の「子エントリリスト」には「#37」および「#44」が格納される。
「子エントリ種別」は、「子エントリリスト」に格納されているエントリ番号に対応する子エントリの種類を示すものである。そして、子エントリの種類に応じて、「動画フォルダエントリ」、「静止画フォルダエントリ」、「日付フォルダエントリ」、「動画ファイルエントリ」、「静止画ファイルエントリ」、「メタデータエントリ」、「登録顔エントリ」等が記録される。例えば、日付フォルダエントリ(#35)420の「子エントリ種別」には「動画ファイルエントリ」が格納される。
「スロット有効フラグ」は、このエントリを構成する各スロットが有効であるか無効であるかを示すフラグである。「スロットチェーン」は、このエントリを構成する各スロットに関するリンクや連結等の情報である。なお、「スロット有効フラグ」および「スロットチェーン」については、図12を参照して詳細に説明する。
動画ファイルエントリ(#44)423は、実コンテンツファイルを管理するファイルエントリであり、コンテンツ管理情報401およびコンテンツ属性情報402が格納されている。コンテンツ管理情報401には、「エントリ種別」、「コンテンツ種別」、「コンテンツアドレス」、「親エントリリスト」、「親エントリ種別」が格納される。また、コンテンツ管理情報401には、「子エントリリスト」、「子エントリ種別」、「登場登録顔リスト」、「スロット有効フラグ」、「スロットチェーン」等の情報が格納される。なお、「エントリ種別」、「親エントリリスト」、「親エントリ種別」、「子エントリリスト」、「子エントリ種別」、「スロット有効フラグ」、「スロットチェーン」については、日付フォルダエントリ(#35)420に示すものと同様である。このため、ここでの説明は省略する。
「コンテンツ種別」は、このファイルエントリに対応するコンテンツファイルの種類を示すものであり、ファイルエントリに対応するコンテンツファイルの種類に応じて、「動画コンテンツファイル」、「静止画コンテンツファイル」等が記録される。例えば、動画ファイルエントリ(#44)423の「コンテンツ種別」には「動画コンテンツファイル」が格納される。
「コンテンツアドレス」は、記録媒体160に記録されている動画コンテンツファイルの記録位置を示す情報であり、この記録位置情報によって記録媒体160に記録されている動画コンテンツファイルへのアクセスが可能となる。例えば、動画ファイルエントリ(#44)423の「コンテンツアドレス」には、動画コンテンツファイル312のアドレスを示す「A312」が格納される。
「登場登録顔リスト」は、このファイルエントリに対応するコンテンツファイルに含まれる登録顔に対応する登録顔エントリのエントリ番号を記録するリストである。例えば、動画ファイルエントリ(#44)423に対応する動画コンテンツファイル312には、図7に示すように、登録顔画像511、513および514の顔が含まれている。このため、動画ファイルエントリ(#44)423の「登場登録顔リスト」には、登録顔画像511、513、514のそれぞれに対応する登録顔エントリ461、465、467の各エントリ番号「#7」、「#21」、「#28」が格納される(図10参照)。
コンテンツ属性情報402は、コンテンツ管理情報401に格納されているコンテンツファイルの属性情報であり、「作成日時」、「更新日時」、「区間情報」、「サイズ情報」、「サムネイルアドレス」、「プロファイル情報」等の情報が格納されている。
「作成日時」には、このファイルエントリに対応するコンテンツファイルが作成された日時が格納される。「更新日時」には、このファイルエントリに対応するコンテンツファイルが更新された日時が格納される。なお、「更新日時」を用いて、メタデータの不整合が判別される。「区間情報」には、このファイルエントリに対応するコンテンツファイルの時間の長さを示す情報が格納される。「サイズ情報」は、このファイルエントリに対応するコンテンツファイルのサイズを示す情報が格納される。
「サムネイルアドレス」は、サムネイルファイル500に格納されている代表サムネイル画像の記録位置を示す情報であり、この記録位置情報によってサムネイルファイル500に格納されている代表サムネイル画像へのアクセスが可能となる。例えば、動画ファイルエントリ(#44)423の「サムネイルアドレス」には、動画コンテンツファイル312の代表画像である代表サムネイル画像502のサムネイルファイル500内部におけるエントリ番号「#02」が格納される。なお、サムネイルファイル500内部におけるエントリ番号については、図12を参照して詳細に説明する。
「プロファイル情報」には、プロファイルエントリ(#150)406内部に格納されているビデオ・オーディオエントリ(video audio entry)のエントリ番号が記録されている。なお、ビデオ・オーディオエントリについては、図12(c)を参照して詳細に説明する。
メタデータエントリ(#47)424には、「エントリ種別」、「親エントリリスト」、「親エントリ種別」、「スロット有効フラグ」、「スロットチェーン」、「メタデータ」等の情報が格納されている。なお、「エントリ種別」、「親エントリリスト」、「親エントリ種別」、「スロット有効フラグ」、「スロットチェーン」については、日付フォルダエントリ(#35)420に示すものと同様であるため、ここでの説明は省略する。
「メタデータ」には、このメタデータエントリが属する上位階層の動画ファイルエントリに対応するコンテンツファイルから取得された各種属性情報(メタデータ)が格納される。この「メタデータ」に格納される各種情報については、図16等を参照して詳細に説明する。
図9は、本発明の実施の形態におけるコンテンツ管理ファイル340を構成するプロパティファイル400およびサムネイルファイル500の関係を概略的に示す図である。ここでは、図3に示す登録顔エントリ(#7)461と、メタデータエントリ(#10)462と、登録顔画像511との対応関係を中心にして説明する。なお、サムネイルファイル500内に示す登録顔画像511乃至514は、図5に示すものと同一であるため、ここでの説明を省略する。
登録顔エントリ(#7)461は、登録顔を管理するエントリであり、登録顔管理情報403および登録顔属性情報404が格納されている。登録顔管理情報403には、「エントリ種別」、「親エントリリスト」、「親エントリ種別」、「子エントリリスト」、「子エントリ種別」、「登録顔登場コンテンツリスト」、「スロット有効フラグ」、「スロットチェーン」等の情報が格納されている。なお、これらの情報のうちで、図8に示す日付フォルダエントリ(#35)420または動画ファイルエントリ(#44)423に示す情報と同一のものについては、ここでの説明を省略する。具体的に、同一の情報は、「エントリ種別」、「親エントリリスト」、「親エントリ種別」、「子エントリリスト」、「子エントリ種別」、「スロット有効フラグ」、「スロットチェーン」である。
「登録顔登場コンテンツリスト」は、この登録顔エントリに対応する登録顔が含まれるコンテンツファイルのリストを示すものであり、その登録顔が含まれるコンテンツファイルに対応するファイルエントリのエントリ番号が記録される。例えば、登録顔エントリ(#7)461に対応する登録顔画像511の顔は、図7に示すように、動画コンテンツファイル311、312および315に登場する。このため、登録顔エントリ(#7)461の「登録顔登場コンテンツリスト」には、動画コンテンツファイル311、312、315のそれぞれに対応する動画ファイルエントリ421、423、441のエントリ番号が記録される(図11参照)。すなわち、動画ファイルエントリ421、423、441のエントリ番号「#37」、「#44」、「#69」が記録される。
登録顔属性情報404は、登録顔管理情報403に格納されている登録顔の属性情報であり、「作成日時」、「更新日時」、「登録顔の氏名」、「個人識別ID」、「サムネイルアドレス」等の情報が格納されている。
「作成日時」には、この登録顔エントリに対応する登録顔画像が作成された日時が格納される。「更新日時」には、この登録顔エントリに対応する登録顔画像が更新された日時が格納される。
「登録顔の氏名」には、この登録顔エントリに対応する登録顔の人物の氏名が格納される。この氏名は、例えば、ユーザによる手動操作により入力される。
「個人識別ID」には、この登録顔エントリに対応する登録顔に付与される個人を識別するためのIDが格納される。この個人識別IDは、例えば、登録順に識別番号が自動で付与される。
「サムネイルアドレス」は、サムネイルファイル500に格納されている登録顔画像の記録位置を示す情報であり、この記録位置情報によってサムネイルファイル500に格納されている登録顔画像へのアクセスが可能となる。例えば、登録顔エントリ(#7)461の「サムネイルアドレス」には、登録顔画像511のサムネイルファイル500内部におけるエントリ番号「#11」が格納される。なお、サムネイルファイル500内部におけるエントリ番号については、図12を参照して詳細に説明する。
メタデータエントリ(#10)462には、「エントリ種別」、「親エントリリスト」、「親エントリ種別」、「スロット有効フラグ」、「スロットチェーン」、「メタデータ」等の情報が格納されている。なお、「エントリ種別」、「親エントリリスト」、「親エントリ種別」「スロット有効フラグ」、「スロットチェーン」については、日付フォルダエントリ(#35)420に示すものと同様であるため、ここでの説明は省略する。
「メタデータ」には、このメタデータエントリが属する上位階層の登録顔エントリに対応する登録顔画像から取得された各種属性情報(メタデータ)が格納される。ここで、登録顔エントリの下位階層に連結されるメタデータエントリと、ファイルエントリの下位階層に連結されるメタデータエントリとは、基本的な構成は同一である。しかし、登録顔エントリの下位階層に連結されるメタデータエントリの「メタデータ」には、主に、顔識別に用いられる特徴量が格納される点が、ファイルエントリの下位階層に連結されるメタデータエントリとは異なる。この「メタデータ」に格納される各種情報については、図16等を参照して詳細に説明する。
次に、プロパティファイルに格納されている各エントリの親子関係、登場登録顔リストおよび登録顔登場コンテンツリストの対応関係について図面を参照して詳細に説明する。
図10は、本発明の実施の形態における動画フォルダエントリ、日付フォルダエントリ、動画ファイルエントリおよびメタデータエントリの親子関係と、登場登録顔リストの対応関係とを概略的に示す図である。図10では、図3に示す動画フォルダエントリ(#1)410、日付フォルダエントリ(#35)420、動画ファイルエントリ(#37)421および(#44)423、メタデータエントリ(#40)422および(#47)424を例にして説明する。
動画フォルダエントリ(#1)410には、「子エントリリスト」等の情報が格納されている。例えば、「子エントリリスト」には「#35」、「#51」、「#67」が格納される。
日付フォルダエントリ(#35)420には、「親エントリリスト」、「子エントリリスト」等の情報が格納されている。例えば、「親エントリリスト」には「#1」が格納され、「子エントリリスト」には「#7」および「#28」が格納される。
動画ファイルエントリ(#37)421および(#44)423には、「親エントリリスト」、「子エントリリスト」、「コンテンツアドレス」、「サムネイルアドレス」、「登場登録顔リスト」等の情報が格納されている。例えば、動画ファイルエントリ(#37)421において、「親エントリリスト」には「#35」が格納され、「子エントリリスト」には「#40」が格納される。また、「コンテンツアドレス」には「A311」が格納され、「サムネイルアドレス」には「#01」が格納され、「登場登録顔リスト」には「#7」が格納される。なお、「サムネイルアドレス」に格納される「#01」は、サムネイルファイル500におけるエントリ番号であり、プロパティファイル400に格納されている各エントリのエントリ番号とは異なる。また、図11に示す「サムネイルアドレス」についても同様である。
メタデータエントリ(#40)422および(#47)424には、「親エントリリスト」等の情報が格納されている。例えば、メタデータエントリ(#40)422において、「親エントリリスト」には「#37」が格納される。これらの各エントリの親子関係については、図10において、「親エントリリスト」または「子エントリリスト」からの矢印で示す。また、各動画ファイルエントリの登場登録顔リストの対応関係については、図10において、「登場登録顔リスト」からの矢印で示す。
図11は、本発明の実施の形態における登録顔フォルダエントリ、登録顔エントリおよびメタデータエントリの親子関係と、登録顔登場コンテンツリストの対応関係とを概略的に示す図である。図11では、図3に示す登録顔フォルダエントリ(#5)460、登録顔エントリ(#7)461および(#14)463、メタデータエントリ(#10)462および(#17)464の親子関係を例にして説明する。
登録顔フォルダエントリ(#5)460には、「子エントリリスト」等の情報が格納されている。例えば、「子エントリリスト」には「#7」、「#14」、「#21」、「#28」が格納される。
登録顔エントリ(#7)461および(#14)463には、「親エントリリスト」、「子エントリリスト」、「サムネイルアドレス」、「登録顔登場コンテンツリスト」等の情報が格納されている。例えば、登録顔エントリ(#7)461において、「親エントリリスト」には「#5」が格納され、「子エントリリスト」には「#10」が格納される。また、「サムネイルアドレス」には「#11」が格納され、「登録顔登場コンテンツリスト」には「#37」、「#44」、「#69」が格納される。
メタデータエントリ(#10)462および(#17)464には、「親エントリリスト」等の情報が格納されている。例えば、メタデータエントリ(#10)462において、「親エントリリスト」には「#7」が格納される。これらの各エントリの親子関係については、図11において、「親エントリリスト」または「子エントリリスト」からの矢印で示す。また、各登録顔エントリの登録顔登場コンテンツリストの対応関係については、図11において、「登録顔登場コンテンツリスト」からの矢印で示す。なお、図3に示す他のエントリの親子関係についての説明は省略するが、図10および図11に示す場合と同様に親子関係が成立しているものとする。また、図3に示す他の動画ファイルエントリの登場登録顔リストの対応関係、および、図3に示す他の登録顔エントリの登録顔登場コンテンツリストの対応関係についても、図10および図11に示す場合と同様に対応関係が成立しているものとする。
なお、図3に示すプロパティファイル400においては、1つのファイルエントリに1つのメタデータエントリを連結させる構成例を示すが、1つのファイルエントリに複数のメタデータエントリを連結させるようにしてもよい。すなわち、1つの親ファイルエントリに複数の子メタデータエントリを対応させることができる。
例えば、動画ファイルエントリ(#37)421の子メタデータエントリとして、顔メタデータを格納するメタデータエントリ(#40)422とともに、GPS情報を格納するメタデータエントリ(#76)(図示せず)を対応させる。そして、動画ファイルエントリ(#37)421の子エントリリストに「#40」および「#76」を記録する。この場合には、子エントリリストの格納順序をメタデータの種類に応じて予め決めておくようにする。これにより、1つのファイルエントリに複数のメタデータを格納する場合において、メタデータの数が増加した場合でも、データ管理が煩雑になることを防止して、所望のメタデータの抽出時間を短縮することができる。なお、ここでのメタデータの種類とは、単なるデータの種類(顔メタ、GPS等の種類)でもよく、メタデータがバイナリデータかテキストデータかというコーディングの種類でもよい。
また、図3に示すプロパティファイル400においては、1つの登録顔エントリに1つのメタデータエントリを連結させる構成例を示すが、1つの登録顔エントリに複数のメタデータエントリを連結させるようにしてもよい。すなわち、1つの親の登録顔エントリに複数の子のメタデータエントリを対応させることができる。
例えば、「甲田一郎」の通常顔に関する特徴データを格納するメタデータエントリを、メタデータエントリ(#10)462とし、「甲田一郎」の笑顔に関する特徴データを格納するメタデータエントリをメタデータエントリ(#80)(図示せず)とする。そして、登録顔エントリ(#7)461の子メタデータエントリとして、メタデータエントリ(#10)462およびメタデータエントリ(#80)を対応させるため、登録顔エントリ(#7)461の子エントリリストに「#10」および「#80」を記録する。また、笑顔、怒った顔、泣き顔のように3以上のメタデータエントリを1つの登録顔エントリに対応させるようにしてもよい。これにより、「甲田一郎」が異なる複数の表情で撮像されている複数のコンテンツがあった場合でも、「甲田一郎」が含まれるコンテンツを適切に識別して登録顔エントリ(#7)461の登録顔登場コンテンツリストに記録することができる。
図12は、本発明の実施の形態におけるプロパティファイル400の基本構造を概略的に示す図である。図12(a)には、プロパティファイル400の基本構造の一例を示し、図12(b)には、各エントリを構成するスロットの構造を示し、図12(c)には、プロファイルエントリ(#150)406に含まれる情報の一例を示す。また、図12(d)には、ヘッダ部430に含まれる情報のうちで、コンテンツ管理ファイル340が管理するコンテンツの種別を示す情報の一例を示す図である。
図13は、本発明の実施の形態におけるプロパティファイル400の全体構造を概略的に示す図である。
プロパティファイル400は、図12(a)に示すように、ヘッダ部470およびエントリ部480の基本構造を有するファイルであり、これらの各エントリが1つのフォルダやファイル等を示す単位となる。
エントリ部480を構成する各エントリは、1または複数のスロットで構成されている。なお、各エントリに格納されるデータの容量に応じて、各エントリには1または複数のスロットが割り当てられる。また、各エントリを構成するスロットは、プロパティファイルやサムネイルファイル等のファイル毎に決められた固定長のデータブロックとして定義されている。ただし、エントリによっては、構成されるスロット数が異なるため、スロットの整数倍で各エントリが可変長となる。
例えば、図12(a)に示すように、動画フォルダエントリ(#1)410には、格納されるデータ487のデータ容量に応じて2つのスロット481および482が割り当てられる。また、静止画フォルダエントリ(#3)450には、格納されるデータ488のデータ容量に応じて2つのスロット483および484が割り当てられる。
なお、スロットが固定長であるため、スロットの全ての領域が有効データで埋められることがない場合があり、データ的にロスが発生する場合がある。しかし、スロットを固定長とすることによるデータアクセス性やデータ管理性を重視するため、このような構造とすることが好ましい。
また、エントリ部480を構成する各エントリは、図3等に示すように、エントリ番号で管理される。このエントリ番号は、エントリを構成する先頭のスロットが、プロパティファイル400全体を構成するスロットの先頭から何番目のスロットに該当するかに応じて割り当てられる。例えば、図12(a)および図13に示すように、動画フォルダエントリ(#1)410を構成するスロット481および482のうちの先頭のスロット481が、プロパティファイル400全体を構成するスロットの先頭から数えて1番目のスロットとなる。このため、動画フォルダエントリ(#1)410のエントリ番号として「#1」が割り当てられる。また、静止画フォルダエントリ(#3)450を構成するスロット483および484のうちの先頭のスロット483が、プロパティファイル400全体を構成するスロットの先頭から数えて3番目のスロットとなる。このため、静止画フォルダエントリ(#3)450のエントリ番号として「#3」が割り当てられる。また、登録顔フォルダエントリ(#5)460を構成するスロット485および486のうちの先頭のスロット485が、プロパティファイル400全体を構成するスロットの先頭から数えて5番目のスロットとなる。このため、登録顔フォルダエントリ(#5)460のエントリ番号として「#5」が割り当てられる。なお、他の各エントリのエントリ番号についても同様に割り当てられる。これらのエントリ番号に基づいて、各エントリが管理されるとともに各エントリの親子関係および各リストの対応関係が管理される。なお、エントリをサーチする場合には、エントリ部480を構成する各スロットを最初からカウントして対象となるエントリをサーチする。
各エントリを構成するスロットは、図12(b)に示すように、スロットヘッダ部491および実データ部494の構造を有する。スロットヘッダ部491は、スロットが有効であるか無効であるかを示す有効/無効フラグ492と、チェーン493とで構成されている。
有効/無効フラグ492には、対応するコンテンツファイルが有効に存在する場合には有効フラグが立てられ、対応するコンテンツファイルが削除された場合には無効フラグが立てられる。このように、対応するコンテンツファイルが削除された場合に無効フラグを立てることにより、この削除されたコンテンツファイルに対応するスロット内部の情報を削除する処理を発生させずに、このスロットが見かけ上存在しないことを示すことができる。仮に、有効/無効フラグ492がない場合には、対応するコンテンツファイルが削除されると、この削除されたコンテンツファイルに対応するスロット内部の情報を削除する処理が必要である。また、この削除処理とともに、削除されたスロットの物理的に後ろに存在するスロット内部の情報を前につめる必要がある。このように、有効/無効フラグ492がない場合には処理が煩雑になる。
チェーン493には、各スロットを連結するためのリンクや連結等の情報が格納される。このチェーン493に格納される情報により、複数のスロットが連結されて1つのエントリが構成される。また、実データ部494には、各エントリの実データが格納されている。
プロファイルエントリ(#150)406には、各コンテンツファイルのビデオおよびオーディオに関するコーデック情報が1対となった100種類程度のデータが記録されている。ビデオに関するコーデック情報として、ビデオエントリ(video entry)には、「符号化フォーマット(codec type)」、「画サイズ(visual size)」、「ビットレート(bit rate)」等が格納されている。また、オーディオに関するコーデック情報として、オーディオエントリ(audio entry)には、「符号化フォーマット(codec type)」、「サンプリングレート(sampling rate)」等が格納されている。また、各ビデオ・オーディオエントリには、エントリ番号が割り当てられている。このエントリ番号として、プロファイルエントリ(#150)406内部における記録順序を示す番号が割り当てられる。例えば、図12(c)に示すように、最初のビデオ・オーディオエントリ495には「#1」が割り当てられ、2番目のビデオ・オーディオエントリ496には「#2」が割り当てられる。なお、このビデオ・オーディオエントリのエントリ番号が、ファイルエントリの「プロファイル情報」(図8に示す)に記録される。そして、「プロファイル情報」に記録されているエントリ番号に基づいて、ファイルエントリに対応するコンテンツファイルのコーデック情報が読み出される。
サムネイルファイル500は、基本的な構造はプロパティファイル400と同様であり、各エントリが1または複数のスロットで構成されている。これらの各エントリが1つの代表サムネイル画像または登録顔画像の単位となる。ただし、サムネイルファイル500にはヘッダ部が存在しない。各スロットは、ファイル内で固定長であり、この1スロットの固定長に関するスロットサイズは、プロパティファイル400のヘッダ部470に記録されている。また、サムネイルファイル500の各エントリの対応関係は、プロパティファイル400に格納されている。なお、この例では、サムネイルファイル500のスロットサイズは、プロパティファイル400のスロットサイズとは異なるようにする。
サムネイルファイル500のスロットの容量は、サムネイルファイル毎に設定することができ、この容量はプロパティファイル400のヘッダ部470に記録される。また、ヘッダ部470にはサムネイルファイル500のサムネイルファイル名が記録されている。
サムネイルファイル500には、コンテンツファイルの代表サムネイル画像が、コンテンツファイルに対応するファイルエントリ毎に1枚記録されている。ここで、通常のサムネイルファイルの場合には、1つのファイルエントリについて1つのスロットが対応する。また、サムネイルファイル500を構成する各エントリには、エントリ番号が割り当てられている。このサムネイルファイルのエントリ番号は、サムネイルファイル内を1エントリに1スロットを対応させる構成とする場合には、スロット番号となる。また、このサムネイルファイルのエントリ番号が、各ファイルエントリの「サムネイルアドレス」(図8乃至図11に示す)に格納される。
ヘッダ部470には、各エントリを管理する各種情報が記録されている。例えば、図12(d)に示すように、コンテンツ管理ファイル340が管理するコンテンツファイルの種別を示す情報がヘッダ部470に格納されている。なお、図12(d)に示す例では、コンテンツ管理ファイル340が管理するコンテンツファイルは、HD(High Definition)動画およびSD(Standard Definition)動画となり、静止画は管理しないことになる。これは、動画および静止画を記録することができるコンテンツ記録装置であっても、静止画はコンテンツ管理ファイル340で管理しない場合があるからである。図12(d)に示すようにヘッダ部470に記録されている場合には、静止画は、通常のファイルシステムに基づいて管理されることになる。なお、動画についても、通常のファイルシステムで管理されているため、コンテンツ管理ファイルを理解することができないコンテンツ再生装置等では、ファイルシステムの情報に基づいてコンテンツの再生が実行される。また、撮像装置100を他のコンテンツ再生装置に接続する場合や、着脱可能な記録媒体を他のコンテンツ再生装置に移動させて再生する場合等を想定する。この場合において、他のコンテンツ再生装置がコンテンツ管理ファイルを理解することができる場合には、コンテンツ管理ファイルに基づいてコンテンツファイルの読み出し等が実行される。また、ヘッダ部470には、プロファイルエントリ(#150)406のエントリ番号が記録されている。これにより、エントリ部480を構成する各エントリの中からプロファイルエントリの位置を特定することができる。
図13には、プロパティファイル400を構成する各エントリと、各エントリに対応するスロットと、各スロットに格納されるデータとの関係を概略的に示す。なお、図13では、各エントリを示す矩形内において、各エントリの名称の記載を省略してエントリ番号のみを記載する。また、図13では、図3に示す各エントリのうちで、エントリ番号が小さいエントリおよびプロファイルエントリのみを代表して示す。
図14は、本発明の実施の形態におけるメタデータエントリ600の内部構成を概略的に示す図である。なお、メタデータエントリ600は、図3に示す動画フォルダエントリ(#1)410の下位階層に属するメタデータエントリ(#40)422等と、登録顔フォルダエントリ(#5)460の下位階層に属するメタデータエントリ(#10)462等とに対応する。また、本発明の実施の形態では、1つの動画コンテンツファイル毎に顔メタデータが記録されるものとする。また、1人の特定人物毎に顔メタデータ(特徴量)が記録されるものとする。
メタデータエントリ600は、1または複数のメタデータユニット(Meta_Data_Unit)610から構成されている。メタデータユニット610は、データユニットサイズ(data_unit_size)611と、言語(language)612と、符号化形式(encoding_type)613とにより構成される。また、メタデータユニット610は、メタデータの種類(data_type_ID)614と、メタデータ(meta_data())615とより構成される。
データユニットサイズ611には、メタデータユニット610に格納されているメタデータのサイズが記録される。言語612には、メタデータユニット610に格納されているメタデータの言語が記録される。符号化形式613には、メタデータユニット610に格納されているメタデータの符号化形式が記録される。メタデータの種類614には、個々のメタデータの種類を識別するための識別情報が記録される。
なお、メタデータ615には、顔メタデータ620が記録されるとともに、顔メタデータ以外のメタデータである他のメタデータ650が記録される。例えば、他のメタデータ650として、コンテンツファイルのタイトル情報やジャンル情報等の情報が格納される。
顔メタデータ620は、ヘッダ部630と顔データ部640とから構成されている。ヘッダ部630には、顔メタデータを管理する情報が格納される。また、ヘッダ部630はコンテンツファイルまたは登録顔毎に固定長とする。コンテンツファイルに対応する顔データ部640には、コンテンツファイルから検出された顔について、顔メタデータとして記録される顔毎に顔データが記録される。例えば、顔データ部640には、顔データ621乃至623等が格納される。これらの顔データは、図16に示すように、顔検出時刻情報、顔基本情報、顔スコア、笑顔スコア等のデータである。また、顔データ部640は、1つの動画コンテンツファイルで固定長とする。一方、登録顔に対応する顔データ部640には、特定人物の登録顔画像から抽出された特徴量が顔メタデータとして記録される。この顔データは、図16に示すように、個人識別ID、顔特徴量等のデータである。また、顔データ部640は、一人の登録顔画像で固定長とする。このように、ヘッダ部630および顔データ部640が固定長であるため、顔データへのアクセスを容易に行うことができる。
また、他のメタデータ650の構成は、顔メタデータ620の構成とほぼ同様であるため、ここでの説明を省略する。
図15は、本発明の実施の形態におけるヘッダ部630に格納される各種情報を概略的に示す図である。
ヘッダ部630には、ヘッダサイズ631と、メタデータバージョン632と、コンテンツ更新日時633と、顔データ構造フラグ660と、タイムスケール634と、顔データ個数635とが格納される。また、ヘッダ部630には、顔データサイズ636と、顔検出エンジンバージョン637と、コンテンツ画像サイズ638と、誤り検出符号値639とが格納される。なお、これらの格納単位は、例えば、図15の「サイズ」に示すように、バイトで規定される。また、以下では、動画コンテンツファイルに関する顔メタデータ(動画ファイルエントリの下位階層のメタデータエントリ)を中心に説明する。登録顔に関する顔メタデータ(登録顔エントリの下位階層のメタデータエントリ)については、例えば、ヘッダサイズ631および顔データ構造フラグ660以外は「0」が記録される。
ヘッダサイズ631には、ヘッダ部630のデータサイズが格納される。このヘッダサイズ631により、顔データ部640にアクセスする場合に、ヘッダ部630をジャンプして即座にアクセスすることが可能である。また、データサイズとして2バイトが規定されている。
メタデータバージョン632には、ヘッダ部630に対応する顔データ部640に記録されている顔メタデータのバージョン情報が格納される。コンテンツ再生装置でコンテンツファイルを再生する場合には、メタデータバージョン632に格納されている内容を確認することによって、そのコンテンツ再生装置が対応可能なデータであるか否かを装置自体が確認することが可能となる。本発明の実施の形態では、例えば、「1.00」が記録されるものとする。また、データサイズとして2バイトが規定され、上位8ビットがメジャーバージョンを示し、下位8ビットがマイナーバージョンを示す。なお、将来、顔メタデータフォーマットが拡張された場合には、更新されたバージョン情報が格納される。
コンテンツ更新日時633には、コンテンツファイルが記録された更新日時が格納される。例えば、撮像装置100により記録された動画コンテンツファイルが他の装置に移動して編集された後に、この編集された動画コンテンツファイルが撮像装置100に再度記録されたような場合を想定する。この場合には、編集後の動画コンテンツファイルと顔メタデータと間で不整合が発生する。具体的には、以下で示す(1)乃至(3)のステップで動画コンテンツファイルが移動する場合が考えられる。このような場合に、これらの不整合を検出して、動画コンテンツファイルBから顔メタデータを再検出させ、編集後の動画コンテンツファイルと顔メタデータと間で発生した不整合を修正することが可能となる。
(1)ステップ1
コンテンツ記録装置Aで動画コンテンツファイルAが記録され、動画コンテンツファイルAに対応する顔メタデータが生成される。この場合には、動画コンテンツファイルAの作成日時および更新日時と、顔メタデータのコンテンツ更新日時とが同じ値となる。
(2)ステップ2
動画コンテンツファイルAがコンテンツ再生装置Bに移動された後に、コンテンツ再生装置Bで編集されて、動画コンテンツファイルBとなる。この場合には、動画コンテンツファイルBの更新日時が編集時の日時に更新される。
(3)ステップ3
動画コンテンツファイルBがコンテンツ記録装置Aに戻される。この場合には、動画コンテンツファイルBと、顔メタデータのコンテンツ更新日時との値が異なる。
顔データ構造フラグ660には、顔データ部640に格納される顔データで定義されたメタデータの有無を示すフラグが格納される。なお、顔データ構造フラグ660については、図17乃至図22を参照して詳細に説明する。
タイムスケール634には、顔データ部で使用される時刻情報のタイムスケール(1秒あたりのユニット数を表す値)が格納される。すなわち、動画コンテンツファイルから顔が検出された時刻を示す情報(顔検出時刻情報)が顔データとして顔データ部に記録されるが、その時刻情報のタイムスケールがタイムスケール634に格納される。なお、単位はHzである。
顔データ個数635は、ヘッダ部630に続いて記録される顔データの個数を示す情報が格納される。顔を検出しなかった場合には、「0」が記録される。
顔データサイズ636には、ヘッダ部630に続いて記録される1つの顔データのデータサイズを示す情報が格納される。この顔データサイズ636に格納される情報に基づいて個々の顔データ間をジャンプすることが可能となる。なお、顔が検出されなかった場合には、「0」が記録される。
顔検出エンジンバージョン637には、動画コンテンツファイルから顔を検出する顔検出エンジンに関する情報が記録される。これは、顔メタデータの再生時において、自機よりも性能の低い顔検出エンジンで検出された顔メタデータであることを認識した場合に、顔メタデータを再検出するか否かの指標として使用される。顔検出エンジンに関する情報は、例えば、ASCIIコードで記述される。
例えば、メタデータバージョンが「1.00」の場合には、図16に示すデータの順序で顔データ部640に各データが記録される。このため、コンテンツ再生装置がメタデータバージョンを「1.00」であると認識した場合には、それぞれのデータが固定長に、かつ予め決められた位置に配置されているため、顔データ部640の所望のデータの位置まで迅速にアクセスすることが可能となる。
コンテンツ画像サイズ638には、顔が検出された画像の高さおよび幅を示す情報が記録される。また、誤り検出符号値639には、顔が検出された画像において所定範囲で計算された誤り検出符号値(エラー訂正符号値)を示す情報が記録される。例えば、誤り検出符号値639には、顔メタデータの作成時において、対応する画像データから計算されたチェックサムの値が記録される。なお、誤り検出符号値としては、チェックサム以外に、CRC(Cyclic Redundancy Check:巡回冗長検査)やハッシュ関数を用いたハッシュ値等を用いることが可能である。
コンテンツ画像サイズ638および誤り検出符号値639は、コンテンツ更新日時633と同様に、動画コンテンツファイルと顔メタデータとの間で発生する不整合を検出するために用いられる。この不整合発生のメカニズムは、上述した(1)ステップ1乃至(3)ステップ3と同様である。例えば、静止画コンテンツファイルについては、静止画編集ソフトが数多く存在しているものの、これらの静止画編集ソフトの中には、静止画が編集された場合でもコンテンツ内部のコンテンツ日時情報が更新されないものが存在する。このような場合においては、コンテンツ更新日時の比較とともに、このコンテンツ画像サイズを用いた比較をすることによって、さらに確実な不整合を検出することが可能である。
図16は、本発明の実施の形態における顔データ部640に格納される顔データを概略的に示す図である。なお、顔データ部640には、ヘッダ部630の顔データ構造フラグ660でビットアサインされた順序で各顔データが格納される。
顔データ部640には、顔検出時刻情報641と、顔基本情報642と、顔スコア643と、笑顔スコア644と、顔重要度645と、個人識別ID646と、顔特徴量647とが記録される。なお、これらの格納単位は、バイトで規定される。ここで、動画コンテンツファイルに関する顔メタデータ(動画ファイルエントリの下位階層のメタデータエントリ)については、上述したように、メタデータバージョンが「1.00」の顔データとして定義される場合を例にして説明する。また、登録顔に関する顔メタデータ(登録顔エントリの下位階層のメタデータエントリ)については、例えば、個人識別ID646および顔特徴量647のみが記録される。
顔検出時刻情報641には、対応する動画コンテンツファイルの先頭を「0」として、この顔データが検出されたフレームの時刻が記録される。なお、顔検出時刻情報641には、ヘッダ部630のタイムスケール634に格納されたタイムスケールの整数倍の値が格納される。
顔基本情報642には、動画コンテンツファイルを構成する各フレームから検出された顔の位置および大きさが格納される。顔基本情報642として、顔位置情報が上位4バイトで規定され、顔サイズ情報が下位4バイトで規定される。また、顔位置情報は、例えば、顔が検出された画像における左上部分から検出された顔の左上部分までの差の値であり、上位16ビットで横軸の位置の値が規定され、下位16ビットで縦軸の位置の値が規定される。また、顔サイズ情報は、例えば、検出された顔の画像サイズを示す値であり、上位16ビットで顔の幅を示す値が規定され、下位16ビットで顔の高さを示す値が規定される。なお、顔基本情報642は、顔メタデータを利用するアプリケーションとしては最も重要なメタデータである。
顔スコア643には、検出された顔の顔らしさを表す顔スコアに関する情報が格納される。
笑顔スコア644には、検出された顔がどの程度笑っているかを表す笑顔スコアに関する情報が格納される。
顔重要度645には、同一時刻で検出された画像の優先順位(重要度)を示す情報が格納される。これは、例えば、1フレーム中で複数の顔が検出された場合において、画面の中心に近い顔から高い優先順位を割り当てたり、フォーカスされている顔に高い優先順位を割り当てることができる。格納される情報としては、例えば、小さい値ほど重要度が大きいと規定して、「1」を最大重要度と規定することができる。これにより、例えば、画像を表示する表示部が小さいモバイル機器を使用する場合でも、全ての顔画像を小さく表示する代わりに、優先順位の高い顔のみを大きく表示させることが可能となる。
個人識別ID646には、検出された顔を識別するための登録顔毎に付与される識別子が格納される。例えば、登録顔に関する顔メタデータ(登録顔エントリの下位階層のメタデータエントリ)については、上位階層の登録顔エントリに対応する登録顔の個人識別IDが格納される。また、動画コンテンツファイルに関する顔メタデータ(動画ファイルエントリの下位階層のメタデータエントリ)については、検出された顔が何れかの登録顔に該当すると判断された場合に、その登録顔に対応する個人識別IDが格納される。
顔特徴量647には、検出された顔について顔識別処理を行う場合に、検出された顔から特徴量を抽出する際に用いられるアルゴリズムと、顔識別に用いられる辞書等を識別する識別情報が格納される。また、登録顔に関する顔メタデータ(登録顔エントリの下位階層のメタデータエントリ)については、顔特徴量647には、個人を識別するための特徴量が格納される。なお、動画コンテンツファイルに関する顔メタデータ(動画ファイルエントリの下位階層のメタデータエントリ)についても、検出された顔が何れかの登録顔に該当すると判断された場合に、検出された顔から抽出された特徴量を格納するようにしてもよい。
本発明の実施の形態では、検出された顔に関する顔データを記録する場合には、検出された時刻順序に顔データを記録する。これにより、時間順で検索する場合に迅速に行うことができる。さらに、同一の動画コンテンツファイルにおいては、全ての顔データに含まれるメタデータの種別は同じものとし、図16に示す順序で顔データを記録する。ただし、図16に示す全てのデータを記録する必要はないが、同一の動画コンテンツファイルで同種のメタデータを記録する。これにより、全ての顔データが固定長となり、顔データへのアクセス性を向上させることができる。また、同一の動画コンテンツファイルで同種のメタデータが格納されているため、所定のメタデータへのアクセスを向上させることができる。
図17は、本発明の実施の形態におけるヘッダ部630(図15に示す)の顔データ構造フラグ660のデータ構造を示す図である。図18乃至図22は、本発明の実施の形態における顔データ構造フラグ660に格納されたビットと、顔データ部640に格納された顔データとの関係を示す図である。
本発明の実施の形態では、図16に示すように、顔データ部640において7個のメタデータが定義されている。このため、顔データ構造フラグ660のLSB(Least Significant Bit)から順番に、顔データ部640の順序に従って、0−6ビットにそれぞれのデータが割り当てられる。そして、顔データ構造フラグ660の各ビットには、顔メタデータのデータフィールドのデータの有無が格納される。すなわち、顔データ構造フラグ660の各ビットには、顔メタデータのデータフィールドにデータが存在する場合には「1」が格納され、データが存在しない場合には「0」が格納される。このように、顔データ部640に存在するメタデータが存在する場合には、対応するビットに「1」が設定される。なお、7ビット目以降は将来の顔データ内部のデータの拡張のための予約領域となる。
具体的に、例えば、動画コンテンツファイルに関する顔メタデータについては、図18(a)に示すように、顔データ部640には、メタデータバージョンが「1.00」で規定されたデータが格納されているものとする。この場合には、図18(b)に示すように、LSBから0−6ビットのそれぞれには「1」が格納される。なお、撮像装置100は定義された全てのデータを記録する必要はなく、必要なデータのみを記録することができる。これにより、顔メタデータを利用するアプリケーションに応じた柔軟な顔メタデータの記録が可能となり、データ量を削減することも可能となる。
また、例えば、登録顔に関する顔メタデータ(登録顔エントリの下位階層のメタデータエントリ)については、図19(a)に示すように、顔データ部640には、個人識別IDおよび顔特徴量のデータが格納されているとする。この場合には、図19(b)に示すように、LSBから0−4ビットのそれぞれには「0」が格納され、5−6ビットのそれぞれには「1」が格納される。
また、動画コンテンツファイルに関する顔メタデータ(動画ファイルエントリの下位階層のメタデータエントリ)については、例えば、図20乃至図20に示すように、顔データ部640におけるメタデータを定義することができる。
例えば、図20(a)に示すように、顔データ部640には、メタデータバージョンが「1.00」で規定された7つのデータのうちの3つのデータが、他のコンテンツ記録装置によって格納されているものとする。この場合には、記録される顔データの順序は、図16に示す順序となり、記録されないデータの分はつめて記録される。図20(b)は、上記他のコンテンツ記録装置によって記録された顔データ構造フラグ660の実データの例を示すものであり、顔データとして存在するデータフィールドに割り当てられたフラグに「1」が格納される。このように、メタデータバージョンが「1.00」で規定された範囲内であれば、撮像装置100は、何れのメタデータでも記録することができる。また、顔メタデータを再生するコンテンツ再生装置は、他のコンテンツ記録装置により異なるメタデータが記録されていたとしても、ヘッダ部630の情報を参照することによって顔データ内部のメタデータの有無を確認することができる。また、顔データが固定長であるため、所望のメタデータへのアクセスを高速に行うことが可能となる。
次に、本発明の実施の形態における顔データ部640に格納される顔データの拡張方法について図面を参照して説明する。
将来的に顔検出技術が向上した場合や検出された顔の結果を新たなアプリケーションで利用する場合等において、メタデータバージョンが「1.00」で規定された顔メタデータのみでは不十分な場合が想定される。そこで、以下では、顔データ部640に格納される顔データを拡張する場合の例を示す。
図21(a)に拡張された顔データの例を示す。ここでは、検出された顔の性別度合いを示す「性別スコア」と、フレーム上の顔の傾き度合いを示す「角度情報」とが拡張された顔データとして示されている。これらを追加した顔メタデータのメタデータバージョンが「1.10」として定義され、ヘッダ部630のメタデータバージョン632のフィールドには「1.10」が記録される。メタデータの拡張の方法は、前バージョンで定義されたデータ下に新規メタデータを追加する形で行われる。具体的には、データを記録媒体160に記録する際には、顔データ単位でバージョン「1.00」で規定されたデータが記録された物理アドレスに連続する物理アドレスからバージョン「1.10」で規定されたデータを記録する。そして、バージョン「1.10」規定のメタデータが記録された物理アドレスに連続するアドレスに同様に次の顔データ単位のメタデータの記録が開始される。
図22には、バージョン「1.10」で定義されたメタデータのうち、ある記録装置によって記録されたメタデータを示す。図22に示すように、例えば、図21(a)に示す拡張された顔データが記録される場合でも、図21(a)に示す顔データの全てが記録される必要はない。ただし、このように記録されない顔データが存在する場合には、図21(a)に示す顔データのうちの所定の顔データが図22(a)に示す順序で記録されるとともに、顔データが記録されないフィールド分はつめて記録される。
さらに、バージョン「1.10」へのバージョンアップにともない顔データ構造フラグも拡張され、バージョン「1.00」時には予約領域だったビットに、図21(a)で定義されたフィールド順序に従い新規ビットが割り当てられる。そして、顔データ部にデータが存在するビットには、図21(b)のように「1」がセットされる。これにより、バージョン「1.10」に対応した再生装置では、ヘッダ部の顔データ構造フラグのビット列を確認することにより、顔データ部のデータ構造を理解可能となり、個々の顔データは固定長となるため所望のメタデータまで迅速にアクセス可能となる。
さらに、バージョン「1.10」に対応する記録装置によって、着脱可能な記録媒体に顔メタデータが記録され、この記録媒体がバージョン「1.00」にのみ対応する再生装置に移動された場合を考える。この場合において、この再生装置はヘッダ部の顔データ構造フラグの0−6ビットまでは認識可能である。また、顔データサイズの仕様が変わっていないため、バージョン「1.00」で想定されていない顔データが格納されていたとしても、この再生装置は、バージョン「1.00」で規定されている顔データを認識することが可能である。例えば、図22に示す例では、この再生装置は、「顔検出時刻情報」、「顔基本情報」、「顔スコア」、「顔重要度」、「個人識別ID」、「顔特徴量」を理解することができる。このため、この再生装置は、これらのメタデータへのアクセスが可能である。このように、メタデータエントリは、アクセス性に優れているデータ構造であるとともに、記録機または再生機のバージョンが変更された場合でも、この変更に対応することが可能である。
次に、本発明の実施の形態における撮像装置100の機能構成について図面を参照して説明する。
図23は、本発明の実施の形態における撮像装置100の記録に関する機能構成例を示すブロック図である。撮像装置100は、操作受付部140と、撮像部211と、顔検出部212と、顔メタデータ作成部213と、コンテンツ管理情報作成部214と、代表サムネイル画像抽出部215と、コンテンツ属性情報作成部216とを備える。また、撮像装置100は、正規化部220と、特徴量抽出部221と、顔識別部222と、記録制御部223と、コンテンツ管理ファイル記憶部250と、コンテンツ記憶部260とを備える。なお、操作受付部140は、図1に示すものと同一であるため、同一の符号を付して詳細な説明は省略する。
コンテンツ管理ファイル記憶部250は、階層構造により構成される階層エントリを記録するコンテンツ管理ファイル340を記憶するものである。なお、コンテンツ管理ファイル340の詳細については、図3乃至図11等に示す。また、コンテンツ管理ファイル記憶部250は、特許請求の範囲に記載の記憶部の一例である。
コンテンツ記憶部260は、動画や静止画等のコンテンツファイルを記憶するものである。なお、コンテンツ管理ファイル記憶部250およびコンテンツ記憶部260は、例えば、図1に示す記録媒体160に対応する。
撮像部211は、撮像画像(フレーム)を生成するものであり、生成された撮像画像を各部に出力するものである。すなわち、生成された撮像画像が、顔検出部212、顔メタデータ作成部213、コンテンツ管理情報作成部214、代表サムネイル画像抽出部215、コンテンツ属性情報作成部216、正規化部220および記録制御部223に出力される。撮像部211は、例えば、図1に示すカメラ部110およびカメラDSP120に対応する。
顔検出部212は、撮像部211から出力された撮像画像に含まれる顔を検出するものであり、検出された顔の出現時刻および位置等を顔メタデータ作成部213および正規化部220に出力する。なお、同一時刻の画像から複数の顔が検出された場合には、検出された各顔についての出現時刻および位置等が出力される。ここで、顔検出方法として、例えば、顔の輝度分布情報が記録されているテンプレートと実画像とのマッチングによる顔検出方法(例えば、特開2004−133637参照。)、撮像画像に含まれる肌色の部分や人間の顔の特徴量等に基づいた顔検出方法等を用いることができる。
顔メタデータ作成部213は、撮像部211から出力された撮像画像に基づいて顔メタデータを作成するものであり、作成された顔メタデータを記録制御部223に出力する。顔メタデータ作成部213は、顔データ作成部218およびヘッダ情報作成部219を含む。顔データ作成部218は、顔検出部212により検出された顔の出現時刻および位置等に基づいてその顔に関する顔データ(図16の顔データ部640の各データ)を作成するものである。また、ヘッダ情報作成部219は、顔データ作成部218により作成された顔データを管理するヘッダ情報(図15のヘッダ部630の各情報)を作成するものである。顔データ作成部218により作成された顔データおよびヘッダ情報作成部219により作成されたヘッダ情報は、記録制御部223に出力される。また、顔データ作成部218は、所定間隔で検出された顔のうちで所定条件を満たさない顔については、顔に関する顔データを作成しないようにしてもよい。
コンテンツ管理情報作成部214は、撮像部211から出力された撮像画像により構成されるコンテンツを管理するためのコンテンツ管理情報401(図8に示す)を、そのコンテンツに基づいて作成するものである。そして、作成されたコンテンツ管理情報を記録制御部223に出力する。
代表サムネイル画像抽出部215は、撮像部211から出力された撮像画像により構成されるコンテンツから、そのコンテンツの代表サムネイル画像501乃至506(図5等に示す)を抽出するものである。そして、抽出された代表サムネイル画像をコンテンツ属性情報作成部216および記録制御部223に出力する。
コンテンツ属性情報作成部216は、撮像部211から出力された撮像画像により構成されるコンテンツに関するコンテンツ属性情報402(図8に示す)を、そのコンテンツに基づいて作成するものである。そして、作成されたコンテンツ属性情報を記録制御部223に出力する。また、コンテンツ属性情報作成部216は、代表サムネイル画像抽出部215により抽出された代表サムネイル画像の記録位置を含めて属性情報を作成する。すなわち、代表サムネイル画像抽出部215により抽出された代表サムネイル画像に対応するコンテンツに関するコンテンツ属性情報に、その代表サムネイル画像のサムネイルファイル500における記録位置(サムネイルアドレス)を含めて属性情報が作成される。
正規化部220は、顔検出部212により検出された顔に対応する顔画像について、その顔に含まれる両目に基づいて正規化を行うものであり、正規化された顔画像(正規化顔画像)を特徴量抽出部221および記録制御部223に出力する。なお、両目の検出方法として、例えば、顔検出方法と同様に、目の輝度分布情報が記録されているテンプレートと実画像とのマッチングによる目検出方法等を用いることができる。また、正規化部220は、正規化を行うための正規化テンプレートを保持し、この正規化テンプレートに基づいて顔画像を正規化する。この正規化テンプレートとして、例えば、図24(c)に示すように、顔画像における両目の位置を基準とする正規化テンプレート280を用いることができる。すなわち、正規化部220は、顔画像における両目の位置が、正規化テンプレート280における両目の位置と合致するように、顔画像に拡大縮小処理および回転処理を施すとともに解像度変換を施し、その顔画像を正規化する。なお、顔画像の正規化および正規化テンプレートについては、図24を参照して詳細に説明する。
特徴量抽出部221は、正規化部220から出力された正規化顔画像における特徴量を抽出するものであり、抽出された特徴量を顔識別部222および記録制御部223に出力する。この特徴量は、顔識別部222による顔識別処理に用いられる特徴量であり、顔データ部640の顔特徴量647に特徴量を抽出する際に用いられるアルゴリズムが記録されている。
顔識別部222は、顔検出部212により検出された顔が、コンテンツ管理ファイル記憶部250に記憶されている登録顔であるか否かを識別するものであり、識別結果を記録制御部223に出力する。すなわち、顔識別部222は、特徴量抽出部221から出力された特徴量と、登録顔エントリの下位階層に連結されているメタデータエントリに格納されている特徴量とを比較することにより、顔検出部212により検出された顔が登録顔であるか否かを識別する。また、識別結果として、例えば、識別された登録顔に対応する個人識別IDおよび顔検出時刻情報が記録制御部223に出力される。なお、複数の登録顔エントリがコンテンツ管理ファイル記憶部250に記憶されている場合には、各登録顔エントリの下位階層に連結されているメタデータエントリに格納されている特徴量を用いて、それぞれ識別処理が行われる。この顔識別方法として、例えば、比較対象となる登録顔画像および正規化顔画像のそれぞれから特徴量を抽出し、この抽出された特徴量に基づいて顔識別を行う顔識別方法を用いることができる。すなわち、登録顔画像から抽出された特徴量と、正規化顔画像から抽出された特徴量とが比較されることにより、これらの特徴量の類似度が算出される。そして、この算出された類似度が閾値を超えた場合に、その正規化顔画像に含まれる顔が登録顔であると判定される。また、顔識別方法として、例えば、比較対象となる登録顔画像および正規化顔画像のそれぞれの画像上の2点間の特徴量の差分値を用いた弱判別器による識別処理を行う識別方法を用いることができる。さらに、例えば、特徴量として特徴ベクトルを用いて識別処理を行う識別方法を用いることができる(例えば、特開2008−129830号参照。)
記録制御部223は、コンテンツ管理情報作成部214により作成されたコンテンツ管理情報401とコンテンツ属性情報作成部216により作成されたコンテンツ属性情報402とを含む動画ファイルエントリをコンテンツ管理ファイル記憶部250に記録する。また、記録制御部223は、顔メタデータ作成部213により作成された顔メタデータを含むメタデータエントリを、その顔メタデータが作成されたコンテンツファイルに対応する動画ファイルエントリの下位階層に記録する。さらに、記録制御部223は、代表サムネイル画像抽出部215により抽出された代表サムネイル画像をサムネイルファイル500としてコンテンツ管理ファイル記憶部250に記録する。また、記録制御部223は、顔識別部222から登録顔であることを識別した識別結果が出力された場合には、作成されたメタデータエントリにその識別結果を記録する。また、その登録顔に対応する登録顔エントリの識別番号を、作成された動画ファイルエントリに記憶する。さらに、作成された動画ファイルエントリのエントリ番号をその登録顔に対応する登録顔エントリに記憶する。また、記録制御部223は、登録顔を登録処理する場合には、正規化部220から出力された正規化顔画像を登録顔画像としてサムネイルファイル500に記録する。また、記録制御部223は、特徴量抽出部221から出力された特徴量に基づいて顔メタデータのヘッダ部630に記録されるヘッダ情報を作成する。そして、作成されたヘッダ情報を記録するヘッダ部と、その特徴量に対応する顔データを記録する顔データ部とを含むメタデータエントリを作成する。また、記録制御部223が、作成されたメタデータエントリに対応する登録顔を管理する登録顔エントリを作成する。そして、作成されたメタデータエントリおよび登録顔エントリをコンテンツ管理ファイル記憶部250に記録する。なお、記録制御部223は、特許請求の範囲に記載の制御部の一例である。
図24は、本発明の実施の形態における撮像画像に含まれる顔を識別する場合、および、撮像画像に含まれる顔を登録顔画像として登録する場合における遷移を概略的に示す図である。図24(a)には、撮像部211から出力されたフレームに対応する画像270を示し、図24(b)には、顔検出部212により検出された顔を含む顔画像273を示す。また、図24(c)は、正規化テンプレート280を用いて正規化された正規化顔画像276を示し、図24(d)には、正規化顔画像276に含まれる顔を識別する場合、および、正規化顔画像276を登録顔画像として登録する場合を示す。なお、画像270に含まれる人物を甲田一郎521とする。
図24(a)に示すように、例えば、撮像部211から出力された画像270が顔検出部212に入力されると、顔検出部212は画像270に含まれる甲田一郎521の顔272を検出する。なお、図24(b)では、顔画像273に含まれる甲田一郎521の顔272の両目の中心位置を目の位置274および275として示す。
正規化部220は、顔画像273に含まれる両目の位置274および275が、図24(c)に示す正規化テンプレート280における基準位置281および282に合致するように、顔画像273について拡大縮小処理および回転処理等を行う。ここで、正規化テンプレート280は、正規化部220に保持されて、正規化部220が正規化を行う際に用いられるテンプレートである。例えば、顔画像273について回転処理が行われ、正規化された顔画像である正規化顔画像276が生成される。図24(c)に示すように、正規化顔画像276は、顔272の目の位置274および275が、正規化テンプレート280における基準位置281および282に合致する。
図24(d)に示すように、正規化部220により正規化された正規化顔画像276が特徴量抽出部221に入力されると、特徴量抽出部221は正規化顔画像276から特徴量を抽出する。この抽出された特徴量が、顔識別部222に出力されると、顔識別部222は、登録顔エントリの下位階層に連結されているメタデータエントリに記録されている特徴量を用いて顔識別処理を行う。この顔識別処理の結果が、記録制御部223に出力される。例えば、顔識別処理の結果、正規化顔画像に含まれる顔が登録顔であると識別された場合には、識別された登録顔に対応する個人識別IDおよび顔検出時刻情報が記録制御部223に出力される。
また、図24(d)に示すように、登録ボタンが押下された場合には、正規化部220から出力された正規化顔画像がサムネイルファイル500に記録されるとともに、この正規化顔画像に対応する登録顔エントリがプロパティファイル400に作成される。また、その登録顔エントリの下位階層に連結してメタデータエントリが作成され、このメタデータエントリに特徴量抽出部221から出力された特徴量が記録される。例えば、甲田一郎521の顔を登録する場合には、図24(d)に示すように、サムネイルファイル500に登録顔画像511が記録される。そして、登録顔画像511から抽出された特徴量が記録されたメタデータエントリ(#10)462が作成され、このメタデータエントリ(#10)462がプロパティファイル400に記録される。
このように、特定人物の顔を登録する場合には、正規化顔画像を登録顔画像として登録することができる。なお、撮像時における顔画像を登録顔画像として登録するようにしてもよい。また、例えば、顔識別処理により、検出された顔が登録顔ではないと識別された場合には、その検出された顔を新たな登録顔として順次登録するようにしてもよい。
ここで、例えば、動画コンテンツファイルを記録媒体160に記録する場合において、顔検出部212により検出された全ての顔毎に顔データが作成された場合には、作成された顔データの容量が莫大なものになる。また、顔を検出する時間間隔を短く設定する場合には、さらに容量が増加することが想定され、記録媒体160に記録されるデータ容量が増加する。そこで、記録媒体160に記録されるデータ容量を削減するため、以下では、不必要な顔データを記録することを防止する例について説明する。
例えば、1フレーム内において検出された顔のうちで、顔データ部640に記録すべき顔データの値を規定することができる。例えば、1フレーム内において検出された顔の大きさや位置、顔スコアの上位の顔等の所定の条件に基づいて、顔データ部640に記録する顔データの最大値を規定して制限することができる。また、例えば、顔データ部640に格納する顔の個数の上限値を予め決めておき、検出された顔が上限値を超えた場合には、検出された顔の大きさや位置等に基づいて、顔メタデータを制限するようにしてもよい。このように制限することによって、1フレーム内において不必要な顔(条件の悪い顔、顔らしくない顔等)を顔データ部640に記録することによる記録媒体160の容量圧迫を防止することができる。このように、1フレーム内において検出された顔の全てについて顔データを作成する必要はない。
また、例えば、顔検出対象となる連続するフレームから検出された顔の個数に変化がある場合にのみ、顔データを記録するようにしてもよい。この例については、図25を参照して詳細に説明する。
図25は、動画コンテンツファイルを構成するフレーム823乃至828において検出された顔と、顔データ部640に記録される顔データ811乃至822との関係を示す図である。なお、図25では、フレーム823乃至828において検出された顔を四角の枠で囲んだ状態を示す。また、フレーム823または824では1人の顔が検出され、フレーム825または827では2人の顔が検出され、フレーム826または828では3人の顔が検出されたものとする。
図25に示す例では、コンテンツ管理ファイル340に顔データを記録する条件として、条件(1)および条件(2)を設定する場合を示す。条件(1)は、ある検出時刻のフレームにおいて検出された顔の個数と、次の検出時刻のフレームにおいて検出された顔の個数とが同数である場合には、次の検出時刻で検出された顔に関する顔データを顔データ部640に記録しないとする条件である。これは、検出された顔の個数が同数であるため、同じ顔に関するメタデータが記録される可能性が高いためである。また、条件(2)は、ある検出時刻のフレームにおいて検出された顔の個数よりも、次の検出時刻のフレームにおいて検出された顔の個数が少ない場合には、次の検出時刻で検出された顔に関する顔データを顔データ部640に記録しないとする条件である。これは、検出された顔の個数が少ない場合でも、同じ顔に関するメタデータが記録される可能性が高いためである。
例えば、検出時刻t1のフレーム823において検出された顔の数と、検出時刻t2のフレーム824において検出された顔の数とが同数である。この場合には、検出時刻t1のフレーム823において検出された顔の顔データは顔データ部640に記録されるが、検出時刻t2のフレーム824において検出された顔の顔データは顔データ部640に記録されない。また、時刻t5のフレーム827において検出された顔の数は、時刻t4のフレーム826において検出された顔の数よりも少ない。この場合も同様に、検出時刻t4のフレーム826において検出された顔の顔データが顔データ部640に記録されるが、検出時刻t5のフレーム827において検出された顔の顔データは顔データ部640に記録されない。このように、顔検出対象となる連続するフレームから検出された顔の個数に増加の変化がある場合にのみ、顔データを記録する。これにより、記録媒体160に略同一の重複する顔データが記録されることを防止することができる。
図26は、本発明の実施の形態における撮像装置100の再生に関する機能構成例を示すブロック図である。撮像装置100は、操作受付部140と、選択部231と、抽出部232と、描画部233と、表示部234と、コンテンツ管理ファイル記憶部250と、コンテンツ記憶部260とを備える。なお、操作受付部140は、図1に示すものと同一であるため、同一の符号を付して詳細な説明は省略する。
コンテンツ管理ファイル記憶部250は、図23示す記録制御部223により記録されたコンテンツ管理ファイル340を記憶するものである。そして、コンテンツ管理ファイル340に記録されている各エントリおよび各画像を選択部231および抽出部232に供給する。
コンテンツ記憶部260は、図23示す記録制御部223により記録されたコンテンツファイルを記憶するものである。そして、記録されている各コンテンツファイルを抽出部232に供給する。
選択部231は、操作受付部140から入力された操作入力に応じた選択処理を実行し、この選択結果を抽出部232に出力するものである。具体的には、選択部231は、表示部234に表示されている登録顔画像のうちから1つの登録顔画像を選択する選択操作を操作受付部140から入力すると、選択された登録顔画像に対応する登録顔エントリのリストに記録されているエントリ番号を選択する。そして、その選択された登録顔エントリのエントリ番号を抽出部232に出力する。また、選択部231は、表示部234に表示されている代表サムネイル画像のうちから1つの代表サムネイル画像を選択する選択操作を操作受付部140から入力すると、選択された代表サムネイル画像に対応するファイルエントリを選択する。そして、その選択されたファイルエントリのエントリ番号を抽出部232に出力する。また、選択部231は、表示部234に表示されている顔サムネイル画像のうちから1つの顔サムネイル画像を選択する選択操作を操作受付部140から入力すると、選択された顔サムネイル画像に対応する顔データを選択する。そして、その選択された顔データの顔検出時刻情報641を抽出部232に出力する。すなわち、選択部231は、コンテンツ管理ファイル記憶部250に記憶されているコンテンツ管理ファイル340に記録されている各エントリの中から所望のエントリを選択するものである。また、メタデータエントリに含まれる顔メタデータの顔データの中から所望の顔データを選択するものである。
抽出部232は、選択部231から出力されたエントリ番号に基づいて、コンテンツ管理ファイル記憶部250に記憶されている登録顔画像または代表サムネイル画像を抽出するものである。また、抽出部232は、選択部231から出力されたエントリ番号に基づいて、コンテンツ記憶部260に記憶されているコンテンツファイルを抽出する。また、抽出部232は、選択部231から出力されたエントリ番号に対応するファイルエントリの下位階層に記録されているメタデータエントリに含まれる顔データを抽出する。そして、この顔データに含まれる顔検出時刻情報および位置等に基づいて、この顔データに対応する顔サムネイル画像をコンテンツファイルから抽出する。さらに、抽出部232は、選択部231から出力された顔データの顔検出時刻情報641が含まれるメタデータエントリの上位階層に記録されているファイルエントリに基づいてコンテンツファイルを抽出する。そして、その顔検出時刻情報641に対応する記録時間以降に記録された動画を、コンテンツ記憶部260に記憶されているコンテンツファイルから抽出する。なお、抽出部232は、これらの抽出した結果を描画部233に出力する。なお、これらの選択および抽出については、図27乃至図31を参照して詳細に説明する。
描画部233は、抽出部232から出力された抽出結果に基づいて画像を描画するものである。すなわち、抽出部232から出力された抽出結果に基づいて、コンテンツ記憶部260に記憶されているコンテンツファイルから抽出された顔サムネイル画像や、コンテンツ記憶部260に記憶されているコンテンツファイルから抽出された動画等を描画する。また、描画部233は、コンテンツ管理ファイル記憶部250のサムネイルファイル500に記憶されている代表サムネイル画像を描画するものである。
表示部234は、描画部233により描画された画像を表示するものである。なお、表示部234は、例えば、図1に示すLCD180に対応する。また、表示部234の表示例については、図27乃至図31を参照して詳細に説明する。
次に、プロパティファイル400およびサムネイルファイル500を用いて動画コンテンツファイルを再生させる場合について図面を参照して詳細に説明する。
図27は、本発明の実施の形態における登録顔エントリ(#7)461と、動画ファイルエントリ(#44)423と、メタデータエントリ(#47)424と、サムネイルファイル500と、動画コンテンツファイル312との関係を概略的に示す図である。
例えば、登録顔エントリ(#7)461には、登録顔画像511のサムネイルアドレスを示す「#11」が格納されている。また、登録顔画像511に含まれる登録顔が登場する動画コンテンツファイル312に対応する動画ファイルエントリ(#44)423のエントリ番号「#44」が格納されている。
また、例えば、動画ファイルエントリ(#44)423には、動画コンテンツファイル312のコンテンツアドレスを示す「A312」と、動画コンテンツファイル312の代表サムネイル画像502のサムネイルアドレスを示す「#02」が格納されている。また、動画ファイルエントリ(#44)423の子エントリリストには、動画コンテンツファイル312に関するメタデータが格納されているメタデータエントリ(#47)424のエントリ番号「#47」が格納されている。また、メタデータエントリ(#47)424の親エントリリストには、動画ファイルエントリ(#44)423のエントリ番号「#44」が格納されている。さらに、メタデータエントリ(#47)424の顔メタデータには、図16に示すように、検出された顔に関する各種の顔メタデータが格納されている。
例えば、メタデータエントリ(#47)424の顔メタデータの顔検出時刻情報に基づいて、動画コンテンツファイル312の各フレームのうちの1つのフレーム(例えば、フレーム704)を特定することができる。また、メタデータエントリ(#47)424の顔メタデータの顔基本情報に基づいて、特定されたフレームから顔画像を取り出すことができる。さらに、メタデータエントリ(#47)424の顔メタデータの個人識別IDに基づいて、特定人物の顔画像のみを取り出すことができる。なお、図27では、これらの対応関係を矢印で示す。
このように各エントリの内容を関連付けて管理することによって、コンテンツファイルおよび特定人物の顔画像のサーチを迅速に行うことができる。以下では、コンテンツ管理ファイル340を用いたアプリケーションについて図面を参照して詳細に説明する。
図28乃至図31は、本発明の実施の形態におけるコンテンツ管理ファイル340を用いたアプリケーションの一例を示す図である。この例では、甲田一郎521が登場する動画コンテンツファイルを検索し、この動画コンテンツファイルについて甲田一郎521が登場する場面から再生を開始させる場合について説明する。
例えば、甲田一郎521の顔が登場する動画コンテンツファイルを検索するため、登録顔の一覧を表示させる登録顔画像一覧表示の指示操作を操作受付部140からユーザが行う。この指示操作が受け付けられると、プロパティファイル400がオープンされ、プロパティファイル400における登録顔エントリがサーチされる。続いて、全ての登録顔エントリに記録されたサムネイルファイル500のサムネイルアドレスが抽出される。続いて、サムネイルファイル500がオープンされ、図28(a)に示すように、抽出されたサムネイルアドレスに基づいてサムネイルファイル500から登録顔画像511乃至514が抽出される。そして、図28(b)に示すように、例えば、LCD180上の登録顔画像表示領域700に登録顔画像511乃至513が表示される。
ここで、例えば、登録顔画像表示領域700に表示されている登録顔画像511乃至513の右側には、各登録顔エントリに記録されている登録顔の氏名が表示される。また、上ボタン701、705、下ボタン702、703の押下操作、または、スクロールバー702の移動操作により、登録顔画像表示領域700に表示されている登録顔画像を上下に移動させ、他の登録顔画像を表示させることができる。他の登録顔画像として、例えば、登録顔画像514を表示させることができる。また、戻るボタン704の押下操作により、直前に表示されている画面に戻ることができる。なお、図28乃至図31では、表示画面に表示されている各画像のうちで、ユーザにより選択された画像に選択マーク707を付して説明する。例えば、図28(b)では、登録顔画像511に選択マーク707が付されている状態を示す。この登録顔画像の選択操作は、例えば、ユーザによるLCD180上のタッチパネルの押下操作により行うことができる。
図28(b)に示す表示画面において、例えば、登録顔画像511の選択操作が行われた場合には、プロパティファイル400がオープンされる。そして、図29(a)に示すように、選択された登録顔画像511に対応する登録顔エントリ(#7)461の登録顔登場コンテンツリストに記録されている各エントリ番号に対応する動画ファイルエントリが抽出される。例えば、登録顔エントリ(#7)461の登録顔登場コンテンツリストに記録されているエントリ番号「#37」、「#44」、「#69」に対応する各動画ファイルエントリが抽出される。続いて、抽出された動画ファイルエントリ(#37)421、(#44)423および(#69)441に記録されているサムネイルアドレス「#01」、「#02」、「#05」が抽出される。続いて、サムネイルファイル500がオープンされ、抽出されたサムネイルアドレスに基づいてサムネイルファイル500から代表サムネイル画像501、502および505が抽出される。そして、図29(b)に示すように、例えば、LCD180上の代表サムネイル画像表示領域710に代表サムネイル画像501、502および505が表示される。
ここで、例えば、代表サムネイル画像表示領域710の左側には、直前の画面で選択操作が行われた特定人物の顔画像(例えば、登録顔画像511)が表示される。なお、代表サムネイル画像表示領域710に表示可能な代表サムネイル画像の数よりも、抽出された代表サムネイル画像の数が多い場合には、上ボタン、下ボタンまたはスクロールバーの操作により他の代表サムネイル画像を表示させることができる。また、戻るボタン714の押下操作により、図28(b)に示す登録顔画像の一覧画面に戻ることができる。
図29(b)に示す表示画面において、例えば、代表サムネイル画像502の選択操作が行われた場合には、プロパティファイル400がオープンされる。そして、図30(a)に示すように、代表サムネイル画像502に対応する動画ファイルエントリ(#44)423に記録されているコンテンツアドレス「A312」に基づいて動画コンテンツファイル312が抽出される。また、動画ファイルエントリ(#44)423に格納されている子エントリリスト「#47」に基づいてメタデータエントリ(#47)424が抽出される。続いて、メタデータエントリ(#47)424に記録されている顔メタデータ(顔検出時刻情報641、顔基本情報642、個人識別ID646)に基づいて、動画コンテンツファイル312から甲田一郎の顔サムネイル画像が生成される。そして、図30(b)に示すように、例えば、LCD180上の顔サムネイル画像表示領域720に顔サムネイル画像721乃至724が表示される。これらの顔サムネイル画像は、例えば、図30(b)に示すように、甲田一郎の顔を含む矩形画像である。なお、この例では、顔サムネイル画像を生成する場合に、個人識別ID646を用いて特定の顔を識別する例を示す。ただし、例えば、顔特徴量647に検出顔の特徴量を順次記録しておき、顔サムネイル画像を生成する場合に、この特徴量を用いて顔を識別して顔サムネイル画像を生成するようにしてもよい。
ここで、図30(b)には、顔サムネイル画像表示領域720に表示されている顔サムネイル画像721乃至724と、これらに対応する動画コンテンツファイル312の記録位置との対応関係を矢印で結んで示す。なお、顔サムネイル画像表示領域720に表示可能な顔サムネイル画像の数よりも、抽出された顔サムネイル画像の数が多い場合には、左ボタン、右ボタンまたはスクロールバーの操作により、他の顔サムネイル画像を表示させることができる。また、戻るボタン730の押下操作により、図29(b)に示す代表サムネイル画像の一覧画面に戻ることができる。
図30(b)に示す表示画面において、例えば、顔サムネイル画像723の選択操作が行われた場合には、プロパティファイル400がオープンされる。そして、図31(a)に示すように、メタデータエントリ(#47)424に記録されている顔メタデータの顔検出時刻情報の中から、顔サムネイル画像723に対応する顔検出時刻情報が抽出される。この場合に、選択された顔サムネイル画像723の先頭から順番に基づいて、メタデータエントリ(#47)424に格納されている顔メタデータから、顔サムネイル画像723に対応する顔データが特定される。そして、この特定された顔データに含まれる顔検出時刻情報が抽出される。続いて、抽出された顔検出時刻情報に基づいて、動画コンテンツファイル312のうちの顔検出時刻情報に対応する時刻からの動画がLCD180に表示される。例えば、図30(b)に示す動画コンテンツファイル312のフレーム位置731から動画が再生される。
また、例えば、図31(b)に示すように、顔サムネイル画像723に対応する顔が登場する場面からの動画が動画再生領域740に表示される。なお、操作ボタン741乃至744の押下操作により、動画再生領域740に表示されている動画の早送り、停止等を行うことができる。また、戻るボタン745の押下操作により、図30(b)に示す顔サムネイル画像の一覧画面に戻ることができる。
このように、特定人物(例えば、甲田一郎)が登場する動画を検索する場合に、その特定人物の登録顔画像をLCD180上で選択することにより、その特定人物が登場する動画を容易に検索することができる。また、その特定人物が登場する動画について、その人物が登場する場面から再生を開始させる場合には、検索された動画コンテンツに含まれる特定人物の顔サムネイル画像をLCD180上に表示させる。そして、表示されている顔サムネイル画像をLCD180上で選択することにより、選択された顔サムネイル画像に含まれる特定人物が登場する場面から再生を開始させることができる。
このように、特定人物が登場するコンテンツファイルを表示させる場合には、全てのコンテンツファイルをオープンさせずに、プロパティファイルおよびサムネイルファイルのみをオープンさせればよいため、迅速な処理が可能となる。また、スロットによる固定長管理(エントリ番号管理)であるため、さらに迅速な処理が可能となる。
次に、本発明の実施の形態における撮像装置100の動作について図面を参照して説明する。
図32は、本発明の実施の形態における撮像装置100による登録顔の登録処理の処理手順を示すフローチャートである。この例では、登録顔記録モードが設定されている場合に登録顔を登録する登録処理について説明する。
最初に、登録顔記録モードが設定されているか否かが判断される(ステップS901)。登録顔記録モードが設定されていない場合には(ステップS901)、登録顔の登録処理を終了する。登録顔記録モードが設定されている場合には(ステップS901)、撮像部211により撮像画像が生成され(ステップS902)、生成された撮像画像にアシスト画像(図6に示す)を合成した合成画像がLCD180に表示される(ステップS903)。
続いて、登録ボタンが押下されたか否かが判断される(ステップS904)。登録ボタンが押下されない場合には(ステップS904)、ステップS919に進む。
登録ボタンが押下された場合には(ステップS904)、顔検出部212が、撮像画像に含まれる顔を検出する(ステップS905)。続いて、正規化部220が、検出された顔を含む顔画像を正規化して正規化顔画像を生成する(ステップS906)。続いて、特徴量抽出部221が、生成された正規化顔画像から特徴量を抽出する(ステップS907)。続いて、記録制御部223が、コンテンツ管理ファイル記憶部250のサムネイルファイル500をオープンさせ(ステップS908)、生成された正規化顔画像を登録顔画像としてサムネイルファイル500に記録する(ステップS909)。この際に、登録顔画像のサムネイルファイル500のサムネイルアドレスをメモリに記録する。続いて、記録制御部223が、サムネイルファイル500をクローズさせる(ステップS910)。
続いて、記録制御部223が、抽出された特徴量に基づいて顔メタデータのヘッダ部630に記録されるヘッダ情報を作成する(ステップS911)。続いて、記録制御部223が、作成されたヘッダ情報を記録するヘッダ部と、抽出された特徴量に対応する顔データを記録する顔データ部とを含むメタデータエントリを作成する(ステップS912)。
続いて、記録制御部223が、作成されたメタデータエントリに対応する登録顔を管理する登録顔エントリを作成する(ステップS913)。この登録顔エントリのサムネイルアドレスには、ステップS909でサムネイルファイル500に記録された登録顔画像のサムネイルアドレスが記録される。
続いて、記録制御部223が、コンテンツ管理ファイル記憶部250のプロパティファイル400をオープンさせる(ステップS914)。続いて、記録制御部223が、作成されたメタデータエントリおよび登録顔エントリに関するエントリ番号を計算し、この計算結果に基づいて、作成されたメタデータエントリおよび登録顔エントリをプロパティファイル400に記録する(ステップS915)。つまり、メタデータエントリおよび登録顔エントリがスロット番号順にプロパティファイル400に割り当てられる。
続いて、記録制御部223が、プロパティファイル400に記録された登録顔エントリの子エントリリストにメタデータエントリのエントリ番号を記録し、メタデータエントリの親エントリリストに登録顔エントリのエントリ番号を記録する(ステップS916)。
続いて、記録制御部223が、プロパティファイル400に記録された登録顔エントリが属する登録顔フォルダエントリの子エントリリストに、この登録顔エントリのエントリ番号を記録する。また、この登録顔エントリの親エントリリストに、登録顔フォルダエントリのエントリ番号を記録する(ステップS917)。続いて、記録制御部223が、プロパティファイル400がクローズさせ(ステップS918)、登録顔記録モードが解除されたか否かが判断される(ステップS919)。登録顔記録モードが解除された場合には(ステップS919)、登録顔の登録処理を終了する。一方、登録顔記録モードが解除されていない場合には(ステップS919)、ステップS902に戻る。
図33は、本発明の実施の形態における撮像装置100によるコンテンツ管理ファイル340の記録処理の処理手順を示すフローチャートである。この例では、動画記録モードが設定されている場合に動画コンテンツファイルを記録する記録処理について説明する。
最初に、動画記録モードが設定されているか否かが判断される(ステップS921)。動画記録モードが設定されていない場合には(ステップS921)、コンテンツ管理ファイル340の記録処理を終了する。動画記録モードが設定されている場合には(ステップS921)、録画ボタンが押下されたか否かが判断される(ステップS922)。録画ボタンが押下されない場合には(ステップS922)、ステップS921に戻る。
録画ボタンが押下された場合には(ステップS922)、撮像部211が撮像画像を生成し(ステップS923)、顔検出部212が、撮像画像に含まれる顔を検出する顔検出処理を行う(ステップS924)。この顔検出処理については、生成された撮像画像毎に行うようにしてもよく、一定間隔毎の撮像画像について行うようにしてもよい。なお、ステップS924は、特許請求の範囲に記載の顔検出手順の一例である。続いて、撮像画像から顔が検出されたか否かが判断され(ステップS925)、撮像画像から顔が検出されていない場合には(ステップS925)、ステップS933に進む。なお、ステップS925において、撮像画像から顔が検出された場合でも、検出された顔が所定条件の範囲内の顔であるか否かを判断し、検出された顔が所定条件の範囲内の顔でなかった場合には、ステップS933に進むようにしてもよい。
一方、撮像画像から顔が検出された場合には(ステップS925)、顔データ作成部218が、検出された顔に基づいて顔データを作成する(ステップS926)。この作成された顔データは、録画ボタンが押下されるまでの間、メモリに記録される。また、生成された撮像画像が、先頭フレームに対応する撮像画像である場合には、代表サムネイル画像抽出部215によりその撮像画像(代表サムネイル画像)が抽出されてメモリに記録される。
続いて、正規化部220が、検出された顔を含む顔画像を正規化して正規化顔画像を生成する(ステップS927)。続いて、特徴量抽出部221が、生成された正規化顔画像から特徴量を抽出する(ステップS928)。続いて、顔識別部222が、コンテンツ管理ファイル記憶部250の各登録顔エントリに連結されているメタデータエントリに記録されている特徴量と、抽出された特徴量とを比較することにより顔識別処理を行う(ステップS929)。なお、ステップS929は、特許請求の範囲に記載の顔識別手順の一例である。この顔識別処理により、検出された顔が、登録顔エントリに管理されている登録顔であると識別されたか否かが判断される(ステップS930)。検出された顔が、登録顔であると識別されない場合には(ステップS930)、ステップS932に進む。一方、検出された顔が登録顔であると識別された場合には(ステップS930)、その登録顔に対応する登録顔エントリのエントリ番号、その登録顔に対応する個人識別IDおよび顔検出時刻情報がメモリに記録される(ステップS931)。
続いて、撮像画像から検出された全ての顔について顔識別処理が終了したか否かが判断される(ステップS932)。撮像画像から検出された全ての顔について顔識別処理が終了していない場合には(ステップS932)、ステップS927に戻る。すなわち、1フレーム内の全ての顔について顔識別処理を繰り返す。一方、撮像画像から検出された全ての顔について顔識別処理が終了した場合には(ステップS932)、録画ボタンが押下されたか否かが判断される(ステップS933)。録画ボタンが押下されない場合には(ステップS933)、ステップS923に戻る。
録画ボタンが押下された場合には(ステップS933)、記録制御部223が、コンテンツ管理ファイル記憶部250のサムネイルファイル500をオープンさせる(ステップS934)。そして、ステップS926でメモリに記録された先頭フレームに対応する撮像画像を代表サムネイル画像としてサムネイルファイル500に記録する(ステップS935)。この際に、代表サムネイル画像のサムネイルファイル500のサムネイルアドレスをメモリに記録する。続いて、記録制御部223が、サムネイルファイル500をクローズさせる(ステップS936)。
続いて、ヘッダ情報作成部219が、メモリに記録されている顔データに基づいて顔メタデータのヘッダ部630に記録されるヘッダ情報を作成する(ステップS937)。続いて、記録制御部223が、作成されたヘッダ情報を記録するヘッダ部と、検出された顔に対応する顔データを記録する顔データ部とを含むメタデータエントリを作成する(ステップS938)。このメタデータエントリには、ステップS931でメモリに記録された顔検出時刻情報に対応する顔データに、ステップS931でメモリに記録された個人識別IDが記録される。
続いて、記録制御部223が、撮像部211により生成された撮像動画に対応する動画コンテンツファイルを管理する動画ファイルエントリを作成する(ステップS939)。この動画ファイルエントリのサムネイルアドレスには、ステップS935でサムネイルファイル500に記録された代表サムネイル画像のサムネイルアドレスが記録される。また、この動画ファイルエントリの登場登録顔リストには、ステップS931でメモリに記録された登録顔エントリのエントリ番号が記録される。
続いて、記録制御部223が、コンテンツ管理ファイル記憶部250のプロパティファイル400をオープンさせる(ステップS940)。続いて、記録制御部223が、作成されたメタデータエントリおよび動画ファイルエントリに関するエントリ番号を計算する。そして、この計算結果に基づいて、作成されたメタデータエントリおよび動画ファイルエントリをプロパティファイル400に記録する(ステップS941)。つまり、メタデータエントリおよび動画ファイルエントリがスロット番号順にプロパティファイル400に割り当てられる。
続いて、記録制御部223が、プロパティファイル400に記録された動画ファイルエントリの子エントリリストに、この動画ファイルエントリに属するメタデータエントリのエントリ番号を記録する。また、メタデータエントリの親エントリリストに、このメタデータエントリが属する動画ファイルエントリのエントリ番号を記録する(ステップS942)。
続いて、記録制御部223が、プロパティファイル400に記録された動画ファイルエントリが属する動画フォルダエントリの子エントリリストに、この動画ファイルエントリのエントリ番号を記録する。また、この動画ファイルエントリの親エントリリストに、動画フォルダエントリのエントリ番号を記録する(ステップS943)。
続いて、記録制御部223が、ステップS931でメモリに記録されたエントリ番号に対応する登録顔エントリの登録顔登場コンテンツリストに、この動画ファイルエントリのエントリ番号を記録する(ステップS944)。なお、ステップS944は、特許請求の範囲に記載の制御手順の一例である。続いて、記録制御部223が、プロパティファイル400がクローズさせ(ステップS945)、コンテンツ管理ファイル340の記録処理を終了する。
次に、動画コンテンツファイルを再生させる場合に、所望する登録人物が登場する動画コンテンツファイルについて、その登場人物が登場する場面から再生させる場合における動作について図面を参照して説明する。
図34乃至図36は、本発明の実施の形態における撮像装置100による動画コンテンツファイルの再生処理の処理手順を示すフローチャートである。
操作受付部140からの操作入力を監視して、登録顔画像の一覧表示を指示する指示操作がされたか否かが判断される(ステップS951)。登録顔画像の一覧表示を指示する指示操作がされなければ(ステップS951)、操作入力の監視を継続する。
登録顔画像の一覧表示を指示する指示操作がされると(ステップS951)、プロパティファイル400がオープンされ(ステップS952)、プロパティファイル400から各登録顔エントリが抽出される(ステップS953)。続いて、抽出された登録顔エントリに記録されているサムネイルアドレスがメモリに順次記録される(ステップS954)。
続いて、プロパティファイル400がクローズされ(ステップS955)、サムネイルファイル500がオープンされる(ステップS956)。続いて、ステップS954でメモリに記録されたサムネイルアドレスに基づいて、サムネイルファイル500から登録顔画像が読み出され、読み出された登録顔画像がメモリに順次記録される(ステップS957)。続いて、サムネイルファイル500がクローズされる(ステップS958)。続いて、ステップS957でメモリに記録された登録顔画像がLCD180に表示される(ステップS959)。例えば、図28(b)に示すように表示される。
続いて、LCD180に表示されている登録顔画像の中から1つの登録顔画像を選択する選択操作がされたか否かが判断される(ステップS960)。登録顔画像を選択する選択操作がされなければ(ステップS960)、操作入力の監視を継続する。
登録顔画像を選択する選択操作がされると(ステップS960)、プロパティファイル400がオープンされ(ステップS961)、選択された登録顔画像に対応する登録顔エントリが抽出される(ステップS962)。続いて、抽出された登録顔エントリの登録顔登場コンテンツリストに記録されている動画ファイルエントリのエントリ番号が抽出され、抽出されたエントリ番号に基づいて動画ファイルエントリが抽出される(ステップS963)。続いて、抽出された動画ファイルエントリのエントリ番号がメモリに順次記録される(ステップS964)。
続いて、抽出された動画ファイルエントリに記録されているサムネイルアドレスがメモリに順次記録される(ステップS965)。続いて、プロパティファイル400がクローズされ(ステップS966)、サムネイルファイル500がオープンされる(ステップS967)。続いて、ステップS964でメモリに記録されたサムネイルアドレスに基づいて、サムネイルファイル500から代表サムネイル画像が読み出され、読み出された代表サムネイル画像がメモリに順次記録される(ステップS968)。続いて、サムネイルファイル500がクローズされる(ステップS969)。続いて、ステップS968でメモリに記録された代表サムネイル画像がLCD180に表示される(ステップS970)。例えば、図29(b)に示すように表示される。
続いて、LCD180に表示されている代表サムネイル画像の中から1つの代表サムネイル画像を選択する選択操作がされたか否かが判断される(ステップS971)。代表サムネイル画像を選択する選択操作がされなければ(ステップS971)、操作入力の監視を継続する。
代表サムネイル画像を選択する選択操作がされると(ステップS971)、選択された代表サムネイル画像の順番に基づいて、ステップS964でメモリに記録された動画ファイルエントリのエントリ番号が抽出される(ステップS972)。続いて、プロパティファイル400がオープンされ(ステップS973)、抽出されたエントリ番号に対応する動画ファイルエントリがプロパティファイル400から抽出される(ステップS974)。
続いて、抽出された動画ファイルエントリの子エントリリストに記録されているメタデータエントリのエントリ番号が抽出され、抽出されたメタデータエントリのエントリ番号がメモリに記録される(ステップS975)。続いて、ステップS975でメモリに記録されたエントリ番号に対応するメタデータエントリがプロパティファイル400から抽出される(ステップS976)。続いて、抽出されたメタデータエントリから顔メタデータが抽出され(ステップS977)、抽出された顔メタデータのヘッダ部の情報が確認される(ステップS978)。
続いて、ヘッダ部の情報に基づいて顔データが順次読み出され(ステップS979)、読み出された顔データに含まれる顔基本情報(顔検出時刻情報641、顔基本情報642、個人識別ID646)がメモリに順次記録される(ステップS980)。続いて、全ての顔データの読み出しが終了したか否かが判断される(ステップS981)。全ての顔データの読み出しが終了していなければ(ステップS981)、顔データの読み出しおよびメモリへの記録を継続する(ステップS979およびステップS980)。全ての顔データの読み出しが終了していれば(ステップS981)、プロパティファイル400がクローズされる(ステップS982)。そして、ステップS980でメモリに記録された顔基本情報に基づいて、動画コンテンツファイルから顔サムネイル画像が作成され、作成された顔サムネイル画像がメモリに順次記録される(ステップS983)。続いて、ステップS983でメモリに記録された顔サムネイル画像がLCD180に表示される(ステップS984)。例えば、図30(b)に示すように表示される。
続いて、LCD180に表示されている顔サムネイル画像の中から1つの顔サムネイル画像を選択する選択操作がされたか否かが判断される(ステップS985)。顔サムネイル画像を選択する選択操作がされなければ(ステップS985)、操作入力の監視を継続する。
顔サムネイル画像を選択する選択操作がされると(ステップS985)、選択された顔サムネイル画像の表示順に応じた番号がメモリに記録される(ステップS986)。続いて、プロパティファイル400がオープンされ(ステップS987)、ステップS975でメモリに記録されたメタデータエントリのエントリ番号に基づいて、メタデータエントリがプロパティファイル400から抽出される(ステップS988)。
続いて、抽出されたメタデータエントリから顔メタデータが抽出され(ステップS989)、抽出された顔メタデータから、ステップS986でメモリに記録された番号に対応する顔データが抽出される(ステップS990)。続いて、抽出された顔データから顔検出時刻情報が抽出され、抽出された顔検出時刻情報がメモリに記録される(ステップS991)。
続いて、ステップS975でメモリに記録されたメタデータエントリの親エントリリストに対応する動画ファイルエントリのエントリ番号が抽出される(ステップS992)。そして、抽出されたエントリ番号に対応する動画ファイルエントリがプロパティファイル400から抽出される(ステップS993)。続いて、抽出された動画ファイルエントリに記録されているコンテンツアドレスが抽出され、抽出されたコンテンツアドレスがメモリに記録される(ステップS994)。そして、プロパティファイル400がクローズされる(ステップS995)。
続いて、ステップS993で抽出されたコンテンツアドレスに対応する動画コンテンツファイルについて、ステップS991でメモリに記録された顔検出時刻情報に対応する時刻から再生を開始させる(ステップS996)。例えば、図31(b)に示すように再生が開始される。
次に、本発明の実施の形態における撮像装置100を含む画像処理システムについて図面を参照して詳細に説明する。
図37は、本発明の実施の形態における画像処理システム850を示すシステム構成図である。画像処理システム850は、撮像装置100と、ネットワークサーバ860と、PC870と、画像処理装置880とで構成されている画像処理システムである。
ネットワークサーバ860は、ネットワーク851を介して撮像装置100との間で通信が可能なサーバである。また、ネットワークサーバ860は、コンテンツファイルおよびコンテンツ管理ファイルを記憶する記憶部861を備える。
PC870は、例えば、USB(Universal Serial Bus)ケーブル等の装置間インターフェースを介して撮像装置100との間で通信が可能なパーソナルコンピュータである。また、PC870は、コンテンツファイルおよびコンテンツ管理ファイルを記憶する記憶部871を備える。なお、装置間インターフェースとして、USBケーブル等の有線ケーブル以外に、UWB(Ultra Wide Band:超広帯域無線)等の無線インターフェースを用いることができる。
画像処理装置880は、例えば、無線回線を介して撮像装置100との間で通信が可能な画像処理装置である。また、画像処理装置880は、コンテンツファイルおよびコンテンツ管理ファイルを記憶する記憶部881を備える。なお、これらの接続手段としては、有線回線または無線回線を用いたネットワーク等の他の接続手段を用いるようにしてもよい。
ここで、記憶部861、871、881に記憶されているコンテンツ管理ファイルは、本発明の実施の形態におけるコンテンツ管理ファイル340と同じファイルであるものとする。
画像処理システム850において、同一人物には同一の個人識別IDが付与されるものとする。例えば、記憶部861、871、881のコンテンツ管理ファイルに記録されている個人識別IDと、撮像装置100に記録されている個人識別IDとを用いて、記憶部861、871、881に記憶されているコンテンツファイルを検索することができる。例えば、撮像装置100に記録されている個人識別IDと同一の個人識別IDが記録されたコンテンツファイルを撮像装置100が取得することができる。これにより、特定人物が登場する外部装置のコンテンツファイルを撮像装置100が容易に取得することができる。また、個人識別IDを用いて、外部装置のコンテンツファイルに関する顔サムネイル画像等を表示することができる。
このように、本発明の実施の形態によれば、特定人物が登場するコンテンツファイルを迅速にサーチすることができる。例えば、特定人物が登場するコンテンツファイルに対応する代表サムネイル画像の一覧を迅速に表示させることができる。このため、所望のアプリケーションを迅速に実行することができる。また、コンテンツファイルに関するメタデータを迅速に利用することができる。すなわち、本発明の実施の形態によれば、特定人物が登場するコンテンツファイルを迅速に利用することができる。
また、現在では、顔メタデータを利用するアプリケーションが多数開発されており、顔メタデータを利用するアプリケーションは今後も種々多様化するものと考えられる。このため、将来は、顔メタデータのフォーマット拡張が予想される。このような顔メタデータのフォーマットが拡張された場合であっても、本発明の実施の形態によれば、そのフォーマットの拡張に対して再生機器において互換性を確保することができるため、コンテンツファイルに関するメタデータを迅速に利用することができる。
なお、本発明の実施の形態では、コンテンツとして撮像動画を例にして説明したが、静止画等のコンテンツについても本発明の実施の形態を適用することができる。また、外部から入力されたコンテンツについても本発明の実施の形態を適用することができる。また、メタデータとして、人の顔に関する顔メタデータを一例として示したが、他のメタデータについても本発明の実施の形態を適用することができる。例えば、動物またはペット認識アルゴリズムを用いて画像に含まれる動物等を検出し、検出された動物の顔等に関する情報に対応するメタデータについて、本発明の実施の形態を適用することができる。例えば、顔検出エンジンの代わりに、ペット検出エンジンを設け、このペット検出エンジンによって検出されたペットに関するメタデータを用いて、本発明の実施の形態を適用することができる。また、人物または動物等の行動を認識し、この認識された行動が所定の記述により記録されたメタデータについても、本発明の実施の形態を適用することができる。また、本発明の実施の形態では、画像処理装置の一例として撮像装置について説明したが、コンテンツを記録する携帯端末装置等の他のコンテンツ記録装置に本発明の実施の形態を適用することができる。また、本発明の実施の形態では、コンテンツを再生する装置の一例として撮像装置について説明したが、コンテンツを再生するDVDレコーダ等の他のコンテンツ再生装置に本発明の実施の形態を適用することができる。
なお、本発明の実施の形態は本発明を具現化するための一例を示したものであり、上述のように特許請求の範囲における発明特定事項とそれぞれ対応関係を有する。ただし、本発明は実施の形態に限定されるものではなく、本発明の要旨を逸脱しない範囲において種々の変形を施すことができる。
また、本発明の実施の形態において説明した処理手順は、これら一連の手順を有する方法として捉えてもよく、また、これら一連の手順をコンピュータに実行させるためのプログラム乃至そのプログラムを記憶する記録媒体として捉えてもよい。この記録媒体として、例えば、CD(Compact Disc)、MD(MiniDisc)、DVD(Digital Versatile Disk)、メモリカード、ブルーレイディスク(Blu-ray Disc(登録商標))等を用いることができる。