このように、様々な側面を持つ本発明では、動画像が対象とされる。この動画像に対する処理単位は、以下の実施の形態では、単位画像であるとする。即ち、以下の実施の形態では、動画像は、複数の単位画像から構成されているとする。ただし、単位画像自体は、特に限定されず、例えば動画像のフォーマットで採用されている単位の画像、具体的には例えば、フレームやフィールド等を採用することができる。換言すると、動画像のフォーマットは、特に限定されず、DV(Digital Video)、MPEG(Moving Picture Experts Group)、連番の時系列画像など様々なフォーマットを採用でき、採用された動画像のフォーマットに応じて単位画像を採用すればよい。ただし、以下、説明の簡略上、動画像に対する各種画像処理はフレーム単位で実行されるとする。
また、より正確には、画像処理の対象は、動画像(画面に表示される映像)そのものではなく、いわゆる動画データ、即ち、動画像が装置によって処理可能な形態とされたもの、例えば電気信号とされたものや、メモリに固定されたもの等であり、さらに、かかる動画データは、音声データ等の別データと共に伝送される場合もある。そこで、以下、動画データ単体、動画データと音声データ等の別データとの集合体をまとめて、動画コンテンツと称する。
また、本発明による様々な画像処理の対象となった画像の具体例が幾つか図面に示されている。しかしながら、著作権保護等の観点から、画像処理の対象となった実際の画像そのものが図面に示されている訳ではなく、適宜、線図化された画像等が図面に示されている。例えば、後述する図2、図9、図10、図11、図23等に示される各顔画像は、画像処理の対象となった実際の画像(撮影画像)ではなく、その実際の画像のうちの顔の輪郭やパーツ(目や鼻等)が線図化されたものである。
図1は、本発明が適用される画像処理装置の機能的構成例を示している。
図1の例の画像処理装置は、動画コンテンツ入力部1、人物顔データベース構築部2、および顔認識部3を含むように構成されている。
動画コンテンツ入力部1は、映画やドラマ等の動画コンテンツをフレーム単位で入力する。
人物顔データベース構築部2は、動画コンテンツ入力部1に入力された動画コンテンツから、登場人物の顔画像を1以上検出して、教師無しで各顔画像をクラスタリングして、そのクラスタリング結果に基づいて各顔画像のデータベース、より正確には、各顔画像の特徴量のデータベースを構築する。なお、以下、このようにして構築されるデータベースを、人物顔データベースと称する。即ち、人物顔データベース構築部2は、動画コンテンツから、教師無しで人物顔データベースを構築する。なお、人物顔データベース構築部2のさらなる詳細については後述する。
顔認識部3は、認識対象顔検出部41乃至人物特定部44を含むように構成されている。
認識対象顔検出部41は、動画コンテンツ入力部1に入力された動画コンテンツから、これから認識を行う人物の顔画像(以下、認識対象顔画像と称する)を検出する。この検出手法は、後述する顔検出/追跡部11に適用されている検出手法と基本的に同様であるので、その説明については、顔検出/追跡部11の説明の際に行うこととして、ここでは省略する。
認識対象顔クラス特定部42は、認識対象顔検出部41により検出された認識対象顔画像のクラスを、人物顔データベース構築部2により構築された人物顔データベースを用いて特定する。
外部情報取得部43は、認識対象顔画像の人物を特定するために利用可能な各種外部情報を、外部から、例えばインターネット等の所定の外部ネットワーク上から取得する。具体的には例えば、外部情報取得部43は、Web上にある認識対象顔画像と同一の顔画像や、その顔画像とリンクしているテキスト情報等を外部情報として取得することができる。
人物特定部44は、認識対象顔クラス特定部42により特定されたクラスや、外部情報取得部43により取得された外部情報に基づいて、認識対象顔画像に対応する人物を特定し、その特定結果、即ち特定された人物に関する情報を出力する。
以下、人物顔データベース構築部2についてさらに詳しく説明する。
人物顔データベース構築部2は、顔検出/追跡部11、同一人物クラスタリング部12、異人物間クラスタリング部13、クラス統合部14、および人物顔データベース部15を含むように構成されている。
顔検出/追跡部11は、動画コンテンツ入力部1に入力された動画コンテンツから人物の顔画像をフレーム単位で検出する検出処理を実行する。そして、その検出処理により新たな人物の顔画像を検出すると、顔検出/追跡部11は、それ以降のフレームを対象として、同一人物の顔を追跡するための追跡処理を実行する。追跡処理とは、例えば、それ以降のフレームに同一人物の顔が含まれているか否かを判定し、含まれていると判定している限り、その同一人物の顔画像の検出を繰り返していく、といった処理いう。即ち、顔検出/追跡部11は、動画コンテンツから、新たな人物の顔画像を検出する毎に、その新たなの人物の顔の追跡を行う追跡処理を繰り返していくことで、時間的に連続した追跡範囲(ここでは、時間的に連続した1以上のフレームからなるフレーム群)に含まれる1以上の顔画像からなる時系列画像(以下、適宜クリップとも称する)を1以上検出する。なお、顔検出/追跡部11の詳細については、図6乃至図8を参照して後述する。
同一人物クラスタリング部12は、同一人物顔クラス生成部21、顔特徴量解析/評価部22、および人物顔クラスタリング部23を含むように構成されている。
同一人物顔クラス生成部21は、顔検出/追跡部11により検出された1つの時系列画像(クリップ)に含まれる1以上の顔画像を同一人物の顔画像とみなして、その時系列画像についてのクラス(以下、顔クラスと称する)を1つ生成する。即ち、同一人物顔クラス生成部21は、顔検出/追跡部11により検出された1以上の時系列画像(クリップ)のそれぞれについて、異なる顔クラスを1つずつ生成する。換言すると、1以上の時系列画像(クリップ)のそれぞれは、それぞれ異なる人物の各顔クラスとして分類される。なお、その際、各顔クラスには、それぞれラベルが付されるとする。
具体的には例えば、図2に示される動画コンテンツ61が動画コンテンツ入力部1に入力されたとする。図2の例では、動画コンテンツ61を構成する複数のフレームのうちの、幾つかのフレームのみが図示されている。図示されている各フレームの下部に示される数値は、フレーム番号を示しており、以下、そのフレーム番号を先頭に付して各フレームを区別して表現するとする。
この場合、顔検出/追跡部11が、1589フレームから顔画像71−1589を検出して追跡処理を開始し、その結果、1589フレームの顔画像71−1589乃至1864フレームの顔画像71−1864までを1つの時系列画像(クリップ)として検出したとする。すると、同一人物顔クラス生成部21は、この時系列画像に対して1つの顔クラスを生成し、それにラベルC01を付す。以下、クラスを生成して、ラベルα(αは任意のラベル値。ここではα=C01)を付すまでの一連の処理を、単に、クラスαを生成すると表現する。
同様に、顔検出/追跡部11が、2498フレームから顔画像71−2498を検出して追跡処理を開始し、その結果、2498フレームの顔画像71−2498乃至3564フレームの顔画像71−3564までを1つの時系列画像(クリップ)として検出したとする。すると、同一人物顔クラス生成部21は、この時系列画像について1つの顔クラスC02を生成する。
図1に戻り、顔特徴量解析/評価部22は、同一人物顔クラス生成部21により生成された1以上の顔クラスのそれぞれを処理対象として、その処理対象に含まれる各顔画像の顔特徴量、例えば本実施の形態では顔特徴ベクトルを解析して評価する。
そして、人物顔クラスタリング部23は、その評価結果に基づいて、各顔クラスのそれぞれを、所定の分類手法に基づいて、さらに複数のクラスに分類する。この分類手法は特に限定されない。ただし、クラス間の重なり(クラス間の分離度)を少なくするような分類手法であるとよい。このような手法として、ここでは例えば、顔の方向に応じて分類する手法が採用されているとする。そこで、以下、かかる分類手法により分類される複数のクラスを、顔方向クラスと称する。この場合、各顔方向クラスのそれぞれに対しても、ラベルが付されるとする。顔方向クラスのラベルとしては、顔クラスのラベルとは独立したラベルでもよいが、顔クラスのラベルと関連するラベルの方が、顔クラスとの対応付けが明確になるので好適である
例えば図2の例では顔クラスC01について、同一人物の正面に近い顔(以下、正面顔と称する)を1つの顔方向クラスC011とし、左側面に近い顔(以下、左側面顔と称する)を別の顔方向クラスC012とし、右側面に近い顔(以下、右側面顔と称する)をさらに別の顔方向クラスC013とした場合、顔画像71−1589乃至顔画像71−1864のそれぞれは、それらの顔特徴ベクトルに基づいて、顔方向クラスC011乃至C013のうちの何れかに分類される。
同様に例えば、顔クラスC02について、同一人物の正面顔を1つの顔方向クラスC021とし、左側面顔を別の顔方向クラスC022とし、右側面顔をさらに別の顔方向クラスC023とした場合、顔画像71−2498乃至顔画像71−3564のそれぞれが、それらの顔特徴ベクトルに基づいて、顔方向クラスC021乃至C023のうちの何れかに分類される。
なお、このように同一人物の顔クラスを、複数のクラス(ここでは顔方向クラス)にさらに分類する理由は、人物顔データベースを構築する上で、より良いクラス分類を行うためである。この理由の詳細については図23乃至図25を参照して後述する。
このような同一人物クラスタリング部12に対して、異人物間クラスタリング部13は、代表顔選択部31、顔特徴量解析/評価部32、および人物顔クラスタリング部33を含むように構成されている。
代表顔選択部31は、同一人物顔クラス生成部21により生成された複数の顔クラスのそれぞれから、所定の選択手法に従って、代表となる顔画像(以下、代表顔と称する)をそれぞれ選択する。或いは、代表顔選択部31は、顔検出/追跡部11により検出された複数の時系列画像(クリップ)のそれぞれから、所定の選択手法に従って、代表顔をそれぞれ選択してもよい。
この場合の代表顔の選択手法は、特に限定されないが、例えば本実施の形態では、所定の顔クラスに含まれる1以上の顔画像のそれぞれについて、顔の構成要素として例えば両目、鼻、口等の1以上のパーツをそれぞれ検出し、1以上の構成要素の位置関係に基づいて顔の方向をそれぞれ推定し、各推定結果に基づいて正面顔か否かをそれぞれ判定し、正面顔と判定された顔画像を、所定の顔クラスの代表顔として選択する、とった手法が採用されているとする。なお、この手法の具体例については、図9乃至図11を参照して後述する。
顔特徴量解析/評価部32は、代表顔選択部31により選択された各代表顔の顔特徴量、例えば本実施の形態では顔特徴ベクトルを解析して評価する。そして、人物顔クラスタリング部33は、その評価結果に基づいて、各代表顔のそれぞれをクラスタリングする。その結果、各代表顔は、1以上のクラス(以下、代表顔クラスと称する)のうちの何れかに分類されることになる。この分類手法は特に限定されない。ただし、クラス間の重なり(クラス間の分離度)を少なくするような分類手法であると好適である。また、各代表顔クラスのそれぞれに対しても、ラベルがそれぞれ付されるとする。
具体的には例えば、図2の例では、顔クラスC01からは顔画像71−1671が代表顔として選択され、また、顔クラスC02からは顔画像71−2498が代表顔として選択されている。従って、この場合、顔画像71−1671,71−2498のそれぞれが、代表顔クラスC110,C111,C112等のうちの何れかに分類されることになる。
このようにして各代表顔がクラスタリングされる理由は次の通りである。即ち、実世界上では同一人物であった者が時間を開けて動画コンテンツ内に登場してきた場合、顔検出/追跡部11は、上述したように、それぞれ異なる複数の時系列画像(クリップ)を検出することになる。この場合、同一人物顔クラス生成部21においては、それらの複数の時系列画像(クリップ)は、それぞれ異なる人物の顔クラスとして生成(分類)されることになる。このように、実世界上では同一人物であっても、同一人物クラスタリング部12では、それぞれ異なる人物の顔クラスとして取り扱われる場合がある。そこで、このような場合であっても、実世界上と同様に同一人物として取り扱うことを可能にすべく、同一人物クラスタリング部12のクラスタリングとは別途に、異人物間クラスタリング部13が、各顔クラスの各代表顔をクラスタリングするのである。
そして、クラス統合部14が、同一人物顔クラス生成部21より生成された1以上の顔クラスと、異人物間クラスタリング部13のクラスタリングにより得られた1以上の代表顔クラスとからなる各クラスうちの、実世界上では同一人物であると判断される1以上のクラスを関連付けることで、各クラスの統合を行う。そして、このような同一人物クラスタリング部12、異人物間クラスタリング部13、およびクラス統合部14によるクラスタリングの結果に基づいて、動画コンテンツから検出された各顔画像(より正確にはそれらの特徴ベクトル)がデータベース化され、その結果、人物顔データベースが人物顔データベース部15に構築されるのである。即ち、実世界上の同一人物と判断される人物毎に、各クラスが関連付けられた人物顔データベースが構築されるのである。
具体的には例えば、図3に示されるように、代表顔クラスや顔クラスが各人物毎に関連付けられた人物顔データベースが、人物顔データベース部15に構築される。即ち、図3の例では、代表顔クラスA.0と顔クラスA.1乃至A.mが関連付けられて、人物Aのクラスが形成されている。同様に、代表顔クラスB.0と顔クラスB.1乃至B.kが関連付けられて、人物Bのクラスが形成されている。代表顔クラスC.0と顔クラスC.1乃至C.nが関連付けられて、人物Cのクラスが形成されている。なお、図3には図示はしていないが、上述したように、各顔クラスA.1乃至A.m,B.1乃至B.k,C.1乃至C.nのそれぞれは、さらに、複数の顔方向クラスに分類されている。
人物顔データベースの構成をより具体的かつ正確にいえば、例えば次のようになる。即ち、顔検出/追跡部11により検出された1以上の時系列画像(クリップ)に含まれる各顔画像の顔特徴ベクトルのそれぞれに対して、同一人物クラスタリング部12により分類された顔クラスと顔方向クラスとをそれぞれ特定可能なラベルがそれぞれ付され、また、そのうちの代表顔についてはさらに、異人物間クラスタリング部13により分類された代表顔クラスを特定可能なラベルが付され、このような各ラベルが付された各顔特徴ベクトルが各人物毎かつ各クラス毎に分類されてデータベース化されることで、人物顔データベースが人物顔データベース部15に構築される。具体的には例えば図2の人物顔データベース部15内に描画されているように、人物顔データベースが構築される。なお、このようなレベルを付す処理は、本実施の形態では上述したように、同一人物顔クラス生成部21、人物顔クラスタリング部23、または人物顔クラスタリング部33のうちの何れかにより実行されるとする。
この場合、図1の顔認識部3は、認識対象顔画像の顔特徴ベクトルに対する、人物顔データベース部15に含まれている各顔特徴ベクトルの類似度計算、例えば本実施の形態では距離計算をそれぞれ行う。そして、顔認識部3は、認識対象顔画像の顔特徴ベクトルと最も類似している(最も距離が近い)と判断できる顔特徴ベクトルを選抜し、選抜された顔特徴ベクトルに付されたラベルにより特定されるクラスを、認識対象顔画像のクラスとして特定する。
例えば図2の例において、認識対象顔画像の顔特徴ベクトルと、顔方向クラスC011のラベルが付された顔特徴ベクトルとが最も類似すると判定された場合、認識対象顔画像はクラスC011であると特定され、その結果、認識対象顔画像は人物Aの顔画像であると特定される。さらに、図2の最下方にあるような外部情報が与えられていれば、顔認識部3は、「人物A=○○○」(○○○は、人物Aを特定する情報、例えば芸名等)といった情報を、最終認識結果としてまたは付帯情報として出力することもできる。
図4は、このような図1の機能的構成を有する画像処理装置が実行する人物特定処理の一例を説明するフローチャートである。
ステップS1において、人物顔データベース構築部2は、顔データベース構築処理を実行することで、上述した人物顔データベースを人物顔データベース部15に構築する。なお、顔データベース構築処理の詳細例については、図5のフローチャートを参照して後述する。
ステップS2において、顔認識部3の認識対象顔検出部41は、動画コンテンツ入力部1に入力された動画コンテンツから、認識対象顔画像を検出する。
ステップS3において、認識対象顔クラス特定部42は、人物顔データベース部15に構築された人物顔データベースを利用して、認識対象顔画像のクラスを特定する。
ステップS4において、人物特定部44は、認識対象顔クラス特定部42により特定されたクラスと、外部情報取得部43により取得された外部情報とを用いて、認識対象顔画像の人物を特定し、その特定結果を出力する。これにより、人物特定処理は終了となる。
次に、図5のフローチャートを参照して、ステップS1の顔データベース構築処理の詳細例について説明する。
ステップS11において、顔検出/追跡部11は、動画コンテンツ入力部1に入力された動画コンテンツから顔画像の検出をフレーム毎に行う。
ステップS12において、顔検出/追跡部11は、新たな人物の顔画像が検出されたか否かを判定する。
ステップS12において、新たな人物の顔画像が検出されていないと判定された場合、処理はステップS11に戻され、それ以降の処理が繰り返される。即ち、新たな人物の顔画像が検出されるまで、ステップS11,S12(NO)のループ処理が繰り返される。そして、新たな人物の顔画像が検出されると、ステップS12の処理でYESであると判定されて、処理はステップS13に進む。
ステップS13において、顔検出/追跡部11は、その新たな人物について追跡処理を実行することで、その新たな人物の時系列画像(クリップ)を得る。即ち、所定のフレームから新たな人物の顔画像が検出されると、その後の時間的に連続する複数のフレームのうちの新たな人物を含む各フレームのそれぞれから、新たな人物の顔画像が順次検出されていき、その結果、新たな人物の顔画像が1以上含まれる時系列画像(クリップ)が得られる。
そこで、ステップS14において、同一人物クラスタリング部12は、その時系列画像(クリップ)を1つの顔クラスとして、その顔クラスに含まれる各顔画像を、複数の顔方向クラスにクラスタリングする。
ステップS15において、顔検出/追跡部11は、顔画像の検出を終了するか否かを判定する。
ステップS15において、顔画像の検出をまだ終了しないと判定された場合、処理はステップS11に戻され、それ以降の処理が繰り返される。即ち、顔画像の検出を終了すると判定されるまでの間、新たな人物(画像処理装置にとっての新たな人物という意味)の顔画像が検出される毎に、新たな時系列画像(クリップ)が1つずつ得られ、それぞれが異なる顔クラスとして分類される。そして、顔画像の検出が終了すると、ステップS15の処理でYESであると判定されて、処理はステップS16に進む。
即ち、ステップS16の処理開始段階においては、異人物の各顔クラスが生成されていることになる。そこで、ステップS16において、異人物間クラスタリング部13は、異人物の各顔クラスから代表顔をそれぞれ選択し、各代表顔を、1以上の代表顔クラスにクラスタリングする。
なお、ここでいう「異人物」とは、上述したように、画像処理装置にとっての異人物という意味である。即ち、実世界上では同一人物の者が、動画コンテンツ内において時間間隔を開けて何回か登場してきたような場合、それぞれの登場シーン(1以上のフレームの集合体)から、時系列画像(クリップ)が1つずつ別々に得られ、それらの各時系列画像(クリップ)から異人物の各顔クラスがそれぞれ生成される。そして、このような異人物の各顔クラスから代表顔がそれぞれ個別に選択される。
ステップS17において、クラス統合部14は、各顔クラスと、各代表顔クラスとを統合して、人物顔データベース部15に人物顔データベースを構築する。なお、統合の仕方の具体例については、図3を参照して説明したとおりである。
これにより、顔データベース構築処理は終了となる。即ち、図4のステップS1の処理は終了し、ステップS2以降の処理が実行される。
次に、図6乃至図8を参照して、図1の顔検出/追跡部11の詳細について説明する。
図6は、顔検出/追跡部11の詳細な機能的構成例を示す機能ブロック図である。
図6の例の顔検出/追跡部11は、顔検出部101乃至現時刻顔追跡結果保存部105から構成されている。このうちの、顔検出部101が、顔検出処理を実行し、顔領域位置予測部102乃至現時刻顔追跡結果保存部105が、追跡処理を実行する。
顔検出部101に適用する顔検出手法は、特に限定されず、例えば図7と図8に示される手法、即ち、「ピクセル差分特徴を用いた実時間任意姿勢顔検出器の学習」(第10回画像センシングシンポジウム(SSII 2004)にて発表)により開示された手法を採用することができる。即ち、顔画像からピクセル差分特徴を用いて、AdaBoostによる姿勢毎の顔パターン検出器の学習を、ツリー構造に弱仮説が配置されるように行い、その学習結果を用いて画像内の顔を検出する、という手法を顔検出部101に適用できる。
ここに、ピクセル差分特徴とは、例えば図7に示されるように所定のピクセル(画素)の輝度値をI1として別のピクセルの輝度値をI2とすると、I1−I2の演算結果のことをいう。この場合、学習結果として、例えば図8に示されるように、顔部分(face)と非顔部分(non-face)とのそれぞれのピクセル差分特徴の頻度による分布図が得られ、この分布図から所定の閾値(Threshold)が設定される。この場合、この図8の分布図における閾値(Threshold)を用いて、顔部分(face)と非顔部分(non-face)とをそれぞれ認識していくことで、最終的に顔を検出する、という手法を顔検出部101に適用できる。
換言すると、かかる手法が適用された顔検出部101は、全ての姿勢の顔パターンを識別する弱仮説から次第に各姿勢の顔パターンを識別するように枝分かれ細分化していくツリー構造の識別器を構成するような学習を行っていき、その学習結果を用いた識別手法(例えば図8の分布図を用いた閾値(Threshold)による識別手法)に従って、各フレームから顔画像をそれぞれ検出することができる。
一方、顔の追跡手法としては例えば、図6の顔領域位置予測部102乃至現時刻顔追跡結果保存部105により実現される次のような手法を採用できる。
即ち、顔検出部101によって新たな人物の顔画像が検出されると、その顔画像の顔領域が初期顔領域モデルとして顔検出/追跡部11に保存される。かかる初期顔領域モデルは、顔領域モデル読み込み部115によって読み込まれる。また、処理対象のフレームの時刻を現時刻とすると、現時刻の追跡結果、即ち、現時刻の顔領域の推定位置は、現時刻顔追跡結果保存部105に保存される。
この場合、次のフレームが処理対象となると、顔領域位置予測部102は、次のような処理を実行する。即ち、前時刻追跡結果読み込み部111は、現時刻顔追跡結果保存部105に直前に保存された追跡結果を、前時刻追跡結果として読み込む。すると、現時刻顔領域予測位置計算部113は、この前時刻追跡結果と、顔動き予測モデル読み込み部112によって読み込まれた顔の運動モデル(顔動き予測モデル)とに基づいて、現時刻の顔領域が存在可能な位置を予測し、その予測された各顔領域の位置(仮説)を出力する。
次に、顔領域予測評価部103は、次のような処理を実行する。即ち、予測領域画像分布(HSV分布)算出部114は、顔検出部101から提供される現時刻のフレームのうちの、顔領域位置予測部102により予測された各顔領域の位置(仮説)での色分布(HSV分布)、即ち、色ヒストグラム特性を算出する。そして、予測領域評価部116は、この色ヒストグラム特性を用いて、顔領域モデル読み込み部115によって読み込まれた初期顔領域モデルとの相似性を評価する。なお、予測領域評価部116は、このような処理を実行することから、相似性演算部116であると捉えることもできる。
次に、顔領域追跡結果推定部104は、次のような処理を実行する。即ち、確率演算部117は、顔領域予測評価部103による評価値によって、顔領域位置予測部102により予測された各顔領域の位置(仮説)の確率を算出する。最後に、追跡結果推定部118は、顔領域位置予測部102により予測された各顔領域の位置(仮説)と、その確率とを用いて、現時刻の顔領域の位置を推定し、その顔領域の推定位置を追跡結果として外部に出力する。また、この追跡結果は、現時刻顔追跡結果保存部105に保存され、さらに次のフレームが処理対象となると、上述したように、前時刻追跡結果として利用される。
次に、図9乃至図11を参照して、図1の代表顔選択部31に適用可能な代表顔の選択手法の一例について説明する。
図9は、代表顔として、正面顔の顔画像が選択された場合の一例を示している。なお、正面顔が代表顔として選択される理由は、クラスタリングが行いやすいからである。
図9の例では、フレーム番号がKL(K,Lはそれぞれ独立した任意の整数値)である各フレームから検出された顔画像が、符号TKLの下方に図示されている。そこで、以下、符号TKLの下方に示された顔画像TKLと称する。
図9の例では、同一人部顔クラス生成部21(図1)によって、顔画像T00乃至T12からなる時系列画像(クリップ)が顔クラスS01として分類され、顔画像T20乃至T27からなる時系列画像(クリップ)が顔クラスS02として分類され、また、顔画像T40乃至T44からなる時系列画像(クリップ)が顔クラスS03として分類されている。
この場合、図9の各白抜き矢印で示されるように、代表顔選択部31は、顔クラスS01からは顔画像T00,T09を正面顔として検出し、顔クラスS02からは顔画像T24を正面顔として検出し、かつ、顔クラスS03からは顔画像T40を正面顔として検出することができる。
図10,図11は、このような正面顔を検出するための簡単な手法の一例を示す図である。
図10,図11における各白丸は、顔の各パーツ、具体的には両目、鼻、または口の検出結果を示している。即ち、代表顔検出部31は、各顔画像から、両目、鼻、または口の端を点(白丸)として検出し、それらの各点の距離、即ち、対応する各パーツ間の相対位置(距離)を演算し、その演算結果に基づいて、正面顔であるのか否かを判定することで、正面顔の検出ができる。
このような選択手法が適用された代表顔選択部31によって検出された各正面顔は、選択された代表顔として、上述したように、図1の顔特徴量解析/評価部32と人物顔クラスタリング部33により、自動的にクラスタリングされる。この場合、適切なクラスタリングを行うためには、正面顔の画像特徴を固有空間法によって抽出し、更に照明影響などを低減することが必要であり、そのためには、適切な顔特徴ベクトルを選択する必要があると考えられる。そこで、本発明人は、幾つかの顔データベースを用いて、顔特徴ベクトルの解析と評価を実際に行うことで、クラスタリングに適した顔特徴ベクトルの検討を行った。以下、その検討結果について説明する。
なお、図示はしないが、顔特徴ベクトルの解析と評価を行うために利用された顔データベースとしては、次のような4つのデータベースが使用されたとする。
即ち、第1のデータベースとは、実世界上の1以上の人物をそれぞれ撮影する場合に、様々な表情をしてもらいつつ撮影し、各撮影の結果得られた各顔画像が含まれるデータベースである。以下、第1のデータベースを、表情変化データベースと称する。
第2のデータベースとは、実世界上の1以上の人物をそれぞれ撮影する場合に、様々な照明設定をそれぞれ行いつつ撮影し、各撮影の結果得られた各顔画像が含まれるデータベースである。以下、第2のデータベースを、照明変化データベースと称する。
第3のデータベースとは、実世界上の1以上の人物をそれぞれ撮影する場合に、様々なポーズをそれぞれとってもらいつつ撮影し、各撮影の結果得られた各顔画像が含まれるデータベースである。以下、第3のデータベースを、ポーズ変化データベースと称する。
第4のデータベースとは、実際の映画やドラマ等の動画コンテンツに対して顔検出/追跡部11(図1)の検出処理と追跡処理が施され、その結果得られた1以上の時系列画像(クリップ)が含まれる顔データベースである。以下、第4のデータベースを、実コンテンツデータベースと称する。
本発明人は、先ず、各顔特徴ベクトルを抽出する手法としては、PCA/KPCAの手法が好適であると判断した。その判断理由は、人物顔データベース構築部2は教師なしでクラスタリングを行うことから、教師なしで顔特徴ベクトルを求める必要があり、このためには、PCA/KPCAの手法が好適だからである。
そこで、本発明人は、上述した各種データベースを用いて、PCA/KPCAの手法に従った各顔特徴ベクトルの抽出を実際に行った。
具体的には例えば、図12には、表情変化データベースに含まれる顔画像から、PCA/KPCA手法により顔特徴ベクトルが抽出された結果の一例、即ち、顔特徴ベクトルの各次元のそれぞれの要素を示す各固有顔の一例が示されている。
図13には、照明変化データベースに含まれる顔画像から、PCA/KPCA手法により顔特徴ベクトルが抽出された結果の一例、即ち、顔特徴ベクトルの各次元のそれぞれの要素を示す各固有顔の一例が示されている。
図14には、ポーズ変化データベースに含まれる顔画像から、PCA/KPCA手法により顔特徴ベクトルが抽出された結果の一例、即ち、顔特徴ベクトルの各次元のそれぞれの要素を示す各固有顔の一例が示されている。
図15には、実コンテンツデータベースに含まれる顔画像から、PCA/KPCA手法により顔特徴ベクトルが抽出された結果の一例、即ち、顔特徴ベクトルの各次元のそれぞれの要素を示す各固有顔の一例が示されている。
そして、本発明人は、このようにしてPCA/KPCAの手法に従って得られた様々な顔特徴ベクトルを用いて、実際に顔認識を行い、その性能評価を行った。
ここで、性能評価の結果を説明する前に、性能評価の結果を理解するための前提となる技術、即ち、PCA手法による顔認識の技術について、図16を参照してその概要を簡単に説明する。なお、説明の簡略上、動作主体は単に装置と称する。
装置は、データベースまたは顔検出によって得られた複数人物のN枚(Nは1以上の整数値)の顔画像をトレーニングサンプルとして利用する。装置は、それらのトレーニングサンプルの大きさや傾きを整えるように正規化処理を行い、また、平均顔画像μを生成する。そして、装置は、正規化後の各トレーニング顔画像xi(i=1,2,……,N)と平均顔画像μとの差分画像を生成し、さらに、次式(1)に示される共分散行列Sを算出する。
最後に、装置は、この共分散行列Sから、顔の固有ベクトルと固有値を計算し、固有値の大きさの順番付けを行う。
これにより、顔の認識処理を行うための準備が整うことになる。さらに、以下、顔の認識処理例の概略について説明する。
装置は、共分散行列Sから計算された顔の固有ベクトルと固有値とを用いて、顔クラスデータベース等に保持された各人物の顔画像(各人物顔クラス)の顔特徴を固有空間に射影することで、それぞれの人物顔クラスの顔特徴ベクトルを求める。図15の例では、人物顔クラスはL(Lは1以上の整数値)クラス存在し、それゆえL個の顔特徴ベクトルPM1乃至PMLが求められている。
一方、装置は、認識対象顔画像に対して、大きさと傾きについての正規化処理を行い、上述した平均顔画像μとの差分画像を生成し、その差分画像を用いて、認識対象顔画像の顔特徴ベクトルPtestを求める。
そして、装置は、認識対象顔画像の顔特徴ベクトルPtestに対する、各人物顔クラスの顔特徴ベクトルPM1乃至PMLの各距離評価値をそれぞれ演算し、距離評価値が最も小さい顔特徴ベクトルPMK(Kは1乃至Lのうちの何れかの値)を有する人物顔クラスが、認識対象顔画像のクラスであると判定し、その判定結果を認識結果として出力する。
このようなPCA手法と、KPCA手法との違いは次の通りである。即ち、PCA手法とは、上述したように、顔画像を線形射影によって固有顔の特徴空間に射影する手法である。これに対して、KPCA手法は、カーネルトリックを用いて、顔画像を別の空間にマッピングすることによって、非線形空間問題を線形空間問題として取り扱うことができる手法である。換言すると、PCA手法がKPCA手法の特例として考えられる。そこで、以下、PCA手法も含めて、単にKPCA手法として説明していく。
このKPCA手法ではカーネルトリックが必要である。このカーネルトリックとしては、一般的に次式(2)に示されるPoly (polynomial)と、次式(3)に示されるRBF (Gaussian Radial Basis Function Kernel)がよく使われている。
そこで、本発明人は、これら2つのカーネルトリックのそれぞれについて、各式(2),(3)における各パラメータd,σのそれぞれを変化させた場合の顔認識の性能評価を行った。その性能評価の結果が、図17乃至図19のそれぞれに示されている。
図17は、照明変化データベースによる性能評価結果を示している。図18は、表情変化データベースによる性能評価結果を示している。図19は、ポーズ変化データベースによる性能評価結果を示している。
図17乃至図19において、縦軸が顔認識の正解率(%)を示し、横軸のうちの左半分がPolyのパラメータdを示し、横軸のうちの右半分がRBFのパラメータσを示している。
また、L1で示される線は、顔特徴ベクトルの距離評価として絶対距離を使用した場合の性能評価結果を示している。L2で示される線は、顔特徴ベクトルの距離評価として絶対距離の二乗を使用した場合の性能評価結果を示している。Cosで示される線は、顔特徴ベクトルの距離評価としてCosign値(余弦値)を使用した場合の性能評価結果を示している。L1Wで示される線は、顔特徴ベクトルの距離評価として絶対距離を重み付けした値を使用した場合の性能評価結果を示している。CosWで示される線は、顔特徴ベクトルの距離評価としてCosign(余弦値)を重み付けした値を使用した場合の性能評価結果を示している。Mahaで示される線は、顔特徴ベクトルの距離評価としてMaha距離を使用した場合の性能評価結果を示している。
図17乃至図19の性能評価結果からわかるように、PolyやRBFといったカーネルトリックのタイプによっては正解率の違いはそれほど顕著に表れない。また、Polyを用いる場合にはパラメータdとしては、0.4<d<1程度が適切であり、全てのデータベースのテストデータに対して、d=0.8場合には高い正解率、即ち、良い認識結果が得られている。また、RBFを用いる場合には、パラメータσとしては、1.5<σ<10.0程度が適切である。
そこで、本発明人は、パラメータd=0.8のPolyによるKPCA手法を利用して、顔認識の試み、即ち、顔特徴ベクトルの解析と評価を行った。その評価結果が、図20,図21に示されている。即ち、図20には、各条件の顔認識の正解率が示されている。図21には、照明変化データベースを利用して、40次元の顔特徴ベクトルのうちの、全次元を使用した場合(1〜40次元を使用した場合)と、最初の3次元を除外した場合(4〜40次元を使用した場合)とのそれぞれについての顔認識の正解率とiteration(クラスタリング結果)とが示されている。なお、図20,図21のそれぞれとも、顔特徴ベクトルの距離評価として絶対距離の二乗を使用した場合の結果が示されている。
図20,図21から、顔特徴ベクトルのうちの最初の3次元程度を除外して顔認識やクラスタリングを行った方が、良い結果が得られることがわかる。このことは、照明変化データベースを用いた場合に顕著なものとなっている。その理由は、次の通りである。即ち、例えば図13の左上の3つの固有顔が、顔特徴ベクトルのうちの最初の3次元に対応しており、他の固有顔に比較して照明影響を多く受けていることがわかる。このように、顔特徴ベクトルのうちの最初の3次元程度は照明影響を受けやすく安定性がよくないため、これらの最初の3次元程度を除外して顔認識やクラスタリングを行った方が、良い結果が得られるのである。
以上の図17乃至図21を用いて説明した検討結果をまとめると、次のようになる。
即ち、図1の顔特徴量解析/評価部32は、後段の人物顔クラスタリング部33による教師無しのクラスタリングに適した顔特徴ベクトルを抽出する必要がある。かかる抽出手法としては、PCA手法も含めて、KPCA手法が好適である。
また、教師無しのクラスタリングに適した顔特徴ベクトルとしては、KPCA手法によって実際の顔認識を行ったときに認識結果が良い顔特徴ベクトルを適用すればよい。具体的には、図1の顔特徴量解析/評価部32は、上述した検討結果から、次のような顔特徴ベクトルを抽出すれば好適である。即ち、カーネルトリックのタイプとしてはPolyとRBFとの何れを採用してもよいが、前者のPolyを採用する場合にはパラメータdとしては、0.4<d<1程度を採用した顔特徴ベクトルが好適であり、一方、後者のRBFを採用する場合には、パラメータσとしては、1.5<σ<10.0程度を採用した顔特徴ベクトルが好適である。また、抽出後の顔特徴ベクトルの解析や評価、さらには、その評価に基づくクラスタリングを行う場合には、顔特徴ベクトルの全次元を使用するのではなく、最初の2乃至3次元程度を除外して使用すると好適である。
以上の内容、即ち、検討結果をまとめた内容は、図1の同一人物クラスタリング部12の顔特徴量解析/評価部22についても当てはまる。
次に、本発明人は、図1の人物顔クラスタリング部23,33に採用するクラスタリング手法として好適な手法を見つけるべく、4つのクラスタリング手法、即ち、GMM手法、KMeans手法、FCM(Fuzzy C-Means)手法、および、AFCM(Alternative Fuzzy C-Means)手法のそれぞれを実際に用いたクラスタリングを行った。条件としては、10枚の顔画像のそれぞれから、パラメータd=0.8のPolyのKPCA手法により顔特徴ベクトルを抽出し、それらの顔特徴ベクトルのうちの最初の3次元を除外したものを利用して、10クラスにクラスタリングする、という条件が採用された。そのクラスタリングの結果が図22に示されている。
図22の結果から、図1の人物顔クラスタリング部23,33に採用するクラスタリング手法としては、AFCM手法が好適であることがわかる。
そこで、本発明人は、さらに、図23に示されるような異人物の時系列画像(クリップ)のそれぞれを、1つのクラスのみ(顔クラスのみ)に分類した場合のクラスタリングと、3つのクラスに分類した場合(1つの顔クラスをさらに3つの顔方向クラスに分類した場合)のクラスタリングとを、AFCM手法に従ってそれぞれ行った。前者の結果、即ち、1つのクラスのみ(顔クラスのみ)に分類した場合のクラスタリングの結果が、図24に示されている。一方、3つのクラスに分類した場合(1つの顔クラスをさらに3つの顔方向クラスに分類した場合)のクラスタリングの結果が、図25に示されている。
なお、ここでいう「異人物」とは、上述したように、画像処理装置にとって「異人物」と判断されたという意味であり、実世界上では同一人物である場合もある。このことは、以下の図24,図25を用いた説明でも同様とする。同様に、以下の図24,図25を用いた説明でいう「同一人物」とは、上述したように、画像処理装置にとって「同一人物」と判断されたという意味である。
また、以下の説明では、「顔クラス」という語句を使用し、それからさらに分類された3つの顔方向クラスとして、「第1の顔方向クラス」、「第2の顔方向クラス」、および「第3の顔方向クラス」という語句を使用する。
具体的には、図24のグラフは、所定の人物の顔クラスの中心顔(平均顔画像)に対する各顔画像の距離の分布図を示しており、点線が、所定の人物と同一人物の顔クラスに属する各顔画像の分布を示しており、実線が、所定の人物とは別人物の顔クラスに属する顔画像を示している。
また、図25の左のグラフは、所定の人物の第1の顔方向クラスの中心顔(平均顔画像)に対する各顔画像の距離の分布図を示しており、点線が、所定の人物と同一人物の第1の顔方向クラスに属する各顔画像の分布を示しており、実線が、所定の人物とは別人物の第1の顔方向クラスに属する顔画像を示している。図25の中央のグラフは、所定の人物の第2の顔方向クラスの中心顔(平均顔画像)に対する各顔画像の距離の分布図を示しており、点線が、所定の人物と同一人物の第2の顔方向クラスに属する各顔画像の分布を示しており、実線が、所定の人物とは別人物の第2の顔方向クラスに属する顔画像を示している。図25の右のグラフは、所定の人物の第3の顔方向クラスの中心顔(平均顔画像)に対する各顔画像の距離の分布図を示しており、点線が、所定の人物と同一人物の第3の顔方向クラスに属する各顔画像の分布を示しており、実線が、所定の人物とは別人物の第3の顔方向クラスに属する顔画像を示している。
理想を言えば、各グラフの横軸において、点線と実線とが重なる範囲(距離)が無いことが望ましい。また、点線と実線とが重なっていても、その範囲内での実線が示す顔画像数は多くないことが望ましい。換言すると、点線と実線とが重なるということは、その重なった範囲内の距離を有する顔画像としては、所定の人物のクラスに分類されるべき顔画像(点線)も存在するし、その所定の人物とは異なる人物のクラスに分類されるべき顔画像(実線)も存在することを意味する。従って、点線と実線とが重なっていて、その範囲内での実線が示す顔画像数が多いということは、その重なっている範囲内の距離を有する顔画像がクラスタリングの対象となる場合には、クラスタリングの精度が悪くなることを意味している。このような観点からすると、図24の結果より、図25の結果の方が、より良いクラスタリング結果が得られていることになる。より正確に言えば、第3の顔方向クラスを用いたクラスタリング(図25の右のグラフ)が最も良い結果が得られていることになる。
即ち、同一人物の時系列画像(クリップ)を、そのまま1つの顔クラスとしてクラスタリングを行うより、その顔クラスをさらに複数のクラス(ここでは顔方向クラス)に分け、それらの複数のクラスを用いてクラスタリングを行う方が、より良いクラスタリング結果が得られることになる。このことが、図1の同一人物クラスタリング部12が、同一人物顔クラス生成部21のみならず、顔特徴量解析/評価部22と人物顔クラスタリング部23とを有している理由である。
さらに、本発明人は、人物顔データベースを利用した顔認識に対して適用可能な顔認識手法、即ち、図1の顔認識部3に適用可能な顔認識新手法として、好適な手法について検討した。以下、その検討結果について説明する。
具体的には、顔認識手法としては、固有空間法による手法が多く提案されており、本発明人は、そのうちの、KPCA(Kernel Principle Component Analysis)、GDA(Generalized Discriminant Analysis)、FisherFace(PCA+LDA:Linear Discriminant Analysis)、KDDA(Kernel Direct Discriminant Analysis)、DiffPCA(Differential PCA)の各手法に従った、照明変化データベースに含まれる顔画像の顔認識と、ポーズ変化データベースに含まれる顔画像の顔認識とを行った。
前者の結果、即ち、照明変化データベースによる顔認識結果が図26に示されている。また、後者の結果、即ち、ポーズ変化データベースによる顔認識結果が図27に示されている。
図26と図27に示されるように、GDA手法による顔認識結果が最もよいと確認できた。換言すると、人物顔データベースを利用した顔認識に対して適用可能な顔認識手法としては、即ち、図1の顔認識部3に適用可能な顔認識新手法としては、GDA手法が好適であることを確認できた。
そこで、本発明人は、上述した各種手法のうちの、好適であると確認できた各種手法を図1の画像処理装置に適用して、実世界上の14人の人物が登場する実際のリアルデータを動画コンテンツとして用いて、その画像処理装置に図4の人物特定処理を実行させた。具体的には、人物顔データベース構築部2が、この動画コンテンツから、553枚の顔画像を検出し、それらの顔画像から、パラメータd=0.8のPolyのKPCA手法により顔特徴ベクトルを抽出し、それらの顔特徴ベクトルのうちの最初の3次元を除外したものを利用してクラスタリングした結果、553枚の顔画像は、21のクラスにそれぞれ分類された。この分類結果と、発明人の目測による手動クラスタリングの結果とを比較すると、その一致率は、83.1%であった。即ち、後者の手動クラスタリングの結果を正とすると、83.1%の顔画像が正しくクラスタリングされたことになる。そして、このクラス分類結果を人物顔データベースとして人物顔データベース部15に構築させた後、顔認識部3が、GDA手法による顔認識処理を行うと、約88%の認識率が得られることがわかった。
なお、代表顔選択部31の代わりに手動で代表顔を選択してクラス分類を行い、そのクラス分類の結果を人物顔データベースとして人物顔データベース部15に構築させた後、顔認識部3が、GDA手法による顔認識処理を行うと、約90%の認識率が得られることも確認できた。従って、代表顔選択部31の代表顔の選択の精度を向上させ、後段のクラスタリング処理がうまく実行させることで、さらに一段と高い認識率を得ることも可能になる。
以上説明した図1の画像処理装置等で実現される本発明の画像処理装置は、上述したように様々な効果を有している。ここで、これらの効果をまとめると次のようになる。
即ち、顔の検出処理と追跡処理により同一人物の顔クラスが生成され、一方、例えば正面顔が代表顔として選択されて異人物間のクラスタリングが行われて代表顔クラスが生成され、この顔クラスと代表顔クラスとが統合されるので、その結果、教師無しの顔クラス分類が実現できる、という効果を奏することが可能になる。
また、教師無しのクラスタリングにより構築された人物顔データベースを用いることで、動画コンテンツに登場している人物の顔認識が可能となるので、その結果、その人物が出演している別の動画コンテンツを検索したり、推薦する等の応用的な使用が実現できる、という効果を奏することが可能になる。
さらにまた、Webページ上のテキストファイル情報等を外部情報として取得して利用することで、顔認識がなされた(クラスが特定された)顔画像の人物が誰なのかを特定することもできる、という効果を奏することが可能になる。
換言すると、教師無しのクラスタリングを用いて人物の認識や特定ができるということは、データベースとして事前登録されていない映画やドラマ等に出演している人物の認識や特定もできることを意味している。即ち、ユーザにとっては、例えば、映画やドラマ等を視聴している最中に「気になる人物」が登場したタイミングでボタンを押下する等の「人の直感的な感覚」による操作を行うだけで、事前にデータベースが構築されてなくとも、その映画やドラマ等からデータベースが自動的に構築されて、その自動的に構築されたデータベースを用いて「気になる人物」の認識や特定が自動的に行われる。その結果、ユーザは、「気になる人物」の情報を、その映画やドラマ等の視聴中に取得できるようになる。このように、本発明を適用することで、より効率よく動画コンテンツを管理し取り扱えるようになるので、ユーザにとっては、人の直感的な感覚で動画コンテンツを取り扱えるようになる。換言すると、本発明は、人の直感的な感覚で動画コンテンツを取り扱えるように、より効率よく動画コンテンツを管理し取り扱うための映像解析技術を提供できる、という効果を奏することが可能になる。
なお、教師無しのクラスタリングでは、KPCA手法による顔特徴ベクトルの適用が効果的であることを本発明人が明らかにしたことは、上述した通りである。また、照明影響を除くため、顔特徴ベクトルの最初の2乃至3次元を除いたものを利用することで、より良いクラスタリング結果を得ることが可能になることも、上述した通りである。
ところで、上述した一連の処理は、ハードウエアにより実行させることもできるし、ソフトウエアにより実行させることもできる。一連の処理をソフトウエアにより実行させる場合には、そのソフトウエアを構成するプログラムが、専用のハードウエアに組み込まれているコンピュータ、または、各種のプログラムをインストールすることで、各種の機能を実行することが可能な、例えば汎用のパーソナルコンピュータなどに、プログラム記録媒体からインストールされる。
図28は、上述した一連の処理をプログラムにより実行するパーソナルコンピュータの構成の例を示すブロック図である。即ち、図1の画像処理装置の全部または一部分、例えば幾つかの機能ブロックを、図28のように構成することもできる。
図28において、CPU(Central Processing Unit)201は、ROM(Read Only Memory)202、または記憶部208に記憶されているプログラムに従って各種の処理を実行する。RAM(Random Access Memory)203には、CPU201が実行するプログラムやデータなどが適宜記憶される。これらのCPU201、ROM202、およびRAM203は、バス204により相互に接続されている。
CPU201にはまた、バス204を介して入出力インタフェース205が接続されている。入出力インタフェース205には、キーボード、マウス、マイクロホンなどよりなる入力部206、ディスプレイ、スピーカなどよりなる出力部207が接続されている。CPU201は、入力部206から入力される指令に対応して各種の処理を実行する。そして、CPU201は、処理の結果を出力部207に出力する。
入出力インタフェース205に接続されている記憶部208は、例えばハードディスクからなり、CPU201が実行するプログラムや各種のデータを記憶する。通信部209は、インターネットやローカルエリアネットワークなどのネットワークを介して外部の装置と通信する。
また、通信部209を介してプログラムを取得し、記憶部208に記憶してもよい。
入出力インタフェース205に接続されているドライブ210は、磁気ディスク、光ディスク、光磁気ディスク、或いは半導体メモリなどのリムーバブルメディア211が装着されたとき、それらを駆動し、そこに記録されているプログラムやデータなどを取得する。取得されたプログラムやデータは、必要に応じて記憶部208に転送され、記憶される。
コンピュータにインストールされ、コンピュータによって実行可能な状態とされるプログラムを格納するプログラム記録媒体は、図28に示されるように、磁気ディスク(フレキシブルディスクを含む)、光ディスク(CD-ROM(Compact Disc-Read Only Memory),DVD(Digital Versatile Disc)を含む)、光磁気ディスク、もしくは半導体メモリなどよりなるパッケージメディアであるリムーバブルメディア211、または、プログラムが一時的もしくは永続的に格納されるROM202や、記憶部208を構成するハードディスクなどにより構成される。プログラム記録媒体へのプログラムの格納は、必要に応じてルータ、モデムなどのインタフェースである通信部209を介して、ローカルエリアネットワーク、インターネット、デジタル衛星放送といった、有線または無線の通信媒体を利用して行われる。
なお、本明細書において、プログラム記録媒体に格納されるプログラムを記述するステップは、記載された順序に沿って時系列的に行われる処理はもちろん、必ずしも時系列的に処理されなくとも、並列的あるいは個別に実行される処理をも含むものである。
また、本明細書において、システムとは、複数の装置または回路により構成される装置または回路全体を表すものである。
1 動画コンテンツ入力部, 2 人物顔データベース構築部, 3 顔認識部, 11 顔検出/追跡部, 12 同一人物クラスタリング部, 13 異人物間クラスタリング部, 14 クラス統合部, 15 人物顔データベース部, 21 同一人物顔クラス生成部, 22 顔特徴量解析/評価部, 23 人物顔クラスタリング部, 31 代表顔選択部, 32 顔特徴量解析/評価部, 33 人物顔クラスタリング部, 41 認識対象顔検出部, 42 認識対象顔クラス特定部, 43 外部情報取得部, 44 人物特定部, 201 CPU, 202 ROM, 208 記憶部, 211 リムーバブルメディア