JP4697106B2

JP4697106B2 - 画像処理装置および方法、並びにプログラム

Info

Publication number: JP4697106B2
Application number: JP2006258374A
Authority: JP
Inventors: 偉国呉; 隆之芦ヶ原; 丹姚
Original assignee: Sony Corp
Current assignee: Sony Corp
Priority date: 2006-09-25
Filing date: 2006-09-25
Publication date: 2011-06-08
Anticipated expiration: 2026-09-25
Also published as: JP2008077536A

Description

本発明は、画像処理装置および方法並びにプログラムに関し、特に、人の直感的な感覚で動画コンテンツを扱えるように、より効率よく動画コンテンツを管理し取り扱うための映像解析技術を提供できるようになった画像処理装置および方法並びにプログラムに関する。

インターネット技術や、放送、通信、娯楽、医療、教育などの分野におけるデジタル化技術の急速な発展により、膨大なマルチメディア情報から必要な情報だけを簡単かつ高速にアクセスしたいというニーズが高まってきている。そのようなニーズの中でも、特に、ネットワークやホームサーバに蓄積されていた大量な動画コンテンツを効率的に管理して取り扱いたいというニーズから、動画コンテンツの意味抽出と解析のための画像認識技術の研究開発が盛んに行われるようになっていた。

具体的な例としては、例えば、ハードディスク録画やデジタル家電が普及している中、観たいものだけを観る、録画しながら再生を楽しむなど、といった新しいライフスタイルに応じた楽しみ方を可能にするための「類似画像検索技術」などの研究開発や、デジタルカメラ、デジタルビデオカメラ、インターネット等の普及に伴い、様々な静止画像や動画像を簡単に編集し、自分のオリジナルダイジェスト映像を作成し保存するための「ダイジェスト映像作成技術」などの研究開発が行われている（例えば特許文献１，２参照）。

即ち、上述した新しいライフスタイルに応じた楽しみ方を可能にしたり、ダイジェスト映像を作成するといったニーズのひとつとして、動画コンテンツから所望の画像を検索したい、例えば動画コンテンツの中から所望人物を検出したい、といった画像検索のニーズが高まっている。

かかる画像検索のニーズに応えるために、キーワードを用いた画像検索技術の実用化も進められていた。他にも動画コンテンツを自由自在に閲覧することができるようなBrowsing技術やビジュアルコミュニケーションにおける意味的な「映像議事録」作成技術などの研究も行われていた。
特開２００２−３４４８７２号公報特開２００６−５４６２２号公報

しかしながらキーワードを用いる従来の画像検索技術では、必要なキーワードの付与には手間がかかり、同一キーワードの画像が大量に存在する事態も発生しがちなため、実際に満足な検索結果が得られないのが現状である。また、映像内のメタ情報を自動的に抽出し、それらのメタ情報を元に、欲しい画像コンテンツを見つけ出すといった検索技術や、自動的に「映像議事録」を作成する技術や、Browsing技術なども多く研究されているが、必要なメタ情報を精度良く抽出することが容易ではないので、実際に利用可能な映像検索技術やダイジェスト作成技術やBrowsing技術が確立されていない状況である。

換言すると、上述のようなキーワードによる画像検索などではなく、人の直感的な感覚で動画コンテンツを扱えるように、より効率よく動画コンテンツを管理し取り扱うための映像解析技術の実現が要望されているが、かかる要望に十分に応えられていない状況である。

本発明は、このような状況に鑑みてなされたものであり、人の直感的な感覚で動画コンテンツを扱えるように、より効率よく動画コンテンツを管理し取り扱うための映像解析技術を提供できるようにするものである。

本発明の一側面の画像処理装置は、動画像に対して画像処理を施す画像処理装置において、前記動画像から、新たな人物の顔を検出する毎に、その新たな人物の顔の追跡を行うことで、時間的に連続した追跡範囲に含まれる１以上の顔画像からなる時系列画像を１以上検出する人物顔検出追跡手段と、前記人物顔検出追跡手段により検出された前記１以上の時系列画像のそれぞれについて、異なるクラスを１つずつ生成する同一人物クラス生成手段と、前記同一人物クラス生成手段により生成された所定のクラスに含まれる前記１以上の顔画像のそれぞれについて、対応する顔特徴量をそれぞれ解析して評価する同一人物顔特徴量解析評価手段と、前記同一人物顔特徴量解析評価手段による前記１以上の顔特徴量の解析と評価の結果に基づいて、前記同一人物クラス生成手段により生成された前記所定のクラスに含まれる前記１以上の顔画像を、さらに第１乃至の顔方向クラス乃至第３の顔方向クラスにクラスタリングする同一人物顔クラスタリング手段と、前記人物顔検出追跡手段により検出された前記１以上の時系列画像のそれぞれから、顔の構成要素を１以上検出し、１以上の前記構成要素の位置関係に基づいて顔の方向を推定し、その推定結果に基づいて正面顔か否かを判定し、正面顔と判定された顔画像を前記代表顔としてそれぞれ選択する代表顔選択手段と、前記代表顔選択手段により選択された前記１以上の代表顔のそれぞれについて、対応する顔特徴量をそれぞれ解析して評価する代表顔特徴量解析評価手段と、前記代表顔特徴量解析評価手段による前記１以上の顔特徴量の解析と評価の結果に基づいて、前記代表顔選択手段により選択された前記１以上の代表顔を、第１乃至の顔方向クラス乃至第３の顔方向クラスにクラスタリングする代表顔クラスタリング手段と、前記同一人物クラス生成手段により生成されたクラスと、前記代表顔クラスタリング手段のクラスタリングにより得られたクラスとからなる各クラスうちの、実世界上では同一人物であると判断される１以上のクラスを関連付けることで、前記各クラスの統合を行う統合手段と、前記統合手段の統合結果に基づいて、認識対象の新たな顔画像のクラスを特定することで、前記新たな顔画像の認識を行う顔認識手段とを備える。

前記代表顔クラスタリング手段、前記同一人物クラス生成手段、および、前記同一人物顔クラスタリング手段のそれぞれは、さらに、生成またはクラスタリングの結果得られた各クラスのそれぞれに対してラベルを付す。

前記顔認識手段は、前記統合手段により統合された前記各クラスのうちの、前記新たな顔画像の顔特徴量と最も類似する顔特徴量を有する顔画像が属するクラスを、前記新たな顔画像のクラスとして特定する。

前記代表顔特徴量解析評価手段は、所定の顔画像を特徴空間に射影することで得られる特徴ベクトルのうちの、所定の次元を１以上除外した結果得られるベクトルを、前記所定の顔画像に対応する前記顔特徴量として利用する。

本発明の一側面の画像処理方法は、動画像に対して画像処理を施す画像処理装置の画像処理方法において、前記動画像から、新たな人物の顔を検出する毎に、その新たな人物の顔の追跡を行うことで、時間的に連続した追跡範囲に含まれる１以上の顔画像からなる時系列画像を１以上検出し、前記検出された前記１以上の時系列画像のそれぞれについて、異なるクラスを１つずつ生成し、前記同一人物クラス生成手段により生成された所定のクラスに含まれる前記１以上の顔画像のそれぞれについて、対応する顔特徴量をそれぞれ解析して評価し、前記１以上の顔特徴量の解析と評価の結果に基づいて、前記生成された前記所定のクラスに含まれる前記１以上の顔画像を、さらに第１乃至の顔方向クラス乃至第３の顔方向クラスにクラスタリングし、前記検出された前記１以上の時系列画像のそれぞれから、顔の構成要素を１以上検出し、１以上の前記構成要素の位置関係に基づいて顔の方向を推定し、その推定結果に基づいて正面顔か否かを判定し、正面顔と判定された顔画像を前記代表顔としてそれぞれ選択し、前記選択された前記１以上の代表顔のそれぞれについて、対応する顔特徴量をそれぞれ解析して評価し、前記１以上の顔特徴量の解析と評価の結果に基づいて、前記選択された前記１以上の代表顔を、第１乃至の顔方向クラス乃至第３の顔方向クラスにクラスタリングし、前記生成されたクラスと、前記クラスタリングにより得られたクラスとからなる各クラスうちの、実世界上では同一人物であると判断される１以上のクラスを関連付けることで、前記各クラスの統合を行い、前記統合結果に基づいて、認識対象の新たな顔画像のクラスを特定することで、前記新たな顔画像の認識を行うステップを含む。

本発明の一側面のプログラムは、上述した本発明の一側面の画像処理方法に対応するプログラムである。

本発明の一側面の画像処理装置および方法並びにプログラムにおいては、実世界の１以
上の人物が登場する動画像に対して、次のような画像処理が施される。即ち、前記動画像から、前記１以上の人物のうちの所定の人物の顔が検出されたとき、その所定の人物の顔の追跡が行われることで、時間的に連続した追跡範囲に含まれる１以上の顔画像からなる時系列画像が１以上検出される。検出された１以上の時系列画像のそれぞれについて、異なるクラスが１つずつ生成され、生成された所定のクラスに含まれる１以上の顔画像のそれぞれについて、対応する顔特徴量がそれぞれ解析されて評価され、１以上の顔特徴量の解析と評価の結果に基づいて、生成された所定のクラスに含まれる１以上の顔画像が、さらに第１乃至の顔方向クラス乃至第３の顔方向クラスにクラスタリングされる。また、検出された１以上の時系列画像のそれぞれから、顔の構成要素が１以上検出され、１以上の構成要素の位置関係に基づいて顔の方向が推定され、その推定結果に基づいて正面顔か否かが判定され、正面顔と判定された顔画像が代表顔としてそれぞれ選択され、選択された１以上の代表顔のそれぞれについて、対応する顔特徴量がそれぞれ解析されて評価され、１以上の顔特徴量の解析と評価の結果に基づいて、選択された１以上の代表顔が、第１乃至の顔方向クラス乃至第３の顔方向クラスにクラスタリングされ、生成されたクラスと、クラスタリングにより得られたクラスとからなる各クラスうちの、実世界上では同一人物であると判断される１以上のクラスを関連付けることで、各クラスの統合を行い、統合結果に基づいて、認識対象の新たな顔画像のクラスを特定することで、新たな顔画像の認識が行われる。

以上のごとく、本発明の一側面によれば、映像解析技術を提供できる。特に、人の直感的な感覚で動画コンテンツを扱えるように、より効率よく動画コンテンツを管理し取り扱うための映像解析技術を提供できる。

このように、様々な側面を持つ本発明では、動画像が対象とされる。この動画像に対する処理単位は、以下の実施の形態では、単位画像であるとする。即ち、以下の実施の形態では、動画像は、複数の単位画像から構成されているとする。ただし、単位画像自体は、特に限定されず、例えば動画像のフォーマットで採用されている単位の画像、具体的には例えば、フレームやフィールド等を採用することができる。換言すると、動画像のフォーマットは、特に限定されず、DV(Digital Video)、MPEG（Moving Picture Experts Group）、連番の時系列画像など様々なフォーマットを採用でき、採用された動画像のフォーマットに応じて単位画像を採用すればよい。ただし、以下、説明の簡略上、動画像に対する各種画像処理はフレーム単位で実行されるとする。

また、より正確には、画像処理の対象は、動画像（画面に表示される映像）そのものではなく、いわゆる動画データ、即ち、動画像が装置によって処理可能な形態とされたもの、例えば電気信号とされたものや、メモリに固定されたもの等であり、さらに、かかる動画データは、音声データ等の別データと共に伝送される場合もある。そこで、以下、動画データ単体、動画データと音声データ等の別データとの集合体をまとめて、動画コンテンツと称する。

また、本発明による様々な画像処理の対象となった画像の具体例が幾つか図面に示されている。しかしながら、著作権保護等の観点から、画像処理の対象となった実際の画像そのものが図面に示されている訳ではなく、適宜、線図化された画像等が図面に示されている。例えば、後述する図２、図９、図１０、図１１、図２３等に示される各顔画像は、画像処理の対象となった実際の画像（撮影画像）ではなく、その実際の画像のうちの顔の輪郭やパーツ（目や鼻等）が線図化されたものである。

図１は、本発明が適用される画像処理装置の機能的構成例を示している。

図１の例の画像処理装置は、動画コンテンツ入力部１、人物顔データベース構築部２、および顔認識部３を含むように構成されている。

動画コンテンツ入力部１は、映画やドラマ等の動画コンテンツをフレーム単位で入力する。

人物顔データベース構築部２は、動画コンテンツ入力部１に入力された動画コンテンツから、登場人物の顔画像を１以上検出して、教師無しで各顔画像をクラスタリングして、そのクラスタリング結果に基づいて各顔画像のデータベース、より正確には、各顔画像の特徴量のデータベースを構築する。なお、以下、このようにして構築されるデータベースを、人物顔データベースと称する。即ち、人物顔データベース構築部２は、動画コンテンツから、教師無しで人物顔データベースを構築する。なお、人物顔データベース構築部２のさらなる詳細については後述する。

顔認識部３は、認識対象顔検出部４１乃至人物特定部４４を含むように構成されている。

認識対象顔検出部４１は、動画コンテンツ入力部１に入力された動画コンテンツから、これから認識を行う人物の顔画像（以下、認識対象顔画像と称する）を検出する。この検出手法は、後述する顔検出／追跡部１１に適用されている検出手法と基本的に同様であるので、その説明については、顔検出／追跡部１１の説明の際に行うこととして、ここでは省略する。

認識対象顔クラス特定部４２は、認識対象顔検出部４１により検出された認識対象顔画像のクラスを、人物顔データベース構築部２により構築された人物顔データベースを用いて特定する。

外部情報取得部４３は、認識対象顔画像の人物を特定するために利用可能な各種外部情報を、外部から、例えばインターネット等の所定の外部ネットワーク上から取得する。具体的には例えば、外部情報取得部４３は、Web上にある認識対象顔画像と同一の顔画像や、その顔画像とリンクしているテキスト情報等を外部情報として取得することができる。

人物特定部４４は、認識対象顔クラス特定部４２により特定されたクラスや、外部情報取得部４３により取得された外部情報に基づいて、認識対象顔画像に対応する人物を特定し、その特定結果、即ち特定された人物に関する情報を出力する。

以下、人物顔データベース構築部２についてさらに詳しく説明する。

人物顔データベース構築部２は、顔検出／追跡部１１、同一人物クラスタリング部１２、異人物間クラスタリング部１３、クラス統合部１４、および人物顔データベース部１５を含むように構成されている。

顔検出／追跡部１１は、動画コンテンツ入力部１に入力された動画コンテンツから人物の顔画像をフレーム単位で検出する検出処理を実行する。そして、その検出処理により新たな人物の顔画像を検出すると、顔検出／追跡部１１は、それ以降のフレームを対象として、同一人物の顔を追跡するための追跡処理を実行する。追跡処理とは、例えば、それ以降のフレームに同一人物の顔が含まれているか否かを判定し、含まれていると判定している限り、その同一人物の顔画像の検出を繰り返していく、といった処理いう。即ち、顔検出／追跡部１１は、動画コンテンツから、新たな人物の顔画像を検出する毎に、その新たなの人物の顔の追跡を行う追跡処理を繰り返していくことで、時間的に連続した追跡範囲（ここでは、時間的に連続した1以上のフレームからなるフレーム群）に含まれる１以上の顔画像からなる時系列画像（以下、適宜クリップとも称する）を１以上検出する。なお、顔検出／追跡部１１の詳細については、図６乃至図８を参照して後述する。

同一人物クラスタリング部１２は、同一人物顔クラス生成部２１、顔特徴量解析／評価部２２、および人物顔クラスタリング部２３を含むように構成されている。

同一人物顔クラス生成部２１は、顔検出／追跡部１１により検出された１つの時系列画像（クリップ）に含まれる１以上の顔画像を同一人物の顔画像とみなして、その時系列画像についてのクラス（以下、顔クラスと称する）を１つ生成する。即ち、同一人物顔クラス生成部２１は、顔検出／追跡部１１により検出された１以上の時系列画像（クリップ）のそれぞれについて、異なる顔クラスを１つずつ生成する。換言すると、１以上の時系列画像（クリップ）のそれぞれは、それぞれ異なる人物の各顔クラスとして分類される。なお、その際、各顔クラスには、それぞれラベルが付されるとする。

具体的には例えば、図２に示される動画コンテンツ６１が動画コンテンツ入力部１に入力されたとする。図２の例では、動画コンテンツ６１を構成する複数のフレームのうちの、幾つかのフレームのみが図示されている。図示されている各フレームの下部に示される数値は、フレーム番号を示しており、以下、そのフレーム番号を先頭に付して各フレームを区別して表現するとする。

この場合、顔検出／追跡部１１が、1589フレームから顔画像７１−１５８９を検出して追跡処理を開始し、その結果、1589フレームの顔画像７１−１５８９乃至1864フレームの顔画像７１−１８６４までを１つの時系列画像（クリップ）として検出したとする。すると、同一人物顔クラス生成部２１は、この時系列画像に対して１つの顔クラスを生成し、それにラベルC01を付す。以下、クラスを生成して、ラベルα（αは任意のラベル値。ここではα=C01）を付すまでの一連の処理を、単に、クラスαを生成すると表現する。

同様に、顔検出／追跡部１１が、2498フレームから顔画像７１−２４９８を検出して追跡処理を開始し、その結果、2498フレームの顔画像７１−２４９８乃至3564フレームの顔画像７１−３５６４までを１つの時系列画像（クリップ）として検出したとする。すると、同一人物顔クラス生成部２１は、この時系列画像について１つの顔クラスC02を生成する。

図１に戻り、顔特徴量解析／評価部２２は、同一人物顔クラス生成部２１により生成された１以上の顔クラスのそれぞれを処理対象として、その処理対象に含まれる各顔画像の顔特徴量、例えば本実施の形態では顔特徴ベクトルを解析して評価する。

そして、人物顔クラスタリング部２３は、その評価結果に基づいて、各顔クラスのそれぞれを、所定の分類手法に基づいて、さらに複数のクラスに分類する。この分類手法は特に限定されない。ただし、クラス間の重なり（クラス間の分離度）を少なくするような分類手法であるとよい。このような手法として、ここでは例えば、顔の方向に応じて分類する手法が採用されているとする。そこで、以下、かかる分類手法により分類される複数のクラスを、顔方向クラスと称する。この場合、各顔方向クラスのそれぞれに対しても、ラベルが付されるとする。顔方向クラスのラベルとしては、顔クラスのラベルとは独立したラベルでもよいが、顔クラスのラベルと関連するラベルの方が、顔クラスとの対応付けが明確になるので好適である

例えば図２の例では顔クラスC01について、同一人物の正面に近い顔（以下、正面顔と称する）を１つの顔方向クラスC011とし、左側面に近い顔（以下、左側面顔と称する）を別の顔方向クラスC012とし、右側面に近い顔（以下、右側面顔と称する）をさらに別の顔方向クラスC013とした場合、顔画像７１−１５８９乃至顔画像７１−１８６４のそれぞれは、それらの顔特徴ベクトルに基づいて、顔方向クラスC011乃至C013のうちの何れかに分類される。

同様に例えば、顔クラスC02について、同一人物の正面顔を１つの顔方向クラスC021とし、左側面顔を別の顔方向クラスC022とし、右側面顔をさらに別の顔方向クラスC023とした場合、顔画像７１−２４９８乃至顔画像７１−３５６４のそれぞれが、それらの顔特徴ベクトルに基づいて、顔方向クラスC021乃至C023のうちの何れかに分類される。

なお、このように同一人物の顔クラスを、複数のクラス（ここでは顔方向クラス）にさらに分類する理由は、人物顔データベースを構築する上で、より良いクラス分類を行うためである。この理由の詳細については図２３乃至図２５を参照して後述する。

このような同一人物クラスタリング部１２に対して、異人物間クラスタリング部１３は、代表顔選択部３１、顔特徴量解析／評価部３２、および人物顔クラスタリング部３３を含むように構成されている。

代表顔選択部３１は、同一人物顔クラス生成部２１により生成された複数の顔クラスのそれぞれから、所定の選択手法に従って、代表となる顔画像（以下、代表顔と称する）をそれぞれ選択する。或いは、代表顔選択部３１は、顔検出／追跡部１１により検出された複数の時系列画像（クリップ）のそれぞれから、所定の選択手法に従って、代表顔をそれぞれ選択してもよい。

この場合の代表顔の選択手法は、特に限定されないが、例えば本実施の形態では、所定の顔クラスに含まれる１以上の顔画像のそれぞれについて、顔の構成要素として例えば両目、鼻、口等の１以上のパーツをそれぞれ検出し、１以上の構成要素の位置関係に基づいて顔の方向をそれぞれ推定し、各推定結果に基づいて正面顔か否かをそれぞれ判定し、正面顔と判定された顔画像を、所定の顔クラスの代表顔として選択する、とった手法が採用されているとする。なお、この手法の具体例については、図９乃至図１１を参照して後述する。

顔特徴量解析／評価部３２は、代表顔選択部３１により選択された各代表顔の顔特徴量、例えば本実施の形態では顔特徴ベクトルを解析して評価する。そして、人物顔クラスタリング部３３は、その評価結果に基づいて、各代表顔のそれぞれをクラスタリングする。その結果、各代表顔は、１以上のクラス（以下、代表顔クラスと称する）のうちの何れかに分類されることになる。この分類手法は特に限定されない。ただし、クラス間の重なり（クラス間の分離度）を少なくするような分類手法であると好適である。また、各代表顔クラスのそれぞれに対しても、ラベルがそれぞれ付されるとする。

具体的には例えば、図２の例では、顔クラスC01からは顔画像７１−１６７１が代表顔として選択され、また、顔クラスC02からは顔画像７１−２４９８が代表顔として選択されている。従って、この場合、顔画像７１−１６７１，７１−２４９８のそれぞれが、代表顔クラスC110，C111，C112等のうちの何れかに分類されることになる。

このようにして各代表顔がクラスタリングされる理由は次の通りである。即ち、実世界上では同一人物であった者が時間を開けて動画コンテンツ内に登場してきた場合、顔検出／追跡部１１は、上述したように、それぞれ異なる複数の時系列画像（クリップ）を検出することになる。この場合、同一人物顔クラス生成部２１においては、それらの複数の時系列画像（クリップ）は、それぞれ異なる人物の顔クラスとして生成（分類）されることになる。このように、実世界上では同一人物であっても、同一人物クラスタリング部１２では、それぞれ異なる人物の顔クラスとして取り扱われる場合がある。そこで、このような場合であっても、実世界上と同様に同一人物として取り扱うことを可能にすべく、同一人物クラスタリング部１２のクラスタリングとは別途に、異人物間クラスタリング部１３が、各顔クラスの各代表顔をクラスタリングするのである。

そして、クラス統合部１４が、同一人物顔クラス生成部２１より生成された１以上の顔クラスと、異人物間クラスタリング部１３のクラスタリングにより得られた１以上の代表顔クラスとからなる各クラスうちの、実世界上では同一人物であると判断される１以上のクラスを関連付けることで、各クラスの統合を行う。そして、このような同一人物クラスタリング部１２、異人物間クラスタリング部１３、およびクラス統合部１４によるクラスタリングの結果に基づいて、動画コンテンツから検出された各顔画像（より正確にはそれらの特徴ベクトル）がデータベース化され、その結果、人物顔データベースが人物顔データベース部１５に構築されるのである。即ち、実世界上の同一人物と判断される人物毎に、各クラスが関連付けられた人物顔データベースが構築されるのである。

具体的には例えば、図３に示されるように、代表顔クラスや顔クラスが各人物毎に関連付けられた人物顔データベースが、人物顔データベース部１５に構築される。即ち、図３の例では、代表顔クラスA.0と顔クラスA.1乃至A.mが関連付けられて、人物Ａのクラスが形成されている。同様に、代表顔クラスB.0と顔クラスB.1乃至B.kが関連付けられて、人物Ｂのクラスが形成されている。代表顔クラスC.0と顔クラスC.1乃至C.nが関連付けられて、人物Ｃのクラスが形成されている。なお、図３には図示はしていないが、上述したように、各顔クラスA.1乃至A.m，B.1乃至B.k，C.1乃至C.nのそれぞれは、さらに、複数の顔方向クラスに分類されている。

人物顔データベースの構成をより具体的かつ正確にいえば、例えば次のようになる。即ち、顔検出／追跡部１１により検出された1以上の時系列画像（クリップ）に含まれる各顔画像の顔特徴ベクトルのそれぞれに対して、同一人物クラスタリング部１２により分類された顔クラスと顔方向クラスとをそれぞれ特定可能なラベルがそれぞれ付され、また、そのうちの代表顔についてはさらに、異人物間クラスタリング部１３により分類された代表顔クラスを特定可能なラベルが付され、このような各ラベルが付された各顔特徴ベクトルが各人物毎かつ各クラス毎に分類されてデータベース化されることで、人物顔データベースが人物顔データベース部１５に構築される。具体的には例えば図２の人物顔データベース部１５内に描画されているように、人物顔データベースが構築される。なお、このようなレベルを付す処理は、本実施の形態では上述したように、同一人物顔クラス生成部２１、人物顔クラスタリング部２３、または人物顔クラスタリング部３３のうちの何れかにより実行されるとする。

この場合、図１の顔認識部３は、認識対象顔画像の顔特徴ベクトルに対する、人物顔データベース部１５に含まれている各顔特徴ベクトルの類似度計算、例えば本実施の形態では距離計算をそれぞれ行う。そして、顔認識部３は、認識対象顔画像の顔特徴ベクトルと最も類似している（最も距離が近い）と判断できる顔特徴ベクトルを選抜し、選抜された顔特徴ベクトルに付されたラベルにより特定されるクラスを、認識対象顔画像のクラスとして特定する。

例えば図２の例において、認識対象顔画像の顔特徴ベクトルと、顔方向クラスC011のラベルが付された顔特徴ベクトルとが最も類似すると判定された場合、認識対象顔画像はクラスC011であると特定され、その結果、認識対象顔画像は人物Ａの顔画像であると特定される。さらに、図２の最下方にあるような外部情報が与えられていれば、顔認識部３は、「人物A＝○○○」（○○○は、人物Aを特定する情報、例えば芸名等）といった情報を、最終認識結果としてまたは付帯情報として出力することもできる。

図４は、このような図１の機能的構成を有する画像処理装置が実行する人物特定処理の一例を説明するフローチャートである。

ステップＳ１において、人物顔データベース構築部２は、顔データベース構築処理を実行することで、上述した人物顔データベースを人物顔データベース部１５に構築する。なお、顔データベース構築処理の詳細例については、図５のフローチャートを参照して後述する。

ステップＳ２において、顔認識部３の認識対象顔検出部４１は、動画コンテンツ入力部１に入力された動画コンテンツから、認識対象顔画像を検出する。

ステップＳ３において、認識対象顔クラス特定部４２は、人物顔データベース部１５に構築された人物顔データベースを利用して、認識対象顔画像のクラスを特定する。

ステップＳ４において、人物特定部４４は、認識対象顔クラス特定部４２により特定されたクラスと、外部情報取得部４３により取得された外部情報とを用いて、認識対象顔画像の人物を特定し、その特定結果を出力する。これにより、人物特定処理は終了となる。

次に、図５のフローチャートを参照して、ステップＳ１の顔データベース構築処理の詳細例について説明する。

ステップＳ１１において、顔検出／追跡部１１は、動画コンテンツ入力部１に入力された動画コンテンツから顔画像の検出をフレーム毎に行う。

ステップＳ１２において、顔検出／追跡部１１は、新たな人物の顔画像が検出されたか否かを判定する。

ステップＳ１２において、新たな人物の顔画像が検出されていないと判定された場合、処理はステップＳ１１に戻され、それ以降の処理が繰り返される。即ち、新たな人物の顔画像が検出されるまで、ステップＳ１１，Ｓ１２（ＮＯ）のループ処理が繰り返される。そして、新たな人物の顔画像が検出されると、ステップＳ１２の処理でＹＥＳであると判定されて、処理はステップＳ１３に進む。

ステップＳ１３において、顔検出／追跡部１１は、その新たな人物について追跡処理を実行することで、その新たな人物の時系列画像（クリップ）を得る。即ち、所定のフレームから新たな人物の顔画像が検出されると、その後の時間的に連続する複数のフレームのうちの新たな人物を含む各フレームのそれぞれから、新たな人物の顔画像が順次検出されていき、その結果、新たな人物の顔画像が１以上含まれる時系列画像（クリップ）が得られる。

そこで、ステップＳ１４において、同一人物クラスタリング部１２は、その時系列画像（クリップ）を１つの顔クラスとして、その顔クラスに含まれる各顔画像を、複数の顔方向クラスにクラスタリングする。

ステップＳ１５において、顔検出／追跡部１１は、顔画像の検出を終了するか否かを判定する。

ステップＳ１５において、顔画像の検出をまだ終了しないと判定された場合、処理はステップＳ１１に戻され、それ以降の処理が繰り返される。即ち、顔画像の検出を終了すると判定されるまでの間、新たな人物（画像処理装置にとっての新たな人物という意味）の顔画像が検出される毎に、新たな時系列画像（クリップ）が１つずつ得られ、それぞれが異なる顔クラスとして分類される。そして、顔画像の検出が終了すると、ステップＳ１５の処理でＹＥＳであると判定されて、処理はステップＳ１６に進む。

即ち、ステップＳ１６の処理開始段階においては、異人物の各顔クラスが生成されていることになる。そこで、ステップＳ１６において、異人物間クラスタリング部１３は、異人物の各顔クラスから代表顔をそれぞれ選択し、各代表顔を、１以上の代表顔クラスにクラスタリングする。

なお、ここでいう「異人物」とは、上述したように、画像処理装置にとっての異人物という意味である。即ち、実世界上では同一人物の者が、動画コンテンツ内において時間間隔を開けて何回か登場してきたような場合、それぞれの登場シーン（1以上のフレームの集合体）から、時系列画像（クリップ）が１つずつ別々に得られ、それらの各時系列画像（クリップ）から異人物の各顔クラスがそれぞれ生成される。そして、このような異人物の各顔クラスから代表顔がそれぞれ個別に選択される。

ステップＳ１７において、クラス統合部１４は、各顔クラスと、各代表顔クラスとを統合して、人物顔データベース部１５に人物顔データベースを構築する。なお、統合の仕方の具体例については、図３を参照して説明したとおりである。

これにより、顔データベース構築処理は終了となる。即ち、図４のステップＳ１の処理は終了し、ステップＳ２以降の処理が実行される。

次に、図６乃至図８を参照して、図１の顔検出／追跡部１１の詳細について説明する。

図６は、顔検出／追跡部１１の詳細な機能的構成例を示す機能ブロック図である。

図６の例の顔検出／追跡部１１は、顔検出部１０１乃至現時刻顔追跡結果保存部１０５から構成されている。このうちの、顔検出部１０１が、顔検出処理を実行し、顔領域位置予測部１０２乃至現時刻顔追跡結果保存部１０５が、追跡処理を実行する。

顔検出部１０１に適用する顔検出手法は、特に限定されず、例えば図７と図８に示される手法、即ち、「ピクセル差分特徴を用いた実時間任意姿勢顔検出器の学習」(第10回画像センシングシンポジウム(SSII 2004)にて発表)により開示された手法を採用することができる。即ち、顔画像からピクセル差分特徴を用いて、AdaBoostによる姿勢毎の顔パターン検出器の学習を、ツリー構造に弱仮説が配置されるように行い、その学習結果を用いて画像内の顔を検出する、という手法を顔検出部１０１に適用できる。

ここに、ピクセル差分特徴とは、例えば図７に示されるように所定のピクセル（画素）の輝度値をＩ₁として別のピクセルの輝度値をＩ₂とすると、Ｉ₁−Ｉ₂の演算結果のことをいう。この場合、学習結果として、例えば図８に示されるように、顔部分（face）と非顔部分（non-face）とのそれぞれのピクセル差分特徴の頻度による分布図が得られ、この分布図から所定の閾値(Threshold)が設定される。この場合、この図８の分布図における閾値(Threshold)を用いて、顔部分（face）と非顔部分（non-face）とをそれぞれ認識していくことで、最終的に顔を検出する、という手法を顔検出部１０１に適用できる。

換言すると、かかる手法が適用された顔検出部１０１は、全ての姿勢の顔パターンを識別する弱仮説から次第に各姿勢の顔パターンを識別するように枝分かれ細分化していくツリー構造の識別器を構成するような学習を行っていき、その学習結果を用いた識別手法（例えば図８の分布図を用いた閾値(Threshold)による識別手法）に従って、各フレームから顔画像をそれぞれ検出することができる。

一方、顔の追跡手法としては例えば、図６の顔領域位置予測部１０２乃至現時刻顔追跡結果保存部１０５により実現される次のような手法を採用できる。

即ち、顔検出部１０１によって新たな人物の顔画像が検出されると、その顔画像の顔領域が初期顔領域モデルとして顔検出／追跡部１１に保存される。かかる初期顔領域モデルは、顔領域モデル読み込み部１１５によって読み込まれる。また、処理対象のフレームの時刻を現時刻とすると、現時刻の追跡結果、即ち、現時刻の顔領域の推定位置は、現時刻顔追跡結果保存部１０５に保存される。

この場合、次のフレームが処理対象となると、顔領域位置予測部１０２は、次のような処理を実行する。即ち、前時刻追跡結果読み込み部１１１は、現時刻顔追跡結果保存部１０５に直前に保存された追跡結果を、前時刻追跡結果として読み込む。すると、現時刻顔領域予測位置計算部１１３は、この前時刻追跡結果と、顔動き予測モデル読み込み部１１２によって読み込まれた顔の運動モデル（顔動き予測モデル）とに基づいて、現時刻の顔領域が存在可能な位置を予測し、その予測された各顔領域の位置（仮説）を出力する。

次に、顔領域予測評価部１０３は、次のような処理を実行する。即ち、予測領域画像分布（HSV分布）算出部１１４は、顔検出部１０１から提供される現時刻のフレームのうちの、顔領域位置予測部１０２により予測された各顔領域の位置（仮説）での色分布（HSV分布）、即ち、色ヒストグラム特性を算出する。そして、予測領域評価部１１６は、この色ヒストグラム特性を用いて、顔領域モデル読み込み部１１５によって読み込まれた初期顔領域モデルとの相似性を評価する。なお、予測領域評価部１１６は、このような処理を実行することから、相似性演算部１１６であると捉えることもできる。

次に、顔領域追跡結果推定部１０４は、次のような処理を実行する。即ち、確率演算部１１７は、顔領域予測評価部１０３による評価値によって、顔領域位置予測部１０２により予測された各顔領域の位置（仮説）の確率を算出する。最後に、追跡結果推定部１１８は、顔領域位置予測部１０２により予測された各顔領域の位置（仮説）と、その確率とを用いて、現時刻の顔領域の位置を推定し、その顔領域の推定位置を追跡結果として外部に出力する。また、この追跡結果は、現時刻顔追跡結果保存部１０５に保存され、さらに次のフレームが処理対象となると、上述したように、前時刻追跡結果として利用される。

次に、図９乃至図１１を参照して、図１の代表顔選択部３１に適用可能な代表顔の選択手法の一例について説明する。

図９は、代表顔として、正面顔の顔画像が選択された場合の一例を示している。なお、正面顔が代表顔として選択される理由は、クラスタリングが行いやすいからである。

図９の例では、フレーム番号がKL（K，Lはそれぞれ独立した任意の整数値）である各フレームから検出された顔画像が、符号TKLの下方に図示されている。そこで、以下、符号TKLの下方に示された顔画像TKLと称する。

図９の例では、同一人部顔クラス生成部２１（図１）によって、顔画像T00乃至T12からなる時系列画像（クリップ）が顔クラスS01として分類され、顔画像T20乃至T27からなる時系列画像（クリップ）が顔クラスS02として分類され、また、顔画像T40乃至T44からなる時系列画像（クリップ）が顔クラスS03として分類されている。

この場合、図９の各白抜き矢印で示されるように、代表顔選択部３１は、顔クラスS01からは顔画像T00，T09を正面顔として検出し、顔クラスS02からは顔画像T24を正面顔として検出し、かつ、顔クラスS03からは顔画像T40を正面顔として検出することができる。

図１０，図１１は、このような正面顔を検出するための簡単な手法の一例を示す図である。

図１０，図１１における各白丸は、顔の各パーツ、具体的には両目、鼻、または口の検出結果を示している。即ち、代表顔検出部３１は、各顔画像から、両目、鼻、または口の端を点（白丸）として検出し、それらの各点の距離、即ち、対応する各パーツ間の相対位置（距離）を演算し、その演算結果に基づいて、正面顔であるのか否かを判定することで、正面顔の検出ができる。

このような選択手法が適用された代表顔選択部３１によって検出された各正面顔は、選択された代表顔として、上述したように、図１の顔特徴量解析／評価部３２と人物顔クラスタリング部３３により、自動的にクラスタリングされる。この場合、適切なクラスタリングを行うためには、正面顔の画像特徴を固有空間法によって抽出し、更に照明影響などを低減することが必要であり、そのためには、適切な顔特徴ベクトルを選択する必要があると考えられる。そこで、本発明人は、幾つかの顔データベースを用いて、顔特徴ベクトルの解析と評価を実際に行うことで、クラスタリングに適した顔特徴ベクトルの検討を行った。以下、その検討結果について説明する。

なお、図示はしないが、顔特徴ベクトルの解析と評価を行うために利用された顔データベースとしては、次のような４つのデータベースが使用されたとする。

即ち、第１のデータベースとは、実世界上の１以上の人物をそれぞれ撮影する場合に、様々な表情をしてもらいつつ撮影し、各撮影の結果得られた各顔画像が含まれるデータベースである。以下、第１のデータベースを、表情変化データベースと称する。

第２のデータベースとは、実世界上の１以上の人物をそれぞれ撮影する場合に、様々な照明設定をそれぞれ行いつつ撮影し、各撮影の結果得られた各顔画像が含まれるデータベースである。以下、第２のデータベースを、照明変化データベースと称する。

第３のデータベースとは、実世界上の１以上の人物をそれぞれ撮影する場合に、様々なポーズをそれぞれとってもらいつつ撮影し、各撮影の結果得られた各顔画像が含まれるデータベースである。以下、第３のデータベースを、ポーズ変化データベースと称する。

第４のデータベースとは、実際の映画やドラマ等の動画コンテンツに対して顔検出／追跡部１１（図１）の検出処理と追跡処理が施され、その結果得られた１以上の時系列画像（クリップ）が含まれる顔データベースである。以下、第４のデータベースを、実コンテンツデータベースと称する。

本発明人は、先ず、各顔特徴ベクトルを抽出する手法としては、PCA/KPCAの手法が好適であると判断した。その判断理由は、人物顔データベース構築部２は教師なしでクラスタリングを行うことから、教師なしで顔特徴ベクトルを求める必要があり、このためには、PCA/KPCAの手法が好適だからである。

そこで、本発明人は、上述した各種データベースを用いて、PCA/KPCAの手法に従った各顔特徴ベクトルの抽出を実際に行った。

具体的には例えば、図１２には、表情変化データベースに含まれる顔画像から、PCA/KPCA手法により顔特徴ベクトルが抽出された結果の一例、即ち、顔特徴ベクトルの各次元のそれぞれの要素を示す各固有顔の一例が示されている。

図１３には、照明変化データベースに含まれる顔画像から、PCA/KPCA手法により顔特徴ベクトルが抽出された結果の一例、即ち、顔特徴ベクトルの各次元のそれぞれの要素を示す各固有顔の一例が示されている。

図１４には、ポーズ変化データベースに含まれる顔画像から、PCA/KPCA手法により顔特徴ベクトルが抽出された結果の一例、即ち、顔特徴ベクトルの各次元のそれぞれの要素を示す各固有顔の一例が示されている。

図１５には、実コンテンツデータベースに含まれる顔画像から、PCA/KPCA手法により顔特徴ベクトルが抽出された結果の一例、即ち、顔特徴ベクトルの各次元のそれぞれの要素を示す各固有顔の一例が示されている。

そして、本発明人は、このようにしてPCA/KPCAの手法に従って得られた様々な顔特徴ベクトルを用いて、実際に顔認識を行い、その性能評価を行った。

ここで、性能評価の結果を説明する前に、性能評価の結果を理解するための前提となる技術、即ち、PCA手法による顔認識の技術について、図１６を参照してその概要を簡単に説明する。なお、説明の簡略上、動作主体は単に装置と称する。

装置は、データベースまたは顔検出によって得られた複数人物のN枚（Nは1以上の整数値）の顔画像をトレーニングサンプルとして利用する。装置は、それらのトレーニングサンプルの大きさや傾きを整えるように正規化処理を行い、また、平均顔画像μを生成する。そして、装置は、正規化後の各トレーニング顔画像xi(i=1,2,……,N)と平均顔画像μとの差分画像を生成し、さらに、次式（１）に示される共分散行列Ｓを算出する。

最後に、装置は、この共分散行列Ｓから、顔の固有ベクトルと固有値を計算し、固有値の大きさの順番付けを行う。

これにより、顔の認識処理を行うための準備が整うことになる。さらに、以下、顔の認識処理例の概略について説明する。

装置は、共分散行列Ｓから計算された顔の固有ベクトルと固有値とを用いて、顔クラスデータベース等に保持された各人物の顔画像（各人物顔クラス）の顔特徴を固有空間に射影することで、それぞれの人物顔クラスの顔特徴ベクトルを求める。図１５の例では、人物顔クラスはＬ（Lは１以上の整数値）クラス存在し、それゆえＬ個の顔特徴ベクトルPM1乃至PMLが求められている。

一方、装置は、認識対象顔画像に対して、大きさと傾きについての正規化処理を行い、上述した平均顔画像μとの差分画像を生成し、その差分画像を用いて、認識対象顔画像の顔特徴ベクトルPtestを求める。

そして、装置は、認識対象顔画像の顔特徴ベクトルPtestに対する、各人物顔クラスの顔特徴ベクトルPM1乃至PMLの各距離評価値をそれぞれ演算し、距離評価値が最も小さい顔特徴ベクトルPMK（Kは１乃至Lのうちの何れかの値）を有する人物顔クラスが、認識対象顔画像のクラスであると判定し、その判定結果を認識結果として出力する。

このようなPCA手法と、KPCA手法との違いは次の通りである。即ち、PCA手法とは、上述したように、顔画像を線形射影によって固有顔の特徴空間に射影する手法である。これに対して、KPCA手法は、カーネルトリックを用いて、顔画像を別の空間にマッピングすることによって、非線形空間問題を線形空間問題として取り扱うことができる手法である。換言すると、PCA手法がKPCA手法の特例として考えられる。そこで、以下、PCA手法も含めて、単にKPCA手法として説明していく。

このKPCA手法ではカーネルトリックが必要である。このカーネルトリックとしては、一般的に次式（２）に示されるPoly (polynomial)と、次式（３）に示されるRBF (Gaussian Radial Basis Function Kernel)がよく使われている。

そこで、本発明人は、これら２つのカーネルトリックのそれぞれについて、各式（２），（３）における各パラメータｄ，σのそれぞれを変化させた場合の顔認識の性能評価を行った。その性能評価の結果が、図１７乃至図１９のそれぞれに示されている。

図１７は、照明変化データベースによる性能評価結果を示している。図１８は、表情変化データベースによる性能評価結果を示している。図１９は、ポーズ変化データベースによる性能評価結果を示している。

図１７乃至図１９において、縦軸が顔認識の正解率（％）を示し、横軸のうちの左半分がPolyのパラメータdを示し、横軸のうちの右半分がRBFのパラメータσを示している。

また、L1で示される線は、顔特徴ベクトルの距離評価として絶対距離を使用した場合の性能評価結果を示している。L2で示される線は、顔特徴ベクトルの距離評価として絶対距離の二乗を使用した場合の性能評価結果を示している。Cosで示される線は、顔特徴ベクトルの距離評価としてCosign値（余弦値）を使用した場合の性能評価結果を示している。L1Wで示される線は、顔特徴ベクトルの距離評価として絶対距離を重み付けした値を使用した場合の性能評価結果を示している。CosWで示される線は、顔特徴ベクトルの距離評価としてCosign（余弦値）を重み付けした値を使用した場合の性能評価結果を示している。Mahaで示される線は、顔特徴ベクトルの距離評価としてMaha距離を使用した場合の性能評価結果を示している。

図１７乃至図１９の性能評価結果からわかるように、PolyやRBFといったカーネルトリックのタイプによっては正解率の違いはそれほど顕著に表れない。また、Polyを用いる場合にはパラメータdとしては、0.4＜d＜１程度が適切であり、全てのデータベースのテストデータに対して、d=0.8場合には高い正解率、即ち、良い認識結果が得られている。また、RBFを用いる場合には、パラメータσとしては、1.5＜σ＜10.0程度が適切である。

そこで、本発明人は、パラメータd=0.8のPolyによるKPCA手法を利用して、顔認識の試み、即ち、顔特徴ベクトルの解析と評価を行った。その評価結果が、図２０，図２１に示されている。即ち、図２０には、各条件の顔認識の正解率が示されている。図２１には、照明変化データベースを利用して、４０次元の顔特徴ベクトルのうちの、全次元を使用した場合(１〜４０次元を使用した場合)と、最初の３次元を除外した場合（４〜４０次元を使用した場合）とのそれぞれについての顔認識の正解率とiteration（クラスタリング結果）とが示されている。なお、図２０，図２１のそれぞれとも、顔特徴ベクトルの距離評価として絶対距離の二乗を使用した場合の結果が示されている。

図２０，図２１から、顔特徴ベクトルのうちの最初の３次元程度を除外して顔認識やクラスタリングを行った方が、良い結果が得られることがわかる。このことは、照明変化データベースを用いた場合に顕著なものとなっている。その理由は、次の通りである。即ち、例えば図１３の左上の３つの固有顔が、顔特徴ベクトルのうちの最初の３次元に対応しており、他の固有顔に比較して照明影響を多く受けていることがわかる。このように、顔特徴ベクトルのうちの最初の３次元程度は照明影響を受けやすく安定性がよくないため、これらの最初の３次元程度を除外して顔認識やクラスタリングを行った方が、良い結果が得られるのである。

以上の図１７乃至図２１を用いて説明した検討結果をまとめると、次のようになる。

即ち、図１の顔特徴量解析／評価部３２は、後段の人物顔クラスタリング部３３による教師無しのクラスタリングに適した顔特徴ベクトルを抽出する必要がある。かかる抽出手法としては、PCA手法も含めて、KPCA手法が好適である。

また、教師無しのクラスタリングに適した顔特徴ベクトルとしては、KPCA手法によって実際の顔認識を行ったときに認識結果が良い顔特徴ベクトルを適用すればよい。具体的には、図１の顔特徴量解析／評価部３２は、上述した検討結果から、次のような顔特徴ベクトルを抽出すれば好適である。即ち、カーネルトリックのタイプとしてはPolyとRBFとの何れを採用してもよいが、前者のPolyを採用する場合にはパラメータdとしては、0.4＜d＜１程度を採用した顔特徴ベクトルが好適であり、一方、後者のRBFを採用する場合には、パラメータσとしては、1.5＜σ＜10.0程度を採用した顔特徴ベクトルが好適である。また、抽出後の顔特徴ベクトルの解析や評価、さらには、その評価に基づくクラスタリングを行う場合には、顔特徴ベクトルの全次元を使用するのではなく、最初の２乃至３次元程度を除外して使用すると好適である。

以上の内容、即ち、検討結果をまとめた内容は、図１の同一人物クラスタリング部１２の顔特徴量解析／評価部２２についても当てはまる。

次に、本発明人は、図１の人物顔クラスタリング部２３，３３に採用するクラスタリング手法として好適な手法を見つけるべく、４つのクラスタリング手法、即ち、GMM手法、KMeans手法、FCM（Fuzzy C-Means）手法、および、AFCM（Alternative Fuzzy C-Means）手法のそれぞれを実際に用いたクラスタリングを行った。条件としては、１０枚の顔画像のそれぞれから、パラメータd=0.8のPolyのKPCA手法により顔特徴ベクトルを抽出し、それらの顔特徴ベクトルのうちの最初の３次元を除外したものを利用して、１０クラスにクラスタリングする、という条件が採用された。そのクラスタリングの結果が図２２に示されている。

図２２の結果から、図１の人物顔クラスタリング部２３，３３に採用するクラスタリング手法としては、AFCM手法が好適であることがわかる。

そこで、本発明人は、さらに、図２３に示されるような異人物の時系列画像（クリップ）のそれぞれを、１つのクラスのみ（顔クラスのみ）に分類した場合のクラスタリングと、３つのクラスに分類した場合（１つの顔クラスをさらに３つの顔方向クラスに分類した場合）のクラスタリングとを、AFCM手法に従ってそれぞれ行った。前者の結果、即ち、１つのクラスのみ（顔クラスのみ）に分類した場合のクラスタリングの結果が、図２４に示されている。一方、３つのクラスに分類した場合（１つの顔クラスをさらに３つの顔方向クラスに分類した場合）のクラスタリングの結果が、図２５に示されている。

なお、ここでいう「異人物」とは、上述したように、画像処理装置にとって「異人物」と判断されたという意味であり、実世界上では同一人物である場合もある。このことは、以下の図２４，図２５を用いた説明でも同様とする。同様に、以下の図２４，図２５を用いた説明でいう「同一人物」とは、上述したように、画像処理装置にとって「同一人物」と判断されたという意味である。

また、以下の説明では、「顔クラス」という語句を使用し、それからさらに分類された３つの顔方向クラスとして、「第１の顔方向クラス」、「第２の顔方向クラス」、および「第３の顔方向クラス」という語句を使用する。

具体的には、図２４のグラフは、所定の人物の顔クラスの中心顔（平均顔画像）に対する各顔画像の距離の分布図を示しており、点線が、所定の人物と同一人物の顔クラスに属する各顔画像の分布を示しており、実線が、所定の人物とは別人物の顔クラスに属する顔画像を示している。

また、図２５の左のグラフは、所定の人物の第１の顔方向クラスの中心顔（平均顔画像）に対する各顔画像の距離の分布図を示しており、点線が、所定の人物と同一人物の第１の顔方向クラスに属する各顔画像の分布を示しており、実線が、所定の人物とは別人物の第１の顔方向クラスに属する顔画像を示している。図２５の中央のグラフは、所定の人物の第２の顔方向クラスの中心顔（平均顔画像）に対する各顔画像の距離の分布図を示しており、点線が、所定の人物と同一人物の第２の顔方向クラスに属する各顔画像の分布を示しており、実線が、所定の人物とは別人物の第２の顔方向クラスに属する顔画像を示している。図２５の右のグラフは、所定の人物の第３の顔方向クラスの中心顔（平均顔画像）に対する各顔画像の距離の分布図を示しており、点線が、所定の人物と同一人物の第３の顔方向クラスに属する各顔画像の分布を示しており、実線が、所定の人物とは別人物の第３の顔方向クラスに属する顔画像を示している。

理想を言えば、各グラフの横軸において、点線と実線とが重なる範囲（距離）が無いことが望ましい。また、点線と実線とが重なっていても、その範囲内での実線が示す顔画像数は多くないことが望ましい。換言すると、点線と実線とが重なるということは、その重なった範囲内の距離を有する顔画像としては、所定の人物のクラスに分類されるべき顔画像（点線）も存在するし、その所定の人物とは異なる人物のクラスに分類されるべき顔画像（実線）も存在することを意味する。従って、点線と実線とが重なっていて、その範囲内での実線が示す顔画像数が多いということは、その重なっている範囲内の距離を有する顔画像がクラスタリングの対象となる場合には、クラスタリングの精度が悪くなることを意味している。このような観点からすると、図２４の結果より、図２５の結果の方が、より良いクラスタリング結果が得られていることになる。より正確に言えば、第３の顔方向クラスを用いたクラスタリング（図２５の右のグラフ）が最も良い結果が得られていることになる。

即ち、同一人物の時系列画像(クリップ)を、そのまま１つの顔クラスとしてクラスタリングを行うより、その顔クラスをさらに複数のクラス（ここでは顔方向クラス）に分け、それらの複数のクラスを用いてクラスタリングを行う方が、より良いクラスタリング結果が得られることになる。このことが、図１の同一人物クラスタリング部１２が、同一人物顔クラス生成部２１のみならず、顔特徴量解析／評価部２２と人物顔クラスタリング部２３とを有している理由である。

さらに、本発明人は、人物顔データベースを利用した顔認識に対して適用可能な顔認識手法、即ち、図１の顔認識部３に適用可能な顔認識新手法として、好適な手法について検討した。以下、その検討結果について説明する。

具体的には、顔認識手法としては、固有空間法による手法が多く提案されており、本発明人は、そのうちの、KPCA(Kernel Principle Component Analysis)、GDA(Generalized Discriminant Analysis)、FisherFace(PCA+LDA：Linear Discriminant Analysis)、KDDA（Kernel Direct Discriminant Analysis）、DiffPCA(Differential PCA)の各手法に従った、照明変化データベースに含まれる顔画像の顔認識と、ポーズ変化データベースに含まれる顔画像の顔認識とを行った。

前者の結果、即ち、照明変化データベースによる顔認識結果が図２６に示されている。また、後者の結果、即ち、ポーズ変化データベースによる顔認識結果が図２７に示されている。

図２６と図２７に示されるように、GDA手法による顔認識結果が最もよいと確認できた。換言すると、人物顔データベースを利用した顔認識に対して適用可能な顔認識手法としては、即ち、図１の顔認識部３に適用可能な顔認識新手法としては、GDA手法が好適であることを確認できた。

そこで、本発明人は、上述した各種手法のうちの、好適であると確認できた各種手法を図１の画像処理装置に適用して、実世界上の１４人の人物が登場する実際のリアルデータを動画コンテンツとして用いて、その画像処理装置に図４の人物特定処理を実行させた。具体的には、人物顔データベース構築部２が、この動画コンテンツから、５５３枚の顔画像を検出し、それらの顔画像から、パラメータd=0.8のPolyのKPCA手法により顔特徴ベクトルを抽出し、それらの顔特徴ベクトルのうちの最初の３次元を除外したものを利用してクラスタリングした結果、５５３枚の顔画像は、２１のクラスにそれぞれ分類された。この分類結果と、発明人の目測による手動クラスタリングの結果とを比較すると、その一致率は、83.1％であった。即ち、後者の手動クラスタリングの結果を正とすると、83.1％の顔画像が正しくクラスタリングされたことになる。そして、このクラス分類結果を人物顔データベースとして人物顔データベース部１５に構築させた後、顔認識部３が、GDA手法による顔認識処理を行うと、約88％の認識率が得られることがわかった。

なお、代表顔選択部３１の代わりに手動で代表顔を選択してクラス分類を行い、そのクラス分類の結果を人物顔データベースとして人物顔データベース部１５に構築させた後、顔認識部３が、GDA手法による顔認識処理を行うと、約90％の認識率が得られることも確認できた。従って、代表顔選択部３１の代表顔の選択の精度を向上させ、後段のクラスタリング処理がうまく実行させることで、さらに一段と高い認識率を得ることも可能になる。

以上説明した図１の画像処理装置等で実現される本発明の画像処理装置は、上述したように様々な効果を有している。ここで、これらの効果をまとめると次のようになる。

即ち、顔の検出処理と追跡処理により同一人物の顔クラスが生成され、一方、例えば正面顔が代表顔として選択されて異人物間のクラスタリングが行われて代表顔クラスが生成され、この顔クラスと代表顔クラスとが統合されるので、その結果、教師無しの顔クラス分類が実現できる、という効果を奏することが可能になる。

また、教師無しのクラスタリングにより構築された人物顔データベースを用いることで、動画コンテンツに登場している人物の顔認識が可能となるので、その結果、その人物が出演している別の動画コンテンツを検索したり、推薦する等の応用的な使用が実現できる、という効果を奏することが可能になる。

さらにまた、Webページ上のテキストファイル情報等を外部情報として取得して利用することで、顔認識がなされた（クラスが特定された）顔画像の人物が誰なのかを特定することもできる、という効果を奏することが可能になる。

換言すると、教師無しのクラスタリングを用いて人物の認識や特定ができるということは、データベースとして事前登録されていない映画やドラマ等に出演している人物の認識や特定もできることを意味している。即ち、ユーザにとっては、例えば、映画やドラマ等を視聴している最中に「気になる人物」が登場したタイミングでボタンを押下する等の「人の直感的な感覚」による操作を行うだけで、事前にデータベースが構築されてなくとも、その映画やドラマ等からデータベースが自動的に構築されて、その自動的に構築されたデータベースを用いて「気になる人物」の認識や特定が自動的に行われる。その結果、ユーザは、「気になる人物」の情報を、その映画やドラマ等の視聴中に取得できるようになる。このように、本発明を適用することで、より効率よく動画コンテンツを管理し取り扱えるようになるので、ユーザにとっては、人の直感的な感覚で動画コンテンツを取り扱えるようになる。換言すると、本発明は、人の直感的な感覚で動画コンテンツを取り扱えるように、より効率よく動画コンテンツを管理し取り扱うための映像解析技術を提供できる、という効果を奏することが可能になる。

なお、教師無しのクラスタリングでは、KPCA手法による顔特徴ベクトルの適用が効果的であることを本発明人が明らかにしたことは、上述した通りである。また、照明影響を除くため、顔特徴ベクトルの最初の２乃至３次元を除いたものを利用することで、より良いクラスタリング結果を得ることが可能になることも、上述した通りである。

ところで、上述した一連の処理は、ハードウエアにより実行させることもできるし、ソフトウエアにより実行させることもできる。一連の処理をソフトウエアにより実行させる場合には、そのソフトウエアを構成するプログラムが、専用のハードウエアに組み込まれているコンピュータ、または、各種のプログラムをインストールすることで、各種の機能を実行することが可能な、例えば汎用のパーソナルコンピュータなどに、プログラム記録媒体からインストールされる。

図２８は、上述した一連の処理をプログラムにより実行するパーソナルコンピュータの構成の例を示すブロック図である。即ち、図１の画像処理装置の全部または一部分、例えば幾つかの機能ブロックを、図２８のように構成することもできる。

図２８において、CPU（Central Processing Unit）２０１は、ROM（Read Only Memory）２０２、または記憶部２０８に記憶されているプログラムに従って各種の処理を実行する。RAM（Random Access Memory）２０３には、CPU２０１が実行するプログラムやデータなどが適宜記憶される。これらのCPU２０１、ROM２０２、およびRAM２０３は、バス２０４により相互に接続されている。

CPU２０１にはまた、バス２０４を介して入出力インタフェース２０５が接続されている。入出力インタフェース２０５には、キーボード、マウス、マイクロホンなどよりなる入力部２０６、ディスプレイ、スピーカなどよりなる出力部２０７が接続されている。CPU２０１は、入力部２０６から入力される指令に対応して各種の処理を実行する。そして、CPU２０１は、処理の結果を出力部２０７に出力する。

入出力インタフェース２０５に接続されている記憶部２０８は、例えばハードディスクからなり、CPU２０１が実行するプログラムや各種のデータを記憶する。通信部２０９は、インターネットやローカルエリアネットワークなどのネットワークを介して外部の装置と通信する。

また、通信部２０９を介してプログラムを取得し、記憶部２０８に記憶してもよい。

入出力インタフェース２０５に接続されているドライブ２１０は、磁気ディスク、光ディスク、光磁気ディスク、或いは半導体メモリなどのリムーバブルメディア２１１が装着されたとき、それらを駆動し、そこに記録されているプログラムやデータなどを取得する。取得されたプログラムやデータは、必要に応じて記憶部２０８に転送され、記憶される。

コンピュータにインストールされ、コンピュータによって実行可能な状態とされるプログラムを格納するプログラム記録媒体は、図２８に示されるように、磁気ディスク（フレキシブルディスクを含む）、光ディスク（CD-ROM(Compact Disc-Read Only Memory),DVD(Digital Versatile Disc)を含む）、光磁気ディスク、もしくは半導体メモリなどよりなるパッケージメディアであるリムーバブルメディア２１１、または、プログラムが一時的もしくは永続的に格納されるROM２０２や、記憶部２０８を構成するハードディスクなどにより構成される。プログラム記録媒体へのプログラムの格納は、必要に応じてルータ、モデムなどのインタフェースである通信部２０９を介して、ローカルエリアネットワーク、インターネット、デジタル衛星放送といった、有線または無線の通信媒体を利用して行われる。

なお、本明細書において、プログラム記録媒体に格納されるプログラムを記述するステップは、記載された順序に沿って時系列的に行われる処理はもちろん、必ずしも時系列的に処理されなくとも、並列的あるいは個別に実行される処理をも含むものである。

また、本明細書において、システムとは、複数の装置または回路により構成される装置または回路全体を表すものである。

本発明が適用される画像処理装置の機能的構成例を示す機能ブロック図である。図１の人物顔データベース構築部の動作例の概略を説明する図である。図１の人物顔データベース構築部により構築される人物顔データベースの構造例を示す図である。図１の画像処理装置が実行する人物特定処理例を説明するフローチャートである。図４のステップＳ１の顔データベース構築処理の詳細例を説明するフローチャートである。図１の顔検出／追跡部の詳細な機能的構成例を示す機能ブロック図である。図６の顔検出部の動作例の概略を説明する図である。図６の顔検出部の動作例の概略を説明する図である。図１の代表顔選択部に適用可能な代表顔の選択手法の一例について説明する図である。図１の代表顔選択部に適用可能な代表顔の選択手法の一例について説明する図である。図１の代表顔選択部に適用可能な代表顔の選択手法の一例について説明する図である。表情変化データベースに含まれる顔画像から、PCA/KPCA手法により顔特徴ベクトルが抽出された結果の一例を示す図である。照明変化データベースに含まれる顔画像から、PCA/KPCA手法により顔特徴ベクトルが抽出された結果の一例を示す図である。ポーズ変化データベースに含まれる顔画像から、PCA/KPCA手法により顔特徴ベクトルが抽出された結果の一例を示す図である。実コンテンツデータベースに含まれる顔画像から、PCA/KPCA手法により顔特徴ベクトルが抽出された結果の一例を示す図である。 PCA手法による顔認識の概要について説明する図である。 KPCA手法で用いられるカーネルトリックであるPolyとRBF のそれぞれについて、照明変化データベースを対象として、パラメータｄ，σのそれぞれを変化させた場合の顔認識の性能評価結果例を示す図である。 KPCA手法で用いられるカーネルトリックであるPolyとRBF のそれぞれについて、表情変化データベースを対象として、パラメータｄ，σのそれぞれを変化させた場合の顔認識の性能評価結果例を示す図である。 KPCA手法で用いられるカーネルトリックであるPolyとRBF のそれぞれについて、ポーズ変化データベースを対象として、パラメータｄ，σのそれぞれを変化させた場合の顔認識の性能評価結果例を示す図である。パラメータd=0.8のPolyによるKPCA手法を利用した顔特徴ベクトル解析と評価の結果例を示す図である。パラメータd=0.8のPolyによるKPCA手法を利用した顔特徴ベクトル解析と評価の結果例を示す図である。図１の人物顔クラスタリング部に採用するクラスタリング手法として好適な手法を見つけるべく、４つのクラスタリング手法、即ち、GMM手法、KMeans手法、FCM手法、および、AFCM手法のそれぞれを実際に用いたクラスタリングを行った結果の一例を示す図である。 AFCM手法のクラスタリングを実際に行なった際に利用した時系列画像の一例を示す図である。図２３に示される異なる時系列画像から検出された同一人物の顔画像について、１つのクラスのみに分けた場合のAFCM手法によるクラスタリングの結果の一例を示す図である。図２３に示される異なる時系列画像から検出された同一人物の顔画像について、３つのクラスに分けた場合のAFCM手法によるクラスタリングの結果の一例を示す図である。図１の顔認識部に採用する顔認識手法として好適な手法を見つけるべく、５つの手法、即ち、KPCA手法、GDA手法、FisherFace手法、KDDA手法、およびDiffPCA手法のそれぞれを実際に用いて、照明変化データベースに含まれる顔画像の顔認識を行った結果の一例を示している。図１の顔認識部に採用する顔認識手法として好適な手法を見つけるべく、５つの手法、即ち、KPCA手法、GDA手法、FisherFace手法、KDDA手法、およびDiffPCA手法のそれぞれを実際に用いて、ポーズ変化データベースに含まれる顔画像の顔認識を行った結果の一例を示している。本発明が適用される画像処理装置としてのパーソナルコンピュータの構成例を示すブロック図である。

符号の説明

１動画コンテンツ入力部，２人物顔データベース構築部，３顔認識部，１１顔検出／追跡部，１２同一人物クラスタリング部，１３異人物間クラスタリング部，１４クラス統合部，１５人物顔データベース部，２１同一人物顔クラス生成部，２２顔特徴量解析／評価部，２３人物顔クラスタリング部，３１代表顔選択部，３２顔特徴量解析／評価部，３３人物顔クラスタリング部，４１認識対象顔検出部，４２認識対象顔クラス特定部，４３外部情報取得部，４４人物特定部，２０１ CPU，２０２ ROM，２０８記憶部，２１１リムーバブルメディア

Claims

動画像に対して画像処理を施す画像処理装置において、
前記動画像から、新たな人物の顔を検出する毎に、その新たな人物の顔の追跡を行うことで、時間的に連続した追跡範囲に含まれる１以上の顔画像からなる時系列画像を１以上検出する人物顔検出追跡手段と、
前記人物顔検出追跡手段により検出された前記１以上の時系列画像のそれぞれについて、異なるクラスを１つずつ生成する同一人物クラス生成手段と、
前記同一人物クラス生成手段により生成された所定のクラスに含まれる前記１以上の顔画像のそれぞれについて、対応する顔特徴量をそれぞれ解析して評価する同一人物顔特徴量解析評価手段と、
前記同一人物顔特徴量解析評価手段による前記１以上の顔特徴量の解析と評価の結果に基づいて、前記同一人物クラス生成手段により生成された前記所定のクラスに含まれる前記１以上の顔画像を、さらに第１乃至の顔方向クラス乃至第３の顔方向クラスにクラスタリングする同一人物顔クラスタリング手段と、
前記人物顔検出追跡手段により検出された前記１以上の時系列画像のそれぞれから、顔の構成要素を１以上検出し、１以上の前記構成要素の位置関係に基づいて顔の方向を推定し、その推定結果に基づいて正面顔か否かを判定し、正面顔と判定された顔画像を前記代表顔としてそれぞれ選択する代表顔選択手段と、
前記代表顔選択手段により選択された前記１以上の代表顔のそれぞれについて、対応する顔特徴量をそれぞれ解析して評価する代表顔特徴量解析評価手段と、
前記代表顔特徴量解析評価手段による前記１以上の顔特徴量の解析と評価の結果に基づいて、前記代表顔選択手段により選択された前記１以上の代表顔を、第１乃至の顔方向クラス乃至第３の顔方向クラスにクラスタリングする代表顔クラスタリング手段と、
前記同一人物クラス生成手段により生成されたクラスと、前記代表顔クラスタリング手段のクラスタリングにより得られたクラスとからなる各クラスうちの、実世界上では同一人物であると判断される１以上のクラスを関連付けることで、前記各クラスの統合を行う統合手段と、
前記統合手段の統合結果に基づいて、認識対象の新たな顔画像のクラスを特定することで、前記新たな顔画像の認識を行う顔認識手段と
を備える画像処理装置。
前記代表顔クラスタリング手段、前記同一人物クラス生成手段、および、前記同一人物顔クラスタリング手段のそれぞれは、さらに、生成またはクラスタリングの結果得られた各クラスのそれぞれに対してラベルを付す
請求項１に記載の画像処理装置。
前記顔認識手段は、前記統合手段により統合された前記各クラスのうちの、前記新たな顔画像の顔特徴量と最も類似する顔特徴量を有する顔画像が属するクラスを、前記新たな顔画像のクラスとして特定する
請求項１に記載の画像処理装置。
前記代表顔特徴量解析評価手段は、所定の顔画像を特徴空間に射影することで得られる特徴ベクトルのうちの、所定の次元を１以上除外した結果得られるベクトルを、前記所定の顔画像に対応する前記顔特徴量として利用する
請求項１に記載の画像処理装置。
動画像に対して画像処理を施す画像処理装置の画像処理方法において、
前記動画像から、新たな人物の顔を検出する毎に、その新たな人物の顔の追跡を行うことで、時間的に連続した追跡範囲に含まれる１以上の顔画像からなる時系列画像を１以上検出し、
前記検出された前記１以上の時系列画像のそれぞれについて、異なるクラスを１つずつ生成し、
前記同一人物クラス生成手段により生成された所定のクラスに含まれる前記１以上の顔画像のそれぞれについて、対応する顔特徴量をそれぞれ解析して評価し、
前記１以上の顔特徴量の解析と評価の結果に基づいて、前記生成された前記所定のクラスに含まれる前記１以上の顔画像を、さらに第１乃至の顔方向クラス乃至第３の顔方向クラスにクラスタリングし、
前記検出された前記１以上の時系列画像のそれぞれから、顔の構成要素を１以上検出し、１以上の前記構成要素の位置関係に基づいて顔の方向を推定し、その推定結果に基づいて正面顔か否かを判定し、正面顔と判定された顔画像を前記代表顔としてそれぞれ選択し、
前記選択された前記１以上の代表顔のそれぞれについて、対応する顔特徴量をそれぞれ解析して評価し、
前記１以上の顔特徴量の解析と評価の結果に基づいて、前記選択された前記１以上の代表顔を、第１乃至の顔方向クラス乃至第３の顔方向クラスにクラスタリングし、
前記生成されたクラスと、前記クラスタリングにより得られたクラスとからなる各クラスうちの、実世界上では同一人物であると判断される１以上のクラスを関連付けることで、前記各クラスの統合を行い、
前記統合結果に基づいて、認識対象の新たな顔画像のクラスを特定することで、前記新たな顔画像の認識を行う
ステップを含む画像処理方法。
動画像に対する画像処理を制御するコンピュータに実行させるプログラムであって、
前記動画像から、新たな人物の顔を検出する毎に、その新たな人物の顔の追跡を行うことで、時間的に連続した追跡範囲に含まれる１以上の顔画像からなる時系列画像を１以上検出し、
前記検出された前記１以上の時系列画像のそれぞれについて、異なるクラスを１つずつ生成し、
前記同一人物クラス生成手段により生成された所定のクラスに含まれる前記１以上の顔画像のそれぞれについて、対応する顔特徴量をそれぞれ解析して評価し、
前記１以上の顔特徴量の解析と評価の結果に基づいて、前記生成された前記所定のクラスに含まれる前記１以上の顔画像を、さらに第１乃至の顔方向クラス乃至第３の顔方向クラスにクラスタリングし、
前記検出された前記１以上の時系列画像のそれぞれから、顔の構成要素を１以上検出し、１以上の前記構成要素の位置関係に基づいて顔の方向を推定し、その推定結果に基づいて正面顔か否かを判定し、正面顔と判定された顔画像を前記代表顔としてそれぞれ選択し、
前記選択された前記１以上の代表顔のそれぞれについて、対応する顔特徴量をそれぞれ解析して評価し、
前記１以上の顔特徴量の解析と評価の結果に基づいて、前記選択された前記１以上の代表顔を、第１乃至の顔方向クラス乃至第３の顔方向クラスにクラスタリングし、
前記生成されたクラスと、前記クラスタリングにより得られたクラスとからなる各クラスうちの、実世界上では同一人物であると判断される１以上のクラスを関連付けることで、前記各クラスの統合を行い、
前記統合結果に基づいて、認識対象の新たな顔画像のクラスを特定することで、前記新たな顔画像の認識を行う
ステップを含むプログラム。