JP5910631B2

JP5910631B2 - 情報処理装置、情報処理方法および情報処理プログラム

Info

Publication number: JP5910631B2
Application number: JP2013516474A
Authority: JP
Inventors: 昭裕早坂; 仁今岡
Original assignee: NEC Corp
Current assignee: NEC Corp
Priority date: 2011-05-24
Filing date: 2012-05-24
Publication date: 2016-04-27
Anticipated expiration: 2032-05-24
Also published as: JPWO2012161346A1; WO2012161346A1; US20140093142A1; EP2717223A1; EP2717223A4

Description

本発明は、顔画像の照合技術に関する。

非特許文献１は、正面を向いていない人物の顔を表す画像（顔画像）を基に、その人物を正面から見た状態を表す顔画像を合成し、合成した顔画像に一般的な正面顔照合アルゴリズムを適用する手法を開示している。
しかし、非特許文献１に記載された技術においては、基となる顔画像が正面に対してなす角度が大きい場合に、正面を向いた顔画像を正しく合成できない場合がある。この問題を解決するため、非特許文献２では、人物の顔に関する細かい角度ごとの統計モデルを利用することにより、顔画像の照合結果を学習により統合している。

ＴｉｎｇＳｈａｎ，Ｌｏｖｅｌｌ，Ｂ．Ｃ．，ＳｈａｏｋａｎｇＣｈｅｎ，″ＦａｃｅＲｅｃｏｇｎｉｔｉｏｎＲｏｂｕｓｔｔｏＨｅａｄＰｏｓｅｆｒｏｍＯｎｅＳａｍｐｌｅＩｍａｇｅ，″ＩＣＰＲ２００６．ＦｕＪｉｅＨｕａｎｇ，ＺｈｉｈｕａＺｈｏｕ，Ｈｏｎｇ−ＪｉａｎｇＺｈａｎｇ，ＴｓｕｈａｎＣｈｅｎ，″Ｐｏｓｅｉｎｖａｒｉａｎｔｆａｃｅｒｅｃｏｇｎｉｔｉｏｎ，″ＡｕｔｏｍａｔｉｃＦａｃｅａｎｄＧｅｓｔｕｒｅＲｅｃｏｇｎｉｔｉｏｎ２０００．

［発明が解決しようとする課題］
しかしながら、上述したような関連技術では、角度ごとの統計モデルを学習する手間が大きいことが問題である。即ち、係る学習には、同一人物のさまざまな姿勢の顔画像が大量に必要となるため、データ収集が非常に困難であり、照合精度も低くなる。
本発明の目的は、上述の課題を解決する技術を提供することにある。

上記目的を達成するため、本発明に係る装置は、
１つの元顔画像に基づいて、その元顔画像に表されている顔に対応するところの、互いに向きの異なる顔を表す複数の顔画像を生成する生成手段と、
前記生成手段により生成された複数の顔画像に基づいて、それら顔画像に関する特徴量を抽出する第１特徴量抽出手段と、
前記特徴量抽出手段によって抽出された特徴量を合成することによって合成特徴量を生成する特徴量合成手段と、
前記合成特徴量に基づいて顔照合を行なう照合手段と、
を備える。
上記目的を達成するため、本発明に係る方法は、
１つの元顔画像に基づいて、その元顔画像に表されている顔に対応するところの、互いに向きの異なる顔を表す複数の顔画像を生成し、
前記生成した複数の顔画像に基づいて、それら顔画像に関する特徴量を抽出し、
前記抽出した特徴量を合成することによって合成特徴量を生成し、
前記生成した合成特徴量に基づいて顔照合を行なう。
上記目的は、上記構成に対応する装置または方法を、コンピュータに実現させるコンピュータ・プログラムによっても実現することができる。更に、上記目的は、係るコンピュータ・プログラムを格納したコンピュータ読み取り可能な記憶媒体によっても実現可能である。
本発明によれば、より精度の高い顔照合を実現することができる。

本発明の第１実施形態の情報処理装置の構成を示すブロック図である。本発明の第２実施形態の情報処理装置の効果を示す図である。本発明の第２実施形態の情報処理装置の構成を示すブロック図である。本発明の第２実施形態の情報処理装置の動作を示すフローチャートである。本発明の第２実施形態の情報処理装置の動作を説明する図である。本発明の第３実施形態の情報処理装置の構成を示すブロック図である。本発明の第３実施形態の生成部における顔画像生成による生成精度の低い顔領域を例示する図である。本発明の第３実施形態の生成部における顔画像生成による生成精度の低い顔領域を例示する図である。本発明の第４実施形態に係る情報処理装置の構成を示すブロック図である。本発明の第５実施形態に係る情報処理装置の動作を示すブロック図である。本発明の第１乃至第５の実施形態を実現可能なコンピュータ（情報処理装置）のハードウェア構成を例示的に説明する図である。

以下に、図面を参照して、本発明の実施の形態について例示的に詳しく説明する。ただし、以下の実施の形態に記載されている構成要素はあくまで例示であり、本発明の技術範囲をそれらのみに限定する趣旨のものではない。
［第１実施形態］
本発明の第１実施形態としての情報処理装置１００について、図１を用いて説明する。情報処理装置１００は、顔画像の照合を行なうことができる装置である。
図１に示すように、情報処理装置１００は、生成部１０１と、特徴量抽出部１０２と、１０３と、特徴量合成部１０４と、照合部１０５とを含む。これら各部は、コンピュータとしての情報処理装置１００によって実現する場合、当該各部を実現するソフトウェア・プログラム（コンピュータ・プログラム）の機能（処理）単位として捉えることができる。但し、図１に示した構成は、説明の便宜上の構成であり、実装に際しては係る構成（区分け）には限定されない（後述する各実施形態においても同様）。また、情報処理装置１００を単体の装置として実現する場合のハードウェア資源に関しては、図１０を参照して後述する。
生成部１０１は、１つの元顔画像１１０に基づいて、その元顔画像１１０に表されている顔に対応するところの、互いに向きの異なる顔を表す複数の顔画像を生成する。本実施形態では、説明の便宜上から、係る複数の顔画像として、第１および第２の顔画像（１２０、１３０）なる２つの顔画像を処理対象とする場合について説明する。この場合、生成部１０１は、１つの元顔画像１１０に基づいて、その元顔画像１１０に表されている人物の顔に対応するところの、互いに向きの異なる顔を表す第１顔画像１２０および第２顔画像１３０を生成する。元顔画像１１０は、当該人物の顔部分の画像だけでなく、顔を含む例えば上半身の画像であってもよい。この場合、例えば、生成部１０１は、入力された元顔画像１１０を基に、一般的な手法により、当該顔部分の画像だけを抽出してもよい。
特徴量抽出部１０２は、生成部１０１により生成された第１顔画像１２０を基に第１特徴量１４０を抽出する。一方、特徴量抽出部１０３は、生成部１０１により生成された第２顔画像１３０を基に第２特徴量１５０を抽出する。
特徴量合成部１０４は、第１特徴量１４０および第２特徴量１５０を合成することによって合成特徴量１６０を生成する。
照合部１０５は、合成特徴量１６０に基づいて顔照合を行なう。
以上の構成を有する情報処理装置１００によれば、より精度の高い顔照合を実現することができる。
尚、上述した本実施形態に係る情報処理装置１００は、顔画像を照合する画像処理装置として捉えることができる。或いはまた、係る画像処理装置は、専用のハードウェアによって実現してもよい。
また、情報処理装置１００が扱う顔画像は、人物だけでなく、色々な動物や人形等の様々な照合対象に関しても適用可能である。
［第２実施形態］
図２は、本発明の第２実施形態としての情報処理装置の動作について説明する図である。本情報処理装置３００は、１つの顔画像２１０を入力し、その顔画像２１０から、互いに顔の正面の向き（角度）が異なる２つの顔画像２２０、２３０を生成する。即ち、情報処理装置３００は、元顔画像２１０に基づいて、照合対象である顔画像２１０に表された顔を、異なる２つの視点から捉えた画像に相当する顔画像２２０、２３０を生成する。
ここで、１つの顔画像から、その顔画像に表された顔の向きが異なる複数の画像を生成する手法については、現在では一般的な手法を採用することができるので、本実施形態における詳細な説明は省略する。
次に、第１顔画像２２０、第２顔画像２３０のそれぞれから、第１特徴量２４０、第２特徴量２５０を抽出し、これらの特徴量を合成することによって合成特徴量２６０を生成する。係る特徴量は、ベクトルを用いて表わすことができる。このため、以下の説明では、これらの特徴量を、特徴ベクトルとも称する場合がある。
ここで、特徴量の抽出手法としては、例えば、ＧａｂｏｒＦｉｌｔｅｒを用いた特徴抽出手法や、ＬｏｃａｌＢｉｎａｒｙＰａｔｔｅｒｎを利用した特徴抽出手法など、既存の手法を利用してもよい。また、特徴量抽出部３０２で利用される特徴抽出手法は、同一の手法を用いてもよいし、元顔画像２１０に基づいて生成する２つの顔画像２２０、２３０が表す顔の向きに応じて、それぞれ適した特徴抽出手法を利用するようにしてもよい。
また、複数の顔画像の合成手法としては、例えば、顔特徴点の対応関係を利用した幾何学的画像変換や、顔の３次元形状情報を利用した３次元的幾何変換などの既存手法を利用してもよい。尚、顔画像の角度変更手法は、同一の手法を用いてもよいし、角度によってそれぞれ異なる手法を利用するようにしてもよい。
次に、情報処理装置３００は、合成特徴量２６０を、射影変換行列（いわゆる変換辞書）を用いて射影変換することにより、より桁数の少ない（情報量の少ない）特徴量２７０を生成する。
本実施形態において、照合用データベース２８０には、照合対象の人物の顔画像に関する特徴量が予め登録されていることとする。この場合、情報処理装置３００は、生成した特徴量２７０を用いて、照合用データベース２８０を参照することにより、例えば、顔画像２１０に対応する本人か否かを照合（判断）する。
本実施形態では、このように２つの顔画像を生成して特徴量を抽出するため、より精度の高い照合結果を得ることができる。さらに、本実施形態によれば、変換行列を用いて個人識別に適した合成特徴量２６０へ変換しているため、照合精度を高めるとともに、照合用データベース２８０のデータ量を抑えることができるという効果もある。
更に、本実施形態に係る情報処理装置３００について詳細に説明する。図３は、第２の実施形態に係る情報処理装置３００の機能構成について説明する図である。情報処理装置３００は、画像入力部３１１と、顔検出部３１２と、生成部３０１と、特徴量抽出部３０２と、特徴量合成部３０４と、特徴量射影部３１４と、照合部３０５と、照合用データベース２８０とを有する。
画像入力部３１１は、外部より情報処理装置３００に画像を入力することができる。具体的に、本実施形態において、画像入力部３１１は、実空間中の映像および静止画像を取得するデジタルカメラ３３０やビデオカメラ３４０などから、処理対象となる画像（画像データ、画像情報）を入手することができる。また、画像入力部３１１は、外部記録装置（不図示）に接続された場合、その外部記録装置に蓄積された映像および静止画像を入力することができる。顔検出部３１２は、画像入力部３１１によって入手された画像データから顔領域（元顔画像２１０）を検出する。顔領域の検出には、現在では一般的な手法を採用することができるので、本実施形態における詳細な説明は省略する（以下の実施形態においても同様）。
生成部３０１は、顔検出部３１２によって検出された元顔画像２１０を用いて、個々の顔画像に含まれる顔の向きが互いに異なる第１顔画像２２０及び第２顔画像２３０を生成する。以下の説明では、生成部３０１による元顔画像２１０に基づく複数の顔画像の生成処理を、「正規化」と称する場合がある。
そして、係る正規化を生成部３０１が実行するに際して、第１顔画像２２０に含まれる顔の向きと、第２顔画像２３０に含まれる顔の向きとがなす２つの角度は、予め設定した関係（パターン）を有する。より具体的に、生成部３０１が生成する第１顔画像２２０と第２顔画像２３０とからなるパターンとしては、例えば、以下の通りである。
・右１５度方向を向いた顔を表す第１顔画像と、正面方向を向いた顔を表す第２顔画像、
・右１５度方向を向いた顔を表す第１顔画像と、右５度方向を向いた顔を表す第２顔画像、
・左３０度方向を向いた顔を表す第１顔画像と、左１０度方向を向いた顔を表す第２顔画像。
上記パターンにおいて、当該２つの顔画像に表されている顔の向きがなす角度は、後段にある照合部３０５による顔の照合が可能な範囲を担保するという観点においては、大きな角度であるとよい。但しこの場合、図７Ａ及び図７Ｂを参照して後述するように、注目する顔画像２１０を基に生成部３０１が所望のパターンに正規化を行うに際して、そのパターンをなす２つの顔画像の一部に、当該顔画像２１０に元々含まれていない部分が無いことが前提条件となる。
特徴量抽出部３０２は、第１顔画像２２０を基に第１特徴量２４０を抽出し、第２顔画像２３０を基に第２特徴量２５０を抽出する。
特徴量合成部３０４は、これらの第１、第２特徴量２４０、２５０を合成して合成特徴量２６０を生成する。特徴量合成部３０４は各特徴量としての特徴ベクトルを連結する方法で、合成特徴量（連結特徴ベクトル）を生成する（図５）。なお、識別辞書データの学習時には、特徴量合成部３０４にて生成した連結特徴ベクトルを利用する。連結特徴ベクトルに対して判別分析など既存手法を用いればよい。
特徴量射影部３１４は、合成特徴量２６０を基に射影特徴量を生成する。具体的には、例えば、特徴量射影部３１４は、特徴量合成部３０４にて生成された連結特徴ベクトルを識別辞書へ射影することによって、係る連結特徴ベクトルを、個人識別に最適な射影特徴ベクトルへと変換する。ここで、係る識別辞書は、学習データから生成される連結特徴ベクトルを利用し、既存手法などを用いて事前に学習し生成しておく。
照合部３０５は、生成された射影特徴量を用いて照合用データベース２８０を参照することにより、元顔画像２１０に含まれていた人物の顔の照合処理を行なう。
照合用データベース２８０は、複数人の射影特徴ベクトルを記憶しており、照合部３０５との通信手段を備える。また照合用データベース２８０は、同データベースに登録された人物ごとの連結特徴ベクトルと識別辞書データとを記録しておき、照合部３０５への通信前に、射影特徴ベクトルを生成するように構成してもよい。また、照合用データベース２８０は一人物につき複数の射影特徴ベクトルを記憶していてもよい。また、照合用データベース２８０には、複数人の連結特徴ベクトルと識別辞書データを記憶しておき、照合部３０５へ通信する際に射影特徴ベクトルを生成して通信するように構成してもよい。
本実施形態においては、説明の便宜上から、情報処理装置３００の内部に照合用データベース２８０を備える構成を例に説明した。但し、情報処理装置３００は、係る構成には限定されない。照合用データベース２８０は、照合部３０５と通信可能に接続されていれば、情報処理装置３００の外部に設置される構成であってもよい。
照合部３０５は、特徴量射影部３１４で得られた射影特徴ベクトルと、照合用データベース２８０に記録されている射影特徴ベクトルとを照合し、照合結果に応じた照合スコアを算出する。この照合スコアは、特徴ベクトル間の正規化相関を利用する方法や、特徴ベクトル間の距離を利用する方法など、従来手法を用いればよい。
照合部３０５は、算出した照合スコアに基づいて、入力された顔画像の人物を識別する。そして、照合部３０５は、係る照合スコアとして正規化相関を利用した場合において、その照合スコアが特定の閾値以上であるときに、当該顔画像に表されている人物が照合対象である本人と判断する。或いは、照合部３０５は、係る照合スコアとして距離を利用した場合において、その照合スコアがある特定の閾値以下であったときに、当該本人と判断する。
（動作の説明）
図４は、本発明の第２の実施形態に係る情報処理装置３００の処理の流れを説明するフローチャートである。
まず、画像入力部３１１は、デジタルカメラ３３０やビデオカメラ３４０により実空間中の静止画像または動画像を取得する（ステップＳ４０１）。または、画像入力部３１１は、記録媒体から静止画像または動画像を取得してもよい。
画像入力部３１１が画像を入力すると、顔検出部３１２は、入力画像から顔領域を検出する（ステップＳ４０３）。
生成部３０１は、検出した顔画像（顔領域の画像）から、あらかじめ定められた２姿勢（パターン）の顔画像（第１顔画像２２０と第２顔画像２３０）を生成する（ステップＳ４０７）。
特徴量抽出部３０２は、生成部３０１によって合成された特定の姿勢の顔画像を基に、個人識別に有効な特徴量を抽出する（ステップＳ４０９）。そして、特徴量合成部３０４は、それらの特徴量を連結する（ステップＳ４１３）。
図５は、その特徴量の連結の様子を概念的に示す図である。特徴量合成部３０４は、第１特徴量２４０（特徴ベクトルｆ１）と第２特徴量２５０（特徴ベクトルｆ２）とを、図５に示すように１つの特徴量（合成特徴量２６０：合成特徴ベクトルｆ１２）に合成する。
尚、照合用データベース２８０に格納する識別辞書データの学習に際しては、例えば、特徴量合成部３０４にて生成した連結特徴ベクトルに対して、判別分析など既存手法を用いればよい。
特徴量射影部３１４は、特徴量合成部３０４にて生成された合成特徴量を、係る識別辞書へ射影する（ステップＳ４１５）。
照合部３０５は、照合用データベース２８０を用いた照合を行ない（ステップＳ４１７）、例えば、照合スコアが閾値以上であれば、元顔画像２１０に表された人物は、照合対象である本人と判定する（ステップＳ４１９にてＹＥＳ、ステップＳ４２１）。一方、照合部３０５は、係る照合の結果、照合スコアが閾値以下であれば、元顔画像２１０に表された人物は、係る本人とは異なる他人であると判定する（ステップＳ４１９にてＮＯ、ステップＳ４２３）。
以上、本実施形態によれば、入力画像から２種類の顔画像を生成して、それらの顔画像から個別に特徴量を抽出し、抽出した特徴量を用いて照合を行なう。このため、本実施形態によれば、より精度の高い照合結果を得ることができる。
［第３実施形態］
図６を用いて、本発明の第３実施形態に係る情報処理装置６００について説明する。本実施形態に係る情報処理装置６００は、図３に示した第２実施形態に係る情報処理装置３００の構成に加えて、更に、顔特徴点検出部６０１、顔角度推定部６０２、および特徴量補正部６０３を備えている。他の構成および動作については、上記第２実施形態と同様であるため、同一の参照番号を付して表すことにより、本実施形態における詳しい説明を省略する。
顔特徴点検出部６０１は、顔検出部３１２によって検出された顔領域の中から、顔の特徴点を検出する。具体的には、例えばエッジ情報を用いた手法、ＡｄａＢｏｏｓｔアルゴリズムを用いた手法などを用いて顔特徴点を検出してもよい。生成部３０１は、顔特徴点検出部６０１によって検出された顔特徴点情報を利用して、当該顔画像を、ある特定の姿勢を表す顔画像（即ち、特定の方向を向く顔が表されている顔画像）へ正規化する。
顔角度推定部６０２は、顔特徴点検出部６０１によって検出された顔特徴点の情報から、元顔画像２１０に表される顔の向き（角度）を推定する。顔角度の推定手法としては、例えばＡｄａＢｏｏｓｔベースの非正面顔検出手法において検出に通過した識別器から顔の角度を推定する手法や、検出した顔特徴点の幾何学的な位置関係から顔の向きを推定する手法のような手法を用いてもよい。また、顔角度の推定手法としては、生成部３０１における顔画像の正規化に顔角度推定部６０２で推定した姿勢情報を利用してもよい。
特徴量補正部６０３は、顔角度推定部６０２によって推定された姿勢情報と、生成部３０１によって正規化された姿勢情報とを基に、特徴量抽出部３０２によって抽出された特徴量を補正する。
入力される元顔画像２１０が表す顔の向き（角度）と、上述した如く所望のパターンに正規化後の顔画像（２２０，２３０）が表す顔の姿勢（角度）とが大きく異なる場合、元顔画像２１０の画像中に元々写っていない顔領域は、生成部３０１が正規化を行ったとしても、第１顔画像２２０及び第２顔画像２３０の少なくとも何れかの顔画像を正しく合成できない。即ち、顔の一部のテクスチャが崩れた顔画像が合成されることになる。このことについて図７Ａ及び図７Ｂを参照して説明を補足する。
図７Ａ及び図７Ｂは、本発明の第３実施形態の生成部における顔画像生成による生成精度の低い顔領域を例示する図である。例えば、図７Ａに示すように、右向き３０度方向を向いた顔を表す顔画像７０１（元顔画像２１０）を、正面方向を向いた顔を表す顔画像７０２（第１顔画像２２０、第２顔画像２３０）へ正規化する場合を考える。この場合、生成部３０１は、正規化に際して、元顔画像２１０に本来写っていない顔領域７０３については顔画像を正しく合成することができない。また例えば、図７Ｂに示すように、正面方向を向いた顔を表す顔画像７０４（元顔画像２１０）を、右向き３０度方向を向いた顔を表す顔画像７０５（第１顔画像２２０、第２顔画像２３０）に正規化する場合を考える。この場合、生成部３０１が正規化を行うと、ベースとなる画像中に元々写っていない顔の右側面のテクスチャ７０６に背景などが混じる場合がある。また、顔の３次元形状を利用した正規化などでは、顔部分と背景部分とが異なる形態に変形するため、背景や顔輪郭部分のテクスチャが大きく崩れてしまう。そしてこのような領域から抽出された特徴量は、正しい個人識別の妨げになる。
そこで、本実施形態では、正しく生成されなかった顔領域の影響を低減するような補正を行なう。言い換えると、生成部３０１での生成精度が低い顔領域についての特徴量を小さくする補正を行う。具体的には、特徴量補正部６０３は、顔角度推定部６０２で推定した姿勢と、生成部３０１によって正規化する姿勢（第１顔画像２２０及び第２顔画像２３０）の角度の差を算出する。そして、特徴量補正部６０３は、求めた角度差の符号と大きさとに応じて、特徴量に乗じる重みを決定する。即ち、特徴量補正部６０３は、係る角度差の符号を基に入力画像が正規化後の姿勢（角度）を基準として左右どちらの方向なのかを判定する。次に、特徴量補正部６０３は、補正を加えるべき顔領域の位置を決定し、係る角度差の大きさを基に当該入力画像が正規化後の姿勢に対して向きがどの程度違うのかを判定する。これにより、特徴量補正部６０３は、補正を加えるべき顔領域の範囲を決定する。
補正するための重みは、補正領域内の特徴量をすべてゼロにするようにしてもよいし、姿勢を考慮して顔領域内部から外部に向かうにしたがって確率的に重みが変更するように構成してもよい。ただし、補正領域内の特徴量をすべてゼロにするような場合には、ゼロ特徴同士で特徴量間の相関が高くなるため、照合部３０５での照合スコア算出時に配慮が必要である。このようにして決定した重みをｗとすると、係る重みｗは、特徴量（特徴ベクトル）ｆと同じ次元となる。そして、重みｗを対角成分とした重み行列をＷとすると、補正後の特徴ベクトルｆ’は、次式（１）で表される。
ｆ’＝Ｗ・ｆ・・・・・・・・・・・（１），
即ち式（１）は、補正後の特徴ベクトルｆ’が、重み行列Ｗと、特徴ベクトルｆとの積によって求められることを表す。または、係る補正後の特徴ベクトルｆ’は、係る式に限定されず、例えば、重みｗと、特徴ベクトルｆとの間における各要素同士の積をとって求めてもよい。
即ち、本実施形態において、特徴量補正部６０３は、以上のような補正処理を実行する。尚、特徴量抽出部３０２で抽出される特徴量が異なる場合には、重みを乗じる前にそれぞれの特徴量を正規化する処理を行なうように構成するとよい。
そして、本実施形態において特徴量合成部３０４は、特徴量補正部６０３によって補正された各特徴ベクトルを連結することにより、１つの連結特徴ベクトルを生成する。
以上説明したように、本実施形態に係る構成および処理によれば、情報処理装置６００は、入力された顔画像を、正面を含む２以上のある特定の姿勢の顔（斜め向きの顔）へ正規化し、それら正規化した顔画像から抽出したそれぞれの特徴ベクトルに対し、入力した顔画像の姿勢情報（角度情報）を利用した補正を行なう。そして、情報処理装置６００は、それぞれの特徴ベクトルを連結することによって得られる連結特徴ベクトルを利用した識別辞書学習を行なう。より具体的に、情報処理装置６００は、まず入力した顔画像から、その顔画像に表されている顔の姿勢（向き、角度）を推定する。正規化する顔画像の姿勢と推定した姿勢の差が大きい場合には、上述したように、合成した画像が崩れる合成失敗領域が現れる。このため、本実施形態に係る情報処理装置６００は、係る領域の関する特徴量の影響が小さくなるような補正を実行する。そして、情報処理装置６００は、補正した各特徴ベクトルを連結することによって得られる連結特徴ベクトルを用いて学習を行なう。これにより、本実施形態では、ノイズなどの悪影響を低減した学習を実現することができる。また、本実施形態によれば、学習した識別辞書を利用することで、多くの姿勢の顔画像に対して高精度な照合が可能となる。
［第４実施形態］
本発明の第４実施形態について図８を用いて説明する。図８は、本発明の第４実施形態に係る情報処理装置の構成を示すブロック図である。本実施形態に係る情報処理装置８００は、図６に示した情報処理装置６００の構成に加えて、反転部８０１を更に有する点が上述した第３実施形態と異なる。その他の構成および動作は、上記第３実施形態と同様であるため、同一の参照番号を付して表すことにより、本実施形態における詳細な説明を省略する。
反転部８０１は、顔角度推定により得られた元顔画像に表されている顔の向きと、生成部３０１で正規化すべき顔の角度とを比較する。そして、反転部８０１は、係る比較の結果、入力画像の姿勢（元顔画像に表されている顔の向き）と、正規化すべき姿勢が正面方向に対して左右逆である場合には、係る入力画像を左右反転してから、顔画像の正規化以降の処理を行なう。
例えば、生成部３０１で、正規化処理として、正面方向の顔画像と、右３０度方向の顔画像とを生成するパターンが設定されている状態を考える。このとき、本実施形態では、入力された元顔画像２１０に表されている顔の向きが左２０度方向の場合には、右に２０度と５０度大きく角度変更する処理を行なう代わりに、反転部８０１によって左右反転処理を行なう。つまり左２０度方向の顔が表されている顔画像を右２０度方向に反転した後、右に１０度だけ角度変更する処理を行うことによって右３０度方向の顔が表されている顔画像を生成する。これにより、本実施形態によれば、生成部３０１での顔画像の生成を、より精度良く行なうことができ、結果として有効な特徴量を多く抽出することも可能になる。
［第５実施形態］
本発明の第５実施形態について図９を用いて説明する。図９は、本発明の第５実施形態に係る情報処理装置の動作を示すブロック図である。本実施形態に係る情報処理装置９００は、上述した各実施形態とは異なり、特定の３つの姿勢（角度）をなす顔画像によって構成されたパターンへ入力顔画像を正規化する。このため、情報処理装置９００は、図８に示した情報処理装置８００の構成における生成部３０１、特徴抽出部３０２、特徴量補正部６０３、及び特徴量合成部３０４の代わりに、生成部９０１、特徴抽出部９０２、特徴量補正部９０３、及び特徴量合成部９０４を有する点が上記第４実施形態と異なる。その他の構成および動作は、上記第４実施形態と同様であるため、同一の参照番号を付して表すことにより、本実施形態における詳細な説明を省略する。
本実施形態において、生成部９０１は、元顔画像２１０に基づく正規化に際して、特定の３つの姿勢（角度）をなす顔が表されている３つの顔画像を生成する。これに応じて、特徴量抽出部９０２は、係る３つの顔画像に基づいて、上述した各実施形態と同様な手順により、３つの特徴量（２４０、２５０、２５５）を抽出する。特徴量補正部９０３は、これら３つの特徴量（特徴ベクトル）に基づいて、上述した第４の実施形態と同様な手順により、これら特徴量を適宜補正する。そして、特徴量合成部９０４は、補正後の３つの特徴量に基づいて、上述した第各の実施形態と同様な手順により、係る補正後の３つの特徴量（特徴ベクトル）を連結した連結特徴ベクトルを生成する。
本実施形態によれば、入力された顔画像を３つの特定の角度へ正規化することで、少ない情報から多くの姿勢の顔画像を照合することが可能となる。また、本実施形態によれば、顔画像から抽出した複数の特徴ベクトルに対して入力顔画像との角度の違いを考慮した補正を行うことで、姿勢の違いが大きいことによる顔画像の正規化を失敗する領域への影響を低減することができる。
また、本実施形態では、補正後の特徴ベクトルを連結した連結特徴ベクトルを利用し、各特徴ベクトルをより高次元な同一特徴空間で学習する。これにより、本実施形態によれば、複数の姿勢に対応する特徴ベクトルから、重要な次元を細かく選択することができるため、照合スコアレベルでは実現できないより最適な統合が実現する。一方、本実施形態によれば、複数の姿勢に対応する顔画像の照合を少数の識別辞書で実現できるため、データ容量の削減や照合処理時間を短縮することができる。
尚、本実施形態では、説明の便宜上から、３つの姿勢からなるパターンについて正規化を行う構成について説明した。しかしながら、本発明は、係る構成には限定されず、更に多くの複数の顔画像を利用する構成としてもよい。
［他の実施形態］
以上、本発明の実施形態について詳述したが、それぞれの実施形態に含まれる別々の特徴を如何様に組み合わせたシステムまたは装置も、本発明の範疇に含まれる。
また、本発明は、複数の機器から構成されるシステムに適用されてもよいし、単体の装置に適用されてもよい。さらに、本発明は、実施形態の機能を実現する情報処理プログラム（ソフトウェア・プログラム、コンピュータ・プログラム）が、複数のコンピュータからなるシステム、あるいは単体のコンピュータに対して、直接あるいは遠隔で供給される場合にも適用可能である。したがって、本発明の機能をコンピュータで実現するために、コンピュータにインストールされるプログラム、あるいはそのプログラムを格納した媒体、そのプログラムをダウンロードさせるＷＷＷ（ＷｏｒｌｄＷｉｄｅＷｅｂ）サーバも、本発明の範疇に含まれる。このような場合の具体例について、図１０を参照して説明する。
＜ハードウェアの構成例＞
ここで、上述した各実施形態に係る装置を、単体のハードウェア資源において実現する場合の例について説明する。図１０は、本発明の第１乃至第５の実施形態を実現可能なコンピュータ（情報処理装置）のハードウェア構成を例示的に説明する図である。
図１０に示した情報処理装置（１００、３００、６００、８００、９００）のハードウェアは、ＣＰＵ１１、通信インタフェース（Ｉ／Ｆ）１２、入出力ユーザインタフェース１３、ＲＯＭ（ＲｅａｄＯｎｌｙＭｅｍｏｒｙ）１４、ＲＡＭ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）１５、記憶装置１７、及び記憶媒体１９のドライブ装置１８を備え、これらがバス１６を介して接続された構成を有する。入出力ユーザインタフェース１３は、入力デバイスの一例であるキーボードや、出力デバイスとしてのディスプレイ等のマンマシンインタフェースである。通信インタフェース１３は、上述した各実施形態に係る装置（図１，図３，図６，図８，図９）が、外部装置との間において、通信ネットワーク２０を介して通信するための一般的な通信手段である。係るハードウェア構成において、ＣＰＵ１１は、各実施形態に係る情報処理装置の全体の動作を司る。
そして、上述した第１乃至第５の実施形態を例に説明した本発明は、その説明において参照したフローチャート（図４）の機能、或いは、図１，図３，図６，図８，図９に示したブロック図において当該装置内に示した各部（各ブロック）を実現可能なプログラムを、図１０に示す情報処理装置に対して供給した後、そのプログラムを、ＣＰＵ１１に読み出して実行することによって達成される。また、係る情報処理装置内に供給されたプログラムは、読み書き可能な一時記憶メモリ（１５）またはハードディスクドライブ等の不揮発性の記憶装置（１７）に格納すれば良い。
即ち、記憶装置１７において、プログラム群１０７は、例えば、上述した各実施形態におけるブロック図に示した各部の機能を実現可能なプログラムである（但し、少なくとも画像入力部３１１及び照合部３０５は、ハードウェアを伴う通信インタフェース１２、入出力ユーザインタフェース１３を併用することになる）。また、各種の記憶情報１０８は、例えば、上述した各実施形態において照合データベース２８０が格納していた学習結果、識別辞書、正規化に際しての特定のパターン（姿勢）を表す情報等である。
また、前記の場合において、当該装置内へのプログラムの供給方法は、ＣＤ−ＲＯＭ、フラッシュメモリ等のコンピュータ読み取り可能な各種の記録媒体１９を介して当該装置内にインストールする方法や、インターネット等の通信回線２０を介して外部よりダウンロードする方法等のように、現在では一般的な手順を採用することができる。そして、このような場合において、本発明は、係るコンピュータ・プログラムを構成するコード（プログラム群１０７）或いは係るコードが格納された記憶媒体１９によって構成されると認識することができる。
以上、上述した実施形態を模範的な例として本発明を説明した。しかしながら、本発明は、上述した実施形態には限定されない。即ち、本発明は、本発明のスコープ内において、当業者が理解し得る様々な態様を適用することができる。
この出願は、２０１１年５月２４日に出願された日本出願特願２０１１−１１５８５２を基礎とする優先権を主張し、その開示の全てをここに取り込む。

１１ＣＰＵ
１２通信インタフェース（Ｉ／Ｆ）
１３入出力インタフェース（Ｉ／Ｆ）
１４ＲＯＭ
１５ＲＡＭ
１６バス
１７記憶装置（記憶デバイス）
１８ドライブ装置
１９記憶媒体
２０通信ネットワーク
１００，３００，６００，８００，９００情報処理装置（コンピュータ）
１０１、３０１、９０１生成部
１０２、１０３、３０２、９０２特徴量抽出部
１０４、３０４、９０４特徴量合成部
１０５、３０５照合部
１０７プログラム群
１０８各種の記憶情報
１１０元顔画像
１２０、２２０第１顔画像
１３０、２３０第２顔画像
１４０、２４０第１特徴量
１５０、２５０第２特徴量
１６０、２６０合成特徴量
２１０入力顔画像
２５５第３特徴量
２７０特徴量
２８０照合用データベース
３１１画像入力部
３１２顔検出部
３１４特徴量射影部
３３０デジタルカメラ
３４０ビデオカメラ
６０１顔特徴点検出部
６０２顔角度推定部
６０３、９０３特徴量補正部
７０１、７０２、７０４、７０５顔画像
７０３顔領域
７０６テクスチャ
８０１反転部
９０３特徴量補正部

Claims

１つの元顔画像に基づいて、その元顔画像に表されている顔に対応するところの、互いに向きの異なる顔を表す複数の顔画像を生成する生成手段と、
前記生成手段により生成された複数の顔画像に基づいて、それら顔画像に関する特徴量を抽出する特徴量抽出手段と、
前記特徴量抽出手段によって抽出された特徴量を合成することによって合成特徴量を生成する特徴量合成手段と、
前記合成特徴量に基づいて顔照合を行なう照合手段と、
を備えた情報処理装置。
前記合成特徴量に対して射影変換を施すことにより、その合成特徴量の情報量を減らす特徴量射影手段をさらに備えた
請求項１に記載の情報処理装置。
前記複数の顔画像における生成精度の低い顔領域についての特徴量を小さく補正する特徴量補正手段をさらに備えた
請求項１または２に記載の情報処理装置。
前記特徴量補正手段は、
前記元顔画像に表されている顔の向きと、前記生成手段によって生成された複数の顔画像に表されている顔の向きとの角度差に基づいて、それら複数の顔画像に関する特徴量を補正する
請求項３に記載の情報処理装置。
入力画像から前記元顔画像を検出する検出手段をさらに備えた
請求項１乃至４のいずれか１項に記載の情報処理装置。
前記元顔画像から顔特徴点を検出する特徴点検出手段をさらに備え、
前記生成手段は、
前記顔特徴点を用いて、前記複数の顔画像を生成する
請求項１乃至５のいずれか１項に記載の情報処理装置。
前記元顔画像に表されている顔の向きと、前記生成手段が生成すべき複数の顔画像に表されている顔の向きがなす角度に応じて、前記元顔画像を反転する反転手段をさらに備えた
請求項１乃至６のいずれか１項に記載の情報処理装置。
前記生成手段は、
前記元顔画像に基づいて、前記複数の顔画像として、第１顔画像及び第２顔画像を生成し、
特徴量抽出手段は、
前記特徴量として、前記第１顔画像に関する第１特徴量と、前記第２顔画像に関する第２特徴量とを抽出し、
前記特徴量合成手段は、
前記第１特徴量と、前記第２特徴量とを合成することにより、前記合成特徴量を生成する
請求項１乃至７のいずれか１項に記載の情報処理装置。
１つの元顔画像に基づいて、その元顔画像に表されている顔に対応するところの、互いに向きの異なる顔を表す複数の顔画像を生成し、
前記生成した複数の顔画像に基づいて、それら顔画像に関する特徴量を抽出し、
前記抽出した特徴量を合成することによって合成特徴量を生成し、
前記生成した合成特徴量に基づいて顔照合を行なう
情報処理方法。
１つの元顔画像に基づいて、その元顔画像に表されている顔に対応するところの、互いに向きの異なる顔を表す複数の顔画像を生成する生成機能と、
前記生成機能により生成された複数の顔画像に基づいて、それら顔画像に関する特徴量を抽出する特徴量抽出機能と、
前記特徴量抽出機能によって抽出された特徴量を合成することによって合成特徴量を生成する特徴量合成機能と、
前記合成特徴量に基づいて顔照合を行なう照合機能と、
をコンピュータに実行させるコンピュータ・プログラム。