JP4795864B2

JP4795864B2 - 特徴点検出装置および方法並びにプログラム

Info

Publication number: JP4795864B2
Application number: JP2006170983A
Authority: JP
Inventors: 義隆山口
Original assignee: Fujifilm Corp
Current assignee: Fujifilm Corp
Priority date: 2006-06-21
Filing date: 2006-06-21
Publication date: 2011-10-19
Anticipated expiration: 2026-06-21
Also published as: JP2008003749A

Description

本発明は、画像に含まれる所定対象物の特徴点を検出する特徴点検出装置および方法並びにそのためのプログラムに関するものである。

画像に含まれる所定対象物（オブジェクト）の位置、姿勢、形態等を検出する方法が種々の分野において研究されているが、その１つの方法として、所定対象物の特徴的な部位を表す複数の特徴点を定義しておき、検出対象画像からこれら複数の特徴点を検出し、検出された特徴点の位置関係に基づいて所定対象物の位置、姿勢、形態等を検出する方法が種々提案されている。

例えば、特許文献１では、対象物を構成する基準特徴点（例えば、対象物が人物の顔である場合には、目、鼻、顔輪郭など）を複数定義し、それらの特徴点に特定のフィルタを適用したときのレスポンスを学習するとともに、特徴点同士の間の標準的な位置関係、すなわち特徴点毎の当該特徴点に対する対象物の中心点の画像上の存在確率分布を学習してこれらを記憶し、入力画像に対して学習時に用いたものと同じフィルタを適用してそのレスポンスから特徴点の候補を複数検出し、検出された候補と上記学習した特徴点同士の間の標準的な位置関係とを比較して、顔の中心点の画像上の存在確率分布を足し合わせ、その結果、最も存在確率が高い位置の点を目的の対象物の中心点とする対象物位置検出方法が提案されている。なお、ここでの確率分布はガウス関数で近似している。

また、非特許文献１では、特許文献１の方法に類似する物体位置検出方法が提案されている。この方法は、物体の中心点等、ある１点だけを検出するのではなく、複数の特徴点をセットで検出するものであり、また、「特徴点同士の間の標準的な位置関係」をより実際のデータに則して決定するため、存在確率分布を多数の学習サンプルから統計的に生成するようにしている。以下、この方法をより具体的に説明する。

（学習ステップ）
この方法では、ある特徴点検出器（AdaBoost学習アルゴリズムによって生成された識別器等を備えるもの）によって検出された特徴点の位置に対する他の特徴点の正解となる点の存在確率分布を、１つの特徴点と１つのその他の特徴点とからなる２つ１組の単位で各組毎に用意し、特徴点同士の間の位置関係をこれら複数組の存在確率分布を用いて表現する。ここで、特徴点Ｘ_ｊの検出器の出力座標ｘ_ｊに対する特徴点Ｘ_ｉ（座標ｘ_ｉ）の正解となる点の存在確率分布をＰ_ｉｊ（ｘ_ｉ｜ｘ_ｊ）と定義する。なお、Ｐ_ｉｊは、実装上、２次元のヒストグラムで表す。

この存在確率分布Ｐ_ｉｊを求めるには、まずトレーニング画像セット（対象物の特徴点の正解座標が入力された数千枚の画像）に対して対象物の検出を行い、対象物が基準位置に位置するように画像を規格化する。図７は、対象物が人物の顔であるときに、画像から顔を検出し、その顔が画像の中心に所定の大きさで位置するように画像を規格化した場合の例を示すものである。

次に、規格化された画像から特徴点検出器Ｄ_ｉにより特徴点Ｘ_ｉを検出し、その特徴点の座標ｘ_ｉとその他の特徴点Ｘ_ｊの正解座標ｘ_ｊとのずれを、１つの特徴点Ｘ_ｉと１つのその他の特徴点Ｘ_ｊとからなる２つ１組の単位で比較、集計する。このような学習によって得られた存在確率分布Ｐ_ｉｊの例を図８に示す。図８は、対象物が人物の顔である場合の例であり、特徴点検出器によって検出された特徴点の位置を×で表し、対象の特徴点の存在確率分布を画像上の濃淡で表している。なお、ここでは、対象の特徴点の存在確率が高いほどその位置での濃度が濃くなるように表現してある。図８（ａ）は、左目頭検出器により検出された左目頭の点の位置に対する左目尻の点の存在確率分布を表す図であり、図８（ｂ）は、当該左目頭の点の位置に対する左小鼻の点の存在確率分布を表す図であり、図８（ｃ）は、当該左目頭の点の位置に対する右口角の点の存在確率分布を表す図である。

（検出ステップ）
検出対象画像から対象物を検出し、その対象物を含む規格化された画像を取得し、その規格化された画像に対して特徴点の候補を検出する処理を行い、各特徴点について他の特徴点の候補から推測される当該特徴点の画像上の存在確率分布の和を計算し、最も存在確率が高い位置の点をその特徴点の真の点と推定して選択する。特徴点の真の点として推定される点は、次式（１）で表される。

ここで、ｘ＾_ｉ（左辺）は、特徴点の真の点として推定される点の位置座標、Ｐ_ｉｊ（ｘ_ｉ｜ｑ_ｊｔ）は特徴点Ｘ_ｊのｔ番目の候補の位置座標ｑ_ｊｔを基準としたときの特徴点Ｘ_ｉ（位置座標ｘ_ｉ）の存在確率分布、ｋは特徴点Ｘ_ｊの候補の数、ｎは定義した特徴点の数である。

この方法では、ある特徴点の位置を検出する際に、その特徴点を検出する単独の特徴点検出器の出力に頼るのではなく、複数の特徴点検出器が互いに他の特徴点の位置を推測し合うことにより、検出器単体の性能を上回る、より優れた検出能が得られるという利点がある。

一方、特許文献２では、顔を構成する目の位置を検出する方法であって、比較的検出精度が低くロバスト性が高い、いわゆる粗い検出器を用いて目の概略位置を検出した後に、その概略位置近傍において、比較的検出精度が高くロバスト性が低い、いわゆる細かい検出器を用いて目の正確な位置を検出するという、２段階構成の目の検出方法が提案されている。
特開平６−３４８８５１号公報特開２００５−１０８１９７号公報 David Cristinacce "A Multi-Stage Approach to Facial Feature Detection", In Proc. of BMVC, Pages 231-240, 2004

ところで、非特許文献１の物体位置検出方法では、通常、対象物の所定の特徴的な複数の点の位置で検出対象画像を幾何学的に正規化し、その正規化された画像に対して対象物の複数種類の特徴点を検出する。例えば、対象物が人物の顔である場合には、顔の両目の位置で検出対象画像を幾何学的に正規化し、顔の目頭、目尻、小鼻、口角等の特徴点を検出する。

しかしながら、この方法では、幾何学的な正規化を行う際に基準とした特徴的な位置、上記の顔を例にとれば、顔の両目の位置から離れた場所にある特徴点ほどその位置のばらつきが広範囲に及び、その特徴点の検索範囲も広くなる。ここで、検索処理の高速化を重視しつつ、この広い検索範囲をカバーするためには、比較的ロバスト性が高い特徴点検出器を用いる必要が有り、このような特徴点検出器を用いると一般的に、検出された特徴点の位置精度が悪くなる。

また、特許文献２の目の検出方法は、２段階構成を採っているため検出精度のよい方法ではあるが、この方法をそのまま複数種類の特徴点検出に適用すると、各特徴点同士の位置関係は考慮していないため、正解である特徴点の位置からずれた場所に、偶然、特徴点を表す画像に類似した特徴を有する画像が存在する場合には、不正解の特徴点候補が検出されることとなり、安定した特徴点検出が望めない。

本発明は、上記事情に鑑みなされたものであり、画像に含まれる所定対象物の複数種類の特徴点を、高速に精度よくかつ安定して検出することができる特徴点検出装置および方法並びにそのためのプログラムを提供することを目的とするものである。

本発明の特徴点検出装置は、検出対象画像における所定対象物の複数種類の特徴点の候補を、マシンラーニングにより生成された第１の検出精度および第１のロバスト性を有する第１の特徴点検出器群を用いて、前記種類毎に少なくとも１つ検出する第１の特徴点候補検出手段と、該第１の特徴点候補検出手段により検出された特徴点の候補の位置と、前記複数種類の特徴点同士の位置関係を第１の許容度で規定する第１の位置関係モデルとに基づいて、該第１の位置関係モデルで拘束された位置関係を有する前記複数種類の暫定特徴点を決定する第１の特徴点決定手段と、該第１の特徴点決定手段により決定された前記複数種類の暫定特徴点の各々の近傍で、特徴点の候補を、マシンラーニングにより生成された前記第１の検出精度より高い第２の検出精度および前記第１のロバスト性より低い第２のロバスト性を有する第２の特徴点検出器群を用いて、前記種類毎に少なくとも１つ検出する第２の特徴点候補検出手段と、該第２の特徴点候補検出手段により検出された特徴点の候補の位置と、前記複数種類の特徴点同士の位置関係を前記第１の許容度より小さい第２の許容度で規定する第２の位置関係モデルとに基づいて、前記第２の位置関係モデルで拘束された位置関係を有する前記複数種類の最終特徴点を決定する第２の特徴点決定手段とを備えたことを特徴とするものである。

本発明の特徴点検出装置において、前記検出対象画像に対して、前記第１の特徴点決定手段により決定された前記複数種類の暫定特徴点をそれぞれ所定の基準位置に近づける、アスペクト比を維持した幾何学的正規化処理を施す正規化手段をさらに備え、前記第２の特徴点候補検出手段を、前記正規化手段により正規化された検出対象画像上で前記候補を検出するものとしてもよい
また、本発明の特徴点検出装置において、前記第１の特徴点決定手段は、前記複数種類の特徴点の中の２つの異なる特徴点からなる組合せ毎に統計的に求められた、一方の特徴点の位置を基準としたときの他方の特徴点の画像上の存在確率分布を用いて、１つの種類の特徴点について、他の種類の特徴点の前記検出された候補の位置を基準としたときの該１つの種類の特徴点の存在確率分布を、該他の特徴点の候補毎にそれぞれ求め、該求められた存在確率分布を合成する処理を、特徴点の前記種類毎に行う第１の存在確率分布合成手段と、１つの種類の特徴点について、該１つの種類の特徴点の前記検出された候補の位置と、該１つの種類の特徴点の前記合成された存在確率分布における存在確率の大小とに基づいて、該１つの種類の特徴点の候補を前記検出された候補の中から選択して絞り込む処理を、特徴点の前記種類毎に行う第１の特徴点候補選択手段と、特徴点の前記種類毎に、該種類の特徴点の前記選択された候補の位置に基づいて、該種類の暫定特徴点の位置を決定する第１の特徴点位置決定手段とを備えたものであってもよい。

また、本発明の特徴点検出装置において、前記第１の特徴点候補選択手段は、特徴点の前記種類毎に、前記検出された候補のうち、該種類の特徴点の前記合成された存在確率分布における存在確率が最も高い位置の点を代表とする所定領域内に存する候補を選択するものであってもよい。

また、本発明の特徴点検出装置において、前記第１の特徴点候補選択手段は、特徴点の前記種類毎に、前記検出された候補のうち、該候補の位置に対応した、前記種類の特徴点の前記合成された存在確率分布における存在確率が所定の閾値以上である候補を選択するものであってもよい。

また、本発明の特徴点検出装置において、前記第１の特徴点候補検出手段は、前記検出対象画像上の識別対象画像が特徴点を含む画像である蓋然性を示す確信度の閾値判定に基づいて、該識別対象画像における対象を該特徴点の候補として検出するものであり、前記第１の特徴点位置決定手段は、特徴点の前記種類毎に、該種類の特徴点について選択されたすべての候補の位置座標を、該候補に対して算出された前記確信度で重み付けしたときの、前記位置座標の重み付き平均を該種類の暫定特徴点の位置座標として決定するものであってもよい。

また、本発明の特徴点検出装置において、前記第１の特徴点位置決定手段は、特徴点の前記種類毎に、該種類の特徴点について選択されたすべての候補の位置座標を、該候補の位置に対応した、該種類の特徴点の前記合成された存在確率分布における存在確率で重み付けしたときの、前記位置座標の重み付き平均を該種類の暫定特徴点の位置座標として決定するものであってもよい。

本発明の特徴点検出方法は、検出対象画像における所定対象物の複数種類の特徴点の候補を、マシンラーニングにより生成された第１の検出精度および第１のロバスト性を有する第１の特徴点検出器群を用いて、前記種類毎に少なくとも１つ検出する第１の特徴点候補検出ステップと、該第１の特徴点候補検出ステップにより検出された特徴点の候補の位置と、前記複数種類の特徴点同士の位置関係を第１の許容度で規定する第１の位置関係モデルとに基づいて、前記第１の位置関係モデルで拘束された位置関係を有する前記複数種類の暫定特徴点を決定する第１の特徴点決定ステップと、該第１の特徴点決定ステップにより決定された前記複数種類の暫定特徴点の各々の近傍で、特徴点の候補を、マシンラーニングにより生成された前記第１の検出精度より高い第２の検出精度および前記第１のロバスト性より低い第２のロバスト性を有する第２の特徴点検出器群を用いて、前記種類毎に少なくとも１つ検出する第２の特徴点候補検出ステップと、該第２の特徴点候補検出ステップにより検出された特徴点の候補の位置と、前記複数種類の特徴点同士の位置関係を前記第１の許容度より小さい第２の許容度で規定する第２の位置関係モデルとに基づいて、前記第２の位置関係モデルで拘束された位置関係を有する前記複数種類の最終特徴点を決定する第２の特徴点決定ステップとを有することを特徴とするものである。

本発明のプログラムは、コンピュータを、検出対象画像における所定対象物の複数種類の特徴点の候補を、マシンラーニングにより生成された第１の検出精度および第１のロバスト性を有する第１の特徴点検出器群を用いて、前記種類毎に少なくとも１つ検出する第１の特徴点候補検出手段と、該第１の特徴点候補検出手段により検出された特徴点の候補の位置と、前記複数種類の特徴点同士の位置関係を第１の許容度で規定する第１の位置関係モデルとに基づいて、前記第１の位置関係モデルで拘束された位置関係を有する前記複数種類の暫定特徴点を決定する第１の特徴点決定手段と、該第１の特徴点決定手段により決定された前記複数種類の暫定特徴点の各々の近傍で、特徴点の候補を、マシンラーニングにより生成された前記第１の検出精度より高い第２の検出精度および前記第１のロバスト性より低い第２のロバスト性を有する第２の特徴点検出器群を用いて、前記種類毎に少なくとも１つ検出する第２の特徴点候補検出手段と、該第２の特徴点候補検出手段により検出された特徴点の候補の位置と、前記複数種類の特徴点同士の位置関係を前記第１の許容度より小さい第２の許容度で規定する第２の位置関係モデルとに基づいて、前記第２の位置関係モデルで拘束された位置関係を有する前記複数種類の最終特徴点を決定する第２の特徴点決定手段として機能させることを特徴とするものである。

本発明において、「複数種類の特徴点同士の位置関係を第１の許容度で規定する第１の位置関係モデル」とは、特徴点同士の位置関係を点同士の位置関係ではなく、領域同士の位置関係として規定するモデルであり、この領域の平均的な広さを第１の許容度で定義するものである。同様に、「複数種類の特徴点同士の位置関係を第１の許容度より小さい第２の許容度で規定する第２の位置関係モデル」とは、特徴点同士の位置関係を領域同士の位置関係として規定するモデルであり、この領域の平均的な広さが第１の許容度で定義される広さより小さいものである。

なお、これらの位置関係モデルは、所定対象物を含むサンプル画像に対して特徴点検出器群を適用して検出された複数種類の特徴点の候補の位置と、そのサンプル画像における複数種類の特徴点の正解位置とに基づいて、統計的に求めることができる。

本発明において、前記特徴点の存在確率分布とは、特徴点が画像上のある位置に存在する確率を当該画像上の複数の位置について表した分布のことを意味するものである。

本発明において、「存在確率分布を合成する」とは、画像上の互いに対応する位置毎にその位置における存在確率を合成して新たな存在確率の分布を得ることを意味するものである。ここで、前記合成は、加算であってもよいし、積算であってもよい。

また、本発明において、「確率が最も高い位置の点を代表とする所定領域」とは、その点を略中心、略重心、あるいは略中央とした所定の大きさの範囲の領域のことを意味するものである。この領域は、円形であってもよいし矩形等の多角形であってもよい。

本発明において、前記所定対象物としては、例えば、人物の顔、自動車、動物等が考えられる。

なお、本発明の方法および装置により検出された所定対象物の特徴点は、所定対象物の姿勢認識のほか、特定の対象物であるか否かを判定する認証処理、また、所定対象物が人物の顔である場合には、表情判別等に用いることができる。

本発明の特徴点検出装置および方法並びにそのためのプログラムによれば、検出対象画像における所定対象物の複数種類の特徴点の候補を、第１の検出精度および第１のロバスト性を有する第１の特徴点検出器群を用いて検出し、その検出された特徴点の候補の位置と、上記複数種類の特徴点同士の位置関係を第１の許容度で規定する第１の位置関係モデルとに基づいて、第１の位置関係モデルで拘束された位置関係を有する上記複数種類の暫定特徴点を決定した後、その決定された上記複数種類の暫定特徴点の各々の近傍で、特徴点の候補を、第１の検出精度より高い第２の検出精度および第１のロバスト性より低い第２のロバスト性を有する第２の特徴点検出器群を用いて検出し、その検出された特徴点の候補の位置と、上記複数種類の特徴点同士の位置関係を第１の許容度より小さい第２の許容度で規定する第２の位置関係モデルとに基づいて、第２の位置関係モデルで拘束された位置関係を有する上記複数種類の最終特徴点を決定するようしているので、比較的粗い検出の後に比較的細かい検出を行うという２段階構成の採用により高速で検出精度がよい特徴点検出を行うことができるとともに、特徴点同士の位置関係の拘束により不正解の特徴点候補を排除することができ、画像に含まれる所定対象物の複数種類の特徴点を、高速に精度よくかつ安定して検出することができる。

以下、図面を参照して、本発明の実施形態について説明する。

図１は、本発明の実施形態による顔特徴点検出システムの構成を示すブロック図である。なお、この顔特徴点検出システムは、画像の中から人物の顔を検出し、さらに検出された顔の特徴点を検出するシステムであり、補助記憶装置に読み込まれた処理プログラムをコンピュータ（たとえばパーソナルコンピュータ等）上で実行することにより実現される。また、この処理プログラムは、ＣＤ−ＲＯＭ等の情報記憶媒体に記憶され、もしくはインターネット等のネットワークを介して配布され、コンピュータにインストールされることになる。また、画像データは画像を表すものであり、以下、特に画像と画像データの区別をせずに説明を行う。

図１に示すように、本実施形態による顔特徴点検出システムは、画像入力部１０と、顔検出部２０と、第１の顔正規化部３０と、第１の特徴点候補検出部４０と、第１の特徴点決定部５０と、第２の顔正規化部６０と、第２の特徴点候補検出部７０と、第２の特徴点決定部８０とを備えている。

画像入力部１０は、ユーザから入力された、顔の検出対象となる画像Ｓ０の入力を受け付け、この入力画像Ｓ０を不図示のメモリに保存するものであり、ユーザは、この画像入力部１０により、例えば、デジタルカメラ等により取得されたスナップ写真の画像を入力する。

顔検出部２０は、メモリに保存された入力画像Ｓ０を読み出して、その画像に含まれる顔を検出するものであり、具体的には、入力画像Ｓ０に含まれる顔Ｓ１の両目の位置を検出するとともに、その顔の向きｆをも検出するものである。

ここでは、顔Ｓ１の両目の位置を検出する方法として、特開２００５−１０８１９７号公報に開示されている対象物識別方法を適用することにする。この方法は、入力画像Ｓ０における識別対象領域の画像について特徴量を算出し、目の位置を所定の許容度を持って正規化した複数の顔サンプル画像と複数の非顔サンプル画像の特徴量について学習を行った第１の参照データを参照して、識別対象領域の画像から算出した特徴量に基づいて、識別対象領域の画像に顔が含まれるか否かを識別し、顔が含まれる場合に、目の位置を所定の許容度よりも小さい許容度を持って正規化した複数の顔サンプル画像と複数の非顔サンプル画像の特徴量について学習を行った第２の参照データを参照して、顔に含まれる目の位置を識別する方法であり、いわゆるAdaBoostと呼ばれるマシンラーニングの手法により学習された識別器を用いて顔を検出し、顔に含まれる目の位置を精度よく検出する方法である。

この識別器は、学習に用いた顔サンプル画像の顔の向きと略同じ向きの顔を識別するので、顔の向き毎に用意された複数種類の顔サンプル画像群をそれぞれ用いて学習して得られる複数種類の識別器を用意し、これら複数種類の識別器を用いて顔を検出するようにすれば、多方向の向きの顔Ｓ１を検出し、その顔の両目の位置とその顔の向きｆを同時に知ることができる。

なお、顔Ｓ１を検出する方法としては、上記のほか、テンプレートマッチングによる方法などを用いてもよい。この場合、顔の向きがそれぞれ異なる複数のテンプレート上で顔の両目の位置に相当する位置を予め定義しておくなどして、検出された顔Ｓ１の両目の位置を求めるようにすればよい。

第１の顔正規化部３０は、入力画像Ｓ０（Gray画像）と、検出された顔Ｓ１の両目の位置の情報を用いて、入力画像Ｓ０から、両目の位置が所定の基準位置に位置するように正規化された顔Ｓ１を含む所定サイズの画像を切り出すことにより、正規化顔画像Ｓ１′を得るものである。図７は、入力画像Ｓ０を必要に応じて拡大・縮小したり回転したりした後に適切なトリミングを行って正規化顔画像Ｓ１′を得る様子を示した図である。本実施例では、画像サイズを２００×２００画素サイズとし、顔Ｓ１の両目の中心位置がそれぞれ、画像の最左上の画素を座標（０，０）、最右下の画素を座標（１９９，１９９）として、Ａ（７０，７０）およびＢ（１３０，７０）に位置するように顔を正規化する。なお、顔の向きｆが斜めの向き、例えば、斜め４５度の向きの場合には、顔Ｓ１の両目の中心位置がそれぞれ、Ａ（７０，５０）およびＢ（１３０，５０）となるように、顔の位置を２０画素分だけ上方にシフトして正規化する。

第１の特徴点候補検出部４０は、正規化顔画像Ｓ１′上で指定した識別対象領域の画像に対して、当該画像の略中心に特徴点が含まれる蓋然性を示す検出スコア（確信度）ＳＣＤを算出し、当該検出スコアＳＣＤが所定の閾値以上であるときに、当該識別対象領域の画像が表す対象をその特徴点であると識別することにより、顔の特徴点Ｘ_ｉ毎にその特徴点の候補Ｑ１_ｉｔを検出するものである。

図２は、第１の特徴点候補検出部４０の構成を示した図である。第１の特徴点候補検出部４０は、図示のように、多重解像度画像生成部４１と、照明正規化部４２と、第１の特徴点検索範囲設定部４３と、第１の特徴点検出器群４５を含む第１の検出処理部４４と、第１の特徴点検出器選択部４６とを備える。

第１の特徴点検出器群４５は、検出する特徴点Ｘ_ｉの種類別に用意された複数種類の特徴点検出器Ｄ１_ｉ（ｉ＝１，２，・・・，Ｎ_Ｄ）から構成されており、各特徴点検出器Ｄ１_ｉは、特開２００５−１０８１９７号公報等に開示されている、いわゆるAdaBoostと呼ばれるマシンラーニングの手法により学習された複数の識別器を用いて特徴点の位置を精度よく検出するものである。すなわち、この第１の特徴点検出器群が、本発明における第１の検出精度および第１のロバスト性を有する特徴点検出器群を表すものである。

この識別器は、ある特定の特徴点の位置が略中心となるように所定の許容度を持って正規化した複数の特徴点サンプル画像と複数の非特徴点サンプル画像の特徴量について学習を行った参照データを参照して、識別対象領域の画像から算出した特徴量に基づいて、当該画像がその特徴点を含む蓋然性を示す識別ポイントを算出するものであり、適当な閾値を設定することで、この識別ポイントの閾値判定により、識別対象の画像が特定の特徴点を略中心に含むか否かを識別できるようになる。

ここで、図１３を参照しながら、ある特定の特徴点の識別器の作成について簡単に説明する。まず、ある特定の特徴点を略中心に含むすべての特徴点サンプル画像について、ある複数種類の特徴量を算出してその特徴量の組合せを求め、そのヒストグラムを作成する。同様に、すべての非特徴点サンプル画像について、同じ複数種類の特徴量の組合せを求め、そのヒストグラムを作成する。これら２つのヒストグラムが示す頻度値の比の対数値等を取って新たにヒストグラムで表したものが、図１３の一番右側に示す、識別器として用いられるヒストグラムである。この識別器のヒストグラムが示す各縦軸（ビン）の値を、以下、識別ポイントと称する。この識別器によれば、正の識別ポイントに対応する特徴量の分布を示す画像は中心にその特定の特徴点を含む画像である可能性が高く、識別ポイントの絶対値が大きいほどその可能性は高まると言える。逆に、負の識別ポイントに対応する特徴量の分布を示す画像はその特定の特徴点でない可能性が高く、識別ポイントの絶対値が大きいほどその可能性は高まる。

このような識別器を、特徴量の組合せ毎に複数作成して用意し、作成した複数の識別器のうち、画像がその特定の特徴点を略中心に含むか否かを識別するのに有効な識別器が、所定のアルゴリズムにより選択される。所定のアルゴリズムとしては、例えば次のようなものが考えられる。はじめに、特徴点および非特徴点の各サンプル画像に予め重み１を等しく付しておき、各識別器に各サンプル画像が特定の特徴点を中心に含む画像であるか否かを識別させて各識別器の重み付き正答率を求め、この各識別器の重み付き正答率を比較して、重み付き正答率が相対的に最も高い識別器を選択するようにする。そして、正答率が悪かったサンプル画像の重みを現時点より大きく設定し直し、再度、各識別器に各サンプル画像の識別を行わせて各識別器の重み付き正答率を求め、重み付き正答率が相対的に最も高い識別器を選択する。このような処理を繰り返すことにより、識別に有効な識別器が順次選択されてゆくことになる。なお、このアルゴリズムの詳細については、特開２００５−１０８１９７号公報を参照されたい。

特徴点検出器Ｄ１_ｉは、後述の正規化済みの解像度画像Ｓ１″_ｋ上で識別対象領域を指定し、指定された識別対象領域の画像に対して、上記の選択された有効な識別器を用いて識別ポイントをそれぞれ算出し、算出されたすべての識別ポイントを加算したものを検出スコアＳＣＤとして出力する。そして、その検出スコアＳＣＤが所定の閾値以上であるか否かを判定し、所定の閾値以上であるときに、その識別対象領域の画像の中心にその特定の特徴点が含まれると識別する。すなわち、その中心位置をその特定の特徴点の候補Ｑ１_ｉｔ（ｔ＝１，・・・，Ｎ_Ｑ１ｉ）の位置として検出する。

なお、識別器の学習に用いる特徴点サンプル画像としては、例えば、数千パターンの異なる特徴点画像をベースに拡縮、回転、アスペクト変換のバリエーションを加え、合わせて数万サンプルを用意する。また、各パッチの解像度は２４×２４画素とし、Haar-likeフィルタの出力値を特徴量として、AdaBoost学習アルゴリズムにより学習を行う。

この識別器は、学習に用いた特徴点を含む画像の当該特徴点の種類と同じ種類の特徴点を識別するので、特徴点の種類がそれぞれ異なる複数種類の特徴点サンプル画像群を用いて学習した複数種類の識別器を用意し、これら複数種類の識別器を用いて特徴点を検出するようにすれば、各種類の特徴点Ｘ_ｉ毎にその特徴点の候補Ｑ１_ｉｔの位置ｑ１_ｉｔを検出することができる。

本実施例では、検出された顔Ｓ１の顔の向きｆが正面に近い場合には、顔の各特徴点Ｘ_ｉとして、左目尻（Ｘ_１）、左目頭（Ｘ_２）、右目頭（Ｘ_３）、右目尻（Ｘ_４）、左小鼻（Ｘ_５）、右小鼻（Ｘ_６）、左口角（Ｘ_７）、右口角（Ｘ_８）、上唇の中点（Ｘ_９）、下唇の中点（Ｘ_１０）の１０種類を用いることとし、一方、検出された顔Ｓ１の顔の向きｆが斜め４５度に近い顔の場合には、顔の各特徴点ｘｉとして、左目尻（Ｘ_１）、左目頭（Ｘ_２）、右目頭（Ｘ_３）、右目尻（Ｘ_４）、鼻先（Ｘ_１１）、左口角（Ｘ_７）、右口角（Ｘ_８）の７種類を用いることにする。したがって、特徴点検出器は、左目尻、左目頭、右目頭、右目尻、左小鼻、右小鼻、左口角、右口角、上唇の中点、下唇の中点、鼻先の１１種類（Ｎ_Ｄ＝１０）について用意しておく。

図１０は、各特徴点検出器が備える識別器の学習に用いる特徴点サンプル画像の例を示す図であり、正面顔用として、左目尻（Ｘ_１）、左目頭（Ｘ_２）、右目頭（Ｘ_３）、右目尻（Ｘ_４）、左小鼻（Ｘ_５）、右小鼻（Ｘ_６）、左口角（Ｘ_７）、右口角（Ｘ_８）、上唇の中点（Ｘ_９）、下唇の中点（Ｘ_１０）の１０種類について示したものである。

なお、特徴点Ｘ_ｉを検出する方法としては、上記のほか、テンプレートマッチングによる方法などを用いてもよい。この場合、特徴点の種類がそれぞれ異なる複数のテンプレート上で特徴点の位置に相当する位置を予め定義しておくなどして、特徴点の位置を求めるようにすればよい。

多重解像度画像生成部４１は、図９に示すように、２００×２００画素サイズの画像である正規化顔画像Ｓ１′を基準に、２の−１／５乗倍刻みで縮小画像（以下、解像度画像と称する）Ｓ１′_ｋ（ｋ＝１，２，・・・，Ｎ_Ｓ１）を生成するものである。このように正規化顔画像Ｓ１′を多重解像度化する理由は、生成された解像度が異なる複数の画像に対して特徴点の候補の検出を行うことにより、顔正規化時の目の位置の精度の良し悪しや顔の向き、個人差によって顔を構成する顔部品の大きさがばらついた場合であっても、顔部品の大きさを少しずつ段階的に変えた複数の画像で特徴点の候補の検出を試みることで、その顔部品のばらつきを吸収し、特徴点の候補を安定して検出することができるようするためである。

照明正規化部４２は、解像度画像のコントラストが特徴点の候補の検出に適した状態となるように、解像度画像の各々に対して正規化処理を施し、正規化済みの解像度画像Ｓ１″_ｋを得るものである。

この正規化処理は、解像度画像のコントラストを特徴点の候補の検出に適した所定のレベル、すなわち、特徴点検出器の性能を引き出すのに適したレベルに近づけるべく、解像度画像全体の画素値をこの画像における被写体の輝度の対数を表す値に近づける変換曲線にしたがって変換する処理である。

図１４は、照明正規化処理に用いる変換曲線の一例を示した図である。この照明正規化処理としては、図示のような、画素値をｓＲＧＢ空間におけるいわゆる逆ガンマ変換（＝２．２乗する）した後にさらに対数をとるような変換曲線（ルックアップテーブル）にしたがって、画像全体における画素値を変換する処理を考えることができる。これは、次のような理由による。

画像として観測される光強度Ｉは、通常、被写体の反射率Ｒと光源の強度Ｌの積として表現される（Ｉ＝Ｒ×Ｌ）。したがって、光源の強度Ｌが変化すると、画像として観測される光強度Ｉも変化することになるが、被写体の反射率Ｒのみを評価することができれば、光源の強度Ｌに依存しない、すなわち、画像の明るさ、すなわち、撮影時の照明の明るさの影響を受けない精度の高い特徴点候補検出を行うことができる。

ここで、光源の強度がＬの場合において、被写体上で反射率がＲ１の部分から観測される光強度をＩ１、被写体上で反射率がＲ２の部分から観測される光強度をＩ２としたとき、それぞれの対数をとった空間では、下記の式が成り立つ。

すなわち、画像における画素値を対数変換することは、反射率の比が差として表現された空間へ変換することとなり、このような空間では、光源の強度Ｌに依存しない被写体の反射率のみを評価することが可能となる。言い換えると、画像中の明るさによって異なるコントラスト（ここでは画素値の差分そのもの）を揃えることができる。

一方、一般的なデジタルカメラ等の機器で取得された画像の色空間はｓＲＧＢである。ｓＲＧＢとは、機器間の色再現の違いを統一するために、色彩、彩度等を規定・統一した国際標準の色空間のことであり、この色空間においては、ガンマ値（γout）が２．２の画像出力機器において適正な色再現を可能にするため、画像の画素値は、入力輝度を１／γout（＝０．４５）乗して得られる値となっている。

そこで、画像全体における画素値を、いわゆる逆ガンマ変換、すなわち、２．２乗した後にさらに対数をとるような変換曲線にしたがって変換することにより、光源の強度に依存しない被写体の反射率のみによる評価を適正に行うことができるようになる。

このような正規化処理は、別の言い方をすれば、画像全体における画素値を、特定の色空間を別の特性を有する色空間に変換する変換曲線にしたがって変換する処理ということができる。

このような処理を画像に施すことにより、画像中の明るさによって異なるコントラストを揃えることができ、特徴点の候補の検出の精度が向上することとなる。

なお、特徴点検出器が備える識別器は、このような正規化処理が施されたサンプル画像を用いて学習されたものである。

第１の特徴点検索範囲設定部４３は、特徴点の候補の検出に要する時間を短縮するため、各特徴点が存在し得る領域でのみ特徴点の検索を行うように、解像度画像上で各特徴点Ｘ_ｉの検索範囲ＳＲ１_ｉを設定するものである。この探索範囲は、後述する、顔を含むトレーニング画像セットにより統計的に求められた特徴点の存在確率分布に基づいて決定し、位置の変動が大きい特徴点ほどその検索範囲を広くして設定するようにする。なお、この特徴点の存在確率分布は後述の第１のデータベース５８に記憶されており、第１の特徴点検索範囲設定部４３は、この存在確率分布を第１のデータベース５８から読み出して、解像度画像Ｓ１″_ｋ毎に、また、特徴点Ｘ_ｉ毎に、検索範囲ＳＲ_１ｉを設定する。

図１１は、探索範囲の一例として、左目尻（Ｘ_１）、右小鼻（Ｘ_６）および左口角（Ｘ_７）の各特徴点それぞれの検索範囲ＳＲ１_１１、ＳＲ１_１６およびＳＲ１_１７を示した図である。口角は個人差も多く比較的変動しやすい特徴点なので、図示のように、目尻や小鼻に比して検索範囲が広く設定される。

第１の特徴点検出器選択部４６は、検出された顔Ｓ１の顔の向きｆが正面に近い場合には、使用する特徴点検出器の種類として、検出する特徴点を、左目尻（Ｘ_１）、左目頭（Ｘ_２）、右目頭（Ｘ_３）、右目尻（Ｘ_４）、左小鼻（Ｘ_５）、右小鼻（Ｘ_６）、左口角（Ｘ_７）、右口角（Ｘ_８）、上唇の中点（Ｘ_９）、下唇の中点（Ｘ_１０）とする１０種類の特徴点検出器を選択し、一方、検出された顔Ｓ１の顔の向きｆが斜め４５度に近い場合には、検出する特徴点を、左目尻（Ｘ_１）、左目頭（Ｘ_２）、右目頭（Ｘ_３）、右目尻（Ｘ_４）、鼻先（Ｘ_１１）、左口角（Ｘ_７）、右口角（Ｘ_８）とする７種類の特徴点検出器を選択するものである。

第１の検出処理部４４は、正規化済みの解像度画像Ｓ１″_ｋの各々に対し、特徴点検出器群Ｄ１_ｉのうち選択された特徴点検出器を用いて、特徴点Ｘ_ｉのうち決められた特徴点の種類毎に、設定された検索範囲内で、特徴点の候補を検出するものである。

第１の特徴点決定部５０は、図３に示すように、第１の特徴点存在確率分布合成部５１と、第１の特徴点候補選択部５２と、第１の特徴点位置決定部５３と、第１のデータベース５８とを備える。

第１のデータベース５８は、予め統計的に求められた、顔の特徴点Ｘ_ｉ毎の、当該特徴点の位置座標ｘ_ｉを基準としたときの、当該特徴点Ｘ_ｉとは異なる他の特徴点Ｘ_ｊのそれぞれの存在確率分布Ｐ１_ｉｊを記憶しているものである。

この存在確率分布Ｐ１_ｉｊは、ある特徴点検出器によって検出された特徴点の位置座標に対する他の特徴点の正解となる点の存在確率分布を、１つの特徴点Ｘ_ｉと１つのその他の特徴点Ｘ_ｊとからなる２つ１組の単位で各組毎に用意されたものであり、特徴点同士の間の位置関係をこれら複数組の確率分布を用いて表現することができるものである。すなわち、この存在確率分布が本発明における特徴点の位置関係を第１の許容度で規定する第１の位置関係モデルを表すものである。ここで、特徴点検出器Ｄ１_ｊの出力座標ｘ１_ｊに対する特徴点Ｘ_ｉの存在確率分布をＰ１_ｉｊ（ｘ_ｉ｜ｘ１_ｊ）と定義するものであり、Ｐ１_ｉｊは２次元のヒストグラムで表される。

この存在確率分布Ｐ１_ｉｊを求めるには、まずトレーニング画像セット（顔の特徴点の正解座標が入力された数千枚の画像）に対して顔の検出を行い、顔が基準位置に位置するように画像を規格化する。図７は、画像から顔を検出し、その顔が画像の中心に所定の大きさで所定の基準位置に位置するように画像を規格化した場合の例を示すものである。

次に、規格化された画像から特徴点検出器Ｄ１_ｉにより特徴点Ｘ_ｉを検出し、その特徴点の座標ｘ１_ｉとその他の特徴点Ｘ_ｊの正解座標ｘ_ｊとのずれを、１つのある種類の特徴点Ｘ_ｉと１つのその他の種類の特徴点Ｘ_ｊとからなる２つ１組の単位で比較、集計する。このような学習によって得られた存在確率分布Ｐ１_ｉｊの例を図１２に示す。なおここでは、特徴点検出器により検出された特徴点の位置を×で表し、対象の特徴点の存在確率分布を画像上の濃淡で表しており、対象の特徴点の存在確率が高いほどその位置における濃度が濃くなるように表現してある。図１２（ａ）は、左目頭検出器Ｄ１_２により検出された左目頭の点の位置座標ｘ_２に対する左目尻の点（位置座標ｘ_１）の存在確率分布Ｐ１_２１を表す図であり、図１２（ｂ）は、当該左目頭の点の位置座標ｘ_２に対する左小鼻の点（位置座標ｘ_５）の存在確率分布Ｐ１_２５を表す図であり、図１２（ｃ）は、当該左目頭の点の位置座標ｘ_２に対する右口角の点（位置座標ｘ_８）の存在確率分布Ｐ１_２８を表す図である。なお、この存在確率分布Ｐ１_ｉｊが表す２次元のヒストグラムの解像度は、正規化顔画像Ｓ１が２００×２００画素サイズである場合に、画像サイズをその１／４とする１００×１００画素サイズとし、学習の効率をよくするとともにデータベースに記憶させる情報量を低減している。

第１の特徴点存在確率分布合成部５１は、第１のデータベース５８に記憶されている存在確率分布Ｐ１_ｉｊを用いて、特徴点Ｘ_ｉ毎に、１つの種類の特徴点Ｘ_ｉとは異なる他の種類の特徴点Ｘ_ｊの各候補Ｑ１_ｊｔの位置をそれぞれ基準としたときの、入力画像Ｓ０上での当該１つの種類の特徴点Ｘ_ｉの存在確率分布Ｐ１_ｉｊ（ｘ_ｉ｜ｑ１_ｊｔ）を求め、当該確率分布を次式にしたがって合成するものである。

ここで、Ｐ１_ｉは特徴点Ｘ_ｉの合成された存在確率分布、Ｐ１_ｉｊ（ｘ_ｉ｜ｑ１_ｊｔ）は特徴点Ｘ_ｊのｔ番目の候補Ｑ１_ｊｔの位置座標ｑ１_ｊｔを基準としたときの特徴点Ｘ_ｉ（位置座標ｘ_ｉ）の存在確率分布、Ｎ_Ｑ１ｊは特徴点Ｘ_ｊの候補の数、Ｎ_Ｄは予め定義した特徴点の種類の数である。

なお、１つの種類の特徴点について多数の候補が検出された場合には、上記式による計算量は増大し計算の所要時間が長くなるので、例えば、候補の数Ｎ_Ｑ１ｊが６つ以上の場合には、検出スコアＳＣＤの高いものから上位５つの候補についてのみ計算するようにしてもよい。

このようにして合成された存在確率分布Ｐ１_ｉは、ある種類の特徴点が存在する位置の、その特徴点とは異なる他の種類の特徴点の位置から見たときの推定結果として考えることができる。

第１の特徴点候補選択部５２は、顔の特徴点Ｘ_ｉ毎に、当該特徴点Ｘ_ｉの合成された存在確率分布Ｐ１_ｉにおける確率を、顔部品の位置関係を示す形状の尤度を表す形状スコアＳＣＧ_１として算出し、この形状スコアＳＣＧ_１の大小と、当該特徴点Ｘ_ｉの候補Ｑ１_ｉｔの位置とに基づいて、当該特徴点の候補Ｑ１_ｉｔの中から候補Ｑ１′_ｉｕ（ｕ＝Ｎ_Ｑ１′ｉ）を選択して絞り込むものである。

本実施例では、形状スコアＳＣＧ_１、すなわち、特徴点Ｘ_ｉの合成された存在確率分布Ｐ１_ｉ上で存在確率が最も高い位置の点を代表点Ｃ１_ｉとし、特徴点の候補Ｑ１_ｉｔのうちその代表点Ｃ１_ｉを略中心とする所定範囲の領域内に存する候補を絞り込むべき候補Ｑ１′_ｉｕとして選択する。

ここで、上記の代表点Ｃ１_ｉは、次式にしたがって定義される。

なお、候補を絞り込む手法としては上記の他、候補Ｑ１_ｉｔのうち、この候補に対応する形状スコアＳＣＧ_１が所定の閾値、例えば、特徴点Ｘ_ｉの合成された存在確率分布Ｐ１_ｉ上での存在確率の最大値から所定値を引いた値以上の形状スコアを有する候補のみを選択して絞り込む手法を用いてもよい。

第１の特徴点位置決定部５３は、顔の特徴点Ｘ_ｉ毎に、第１の特徴点候補選択部５２により絞り込まれた候補について、各候補の位置座標をその候補が検出されたときの検出スコアでそれぞれ重み付けしたときの、位置座標の重み付き平均を算出し、当該算出された位置座標を特徴点Ｘ_ｉの位置として決定する。

本実施例では、重み係数Weight１_ｉｕを次式に従って算出し、ΣWeight１_ｉｕ×ｑ１′_ｉｕで表される位置座標を特徴点Ｘ_ｉの位置として決定する。

ここで、ｘ_ｉは特徴点Ｘ_ｉの位置座標、ｑ１′_ｉｕは候補Ｑ１′_ｉｕの位置座標、Weight１_ｉｕは重み係数、ＳＣＤ_１ｉｕは候補Ｑ１′_ｉｕの検出スコア、ＳＣＤ_{１ｉｍａｘ}は候補Ｑ１′_ｉｕの中での検出スコアの最大値、Ｎ_１ｎｏｒは、Σweight１_ｉｕ＝１となるように定義された正規化定数である。

なお、特徴点の決定方法は本実施例に限定されるわけではなく、例えば、絞り込まれた候補について、各候補の位置座標をその候補に対応する形状スコアでそれぞれ重み付けしたときの、位置座標の重み付き平均を特徴点Ｘ_ｉの位置として決定してもよいし、各候補の位置座標をその候補に対応する検出スコアと形状スコアの合算値でそれぞれ重み付けしたときの、位置座標の重み付き平均を特徴点Ｘ_ｉの位置として決定してもよい。あるいは、絞り込まれた候補の中で、検出スコアが最大の候補の位置座標、形状スコアが最大の候補の位置座標、または、検出スコアと形状スコアの合算値が最大の候補の位置座標を特徴点Ｘ_ｉの位置として決定してもよい。

第２の顔正規化部６０は、第１の特徴点決定部５０により決定された各特徴点がそれぞれ所定の基準位置に近づくように、入力画像Ｓ０に対して再び幾何学的正規化処理を施し、顔を含む画像を切り出して新たな正規化顔画像を得るものである。ただし、実際には、処理の効率化を考え、既に顔Ｓ１の特徴点が検出された解像度画像Ｓ１″_ｋに対して幾何学的正規化処理を施して、正規化顔画像Ｓ２″_ｋを得る。

このときの幾何学的正規化処理は、アスペクト比を維持した拡大縮小、回転、平行移動のみを考慮したアフィン変換を用いる。このアフィン変換を式で表すと、次式のようになる。

ここで、（ｘ，ｙ）は変換前の画素の座標、（ｘ′，ｙ′）は変換後の画素の座標、ａ，ｂ，ｃ，ｄはそれぞれ変換のパラメータを表している。

第２の特徴点候補検出部７０は、正規化顔画像Ｓ２″_ｋ上で指定した判定対象領域の画像に対して、当該画像の略中心に特徴点が含まれる蓋然性を示す検出スコアＳＣＤを算出し、当該検出スコアＳＣＤが所定の閾値以上であるときに、当該判定対象領域の画像が表す対象をその特徴点であると判定することにより、顔の特徴点Ｘ_ｉ毎にその特徴点の候補Ｑ_２ｉｔを検出するものである。

第２の特徴点候補検出部７０は、図４に示すように、第２の特徴点検索範囲設定部７３と、第２の特徴点検出器群７５を含む第２の検出処理部７４と、第２の特徴点検出器選択部７６とを備えている。

第２の特徴点検出器群７５は、第２の特徴点検出器群４５と同様に、検出する特徴点Ｘ_ｉの種類別に用意された複数種類の特徴点検出器Ｄ２_ｉから構成されており、各特徴点検出器Ｄ２_ｉは、いわゆるAdaBoostと呼ばれるマシンラーニングの手法により学習された複数の識別器を用いて特徴点の位置を精度よく検出するものである。すなわち、この第２の特徴点検出器群が、本発明における第２の検出精度および第２のロバスト性を有する特徴点検出器群を表すものである。

ただし、この識別器は、ある特定の特徴点の位置が略中心となるように、特徴点検出器Ｄ１_ｉの場合よりもより小さい許容度を持って正規化した複数の特徴点サンプル画像と複数の非特徴点サンプル画像の特徴量について学習を行った参照データを参照して、識別対象領域の画像から算出した特徴量に基づいて、当該画像がその特徴点を含む蓋然性を示す識別ポイントを算出し、この識別ポイントの閾値判定により、識別対象の画像が特定の特徴点を略中心に含むか否かを識別するものである。したがって、特徴点検出器Ｄ２_ｉは、特徴点検出器Ｄ１_ｉよりも検出精度が高い反面、ロバスト性が低いという特徴を有する。

第２の特徴点検索範囲設定部７３は、第１の特徴点検索範囲設定部４３と同様に、各特徴点が存在し得る領域でのみ特徴点の検索を行うように、正規化顔画像Ｓ２″_ｋ上で各特徴点Ｘ_ｉの検索範囲ＳＲ２_ｉを設定するものである。この探索範囲は、後述の第２のデータベース８８に記憶されている特徴点の存在確率分布に基づいて決定し、位置の変動が大きい特徴点ほどその検索範囲を広くして設定するようにする。

第２の特徴点検出器選択部７６は、第１の特徴点検出器選択部４６と同様に、検出された顔Ｓ１の顔の向きｆに応じて特徴点検出器Ｄ２_ｉの中から特徴点の検出に利用する特徴点検出器を選択するものである。

第２の検出処理部７４は、第１の検出処理部４４と同様に、正規化顔画像Ｓ２″_ｋに対し、第２の特徴点検出器選択部７６によって選択された特徴点検出器を用いて、特徴点Ｘ_ｉのうち決められた特徴点の種類毎に、設定された検索範囲内で、特徴点の候補を検出するものである。

第２の特徴点決定部８０は、図５に示すように、第２の特徴点存在確率分布合成部８１と、第２の特徴点候補選択部８２と、第２の特徴点位置決定部８３と、第２のデータベース８８とを備える。

第２のデータベース８８は、第１のデータベース５８と同様に、予め統計的に求められた、顔の特徴点Ｘ_ｉ毎の、当該特徴点の位置座標ｘ_ｉを基準としたときの、当該特徴点Ｘ_ｉとは異なる他の特徴点Ｘ_ｊのそれぞれの存在確率分布Ｐ２_ｉｊを記憶しているものである。

この存在確率分布Ｐ２_ｉｊは、ある特徴点検出器によって検出された特徴点の位置座標に対する他の特徴点の正解となる点の存在確率分布を、１つの種類の特徴点Ｘ_ｉと１つのその他の種類の特徴点Ｘ_ｊとからなる２つ１組の単位で各組毎に用意されたものであり、特徴点同士の間の位置関係をこれら複数組の確率分布を用いて表現することができるものである。すなわち、この存在確率分布が本発明における特徴点の位置関係を第２の許容度で規定する第２の位置関係モデルを表すものである。

ここで、特徴点検出器Ｄ２_ｊの出力座標ｘ２_ｊに対する、特徴点Ｘ_ｉの存在確率分布をＰ２_ｉｊ（ｘ_ｉ｜ｘ２_ｊ）と定義するものであり、Ｐ２_ｉｊは２次元のヒストグラムで表される。

この存在確率分布Ｐ２_ｉｊを求める手順は次の通りである。まず、特徴点の正解座標が分かっているトレーニング画像に対して、顔検出部２０、第１の顔正規化部３０、第１の特徴点候補検出部４０、および第１の特徴点決定部５０を適用して、特徴点Ｘ_ｉの種類別に特徴点の位置を決定する。次に、その決定された特徴点の位置に基づいて第２の顔正規化部６９により正規化された正規化顔画像を求め、その正規化顔画像上で第２の特徴点検出器群７５を構成する特徴点検出器Ｄ２_ｉにより特徴点Ｘ_ｉを検出し、その特徴点の座標ｘ２_ｉとその他の特徴点Ｘ_ｊの正解座標ｘ_ｊとのずれを、１つの特徴点Ｘ_ｉと１つのその他の特徴点Ｘ_ｊとからなる２つ１組の単位で比較、集計する。このような処理を多数のトレーニング画像に対して行い、統計的に学習して前述の存在確率分布Ｐ２_ｉｊを求める。

第２の特徴点存在確率分布合成部８１は、第２のデータベース８８に記憶されている存在確率分布Ｐ２_ｉｊを用いて、特徴点Ｘ_ｉ毎に、１つの特徴点Ｘ_ｉとは異なる他の特徴点Ｘ_ｊの各候補Ｑ２_ｊｔの位置をそれぞれ基準としたときの、入力画像Ｓ０上での当該１つの特徴点Ｘ_ｉの存在確率分布Ｐ２_ｉｊ（ｘ_ｉ｜ｑ２_ｊｔ）を求め、当該確率分布を次式にしたがって合成するものである。

ここで、Ｐ２_ｉは特徴点Ｘ_ｉの合成された存在確率分布、Ｐ２_ｉｊ（ｘ_ｉ｜ｑ２_ｊｔ）は特徴点Ｘ_ｊのｔ番目の候補Ｑ２_ｊｔの位置座標ｑ２_ｊｔを基準としたときの特徴点Ｘ_ｉ（位置座標ｘ_ｉ）の存在確率分布、Ｎ_Ｑ２ｊは特徴点Ｘ_ｊの候補の数、Ｎ_Ｄは予め定義した特徴点の種類の数である。

第２の特徴点候補選択部８２は、顔の特徴点Ｘ_ｉ毎に、当該特徴点Ｘ_ｉの合成された存在確率分布Ｐ２_ｉにおける確率を、顔部品の形状の尤度を表す形状スコアＳＣＧ_２として算出し、この形状スコアＳＣＧ_２の大小と、当該特徴点Ｘ_ｉの候補Ｑ２_ｉｔの位置とに基づいて、当該特徴点の候補Ｑ２_ｉｔの中から候補Ｑ２′_ｉｕ（ｕ＝Ｎ_Ｑ２′ｉ）を選択して絞り込むものである。

本実施例では、形状スコアＳＣＧ_２、すなわち、特徴点Ｘ_ｉの合成された存在確率分布Ｐ２_ｉ上で存在確率が最も高い位置の点を代表点Ｃ２_ｉとし、特徴点の候補Ｑ２_ｉｔのうちその代表点Ｃ２_ｉを略中心とする所定範囲の領域内に存する候補を絞り込むべき候補Ｑ２′_ｉｕとして選択する。

なお、候補を絞り込む手法としては、第１の特徴点候補選択部５２と同様に、候補Ｑ２_ｉｔのうち、この候補に対応する形状スコアＳＣＧ_２が所定の閾値、例えば、特徴点Ｘ_ｉの合成された存在確率分布Ｐ２_ｉ上での存在確率の最大値から所定値を引いた値以上の形状スコアを有する候補のみを選択して絞り込む手法を用いてもよい。

第２の特徴点位置決定部８３は、顔の特徴点Ｘ_ｉ毎に、第２の特徴点候補選択部８２により絞り込まれた候補について、各候補の位置座標をその候補が検出されたときの検出スコアでそれぞれ重み付けしたときの、位置座標の重み付き平均を算出し、当該算出された位置座標を特徴点Ｘ_ｉの位置として決定する。

本実施例では、重み係数Weight２_ｉｕを次式に従って算出し、ΣWeight２_ｉｕ×ｑ２′_ｉｕで表される位置座標を特徴点Ｘ_ｉの位置として決定する。

ここで、ｘ_ｉは特徴点Ｘ_ｉの位置座標、ｑ２′_ｉｕは候補Ｑ２′_ｉｕの位置座標、Weight２_ｉｕは重み係数、ＳＣＤ_２ｉｕは候補Ｑ２′_ｉｕの検出スコア、ＳＣＤ_{２ｉｍａｘ}は候補Ｑ２′_ｉｕの中での検出スコアの最大値、Ｎ_２ｎｏｒは、Σweight２_ｉｕ＝１となるように定義された正規化定数である。

なお、特徴点の決定方法は第１の特徴点位置決定部５３と同様に、本実施例に限定されるわけではなく、例えば、絞り込まれた候補について、各候補の位置座標をその候補に対応する形状スコアでそれぞれ重み付けしたときの、位置座標の重み付き平均を特徴点Ｘ_ｉの位置として決定してもよいし、各候補の位置座標をその候補に対応する検出スコアと形状スコアの合算値でそれぞれ重み付けしたときの、位置座標の重み付き平均を特徴点Ｘ_ｉの位置として決定してもよい。あるいは、絞り込まれた候補の中で、検出スコアが最大の候補の位置座標、形状スコアが最大の候補の位置座標、または、検出スコアと形状スコアの合算値が最大の候補の位置座標を特徴点Ｘ_ｉの位置として決定してもよい。

次に、本実施形態において行われる処理について説明する。図６は、本実施形態において行われる処理を示すフローチャートである。

まず、画像入力部１０が顔およびその特徴点の検出対象となる画像Ｓ０の入力を受け付ける（ステップＳＴ１）。次に、顔検出部２０が入力画像Ｓ０に含まれる顔Ｓ１を検出し、その顔Ｓ１の両目の位置と顔の向きｆの情報を取得する（ステップＳＴ２）。第１の顔正規化部３０は、検出された顔Ｓ１について、入力画像Ｓ０から相対的な大きさや位置が正規化された顔Ｓ１を含む所定サイズの画像を切り出して正規化顔画像Ｓ１′を得る（ステップＳＴ３）。

正規化顔画像Ｓ１′が得られると、多重解像度画像生成部４１が、正規化顔画像Ｓ１′を基準に解像度が異なる複数の解像度画像Ｓ１′_ｋを生成し、照明正規化部４２が、照明の明るさの影響を受けずに特徴点候補を検出できるように、解像度画像Ｓ１′_ｋに対して画像のコントラストの正規化を行う。そして、第１の特徴点検索範囲設定部４３は、第１のデータベース５８に記憶されている存在確率分布Ｐ１_ｉｊに基づいて解像度画像上で各特徴点Ｘ_ｉの検索範囲ＳＲ１_ｉを設定する。第１の特徴点検出器選択部４６は、検出された顔Ｓ１の顔の向きｆに応じて利用する特徴点検出器の種類を特徴点検出器を第１の特徴点検出器群４５の中から選択し、第１の検出処理部４４は、解像度画像Ｓ１′_ｋに対して選択された特徴点検出器を適用する。すなわち、正規化顔画像Ｓ１′上で指定した判定対象領域の画像に対し、当該画像の略中心に特徴点が含まれる蓋然性を示す検出スコアＳＣＤ_１を算出し、当該検出スコアＳＣＤ_１の閾値判定により、顔の特徴点Ｘ_ｉ毎にその特徴点の候補Ｑ１_ｉｔを少なくとも１つ検出する（ステップＳＴ４）。

特徴点の候補が検出されると、第１の特徴点存在確率合成部５１は、第１のデータベース５８に記憶されている存在確率分布Ｐ１_ｉｊを用いて、特徴点Ｘ_ｉ毎に、１つの特徴点Ｘ_ｉとは異なる他の特徴点Ｘ_ｊの各候補Ｑ１_ｊｔの位置をそれぞれ基準としたときの、入力画像Ｓ０上での当該１つの特徴点Ｘ_ｉの存在確率分布Ｐ１_ｉｊ（ｘ_ｉ｜ｑ１_ｊｔ）を求め、当該確率分布を上記の式（３）にしたがって合成する。第１の特徴点候補選択部５２は、形状スコアＳＣＧ_１、すなわち、特徴点Ｘ_ｉの合成された存在確率分布Ｐ１_ｉ上で存在確率が最も高い位置の点を代表点Ｃ１_ｉとし、特徴点の候補Ｑ１_ｉｔのうちその代表点Ｃ１_ｉを略中心とする所定範囲の領域内に存する候補を絞り込むべき候補Ｑ１′_ｉｕとして選択する。そして、第１の特徴点位置決定部５３が、顔の特徴点Ｘ_ｉ毎に、第１の特徴点候補選択部５２により絞り込まれた候補について、各候補の位置座標をその候補が検出されたときの検出スコアでそれぞれ重み付けしたときの、位置座標の重み付き平均を算出し、当該算出された位置座標を特徴点Ｘ_ｉの位置として決定する（ステップＳＴ５）。

第１の特徴点位置決定部５３により各特徴点Ｘ_ｉの位置が決定されると、第２の顔正規化部６０は、それら決定された各特徴点がそれぞれ所定の基準位置に近づくように、既に顔Ｓ１の特徴点が検出された解像度画像Ｓ１″_ｋに対して、アスペクト比を維持した拡大縮小、回転、平行移動のみを考慮したアフィン変換を行い、顔を含む画像を切り出して新たな正規化顔画像Ｓ２″_ｋを得る（ステップＳＴ６）。

正規化顔画像Ｓ２″_ｋが得られると、第２の特徴点検索範囲設定部７３は、第２のデータベース８８に記憶されている存在確率分布Ｐ２_ｉｊに基づいて正規化顔画像Ｓ２″_ｋ上で各特徴点Ｘ_ｉの検索範囲ＳＲ２_ｉを設定する。第２の特徴点検出器選択部７６は、検出された顔Ｓ１の顔の向きｆに応じて利用する特徴点検出器の種類を特徴点検出器を第２の特徴点検出器群７５の中から選択し、第２の検出処理部７４は、正規化顔画像Ｓ２″_ｋに対して、選択された特徴点検出器を適用する。すなわち、正規化顔画像Ｓ２″_ｋ上で指定した判定対象領域の画像に対し、当該画像の略中心に特徴点が含まれる蓋然性を示す検出スコアＳＣＤ_２を算出し、当該検出スコアＳＣＤ_２の閾値判定により、顔の特徴点Ｘ_ｉ毎にその特徴点の候補Ｑ２_ｉｔを少なくとも１つ検出する（ステップＳＴ７）。

特徴点の候補が検出されると、第２の特徴点存在確率合成部８１は、第２のデータベース８８に記憶されている存在確率分布Ｐ２_ｉｊを用いて、特徴点Ｘ_ｉ毎に、１つの特徴点Ｘ_ｉとは異なる他の特徴点Ｘ_ｊの各候補Ｑ２_ｊｔの位置をそれぞれ基準としたときの、入力画像Ｓ０上での当該１つの特徴点Ｘ_ｉの存在確率分布Ｐ２_ｉｊ（ｘ_ｉ｜ｑ２_ｊｔ）を求め、当該確率分布を上記の式（７）にしたがって合成する。第２の特徴点候補選択部８２は、形状スコアＳＣＧ_２、すなわち、特徴点Ｘ_ｉの合成された存在確率分布Ｐ２_ｉ上で存在確率が最も高い位置の点を代表点Ｃ２_ｉとし、特徴点の候補Ｑ２_ｉｔのうちその代表点Ｃ２_ｉを略中心とする所定範囲の領域内に存する候補を絞り込むべき候補Ｑ２′_ｉｕとして選択する。そして、第２の特徴点位置決定部８３が、顔の特徴点Ｘ_ｉ毎に、第２の特徴点候補選択部８２により絞り込まれた候補について、各候補の位置座標をその候補が検出されたときの検出スコアでそれぞれ重み付けしたときの、位置座標の重み付き平均を算出し、当該算出された位置座標を特徴点Ｘ_ｉの位置として決定する。そして、このようにして最終的に決定された特徴点Ｘ_ｉの位置を、真の特徴点の位置としてその位置の情報を出力する（ステップＳＴ８）。

このような本実施形態による顔特徴点検出システムによれば、入力画像Ｓ０における顔Ｓ１の複数種類の特徴点の候補を、第１の検出精度および第１のロバスト性を有する第１の特徴点検出器群４５を用いて検出し、その検出された特徴点の候補の位置と、上記複数種類の特徴点同士の位置関係を第１の許容度で規定する第１の位置関係モデルとに基づいて、第１の位置関係モデルで拘束された位置関係を有する上記複数種類の特徴点を決定した後、その決定された上記複数種類の特徴点の各々の近傍で、特徴点の候補を、第１の検出精度より高い第２の検出精度および第１のロバスト性より低い第２のロバスト性を有する第２の特徴点検出器群７５を用いて検出し、その検出された特徴点の候補の位置と、上記複数種類の特徴点同士の位置関係を第１の許容度より小さい第２の許容度で規定する第２の位置関係モデルとに基づいて、第２の位置関係モデルで拘束された位置関係を有する上記複数種類の特徴点を決定するようしているので、比較的粗い検出の後に比較的細かい検出を行うという２段階構成の採用により高速で検出精度がよい特徴点検出を行うことができるとともに、特徴点同士の位置関係の拘束により不正解の特徴点候補を排除することができ、画像に含まれる顔Ｓ１の複数種類の特徴点を、高速に精度よくかつ安定して検出することができる。

また、本実施形態による顔特徴点検出システムによれば、粗い特徴点検出の後、第２の顔正規化処理、すなわち、検出された各特徴点の位置が所定の基準位置に近づくような、アスペクト比を維持した幾何学的正規化処理を行ってから、細かい特徴点検出を行うようにしているので、粗い特徴点検出を行う前の段階で規格化しきれなかった顔の幾何学的なずれを補正する機会を得ることができ、特徴点の検出精度をより向上させることができる。

また、本実施形態による顔特徴点検出システムによれば、特徴点の種類毎に、第１および第２の特徴点候補選択部により絞り込まれた特徴点の各候補の位置座標をその候補が検出されたときの検出スコアでそれぞれ重み付けしたときの重み付き平均を算出し、この重み付き平均で表された位置座標を特徴点の位置として決定しているので、特徴点の正解位置から大きくずれた位置に単独で存在するような不正解の候補の影響を抑えることができる。

なお、この場合、式（5-1），（5-2）、式（9-1），（9-2）等の指数関数的に表現された重み付け係数を用いて重み付き平均を求めるようにするとよい。このような重み付き平均から特徴点の位置を決定する手法によれば、特徴点の位置の精度がより向上することが、本出願人の実験により明らかになっている。

以上、本発明の望ましい実施形態について説明したが、本発明の装置および方法並びにそのためのプログラムは、上述した実施形態に限られることなく、本発明の主旨を逸脱しない限り、様々な増減、変化を加えることができる。

本発明の実施形態である顔特徴点検出システムの構成を示すブロック図第１の特徴点候補検出部４０の構成を示すブロック図第１の特徴点決定部５０の構成を示すブロック図第２の特徴点候補検出部７０の構成を示すブロック図第２の特徴点決定部８０の構成を示すブロック図本発明の実施形態である顔特徴点検出システムにおける処理を示すフローチャート顔正規化処理の様子を示す図１つの特徴点を基準としたときその他の特徴点の位置の確率分布の例を示す図多重解像度化処理の様子を示す図特徴点検出器が備える識別器の学習に用いる特徴点のサンプル画像の例を示す図画像上で特徴点別に設定された検索範囲の例を示す図統計的に求められた特徴点の存在確率分布の例を示す図識別器の導出方法を示す図照明正規化処理に用いる画素値の変換曲線の一例を示す図

符号の説明

１０画像入力部
２０顔検出部
３０第１の顔正規化部
４０第１の特徴点候補検出部
４１多重解像度画像生成部
４２照明正規化部
４３第１の特徴点検索範囲設定部
４４第１の特徴点検出器選択部
４５第１の特徴点検出器群
５０第１の特徴点決定部
５１第１の特徴点存在確率分布合成部
５２第１の特徴点候補選択部
５３第１の特徴点位置決定部
５８第１のデータベース
６０第２の顔正規化部
７０第２の特徴点候補検出部
７３第２の特徴点検索範囲設定部
７４第２の特徴点検出器選択部
７５第２の特徴点検出器群
８０第２の特徴点決定部
８１第２の特徴点存在確率分布合成部
８２第２の特徴点候補選択部
８３第２の特徴点位置決定部
８８第２のデータベース

Claims

検出対象画像における所定対象物の複数種類の特徴点の候補を、マシンラーニングにより生成された第１の検出精度および第１のロバスト性を有する第１の特徴点検出器群を用いて、前記種類毎に少なくとも１つ検出する第１の特徴点候補検出手段と、
該第１の特徴点候補検出手段により検出された特徴点の候補の位置と、前記複数種類の特徴点同士の位置関係を第１の許容度で規定する第１の位置関係モデルとに基づいて、該第１の位置関係モデルで拘束された位置関係を有する前記複数種類の暫定特徴点を決定する第１の特徴点決定手段と、
該第１の特徴点決定手段により決定された前記複数種類の暫定特徴点の各々の近傍で、特徴点の候補を、マシンラーニングにより生成された前記第１の検出精度より高い第２の検出精度および前記第１のロバスト性より低い第２のロバスト性を有する第２の特徴点検出器群を用いて、前記種類毎に少なくとも１つ検出する第２の特徴点候補検出手段と、
該第２の特徴点候補検出手段により検出された特徴点の候補の位置と、前記複数種類の特徴点同士の位置関係を前記第１の許容度より小さい第２の許容度で規定する第２の位置関係モデルとに基づいて、前記第２の位置関係モデルで拘束された位置関係を有する前記複数種類の最終特徴点を決定する第２の特徴点決定手段とを備えたことを特徴とする特徴点検出装置。
前記検出対象画像に対して、前記第１の特徴点決定手段により決定された前記複数種類の暫定特徴点をそれぞれ所定の基準位置に近づける、アスペクト比を維持した幾何学的正規化処理を施す正規化手段をさらに備え、
前記第２の特徴点候補検出手段が、前記正規化手段により正規化された検出対象画像上で前記候補を検出するものであることを特徴とする請求項１記載の特徴点検出装置。
前記第１の特徴点決定手段が、
前記複数種類の特徴点の中の２つの異なる特徴点からなる組合せ毎に統計的に求められた、一方の特徴点の位置を基準としたときの他方の特徴点の画像上の存在確率分布を用いて、１つの種類の特徴点について、他の種類の特徴点の前記検出された候補の位置を基準としたときの該１つの種類の特徴点の存在確率分布を、該他の特徴点の候補毎にそれぞれ求め、該求められた存在確率分布を合成する処理を、特徴点の前記種類毎に行う第１の存在確率分布合成手段と、
１つの種類の特徴点について、該１つの種類の特徴点の前記検出された候補の位置と、該１つの種類の特徴点の前記合成された存在確率分布における存在確率の大小とに基づいて、該１つの種類の特徴点の候補を前記検出された候補の中から選択して絞り込む処理を、特徴点の前記種類毎に行う第１の特徴点候補選択手段と、
特徴点の前記種類毎に、該種類の特徴点の前記選択された候補の位置に基づいて、該種類の暫定特徴点の位置を決定する第１の特徴点位置決定手段とを備えたものであることを特徴とする請求項１または２記載の特徴点検出装置。
前記第１の特徴点候補選択手段が、特徴点の前記種類毎に、前記検出された候補のうち、該種類の特徴点の前記合成された存在確率分布における存在確率が最も高い位置の点を代表とする所定領域内に存する候補を選択するものであることを特徴とする請求項３記載の特徴点検出装置。
前記第１の特徴点候補選択手段が、特徴点の前記種類毎に、前記検出された候補のうち、該候補の位置に対応した、前記種類の特徴点の前記合成された存在確率分布における存在確率が所定の閾値以上である候補を選択するものであることを特徴とする請求項３記載の特徴点検出装置。
前記第１の特徴点候補検出手段が、前記検出対象画像上の識別対象画像が特徴点を含む画像である蓋然性を示す確信度の閾値判定に基づいて、該識別対象画像における対象を該特徴点の候補として検出するものであり、
前記第１の特徴点位置決定手段が、特徴点の前記種類毎に、該種類の特徴点について選択されたすべての候補の位置座標を、該候補に対して算出された前記確信度で重み付けしたときの、前記位置座標の重み付き平均を該種類の暫定特徴点の位置座標として決定するものであることを特徴とする請求項３、４または５記載の特徴点検出装置。
前記第１の特徴点位置決定手段が、特徴点の前記種類毎に、該種類の特徴点について選択されたすべての候補の位置座標を、該候補の位置に対応した、該種類の特徴点の前記合成された存在確率分布における存在確率で重み付けしたときの、前記位置座標の重み付き平均を該種類の暫定特徴点の位置座標として決定するものであることを特徴とする請求項３、４または５記載の特徴点検出装置。
前記所定対象物が、人物の顔であることを特徴とする請求項１から７いずれか記載の特徴点検出装置。
検出対象画像における所定対象物の複数種類の特徴点の候補を、マシンラーニングにより生成された第１の検出精度および第１のロバスト性を有する第１の特徴点検出器群を用いて、前記種類毎に少なくとも１つ検出する第１の特徴点候補検出ステップと、
該第１の特徴点候補検出ステップにより検出された特徴点の候補の位置と、前記複数種類の特徴点同士の位置関係を第１の許容度で規定する第１の位置関係モデルとに基づいて、前記第１の位置関係モデルで拘束された位置関係を有する前記複数種類の暫定特徴点を決定する第１の特徴点決定ステップと、
該第１の特徴点決定ステップにより決定された前記複数種類の暫定特徴点の各々の近傍で、特徴点の候補を、マシンラーニングにより生成された前記第１の検出精度より高い第２の検出精度および前記第１のロバスト性より低い第２のロバスト性を有する第２の特徴点検出器群を用いて、前記種類毎に少なくとも１つ検出する第２の特徴点候補検出ステップと、
該第２の特徴点候補検出ステップにより検出された特徴点の候補の位置と、前記複数種類の特徴点同士の位置関係を前記第１の許容度より小さい第２の許容度で規定する第２の位置関係モデルとに基づいて、前記第２の位置関係モデルで拘束された位置関係を有する前記複数種類の最終特徴点を決定する第２の特徴点決定ステップとを有することを特徴とする特徴点検出方法。
コンピュータを、
検出対象画像における所定対象物の複数種類の特徴点の候補を、マシンラーニングにより生成された第１の検出精度および第１のロバスト性を有する第１の特徴点検出器群を用いて、前記種類毎に少なくとも１つ検出する第１の特徴点候補検出手段と、
該第１の特徴点候補検出手段により検出された特徴点の候補の位置と、前記複数種類の特徴点同士の位置関係を第１の許容度で規定する第１の位置関係モデルとに基づいて、前記第１の位置関係モデルで拘束された位置関係を有する前記複数種類の暫定特徴点を決定する第１の特徴点決定手段と、
該第１の特徴点決定手段により決定された前記複数種類の暫定特徴点の各々の近傍で、特徴点の候補を、マシンラーニングにより生成された前記第１の検出精度より高い第２の検出精度および前記第１のロバスト性より低い第２のロバスト性を有する第２の特徴点検出器群を用いて、前記種類毎に少なくとも１つ検出する第２の特徴点候補検出手段と、
該第２の特徴点候補検出手段により検出された特徴点の候補の位置と、前記複数種類の特徴点同士の位置関係を前記第１の許容度より小さい第２の許容度で規定する第２の位置関係モデルとに基づいて、前記第２の位置関係モデルで拘束された位置関係を有する前記複数種類の最終特徴点を決定する第２の特徴点決定手段として機能させるためのプログラム。