JP2013015891A

JP2013015891A - 画像処理装置、画像処理方法及びプログラム

Info

Publication number: JP2013015891A
Application number: JP2011146332A
Authority: JP
Inventors: Masami Kato; 政美加藤
Original assignee: Canon Inc
Current assignee: Canon Inc
Priority date: 2011-06-30
Filing date: 2011-06-30
Publication date: 2013-01-24

Abstract

【課題】画像中の対象物の状態によらず、正しい正規化処理を行うことができるようにする。
【解決手段】下位レベル特徴点位置決定部１０１は、画像の中の対象物に対応する複数の下位レベル特徴点の位置を決定し、属性判定処理部１０２は、下位レベル特徴点の位置に基づいて前記対象物の表情を判定する。そして、上位レベル特徴点位置決定部１０３は、複数の下位レベル特徴点の位置と、前記判定された表情とに基づいて、前記対象物を代表する上位レベル特徴点の位置を決定するようにして、様々な表情に対しても上位レベル特徴点の位置を適切に決定し、精度の高い正規化処理を行うことができるようにする。
【選択図】図１

Description

本発明は画像処理装置、画像処理方法及びプログラムに関し、特に、顔などの識別処理を行うために用いて好適な技術に関する。

顔画像データから個人を特定する顔認証処理では、一般的に、目、鼻、口等の顔器官を検出し、顔器官の位置や顔位置に基づいて顔画像を正規化する。そして、正規化後に器官位置や顔位置に基づいて特徴量を抽出し、抽出した特徴量に基づいて識別処理を行うことが多い。

顔器官に関連する特徴点を検出する方法としては、例えば非特許文献１に記載されているActive Shape Model法（以下、ＡＳＭ法とする）が知られている。ＡＳＭ法は、検出する多数の特徴点の配置関係をPoint Distribution Model（以下、ＰＤＭとする）と呼ばれる統計的なモデルで表現し、当該モデルを用いて配置に幾何学的な拘束を与えながら特徴点を探索する。これにより、対象物の輪郭に対応する複数の特徴点の正確な位置を検出できるようにしている。

ＡＳＭ法など多数の特徴点の検出結果を利用した顔認証方法では、特徴点の検出結果から目や口、顔の中心位置を算出し、当該算出結果に基づいて顔画像を所定のサイズや角度に正規化して識別処理を行う。

一方、特許文献１には、顔の表情変化に対する頑健性を向上した顔認証方法が提案されている。この手法では、正規化した顔画像から顔の属性（顔の表情や顔の向き等）を判断し、属性に基づいて特徴量を抽出する特徴点の位置を決定している。

特開２００９−８７２０９号公報

T.F.Cootes, C.J.Taylor, "Active Shape Models - 'Smart Snakes'." Proc. British Machine Vision Conference. Springer-Verlag, 1992, pp.266-275.

ＡＳＭ法等により決定した特定部位のエッジやコーナーといった多数の下位レベル特徴点から目や口等の上位レベル特徴点を決定する手法は、上位レベル特徴点を直接決定する手法に比べて、一般的に安定性が高い。ＡＳＭ法を用いた下位レベル特徴点の抽出方法では、表情の変動等を含む学習データに基づいてＰＤＭを生成することにより、特徴点の位置が変動しても追従が可能である。

ところが、表情の変動等により例えば、まぶたに対応するエッジ位置や口角に対応するコーナーの位置等の一部の下位レベル特徴点の位置が大きく変動した場合、対応する上位レベル特徴点の位置が変動する。このため、上位レベル特徴点を利用する顔画像の幾何学的な正規化処理に誤差が生じ、顔認証に適用した場合、その性能が低下する。同様に、上位レベル特徴点の位置を基準として識別処理を行う場合、その基準点位置の変動により性能が低下する。

図２は、下位レベル特徴点から上位レベル特徴点を求める方法の一例を具体的に示す図である。
図２に示すように、向かって右目の中心位置を示す上位レベル特徴点２２３は、４つの下位レベル特徴点２０５〜２０８の座標値の平均値から求められる。同様に、向かって左目の中心位置を示す上位レベル特徴点２２４は、下位レベル特徴点２０１〜２０４の座標値の平均値から求められる。

一方、口の中心位置を示す上位レベル特徴点２２６は、下位レベル特徴点２１２〜２１５の座標値の平均値から求められる。また、顔の中心位置を示す上位レベル特徴点２２５は全ての下位レベル特徴点２０１〜２２２に基づいて求められる。なお、後段の正規化処理では、左右の目の間隔を示す線分２２７の長さが所定の値になる様に顔画像データが変形（変倍）される。また、線分２２７と直交し、かつ口の中心位置を示す上位レベル特徴点２２６を通る線分２２８は顔の高さを示しており、後段の正規化処理では、線分２２８が所定の長さで、かつ画像の垂直軸と平行になる様に顔画像データが変形（変倍及び回転処理）される。

図３は、片目を瞑っている顔に対して、上位レベル特徴点を求める方法の一例を示す図である。
図２に示す例と比較すると、下位レベル特徴点２０７の位置が変動しているため、向かって右目の中心位置を示す上位レベル特徴点３０１の座標が変動する。このため、目幅を示す線分３０２及び顔の高さを示す線分３０３の方向及び長さが変化する。さらに、顔の中心位置を示す上位レベル特徴点３０４の位置も僅かに変動する。したがって、上位レベル特徴点に基づいて顔画像を正規化した場合、図２に示した例と異なる結果となり、正しい正規化が行われない。

また、特許文献１には、表情の変動等に応じて顔認証のための特徴量を抽出し、特徴点の位置を変える手法が開示されているが、基準となる顔画像の正規化誤差の問題に関しては開示されていない。この様な問題は、顔認証以外のパターン認識においても生じる。

本発明は前述の問題点に鑑み、画像中の対象物の状態によらず、正しい正規化処理を行うことができるようにすることを目的としている。

本発明の画像処理装置は、画像の中の対象物に対応する複数の特徴点の位置を決定する第１の決定手段と、前記対象物の状態を示す属性を判定する判定手段と、前記第１の決定手段によって決定された複数の特徴点の位置と、前記判定手段によって判定された属性とに基づいて、前記対象物を代表する位置を決定する第２の決定手段と、前記第２の決定手段によって決定された前記対象物を代表する位置に基づいて前記画像を所定の条件で正規化する正規化手段とを有することを特徴とする。

本発明によれば、画像中の対象物の状態が通常と異なる場合であっても、安定した正規化処理を行うことができる。

第１の実施形態に係る画像処理装置の機能構成例を示すブロック図である。下位レベル特徴点及び上位レベル特徴点の位置を示す図である。片目を瞑っている状態での下位レベル特徴点及び上位レベル特徴点の位置を示す図である。実施形態において、表情を判断する例を説明する図である。実施形態において、正規化処理の動作を説明する図である。第１の実施形態の識別処理における小領域の分割例を示す図である。実施形態に係る画像処理装置のハードウェア構成例を示すブロック図である。第１の実施形態にける顔認証処理の手順の一例を示すフローチャートである。第２の実施形態に係る画像処理装置の機能構成例を示すブロック図である。第２の実施形態の識別処理における局所領域の例を説明する図である。

（第１の実施形態）
以下、本発明の第１の実施形態について、図面を参照しながら説明する。
図１は、本実施形態に係る画像処理装置１００の機能構成例を示すブロック図である。以下、本実施形態では顔認証に適用した場合について説明する。

ここで、顔認証とは、対象となる顔画像から個人を特定する処理であり、まず、目、鼻、口等の顔器官を検出し、これらの顔器官の位置や顔位置に基づいて顔画像を正規化する。そして、正規化後の顔器官の位置や顔位置に基づいて特徴量を抽出し、抽出した特徴量に基づいて識別処理を行う。

図１において、下位レベル特徴点位置決定部１０１は第１の決定手段として機能し、画像データからActive Shape Model法等を用いて、対象物の輪郭に対応する複数の下位レベル特徴点の位置を算出する。例えば、図２に示す下位レベル特徴点２０１〜２２２を算出する。このように多数の下位レベル特徴点を利用することにより、後段で用いる上位レベル特徴点の位置を検出する精度が安定化する。一方、上位レベル特徴点を直接検出する方式では、照明の変動等により誤検出の影響を直接受けてしまうが、本実施形態のように多数の下位レベル特徴点の統合に基づく手法では、集団的な決定により誤検出の影響を緩和することができる。また、下位レベル特徴点を用いた手法の方が一般的に上位レベル特徴点の位置を検出する精度が高い。

属性判定処理部１０２は、下位レベル特徴点位置決定部１０１の算出結果に基づいて顔の表情を判断する。図４は表情を判断する例を説明する図である。以下、各特徴点の位置は、左上点を原点として水平方向をｘ方向、垂直方向をｙ方向とする座標系で表現し、下位レベル特徴点ｎの座標を（ｘｎ，ｙｎ）とする。例えば、下位レベル特徴点２０７、２０８の座標はそれぞれ、（ｘ２０７，ｙ２０７）、（ｘ２０８，ｙ２０８）である。

次に、目を瞑っている状態及び笑顔の状態を判定する場合の簡単な例について説明する。目を瞑っている状態は、目の周囲の下位レベル特徴点の変動に基づいて判定される。例えば、向かって右目の状態を判定する場合、下位レベル特徴点２０７、２０８の２点間のｙ方向の距離４０１（距離ｄｅ）を、以下の式（１）により算出する。
ｄｅ＝|ｙ２０８−ｙ２０７| ・・・式（１）

そして、距離ｄｅが所定の閾値Ｔｈｅより小さい場合は、目を瞑っている状態であると判断する。

一方、笑顔の状態は、口の周囲の下位レベル特徴点の変動に基づいて判定される。まず、下位レベル特徴点２１２、２１５の２点間のｙ方向の距離４０２（距離ｄｍ）を、以下の式（２）により算出する。
ｄｍ＝（ｙ２１５＋ｙ２１２）／２−ｙ２１３＋（ｙ２１５＋ｙ２１２）／２−ｙ２１４・・・式（２）

そして、距離ｄｍが所定の閾値Ｔｈｍより大きい場合は、笑顔であると判断する。これは、口角が上方向に移動した状態を判定することに相当する。

以上のように属性判定処理部１０２では、下位レベル特徴点の位置に基づいて表情を判定する。そして、これらの何れの条件も満たさない場合は、標準的な顔の表情であると判定する。なお、本実施形態では極めて簡単な判定例について説明したが、他の手法を用いてもよい。例えば、顔画像の画面内の回転変動を考慮して下位レベル特徴点間のユークリッド距離に基づいて判定してもよい。また、より多くの下位レベル特徴点を用い、その各座標値（ｘｎ，ｙｎ）を要素とするベクトルデータに対してサポートベクトルマシン等の判別器を用いて判定する手法等を用いてもよい。

上位レベル特徴点位置決定部１０３は第２の決定手段として機能し、下位レベル特徴点位置決定部１０１の算出結果と属性判定処理部１０２の判定結果とに基づいて、対象物を代表する位置を示す上位レベル特徴点の位置を決定する。例えば、向かって右目の中心位置を示す上位レベル特徴点２２３については、標準的な顔である場合には、以下の式（３）及び式（４）に従ってその座標（ｘ２２３，ｙ２２３）を算出する。
ｘ２２３＝（ｘ２０５＋ｘ２０６＋ｘ２０７＋ｘ２０８）／４・・・式（３）
ｙ２２３＝（ｙ２０５＋ｙ２０６＋ｙ２０７＋ｙ２０８）／４・・・式（４）

一方、属性判定処理部１０２により目を瞑っている状態と判定された場合には、以下の式（５）及び式（６）に従ってその座標（ｘ２２３，ｙ２２３）を決定する。
ｘ２２３＝（ｘ２０５＋ｘ２０６＋ｘ２０７＋ｘ２０８）／４・・・式（５）
ｙ２２３＝（ｙ２０５＋ｙ２０６）／２・・・式（６）

このように、目を瞑っていることによりまぶたの境界位置に相当するエッジ特徴のｙ方向成分が変動するため、変動分を選択的に除去して上位レベル特徴点を算出する。左目の場合も同様の手順により、上位レベル特徴点２２４を算出する。

また、口の中心位置を示す上位レベル特徴点２２６については、標準的な顔である場合には、以下の式（７）及び式（８）に従ってその座標（ｘ２２６，ｙ２２６）を算出する。
ｘ２２６＝（ｘ２１２＋ｘ２１３＋ｘ２１４＋ｘ２１５）／４・・・式（７）
ｙ２２６＝（ｙ２１２＋ｙ２１３＋ｙ２１４＋ｙ２１５）／４・・・式（８）

一方、属性判定処理部１０２により笑顔の状態と判定された場合には、以下の式（９）及び式（１０）式に従ってその座標（ｘ２２６，ｙ２２６）を算出する。
ｘ２２６＝（ｘ２１２＋ｘ２１３＋ｘ２１４＋ｘ２１５）／４・・・式（９）
ｙ２２６＝（ｙ２１２＋ｙ２１５）／２・・・式（１０）

このように、笑顔により口角の位置に相当する特徴のｙ方向成分が変動するため、変動分を選択的に除去して上位レベル特徴点を算出する。

顔の中心位置を示す上位レベル特徴点２２５を算出する場合も、属性判定処理部１０２の判定結果に基づいて算出式を選択する。顔の中心位置を示す上位レベル特徴点２２５の座標は、例えば全ての下位レベル特徴点の座標の平均値とする。属性判定処理部１０２により表情の変動があると判定された場合には、平均値を算出する際に表情の変動の影響を大きく受ける下位レベル特徴点の座標を削除し、補間値を用いて算出する。ここで補間値とは、削除対象となる下位レベル特徴点の近傍に位置する複数の下位レベル特徴点から得られる座標値である。例えば、変動のない複数の顔画像データを用いて、近傍に位置する下位レベル特徴点から削除対処となる下位レベル特徴点の座標を算出する関係式を予め学習しておく。

以上のように上位レベル特徴点位置決定部１０３は、属性判定処理部１０２の判定結果に応じて属性毎に異なる算出式により下位レベル特徴点の位置から上位レベル特徴点の位置を算出する。なお、本実施形態では、極めて簡単な例について説明したが、この様な方法に限るわけではない。例えば、複数の下位レベル特徴点の位置から上位レベル特徴点の位置を算出する回帰行列を予め学習しておき、当該回帰行列を用いて変換した結果を上位レベル特徴点とする等の手法を適用してもよい。その場合、表情などの変動毎に回帰行列を用意し、属性判定処理部１０２の判定結果に従って当該回帰行列を選択的に用いる。回帰行列については、変動毎に用意した複数の学習用顔画像に対する座標データ群を用いて事前に算出しておくことができる。

なお、回帰行列は、複数の下位レベル特徴点の座標を連結したベクトルＬと上位レベル特徴点位置の座標値に相当するベクトルＵとの関係を行列Ｗの形式で表現するものであり、従来知られている線形回帰分析手法等を適用して求めることが可能である。回帰行列Ｗを用いた上位レベル特徴点の算出式としては、例えば以下の式（１１）を用いる。
Ｕ＝ＷＬ・・・式（１１）

式（１１）において、下位レベル特徴点の数をｎとすると、Ｗは２行、２ｎ＋１列の行列で表現される。

正規化処理部１０４は、上位レベル特徴点位置決定部１０３の算出結果に従って顔画像を正規化する。ここで正規化とは、顔画像の幾何学的大きさや画像面内の回転等を所定の値に変換する処理である。顔認証処理等においては、登録済みの顔画像と認証対象画像との類似度を算出する際に、幾何学的な正規化処理が精度に大きな影響を与えることが多い。

図５は、正規化処理部１０４による正規化処理の動作を説明する図である。
正規化処理部１０４では、入力顔画像５０１における左右の目の中心位置を示す上位レベル特徴点２２３、２２４から、左右の目を結ぶ線分２２７の長さを示す目幅ｗを算出する。同様に、左右の目を結ぶ線分２２７に対する垂線であって、かつ口の中心と交わる線分２２８の長さ（顔の高さｈ）を算出する。また、左右の目を結ぶ線分２２７の画像上のｘ軸に対する傾きθを算出する。

次に、正規化後の顔画像５０２の目幅５０３（目幅ｗ′）と、顔の高さ５０５（顔の高さｈ′）とを用い、顔の幅に関してはｗ′／ｗ倍、顔の長さに関してはｈ′／ｈ倍に変倍する。また、顔の角度を反時計回りにθ度回転し、顔の中心５０４を予め定める座標に一致させる。以上の変換はよく知られているアフィン変換式により処理可能である。
xout＝Ｃｗ×cosθ×xin−Ｃｈ×sinθ×yin＋Ｐｘ
yout＝Ｃｗ×sinθ×xin＋Ｃｈ×cosθ×yin＋Ｐｙ・・・式（１２）

ここで、座標値（xin，yin）は入力顔画像５０１上の座標位置を示し、座標値（xout，yout）は正規化後の顔画像５０２の座標位置を示す。また、Ｃｗはｘ方向の変倍率を示し、Ｃｈはｙ方向の変倍率を示す。さらに、Ｐｘ、Ｐｙはそれぞれ、ｘ方向、ｙ方向の平行移動量である。座標変換後の画素値は、対応する入力顔画像５０１の画素位置の近傍画素値を参照して線形補完法等により算出する。

識別処理部１０５は、正規化された顔画像データに対して識別処理を実行する。図６は、識別処理における小領域の分割例を示す図である。まず、正規化後の顔画像５０２をｘ方向、ｙ方向にそれぞれ６分割し、合計３６個の小領域６０１に分割する。次に小領域６０１内で局所特徴量を算出する。ここで局所特徴量は、例えば、輝度勾配方向を示す特徴量のヒストグラム（Local Binary Patternヒストグラム等）とする。そして、算出した全ての小領域６０１のヒストグラムデータを連結してベクトルデータとする。

次に、生成したベクトルデータを主成分分析等により次元圧縮し、得られた圧縮データを識別に使用する特徴ベクトルとする。識別処理部１０５は、同様の手順で予め抽出した登録顔画像の特徴ベクトルと入力画像に対する特徴ベクトルとの類似度を算出し、その類似度が所定値以上の場合に、入力顔画像が登録顔画像と同一の人物であると判断する。なお、識別処理部１０５は、従来提案されている様々な手法を適用可能である。

次に、以上の処理をソフトウェアにより実現する場合の例について、図７及び図８を参照しながら説明する。図７は、本実施形態に係る画像処理装置１００のハードウェア構成例を示すブロック図である。
図７において、画像入力部７０１は、光学系デバイス、光電変換デバイス及びセンサーを制御するドライバー回路、ＡＤコンバーター、各種画像の補正を司る信号処理回路、フレームバッファ等により構成されている。

ＣＰＵ（Central Processing Unit）７０４は、本実施形態に係る主要な処理を実行するとともに、画像処理装置１００全体の動作を制御する。ＲＯＭ（Read Only Memory）７０５は、ＣＰＵ７０４の動作を実行させるためのプログラムやデータを格納する。ＲＡＭ（Random Access Memory）７０６は、ＣＰＵ７０４の動作に必要な作業データ、及び画像入力部７０１で取得した画像データ等を格納する。また、ＲＡＭ７０６は、ＤＲＡＭ（Dynamic RAM）等の比較的容量の大きいメモリにより構成され、図示しないメモリコントローラを介して、ＣＰＵバス７０２に接続されている。そして、ＣＰＵ７０４は、ＲＡＭ７０６に格納された画像データに対して本実施形態に係る顔認証処理を実行する。外部インターフェース部７０３は、認証結果を外部に出力するためのインターフェースである。

図８は、本実施形態に係る画像処理装置１００による顔認証処理の手順の一例を示すフローチャートである。図８に示すフローチャートはＣＰＵ７０４の動作手順を示しており、一枚の入力画像に対して一連の顔認証処理を行う手順を示している。また、当該フローチャートを実行するためのプログラムはＲＯＭ７０５に格納されているものとする。

先ず、画像入力部７０１を介して認証対象の顔を含む画像データをＲＡＭ７０６に記憶する（ステップＳ８０１）。そして、ＣＰＵ７０４はＲＡＭ７０６に格納された画像データを参照して、画像中に含まれる顔画像を検出する（ステップＳ８０２）。なお、顔画像の検出は、従来提案されている公知な手法を適用する。

次に、ＣＰＵ７０４は、ステップＳ８０３における顔画像の検出結果に基づいて顔画像データを切り出す（ステップＳ８０３）。ここでは顔検出処理の過程で得られる概略の顔の大きさや顔の中心位置に基づいて顔領域を含む顔画像データを切り出し、所定のサイズや向きに正規化処理し、ＲＡＭ７０６の別の領域に格納する。

次に、ＣＰＵ７０４は図１の下位レベル特徴点位置決定部１０１として機能し、切り出し後の顔画像データに対して、下位レベル特徴点の位置を決定する（ステップＳ８０４）。下位レベル特徴点の位置を決定する方法は、前述したように従来提案されているActive Shape Model法等を利用する。Active Shape Model法では、統計的に生成した特徴点配置モデルを用いて配置関係に幾何学的な拘束を与えながら、各低レベル特徴点の位置を探索的に算出する。そして、ＣＰＵ７０４は、決定した下位レベル特徴点の位置データをＲＡＭ７０６に格納する。

次に、ＣＰＵ７０４は図１の属性判定処理部１０２として機能し、下位レベル特徴点の位置に基づいて表情を判定する処理を開始する（ステップＳ８０５）。そして、ＲＡＭ７０６に格納した下位レベル特徴点の位置データの一部を読み出し、目を瞑った表情であるか否かを判定する（ステップＳ８０６）。この判定の結果、目を瞑った表情でない場合は、ＣＰＵ７０４は図１の上位レベル特徴点位置決定部１０３として機能し、前述した式（３）及び式（４）と同様の計算方法により左右の目の中心位置を算出する（ステップＳ８０７）。一方、ステップＳ８０６の判定の結果、目を瞑った表情である場合は、ＣＰＵ７０４は図１の上位レベル特徴点位置決定部１０３として機能し、前述した式（５）及び式（６）と同様の計算方法により左右の目の中心位置を算出する（ステップＳ８０８）。

次に、ＣＰＵ７０４は図１の属性判定処理部１０２として機能し、笑顔の表情であるか否かを判定する（ステップＳ８０９）。この判定の結果、笑顔の表情でない場合は、ＣＰＵ７０４は図１の上位レベル特徴点位置決定部１０３として機能し、前述した式（７）及び式（８）と同様の計算方法により口の中心位置を算出する（ステップＳ８１０）。一方、ステップＳ８０９の判定の結果、笑顔の表情である場合は、ＣＰＵ７０４は図１の上位レベル特徴点位置決定部１０３として機能し、前述した式（９）及び式（１０）と同様の計算方法により口の中心位置を算出する（ステップＳ８１１）。

次に、表情の判定結果が"目を瞑っており、かつ笑顔"、"目を瞑っているのみ"、"笑顔のみ"、"目を瞑ってなく笑顔でもない"のどれに該当するかを判定する。そして、ＣＰＵ７０４は図１の上位レベル特徴点位置決定部１０３として機能し、この判定結果に対応してそれぞれステップＳ８１３〜Ｓ８１６で異なる算出式により顔の中心位置を算出する。

次に、ＣＰＵ７０４は図１の正規化処理部１０４として機能し、前述した目の幅や顔の傾き顔の高さ等に基づいて顔画像データを正規化するためのアフィン変換パラメータを算出する。ここで、アフィン変換パラメータとは、式（１２）中のｘ方向の変倍率Ｃｗ、ｙ方向の変倍率Ｃｈ、傾きθ、及び平行移動量Ｐｘ、Ｐｙである。次に、当該アフィン変換パラメータに従ってＲＡＭ７０６に格納された顔画像データを所望の形状に変換する。そして、変換した顔画像データをＲＡＭ７０６に格納する（ステップＳ８１７）。

次に、ＣＰＵ７０４は図１の識別処理部１０５として機能し、ステップＳ８０８で変換しＲＡＭ７０６に格納した顔画像データから特徴量を抽出し、特徴ベクトルを生成する（ステップＳ８１８）。前述したように輝度勾配の方向を表現する特徴（ＬＢＰ特徴等）のヒストグラムを連結してベクトルデータを生成し、このベクトルデータを主成分分析により圧縮することによって特徴ベクトルが得られる。

次に、特定の個人に対応する特徴ベクトル（登録データ）をＲＡＭ７０６から読み出す（ステップＳ８１９）。そして、ステップＳ８１８で生成した特徴ベクトルとの類似度を算出する（ステップＳ８２０）。次に、算出した類似度と所定の閾値とを比較して、ステップＳ８１８で生成した特徴ベクトルが特定の個人の登録データと同一の人物であるか否かを判定する（ステップＳ８２１）。このとき、類似度が十分に高い場合は、同一人物であると判定する。

次に、全ての登録データと類似度を比較したか否かを判定する（ステップＳ８２２）。この判定の結果、類似度を比較していない登録データが残っている場合は、ステップＳ８１９に戻る。一方、類似度を比較していない登録データがない場合は、ＣＰＵ７０４は、ステップＳ８０２において検出されたすべての顔画像について処理が終了したか否かを判定する（ステップＳ８２３）。この判定の結果、全ての顔画像について処理が終了していない場合はステップＳ８０３に戻り、全ての顔画像について処理が終了した場合はそのまま処理を終了する。

以上のように本実施形態によれば、表情の変動の有無によって上位レベル特徴点の算出方法を変更するようにして、多数の下位レベル特徴点に基づいて正規化処理の基準となる上位レベル特徴点を算出するようにした。これにより、対象画像の正規化処理を安定させることができる。このように、表情の変動等により下位レベル特徴点の位置の一部が変動する場合であっても、簡単な処理を追加することにより正規化処理における誤差を軽減させることが可能になり、顔認証の性能をより安定化させることができる。

（第２の実施形態）
以下、本発明の第２の実施形態について、図９及び図１０を参照しながら説明する。図９は、本実施形態に係る画像処理装置９００の機能構成例を示すブロック図である。本実施形態は、第１の実施形態とは識別処理部９０５のみが異なっている。なお、下位レベル特徴点位置決定部９０１〜正規化処理部９０４は、それぞれ図１の下位レベル特徴点位置決定部１０１〜正規化処理部１０４と同様であるため、説明は省略する。以下、第１の実施形態と異なる部分についてのみ説明する。

図１０は、本実施形態の識別処理部９０５による識別処理で設定される局所領域の例を説明する図である。
図１０において、局所特徴を算出する局所領域１００１〜１００４は、それぞれ上位レベル特徴点２２３〜２２６の位置を基準にして決定される領域である。上位レベル特徴点２２３〜２２６の位置は、第１の実施形態と同様に、表情の変動に対して異なる算出式により複数の下位レベル特徴点の位置から算出される。

第１の実施形態では、特徴点の位置によらず全領域を３６分割した局所領域に基づいて識別処理を行ったが、本実施形態では、上位レベル特徴点の位置に基づいて特徴量を抽出するための局所領域を設定し、識別処理を行う。なお、図１０に示す例では、４個の局所領域から特徴量を算出する場合について説明したが、実際には上位レベル特徴点の位置を基準にして多くのオーバーラップした局所領域を設定する。設定する局所領域の位置やサイズは予め複数の顔画像データを用いて識別性能の高い領域を探索して決定しておく。そして、設定した局所領域から特徴量を算出し、当該特徴量から特徴ベクトルを算出し、第１の実施形態と同様に識別処理を行う。したがって、図８のフローチャートにおいては、ステップＳ８１８における特徴ベクトル生成処理のみが異なる。

以上のように本実施形態によれば、上位レベル特徴点の位置に基づいて識別に有効な局所領域を設定するため、認証精度が向上する。その際、下位レベル特徴点から上位レベル特徴点を決定する方法を表情の変動等に応じて選択することにより認証性能を安定化させることができる。

（その他の実施形態）
前述した実施形態では、顔画像に基づく個人認証に適用する場合について説明したが、これに限るわけではない。人物の認証に適用する場合、顔以外の情報（例えば指紋・静脈・虹彩）に基づく処理に適用することも可能である。さらに、医用画像処理の病理判断等に適用する等も可能である。その他、様々なオブジェクトの認識処理の前処理として利用することができる。また、本実施形態による正規化画像を用いてさらに高精度な属性（表情・顔の向き・変形等）の認識処理を行ってもよい。

また、前述した実施形態ではパターン認識処理に適用する場合について説明したが、他の様々な処理の画像正規化部に適用してもよい。その場合、図１の正規化処理部１０４の処理結果を識別処理以外の他の処理に利用することになる。例えば、顔画像の切り出し表示などユーザーインターフェースに適用することも可能である。

さらに、前述した実施形態では、属性判定の判定種別として表情の変動について説明したが、これに限るわけでなく、対象物の変形・向き・照明変動・オクルージョンなど様々な条件を属性として含む。属性は対象物の性質に応じて決定すればよい。

また、前述した実施形態では、属性判定の判定種別として表情等のように簡単に分類可能な属性に関して説明したが、本発明はこれに限るわけではない。下位レベル特徴点の変動を機械学習的に分類してそれに対応する上位レベル特徴点の位置を算出する方法を決定してもよい。

また、第１の実施形態では、下位レベル特徴点位置決定部１０１の算出結果である複数の下位レベル特徴点の位置に基づいて表情を判定する例について説明したが、これに限るわけではない。例えば、入力された顔画像データから直接表情を判定しても良い。画像データから表情を判定する手法は、従来提案されている様々な手法を適用してよい。画像データから属性を判定する場合、処理負荷は増大するが、判別の精度は向上する。

また、本発明は、以下の処理を実行することによっても実現される。即ち、上述した実施形態の機能を実現するソフトウェア（プログラム）を、ネットワーク又は各種記憶媒体を介してシステム或いは装置に供給し、そのシステム或いは装置のコンピュータ（またはＣＰＵやＭＰＵ等）がプログラムを読み出して実行する処理である。

１０１下位レベル特徴点位置決定部
１０２属性判定処理部
１０３上位レベル特徴点位置決定部
１０４正規化処理部
１０５識別処理部

Claims

画像の中の対象物に対応する複数の特徴点の位置を決定する第１の決定手段と、
前記対象物の状態を示す属性を判定する判定手段と、
前記第１の決定手段によって決定された複数の特徴点の位置と、前記判定手段によって判定された属性とに基づいて、前記対象物を代表する位置を決定する第２の決定手段と、
前記第２の決定手段によって決定された前記対象物を代表する位置に基づいて前記画像を所定の条件で正規化する正規化手段とを有することを特徴とする画像処理装置。
前記正規化手段によって正規化された画像から前記対象物を認識する認識手段をさらに有することを特徴とする請求項１に記載の画像処理装置。
前記正規化手段によって正規化された画像のうち、前記対象物を含む所定の領域から前記対象物を認識する認識手段をさらに有することを特徴とする請求項１に記載の画像処理装置。
前記第２の決定手段は、前記判定手段によって判定される属性ごとに異なる方法を用いて前記複数の特徴点の位置から前記対象物を代表する位置を決定することを特徴とする請求項１〜３の何れか１項に記載の画像処理装置。
前記判定手段は、前記第１の決定手段によって決定された複数の特徴点の位置に基づいて前記対象物の属性を判定することを特徴とする請求項１〜４の何れか１項に記載の画像処理装置。
前記対象物が顔または前記顔の器官であり、前記属性が表情であることを特徴とする請求項１〜５の何れか１項に記載の画像処理装置。
画像の中の対象物に対応する複数の特徴点の位置を決定する第１の決定工程と、
前記対象物の状態を示す属性を判定する判定工程と、
前記第１の決定工程において決定された複数の特徴点の位置と、前記判定工程において判定された属性とに基づいて、前記対象物を代表する位置を決定する第２の決定工程と、
前記第２の決定工程において決定された前記対象物を代表する位置に基づいて前記画像を所定の条件で正規化する正規化工程とを有することを特徴とする画像処理方法。
画像の中の対象物に対応する複数の特徴点の位置を決定する第１の決定工程と、
前記対象物の状態を示す属性を判定する判定工程と、
前記第１の決定工程において決定された複数の特徴点の位置と、前記判定工程において判定された属性とに基づいて、前記対象物を代表する位置を決定する第２の決定工程と、
前記第２の決定工程において決定された前記対象物を代表する位置に基づいて前記画像を所定の条件で正規化する正規化工程とをコンピュータに実行させることを特徴とするプログラム。