JP4348202B2

JP4348202B2 - 顔画像認識装置及び顔画像認識プログラム

Info

Publication number: JP4348202B2
Application number: JP2004013589A
Authority: JP
Inventors: 淳松井; クリピングデルサイモン; 史貴鵜澤; 隆松本
Original assignee: Japan Broadcasting Corp
Current assignee: Japan Broadcasting Corp
Priority date: 2004-01-21
Filing date: 2004-01-21
Publication date: 2009-10-21
Anticipated expiration: 2024-01-21
Also published as: JP2005208850A

Description

本発明は、顔画像認識装置及び顔画像認識プログラムに係り、特に高精度な画像認識を実現するための顔画像認識装置及び顔画像認識プログラムに関する。

従来、番組の制作等において、取材した大量の素材映像から目的の映像シーンを選択して編集する場合、フレームやカット毎にその映像の内容を表すインデックスが付いている。映像における内容の意味的な記述としては「誰が」、「何を」、「している」、「言っている」等の形式となっている。ここで、映像から自動的にこのような情報を抽出するためには、顔認識、音声認識、動作認識、顔表情認識、対象物認識やそれらを組み合わせた技術が有効な手段であり、そのために顔画像認識システムが用いられている。

ところで、顔画像認識が困難である大きな理由の一つは、認識対象可変性が多いことであり、特に顔の表情による可変性が上げられる。そこで、従来の技術で顔の変形等の変動要素に対して頑健な顔画像認識技術として、ヒューリスティック（発見法的）な評価基準に基づいた認識手法がある（例えば、非特許文献１参照。）。

非特許文献１に示す手法は、関数Ｓ（Ａ，Ｂ，ｘ⁻，ｘ）で定義される類似度を異なる複数の解像度ｒについて計算する。ここで、Ａは予め登録されている登録顔画像を示し、Ｂは人物を特定する対象となる画像を示し、ｘ⁻は登録画像Ａ毎にプロットされた固定値を示し、ｘは与えられた｛Ａ，Ｂ，ｘ⁻｝に対してＳ（Ａ，Ｂ，ｘ^―，ｘ）を最大化するようにシステムが推定するパラメータを示している。

次に、以下に示す（１）式の非線型関数ｆ（ｘ）の累積結果の最大値を与えるモデルデータ（テンプレート）Ｈ_ＭＰの人物ＩＤを認識結果とするものである。

ここで、上述の（２）式において、パラメータθは、各解像度における類似度Ｓ_ｒ（Ａ，Ｂ，ｘ⁻，ｘ）に対する閾値であり、Ｍは関数ｆ（ｘ）の最大値を決定するためのパラメータである。
サイモン・クリピングデル他，"動画像の顔検出・追跡・認識への統一されたアプローチ"，ＰＲＭＵ講演発表予稿集，１９９９年１月。

上述したヒューリスティックな評価基準による方法では、用いられるパラメータや評価関数の数学的な根拠が明確でないため、それらを最適な値や関数に設定するためには、評価実験を繰り返し行いながら試行錯誤で行わなければならない。また、あるテストデータを用いて最適化された設定が他のテストデータに対しても最適であると限らない。したがって、従来の手法では、高精度な画像認識を実現できているとはいえない。

本発明は、上述した問題点に鑑みなされたものであり、顔画像認識におけるパラメータを学習させることで安定した認識性能を行い、高精度な顔画像認識を実現するための顔画像認識装置及び顔画像認識プログラムを提供することを目的とする。

上記課題を解決するために、本件発明は、以下の特徴を有する課題を解決するための手段を採用している。

請求項１に記載された発明は、予め登録される登録顔画像と前記登録顔画像の人物とは異なる人物の表情の異なる複数のサンプル画像と前記登録顔画像の人物の表情の異なる複数の学習画像を用いて、入力される画像中に含まれる顔画像の人物を特定するための顔画像認識装置であって、前記登録顔画像にプロットされた特徴点の近傍の画像の情報と、前記登録顔画像の特徴点配置情報と、人物識別情報とを、前記登録顔画像に対応付けて顔テンプレートとして登録する顔画像登録部と、前記複数のサンプル画像と各サンプル画像の特徴点配置情報とに基づいて、顔変形データの確率分布パラメータを生成する確率分布推定部と、前記顔画像登録部により予め登録される前記登録顔画像の各人物毎に撮影した表情の異なる複数の顔画像データである学習画像から、前記学習画像に映っている人の顔を検出し、顔の大きさを一定の大きさに正規化した学習用顔画像を出力する顔画像検出部と、前記顔画像登録部において得られる複数の顔テンプレートと前記確率分布パラメータと前記学習用顔画像とに基づいて、モンテカルロ法によって学習した各人物毎の表情変化に伴う各特徴点の配置の変化の統計的性質を確率分布サンプルデータとして抽出する確率分布学習部と、前記複数の顔テンプレートにおける前記特徴点の近傍の画像の情報及び前記特徴点配置情報と前記確率分布サンプルデータにおける各特徴点の配置の確率分布とに基づいて、前記入力される画像中に含まれる顔画像の夫々の登録顔画像に対応する人物が出現する確率値をベイズ統計に基づく評価基準を用いて算出し、算出された確率値が最大となる前記顔テンプレートに対応する人物を特定する顔画像認識部とを有し、前記確率分布推定部は、全ての特徴点配置情報の夫々の特徴点の座標についての分散・共分散行列を生成し、生成した前記分散・共分散行列の逆行列を前記確率分布パラメータとすることを特徴とする。なお、上述のサンプル画像とは、任意の人物について撮影した確率分布パラメータの情報原となる顔画像データであり、特徴点配置情報とは、顔の各器官（目、鼻、口等）に配置された点の画像平面上での位置ｘ⁻である。

請求項１記載の発明によれば、人物に依存しない平均的な顔の変形に関する情報（確率分布パラメータ）と、予め登録される認識対象の個々の人物に固有の情報（確率分布サンプル）とを利用して、高精度な認識を実現することができる。また、登録顔画像と表情が異なる顔変形情報とを用いることにより、入力される画像中に含まれる顔画像における表情変化や発話状態等の顔の変形に関する変動に対して頑健な顔画像認識が可能となる。これにより、高精度な顔画像認識を実現することができる。また、具体的には、特徴点の近傍の画像の情報を基に算出されるスコア関数（尤度関数）を、特徴点の座標値を含む各種パラメータの確率分布について周辺化（重み付け積分）を実行する際に、確率分布を当該確率分布に従うサンプル集合の密度で近似する。つまり、膨大な計算を必要とする複雑な多次元積分の計算を、個々のサンプル点について計算した尤度関数の値の和で近似（モンテカルロ近似）することによって、一般的な計算機での処理を可能にする。また、認識対象の顔画像について想定される表情変化に対応するため、不特定多数の人物の表情変化のサンプル画像から抽出した特徴点の配置情報をもとに、表情変化に伴う特徴点配置の変化の一般的な統計情報（分散・共分散行列）を抽出し、事後確率分布学習部において、夫々の登録顔画像に対応する人物毎に、その特徴点配置の確率分布を学習する際に、事前情報として前記統計情報を利用する。つまり、顔の表情変化に伴って変化する個々の特徴点の移動方向や移動距離についての一般的な傾向、並びに、左右の口角が連動して上下する等、個々の特徴点間の移動に関する相互関係を、分散・共分散行列を用いて記述し事前確率分布（多次元正規分布）のパラメータとして利用することにより、個々の認識対象の人物についての学習画像が少量しか用意できない場合においても、個々の人物毎の特徴点の複雑な確率分布を推定可能とし、その結果、表情変化に対して頑健な顔画像認識を実現することができる。

請求項２に記載された発明は、前記顔画像認識部は、前記ベイズ統計に基づく評価基準を用いて算出された顔テンプレートの出現に関する統合的な確率値である事後確率が最大となる顔テンプレートに含まれる前記人物識別情報を出力することを特徴とする。

請求項２記載の発明によれば、顔テンプレートの出現に関する統合的な確率値である事後確率が最大となる人物を特定することで、高精度な顔画像認識を実現することができる。

請求項３に記載された発明は、前記確率分布サンプルデータを予め設定されるフィルタ条件に基づいてフィルタリングするフィルタ部を有することを特徴とする。

請求項３記載の発明によれば、顔画像認識における処理時間を削減することができる。

請求項４に記載された発明は、前記フィルタ部は、入力した確率分布サンプルデータを予め設定される間隔毎に間引くことを特徴とする。

請求項４記載の発明によれば、ある間隔毎に間引くことにより、精度を大きく劣化させることなく、処理速度を向上させることができる。

請求項５に記載された発明は、前記顔画像認識部は、前記顔テンプレートと前記フィルタ部から得られる前記確率分布サンプルデータとに基づいて、前記入力される画像中に含まれる顔画像の人物を特定することを特徴とする。

請求項５記載の発明によれば、フィルタリングされた確率分布サンプルデータを用いることにより、処理量を減少することができるため処理速度を向上させることができる。

請求項６に記載された発明は、予め登録される登録顔画像と前記登録顔画像の人物とは異なる人物の表情の異なる複数のサンプル画像と前記登録顔画像の人物の表情の異なる複数の学習画像を用いて、入力される画像中に含まれる顔画像の人物を特定するための顔画像認識をコンピュータに実行させるための顔画像認識プログラムであって、コンピュータに、前記登録顔画像にプロットされた特徴点の近傍の画像の情報と、前記登録顔画像の特徴点配置情報と、人物識別情報とを、前記登録顔画像に対応付けて顔テンプレートとして登録する顔画像登録処理、前記複数のサンプル画像と各サンプル画像の特徴点配置情報とに基づいて、顔変形データの確率分布パラメータを生成する確率分布推定処理、前記顔画像登録処理により予め登録される前記登録顔画像の各人物毎に撮影した表情の異なる複数の顔画像データである学習画像から、前記学習画像に映っている人の顔を検出し、顔の大きさを一定の大きさに正規化した学習用顔画像を出力する顔画像検出処理、前記顔画像登録処理において得られる複数の顔テンプレートと前記確率分布パラメータと前記学習用顔画像とに基づいて、モンテカルロ法によって学習した各人物毎の表情変化に伴う各特徴点の配置の変化の統計的性質を確率分布サンプルデータとして抽出する確率分布学習処理、及び、前記複数の顔テンプレートにおける前記特徴点の近傍の画像の情報及び前記特徴点配置情報と前記確率分布サンプルデータにおける各特徴点の配置の確率分布とに基づいて、前記入力される画像中に含まれる顔画像の夫々の登録顔画像に対応する人物が出現する確率値をベイズ統計に基づく評価基準を用いて算出し、算出された確率値が最大となる前記顔テンプレートに対応する人物を特定する顔画像認識処理を実行させ、前記確率分布推定処理は、全ての特徴点配置情報の夫々の特徴点の座標についての分散・共分散行列を生成し、生成した前記分散・共分散行列の逆行列を前記確率分布パラメータとすることを特徴とする。

請求項６記載の発明によれば、人物に依存しない平均的な顔の変形に関する情報（確率分布パラメータ）と、予め登録される認識対象の個々の人物に固有の情報（確率分布サンプル）とを利用して、高精度な認識を実現することができる。また、登録顔画像と表情が異なる顔変形情報とを用いることにより、画像中に含まれる顔画像における表情変化や発話状態等の顔の変形に関する変動に対して頑健な顔画像認識が可能となる。これにより、高精度な顔画像認識を実現することができる。また、具体的には、特徴点の近傍の画像の情報を基に算出されるスコア関数（尤度関数）を、特徴点の座標値を含む各種パラメータの確率分布について周辺化（重み付け積分）を実行する際に、確率分布を当該確率分布に従うサンプル集合の密度で近似する。つまり、膨大な計算を必要とする複雑な多次元積分の計算を、個々のサンプル点について計算した尤度関数の値の和で近似（モンテカルロ近似）することによって、一般的な計算機での処理を可能にする。また、認識対象の顔画像について想定される表情変化に対応するため、不特定多数の人物の表情変化のサンプル画像から抽出した特徴点の配置情報をもとに、表情変化に伴う特徴点配置の変化の一般的な統計情報（分散・共分散行列）を抽出し、事後確率分布学習処理において、夫々の登録顔画像に対応する人物毎に、その特徴点配置の確率分布を学習する際に、事前情報として前記統計情報を利用する。つまり、顔の表情変化に伴って変化する個々の特徴点の移動方向や移動距離についての一般的な傾向、並びに、左右の口角が連動して上下する等、個々の特徴点間の移動に関する相互関係を、分散・共分散行列を用いて記述し事前確率分布（多次元正規分布）のパラメータとして利用することにより、個々の認識対象の人物についての学習画像が少量しか用意できない場合においても、個々の人物毎の特徴点の複雑な確率分布を推定可能とし、その結果、表情変化に対して頑健な顔画像認識を実現することができる。更に、実行プログラムをコンピュータにインストールすることにより、容易に顔画像認識を実現することができる。

請求項７に記載された発明は、前記顔画像認識処理は、前記ベイズ統計に基づく評価基準を用いて算出された顔テンプレートの出現に関する統合的な確率値である事後確率が最大となる顔テンプレートに含まれる前記人物識別情報を出力することを特徴とする。

請求項７記載の発明によれば、顔テンプレートの出現に関する統合的な確率値である事後確率が最大となる人物を特定することで、高精度な顔画像認識を実現することができる。

本発明によれば、顔画像の様々な変動要素に対応して高精度な顔画像認識を実現することができる。

＜本発明の特徴＞
本発明は、ベイズ統計を数学的根拠とする評価基準と統計的サンプリング手法によるアルゴリズムによって、各パラメータの最適化の問題を解決する。また、本発明は、新たに学習の要素を加えることで、顔画像の変動に対する頑健性を改善する。

更に具体的には、顔画像認識における関数で用いられる各パラメータを確率変数として捉え、それらの同時事後確率分布をベイズ統計学の公式に基づいて定式化し、パラメータ空間上の積分（期待値計算）を実行する。また、複雑な積分計算は、後述するモンテカルロ法により実現する。

＜本発明の原理＞
次に、本発明の顔画像認識における発明の原理について説明する。本発明は、ある人物の顔画像（以下，「登録顔画像」という）と人物を特定するＩＤ等の識別情報が予め与えられた場合に、未知の顔画像（以下，「テスト画像」という）に対して，最も類似する登録顔画像を複数の候補の中から探し出し，その人物を出力するものである。

また本発明では、特に画像全体に対する比較ではなく顔の特徴を端的に表すと考えられる代表的な点（例えば、瞳や目尻，鼻の頂点，口の端点等。以下、これらを総称して「特徴点」という。）において、以下に示す（３）式のような２つの項から構成される関数Ｓ（Ａ，Ｂ，ｘ^―，ｘ）で定義した類似度に基づいて画像間のマッチングを評価する可変テンプレートマッチングに係る技術である。

ここで、Ａは登録画像を、Ｂがテスト画像を表す。ｘ^―は登録顔画像上の特徴点の座標、ｘはテスト画像上の特徴点の座標を示し、ｘ^―，ｘは「ｘ^―，ｘ∈Ｒ^２Ｎ（ただし、Ｎは特徴点の数）」の関係式が成り立つ。更に、ｘ^―は登録画像Ａ毎にプロットされた固定値であるが、ｘは与えられた｛Ａ，Ｂ，ｘ^―｝に対して類似度Ｓ（Ａ，Ｂ，ｘ^―，ｘ）を最大化するようにシステムが推定するパラメータである。

上述の（３）式において、右辺第１項のＭ（Ｃ^Ａ（ｘ^―），Ｃ^Ｂ（ｘ））は、Ａ，Ｂ夫々の特徴点の近傍の画素の空間周波数的な特徴量Ｃ^Ａ（ｘ^―），Ｃ^Ｂ（ｘ）の類似度を評価する項である。なお、本発明においては登録顔画像Ａとテスト画像Ｂが同じ人物である場合には、大きい値（ただし、“０”以下）を、両者が異なる属性である場合には小さい値を返す関数であればよい。

一方、右辺第２項のＥ（ｘ^―，ｘ）は、ｘ^―とｘとの空間的配置の違いを評価する項であり、両者が完全に一致する場合のみ“０”を、それ以外は正の値を返す（以下、Ｅ（ｘ^―，ｘ）を「歪みエネルギー」という。）。

また、（３）式中のαは、Ｓ（Ａ，Ｂ，ｘ^―，ｘ）に対する歪みエネルギーＥ（ｘ^―，ｘ）の寄与率を決定する重みパラメータである。Ｅ（ｘ^―，ｘ）の具体的な例としては、ｘの分散を反映したマハラノビス距離の自乗が考えられる。

ただし、（４）式において、ｔは行と列の転置を表し、Ｃはｘの分散・共分散行列である。

ここで、本発明は、登録する人物毎に複数の画像が学習データに利用可能である場合、それらの画像（以下、「学習画像」という。）から得られる情報を基にして、入力（未知の顔画像）に起こり得る変動への対応、及びパラメータの最適化を図るため、以下の点を特徴とする。

＜ベイズ統計に基づく事後確率分布とモンテカルロ法による期待値計算＞
本発明では、特徴点の座標ｘとパラメータαを、夫々確率変数と捉えた上で、それらの同時事後確率分布をベイズ統計に基づいて定式化し、モンテカルロ法と呼ばれる統計的手法を用いて、その確率分布に関する期待値計算を実現する。

まず、特徴点の座標ｘの事前確率分布を以下に示す（６）式で定義する。

ここで、（６）式において、Ｈはシステムに登録された複数の人物のうち、ある１人の人物ＩＤを表している。具体的には、認識結果の候補としてシステムが注目している、ある１人の人物についての登録画像の特徴点の座標ｘ^―と、その特徴量Ｃ^Ａ（ｘ^―）及び人物ＩＤｎから構成される構造体であり、以下に示す（７）式で表される。

また、Ｚ（α）は、（６）式の多次元正規分布の規格化定数であり、以下に示す（８）式で表される。

ここで、行列Ｃは、上述の（５）式で定義されるｘの分散・共分散行列である。

次に、特徴点の座標ｘが与えられた場合のテスト画像の尤度関数を、上述の（３）式のＭ（Ｃ^Ａ（ｘ^―），Ｃ^Ｂ（ｘ））を用いて以下に示す（９）式で定義する。

ここで、Ｄはテスト画像を示し、βは上述の（９）式の尤度関数の鋭さを決定するパラメータを示している。ここで、尤度関数の鋭さとは、仮定した中心地点にどのくらい分布が集まっているかを示すものである。また、Ｚ_１（β）は、以下に示す（１０）式で定義される規格化定数である。

このとき、ｘの事後確率分布は、ベイズの公式により以下に示す（１１）式で求められる。

したがって、ｘ，α，βの同時事後確率分布は、以下に示す（１２）式で表される。

ここで、Ｐ（α，β｜Ｈ）は、パラメータα，βの事前確率分布を表す。Ｐ（α，β｜Ｈ）の具体的な分布としては、例えばαとβが独立であるとした上で、以下に示す（１３）式のようなガンマ分布が考えられる。

今、既知の人物の学習用顔画像Ｄ_{ｔｒａｉｎ}と、未知の人物の１枚のテスト用顔画像Ｄ_ｔｅｓｔが与えられたとする。このときシステムは、以下に示すテスト画像Ｄ_ｔｅｓｔの尤度（（１４）式）と、Ｈの事前確率Ｐ（Ｈ｜Ｄ_{ｔｒａｉｎ}）より計算される事後確率Ｐ（Ｈ｜Ｄ_ｔｅｓｔ，Ｄ_{ｔｒａｉｎ}）の最大値を与えるモデルデータ（テンプレート）Ｈ_ＭＰ（（１５）式）の人物ＩＤを認識結果として出力する。

ここで、Ｈ’は予め存在する全てのモデルデータ（テンプレート）を表し、Ｈと区別するために用いている。

なお、各々の人物の出現の可能性について、特に事前知識（例えば、ある特定の人物が、他のどの人物よりも多く出現する可能性が高い等の情報）がない場合、Ｈの事前確率は等確率として以下に示す（１６）式で表される。

ここで、Ｎ_{ｐｅｒｓｏｎｓ}はシステムに登録されている人物の総数を表す。

更に、ある同一の人物を映したｎ枚の連続した画像（Ｄ_ｎ＝｛ｄ_１，ｄ_２，・・・，ｄ_ｎ｝）がテスト画像として与えられた場合、上述の（１６）式に示す等確率の状態から、次の更新式を再帰的に適用して各時刻におけるＨの事後確率を計算し、その最大値を与えるＨ_ＭＰ ^（ｎ）をｎ枚目までの画像が入力された時点での認識結果として出力する。

ここで、上述の（１２）式の同時事後確率分布は、一般に幾つかの極大を持つ複雑な分布となるため、上述の（１４）式の積分を解析的に計算することは次元数が多いときに処理数が多くなり処理時間がかかってしまう。例えば、特徴点を９点としてＸ、Ｙの２次元で夫々表現すると１８次元の空間となり、更にαとβをあわせると計２０次元の連続空間上の計算になってしまう。

そこで、本発明は、モンテカルロ法（例えば、ＤａｖｉｄＪ．Ｃ．ＭａｃＫａｙ，“”ＩｎｆｏｒｍａｔｉｏｎＴｈｅｏｒｙ，Ｉｎｆｅｒｎｃｅ，ａｎｄＬｅａｒｎｉｎｇＡｌｇｏｒｉｔｈｍｓ”，ＣａｍｂｒｉｄｇｅＵｎｉｖｅｒｓｉｔｙＰｒｅｓｓ，２００３，ｐｐ．３５７−３８６を参照。）を用いてこの同時事後確率分布にしたがう以下に示す（１９）式に示すサンプルを抽出し、更に（２０）式により積分計算を実行する。

ここで、Ｓはサンプルの総数を示す。また、（１９）式における“〜”は、（１９）式の右側に記載された確率分布にしたがって（１９）式の左側に記載されたサンプルを抽出することを示す。このとき、上述の（１７）の計算は以下に示す（２１）式で近似される。

このように、本発明ではモンテカルロ法により確率分布からサンプルを抽出する。具体的には、スコア関数（尤度関数）をパラメータの確率分布で重み付け積分を行う。更に、確率分布をサンプルの密度で近似する。つまり、複雑な積分計算をサンプル点の和で近似することで精度を向上させたまま処理量を削減し、処理速度を向上させる。

＜実施の形態＞
次に、上述した特徴を有する本発明における顔画像認識装置及び顔画像認識プログラムを好適に実施した形態について、図面を用いて説明する。なお、以下に示す図面において、同一符号は同一又は相当部分を示す。

＜第１の実施の形態＞
図１は、顔画像認識装置の第１の実施の形態における構成例を示す図である。図１の顔画像認識装置１は、顔データ作成装置１０と、顔画像認識特定装置２０とを有するよう構成されている。また、顔データ作成装置１０は、顔画像登録部１１と、事前確率分布推定部１１と、学習用顔画像検出部１３と、事後確率分布学習部１４と、記録部１５とを有するよう構成されている。また、顔画像認識特定装置２０は、入力顔画像検出部２１と、顔画像認識部２２とを有するよう構成されている。

顔画像登録部１１は、予め入力される登録顔画像と、各登録顔画像について特徴点が配置された特徴点配置情報と、各登録画像に対応する人物ＩＤとから、顔テンプレートを生成する。顔画像登録部１２は、生成した顔テンプレートを事後確率分布学習部１４及び記録部１５に出力する。ここで、特徴点配置情報とは、顔の各器官（目、鼻、口等）に配置された点の画像平面上での位置ｘ⁻である。また、人物ＩＤとは、登録顔画像に対応する人物を特定するためのラベル又は番号ｎ等からなる識別情報であり、人名や、性別、年齢、顔画像の向き、ユニークＩＤ等により表されるものである。更に、顔テンプレートとは、登録顔画像にプロットされた特徴点の近傍の画像の情報（例えば、ガボールウェーブレット係数）Ｃ^Ａ（ｘ⁻）、特徴点配置情報ｘ⁻、及び人物ＩＤｎから構成されるモデルデータＨの集合である。

事前確率分布推定部１２は、サンプル画像と、各サンプル画像の特徴点配置情報を用いて、上述の（５）式に示した特徴点の分散・共分散行列Ｃとその逆行列Ｃ^−１を計算し、Ｃ^−１（事前確率分布パラメータ）を事後確率分布学習部１４に出力する。ここで、サンプル画像とは、サンプル画像とは、任意の人物について撮影した確率分布パラメータの情報原となる顔画像データである。

学習用顔画像検出部１３は、学習画像に映っている人の顔を検出し、顔の大きさ（タテ・ヨコのピクセル数）を一定の大きさに正規化した学習用顔画像の事前確率分布パラメータを事後確率分布学習部１４に出力する。ここで、学習画像とは、具体的には登録顔画像の各人物毎に撮影した、事後確率分布サンプル集合の情報源となる顔画像データである。また、学習用顔画像とは学習画像から切り出され、ある一定の大きさに正規化された顔画像データＤ_{ｔｒａｉｎ}である。なお、学習用顔画像検出部１３は、与えられた画像から顔を検出し、検出した顔の中心位置と大きさを推定できる構成であれば何でもよい。

事後確率分布学習部１４は、顔テンプレート、事前確率分布パラメータ、及び、学習用顔画像から、上述の（１９）式に示した事後確率分布のサンプルをモンテカルロ法を用いて抽出し、抽出したサンプルを記録部１５に出力する。ここで、事後確率分布サンプルとは、モンテカルロ法によって抽出した特徴点の座標と歪みエネルギー項の重みパラメータの同時事後確率分布のサンプルであり、上述の（１９）式に示すように表される。記録部１５は、顔画像登録部１１から得られる顔テンプレートと、事後確率分布学習部１４から得られる事後確率分布サンプルとを記録する。

ここで、顔画像として設定される特徴点の例について図を用いて説明する。図２は、登録画像に対応する特徴点の配置例を示す図である。図２に示す顔画像における目元や目尻、鼻の頂点、口の端点等の合計９点を特徴点３０−０〜３０−８としている。なお、特徴点の位置や数についてはこの限りではない。図２に示す特徴点を顔画像登録部１１が登録顔画像毎に配置する。

また、上述の顔変形データは、入力した変形サンプル画像に基づいて、画像中の全ての特徴点が移動方向や移動距離等の移動情報を特徴づけたものであり、例えば、ある特徴点がどの程度動いたら、他の特徴点がどの向きにどの程度動くか等、特徴点毎に対応付けられた移動情報が統計的に求められたものである。つまり、表情の異なるサンプル画像を用いて各特徴点がどの方向にどれだけ動く傾向があるかを判定し、顔の変形（変動）を顔変形データとして出力する。

また、同様に事前確率分布推定部１２は、入力するサンプル画像毎に特徴点を配置して特徴点配置情報を生成する。

なお、上述した顔データ作成装置１０における処理は、後述する顔画像認識特定装置２０との処理と連動させる必要はない。したがって、例えば顔画像認識特定装置２０にテスト画像が与えられる前に実行することが可能である。

顔画像認識特定装置２０は、顔データ作成装置１０が事前に作成し記録した顔テンプレートと事後確率分布サンプルの集合に基づいて、顔画像認識特定装置２０に入力されたテスト画像から顔認識結果を出力する。なお、顔認識結果としては、例えば、テスト画像に対して最大の類似度を与えるデータＨ_ＭＰの人物ＩＤ等があるが、人物を識別するための他の識別情報でもよい。

入力顔画像検出部２１は、入力される画像（テスト画像）から検出した顔の大きさを正規化した後、入力顔画像として顔画像認識部２２に出力する。ここで、入力顔画像とは、テスト画像から切り出され、ある一定の大きさに正規化された顔画像データＤ_ｔｅｓｔである。

顔画像認識部２２は、入力顔画像検出部２１からの入力顔画像が入力されるとデータ要求信号を記録部１５に出力し、記録部１５に蓄積されている顔テンプレートと、事後確率分布サンプルを取得する。なお、データ要求信号は、例えば顔画像認識特定装置２０の起動時等に予め記録部１５から予め入力しておいてもよい。次に、顔画像認識部２２は、顔テンプレート及び事後確率分布サンプルの集合に基づいて、上述の（２１）式の計算を実行する。また、顔画像認識部２２は、上述の（１８）式に基づいて与えられた入力顔画像に対する顔認識結果を出力する。

ここで、本発明ではベイズ統計を理論的背景とする評価基準に基づき、人物によらない平均的な顔の変形に関する情報（事前確率分布パラメータ）と認識対象の個々の人物に固有の情報（事後確率分布サンプル）を利用して、パラメータの最適化の問題を解決しつつ、高精度な認識を実現する。

更に、上述の内容を具体的に説明すると、まず、記録部１５に蓄積されている事後確率分布サンプルに基づいて、各特徴点の移動許容範囲を基準に顔認識の類似度を算出する。例えば、表情が笑顔の場合は、口端の特徴点（図２に示す特徴点３０−７，３０−８）等は、対応して移動する可能性が高い。また、悲しい表情の場合は、両目の目尻の特徴点（図２に示す特徴点３０−２，３０−５）が対応して移動する可能性がある。

このように、画像における特徴点の幾つかを対応付けた移動方向や移動位置からなる移動情報に基づいて、類似度（スコア）を高く設定して登録画像毎に登録画像に対応する顔テンプレートから類似度を算出する。また、上述の（１８）式、（２１）式を適用して、テスト画像に対して最大の類似度を与えるデータＨ_ＭＰを算出して人物を特定することができる。これにより、多様な表情にも対応した高精度な顔画像認識を実現することができる。

次に、顔データ作成装置１０及び顔画像認識特定装置２０における本発明の具体的な処理手順について説明する。

＜顔データ作成装置＞
顔データ作成装置１０は、画像データ又はその画像データのリスト等によって与えられる登録顔画像、表情サンプル画像、及びユーザが画像データ表示手段等を用いて表示される内容を参照しながら生成される登録顔画像の特徴点配置情報や人物ＩＤ、表情サンプル画像の特徴点配置情報から、顔テンプレート及び事後確率分布サンプルを作成する。

次に、顔データ作成装置１０において顔画像登録部１１にて行う処理手順と、顔変形情報抽出部１３にて行う処理手順と、記録部１４にて行う処理手順とを分けて説明する。

＜＜顔画像登録部１１＞＞
図３は、本発明における顔画像登録手順の一例を示すフローチャートである。まず、顔画像登録部１１は、上述した登録顔画像、特徴点配置情報ｘ⁻、及び人物ＩＤを入力する（Ｓ０１）。具体的には、例えばユーザにより顔データ作成装置１０が具備する画像データ表示部等を参照しながら登録が行われる。

次に、顔画像登録部１１は、入力した複数の登録顔画像と特徴点配置情報ｘ⁻とから、上述した特徴量Ｃ^Ａ（ｘ⁻）を算出する（Ｓ０２）。また、顔画像登録部１１は、算出した特徴量から夫々の登録顔画像に対する顔テンプレート｛Ｈ_１，Ｈ_２，・・・，Ｈ_ｎ｝を生成し、生成された顔テンプレートを事後確率分布学習部１４及び記録部１５に出力する（Ｓ０３）。

ここで、上述のＳ０３にて生成される顔テンプレートの例について図を用いて説明する。図４は、本発明における顔テンプレートの一例を示す図である。ここで、図４（ａ）は、特徴点を座標点に変換した行列を示し、図４（ｂ）は、各特徴点のガボールウェーブレット係数部に変換した行列を示し、図４（ｃ）は、人物ＩＤと顔の向きを示している。

図４（ａ）は、図２に示す特徴点３０−０〜３０−８に夫々対応しており（図４（ａ）の第１列）、夫々の特徴点の座標値（Ｘ，Ｙ）を示している。なお、図４（ａ）では、予め顔の大きさを０番目（特徴点３０−０）と１番目（特徴点３０−１）との特徴点について正規化した状態での座標値になっている。そのため、人物を特定するために入力された画像が、どのような向きや大きさの顔画像であっても、一枚のある固定されたファイルに投影された状態での座標値になる。

ここで、図４（ａ）の第２列は、顔の向きによって、その特徴点が見えているか否かを判定したフラグが設定される。例えば、特徴点３０−０〜３０−８が全て画像中に見えているのであれば“１”がセットされ、見えていないのであれば“０”がセットされる。また、各特徴点の座標を第３列（Ｘ座標）、第４列（Ｙ座標）に対応付けて設定している。

また、図４（ｂ）は、特徴点の配置と各特徴点の周りの画像の濃淡の情報、つまり空間周波数を各特徴点毎に算出した値がセットされている。実際には、ガボールウェーブレットという窓関数付きのＦＦＴ（ＦａｓｔＦｏｕｒｉｅｒＴｒａｎｓｆｏｒｍ）を用いて、空間に対して窓関数によりそのローカルな中での周波数成分を算出する。つまり、点の近傍の複雑さを抽出している。また、ＦＦＴであるため、使用する周波数成分（どこの周波数を調べるか）や基底の周波数を変えたり、２次元であるためどの方向の周波数を抽出するかという向きを変えたりしながら、夫々の特徴点について調べたものである。

また、図４（ｂ）では、８方位（真横（右９０°）からπ／８毎に顔を回転移動したものであり図４（ｂ）の（１）〜（８）に相当）について、夫々の向きを持つガボールウェーブレットの基底関数に基づいてその出力が設定される。そのとき、実部（第１列）と虚部（第２列）の成分を設定する。また、第３列は、実部（第１列）と虚部（第２列）との振幅の自乗和を示している。なお、図４（ｂ）は、解像度を変えて、複数回実行し夫々の行列を保存しておく。また、図４（ｃ）は、人物ＩＤ“２”と顔画像の向き“６”（正面を９０°として０°〜１８０°の値を０〜１８で表す。）を示している。

これにより、誰がどのような特徴を持っているかを配列として数値化することができ、この顔テンプレートを用いて後述する顔画像認識を行う。

＜＜事前確率分布推定部１２＞＞
次に、事前確率分布推定部１２における処理手順についてフローチャートを用いて説明する。図５は、本発明における事前確率分布推定手順の一例を示すフローチャートである。

まず、事前確率分布推定部１２は、サンプル画像及び特徴点配置情報を入力する（Ｓ１１）。次に、事前確率分布推定部１２は、読み込んだ全ての特徴点配置情報に基づいて、夫々の特徴点の座標についての分散・共分散行列Ｃを算出する（Ｓ１２）。更に、事前確率分布推定部１２は、算出された分散・共分散行列Ｃの逆行列Ｃ^−１を算出し（Ｓ１３）、算出された逆行列を顔変形データの確率分布情報（確率分布パラメータ）として推定した結果として事後確率分布学習部１４に出力する（Ｓ１４）。

ここで、事前確率分布推定部１２にて使用されるデータの内容について図を用いて説明する。図６は、表情サンプル画像と対応する特徴の分布の一例を示す図である。ここで、図６（ａ）は、表情の異なるサンプル画像を示し、図６（ｂ）は、その画像をＸ座標（ピクセル）とＹ座標（ピクセル）とにおいて特徴点をプロットした時の分布の様子を示している。

図６（ａ）に示すように異なる表情サンプル画像４０−１〜４０−３が入力される。ここで、図６（ａ）に示す表情サンプル画像は、驚きの表情、笑顔の表情、悲しみの表情の画像を示しているが、本発明におけるサンプル画像の表情や枚数は上述の限りではなく、例えば、発話している表情や横に回転させている表情等をサンプル画像として用いてもよい。また、これらの表情サンプル画像については、特徴点を設定し、夫々の表情サンプル画像については、上述の図４（ａ）に示すような座標に変換される。

次に、図６（ａ）で示すような全ての表情サンプル画像について、図６（ｂ）に示すような特徴点のＸ座標、Ｙ座標における分布を抽出する。ここで、図６（ｂ）に示すように表情サンプル画像毎に点がずれて抽出されるが、特徴点の場所によっては、ずれる方向（移動方向）をある程度特定することができる。そこで、表情の変化に伴う顔表面の変形に対応するため、特徴点の空間的配置の違いを示す数値（位置のずれを評価する数値；歪みエネルギー）を求め、この歪みエネルギーに基づいて補正することにより顔変形データを作成する。

＜＜学習用顔画像検出部１３＞＞
次に、学習用顔画像検出部１３における処理手順についてフローチャートを用いて説明する。図７は、本発明における学習用顔画像検出手順の一例を示すフローチャートである。

まず、学習用顔画像検出部１３は、学習画像と人物ＩＤとを入力する（Ｓ２１）。ここで、学習画像とは、顔画像登録部１１にて登録した登録顔画像の人物に対応する各人物毎に対応して複数の表情を有して撮影された事後確率分布サンプルの集合の情報源となる顔画像データである、また、学習用顔画像検出部１３に入力される人物ＩＤも、顔画像登録部１１に入力された人物に対応した人物ＩＤと同様のものとなる。また、最初に顔画像登録部１１にて登録した登録顔画像の人物が含まれる映像信号を入力し、その映像信号に含まれる顔画像から異なる表情を持つ画像を抽出し、抽出した画像を学習画像として用いてもよい。

ここで、学習画像の例について図を用いて説明する。図８は、学習画像を説明するための一例の図である。図８において、画像５１は、顔画像登録部１１に登録される画像であり、画像５２−１〜画像５２−ｎは、学習用顔画像検出部１３が入力する画像である。顔画像登録部１１は、無表情の人物画像である画像５１を登録顔画像として登録する際、人物ＩＤを４としている。そのため、学習用顔画像検出部１３は、入力する学習画像５２−１〜学習画像５２−ｎについても同一の人物ＩＤを４として入力する。なお、学習用顔画像検出部１３は、学習画像として画像５１とは異なる画像、例えば、発話状態の顔（画像５２−１）や、笑顔（画像５２−２）等、様々な表情を持った複数の顔画像を入力する。

次に、学習用顔画像検出部１３は、学習画像に含まれる人物の顔画像領域を検出する（Ｓ２２）。また、検出した顔画像を一定の大きさになるように正規化を行い（Ｓ２３）、正規化された顔画像を学習用顔画像として事後確率分布学習部１４に出力する（Ｓ２４）。

なお、学習用顔画像検出部１３では、入力される画像から顔画像領域を検出でき、更に検出した顔のサイズが認識できる手段であればよい。例えば、Ｓｃｈｎｅｉｄｅｒｍａｎらのウェーブレット係数のヒストグラムを用いる方法（（Ｓｃｈｎｅｉｄｅｒｍａｎ，Ｈ．，ａｎｄＫａｎａｄｅ，Ｔ．，“ＰｒｏｂａｂｉｌｉｓｔｉｃＭｏｄｅｌｉｎｇｏｆＬｏｃａｌＡｐｐｅａｒａｎｃｅａｎｄＳｐａｔｉａｌＲｅｌａｔｉｏｎｓｈｉｐｆｏｒＯｂｊｅｃｔＲｅｃｏｇｎｉｔｉｏｎ”，ＣＶＰＲ９８）を用いることができる。

＜＜事後確率分布学習部１４＞＞
次に、事後確率分布学習部１４における処理手順についてフローチャートを用いて説明する。図９は、本発明における学習用顔画像検出手順の一例を示すフローチャートである。

まず、顔画像登録部１１から顔テンプレートを入力する（Ｓ３１）。また、事前確率分布推定部１２からサンプル画像における事前確率分布のパラメータを入力する（Ｓ３２）。更に、顔画像検出部１３から学習用顔画像を入力する（Ｓ３３）。なお、上述のＳ３１〜Ｓ３３のステップにおける入力順序はこの限りではない。

次に、入力した顔テンプレート、事前確率分布パラメータ、及び学習用顔画像に基づいて、上述の（１２）式を用いて、同時事後確率分布にしたがうサンプルをモンテカルロ法により抽出する（Ｓ３４）。事後確率分布学習部１４は、抽出された事後確率分布サンプルを記録媒体部１５へ出力する（Ｓ３５）。

ここで、Ｓ３４のステップにおけるモンテカルロ法による事後確率分布サンプルの抽出において、いくつか方法があるが、例えば、単純メトロポリス法を用いて実現することができる。

＜単純メトロポリス法＞
ここで、単純メトロポリス法を用いて事後確率分布サンプルの抽出例についてフローチャートを用いて説明する。図１０は、事後確率分布サンプルの抽出例を示す図である。

まず、空の事後確率分布サンプルの配列の先頭に、適当な初期状態｛ｘ_０，α_０，β_０｝を設定する。（Ｓ４１）。次に、事後確率サンプルの配列の終端に記録されている最も新しく受理された状態｛ｘ_１，α_１，β_１｝から、以下に示す（２２）式に示すような対称な状態遷移により、次の状態｛ｘ’，α’，β’｝の候補を生成する（Ｓ４２）。

ここで、上述の（２２）式において、Ｎ（μ，σ）は、平均μ，分散σの正規分布を示している。また、ｘ’（ｉ）は、特徴点の座標を表すベクトルｘの第ｉ成分であることを示している。

次に、新しい候補を確率ａ＝Ｐ（ｘ’，α’，β’｜Ｄ，Ｈ）／Ｐ（ｘ_ｔ，α_ｔ，β_ｔ｜Ｄ，Ｈ）で受理する（Ｓ４３）。また、受理した確率ａが１以上であるかを判断する（Ｓ４４）。

ここで、確率ａが１以上の場合（Ｓ４４において、Ｙｅｓ）、候補｛ｘ’，α’，β’｝を受理する（Ｓ４５）。また、それ以外の場合（Ｓ４４において、Ｎｏ）、０から１までの値をとる乱数ｕ〜Ｕ[０，１]を生成し（Ｓ４６）、確率ａと乱数ｕの値を比較する（Ｓ４７）。ここで、乱数ｕが確率ａよりも小さい場合（Ｓ４７において、Ｙｅｓ）、この生成した候補を受理する（Ｓ４８）。

次に、Ｓ４５又はＳ４８にて候補が受理された場合、その状態を｛ｘ_ｔ＋１，α_ｔ＋１，β_ｔ＋１｝として事後確率分布サンプルの配列の末尾に追加する（Ｓ４９）。

次に、生成した候補のサンプルの総数が予め設定した個数Ｓに到達したかを判断する（Ｓ５０）。サンプル数が個数Ｓに到達している場合（Ｓ５０において、Ｙｅｓ）、処理を終了する。また、サンプル数がＳに満たない場合（Ｓ５０において、Ｎｏ）、又はＳ４７において候補が受理されなかった場合（Ｓ４７において、Ｎｏ）、所望するサンプル数に達するまで、Ｓ４２に戻って新しい候補を生成し、上述したＳ４２〜Ｓ５０の処理を繰り返し実行する。

ここで、学習用画像に基づく、単純メトロポリス法により抽出した事後確率分布サンプルの特徴点の分布について図を用いて説明する。

図１１は、本発明における抽出した事後確率分布サンプルの特徴点の分布の様子を説明するための一例の図である。なお、図１１において、学習画像は、既に顔画像検出部１３において、図８に示す画像５２−１〜画像５２−ｎについて顔画像領域が検出され、所定の大きさで正規化されているものが用いられている。また、図１１は、入力された学習用画像について、Ｘ座標（ピクセル）とＹ座標（ピクセル）とにおいて事後確率分布サンプルの特徴点（９点）について、複数の学習用画像からプロットした時の分布（プロット点群）の様子を示している。このように、単純メトロポリス法等の手法を用いて事後確率分布サンプルの特徴点の分布を抽出することができる。

＜＜記録部１５＞＞
次に、記録部１５の処理内容について説明する。記録部１５は、顔画像登録部１１から顔テンプレートを入力し、事後確率分布学習部１３から事後確率分布サンプルを入力する。また、記録部１５は、入力した顔テンプレート及び事後確率分布サンプルを記録する。

また、顔画像認識部２２から顔データ要求信号が入力された場合、要求信号を入力した時点までに記録されている顔テンプレート及び事後確率分布パラメータ顔画像認識部２２へ出力する。

なお、記録部１５に記録される顔テンプレート及び事後確率分布サンプルは、必要に応じて、削除、変更、更新等の処理を行うことができる。
＜顔画像認識特定装置２０＞
顔画像認識特定装置２０は、記録部１５に保存されている顔テンプレート及び事後確率分布パラメータに基づいて、上述の（２１）式等の計算を実行し、新たに与えられた顔画像データに対する顔認識結果を出力する。ここで、顔画像認識特定装置２０において入力顔画像検出部２１にて行う処理手順と、顔画像認識部２２にて行う処理手順とを分けて説明する。

＜＜入力顔画像検出部２１＞＞
入力顔画像検出部２１の顔画像検出手順について、フローチャートを用いて説明する。図１２は、入力顔画像検出手順の一例を示すフローチャートである。まず、入力顔画像検出部２１は、テスト画像を入力する（Ｓ６１）。ここで、テスト画像とは、未知の顔画像データのことであり、本発明を適用することで、顔画像に対応する人物が特定されるものである。

次に、入力顔画像検出部２１は、テスト画像に含まれる人物の顔画像領域を検出する（Ｓ６２）。また、検出した顔画像を一定の大きさになるように正規化を行い（Ｓ６３）、正規化された顔画像を入力顔画像として、顔画像認識部２２へ出力する（Ｓ６４）。また、Ｓ６４においては、入力顔画像検出部２１において入力された全てのテスト画像について正規化された顔画像を顔画像認識部２２に出力した後に、処理終了信号を出力する。

これにより、テスト画像に対する顔画像データを抽出することができる。なお、上述の顔画像検出手順は、上述の学習用顔画像検出部１３と同様の処理が行われている。

＜＜顔画像認識部２２＞＞
次に、顔画像認識部２２における顔画像認識手順について、フローチャートを用いて説明する。図１３は、第１の実施の形態における顔画像認識手順の一例を示すフローチャートである。

顔画像認識部２２は、まず、入力顔画像検出部２１から得られる入力顔画像を全て入力する（Ｓ７１）。なお、Ｓ７１において、入力顔画像検出部２１からの入力顔画像を全て入力したかの判断は、入力顔画像検出部２１により出力された処理終了信号が入力されたか否かにより判断する。

次に、顔データ要求信号を記録部１５へ出力する（Ｓ７２）。これにより、記録部１５から顔テンプレート及び事後確率分布サンプルを取得する（Ｓ７３）。

なお、Ｓ７２及びＳ７３のステップについては、Ｓ７１において、入力顔画像データを全て取得した後でなくてもよく、例えば、入力顔画像データが最初に入力された時点でＳ７２及びＳ７３のステップを実行してもよい。

次に、顔画像認識部２２は、記録部１５からの顔テンプレート及び事後確率分布サンプルと、入力顔画像検出部２１からの顔画像データとに基づいて上述の（２１）式の計算を実行し、上述の（１８）式によりＨ_ＭＰを算出する（Ｓ７４）。また、顔画像認識部２２は、顔認識結果としてＨ_ＭＰに対応する人物ＩＤを特定し出力する（Ｓ７５）。なお、人物の特定結果としては、人物ＩＤに限らず、人物を特定することができる識別情報でもよい。

これにより、顔画像認識において顔の表情の変形に対する統計的な変形データを利用することで、テスト画像上における顔画像データが変形している場合でも特徴点の探索及び認識結果に及ぼす影響を抑制し、頑健性を改善して高精度な顔画像認識を実現することができる。

また、最適化が困難な各種パラメータをシステムが自動的に学習画像を用いて学習するため、従来のヒューリスティックな手法よりも安定した認識を行うことができる。更に、登録人物の様々な画像（学習画像）を利用することで、例えば映像信号等から取得したテスト画像の表情の変動に対して頑健な顔画像認識を実現することができる。

なお、上述のＨ_ＭＰを算出する場合、事後確率分布サンプル数に応じて処理時間が増えてしまう。そこで、顔画像認識特定装置において、事後確率分布サンプルを予め設定された条件に基づきサンプル数を減少させるフィルタ手段を設けることで、顔画像認識の処理速度を向上させることができる。

＜第２の実施の形態＞
ここで、本発明における顔画像認識装置の第２の実施の形態として、上述のフィルタ手段を有する顔画像認識装置の構成について図を用いて説明する。

図１４は、顔画像認識装置の第２の実施の形態における構成例を示す図である。なお、図１４において、顔画像認識装置２は、顔データ作成装置６０と、顔画像認識特定装置７０とを有するよう構成されている。なお、本実施の形態に係る顔データ作成装置６０は、図１に示した顔データ作成装置１０と同様の構成である。しかしながら、記録部６５における事後確率分布サンプルの出力先が顔データ作成装置１０と相違している。

また、顔画像認識特定装置７０は、入力顔画像検出部２１と、顔画像認識部７２と、フィルタ部７３とを有するよう構成されている。ここで、入力顔画像検出部２１は、図１に示した顔画像検出装置と同様の構成である。次に、顔データ作成装置６０と、顔画像認識装置７０について、主に相違部分を説明する。

＜顔データ作成装置６０＞
顔データ作成装置６０は、画像データ又はその画像データのリスト等によって与えられる登録顔画像、表情サンプル画像、及びユーザが画像データ表示手段等を用いて表示される内容を参照しながら生成される登録顔画像の特徴点配置情報や人物ＩＤ、表情サンプル画像の特徴点配置情報から、顔テンプレート及び事後確率分布サンプルを作成する。なお、顔データ作成装置１０に含まれる各構成における処理手順は上述した第１の実施の形態と同様である。ただし、記録部６５においては、顔画像認識部７２により入力される顔データ要求信号に対して顔テンプレートを顔画像認識部７２に出力し、事後確率分布サンプルをフィルタ部７３へ出力する。

＜顔画像認識特定装置７０＞
顔画像認識特定装置７０は、記録部１５に保存されている顔テンプレート及び事後確率分布パラメータに基づいて、上述の（２１）式等の計算を実行し、新たに与えられた顔画像データに対する顔認識結果を出力する。ここで、上述の図１を用いて説明した内容と相違する部分について具体的に説明する。

＜＜顔画像認識部７２＞＞
顔画像認識部７２における顔画像認識手順について、フローチャートを用いて説明する。図１５は、第２の実施の形態における顔画像認識手順の一例を示すフローチャートである。

顔画像認識部７２は、まず、入力顔画像検出部２１からテスト画像より得られる入力顔画像を全て入力する（Ｓ８１）。なお、Ｓ７１において、入力顔画像検出部２１からの入力顔画像を全て入力したかの判断は、入力顔画像検出部２１により出力された処理終了信号が入力されたか否かにより判断する。

次に、顔データ要求信号を記録部１５へ出力する（Ｓ８２）。また、顔画像認識部７２は、フィルタ部７３に対して予め設定されているフィルタ条件を出力する（Ｓ８４）。なお、フィルタ条件は、実際に行う入力顔画像の認識精度と処理時間とを考慮して設定されることになる。また、フィルタの条件としては、事後確率分布サンプルを所定の間隔毎に間引くか、学習画像毎のサンプル数に対応させた間隔毎に間引く等、間隔を調整してフィルタを行うような条件を出力する。

次に、記録部１５より顔テンプレートを取得する（Ｓ８４）。更に、フィルタ部７３から設定したフィルタ条件によりフィルタされた事後確率分布サンプルを取得する（Ｓ８５）。

なお、Ｓ８２〜Ｓ８５については、Ｓ８１において、入力顔画像データを全て取得した後でなくてもよく、例えば、入力顔画像データが最初に入力された時点でＳ８２〜Ｓ８５のステップを実行してもよい。

次に、顔画像認識部７２は、記録部１５からの顔テンプレートと、フィルタ部７３からの事後確率分布サンプルと、入力顔画像検出部２１からの入力顔画像データとに基づいて上述の（２１）式の計算を実行し、上述の（１８）式によりＨ_ＭＰを算出する（Ｓ８６）。また、顔画像認識部７２は、顔認識結果としてＨ_ＭＰに対応する人物ＩＤを出力する（Ｓ８７）。なお、人物の特定結果としては、人物ＩＤに限らず、人物を特定することができる識別情報でもよい。

＜＜フィルタ部７３＞＞
フィルタ部７３は、顔画像認識部７２からのフィルタ条件に基づいて、記録部１５から入力した事後確率分布サンプルをフィルタリングする。ここで、フィルタの条件としては、事後確率分布サンプルを所定の間隔毎に間引くか、学習画像毎のサンプル数に対応させた間隔毎に間引く等、間隔を調整してフィルタを行う。

このようにフィルタの設定することで、事後確率分布サンプルのデータ量を削減することができ、認識精度が大きく劣化する等の影響がない。更に、顔画像認識部７２における顔認識特定処理時間を減少させることができる。

また、最適化が困難な各種パラメータをシステムが自動的に学習画像を用いて学習するため、従来のヒューリスティックな手法よりも安定した認識を行うことができる。更に、登録人物の様々な画像（学習画像）を利用することで、たとえば、映像信号等から取得したテスト画像の表情の変動に対して頑健な顔画像認識を実現することができる。

また、第２の実施の形態では、フィルタ手段（フィルタ部７３）を画像認識特定装置７０内に設けているが、本発明においてはこの限りではなく、例えば事後確率分布学習部１４において予め設定されるサンプル総数を低く設定することで対応することができる。

また、上述の実施の形態においては、顔データ作成装置と顔画像認識特定装置を分けた構成を説明したが、本発明においてはこの限りではなく、例えば、同一装置内に本発明における顔画像認識を行うための各主要構成部が具備されてもよい。更に、上述したように顔画像認識装置における専用の装置構成により本発明における顔画像認識を行うこともできるが、上述した内容をコンピュータに実行させることができる実行プログラム（顔画像認識プログラム）を生成し、例えば、汎用のパーソナルコンピュータ、ワークステーション等に顔画像認識プログラムをインストールすることにより、本発明における顔画像認識が実現可能となる。

ここで、本発明における実行可能なコンピュータのハードウェア構成例について図を用いて説明する。図１６は、本発明における顔画像認識処理が実現可能なハードウェア構成の一例を示す図である。

図１６におけるコンピュータ本体には、入力装置８１と、出力装置８２と、ドライブ装置８３と、補助記憶装置８４と、メモリ装置８５と、各種制御を行うＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）８６と、ネットワーク接続装置８７とを有するよう構成されており、これらはシステムバスＢで相互に接続されている。

入力装置８１は、使用者が操作するキーボード及びマウス等のポインティングデバイスを有しており、使用者からのプログラムの実行等、各種操作信号を入力する。出力装置８２は、本発明における顔画像認識処理を行うためのコンピュータ本体を操作するのに必要な各種ウィンドウやデータ等を表示するモニタを有し、ＣＰＵ８６が有する制御プログラムによりプログラムの実行経過や結果等を表示することができる。

ここで、本発明において、コンピュータ本体にインストールされる実行プログラムは、例えば、ＣＤ−ＲＯＭ等の記録媒体８８等により提供される。プログラムを記録した記録媒体８８は、ドライブ装置８３にセット可能であり、記録媒体８８に含まれる実行プログラムが、記録媒体８８からドライブ装置８３を介して補助記憶装置８４にインストールされる。

補助記憶装置８４は、ハードディスク等のストレージ手段であり、本発明における実行プログラムや、コンピュータに設けられた制御プログラム等を蓄積し必要に応じて入出力を行うことができる。

ＣＰＵ８６は、ＯＳ（ＯｐｅｒａｔｉｎｇＳｙｓｔｅｍ）等の制御プログラム、メモリ装置８５に格納されている実行プログラムに基づいて、各種演算や各ハードウェア構成部とのデータの入出力等、コンピュータ全体の処理を制御して、上述した顔画像認識における各処理を実現することができる。プログラムの実行中に必要な各種情報は、補助記憶装置８４から取得することができ、また格納することもできる。

ネットワーク接続装置８７は、通信ネットワーク等と接続することにより、実行プログラムを通信ネットワークに接続されている他の端末等から取得したり、プログラムを実行することで得られた実行結果又は本発明における実行プログラム自体を他の端末等に提供することができる。

上述したようなハードウェア構成により、特別な装置構成を必要とせず、低コストで高精度な顔画像認識処理を実現できる。

上述したように本発明によれば、顔画像認識において顔の表情の変形に対する統計的な変形データを利用することで、テスト画像上における顔画像データが変形している場合でも特徴点の探索及び認識結果に及ぼす影響を抑制し、頑健性を改善して高精度な顔画像認識を実現することができる。更に具体的には、ベイズ統計を用いた評価基準に基づき、人物に依存しない平均的な顔の変形に関する情報（事前確率分布パラメータ）と、予め登録される認識対象の個々の人物に固有の情報（事後確率分布サンプル）とを利用して、パラメータの最適化の問題を解決し、高精度な認識性能を実現することができる。

また、テスト画像を撮影する際のユーザの表情変化や発話状態等の顔の変形に関する変動に対して頑健な顔画像認識が可能となる。これにより、高精度な顔画像認識を実現することができる。

以上本発明の好ましい実施の形態について詳述したが、本発明は係る特定の実施形態に限定されるものではなく、特許請求の範囲に記載された本発明の要旨の範囲内において、種々の変形、変更が可能である。

顔画像認識装置の第１の実施の形態における構成例を示す図である。登録画像に対応する特徴点の配置例を示す図である。本発明における顔画像登録手順の一例を示すフローチャートである。本発明における顔テンプレートの一例を示す図である。本発明における事前確率分布推定手順の一例を示すフローチャートである。表情サンプル画像と対応する特徴の分布の一例を示す図である。本発明における学習用顔画像検出手順の一例を示すフローチャートである。学習画像を説明するための一例の図である。本発明における学習用顔画像検出手順の一例を示すフローチャートである。事後確率分布サンプルの抽出例を示す図である。本発明における抽出した事後確率分布サンプルの特徴点の分布の様子を説明するための一例の図である。入力顔画像検出手順の一例を示すフローチャートである。第１の実施の形態における顔画像認識手順の一例を示すフローチャートである。顔画像認識装置の第２の実施の形態における構成例を示す図である。第２の実施の形態における顔画像認識手順の一例を示すフローチャートである。本発明における顔画像認識処理が実現可能なハードウェア構成の一例を示す図である。

符号の説明

１，２顔画像認識装置
１０，６０顔データ作成装置
１１顔画像登録部
１２事前確率分布推定部
１３学習用顔画像検出部
１４事後確率分布学習部
１５，６５記録部
２０，７０顔画像認識特定装置
２１入力顔画像検出部
２２，７２顔画像認識部
３０特徴点
４０表情サンプル画像
５１，５２画像
７３フィルタ部
８１入力装置
８２出力装置
８３ドライブ装置
８４補助記憶装置
８５メモリ装置
８６ＣＰＵ
８７ネットワーク接続装置
８８記録媒体

Claims

予め登録される登録顔画像と前記登録顔画像の人物とは異なる人物の表情の異なる複数のサンプル画像と前記登録顔画像の人物の表情の異なる複数の学習画像を用いて、入力される画像中に含まれる顔画像の人物を特定するための顔画像認識装置であって、
前記登録顔画像にプロットされた特徴点の近傍の画像の情報と、前記登録顔画像の特徴点配置情報と、人物識別情報とを、前記登録顔画像に対応付けて顔テンプレートとして登録する顔画像登録部と、
前記複数のサンプル画像と各サンプル画像の特徴点配置情報とに基づいて、顔変形データの確率分布パラメータを生成する確率分布推定部と、
前記顔画像登録部により予め登録される前記登録顔画像の各人物毎に撮影した表情の異なる複数の顔画像データである学習画像から、前記学習画像に映っている人の顔を検出し、顔の大きさを一定の大きさに正規化した学習用顔画像を出力する顔画像検出部と、
前記顔画像登録部において得られる複数の顔テンプレートと前記確率分布パラメータと前記学習用顔画像とに基づいて、モンテカルロ法によって学習した各人物毎の表情変化に伴う各特徴点の配置の変化の統計的性質を確率分布サンプルデータとして抽出する確率分布学習部と、
前記複数の顔テンプレートにおける前記特徴点の近傍の画像の情報及び前記特徴点配置情報と前記確率分布サンプルデータにおける各特徴点の配置の確率分布とに基づいて、前記入力される画像中に含まれる顔画像の夫々の登録顔画像に対応する人物が出現する確率値をベイズ統計に基づく評価基準を用いて算出し、算出された確率値が最大となる前記顔テンプレートに対応する人物を特定する顔画像認識部とを有し、
前記確率分布推定部は、
全ての特徴点配置情報の夫々の特徴点の座標についての分散・共分散行列を生成し、生成した前記分散・共分散行列の逆行列を前記確率分布パラメータとすることを特徴とする顔画像認識装置。
前記顔画像認識部は、
前記ベイズ統計に基づく評価基準を用いて算出された顔テンプレートの出現に関する統合的な確率値である事後確率が最大となる顔テンプレートに含まれる前記人物識別情報を出力することを特徴とする請求項１に記載の顔画像認識装置。
前記確率分布サンプルデータを予め設定されるフィルタ条件に基づいてフィルタリングするフィルタ部を有することを特徴とする請求項１又は２に記載の顔画像認識装置。
前記フィルタ部は、
入力した確率分布サンプルデータを予め設定される間隔毎に間引くことを特徴とする請求項３に記載の顔画像認識装置。
前記顔画像認識部は、
前記顔テンプレートと前記フィルタ部から得られる前記確率分布サンプルデータとに基づいて、前記入力される画像中に含まれる顔画像の人物を特定することを特徴とする請求項３又は４に記載の顔画像認識装置。
予め登録される登録顔画像と前記登録顔画像の人物とは異なる人物の表情の異なる複数のサンプル画像と前記登録顔画像の人物の表情の異なる複数の学習画像を用いて、入力される画像中に含まれる顔画像の人物を特定するための顔画像認識をコンピュータに実行させるための顔画像認識プログラムであって、
コンピュータに、
前記登録顔画像にプロットされた特徴点の近傍の画像の情報と、前記登録顔画像の特徴点配置情報と、人物識別情報とを、前記登録顔画像に対応付けて顔テンプレートとして登録する顔画像登録処理、
前記複数のサンプル画像と各サンプル画像の特徴点配置情報とに基づいて、顔変形データの確率分布パラメータを生成する確率分布推定処理、
前記顔画像登録処理により予め登録される前記登録顔画像の各人物毎に撮影した表情の異なる複数の顔画像データである学習画像から、前記学習画像に映っている人の顔を検出し、顔の大きさを一定の大きさに正規化した学習用顔画像を出力する顔画像検出処理、
前記顔画像登録処理において得られる複数の顔テンプレートと前記確率分布パラメータと前記学習用顔画像とに基づいて、モンテカルロ法によって学習した各人物毎の表情変化に伴う各特徴点の配置の変化の統計的性質を確率分布サンプルデータとして抽出する確率分布学習処理、及び、
前記複数の顔テンプレートにおける前記特徴点の近傍の画像の情報及び前記特徴点配置情報と前記確率分布サンプルデータにおける各特徴点の配置の確率分布とに基づいて、前記入力される画像中に含まれる顔画像の夫々の登録顔画像に対応する人物が出現する確率値をベイズ統計に基づく評価基準を用いて算出し、算出された確率値が最大となる前記顔テンプレートに対応する人物を特定する顔画像認識処理を実行させ、
前記確率分布推定処理は、
全ての特徴点配置情報の夫々の特徴点の座標についての分散・共分散行列を生成し、生成した前記分散・共分散行列の逆行列を前記確率分布パラメータとすることを特徴とする顔画像認識プログラム。
前記顔画像認識処理は、
前記ベイズ統計に基づく評価基準を用いて算出された顔テンプレートの出現に関する統合的な確率値である事後確率が最大となる顔テンプレートに含まれる前記人物識別情報を出力することを特徴とする請求項６に記載の顔画像認識プログラム。