JP4348202B2 - 顔画像認識装置及び顔画像認識プログラム - Google Patents

顔画像認識装置及び顔画像認識プログラム Download PDF

Info

Publication number
JP4348202B2
JP4348202B2 JP2004013589A JP2004013589A JP4348202B2 JP 4348202 B2 JP4348202 B2 JP 4348202B2 JP 2004013589 A JP2004013589 A JP 2004013589A JP 2004013589 A JP2004013589 A JP 2004013589A JP 4348202 B2 JP4348202 B2 JP 4348202B2
Authority
JP
Japan
Prior art keywords
face image
face
probability distribution
image
person
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2004013589A
Other languages
English (en)
Other versions
JP2005208850A (ja
Inventor
淳 松井
クリピングデル サイモン
史貴 鵜澤
隆 松本
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Japan Broadcasting Corp
Original Assignee
Japan Broadcasting Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Japan Broadcasting Corp filed Critical Japan Broadcasting Corp
Priority to JP2004013589A priority Critical patent/JP4348202B2/ja
Publication of JP2005208850A publication Critical patent/JP2005208850A/ja
Application granted granted Critical
Publication of JP4348202B2 publication Critical patent/JP4348202B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Landscapes

  • Collating Specific Patterns (AREA)
  • Image Processing (AREA)
  • Image Analysis (AREA)

Description

本発明は、顔画像認識装置及び顔画像認識プログラムに係り、特に高精度な画像認識を実現するための顔画像認識装置及び顔画像認識プログラムに関する。
従来、番組の制作等において、取材した大量の素材映像から目的の映像シーンを選択して編集する場合、フレームやカット毎にその映像の内容を表すインデックスが付いている。映像における内容の意味的な記述としては「誰が」、「何を」、「している」、「言っている」等の形式となっている。ここで、映像から自動的にこのような情報を抽出するためには、顔認識、音声認識、動作認識、顔表情認識、対象物認識やそれらを組み合わせた技術が有効な手段であり、そのために顔画像認識システムが用いられている。
ところで、顔画像認識が困難である大きな理由の一つは、認識対象可変性が多いことであり、特に顔の表情による可変性が上げられる。そこで、従来の技術で顔の変形等の変動要素に対して頑健な顔画像認識技術として、ヒューリスティック(発見法的)な評価基準に基づいた認識手法がある(例えば、非特許文献1参照。)。
非特許文献1に示す手法は、関数S(A,B,x,x)で定義される類似度を異なる複数の解像度rについて計算する。ここで、Aは予め登録されている登録顔画像を示し、Bは人物を特定する対象となる画像を示し、xは登録画像A毎にプロットされた固定値を示し、xは与えられた{A,B,x}に対してS(A,B,x,x)を最大化するようにシステムが推定するパラメータを示している。
次に、以下に示す(1)式の非線型関数f(x)の累積結果の最大値を与えるモデルデータ(テンプレート)HMPの人物IDを認識結果とするものである。
Figure 0004348202
ここで、上述の(2)式において、パラメータθは、各解像度における類似度S(A,B,x,x)に対する閾値であり、Mは関数f(x)の最大値を決定するためのパラメータである。
サイモン・クリピングデル他,"動画像の顔検出・追跡・認識への統一されたアプローチ",PRMU講演発表予稿集,1999年1月。
上述したヒューリスティックな評価基準による方法では、用いられるパラメータや評価関数の数学的な根拠が明確でないため、それらを最適な値や関数に設定するためには、評価実験を繰り返し行いながら試行錯誤で行わなければならない。また、あるテストデータを用いて最適化された設定が他のテストデータに対しても最適であると限らない。したがって、従来の手法では、高精度な画像認識を実現できているとはいえない。
本発明は、上述した問題点に鑑みなされたものであり、顔画像認識におけるパラメータを学習させることで安定した認識性能を行い、高精度な顔画像認識を実現するための顔画像認識装置及び顔画像認識プログラムを提供することを目的とする。
上記課題を解決するために、本件発明は、以下の特徴を有する課題を解決するための手段を採用している。
請求項1に記載された発明は、予め登録される登録顔画像と前記登録顔画像の人物とは異なる人物の表情の異なる複数のサンプル画像と前記登録顔画像の人物の表情の異なる複数の学習画像を用いて、入力される画像中に含まれる顔画像の人物を特定するための顔画像認識装置であって、前記登録顔画像にプロットされた特徴点の近傍の画像の情報と、前記登録顔画像の特徴点配置情報と人物識別情報とを、前記登録顔画像に対応付けて顔テンプレートとして登録する顔画像登録部と、前記複数のサンプル画像とサンプル画像の特徴点配置情報とに基づいて、顔変形データの確率分布パラメータを生成する確率分布推定部と、前記顔画像登録部により予め登録される前記登録顔画像の各人物毎に撮影した表情の異なる複数の顔画像データである学習画像から、前記学習画像に映っている人の顔を検出し、顔の大きさを一定の大きさに正規化した学習用顔画像を出力する顔画像検出部と、前記顔画像登録部において得られる複数の顔テンプレートと前記確率分布パラメータと前記学習用顔画像とに基づいて、モンテカルロ法によって学習した各人物毎の表情変化に伴う各特徴点の配置の変化の統計的性質を確率分布サンプルデータとして抽出する確率分布学習部と、前記複数の顔テンプレートにおける前記特徴点の近傍の画像の情報及び前記特徴点配置情報と前記確率分布サンプルデータにおける各特徴点の配置の確率分布とに基づいて、前記入力される画像中に含まれる顔画像の夫々の登録顔画像に対応する人物が出現する確率値をベイズ統計に基づく評価基準を用いて算出し、算出された確率値が最大となる前記顔テンプレートに対応する人物を特定する顔画像認識部とを有し、前記確率分布推定部は、全ての特徴点配置情報の夫々の特徴点の座標についての分散・共分散行列を生成し、生成した前記分散・共分散行列の逆行列を前記確率分布パラメータとすることを特徴とする。なお、上述のサンプル画像とは、任意の人物について撮影した確率分布パラメータの情報原となる顔画像データであり、特徴点配置情報とは、顔の各器官(目、鼻、口等)に配置された点の画像平面上での位置xである。
請求項1記載の発明によれば、人物に依存しない平均的な顔の変形に関する情報(確率分布パラメータ)と、予め登録される認識対象の個々の人物に固有の情報(確率分布サンプル)とを利用して、高精度な認識を実現することができる。また、登録顔画像と表情が異なる顔変形情報とを用いることにより、入力される画像中に含まれる顔画像における表情変化や発話状態等の顔の変形に関する変動に対して頑健な顔画像認識が可能となる。これにより、高精度な顔画像認識を実現することができる。また、具体的には、特徴点の近傍の画像の情報を基に算出されるスコア関数(尤度関数)を、特徴点の座標値を含む各種パラメータの確率分布について周辺化(重み付け積分)を実行する際に、確率分布を当該確率分布に従うサンプル集合の密度で近似する。つまり、膨大な計算を必要とする複雑な多次元積分の計算を、個々のサンプル点について計算した尤度関数の値の和で近似(モンテカルロ近似)することによって、一般的な計算機での処理を可能にする。また、認識対象の顔画像について想定される表情変化に対応するため、不特定多数の人物の表情変化のサンプル画像から抽出した特徴点の配置情報をもとに、表情変化に伴う特徴点配置の変化の一般的な統計情報(分散・共分散行列)を抽出し、事後確率分布学習部において、夫々の登録顔画像に対応する人物毎に、その特徴点配置の確率分布を学習する際に、事前情報として前記統計情報を利用する。つまり、顔の表情変化に伴って変化する個々の特徴点の移動方向や移動距離についての一般的な傾向、並びに、左右の口角が連動して上下する等、個々の特徴点間の移動に関する相互関係を、分散・共分散行列を用いて記述し事前確率分布(多次元正規分布)のパラメータとして利用することにより、個々の認識対象の人物についての学習画像が少量しか用意できない場合においても、個々の人物毎の特徴点の複雑な確率分布を推定可能とし、その結果、表情変化に対して頑健な顔画像認識を実現することができる。
請求項に記載された発明は、前記顔画像認識部は、前記ベイズ統計に基づく評価基準を用いて算出された顔テンプレートの出現に関する統合的な確率値である事後確率が最大となる顔テンプレートに含まれる前記人物識別情報を出力することを特徴とする。
請求項記載の発明によれば、顔テンプレートの出現に関する統合的な確率値である事後確率が最大となる人物を特定することで、高精度な顔画像認識を実現することができる。
請求項に記載された発明は、前記確率分布サンプルデータを予め設定されるフィルタ条件に基づいてフィルタリングするフィルタ部を有することを特徴とする。
請求項記載の発明によれば、顔画像認識における処理時間を削減することができる。
請求項に記載された発明は、前記フィルタ部は、入力した確率分布サンプルデータを予め設定される間隔毎に間引くことを特徴とする。
請求項記載の発明によれば、ある間隔毎に間引くことにより、精度を大きく劣化させることなく、処理速度を向上させることができる。
請求項に記載された発明は、前記顔画像認識部は、前記顔テンプレートと前記フィルタ部から得られる前記確率分布サンプルデータとに基づいて、前記入力される画像中に含まれる顔画像の人物を特定することを特徴とする。
請求項記載の発明によれば、フィルタリングされた確率分布サンプルデータを用いることにより、処理量を減少することができるため処理速度を向上させることができる。
請求項に記載された発明は、予め登録される登録顔画像と前記登録顔画像の人物とは異なる人物の表情の異なる複数のサンプル画像と前記登録顔画像の人物の表情の異なる複数の学習画像を用いて、入力される画像中に含まれる顔画像の人物を特定するための顔画像認識をコンピュータに実行させるための顔画像認識プログラムであって、コンピュータに、前記登録顔画像にプロットされた特徴点の近傍の画像の情報と、前記登録顔画像の特徴点配置情報と人物識別情報とを、前記登録顔画像に対応付けて顔テンプレートとして登録する顔画像登録処理前記複数のサンプル画像とサンプル画像の特徴点配置情報とに基づいて、顔変形データの確率分布パラメータを生成する確率分布推定処理前記顔画像登録処理により予め登録される前記登録顔画像の各人物毎に撮影した表情の異なる複数の顔画像データである学習画像から、前記学習画像に映っている人の顔を検出し、顔の大きさを一定の大きさに正規化した学習用顔画像を出力する顔画像検出処理、前記顔画像登録処理において得られる複数の顔テンプレートと前記確率分布パラメータと前記学習用顔画像とに基づいて、モンテカルロ法によって学習した各人物毎の表情変化に伴う各特徴点の配置の変化の統計的性質を確率分布サンプルデータとして抽出する確率分布学習処理、及び、前記複数の顔テンプレートにおける前記特徴点の近傍の画像の情報及び前記特徴点配置情報と前記確率分布サンプルデータにおける各特徴点の配置の確率分布とに基づいて、前記入力される画像中に含まれる顔画像の夫々の登録顔画像に対応する人物が出現する確率値をベイズ統計に基づく評価基準を用いて算出し、算出された確率値が最大となる前記顔テンプレートに対応する人物を特定する顔画像認識処理を実行させ、前記確率分布推定処理は、全ての特徴点配置情報の夫々の特徴点の座標についての分散・共分散行列を生成し、生成した前記分散・共分散行列の逆行列を前記確率分布パラメータとすることを特徴とする。
請求項記載の発明によれば、人物に依存しない平均的な顔の変形に関する情報(確率分布パラメータ)と、予め登録される認識対象の個々の人物に固有の情報(確率分布サンプル)とを利用して、高精度な認識を実現することができる。また、登録顔画像と表情が異なる顔変形情報とを用いることにより、画像中に含まれる顔画像における表情変化や発話状態等の顔の変形に関する変動に対して頑健な顔画像認識が可能となる。これにより、高精度な顔画像認識を実現することができる。また、具体的には、特徴点の近傍の画像の情報を基に算出されるスコア関数(尤度関数)を、特徴点の座標値を含む各種パラメータの確率分布について周辺化(重み付け積分)を実行する際に、確率分布を当該確率分布に従うサンプル集合の密度で近似する。つまり、膨大な計算を必要とする複雑な多次元積分の計算を、個々のサンプル点について計算した尤度関数の値の和で近似(モンテカルロ近似)することによって、一般的な計算機での処理を可能にする。また、認識対象の顔画像について想定される表情変化に対応するため、不特定多数の人物の表情変化のサンプル画像から抽出した特徴点の配置情報をもとに、表情変化に伴う特徴点配置の変化の一般的な統計情報(分散・共分散行列)を抽出し、事後確率分布学習処理において、夫々の登録顔画像に対応する人物毎に、その特徴点配置の確率分布を学習する際に、事前情報として前記統計情報を利用する。つまり、顔の表情変化に伴って変化する個々の特徴点の移動方向や移動距離についての一般的な傾向、並びに、左右の口角が連動して上下する等、個々の特徴点間の移動に関する相互関係を、分散・共分散行列を用いて記述し事前確率分布(多次元正規分布)のパラメータとして利用することにより、個々の認識対象の人物についての学習画像が少量しか用意できない場合においても、個々の人物毎の特徴点の複雑な確率分布を推定可能とし、その結果、表情変化に対して頑健な顔画像認識を実現することができる。更に、実行プログラムをコンピュータにインストールすることにより、容易に顔画像認識を実現することができる。
請求項に記載された発明は、前記顔画像認識処理は、前記ベイズ統計に基づく評価基準を用いて算出された顔テンプレートの出現に関する統合的な確率値である事後確率が最大となる顔テンプレートに含まれる前記人物識別情報を出力することを特徴とする。
請求項記載の発明によれば、顔テンプレートの出現に関する統合的な確率値である事後確率が最大となる人物を特定することで、高精度な顔画像認識を実現することができる。
本発明によれば、顔画像の様々な変動要素に対応して高精度な顔画像認識を実現することができる。
<本発明の特徴>
本発明は、ベイズ統計を数学的根拠とする評価基準と統計的サンプリング手法によるアルゴリズムによって、各パラメータの最適化の問題を解決する。また、本発明は、新たに学習の要素を加えることで、顔画像の変動に対する頑健性を改善する。
更に具体的には、顔画像認識における関数で用いられる各パラメータを確率変数として捉え、それらの同時事後確率分布をベイズ統計学の公式に基づいて定式化し、パラメータ空間上の積分(期待値計算)を実行する。また、複雑な積分計算は、後述するモンテカルロ法により実現する。
<本発明の原理>
次に、本発明の顔画像認識における発明の原理について説明する。本発明は、ある人物の顔画像(以下,「登録顔画像」という)と人物を特定するID等の識別情報が予め与えられた場合に、未知の顔画像(以下,「テスト画像」という)に対して,最も類似する登録顔画像を複数の候補の中から探し出し,その人物を出力するものである。
また本発明では、特に画像全体に対する比較ではなく顔の特徴を端的に表すと考えられる代表的な点(例えば、瞳や目尻,鼻の頂点,口の端点等。以下、これらを総称して「特徴点」という。)において、以下に示す(3)式のような2つの項から構成される関数S(A,B,x,x)で定義した類似度に基づいて画像間のマッチングを評価する可変テンプレートマッチングに係る技術である。
Figure 0004348202
ここで、Aは登録画像を、Bがテスト画像を表す。xは登録顔画像上の特徴点の座標、xはテスト画像上の特徴点の座標を示し、x,xは「x,x∈R2N(ただし、Nは特徴点の数)」の関係式が成り立つ。更に、xは登録画像A毎にプロットされた固定値であるが、xは与えられた{A,B,x}に対して類似度S(A,B,x,x)を最大化するようにシステムが推定するパラメータである。
上述の(3)式において、右辺第1項のM(C(x),C(x))は、A,B夫々の特徴点の近傍の画素の空間周波数的な特徴量C(x),C(x)の類似度を評価する項である。なお、本発明においては登録顔画像Aとテスト画像Bが同じ人物である場合には、大きい値(ただし、“0”以下)を、両者が異なる属性である場合には小さい値を返す関数であればよい。
一方、右辺第2項のE(x,x)は、xとxとの空間的配置の違いを評価する項であり、両者が完全に一致する場合のみ“0”を、それ以外は正の値を返す(以下、E(x,x)を「歪みエネルギー」という。)。
また、(3)式中のαは、S(A,B,x,x)に対する歪みエネルギーE(x,x)の寄与率を決定する重みパラメータである。E(x,x)の具体的な例としては、xの分散を反映したマハラノビス距離の自乗が考えられる。
Figure 0004348202
ただし、(4)式において、tは行と列の転置を表し、Cはxの分散・共分散行列である。
Figure 0004348202
ここで、本発明は、登録する人物毎に複数の画像が学習データに利用可能である場合、それらの画像(以下、「学習画像」という。)から得られる情報を基にして、入力(未知の顔画像)に起こり得る変動への対応、及びパラメータの最適化を図るため、以下の点を特徴とする。
<ベイズ統計に基づく事後確率分布とモンテカルロ法による期待値計算>
本発明では、特徴点の座標xとパラメータαを、夫々確率変数と捉えた上で、それらの同時事後確率分布をベイズ統計に基づいて定式化し、モンテカルロ法と呼ばれる統計的手法を用いて、その確率分布に関する期待値計算を実現する。
まず、特徴点の座標xの事前確率分布を以下に示す(6)式で定義する。
Figure 0004348202
ここで、(6)式において、Hはシステムに登録された複数の人物のうち、ある1人の人物IDを表している。具体的には、認識結果の候補としてシステムが注目している、ある1人の人物についての登録画像の特徴点の座標xと、その特徴量C(x)及び人物IDnから構成される構造体であり、以下に示す(7)式で表される。
Figure 0004348202
また、Z(α)は、(6)式の多次元正規分布の規格化定数であり、以下に示す(8)式で表される。
Figure 0004348202
ここで、行列Cは、上述の(5)式で定義されるxの分散・共分散行列である。
次に、特徴点の座標xが与えられた場合のテスト画像の尤度関数を、上述の(3)式のM(C(x),C(x))を用いて以下に示す(9)式で定義する。
Figure 0004348202
ここで、Dはテスト画像を示し、βは上述の(9)式の尤度関数の鋭さを決定するパラメータを示している。ここで、尤度関数の鋭さとは、仮定した中心地点にどのくらい分布が集まっているかを示すものである。また、Z(β)は、以下に示す(10)式で定義される規格化定数である。
Figure 0004348202
このとき、xの事後確率分布は、ベイズの公式により以下に示す(11)式で求められる。
Figure 0004348202
したがって、x,α,βの同時事後確率分布は、以下に示す(12)式で表される。
Figure 0004348202
ここで、P(α,β|H)は、パラメータα,βの事前確率分布を表す。P(α,β|H)の具体的な分布としては、例えばαとβが独立であるとした上で、以下に示す(13)式のようなガンマ分布が考えられる。
Figure 0004348202
今、既知の人物の学習用顔画像Dtrainと、未知の人物の1枚のテスト用顔画像Dtestが与えられたとする。このときシステムは、以下に示すテスト画像Dtestの尤度((14)式)と、Hの事前確率P(H|Dtrain)より計算される事後確率P(H|Dtest,Dtrain)の最大値を与えるモデルデータ(テンプレート)HMP((15)式)の人物IDを認識結果として出力する。
Figure 0004348202
ここで、H’は予め存在する全てのモデルデータ(テンプレート)を表し、Hと区別するために用いている。
なお、各々の人物の出現の可能性について、特に事前知識(例えば、ある特定の人物が、他のどの人物よりも多く出現する可能性が高い等の情報)がない場合、Hの事前確率は等確率として以下に示す(16)式で表される。
Figure 0004348202
ここで、Npersonsはシステムに登録されている人物の総数を表す。
更に、ある同一の人物を映したn枚の連続した画像(D={d,d,・・・,d})がテスト画像として与えられた場合、上述の(16)式に示す等確率の状態から、次の更新式を再帰的に適用して各時刻におけるHの事後確率を計算し、その最大値を与えるHMP (n)をn枚目までの画像が入力された時点での認識結果として出力する。
Figure 0004348202
ここで、上述の(12)式の同時事後確率分布は、一般に幾つかの極大を持つ複雑な分布となるため、上述の(14)式の積分を解析的に計算することは次元数が多いときに処理数が多くなり処理時間がかかってしまう。例えば、特徴点を9点としてX、Yの2次元で夫々表現すると18次元の空間となり、更にαとβをあわせると計20次元の連続空間上の計算になってしまう。
そこで、本発明は、モンテカルロ法(例えば、David J.C.MacKay,“”Information Theory,Infernce,and Learning Algorithms”,Cambridge University Press,2003,pp.357−386を参照。)を用いてこの同時事後確率分布にしたがう以下に示す(19)式に示すサンプルを抽出し、更に(20)式により積分計算を実行する。
Figure 0004348202
Figure 0004348202
ここで、Sはサンプルの総数を示す。また、(19)式における“〜”は、(19)式の右側に記載された確率分布にしたがって(19)式の左側に記載されたサンプルを抽出することを示す。このとき、上述の(17)の計算は以下に示す(21)式で近似される。
Figure 0004348202
このように、本発明ではモンテカルロ法により確率分布からサンプルを抽出する。具体的には、スコア関数(尤度関数)をパラメータの確率分布で重み付け積分を行う。更に、確率分布をサンプルの密度で近似する。つまり、複雑な積分計算をサンプル点の和で近似することで精度を向上させたまま処理量を削減し、処理速度を向上させる。
<実施の形態>
次に、上述した特徴を有する本発明における顔画像認識装置及び顔画像認識プログラムを好適に実施した形態について、図面を用いて説明する。なお、以下に示す図面において、同一符号は同一又は相当部分を示す。
<第1の実施の形態>
図1は、顔画像認識装置の第1の実施の形態における構成例を示す図である。図1の顔画像認識装置1は、顔データ作成装置10と、顔画像認識特定装置20とを有するよう構成されている。また、顔データ作成装置10は、顔画像登録部11と、事前確率分布推定部11と、学習用顔画像検出部13と、事後確率分布学習部14と、記録部15とを有するよう構成されている。また、顔画像認識特定装置20は、入力顔画像検出部21と、顔画像認識部22とを有するよう構成されている。
顔画像登録部11は、予め入力される登録顔画像と、各登録顔画像について特徴点が配置された特徴点配置情報と、各登録画像に対応する人物IDとから、顔テンプレートを生成する。顔画像登録部12は、生成した顔テンプレートを事後確率分布学習部14及び記録部15に出力する。ここで、特徴点配置情報とは、顔の各器官(目、鼻、口等)に配置された点の画像平面上での位置xである。また、人物IDとは、登録顔画像に対応する人物を特定するためのラベル又は番号n等からなる識別情報であり、人名や、性別、年齢、顔画像の向き、ユニークID等により表されるものである。更に、顔テンプレートとは、登録顔画像にプロットされた特徴点の近傍の画像の情報(例えば、ガボールウェーブレット係数)C(x)、特徴点配置情報x、及び人物IDnから構成されるモデルデータHの集合である。
事前確率分布推定部12は、サンプル画像と、各サンプル画像の特徴点配置情報を用いて、上述の(5)式に示した特徴点の分散・共分散行列Cとその逆行列C−1を計算し、C−1(事前確率分布パラメータ)を事後確率分布学習部14に出力する。ここで、サンプル画像とは、サンプル画像とは、任意の人物について撮影した確率分布パラメータの情報原となる顔画像データである。
学習用顔画像検出部13は、学習画像に映っている人の顔を検出し、顔の大きさ(タテ・ヨコのピクセル数)を一定の大きさに正規化した学習用顔画像の事前確率分布パラメータを事後確率分布学習部14に出力する。ここで、学習画像とは、具体的には登録顔画像の各人物毎に撮影した、事後確率分布サンプル集合の情報源となる顔画像データである。また、学習用顔画像とは学習画像から切り出され、ある一定の大きさに正規化された顔画像データDtrainである。なお、学習用顔画像検出部13は、与えられた画像から顔を検出し、検出した顔の中心位置と大きさを推定できる構成であれば何でもよい。
事後確率分布学習部14は、顔テンプレート、事前確率分布パラメータ、及び、学習用顔画像から、上述の(19)式に示した事後確率分布のサンプルをモンテカルロ法を用いて抽出し、抽出したサンプルを記録部15に出力する。ここで、事後確率分布サンプルとは、モンテカルロ法によって抽出した特徴点の座標と歪みエネルギー項の重みパラメータの同時事後確率分布のサンプルであり、上述の(19)式に示すように表される。記録部15は、顔画像登録部11から得られる顔テンプレートと、事後確率分布学習部14から得られる事後確率分布サンプルとを記録する。
ここで、顔画像として設定される特徴点の例について図を用いて説明する。図2は、登録画像に対応する特徴点の配置例を示す図である。図2に示す顔画像における目元や目尻、鼻の頂点、口の端点等の合計9点を特徴点30−0〜30−8としている。なお、特徴点の位置や数についてはこの限りではない。図2に示す特徴点を顔画像登録部11が登録顔画像毎に配置する。
また、上述の顔変形データは、入力した変形サンプル画像に基づいて、画像中の全ての特徴点が移動方向や移動距離等の移動情報を特徴づけたものであり、例えば、ある特徴点がどの程度動いたら、他の特徴点がどの向きにどの程度動くか等、特徴点毎に対応付けられた移動情報が統計的に求められたものである。つまり、表情の異なるサンプル画像を用いて各特徴点がどの方向にどれだけ動く傾向があるかを判定し、顔の変形(変動)を顔変形データとして出力する。
また、同様に事前確率分布推定部12は、入力するサンプル画像毎に特徴点を配置して特徴点配置情報を生成する。
なお、上述した顔データ作成装置10における処理は、後述する顔画像認識特定装置20との処理と連動させる必要はない。したがって、例えば顔画像認識特定装置20にテスト画像が与えられる前に実行することが可能である。
顔画像認識特定装置20は、顔データ作成装置10が事前に作成し記録した顔テンプレートと事後確率分布サンプルの集合に基づいて、顔画像認識特定装置20に入力されたテスト画像から顔認識結果を出力する。なお、顔認識結果としては、例えば、テスト画像に対して最大の類似度を与えるデータHMPの人物ID等があるが、人物を識別するための他の識別情報でもよい。
入力顔画像検出部21は、入力される画像(テスト画像)から検出した顔の大きさを正規化した後、入力顔画像として顔画像認識部22に出力する。ここで、入力顔画像とは、テスト画像から切り出され、ある一定の大きさに正規化された顔画像データDtestである。
顔画像認識部22は、入力顔画像検出部21からの入力顔画像が入力されるとデータ要求信号を記録部15に出力し、記録部15に蓄積されている顔テンプレートと、事後確率分布サンプルを取得する。なお、データ要求信号は、例えば顔画像認識特定装置20の起動時等に予め記録部15から予め入力しておいてもよい。次に、顔画像認識部22は、顔テンプレート及び事後確率分布サンプルの集合に基づいて、上述の(21)式の計算を実行する。また、顔画像認識部22は、上述の(18)式に基づいて与えられた入力顔画像に対する顔認識結果を出力する。
ここで、本発明ではベイズ統計を理論的背景とする評価基準に基づき、人物によらない平均的な顔の変形に関する情報(事前確率分布パラメータ)と認識対象の個々の人物に固有の情報(事後確率分布サンプル)を利用して、パラメータの最適化の問題を解決しつつ、高精度な認識を実現する。
更に、上述の内容を具体的に説明すると、まず、記録部15に蓄積されている事後確率分布サンプルに基づいて、各特徴点の移動許容範囲を基準に顔認識の類似度を算出する。例えば、表情が笑顔の場合は、口端の特徴点(図2に示す特徴点30−7,30−8)等は、対応して移動する可能性が高い。また、悲しい表情の場合は、両目の目尻の特徴点(図2に示す特徴点30−2,30−5)が対応して移動する可能性がある。
このように、画像における特徴点の幾つかを対応付けた移動方向や移動位置からなる移動情報に基づいて、類似度(スコア)を高く設定して登録画像毎に登録画像に対応する顔テンプレートから類似度を算出する。また、上述の(18)式、(21)式を適用して、テスト画像に対して最大の類似度を与えるデータHMPを算出して人物を特定することができる。これにより、多様な表情にも対応した高精度な顔画像認識を実現することができる。
次に、顔データ作成装置10及び顔画像認識特定装置20における本発明の具体的な処理手順について説明する。
<顔データ作成装置>
顔データ作成装置10は、画像データ又はその画像データのリスト等によって与えられる登録顔画像、表情サンプル画像、及びユーザが画像データ表示手段等を用いて表示される内容を参照しながら生成される登録顔画像の特徴点配置情報や人物ID、表情サンプル画像の特徴点配置情報から、顔テンプレート及び事後確率分布サンプルを作成する。
次に、顔データ作成装置10において顔画像登録部11にて行う処理手順と、顔変形情報抽出部13にて行う処理手順と、記録部14にて行う処理手順とを分けて説明する。
<<顔画像登録部11>>
図3は、本発明における顔画像登録手順の一例を示すフローチャートである。まず、顔画像登録部11は、上述した登録顔画像、特徴点配置情報x、及び人物IDを入力する(S01)。具体的には、例えばユーザにより顔データ作成装置10が具備する画像データ表示部等を参照しながら登録が行われる。
次に、顔画像登録部11は、入力した複数の登録顔画像と特徴点配置情報xとから、上述した特徴量C(x)を算出する(S02)。また、顔画像登録部11は、算出した特徴量から夫々の登録顔画像に対する顔テンプレート{H,H,・・・,H}を生成し、生成された顔テンプレートを事後確率分布学習部14及び記録部15に出力する(S03)。
ここで、上述のS03にて生成される顔テンプレートの例について図を用いて説明する。図4は、本発明における顔テンプレートの一例を示す図である。ここで、図4(a)は、特徴点を座標点に変換した行列を示し、図4(b)は、各特徴点のガボールウェーブレット係数部に変換した行列を示し、図4(c)は、人物IDと顔の向きを示している。
図4(a)は、図2に示す特徴点30−0〜30−8に夫々対応しており(図4(a)の第1列)、夫々の特徴点の座標値(X,Y)を示している。なお、図4(a)では、予め顔の大きさを0番目(特徴点30−0)と1番目(特徴点30−1)との特徴点について正規化した状態での座標値になっている。そのため、人物を特定するために入力された画像が、どのような向きや大きさの顔画像であっても、一枚のある固定されたファイルに投影された状態での座標値になる。
ここで、図4(a)の第2列は、顔の向きによって、その特徴点が見えているか否かを判定したフラグが設定される。例えば、特徴点30−0〜30−8が全て画像中に見えているのであれば“1”がセットされ、見えていないのであれば“0”がセットされる。また、各特徴点の座標を第3列(X座標)、第4列(Y座標)に対応付けて設定している。
また、図4(b)は、特徴点の配置と各特徴点の周りの画像の濃淡の情報、つまり空間周波数を各特徴点毎に算出した値がセットされている。実際には、ガボールウェーブレットという窓関数付きのFFT(Fast Fourier Transform)を用いて、空間に対して窓関数によりそのローカルな中での周波数成分を算出する。つまり、点の近傍の複雑さを抽出している。また、FFTであるため、使用する周波数成分(どこの周波数を調べるか)や基底の周波数を変えたり、2次元であるためどの方向の周波数を抽出するかという向きを変えたりしながら、夫々の特徴点について調べたものである。
また、図4(b)では、8方位(真横(右90°)からπ/8毎に顔を回転移動したものであり図4(b)の(1)〜(8)に相当)について、夫々の向きを持つガボールウェーブレットの基底関数に基づいてその出力が設定される。そのとき、実部(第1列)と虚部(第2列)の成分を設定する。また、第3列は、実部(第1列)と虚部(第2列)との振幅の自乗和を示している。なお、図4(b)は、解像度を変えて、複数回実行し夫々の行列を保存しておく。また、図4(c)は、人物ID“2”と顔画像の向き“6”(正面を90°として0°〜180°の値を0〜18で表す。)を示している。
これにより、誰がどのような特徴を持っているかを配列として数値化することができ、この顔テンプレートを用いて後述する顔画像認識を行う。
<<事前確率分布推定部12>>
次に、事前確率分布推定部12における処理手順についてフローチャートを用いて説明する。図5は、本発明における事前確率分布推定手順の一例を示すフローチャートである。
まず、事前確率分布推定部12は、サンプル画像及び特徴点配置情報を入力する(S11)。次に、事前確率分布推定部12は、読み込んだ全ての特徴点配置情報に基づいて、夫々の特徴点の座標についての分散・共分散行列Cを算出する(S12)。更に、事前確率分布推定部12は、算出された分散・共分散行列Cの逆行列C−1を算出し(S13)、算出された逆行列を顔変形データの確率分布情報(確率分布パラメータ)として推定した結果として事後確率分布学習部14に出力する(S14)。
ここで、事前確率分布推定部12にて使用されるデータの内容について図を用いて説明する。図6は、表情サンプル画像と対応する特徴の分布の一例を示す図である。ここで、図6(a)は、表情の異なるサンプル画像を示し、図6(b)は、その画像をX座標(ピクセル)とY座標(ピクセル)とにおいて特徴点をプロットした時の分布の様子を示している。
図6(a)に示すように異なる表情サンプル画像40−1〜40−3が入力される。ここで、図6(a)に示す表情サンプル画像は、驚きの表情、笑顔の表情、悲しみの表情の画像を示しているが、本発明におけるサンプル画像の表情や枚数は上述の限りではなく、例えば、発話している表情や横に回転させている表情等をサンプル画像として用いてもよい。また、これらの表情サンプル画像については、特徴点を設定し、夫々の表情サンプル画像については、上述の図4(a)に示すような座標に変換される。
次に、図6(a)で示すような全ての表情サンプル画像について、図6(b)に示すような特徴点のX座標、Y座標における分布を抽出する。ここで、図6(b)に示すように表情サンプル画像毎に点がずれて抽出されるが、特徴点の場所によっては、ずれる方向(移動方向)をある程度特定することができる。そこで、表情の変化に伴う顔表面の変形に対応するため、特徴点の空間的配置の違いを示す数値(位置のずれを評価する数値;歪みエネルギー)を求め、この歪みエネルギーに基づいて補正することにより顔変形データを作成する。
<<学習用顔画像検出部13>>
次に、学習用顔画像検出部13における処理手順についてフローチャートを用いて説明する。図7は、本発明における学習用顔画像検出手順の一例を示すフローチャートである。
まず、学習用顔画像検出部13は、学習画像と人物IDとを入力する(S21)。ここで、学習画像とは、顔画像登録部11にて登録した登録顔画像の人物に対応する各人物毎に対応して複数の表情を有して撮影された事後確率分布サンプルの集合の情報源となる顔画像データである、また、学習用顔画像検出部13に入力される人物IDも、顔画像登録部11に入力された人物に対応した人物IDと同様のものとなる。また、最初に顔画像登録部11にて登録した登録顔画像の人物が含まれる映像信号を入力し、その映像信号に含まれる顔画像から異なる表情を持つ画像を抽出し、抽出した画像を学習画像として用いてもよい。
ここで、学習画像の例について図を用いて説明する。図8は、学習画像を説明するための一例の図である。図8において、画像51は、顔画像登録部11に登録される画像であり、画像52−1〜画像52−nは、学習用顔画像検出部13が入力する画像である。顔画像登録部11は、無表情の人物画像である画像51を登録顔画像として登録する際、人物IDを4としている。そのため、学習用顔画像検出部13は、入力する学習画像52−1〜学習画像52−nについても同一の人物IDを4として入力する。なお、学習用顔画像検出部13は、学習画像として画像51とは異なる画像、例えば、発話状態の顔(画像52−1)や、笑顔(画像52−2)等、様々な表情を持った複数の顔画像を入力する。
次に、学習用顔画像検出部13は、学習画像に含まれる人物の顔画像領域を検出する(S22)。また、検出した顔画像を一定の大きさになるように正規化を行い(S23)、正規化された顔画像を学習用顔画像として事後確率分布学習部14に出力する(S24)。
なお、学習用顔画像検出部13では、入力される画像から顔画像領域を検出でき、更に検出した顔のサイズが認識できる手段であればよい。例えば、Schneidermanらのウェーブレット係数のヒストグラムを用いる方法((Schneiderman,H.,and Kanade,T.,“Probabilistic Modeling of Local Appearance and Spatial Relationship for Object Recognition”,CVPR98)を用いることができる。
<<事後確率分布学習部14>>
次に、事後確率分布学習部14における処理手順についてフローチャートを用いて説明する。図9は、本発明における学習用顔画像検出手順の一例を示すフローチャートである。
まず、顔画像登録部11から顔テンプレートを入力する(S31)。また、事前確率分布推定部12からサンプル画像における事前確率分布のパラメータを入力する(S32)。更に、顔画像検出部13から学習用顔画像を入力する(S33)。なお、上述のS31〜S33のステップにおける入力順序はこの限りではない。
次に、入力した顔テンプレート、事前確率分布パラメータ、及び学習用顔画像に基づいて、上述の(12)式を用いて、同時事後確率分布にしたがうサンプルをモンテカルロ法により抽出する(S34)。事後確率分布学習部14は、抽出された事後確率分布サンプルを記録媒体部15へ出力する(S35)。
ここで、S34のステップにおけるモンテカルロ法による事後確率分布サンプルの抽出において、いくつか方法があるが、例えば、単純メトロポリス法を用いて実現することができる。
<単純メトロポリス法>
ここで、単純メトロポリス法を用いて事後確率分布サンプルの抽出例についてフローチャートを用いて説明する。図10は、事後確率分布サンプルの抽出例を示す図である。
まず、空の事後確率分布サンプルの配列の先頭に、適当な初期状態{x,α,β}を設定する。(S41)。次に、事後確率サンプルの配列の終端に記録されている最も新しく受理された状態{x,α,β}から、以下に示す(22)式に示すような対称な状態遷移により、次の状態{x’,α’,β’}の候補を生成する(S42)。
Figure 0004348202
ここで、上述の(22)式において、N(μ,σ)は、平均μ,分散σの正規分布を示している。また、x’(i)は、特徴点の座標を表すベクトルxの第i成分であることを示している。
次に、新しい候補を確率a=P(x’,α’,β’|D,H)/P(x,α,β|D,H)で受理する(S43)。また、受理した確率aが1以上であるかを判断する(S44)。
ここで、確率aが1以上の場合(S44において、Yes)、候補{x’,α’,β’}を受理する(S45)。また、それ以外の場合(S44において、No)、0から1までの値をとる乱数u〜U[0,1]を生成し(S46)、確率aと乱数uの値を比較する(S47)。ここで、乱数uが確率aよりも小さい場合(S47において、Yes)、この生成した候補を受理する(S48)。
次に、S45又はS48にて候補が受理された場合、その状態を{xt+1,αt+1,βt+1}として事後確率分布サンプルの配列の末尾に追加する(S49)。
次に、生成した候補のサンプルの総数が予め設定した個数Sに到達したかを判断する(S50)。サンプル数が個数Sに到達している場合(S50において、Yes)、処理を終了する。また、サンプル数がSに満たない場合(S50において、No)、又はS47において候補が受理されなかった場合(S47において、No)、所望するサンプル数に達するまで、S42に戻って新しい候補を生成し、上述したS42〜S50の処理を繰り返し実行する。
ここで、学習用画像に基づく、単純メトロポリス法により抽出した事後確率分布サンプルの特徴点の分布について図を用いて説明する。
図11は、本発明における抽出した事後確率分布サンプルの特徴点の分布の様子を説明するための一例の図である。なお、図11において、学習画像は、既に顔画像検出部13において、図8に示す画像52−1〜画像52−nについて顔画像領域が検出され、所定の大きさで正規化されているものが用いられている。また、図11は、入力された学習用画像について、X座標(ピクセル)とY座標(ピクセル)とにおいて事後確率分布サンプルの特徴点(9点)について、複数の学習用画像からプロットした時の分布(プロット点群)の様子を示している。このように、単純メトロポリス法等の手法を用いて事後確率分布サンプルの特徴点の分布を抽出することができる。
<<記録部15>>
次に、記録部15の処理内容について説明する。記録部15は、顔画像登録部11から顔テンプレートを入力し、事後確率分布学習部13から事後確率分布サンプルを入力する。また、記録部15は、入力した顔テンプレート及び事後確率分布サンプルを記録する。
また、顔画像認識部22から顔データ要求信号が入力された場合、要求信号を入力した時点までに記録されている顔テンプレート及び事後確率分布パラメータ顔画像認識部22へ出力する。
なお、記録部15に記録される顔テンプレート及び事後確率分布サンプルは、必要に応じて、削除、変更、更新等の処理を行うことができる。
<顔画像認識特定装置20>
顔画像認識特定装置20は、記録部15に保存されている顔テンプレート及び事後確率分布パラメータに基づいて、上述の(21)式等の計算を実行し、新たに与えられた顔画像データに対する顔認識結果を出力する。ここで、顔画像認識特定装置20において入力顔画像検出部21にて行う処理手順と、顔画像認識部22にて行う処理手順とを分けて説明する。
<<入力顔画像検出部21>>
入力顔画像検出部21の顔画像検出手順について、フローチャートを用いて説明する。図12は、入力顔画像検出手順の一例を示すフローチャートである。まず、入力顔画像検出部21は、テスト画像を入力する(S61)。ここで、テスト画像とは、未知の顔画像データのことであり、本発明を適用することで、顔画像に対応する人物が特定されるものである。
次に、入力顔画像検出部21は、テスト画像に含まれる人物の顔画像領域を検出する(S62)。また、検出した顔画像を一定の大きさになるように正規化を行い(S63)、正規化された顔画像を入力顔画像として、顔画像認識部22へ出力する(S64)。また、S64においては、入力顔画像検出部21において入力された全てのテスト画像について正規化された顔画像を顔画像認識部22に出力した後に、処理終了信号を出力する。
これにより、テスト画像に対する顔画像データを抽出することができる。なお、上述の顔画像検出手順は、上述の学習用顔画像検出部13と同様の処理が行われている。
<<顔画像認識部22>>
次に、顔画像認識部22における顔画像認識手順について、フローチャートを用いて説明する。図13は、第1の実施の形態における顔画像認識手順の一例を示すフローチャートである。
顔画像認識部22は、まず、入力顔画像検出部21から得られる入力顔画像を全て入力する(S71)。なお、S71において、入力顔画像検出部21からの入力顔画像を全て入力したかの判断は、入力顔画像検出部21により出力された処理終了信号が入力されたか否かにより判断する。
次に、顔データ要求信号を記録部15へ出力する(S72)。これにより、記録部15から顔テンプレート及び事後確率分布サンプルを取得する(S73)。
なお、S72及びS73のステップについては、S71において、入力顔画像データを全て取得した後でなくてもよく、例えば、入力顔画像データが最初に入力された時点でS72及びS73のステップを実行してもよい。
次に、顔画像認識部22は、記録部15からの顔テンプレート及び事後確率分布サンプルと、入力顔画像検出部21からの顔画像データとに基づいて上述の(21)式の計算を実行し、上述の(18)式によりHMPを算出する(S74)。また、顔画像認識部22は、顔認識結果としてHMPに対応する人物IDを特定し出力する(S75)。なお、人物の特定結果としては、人物IDに限らず、人物を特定することができる識別情報でもよい。
これにより、顔画像認識において顔の表情の変形に対する統計的な変形データを利用することで、テスト画像上における顔画像データが変形している場合でも特徴点の探索及び認識結果に及ぼす影響を抑制し、頑健性を改善して高精度な顔画像認識を実現することができる。
また、最適化が困難な各種パラメータをシステムが自動的に学習画像を用いて学習するため、従来のヒューリスティックな手法よりも安定した認識を行うことができる。更に、登録人物の様々な画像(学習画像)を利用することで、例えば映像信号等から取得したテスト画像の表情の変動に対して頑健な顔画像認識を実現することができる。
なお、上述のHMPを算出する場合、事後確率分布サンプル数に応じて処理時間が増えてしまう。そこで、顔画像認識特定装置において、事後確率分布サンプルを予め設定された条件に基づきサンプル数を減少させるフィルタ手段を設けることで、顔画像認識の処理速度を向上させることができる。
<第2の実施の形態>
ここで、本発明における顔画像認識装置の第2の実施の形態として、上述のフィルタ手段を有する顔画像認識装置の構成について図を用いて説明する。
図14は、顔画像認識装置の第2の実施の形態における構成例を示す図である。なお、図14において、顔画像認識装置2は、顔データ作成装置60と、顔画像認識特定装置70とを有するよう構成されている。なお、本実施の形態に係る顔データ作成装置60は、図1に示した顔データ作成装置10と同様の構成である。しかしながら、記録部65における事後確率分布サンプルの出力先が顔データ作成装置10と相違している。
また、顔画像認識特定装置70は、入力顔画像検出部21と、顔画像認識部72と、フィルタ部73とを有するよう構成されている。ここで、入力顔画像検出部21は、図1に示した顔画像検出装置と同様の構成である。次に、顔データ作成装置60と、顔画像認識装置70について、主に相違部分を説明する。
<顔データ作成装置60>
顔データ作成装置60は、画像データ又はその画像データのリスト等によって与えられる登録顔画像、表情サンプル画像、及びユーザが画像データ表示手段等を用いて表示される内容を参照しながら生成される登録顔画像の特徴点配置情報や人物ID、表情サンプル画像の特徴点配置情報から、顔テンプレート及び事後確率分布サンプルを作成する。なお、顔データ作成装置10に含まれる各構成における処理手順は上述した第1の実施の形態と同様である。ただし、記録部65においては、顔画像認識部72により入力される顔データ要求信号に対して顔テンプレートを顔画像認識部72に出力し、事後確率分布サンプルをフィルタ部73へ出力する。
<顔画像認識特定装置70>
顔画像認識特定装置70は、記録部15に保存されている顔テンプレート及び事後確率分布パラメータに基づいて、上述の(21)式等の計算を実行し、新たに与えられた顔画像データに対する顔認識結果を出力する。ここで、上述の図1を用いて説明した内容と相違する部分について具体的に説明する。
<<顔画像認識部72>>
顔画像認識部72における顔画像認識手順について、フローチャートを用いて説明する。図15は、第2の実施の形態における顔画像認識手順の一例を示すフローチャートである。
顔画像認識部72は、まず、入力顔画像検出部21からテスト画像より得られる入力顔画像を全て入力する(S81)。なお、S71において、入力顔画像検出部21からの入力顔画像を全て入力したかの判断は、入力顔画像検出部21により出力された処理終了信号が入力されたか否かにより判断する。
次に、顔データ要求信号を記録部15へ出力する(S82)。また、顔画像認識部72は、フィルタ部73に対して予め設定されているフィルタ条件を出力する(S84)。なお、フィルタ条件は、実際に行う入力顔画像の認識精度と処理時間とを考慮して設定されることになる。また、フィルタの条件としては、事後確率分布サンプルを所定の間隔毎に間引くか、学習画像毎のサンプル数に対応させた間隔毎に間引く等、間隔を調整してフィルタを行うような条件を出力する。
次に、記録部15より顔テンプレートを取得する(S84)。更に、フィルタ部73から設定したフィルタ条件によりフィルタされた事後確率分布サンプルを取得する(S85)。
なお、S82〜S85については、S81において、入力顔画像データを全て取得した後でなくてもよく、例えば、入力顔画像データが最初に入力された時点でS82〜S85のステップを実行してもよい。
次に、顔画像認識部72は、記録部15からの顔テンプレートと、フィルタ部73からの事後確率分布サンプルと、入力顔画像検出部21からの入力顔画像データとに基づいて上述の(21)式の計算を実行し、上述の(18)式によりHMPを算出する(S86)。また、顔画像認識部72は、顔認識結果としてHMPに対応する人物IDを出力する(S87)。なお、人物の特定結果としては、人物IDに限らず、人物を特定することができる識別情報でもよい。
<<フィルタ部73>>
フィルタ部73は、顔画像認識部72からのフィルタ条件に基づいて、記録部15から入力した事後確率分布サンプルをフィルタリングする。ここで、フィルタの条件としては、事後確率分布サンプルを所定の間隔毎に間引くか、学習画像毎のサンプル数に対応させた間隔毎に間引く等、間隔を調整してフィルタを行う。
このようにフィルタの設定することで、事後確率分布サンプルのデータ量を削減することができ、認識精度が大きく劣化する等の影響がない。更に、顔画像認識部72における顔認識特定処理時間を減少させることができる。
これにより、顔画像認識において顔の表情の変形に対する統計的な変形データを利用することで、テスト画像上における顔画像データが変形している場合でも特徴点の探索及び認識結果に及ぼす影響を抑制し、頑健性を改善して高精度な顔画像認識を実現することができる。
また、最適化が困難な各種パラメータをシステムが自動的に学習画像を用いて学習するため、従来のヒューリスティックな手法よりも安定した認識を行うことができる。更に、登録人物の様々な画像(学習画像)を利用することで、たとえば、映像信号等から取得したテスト画像の表情の変動に対して頑健な顔画像認識を実現することができる。
また、第2の実施の形態では、フィルタ手段(フィルタ部73)を画像認識特定装置70内に設けているが、本発明においてはこの限りではなく、例えば事後確率分布学習部14において予め設定されるサンプル総数を低く設定することで対応することができる。
また、上述の実施の形態においては、顔データ作成装置と顔画像認識特定装置を分けた構成を説明したが、本発明においてはこの限りではなく、例えば、同一装置内に本発明における顔画像認識を行うための各主要構成部が具備されてもよい。更に、上述したように顔画像認識装置における専用の装置構成により本発明における顔画像認識を行うこともできるが、上述した内容をコンピュータに実行させることができる実行プログラム(顔画像認識プログラム)を生成し、例えば、汎用のパーソナルコンピュータ、ワークステーション等に顔画像認識プログラムをインストールすることにより、本発明における顔画像認識が実現可能となる。
ここで、本発明における実行可能なコンピュータのハードウェア構成例について図を用いて説明する。図16は、本発明における顔画像認識処理が実現可能なハードウェア構成の一例を示す図である。
図16におけるコンピュータ本体には、入力装置81と、出力装置82と、ドライブ装置83と、補助記憶装置84と、メモリ装置85と、各種制御を行うCPU(Central Processing Unit)86と、ネットワーク接続装置87とを有するよう構成されており、これらはシステムバスBで相互に接続されている。
入力装置81は、使用者が操作するキーボード及びマウス等のポインティングデバイスを有しており、使用者からのプログラムの実行等、各種操作信号を入力する。出力装置82は、本発明における顔画像認識処理を行うためのコンピュータ本体を操作するのに必要な各種ウィンドウやデータ等を表示するモニタを有し、CPU86が有する制御プログラムによりプログラムの実行経過や結果等を表示することができる。
ここで、本発明において、コンピュータ本体にインストールされる実行プログラムは、例えば、CD−ROM等の記録媒体88等により提供される。プログラムを記録した記録媒体88は、ドライブ装置83にセット可能であり、記録媒体88に含まれる実行プログラムが、記録媒体88からドライブ装置83を介して補助記憶装置84にインストールされる。
補助記憶装置84は、ハードディスク等のストレージ手段であり、本発明における実行プログラムや、コンピュータに設けられた制御プログラム等を蓄積し必要に応じて入出力を行うことができる。
CPU86は、OS(Operating System)等の制御プログラム、メモリ装置85に格納されている実行プログラムに基づいて、各種演算や各ハードウェア構成部とのデータの入出力等、コンピュータ全体の処理を制御して、上述した顔画像認識における各処理を実現することができる。プログラムの実行中に必要な各種情報は、補助記憶装置84から取得することができ、また格納することもできる。
ネットワーク接続装置87は、通信ネットワーク等と接続することにより、実行プログラムを通信ネットワークに接続されている他の端末等から取得したり、プログラムを実行することで得られた実行結果又は本発明における実行プログラム自体を他の端末等に提供することができる。
上述したようなハードウェア構成により、特別な装置構成を必要とせず、低コストで高精度な顔画像認識処理を実現できる。
上述したように本発明によれば、顔画像認識において顔の表情の変形に対する統計的な変形データを利用することで、テスト画像上における顔画像データが変形している場合でも特徴点の探索及び認識結果に及ぼす影響を抑制し、頑健性を改善して高精度な顔画像認識を実現することができる。更に具体的には、ベイズ統計を用いた評価基準に基づき、人物に依存しない平均的な顔の変形に関する情報(事前確率分布パラメータ)と、予め登録される認識対象の個々の人物に固有の情報(事後確率分布サンプル)とを利用して、パラメータの最適化の問題を解決し、高精度な認識性能を実現することができる。
また、テスト画像を撮影する際のユーザの表情変化や発話状態等の顔の変形に関する変動に対して頑健な顔画像認識が可能となる。これにより、高精度な顔画像認識を実現することができる。
以上本発明の好ましい実施の形態について詳述したが、本発明は係る特定の実施形態に限定されるものではなく、特許請求の範囲に記載された本発明の要旨の範囲内において、種々の変形、変更が可能である。
顔画像認識装置の第1の実施の形態における構成例を示す図である。 登録画像に対応する特徴点の配置例を示す図である。 本発明における顔画像登録手順の一例を示すフローチャートである。 本発明における顔テンプレートの一例を示す図である。 本発明における事前確率分布推定手順の一例を示すフローチャートである。 表情サンプル画像と対応する特徴の分布の一例を示す図である。 本発明における学習用顔画像検出手順の一例を示すフローチャートである。 学習画像を説明するための一例の図である。 本発明における学習用顔画像検出手順の一例を示すフローチャートである。 事後確率分布サンプルの抽出例を示す図である。 本発明における抽出した事後確率分布サンプルの特徴点の分布の様子を説明するための一例の図である。 入力顔画像検出手順の一例を示すフローチャートである。 第1の実施の形態における顔画像認識手順の一例を示すフローチャートである。 顔画像認識装置の第2の実施の形態における構成例を示す図である。 第2の実施の形態における顔画像認識手順の一例を示すフローチャートである。 本発明における顔画像認識処理が実現可能なハードウェア構成の一例を示す図である。
符号の説明
1,2 顔画像認識装置
10,60 顔データ作成装置
11 顔画像登録部
12 事前確率分布推定部
13 学習用顔画像検出部
14 事後確率分布学習部
15,65 記録部
20,70 顔画像認識特定装置
21 入力顔画像検出部
22,72 顔画像認識部
30 特徴点
40 表情サンプル画像
51,52 画像
73 フィルタ部
81 入力装置
82 出力装置
83 ドライブ装置
84 補助記憶装置
85 メモリ装置
86 CPU
87 ネットワーク接続装置
88 記録媒体

Claims (7)

  1. 予め登録される登録顔画像と前記登録顔画像の人物とは異なる人物の表情の異なる複数のサンプル画像と前記登録顔画像の人物の表情の異なる複数の学習画像を用いて、入力される画像中に含まれる顔画像の人物を特定するための顔画像認識装置であって、
    前記登録顔画像にプロットされた特徴点の近傍の画像の情報と、前記登録顔画像の特徴点配置情報と人物識別情報とを、前記登録顔画像に対応付けて顔テンプレートとして登録する顔画像登録部と、
    前記複数のサンプル画像とサンプル画像の特徴点配置情報とに基づいて、顔変形データの確率分布パラメータを生成する確率分布推定部と、
    前記顔画像登録部により予め登録される前記登録顔画像の各人物毎に撮影した表情の異なる複数の顔画像データである学習画像から、前記学習画像に映っている人の顔を検出し、顔の大きさを一定の大きさに正規化した学習用顔画像を出力する顔画像検出部と、
    前記顔画像登録部において得られる複数の顔テンプレートと前記確率分布パラメータと前記学習用顔画像とに基づいて、モンテカルロ法によって学習した各人物毎の表情変化に伴う各特徴点の配置の変化の統計的性質を確率分布サンプルデータとして抽出する確率分布学習部と、
    前記複数の顔テンプレートにおける前記特徴点の近傍の画像の情報及び前記特徴点配置情報と前記確率分布サンプルデータにおける各特徴点の配置の確率分布とに基づいて、前記入力される画像中に含まれる顔画像の夫々の登録顔画像に対応する人物が出現する確率値をベイズ統計に基づく評価基準を用いて算出し、算出された確率値が最大となる前記顔テンプレートに対応する人物を特定する顔画像認識部とを有し、
    前記確率分布推定部は、
    全ての特徴点配置情報の夫々の特徴点の座標についての分散・共分散行列を生成し、生成した前記分散・共分散行列の逆行列を前記確率分布パラメータとすることを特徴とする顔画像認識装置。
  2. 前記顔画像認識部は、
    前記ベイズ統計に基づく評価基準を用いて算出された顔テンプレートの出現に関する統合的な確率値である事後確率が最大となる顔テンプレートに含まれる前記人物識別情報を出力することを特徴とする請求項に記載の顔画像認識装置。
  3. 前記確率分布サンプルデータを予め設定されるフィルタ条件に基づいてフィルタリングするフィルタ部を有することを特徴とする請求項1又は2に記載の顔画像認識装置。
  4. 前記フィルタ部は、
    入力した確率分布サンプルデータを予め設定される間隔毎に間引くことを特徴とする請求項に記載の顔画像認識装置。
  5. 前記顔画像認識部は、
    前記顔テンプレートと前記フィルタ部から得られる前記確率分布サンプルデータとに基づいて、前記入力される画像中に含まれる顔画像の人物を特定することを特徴とする請求項3又は4に記載の顔画像認識装置。
  6. 予め登録される登録顔画像と前記登録顔画像の人物とは異なる人物の表情の異なる複数のサンプル画像と前記登録顔画像の人物の表情の異なる複数の学習画像を用いて、入力される画像中に含まれる顔画像の人物を特定するための顔画像認識をコンピュータに実行させるための顔画像認識プログラムであって、
    コンピュータに、
    前記登録顔画像にプロットされた特徴点の近傍の画像の情報と、前記登録顔画像の特徴点配置情報と人物識別情報とを、前記登録顔画像に対応付けて顔テンプレートとして登録する顔画像登録処理
    前記複数のサンプル画像とサンプル画像の特徴点配置情報とに基づいて、顔変形データの確率分布パラメータを生成する確率分布推定処理
    前記顔画像登録処理により予め登録される前記登録顔画像の各人物毎に撮影した表情の異なる複数の顔画像データである学習画像から、前記学習画像に映っている人の顔を検出し、顔の大きさを一定の大きさに正規化した学習用顔画像を出力する顔画像検出処理
    前記顔画像登録処理において得られる複数の顔テンプレートと前記確率分布パラメータと前記学習用顔画像とに基づいて、モンテカルロ法によって学習した各人物毎の表情変化に伴う各特徴点の配置の変化の統計的性質を確率分布サンプルデータとして抽出する確率分布学習処理、及び、
    前記複数の顔テンプレートにおける前記特徴点の近傍の画像の情報及び前記特徴点配置情報と前記確率分布サンプルデータにおける各特徴点の配置の確率分布とに基づいて、前記入力される画像中に含まれる顔画像の夫々の登録顔画像に対応する人物が出現する確率値をベイズ統計に基づく評価基準を用いて算出し、算出された確率値が最大となる前記顔テンプレートに対応する人物を特定する顔画像認識処理を実行させ、
    前記確率分布推定処理は、
    全ての特徴点配置情報の夫々の特徴点の座標についての分散・共分散行列を生成し、生成した前記分散・共分散行列の逆行列を前記確率分布パラメータとすることを特徴とする顔画像認識プログラム。
  7. 前記顔画像認識処理は、
    前記ベイズ統計に基づく評価基準を用いて算出された顔テンプレートの出現に関する統合的な確率値である事後確率が最大となる顔テンプレートに含まれる前記人物識別情報を出力することを特徴とする請求項6に記載の顔画像認識プログラム。
JP2004013589A 2004-01-21 2004-01-21 顔画像認識装置及び顔画像認識プログラム Expired - Fee Related JP4348202B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2004013589A JP4348202B2 (ja) 2004-01-21 2004-01-21 顔画像認識装置及び顔画像認識プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2004013589A JP4348202B2 (ja) 2004-01-21 2004-01-21 顔画像認識装置及び顔画像認識プログラム

Publications (2)

Publication Number Publication Date
JP2005208850A JP2005208850A (ja) 2005-08-04
JP4348202B2 true JP4348202B2 (ja) 2009-10-21

Family

ID=34899602

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2004013589A Expired - Fee Related JP4348202B2 (ja) 2004-01-21 2004-01-21 顔画像認識装置及び顔画像認識プログラム

Country Status (1)

Country Link
JP (1) JP4348202B2 (ja)

Families Citing this family (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4372051B2 (ja) * 2005-06-13 2009-11-25 株式会社東芝 手形状認識装置及びその方法
US7450736B2 (en) * 2005-10-28 2008-11-11 Honda Motor Co., Ltd. Monocular tracking of 3D human motion with a coordinated mixture of factor analyzers
JP4928193B2 (ja) * 2006-08-16 2012-05-09 日本放送協会 顔画像認識装置及び顔画像認識プログラム
JP5121681B2 (ja) * 2008-04-30 2013-01-16 株式会社日立製作所 生体認証システム、認証クライアント端末、及び生体認証方法
WO2013145496A1 (ja) * 2012-03-27 2013-10-03 日本電気株式会社 情報処理装置、情報処理方法、及びプログラム
JP6039942B2 (ja) * 2012-07-09 2016-12-07 キヤノン株式会社 情報処理装置及びその制御方法及びプログラム
CN105095911B (zh) * 2015-07-31 2019-02-12 小米科技有限责任公司 敏感图片识别方法、装置以及服务器
CN109522778A (zh) * 2017-09-20 2019-03-26 顾泽苍 一种可达到图像理解水平的图像识别方法
KR102174345B1 (ko) 2018-06-12 2020-11-04 영남대학교 산학협력단 몰입도 측정장치 및 방법
JP7438690B2 (ja) * 2019-08-09 2024-02-27 日本テレビ放送網株式会社 情報処理装置、画像認識方法及び学習モデル生成方法
JP7457809B2 (ja) * 2020-07-03 2024-03-28 株式会社ソニー・インタラクティブエンタテインメント 追加撮影要否通知装置、追加撮影要否通知方法及びプログラム
CN112146764B (zh) * 2020-09-25 2022-05-24 杭州海康威视数字技术股份有限公司 一种提高基于热成像温度测量准确性的方法、热成像设备
JP2023053734A (ja) * 2021-10-01 2023-04-13 パナソニックIpマネジメント株式会社 顔タイプ診断装置、顔タイプ診断方法及びプログラム
CN117788720B (zh) * 2024-02-26 2024-05-17 山东齐鲁壹点传媒有限公司 一种生成用户人脸模型的方法、存储介质及终端

Also Published As

Publication number Publication date
JP2005208850A (ja) 2005-08-04

Similar Documents

Publication Publication Date Title
US11816888B2 (en) Accurate tag relevance prediction for image search
Cohen et al. Facial expression recognition from video sequences: temporal and static modeling
EP2893491B1 (en) Image processing apparatus and method for fitting a deformable shape model to an image using random forest regression voting
JP4589625B2 (ja) カーネルフィッシャーフェイスを使用した顔認識
JP4348202B2 (ja) 顔画像認識装置及び顔画像認識プログラム
Wang et al. Sparse observation (so) alignment for sign language recognition
JP2005512201A5 (ja)
CN110069129B (zh) 确定系统和确定方法
EP1649408B1 (en) Systems and methods for training component-based object identification systems
JP6620882B2 (ja) ドメイン適応を用いたパターン認識装置、方法およびプログラム
CN113255557B (zh) 一种基于深度学习的视频人群情绪分析方法及系统
Jachimski et al. A comparative study of English viseme recognition methods and algorithms
Elakkiya et al. Extricating manual and non-manual features for subunit level medical sign modelling in automatic sign language classification and recognition
Mayer et al. Adjusted pixel features for robust facial component classification
CN110516638B (zh) 一种基于轨迹和随机森林的手语识别方法
Saabni Facial expression recognition using multi Radial Bases Function Networks and 2-D Gabor filters
Perronnin et al. A probabilistic model of face mapping with local transformations and its application to person recognition
JP4928193B2 (ja) 顔画像認識装置及び顔画像認識プログラム
EP2781991B1 (en) Signal processing device and signal processing method
JP2007249394A (ja) 顔画像認識装置及び顔画像認識プログラム
JP2004178569A (ja) データ分類装置、物体認識装置、データ分類方法及び物体認識方法
Kelly et al. Recognition of spatiotemporal gestures in sign language using gesture threshold hmms
Gervasi et al. A method for predicting words by interpreting labial movements
Liu et al. Human action recognition using manifold learning and hidden conditional random fields
Lu et al. Automatic lipreading based on optimized OLSDA and HMM

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20060324

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20090317

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20090515

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20090623

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20090717

R150 Certificate of patent or registration of utility model

Ref document number: 4348202

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120724

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120724

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130724

Year of fee payment: 4

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140724

Year of fee payment: 5

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees