JP2005149302A

JP2005149302A - 顔画像認識装置及び顔画像認識プログラム

Info

Publication number: JP2005149302A
Application number: JP2003388203A
Authority: JP
Inventors: Atsushi Matsui; 淳松井; Clippingdale Simon; クリピングデルサイモン
Original assignee: Nippon Hoso Kyokai NHK; Japan Broadcasting Corp
Current assignee: Japan Broadcasting Corp
Priority date: 2003-11-18
Filing date: 2003-11-18
Publication date: 2005-06-09

Abstract

【課題】高精度な顔画像認識を実現することを目的とする。
【解決手段】予め登録される登録顔画像と表情の異なる複数の顔画像とを用いて、入力される画像中に含まれる顔画像の人物を特定するための顔画像認識装置であって、前記登録顔画像の特徴点配置情報と人物ＩＤとを、前記登録顔画像に対応付けて顔テンプレートとして登録する顔画像登録部と、前記表情の異なる複数の顔画像の特徴点配置情報に基づいて顔変形情報を抽出する顔変形情報抽出部と、前記画像登録部から得られる顔テンプレートと、前記顔変形情報抽出部から得られる顔変形情報とに基づいて、前記画像中に含まれる顔画像中の人物を特定する顔画像認識部とを有することにより、上記課題を解決する。
【選択図】図１

Description

本発明は、顔画像認識装置及び顔画像認識プログラムに係り、特に高精度な画像認識を実現するための顔画像認識装置及び顔画像認識プログラムに関する。

近年、放送の多チャンネル化に伴い、高品質な多くの番組を制作する必要性が高まっている。また、新たに撮影した素材に加え、大容量のアーカイブに保存された映像を再利用して番組を制作するスタイルが普及するものと考えられる。このような制作環境で、効率よく番組を制作するためには、目的のシーンを撮影素材又はアーカイブからすばやくかつ正確に見つけ出す必要がある。

ところで、取材した大量の素材映像から目的の映像シーンを選択して編集する場合、フレームやカット毎にその内容を表すインデックスが付いている。映像内容の意味的な記述は「誰が」、「何を」、「している」、「言っている」等の形式となるので、映像から自動的にこのような情報を抽出するためには、顔認識、音声認識、動作認識、顔表情認識、対象物認識やそれらを組み合わせた技術が有効な手段であり、そのために顔画像認識システムが用いられている。

ここで、顔画像認識が困難である最大の理由は、認識対象可変性が多いという問題である。この因子としては顔の表情における可変性が上げられる。そこで、対象物の変形に対して頑健な画像間の類似度の評価が可能である手法としてロバスト推定による方法がある（例えば、非特許文献１参照。）。

この手法は、発声、表情等で生じる顔の変形を柔軟に扱える可変テンプレートマッチングにおいて、夫々の特徴点毎の信頼度に応じた重みを算出する。具体的には、夫々の特徴点の自乗距離に乗じた総和を計算し、その計算した値を歪みエネルギーとして重み付けする。また、信頼度には、ガボールウェーブレット（ＧａｂｏｒＷａｖｅｌｅｔ）係数に基づいて計算した各特徴点の近傍における空間周波数についての類似度が用いられる。

ここで、予め登録されている登録画像をＡ、人物を特定する対象となる画像をＢ、登録画像Ａ毎にプロットされた特徴点をｘ⁻、類似度を算出際に必要となるパラメータをｘとすると、各特徴点の近傍画素の空間周波数的な特徴（例えば、ガボールウェーブレット係数等）の類似度を評価する式はＭ（Ａ，Ｂ，ｘ^―，ｘ）と定義される。これは、信頼度が低い特徴点の重みを低くすることにより、推定結果へのノイズ等の影響を減らす手法である。
サイモン・クリピングデル他，"動画像の顔検出・追跡・認識への統一されたアプローチ"，ＰＲＭＵ講演発表予稿集，１９９９年１月。

上述した従来のロバスト推定による方法では、特徴点の微少な変形に対してはパラメータを変更することによって対応することができるが、顔画像における表情変化のように、ある特定の方向に大きく変形するような場合に対しては、各特徴点の変形の方向に関する重み付けの情報を持っていないため、それが許容すべき変形であるか否か、またどの程度その変形を許容（補正）すべきかを判断することはできない。

本発明は、上述した問題点に鑑みなされたものであり、統計的に得られた顔画像の変形情報を利用することで、高精度な顔画像認識を実現するための顔画像認識装置及び顔画像認識プログラムを提供することを目的とする。

上記課題を解決するために、本件発明は、以下の特徴を有する課題を解決するための手段を採用している。

請求項１に記載された発明は、予め登録される登録顔画像と表情の異なる複数の顔画像とを用いて、入力される画像中に含まれる顔画像の人物を特定するための顔画像認識装置であって、前記登録顔画像の特徴点配置情報と人物ＩＤとを、前記登録顔画像に対応付けて顔テンプレートとして登録する顔画像登録部と、前記表情の異なる複数の顔画像の特徴点配置情報に基づいて顔変形情報を抽出する顔変形情報抽出部と、前記画像登録部から得られる顔テンプレートと、前記顔変形情報抽出部から得られる顔変形情報とに基づいて、前記画像中に含まれる顔画像中の人物を特定する顔画像認識部とを有することを特徴とする。

請求項１記載の発明によれば、登録顔画像と表情が異なる顔変形情報とを用いることにより、画像中に含まれる顔画像における表情変化や発話状態等の顔の変形に関する変動に対して頑健な顔画像認識が可能となる。これにより、高精度な顔画像認識を実現することができる。

請求項２に記載された発明は、前記顔変形情報抽出部は、前記表情の異なる複数の顔画像における顔画像毎の特徴点の座標分布から同一の特徴点に対するマハラノビス距離を算出することにより、顔変形情報を抽出することを特徴とする。

請求項２記載の発明によれば、表情の異なる複数の顔画像から、マハラノビス距離を算出することで統計的に得られた顔変形情報を利用することで、高精度な顔画像認識を実現することができる。

請求項３に記載された発明は、前記顔変形情報抽出部は、各特徴点に対する移動方向又は移動位置からなる移動情報を他の特徴点と対応づけることにより、顔変形情報を抽出することを特徴とする。

請求項３記載の発明によれば、移動情報に基づき、更に他の特徴点と対応付けて顔変形情報を抽出することにより、高精度な顔画像認識を実現することができる。

請求項４に記載された発明は、前記顔画像認識部は、可変テンプレートを用いて画像認識を行うことを特徴とする。

請求項４記載の発明によれば、顔の変形や、顔画像のサイズが異なる場合に柔軟に対応することができる。これにより、高精度な画像認識を行うことができる。

請求項５に記載された発明は、前記顔画像認識部は、前記登録顔画像と前記画像中に含まれる顔画像との類似度を算出し、算出された類似度が最大となる登録顔画像を選定することを特徴とする。

請求項５記載の発明によれば、類似度が最大となる登録顔画像を選定することにより、人物を容易に特定することができ高精度な顔画像認識を実現することができる。

請求項６に記載された発明は、予め登録される登録顔画像と表情の異なる複数の顔画像とを用いて、入力される画像中に含まれる顔画像の人物を特定するための顔画像認識をコンピュータに実行させるための顔画像認識プログラムであって、前記登録顔画像の特徴点配置情報と人物ＩＤとを、前記登録顔画像に対応付けて顔テンプレートとして登録する顔画像登録処理と、前記表情の異なる複数の顔画像の特徴点配置情報に基づいて顔変形情報を抽出する顔変形情報抽出処理と、前記画像登録処理により得られる顔テンプレートと、前記顔変形情報抽出処理により得られる顔変形情報とに基づいて、前記画像中に含まれる顔画像中の人物を特定する顔画像認識処理とをコンピュータに実行させる。

請求項６記載の発明によれば、登録顔画像と表情が異なる顔変形情報とを用いることにより、画像中に含まれる顔画像における表情変化や発話状態等の顔の変形に関する変動に対して頑健な顔画像認識が可能となる。これにより、高精度な顔画像認識を実現することができる。また、実行プログラムをコンピュータにインストールすることにより、容易に顔画像認識を実現することができる。

本発明によれば、統計的に得られた顔画像の変形情報を利用することで、高精度な顔画像認識を実現することができる。

＜本発明の特徴＞
本発明では、顔画像認識において対象物（顔）について想定される複数の変形サンプル画像を撮影し、そのサンプル画像上にプロットした特徴点の統計的な情報（分散・共分散行列）を抽出して利用する。つまり、顔の表情により特徴点毎の移動方向や移動位置がある程度対応付けられて移動するため、その移動情報を人物を特定したい画像の特徴点について適用することにより、顔画像認識を行う。

なお、サンプルとして与える画像は、その対象物（顔）がとりうる主な変形のパターンを網羅できれば良いので、登録画像の対象物そのもの（例えば、顔画像による個人認証システムでは登録人物そのもの）についての変形の様子を撮影する必要はない。すなわち、本発明では、変形のサンプルとして与える表情の異なる画像が、登録画像の人物そのものが異なる表情の画像を撮影するものでなく、顔の変形パターンが類似している、あるいはサンプル画像の表情が登録画像の人物がとりうる表情を包含する関係であれば適応が可能である。

＜本発明の原理＞
次に、本発明における顔画像認識における発明の原理について説明する。本発明は、ある特定の対象物（例えば、人間の顔）を映した画像についての属性（例えば、ある顔画像に対しての人物）が既知である画像（以下、「登録画像」という。）が、予め複数与えられた場合に、属性が未知の画像（以下、「テスト画像」という。）に対して、最も類似する登録画像を複数の候補の中から探し出し、その属性を出力するシステムに関わる技術である。

このような画像間のマッチングを扱う技術については、幾つか提案されているが、本発明では、特に画像全体にわたる比較ではなく処理対象物の特徴を端的に表すと考えられる代表的な点（例えば、顔画像における瞳や目尻、鼻の頂点、口の端点等。以下これらを総称して「特徴点」という。）において、後述の（１）式に示すような２つの項から構成される関数Ｓ（Ａ，Ｂ，ｘ^―，ｘ）で定義された類似度に基づいて画像間のマッチングを評価する可変テンプレートマッチングを用いる。
Ｓ（Ａ，Ｂ，ｘ^―，ｘ）＝Ｍ（Ａ，Ｂ，ｘ^―，ｘ）−αＥ（ｘ^―，ｘ）・・・（１）

ここで、Ａは登録画像を表し、Ｂはテスト画像を表す。また、ｘ^―は登録画面上の特徴点の配置を表し、ｘはテスト画像上の特徴点の配置を表し、ｘ^―，ｘは「ｘ^―，ｘ∈Ｒ^２Ｎ（ただし、Ｎは特徴点の数）」の関係式が成り立つ。更に、ｘ^―は、登録画像Ａ毎にプロットされた固定値であるが、ｘは，与えられた｛Ａ，Ｂ，ｘ^―｝に対して類似度Ｓ（Ａ，Ｂ，ｘ^―，ｘ）を最大化するようにシステムが最適化するパラメータである。

上述の（１）式において、右辺第１項のＭ（Ａ，Ｂ，ｘ^―，ｘ）は、Ａ，Ｂ各々の特徴点の近傍の画素の空間周波数的な特徴（例えば、ガボールウェーブレット係数等）の類似度を周波数成分に基づいて評価する項である。なお、上述の（１）式における右辺第１項の関するについては、本発明においてはこの限りではなく、登録画像Ａとテスト画像Ｂとが同じ属性（登録画像に映された個々の対象物を特定するための情報、例えば、顔画像に対しての人物ＩＤ等）である場合には大きい値を、また両者が異なる属性である場合には小さい値を返す関数であればよい。

一方、右辺第２項のＥ（ｘ^―，ｘ）は、ｘ^―とｘとの空間的配置の違いを評価する項であり、両者が完全に一致するときのみ“０”を、それ以外は正の値を返す（以下、Ｅ（ｘ^―，ｘ）を「歪みエネルギー」という。）。

また、（１）式中のαは、Ｓ（Ａ，Ｂ，ｘ^―，ｘ）に対する歪みエネルギーＥ（ｘ^―，ｘ）の寄与率を決定する重みパラメータである。Ｅ（ｘ^―，ｘ）の簡単な例としては後述の（２）式に示すように、ｘ^―とｘの夫々対応する特徴点の間のユークリッド距離の自乗和が考えられる。
Ｅ（ｘ^―，ｘ）＝（ｘ−ｘ^―）^ｔ・（ｘ−ｘ^―）・・・（２）

また、本発明が扱う問題は、対象とする物体（対象物）が非剛体である場合において、撮影された２枚の画像Ａ，Ｂのうちの一方が、システムが考慮すべき変形（例えば、顔画像における表情の変化）した状態で撮影された場合、その変形が歪みエネルギーＥ（ｘ^―，ｘ）に及ぼす影響を予測し補正することである。つまり、人物を特定する画像は、登録画像からどのくらいずれているかの歪みを判定し、最適な歪みエネルギーＥ（ｘ^―，ｘ）を設定して補正を行う。

ここで、異なった表情で撮影される変形サンプルについては統計的な利用を行う。まず、考慮すべき対象物の変形のパターンを、同一又は類似の対象物について事前に撮影した複数のサンプル画像から特徴点の配置に関する統計量（分散・共分散行列Ｃ∈Ｒ^{２Ｎ×２Ｎ}）で表現し、未知のテスト画像上の特徴点の配置に関する事前情報とする。このとき、歪みエネルギーは、この分散・共分散行列を用いて事前に予測される変形のパターンを反映した距離空間で計算することが可能となり後述の（３）式で定義される。
Ｅ（ｘ^―，ｘ）＝（ｘ−ｘ^―）^ｔ・Ｃ^−１・（ｘ−ｘ^―）・・・（３）

上式は、一般にマハラノビス（Ｍａｈａｌａｎｏｂｉｓ）距離と呼ばれている。マハラノビス距離を歪みエネルギーの計算に用いることによって、サンプル画像に多く出現した変形に対しては小さく、また殆ど出現しなかった変形に対しては大きく、歪みエネルギーを設定し補正を行うことができる。その結果、サンプル画像から予想される変形に対して頑健な可変テンプレートマッチングが実現される。

＜実施の形態＞
次に、上述した特徴を有する本発明における顔画像認識装置及び顔画像認識プログラムを好適に実施した形態について、図面を用いて説明する。

図１は、本発明における顔画像認識装置の一構成例を示す図である。図１の顔画像認識装置１は、顔データ作成装置１０と、顔画像認識装置２０とを有するよう構成されている。また、顔データ作成装置１０は、顔画像登録部１１と、画像データ表示部１２と、顔変形情報抽出部１３と、記録媒体部１４とを有するよう構成されている。また、顔画像認識装置２０は、顔画像検出部２１と、顔画像認識部２２とを有するよう構成されている。

顔画像登録部１１は、予め入力される登録顔画像と、各登録顔画像について特徴点が配置された特徴点配置情報と、各登録画像に対応する人物ＩＤとから、顔テンプレートを出力し記録媒体部１４に出力する。ここで、人物ＩＤとは、人物を特定するための情報であり、人名や、性別、年齢、顔画像の向き、ユニークとなるＩＤ等からなる。

また、顔変形情報抽出部１３は、入力複数の表情サンプル画像と、各表情サンプル画像について特徴点が配置された特徴点配置情報とから、顔変形データ（顔変形情報）を出力し記録媒体部１４に出力する。

また、画像データ表示部１２は、顔画像登録部１１及び顔変形情報抽出部１３での上述した処理を行うための顔画像情報等の表示や各処理経過、結果等を表示する。更に、記録媒体部１４は、顔画像登録部１１から入力された顔テンプレート、顔変形情報抽出部１３から入力された顔変形データを記録する。

ここで、顔画像として設定される特徴点の例について図を用いて説明する。図２は、登録画像に対応する特徴点の配置例を示す図である。図２に示す顔画像における目元や目尻、鼻の頂点、口の端点等の合計９点を特徴点３０−０〜３０−８としている。なお、特徴点の位置や数についてはこの限りではない。図２に示す特徴点を顔画像登録部１１が登録顔画像毎に配置する。また同様に顔変形情報抽出部１３は表情サンプル画像毎に特徴点を配置して特徴点配置情報が生成される。

なお、上述の処理は、処理対象であるテスト画像から画像認識を行うための前処理としてテスト画像が入力される前に実行することが可能である。

ここで、顔変形データは、入力した変形サンプル画像に基づいて、画像中の全ての特徴点が移動向きや移動方向等の移動情報を特徴づけたものであり、例えば、ある特徴点がどの程度動いたら、他の特徴点がどの向きにどの程度動くか等、特徴点毎に対応付けられた移動情報が統計的に求められたものである。つまり、表情の異なるサンプル画像を用いて各特徴点がどの方向にどれだけ動く傾向があるかを判定し、顔の変形（変動）を顔変形データとして出力する。

顔画像認識装置２０は、顔データ作成装置１０に蓄積されている顔テンプレートと顔変形データとを利用して、入力されたテスト画像から顔認識結果を出力する。顔画像検出部２１は、入力されるテスト画像から顔画像の領域を検出し、顔画像領域の画像データを出力する。ここで、顔画像検出部２１は、与えられた画像から顔の部分（領域）を検出し、検出した顔の中心位置と大きさとを推定することができる。

顔画像認識部２２は、顔画像検出部２１から顔画像領域の画像データが入力される前に顔データ作成装置１０の記録媒体部１４に顔データ要求信号を送り、顔テンプレートと顔変形データとを受け取る。顔画像認識部２２は、記録媒体部１４から受け取った顔テンプレートと顔変形データとに基づいて顔画像データに映っている人物を特定し、その人物情報を顔認識結果として出力する。

ここで、本発明の目的は、表情の変化等、登録顔画像と異なる環境で撮影されたテスト画像が入力された場合に、予め採取した表情サンプル画像に基づいて起こり得る顔の変形パターン（顔変形データ）を推定し、顔画像認識部２２でその情報を利用することで顔認識結果の精度を改善することである。

更に、上述の内容を具体的に説明すると、まず、記録媒体部１４に蓄積されている顔変形情報抽出部１３からの顔変形データに基づいて、各特徴点の移動許容範囲を基準に顔認識の類似度を算出する。例えば、表情が笑顔の場合は、口端の特徴点（図２に示す特徴点３０−７，３０−８）等は、対応して移動する可能性が高い。また、悲しい表情の場合は、両目の目尻の特徴点（図２に示す特徴点３０−２，３０−５）が対応して移動する可能性がある。このように、画像における特徴点の幾つかを対応付けた移動方向や移動位置からなる移動情報に基づいて、類似度（スコア）を高く設定して登録画像毎に登録画像に対応する顔テンプレートから類似度を算出する。また、その算出された値に上述の（１）式、（２）式を適用して、パラメータxの値を設定し類似度Ｓ（Ａ，Ｂ，ｘ⁻，ｘ）を計算する。その中で類似度が最大となる登録画像を選定することで人物を特定することができる。これにより、多様な表情にも対応した高精度な顔画像認識を実現することができる。

ここで、顔データ作成装置１０及び顔画像認識装置２０における本発明の具体的な処理手順について、具体的に説明する。

＜顔データ作成装置１０＞
顔データ作成装置１０は、画像データ又はその画像データのリスト等によって与えられる登録顔画像、表情サンプル画像、及びユーザが画像データ表示部１２の表示内容を参照しながら生成される登録顔画像の特徴点配置情報や人物ＩＤ、表情サンプル画像の特徴点配置情報から、顔テンプレートと顔変形データとを作成する。

次に、顔データ作成装置１０において顔画像登録部１１にて行う処理手順と、顔変形情報抽出部１３にて行う処理手順と、記録媒体部１４にて行う処理手順とを分けて説明する。

＜＜顔画像登録部１１＞＞
図３は、本発明における顔画像登録手順を示す一例のフローチャートである。ここで、顔画像登録部１１に入力されるデータは、少なくとも１つ存在し、データの内容は、上述した登録顔画像、特徴点配置情報、及び人物ＩＤである。

図２において、まず、入力された登録顔画像で、顔テンプレートを生成していいない未処理の登録顔画像データが存在するかを判断する（Ｓ０１）。ここで、未処理の登録顔画像が存在する場合は（Ｓ０１において、ＹＥＳ）、登録顔画像を読み込み（Ｓ０２）、画像データ表示部１２に読み込んだ登録顔画像を出力する（Ｓ０３）。

次に、画像データ表示部１２等に設けられているマウスやキーボード等の入力手段等を用いて画像データ表示部１２に表示された登録顔画像を参照しながら特徴点をプロットし、プロットした特徴点の座標から特徴点配置情報の設定を行う（Ｓ０４）。ここで、登録顔画像に付与される特徴点は、図２に示すように顔画像における目元や目尻、鼻の頂点、口の端点等の合計９点を特徴点３０−０〜３０−８としている。

また、画像データ表示部１２に表示された登録顔画像に対応する上述した人物ＩＤを入力し、登録顔画像と人物ＩＤとの対応付けを行う（Ｓ０５）。この時点で未処理の登録顔画像は処理済みとなる。

上述のＳ０１〜Ｓ０５の処理を未処理の登録顔画像がなくなるまで繰り返し行う。そして、未処理の登録画像が存在しなくなった場合（Ｓ０１において、ＮＯ）、読み込んだ全ての登録顔画像、特徴点配置情報、人物ＩＤから顔テンプレートを生成し記録媒体部１４へ出力する（Ｓ０６）。

なお、上述の手順は、表示画面に表示された内容からユーザが手動で実施する作業手順を示したが、例えば入力された登録顔画像と特徴点配置情報と人物ＩＤとが入力されると、入力されたデータがリスト形式にて画像データ表示部１２に入力順に表示され、ユーザがその画面にポインタを合わせて逐次選択していくことにより上述の処理を行うような構成を有していてもよい。

ここで、上述にて生成される顔テンプレートの例について図を用いて説明する。図４は、本発明における顔テンプレートの一例を示す図である。ここで、図４（ａ）は、特徴点を座標点に変換した行列を示し、図４（ｂ）は、各特徴点のガボールウェーブレット係数部に変換した行列を示し、図４（ｃ）は、人物ＩＤと顔の向きを示している。図４（ａ）は、図２に示す特徴点３０−０〜３０−８に夫々対応しており（図２（ａ）の第１列）、夫々の特徴点の座標値（Ｘ，Ｙ）を示している。なお、図４（ａ）では、予め顔の大きさを０番目（特徴点３０−０）と１番目（特徴点３０−１）との特徴点について正規化した状態での座標値になっている。そのため、人物を特定するために入力された画像が、どのような向きになっても、また、どのような大きさの顔画像であっても、一枚のある固定されたファイルに投影された状態での座標値になる。

ここで、図４（ａ）の第２列目は、顔の向きによって、その特徴点が見えているか否かを判定したフラグが設定される。例えば、特徴点３０−０〜３０−８が全て画像中に見えているのであれば“１”がセットされ、見えていないのであれば“０”がセットされる。また、各特徴点の座標を第３列（Ｘ座標）、第４列（Ｙ座標）に対応付けて設定している。

また、図４（ｂ）は、特徴点の配置と各特徴点の周りの画像の濃淡の情報、つまり空間周波数を各特徴点毎に算出した値がセットされている。実際には、ガボールウェーブレットという窓関数付きのＦＦＴ（ＦａｓｔＦｏｕｒｉｅｒＴｒａｎｓｆｏｒｍ）を用いて、空間に対して窓関数によりそのローカルな中での周波数成分を算出する。つまり、点の近傍の複雑さを抽出している。また、ＦＦＴであるため、使用する周波数成分（どこの周波数を調べるか）や基底の周波数を変えたり、２次元であるためどの方向の周波数を抽出するかという向きを変えたりしながら、夫々の特徴点について調べたものである。

また、図４（ｂ）では、８方位（真横（右９０°）からπ／８毎に回転移動したものであり図４（ｂ）の（１）〜（８）に相当）について、夫々の向きを持つガボールウェーブレットの基底関数に基づいてその出力が設定される。そのとき、実部（第１列）と虚部（第２列）の成分を設定する。また、第３列は、実部（第１列）と虚部（第２列）との振幅の自乗和を示している。なお、図４（ｂ）は、解像度を変えて、複数回実行し夫々の行列を保存しておく。また、図４（ｃ）は、人物ＩＤ“２”と顔画像の向き“６”（正面を９０°として０°〜１８０°の値を０〜１８で表す。）を示している。

これにより、誰がどのような特徴を持っているかを配列として数値化することができ、この顔テンプレートを用いて後述する顔画像認識を行う。

＜＜顔変形情報抽出部１３＞＞
次に、顔変形情報抽出部１３における処理手順についてフローチャートを用いて説明する。図５は、本発明における顔変形情報抽出手順を示す一例のフローチャートである。ここで、顔変形情報抽出部１３には、表情サンプル画像及び特徴点配置情報が入力される。

まず、顔変形データの生成されていない表情サンプル画像が存在するかを判断する（Ｓ１１）。未処理の表情サンプル画像が存在する場合（Ｓ１１において、ＹＥＳ）、表情サンプル画像を読み込み（Ｓ１２）、画像データ表示部１２に読み込んだ表情サンプル画像を出力する（Ｓ１３）。次に、画像データ表示部１２等に設けられているマウスやキーボード等の入力手段等を用いて画像データ表示部１２に表示された表情サンプル画像を参照しながら特徴点をプロットし、プロットした特徴点の座標を、特徴点配置情報として設定する（Ｓ１４）。この時点で、未処理の表情サンプル画像は処理済みとなる。

上述のＳ１１〜Ｓ１４の処理を未処理の登録顔画像がなくなるまで繰り返し行う。未処理の表情サンプル画像が存在しなくなった場合（Ｓ１１において、ＮＯ）、読み込んだ全ての特徴点配置情報から、各々の特徴点の座標についての分散・共分散行列を計算し、顔変形データとして出力する（Ｓ１５）。

なお、上述の手順は、表示画面に表示された内容からユーザが手動で実施する作業手順を示したが、例えば入力された表情サンプル画像と特徴点配置情報とが入力されると、入力されたデータがリスト形式にて画像データ表示部１２に入力順に表示され、ユーザがその画面にポインタを合わせて逐次選択していくことにより上述の処理を行うような構成を有していてもよい。

ここで、顔変形情報抽出部１３にて使用されるデータの内容について図を用いて説明する。図６は、表情サンプル画像と対応する特徴の分布の一例を示す図である。ここで、図６（ａ）は、表情の異なるサンプル画像を示し、図６（ｂ）は、その画像をＸ座標（ピクセル）とＹ座標（ピクセル）とでプロットした時の分布の様子を示している。

図６（ａ）に示すように異なる表情サンプル画像４０−１〜４０−３が入力される。ここで、図６（ａ）に示す表情サンプル画像は、驚きの表情、笑顔の表情、悲しみの表情の画像を示しているが、本発明における表情サンプル画像は上述の限りではなく、例えば、発話している表情や横に回転させている表情等をサンプル画像として用いてもよい。また、これらの表情サンプル画像については、特徴点を設定し、夫々の表情サンプル画像については、上述の図４（ａ）に示すような座標に変換される。

次に、図６（ａ）で示すような全ての表情サンプル画像について、図６（ｂ）に示すような特徴点のＸ座標、Ｙ座標における分布を抽出する。ここで、図６（ｂ）に示すように表情サンプル画像毎に点がずれて抽出されるが、特徴点の場所によっては、ずれる方向（移動方向）をある程度特定することができる。そこで、表情の変化に伴う顔表面の変形に対応するため、特徴点の空間的配置の違いを示す数値（位置のずれを評価する数値；歪みエネルギー）を求め、この歪みエネルギーに基づいて補正することにより顔変形データを作成する。

＜＜記録媒体部１４＞＞
次に、記録媒体部１４の手順について説明する。記録媒体部１４では、顔画像登録部１１から入力される顔テンプレートと、顔変形情報抽出部１３から入力される顔変形データを保存する。また、顔画像認識部２２から顔データ要求信号が入力されると、対応する顔テンプレートと顔変形データとを顔画像認識部２２へ出力する。

＜顔画像認識装置２０＞
顔画像認識装置２０は、記録媒体部１４に保存されている顔テンプレートと顔変形データとを利用して、与えられた顔画像データに対する顔認識結果を出力する。ここで、顔画像認識装置２０において顔画像検出部２１にて行う処理手順と、顔画像認識部２２にて行う処理手順とを分けて説明する。

＜＜顔画像検出部２１＞＞
顔画像検出部２１の顔画像検出手順について、フローチャートを用いて説明する。図７は、顔画像検出手順を示す一例のフローチャートである。

まず、未処理のテスト画像が存在するかを判断する（Ｓ２１）。未処理のテスト画像が存在する場合（Ｓ２１において、ＹＥＳ）、その画像を読み込む（Ｓ２２）。次に、テスト画像内の顔を検出し顔の中心位置と大きさとを推定する（Ｓ２３）。その後、検出した顔の中心位置と大きさとに基づいて、テスト画像の顔領域を検出し、その内部の画像データを顔画像データとして出力する（Ｓ２４）。

上述のＳ２１〜Ｓ２４の処理を未処理のテスト画像がなくなるまで繰り返し行う。未処理のテスト画像が存在しなくなった場合（Ｓ２１において、ＮＯ）、処理を終了する。このとき、処理終了信号を顔画像認識部２２に出力する。

これにより、テスト画像に対する顔画像データを抽出することができる。なお、上述の顔画像検出手順は、本発明においてはこの限りではなく、例えば、Ｗａｖｅｌｅｔ係数のヒストグラムを用いる方法（Ｓｃｈｎｅｉｄｅｒｍａｎ，Ｈ．，ａｎｄＫａｎａｄｅ，Ｔ．，“ＰｒｏｂａｂｉｌｉｓｔｉｃＭｏｄｅｌｉｎｇｏｆＬｏｃａｌＡｐｐｅａｒａｎｃｅａｎｄＳｐａｔｉａｌＲｅｌａｔｉｏｎｓｈｉｐｆｏｒＯｂｊｅｃｔＲｅｃｏｇｎｉｔｉｏｎ”，ＣＶＰＲ９８）等を用いることができる。

＜＜顔画像認識部２２＞＞
次に、顔画像認識部２２における顔画像認識手順について、フローチャートを用いて説明する。図８は、本発明における顔画像認識手順を示す一例のフローチャートである。顔画像認識部２２は、まず、顔データ要求信号を記録媒体部１４へ出力する（Ｓ３１）。次に、記録媒体部１４から顔テンプレートと顔変形データを取得する（Ｓ３２）。その後、顔画像検出部２１からのテスト画像データを全て読み込んでいるかを判断する（Ｓ３３）。なお、Ｓ３３において、全て読み込んでいるかの判断は、顔画像検出部２１により処理終了信号を受け取ったか否かにより判断する。

全てのテスト画像データを読み込んでいない場合（Ｓ３３において、ＮＯ）、顔画像認識処理を終了する。また、全てのテスト画像データを読み込んでいる場合（Ｓ３３において、ＹＥＳ）、記録媒体部１４からの顔テンプレート、顔変形データ及び顔画像検出部２１からの顔画像データに基づいて、（１）式、（２）式で定義した類似度Ｓ（Ａ，Ｂ，ｘ⁻，ｘ）を計算する（Ｓ３４）。また、各々の人物ＩＤに属する顔テンプレートについて可変テンプレートマッチングを実行し、類似度が最大となる顔画像を選定し、その選定した顔画像情報と対応づけられた人物ＩＤを顔認識結果として出力する。

ここで、可変テンプレートとは、上述した（１）式で入力した画像上の対応する特徴点（９点）を探す処理を指す。つまり、与えられた登録画像に対して目尻や口元等の位置関係に基づいて、テンプレートを変形させながら特徴点を設定するものである。

これにより、テスト画像を撮影する際のユーザの表情変化や発話状態等の顔の変形に関する変動に対して頑健な顔画像認識が可能となる。これにより、高精度な顔画像認識を実現することができる。

ここで、上述におけるテスト画像と顔認識結果とを表示画面等により表示させた例について図を用いて説明する。

図９は、テスト画像と顔認識結果とを表示画面に表示した一例の図である。図９の画像には、表示画面５０内に設定領域５１と、テスト画像表示領域５２と、蓄積されている画像データを縮小して表示させる画像領域５３とを有するよう構成されている。図９に示すように、設定領域５１にてテスト画像を選択すると、その入力画像５４がテスト画像表示領域５２に表示される。

次に、設定領域５１内にある実行ボタンを選択することにより、顔画像認識部２２は、蓄積されている登録顔画像５５−１〜５５−４の全ての画像について類似度Ｓを算出し、登録顔画像５５−１〜５５−４の中から類似度が最も高い画像を選定する。また、選定された登録顔画像を強調表示する。例えば、図９では、登録顔画像５５−４の類似度Ｓが最も高かったため、画像データの外枠が太線で表示される。これにより、ユーザは画像認識結果を容易に把握することができる。

これにより、顔画像認識において顔の表情の変形に対する統計的な変形データを利用することで、テスト画像上における顔画像データが変形している場合でも特徴点の探索及び認識結果に及ぼす影響を抑制し、頑健性を改善して高精度な顔画像認識を実現することができる。

ここで、上述したように顔画像認識装置における専用の装置構成により本発明における顔画像認識を行うこともできるが、上述した内容をコンピュータに実行させることができる実行プログラム（顔画像認識プログラム）を生成し、例えば、汎用のパーソナルコンピュータ、ワークステーション等に顔画像認識プログラムをインストールすることにより、本発明における顔画像認識が実現可能となる。

ここで、本発明における実行可能なコンピュータのハードウェア構成例について図を用いて説明する。図１０は、本発明における顔画像認識処理が実現可能なハードウェア構成の一例を示す図である。

図１０におけるコンピュータ本体には、入力装置６１と、出力装置６２と、ドライブ装置６３と、補助記憶装置６４と、メモリ装置６５と、各種制御を行うＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）６６と、ネットワーク接続装置６７とを有するよう構成されており、これらはシステムバスＢで相互に接続されている。

入力装置６１は、使用者が操作するキーボード及びマウス等のポインティングデバイスを有しており、使用者からのプログラムの実行等、各種操作信号を入力する。出力装置６２は、本発明における顔画像認識処理を行うためのコンピュータ本体を操作するのに必要な各種ウィンドウやデータ等を表示するモニタを有し、ＣＰＵ６６が有する制御プログラムによりプログラムの実行経過や結果等を表示することができる。

ここで、本発明において、コンピュータ本体にインストールされる実行プログラムは、例えば、ＣＤ−ＲＯＭ等の記録媒体６８等により提供される。プログラムを記録した記録媒体６８は、ドライブ装置６３にセット可能であり、記録媒体６８に含まれる実行プログラムが、記録媒体６８からドライブ装置６３を介して補助記憶装置６４にインストールされる。

補助記憶装置６４は、ハードディスク等のストレージ手段であり、本発明における実行プログラムや、コンピュータに設けられた制御プログラム等を蓄積し必要に応じて入出力を行うことができる。

ＣＰＵ６６は、ＯＳ（ＯｐｅｒａｔｉｎｇＳｙｓｔｅｍ）等の制御プログラム、メモリ装置６５により読み出され格納されている実行プログラムに基づいて、各種演算や各ハードウェア構成部とのデータの入出力等、コンピュータ全体の処理を制御して、上述した顔画像認識における各処理を実現することができる。プログラムの実行中に必要な各種情報は、補助記憶装置６４から取得することができ、また格納することもできる。

ネットワーク接続装置６７は、通信ネットワーク等と接続することにより、実行プログラムを通信ネットワークに接続されている他の端末等から取得したり、プログラムを実行することで得られた実行結果又は本発明における実行プログラム自体を他の端末等に提供することができる。

上述したようなハードウェア構成により、特別な装置構成を必要とせず、低コストで高精度な顔画像認識処理を実現できる。

上述したように本発明によれば、顔画像認識において顔の表情の変形に対する統計的な変形データを利用することで、テスト画像上における顔画像データが変形している場合でも特徴点の探索及び認識結果に及ぼす影響を抑制し、頑健性を改善して高精度な顔画像認識を実現することができる。

また、テスト画像を撮影する際のユーザの表情変化や発話状態等の顔の変形に関する変動に対して頑健な顔画像認識が可能となる。これにより、高精度な顔画像認識を実現することができる。

また、可変テンプレートマッチングを利用した、実際の顔画像の動きに連動した顔ＣＧ制作等においても、表情変化等の変形に対して高精度なテンプレートマッチングが実現できる。

以上本発明の好ましい実施例について詳述したが、本発明は係る特定の実施形態に限定されるものではなく、特許請求の範囲に記載された本発明の要旨の範囲内において、種々の変形、変更が可能である。

本発明における顔画像認識装置の一構成例を示す図である。登録画像に対応する特徴点の配置例を示す図である。本発明における顔画像登録手順を示す一例のフローチャートである。本発明における顔テンプレートの一例を示す図である。本発明における顔変形情報抽出手順を示す一例のフローチャートである。表情サンプル画像と対応する特徴の分布の一例を示す図である。顔画像検出手順を示す一例のフローチャートである。本発明における顔画像認識手順を示す一例のフローチャートである。テスト画像と顔認識結果とを表示画面に表示した一例の図である。本発明における顔画像認識処理が実現可能なハードウェア構成の一例を示す図である。

符号の説明

１顔画像認識装置
１０顔データ作成装置
１１顔画像登録部
１２画像データ表示部
１３顔変形情報抽出部
１４記録媒体部
２０顔画像認識装置
２１顔画像検出部
２２顔画像認識部
３０特徴点
４０表情サンプル画像
５０表示画面
５１設定領域
５２テスト画像表示領域
５３画像領域
５４入力画像
５５登録顔画像
６１入力装置
６２出力装置
６３ドライブ装置
６４補助記憶装置
６５メモリ装置
６６ＣＰＵ
６７ネットワーク接続装置
６８記録媒体

Claims

予め登録される登録顔画像と表情の異なる複数の顔画像とを用いて、入力される画像中に含まれる顔画像の人物を特定するための顔画像認識装置であって、
前記登録顔画像の特徴点配置情報と人物ＩＤとを、前記登録顔画像に対応付けて顔テンプレートとして登録する顔画像登録部と、
前記表情の異なる複数の顔画像の特徴点配置情報に基づいて顔変形情報を抽出する顔変形情報抽出部と、
前記画像登録部から得られる顔テンプレートと、前記顔変形情報抽出部から得られる顔変形情報とに基づいて、前記画像中に含まれる顔画像中の人物を特定する顔画像認識部とを有することを特徴とする顔画像認識装置。
前記顔変形情報抽出部は、
前記表情の異なる複数の顔画像における顔画像毎の特徴点の座標分布から同一の特徴点に対するマハラノビス距離を算出することにより、顔変形情報を抽出することを特徴とする請求項１に記載の顔画像認識装置。
前記顔変形情報抽出部は、
各特徴点に対する移動方向又は移動位置からなる移動情報を他の特徴点と対応づけることにより、顔変形情報を抽出することを特徴とする請求項１又は２に記載の顔画像認識装置。
前記顔画像認識部は、
可変テンプレートを用いて画像認識を行うことを特徴とする請求項１乃至３の何れか１項に記載の顔画像認識装置。
前記顔画像認識部は、
前記登録顔画像と前記画像中に含まれる顔画像との類似度を算出し、算出された類似度が最大となる登録顔画像を選定することを特徴とする請求項１乃至４の何れか1項に記載の顔画像認識装置。
予め登録される登録顔画像と表情の異なる複数の顔画像とを用いて、入力される画像中に含まれる顔画像の人物を特定するための顔画像認識をコンピュータに実行させるための顔画像認識プログラムであって、
前記登録顔画像の特徴点配置情報と人物ＩＤとを、前記登録顔画像に対応付けて顔テンプレートとして登録する顔画像登録処理と、
前記表情の異なる複数の顔画像の特徴点配置情報に基づいて顔変形情報を抽出する顔変形情報抽出処理と、
前記画像登録処理により得られる顔テンプレートと、前記顔変形情報抽出処理により得られる顔変形情報とに基づいて、前記画像中に含まれる顔画像中の人物を特定する顔画像認識処理とをコンピュータに実行させるための顔画像認識プログラム。