JP2005149302A - 顔画像認識装置及び顔画像認識プログラム - Google Patents

顔画像認識装置及び顔画像認識プログラム Download PDF

Info

Publication number
JP2005149302A
JP2005149302A JP2003388203A JP2003388203A JP2005149302A JP 2005149302 A JP2005149302 A JP 2005149302A JP 2003388203 A JP2003388203 A JP 2003388203A JP 2003388203 A JP2003388203 A JP 2003388203A JP 2005149302 A JP2005149302 A JP 2005149302A
Authority
JP
Japan
Prior art keywords
face
face image
image
image recognition
registered
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2003388203A
Other languages
English (en)
Inventor
Atsushi Matsui
淳 松井
Clippingdale Simon
クリピングデル サイモン
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Japan Broadcasting Corp
Original Assignee
Nippon Hoso Kyokai NHK
Japan Broadcasting Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Hoso Kyokai NHK, Japan Broadcasting Corp filed Critical Nippon Hoso Kyokai NHK
Priority to JP2003388203A priority Critical patent/JP2005149302A/ja
Publication of JP2005149302A publication Critical patent/JP2005149302A/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • Image Analysis (AREA)
  • Collating Specific Patterns (AREA)
  • Image Processing (AREA)

Abstract

【課題】 高精度な顔画像認識を実現することを目的とする。
【解決手段】 予め登録される登録顔画像と表情の異なる複数の顔画像とを用いて、入力される画像中に含まれる顔画像の人物を特定するための顔画像認識装置であって、前記登録顔画像の特徴点配置情報と人物IDとを、前記登録顔画像に対応付けて顔テンプレートとして登録する顔画像登録部と、前記表情の異なる複数の顔画像の特徴点配置情報に基づいて顔変形情報を抽出する顔変形情報抽出部と、前記画像登録部から得られる顔テンプレートと、前記顔変形情報抽出部から得られる顔変形情報とに基づいて、前記画像中に含まれる顔画像中の人物を特定する顔画像認識部とを有することにより、上記課題を解決する。
【選択図】 図1

Description

本発明は、顔画像認識装置及び顔画像認識プログラムに係り、特に高精度な画像認識を実現するための顔画像認識装置及び顔画像認識プログラムに関する。
近年、放送の多チャンネル化に伴い、高品質な多くの番組を制作する必要性が高まっている。また、新たに撮影した素材に加え、大容量のアーカイブに保存された映像を再利用して番組を制作するスタイルが普及するものと考えられる。このような制作環境で、効率よく番組を制作するためには、目的のシーンを撮影素材又はアーカイブからすばやくかつ正確に見つけ出す必要がある。
ところで、取材した大量の素材映像から目的の映像シーンを選択して編集する場合、フレームやカット毎にその内容を表すインデックスが付いている。映像内容の意味的な記述は「誰が」、「何を」、「している」、「言っている」等の形式となるので、映像から自動的にこのような情報を抽出するためには、顔認識、音声認識、動作認識、顔表情認識、対象物認識やそれらを組み合わせた技術が有効な手段であり、そのために顔画像認識システムが用いられている。
ここで、顔画像認識が困難である最大の理由は、認識対象可変性が多いという問題である。この因子としては顔の表情における可変性が上げられる。そこで、対象物の変形に対して頑健な画像間の類似度の評価が可能である手法としてロバスト推定による方法がある(例えば、非特許文献1参照。)。
この手法は、発声、表情等で生じる顔の変形を柔軟に扱える可変テンプレートマッチングにおいて、夫々の特徴点毎の信頼度に応じた重みを算出する。具体的には、夫々の特徴点の自乗距離に乗じた総和を計算し、その計算した値を歪みエネルギーとして重み付けする。また、信頼度には、ガボールウェーブレット(Gabor Wavelet)係数に基づいて計算した各特徴点の近傍における空間周波数についての類似度が用いられる。
ここで、予め登録されている登録画像をA、人物を特定する対象となる画像をB、登録画像A毎にプロットされた特徴点をx、類似度を算出際に必要となるパラメータをxとすると、各特徴点の近傍画素の空間周波数的な特徴(例えば、ガボールウェーブレット係数等)の類似度を評価する式はM(A,B,x,x)と定義される。これは、信頼度が低い特徴点の重みを低くすることにより、推定結果へのノイズ等の影響を減らす手法である。
サイモン・クリピングデル他,"動画像の顔検出・追跡・認識への統一されたアプローチ",PRMU講演発表予稿集,1999年1月。
上述した従来のロバスト推定による方法では、特徴点の微少な変形に対してはパラメータを変更することによって対応することができるが、顔画像における表情変化のように、ある特定の方向に大きく変形するような場合に対しては、各特徴点の変形の方向に関する重み付けの情報を持っていないため、それが許容すべき変形であるか否か、またどの程度その変形を許容(補正)すべきかを判断することはできない。
本発明は、上述した問題点に鑑みなされたものであり、統計的に得られた顔画像の変形情報を利用することで、高精度な顔画像認識を実現するための顔画像認識装置及び顔画像認識プログラムを提供することを目的とする。
上記課題を解決するために、本件発明は、以下の特徴を有する課題を解決するための手段を採用している。
請求項1に記載された発明は、予め登録される登録顔画像と表情の異なる複数の顔画像とを用いて、入力される画像中に含まれる顔画像の人物を特定するための顔画像認識装置であって、前記登録顔画像の特徴点配置情報と人物IDとを、前記登録顔画像に対応付けて顔テンプレートとして登録する顔画像登録部と、前記表情の異なる複数の顔画像の特徴点配置情報に基づいて顔変形情報を抽出する顔変形情報抽出部と、前記画像登録部から得られる顔テンプレートと、前記顔変形情報抽出部から得られる顔変形情報とに基づいて、前記画像中に含まれる顔画像中の人物を特定する顔画像認識部とを有することを特徴とする。
請求項1記載の発明によれば、登録顔画像と表情が異なる顔変形情報とを用いることにより、画像中に含まれる顔画像における表情変化や発話状態等の顔の変形に関する変動に対して頑健な顔画像認識が可能となる。これにより、高精度な顔画像認識を実現することができる。
請求項2に記載された発明は、前記顔変形情報抽出部は、前記表情の異なる複数の顔画像における顔画像毎の特徴点の座標分布から同一の特徴点に対するマハラノビス距離を算出することにより、顔変形情報を抽出することを特徴とする。
請求項2記載の発明によれば、表情の異なる複数の顔画像から、マハラノビス距離を算出することで統計的に得られた顔変形情報を利用することで、高精度な顔画像認識を実現することができる。
請求項3に記載された発明は、前記顔変形情報抽出部は、各特徴点に対する移動方向又は移動位置からなる移動情報を他の特徴点と対応づけることにより、顔変形情報を抽出することを特徴とする。
請求項3記載の発明によれば、移動情報に基づき、更に他の特徴点と対応付けて顔変形情報を抽出することにより、高精度な顔画像認識を実現することができる。
請求項4に記載された発明は、前記顔画像認識部は、可変テンプレートを用いて画像認識を行うことを特徴とする。
請求項4記載の発明によれば、顔の変形や、顔画像のサイズが異なる場合に柔軟に対応することができる。これにより、高精度な画像認識を行うことができる。
請求項5に記載された発明は、前記顔画像認識部は、前記登録顔画像と前記画像中に含まれる顔画像との類似度を算出し、算出された類似度が最大となる登録顔画像を選定することを特徴とする。
請求項5記載の発明によれば、類似度が最大となる登録顔画像を選定することにより、人物を容易に特定することができ高精度な顔画像認識を実現することができる。
請求項6に記載された発明は、予め登録される登録顔画像と表情の異なる複数の顔画像とを用いて、入力される画像中に含まれる顔画像の人物を特定するための顔画像認識をコンピュータに実行させるための顔画像認識プログラムであって、前記登録顔画像の特徴点配置情報と人物IDとを、前記登録顔画像に対応付けて顔テンプレートとして登録する顔画像登録処理と、前記表情の異なる複数の顔画像の特徴点配置情報に基づいて顔変形情報を抽出する顔変形情報抽出処理と、前記画像登録処理により得られる顔テンプレートと、前記顔変形情報抽出処理により得られる顔変形情報とに基づいて、前記画像中に含まれる顔画像中の人物を特定する顔画像認識処理とをコンピュータに実行させる。
請求項6記載の発明によれば、登録顔画像と表情が異なる顔変形情報とを用いることにより、画像中に含まれる顔画像における表情変化や発話状態等の顔の変形に関する変動に対して頑健な顔画像認識が可能となる。これにより、高精度な顔画像認識を実現することができる。また、実行プログラムをコンピュータにインストールすることにより、容易に顔画像認識を実現することができる。
本発明によれば、統計的に得られた顔画像の変形情報を利用することで、高精度な顔画像認識を実現することができる。
<本発明の特徴>
本発明では、顔画像認識において対象物(顔)について想定される複数の変形サンプル画像を撮影し、そのサンプル画像上にプロットした特徴点の統計的な情報(分散・共分散行列)を抽出して利用する。つまり、顔の表情により特徴点毎の移動方向や移動位置がある程度対応付けられて移動するため、その移動情報を人物を特定したい画像の特徴点について適用することにより、顔画像認識を行う。
なお、サンプルとして与える画像は、その対象物(顔)がとりうる主な変形のパターンを網羅できれば良いので、登録画像の対象物そのもの(例えば、顔画像による個人認証システムでは登録人物そのもの)についての変形の様子を撮影する必要はない。すなわち、本発明では、変形のサンプルとして与える表情の異なる画像が、登録画像の人物そのものが異なる表情の画像を撮影するものでなく、顔の変形パターンが類似している、あるいはサンプル画像の表情が登録画像の人物がとりうる表情を包含する関係であれば適応が可能である。
<本発明の原理>
次に、本発明における顔画像認識における発明の原理について説明する。本発明は、ある特定の対象物(例えば、人間の顔)を映した画像についての属性(例えば、ある顔画像に対しての人物)が既知である画像(以下、「登録画像」という。)が、予め複数与えられた場合に、属性が未知の画像(以下、「テスト画像」という。)に対して、最も類似する登録画像を複数の候補の中から探し出し、その属性を出力するシステムに関わる技術である。
このような画像間のマッチングを扱う技術については、幾つか提案されているが、本発明では、特に画像全体にわたる比較ではなく処理対象物の特徴を端的に表すと考えられる代表的な点(例えば、顔画像における瞳や目尻、鼻の頂点、口の端点等。以下これらを総称して「特徴点」という。)において、後述の(1)式に示すような2つの項から構成される関数S(A,B,x,x)で定義された類似度に基づいて画像間のマッチングを評価する可変テンプレートマッチングを用いる。
S(A,B,x,x)=M(A,B,x,x)−αE(x,x)・・・(1)
ここで、Aは登録画像を表し、Bはテスト画像を表す。また、xは登録画面上の特徴点の配置を表し、xはテスト画像上の特徴点の配置を表し、x,xは「x,x∈R2N(ただし、Nは特徴点の数)」の関係式が成り立つ。更に、xは、登録画像A毎にプロットされた固定値であるが、xは,与えられた{A,B,x}に対して類似度S(A,B,x,x)を最大化するようにシステムが最適化するパラメータである。
上述の(1)式において、右辺第1項のM(A,B,x,x)は、A,B各々の特徴点の近傍の画素の空間周波数的な特徴(例えば、ガボールウェーブレット係数等)の類似度を周波数成分に基づいて評価する項である。なお、上述の(1)式における右辺第1項の関するについては、本発明においてはこの限りではなく、登録画像Aとテスト画像Bとが同じ属性(登録画像に映された個々の対象物を特定するための情報、例えば、顔画像に対しての人物ID等)である場合には大きい値を、また両者が異なる属性である場合には小さい値を返す関数であればよい。
一方、右辺第2項のE(x,x)は、xとxとの空間的配置の違いを評価する項であり、両者が完全に一致するときのみ“0”を、それ以外は正の値を返す(以下、E(x,x)を「歪みエネルギー」という。)。
また、(1)式中のαは、S(A,B,x,x)に対する歪みエネルギーE(x,x)の寄与率を決定する重みパラメータである。E(x,x)の簡単な例としては後述の(2)式に示すように、xとxの夫々対応する特徴点の間のユークリッド距離の自乗和が考えられる。
E(x,x)=(x−x・(x−x)・・・(2)
また、本発明が扱う問題は、対象とする物体(対象物)が非剛体である場合において、撮影された2枚の画像A,Bのうちの一方が、システムが考慮すべき変形(例えば、顔画像における表情の変化)した状態で撮影された場合、その変形が歪みエネルギーE(x,x)に及ぼす影響を予測し補正することである。つまり、人物を特定する画像は、登録画像からどのくらいずれているかの歪みを判定し、最適な歪みエネルギーE(x,x)を設定して補正を行う。
ここで、異なった表情で撮影される変形サンプルについては統計的な利用を行う。まず、考慮すべき対象物の変形のパターンを、同一又は類似の対象物について事前に撮影した複数のサンプル画像から特徴点の配置に関する統計量(分散・共分散行列C∈R2N×2N)で表現し、未知のテスト画像上の特徴点の配置に関する事前情報とする。このとき、歪みエネルギーは、この分散・共分散行列を用いて事前に予測される変形のパターンを反映した距離空間で計算することが可能となり後述の(3)式で定義される。
E(x,x)=(x−x・C−1・(x−x)・・・(3)
上式は、一般にマハラノビス(Mahalanobis)距離と呼ばれている。マハラノビス距離を歪みエネルギーの計算に用いることによって、サンプル画像に多く出現した変形に対しては小さく、また殆ど出現しなかった変形に対しては大きく、歪みエネルギーを設定し補正を行うことができる。その結果、サンプル画像から予想される変形に対して頑健な可変テンプレートマッチングが実現される。
<実施の形態>
次に、上述した特徴を有する本発明における顔画像認識装置及び顔画像認識プログラムを好適に実施した形態について、図面を用いて説明する。
図1は、本発明における顔画像認識装置の一構成例を示す図である。図1の顔画像認識装置1は、顔データ作成装置10と、顔画像認識装置20とを有するよう構成されている。また、顔データ作成装置10は、顔画像登録部11と、画像データ表示部12と、顔変形情報抽出部13と、記録媒体部14とを有するよう構成されている。また、顔画像認識装置20は、顔画像検出部21と、顔画像認識部22とを有するよう構成されている。
顔画像登録部11は、予め入力される登録顔画像と、各登録顔画像について特徴点が配置された特徴点配置情報と、各登録画像に対応する人物IDとから、顔テンプレートを出力し記録媒体部14に出力する。ここで、人物IDとは、人物を特定するための情報であり、人名や、性別、年齢、顔画像の向き、ユニークとなるID等からなる。
また、顔変形情報抽出部13は、入力複数の表情サンプル画像と、各表情サンプル画像について特徴点が配置された特徴点配置情報とから、顔変形データ(顔変形情報)を出力し記録媒体部14に出力する。
また、画像データ表示部12は、顔画像登録部11及び顔変形情報抽出部13での上述した処理を行うための顔画像情報等の表示や各処理経過、結果等を表示する。更に、記録媒体部14は、顔画像登録部11から入力された顔テンプレート、顔変形情報抽出部13から入力された顔変形データを記録する。
ここで、顔画像として設定される特徴点の例について図を用いて説明する。図2は、登録画像に対応する特徴点の配置例を示す図である。図2に示す顔画像における目元や目尻、鼻の頂点、口の端点等の合計9点を特徴点30−0〜30−8としている。なお、特徴点の位置や数についてはこの限りではない。図2に示す特徴点を顔画像登録部11が登録顔画像毎に配置する。また同様に顔変形情報抽出部13は表情サンプル画像毎に特徴点を配置して特徴点配置情報が生成される。
なお、上述の処理は、処理対象であるテスト画像から画像認識を行うための前処理としてテスト画像が入力される前に実行することが可能である。
ここで、顔変形データは、入力した変形サンプル画像に基づいて、画像中の全ての特徴点が移動向きや移動方向等の移動情報を特徴づけたものであり、例えば、ある特徴点がどの程度動いたら、他の特徴点がどの向きにどの程度動くか等、特徴点毎に対応付けられた移動情報が統計的に求められたものである。つまり、表情の異なるサンプル画像を用いて各特徴点がどの方向にどれだけ動く傾向があるかを判定し、顔の変形(変動)を顔変形データとして出力する。
顔画像認識装置20は、顔データ作成装置10に蓄積されている顔テンプレートと顔変形データとを利用して、入力されたテスト画像から顔認識結果を出力する。顔画像検出部21は、入力されるテスト画像から顔画像の領域を検出し、顔画像領域の画像データを出力する。ここで、顔画像検出部21は、与えられた画像から顔の部分(領域)を検出し、検出した顔の中心位置と大きさとを推定することができる。
顔画像認識部22は、顔画像検出部21から顔画像領域の画像データが入力される前に顔データ作成装置10の記録媒体部14に顔データ要求信号を送り、顔テンプレートと顔変形データとを受け取る。顔画像認識部22は、記録媒体部14から受け取った顔テンプレートと顔変形データとに基づいて顔画像データに映っている人物を特定し、その人物情報を顔認識結果として出力する。
ここで、本発明の目的は、表情の変化等、登録顔画像と異なる環境で撮影されたテスト画像が入力された場合に、予め採取した表情サンプル画像に基づいて起こり得る顔の変形パターン(顔変形データ)を推定し、顔画像認識部22でその情報を利用することで顔認識結果の精度を改善することである。
更に、上述の内容を具体的に説明すると、まず、記録媒体部14に蓄積されている顔変形情報抽出部13からの顔変形データに基づいて、各特徴点の移動許容範囲を基準に顔認識の類似度を算出する。例えば、表情が笑顔の場合は、口端の特徴点(図2に示す特徴点30−7,30−8)等は、対応して移動する可能性が高い。また、悲しい表情の場合は、両目の目尻の特徴点(図2に示す特徴点30−2,30−5)が対応して移動する可能性がある。このように、画像における特徴点の幾つかを対応付けた移動方向や移動位置からなる移動情報に基づいて、類似度(スコア)を高く設定して登録画像毎に登録画像に対応する顔テンプレートから類似度を算出する。また、その算出された値に上述の(1)式、(2)式を適用して、パラメータxの値を設定し類似度S(A,B,x,x)を計算する。その中で類似度が最大となる登録画像を選定することで人物を特定することができる。これにより、多様な表情にも対応した高精度な顔画像認識を実現することができる。
ここで、顔データ作成装置10及び顔画像認識装置20における本発明の具体的な処理手順について、具体的に説明する。
<顔データ作成装置10>
顔データ作成装置10は、画像データ又はその画像データのリスト等によって与えられる登録顔画像、表情サンプル画像、及びユーザが画像データ表示部12の表示内容を参照しながら生成される登録顔画像の特徴点配置情報や人物ID、表情サンプル画像の特徴点配置情報から、顔テンプレートと顔変形データとを作成する。
次に、顔データ作成装置10において顔画像登録部11にて行う処理手順と、顔変形情報抽出部13にて行う処理手順と、記録媒体部14にて行う処理手順とを分けて説明する。
<<顔画像登録部11>>
図3は、本発明における顔画像登録手順を示す一例のフローチャートである。ここで、顔画像登録部11に入力されるデータは、少なくとも1つ存在し、データの内容は、上述した登録顔画像、特徴点配置情報、及び人物IDである。
図2において、まず、入力された登録顔画像で、顔テンプレートを生成していいない未処理の登録顔画像データが存在するかを判断する(S01)。ここで、未処理の登録顔画像が存在する場合は(S01において、YES)、登録顔画像を読み込み(S02)、画像データ表示部12に読み込んだ登録顔画像を出力する(S03)。
次に、画像データ表示部12等に設けられているマウスやキーボード等の入力手段等を用いて画像データ表示部12に表示された登録顔画像を参照しながら特徴点をプロットし、プロットした特徴点の座標から特徴点配置情報の設定を行う(S04)。ここで、登録顔画像に付与される特徴点は、図2に示すように顔画像における目元や目尻、鼻の頂点、口の端点等の合計9点を特徴点30−0〜30−8としている。
また、画像データ表示部12に表示された登録顔画像に対応する上述した人物IDを入力し、登録顔画像と人物IDとの対応付けを行う(S05)。この時点で未処理の登録顔画像は処理済みとなる。
上述のS01〜S05の処理を未処理の登録顔画像がなくなるまで繰り返し行う。そして、未処理の登録画像が存在しなくなった場合(S01において、NO)、読み込んだ全ての登録顔画像、特徴点配置情報、人物IDから顔テンプレートを生成し記録媒体部14へ出力する(S06)。
なお、上述の手順は、表示画面に表示された内容からユーザが手動で実施する作業手順を示したが、例えば入力された登録顔画像と特徴点配置情報と人物IDとが入力されると、入力されたデータがリスト形式にて画像データ表示部12に入力順に表示され、ユーザがその画面にポインタを合わせて逐次選択していくことにより上述の処理を行うような構成を有していてもよい。
ここで、上述にて生成される顔テンプレートの例について図を用いて説明する。図4は、本発明における顔テンプレートの一例を示す図である。ここで、図4(a)は、特徴点を座標点に変換した行列を示し、図4(b)は、各特徴点のガボールウェーブレット係数部に変換した行列を示し、図4(c)は、人物IDと顔の向きを示している。図4(a)は、図2に示す特徴点30−0〜30−8に夫々対応しており(図2(a)の第1列)、夫々の特徴点の座標値(X,Y)を示している。なお、図4(a)では、予め顔の大きさを0番目(特徴点30−0)と1番目(特徴点30−1)との特徴点について正規化した状態での座標値になっている。そのため、人物を特定するために入力された画像が、どのような向きになっても、また、どのような大きさの顔画像であっても、一枚のある固定されたファイルに投影された状態での座標値になる。
ここで、図4(a)の第2列目は、顔の向きによって、その特徴点が見えているか否かを判定したフラグが設定される。例えば、特徴点30−0〜30−8が全て画像中に見えているのであれば“1”がセットされ、見えていないのであれば“0”がセットされる。また、各特徴点の座標を第3列(X座標)、第4列(Y座標)に対応付けて設定している。
また、図4(b)は、特徴点の配置と各特徴点の周りの画像の濃淡の情報、つまり空間周波数を各特徴点毎に算出した値がセットされている。実際には、ガボールウェーブレットという窓関数付きのFFT(Fast Fourier Transform)を用いて、空間に対して窓関数によりそのローカルな中での周波数成分を算出する。つまり、点の近傍の複雑さを抽出している。また、FFTであるため、使用する周波数成分(どこの周波数を調べるか)や基底の周波数を変えたり、2次元であるためどの方向の周波数を抽出するかという向きを変えたりしながら、夫々の特徴点について調べたものである。
また、図4(b)では、8方位(真横(右90°)からπ/8毎に回転移動したものであり図4(b)の(1)〜(8)に相当)について、夫々の向きを持つガボールウェーブレットの基底関数に基づいてその出力が設定される。そのとき、実部(第1列)と虚部(第2列)の成分を設定する。また、第3列は、実部(第1列)と虚部(第2列)との振幅の自乗和を示している。なお、図4(b)は、解像度を変えて、複数回実行し夫々の行列を保存しておく。また、図4(c)は、人物ID“2”と顔画像の向き“6”(正面を90°として0°〜180°の値を0〜18で表す。)を示している。
これにより、誰がどのような特徴を持っているかを配列として数値化することができ、この顔テンプレートを用いて後述する顔画像認識を行う。
<<顔変形情報抽出部13>>
次に、顔変形情報抽出部13における処理手順についてフローチャートを用いて説明する。図5は、本発明における顔変形情報抽出手順を示す一例のフローチャートである。ここで、顔変形情報抽出部13には、表情サンプル画像及び特徴点配置情報が入力される。
まず、顔変形データの生成されていない表情サンプル画像が存在するかを判断する(S11)。未処理の表情サンプル画像が存在する場合(S11において、YES)、表情サンプル画像を読み込み(S12)、画像データ表示部12に読み込んだ表情サンプル画像を出力する(S13)。次に、画像データ表示部12等に設けられているマウスやキーボード等の入力手段等を用いて画像データ表示部12に表示された表情サンプル画像を参照しながら特徴点をプロットし、プロットした特徴点の座標を、特徴点配置情報として設定する(S14)。この時点で、未処理の表情サンプル画像は処理済みとなる。
上述のS11〜S14の処理を未処理の登録顔画像がなくなるまで繰り返し行う。未処理の表情サンプル画像が存在しなくなった場合(S11において、NO)、読み込んだ全ての特徴点配置情報から、各々の特徴点の座標についての分散・共分散行列を計算し、顔変形データとして出力する(S15)。
なお、上述の手順は、表示画面に表示された内容からユーザが手動で実施する作業手順を示したが、例えば入力された表情サンプル画像と特徴点配置情報とが入力されると、入力されたデータがリスト形式にて画像データ表示部12に入力順に表示され、ユーザがその画面にポインタを合わせて逐次選択していくことにより上述の処理を行うような構成を有していてもよい。
ここで、顔変形情報抽出部13にて使用されるデータの内容について図を用いて説明する。図6は、表情サンプル画像と対応する特徴の分布の一例を示す図である。ここで、図6(a)は、表情の異なるサンプル画像を示し、図6(b)は、その画像をX座標(ピクセル)とY座標(ピクセル)とでプロットした時の分布の様子を示している。
図6(a)に示すように異なる表情サンプル画像40−1〜40−3が入力される。ここで、図6(a)に示す表情サンプル画像は、驚きの表情、笑顔の表情、悲しみの表情の画像を示しているが、本発明における表情サンプル画像は上述の限りではなく、例えば、発話している表情や横に回転させている表情等をサンプル画像として用いてもよい。また、これらの表情サンプル画像については、特徴点を設定し、夫々の表情サンプル画像については、上述の図4(a)に示すような座標に変換される。
次に、図6(a)で示すような全ての表情サンプル画像について、図6(b)に示すような特徴点のX座標、Y座標における分布を抽出する。ここで、図6(b)に示すように表情サンプル画像毎に点がずれて抽出されるが、特徴点の場所によっては、ずれる方向(移動方向)をある程度特定することができる。そこで、表情の変化に伴う顔表面の変形に対応するため、特徴点の空間的配置の違いを示す数値(位置のずれを評価する数値;歪みエネルギー)を求め、この歪みエネルギーに基づいて補正することにより顔変形データを作成する。
<<記録媒体部14>>
次に、記録媒体部14の手順について説明する。記録媒体部14では、顔画像登録部11から入力される顔テンプレートと、顔変形情報抽出部13から入力される顔変形データを保存する。また、顔画像認識部22から顔データ要求信号が入力されると、対応する顔テンプレートと顔変形データとを顔画像認識部22へ出力する。
<顔画像認識装置20>
顔画像認識装置20は、記録媒体部14に保存されている顔テンプレートと顔変形データとを利用して、与えられた顔画像データに対する顔認識結果を出力する。ここで、顔画像認識装置20において顔画像検出部21にて行う処理手順と、顔画像認識部22にて行う処理手順とを分けて説明する。
<<顔画像検出部21>>
顔画像検出部21の顔画像検出手順について、フローチャートを用いて説明する。図7は、顔画像検出手順を示す一例のフローチャートである。
まず、未処理のテスト画像が存在するかを判断する(S21)。未処理のテスト画像が存在する場合(S21において、YES)、その画像を読み込む(S22)。次に、テスト画像内の顔を検出し顔の中心位置と大きさとを推定する(S23)。その後、検出した顔の中心位置と大きさとに基づいて、テスト画像の顔領域を検出し、その内部の画像データを顔画像データとして出力する(S24)。
上述のS21〜S24の処理を未処理のテスト画像がなくなるまで繰り返し行う。未処理のテスト画像が存在しなくなった場合(S21において、NO)、処理を終了する。このとき、処理終了信号を顔画像認識部22に出力する。
これにより、テスト画像に対する顔画像データを抽出することができる。なお、上述の顔画像検出手順は、本発明においてはこの限りではなく、例えば、Wavelet係数のヒストグラムを用いる方法(Schneiderman,H.,and Kanade,T.,“Probabilistic Modeling of Local Appearance and Spatial Relationship for Object Recognition”,CVPR98)等を用いることができる。
<<顔画像認識部22>>
次に、顔画像認識部22における顔画像認識手順について、フローチャートを用いて説明する。図8は、本発明における顔画像認識手順を示す一例のフローチャートである。顔画像認識部22は、まず、顔データ要求信号を記録媒体部14へ出力する(S31)。次に、記録媒体部14から顔テンプレートと顔変形データを取得する(S32)。その後、顔画像検出部21からのテスト画像データを全て読み込んでいるかを判断する(S33)。なお、S33において、全て読み込んでいるかの判断は、顔画像検出部21により処理終了信号を受け取ったか否かにより判断する。
全てのテスト画像データを読み込んでいない場合(S33において、NO)、顔画像認識処理を終了する。また、全てのテスト画像データを読み込んでいる場合(S33において、YES)、記録媒体部14からの顔テンプレート、顔変形データ及び顔画像検出部21からの顔画像データに基づいて、(1)式、(2)式で定義した類似度S(A,B,x,x)を計算する(S34)。また、各々の人物IDに属する顔テンプレートについて可変テンプレートマッチングを実行し、類似度が最大となる顔画像を選定し、その選定した顔画像情報と対応づけられた人物IDを顔認識結果として出力する。
ここで、可変テンプレートとは、上述した(1)式で入力した画像上の対応する特徴点(9点)を探す処理を指す。つまり、与えられた登録画像に対して目尻や口元等の位置関係に基づいて、テンプレートを変形させながら特徴点を設定するものである。
これにより、テスト画像を撮影する際のユーザの表情変化や発話状態等の顔の変形に関する変動に対して頑健な顔画像認識が可能となる。これにより、高精度な顔画像認識を実現することができる。
ここで、上述におけるテスト画像と顔認識結果とを表示画面等により表示させた例について図を用いて説明する。
図9は、テスト画像と顔認識結果とを表示画面に表示した一例の図である。図9の画像には、表示画面50内に設定領域51と、テスト画像表示領域52と、蓄積されている画像データを縮小して表示させる画像領域53とを有するよう構成されている。図9に示すように、設定領域51にてテスト画像を選択すると、その入力画像54がテスト画像表示領域52に表示される。
次に、設定領域51内にある実行ボタンを選択することにより、顔画像認識部22は、蓄積されている登録顔画像55−1〜55−4の全ての画像について類似度Sを算出し、登録顔画像55−1〜55−4の中から類似度が最も高い画像を選定する。また、選定された登録顔画像を強調表示する。例えば、図9では、登録顔画像55−4の類似度Sが最も高かったため、画像データの外枠が太線で表示される。これにより、ユーザは画像認識結果を容易に把握することができる。
これにより、顔画像認識において顔の表情の変形に対する統計的な変形データを利用することで、テスト画像上における顔画像データが変形している場合でも特徴点の探索及び認識結果に及ぼす影響を抑制し、頑健性を改善して高精度な顔画像認識を実現することができる。
ここで、上述したように顔画像認識装置における専用の装置構成により本発明における顔画像認識を行うこともできるが、上述した内容をコンピュータに実行させることができる実行プログラム(顔画像認識プログラム)を生成し、例えば、汎用のパーソナルコンピュータ、ワークステーション等に顔画像認識プログラムをインストールすることにより、本発明における顔画像認識が実現可能となる。
ここで、本発明における実行可能なコンピュータのハードウェア構成例について図を用いて説明する。図10は、本発明における顔画像認識処理が実現可能なハードウェア構成の一例を示す図である。
図10におけるコンピュータ本体には、入力装置61と、出力装置62と、ドライブ装置63と、補助記憶装置64と、メモリ装置65と、各種制御を行うCPU(Central Processing Unit)66と、ネットワーク接続装置67とを有するよう構成されており、これらはシステムバスBで相互に接続されている。
入力装置61は、使用者が操作するキーボード及びマウス等のポインティングデバイスを有しており、使用者からのプログラムの実行等、各種操作信号を入力する。出力装置62は、本発明における顔画像認識処理を行うためのコンピュータ本体を操作するのに必要な各種ウィンドウやデータ等を表示するモニタを有し、CPU66が有する制御プログラムによりプログラムの実行経過や結果等を表示することができる。
ここで、本発明において、コンピュータ本体にインストールされる実行プログラムは、例えば、CD−ROM等の記録媒体68等により提供される。プログラムを記録した記録媒体68は、ドライブ装置63にセット可能であり、記録媒体68に含まれる実行プログラムが、記録媒体68からドライブ装置63を介して補助記憶装置64にインストールされる。
補助記憶装置64は、ハードディスク等のストレージ手段であり、本発明における実行プログラムや、コンピュータに設けられた制御プログラム等を蓄積し必要に応じて入出力を行うことができる。
CPU66は、OS(Operating System)等の制御プログラム、メモリ装置65により読み出され格納されている実行プログラムに基づいて、各種演算や各ハードウェア構成部とのデータの入出力等、コンピュータ全体の処理を制御して、上述した顔画像認識における各処理を実現することができる。プログラムの実行中に必要な各種情報は、補助記憶装置64から取得することができ、また格納することもできる。
ネットワーク接続装置67は、通信ネットワーク等と接続することにより、実行プログラムを通信ネットワークに接続されている他の端末等から取得したり、プログラムを実行することで得られた実行結果又は本発明における実行プログラム自体を他の端末等に提供することができる。
上述したようなハードウェア構成により、特別な装置構成を必要とせず、低コストで高精度な顔画像認識処理を実現できる。
上述したように本発明によれば、顔画像認識において顔の表情の変形に対する統計的な変形データを利用することで、テスト画像上における顔画像データが変形している場合でも特徴点の探索及び認識結果に及ぼす影響を抑制し、頑健性を改善して高精度な顔画像認識を実現することができる。
また、テスト画像を撮影する際のユーザの表情変化や発話状態等の顔の変形に関する変動に対して頑健な顔画像認識が可能となる。これにより、高精度な顔画像認識を実現することができる。
また、可変テンプレートマッチングを利用した、実際の顔画像の動きに連動した顔CG制作等においても、表情変化等の変形に対して高精度なテンプレートマッチングが実現できる。
以上本発明の好ましい実施例について詳述したが、本発明は係る特定の実施形態に限定されるものではなく、特許請求の範囲に記載された本発明の要旨の範囲内において、種々の変形、変更が可能である。
本発明における顔画像認識装置の一構成例を示す図である。 登録画像に対応する特徴点の配置例を示す図である。 本発明における顔画像登録手順を示す一例のフローチャートである。 本発明における顔テンプレートの一例を示す図である。 本発明における顔変形情報抽出手順を示す一例のフローチャートである。 表情サンプル画像と対応する特徴の分布の一例を示す図である。 顔画像検出手順を示す一例のフローチャートである。 本発明における顔画像認識手順を示す一例のフローチャートである。 テスト画像と顔認識結果とを表示画面に表示した一例の図である。 本発明における顔画像認識処理が実現可能なハードウェア構成の一例を示す図である。
符号の説明
1 顔画像認識装置
10 顔データ作成装置
11 顔画像登録部
12 画像データ表示部
13 顔変形情報抽出部
14 記録媒体部
20 顔画像認識装置
21 顔画像検出部
22 顔画像認識部
30 特徴点
40 表情サンプル画像
50 表示画面
51 設定領域
52 テスト画像表示領域
53 画像領域
54 入力画像
55 登録顔画像
61 入力装置
62 出力装置
63 ドライブ装置
64 補助記憶装置
65 メモリ装置
66 CPU
67 ネットワーク接続装置
68 記録媒体

Claims (6)

  1. 予め登録される登録顔画像と表情の異なる複数の顔画像とを用いて、入力される画像中に含まれる顔画像の人物を特定するための顔画像認識装置であって、
    前記登録顔画像の特徴点配置情報と人物IDとを、前記登録顔画像に対応付けて顔テンプレートとして登録する顔画像登録部と、
    前記表情の異なる複数の顔画像の特徴点配置情報に基づいて顔変形情報を抽出する顔変形情報抽出部と、
    前記画像登録部から得られる顔テンプレートと、前記顔変形情報抽出部から得られる顔変形情報とに基づいて、前記画像中に含まれる顔画像中の人物を特定する顔画像認識部とを有することを特徴とする顔画像認識装置。
  2. 前記顔変形情報抽出部は、
    前記表情の異なる複数の顔画像における顔画像毎の特徴点の座標分布から同一の特徴点に対するマハラノビス距離を算出することにより、顔変形情報を抽出することを特徴とする請求項1に記載の顔画像認識装置。
  3. 前記顔変形情報抽出部は、
    各特徴点に対する移動方向又は移動位置からなる移動情報を他の特徴点と対応づけることにより、顔変形情報を抽出することを特徴とする請求項1又は2に記載の顔画像認識装置。
  4. 前記顔画像認識部は、
    可変テンプレートを用いて画像認識を行うことを特徴とする請求項1乃至3の何れか1項に記載の顔画像認識装置。
  5. 前記顔画像認識部は、
    前記登録顔画像と前記画像中に含まれる顔画像との類似度を算出し、算出された類似度が最大となる登録顔画像を選定することを特徴とする請求項1乃至4の何れか1項に記載の顔画像認識装置。
  6. 予め登録される登録顔画像と表情の異なる複数の顔画像とを用いて、入力される画像中に含まれる顔画像の人物を特定するための顔画像認識をコンピュータに実行させるための顔画像認識プログラムであって、
    前記登録顔画像の特徴点配置情報と人物IDとを、前記登録顔画像に対応付けて顔テンプレートとして登録する顔画像登録処理と、
    前記表情の異なる複数の顔画像の特徴点配置情報に基づいて顔変形情報を抽出する顔変形情報抽出処理と、
    前記画像登録処理により得られる顔テンプレートと、前記顔変形情報抽出処理により得られる顔変形情報とに基づいて、前記画像中に含まれる顔画像中の人物を特定する顔画像認識処理とをコンピュータに実行させるための顔画像認識プログラム。
JP2003388203A 2003-11-18 2003-11-18 顔画像認識装置及び顔画像認識プログラム Pending JP2005149302A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2003388203A JP2005149302A (ja) 2003-11-18 2003-11-18 顔画像認識装置及び顔画像認識プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2003388203A JP2005149302A (ja) 2003-11-18 2003-11-18 顔画像認識装置及び顔画像認識プログラム

Publications (1)

Publication Number Publication Date
JP2005149302A true JP2005149302A (ja) 2005-06-09

Family

ID=34695347

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2003388203A Pending JP2005149302A (ja) 2003-11-18 2003-11-18 顔画像認識装置及び顔画像認識プログラム

Country Status (1)

Country Link
JP (1) JP2005149302A (ja)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007102286A (ja) * 2005-09-30 2007-04-19 Seiko Epson Corp 特定画像検出装置、特定画像検出方法および特定画像検出プログラム
US7634106B2 (en) 2004-09-22 2009-12-15 Fujifilm Corporation Synthesized image generation method, synthesized image generation apparatus, and synthesized image generation program
JP2010050842A (ja) * 2008-08-22 2010-03-04 Sony Taiwan Ltd マルチレンズカメラシステムのための高度な動的スティッチング方法
KR101402078B1 (ko) 2012-12-07 2014-06-03 경북대학교 산학협력단 얼굴 인식 장치 및 얼굴 인식 방법
CN111382681A (zh) * 2020-02-28 2020-07-07 浙江大华技术股份有限公司 一种人脸注册方法、装置及存储介质

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7634106B2 (en) 2004-09-22 2009-12-15 Fujifilm Corporation Synthesized image generation method, synthesized image generation apparatus, and synthesized image generation program
JP2007102286A (ja) * 2005-09-30 2007-04-19 Seiko Epson Corp 特定画像検出装置、特定画像検出方法および特定画像検出プログラム
JP2010050842A (ja) * 2008-08-22 2010-03-04 Sony Taiwan Ltd マルチレンズカメラシステムのための高度な動的スティッチング方法
KR101402078B1 (ko) 2012-12-07 2014-06-03 경북대학교 산학협력단 얼굴 인식 장치 및 얼굴 인식 방법
CN111382681A (zh) * 2020-02-28 2020-07-07 浙江大华技术股份有限公司 一种人脸注册方法、装置及存储介质
CN111382681B (zh) * 2020-02-28 2023-11-14 浙江大华技术股份有限公司 一种人脸注册方法、装置及存储介质

Similar Documents

Publication Publication Date Title
US8593452B2 (en) Face feature vector construction
JP5451302B2 (ja) 画像処理装置及び方法、プログラム及び記憶媒体
US8861800B2 (en) Rapid 3D face reconstruction from a 2D image and methods using such rapid 3D face reconstruction
JP5206517B2 (ja) 特徴点選択システム、特徴点選択方法および特徴点選択プログラム
JP5261501B2 (ja) 不変の視覚場面及び物体の認識
US9213897B2 (en) Image processing device and method
JP2007072620A (ja) 画像認識装置及びその方法
US10748018B2 (en) Multi-stage tattoo matching techniques
JP5656768B2 (ja) 画像特徴量抽出装置およびそのプログラム
JP2006331271A (ja) 代表画像抽出装置及び代表画像抽出プログラム
JP4348202B2 (ja) 顔画像認識装置及び顔画像認識プログラム
JP2007141107A (ja) 画像処理装置およびその方法
US9342152B2 (en) Signal processing device and signal processing method
JP2005149302A (ja) 顔画像認識装置及び顔画像認識プログラム
JP2007249394A (ja) 顔画像認識装置及び顔画像認識プログラム
JP5865687B2 (ja) 画像特徴量抽出装置およびそのプログラム
JP2007141106A (ja) 画像処理装置およびその方法
JP2013120504A (ja) オブジェクト抽出装置、オブジェクト抽出方法、及びプログラム
JP2014056415A (ja) 画像照合システム、画像照合方法、およびプログラム
JP2010092426A (ja) 画像処理装置、画像処理方法およびプログラム
Grzegorzek A system for 3D texture-based probabilistic object recognition and its applications
JP2007141105A (ja) 画像処理装置およびその方法
CN112861590A (zh) 信息处理装置和方法以及图像识别设备
JP2013186829A (ja) 画像処理プログラム、画像処理方法及び画像処理装置

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20060324

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20090424

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20090512

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20090915