JP4466951B2

JP4466951B2 - 立体結合顔形状の位置合わせ

Info

Publication number: JP4466951B2
Application number: JP2004190392A
Authority: JP
Inventors: リーグ; リジキン; ホン−ジャンツァン
Original assignee: Microsoft Corp
Current assignee: Microsoft Corp
Priority date: 2003-06-30
Filing date: 2004-06-28
Publication date: 2010-05-26
Anticipated expiration: 2024-06-28
Also published as: DE602004009863D1; KR20050002611A; ATE377806T1; US7218760B2; KR100874817B1; US20040264745A1; CN100530216C; DE602004009863T2; CN1577379A; EP1496466A3; JP2005025748A; EP1496466B1; EP1496466A2

Description

本発明は、顔認識に関し、より詳細には、１つの顔の複数の画像を使用して顔の特徴（facial feature）に点を配置することによって顔の特徴を認識することに関する。

３次元物体を２次元で表現することができる。実際、３次元物体を２次元のビューを使用して表現することは、物体のモデリングおよび合成を行う上で有利である。そのような２次元表現においては、物体の３次元の特徴を明示的に再生する必要がなく、このことによって、３次元ベースの方法に内在する難点が回避される。むしろ、ビューベースモデルを使用し、２次元ビューを複数用いて物体を表現することは、常套手段となっている。２つ以上の２次元ビューを用いて物体を表現するとき、通常は各２次元ビューの間で画素毎の対応マップが必要とされる。あるいは、物体上の１組の少数の特徴点または特徴部のエッジ間のまばらな対応マップを、各２次元ビューの間で使用することもできる。物体のテクスチャから物体の形状を分離するために、対応マップを計算し、適用することができる。その結果、物体の形状と物体のテクスチャを共に、ある特定の観点から、線形部分空間内でモデル化することができる。

２つ以上の２次元ビューを用いて物体を表現するとき、物体の特徴を表わす点（特徴点）を確立すると有利な場合がある。複数の２次元ビューの間の対応に基づく特徴点は、光の強度と色の変化を扱う際によりロバスト性があり、物体を稠密に表現した場合より計算が少なくてすむので、いくつかの適用例で有利となる。したがって、物体の画像クラスを正確にモデル化するため、２つの問題に対処し、これを解決することができる。最初の問題は、２次元ビューのトレーニングセット（ｔｒａｉｎｉｎｇｓｅｔ）を使用して、物体の特徴上の特徴点を探し出す問題である。物体の特徴上の特徴点が探し出された後に続く第２の問題は、２以上の組の特徴点間の、基礎となる対応を対応する数の２次元ビューから確立する問題である。

複数の２次元ビューを用いて複雑で柔軟な物体中の特徴を突き止めるとき、難度はさらに上昇する。物体自体に関する事前知識を使用することで、これらの困難に対処することができる。例えば、物体の変形可能モデルは、そのような事前知識の一例である。変形可能モデルは、物体上の特徴の位置について制約条件を提供することができる。物体に関する画像データから導き出せる、これらの制約条件を使用して、物体の区分化または物体上の特徴の検出といった問題に対処することができる。具体的には、クーツ他（Ｃｏｏｔｅｓｅｔａｌ．）によって提案されたアクティブシェイプモデル（ＡＳＭ）（例えば、非特許文献１参照）は、モデルが導出されたトレーニングセットから学習された方法によってのみ、物体のモデルのインスタンスを変形することができる利点を提供した。すなわち、モデルは、物体の区分化または特徴の検出において、かなりの変動性に対応することができるが、モデルは依然、そのモデルが表わす物体のクラスに限定されている。ＡＳＭは、主成分分析（ＰＣＡ）技法を利用し、物体の２次元形状変化および物体の局所グレイレベル構造によって、物体をモデル化する。具体的には、ＡＳＭは、物体の２次元画像に問い合わせ、および物体上の各特徴をそれぞれ表わす点（特徴点）を用いて物体上の特徴の形状を近似することなどを含む処理である。

同一の物体の２つ以上の異なる２次元ビューが与えられた場合、ＡＳＭを利用することによって、各ビューの物体上の特徴を物体のモデルにマッチさせることができる。各ビューについてモデルマッチング（ｍｏｄｅｌｍａｔｃｈｉｎｇ）を実行した後、異なるビューの各々にわたる関連性によってなど、異なるビューにおける物体の特徴の個々の特徴点間の対応を見つけるのが望ましい。しかし、物体上の各特徴の検出された特徴点は、異なるビューにわたって幾何的に一貫性をもたない場合がある。この非一貫性は、ＡＳＭが、異なるビューの対応ではなく、単一のビューだけを考慮していることによる。モデルと異なるビューの各々とのマッチングには、多視点幾何（ｍｕｌｔｉｖｉｅｗｇｅｏｍｅｔｒｙ）を使用すると有利である。これが成し遂げられる間、物体上の各特徴のすべての主要特徴点は、依然として各２次元ビュー中に見えている必要がある。

ＡＳＭを使用するための技法の１つは、１つの顔を異なる視点から見たビューの１組のトレーニング例の使用を含む。これらの１つの顔のビューから、顔上の特徴の１組の特徴点に、手動で標識付けを行うことができる。この手動の標識付けは、顔を、異なる顔の特徴とその顔の特徴を構成する個々の点に変形することを意味する。例えば、これらの顔の特徴は、鼻、目、および口を含むことができる。特徴点は、顔上の特徴を特徴付ける点である。ＡＳＭは、顔の変形を表わす１組のトレーニングデータを使用して、異なる顔の特徴を異なる顔のビューを使用することにより分析する。しかし、この従来のＡＳＭ技法は、分析対象の顔のビューの中に顔の特徴を探し出す際の、正確性に関して難点がある。さらに、従来のＡＳＭ技法は、１組のトレーニングデータ中の顔が変形されたやり方で、分析対象の顔を変形できるに過ぎない。内在する不正確性を克服するための部分的解決法は、より大規模なトレーニングデータベースを使用することである。そのような解決法は、顔の異なるビューについての局所グレイレベルモデルフィッティング（ｌｏｃａｌｇｒｅｙ−ｌｅｖｅｌｍｏｄｅｌｆｉｔｔｉｎｇ）を考慮していないので、部分的なものでしかない。局所グレイレベルモデルフィッティングは、必ずしも顔の特徴の実際のエッジとは限らない、光度が最も強いエッジの方に顔の特徴を移動させるように、データを解釈する傾向があり、そのため、さらなる不正確性を生じさせる。さらに、より大規模なデータベースを使用すると、追加データには、許容可能な顔の特徴の形状を分析対象の顔にとって不正確な範囲にまで広げる傾向があるため、正確性がさらに低下する場合がある。

上記の問題に加えて、ＡＳＭは、同一の顔の僅かに異なる２つのビューの中で、同一の顔の特徴を見つける際に一貫性がない。ＡＳＭは、別の物体の僅かに異なる２つのビューを探索した場合に、トレーニング物体についてトレーニングデータ中で識別された特徴が同じ特徴を生み出すことを、必ずしも保証するわけではない。この能力の欠如は、異なる２次元ビューにおける物体の回転の結果である物体を照らす照明の変化に、または異なる初期パラメータに原因を見出すことができる。２つのマイナスの結果が、この環境で従来のＡＳＭを使用した場合に発生し得る。１つの結果は、従来のＡＳＭモデルが、物体上の特徴を誤って識別すること、または物体上の特徴の特徴点を不正確に探し出すことである。いずれの場合でも、従来のＡＳＭを用いた場合、同一の物体の異なる２次元ビューが、異なる２次元ビューの間でマッチしない特徴を生み出す。その結果、従来のＡＳＭを用いた場合、異なるビューの識別された特徴の間の対応は不正確となる。

T. F. Cootes, 他2名, "Active shape models - their training and their applications", Computer Vision and Image Understanding, 第61巻, 第1号, p.38-59, 1995年1月 Z. Zhang, "Determining the epipolar geometry and its uncertainty: a review", The International Journal of Computer Vision, 第27巻, 第2号, p.161-195, 1998年 S. Z. Li, 他3名, "Kernel Machine Based Learning for Multi-View Face Detection and Pose Estimation" In Proceedings of 8th IEEE International Conference on Computer Vision, （カナダバンクーバ）, 2001年7月9日 A.P. Pentland, 他2名, 天iew-Based and Modular Eigenspaces for Face Recognition In the Proceedings of IEEE Computer Society Conference on Computer Vision and Pattern Recognition, p.84-91, 1994年

同一の物体の異なるビューの中に同一の特徴を正確かつ一貫して識別する技法を開発することは、当技術分野における進展となるであろう。

本発明の一実施形態は、目の隅や鼻の先など顔の特徴について点を配置することによって、顔の特徴を識別する。これを行うために、１つの顔の複数の２次元ビューから成るトレーニングセットを利用して、１組のトレーニングデータを作成する。この１組のトレーニングデータは、１つの顔の２つの異なる２次元ビューと一緒に、数学的モデルの中で使用される。数学的モデルを使用して、顔の内側および外側の特徴を、２つの異なる２次元ビュー上で識別し、その結果、顔の２つの異なる２次元ビューの各々について顔の特徴を識別するための立体結合メカニズム（ｓｔｅｒｅｏ−ｃｏｕｐｌｉｎｇｍｅｃｈａｎｉｓｍ）を提供する。数学的モデルは、基本行列（ｆｕｎｄａｍｅｎｔａｌｍａｔｒｉｘ）に符号化されたエピポーラ幾何（ｅｐｉｐｏｌａｒｇｅｏｍｅｔｒｙ）を使用して、２つの異なるビューの各々において顔の特徴が配置される領域を制限する。数学的モデルは、同一の顔の２つの異なるビューの各々における各顔の特徴の点の間の幾何的対応をそれぞれに見つける。

本発明の別の実施形態は、顔モデルの顔の外側および内側の特徴を、第１の顔画像の第１のモデルの顔の外側および内側の特徴および第２の顔画像の第２のモデルの顔の外側および内側の特徴とマッチさせる。第１および第２のモデルのマッチした顔の外側および内側の特徴の各々を、第１および第２のモデルについて、対応するエピポーラ拘束（ｅｐｉｐｏｌａｒｃｏｎｓｔｒａｉｎｔ）を用いて調整する。第１および第２の顔画像は、実質的に同じカメラ方向でそれぞれ捉えた同一の顔の画像である。その他の実施形態では、画像は、ヨー角（ｙａｗ）が異なる顔の向きの範囲を有する。

本発明のまた別の実施形態では、第１および第２の顔画像について、それぞれ第１および第２のモデルの顔モデルを使用して、初期化が実行される。第１および第２のモデルは各々、複数の点によって定義される顔の外側および内側の特徴を有する。第１および第２のモデルについて、基本行列を推定する。第１および第２のモデルの各々について顔の内側の特徴の点が、各点に対する局所テクスチャをそれぞれ用いて、更新される。次に、第１および第２のモデルの顔の内側の特徴がそれぞれ、更新される。第１および第２のモデルの顔の内側の特徴の各点は、基本行列と対応するエピポーラ拘束を用いて、更新される。次に、第１および第２のモデルの各々について顔の外側の特徴が、更新される。第１のモデルが顔モデルの所定の許容値内に収束した場合、第１のモデルの顔の内側および外側の特徴の表現が出力される。第２のモデルが顔モデルの所定の許容値内に収束した場合、第２のモデルの顔の内側および外側の特徴の表現が出力される。

以下の詳細な説明を添付の図面と併せて参照することにより、本発明の実施形態のより完全な理解が得られるであろう。

本発明は、顔のモデリングおよび顔の特徴の識別に関する。本発明の実施形態は、顔の形状の分析にエピポーラ幾何を利用して、鼻、目、眉、口などの顔の特徴を決定する。この詳細な説明では、読者がエピポーラ幾何を理解していることを前提としている。

基本行列の推定
図１ａ〜図１ｂには、２つの対象画像が示されており、２つの対象画像は、それらの間の基本行列Ｅを推定することによりキャリブレートされる。１対の画像のための基本行列Ｅを計算する公式の一例が、チャン他（Ｚｈａｎｇｅｔａｌ．）によって提供されている（例えば、非特許文献２参照）。２つの画像は、頭部を正面に向け、静止カメラで撮影されたものであり、２つのビューの間には、ヨー方向（ｙａｗｄｉｒｅｃｔｉｏｎ）の動きが見られる。頭部の回転に伴い照明が変化するので、物理的に同一の点の色が、２つの画像で相違して見える。したがって、顔の特徴の識別は、光の流れに基づく方法よりも輝度に対してロバスト性があるので、顔の特徴を識別するほうが有利である。基本行列Ｅの推定には、４つの異なるステップ、すなわち、１）２つの異なる画像の間の差を決定することにより、顔の位置を概算するステップと、２）画像中の各顔の特徴の隅を検出するステップと、３）２つの異なる画像の相関により、各顔の特徴の隅をマッチングするステップと、４）誤マッチを排除し、最小平均２乗（ｌｅａｓｔｍｅｄｉａｎｓｑｕａｒｅｓ）によって基本行列を推定するステップとが含まれ得る。図１ａ〜図１ｂには、１対の顔画像と、上述の技法によって定められた、顔の特徴について隅がマッチする組が示されている。しかし、２つの異なる画像の間のより正確な顔の特徴の相関関係のために、顔モデルが必要とされる。図２に示され、以下で説明される、そのような顔モデルは、鼻、目、眉、口などの顔の特徴の表現となる。

顔形状モデルの分解
顔形状のトレーニングセットＴ＝｛Ｓ_ｉ｜ｉ∈０〜Ｎ｝を既定することができる。ただし、形状ベクトルは、Ｓ_ｉ＝（＜ｘ_１，ｙ_１＞，＜ｘ_２，ｙ_２＞，．．．，＜ｘ_Ｋ，ｙ_Ｋ＞，）∈Ｒ^２Ｋ、Ｋ＝８３で表わされる。形状ベクトルＳ_ｉは、顔の様々な特徴を構成する点（特徴点）を表わす。図２に見られるように、顔は、顔の内側の特徴（目、鼻、および口）に分解されており、その各々は、複数の点を結んだ線によって輪郭を描かれている。図２には、これら３つの異なる顔の内側の特徴を構成する６３個の点が示されている。顔はまた、顔の外側の特徴（１対の眉、ならびに顎、顎先、および頬から成る輪郭）に分解されており、その各々は、複数の点を結んだ線によって輪郭を描かれている。図２には、これら２つの異なる顔の外側の特徴を構成する１９個の点が示されている。したがって、図２の最下図に示す分解された顔の特徴の合成から分かるように、合計８３個の点が、５つの異なる顔の特徴を構成している。

輪郭上の点は、顔の領域を背景から区分する助けとなり得るので、有用である。しかし、ヨー方向の頭部の回転によって生じるセルフオクルージョン（ｓｅｌｆｏｃｃｌｕｓｉｏｎ）のため、輪郭上の点は、これらの点がエピポーラ拘束（ｅｐｉｐｏｌａｒｃｏｎｓｔｒａｉｎｔ）を満たさないという点で、同一の顔の２つの異なるビューにおいて正確に結び付けるのが難しい。この困難を克服するために、分解された顔モデルが利用される。図２に示すように、形状ベクトルｓは、内側ベクトルＳ_ｉｎと外側ベクトルＳ_ｏｕｔの、２つの部分に分割される。Ｓ_ｉｎは、３つの顔の内側の特徴を構成する６４個の点を表わし、外側ベクトルＳ_ｏｕｔは、眉と顔の輪郭を定義する１９個の点を表わす。もちろん、異なる数の点を選択して、各顔の特徴を表現することもできる。顎、顎先、および頬から成る輪郭を分離する別の理由は、トレーニング画像で提示される背景が乱れている場合、それらの局所的グレイレベルモデル（ｌｏｃａｌｇｒｅｙｌｅｖｅｌｍｏｄｅｌ）が、顔の内側の特徴を構成する点ほどには安定でないという事実によるものである。眉の外周は、その他の顔の内側の特徴よりも検出が難しく、異なるヘアスタイルなど、他の要因からの影響をより受けやすいことを考慮して、眉も、Ｓ_ｏｕｔ形状ベクトルに割り当てられる。

反復ＡＳＭ手順において、すべての形状ベクトル（Ｓ_ｉｎ，Ｓ_ｏｕｔ）を平均形状

の接空間（ｔａｎｇｅｎｔｓｐａｃｅ）に配列した後、１組の正規化形状（ｎｏｒｍａｌｉｚｅｄｓｈａｐｅ）ベクトル

が得られる。ただし、Ｔは、回転θ、スケーリングＳ、（Ｘ_ｉ，Ｙ_ｉ）分の移動を実行するユークリッド変換を表わす。そのような利用可能な反復ＡＳＭ手順の一例が、先に説明した、クーツ他によって提供されている。

以下の分解方式では、整列された各顔

は、２つのベクトル

に分割される。２つの低次元形状空間Ｕ_ＦおよびＵ_ｉｎが、ＡＳＭの主成分分析（ＰＣＡ）技法を用いて、

として計算される。ただし、Ｕ_Ｆは、

の変化（ｖａｒｉａｔｉｏｎ）のｋ個の主要なモードから構成される行列であり、Ｕ_ｉｎは、

から学習された行列である。トレーニングセット中の形状ｉの顔の特徴の各々を構成する各点ｊについて、ｊを中心とする輪郭のグレイレベルｇ_ｉｊが抽出される。ｇ_ｉｊの導出ベクトルｄ_ｉｊは、

として計算され、正規化される。ただし、ｋは、輪郭に沿った点のインデクスである。ここでもＰＣＡを用いて、ベクトル

の変化をモデル化する。本明細書で利用される、ＡＳＭのＰＣＡの一例が、先に説明した、クーツ他によって提供されている。

立体結合モデル探索
同一の顔の２つのビューにおける対応する顔の特徴のマッチングを行う立体結合モデルは、両画像における顔の位置および平均形状ベクトルの初期推定を行うことから始まる。ＡＳＭを２つのビューにそれぞれ適用し、局所テクスチャ統計（例えば、各点近傍の測光データ）に従って、各顔の特徴の各点を更新する。これを行うために、モデル境界に対して垂直な方向に沿って、点を移動させる。次に、マッチの質が評価され、このことから、各点の新しい位置を提示することができる。最良のマッチはしばしば、測光データの大きさに基づいて強いエッジ上に見つかる。

次のステップは、先行の形状分布およびエピポーラ拘束を共に満足する、最も妥当と思われる形状を見出すことに関係している。モデルフィッティング（ｍｏｄｅｌｆｉｔｔｉｎｇ）は、２つの制約条件をもつ損失関数Ｌ（ｃ）を最小化する、２つの画像の形状モデルの最適パラメータセットｃを見出すこととして、定式化することができる。制約条件、すなわち

は、制約条件

から制約を受ける。ただし、ｄ（ｘ，ｙ）は、点ｘと点ｙの間のユークリッド距離であり、Ｓ_ｉｎ１およびＳ_ｉｎ２は、局所テクスチャに基づく更新の後の、観測された特徴点である。

および

は、モデル実現値を表わす。

パラメータｂ_ｉｎ１およびｂ_ｉｎ２は、望ましい正確な顔形状を生成するために、第２の条件を満足すべきである。

Ｌ（ｃ）を利用して、モデルのインスタンスと観測された特徴点の間の差を評価する。あるいは、エピポーラ幾何の観点からは、Ｌ（ｃ）は、正しい対応点を見つけるための尺度と見なすこともできる。探索手順の間、形状Ｓ_ｉｎ１、Ｓ_ｉｎ２の間の標準的な観測されたマッチング

は、ノイズが多くなり得るので、正しいマッチングを回復するのが望ましい。Ｌ（ｃ）は、オリジナルの特徴点μ、μ’と正しい対応点

の間の距離を表わす。ただし、

は、形状インスタンス

中の点である。点

に関してμ、μ’はガウス誤差分布を示すと仮定され、これにより、２つの異なるビュー上の点の間の正確な対応を表わす可能性の最も高い値について、損失関数Ｌ（ｃ）が最小化される。

２つの異なるビュー上の点の間の正確な対応を探し出すための手順には、形状モデルの分解、およびエピポーラ拘束（式３）と先行形状の制約（式４）とを組み合わせた制約条件が関係する。一般に、そのような手順は、顔検出の結果で、同一の顔の２つの異なるビューに関する形状モデルを初期化することから始まる。本明細書で使用可能な、２つの異なるビューに関する形状モデルの初期化の一例が、リー他（Ｌｉｅｔａｌ．）によって提供されている（例えば、非特許文献３参照）。異なるビューの形状モデルが初期化された後、各顔の特徴の点が、各点近傍のテクスチャ（例えば、測光データ）を用いて、それぞれ独立に更新される。次に、内側の顔画像が更新される。これを行うため、内側の形状ベクトルＳ_ｉｎ１、Ｓ_ｉｎ２について、初期推定値が与えられる。この初期推定値は、１つの顔の２つの異なるビューについての画像データとマッチする。パラメータＴ_ｉｎ１、Ｔ_ｉｎ２、ｂ_ｉｎ１、ｂ_ｉｎ２について、最適化が探し出され、先行形状の制約に従って、

の範囲内で、ｂ_ｉｎ１、ｂ_ｉｎ２の切り捨てが行われる。切り捨ての後、エピポーラ拘束に従って、顔の内側の特徴（鼻、目、および口）の点に対して更新が行われる。

２つの異なるビューに関する顔の内側の特徴の点は、エピポーラ拘束をまだ満足していないことがあるので、マッチング

から正しい対応

を見つけるために、非線形最適化法が導入される。図４ａ〜図４ｂのエピポーラ幾何の図に示されるように、ｌ_μは、同じ顔の第２のビューまたは画像中の特徴点μのエピポーラ線である。ｌ_⊥は、μ’からｌ_μに垂直に下ろされ、点Ｍでｌ_μと交わる。ｅ_２から出てｌ_⊥上の点νを通過する線ｌ_νも、エピポーラ線である。したがって、点νは、第２の画像におけるエピポーラ線の束を定義する。束は、νとμ’の間の符号付き距離であるパラメータλによってパラメータ化される。パラメータμ’は、

を得るために、ｌ_νに射影される。パラメータ

は、同じ顔の第１のビューまたは画像中の

のエピポーラ線である。パラメータμは、

を得るために、

に射影される。最適化されたλ_ｏｐｔを見つけて、（２）のようにＬ（ｃ）を最小化するために、古典的なリーベンバーグ−マーカット最適化を利用することができ、λの初期値は、

に設定される。λの最適値を達成するために、数回の反復処理を行うことができる。最後に、すべての顔の特徴のすべての点Ｓ_１、Ｓ_２が、第１ステップで行われたように更新される。

一般に、本発明の一実施形態では、顔形状は、内部エネルギー関数を最小化するように、上述のステップによって近似される。エピポーラ拘束は、同一の顔の２つの異なる２次元ビューの各々に関する顔の特徴の点の間で最良の対応を見つけることを目的とした、特定のエネルギー項を表わす。

図５ａ〜５ｂから図８ａ〜８ｂには、エピポーラ幾何を用いるステレオ結合メカニズムの一実施形態の、それぞれの繰り返しの結果が示されている。図３ａ〜３ｂは、同一の顔の２つの初期図を表わす。図８ａ〜８ｂの最後の図に見られるように、ステレオ結合モデルは、２つの異なるビューにおいて各顔の特徴を正確に探し出し、それぞれのビューにおける顔の特徴の収束は類似している。顔の内側の特徴（目、鼻、および口）に課せられた幾何制約が２つの異なるビューのモデルの間の対応マッピングを調節するので、この収束は可能となる。

図９の手順９００には、顔モデルを用いて同一の顔の２つの異なるビューに関して実行されるステップ１からステップ８を有する、本発明の一実施形態が示されている。２つのビューは、顔に対して同じ相対カメラ方向で撮影されており、２つの異なるビューを比べると、顔がヨー方向に回転している。２つのビューは同時に処理される。ステップ２からステップ７は、手順９００の中で、繰り返し行われる。

手順９００への入力は、２つの顔画像であり、その一例が、図３ａ〜３ｂで提供されている。この入力は、第１および第２の顔（例えば、同一の顔の２つの異なるビュー）について、手順９００のステップ１におけるブロック９０２〜９０４でそれぞれ取得される。手順９００のステップ１の後、ステップ２に処理は移り、ブロック９０８〜９１０で、第１および第２の顔に関する形状モデルを初期化することによって、２つの画像の各々において各顔上の各顔の特徴の隅の点が検出される。ブロック９０８〜９１０は、同時に実行することができる。顔の内側の特徴に関して、口に関する隅の点は、複数の口の隅を含む。目の各々に関する隅の点は、複数の目の隅を含み、鼻に関する隅の点は、鼻の先を含む。

各顔の特徴の隅の点が検出された後のブロック９０８〜９１０における第１および第２の顔に関する形状モデルの初期化は、２組の隅の点の間の対応の確立も含まれる。別の言い方をすれば、ブロック９０８〜９１０は、第１および第２の顔画像について、それぞれ第１および第２のモデルの初期化を要求する。この初期化は顔の外側および内側の特徴を有する顔モデルを使用する。各顔の特徴は、複数の点によって定義され、第１および第２のモデルは各々顔の外側および内側の特徴を有している。例えば、図５ａ〜５ｂには、手順９００が適用される２つの異なるビューの一例が提供されている。図２には、顔の内側および外側の特徴を有する顔モデルの一例が提供されており、顔の内側および外側の特徴は各々、複数の点によって定義される。図２の顔の内側の特徴は、鼻、口、および１対の目である。図２の顔の外側の特徴は、顔の弓形の底端部、および１対の眉である。図３ａ〜３ｂの初期入力から分かるように、第１および第２の顔画像は、実質的に同じ相対カメラ方向で補足された同じ顔である。第１および第２の顔画像におけるそれぞれの顔の向きは、ピッチに関して実質的に同じであり、ロールに関しても実質的に同じであり、ヨーに関しては約３度から約１０度（１０°）の範囲で異なっている。

２つの異なるビューにおける顔の特徴の隅の点の間の対応が確立されると、ブロック９０６で、第１および第２の顔（モデル）に関する基本行列「Ｅ」の推定が行われる。手順９００のブロック９０６で使用可能な、基本行列「Ｅ」を推定するための技法の一例が、先に説明した、ペントランド他によって提供されている。

手順９００のステップ３で、第１および第２のモデル（例えば、第１および第２の顔）の各顔の内側の特徴の複数の点に対する更新が、各点それぞれの局所テクスチャを用いて行われる。この更新は、手順９００のブロック９１２〜９１４で行われ、各点の局所テクスチャには、その点の、またはその点の近傍の測光データが含まれる。ステップ４のブロック９１６〜９１８で、第１および第２のモデルの各顔の内側の特徴に対する更新が、ステップ３での点の更新の結果を用いて行われる。

ステップ１〜４は、それぞれが同一の顔の異なるビューを表わす２つの異なるモデルを更新するように機能する。ステップ５のブロック９２０では、ステップ１〜４での１対の動作異なり、一元化動作が実行される。ブロック９２０では、第１および第２のモデルの各顔の内側の特徴の複数の点を更新するために、基本行列とそれに対応するエピポーラ拘束を使用する。別の言い方をすれば、ブロック９２０で実行される動作は、上記の式（３）と式（４）によって数学的に表現される２つの制約条件を用いて、更新された第１および第２のモデルをより精緻なものにする。

ステップ６では、再び１対の動作が、ブロック９２２〜９２４で実行され、第１および第２のモデルの各顔の外側の特徴に対する更新が行われる。ステップ７では、１対の問い合わせが実行される。この問い合わせは、第１および第２のモデル毎に、それぞれブロック９２６および９２８で実行される。ブロック９２６では、第１のモデルが顔モデルの所定の許容値内に収束している場合、第１の顔モデルの顔の内側および外側の特徴の表現が出力される。収束していない場合は、第１のモデルが顔モデルの所定の許容値内に収束するまで、ステップ３〜７が繰り返される。同様に、ブロック９２８では、第２のモデルが顔モデルの所定の許容値内に収束している場合、第２の顔モデルの顔の内側および外側の特徴の表現が出力される。収束していない場合は、第２のモデルが顔モデルの所定の許容値内に収束するまで、ステップ３〜７が繰り返される。ステップ３〜７の繰り返しを４回行った結果の一例が、それぞれ図５ａ〜５ｂから図８ａ〜８ｂに示されている。

２つの異なるビューの間の顔の特徴の収束に続いて、手順９００の結果を顔認識処理に利用することができる。例えば、データベースに保存された人の顔の中から、第１および第２の顔画像の少なくとも一方とマッチする顔を識別することができる。その際、マッチング処理では、第１および第２のモデルの一方または両方の、顔の内側および外側の特徴の出力表現を利用することができる。

コンピュータシステム
図１０には、本明細書で説明した実施形態において使用できる、例示的なコンピュータシステムが示されている。コンピュータ１０４２は、１つまたは複数のプロセッサまたは処理ユニット１０４４、システムメモリ１０４６、およびシステムメモリ１０４６を含む様々なシステムコンポーネントをプロセッサ１０４４に結合するバス１０４８を含む。バス１０４２は、様々なバスアーキテクチャのいずれかを使用する、メモリバスまたはメモリコントローラ、周辺機器バス、アクセラレーテッドグラフィックスポート、およびプロセッサまたはローカルバスを含む、複数のタイプのバス構造の１つまたは複数を表わす。システムメモリには、読み取り専用メモリ（ＲＯＭ）１０５０およびランダムアクセスメモリ（ＲＡＭ）１０５２が含まれる。基本入出力システム（ＢＩＯＳ）１０５４は、起動時などにコンピュータ１０４２の構成要素間の情報伝送を助ける基本ルーチンを含み、ＲＯＭ１０５０に格納される。

コンピュータ１０４２はさらに、ハードディスク（図示せず）に対して読み書きを行うためのハードディスクドライブ１０５６、着脱可能磁気ディスク１０６０に対して読み書きを行うための磁気ディスクドライブ１０５８、ＣＤ−ＲＯＭ、または他の光媒体などの着脱可能光ディスク１０６４に対して読み書きを行うための光ディスクドライブ１０６２も含む。ハードディスクドライブ１０５６、磁気ディスクドライブ１０５８、および光ディスクドライブ１０６２は、ＳＣＳＩインターフェース１０６６、またはその他の何らかの適切なインターフェースによって、バス１０４８に接続される。ドライブおよびそれに関連するコンピュータ可読媒体は、コンピュータ可読命令、データ構造、プログラムモジュール、およびコンピュータ１０４２用のその他のデータの不揮発性記憶を提供する。本明細書で説明する例示的な環境では、ハードディスク、着脱可能磁気ディスク１０６０、および着脱可能光ディスク１０６４を使用するが、磁気カセット、フラッシュメモリカード、デジタルビデオディスク、ランダムアクセスメモリ（ＲＡＭ）、読み取り専用メモリ（ＲＯＭ）などを始めとする、コンピュータによってアクセス可能なデータを保存することができる他のタイプのコンピュータ可読媒体も、例示的な動作環境内で使用することができることは、当業者には理解されよう。

複数のプログラムモジュールは、ハードディスク、磁気ディスク１０６０、光ディスク１０６４、ＲＯＭ１０５０、またはＲＡＭ１０５２に格納することができ、プログラムモジュールには、オペレーティングシステム１０７０、（デザインアプリケーションなどの）１つまたは複数のアプリケーションプログラム１０７２、他のプログラムモジュール１０７４、およびプログラムデータ１０７６が含まれる。ユーザは、キーボード１０７８、およびポインティングデバイス１０８０などの入力装置を介して、コマンドおよび情報をコンピュータ１０４２に入力することができる。その他の入力装置（図示せず）には、マイクロホン、ジョイスティック、ゲームパッド、衛星放送用パラボラアンテナ、スキャナなどが含まれる。これらおよび他の入力装置は、バス１０４８に結合されたインターフェース１０８２を介して、処理ユニット１０４４に接続される。モニタ１０８４またはその他のタイプの表示装置も、ビデオアダプタ１０８６などのインターフェースを介して、バス１０４８に接続される。モニタに加え、パーソナルコンピュータは一般に、スピーカ、プリンタなどの他の周辺出力装置（図示せず）を含む。

コンピュータ１０４２は、リモートコンピュータ１０８８などの１つまたは複数のリモートコンピュータへの論理コネクションを用いて、ネットワーク環境で動作することができる。リモートコンピュータ１０８８は、別のパーソナルコンピュータ、サーバ、ルータ、ネットワークＰＣ、ピア装置、または他の共通ネットワークノードとすることができ、一般にコンピュータ１０４２に関して上述した、構成要素の一部またはすべてを含むことができる。図１０に示す論理コネクションには、ローカルエリアネットワーク（ＬＡＮ）１０９０およびワイドエリアネットワーク（ＷＡＮ）１０９２が含まれる。このようなネットワーク環境は、オフィス規模、企業規模のコンピュータネットワーク、イントラネット、およびインターネットで一般的である。コンピュータ１０４２は、ＬＡＮネットワーク環境で使用される場合、ネットワークインターフェースまたはアダプタ１０９４を介してローカルネットワークに接続される。コンピュータ１０４２は一般に、ＷＡＮネットワーク環境で使用される場合、インターネットなどのワイドエリアネットワーク１０９２を介して通信を確立するためのモデム１０９６または他の手段を含む。モデム１０９６は、内蔵でも外付けでもよく、シリアルポートインターフェース１０６８を介してバス１０４８に接続される。ネットワーク環境では、コンピュータ１０４２に関して示したプログラムモジュールまたはその部分は、リモートメモリ記憶装置に保存することができる。図示のネットワークコネクションは例示的なものであり、通信リンクを確立する他の手段も使用することができることは理解されよう。

一般に、コンピュータ１０４２のデータプロセッサは、コンピュータの様々なコンピュータ可読記憶媒体に異なる時に保存された命令によってプログラムされる。プログラムおよびオペレーティングシステムは一般に、例えば、フロッピディスクまたはＣＤ−ＲＯＭで配布される。そこから、プログラムおよびオペレーティングシステムは、コンピュータの２次メモリにインストールまたはロードされる。実行時に、プログラムおよびオペレーティングシステムは、コンピュータの１次電子メモリに少なくとも部分的にロードされる。本明細書で説明したシステムは、上記およびその他の様々なタイプのコンピュータ可読記憶媒体を含み、そのような媒体は、マイクロプロセッサまたはその他のデータプロセッサと共に、説明したブロックを実施するための命令またはプログラムを含む。説明したシステムはまた、コンピュータ自体が本明細書で説明した方法および技法によってプログラムされたとき、そのコンピュータ自体を含むことができる。

説明のため、本明細書では、プログラム、およびオペレーティングシステムなどの他の実行可能プログラムコンポーネントを、離散的なブロックとして説明したが、そのようなプログラムおよびコンポーネントが、様々な時に、コンピュータの異なる記憶コンポーネントに存在し、コンピュータのデータプロセッサによって実行されることは理解されよう。

結論
本発明の実施形態によって、顔の特徴を表現し、目の隅や鼻の先などの、顔の特徴の中の点を探し出すことが可能になる。同一の顔の１対の異なるビューにおける顔の特徴の相関関係は、エピポーラ幾何を用いて見つけ出される。数学的モデルによって、顔の内側の特徴および顔の外側輪郭に関する形状の変化が補足される。一アルゴリズムでは、同一の顔の１対の異なるビューにおける顔の特徴のマッチングを改善するために、顔の内側および外側の特徴に分解された顔モデルを使用する。

構造的特徴および／または方法的動作に特有の言葉で本発明を説明してきたが、特許請求の範囲で定義される本発明が、説明した特有の特徴または動作に必ずしも限定されるものではないことを理解されたい。むしろ、特有の特徴および動作は、特許請求する発明を実施する上での例示的な形態として開示されている。

２つの異なる位置にある同一の顔に関する２つの異なる２次元ビュー上の、各顔の特徴の周囲の輪郭を形成する点によって、様々な顔の特徴の隅を合わせるための、基本行列の推定を用いるメカニズムを示した図である。２つの異なる位置にある同一の顔に関する２つの異なる２次元ビュー上の、各顔の特徴の周囲の輪郭を形成する点によって、様々な顔の特徴の隅を合わせるための、基本行列の推定を用いるメカニズムを示した図である。複数の点を結ぶ線によって各々の輪郭が描かれた、顔の内側および外側の特徴への顔の分解を示した図である。本発明の実施形態で使用可能な開始画像を表わした、それぞれ異なる姿勢にある顔の２次元ビューである。本発明の実施形態で使用可能な開始画像を表わした、それぞれ異なる姿勢にある顔の２次元ビューである。本発明の一実施形態による、１つの画像の２つの異なる２次元ビュー上の点の間の対応を示したエピポーラ幾何の図である。本発明の一実施形態による、１つの画像の２つの異なる２次元ビュー上の点の間の対応を示したエピポーラ幾何の図である。本発明の一実施形態による、基本行列に符号化されたエピポーラ幾何を用いて、図３ａ〜３ｂの２つの異なるビュー上の対応する顔の特徴をそれぞれ識別するための、立体結合メカニズムの第１の繰り返しを示した図である。本発明の一実施形態による、基本行列に符号化されたエピポーラ幾何を用いて、図３ａ〜３ｂの２つの異なるビュー上の対応する顔の特徴をそれぞれ識別するための、立体結合メカニズムの第１の繰り返しを示した図である。図５ａ〜５ｂに関して用いられた立体結合メカニズムの第２の繰り返しを示した図である。図５ａ〜５ｂに関して用いられた立体結合メカニズムの第２の繰り返しを示した図である。図５ａ〜５ｂに関して用いられた立体結合メカニズムの第３の繰り返しを示した図である。図５ａ〜５ｂに関して用いられた立体結合メカニズムの第３の繰り返しを示した図である。図５ａ〜５ｂに関して用いられた立体結合メカニズムの第４の繰り返しを示した図である。図５ａ〜５ｂに関して用いられた立体結合メカニズムの第４の繰り返しを示した図である。図３ａ〜３ｂに見られる画像に使用して、図５ａ〜５ｂから図８ａ〜８ｂに見られる繰り返しの結果をそれぞれ達成した、立体結合メカニズムを用いる顔の特徴検出の手順についての、本発明の一実施形態による、フローチャートである。本発明の一実施形態によるサーバまたはクライアントを実現するのに使用できるネットワーク接続されたコンピュータのブロック図である。

符号の説明

１０４２コンピュータ
１０４４処理ユニット
１０４６システムメモリ
１０４８バス
１０５０ＲＯＭ（読み取り専用メモリ）
１０５２ＲＡＭ（ランダムアクセスメモリ）
１０５４ＢＩＯＳ（基本入出力システム）
１０５６ハードディスクドライブ
１０５８磁気ディスクドライブ
１０６０着脱可能磁気ディスク
１０６２光ディスクドライブ
１０６４着脱可能光ディスク
１０６６ＳＣＳＩインターフェース
１０６８シリアルポートインターフェース
１０７０オペレーティングシステム
１０７２アプリケーションプログラム
１０７４他のプログラムモジュール
１０７６プログラムデータ
１０７８キーボード
１０８０ポインティングデバイス
１０８２インターフェース
１０８４モニタ
１０８６ビデオアダプタ
１０８８リモートコンピュータ
１０９０ＬＡＮ（ローカルエリアネットワーク）
１０９２ＷＡＮ（ワイドエリアネットワーク）
１０９４ネットワークインターフェースまたはアダプタ
１０９６モデム

Claims

顔の特徴を識別するための方法であって、
３次元の顔についての複数の２次元ビューのトレーニングセットによって導出された２次元の顔モデルにおけるそれぞれが複数の点で表された顔の外側および内側の特徴を、
第１の顔画像についての第１のモデルの顔の外側および内側の特徴、および
第２の顔画像についての第２のモデルの顔の外側および内側の特徴に対応付けるステップと、
前記第１および第２のモデルについて対応するエピポーラ拘束を用いて、前記第１および第２のモデルの前記対応付けられた顔の外側および内側の特徴の各々についての前記複数の点を調整するステップと、
前記顔モデルの顔の外側および内側の特徴に対応付けられた前記第１のモデルの顔の外側および内側の特徴の各々についての前記複数の点の大多数における相対オフセット値が、収束を許容する所定の値よりも大きな値でなくなるまで、かつ
前記顔モデルの顔の外側および内側の特徴に対応付けられた前記第２のモデルの顔の外側および内側の特徴の各々についての前記複数の点の大多数における相対調整値が、収束を許容する所定の値よりも大きな値でなくなるまで、前記対応付けるステップおよび前記調整するステップを繰り返すステップを含むことを特徴とする方法。
前記顔の内側および外側の特徴をそれぞれ含む前記第１および第２のモデルの各々の表現を出力するステップをさらに含むことを特徴とする請求項１に記載の方法。
前記顔の内側の特徴は、鼻、口、および１対の目を含み、
前記顔の外側の特徴は、顔の弓形の底端部、および１対の眉を含むことを特徴とする請求項１に記載の方法。
前記複数の点および対応する前記顔の内側の特徴は、
前記口に対応する複数の口の隅と、
前記目に対応する複数の目の隅と、
前記鼻に対応する鼻の先とから成る群から選択されることを特徴とする請求項１に記載の方法。
前記第１および第２の顔画像は、同じカメラ方向でそれぞれ捉えた同一の顔であることを特徴とする請求項１に記載の方法。
前記第１および第２の顔画像の顔姿勢はそれぞれ、
ピッチに関して同じであり、
ロールに関して同じであり、
ヨーに関して約３度から約１０度の範囲で異なることを特徴とする請求項５に記載の方法。
前記第１および第２の顔画像は、ヨーだけが異なる同じ顔の向きの範囲にある同一の顔の、同じカメラ方向でそれぞれ撮影された写真であることを特徴とする請求項１に記載の方法。
前記顔の向きの範囲は、前記第１と第２の顔画像とで、ヨーが最大で約１０度異なることを特徴とする請求項１に記載の方法。
前記第１の顔画像は、人の顔の全体正面写真であり、
前記第２の顔画像は、前記第１の顔画像から、ヨーが最大で約１０度異なることを特徴とする請求項１に記載の方法。
前記第１および第２のモデルの前記顔の内側および外側の特徴にそれぞれ対応する前記複数の点を使用して、前記第１および第２の顔画像のうち少なくとも一方に対応するデータベース内の人の顔を識別するステップをさらに含むことを特徴とする請求項１に記載の方法。
コンピュータに、請求項１に記載の方法を実行させるプログラムを記録したことを特徴とするコンピュータ可読記録媒体。
顔の特徴を識別するための装置であって、
１つまたは複数のプログラム、
３次元の顔についての複数の２次元ビューのトレーニングセットによって導出された２次元の顔モデルにおけるそれぞれが複数の点で表わされた顔の外側および内側の特徴、
第１の顔画像、および
第２の顔画像
を含むメモリと、
前記メモリ内の前記１つまたは複数のプログラムを実行して、
前記顔モデルの前記顔の外側および内側の特徴の前記複数の点を
前記第１の顔画像の第１のモデルの顔の外側および内側の特徴、および
前記第２の顔画像の第２のモデルの顔の外側および内側の特徴に対応付けるステップ、
前記第１および第２のモデルの前記対応付けられた顔の外側および内側の特徴の各々についての前記複数の点を、前記第１および第２のモデルについて対応するエピポーラ拘束を用いて調整するステップ、および
前記顔モデルの顔の外側および内側の特徴に対応づけられた前記第１のモデルの顔の外側および内側の特徴の各々についての前記複数の点の大多数における相対オフセット値が、収束を許容する所定の値よりも大きな値でなくなるまで、かつ
前記顔モデルの顔の外側および内側の特徴に対応づけられた前記第２のモデルの顔の外側および内側の特徴の各々についての前記複数の点の大多数における相対オフセット値が、収束を許容する所定の値よりも大きな値でなくなるまで、前記対応付けるステップおよび前記調整するステップを繰り返すステップ
を実行するように構成された１つまたは複数のプロセッサと
を備えたことを特徴とする装置。
前記顔の内側および外側の特徴をそれぞれ含む前記第１および第２のモデル各々の表現を出力するステップをさらに含むことを特徴とする請求項１２に記載の装置。
前記顔の内側の特徴は、鼻、口、および１対の目を含み、
前記顔の外側の特徴は、顔の弓形の底端部、および１対の眉を含むことを特徴とする請求項１２に記載の装置。
前記複数の点および対応する前記顔の内側の特徴は、
前記口に対応する複数の口の隅と、
前記目に対応する複数の目の隅と、
前記鼻に対応する鼻の先とから成る群から選択されることを特徴とする請求項１２に記載の装置。
前記第１および第２の顔画像は、同じカメラ方向でそれぞれ捉えた同一の顔であることを特徴とする請求項１２に記載の装置。
前記第１および第２の顔画像の顔姿勢はそれぞれ、
ピッチに関して同じであり、
ロールに関して同じであり、
ヨーに関して約３度から約１０度の範囲で異なることを特徴とする請求項１６に記載の装置。
前記第１および第２の顔画像は、ヨーだけが異なる同じ顔の向きの範囲にある同一の顔の、同じカメラ方向でそれぞれ撮影された写真であることを特徴とする請求項１２に記載の装置。
前記顔の向きの範囲は、前記第１と第２の顔画像とで、ヨーが最大で約１０度異なることを特徴とする請求項１２に記載の装置。
前記第１の顔画像は、人の顔の全体正面写真であり、
前記第２の顔画像は、前記第１の顔画像から、ヨーが最大で約１０度異なることを特徴とする請求項１２に記載の装置。