JP2006520055A

JP2006520055A - ２次元画像からの３次元オブジェクトの不変視点検出および識別

Info

Publication number: JP2006520055A
Application number: JP2006509131A
Authority: JP
Inventors: ミラー，マイケル
Original assignee: アニメトリックス，インク．
Priority date: 2003-03-06
Filing date: 2004-03-05
Publication date: 2006-08-31
Also published as: US20040190775A1; EP1599828A1; US20100295854A1; US7643683B2; JP2006520054A; US20040175039A1; US7643685B2; WO2004081855A1; US20040175041A1; JP2006522411A; EP1599830A1; WO2004081853A1; EP1599829A1; US7853085B2; WO2004081854A1

Abstract

２次元ソース画像から複数の特徴を含む３次元ソースオブジェクトを検出し、かつ、候補オブジェクト間で視点と照明が不変である検索を実行することによりそのようなオブジェクトの候補データベースから最良マッチングする３次元オブジェクトを探索する方法およびシステムを提供する。本発明はさらに、探索された３次元候補の最適に適合する視点、照明、および変形を決め、かつ、候補の投影とソース画像との適合の質に基づいてソースに関連付けて候補を識別する方法およびシステムを含む。

Description

本発明はオブジェクトのモデル化および識別システム、より詳細には候補オブジェクトの３次元モデルを用いた２次元入力および３次元入力からの対象オブジェクトの識別に関する。

多くの状況において、対象オブジェクトの部分的な表現しか利用可能でない場合は特に、複数の特徴を含む３次元（３Ｄ）オブジェクトを候補オブジェクトの１つの集合の中から自動的に識別できることが望ましい。通常の状況においては、３Ｄオブジェクトの２次元（２Ｄ）ソース画像が１つまたは複数利用可能である。この２Ｄソース画像は、様々な視点から撮影された写真であることが多い。入力として２Ｄ画像を用いて３Ｄオブジェクトを識別する従来の方法は本質的に、照明条件とオブジェクトの配向の変化から悪影響を受け易い。例えば、複数の特徴を含むオブジェクトが顔である場合、既存の方法では一般に、ソース入力として顔の２Ｄ写真が用いられる。このような写真は照明条件と視点の変化により大きな影響を受けるが、従来の方法では、変化する照明や視点を考慮に入れるすべがなく、２Ｄ画像をそのまま解析することしかできない。ソースオブジェクトが正面を向いていない場合、ほとんどの方法の有効性が低下する。すなわち、オブジェクトが平面から外れるほど、識別の信頼性が低くなる。

したがって、２Ｄ画像からの複数の特徴を含む３Ｄオブジェクトの識別が成功するのは、識別に用いられるソース画像（１つまたは複数）を撮影するときに支配的になっているものと同じ視点と照明条件の下で事前にオブジェクトの基準画像を１つまたは複数撮影できるような管理された状態においてである。しかし、識別されるオブジェクトが対象として扱うことができなかったり、協力的でなかったりすることがあるため、また、ソース画像（１つまたは複数）を捕捉する際の配向と照明条件を予測できないことが多いため、このような状況は実際にはまれである。顔の認識を例にとれば、ソース画像は、側面または上から捕捉できる監視カメラで撮影されることが多い。基準画像は通常、ソース画像に関連付けて識別することが困難な場合がある、正面からの視点の画像になる。

種々変化する視点に対処するために、一部の識別方法では、複数の視角から撮影されたオブジェクトの画像が捕捉され記憶保存される。しかし、このプロセスには時間とコストがかかるため、可能な範囲の角度と照明に対応する画像を捕捉することは実際には不可能である。別の方法として、３Ｄ撮像装置またはスキャナーを用いてオブジェクトの３Ｄ画像を捕捉し、次に、相異なる視点と照明条件に対応する複数の２Ｄ基準画像を電子的に生成することもできる。しかし、この方法においても、計算に手間がかかり、３Ｄソースオブジェクトの一連の可能な回転と並進にソース画像（１つまたは複数）をマッチングさせることはできない。別の方法では、識別される３Ｄオブジェクトの種類の一般化モデルを用いて対象オブジェクトの３Ｄモデルを作成することができる。このモデルは、２Ｄソース画像に対応するモデルを作成するために選ばれたパラメータによりパラメータ化することができる。次に、この３Ｄモデルを用いて、様々な視点と照明条件に対応する２Ｄ基準画像を複数生成することができる。しかし、このような３Ｄモデルの自由度はわずかであり、この３Ｄモデルが対象オブジェクトの３Ｄジオメトリに密に対応することはほとんどない。そのため、この方法の精確度は本質的に限定される。

オブジェクト識別システムには、認識されるオブジェクトを広い雑然とした領域内から効率的に探索しなければならないという別の課題もある。従来の方法は階層的ではなく、ソース画像と基準画像とのマッチングを試みる、コンピュータを強力に駆使したマッチング方法を採用している。このような方法は、迅速なオブジェクトの検出と識別には不向きである。

したがって、様々な照明条件とソース視点の下でも信頼性を確保できる手法で、２Ｄソース画像から３Ｄオブジェクトを効率的に探索し識別する自動的方法が必要とされている。

本発明は、複数の特徴を含むオブジェクトを表す部分的なソース情報しか利用可能でない場合にそのオブジェクトを識別するための自動的方法およびシステムを提供する。

通常、ソース情報は３Ｄオブジェクトの１つまたは複数の２Ｄ投影という形で与えられるが、３Ｄカメラまたはスキャナーなどから得られる３Ｄデータを含んでもよい。本発明では、複数の特徴を含むオブジェクトの一連の３Ｄ候補表現を使用するが、識別が成功するには、その３Ｄ候補表現の中の少なくとも１つをソースオブジェクトに関連付けて識別する必要がある。２Ｄソース画像におけるソースオブジェクトの位置を検出し探索するために、本発明は、３Ｄオブジェクトに特徴的であり変化する視点と照明の下で実質的に不変である特徴の点、曲線、サーフェス、またはサブボリュームを検索する。次に、各３Ｄ候補表現のすべての可能な位置（すなわち、配向と並進）を検索して、最適な剛体運動（回転と並進）によりソース特徴項目に最も密にマッチングする投影がもたらされるような候補表現を識別する。マッチング度は、３Ｄ表現の投影における特徴項目と２Ｄソース画像における対応する特徴項目との間の最小平均２乗誤差（ＭＭＳＥ）などの尺度により決められる。２Ｄソース画像における特徴項目の推定逆投影位置と、３Ｄ候補表現における対応する特徴項目との比較が３Ｄにおいて行われる。２Ｄソース画像の部分と、投影された最良マッチングする３Ｄ表現における部分を比較することにより、最も密にマッチングする３Ｄ候補表現の剛体運動がさらに調整される。次に、ソース画像と、調整された位置における選択された３Ｄ表現との適合の質が決められる。適合の質が所定のしきい値を上回ると、識別は成功する。

識別プロセスは階層的であることが好ましい。第１に、少数の特徴項目を迅速に探索する粗検出手法を用いて、識別されるオブジェクトの存在がソース画像において検出される。第２に、これらの特徴項目との対応関係に関して候補表現が、一連の可能な視点にわたって検索される。第３に、ソース画像と３Ｄ表現の投影との最良マッチングを決めることにより、最良マッチングする候補表現の最適な位置が精細化される。

本出願は、２００３年３月６日出願の米国仮出願第６０／４５２，４２９号、第６０／４５２，４３０号、および第６０／４５２，４３１号の優先権を主張し、その利益を享受するものであり、それらの開示の内容は、参照により援用したものとする。

したがって第１の実施の形態においては、本発明は、複数の特徴を含むソースオブジェクトの２Ｄソース投影の少なくとも１つに対応する複数の特徴を含むオブジェクトを識別する方法を備えている。この方法によれば、一連の３Ｄ候補表現が与えられる。２Ｄソース投影がソース画像内で検出され、３Ｄ候補表現の不変視点検索が実行されて、２Ｄソース投影（１つまたは複数）に最も似ている２Ｄ投影を有する３Ｄ候補表現が探索される。次に、この３Ｄ候補表現が２Ｄソース投影（１つまたは複数）と比較されて、候補がソースに対応するかどうかが決定される。一部の実施態様においては、２Ｄソース画像において視点と照明が不変である特徴項目を探索することにより、２Ｄソース投影の検出が実行される。この検出は、リアルタイムで実行してもよい。実際に投影を生成することなく、３Ｄ表現の、可能な２Ｄ投影の範囲にわたって各３Ｄ候補表現を検索してもよい。可能な２Ｄ投影の範囲にわたる検索は、少なくとも１つの２Ｄ投影における、複数の特徴を含むソースオブジェクトの視点に最適に一致適合する３Ｄ候補表現の剛体運動を計算するステップを含んでもよい。

一部の実施態様においては、３Ｄ候補表現に関連する３Ｄ座標空間における点、曲線、面、およびサブボリュームを含む特徴項目が２Ｄソース投影（１つまたは複数）における特徴項目と投影的に一致適合するようにこれらの特徴項目の条件付き平均姿勢または幾何的位置合わせを推定することにより、最適な剛体運動が決められる。投影された特徴項目の条件付き平均推定と３Ｄ候補表現における対応する特徴項目との間のＭＭＳＥ推定が生成される。例えば、最小ＭＭＳＥ推定をもたらす３Ｄ候補表現の投影の部分を２Ｄソース表現における対応する部分と比較することにより適合の質が決められ、最適な剛体運動が最良の適合の質に対応するものと定義される。最適な剛体運動に対応する適合の質が所定のしきい値を上回ると、その３Ｄ候補表現がソースオブジェクトに関連付けて肯定的に識別される。

第２の実施の形態においては、本発明は、複数の特徴を含むソースオブジェクトの２Ｄソース投影の少なくとも１つに対応する複数の特徴を含むオブジェクトを識別するシステムを備えている。このシステムは、複数の特徴を含むオブジェクトの複数の３Ｄ候補表現を含むデータベースと、画像において２Ｄソース投影を検出する検出モジュールと、アナライザを備えている。このアナライザは、３Ｄ候補表現の不変視点検索を実行して、２Ｄソース投影（１つまたは複数）に最も似ている２Ｄ投影を有する３Ｄ候補表現を探索し、２Ｄソース投影（１つまたは複数）と探索された３Ｄ候補表現を比較して、その候補がそのソースに対応するかどうかを決定する。一部の実施態様においては、この検出モジュールが、２Ｄソース画像において視点と照明が不変である特徴項目を探索することにより、２Ｄソース投影を検出する。この検出は、リアルタイムで実行してもよい。このアナライザは、実際に投影を生成することなく、３Ｄ表現の、可能な２Ｄ投影の範囲にわたって各３Ｄ候補表現を検索してもよい。可能な２Ｄ投影の範囲にわたる検索は、少なくとも１つの２Ｄ投影における、複数の特徴を含むソースオブジェクトの視点に最適に一致適合する３Ｄ候補表現の剛体運動を計算するステップを含んでもよい。

一部の実施態様においては、このアナライザは、３Ｄ候補表現に関連する３Ｄ座標空間における点、曲線、面、およびサブボリュームを含む特徴項目が２Ｄソース投影（１つまたは複数）における特徴項目と投影的に一致適合するようにこれらの特徴項目の条件付き平均姿勢または幾何的位置合わせを推定することにより、最適な剛体運動を決める。このアナライザは、投影された特徴項目の条件付き平均推定と３Ｄ候補表現における対応する特徴項目との間のＭＭＳＥ推定を生成する。このアナライザはさらに、例えば、最小ＭＭＳＥ推定をもたらす３Ｄ候補表現の投影の部分を２Ｄソース表現における対応する部分と比較することにより適合の質を生成し、最適な剛体運動を最良の適合の質に関連付けて規定する。最適な剛体運動に対応する適合の質が所定のしきい値を上回ると、アナライザがソースオブジェクトに関連付けてその３Ｄ候補表現を肯定的に識別する。

第３の実施の形態においては、上述の方法とシステムは、複数の特徴を含む３Ｄオブジェクトが顔であり３Ｄ候補表現がアバターである場合に使用される。

本発明は、顔、動物、植物、建物など、複数の特徴を含むあらゆるオブジェクトを、類似と総称されるオブジェクトの３Ｄ候補表現の１つまたは複数に関連付けて識別するのに使用することができる。説明を簡単にするために、以下の説明においては、通常の（ただしこれに限定されない）応用として顔に焦点を当てる。

本発明の一実施態様においては、顔の３Ｄ表現はアバターモデルである。アバタージオメトリは、アバターの面に近似する三角ポリゴン集合の頂点である、３Ｄにおける点のメッシュにより表してもよい。ある一表現においては、各頂点に明度が与えられており、各三角面を、その頂点に割り当てられた色値の平均に従って色付けしてもよい。この色値は、写真を基に作成できる２Ｄテクスチャマップから決定される。このアバターは、アバターに対して固定されている座標系が関連付けられ、３つの角自由度（ピッチ、ロール、ヨー）と、３空間における剛体中心の３つの並進自由度により指標付けされる。さらに、顎、歯、目などアバターの個々の特徴が、アバター記述の一部を形成する独自の局所座標（例えば顎軸）を有してもよい。本発明は、異なるデータ表現が用いられるアバターにも同様に適用してもよい。例えば、テクスチャ値をＲＧＢ値として表してもよいし、あるいはＨＳＬなど他の色表現を用いて表してもよい。アバター頂点を表すデータとアバター頂点間の関係は、種々様々であってもよい。例えば、メッシュ点をつないで、アバターの面を表す非三角ポリゴンを形成してもよい。

本明細書で用いるアバター（１つまたは複数）は、本明細書と同時に出願されその内容を参照により援用した「不変視点からの画像照合および２次元画像からの３次元モデルの生成」と題する米国第＿号に記載された方法またはシステムを用いて生成してもよい。

本発明は、３Ｄアバターから２Ｄ画像を生成する従来型のレンダリングエンジンを含んでもよい。このレンダリングエンジンをＯｐｅｎＧＬまたはその他の任意の３Ｄレンダリングシステムに実装してもよい。これにより、３Ｄアバターのカメラ視点を表す２Ｄ画像平面に３Ｄアバターを迅速に投影することができる。また、レンダリングエンジンにアバター照明の指定を含めてもよい。これにより、様々なアバター照明に対応する２Ｄ投影を生成することができる。当技術分野で周知のように、色、強度、および位置が様々に異なる様々な数の光源に対応する照明を生成してもよい。

図１は、識別される複数の特徴を含む３Ｄオブジェクトが顔であり、３Ｄ候補表現の集合がアバターである場合の、本発明の基本動作を示している。この識別プロセスは、様々な照明条件と様々な姿勢の下で様々な顔にわたって実質的に不変である顔特徴の１つの集合を決定することから始まる。このような特徴は、明るさのオーダの関係、画像勾配、およびエッジを含んでもよい。例えば、鼻孔の内側と外側との関係は、顔、姿勢、および照明が変化しても実質的に不変である。あるいは、眉から周囲の皮膚にかけての輝度の変化を含む。

次に、ソース画像が自動的にスキャンされて、不変の特徴点の存在が検出される。検出される点の数は比較的少なく、通常は３〜１００の範囲に収まるため、この検出は非常に迅速であり、例えば動画像の追跡時にリアルタイムで実行することができる。識別におけるこのステップは「ジャンプ検出」と呼ばれ、画像における顔の位置と配向を迅速に検出できる。この手法は、ソース画像に対象顔の一部しか含まれない場合や、サングラスや顔の毛などにより対象顔が部分的に不明瞭である場合でも効果的に使用することができる。本発明のこの特徴により、ソース対象画像の質が低くその範囲が限られていて、フォトメトリック的および幾何的変動があっても質と範囲が不変である場合に、信頼性のある識別が可能になる。

当業者が理解しているように、この方法では、実際のアバターから生成される訓練データから階層検出プローブが生成される、ベイズ識別器と決定木を用いてもよい。検出プローブは、大規模プローブにより好ましい検出が可能な場合に、特徴の配向など所定のパラメータだけがより細密に計算されるように、複数のピクセルスケールで保存することが望ましい。特徴検出プローブは、検出プローブが特徴に合わせて特異的に調整されるように区分され分離された特徴を有する、多数の個人を表す画像データベースから生成してもよい。ジャンプ検出では、パターン識別、ベイズネット、ニューラルネットワーク、または顔の画像における特徴の位置を決めるその他の既知の手法を使用してもよい。検出プローブが最も効率的になるように、個別アバターの実際の例から生成される訓練データから階層検出プローブが生成される、ベイズ識別器と決定木に基づく手法が好ましい。ただし、検出プローブをアバター自体から生成する必要はない。その代わりに、測定済みであるか、あるいはデータベースに既に組み込まれている２Ｄ顔画像群から検出プローブを生成することができる。

個人の顔用の検出器は、その個人を表すアバターの様々なスケール、位置、回転、および照明においてレンダリングされた画像から作成することが望ましい。検出プロセスの効率を高めるために、正面図や側面図など姿勢の種類に応じてプローブが分類される。この分類方法を用いて、可能な姿勢の集合が粗い分類から精細な分類に及ぶグループに分割される。最も粗いグループには、基準範囲における全姿勢が含まれる。検出が粗いグループ内で実行される際、その検出に対応するより精細な範囲内のプローブが利用される。所定の姿勢を含むグループについてすべての検出器の応答が肯定的である場合に限り、所定の姿勢において顔が検出される。このように粗いレベルから精細なレベルにわたっての戦略においては、顔を含んでいないソース画面におけるシーンのほとんどの部分を、ほんのわずかな計算だけを利用する粗いプローブを用いて拒否できるように、アバターデータベースから生成される検出器が構成される。これにより、コンピュータを駆使した処理を、検出が行われる領域に一層集中させることができる。

三角形メッシュを直接構成する方法（構造光、カメラアレイ、奥行き測定）などから得られる画像の純粋な３Ｄソースの場合、０、１、２、３次元の点、曲線、部分表面、およびサブボリュームの特徴は、曲率が高い点、曲率の極値に関連する主曲線と回転曲線、および面法線と形状作用素により測定される所定の面特性に関連する部分表面を含む３Ｄジオメトリに対する階層検出を用いて検出される。このようなフォトメトリック的に不変の特徴は、動的計画法などの方法を用いて生成してもよい。

２Ｄソース画像において顔の位置が検出されたら、ソース画像が３Ｄ候補アバター集合と比較される。この集合には通常、３Ｄアバターが作成されている識別用の候補と同じ数の要素が含まれるが、一部の候補を削除できる場合は候補集合の要素を手作業またはその他の方法で減らしてもよい。２Ｄソース画像において検出された特徴に対応する、照明と姿勢が不変の特徴が、各３Ｄ候補表現において識別される。次に、不変視点検索が行われる。この検索においては、各３Ｄ候補アバターが、可能なあらゆる剛体運動を概念的に施され、その特徴が２Ｄへ投影され、その特徴が対象写真における対応する特徴と比較され、２Ｄソース画像に最も対応する各候補アバターの３空間における位置が決められる。所定の剛体運動により、投影された特徴とソース画像における特徴が最も密にマッチングした場合のアバターが、最良候補アバターとして選択される。図１は、右上に示した３つのアバターのうち中央のアバターが、この最良候補であることを示している。

不変視点検索は、２Ｄ特徴項目の３Ｄにおける逆投影位置の条件付き平均推定の計算に基づくものである。次に、特徴項目の３Ｄ位置の条件下では、３Ｄにおける回転パラメータと並進パラメータのＭＭＳＥ推定が計算される。３Ｄ空間における位置はベクトルパラメータであるため、並進位置のＭＭＳＥ推定は閉じた形式である。すなわち、この推定は、２乗誤差関数に代入された場合、回転だけに関して陽関数をもたらす。回転はベクトルパラメータではないため、群の接空間、または歪対称行列の角速度を用いた局所表現を介した非線形勾配降下法を用いて計算してもよい。

候補アバターの不変姿勢検索では、以下に示す３つの方法など様々な手法により速度と効率の面で最適化できる勾配アルゴリズムが利用される。第１の方法では、各候補アバターと比較される投影された画像を、８×８、１６×１６などのグループに集合化し、肯定的な識別が存在するかどうかを決定するためにマッチングが実行される際の後段においてのみ、より精細な解像度に分割してもよい。第２の方法では、検索の初期段階において比較される点の数を減らすために、アバター自体を粗くしてもよい。第３の方法では、アバターの投影と画像特徴の逆投影を迅速に生成するために、特殊目的のグラフィックスハードウェアを導入してもよい。本明細書に記述した最小２乗法または加重最小２乗法に加え、あるいはこれらの代わりに、ソース画像からの特徴項目の逆投影と３Ｄアバターにおける対応する項目との適合の質を測定するために用いられる距離メトリックは、例えば、三角不等式を満たしても満たさなくてもよいポワソンまたはその他の距離メトリックであってもよい。このようなメトリックは、回転、スケール、および並進に対して変化しない相似メトリックや、小さな変形または大きな変形用のユークリッド距離とスプライン距離を含んでもよい。

３Ｄカメラやスキャナーから得られる実際の３Ｄソースデータなどから、３Ｄにおいて測定される特徴項目が利用可能な場合、逆投影された２Ｄ特徴の条件付き平均推定を計算する中間ステップなしで、メトリック対応づけを生成する特徴項目のマッチングを直接実行してもよい。閉じた形式の２次最適化、反復ニュートン降下法、勾配法などのアルゴリズムを利用すれば、３Ｄアバターの位置決めに用いられるコスト関数を最小化することができる。

不変姿勢検索により、最良マッチングする候補アバターと、特徴のマッチングが最適である姿勢とが決められたら、図１の右下に示したように、拡散マッチングと呼ばれる手法を用いてこのアバターの３Ｄ位置を精細化してもよい。この手法では、最適な姿勢（不変姿勢検索により決められた）における最良マッチングする候補アバターの投影画像が、ソース画像と直接比較される。アバターの回転パラメータと並進パラメータに関して、投影されたアバターとソース画像との適合の質を表すのに、マッチングエネルギーという表現を用いる。マッチングエネルギーが１次テイラー級数に展開され、回転を表す角速度歪対称行列と並進を表す線速度について２次形式が確立される。閉じた形式において解くことにより、角速度に関して並進の陽公式が得られ、再代入することにより、歪対称角速度のみ有する２次形式が得られる。これらのための閉じた式を計算することができる。そこから、並進速度を閉じた形式で計算することができる。これらの公式を反復適用することにより、３空間においてアバター頭部が拡散される。ソース画像を８×８、１６×１６、３２×３２などのピクセル数の格子に粗くすることにより、拡散マッチングにかかわる計算を加速してもよい。さらに、アバターモデルを粗くして、小面の数を減らしてもよい。これにより、投影されたアバターの必要なサンプリングが低減される。３Ｄカメラまたは３Ｄスキャナーなどから３Ｄソース画像を得ることができる場合、投影なしで拡散マッチングが３Ｄにおいて直接実行される。最適な姿勢は、最小のマッチングエネルギーに対応するための位置と回転に相当する。この姿勢に対応するマッチング距離は適合の質尺度またはメトリック距離であり、図１の左下に示したように、ソース画像と候補アバターとの肯定的な識別が行われるかどうかを決定するのに用いられる。最適な姿勢における最良の候補アバターの投影とソース画像とのマッチング距離が、所望の信頼水準に対応する所定のしきい値を上回ると、最良の候補アバターに関連付けてのソースオブジェクトが肯定的に識別される。

ソース画像が捕捉されたときに支配的な照明の可能な範囲を考慮するために、主成分を用いて、あるいは照明の通常の状態を生成するための別の方法を用いて各アバターの照明を表すことを目的として、照明球（sphere）全体を表すフォトメトリック的基底関数の１つの集合が計算される。拡散マッチングプロセスにおいて、最良の候補アバターの最良の姿勢と小さな変形を見いだすためにジオメトリが調整されている間、マッチングを最適化する照明を選択することができる。あらゆる位置と姿勢においてアバターを位置決めし、照明を変更することにより生成される候補アバターについて、変動のフォトメトリック的基底が計算される。主成分分析を用いて、あるいはフォトメトリック的照明の通常の状態を生成するためのその他の任意の手法を用いて、この照明候補集合から基底関数を生成することができる。拡散マッチングプロセス中に、マッチングコストを最適化するフォトメトリック的照明の基底関数を選択することができる。マッチングエネルギーを最小化するように、照明の可変性を表すフォトメトリック的基底関数を変更することにより、フォトメトリック的変動に対応することができる。投影画像において、これらのフォトメトリック的基底関数は非直交基底を提供する。したがって、ジオメトリのマッチングにおける各テンプレート拡散ステップについて、フォトメトリック的基底関数に対する閉じた形式の最小２乗解が存在する。拡散マッチングアルゴリズムは姿勢（回転と並進）を連続的に精細化して、マッチングエネルギーを下げる。ＩＤアルゴリズムは、最小マッチングエネルギーを有するアバターを選択する。

本発明の各種構成要素は、互いに独立して使用することができる。例えば、ジャンプ検出手法と不変姿勢検索を、拡散マッチングプロセスの前段階として使用しなくてもよい。あるいは、特に、適度な数の特徴が２Ｄソース画像において識別される場合、不変姿勢検索を実行することなく候補アバターへの適合の質を推定するために、ジャンプ検出から得られる姿勢推定を直接使用してもよい。識別を実行するために拡散マッチングを使用する必要はない。

ここで、候補アバターの変形を伴わない不変姿勢検索について検討する。以下では、３Ｄ候補アバターをＣＡＤ（コンピュータ支援設計）モデルまたはＣＡＤと呼ぶ。ｘ_ｊ＝（ｘ_ｊ，ｙ_ｊ，ｚ_ｊ），ｊ＝１，．．．，Ｎで表される特徴集合がＣＡＤモデル上で定義される。投影幾何マッピングは、正または負のｚと定義される。これは、投影がｚ軸に沿って行われることを意味する。すべての投影幾何において、

、または

が、点ｘ_ｊの投影位置である。ここで、αは投影角である。剛体変換が、ｘ_ｃ＝０を中心とする

という形式であると仮定する。全体を通じて、次のデータ構造が定義される。
（式１）

３×３回転要素Ｏの接線における基底ベクトルＺ_１、Ｚ_２、Ｚ_３、は、次のように定義される。
（式２）

（式３）

（式４）

（式５）

ここで、（・）^tは行列転置を示している。

不変視点検索により、以下のように特徴を用いて候補アバターにとって最適な回転と並進が決められる。投影点ｐ_ｊ，ｊ＝１，２，．．．と、

という形態の剛体変換（中心ｘ_ｃ＝０を中心とする）が与えられれば、正の（すなわち、ｚ＞０）場合の投影点が

により与えられる。

による正の（すなわち、ｚ＞０）マッピングの場合、単位行列

を用いて３×９行列

が計算され、次の式が得られる。
（式６）

コスト関数が余すところなく評価されて最小値が選択され、
（式７）

この最小値においてのみ並進が決められる。ここで、

である。この最小値は、総当り検索により、あるいは収束するまで検索アルゴリズムを実行することにより得られる。
（式８）

（式９）

ここで、

である。

通常の状況においては、３空間におけるオブジェクトに位置に関する事前情報が存在する。例えば、追跡システムにおいて、先行する追跡から位置を知ることができる。本発明は、このような情報を以下のように組み込むことができる。点列Ｐ_ｉ，ｉ＝１，．．．，Ｎと、

という形態の剛体変換（ｘ_ｃ＝０を中心とする）が与えられれば、回転と並進

のＭＭＳＥは次の式を満たす。
（式１０）

３×９行列Ｍと３×１列ベクトルが次のように計算される。
（式１１）

次に、収束するまで総当り検索または勾配検索アルゴリズムを実行することにより、最小値Ｏにおける並進

が得られる。

総当り検索：（式１２）

勾配検索：（式１３）

ここで、α^ｎｅｗがコスト関数の方向微分係数である指数表現におけるＯ^ｏｌｄの接線において、式９および式１３の基底ベクトルＺ_１、Ｚ_２、Ｚ_３への投影が定義される。

上述のように、３Ｄカメラやスキャナーから得られる実際の３Ｄソースデータなどから、３Ｄにおいて測定される特徴項目が利用可能な場合、逆投影された２Ｄ特徴の条件付き平均推定を計算する中間ステップなしで、特徴項目のマッチングを直接実行してもよい。閉じた形式の２次最適化、反復ニュートン降下法、勾配法などのアルゴリズムを利用すれば、３Ｄアバターの位置決めに用いられるコスト関数を最小化することができる。

ここで、この手法が、任意の視角を有するソース画像に一般化される。画像平面が

により指標付けされた一連のピクセルであるとする。ここで、投影マッピング点は

である。ここで、

であり、ｎは視角の余接であり、ｗとｈはアスペクト比を決める幅と高さである。色（Ｒ，Ｇ，Ｂ）テンプレートで投影画像平面においてピクセルが不連続に設定されている場合、観測される投影ＩＩ（ｐ）は（Ｒ，Ｇ，Ｂ）ベクトルである。投影行列は、投影行列

に従って点

に対して作用する

になる。ここで、点ｘ（ｐ）は、画像平面において点ｐに投影される３ＤＣＡＤモデル上の点である。次に、テンプレート値の投影座標ｐにおける（Ｒ，Ｇ，Ｂ）成分上の差分から得られる、投影されたテンプレート行列が導出され、ノルムが成分毎に解釈される。
（式１４）

（式１５）

（式１６）

当業者が理解しているように、前方差分、後方差分、または平衡差分を用いて、画像平面における微分係数を表すことができる。大文字での表記は、回転の再配置された行列Ｏ＝（ｏ_１１，ｏ_１２，ｏ_１３，．．．，ｏ_３１，ｏ_３２，ｏ_３３）を示すために用いられ、そして、

となる。全体にわたって、以下の行列が必要とされる。
（式１７）

（式１８）

単一のソース画像を用いたアバターの並進と回転の推定プロセスは、以下のとおりである。ユークリッド変換の下で生じる投影平均フィールドを用いて、所定の画像

がモデル化される。
（式１９）

問題は、以下のように回転と並進ｏ，ｂを推定することである。
（式２０）

まず、上記の行列と調整された点

が計算される。次に、最適化する回転／並進

が以下のように解かれる。
（式２１）

（式２２）

対象が画像の１系列において追跡されるような状況や、単一の画像しか利用できないような場合には、対象の中心位置に関する情報を利用できることが多い。対象位置を中心位置０に配置することにより、この情報を組み込むことができる。ユークリッド変換の下で画像

が与えられれば、最小化問題を以下のように表すことができる。
（式２３）

平均位置がゼロではなくμである場合、ｂが

と再定義され、μを加算することにより位置ｂの推定が調整されて、真の最適な並進推定

が与えられる。

調整された点と行列が以下のように定義される。
（式２４）

最適化する回転／並進

が以下のように解かれる。
（式２５）

（式２６）

他の場合には、対象の顔の表情の変化を除いて類似している画像の１系列を利用してもよい。このような変化を追跡するために、あるいは単一フレームにおいて表情が変化した顔を探索するためにも、「笑う」、「眉を上げる」、またはその他の表情に関連する、顔における点の動きを記述する関数として、表情基底関数Ｅ_１，Ｅ_２，．．．を用いて動きをパラメータ的に定義してもよい。変化した表情により変換された画像

が与えられた場合、問題は、以下のように各表情の大きさを記述する係数ｅ_１，ｅ_２，．．．を推定することである。
（式２７）

上述のように確定された最適な剛体運動について、最適な表情を計算するか、あるいは最適な表情と剛体運動を同時に計算することができるため、上述の手法を用いて最適な

を計算することができる。

例えば、顎粒子の流れが、

に従って固定された顎軸を中心とした回転に追従するように、顎の動きの表情が大きな変形に対応してもよい。ここで、Ｏは、顎軸γを中心として顎点を回転させる。

極端な表情は、

を満たす

による大きな変形に対応する。マッピング

を構築するＣＡＤモデルの変形が生成される。
（式２８）

剛体運動を大きな変形と組み合わせるために、変換

が、剛体運動により既に変換されている座標に関して定義される。これは、各変換が構成されて、あるいは式２７のように各変換が同時に変形されて、一緒に最適化されることを意味している。

２Ｄソース情報（１つまたは複数の写真など）しか利用できない場合と、３Ｄカメラに対応する実際の３Ｄ測定値集合などから、３Ｄにおいてソースを直接測定できる場合の両方で、拡散マッチングを利用してもよい。後者の場合、現在のアバター構成を画像平面に投影するステップを経ることなく、拡散マッチングが３Ｄにおいて直接実行される。

不変姿勢検索を実行している間と、アバターの位置と形状を精細化する拡散マッチングプロセスを実行している間、利用可能な２Ｄおよび／または３Ｄソースデータにおいて支配的である照明条件に最適にマッチングするように、候補アバターに対する概念的照明が変更される。不変姿勢検索の場合、ソース特徴項目から定義されたカーネルに基づく内積を用いて候補照明が決められる。したがって、特徴項目は照明に無関係な特性を有しているが、特徴項目が検出されたら、ソース照明条件に関する情報を抽出するために特徴項目を利用することができる。

拡散マッチングプロセス中、フォトメトリック的基底変動成分を調節することにより照明の候補集合が決められる。あらゆる位置と姿勢においてアバターを位置決めし照明を変更することにより生成される候補アバターについて、変動のフォトメトリック的基底が計算される。主成分分析を用いて、あるいはフォトメトリック的照明の通常の状態を生成するためのその他の適切な任意の手法を用いて、この照明候補集合から基底関数を生成することができる。フォトメトリック的基底関数は非直交基底を提供するため、拡散マッチングの各ステップについてこれらの関数に対する閉じた形式の最小２乗解が存在する。拡散マッチングプロセスは候補アバターの回転と並進を精細化して、マッチングコストを下げる。マッチングコストを最小化するフォトメトリック的照明の基底関数が選択される。

一般に、可能なあらゆる変動を記述する基底を用いて、テクスチャリングされた照明フィールド

を表示することができる。この基底は、すべての可能な照明を変化させ、変動の手法を用いて主成分を計算することにより、ＣＡＤモデル上の主成分を使用して計算される。投影されたテクスチャフィールド（以下、ＩＩとする）は、テクスチャフィールド

を用いて画像全体に指標付けされた

としてモデル化される。変換ｏ、ｂ、ｅ、ｖが恒等変換として初期化され、以下の反復が実行される。第１に、次のｄ×ｄ行列が計算される。
（式２９）

第２に、投影された基底Ｐφを用いて、各（ｏ，ｂ，ｅ，ｖ）について最適値ｔ_１，ｔ_２，．．．が計算される。
（式３０）

第３に、上述の手法を用いて、ｏ、ｂ、ｅ、ｖが変更されて最小のコスト上のマッチングが生成される。これら３つのステップが、収束するまで反復される。

通常の事例は、個人の顔の測定済み写真Ｉが１つだけソース画像に含まれる場合に生じる。アバターモデルの集合

が与えられる。解析される個人の画像を最も代表するアバターモデルを選択し、頭部の未知の回転と並進の両方を組み込む必要がある。候補アバターα＝１，．．．，Ａのそれぞれが、投影されたテクスチャフィールドＩＩ^αを有している。通常の実装においては、投影のために各テクスチャフィールドＩＩ^αが最初にレンダリングバッファにロードされる。候補アバターを写真に最適にマッチングさせる回転、並進、および照明の各パラメータが、上述の適切な不変姿勢検索を用いて計算され、各アバターについて、最良マッチングまたはコスト関数の最小値が以下のように解かれる。
（式３１）

最小コスト

を持つアバター

が、最も密にマッチングするアバターとして選択される。ランドマークが、使用可能なｐ_１，ｐ_２，．．．である場合、余分な項

を含むようにコストが調整される。

複数の写真Ｉ^（ｖ），ｖ＝１，．．．，Ｖを利用できる場合、各アバターについて一連のコスト

が得られ、最小値が選択される。

本発明は、対象顔における様々な表情によるソース画像の変化を考慮することができる。アバターモデルの集合

と、対象顔の測定済み写真Ｉが１つ与えられている場合、解析される個人の写真を最も代表するアバターモデルのＩＤを選択し、回転と並進の両方、および顔の表情からもたらされる可能なジオメトリの変化を組み込む必要がある。投影のために各候補アバターα＝１，．．．，Ａが最初にレンダリングバッファにロードされる。候補アバターを写真に最適にマッチングさせる回転、並進、表情、および照明が、上述の適切な手法を用いて計算され、各アバターについて最小コストが以下のように解かれる。
（式３２）

最小コスト

を持つアバター

が、最も密にマッチングするアバターとして選択される。複数の写真Ｉ^（ｖ），ｖ＝１，．．．，Ｖを利用できる場合、各アバターについて一連のコスト

が得られ、最小値が選択される。

例えば、顎粒子の流れが、

に従って固定された顎軸を中心とした回転に追従するように、顎の動きの表情が大きな変形に対応してもよい。ここで、Ｏは、顎軸γを中心として顎点を回転させる。大きな変形に対応する極端な表情の場合、

が

を満たす。ＣＡＤモデルの変形とマッピング

の構築により、コスト関数が与えられる。
（式３３）

式３２に示したコスト関数計算に、回転と並進を含めることもできる。

本発明は、ソースジオメトリの小さい変化を考慮することもできる。これには、必ずしも顔の表情によるとは限らない変化も含まれる。これには、加齢、美容整形、または体重変化による変化などが含まれる。アバターモデルの集合

と、対象顔の測定済み写真Ｉが１つ与えられている場合、本発明は、解析される個人の写真を最もよく代表するアバターモデルのＩＤを選択し、回転、並進、および表情と、可能なジオメトリの小さい変化を組み込む必要がある。ジオメトリの小さい変化は、

を満たす

および大きな変形

を用いて表される。投影のために各候補アバターα＝１，．．．，Ａが最初にレンダリングバッファにロードされる。候補アバターを写真に最適にマッチングさせる回転、並進、表情、および照明が、適切な従来の発明を用いて計算され、各アバターについて最小コストが以下のように解かれる。
（式３４）

最小コスト

を持つアバター

が、最も密にマッチングするアバターとして選択される。複数の写真Ｉ（ｖ），ｖ＝１，．．．，ＶからのＩＤの場合、各アバターについて一連のコスト

が得られ、最小値が選択される。

大きな変形の場合、式３４のコスト関数が、大きな変形

に対応できるように調整される。

ソースオブジェクトの３Ｄ測定値を利用できる場合、上記の手法すべてを用いて、上述したように、密度の高いボリューム、または３Ｄスキャン（例えば、いわゆる「サイバースキャン」）などから得られる頭部の三角形メッシュであり得る画像

全体にわたる指標付けプロセスを進めてもよい。この場合、テンプレートＩＩは２Ｄ投影幾何へのオブジェクトの投影を表すのではなく、回転／並進、表情、変形、および照明の各パラメータｏ、ｂ、ｅ、ｖ、ｔの３Ｄ表現である。上記の手法は、以下のように、３Ｄ格子指標全体にわたって直接計算することにより調整される。
（式３５）

３Ｄ測定値における大きな変形に対応できるように、小さい加法的変換を用いるのではなく、変換

がこの式に含められる。

直接的なｚ情報が存在しない状況があるため、ｚの動きは画像平面におけるスケールの変化に相当する。このスケールは、ｚの変化に対して非直線的に変化する線形パラメータである。一連の回転／並進（５つのパラメータ）とスケールは、スケールと回転にかかわる式すべてにおいて、上述の手法に直接類似した方法で決められる。

以下では、ソースビデオ画像が利用可能な場合の本発明の手法について説明する。ガウス確率場としてモデル化された一連の画像

が与えられており、Ｉ_ｎ＋１（Ｐ）がユークリッド変換の下で生じる平均場（Field）ＩＩ_ｎ（ｐ）（ｏ（ｎ）・＋ｂ（ｎ））を有している場合、一連の回転と並進ｏ（ｔ）とｂ（ｔ）または同様に「速度」ｖ（・，ｎ）＝（ｏ−ｉｄ）・＋ｂ，ｎ＝１，２，．．．が推定される。
（式３６）

各ｎについて、事前の対象位置情報とスケール情報を含む上述の手法を用いて、上記の式３５のように回転、並進、スケール、および表情を最適化に含めることにより、

（すなわち、最適な回転、並進、スケール、および表情）を生成してもよい。同様に、投影ランドマーク点Ｐ_ｉｎ，Ｐ_ｉｎ，…，ｎ＞０，ｉ＝１，２…、を利用できる場合、上述のように、コストがマッチング用のランドマークコストに転換される。

本発明明細書に提示した、候補アバターを用いてソースを識別する手法は、現行の２Ｄ顔認識方法と並行して使用することができる。これにより、識別の信頼性を高め、誤識別を低減することができる。並行して使用する場合、任意の既存の方法を用いて検出されているアバターのサブセット

のチェックと、本発明明細書に提示したアバターを利用する手法を用いたアバターのフィルタリングとにＩＤが限定される。

ここで、本発明を組み込んだハードウェアシステム２００を示す図２を参照すると、図示したように、このシステムは、解析される静止入力画像を提供するビデオソース２０２（例えば、ビデオカメラまたはスキャニング装置）を含んでいる。ビデオソース２０２の出力は、デジタイザ２０４によりフレームとしてピクセル配列にデジタル化される。デジタル化された画像は、すべてのシステムコンポーネントの通信を媒介するシステムバス２０６を通って伝送される。デジタル化された画像は、大容量記憶装置（ハードディスクまたは光学式記憶装置）２０８に記憶保存してもよいし、メインシステムメモリ２１０（具体的には、同じサイズの一連の入力画像バッファ２１２を定義するパーティション内に）に記憶保存してもよい。

図示したシステムの動作は、中央演算処理装置（「ＣＰＵ」）２１４が制御する。以下に説明する画像処理操作の迅速な実行を容易化するため、このシステムにグラフィックス／画像処理ボード２１６を備えることが好ましい。これは、当業者にとって周知の標準コンポーネントである。

ユーザーは、キーボード２１８と位置検出装置（例えばマウス）２２０を用いてシステムと対話する。いずれかの装置からの出力を用いて、情報を指定し、あるいはディスプレイ２２０の所定の点または領域を選択して、システムにより実行される機能を指示することができる。

メインメモリ２１０は、ＣＰＵ２１２の動作と、ＣＰＵ２１２と他のハードウェアコンポーネントとの相互作用を制御する一群のモジュールを含んでいる。オペレーティングシステム２２２は、メモリアロケーション、ファイル管理、大容量記憶装置２０８の動作など、低レベルの基本的システム機能の実行を制御する。高レベルでは、記憶された命令の１系列として実装されたアナライザ２２６が、後述するように本発明により実行される主要機能の実行を制御する。また、ユーザーインターフェイス２２８を定義する命令により、ディスプレイ２２２上での簡単な対話が可能になる。ユーザーインターフェイス２２８は、ユーザーに操作を指示する語またはグラフィック画像をディスプレイ２２２上に生成し、キーボード２１８および／または位置検出装置２２０からのコマンドを受け取る。最後に、メモリ２１０は、上述のように３Ｄ候補アバターのデータベースを保存するためのパーティション２３０を含んでいる。

各画像バッファ２１２の内容は、「ラスター」、すなわち、画像を集合的に表す不連続ピクセル位置の規則的２Ｄパターンを定義する。この内容を用いて、ディスプレイ２２２を制御（例えば、画像処理ボード２１６または画像サーバーを用いて）し、その画像を表示してもよい。フレームバッファにおける各記憶場所の内容は、ディスプレイ２２２上での対応するピクセルの表示を直接制御する。

メインメモリ２１０の各モジュールを個別に説明してきたが、これは明確に表現するためだけにそうしたのである。システムが必要なすべての機能を実行する限り、これらのモジュールがシステムおよびシステムのプログラミングアーキテクチャ内でどのように分散されているかは重要ではない。同様に、ピクセルマップは概念的にグリッドとして編成されるが、ピクセルマップを実際にこの方法で保存する必要はない。むしろ、メモリ効率と伝送を考慮して、通常、ラスターパターンは順序付けられたピクセル配列として符号化される。

上述のように、本発明に関連する主要タスクの実行は、アナライザ２２６により制御される。ソース画像における対象の検出、３Ｄ候補表現集合全体にわたる不変姿勢検索、および３Ｄ候補表現を複数の特徴を含む対象オブジェクトに最適にマッチングさせるための３Ｄ候補表現のジオメトリおよびフォトメトリの拡散マッチングに必要なステップの実行において、このアナライザは、ＣＰＵ２１２の動作を制御し、ＣＰＵとメインメモリ２１０との相互作用を制御する。図３は、アナライザ２２６の好ましい実装のコンポーネントを示している。投影モジュール３０２は３Ｄモデルを選択し、その２Ｄ投影を、選択された任意の平面上に作成する。一般に、各候補アバターの回転と並進の空間全体にわたる多数の投影を作成するには、効率的な投影モジュール３０２が必要とされる。レンダリングモジュール３０４により、アバター照明の指定を含むオプションを用いて、３Ｄアバターを２Ｄに迅速に投影することができる。通常、個別のレンダリングバッファが、投影されたテクスチャフィールドＩＩ^αそれぞれに割り当てられる。この２Ｄ投影は、選択された３Ｄアバター照明に対応する。検出モジュール３０６は、２Ｄソース投影における、視点と照明が不変である所定の特徴項目を検索する。特徴は、目、鼻孔、唇を含んでもよく、複数の異なるピクセルスケールで動作するプローブを組み込んでもよい。拡散マッチングモジュール３０８は、３Ｄ候補アバターの幾何的およびフォトメトリック特性に対する、制御された検索を実行して、ソース画像に最適に適合する候補の視点、ジオメトリ、および照明を決める。拡散マッチングモジュールは、不変視点検索により決められた姿勢を開始点として用いてもよいし、ジャンプ検出モジュール３０６により決められた姿勢を用いてもよい。あるいは、拡散マッチングモジュールは、手動によりまたは他の方法を用いて決められた、他の姿勢情報を入力として用いてもよい。

検出モジュール３０６、不変姿勢検索の実行、および拡散マッチングモジュール３０８は、並行して動作してもよいし、階層的に動作してもよい。例えば、ビデオソースなどから複数のソース画像が提供される場合、各画像に対してジャンプ検索を連続的に実行してもよい。ジャンプ検出モジュール３０６が潜在的対象を検出した場合、不変姿勢検索をその対象に対して実行してもよい。不変姿勢検索により潜在的候補アバターが検索された場合、拡散マッチングモジュール３０８を用いて拡散マッチングプロセスが進められる。

図４は、メインメモリで実行される本発明の機能を示している。ステップ４０２において、ジャンプ検出モジュール３０６を用いてシステムがソースイメージを調べ、上述のようにマッチングに利用できる眼球、鼻孔、唇など顔の、姿勢と照明が不変の特徴を自動的に検出する。ステップ４０４において、上述の手法を用いて不変姿勢検索が実行される。ステップ４０６において、本明細書に記述したように、利用可能な２Ｄ投影に関してソースオブジェクトの位置に関する入手可能なあらゆる事前情報が計算に追加される。ソースの３Ｄ測定値を利用できる場合、ステップ４０８に示したように、また上述したように、このデータを用いて剛体運動検索が制約される。すべての３Ｄ候補アバターにわたる不変視点検索４０４が完了したら、上述したように、ステップ４１０において最良マッチングするアバターが選択される。その後、ステップ４１０において探索された最良マッチングするアバターの姿勢、ジオメトリ、および照明が、拡散マッチングステップ４１２において、制御された変動を受ける。最良マッチングする候補アバターにおけるこれらの変更の投影が、ソース画像４１４と直接比較される。ソースオブジェクトの３Ｄ測定値４０８を利用できる場合、それを用いて拡散マッチング４１２が制約される。拡散マッチングステップ４１２は、ソース画像に最良マッチングする、最良マッチングする３Ｄアバターの姿勢、ジオメトリ、および照明をもたらす。アナライザは、拡散マッチングプロセスにより選択されたアバター構成の投影をソース画像と比較して、適合の質を生成する。ステップ４１６において、この適合の質を用いて、ソースに関連付けてその候補が肯定的に識別されるかどうかが決定される。

上述のように、ハードウェア実装の一部の態様を、対象オブジェクトが顔であり基準オブジェクトがアバターである場合について説明してきたが、本発明は顔のマッチングに限定されるものではなく、マッチングされる対象オブジェクトの一般的種類に対応する３Ｄ基準表現のデータベースを用いて、複数の特徴を含むオブジェクトのマッチングに用いてもよい。

したがって、上述のことは、複数の特徴を含むオブジェクトを記述する部分的な情報しか利用可能でない場合にそのオブジェクトの３Ｄモデルの生成するための、非常に広範かつ有利な方法を表していることが理解されるであろう。本明細書で採用した用語と表現は、説明のために用いたものであり、これらに限定されるものではない。かかる用語と表現の使用においては、図示および説明した特徴またはその一部に相当するものを排除する意図は一切ないのであって、本発明の請求の範囲内で様々な変更が可能であることは明白である。例えば、適切なソフトウェア命令を用いて、あるいはハードウェア回路として、あるいはハードウェアとソフトウェアの組み合わせとして（ここで、例えば、ピクセル操作とレンダリングは専用ハードウェアコンポーネントにより実行される）、本発明の各種モジュールを汎用コンピュータに実装することができる。

各図面すべてにおいて、類似の参照文字は一般に同一部分を指している。図面は必ずしも実際の大きさを表しているわけではなく、一般に本発明の原理を説明することに重点が置かれている。以下の説明においては、本発明の様々な実施態様を以下の図面を参照しながら記述する。
識別される対象が表示されるシーンと候補アバターから始めて、ジャンプ検出、不変視点検索、およびアバターの姿勢とジオメトリの精細化を実行した後にマッチングの信頼性レベルをもたらす、本発明の各種構成要素を概略的に示している。本発明による代表的なハードウェア環境を示すブロック図である。図3に示したアナライザの構成要素を示すブロック図である。アナライザにより実行される主要機能を示すブロック図である。

Claims

複数の特徴を含むソースオブジェクトの少なくとも１つの２Ｄソース投影に対応する、複数の特徴を含むオブジェクトを識別する方法であって、
ａ．複数の特徴を含む候補オブジェクトの３Ｄ表現を複数提供するステップと、
ｂ．画像における前記２Ｄソース投影を検出するステップと、
ｃ．当該の３Ｄ候補表現の不変視点検索を実行して、前記少なくとも１つの２Ｄソース投影に最も似ている２Ｄ投影を有する前記３Ｄ候補表現を探索するステップと、
ｄ．前記少なくとも１つの２Ｄソース投影をステップｃ．において探索された前記３Ｄ候補表現と比較して、前記候補が当該のソースに対応するかどうかを決定するステップを含む方法。
前記２Ｄソース画像において視点および照明が不変である特徴項目を探索することにより、前記２Ｄソース投影の検出が実行される、請求項１に記載の方法。
前記検出がほぼリアルタイムで実行される、請求項２に記載の方法。
請求項１に記載の方法であって、
（ｉ）前記ソース画像が捕捉されたときに支配的であるソースオブジェクト照明条件にマッチングするための複数の概念的照明の範囲；および
（ｉｉ）複数変形の範囲；
のうちの少なくとも一方の範囲にわたって各前記３Ｄ候補表現を検索することを前記検索ステップはさらに含む、請求項１に記載の方法。
前記変形が小さな変形である、請求項４に記載の方法。
前記小さな変形が前記ソースオブジェクトの部分の動きに適合するようにした、請求項５に記載の方法。
前記変形が大きな変形である、請求項４に記載の方法。
前記大きな変形が前記ソースオブジェクトの永続的変化に関連している、請求項７に記載の方法。
請求項１に記載の方法であって、実際に投影を生成することなく、前記３Ｄ表現に係わる可能な２Ｄ投影の範囲にわたって各前記３Ｄ候補表現を検索することを前記検索ステップはさらに含む、方法。
請求項９に記載の方法であって、少なくとも１つの前記２Ｄ投影における、前記複数の特徴を含むソースオブジェクトの視点に最適に一致適合する前記３Ｄ候補表現の剛体運動を計算することが、当該の可能な２Ｄ投影の範囲にわたって検索することに含まれる方法。
請求項１０に記載の方法であって、
ａ．前記３Ｄ候補表現に関連する３Ｄ座標空間における点、曲線、面、およびサブボリュームを含んでおり、前記少なくとも１つの２Ｄソース投影における特徴項目と投影的に一致適合する特徴項目の条件付き平均を推定すること；
ｂ．前記３Ｄ候補表現の剛体運動について、前記投影された特徴項目の条件付き平均推定と前記３Ｄ候補表現における対応する特徴項目との間の最小平均２乗誤差推定を生成すること；および、
ｃ．前記３Ｄ候補表現の前記投影の部分を前記２Ｄソース表現における対応する部分と比較すること；
により適合の質を決め、かつ、前記最適な剛体運動を最良の適合の質に対応するものと定義することにより前記最適な剛体運動が決められる、方法。
請求項１に記載の方法であって、前記ステップｄ．における前記比較により、前記３Ｄ表現の前記投影と前記２Ｄソース画像とのマッチング度が所定のしきい値を上回ると、前記ソースオブジェクトに関連付けて前記３Ｄ候補表現が肯定的に識別される、方法。
ソース顔の２Ｄソース投影の少なくとも１つに対応する３Ｄアバターを識別する方法であって、
ａ．３Ｄ候補アバターの３Ｄ表現を複数提供するステップと、
ｂ．画像において顔の前記２Ｄソース投影を検出するステップと、
ｃ．前記３Ｄ候補アバターの不変視点検索を実行して、前記少なくとも１つの２Ｄソース投影に最も似ている２Ｄ投影を有する前記３Ｄ候補アバターを探索するステップと、
ｄ．前記少なくとも１つの２Ｄソース投影をステップｃ．において探索された前記３Ｄ候補アバターと比較して、前記候補が前記ソースに対応するかどうかを決定するステップを含む方法。
前記２Ｄソース画像において視点と照明が不変である特徴項目を探索することにより、顔の前記２Ｄ投影の検出を実行する、請求項１３に記載の方法。
前記検出がほぼリアルタイムで実行される、請求項１４に記載の方法。
請求項１３に記載の方法であって、
（ｉ）前記ソース顔が捕捉されたときに支配的であるソースオブジェクト照明条件にマッチングするための複数の概念的照明の範囲；および
（ｉｉ）複数変形の範囲；
のうちの少なくとも一方の範囲にわたって各前記３Ｄ候補アバターを検索することを前記検索ステップはさらに含む、方法。
前記変形が小さな変形である、請求項１６に記載の方法。
前記小さな変形が顔の動きに適合できる、請求項１７に記載の方法。
前記変形が大きな変形である、請求項１６に記載の方法。
前記大きな変形が前記ソース顔の永続的変化に関連している、請求項１９に記載の方法。
前記検索ステップは、実際に投影を生成することなく、前記３Ｄアバターに可能な２Ｄ投影の範囲にわたって各前記３Ｄ候補アバターを検索することを含む、請求項１３に記載の方法。
請求項２１に記載の方法であって、少なくとも１つの前記２Ｄ投影における前記ソース顔の視点に最適に一致適合する前記３Ｄ候補アバターの剛体運動を計算することが、当該の可能な２Ｄ投影の範囲にわたって検索することに含まれる、方法。
請求項２２に記載の方法であって、
ａ．前記３Ｄ候補アバターに関連する３Ｄ座標空間における点、曲線、面、およびサブボリュームを含んでおり、前記少なくとも１つの２Ｄソース投影における特徴項目と投影的に一致適合する特徴項目の条件付き平均を推定すること；および
ｂ．前記３Ｄ候補表現の剛体運動について、前記投影された特徴項目の条件付き平均推定と前記３Ｄ候補アバターにおける対応する特徴項目との間の最小平均２乗誤差推定を生成すること；および、
ｃ．前記３Ｄ候補アバターの前記投影の部分を前記２Ｄソース表現における対応する部分と比較することにより適合の質を決め、かつ、前記最適な剛体運動を前記最良の適合の質に対応するものと定義すること；
により前記最適な剛体運動を決める、方法。
請求項１３に記載の方法であって、前記ステップｄ．における前記比較により、前記３Ｄアバターの前記投影と前記２Ｄソース画像とのマッチング度が所定のしきい値を上回ると、前記ソース顔に関連付けて前記３Ｄ候補アバターが肯定的に識別される、方法。
複数の特徴を含むソースオブジェクトの２Ｄソース投影の少なくとも１つに対応する、複数の特徴を含むオブジェクトを識別するシステムであって、
ａ．複数の特徴を含む候補オブジェクトの３Ｄ表現を複数含むデータベース；
ｂ．画像において前記２Ｄソース投影を検出する検出モジュール；および
ｃ．アナライザ；
を備え、該アナライザは、（ｉ）前記３Ｄ候補表現の不変視点検索を実行して、前記少なくとも１つの２Ｄソース投影に最も似ている２Ｄ投影を有する前記３Ｄ候補表現を探索し、（ｉｉ）前記少なくとも１つの２Ｄソース投影を前記探索された３Ｄ候補表現と比較して、前記候補が前記ソースに対応するかどうかを決定するシステム。
前記検出モジュールは、前記２Ｄソース画像において視点と照明が不変である特徴項目を探索することにより、前記２Ｄソース投影を検出する、請求項２５に記載のシステム。
前記検出モジュールが前記検出をほぼリアルタイムで実行する、請求項２６に記載のシステム。
請求項２５に記載のシステムであって、前記アナライザは拡散マッチングモジュールをさらに備え、該拡散マッチングモジュールは、
（ｉ）前記ソース画像が捕捉されたときに支配的であるソースオブジェクト照明条件にマッチングするための複数の概念的照明の範囲；および、
（ｉｉ）複数変形の範囲；
のうちの少なくとも一方の範囲から生成される前記３Ｄ候補表現の２Ｄ投影を検索するものである、システム。
前記変形が小さな変形である、請求項２８に記載のシステム。
前記小さな変形が前記ソースオブジェクトの部分の動きに適合できる、請求項２９に記載のシステム。
前記変形が大きな変形である、請求項２８に記載のシステム。
前記大きな変形が前記ソースオブジェクトの永続的変化に関連している、請求項３１に記載のシステム。
前記アナライザは、実際に投影を生成することなく、前記３Ｄ表現に係わる可能な２Ｄ投影の範囲にわたって各前記３Ｄ候補表現を検索する、請求項２５に記載のシステム。
前記アナライザは、少なくとも１つの前記２Ｄ投影における、前記複数の特徴を含むソースオブジェクトの視点に最適に一致適合する前記３Ｄ候補表現の最適な剛体運動を計算する、請求項３３に記載のシステム。
請求項３４に記載のシステムであって、
ａ．前記３Ｄ候補表現に関連する３Ｄ座標空間における点、曲線、面、およびサブボリュームを含んでおり、前記少なくとも１つの２Ｄソース投影における特徴項目と投影的に一致適合する特徴項目の条件付き平均を推定すること；
ｂ．前記３Ｄ候補表現の剛体運動について、前記投影された特徴項目の条件付き平均推定と前記３Ｄ候補表現における対応する特徴項目との間の最小平均２乗誤差推定を生成すること；および、
ｃ．前記３Ｄ候補表現の前記投影の部分を前記２Ｄソース表現における対応する部分と比較すること；
により適合の質を決め、かつ、前記最適な剛体運動を最良の適合の質に対応するものと定義することとにより、前記アナライザは前記最適な剛体運動を決めるように構成されている、システム。
前記アナライザは、前記３Ｄ表現の前記投影と前記２Ｄソース画像とのマッチング度が所定のしきい値を上回ると、前記ソースオブジェクトに関連付けての前記３Ｄ候補表現の肯定的な識別を出力する、請求項２５に記載のシステム。
ソース顔の２Ｄソース投影の少なくとも１つに対応する３Ｄアバターを識別するシステムであって、
ａ．３Ｄ候補アバターの３Ｄ表現を複数含むデータベース；
ｂ．画像において顔の前記２Ｄソース投影を検出する検出モジュール；および、
ｃ．（ｉ）前記３Ｄ候補アバターの不変視点検索を実行して、前記少なくとも１つの２Ｄソース投影に最も似ている２Ｄ投影を有する前記３Ｄ候補アバターを探索し、（ｉｉ）前記少なくとも１つの２Ｄソース投影を前記探索された３Ｄ候補アバターと比較して、前記候補が前記ソースに対応するかどうかを決定するアナライザ；
を備えるシステム。
前記検出モジュールは、前記２Ｄソース画像において視点と照明が不変である特徴項目を探索することにより、顔の前記２Ｄ投影を検出する、請求項３７に記載のシステム。
前記検出モジュールが前記検出をほぼリアルタイムで実行する、請求項３８に記載のシステム。
請求項３７に記載のシステムであって、前記アナライザは、拡散マッチングモジュールをさらに備え、該拡散マッチングモジュールは、
（ｉ）前記ソース画像が捕捉されたときに支配的であるソース頭部照明条件にマッチングするための複数の概念的照明の範囲；および、
（ｉｉ）複数変形の範囲；
のうちの少なくとも一方の範囲から生成される前記３Ｄ候補アバターの２Ｄ投影を検索するものである、システム。
前記変形が小さな変形である、請求項４０に記載のシステム。
前記小さな変形が顔の動きに適合できる、請求項４１に記載のシステム。
前記変形が大きな変形である、請求項４０に記載のシステム。
前記大きな変形が前記ソース顔の永続的変化に関連している、請求項４３に記載のシステム。
前記アナライザは、実際に投影を生成することなく、前記３Ｄアバターの、可能な２Ｄ投影の範囲にわたって各前記３Ｄ候補アバターを検索する、請求項３７に記載のシステム。
前記アナライザは、少なくとも１つの前記２Ｄ投影における前記ソース顔の視点に最適に一致適合する前記３Ｄ候補アバターの最適な剛体運動を計算する、請求項４５に記載のシステム。
請求項４６に記載のシステムであって、
ａ．前記３Ｄ候補アバターに関連する３Ｄ座標空間における点、曲線、面、およびサブボリュームを含んでおり、前記少なくとも１つの２Ｄソース投影における特徴項目と投影的に一致適合する特徴項目の条件付き平均を推定すること；
ｂ．前記３Ｄ候補表現の剛体運動について、前記投影された特徴項目の条件付き平均推定と前記３Ｄ候補アバターにおける対応する特徴項目との間の最小平均２乗誤差推定を生成すること；および、
ｃ．前記３Ｄ候補アバターの前記投影の部分を前記２Ｄソース表現における対応する部分と比較すること；
により適合の質を決め、かつ、前記最適な剛体運動を最良の適合の質に対応するものと定義することとにより、前記アナライザは、前記最適な剛体運動を決めるように構成されている、システム。
前記アナライザは、前記３Ｄアバターの前記投影と前記２Ｄソース画像とのマッチング度が所定のしきい値を上回ると、前記ソース顔に関連付けての前記３Ｄ候補アバターの肯定的な識別を出力するように構成されている、請求項３７に記載のシステム。