JP3818369B2

JP3818369B2 - 入力画像に最も類似の複数の３次元モデルから画像を選択する方法

Info

Publication number: JP3818369B2
Application number: JP2001327833A
Authority: JP
Inventors: ジェイコブスデイビッド; バズリローネン
Original assignee: NEC Corp
Current assignee: NEC Corp
Priority date: 2000-11-03
Filing date: 2001-10-25
Publication date: 2006-09-06
Anticipated expiration: 2021-10-25
Also published as: DE60126040T2; EP1204069B1; EP1204069A3; JP2002183728A; CA2347645A1; DE60126040D1; US6853745B1; EP1204069A2

Description

【０００１】
【発明の属する技術分野】
本発明はコンピュータビジョンに関し、特に、画像認識とモデル再構成システムに関する。
【０００２】
【従来の技術】
コンピュータビジョンにおける最も基本的な問題の１つは、照明の可変性が、物体が作ることができる画像にどのように影響を与えるかを理解することである。光が等方性であり、物体から比較的遠く離れているときでも、平坦なランベルトの物体が画像の無限次元のセットを作ることができることが明らかにされている。
【０００３】
すべての画像の空間の低次元の線形部分空間を使用して、物体が作ることができる画像のセットを表すことが、物体認識では非常に普及している。拡大縮小された正射影を受ける３次元の点のセットに対するこのような表現を解析的に導出した当業者がいる。さらに別の当業者は、照明の変化につれてランベルトの物体により作られる画像のセットの３次元線形表現を導いたが、面法線が光から離れて対向する場所では、この単純化された表現は負の強度を与える。別の当業者は、この線形表現を使って３次元モデルを構築するために、因数分解を使用している。さらに別の当業者は、照明に対する拡散成分を考慮して、これを４次元空間に拡張した。これらの解析的に導出された表現はかなり単純な設定に限定され、変化がもっと複雑な光源に対しては、クラス変化（class variation）およびポーズおよび照明の変化の中で記録する（capture）表現を作るために、研究者は画像の大きいセットを収集し、主成分分析（ＰＣＡ:Principal Component Analysis）を行った。ＰＣＡは、データセットを最も良く表す線形部分空間を見出す数値的な技術である。画像の大きいセットという条件のもとで、最も密接に画像と適合する低次元線形部分空間をＰＣＡは見出す。多様な照明条件で撮られた実物体の多数の画像が低次元線形空間の近くに存在することを示し、この表現を正当化する実験が当業者により行われた。より最近では、照明が正に制限される場合、物体の画像が凸の容積（convex volume）を占めることを指摘する非線形表現が使用される。"Illumination Cones for Recognition Under Variable Lightning: Faces", A.Georghiades et al, CVPR98: 52-59, 1998、"From Few to Many: Generative Models for Recognition Under Variable Pose and Illumination", A.Georghiades et al, ならびに、顔およびジェスチャーの自動認識に関する国際会議２０００（総称して「Georghides」と呼ぶ）は、物体認識のためにこの表現を使用している。
【０００４】
異なる物質の双方向反射関数（BRDF: Bi-Directional Reflection Function）を効率的に表すために、グラフィックス文献においては球面調和関数が使用される。球面調和関数基底（spherical harmonics basis）を、半球に、より適した異なる基底で置換することが提案されている。M. Landy、および、J. Movshonによる編集のComputational Models of Visual Processing における"Shading Ambiguity: Reflectance and Illumination" M. D'Zmoura, 1991（以下「D'Zmoura」と呼ぶ）では、入射光を反射に変えるプロセスは球面調和関数の見地から見て説明できることを指摘した。この表現を使用して、高次成分を切り捨てた後に、反射プロセスは線形変換と表すことができ、したがって、線形変換を反転することにより、照明の低次成分を回復することができる。この分析を、D 'Zmoura は照明におけるあいまい性を探究するために使用した。本発明は、反射率関数のために部分空間結果を導出し、基底画像の解析的な記述を提供し、非負の照明を補強しながら、この分析を使用する新しい認識アルゴリズムを組み立てることによって、D 'Zmoura の研究を拡張する。本明細書には、Georghiades およびD 'Zmoura を参考文献として含む。
【０００５】
【発明が解決しようとする課題】
従来技術を考慮すると、これらの部分空間の当該部分から正の照明条件に対応して作ることができ、物体が作ることができる画像のセットを正確に近似する低次元の線形部分空間を、解析的に見出す方法を示すコンピュータビジョン・システムの必要がある。これらの説明は、認識およびモデル作成の両方に対して次に使用することができる。
【０００６】
したがって、従来技術による方法の欠点を克服するような、入力画像に最も類似している複数の３次元モデルから画像を選択する方法を提供することが本発明の目的である。
【０００７】
本発明による別の目的は、従来技術による方法よりも、より効率的、かつ、より速く実行できるような、入力画像に最も類似している複数の３次元モデルから画像を選択する方法を提供することである。
【０００８】
本発明によるさらに別の目的は、複雑な反復最適化技法を使用せずに実行できるような、入力画像に最も類似している複数の３次元モデルから画像を選択する方法を提供することである。
【０００９】
【課題を解決するための手段】
照明の変化は、物体の外見に著しい影響を及ぼすことがある。本発明は、ランベルトの物体の場合に対しての上記の可変性について、新規な特徴付けを提供する。ランベルトの物体とは、ランベルトの法則によって光を反射する表面を有する物体であるJ.Lambert"Photometria Sive de Mensura et Gradibus Luminus, Colorum et Umbrae"、Eberhard Klett、１７６０、参照。最初に、球面調和関数を使用して照明が表され、ランベルトの物質の効果がたたみ込みの相似として説明される。これは信号処理における周波数領域内の計算過程と類似している。次に、ランベルトの物体のほとんどすべての外見は、球面調和関数として表される場合、照明の最初の９個の成分によって判定されることを示すことが可能である。ランベルトの物体により作られるすべての反射率関数（面法線から強度へのマッピング）は、９次元線形部分空間の近くに存在することが証明でき、従来の経験的な結果を説明している。本発明は、物体が作ることができる画像の線形空間の単純な解析的な説明をさらに提供する。これは、線形法にもとづく物体認識アルゴリズム、あるいは、凸の最適化を使用する非負の照明関数を実行する物体認識アルゴリズムにおいて容易に使用することができる。物体の画像の４次元線形近似が十分である場合には、非負の照明は非常に簡単に実行できることを本発明は示す。
【００１０】
本発明は、光の任意の構成に対してランベルトのモデルの下で作られた反射率関数のセットを分析する。このような反射率関数は、本質的に低域フィルタとして作用する核を使用して、光のたたみ込みの相似によって作られることが示される。本発明は、通常の照明条件の下で、たとえば、９次元線形部分空間は、反射率関数の可変性の９９.２％の原因となることを解析的に証明するために、このことと光の非負値性を使用する。最悪の場合には、この９次元空間は可変性の９８％の原因となる。このことは、一般に凸のランベルトの物体の画像のセットは、低次元線形空間によって正確に近似できることを示唆している。物体モデルに対してこの部分空間を解析的に導出する方法を、本発明はさらに示す。この結果は、既存の認識アルゴリズムを新しく解明し、さまざまな光とポーズの下での認識とモデル構造に対して多数の新しく効率的なアルゴリズムを導く。
【００１１】
したがって、入力画像に最も類似している複数の３次元モデルから画像を選択する方法が提供される。
【００１２】
本発明による方法は、
（ａ）複数の３次元モデルのデータベースを供給する段階と、
（ｂ）入力画像を供給する段階と、
（ｃ）各３次元モデルを前記入力画像に対して位置決めする段階と、
（ｄ）
（ｉ）線形部分空間を計算することであって、前記線形部分空間内の各点が実現可能な画像を表すすべての可能な照明条件の下で各３次元モデルが作ることができる、すべての可能な描画された画像のセットに対する近似を説明する線形部分空間を計算することと、
（ｉｉ）前記入力画像に最も近い前記線形部分空間上の前記点を見出すことによって、あるいは、正の光によって生成された画像の前記セットを、前記線形部分空間に投射することにより得られた前記線形部分空間の部分集合内の描画された画像を見出すことによって、
各３次元モデルに対して、前記入力画像に最も類似している描画された画像を決定する段階と、
（ｅ）前記入力画像と各描画された画像との間の類似の程度を計算する段階と、（ｆ）類似の程度が前記入力画像に最も類似している前記描画された画像に対応する前記３次元モデルを選択する段階を有する。
【００１３】
段階（ｄ）は、各３次元モデルに対して、赤、緑および青色成分の各々に対して繰り返されることが望ましい。線形部分空間は、４次元あるいは９次元のいずれかであることが望ましい。
【００１４】
【発明の実施の形態】
次に、本発明の実施例について説明する。
【００１５】
光が等方性であり物体から遠い場合、強度を方向の関数として表現することにより、光を特徴づけることができる。すべての実現可能な照明条件のセットは、したがって、球の表面の上のどこでも正であるすべての関数のセットと等価である。本発明による方法は、球面調和関数を使用してこれらの関数の表現を選定することから始まる。球の表面上であることを除いて、これはフーリエ分析に類似している。球面調和関数は単位球内に含まれる関数を表現し、球面調和関数は球の表面に対するこれらの関数の限定となる。表面が光を画像に変える方法をモデル化するために、本発明は（単位アルベドを仮定した）面法線の関数として反射率に注目する。本発明は、ランベルトの反射を表す核を有する照明関数のたたみ込みの相似によって、反射率関数が作られることを示す。照明の変化による物体の外見のあいまい性を検出するために、D 'Zmoura はこのような分析を使用した。一定でない物質から作られた物体に起きることを説明し、非ランベルトの反射率関数を処理するために、この単純な概念にわずかな複雑さが加えられる。
【００１６】
この概念を使用して、ランベルトの核が低域フィルタであり、このフィルタは解析的に説明できることを示すことが可能である。したがって、多くの通常の照明条件に対して、物体の外見の変化の多くが照明関数の調和変換の最初の４つの成分に依存し、ほとんどすべての変化は最初の９つの成分により説明されることを、解析的に示すことが可能である。実際に、光が著しく高周波パターンを有するときでも、近似の特性はきわめて僅かしか劣化しない。任意の照明関数の下の近似の特性の下限が導かれる。このことは、経験的な観察という第１の原理から、物体のほとんどの画像が低次元線形部分空間の近くに存在するという解釈をもたらす。さらに、過去には描画された画像の大きいセットにＰＣＡを実行することに努力があてられていたが、この線形部分空間はモデルから解析的に導くことができる。
【００１７】
照明の変化をいかに線形に近似するかの方法のこの解析的な理解は、多数の結果の核心を形成する。第１に、いくつかの既存の認識およびモデル構築法の有用性のより良い評価を、この解析的な理解は可能にする。たとえば、従来技術による線形部分空間法は、実際には３つの１次調和関数にわたる線形空間を使用することに基づいているが、重要な直流成分を除いていることを示すことが可能である。第２に、この解析的な理解は、未知のポーズおよび照明条件を有する物体を識別する新しい方法を導く。特に、さまざまなポーズおよび照明の下での認識に対して、解析的に導かれた低次元空間の中で動作するアルゴリズムが提供される。最後に、４次元線形部分空間が適切な近似をもたらす場合に対して、複雑な反復最適化技術を使用せずに、認識を非常に効率的に実行することができる。
【００１８】
画像形成のモデリング
遠い等方性の光源により照明されている凸の物体を考える。物体の表面はランベルトの法則にしたがって光を反射するものと、さらに仮定する。この比較的単純なモデルは、多くの視覚応用で解析され、効果的に使用されてきた。この解析は、非ランベルト物体に拡張することができる。任意の光で得られるランベルトの物体の画像のセットは、当該技術分野における１部の人々により「照明錐」（illumination cone）と呼ばれている。本発明の目的は、照明錐の特性を解析することである。異なる照明条件の下で得られた反射率関数のセットを考えることが、解析のために有用であろう。特有の照明構成（lighting configuration）と組み合わされた反射率関数が（反射率マップ・ホーン（reflectance map Horn）とも呼ばれる）、面法線の関数として単位アルベドの球により反射される光と定義される。反射率関数は、次のマッピングによって同じ照明構成により照明された凸の物体の画像に関係する。物体の表面の上のすべての可視点は、同じ法線を有する球面上の点からの強度を継承し、この強度はその点におけるアルベドによりさらに拡大縮小される。このマッピングの効果を以下に説明する。
【００１９】
たたみ込みの相似としての画像形成
Ｓは原点を中心とする単位球を示すとする。ｐ＝（ｘ、ｙ、ｚ）はＳの表面の上の点を示し、Ｎｐ＝（ｘ、ｙ、ｚ）はｐにおける面法線を示すとする。ｐは、次の表記法を使用して単位ベクトルとしても表すことができる。
【００２０】
【数１】

【００２１】
ここで、０≦θ≦πであり、０≦φ≦２πである。この座標フレームにおいて、極は（０，０，±１）に置かれ、θはｐと（０，０，１）の間の立体角を示し、緯度と共に変化し、φは経度と共に変化する。
【００２２】
球面は遠い等方性の光のセットにより照明されていると仮定されるので、球面上のすべての点はこれらの光が同じ方向から来ると見る、また球面上のすべての点は同一の照明条件により照明されている。したがって、球面を照明する光の構成は、各方向（θ、φ）から球面に到達する光の強度を表す非負の関数ｌ（θ、φ）として表すことができる。さらに、ランベルトの法則によれば、各点により反射される光の差は、それらの面法線における差に完全に依存する。したがって、球面により反射される光は、そのドメインが球面の面法線のセットである関数ｒ（θ、φ）と表すことができる。
【００２３】
ランベルトの法則によれば、アルベドλを有する表面点に、強度ｌの光線がその点における面法線と角度θをなすように到達すれば、その点により反射されるこの光による強度は次式で与えられる。
【００２４】
【数２】

【００２５】
ここで、一般性を失うことなく、λ＝１であると仮定する。光が多数の方向から点に到達すれば、その点により反射される光は、各方向に対する寄与の和（あるいは連続した場合には積分）であろう。ｋ（θ）＝ｍａｘ（ｃｏｓθ，０）と示せば、たとえば、点（０，０，１）の強度は次式で与えられる。
【００２６】
【数３】

【００２７】
同様に、点ｐ＝（θ、φ）により反射される強度ｒ（θ、φ）は、ｋをｐについて中心を合わせ、その内積を球面上のｌで積分することにより得られる。したがって、ｒ（θ、φ）を作る演算は、球面上のたたみ込みの相似である。これはたたみ込みと呼ばれ、次式となる。
【００２８】
【数４】

【００２９】
このたたみ込みｋの核は、円対称な余弦関数の正の部分の関数である。たたみ込みは、その中心がｐにおける面法線と整列するようにｋを回転することにより得られる。これは、無定義の核の回転に１つの自由度を依然として残すが、ｋが回転対称であるので、このあいまい性は消滅する。
【００３０】
たたみ込み核の特性
フーリエ基底が平面内のたたみ込みの結果を調べるのに向いているように、球面上のたたみ込みの相似の結果を理解するために、類似のツールが存在する。球面調和関数は、球面の表面上のすべての関数のセットに対する正規直交基を形成する１組の関数である。これらの関数は、ｎ＝０，１，２，．．．および−ｎ≦ｍ≦ｎとして、ｈ_nmにより示される。
【００３１】
【数５】

【００３２】
ここで、Ｐ_nmは、次式により定義されるルジャンドル陪関数である。
【００３３】
【数６】

【００３４】
核ｋおよび照明関数ｌは、調和級数として、すなわち、球面調和関数の線形結合として表される。球面調和関数に対してたたみ込み定理に相似が利用できるように、これは主として行われる。ファンク・ヘッケの定理の直接の結果は、関数領域における「たたみ込み」は調和領域における乗算と等価であることである。（たとえば、H・Groemer、フーリエ級数および球面調和関数の幾何学的応用、ケンブリッジ大学出版局、参照）以下に説明するように、ｋの表現は調和級数として導出される。この誘導は、ｋがほぼ低域フィルタであることを示すために使用される。具体的にいうと、ｋのエネルギーのほとんどすべては、最初の少数の調和関数に存在する。これは、球面の実現可能な反射率は、球面上に定義されたすべての関数の空間の低次元の線形部分空間の近傍にあることを示すことを可能とするであろう。
【００３５】
次に、調和級数としてのｋの表現を導くことができる。要するに、ｋは極について回転対称であるから、座標フレームの適切な選択の下で、そのエネルギーは帯球調和関数（ｍ＝０の調和関数）内に排他的に集中するが、ｍ≠０のすべての調和関数の係数は消滅する。したがって、ｋは次式で表現することができる。
【００３６】
【数７】

【００３７】
ランベルトの核は、ｋ（θ）＝ｍａｘ（ｃｏｓθ，０）により与えられ、ここでθは光の方向と面法線の間の立体角を示す。ｋの調和変換は次式で定義される。
【００３８】
【数８】

ここで、係数ａ_nmは次式で与えられる。
【００３９】
【数９】

一般性を失うことなく、球面上の座標系は次のように定められる。極の１つがｋの中心に位置を定められると、θは経度に沿った角度を表し、０からπまで変化し、φは緯度に沿った角度を表し、０から２πまで変化する。この座標系において、ｋはφから独立しており、極の周りに回転対称である。したがって、すべてのそのエネルギーは、帯球調和関数（ｍ＝０の調和関数）の間で分割され、すべてのｍ≠０に対する係数は消滅する。
【００４０】
係数に対する明示的な形式が次に決定される。最初に、θについてπ／２までにのみ積分することによって、積分を余弦関数の正の部分に制限することができる、すなわち、
【００４１】
【数１０】

次に、ｍ＝０成分のみが消滅しないので、k_n＝k_n0と示せば、
【００４２】
【数１１】

したがって、
【００４３】
【数１２】

ここで、P_n（Ｚ）は次式により定義されるｎ次のルジャンドル陪関数である。
【００４４】
【数１３】

ｚ＝ｃｏｓθを置換すると、次式が得られる。
【００４５】
【数１４】

ここで、次式の積分を計算する。
【００４６】
【数１５】

この積分は次式に等しい。
【００４７】
【数１６】

部分積分すると次式を得る。
【００４８】
【数１７】

第１項は消滅し、次式が残される。
【００４９】
【数１８】

この数式はｚ＝１に対して消滅し、したがって次式を得る。
【００５０】
【数１９】

ここで、
【００５１】
【数２０】

ｎ−２導関数を除くと、指数がｎ−２未満であるすべての項は消滅する。さらに、ｚ＝０における導関数が評価されるので、指数がｎ−２を超えるすべての項は消滅する。したがって、指数が２ｋ＝ｎ−２である項のみが残存する。ｎ−２係数をb_n-2と示せば、ｎが奇数であればｂ_n-2＝０であり、ｎが偶数であれば次式となる。
【００５２】
【数２１】

この場合、
【００５３】
【数２２】

であり、次式を得る。
【００５４】
【数２３】

上記の誘導はｎ≧２に対して成立する。ｎ＝０およびｎ＝１である特殊な場合は、別に処理されるべきである。第１の場合はＰ₀（ｚ）＝１であり、第２の場合はＰ₁（ｚ）である。ｎ＝０に対して、積分は次式となる。
【００５５】
【数２４】

またｎ＝１に対しては、次式となる。
【００５６】
【数２５】

したがって、
【００５７】
【数２６】

この長い操作の後に、次式が得られる。
【００５８】
【数２７】

最初の少数の係数は、たとえば、次式となる。
【００５９】
【数２８】

（ｋ₃＝ｋ₅＝ｋ₇＝０）係数のグラフ表示を図１に示す。図１は左から右へ、ランベルトの核の最初の１１個の係数のグラフ表示、係数のそれぞれにより収集された相対エネルギー、累積されたエネルギー、および累積されたエネルギーに対するズームインを示す。
【００６０】
すべての調和関数項により収集されたエネルギーは、変換された関数の全２乗エネルギーにより除算された各係数の２乗により共通に測定される。余弦関数の正の部分の関数内の全２乗エネルギーは、次式で与えられる。
【００６１】
【数２９】

（１０）
表１は、最初のいくつかの係数のそれぞれにより収集された相対エネルギーを示す。表１の１番上の行は、ランベルトの核（０≦ｎ≦８）に対するｎ次の帯球調和関数により収集されたエネルギーを示す。表１の中央の行は、ｎ次まで累積された累積エネルギーを示す。この累積エネルギーは、（相対２乗誤差で測定された）ｒ（θ、φ）のｎ次近似の特性を表す。１番下の行は、光の非負値性によるこの近似の特性の下限を示す。ｎ＝３、５、および７は、エネルギーに寄与しないので、除かれている。表１に示す相対エネルギーは、百分率で与えられている。核は最初の３個の係数により支配されていることが判る。したがって、２次近似がすでにエネルギーの９９．２２％を占めている。この近似を使用して、余弦関数の正の部分の関数は次式で表すことができる。
【００６２】
【数３０】

近似の特性は、４次項の加算である程度改善され（９９．８１％）、１次近似が使用される場合には８７．５％に劣化する。図２は、ランベルトの核の１次元スライス、ならびに、左から右へ、それぞれ、その１次、２次、および３次近似を示す。
【００６３】
【表１】

反射率関数の線形近似
ランベルトの核のエネルギーの大部分が低次の項に集中しているという事実は、単位アルベドの球面の反射率関数のセットが、低次元線形空間によって良く近似できることを意味している。この空間は、調和反射率と呼ばれるものの小さいセットによって測られる。調和反射率ｒ_nm（θ、φ）は、球面が調和「光」ｈ_nmにより照明されている場合の球面の反射率を示す。調和光（harmonic light）は一般にどこにおいても正ではなく、したがって調和光は現実に存在する物理的照明条件に対応しないことに注意されたい。調和光は抽象である。以下に説明するように、すべての反射率関数ｒ（θ、φ）は、少数の調和反射率の線形結合によって、優れた正確度で近似されるであろう。
【００６４】
近似の特性を評価するために、例として、ｚ方向（θ＝φ＝０）において点光源により生成された照明をまず考える。点光源はデルタ関数である。点光源により照明された球面の反射率は、核を有するデルタ関数のたたみ込みにより得られ、核自身をもたらす。たたみ込みの直線性のために、点光源による反射率が最初の３つの帯球調和関数ｒ₀₀、ｒ₁₀、およびｒ₂₀の線形結合により近似されれば、エネルギーの９９．２２％は次式により占められている。
【００６５】
【数３１】

ここで、ランベルトの核ｋは、ｚ方向において点光源により照明されている場合の球面の反射率である。同様に、１次および４次近似は、それぞれ８７．５％および９９．８１％の正確度をもたらす。
【００６６】
球面がｚ方向以外の方向の単一の点光源により照明されていれば、得られる反射率は核と同じであるが、位相がシフトしている。関数の位相をシフトすることは、同じ次数ｎ（さまざまなｍ）の調和関数の間にそのエネルギーを分配するが、各ｎの全エネルギーは維持される。したがって、近似の特性は同じままであるが、ｎ次近似に対して、すべてのｍに対してｎ≦Ｎを有するすべての調和関数を使用することが必要とされる。すべての次数ｎに、２ｎ＋１の調和関数が存在することを想起されたい。したがって、１次近似は４個の調和関数を必要とする。２次近似はさらに５個の調和関数を追加し、９次元空間をもたらす。３次の調和関数は核により除外されるので、勘定に入れる必要がない。最後に、４次近似はさらに９個の調和関数を追加し、１８次元空間をもたらす。
【００６７】
光が単一の点光源を有する場合、最初の少数の係数Ｋ_i（１≦ｉ≦Ｎ）により収集されるエネルギーは、反射率関数の近似の正確度を直接示していることが判る。他の光構成（light configuration）は、異なる正確度を導く可能性がある。低周波の増強拡散成分（enhanced diffuse component）を光が含んでいる場合は、より良い近似が得られる。光が主に高周波パターンを含んでいれば、より悪い近似が予期される。
【００６８】
しかし、たとえ光が主として高周波パターンを含んでいるとしても、近似の正確度は依然として非常に高いことが分かる。これは光の非負値性の結果である。任意の光関数に対する近似の正確度の下限は、次のように導くことができる。任意の非負の関数に対して、直流成分の振幅が、どの他の成分の振幅と比べても少なくとも同じぐらい高くなければならないことを示すことは簡単である。これを理解する１つの方法は、そのような関数をデルタ関数の非負の和として表すことである。このような和において、直流成分の振幅は、異なるデルタ関数のすべての直流成分の振幅の加重和である。他のいずれの周波数の振幅も、せいぜい同じレベルに到達することが可能であるが、多くの場合は干渉のためにより低いであろう。したがって、ｎ次近似では、Ｎより高いすべての周波数の振幅が直流成分と同じ振幅に飽和するとき、最悪の筋書きとなるが、１≦ｎ≦Ｎ次の振幅は零に設定される。この場合、相対２乗エネルギーは、次式となる。
【００６９】
【数３２】

表１は、いくつかの異なる近似に対して得られる限界を示す。２次近似（９個の調和関数を含む）を使用すると、任意の光関数に対する近似の正確度は９７．９６％を超えることが分かる。４次近似（１８個の調和関数を含む）を使用すると、正確度は９９．４８％を超える。すべての高次の項が飽和している場合には（実際には一般的に）、いくつかの負の値を有する関数をもたらすので、数式１３で計算した限界は厳密ではないことに注意されたい。したがって、最悪の場合の正確度は、限界より高くなることもある。
【００７０】
調和反射率の生成
反射率関数を近似する空間に基底を構築することは、容易であり、解析的に行うことができる。基底を構築するためには、ファンク・ヘッケの定理が使われる。この空間は調和反射率、すなわち、単位アルベド球が調和光により照明されているときに得られた反射率により測られることを想起されたい。これらの反射率は、単一の調和関数を使用して半余弦核（half cosine kernel）にたたみ込みを行った結果である。球面調和関数の正規直交性のために、このようなたたみ込みは、他の調和関数のいずれにもエネルギーを生じさせることはできない。したがって、調和光をｈ_nmにより示すと、この調和関数による反射率は、同じ調和関数であるが、拡大縮小されている。形式的には、
【００７１】
【数３３】

同じ次数ｎで異なる位相ｍの調和関数は、同じスケール・ファクタｃ_nを共有することは容易に検証できる。したがってｃ_nを決定すればよい。
【００７２】
ｃ_nを決定するために、光がｚ方向に中心を合わせたデルタ関数であるとき、半余弦核ｋは得られた画像であるという事実が使用される。デルタ関数の変換は次式により与えられる。
【００７３】
【数３４】

またデルタ関数の変換が作る画像は次式である。
【００７４】
【数３５】

ここで係数ｋ_nは、数式８で与えられる。ｃ_nは、たたみ込みに引き続いて調和関数がどれだけ拡大縮小されるかを決定する。したがって、ｃ_nはｋ_nとデルタ関数の各係数の間の比率である。すなわち、
【００７５】
【数３６】

−ｎ≦ｍ≦ｎ（およびｒ３ｍ＝ｒ５ｍ＝ｒ７ｍ＝０）に対して、最初の少数の調和反射率は次式により与えられる。
【００７６】
【数３７】

調和反射率の構築のためには、角度（θ、φ）よりも空間座標（ｘ、ｙ、ｚ）を使用して調和関数を表現することが有用である。これは、角度の代わりに次式を代入することにより、行うことができる。
【００７７】
【数３８】

したがって、最初の９個の調和関数は次のようになる。
【００７８】
【数３９】

ここで、上付きの添字ｅおよびｏは、それぞれ調和関数の偶数および奇数の成分を示す。
【００７９】
【数４０】

ｍの符号に応じて；実際に、調和関数の偶数および奇数のバージョンは、反射率関数が実数であるから、実際に使用するにはより好都合である。）これらの空間座標において、調和関数は単純な多項式であることに注目されたい。以下に説明するように、ｈ_nm（θ、φ）およびｈ_nm（ｘ、ｙ、ｚ）は、それぞれ角座標および空間座標において表現される調和関数を示すために常に使用される。
【００８０】
反射率から画像へ
ここまで、任意の光によって単位アルベド球を照明することにより得られた反射率関数が解析された。本発明の目的は、変化する照明の下で見られる物体の画像のセットを効果的に表すために、この解析を使用することである。一定の照明条件の下の物体の画像は、各反射率関数から単純な方法で構築することができる。物体の各点は、法線が同じである球面上の点から強度を継承する。この強度は、そのアルベドによりさらに拡大縮小される。換言すれば、反射率関数ｒ（ｘ、ｙ、ｚ）を与えると、面法線ｎ（ｎ_x、ｎ_y、ｎ_z）およびアルベドλを有する点ｐの画像は、次式により与えられる。
【００８１】
【数４１】

モデルの画像に対するこの低次元線形近似の正確度が、画像に対する反射率関数からマッピングによって、如何に影響を受ける可能性があるかを次に説明する。２つの点が考えられる。第１に、最悪の場合には、これはこの近似を任意に悪くすることができる。第２に、代表的な場合には、それはこの近似の正確度を低下させることはないであろう。
【００８２】
反射率関数を画像に変えるための２つの要素がある。１つは、点のｘ、ｙ位置に再配置があることである。すなわち、特定の面法線は、単位球の上の１つの位置に出現し、画像内では完全に異なる位置に出現することもある。この再配置は、この近似に対して効果がない。画像は、各座標がピクセルの強度を表す線形部分空間内で表される。どのピクセルがどの座標が任意であるかを表すべきかの決定、および（ｘ、ｙ）から面法線へのマッピングを再配置することによるこの決定の変更は、空間の座標を再整理することとなる。
【００８３】
画像と反射率関数の間の第２の、より著しい差は、オクルージョン（occlusion）、形状変化およびアルベド変化が、球面上の各面法線が画像の決定に役立つ効果をもたらすことである。たとえば、オクルージョンは、球面上の面法線の半分が、カメラから離れる方向に向かい、可視の強度を作らないであろうことを保証する。不連続な表面は、いくつかの面法線を含まない可能性が有り、平坦な細片を有する表面は、拡張された領域の上に単一の法線を有するであろう。これらの両極端の間で、点における曲率は、その面法線が画像に寄与する程度を決定するであろう。アルベドは、類似の効果を有する。点が黒（零アルベド）であれば、その面法線は画像に対して効果を持たない。エネルギーに関しては、より暗いピクセルは、より明るいピクセルよりも画像に寄与しない。全体として、単位球上の各点の反射率が画像に影響を与える程度がゼロから全体の画像に及ぶことができることを認めることによって、これらの効果は得られる。
【００８４】
最悪の場合に、これがこの近似を任意に悪くする可能性があることを示す例を説明する。最初に、任意の単一の点において、関数に対する低次調和近似が任意に悪い状態であり得ることに気付くべきである（これはフーリエ領域におけるＧｉｂｂｓの現象に関連づけることができる）。一定のアルベドの球である物体の場合を考える。光が観察方向の反対方向から来るなら、光はどの可視ピクセルも照明しない。物体の境界線上の１個のピクセルのみを照明するように、光を僅かにシフトすることができる。光の強度を変えることにより、このピクセルに任意の所望の強度を与えることが可能である。一連の光が、球面の縁の上のすべてのピクセルに対して、これを行うことができる。このようなピクセルがｎ個あれば、得られた画像のセットは、ｎ次元空間の正の象限を完全に占める。明らかに、この空間内の点は、任意の９次元空間から任意に遠く離れることができる。起きていることは、画像内のすべてのエネルギーが、近似がたまたま劣っている面法線に集中していることである。
【００８５】
しかし、一般に、物事はそれほど悪くはない。一般に、オクルージョンは単位球上の法線の任意の半分を不可視にするであろう。アルベド変化および曲率は、一部の法線を強調し、他のものには重点を置かないであろう。しかし一般には、その反射率が不完全に近似された法線は、任意の他の反射率以上には強調されないであろう。また、全単位球上の反射率の近似は、画像内で可視の強度を作るピクセルとほぼ同じに良いと予想される。
【００８６】
したがって、反射率関数に対する部分空間結果（subspace result）は、物体の画像に対して継続すると想定される。したがって、物体の画像のセットは、ｂ_nmと示される調和画像と呼ばれるものにより測られる線形空間によって近似される。これらは、調和光の下で見られる物体の画像である。これらの画像は、次のように数式２２のように構築される。
【００８７】
【数４２】

ｂ₀₀は、一定の周辺光の下で得られた画像であり、したがって、単に表面アルベドを含んでいることに注目されたい。（スケーリング・ファクタまで）１次の調和画像ｂ_1mは、３つの主な軸に中心を合わせた余弦照明（cosine lighting）の下で得られる画像である。これらの画像は、アルベドによって拡大縮小された面法線の３つの成分を含んでいる。高次調和画像は、アルベドによって拡大縮小された面法線の多項式を含んでいる。図３は、顔の３次元モデルから導出された最初の９個の調和画像を示す。第１行は、左に零次調和関数と、第１調和画像（first harmonic image）の２つを示している。第２行の左は、第１調和画像の第３のものを示す。残りの画像は、第２調和関数から導出された画像である。
【００８８】
認識
本発明は、物体が作ることができる画像のセットの近くに位置する線形部分空間の解析的な作図を明らかにする。次に、物体を認識するために、この説明をどのように使用するかを示す。本発明による方法は一般的な物体に適しているが、顔認識の問題に関連する例を、本発明の範囲を制限しない例としてのみ説明する。画像は、３次元物体のモデルのデータベースと比較されなければならないと仮定する。さらに、目的のポーズは既知であるが、目的の素性および照明条件は既知ではないと仮定する。たとえば、カメラに向いていることが判っている顔の認識を望むことがある。あるいは、人間あるいは自動的なシステムのいずれかが、データベース内の顔ごとにポーズの決定を可能にする目および鼻の先端部のような特徴を認識しているが、データベースが大きすぎて人間が最良の一致を選択することは不可能であると想定してもよい。
【００８９】
認識は、新しい画像を各モデルと順に比較することにより進行する。モデルと比較するために、画像とモデルが作ることができる最も近い画像の間の距離が計算される。モデルの画像の表現の点で異なる２つのクラスのアルゴリズムを説明する。線形部分空間は認識のために直接使用できる。あるいは、物理的に実現可能な照明条件に対応する線形部分空間の部分集合に制限することが可能である。
【００９０】
目的の画像の試料から部分空間を導くためにＰＣＡが使用できる従来の方法に対して、本発明による方法においては、利用できる部分空間の解析的な作図を有することにより得られる利点が強調される。解析的な作図の１つの利点は、解析的な作図は、画像の特定の試料の予測のつかない変動を受けずに、目的の画像の正確な表現を提供することである。第２の利点は効率である。この部分空間の作図は、ＰＣＡが可能にするであろうよりも、はるかに速く作ることができる。この利点の重要性は、取り組む認識問題の形式に依存する。特に、目的の位置が事前に既知ではないが、特徴対応（feature correspondence）を使用して実行時間で計算できる認識問題に一般に興味が持たれる。この場合に、線形部分空間も実行時間に計算されなければならず、これを実行するコストが重要である。どのようにしてモデル作成アルゴリズムの内部ループの一部に、この計算がなることが可能かを以下に説明するが、ここでも効率は非常に重要である。最後に、４次元線形部分空間を使用する場合、照明が物理的に実現可能であるという制約条件を、特に単純で効果的な方法で組み込むことが可能であることが明らかにされる。
【００９１】
線形法
認識のための従来の結果を使用する最も簡単な方法は、新規な画像をモデルに対応する画像の線形部分空間と比較することである。これを行うために、各モデルの調和基底画像（harmonic basis image）が作られる。画像Ｉを仮定すると、‖Ｂａ−Ｉ‖を極小化するベクトルａが求められる。ここで、Ｂは基底画像を示し、Ｂはｐ×ｒであり、ｐは画像内の点の数であり、ｒは使用される基底画像（basis image）の数である。上述のように、９がｒに対して使用するべき自然な値であるが、ｒ＝４がより大きい効率をもたらし、ｒ＝１８がさらに良い正確度の可能性を提供する。Ｂのすべての列は、１つの調和画像ｂ_nmを含んでいる。これらの画像は、正規直交のものではないが、線形部分空間に対して基底を形成する。このような基底Ｑを得るために、ＱＲ分割（QR decomposition）がＢに適用される。画像からの距離Ｉ、および‖ＱＱＴＩ−Ｉ‖としてＢにより測られる空間を、次に計算することができる。ｐ≫ｒと仮定すれば、ＱＲ分割のコストは、Ｏ（ｐｒ²）である。
【００９２】
これに対して、従来の方法は、目的を表す線形部分空間を見出すために、時には画像の試料に対してＰＣＡを実行していた。たとえば、Georghides は、目的の画像を供給し、これらの画像を近似する１１次元部分空間を見出す。ｓ個の標本化された画像が使用される場合（通常ｓ≫ｒである）、ｓ≪ｐであれば、ＰＣＡはＯ（ｐｓ²）を必要とする。さらに、ＭＡＴＬＡＢにおいては、薄い矩形行列のＰＣＡは、ＱＲ分割と比べて正確に２倍長くかかるように思われる。したがって、実際には、Georghides の方法により構築された行列上のＰＣＡは、本発明による方法を使用するのに比べて、モデルの画像に対して９次元線形近似を構築するために、約１５０倍かかるであろう。ポーズが事前に既知であれば、これは非常に重要ではないこともあり、この計算はオフラインで行われる。しかしポーズが実行時間で計算される場合には、本発明による方法の利点は、非常に大きくなることがある。
【００９３】
本発明による方法を、A. Shashua による他の線形法と比較することも興味深い。"On Photometric Issues in 3Dvisual Recognition from a single 2D image", J. of Comp. Vis.、21（1−2）：99−122、1997参照（以後 "Shashua"と呼ぶ)。付影（attached shadow）がない場合には、目的のすべての実現可能な画像は、アルベドにより拡大縮小された面法線のｘ、ｙおよびｚ成分の線形結合であることを、 Shashua は指摘している。したがって、Shashua は、モデルの画像を表すための３次元線形部分空間を作るために、これらの３つの成分を使用することを提案している。これらの３つのベクトルは、スケール・ファクタまで、本発明による方法の第１調和関数により作られた基底画像と同一であることに注目されたい。
【００９４】
この同等は代数的に明確であるが、さらに次のように説明できる。１次の調和画像は、単一の調和関数により説明される照明条件を受ける任意の目的の画像である。ファンク・ヘッケの定理は、反射率関数を説明する核のすべての成分は、１次成分以外はこの画像に無関係であることを保証する。すべての調和関数を含む照明関数として点光源を使用することにより、Shashua の研究においては、基底画像が生成される。しかし、使用される核は、光と面法線の間の角度の全余弦関数である。この核は、第１調和関数の中にのみ成分を有する。したがって、照明のすべての他の成分は画像に無関係である。どの場合にも、基底画像は、調和関数の最初のセットにのみ帰因する。
【００９５】
正の光の強調（ Enforcing ）
調和基底画像の任意の線形結合をとる場合、物理的に実現不可能な画像を得ることがある。これは、照明を表している調和関数に対応する線形結合が負の値を含むことがあるためである。すなわち、これらの画像を表現するには、負の「光」を必要とすることがあり、これは当然ながら物理的に不可能である。非負の光の制約条件を強調する一方で、基底画像を如何に使用するかを次に説明する。非負の照明により作られた目的の画像のセットは、すべての実現可能な画像の空間内で凸錐であることを示した当業者が存在する。上述のように、これは照明錐（illumination cone）と呼ばれる。調和基底画像により測られる空間内のこの錐体に対する近似をどのように計算するかを、次に説明する。
【００９６】
具体的にいうと、画像Iを仮定して、光は球面に沿ってどこでも非負であるという制約条件の適用を受ける‖Ｂａ−Ｉ‖の極小化を試みた。正の光を強調する簡単な方法は、たたみ込みを反転することにより、画像から光を推測することである。これはａ，Ｈａ≧０の成分の中に線形制約条件をもたらすであろう、ここで、Ｈの列は球面調和関数ｈ_nmを含む。残念ながら、目的の画像の低次近似から復元することができない高次の項を光は含むことができるので、この素朴な方法は問題である。さらに、非負の光の調和近似は、ときどき負の値を有することがある。これらの値が非負であることを強いることは、光の不正確な復元を導くであろう。以下に説明するように、照明錐が低次元空間に投射され、非負の照明を強調するためにこの投射を使用する異なる方法が論じられる。
【００９７】
任意の数の調和基底画像を使用することができる方法を最初に説明する。非負の照明関数は、それぞれ点光源を表すデルタ関数の非負の結合として書くことができる。（θ、φ）において１を返し、他の場合には０を返す関数を、δθφによって示す。この照明関数は、方向（θ、φ）において点光源を表す。デルタ関数を最初の少数の調和関数に投射するためには、デルタ関数の調和変換を調べる必要がある。関数ｆに関してδθφの内積は単にｆ（θ、φ）を返すので、デルタ関数の調和変換は次式により与えられると結論を下すことができる。
【００９８】
【数４３】

したがって、最初の少数の調和関数に対するデルタ関数の投射は、最初の少数の項のみについて和をとることにより得られる。
【００９９】
ここで、非負の照明関数ｌ（θ、φ）がデルタ関数の非負の結合として表されると考えれば、いくつかのｓに対して次式を得る。
【０１００】
【数４４】

明らかに、調和変換の直線性のために、ｌの変換は同じ係数を有するデルタ関数の変換の非負の結合である。すなわち、
【０１０１】
【数４５】

同様に、ｌにより照明された目的の画像は、次のように非負の結合として表すことができる。
【０１０２】
【数４６】

ここで、ｂ_nm＝ｋ_n・ｈ_nmである（前章参照）。
【０１０３】
画像を仮定すると、本発明の目的は、非負の係数ａ_jを復元することである。Ｎ次の近似を仮定し、空間を測るために必要とする調和関数の数を、ｒ＝ｒ（ｎ）により示す。ｒ＝ｒ（Ｎ）（たとえば、Ｎ＝２ならばｒ＝９）行列表記法では、調和関数はＨにより示され、Ｈはｓｘｒであり、ここで、ｓは球面上の標本点の数である。Ｈの列は調和関数のサンプリングを含み、一方Ｈの行はデルタ関数の変換を含む。さらに、Ｂは基底画像により示され、Ｂはｐｘｒであり、ｐは画像内の点の数である。Ｂのすべての列は、１つの調和画像ｂ_nmを含む。最後に、ａＴ＝（ａ１，…，ａｓ）と示すと、次式の非負の最小２乗法問題を解くことが、目標である。
【０１０４】
【数４７】

さらに調和画像により測られるｒ次元空間に画像を投射し、この、より小さい空間で最適化問題を解くことが可能である。そうするために、Ｂ＝ＱＲであるように、ＱＲ分割がＢに適用される。ここで、Ｑはユニタリであり、Ｒは上三角（upper triangular）である。Ｑに対してｒ列のみを維持し、最適化関数を左からＱＴにより乗算すると、
【０１０５】
【数４８】

ここで、Ｒはｒｘｒであり、Ｑ^Tはｒ−ベクトルである。
【０１０６】
この方法は、Georghides 他で提案されたものと類似であることに注目されたい。主な相違は、各モデルの調和基底画像を使用して、各モデルに対して構築された低次元空間が組み込まれていることである。１０モデルのデータベース内のモデルから描画された画像にＰＣＡを使用して構築された１００次元空間の中にすべての画像を投射した後で、類似の計算を Georghides 他は行う。本発明による方法は当業者の研究により影響を受けているが、解析的、かつ、効果的に構築することが可能な空間を組み込むことにより、本発明による方法は当業者の研究を改善していると考えられる。さらに、この空間はモデルの画像の正確な表現を提供することが知られている。
【０１０７】
４個の調和関数を使用する認識
目的の画像のセットが最大１次までのみ近似されれば、さらに単純化することができる。この場合４個の調和関数が必要である。１個は均一な周辺光の下での目的の外見を表す直流成分であり、３個は Shashua によっても使用される基底画像である。再び、光は球面に沿ってどこでも非負であるという制約条件の下で極小化されるように、‖Ｂａ−Ｉ‖（ここでＢはｐｘ４である）が試みられる。
【０１０８】
前と同じように、最初の４個の調和関数により測られる空間にデルタ関数を投射することにより、制約条件が決定される。しかし、今度はこの投射は特に単純な形式をとる。デルタ関数δθφを考える。その１次近似は、次式により与えられる。
【０１０９】
【数４９】

空間座標を使用すると、この近似は次式となる。
【０１１０】
【数５０】

数式（３１）を、非負の照明関数ｌの１次近似であるとする。
【０１１１】
【数５１】

ｌはデルタ関数の非負の結合である。このような結合が１次の係数と比較して零次の係数を減少させることができないことは、容易に検証できる。したがって、デルタ関数の任意の非負の結合は、次式を満足させなければならない。
【０１１２】
【数５２】

（光がデルタ関数であるとき相等が得られる。数式３０参照）したがって、４次元調和空間を有する物体を認識する問題を、数式３２にしたがって‖Ｂａ−Ｉ‖の極小化として表現することができる。
【０１１３】
４個の調和関数の場合、調和画像は単にアルベド、および、それぞれ何らかの因数により拡大縮小されたアルベドにより拡大縮小された面法線の成分である。したがって、それらを直接使用し、制約条件の中にスケーリング係数を隠すことが自然である。Ｉをｌによって照明された物体の画像であるとすれば、数式１８および２２を使用して、
【０１１４】
【数５３】

ここで、λおよび（ｎ_X、ｎ_y、ｎ_z）は、それぞれアルベドおよび目的の点（object point）の面法線である。閉じられていない基底画像（unsealed basis image）、λ、λ_nx、λ_ny、およびλ_nzを使用して、この数式を次式で表すことができる。
【０１１５】
【数５４】

ここで、ｂ₀＝πａ₀であり、ｂ_i＝２π／３ａ_i（１≦ｉ≦３）である。ａ_iを置換すると、次式が得られる。
【０１１６】
【数５５】

これは次式に単純化される。
【０１１７】
【数５６】

したがって、４次元の場合を解くためには、数式３４の両辺の間の差は、数式３６にしたがって極小化される。
【０１１８】
非負の光を有する最初の４個の調和画像により測られる空間内の最も近くの画像を見出すことは、単一の変数、ラグランジュの乗数を有する６次多項式に変換し得ることを次に説明する。この多項式を使用すれば、最小化問題を解くことは簡単になる。
【０１１９】
光が非負であるという制約条件の適用を受ける４次元調和空間内の最も近くの画像を見出すことは、次の一般的な形式を有する。
【０１２０】
【数５７】

ここで、Ａ（ｎｘ４），ｂ（ｎｘ１）は、ＡおよびＢ（４ｘ４）の列空間（column space）に存在する。この表現において、Ａの列は調和画像を含み、ｂは認識される画像であり、Ｂ＝ｄｉａｇ（４，−１，１，−１）である。しかし、本発明による方法は、任意の非特異行列Ｂにも使用できることを当業者は認めるであろう。
【０１２１】
最初に、線系ｍｉｎ
【０１２２】
【数５８】

を解き、この解が制約条件を満たすかどうかを調べることができる。この解が制約条件を満たすならば、１つは処理された。もしそうでなければ、制約条件が相等において満たされる場合に生ずる最低を求めなければならない。解は２つの部分に分けられる。最初の部分で問題は次の形式に変換される。
【０１２３】
【数５９】

以下に説明するように、新しい問題は６次多項式に変えることができる。
【０１２４】
段階１
Ａｂ’＝ｂであるようにｂ’を定義する（ｂがＡの列空間内にあるので、これは可能である）。したがって、Ａｘ−ｂ＝Ａ（ｘ−ｂ’）であり、この問題が次式と等価であることを意味する。
【０１２５】
【数６０】

Golub と van Loan が提案した方法（第２版、４６６−４７ｌページ、特にアルゴリズム８．７．１参照）を使用して、Ａ^TＡおよびＢが同時に対角化される。Ｘ^TＡ^TＡＸ＝ＩおよびＸ^TＢＸ＝Ｄであるように、これは非特異行列Ｘを作るであろう、Ｉは恒等行列を示し、Ｄは４ｘ４対角行列である。したがって、次式が得られる。
【０１２６】
【数６１】

ここで、Ｘ¹はＸの逆を示し、Ｘ^-Tはその転置（transpose）を示す。ｚ＝Ｘ^-1ｘであり、ｃ＝Ｘ¹ｂ’であるとすれば、次式が得られる。
【０１２７】
【数６２】

これは求める形式を有する。
【０１２８】
段階２
ここで、本発明は次の形式の問題を解くことを試みる。
【０１２９】
【数６３】

この最小化問題は、ラグランジュの乗数を使用して解かれる。すなわち、
【０１３０】
【数６４】

ｘおよびλに対して導関数をとると、次式が得られる。
【０１３１】
【数６５】

および
【０１３２】
【数６６】

最初の数式から、次式が得られる。
【０１３３】
【数６７】

Ｄは対角線であるから、ｚの成分は次式により与えられる。
【０１３４】
【数６８】

制約条件ｚ^TＤｚ＝０は、したがって次式となる。
【０１３５】
【数６９】

上式は、分母を乗算した（multiplying out）後で、λについての６次多項式になる。この多項式は、標準の技術（ＭＡＴＬＡＢ関数ｒｏｏｔｓが使用される）を使用して、効果的かつ正確に解くことが可能である。上に示すように、すべての解はｘを決定し、また最適化基準を極小化する実数の解を選択するために挿入される。
【０１３６】
実験
顔のデータベースの部分集合を使用して、本発明による認識方法について実験が行われた。この部分集合は、赤色、緑色および青色チャネル内のそれらのアルベドのモデルを含む、多くの場合、顔である３次元モデルを含んでいる。テスト画像として、７つの異なるポーズと６つの異なる照明条件で撮られた１人の個人の４２個の画像が使用された（図４に示す）。これらの実験において、各画像は各モデルと比較され、正しい答えの順位が決定された（すなわち、１の順位は正しい答えが最初に選択されたことを意味する）。データベースのこの部分集合は、この実験から何らかの確実な結論を導くことを可能にするにはあまりにも小さい。より正確に言えば、多数の異なる方法の比較を可能にするには十分小さく、その中の一部は大きいデータセットのうえで実行するにはあまりにも遅い。
【０１３７】
すべての方法を実現する場合に、最初にモデルと画像の間の３次元アライメント（「位置決め」と呼ばれる）を得なければならない。これは、当該技術分野において公知の既存の方法を使って行うことが可能である。要するに、顔の特徴は手によって認識でき、したがって、３次元特徴を対応する２次元画像の特徴と整列させるために、３次元固定変換（3D rigid transformation）を見出すことが可能である。たとえば、３次元モデルは多くの人の顔のモデルであると仮定する。認識に先だって、目の中心あるいは鼻の先端部のような特徴の位置を示す顔の上の点をクリックすることができる。入力画像が現れると、入力画像の対応する特徴をクリックすることができる。画像特徴とモデル特徴の間の一致を仮定すると、各モデルに対して、モデル特徴を入力画像特徴に最も良く一致させるような、カメラに対するその物体の位置を決定することが可能である。この位置決めを決定することは、当該技術分野において充分に研究された問題であり、多くの解が導かれている。
【０１３８】
照明条件を決定するために、顔の３次元モデル内のいずれかの点に一致した画像ピクセルに対してのみ注意が払われる。最大強度の画像ピクセルは飽和している恐れがあり、紛らわしい値を供給する恐れがあるので、最大強度の画像ピクセルも無視される。最後に、モデルおよび画像の両方が２段標本化（subsample）され、各ｍｘｍ正方形（each m x m square）をその平均値と置換する。これは、以下に説明する方法の一部、特に Georghides が、全画像に対して実行するには遅すぎるからである。Georghides の方法のわずかな変形が、近似を避けるために実行される。各モデルは、１００個の異なる点光源を使用して供給される。次に、テスト画像に加えて、これらの１００個の画像が１０１次元空間に投射され、１０１次元空間で非負の最小２乗法最適化が実行される。これは、全空間内で最適化を行うことと等価であるが、より効果的である。しかし、依然として１０１個の画像に対して特異値分割（ＳＶＤ:Singular Value Decomposition）の使用を必要とし、全部の画像に対して実行するには遅すぎる。それらの実験において、このＳＶＤはオフラインで実行されたが、これらの実験においては、ポーズが事前に知られていないので、各ポーズに対してＳＶＤがオンラインで実行されなければならない。ＳＶＤは、最も重要な成分を明確にする行列を分解する標準の方法である。しかし、本発明による方法は、正確度を著しく減少せずに、２段標本化することを、予備実験は示している。以下の実験において、すべてのアルゴリズム２段標本化は、１６ｘ１６の正方形を使用して実行された。いくつかの他のアルゴリズムも、より少ない２段標本化を使用して実行された。
【０１３９】
２段標本化された画像に対して照明条件が決定されると、照明条件はフルサイズの画像内のモデルを供給するために使用される。したがって、たとえば、本発明による方法は、描画された画像を作るために調和画像を線形に結合する方法を教える係数を作成する。これらの係数は標本化された画像に対して計算されるが、次に完全な標本化されていない画像の調和画像に適用される。この処理は、各色彩チャネルに対して、別々に繰り返された。次に、平均２乗誤差の平方根をとることにより、供給された顔のモデルとそれが交差する画像の部分の間の距離から導出された画像とモデルが比較された。これらの実験の結果を表２に示す。
【０１４０】
【表２】

表２において、「Georghides」は、点光源を使用して生成された画像の非負の結合と画像を照合することにより、照明を見出す結果を示す。「非負の光４、および９」は、照明が正であるという制約条件に加えて、４次元および９次元の調和基底画像を使用する本発明による方法を示す。「線形９」は、９次元空間を使用する本発明による線形法を示す。表２は、より少ない２段標本化を使用する「線形９」を適用する結果も示す。「正しいパーセント」は、画像のどれだけの部分が正しい答えに一致したかを示す。表２は、さらに「平均順位」を示す。ここで、ｋの順位は正しい答えがｋ番目に選ばれたことを示す（すなわち、１の順位は正しい答えが選択されたことを意味する）。９次元調和基底を使用する本発明による方法は、既存の方法より正確であることが判る。４次元調和関数は、それほど正確ではないかもしれないが、他の方法よりはるかに効果的である。
【０１４１】
本発明による好適実施例と考えられるものを示し説明したが、本発明の技術思想から逸脱することなく、形式あるいは細部のさまざまな修正および変更が容易に行えることは、当然理解されよう。したがって、本発明は説明し例示した正確な形式に限定されるものではなく、添付した特許請求の範囲内に含まれるすべての修正を含むように、構成されていると解釈される。
【０１４２】
【発明の効果】
本発明は以上説明したように構成されているので、従来技術による方法の欠点を克服するような、入力画像に最も類似している複数の３次元モデルから画像を選択することを、複雑な反復最適化技法を使用することなく、より効率的、かつ、より速く実行できるような、入力画像に最も類似している複数の３次元モデルから画像を選択することができる効果がある。
【図面の簡単な説明】
【図１】数式（９）の係数のグラフ表示を示す。
【図２】ランベルトの核の１次元スライスおよびそのさまざまな近似を示す。
【図３】顔の３次元モデルから導出された最初の９個の調和画像を示す。
【図４】本発明による方法の実験で使用されたテスト画像を示す。

Claims

コンピュータに入力された入力画像データに最も類似の複数の３次元モデルから画像データを選択する方法であって、前記方法は、
（ａ）複数の３次元モデルのデータベースを供給する段階であって、各３次元モデルの表面上の各点の位置と、各点において反射される光の部分を認識する少なくとも１つの対応する識別子を割り当てる段階と、
（ｂ）コンピュータに入力画像データを供給する段階と、
（ｃ）各３次元モデルを前記入力画像データに対して位置決めする段階と、
（ｄ）
（ｉ）前記３次元モデルに対して線形部分空間を計算することであって、前記線形部分空間内の各点が実現可能な画像を表すすべての可能な照明条件の下で各３次元モデルが作ることができる、すべての可能な描画された画像のセットに対して各点における面法線との間の立体角と、前記少なくとも１つの対応する識別子とから多項式を計算することによって得られる近似解である線形部分空間を計算することと、
（ｉｉ）前記入力画像データに最も近い前記線形部分空間上の前記点を見出すことによって、
各３次元モデルに対して、前記入力画像データに最も類似している描画された画像データを決定する段階と、
（ｅ）前記入力画像データと各描画された画像データの間の類似の程度を計算する段階と、
（ｆ）類似の程度が前記入力画像データに最も類似している前記描画された画像データに対応する前記３次元モデルを選択する段階を有する入力画像データに最も類似の複数の３次元モデルから画像データを選択する方法。
コンピュータに入力された入力画像データに最も類似の複数の３次元モデルから画像データを選択する方法であって、前記方法は、
（ａ）複数の３次元モデルのデータベースを供給する段階であって、各３次元モデルの表面上の各点の位置と、各点において反射される光の部分を認識する少なくとも１つの対応する識別子を割り当てる段階と、
（ｂ）コンピュータに入力画像データを供給する段階と、
（ｃ）各３次元モデルを前記入力画像データに対して位置決めする段階と、
（ｄ）
（ｉ）前記３次元モデルに対して線形部分空間を計算することであって、前記線形部分空間内の各点が実現可能な画像を表すすべての可能な照明条件の下で各３次元モデルが作ることができる、すべての可能な描画された画像のセットに対して各点における面法線との間の立体角と、前記少なくとも１つの対応する識別子とから多項式を計算することによって得られる近似解である線形部分空間を計算することと、
（ｉｉ）正の光によって生成された画像の前記セットを、前記線形部分空間に投射することにより得られる前記線形部分空間の部分集合内の描画された画像データを見出すことによって、
各３次元モデルに対して、前記入力画像データに最も類似している描画された画像データを決定する段階と、
（ｅ）前記入力画像データと各描画された画像データの間の類似の程度を計算する段階と、
（ｆ）前記入力画像データに最も類似している前記描画された画像データに対応する前記３次元モデルを選択する段階を有する入力画像データに最も類似の複数の３次元モデルから画像データを選択する方法。
段階（ａ）は、所定の照明条件の下で撮られた一連の画像データから各３次元モデルを構築することを含む請求項１または請求項２記載の方法。
前記少なくとも１つの対応する識別子は、赤、青および緑色の光がどれぐらい反射されるかのそれぞれに対して１つずつの、３個のアルベドを有する請求項１または請求項２記載の方法。
段階（ｂ）は、２次元入力画像を供給することを含む請求項１または請求項２記載の方法。
段階（ｃ）は、前記３次元モデルおよび前記入力画像の上の所定の点を整列させることを含む請求項１または請求項２記載の方法。
段階（ｄ）が、各３次元モデルに対して赤、緑および青色成分の各々に対して繰り返される請求項１または請求項２記載の方法。
前記線形部分空間は、４次元である請求項１または請求項２記載の方法。
前記線形部分空間は、９次元である請求項１または請求項２記載の方法。
段階（ｅ）は、前記入力画像と各描画された画像の間の差の大きさを判定することを含む請求項１記載の方法。
段階（ｄ）（ｉｉ）は、線形射影を使用して、前記入力画像に最も近い前記線形部分空間内の前記点を計算することを含む請求項１記載の方法。
前記線形部分空間は、４次元であり、段階（ｄ）（ｉｉ）は、非負の照明を使用して６次多項式を解くことにより、各３次元モデルの画像を描画することを含む請求項２記載の方法。
前記線形部分空間は、９次元であり、段階（ｄ）（ｉｉ）は、単一の方向から来る前記９次元の空間に投射された光を使用して生成された画像の凸の結合である前記描画された画像を見出すことを含む請求項２記載の方法。
前記描画された画像は、非負の最小２乗法アルゴリズムを使用して見出される請求項１５記載の方法。