JP3818369B2 - 入力画像に最も類似の複数の3次元モデルから画像を選択する方法 - Google Patents
入力画像に最も類似の複数の3次元モデルから画像を選択する方法 Download PDFInfo
- Publication number
- JP3818369B2 JP3818369B2 JP2001327833A JP2001327833A JP3818369B2 JP 3818369 B2 JP3818369 B2 JP 3818369B2 JP 2001327833 A JP2001327833 A JP 2001327833A JP 2001327833 A JP2001327833 A JP 2001327833A JP 3818369 B2 JP3818369 B2 JP 3818369B2
- Authority
- JP
- Japan
- Prior art keywords
- image data
- dimensional model
- input image
- image
- dimensional
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Lifetime
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T15/00—3D [Three Dimensional] image rendering
- G06T15/50—Lighting effects
- G06T15/506—Illumination models
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/213—Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
- G06F18/2135—Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods based on approximation criteria, e.g. principal component analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/60—Extraction of image or video features relating to illumination properties, e.g. using a reflectance or lighting model
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/7715—Feature extraction, e.g. by transforming the feature space, e.g. multi-dimensional scaling [MDS]; Mappings, e.g. subspace methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/168—Feature extraction; Face representation
- G06V40/169—Holistic features and representations, i.e. based on the facial image taken as a whole
Description
【発明の属する技術分野】
本発明はコンピュータビジョンに関し、特に、画像認識とモデル再構成システムに関する。
【0002】
【従来の技術】
コンピュータビジョンにおける最も基本的な問題の1つは、照明の可変性が、物体が作ることができる画像にどのように影響を与えるかを理解することである。光が等方性であり、物体から比較的遠く離れているときでも、平坦なランベルトの物体が画像の無限次元のセットを作ることができることが明らかにされている。
【0003】
すべての画像の空間の低次元の線形部分空間を使用して、物体が作ることができる画像のセットを表すことが、物体認識では非常に普及している。拡大縮小された正射影を受ける3次元の点のセットに対するこのような表現を解析的に導出した当業者がいる。さらに別の当業者は、照明の変化につれてランベルトの物体により作られる画像のセットの3次元線形表現を導いたが、面法線が光から離れて対向する場所では、この単純化された表現は負の強度を与える。別の当業者は、この線形表現を使って3次元モデルを構築するために、因数分解を使用している。さらに別の当業者は、照明に対する拡散成分を考慮して、これを4次元空間に拡張した。これらの解析的に導出された表現はかなり単純な設定に限定され、変化がもっと複雑な光源に対しては、クラス変化(class variation)およびポーズおよび照明の変化の中で記録する(capture)表現を作るために、研究者は画像の大きいセットを収集し、主成分分析(PCA:Principal Component Analysis)を行った。PCAは、データセットを最も良く表す線形部分空間を見出す数値的な技術である。画像の大きいセットという条件のもとで、最も密接に画像と適合する低次元線形部分空間をPCAは見出す。多様な照明条件で撮られた実物体の多数の画像が低次元線形空間の近くに存在することを示し、この表現を正当化する実験が当業者により行われた。より最近では、照明が正に制限される場合、物体の画像が凸の容積(convex volume)を占めることを指摘する非線形表現が使用される。"Illumination Cones for Recognition Under Variable Lightning: Faces", A.Georghiades et al, CVPR98: 52-59, 1998、"From Few to Many: Generative Models for Recognition Under Variable Pose and Illumination", A.Georghiades et al, ならびに、顔およびジェスチャーの自動認識に関する国際会議2000(総称して「Georghides」と呼ぶ)は、物体認識のためにこの表現を使用している。
【0004】
異なる物質の双方向反射関数(BRDF: Bi-Directional Reflection Function)を効率的に表すために、グラフィックス文献においては球面調和関数が使用される。球面調和関数基底(spherical harmonics basis)を、半球に、より適した異なる基底で置換することが提案されている。M. Landy、および、J. Movshonによる編集のComputational Models of Visual Processing における"Shading Ambiguity: Reflectance and Illumination" M. D'Zmoura, 1991(以下「D'Zmoura」と呼ぶ)では、入射光を反射に変えるプロセスは球面調和関数の見地から見て説明できることを指摘した。この表現を使用して、高次成分を切り捨てた後に、反射プロセスは線形変換と表すことができ、したがって、線形変換を反転することにより、照明の低次成分を回復することができる。この分析を、D 'Zmoura は照明におけるあいまい性を探究するために使用した。本発明は、反射率関数のために部分空間結果を導出し、基底画像の解析的な記述を提供し、非負の照明を補強しながら、この分析を使用する新しい認識アルゴリズムを組み立てることによって、D 'Zmoura の研究を拡張する。本明細書には、Georghiades およびD 'Zmoura を参考文献として含む。
【0005】
【発明が解決しようとする課題】
従来技術を考慮すると、これらの部分空間の当該部分から正の照明条件に対応して作ることができ、物体が作ることができる画像のセットを正確に近似する低次元の線形部分空間を、解析的に見出す方法を示すコンピュータビジョン・システムの必要がある。これらの説明は、認識およびモデル作成の両方に対して次に使用することができる。
【0006】
したがって、従来技術による方法の欠点を克服するような、入力画像に最も類似している複数の3次元モデルから画像を選択する方法を提供することが本発明の目的である。
【0007】
本発明による別の目的は、従来技術による方法よりも、より効率的、かつ、より速く実行できるような、入力画像に最も類似している複数の3次元モデルから画像を選択する方法を提供することである。
【0008】
本発明によるさらに別の目的は、複雑な反復最適化技法を使用せずに実行できるような、入力画像に最も類似している複数の3次元モデルから画像を選択する方法を提供することである。
【0009】
【課題を解決するための手段】
照明の変化は、物体の外見に著しい影響を及ぼすことがある。本発明は、ランベルトの物体の場合に対しての上記の可変性について、新規な特徴付けを提供する。ランベルトの物体とは、ランベルトの法則によって光を反射する表面を有する物体であるJ.Lambert"Photometria Sive de Mensura et Gradibus Luminus, Colorum et Umbrae"、Eberhard Klett、1760、参照。最初に、球面調和関数を使用して照明が表され、ランベルトの物質の効果がたたみ込みの相似として説明される。これは信号処理における周波数領域内の計算過程と類似している。次に、ランベルトの物体のほとんどすべての外見は、球面調和関数として表される場合、照明の最初の9個の成分によって判定されることを示すことが可能である。ランベルトの物体により作られるすべての反射率関数(面法線から強度へのマッピング)は、9次元線形部分空間の近くに存在することが証明でき、従来の経験的な結果を説明している。本発明は、物体が作ることができる画像の線形空間の単純な解析的な説明をさらに提供する。これは、線形法にもとづく物体認識アルゴリズム、あるいは、凸の最適化を使用する非負の照明関数を実行する物体認識アルゴリズムにおいて容易に使用することができる。物体の画像の4次元線形近似が十分である場合には、非負の照明は非常に簡単に実行できることを本発明は示す。
【0010】
本発明は、光の任意の構成に対してランベルトのモデルの下で作られた反射率関数のセットを分析する。このような反射率関数は、本質的に低域フィルタとして作用する核を使用して、光のたたみ込みの相似によって作られることが示される。本発明は、通常の照明条件の下で、たとえば、9次元線形部分空間は、反射率関数の可変性の99.2%の原因となることを解析的に証明するために、このことと光の非負値性を使用する。最悪の場合には、この9次元空間は可変性の98%の原因となる。このことは、一般に凸のランベルトの物体の画像のセットは、低次元線形空間によって正確に近似できることを示唆している。物体モデルに対してこの部分空間を解析的に導出する方法を、本発明はさらに示す。この結果は、既存の認識アルゴリズムを新しく解明し、さまざまな光とポーズの下での認識とモデル構造に対して多数の新しく効率的なアルゴリズムを導く。
【0011】
したがって、入力画像に最も類似している複数の3次元モデルから画像を選択する方法が提供される。
【0012】
本発明による方法は、
(a)複数の3次元モデルのデータベースを供給する段階と、
(b)入力画像を供給する段階と、
(c)各3次元モデルを前記入力画像に対して位置決めする段階と、
(d)
(i)線形部分空間を計算することであって、前記線形部分空間内の各点が実現可能な画像を表すすべての可能な照明条件の下で各3次元モデルが作ることができる、すべての可能な描画された画像のセットに対する近似を説明する線形部分空間を計算することと、
(ii)前記入力画像に最も近い前記線形部分空間上の前記点を見出すことによって、あるいは、正の光によって生成された画像の前記セットを、前記線形部分空間に投射することにより得られた前記線形部分空間の部分集合内の描画された画像を見出すことによって、
各3次元モデルに対して、前記入力画像に最も類似している描画された画像を決定する段階と、
(e)前記入力画像と各描画された画像との間の類似の程度を計算する段階と、(f)類似の程度が前記入力画像に最も類似している前記描画された画像に対応する前記3次元モデルを選択する段階を有する。
【0013】
段階(d)は、各3次元モデルに対して、赤、緑および青色成分の各々に対して繰り返されることが望ましい。線形部分空間は、4次元あるいは9次元のいずれかであることが望ましい。
【0014】
【発明の実施の形態】
次に、本発明の実施例について説明する。
【0015】
光が等方性であり物体から遠い場合、強度を方向の関数として表現することにより、光を特徴づけることができる。すべての実現可能な照明条件のセットは、したがって、球の表面の上のどこでも正であるすべての関数のセットと等価である。本発明による方法は、球面調和関数を使用してこれらの関数の表現を選定することから始まる。球の表面上であることを除いて、これはフーリエ分析に類似している。球面調和関数は単位球内に含まれる関数を表現し、球面調和関数は球の表面に対するこれらの関数の限定となる。表面が光を画像に変える方法をモデル化するために、本発明は(単位アルベドを仮定した)面法線の関数として反射率に注目する。本発明は、ランベルトの反射を表す核を有する照明関数のたたみ込みの相似によって、反射率関数が作られることを示す。照明の変化による物体の外見のあいまい性を検出するために、D 'Zmoura はこのような分析を使用した。一定でない物質から作られた物体に起きることを説明し、非ランベルトの反射率関数を処理するために、この単純な概念にわずかな複雑さが加えられる。
【0016】
この概念を使用して、ランベルトの核が低域フィルタであり、このフィルタは解析的に説明できることを示すことが可能である。したがって、多くの通常の照明条件に対して、物体の外見の変化の多くが照明関数の調和変換の最初の4つの成分に依存し、ほとんどすべての変化は最初の9つの成分により説明されることを、解析的に示すことが可能である。実際に、光が著しく高周波パターンを有するときでも、近似の特性はきわめて僅かしか劣化しない。任意の照明関数の下の近似の特性の下限が導かれる。このことは、経験的な観察という第1の原理から、物体のほとんどの画像が低次元線形部分空間の近くに存在するという解釈をもたらす。さらに、過去には描画された画像の大きいセットにPCAを実行することに努力があてられていたが、この線形部分空間はモデルから解析的に導くことができる。
【0017】
照明の変化をいかに線形に近似するかの方法のこの解析的な理解は、多数の結果の核心を形成する。第1に、いくつかの既存の認識およびモデル構築法の有用性のより良い評価を、この解析的な理解は可能にする。たとえば、従来技術による線形部分空間法は、実際には3つの1次調和関数にわたる線形空間を使用することに基づいているが、重要な直流成分を除いていることを示すことが可能である。第2に、この解析的な理解は、未知のポーズおよび照明条件を有する物体を識別する新しい方法を導く。特に、さまざまなポーズおよび照明の下での認識に対して、解析的に導かれた低次元空間の中で動作するアルゴリズムが提供される。最後に、4次元線形部分空間が適切な近似をもたらす場合に対して、複雑な反復最適化技術を使用せずに、認識を非常に効率的に実行することができる。
【0018】
画像形成のモデリング
遠い等方性の光源により照明されている凸の物体を考える。物体の表面はランベルトの法則にしたがって光を反射するものと、さらに仮定する。この比較的単純なモデルは、多くの視覚応用で解析され、効果的に使用されてきた。この解析は、非ランベルト物体に拡張することができる。任意の光で得られるランベルトの物体の画像のセットは、当該技術分野における1部の人々により「照明錐」(illumination cone)と呼ばれている。本発明の目的は、照明錐の特性を解析することである。異なる照明条件の下で得られた反射率関数のセットを考えることが、解析のために有用であろう。特有の照明構成(lighting configuration)と組み合わされた反射率関数が(反射率マップ・ホーン(reflectance map Horn)とも呼ばれる)、面法線の関数として単位アルベドの球により反射される光と定義される。反射率関数は、次のマッピングによって同じ照明構成により照明された凸の物体の画像に関係する。物体の表面の上のすべての可視点は、同じ法線を有する球面上の点からの強度を継承し、この強度はその点におけるアルベドによりさらに拡大縮小される。このマッピングの効果を以下に説明する。
【0019】
たたみ込みの相似としての画像形成
Sは原点を中心とする単位球を示すとする。p=(x、y、z)はSの表面の上の点を示し、Np=(x、y、z)はpにおける面法線を示すとする。pは、次の表記法を使用して単位ベクトルとしても表すことができる。
【0020】
【数1】
【0021】
ここで、0≦θ≦πであり、0≦φ≦2πである。この座標フレームにおいて、極は(0,0,±1)に置かれ、θはpと(0,0,1)の間の立体角を示し、緯度と共に変化し、φは経度と共に変化する。
【0022】
球面は遠い等方性の光のセットにより照明されていると仮定されるので、球面上のすべての点はこれらの光が同じ方向から来ると見る、また球面上のすべての点は同一の照明条件により照明されている。したがって、球面を照明する光の構成は、各方向(θ、φ)から球面に到達する光の強度を表す非負の関数l(θ、φ)として表すことができる。さらに、ランベルトの法則によれば、各点により反射される光の差は、それらの面法線における差に完全に依存する。したがって、球面により反射される光は、そのドメインが球面の面法線のセットである関数r(θ、φ)と表すことができる。
【0023】
ランベルトの法則によれば、アルベドλを有する表面点に、強度lの光線がその点における面法線と角度θをなすように到達すれば、その点により反射されるこの光による強度は次式で与えられる。
【0024】
【数2】
【0025】
ここで、一般性を失うことなく、λ=1であると仮定する。光が多数の方向から点に到達すれば、その点により反射される光は、各方向に対する寄与の和(あるいは連続した場合には積分)であろう。k(θ)=max(cosθ,0)と示せば、たとえば、点(0,0,1)の強度は次式で与えられる。
【0026】
【数3】
【0027】
同様に、点p=(θ、φ)により反射される強度r(θ、φ)は、kをpについて中心を合わせ、その内積を球面上のlで積分することにより得られる。したがって、r(θ、φ)を作る演算は、球面上のたたみ込みの相似である。これはたたみ込みと呼ばれ、次式となる。
【0028】
【数4】
【0029】
このたたみ込みkの核は、円対称な余弦関数の正の部分の関数である。たたみ込みは、その中心がpにおける面法線と整列するようにkを回転することにより得られる。これは、無定義の核の回転に1つの自由度を依然として残すが、kが回転対称であるので、このあいまい性は消滅する。
【0030】
たたみ込み核の特性
フーリエ基底が平面内のたたみ込みの結果を調べるのに向いているように、球面上のたたみ込みの相似の結果を理解するために、類似のツールが存在する。球面調和関数は、球面の表面上のすべての関数のセットに対する正規直交基を形成する1組の関数である。これらの関数は、n=0,1,2,...および−n≦m≦nとして、hnmにより示される。
【0031】
【数5】
【0032】
ここで、Pnmは、次式により定義されるルジャンドル陪関数である。
【0033】
【数6】
【0034】
核kおよび照明関数lは、調和級数として、すなわち、球面調和関数の線形結合として表される。球面調和関数に対してたたみ込み定理に相似が利用できるように、これは主として行われる。ファンク・ヘッケの定理の直接の結果は、関数領域における「たたみ込み」は調和領域における乗算と等価であることである。(たとえば、H・Groemer、フーリエ級数および球面調和関数の幾何学的応用、ケンブリッジ大学出版局、参照)以下に説明するように、kの表現は調和級数として導出される。この誘導は、kがほぼ低域フィルタであることを示すために使用される。具体的にいうと、kのエネルギーのほとんどすべては、最初の少数の調和関数に存在する。これは、球面の実現可能な反射率は、球面上に定義されたすべての関数の空間の低次元の線形部分空間の近傍にあることを示すことを可能とするであろう。
【0035】
次に、調和級数としてのkの表現を導くことができる。要するに、kは極について回転対称であるから、座標フレームの適切な選択の下で、そのエネルギーは帯球調和関数(m=0の調和関数)内に排他的に集中するが、m≠0のすべての調和関数の係数は消滅する。したがって、kは次式で表現することができる。
【0036】
【数7】
【0037】
ランベルトの核は、k(θ)=max(cosθ,0)により与えられ、ここでθは光の方向と面法線の間の立体角を示す。kの調和変換は次式で定義される。
【0038】
【数8】
ここで、係数anmは次式で与えられる。
【0039】
【数9】
一般性を失うことなく、球面上の座標系は次のように定められる。極の1つがkの中心に位置を定められると、θは経度に沿った角度を表し、0からπまで変化し、φは緯度に沿った角度を表し、0から2πまで変化する。この座標系において、kはφから独立しており、極の周りに回転対称である。したがって、すべてのそのエネルギーは、帯球調和関数(m=0の調和関数)の間で分割され、すべてのm≠0に対する係数は消滅する。
【0040】
係数に対する明示的な形式が次に決定される。最初に、θについてπ/2までにのみ積分することによって、積分を余弦関数の正の部分に制限することができる、すなわち、
【0041】
【数10】
次に、m=0成分のみが消滅しないので、kn=kn0と示せば、
【0042】
【数11】
したがって、
【0043】
【数12】
ここで、Pn(Z)は次式により定義されるn次のルジャンドル陪関数である。
【0044】
【数13】
z=cosθを置換すると、次式が得られる。
【0045】
【数14】
ここで、次式の積分を計算する。
【0046】
【数15】
この積分は次式に等しい。
【0047】
【数16】
部分積分すると次式を得る。
【0048】
【数17】
第1項は消滅し、次式が残される。
【0049】
【数18】
この数式はz=1に対して消滅し、したがって次式を得る。
【0050】
【数19】
ここで、
【0051】
【数20】
n−2導関数を除くと、指数がn−2未満であるすべての項は消滅する。さらに、z=0における導関数が評価されるので、指数がn−2を超えるすべての項は消滅する。したがって、指数が2k=n−2である項のみが残存する。n−2係数をbn-2と示せば、nが奇数であればbn-2=0であり、nが偶数であれば次式となる。
【0052】
【数21】
この場合、
【0053】
【数22】
であり、次式を得る。
【0054】
【数23】
上記の誘導はn≧2に対して成立する。n=0およびn=1である特殊な場合は、別に処理されるべきである。第1の場合はP0(z)=1であり、第2の場合はP1(z)である。n=0に対して、積分は次式となる。
【0055】
【数24】
またn=1に対しては、次式となる。
【0056】
【数25】
したがって、
【0057】
【数26】
この長い操作の後に、次式が得られる。
【0058】
【数27】
最初の少数の係数は、たとえば、次式となる。
【0059】
【数28】
(k3=k5=k7=0)係数のグラフ表示を図1に示す。図1は左から右へ、ランベルトの核の最初の11個の係数のグラフ表示、係数のそれぞれにより収集された相対エネルギー、累積されたエネルギー、および累積されたエネルギーに対するズームインを示す。
【0060】
すべての調和関数項により収集されたエネルギーは、変換された関数の全2乗エネルギーにより除算された各係数の2乗により共通に測定される。余弦関数の正の部分の関数内の全2乗エネルギーは、次式で与えられる。
【0061】
【数29】
(10)
表1は、最初のいくつかの係数のそれぞれにより収集された相対エネルギーを示す。表1の1番上の行は、ランベルトの核(0≦n≦8)に対するn次の帯球調和関数により収集されたエネルギーを示す。表1の中央の行は、n次まで累積された累積エネルギーを示す。この累積エネルギーは、(相対2乗誤差で測定された)r(θ、φ)のn次近似の特性を表す。1番下の行は、光の非負値性によるこの近似の特性の下限を示す。n=3、5、および7は、エネルギーに寄与しないので、除かれている。表1に示す相対エネルギーは、百分率で与えられている。核は最初の3個の係数により支配されていることが判る。したがって、2次近似がすでにエネルギーの99.22%を占めている。この近似を使用して、余弦関数の正の部分の関数は次式で表すことができる。
【0062】
【数30】
近似の特性は、4次項の加算である程度改善され(99.81%)、1次近似が使用される場合には87.5%に劣化する。図2は、ランベルトの核の1次元スライス、ならびに、左から右へ、それぞれ、その1次、2次、および3次近似を示す。
【0063】
【表1】
反射率関数の線形近似
ランベルトの核のエネルギーの大部分が低次の項に集中しているという事実は、単位アルベドの球面の反射率関数のセットが、低次元線形空間によって良く近似できることを意味している。この空間は、調和反射率と呼ばれるものの小さいセットによって測られる。調和反射率rnm(θ、φ)は、球面が調和「光」hnmにより照明されている場合の球面の反射率を示す。調和光(harmonic light)は一般にどこにおいても正ではなく、したがって調和光は現実に存在する物理的照明条件に対応しないことに注意されたい。調和光は抽象である。以下に説明するように、すべての反射率関数r(θ、φ)は、少数の調和反射率の線形結合によって、優れた正確度で近似されるであろう。
【0064】
近似の特性を評価するために、例として、z方向(θ=φ=0)において点光源により生成された照明をまず考える。点光源はデルタ関数である。点光源により照明された球面の反射率は、核を有するデルタ関数のたたみ込みにより得られ、核自身をもたらす。たたみ込みの直線性のために、点光源による反射率が最初の3つの帯球調和関数r00、r10、およびr20の線形結合により近似されれば、エネルギーの99.22%は次式により占められている。
【0065】
【数31】
ここで、ランベルトの核kは、z方向において点光源により照明されている場合の球面の反射率である。同様に、1次および4次近似は、それぞれ87.5%および99.81%の正確度をもたらす。
【0066】
球面がz方向以外の方向の単一の点光源により照明されていれば、得られる反射率は核と同じであるが、位相がシフトしている。関数の位相をシフトすることは、同じ次数n(さまざまなm)の調和関数の間にそのエネルギーを分配するが、各nの全エネルギーは維持される。したがって、近似の特性は同じままであるが、n次近似に対して、すべてのmに対してn≦Nを有するすべての調和関数を使用することが必要とされる。すべての次数nに、2n+1の調和関数が存在することを想起されたい。したがって、1次近似は4個の調和関数を必要とする。2次近似はさらに5個の調和関数を追加し、9次元空間をもたらす。3次の調和関数は核により除外されるので、勘定に入れる必要がない。最後に、4次近似はさらに9個の調和関数を追加し、18次元空間をもたらす。
【0067】
光が単一の点光源を有する場合、最初の少数の係数Ki(1≦i≦N)により収集されるエネルギーは、反射率関数の近似の正確度を直接示していることが判る。他の光構成(light configuration)は、異なる正確度を導く可能性がある。低周波の増強拡散成分(enhanced diffuse component)を光が含んでいる場合は、より良い近似が得られる。光が主に高周波パターンを含んでいれば、より悪い近似が予期される。
【0068】
しかし、たとえ光が主として高周波パターンを含んでいるとしても、近似の正確度は依然として非常に高いことが分かる。これは光の非負値性の結果である。任意の光関数に対する近似の正確度の下限は、次のように導くことができる。任意の非負の関数に対して、直流成分の振幅が、どの他の成分の振幅と比べても少なくとも同じぐらい高くなければならないことを示すことは簡単である。これを理解する1つの方法は、そのような関数をデルタ関数の非負の和として表すことである。このような和において、直流成分の振幅は、異なるデルタ関数のすべての直流成分の振幅の加重和である。他のいずれの周波数の振幅も、せいぜい同じレベルに到達することが可能であるが、多くの場合は干渉のためにより低いであろう。したがって、n次近似では、Nより高いすべての周波数の振幅が直流成分と同じ振幅に飽和するとき、最悪の筋書きとなるが、1≦n≦N次の振幅は零に設定される。この場合、相対2乗エネルギーは、次式となる。
【0069】
【数32】
表1は、いくつかの異なる近似に対して得られる限界を示す。2次近似(9個の調和関数を含む)を使用すると、任意の光関数に対する近似の正確度は97.96%を超えることが分かる。4次近似(18個の調和関数を含む)を使用すると、正確度は99.48%を超える。すべての高次の項が飽和している場合には(実際には一般的に)、いくつかの負の値を有する関数をもたらすので、数式13で計算した限界は厳密ではないことに注意されたい。したがって、最悪の場合の正確度は、限界より高くなることもある。
【0070】
調和反射率の生成
反射率関数を近似する空間に基底を構築することは、容易であり、解析的に行うことができる。基底を構築するためには、ファンク・ヘッケの定理が使われる。この空間は調和反射率、すなわち、単位アルベド球が調和光により照明されているときに得られた反射率により測られることを想起されたい。これらの反射率は、単一の調和関数を使用して半余弦核(half cosine kernel)にたたみ込みを行った結果である。球面調和関数の正規直交性のために、このようなたたみ込みは、他の調和関数のいずれにもエネルギーを生じさせることはできない。したがって、調和光をhnmにより示すと、この調和関数による反射率は、同じ調和関数であるが、拡大縮小されている。形式的には、
【0071】
【数33】
同じ次数nで異なる位相mの調和関数は、同じスケール・ファクタcnを共有することは容易に検証できる。したがってcnを決定すればよい。
【0072】
cnを決定するために、光がz方向に中心を合わせたデルタ関数であるとき、半余弦核kは得られた画像であるという事実が使用される。デルタ関数の変換は次式により与えられる。
【0073】
【数34】
またデルタ関数の変換が作る画像は次式である。
【0074】
【数35】
ここで係数knは、数式8で与えられる。cnは、たたみ込みに引き続いて調和関数がどれだけ拡大縮小されるかを決定する。したがって、cnはknとデルタ関数の各係数の間の比率である。すなわち、
【0075】
【数36】
−n≦m≦n(およびr3m=r5m=r7m=0)に対して、最初の少数の調和反射率は次式により与えられる。
【0076】
【数37】
調和反射率の構築のためには、角度(θ、φ)よりも空間座標(x、y、z)を使用して調和関数を表現することが有用である。これは、角度の代わりに次式を代入することにより、行うことができる。
【0077】
【数38】
したがって、最初の9個の調和関数は次のようになる。
【0078】
【数39】
ここで、上付きの添字eおよびoは、それぞれ調和関数の偶数および奇数の成分を示す。
【0079】
【数40】
mの符号に応じて; 実際に、調和関数の偶数および奇数のバージョンは、反射率関数が実数であるから、実際に使用するにはより好都合である。)これらの空間座標において、調和関数は単純な多項式であることに注目されたい。以下に説明するように、hnm(θ、φ)およびhnm(x、y、z)は、それぞれ角座標および空間座標において表現される調和関数を示すために常に使用される。
【0080】
反射率から画像へ
ここまで、任意の光によって単位アルベド球を照明することにより得られた反射率関数が解析された。本発明の目的は、変化する照明の下で見られる物体の画像のセットを効果的に表すために、この解析を使用することである。一定の照明条件の下の物体の画像は、各反射率関数から単純な方法で構築することができる。物体の各点は、法線が同じである球面上の点から強度を継承する。この強度は、そのアルベドによりさらに拡大縮小される。換言すれば、反射率関数r(x、y、z)を与えると、面法線n(nx、ny、nz)およびアルベドλを有する点pの画像は、次式により与えられる。
【0081】
【数41】
モデルの画像に対するこの低次元線形近似の正確度が、画像に対する反射率関数からマッピングによって、如何に影響を受ける可能性があるかを次に説明する。2つの点が考えられる。第1に、最悪の場合には、これはこの近似を任意に悪くすることができる。第2に、代表的な場合には、それはこの近似の正確度を低下させることはないであろう。
【0082】
反射率関数を画像に変えるための2つの要素がある。1つは、点のx、y位置に再配置があることである。すなわち、特定の面法線は、単位球の上の1つの位置に出現し、画像内では完全に異なる位置に出現することもある。この再配置は、この近似に対して効果がない。画像は、各座標がピクセルの強度を表す線形部分空間内で表される。どのピクセルがどの座標が任意であるかを表すべきかの決定、および(x、y)から面法線へのマッピングを再配置することによるこの決定の変更は、空間の座標を再整理することとなる。
【0083】
画像と反射率関数の間の第2の、より著しい差は、オクルージョン(occlusion)、形状変化およびアルベド変化が、球面上の各面法線が画像の決定に役立つ効果をもたらすことである。たとえば、オクルージョンは、球面上の面法線の半分が、カメラから離れる方向に向かい、可視の強度を作らないであろうことを保証する。不連続な表面は、いくつかの面法線を含まない可能性が有り、平坦な細片を有する表面は、拡張された領域の上に単一の法線を有するであろう。これらの両極端の間で、点における曲率は、その面法線が画像に寄与する程度を決定するであろう。アルベドは、類似の効果を有する。点が黒(零アルベド)であれば、その面法線は画像に対して効果を持たない。エネルギーに関しては、より暗いピクセルは、より明るいピクセルよりも画像に寄与しない。全体として、単位球上の各点の反射率が画像に影響を与える程度がゼロから全体の画像に及ぶことができることを認めることによって、これらの効果は得られる。
【0084】
最悪の場合に、これがこの近似を任意に悪くする可能性があることを示す例を説明する。最初に、任意の単一の点において、関数に対する低次調和近似が任意に悪い状態であり得ることに気付くべきである(これはフーリエ領域におけるGibbsの現象に関連づけることができる)。一定のアルベドの球である物体の場合を考える。光が観察方向の反対方向から来るなら、光はどの可視ピクセルも照明しない。物体の境界線上の1個のピクセルのみを照明するように、光を僅かにシフトすることができる。光の強度を変えることにより、このピクセルに任意の所望の強度を与えることが可能である。一連の光が、球面の縁の上のすべてのピクセルに対して、これを行うことができる。このようなピクセルがn個あれば、得られた画像のセットは、n次元空間の正の象限を完全に占める。明らかに、この空間内の点は、任意の9次元空間から任意に遠く離れることができる。起きていることは、画像内のすべてのエネルギーが、近似がたまたま劣っている面法線に集中していることである。
【0085】
しかし、一般に、物事はそれほど悪くはない。一般に、オクルージョンは単位球上の法線の任意の半分を不可視にするであろう。アルベド変化および曲率は、一部の法線を強調し、他のものには重点を置かないであろう。しかし一般には、その反射率が不完全に近似された法線は、任意の他の反射率以上には強調されないであろう。また、全単位球上の反射率の近似は、画像内で可視の強度を作るピクセルとほぼ同じに良いと予想される。
【0086】
したがって、反射率関数に対する部分空間結果(subspace result)は、物体の画像に対して継続すると想定される。したがって、物体の画像のセットは、bnmと示される調和画像と呼ばれるものにより測られる線形空間によって近似される。これらは、調和光の下で見られる物体の画像である。これらの画像は、次のように数式22のように構築される。
【0087】
【数42】
b00は、一定の周辺光の下で得られた画像であり、したがって、単に表面アルベドを含んでいることに注目されたい。(スケーリング・ファクタまで)1次の調和画像b1mは、3つの主な軸に中心を合わせた余弦照明(cosine lighting)の下で得られる画像である。これらの画像は、アルベドによって拡大縮小された面法線の3つの成分を含んでいる。高次調和画像は、アルベドによって拡大縮小された面法線の多項式を含んでいる。図3は、顔の3次元モデルから導出された最初の9個の調和画像を示す。第1行は、左に零次調和関数と、第1調和画像(first harmonic image)の2つを示している。第2行の左は、第1調和画像の第3のものを示す。残りの画像は、第2調和関数から導出された画像である。
【0088】
認識
本発明は、物体が作ることができる画像のセットの近くに位置する線形部分空間の解析的な作図を明らかにする。次に、物体を認識するために、この説明をどのように使用するかを示す。本発明による方法は一般的な物体に適しているが、顔認識の問題に関連する例を、本発明の範囲を制限しない例としてのみ説明する。画像は、3次元物体のモデルのデータベースと比較されなければならないと仮定する。さらに、目的のポーズは既知であるが、目的の素性および照明条件は既知ではないと仮定する。たとえば、カメラに向いていることが判っている顔の認識を望むことがある。あるいは、人間あるいは自動的なシステムのいずれかが、データベース内の顔ごとにポーズの決定を可能にする目および鼻の先端部のような特徴を認識しているが、データベースが大きすぎて人間が最良の一致を選択することは不可能であると想定してもよい。
【0089】
認識は、新しい画像を各モデルと順に比較することにより進行する。モデルと比較するために、画像とモデルが作ることができる最も近い画像の間の距離が計算される。モデルの画像の表現の点で異なる2つのクラスのアルゴリズムを説明する。線形部分空間は認識のために直接使用できる。あるいは、物理的に実現可能な照明条件に対応する線形部分空間の部分集合に制限することが可能である。
【0090】
目的の画像の試料から部分空間を導くためにPCAが使用できる従来の方法に対して、本発明による方法においては、利用できる部分空間の解析的な作図を有することにより得られる利点が強調される。解析的な作図の1つの利点は、解析的な作図は、画像の特定の試料の予測のつかない変動を受けずに、目的の画像の正確な表現を提供することである。第2の利点は効率である。この部分空間の作図は、PCAが可能にするであろうよりも、はるかに速く作ることができる。この利点の重要性は、取り組む認識問題の形式に依存する。特に、目的の位置が事前に既知ではないが、特徴対応(feature correspondence)を使用して実行時間で計算できる認識問題に一般に興味が持たれる。この場合に、線形部分空間も実行時間に計算されなければならず、これを実行するコストが重要である。どのようにしてモデル作成アルゴリズムの内部ループの一部に、この計算がなることが可能かを以下に説明するが、ここでも効率は非常に重要である。最後に、4次元線形部分空間を使用する場合、照明が物理的に実現可能であるという制約条件を、特に単純で効果的な方法で組み込むことが可能であることが明らかにされる。
【0091】
線形法
認識のための従来の結果を使用する最も簡単な方法は、新規な画像をモデルに対応する画像の線形部分空間と比較することである。これを行うために、各モデルの調和基底画像(harmonic basis image)が作られる。画像Iを仮定すると、‖Ba−I‖を極小化するベクトルaが求められる。ここで、Bは基底画像を示し、Bはp×rであり、pは画像内の点の数であり、rは使用される基底画像(basis image)の数である。上述のように、9がrに対して使用するべき自然な値であるが、r=4がより大きい効率をもたらし、r=18がさらに良い正確度の可能性を提供する。Bのすべての列は、1つの調和画像bnmを含んでいる。これらの画像は、正規直交のものではないが、線形部分空間に対して基底を形成する。このような基底Qを得るために、QR分割(QR decomposition)がBに適用される。画像からの距離I、および‖QQTI−I‖としてBにより測られる空間を、次に計算することができる。p≫rと仮定すれば、QR分割のコストは、O(pr2)である。
【0092】
これに対して、従来の方法は、目的を表す線形部分空間を見出すために、時には画像の試料に対してPCAを実行していた。たとえば、Georghides は、目的の画像を供給し、これらの画像を近似する11次元部分空間を見出す。s個の標本化された画像が使用される場合(通常s≫rである)、s≪pであれば、PCAはO(ps2)を必要とする。さらに、MATLABにおいては、薄い矩形行列のPCAは、QR分割と比べて正確に2倍長くかかるように思われる。したがって、実際には、Georghides の方法により構築された行列上のPCAは、本発明による方法を使用するのに比べて、モデルの画像に対して9次元線形近似を構築するために、約150倍かかるであろう。ポーズが事前に既知であれば、これは非常に重要ではないこともあり、この計算はオフラインで行われる。しかしポーズが実行時間で計算される場合には、本発明による方法の利点は、非常に大きくなることがある。
【0093】
本発明による方法を、A. Shashua による他の線形法と比較することも興味深い。"On Photometric Issues in 3Dvisual Recognition from a single 2D image", J. of Comp. Vis.、21(1−2):99−122、1997参照(以後 "Shashua"と呼ぶ)。付影(attached shadow)がない場合には、目的のすべての実現可能な画像は、アルベドにより拡大縮小された面法線のx、yおよびz成分の線形結合であることを、 Shashua は指摘している。したがって、Shashua は、モデルの画像を表すための3次元線形部分空間を作るために、これらの3つの成分を使用することを提案している。これらの3つのベクトルは、スケール・ファクタまで、本発明による方法の第1調和関数により作られた基底画像と同一であることに注目されたい。
【0094】
この同等は代数的に明確であるが、さらに次のように説明できる。1次の調和画像は、単一の調和関数により説明される照明条件を受ける任意の目的の画像である。ファンク・ヘッケの定理は、反射率関数を説明する核のすべての成分は、1次成分以外はこの画像に無関係であることを保証する。すべての調和関数を含む照明関数として点光源を使用することにより、Shashua の研究においては、基底画像が生成される。しかし、使用される核は、光と面法線の間の角度の全余弦関数である。この核は、第1調和関数の中にのみ成分を有する。したがって、照明のすべての他の成分は画像に無関係である。どの場合にも、基底画像は、調和関数の最初のセットにのみ帰因する。
【0095】
正の光の強調( Enforcing )
調和基底画像の任意の線形結合をとる場合、物理的に実現不可能な画像を得ることがある。これは、照明を表している調和関数に対応する線形結合が負の値を含むことがあるためである。すなわち、これらの画像を表現するには、負の「光」を必要とすることがあり、これは当然ながら物理的に不可能である。非負の光の制約条件を強調する一方で、基底画像を如何に使用するかを次に説明する。非負の照明により作られた目的の画像のセットは、すべての実現可能な画像の空間内で凸錐であることを示した当業者が存在する。上述のように、これは照明錐(illumination cone)と呼ばれる。調和基底画像により測られる空間内のこの錐体に対する近似をどのように計算するかを、次に説明する。
【0096】
具体的にいうと、画像Iを仮定して、光は球面に沿ってどこでも非負であるという制約条件の適用を受ける‖Ba−I‖の極小化を試みた。正の光を強調する簡単な方法は、たたみ込みを反転することにより、画像から光を推測することである。これはa,Ha≧0の成分の中に線形制約条件をもたらすであろう、ここで、Hの列は球面調和関数hnmを含む。残念ながら、目的の画像の低次近似から復元することができない高次の項を光は含むことができるので、この素朴な方法は問題である。さらに、非負の光の調和近似は、ときどき負の値を有することがある。これらの値が非負であることを強いることは、光の不正確な復元を導くであろう。以下に説明するように、照明錐が低次元空間に投射され、非負の照明を強調するためにこの投射を使用する異なる方法が論じられる。
【0097】
任意の数の調和基底画像を使用することができる方法を最初に説明する。非負の照明関数は、それぞれ点光源を表すデルタ関数の非負の結合として書くことができる。(θ、φ)において1を返し、他の場合には0を返す関数を、δθφによって示す。この照明関数は、方向(θ、φ)において点光源を表す。デルタ関数を最初の少数の調和関数に投射するためには、デルタ関数の調和変換を調べる必要がある。関数fに関してδθφの内積は単にf(θ、φ)を返すので、デルタ関数の調和変換は次式により与えられると結論を下すことができる。
【0098】
【数43】
したがって、最初の少数の調和関数に対するデルタ関数の投射は、最初の少数の項のみについて和をとることにより得られる。
【0099】
ここで、非負の照明関数l(θ、φ)がデルタ関数の非負の結合として表されると考えれば、いくつかのsに対して次式を得る。
【0100】
【数44】
明らかに、調和変換の直線性のために、lの変換は同じ係数を有するデルタ関数の変換の非負の結合である。すなわち、
【0101】
【数45】
同様に、lにより照明された目的の画像は、次のように非負の結合として表すことができる。
【0102】
【数46】
ここで、bnm=kn・hnmである(前章参照)。
【0103】
画像を仮定すると、本発明の目的は、非負の係数ajを復元することである。N次の近似を仮定し、空間を測るために必要とする調和関数の数を、r=r(n)により示す。r=r(N)(たとえば、N=2ならばr=9)行列表記法では、調和関数はHにより示され、Hはsxrであり、ここで、sは球面上の標本点の数である。Hの列は調和関数のサンプリングを含み、一方Hの行はデルタ関数の変換を含む。さらに、Bは基底画像により示され、Bはpxrであり、pは画像内の点の数である。Bのすべての列は、1つの調和画像bnmを含む。最後に、aT=(a1,…,as)と示すと、次式の非負の最小2乗法問題を解くことが、目標である。
【0104】
【数47】
さらに調和画像により測られるr次元空間に画像を投射し、この、より小さい空間で最適化問題を解くことが可能である。そうするために、B=QRであるように、QR分割がBに適用される。ここで、Qはユニタリであり、Rは上三角(upper triangular)である。Qに対してr列のみを維持し、最適化関数を左からQTにより乗算すると、
【0105】
【数48】
ここで、Rはrxrであり、QTはr−ベクトルである。
【0106】
この方法は、Georghides 他で提案されたものと類似であることに注目されたい。主な相違は、各モデルの調和基底画像を使用して、各モデルに対して構築された低次元空間が組み込まれていることである。10モデルのデータベース内のモデルから描画された画像にPCAを使用して構築された100次元空間の中にすべての画像を投射した後で、類似の計算を Georghides 他は行う。本発明による方法は当業者の研究により影響を受けているが、解析的、かつ、効果的に構築することが可能な空間を組み込むことにより、本発明による方法は当業者の研究を改善していると考えられる。さらに、この空間はモデルの画像の正確な表現を提供することが知られている。
【0107】
4個の調和関数を使用する認識
目的の画像のセットが最大1次までのみ近似されれば、さらに単純化することができる。この場合4個の調和関数が必要である。1個は均一な周辺光の下での目的の外見を表す直流成分であり、3個は Shashua によっても使用される基底画像である。再び、光は球面に沿ってどこでも非負であるという制約条件の下で極小化されるように、‖Ba−I‖(ここでBはpx4である)が試みられる。
【0108】
前と同じように、最初の4個の調和関数により測られる空間にデルタ関数を投射することにより、制約条件が決定される。しかし、今度はこの投射は特に単純な形式をとる。デルタ関数δθφを考える。その1次近似は、次式により与えられる。
【0109】
【数49】
空間座標を使用すると、この近似は次式となる。
【0110】
【数50】
数式(31)を、非負の照明関数lの1次近似であるとする。
【0111】
【数51】
lはデルタ関数の非負の結合である。このような結合が1次の係数と比較して零次の係数を減少させることができないことは、容易に検証できる。したがって、デルタ関数の任意の非負の結合は、次式を満足させなければならない。
【0112】
【数52】
(光がデルタ関数であるとき相等が得られる。数式30参照)したがって、4次元調和空間を有する物体を認識する問題を、数式32にしたがって‖Ba−I‖の極小化として表現することができる。
【0113】
4個の調和関数の場合、調和画像は単にアルベド、および、それぞれ何らかの因数により拡大縮小されたアルベドにより拡大縮小された面法線の成分である。したがって、それらを直接使用し、制約条件の中にスケーリング係数を隠すことが自然である。Iをlによって照明された物体の画像であるとすれば、数式18および22を使用して、
【0114】
【数53】
ここで、λおよび(nX、ny、nz)は、それぞれアルベドおよび目的の点(object point)の面法線である。閉じられていない基底画像(unsealed basis image)、λ、λnx、λny、およびλnzを使用して、この数式を次式で表すことができる。
【0115】
【数54】
ここで、b0=πa0であり、bi=2π/3ai(1≦i≦3)である。aiを置換すると、次式が得られる。
【0116】
【数55】
これは次式に単純化される。
【0117】
【数56】
したがって、4次元の場合を解くためには、数式34の両辺の間の差は、数式36にしたがって極小化される。
【0118】
非負の光を有する最初の4個の調和画像により測られる空間内の最も近くの画像を見出すことは、単一の変数、ラグランジュの乗数を有する6次多項式に変換し得ることを次に説明する。この多項式を使用すれば、最小化問題を解くことは簡単になる。
【0119】
光が非負であるという制約条件の適用を受ける4次元調和空間内の最も近くの画像を見出すことは、次の一般的な形式を有する。
【0120】
【数57】
ここで、A(nx4),b(nx1)は、AおよびB(4x4)の列空間(column space)に存在する。この表現において、Aの列は調和画像を含み、bは認識される画像であり、B=diag(4,−1,1,−1)である。しかし、本発明による方法は、任意の非特異行列Bにも使用できることを当業者は認めるであろう。
【0121】
最初に、線系min
【0122】
【数58】
を解き、この解が制約条件を満たすかどうかを調べることができる。この解が制約条件を満たすならば、1つは処理された。もしそうでなければ、制約条件が相等において満たされる場合に生ずる最低を求めなければならない。解は2つの部分に分けられる。最初の部分で問題は次の形式に変換される。
【0123】
【数59】
以下に説明するように、新しい問題は6次多項式に変えることができる。
【0124】
段階1
Ab’=bであるようにb’を定義する(bがAの列空間内にあるので、これは可能である)。したがって、Ax−b=A(x−b’)であり、この問題が次式と等価であることを意味する。
【0125】
【数60】
Golub と van Loan が提案した方法(第2版、466−47lページ、特にアルゴリズム8.7.1参照)を使用して、ATAおよびBが同時に対角化される。XTATAX=IおよびXTBX=Dであるように、これは非特異行列Xを作るであろう、Iは恒等行列を示し、Dは4x4対角行列である。したがって、次式が得られる。
【0126】
【数61】
ここで、X1はXの逆を示し、X-Tはその転置(transpose)を示す。z=X-1xであり、c=X1b’であるとすれば、次式が得られる。
【0127】
【数62】
これは求める形式を有する。
【0128】
段階2
ここで、本発明は次の形式の問題を解くことを試みる。
【0129】
【数63】
この最小化問題は、ラグランジュの乗数を使用して解かれる。すなわち、
【0130】
【数64】
xおよびλに対して導関数をとると、次式が得られる。
【0131】
【数65】
および
【0132】
【数66】
最初の数式から、次式が得られる。
【0133】
【数67】
Dは対角線であるから、zの成分は次式により与えられる。
【0134】
【数68】
制約条件zTDz=0は、したがって次式となる。
【0135】
【数69】
上式は、分母を乗算した(multiplying out)後で、λについての6次多項式になる。この多項式は、標準の技術(MATLAB関数rootsが使用される)を使用して、効果的かつ正確に解くことが可能である。上に示すように、すべての解はxを決定し、また最適化基準を極小化する実数の解を選択するために挿入される。
【0136】
実験
顔のデータベースの部分集合を使用して、本発明による認識方法について実験が行われた。この部分集合は、赤色、緑色および青色チャネル内のそれらのアルベドのモデルを含む、多くの場合、顔である3次元モデルを含んでいる。テスト画像として、7つの異なるポーズと6つの異なる照明条件で撮られた1人の個人の42個の画像が使用された(図4に示す)。これらの実験において、各画像は各モデルと比較され、正しい答えの順位が決定された(すなわち、1の順位は正しい答えが最初に選択されたことを意味する)。データベースのこの部分集合は、この実験から何らかの確実な結論を導くことを可能にするにはあまりにも小さい。より正確に言えば、多数の異なる方法の比較を可能にするには十分小さく、その中の一部は大きいデータセットのうえで実行するにはあまりにも遅い。
【0137】
すべての方法を実現する場合に、最初にモデルと画像の間の3次元アライメント(「位置決め」と呼ばれる)を得なければならない。これは、当該技術分野において公知の既存の方法を使って行うことが可能である。要するに、顔の特徴は手によって認識でき、したがって、3次元特徴を対応する2次元画像の特徴と整列させるために、3次元固定変換(3D rigid transformation)を見出すことが可能である。たとえば、3次元モデルは多くの人の顔のモデルであると仮定する。認識に先だって、目の中心あるいは鼻の先端部のような特徴の位置を示す顔の上の点をクリックすることができる。入力画像が現れると、入力画像の対応する特徴をクリックすることができる。画像特徴とモデル特徴の間の一致を仮定すると、各モデルに対して、モデル特徴を入力画像特徴に最も良く一致させるような、カメラに対するその物体の位置を決定することが可能である。この位置決めを決定することは、当該技術分野において充分に研究された問題であり、多くの解が導かれている。
【0138】
照明条件を決定するために、顔の3次元モデル内のいずれかの点に一致した画像ピクセルに対してのみ注意が払われる。最大強度の画像ピクセルは飽和している恐れがあり、紛らわしい値を供給する恐れがあるので、最大強度の画像ピクセルも無視される。最後に、モデルおよび画像の両方が2段標本化(subsample)され、各mxm正方形(each m x m square)をその平均値と置換する。これは、以下に説明する方法の一部、特に Georghides が、全画像に対して実行するには遅すぎるからである。Georghides の方法のわずかな変形が、近似を避けるために実行される。各モデルは、100個の異なる点光源を使用して供給される。次に、テスト画像に加えて、これらの100個の画像が101次元空間に投射され、101次元空間で非負の最小2乗法最適化が実行される。これは、全空間内で最適化を行うことと等価であるが、より効果的である。しかし、依然として101個の画像に対して特異値分割(SVD:Singular Value Decomposition)の使用を必要とし、全部の画像に対して実行するには遅すぎる。それらの実験において、このSVDはオフラインで実行されたが、これらの実験においては、ポーズが事前に知られていないので、各ポーズに対してSVDがオンラインで実行されなければならない。SVDは、最も重要な成分を明確にする行列を分解する標準の方法である。しかし、本発明による方法は、正確度を著しく減少せずに、2段標本化することを、予備実験は示している。以下の実験において、すべてのアルゴリズム2段標本化は、16x16の正方形を使用して実行された。いくつかの他のアルゴリズムも、より少ない2段標本化を使用して実行された。
【0139】
2段標本化された画像に対して照明条件が決定されると、照明条件はフルサイズの画像内のモデルを供給するために使用される。したがって、たとえば、本発明による方法は、描画された画像を作るために調和画像を線形に結合する方法を教える係数を作成する。これらの係数は標本化された画像に対して計算されるが、次に完全な標本化されていない画像の調和画像に適用される。この処理は、各色彩チャネルに対して、別々に繰り返された。次に、平均2乗誤差の平方根をとることにより、供給された顔のモデルとそれが交差する画像の部分の間の距離から導出された画像とモデルが比較された。これらの実験の結果を表2に示す。
【0140】
【表2】
表2において、「Georghides」は、点光源を使用して生成された画像の非負の結合と画像を照合することにより、照明を見出す結果を示す。「非負の光4、および9」は、照明が正であるという制約条件に加えて、4次元および9次元の調和基底画像を使用する本発明による方法を示す。「線形9」は、9次元空間を使用する本発明による線形法を示す。表2は、より少ない2段標本化を使用する「線形9」を適用する結果も示す。「正しいパーセント」は、画像のどれだけの部分が正しい答えに一致したかを示す。表2は、さらに「平均順位」を示す。ここで、kの順位は正しい答えがk番目に選ばれたことを示す(すなわち、1の順位は正しい答えが選択されたことを意味する)。9次元調和基底を使用する本発明による方法は、既存の方法より正確であることが判る。4次元調和関数は、それほど正確ではないかもしれないが、他の方法よりはるかに効果的である。
【0141】
本発明による好適実施例と考えられるものを示し説明したが、本発明の技術思想から逸脱することなく、形式あるいは細部のさまざまな修正および変更が容易に行えることは、当然理解されよう。したがって、本発明は説明し例示した正確な形式に限定されるものではなく、添付した特許請求の範囲内に含まれるすべての修正を含むように、構成されていると解釈される。
【0142】
【発明の効果】
本発明は以上説明したように構成されているので、従来技術による方法の欠点を克服するような、入力画像に最も類似している複数の3次元モデルから画像を選択することを、複雑な反復最適化技法を使用することなく、より効率的、かつ、より速く実行できるような、入力画像に最も類似している複数の3次元モデルから画像を選択することができる効果がある。
【図面の簡単な説明】
【図1】数式(9)の係数のグラフ表示を示す。
【図2】ランベルトの核の1次元スライスおよびそのさまざまな近似を示す。
【図3】顔の3次元モデルから導出された最初の9個の調和画像を示す。
【図4】本発明による方法の実験で使用されたテスト画像を示す。
Claims (14)
- コンピュータに入力された入力画像データに最も類似の複数の3次元モデルから画像データを選択する方法であって、前記方法は、
(a)複数の3次元モデルのデータベースを供給する段階であって、各3次元モデルの表面上の各点の位置と、各点において反射される光の部分を認識する少なくとも1つの対応する識別子を割り当てる段階と、
(b)コンピュータに入力画像データを供給する段階と、
(c)各3次元モデルを前記入力画像データに対して位置決めする段階と、
(d)
(i)前記3次元モデルに対して線形部分空間を計算することであって、前記線形部分空間内の各点が実現可能な画像を表すすべての可能な照明条件の下で各3次元モデルが作ることができる、すべての可能な描画された画像のセットに対して各点における面法線との間の立体角と、前記少なくとも1つの対応する識別子とから多項式を計算することによって得られる近似解である線形部分空間を計算することと、
(ii)前記入力画像データに最も近い前記線形部分空間上の前記点を見出すことによって、
各3次元モデルに対して、前記入力画像データに最も類似している描画された画像データを決定する段階と、
(e)前記入力画像データと各描画された画像データの間の類似の程度を計算する段階と、
(f)類似の程度が前記入力画像データに最も類似している前記描画された画像データに対応する前記3次元モデルを選択する段階を有する入力画像データに最も類似の複数の3次元モデルから画像データを選択する方法。 - コンピュータに入力された入力画像データに最も類似の複数の3次元モデルから画像データを選択する方法であって、前記方法は、
(a)複数の3次元モデルのデータベースを供給する段階であって、各3次元モデルの表面上の各点の位置と、各点において反射される光の部分を認識する少なくとも1つの対応する識別子を割り当てる段階と、
(b)コンピュータに入力画像データを供給する段階と、
(c)各3次元モデルを前記入力画像データに対して位置決めする段階と、
(d)
(i)前記3次元モデルに対して線形部分空間を計算することであって、前記線形部分空間内の各点が実現可能な画像を表すすべての可能な照明条件の下で各3次元モデルが作ることができる、すべての可能な描画された画像のセットに対して各点における面法線との間の立体角と、前記少なくとも1つの対応する識別子とから多項式を計算することによって得られる近似解である線形部分空間を計算することと、
(ii)正の光によって生成された画像の前記セットを、前記線形部分空間に投射することにより得られる前記線形部分空間の部分集合内の描画された画像データを見出すことによって、
各3次元モデルに対して、前記入力画像データに最も類似している描画された画像データを決定する段階と、
(e)前記入力画像データと各描画された画像データの間の類似の程度を計算する段階と、
(f)前記入力画像データに最も類似している前記描画された画像データに対応する前記3次元モデルを選択する段階を有する入力画像データに最も類似の複数の3次元モデルから画像データを選択する方法。 - 段階(a)は、所定の照明条件の下で撮られた一連の画像データから各3次元モデルを構築することを含む請求項1または請求項2記載の方法。
- 前記少なくとも1つの対応する識別子は、赤、青および緑色の光がどれぐらい反射されるかのそれぞれに対して1つずつの、3個のアルベドを有する請求項1 または請求項2記載の方法。
- 段階(b)は、2次元入力画像を供給することを含む請求項1または請求項2記載の方法。
- 段階(c)は、前記3次元モデルおよび前記入力画像の上の所定の点を整列させることを含む請求項1または請求項2記載の方法。
- 段階(d)が、各3次元モデルに対して赤、緑および青色成分の各々に対して繰り返される請求項1または請求項2記載の方法。
- 前記線形部分空間は、4次元である請求項1または請求項2記載の方法。
- 前記線形部分空間は、9次元である請求項1または請求項2記載の方法。
- 段階(e)は、前記入力画像と各描画された画像の間の差の大きさを判定することを含む請求項1記載の方法。
- 段階(d)(ii)は、線形射影を使用して、前記入力画像に最も近い前記線形部分空間内の前記点を計算することを含む請求項1記載の方法。
- 前記線形部分空間は、4次元であり、段階(d)(ii)は、非負の照明を使用して6次多項式を解くことにより、各3次元モデルの画像を描画することを含む請求項2記載の方法。
- 前記線形部分空間は、9次元であり、段階(d)(ii)は、単一の方向から来る前記9次元の空間に投射された光を使用して生成された画像の凸の結合である前記描画された画像を見出すことを含む請求項2記載の方法。
- 前記描画された画像は、非負の最小2乗法アルゴリズムを使用して見出される請求項15記載の方法。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US09/705,507 US6853745B1 (en) | 2000-11-03 | 2000-11-03 | Lambertian reflectance and linear subspaces |
US09/705507 | 2000-11-03 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2002183728A JP2002183728A (ja) | 2002-06-28 |
JP3818369B2 true JP3818369B2 (ja) | 2006-09-06 |
Family
ID=24833780
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2001327833A Expired - Lifetime JP3818369B2 (ja) | 2000-11-03 | 2001-10-25 | 入力画像に最も類似の複数の3次元モデルから画像を選択する方法 |
Country Status (5)
Country | Link |
---|---|
US (1) | US6853745B1 (ja) |
EP (1) | EP1204069B1 (ja) |
JP (1) | JP3818369B2 (ja) |
CA (1) | CA2347645A1 (ja) |
DE (1) | DE60126040T2 (ja) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7807855B2 (en) | 2004-10-05 | 2010-10-05 | Sumitomo Chemical Company, Limited | Process for producing hydroxy compound |
US8257557B2 (en) | 2005-09-01 | 2012-09-04 | Sumitomo Chemical Company, Limited | Dehydration method |
US10878657B2 (en) | 2018-07-25 | 2020-12-29 | Konami Gaming, Inc. | Casino management system with a patron facial recognition system and methods of operating same |
US11521460B2 (en) | 2018-07-25 | 2022-12-06 | Konami Gaming, Inc. | Casino management system with a patron facial recognition system and methods of operating same |
Families Citing this family (18)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3815310B2 (ja) | 2001-12-04 | 2006-08-30 | マツダ株式会社 | 車両用タイヤの空気圧情報表示システム |
JP2006522411A (ja) | 2003-03-06 | 2006-09-28 | アニメトリックス,インク. | 複数の特徴を含むオブジェクトの画像データベースの生成 |
US7643671B2 (en) | 2003-03-24 | 2010-01-05 | Animetrics Inc. | Facial recognition system and method |
CA2565870A1 (en) * | 2004-05-06 | 2005-12-15 | The Regents Of The University Of California | Method and system for aligning and classifying images |
US7633503B2 (en) * | 2005-03-22 | 2009-12-15 | Microsoft Corporation | Local, deformable precomputed radiance transfer |
US7689035B2 (en) * | 2005-06-17 | 2010-03-30 | The Regents Of The University Of California | Methods for identifying, separating and editing reflection components in multi-channel images and videos |
US7663623B2 (en) * | 2006-12-18 | 2010-02-16 | Microsoft Corporation | Spherical harmonics scaling |
US7843467B2 (en) * | 2006-12-18 | 2010-11-30 | Microsoft Corporation | Shape deformation |
US8009880B2 (en) * | 2007-05-11 | 2011-08-30 | Microsoft Corporation | Recovering parameters from a sub-optimal image |
JP4999731B2 (ja) * | 2008-02-29 | 2012-08-15 | セコム株式会社 | 顔画像処理装置 |
JP2009211148A (ja) * | 2008-02-29 | 2009-09-17 | Secom Co Ltd | 顔画像処理装置 |
US8670621B1 (en) * | 2012-11-06 | 2014-03-11 | Alex Simon Blaivas | Using invariants of spherical harmonics to rotational and translational transformations for image recognition in industrial and security applications |
WO2014153022A1 (en) * | 2013-03-14 | 2014-09-25 | University Of Southern California | Specular object scanner for measuring reflectance properties of objects |
US10007995B2 (en) * | 2013-05-23 | 2018-06-26 | Biomerieux | Method, system and computer program product for producing a raised relief map from images of an object |
US9813690B2 (en) * | 2014-03-06 | 2017-11-07 | Nec Corporation | Shape and dichromatic BRDF estimation using camera motion |
US9727945B1 (en) | 2016-08-30 | 2017-08-08 | Alex Simon Blaivas | Construction and evolution of invariants to rotational and translational transformations for electronic visual image recognition |
US9858638B1 (en) | 2016-08-30 | 2018-01-02 | Alex Simon Blaivas | Construction and evolution of invariants to rotational and translational transformations for electronic visual image recognition |
CN110705368B (zh) * | 2019-09-05 | 2023-04-18 | 深圳大学 | 自构余弦核空间中人脸数据非负特征表示和识别方法、装置、系统及存储介质 |
Family Cites Families (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3573512B2 (ja) * | 1994-05-17 | 2004-10-06 | オリンパス株式会社 | 画像処理方法及び画像処理装置 |
US5710833A (en) * | 1995-04-20 | 1998-01-20 | Massachusetts Institute Of Technology | Detection, recognition and coding of complex objects using probabilistic eigenspace analysis |
US6009437A (en) * | 1997-03-25 | 1999-12-28 | Nec Research Institute, Inc. | Linear fitting with missing data: applications to structure-from-motion and to characterizing intensity images |
US6137896A (en) * | 1997-10-07 | 2000-10-24 | National Research Council Of Canada | Method of recognizing faces using range images |
US6466685B1 (en) * | 1998-07-14 | 2002-10-15 | Kabushiki Kaisha Toshiba | Pattern recognition apparatus and method |
US6292575B1 (en) * | 1998-07-20 | 2001-09-18 | Lau Technologies | Real-time facial recognition and verification system |
AU762625B2 (en) * | 1998-12-02 | 2003-07-03 | Victoria University Of Manchester, The | Face sub-space determination |
US6621929B1 (en) * | 1999-06-22 | 2003-09-16 | Siemens Corporate Research, Inc. | Method for matching images using spatially-varying illumination change models |
US6501857B1 (en) * | 1999-07-20 | 2002-12-31 | Craig Gotsman | Method and system for detecting and classifying objects in an image |
JP2001283216A (ja) | 2000-04-03 | 2001-10-12 | Nec Corp | 画像照合装置、画像照合方法、及びそのプログラムを記録した記録媒体 |
-
2000
- 2000-11-03 US US09/705,507 patent/US6853745B1/en not_active Expired - Lifetime
-
2001
- 2001-05-15 CA CA002347645A patent/CA2347645A1/en not_active Abandoned
- 2001-07-31 EP EP01117763A patent/EP1204069B1/en not_active Expired - Lifetime
- 2001-07-31 DE DE60126040T patent/DE60126040T2/de not_active Expired - Lifetime
- 2001-10-25 JP JP2001327833A patent/JP3818369B2/ja not_active Expired - Lifetime
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7807855B2 (en) | 2004-10-05 | 2010-10-05 | Sumitomo Chemical Company, Limited | Process for producing hydroxy compound |
US8257557B2 (en) | 2005-09-01 | 2012-09-04 | Sumitomo Chemical Company, Limited | Dehydration method |
US10878657B2 (en) | 2018-07-25 | 2020-12-29 | Konami Gaming, Inc. | Casino management system with a patron facial recognition system and methods of operating same |
US11455864B2 (en) | 2018-07-25 | 2022-09-27 | Konami Gaming, Inc. | Casino management system with a patron facial recognition system and methods of operating same |
US11521460B2 (en) | 2018-07-25 | 2022-12-06 | Konami Gaming, Inc. | Casino management system with a patron facial recognition system and methods of operating same |
Also Published As
Publication number | Publication date |
---|---|
EP1204069A2 (en) | 2002-05-08 |
DE60126040T2 (de) | 2007-11-15 |
EP1204069A3 (en) | 2004-05-19 |
EP1204069B1 (en) | 2007-01-17 |
US6853745B1 (en) | 2005-02-08 |
CA2347645A1 (en) | 2002-05-03 |
JP2002183728A (ja) | 2002-06-28 |
DE60126040D1 (de) | 2007-03-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP3818369B2 (ja) | 入力画像に最も類似の複数の3次元モデルから画像を選択する方法 | |
Yuan et al. | Factorization-based texture segmentation | |
Basri et al. | Lambertian reflectance and linear subspaces | |
Kakadiaris et al. | 3D-2D face recognition with pose and illumination normalization | |
Bronstein et al. | A Gromov-Hausdorff framework with diffusion geometry for topologically-robust non-rigid shape matching | |
Guo et al. | Multi-dimensional transfer function design based on flexible dimension projection embedded in parallel coordinates | |
Cheng et al. | Supermatching: Feature matching using supersymmetric geometric constraints | |
Juefei-Xu et al. | Can your eyebrows tell me who you are? | |
US10169908B2 (en) | Method, apparatus, storage medium and device for controlled synthesis of inhomogeneous textures | |
Lyu et al. | Neural radiance transfer fields for relightable novel-view synthesis with global illumination | |
Biasotti et al. | SHREC’14 track: Retrieval and classification on textured 3D models | |
Casanova et al. | Texture analysis using fractal descriptors estimated by the mutual interference of color channels | |
Bichsel | Automatic interpolation and recognition of face images by morphing | |
Dryden et al. | Principal nested shape space analysis of molecular dynamics data | |
Chi et al. | A novel local human visual perceptual texture description with key feature selection for texture classification | |
Ma et al. | A lighting robust fitting approach of 3D morphable model for face reconstruction | |
Barmpoutis et al. | Beyond the lambertian assumption: A generative model for apparent brdf fields of faces using anti-symmetric tensor splines | |
Basri et al. | Illumination modeling for face recognition | |
WO2009143163A2 (en) | Face relighting from a single image | |
Li et al. | Illumination modeling for face recognition | |
Feng et al. | The Application of Sparse Reconstruction Algorithm for Improving Background Dictionary in Visual Saliency Detection. | |
Hoover et al. | Pose detection of 3-D objects using S 2-correlated images and discrete spherical harmonic transforms | |
Aldrian et al. | Inverse rendering in suv space with a linear texture model | |
Ferková | Comparison and Analysis of Multiple 3D Shapes | |
Jiang et al. | Learning from real images to model lighting variations for face images |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
RD03 | Notification of appointment of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7423 Effective date: 20041201 |
|
RD04 | Notification of resignation of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7424 Effective date: 20041201 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20060104 |
|
RD04 | Notification of resignation of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7424 Effective date: 20060125 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20060306 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20060330 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20060524 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20060606 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 Ref document number: 3818369 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20100623 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20100623 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110623 Year of fee payment: 5 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110623 Year of fee payment: 5 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120623 Year of fee payment: 6 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120623 Year of fee payment: 6 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130623 Year of fee payment: 7 |
|
EXPY | Cancellation because of completion of term |