JP2007518199A

JP2007518199A - 多重線形独立要素分析を使用した画像認識の方法、システム、記憶媒体、及びデータ構造

Info

Publication number: JP2007518199A
Application number: JP2006549695A
Authority: JP
Inventors: マニュエラ・アレックス・オー・ヴァシレスク; デメトリ・ターゾポロス
Original assignee: New York University NYU
Current assignee: New York University NYU
Priority date: 2004-01-13
Filing date: 2005-01-13
Publication date: 2007-07-05
Also published as: US7693299B2; WO2005067572A3; US20080247608A1; EP1709572A2; WO2005067572A2; CA2553452A1

Abstract

画像認識に関連する画像処理の方法、システム、コンピュータ読み込み可能メディア、及びデータ構造が提供される。基礎テンソルへの画像応答は、画像がそれに適応した後、決定される。画像応答は平坦化される。係数ベクトルは、画像応答から抽出される。係数ベクトルは、マトリクスの係数行に記録された複数の異なるパラメータと比較される。

Description

本発明は、主に画像認識に関する。特に、本発明はデータを獲得する論理装置、データ構造、システム、及び方法に係わり、更に詳しくは物体の少なくとも１つの特質を描くデータを獲得し、新しいデータを合成し、獲得したデータを認識し、物体（例えば人間）の１つまたはそれ以上の特質を描くデータの量を減少させる論理装置、データ構造、システム、及び方法に係わる。

パターン認識と信号処理のためのデータ分析の１つの重要な問題は、適切な表現を見つけることである。歴史的かつ計算的な単純さのために、データの特定の統計特性を最適にコード化する線形モデルが望まれていた。特に、「アイゲンフェイス」として知られる線形、及び外観ベースの顔認識方法は、顔画像集合の主要素分析（ＰＣＡ）技術に基づく。この参照により両方とも本発明と一体となるL. Sirovich et al., "Low dimensional procedure for the characterization of human faces," Journal of the Optical Society of America A., 4:519-524, 1987と、M.A. Turk and A.P. Pentland, "Face recognition using eigenfaces," Proceedings IEEE Computer Society Conference on Computer Vision and Pattern Recognition, pp. 586-590, Hawaii, 1991を見ると、ＰＣＡ技術は、画素間と、二次統計量間と、連続する画像の組み合わせの相関構造間とのそれぞれの関係をコード化するが、高次の画素関係の全てと、高次の統計的従属値の全てを無視する。対照的に、独立要素分析（ＩＣＡ）技術として知られるＰＣＡ技術の一般化は、上記の相互関係に加えて、連続データの高次従属値を分析することにより統計的独立要素の集合を確認する。この参照により両方とも本発明と一体となるA. Hyvarinen et al., Independent Component Analysis, Wiley, New York, 2001と、M.S. Bartlett et al., "Face recognition by independent component analysis," IEEE Transactions on Neural Networks, 13(6):1450-1464, 2002を見ると、逆にＩＣＡ技術は画像形態固有の異なる要素、つまり場面構造と照明と及び画像化に属する要素から生ずる高次統計値を区別しない。

ＩＣＡ技術は顔認識において使用され、ＰＣＡ技術のように人間の同一性が変化の許される唯一の要素であるとき、それは最も機能する。この参照により両方とも本発明と一体となるM.S. Bartlett, "Face Image Analysis by Unsupervised Learning," Kluwer Academic, Boston, 2001と、M.S. Bartlett et al., "Face recognition by independent component analysis," IEEE Transactions on Neural Networks, 13(6):1450-1464, 2002を見ると、もし更なる要因、例えば照明、視点、及び表現、が顔画像を修正できるならば、認識率が劇的に減少する可能性がある。問題は、Ｍ．Ａ．Ｏで提案された特定の認識アルゴリズム以外は、多重線形分析により対処される。Vasilescu et al. "Multilinear analysis for facial image recognition," In Proc. Int. Conf on Pattern Recognition, Quebec City, August 2002は、線形代数を基礎とし、そのアルゴリズムは多重線形アプローチを完全に有効には利用していない。

本発明の典型的な実施形態の目的の１つは、上記の欠陥を克服することである。本発明の別の目的は、物体記述子を生成する方法、システム、記憶媒体、及びデータ構造を提供することである。

本発明の典型的な実施形態によれば、基礎テンソルの画像の応答を計算する段階と、画像応答を平坦化する段階と、画像応答から係数ベクトルを引き出す段階と、引き出された係数と係数マトリックスの列に記憶される複数の異なるパラメータとを比較する段階とを具備する方法である。

本発明の別の典型的な実施形態において、記憶装置（例えばメモリ）と、画像に関するデータが受信でき、上記記憶装置と通信できる処理装置とを備えるコンピュータシステムが提供されうる。上記記憶装置は、データ処理方法を実行するために、コンピュータ実行可能な指示を記憶することができる。例えば、基礎テンソルの画像の応答が決定される可能性があり、画像応答は平坦化されることができ、係数ベクトルは画像応答から引き出される可能性があり、引き出された係数は係数マトリックスの列に記憶された複数の異なるパラメータと比較される可能性がある。

本発明のさらに別の典型的な実施形態において、方法を実行するために、コンピュータ実行可能な指示を記憶したコンピュータ読取り可能媒体が提供される。上記方法は、基礎テンソルの画像の応答を計算する段階と、上記画像応答を平坦化する段階と、上記画像応答から係数ベクトルを引き出す段階と、引き出された係数と係数マトリックスの列に記憶する複数の異なるパラメータと比較する段階とを具備するものとする。

本発明のさらに別の典型的な実施形態において、データ処理方法が提供される。上記方法は、要因コードを生成するために、多重線形独立要素分析を画像データに適用する段階と、人々、視点、及び照明をコード化する係数の複数の集合を有するデータの表現を生成する段階とを具備し、上記集合は統計的独立であるものとする。

本発明のさらに別の典型的な実施形態において、目標画像のために係数ベクトルの集合を有するデータ構造が提供される。特に、上記ベクトルは目標の記述子、目標の視点、及び目標の照明方向を具備するものとする。

本発明の更なる目的、特徴、及び効果は、本発明の実施形態を示す添付の図面と関連づけられた以下の詳細な説明から明らかにされる。

全ての図を通して、同じ参照番号と文字は、特に明記しない限り、同様の特徴、要素、構成要素または図示された実施形態の部分を示すために使用される。さらに、本発明は図面に関連して詳細に記載されるが、それは図示された実施形態と関連して記載される。添付のクレームにより定義されるように、本発明の主題の真の範囲と精神から逸脱することなく、変更及び修正が記載された実施形態になされることが所望される。

以下の記載において、イタリック体のＡは〔斜Ａ〕と示し、太字のＡは〔太Ａ〕と示し、太字斜体のＡは〔太斜Ａ〕と示し、カリグラフィック体のＡは〔書Ａ〕と示すものとする。また、テンソルの添え字は〔Ａ^Ｔ _Ｕ〕と示すものとする。

本発明の典型的な実施形態は、従来のＩＣＡ技術を一般化する画像組み合わせの非線形かつ多元的なモデルに関連し、利用する可能性がある。ＩＣＡ技術が線形（マトリックス）代数学を使用するのに対し、本発明による多重線形ＩＣＡ（ＭＩＣＡ）手順の典型的な実施形態は、多重線形（テンソル）代数学を使用する。その従来の線形な同等物とは異なり、ＭＩＣＡ手順は、画像形態固有の多重因子の相互作用を確認することができ、別々にこれらの因子のそれぞれの高次統計量をコード化することができる。画像形態固有の異なる要素と関連する２次統計量だけをコード化する「テンソルフェイス」として示される、「アイゲンフェイス」の多重線形一般化と異なり、ＭＩＣＡ手順は異なる要素と関連するより高次の従属値をコード化することもできる。

本発明の典型的な実施形態の多重線形ＩＣＡ手順は、ＰＣＡ、多重線形ＰＣＡ、及びＩＣＡ技術の計算の前後関係において理解されることが可能である。

例えば、〔斜Ｉ〕_２画像の組み合わせの主要素分析は、列が「中心化」された画像の「ベクトル化」された〔斜Ｉ〕_１画素である〔斜Ｉ〕_１×〔斜Ｉ〕_２のマトリクス〔太Ｄ〕上の特異値分解（ＳＶＤ）を実施することにより決定される。図１Ａは、全ての画像を通じて変化量の主軸である典型的なＰＣＡアイゲンベクトル３００（アイゲンフェイス）を図示している。図１Ｂは、〔斜Ｔ〕＝〔斜Ｚ〕×_５〔太Ｕ〕_pixelsとして獲得されたテンソル〔書Ｄ〕の７５×６×６×８５６０のテンソルフェイス表現３１０の部分視覚化を示す。それぞれのベクトル化しかつ中心化した画像は、それぞれの入力画像から組み合わせの中間の画像を減算し、かつ結果として生じる画素を縦ベクトルにほぼ同様に配置することにより、獲得される。マトリックス〔太Ｄ〕∈〔太Ｉ〕〔太Ｒ〕^{〔斜Ｉ〕１×〔斜Ｉ〕２}は、２つの関連するベクトル空間、すなわち横列スペースと縦列スペースを有する２モード数学的オブジェクトである。

マトリックス〔太Ｄ〕の要素分析において、ＳＶＤ技術は、これら２つの空間を直交させ、式１としてマトリックスを分解する。

左のマトリックス〔太Ｕ〕∈〔太Ｉ〕〔太Ｒ〕^{〔斜Ｉ〕１×〔斜Ｊ〕１}によってあらわされる直交横列空間と、マトリクスＤの単数型値と呼ばれる対角項目σ_１≧σ_２≧…≧σ_ｐ≧０によるΣ∈〔太Ｉ〕〔太Ｒ〕^{〔斜Ｊ〕１×〔斜Ｊ〕２}の対角単数型値と、右のマトリックス〔太Ｖ〕∈〔太Ｉ〕〔太Ｒ〕^{〔斜Ｉ〕２×〔斜Ｊ〕２}により表現される直交行空間とから生成されている。アイゲンベクトル〔太Ｕ〕は、マトリックス〔太Ｄ〕の「主要素」（またはKarhunen-Loeve）方向と呼ばれる。マトリックスの主要素分析の典型的に最適な次元の減少は、単数型値分解の切捨てにより獲得される（すなわち、最小の特異値に関連するアイゲンベクトルを削除すること）。

場面構造、照明、及び視点に関連した多重要素の集合から生じる画像の組み合わせの分析は、多重線形代数学の問題である。M.A.Q. Vasilescu et al., "Multilinear analysis of image ensembles: Tensorfaces," In Proc. European Conf. on Computer Vision (ECCV 2002), pp. 447-460, Copenhagen, Denmark, May 2002を見ると、この数学的な構成の範囲内で、画像の組み合わせは、高次テンソルとして表現されることが可能である。この画像データテンソルＤは、構成要素を分割し、極度に倹約して表現するために分解されるべきである。このため、ＮモードＳＶＤ手順は上記の従来のマトリックスＳＶＤ技術の多重線形拡張として使用される可能性がある。

ｎ方向配列または多次元マトリックスまたはｎモードマトリックスとしても知られているテンソルは、ベクトル（第１階テンソル）とマトリックス（第２階テンソル）のより高い階数の一般化である。テンソルの詳細な説明と使用は、この参照により完全にここに述べられているように本発明と一体となる、２００２年１２月６日に出願され、「合成、認識、圧縮のための多モードデータの組み合わせの多重線形表現のための論理装置、データ構造、システム、及び方法」と題する国際特許出願ＷＯ０３／０５５１１９Ａ３号公報にさらに詳細に記載されている。例えば、テンソルはベクトル空間の集合上の多重線形写像として、定義されことが可能である。テンソルは以下の手順で表現されることができる。〔書Ａ〕∈〔書Ｉ〕〔書Ｒ〕^{〔斜Ｉ〕１×〔斜Ｉ〕２×…×〔斜Ｉ〕〔斜Ｎ〕}、ここで〔書Ａ〕はテンソルであり、テンソル〔書Ａ〕の階数は〔斜Ｎ〕である。１つのテンソルは基本要素の１群により構成される。それぞれの基本要素は、モードベクトルの集合であり、例えば第１基本要素はモード１ベクトルの集合であり、第２基本要素はモード２ベクトルであり、ｎ番目の基本要素はモード斜ｎベクトルである、等のようになる。別の実施形態において、基本要素は、マトリックスの行ベクトル、マトリックスの縦列ベクトル、ベクトルの指数等である可能性がある。テンソル〔書Ａ〕の要素は、〔書Ａ〕_{〔斜Ｉ〕１…〔斜Ｉ〕ｎ…〔斜Ｉ〕Ｎ}あるいは、〔斜ａ〕_{〔斜Ｉ〕１…〔斜Ｉ〕ｎ…〔斜Ｉ〕Ｎ}、あるいは１≦〔斜Ｉ〕ｎ≦〔斜Ｉ〕ｎとして示される可能性がある。スカラは、小文字（〔斜ａ〕，〔斜ｂ〕，…）で示され、ベクトルは太字小文字（〔太ａ〕，〔太ｂ〕，…）で示され、マトリックスは太字大文字（〔太Ａ〕，〔太Ｂ〕，…）で示され、高階テンソルは、イタリック太字大文字（〔太斜Ａ〕，〔太斜Ｂ〕，…）あるいはカリグラフィック体大文字（〔書Ａ〕，〔書Ｂ〕，…）で示される。

テンソル用語で、列ベクトルはモード１ベクトルと称される可能性があり、行ベクトルはモード２ベクトルと称される。Ｎ階のテンソル〔書Ａ〕∈〔斜Ｉ〕〔斜Ｒ〕^{〔斜Ｉ〕１×〔斜Ｉ〕２×…×〔斜Ｉ〕Ｎ}モード〔斜ｎ〕ベクトルは他のインデックスを固定して維持している間に指数〔斜Ｉ〕ｎを可変させることによりテンソル〔斜Ａ〕から獲得された〔斜Ｉ〕_Ｎ次元ベクトルである。モード〔斜ｎ〕ベクトルは、図７Ａ〜７Ｆに示されるように、平面化したテンソル〔書Ａ〕から生じる可能性があるマトリックス〔太Ａ〕_（ｎ）∈〔斜Ｉ〕〔斜Ｒ〕^{〔斜Ｉ〕ｎ×（〔斜Ｉ〕１〔斜Ｉ〕２…〔斜Ｉ〕ｎ−１〔斜Ｉ〕ｎ＋１…〔斜Ｉ〕Ｎ）}の列ベクトルである。平面化手順は、以下にさらに詳細に記載される。〔斜Ｒ〕_ｎで示されるテンソル〔書Ａ〕∈〔斜Ｉ〕〔斜Ｒ〕^{〔斜Ｉ〕１×〔斜Ｉ〕２×…×〔斜Ｉ〕Ｎ}のｎランクは、モード〔斜ｎ〕ベクトルにより生成されるベクトル空間の次元として定義される。

図７Ａ〜７Ｃは、それぞれ外形寸法Ｉ_１×Ｉ_２×Ｉ_３を有する第３次テンソル１２００、１２１０、１２２０を示す。図７Ｄは、第３次テンソル１２００のモード１ベクトルを具備するマトリックス１２５０を獲得するためにモード１を平坦化した後の第３次テンソル１２００を示す。マトリックス１２５０が１指数、例えばマトリックス１２５０の範囲内で（ある程度）埋め込まれたＩ_２、を有する二次元形式の構造である一方、図７Ａの第３次テンソル１２００は立方体形式構造である。図７Ｅは、モード２を平坦化した後の第３次テンソル１２１０のモード２ベクトルを具備するマトリックス１２６０を示す。マトリックス１２６０が１指数、例えばそのデータの範囲内で（ある程度）埋め込まれたＩ_３、を有する二次元形式の構造である一方、この第３次テンソル１２１０は立方体形式構造である。図７Ｆは、第３次テンソル１２２０のモード３ベクトルを具備するマトリックス１２７０を得るためにモード３を平坦化した後の第３次テンソル１２２０を示す。マトリックス１２７０組織が１指数、例えばそのデータの範囲で（ある程度）埋め込まれたＩ_１、を有する二次元形式の構造である一方、そのような第３次テンソルは立方体形式構造である。

２つのマトリックスの積の一般化は、テンソルとマトリックスの積である可能性がある。〔書Ａ〕×_ｎ〔太Ｍ〕で示されるマトリックス〔太Ｍ〕∈〔斜Ｉ〕〔斜Ｒ〕^{〔斜Ｊ〕ｎ×〔斜Ｉ〕ｎ}によるテンソル〔書Ａ)∈〔斜Ｉ〕〔斜Ｒ〕^{〔斜Ｉ〕１×〔斜Ｉ〕２×…×〔斜Ｉ〕ｎ×…×〔斜Ｉ〕Ｎ}のモード〔斜ｎ〕積は、記載事項が〔書Ｂ〕_{〔斜Ｉ〕１…〔斜Ｉ〕ｎ−１〔斜Ｊ〕ｎ〔斜Ｉ〕ｎ＋１…〔斜Ｉ〕Ｎ}＝Σ_{〔斜Ｉ〕ｎ}〔斜ａ〕_{〔斜Ｉ〕１}…〔斜Ｉ〕ｎ−１〔斜Ｉ〕ｎ＋１…〔斜Ｉ〕_〔斜Ｎ〕 ^〔斜ｍ〕〔斜Ｊ〕_〔斜ｎ〕〔斜Ｉ〕_〔斜ｎ〕であるテンソル〔書Ｂ〕∈〔斜Ｉ〕〔斜Ｒ〕^{〔斜Ｉ〕１×…×〔斜Ｉ〕ｎ−１×〔斜Ｊ〕ｎ―１×〔斜Ｊ〕ｎ×〔斜Ｊ〕ｎ＋１×…×〔斜Ｉ〕Ｎ}である。テンソル〔書Ｂ〕の記載事項は以下の式により計算される。

モード〔斜ｎ〕積は、〔書Ｂ〕＝〔書Ａ〕Ｘ_ｎ〔太Ｍ〕として、あるいは〔太Ｂ〕_（ｎ）＝〔太Ｍ〕〔太Ａ〕_（ｎ）として平坦化されたマトリックスに関して表現される可能性がある。テンソルとマトリックスのモード〔斜ｎ〕積は、多重線形代数学とテンソル分析の内積の特例である。モード〔斜ｎ〕積は、アインシュタイン要約表記法を使用してしばしば示されるが、わかりやすくするために、モード〔斜ｎ〕積シンボルが使用される可能性がある。モード〔斜ｎ〕積は、以下の特性を有する可能性がある。

１．テンソル〔書Ａ〕∈〔斜Ｉ〕〔斜Ｒ〕^{〔斜Ｉ〕１×…×〔斜Ｉ〕Ｎ×…×〔斜Ｉ〕ｍ…}と、以下の特性を真に保つ２つのマトリックス、〔太Ｕ〕∈〔斜Ｉ〕〔斜Ｒ〕^{Ｊｍ×Ｉｍ}と、〔太Ｖ〕∈〔斜Ｉ〕〔斜Ｒ〕^Ｊn×Ｉｎが与えられる。

２．テンソル〔書Ａ〕∈〔斜Ｉ〕〔斜Ｒ〕^{〔斜Ｉ〕１×…×〔斜Ｉ〕Ｎ×…×〔斜Ｉ〕ｍ}と、以下の特性を真に保つ２つのマトリックス、〔太Ｕ〕∈〔斜Ｉ〕〔斜Ｒ〕^{Ｊｎ×Ｉｎ}と、〔太Ｖ〕∈〔斜Ｉ〕〔斜Ｒ〕^Ｋn×Ｊｎが与えられる。

Ｎ階テンソル〔書Ａ〕∈〔斜Ｉ〕〔斜Ｒ〕^{〔斜Ｉ〕１×〔斜Ｉ〕２×…×〔斜Ｉ〕Ｎ}は、それがＮベクトルの外積として、〔書Ａ〕＝〔太Ｕ〕_１〇〔太Ｕ〕_２〇…〇〔太Ｕ〕_Ｎと表現されるとき、ランク１を有する。テンソル要素は、〔斜ａ〕_ｉｊ…ｍ＝〔斜ｕ〕_１ｉ〔斜ｕ〕_２ｊ…〔斜ｕ〕_Ｎｍとして表され、ここで〔斜ｕ〕_１ｉは〔太Ｕ〕_１のｉ番目のコンポーネント等である。Ｒ＝ｒａｎｋ（〔書Ａ〕）として示されるＮ階のテンソル〔書Ａ〕のランクは、一次結合で〔斜Ａ〕を与える最小の数のランク１テンソルである。

以下の単純な例で示されるように、特異値分解（ＳＶＤ）はランク分解として表現されることが可能である。

ＳＶＤが組合せ直角ランク分解である可能性があるが、逆が真でない点に留意する必要がある。一般に、ランク分解が必ずしも特異値分解であるというわけではない。また、ＮモードＳＶＤは相互に直角ランク１テンソルの拡大として以下の通りに表現することができる。

ここで、〔太Ｕ〕^（ｉｎ） _ｎは、マトリックス〔太Ｕ〕_ｎの〔斜Ｉ〕_ｎ列ベクトルであり、これは次式に類似している。

例えば、２より大きいＮ階のテンソル、あるいはＮ方向配列〔書Ｄ〕は、Ｎ空間から構成されるＮ階マトリックスである。ＮモードＳＶＤは、従来のマトリックスつまり２モードのＳＶＤの「一般化」である。それはこれらのＮ空間を直交させることができ、以下に示すようにＮ直交空間のＸｎとして示されるモード〔斜ｎ〕積としてテンソルを分解することができる。

コアテンソルとして知られるテンソル〔斜Ｚ〕は、それが簡単な対角線構造を有していない従来のマトリックスＳＶＤにおいて、対角線の特異値マトリックスに類似している。モード〔斜ｎ〕積を使用して、式１の従来のＳＶＤは、〔太Ｄ〕＝Σ×_１〔太Ｕ〕×_２〔太Ｖ〕として書き直されることができる。コアテンソルは、モードマトリックス〔太Ｕ〕_１，…，〔太Ｕ〕_Ｎの間の相互作用を支配する。モードマトリックス〔太Ｕ〕_ｎは、〔書Ｄ〕のモード〔斜ｎ〕平坦化から生ずるマトリックス〔太Ｄ〕_（ｎ）の列空間の全域に及ぶ直交ベクトルを具備する。

ＮモードＳＶＤ技術は、式２に従い〔書Ｄ〕を分解させるために使用される。
１．平坦化されたマトリックス〔太Ｄ〕_（ｎ）のＳＶＤを計算し、かつ〔太Ｕ〕_ＮをＳＶＤの左側マトリックスであるように設定することにより、ｎ＝１〜Ｎとして式２のマトリックス〔太Ｕ〕ｎを計算する。〔太Ｄ〕_（ｎ）が非正方行列であるとき、特異値分解（ＳＶＤ）〔太Ｄ〕_（ｎ）＝〔太Ｕ〕ｎΣ〔太Ｖ〕^Ｔ _ｎのＵ_ｎの計算は、〔太Ｄ〕_（ｎ）のどの外形寸法がより小さいかに従い、それぞれの〔太Ｄ〕_（ｎ）〔太Ｄ〕^Ｔ _（ｎ）＝〔太Ｕ〕_ｎΣ^２〔太Ｕ〕^Ｔ _ｎを分解し、次いで〔太Ｖ〕^Ｔ _ｎ＝Σ＋〔太Ｕ〕^Ｔ _ｎ〔太Ｄ〕_（ｎ）を計算することにより、あるいは、〔太Ｄ〕^Ｔ _（ｎ）〔太Ｄ〕_（ｎ）＝〔太Ｖ〕_ｎΣ^２〔太Ｖ〕^Ｔ _ｎを分解し、次いで〔太Ｕ〕_ｎ＝〔太Ｄ〕_（ｎ）〔太Ｖ〕_ｎΣ＋を計算することにより、効果的に実行されることができる。
２．コアテンソルは以下の式３のように解決する。

線形事例の寸法縮小は、瑣末な多重線形対応物を有していない。Ｓのテンソルに役立つ一般化は、与えられたテンソルのそれぞれのモードを繰り返して最適化する最適ランク（Ｒ_１，Ｒ_２，…，Ｒ_Ｎ）近似を具備することができ、ここでそれぞれの最適化段階は、可能な準定対照マトリックスの最もランクを減少させた近似を具備する。以下の参考文献L. de Lathauwer et al., "On the best rank-1 and rank-(RI, R2,..., Rn) approximation of higher order tensors," SIAM Journal of Matrix Analysis and Applications, 21(4):1324-1342, 2000を見ると、この技術は、マトリックスの直交繰り返しの高階の拡張である。図２Ｂは、ここでさらに論ぜられるように多重線形ＰＣＡに関連するテンソル基礎３３０を示す。

多変量データの独立要素分析（ＩＣＡ）技術は、投影データができるだけガウス分布からかけ離れていないような、一連の投影を探す。ＩＣＡ技術は、２つの典型的な方法に適用されることが可能である。構造Ｉは、それぞれの行が異なるベクトル化された画像である〔太Ｄ〕^ＴへのＩＣＡ技術に適用し、顔の局所特性を反映する空間的に独立した基礎セットを見つける。一方、構造ＩＩはＩＣＡ技術を〔太Ｄ〕に適用し、基礎が顔の全体的な特性を反映する間、統計的独立である１組の係数を見つける。

構造Ｉ：ＩＣＡ技術は基本的に、予め書き込まれたデータ集合の式１で示される要素分析法あるいはＰＣＡ解決法から開始し、それらが独立した構成要素となるように、主要構成要素の回転を計算する。J. Friedman et al., "The Elements of Statistical Learning: Data Mining, Inference, and Prediction," Springer, New York, 2001を見ると、図２Ａは画像データ３２０のために独立構成要素〔太Ｃ〕_pixelsを図示する。ＩＣＡ技術は、以下のように、式１の主要構成要素方向〔太Ｕ〕を回転させることができる。

〔太Ｄ〕の全ての列が異なる画像である所、〔太Ｗ〕はＩＣＡ技術により計算される可逆変換であり、〔太Ｃ〕＝〔太Ｕ〕〔太Ｗ〕^Ｔは、図２Ａに示される独立要素であり、〔太Ｋ〕＝〔太Ｗ〕^−ＴΣ〔太Ｖ〕^Ｔは係数である。相互情報、エントロピー、高次累積率やその他を基礎とするこれらのような様々な目的機能は、これらの目的機能を極める異なる最適方法に沿って独立要素を計算する典型的な手順の使用を表現することができる。ＩＣＡ技術による次元低下は、通常ＰＣＡ前処理段階で実行される。次の段落でより多く提供される上記の表現を意味する数学的に等価な方法は、以下の通りである。

代わりに、構造ＩＩで、ＩＣＡは〔太Ｄ〕に適応することができ、以下に示すように、係数が統計的に独立である主要構成要素方向を回転する。

このとき〔太Ｃ〕は基礎であり、〔太Ｋ〕は独立係数である。〔太Ｃ〕、〔太Ｋ〕、及び〔太Ｗ〕は２つの異なる構造で別に計算されることに注意する。

図５は、本発明によるＭＩＣＡ手順を実行するために使用される本発明によるコンピュータシステム１００の典型的実施形態のブロック図を示す。例えば、システム１００は、処理装置１３０と通信する画像捕捉システムを具備することができる。システムは、さらに処理装置１３０と通信する記憶装置（例えばメモリ１１０等）を更に具備する可能性がある。メモリ１１０は、画像捕捉システム１２０により捕捉されたデータ上の処理装置１３０により実行されるコンピュータ実行可能指示を具備するＭＩＣＡアプリケーション１１２を記憶する可能性がある。メモリ１１０は、ＭＩＣＡ手順によって処理される画像データを比較するのに使用される画像データベースをさらに格納する可能性がある。

図６は、本発明の方法２００のフローチャートの典型的な実施形態を示す。例えば、図６で示すように、基礎テンソルへの画像応答が計算される（ステップ２１０）。画像応答は、平坦化される（ステップ２２０）。係数ベクトルは、画像応答（ステップ２３０）から引き出される可能性がある。引き出された係数は、マトリックス（ステップ２４０）の係数列に格納される複数の異なるパラメータと比較される可能性がある。

上述されるように、本発明による典型的なＭＩＣＡ手順は本発明の典型的な実施形態で実装される可能性がある。例えば、構造ＩはＭＩＣＡ手順を適用することができ、階乗コードに終わる可能性がある。それは、人々、視点、照明、その他をコード化する係数のそれぞれの集合が統計的独立である表現の場所を見つけることができる。構造ＩＩは、人々、視点、照明、その他全体で一組の独立したベースを見つける。

構造Ｉ第ｎ番目のモードで平坦化されたデータテンソル〔書Ｄ〕を送信し、４−８の場合のようにＩＣＡを計算する。

ここで〔太Ｃ〕_ｎ＝〔太Ｕ〕_ｎ〔太Ｗ〕^Ｔ _ｎである。このように、私たちは以下のようにＮモードＳＶＤ２から、ＮモードＩＣＡを引き出すことができる。

ここで、コアテンソル〔斜Ｓ〕＝〔斜Ｚ〕×_１〔太Ｗ〕^−Ｔ _１…×_Ｎ〔太Ｗ〕^−Ｔ _Ｎである。モードマトリックス〔太Ｃ〕_〔斜Ｉ〕、ここで〔斜Ｉ〕は１…Ｎであり、のそれぞれと関連した列は統計的独立である。

多重線形ＩＣＡ分解は、ベクトル化された連続画像〔太Ｄ〕_〔斜ｄ〕のテンソル〔書Ｄ〕に実行される。

一組のモードマトリックス、すなわち、それぞれの人々〔斜ｐ〕の係数の列ベクトル〔太ｃ〕^〔斜Ｔ〕 _〔斜ｐ〕を具備するマトリックス〔斜Ｃ〕_people、それぞれの表示方向〔斜ｖ〕の係数の列ベクトル〔太ｃ〕^〔斜Ｔ〕 _〔斜ｖ〕を具備するマトリックス〔斜Ｃ〕_views、及びそれぞれの照明方向〔斜ｌ〕の係数の列ベクトル〔太ｃ〕^〔斜Ｔ〕 _〔斜ｌ〕を具備するマトリックス斜Ｃ_illums、と図２Ｂにより図示されるように、異なるモードマトリックス間の相互作用を支配するＭＩＣＡの基礎テンソル〔斜Ｂ〕＝〔斜Ｓ〕×_４〔太Ｃ〕_pixels、とを引き出す。図２Ｂは、〔書Ｂ〕＝〔斜Ｓ〕×_５〔太Ｃ〕_pixelsとして獲得された、〔書Ｄ〕の７５×６×６×８５６０ＭＩＣＡ表現の部分視覚化３３０を示す。

構造Ｉでは、モードマトリックスの各々は一組の統計的独立な係数を具備するが、構造ＩＩが、人々、視点、照明、その他に渡る一組の独立な基礎を生産する。

構造ＩＩ：ＭＩＣＡは式（１５）のように同じ数学的な形式を有する。しかしながら、コアテンソル〔斜Ｓ〕とモードマトリックス〔太Ｃ〕_１…〔太Ｃ〕_Ｎは、式（９）〜（１１）により計算される。この構造は、異なるモードに渡って統計的独立である一組の基礎ベクトルを生ずる。

ＰＣＡまたは「アイゲンフェイス」において、既知の「連続する」顔画像〔太Ｄ〕_〔斜ｄ〕は、減少された次元の基礎マトリックス〔太Ｂ〕_PCAと、それぞれのベクトル化された画像〔太Ｄ〕_〔斜ｄ〕と関連する係数〔太ｃ〕_〔斜ｄ〕のベクトルを具備するマトリックス〔太Ｃ〕に分解される。未知の顔の画像〔太Ｄ〕_newがあれば、射影演算子〔太Ｂ〕^−１ _PCAは、この新しい画像を画像係数〔太ｃ〕_new＝〔太Ｂ〕^−１ _PCA〔太Ｄ〕_newの減少された次元空間に線形に投影する。

すぐ後に続く引用で記載される認識手順は、この線形射影アプローチに基づき、このためそれは多重線形構造を完全には利用しない。M.A.O. Vasilescu et al. "Multilinear analysis for facial image recognition," In Proc. Int. Conf on Pattern Recognition, Quebec City, August 2002を参照する。本発明の１つの典型的な実施形態は、特性、照明、視点、及びラベルのないテスト画像の表現ラベルを推論する基本的な問題に対処する。この問題の解決があれば、ＩＣＡの統計的独立特性とテンソル構造の多重線形構造とに基づく単純な認識アルゴリズムが得られる。

図３Ａは、画像を表現するためにＭＩＣＡ手順により使用される係数ベクトルの集合である典型的な画像表現３４０を示す。

第１係数ベクトルは、人の特性をコード化し、第２は視点をコード化し、第３は照明をコード化し、その他同様にコード化する。

図３Ｂは、基礎テンソルへの新しい画像の画像応答３５０を示す。新しい画像が、人、視点、及び照明方向が決定されないままであれば、基礎テンソル〔書Ｂ〕＝〔書Ｓ〕×４〔太Ｃ〕_pixelsx4Cpixelsへの画像応答は、式（１７）のように計算されることが可能である。

ここで、〔書Ｒ〕は、画像を作る異なる要素の多モード応答である。このテンソルの応答は、〔太ｄ〕_newと関連する人々パラメータを引き出すために利用されることができる、図３Ｂに示される特定の構造を有する。更に詳しくは、この画像は、以下に示す、照明係数ベクトル〔太ｃ〕_ｌ、視点係数ベクトル〔太ｃ〕_ｖ、及び人係数ベクトル〔太ｃ〕_ｐ、の係数ベクトルの未知の集合から造られる。顔認識の問題は、計算された人係数ベクトルの分類である。

画像応答Ｒは、列が式（１８）の人々パラメータ〔太ｃ〕_〔斜ｐ〕の倍数であるマトリックスとして再編成されることが可能である。画像応答の再編成は、人々モードに沿って平坦化することにより達成される。さらに詳しく調べてみると、マトリックス〔太Ｒ〕_(people)はランク１を有し、その列は〔太ｃ〕_ｐの倍数である。それゆえ、〔書Ｒ〕の人々ランクは１であり、それゆえ〔太Ｒ〕_(people)のＳＶＤは、〔太Ｃ〕_ｐを引き出すことができる。同様に視点モードあるいは照明モードその他に沿って平坦化することがマトリックス〔太Ｒ〕_(viewpoints)と〔太Ｒ〕_{(illumination)}を生じることは、その列がそれぞれの〔太ｃ〕_ｖと〔太ｃ〕_ｌの複数であることが観察されることができる。これらの係数ベクトル、視点係数ベクトル、照明係数ベクトル等がそれぞれのマトリックスで特異値分解を計算することにより引き出される。

それゆえ、上記したように、テスト画像と関連する全ての構成要因と全ての係数ベクトルは、ランク（〔斜Ｒ〕_１，〔斜Ｒ〕_２，…，〔斜Ｒ〕_Ｎ）＝ランク（１，１，…，１）である多モード応答テンソル〔書Ｒ〕上でＮモードＳＶＤを計算することにより引き出されることが可能である。

引き出された〔太ｃ〕_ｐを使用し、個人の認識を実行することが可能である。それは、正規化された最も近い隣人と等価なコサイン関数を使用し、〔太Ｃ〕_peopleの列に記憶される人々パラメータに対して比較されることが可能である。画像要因のうちの１つが表情であるならば、人は同様に表現認識をすることができる。このように、画像と関連する全ての要因は認識できる。本発明の１つの典型的な実施形態において、典型的な手順は７５の主題のグレイレベル顔画像に適用されることができる。それぞれの主題は、１５の異なる視点（水平面φ＝０°上の５°ステップのθ＝−３５°から＋３５０°）から、１５の異なる照明（傾斜面φ＝４５°上の５°ステップのθ＝−３５°から＋３５０°）の下で、撮像することができる。図４Ａは主題照明が垂直に配置され、視点が水平に配置され他状態で物体の１つのために２２５の典型的な画像の３６０の完全な集合を示す。箱に入れられる画像が連続させるために使用される可能性がある。画像集合３６０は図４Ｂの左上走査として示される主題の３Ｄ走査３７０から描画される可能性がある。図４Ｂに示される７５の走査は、Cyberware^TM 3030PSレーザースキャナを使用して記録される可能性があり、フライブルグ大学で創造された３Ｄ可変顔データベースの一部である。

要約すると、独立要素分析（ＩＣＡ）技術は、トレーニング画像の組み合わせの表現構成要素の統計的依存性を最小にする可能性がある。しかし、ＩＣＡ技術は一般に画像形成に固有の場面構造、照明、及び画像化に関連する異なる要素を区別することができない。本発明による非線形な多元的なＩＣＡ手順は、上述したように、ＩＣＡ技術を一般化することを役立たせることができる。例えば、画像組み合わせの本発明による典型的な多重線形ＩＣＡ（ＭＩＣＡ）手順は、複数の要素の統計的独立要素を突き止めることができる。ＩＣＡ技術が線形（マトリックス）代数学を使用するのに対して、本発明によるＭＩＣＡ手順は一般に多重線形（テンソル）代数学を利用する可能性がある。顔画像組み合わせのこの文脈において、私たちは典型的なＭＩＣＡ手順により学ばれる統計的規則性が立ち向かうことができる自動顔認識を改善する情報を捕捉することができることを実証する。この文脈において、私たちはラベルのないテスト画像のモードラベル（人、視点、照明、表現、その他）の干渉に対する多重線形フレームワークに、基本的な問題にも立ち向かう。

発明は好ましい実施形態に関連付けて記載されるが、上記の好ましい実施形態の他の変化と修正が発明の範囲から逸脱することなくなされる可能性があることは当業者によく理解される。他の実施形態は、ここに開示される発明の明細書あるいは慣例を考慮することにより当業者にとって明らかである。明細書と記載された例題は、典型的であるのみであり、以下に示されるクレームにより示される発明の真の範囲と精神の範囲内であることが意図される。さらに、完全にここで示されるように、ここに引用される全ての引用文献はこの参照によりここに取り入れられる。

全ての画像の貫く変化の主軸である、典型的な主要素分析（ＰＣＡ）固有ベクトル（例えば、アイゲンフェイス）を示す図である。典型的な「テンソルフェイス」表現の部分視覚化を示す図である。本発明の典型的な実施形態で使用されることができる画像データの独立要素を示す図である。本発明の典型的な実施形態で使用されることができる典型的な多重線形独立要素分析（ＭＩＣＡ）表現の部分視覚化を示す図である。本発明の典型的な実施形態で使用される特定画像を表現するための「テンソルフェイス」あるいはＭＩＣＡ表源のどちらかが使用される係数ベクトルの集合の画像表現を示す図である。基礎テンソルへの新しい画像の画像応答を示す図である。本発明の典型的な実施形態で使用される水平に配列される視点と垂直に配列される照明で対象の１つのための画像の完全な集合を示す図である。描かれた図４Ａの画像からの対象の走査を示す図である。本発明によるＭＩＣＡ手順を実行するコンピュータシステムの１つの典型的な実施形態のブロック図を示す。本発明による多重線形独立要素分析を使用する画像データを処理する方法の１つの典型的な実施形態のブロック図を示す。本発明の典型的な実施形態によるサンプルのテンソルを示す構成図である。本発明の典型的な実施形態によるモード１で平坦化されたテンソルを示す構成図である。本発明の典型的な実施形態によるサンプルのテンソルを示す構成図である。本発明の典型的な実施形態によるモード２で平坦化されたテンソルを示す構成図である。本発明の典型的な実施形態によるサンプルのテンソルを示す構成図である。本発明の典型的な実施形態によるモード３で平坦化されたテンソルを示す構成図である。

符号の説明

１００コンピュータシステム
１１０メモリ
１１２ＭＩＣＡアプリケーション
１１４画像データベース
１２０画像捕捉システム
１３０処理装置

Claims

画像に関連する画像データを基礎テンソルに適用する段階と、
画像データの基礎テンソルへの適用に基づき応答データを獲得する段階と、
応答データから係数ベクトルを引き出す段階を備えることを特徴とするデータ処理方法。
上記応答データが、画像を構成する要素への多様な応答に関連することを特徴とする上記請求項１に記載の方法。
上記応答データに対応する画像の画像部分を平坦化する段階を更に備えることを特徴とする上記請求項１に記載の方法。
上記平坦化する段階が、更なるマトリクス中に応答データを配置するために、予め定められたモードを使用し、画像部分を平坦化する段階を備えることを特徴とする上記請求項３に記載の方法。
上記平坦化する段階が、画像の画像パラメータの倍数であるコラムを有する更なるマトリクス中に応答データを配置するために、予め定められたモードを使用し、画像部分を平坦化する段階を備えることを特徴とする上記請求項３に記載の方法。
上記平坦化する段階が、人間モードに基づき応答データを平坦化する段階を備えることを特徴とする上記請求項３に記載の方法。
上記引き出す段階が、応答データから人間係数ベクトルを引き出す段階を備えることを特徴とする上記請求項１に記載の方法。
上記引き出す段階が、特異値分解手順を使用し係数ベクトルを引き出す段階を備えることを特徴とする上記請求項１に記載の方法。
上記引き出された係数ベクトルと更なる画像に関連する更なるデータのマトリクス中に備えられた複数のパラメータとを比較する段階を更に備えることを特徴とする上記請求項１に記載の方法。
上記比較する段階が、引き出された人間係数ベクトルとマトリクスの人間係数列に記憶される複数の人間パラメータとを比較する段階を備えることを特徴とする上記請求項９に記載の方法。
上記比較する段階が、規格化された最近傍とほぼ等価であるコサイン関数を使用して実行されることを特徴とする上記請求項１０に記載の方法。
画像に関連するデータを受信可能とする処理装置と、
処理装置と通信するように配置され、コンピュータ実行可能な指示セットを記憶する記憶装置とを備え、
上記指示セットは、
１）第１セットは、処理装置が画像に関連する画像データを基礎テンソルに適用することを可能とするように構成され、
２）第２セットは、処理装置が画像データの基礎テンソルへの適用に基づき応答データを獲得することを可能とするように構成され、
３）第３セットは、処理装置が応答データから係数ベクトルを引き出すことを可能とするように構成されることを特徴とするコンピュータシステム。
上記応答データが、画像を構成する要素への多様な応答に関連することを特徴とする上記請求項１２に記載のコンピュータシステム。
上記指示セットは、処理装置が上記応答データに対応する画像の画像部分を平坦化することを可能とするように構成される第４セットを更に備えることを特徴とする上記請求項１２に記載のコンピュータシステム。
上記第４セットは、処理装置が更なるマトリクス中に応答データを配置するために、予め定められたモードを使用し、画像部分を平坦化する構成とすることを可能とすることを特徴とする上記請求項１４に記載のコンピュータシステム。
上記画像部分は、画像の画像パラメータの倍数であるコラムを有する更なるマトリクス中に応答データを配置するために、予め定められたモードを使用し、平坦化されることを特徴とする上記請求項１４に記載のコンピュータシステム。
上記画像部分は、人間モードに基づいて使用し、平坦化されることを特徴とする上記請求項１４に記載のコンピュータシステム。
上記第３セットは、処理装置を応答データから人間係数ベクトルを引き出すように構成することを特徴とする上記請求項１２に記載のコンピュータシステム。
上記第３セットは、処理装置を特異値分解手順を使用し係数ベクトルを引き出すように構成することを特徴とする上記請求項１２に記載のコンピュータシステム。
上記指示セットは、処理装置が上記引き出された係数ベクトルと更なる画像に関連する更なるデータのマトリクス中に備えられた複数のパラメータとを比較することを可能とするように構成される第５セットを更に備えることを特徴とする上記請求項１２に記載のコンピュータシステム。
上記第４セットは、処理装置が引き出された人間係数ベクトルとマトリクスの人間係数列に記憶される複数の人間パラメータとを比較するように構成されることを特徴とする上記請求項２０に記載のコンピュータシステム。
上記比較は、規格化された最近傍とほぼ等価であるコサイン関数を使用して実行されることを特徴とする上記請求項２１に記載のコンピュータシステム。
コンピュータ実行可能な指示セットを記憶し、
上記指示セットは、
１）第１セットは、処理装置が画像に関連する画像データを基礎テンソルに適用することを可能とするように構成され、
２）第２セットは、処理装置が画像データの基礎テンソルへの適用に基づき応答データを獲得することを可能とするように構成され、
３）第３セットは、処理装置が応答データから係数ベクトルを引き出すことを可能とするように構成されることを特徴とするコンピュータ読取り可能媒体。
階乗コードを生成するために、多重線形独立要素分析手順を画像データに適用し、
上記適用段階の結果に基づき、物、視点、及び照明と関連する複数の係数のセットを有する画像データの表現を生成し、
上記セットのそれぞれはお互いに統計的に独立していることを特徴とするデータを処理する方法。
画像に関連する係数ベクトルのセットを備え、
上記ベクトルは、画像の識別子、画像の視点、及び画像の照明方向を具備することを特徴とする記憶装置に記憶することが可能なデータ構造。
上記画像は、人間の画像であることを特徴とする上記請求項２１に記載のデータ構造。
上記画像は、人間の顔の画像であることを特徴とする上記請求項２１に記載のデータ構造。
上記係数ベクトルセットは、マトリックスで配置されることを特徴とする上記請求項２１に記載のデータ構造。
複数の画像に関連する情報を獲得し、
上記情報に関連する基礎テンソルを決定し、
上記基礎テンソルが、
ａ）統計的に独立であること、
ｂ）係数セットを具備し、上記セットのそれぞれは統計的に独立であること
のうち少なくとも１つであることを特徴とするデータ処理方法。
画像に関連するデータを受信可能な処理装置と、
上記処理装置と通信するように配置され、コンピュータ実行可能指示セットを記憶した記憶装置とを備え、
上記指示セットは、
１）上記処理装置が複数の画像に関連する情報を獲得可能とするように構成される第１セットと、
２）上記処理装置が上記情報と関連する基礎テンソルを決定可能とするように構成される第２セットとを備え、
上記基礎テンソルが
ａ）統計的に独立であること、
ｂ）係数セットを具備し、上記セットのそれぞれは統計的に独立であること
のうち少なくとも１つであることを特徴とするコンピュータシステム。
コンピュータ実行可能な指示セットを記憶し、
上記指示セットは、
１）上記処理装置が複数の画像に関連する情報を獲得可能とするように構成される第１セットと、
２）２）上記処理装置が上記情報と関連する基礎テンソルを決定可能とするように構成される第２セットとを備え、
上記基礎テンソルが
ａ）統計的に独立であること、
ｂ）係数セットを具備し、上記セットのそれぞれは統計的に独立であること
のうち少なくとも１つであることを特徴とするコンピュータ読取り可能媒体。