JP2021528728A

JP2021528728A - 疑似画像を使用した顔画像認識

Info

Publication number: JP2021528728A
Application number: JP2020567494A
Authority: JP
Inventors: ロンユィ，ツォンロン; ラジ，リシャブ; ウィルバーダーレン，ダール
Original assignee: ストワーズインスティテュートフォーメディカルリサーチ
Priority date: 2018-07-02
Filing date: 2019-06-26
Publication date: 2021-10-21
Anticipated expiration: 2039-06-26
Also published as: US11157721B2; US20210374388A1; JP7357010B2; US11769316B2; CN112368708B; KR20210025020A; WO2020009877A1; EP3818693A1; US20200005023A1; EP3818693A4; CN112368708A

Abstract

本開示は、画像認識を実行するための、例えば顔画像認識を実行するための「疑似画像」の使用に関する。一実施形態では、疑似画像は、現実世界の画像から開始して、オプションの前処理の後、画像を疑似画像に変換する非線形変換にこの画像を供することによって取得される。現実世界のオブジェクト（またはより一般には、現実世界のパターン）は、出発画像内では知覚できる場合があるが、疑似画像内では知覚することができない。画像認識は、疑似画像を既知の疑似画像のライブラリと比較することによって行われる。すなわち、画像認識は、現実世界空間に戻ることなく疑似画像空間において行われる。このようにして、ノイズ、不十分な照明、不均一なライティング、および／または遮蔽、例えば顔画像の場合には眼鏡もしくはスカーフなどによって劣化している現実世界の画像のような、不完全な現実世界の画像の場合であっても、ロバストな画像認識が実現される。

Description

関連出願

本出願は、米国特許法第１１９条のもと、２０１８年７月２日に出願された米国仮特許出願第６２／６９３，１３６号明細書の利益を主張し、その内容全体を参照により本明細書に援用するものとする。

政府の資金提供
本発明は、国立衛生研究所によって授与された助成金番号Ｒ０１ＤＣ０１４７０１のもとで政府の支援を受けてなされた。政府は、本発明における一定の権利を有する。

本開示は、画像認識を実行するためのコンピュータシステムおよびコンピュータ実装方法に関する。特に重要な実施形態では、本システムおよび本方法は、顔認識を通じて画像内の人間の対象者を識別するために使用される。より一般には、本開示は、複数のピクセルから構成される画像、またはより一般には、複数の成分から構成される画像を処理して、分類、識別、または他の目的のために使用することができる画像内に埋め込まれたオブジェクト、パターン、または特徴を発見するための、コンピュータ実装方法およびコンピュータシステムを提供する。

コンピュータデバイスによる顔認識は、国家安全保障または刑事司法制度のような歴史的に重要な分野だけでなく、近年では、商業的な環境およびソーシャルメディアの相互作用においても広範囲な用途を有する。その結果、顔認識は、この問題を専門に取り扱う種々の科学雑誌（例えば、非特許文献１ならびにＩＥＥＥ刊行物である非特許文献２および非特許文献３）と、進捗状況を報告するために定期的に開催される国際会議（例えば、国際パターン認識連盟の年次会議、コンピュータビジョンおよびパターン認識に関するＩＥＥＥコンピュータソサエティ会議、自動的な顔認識およびジェスチャ認識に関するＩＥＥＥ国際会議）とによる集中的な研究の対象であったし、引き続き、集中的な研究の対象でありつづけている。

顔認識の成功は、実験室環境においては実現されてきた。しかしながら、監視カメラ、インターネット、またはモバイル機器のような不完全なソースから画像が収集されることの多い実際の用途では、依然として課題が残されている。このような現実世界の条件下で取得された顔画像は、ノイズ、不十分な照明、不均一なライティング、および／または遮蔽によって劣化していることが多く、これにより、画像内に顔を見せている人物を認識することが困難になっている。表情、姿勢、カメラアングルの変化は、さらなる問題をもたらすことが多い。したがって、顔認識の中心的な課題は、種々の条件下で、かつ劣化した画像を使用して、同じ顔のロバストかつ不変の認識を実現することである。このような画像は、本明細書では「不完全な画像」と称される。

コンピュータ化された顔認識は、通常、何らかの形式で顔を表示するシステムを使用して実行され、これに続いて、マッチングプロセスが実行される。認識の成功を実現するいくつかのシステムは、学習ベースのアプローチを使用して、または手動でキュレーションされた特徴を使用して、画像から特徴を抽出することを伴う。次いで、画像の表示がマッチングに供され、このマッチングは、顔を分類および／または識別するための統計的アプローチを伴うことが多い。手動でキュレーションされた特徴は、ロバスト性を提供することできるが、考えられる全ての特徴を列挙することには莫大な手間がかかる。深層学習アプローチにより、システムは、教師ありまたは教師なしアルゴリズムを使用した特徴抽出を実行することができる。しかしながら、深層学習アプローチは、通常、多数の起こり得る条件を網羅した大きいトレーニング集合を必要とする。トレーニング集合内に含まれていない条件が存在する場合には、システムは、実際には実行に失敗する可能性が高い。

International Journal of Computer Vision IEEE Transactions on Image Processing IEEE Transactions on Pattern Analysis and Machine Intelligence

本開示は、顔画像認識における上記の問題を対象とする。より一般には、本開示は、複数の成分（例えば、ピクセル）から構成される画像を処理して、画像内に埋め込まれたオブジェクト、パターン、または特徴を発見するためのロバストな方法を提供することを対象とする。

第１の態様によれば、本開示は、コンピュータ実装される画像認識を実行する方法であって、当該方法は、
（ａ）Ｍ個の成分を有する第１画像を提供するステップと、
（ｂ）既定の変換行列を提供するステップであって、
（ｉ）既定の変換行列は、Ｍ×Ｋ行列であり、なお、当該Ｍ×Ｋ行列では、Ｋ個の列が、Ｋ個の辞書要素の集合を構成し、
（ｉｉ）既定の変換行列は、Ｍ×Ｎ行列のスパースかつ非負の因数分解を実行するステップを含む方法によって構築され、なお、Ｍ×Ｎ行列では、Ｎ個の列が、Ｎ個のトレーニング画像の集合を構成し、それぞれのトレーニング画像は、Ｍ個の成分を有する、
ステップと、
（ｃ）第１画像のスパースかつ非負の変換を実行するための既定の変換行列を使用して、第１画像のための疑似画像を構築するステップであって、第１画像のための疑似画像は、Ｋ個の要素重みから成り、それぞれの要素重みは、Ｋ個の辞書要素のうちの１つに対応する、ステップと
を含み、
Ｍ×Ｎ行列は、ランクＲを有し、Ｋは、以下の関係性：
（ｉ）Ｋは、Ｍ以上である、および
（ｉｉ）Ｋは、Ｒ以上である、
のうちの一方または両方を満たす、
方法を提供する。

知られているように、行列の行ランクとは、行列内で線形に独立している行の数であり、列ランクとは、線形に独立している列の数である。行ランクは、列ランクと常に等しくなるので、線形に独立している行または列の数が、行列の「ランク」を構成する。或る行列のランクが、同じ次元の行列に対する最大可能ランクに等しい場合、すなわち、或る行列のランクが、行数および列数のうちの小さい方である場合には、この行列は、「フルランク行列」である。

Ｍ×Ｎ行列は、フルランク行列であることが多く、通常は、Ｎ＞Ｍも有する。これらの条件下では、ＲはＭに等しいので、上記の第２の関係性は、第１の関係性と同じになり、すなわちＫ≧Ｍになる。したがって、上記の関係性は、多くの場合、正方行列（Ｋ＝Ｍ）、またはより典型的には行よりも列のほうが多い長方行列（Ｋ＞Ｍ）である既定の変換行列と等価である。

本開示の第１の態様の特定の実施形態では、本方法は、
（ｄ）既知の画像のＳ個の疑似画像の集合を提供するステップであって、Ｓ個の疑似画像の各々は、Ｋ個の要素重みから成り、それぞれの要素重みは、Ｋ個の辞書要素のうちの１つに対応する、ステップと、
（ｅ）ステップ（ｃ）の疑似画像を、ステップ（ｄ）のＳ個の疑似画像の集合と比較して、例えば、第１画像が、
（ｉ）既知の画像の１つ以上のクラスまたはカテゴリにある、
（ｉｉ）特定の既知の画像である、
（ｉｉｉ）既知の画像の１つ以上のクラスまたはカテゴリにない、
（ｉｖ）既知の画像ではない
のうちの１つ以上である可能性を決定するステップと
をさらに含む。

本開示の第１の態様の他の実施形態では、本方法は、ステップ（ｅ）の比較の結果を報告するさらなるステップを含むか、またはさもなければ、開示されている方法のマシンビジョン用途において、上記の結果を使用して、例えば上記の比較の結果を使用して、ロボットの動作を制御するさらなるステップを含む。

第２の態様によれば、本開示は、コンピュータ実装される画像認識を実行する方法であって、当該方法は、
（ａ）Ｍ個の成分を有する第１画像を提供するステップと、
（ｂ）既定の変換行列を提供するステップであって、
（ｉ）既定の変換行列は、Ｍ×Ｋ行列であり、なお、当該Ｍ×Ｋ行列では、Ｋ個の列が、Ｋ個の辞書要素の集合を構成し、
（ｉｉ）既定の変換行列は、Ｍ×Ｎ行列のスパースかつ非負の因数分解を実行するステップを含む方法によって構築され、なお、Ｍ×Ｎ行列では、Ｎ個の列が、Ｎ個のトレーニング画像の集合を構成し、それぞれのトレーニング画像は、Ｍ個の成分を有する、
ステップと、
（ｃ）第１画像のスパースかつ非負の変換を実行するための既定の変換行列を使用して、第１画像のための疑似画像を構築するステップであって、第１画像のための疑似画像は、Ｋ個の要素重みから成り、それぞれの要素重みは、Ｋ個の辞書要素のうちの１つに対応する、ステップと、
（ｄ）既知の画像のＳ個の疑似画像の集合を提供するステップであって、Ｓ個の疑似画像の各々は、Ｋ個の要素重みから成り、それぞれの要素重みは、Ｋ個の辞書要素のうちの１つに対応する、ステップと、
（ｅ）ステップ（ｃ）の疑似画像を、ステップ（ｄ）のＳ個の疑似画像の集合と比較して、例えば、第１画像が、
（ｉ）既知の画像の１つ以上のクラスまたはカテゴリにある、
（ｉｉ）特定の既知の画像である、
（ｉｉｉ）既知の画像の１つ以上のクラスまたはカテゴリにない、
（ｉｖ）既知の画像ではない
のうちの１つ以上である可能性を決定するステップと
を含む、方法を提供する。

本開示の第２の態様の特定の実施形態では、本方法は、ステップ（ｅ）の比較の結果を報告するさらなるステップを含むか、またはさもなければ、開示されている方法のマシンビジョン用途において、上記の結果を使用して、例えば上記の比較の結果を使用して、ロボットの動作を制御するさらなるステップを含む。

第３の態様によれば、本開示は、コンピュータ実装される画像認識を実行する方法であって、当該方法は、
（ａ）２つの可能な値のうちの一方のみをそれぞれ有するＭ個の成分を有する第１画像を提供するステップと、
（ｂ）既定の変換行列を提供するステップであって、
（ｉ）既定の変換行列は、Ｍ×Ｋ行列であり、なお、当該Ｍ×Ｋ行列では、Ｋ個の列が、Ｋ個の辞書要素の集合を構成し、
（ｉｉ）既定の変換行列は、Ｍ×Ｎ行列のスパースかつ非負の因数分解を実行するステップを含む方法によって構築され、なお、Ｍ×Ｎ行列では、Ｎ個の列が、Ｎ個のトレーニング画像の集合を構成し、それぞれのトレーニング画像は、２つの可能な値のうちの一方のみをそれぞれ有するＭ個の成分を有する、
ステップと、
（ｃ）第１画像のスパースかつ非負の変換を実行するための既定の変換行列を使用して、第１画像のための疑似画像を構築するステップであって、第１画像のための疑似画像は、Ｋ個の要素重みから成り、それぞれの要素重みは、Ｋ個の辞書要素のうちの１つに対応する、ステップと
を含む、方法を提供する。

本開示の第３の態様の特定の実施形態では、本方法は、
（ｄ）既知の画像のＳ個の疑似画像の集合を提供するステップであって、疑似画像の成分は、２つの可能な値のうちの一方のみを有し、Ｓ個の疑似画像の各々は、Ｋ個の要素重みから成り、それぞれの要素重みは、Ｋ個の辞書要素のうちの１つに対応する、ステップと、
（ｅ）ステップ（ｃ）の疑似画像を、ステップ（ｄ）のＳ個の疑似画像の集合と比較して、例えば、第１画像が、
（ｉ）既知の画像の１つ以上のクラスまたはカテゴリにある、
（ｉｉ）特定の既知の画像である、
（ｉｉｉ）既知の画像の１つ以上のクラスまたはカテゴリにない、
（ｉｖ）既知の画像ではない
のうちの１つ以上である可能性を決定するステップと
をさらに含む。

本開示の第３の態様の他の実施形態では、本方法は、ステップ（ｅ）の比較の結果を報告するさらなるステップを含むか、またはさもなければ、開示されている方法のマシンビジョン用途において、上記の結果を使用して、例えば上記の比較の結果を使用して、ロボットの動作を制御するさらなるステップを含む。

本開示の第１の態様、第２の態様、および第３の態様のステップ（ａ）に関して、第１画像は、例えばデジタル画像化装置、例えばスタンドアロン型のデジタルカメラ、または別の装置内に、例えば携帯電話内に具現化されたデジタルカメラから取得された画像であり得る。このような画像は、以下で定義される「オリジナル画像」の例である。特定の実施形態では、第１画像は、１つ以上のレベルの前処理に供されたオリジナル画像であり得る。提示を容易にするために、ステップ（ａ）の第１画像は、以下では「関心対象である第１画像」または「ステップ（ａ）の第１画像」と称され、これにより、ステップ（ａ）の第１画像と、プロセス全体の他の部分において使用される他の第１画像、例えば、トレーニング画像として使用される第１画像や、疑似画像ライブラリを準備する際に使用される第１画像とを区別している。

本開示の第１の態様、第２の態様、および第３の態様のステップ（ｂ）に関して、このステップにおいて使用される既定の変換行列は、開示された画像認識プロセスの「エンジン」であると考えることができる。一実施形態では、既定の変換行列を取得する際に使用されるスパースかつ非負の因数分解は、少なくとも１つのフロベニウスノルムを使用する。（本明細書で使用されているように、行列のフロベニウスノルムは、行列の成分の２乗の合計の平方根である。）重要なことに、既定の変換行列を取得する際に使用されるトレーニング画像の行列（本明細書では「画像のトレーニング集合」または単に「トレーニング集合」と称される）は、必ずしも関心対象である第１画像を含んでいる必要はなく、典型的には、関心対象である第１画像を含まない。すなわち、開示されている方法は、本方法のトレーニング集合の一部ではなかった画像に対して画像認識を実行することが可能である。このことは、本プロセスの重要な利点である。なぜなら、とりわけ、これにより、１つ以上のノイズ、破損、または遮蔽を被った画像を含む、トレーニング集合の一部ではなかった不完全な画像に対して、画像認識を実行することが可能となるからである。一実施形態では、既定の変換行列は、一旦構築されると、後々に使用するために非一時的なコンピュータ可読媒体に保存される。

提示を容易にするために、ステップ（ｃ）の疑似画像は、以下では「関心対象である疑似画像」または「ステップ（ｃ）の疑似画像」と称され、これにより、ステップ（ｃ）の疑似画像と、プロセス全体の他の部分において使用される他の疑似画像、例えば、既定の変換行列の生成中に生成される疑似画像や、疑似画像ライブラリを準備する際に使用される疑似画像とを区別している。一実施形態では、ステップ（ｃ）の疑似画像は、一旦構築されると、後々に分析および／または使用するために非一時的なコンピュータ可読媒体に保存される。一実施形態では、疑似画像（既定の変換行列の生成中に生成される疑似画像を除く）を構築する際に使用されるスパースかつ非負の変換は、少なくとも１つのＬ₂ノルムを使用する。（本明細書で使用されているように、ベクトルのＬ₂ノルムは、ベクトルの成分の２乗の合計の平方根である。）
本開示の第１の態様および第３の態様のオプションのステップ（ｄ）および（ｅ）と、本開示の第２の態様の必須のステップ（ｄ）および（ｅ）とに関して、一実施形態では、これらのステップにおいて使用される既知の画像の疑似画像の集合（「疑似画像のライブラリ」または単に「ライブラリ」）は、ステップ（ｃ）で使用されるものと同じ既定の変換行列を使用して取得される。重要なことに、ステップ（ｅ）では、比較は、第１画像間ではなく疑似画像間で行われる。第１画像の比較とは対照的に、この疑似画像の比較は、開示されたプロセスを提供する際において、画像認識を実行するための従来の技術と比較して改善されたロバスト性を有する鍵となる要素である。

ステップ（ｅ）の比較が完了すると、比較の結果を、ユーザに直接報告することができるか、または以後の使用、報告、または分析のために保存することができる。ステップ（ｅ）の比較が分類のために使用される場合には、報告は、関心対象である第１画像（したがって、オリジナル画像、以下を参照）のための単一のカテゴリおよび／または単一のクラスを識別すること、のような簡単なものでよい。例えば、顔認識の場合には、分類は、関心対象である第１画像を男性の顔または女性の顔として分類すること、のような基本的なものでよい。報告は、典型的にはより詳細になり、例えば、典型的には、関心対象である複数のカテゴリおよび／または複数のクラスに関する情報を提供する。オプションで、報告は、比較が実行された１つ、２つ以上、または全てのカテゴリまたはクラスのための分類の信頼性レベルの表示を含むことができる。

ステップ（ｅ）の比較が識別のために使用される場合には、報告は、「一致」が発見されたことをユーザに通知すること、のような簡単なものでよい。典型的に、通知には、少なくとも既知の画像の名前が添付される。通常、名前に加えて、報告は、既知の画像および既知の画像のコピーに関する他の関連データを含む。オプションで、報告は、識別の信頼性レベルの表示を含むことができ、例えば、報告は、類似性スコアまたは比較スコアを含むことができる。一実施形態では、信頼性の表示は、最高の信頼性レベルを有する既知の画像よりも信頼性レベルが低い（関心対象である第１画像に対応する可能性がより低い）１つ以上の既知の画像のコピーを含むことができる。

上で述べたように、本明細書に開示されている画像認識方法の重要な特徴は、本方法が、一旦疑似画像空間に入ると疑似画像空間に留まり、例えばステップ（ｅ）の比較を実行するために、第１画像空間には戻らないことである。このようにして、本方法のロバスト性、例えば不完全な画像を処理する能力が顕著に改善される。ロバスト性が、Ｋの値に依存することも判明しており、Ｋの値が大きくなるほどロバスト性が高くなるが、計算時間も長くなり、かつ／またはストレージ要件も高くなる。

特に、以下でより詳細に考察するように、ロバスト性が、Ｋ対ＭおよびＫ対Ｒの比率とともに増加することが判明した。（上で述べたように、多くの場合、ＲはＭに等しくなる。）定量的に、特定の実施形態では、Ｋ／ＭおよびＫ／Ｒの比率のうちの一方または両方は、１．０以上、または２．０以上、または３．０以上、または４．０以上、または５．０以上である。

上で述べたように、Ｍ×Ｎ行列は、フルランク行列であることが多く、通常は、Ｎ＞Ｍも有する。これらの条件下では、ＲはＭに等しいので、ロバストな画像認識のためのＫ≧Ｒ基準は、Ｋ≧Ｍになり、すなわち、Ｎ＞Ｍを有するフルランクのＭ×Ｎ行列の場合には、Ｋ空間における疑似画像の次元は、Ｍ空間における第１画像の次元以上である必要がある。これらの状況下では、既定の変換行列を使用した第１画像から疑似画像への変換は、Ｍ個の成分からＫ個の成分への第１画像の「拡大」または「伸長」であると考えることができる。すなわち、既定の変換行列は、所与の数の成分（Ｍ個の成分）を有する画像を取得し、この画像を、より多くの成分（Ｋ個の要素重み）を有する画像に変換（拡大または伸長）する。先験的に、このことが画像認識の実行に役立つとは思われないであろう。本開示によれば、正反対のこと、すなわち、この変換が画像認識を実行するために極めて効果的であり、拡大が十分に大きければ、不完全な画像に対して画像認識を実行する際に高レベルのロバスト性がもたらされるということが判明した。

表面的には、本明細書に開示されている画像認識技術のＭ→Ｋ伸長戦略は、画像処理によってデータ拡大ではなくデータ圧縮が実現されるべきであるという従来の通念に反するものである。しかしながら、疑似画像の生成中に適用されるスパース性の条件のおかげで、伸長は、殆どの場合、第１画像よりも疑似画像のために多くのストレージが必要であることを意味しない。なぜなら、疑似画像を構成しているＫ個の要素重みのうち、疑似画像を表すために保存される必要のある値を有するものは、比較的少数であるからである。すなわち、多くの場合および殆どの場合、要素重みは、ゼロまたは実質的にゼロになり、したがって、保存される必要があるものは、ゼロまたは実質的にゼロではない要素重みの、疑似画像内における値および位置だけである。したがって、殆どの場合、本明細書に開示されている画像認識技術は、効果的な画像認識と、低減されたストレージ要件との両方を同時に実現する。（典型的には、ストレージ要件には影響しないが、第１画像から疑似画像への変換は、非負の変換であるので、保存される要素重みは、全て正の数であることに注意されたい。）定量的に、Ｋ’として保存される必要のある要素重みの数を明示すると、Ｍに対するＫ’の比率は、一般に、１．０未満、または０．７５以下、または０．５０以下、または０．２５以下、または０．１０以下、または０．０５以下、または１／Ｍである。

グレースケールの第１画像の場合、Ｋ≧Ｍおよび／またはＫ≧Ｒを有することが、ロバストな画像認識のための基本要件であることが判明した。８ビットグレースケールの場合のような多数の値、例えば２５６の値とは対照的に、画像の成分が２つの値のうちの一方のみ、例えばオンまたはオフのみを有することができるような第１画像の場合には、Ｋ≧ＭおよびＫ≧Ｒの関係性のいずれも満たされない場合であっても、比較ステップ（ｅ）において疑似画像を使用することにより、許容可能なレベルのロバスト性を実現することが可能であることが判明した。実施例１０、特に図３３および図３４は、二値画像（二値画像）とグレースケール画像との間のこの差を示している。具体的には、この実施例において、記号（具体的には文字(letters and characters)）の不完全な画像の許容可能なロバストな画像認識が、ＫがＭより大きい場合（図３３）と、ＫがＭより小さい場合（図３４）との両方において実現された。この実施例に示されているように、Ｍより大きいＫを有する場合には、プロセスは格段によりロバストになるが、ＫがＭ未満であって、かつ第１画像が二値画像である場合には、ロバスト性は、実際の用途のために十分である。ＫをＲと比較した場合にも、同じ結果が発見される。

本開示の第４の態様によれば、Ｋの値、および／またはＭならびにＲのうちの一方もしくは両方に対するＫの比率の値は、対処中の特定の画像認識問題に対して適切なレベルのロバスト性が識別されるまで変更される。以下の実施例１〜８は、本開示のこの態様を示しており、ここでは、０．８のＫ／Ｍの比率は、修正が施されていない顔に対して顔認識を実行するためには十分であるが、修正が施された顔に対しては不十分であることが判明した。他方で、２．４のＫ／Ｍの比率は、修正が施された顔と、修正が施されていない顔との両方に対して正しい識別を提供することに成功し、４．０のＫ／Ｍの比率は、さらに良好であった。

第５の態様によれば、本開示は、本明細書に開示されている画像認識方法を実行するための、非一時的なコンピュータ可読媒体と、コンピュータシステムとを提供する。商品として販売および／または配布することができる非一時的なコンピュータ可読媒体は、開示されている画像認識技術の一部または全部を実行するための、コンピュータシステム上で実行可能なコンピュータ命令（コンピュータコード）を含むことができる。

第６の態様によれば、本開示は、ステップ（ｄ）および（ｅ）において疑似画像ライブラリとして使用するための疑似画像の１つ以上のデータセットを提供する。このデータセットまたはセットを、商品として販売および／または配布される非一時的なコンピュータ可読媒体に含めることができる。同様に、ステップ（ｂ）で使用するための１つ以上の既定の変換行列、および／または既定の変換行列を取得するための１つ以上のトレーニング集合も、商品として販売および／または配布される非一時的なコンピュータ可読媒体に含めることができる。配布は、例えばインターネットを介して実施可能であり、このことは、とりわけ、例えば新しい疑似画像を追加するため、または実行中の画像認識にもはや関係のない疑似画像を削除するための、疑似画像ライブラリの更新を容易にすることができる。非一時的なコンピュータ可読媒体は、「クラウド」またはユーザの場所に存在することができる。

本開示の追加的な態様は、以下の「本開示の特徴」という見出しの下に記載されている。

本明細書に開示されている画像認識技術の好ましい用途は、顔認識である。他の用途には、オブジェクト認識および記号認識（機械読み取り）が含まれる。より一般には、開示されている画像認識技術は、あらゆる形態のマシンビジョンにおいて使用可能である。本明細書に開示されている技術を使用して分析することができる種々の画像の非限定的な例、ならびに本技術のための適用の非限定的な例は、以下の「産業上の利用可能性」という見出しの下で考察される。

本明細書に開示されている技術の追加の特性および利点は、以下の詳細な説明に記載されており、部分的には、その説明から当業者には容易に明らかであるか、または本明細書で説明されている技術を実践することによって認識されるであろう。添付の図面は、本技術をさらに理解するために含まれており、本明細書に組み込まれており、かつ本明細書の一部を構成している。本明細書および図面に開示されている技術の種々の態様が、個別にも、任意の全ての組み合わせでも使用可能であることを理解すべきである。上記の一般的な説明および以下の詳細な説明は、本発明の単なる例示に過ぎず、特許請求の範囲によって定義される本発明の性質および特徴を理解するための概要または枠組みを提供することを意図していることも理解すべきである。

関心対象である人物のオリジナル画像を示す図である。第１レベルの前処理の第１ラウンド後の、具体的にはトリミング後の、図１の関心対象であるオリジナル画像を示す図である。第１レベルの前処理の第２ラウンド後の、具体的にはダウンサンプリング後の、関心対象であるオリジナル画像を示す図である。この図面の画像は、関心対象である第１画像として使用された。すなわち、この図面の画像は、２５×２５の配列において６２５ピクセル（Ｍ＝６２５）を含んでいた。２０００個の第１画像のトレーニング集合（Ｎ＝２０００）のうちの５個の第１画像を示す図である。これらの第１画像は、図２Ｂの関心対象である第１画像を取得する際に使用されたものと同じ第１レベルの前処理を使用して取得された。図３の部分の取り出し元であるトレーニング集合全体を使用して取得された既定の変換行列の辞書要素の一部を示す図である。この実施例では、それぞれの疑似画像は、１５００個の辞書要素に対して１５００個の要素重み（Ｋ＝１５００）を有し、すなわち、それぞれの辞書要素につき１つの重みを有する。１５００個の辞書要素のうちの３６個が示されている。この図面では、それぞれの辞書要素は、２５×２５の二次元の配列として示されている６２５個の成分を有する。トレーニング集合の疑似画像のライブラリ（Ｓ＝２０００）の一部を示す図である。図３に示されている第１画像の各々に対応する５個の疑似画像が表示されている。図２Ｂの関心対象である第１画像のための関心対象である疑似画像を示す図である。図６は、疑似画像のための辞書要素も示しており、最大の要素重みを有する辞書要素を強調表示している。この関心対象である疑似画像は、図４に示されている辞書要素が含まれた既定の変換行列を使用して取得されたものである。１５００個全ての辞書要素と、それらの辞書要素の要素重みとが表示されている。図６の関心対象である疑似画像のための有意な要素重み（係数値）を示す図である。それぞれの要素の係数値は、それらの要素に対応する線の高さによって示されている。図６の関心対象である疑似画像と、トレーニング集合の２０００個の第１画像から取得された疑似画像ライブラリとの類似性スコアを示す図である。類似性は、コサイン距離によって測定された。この図面は、関心対象である疑似画像と疑似画像ライブラリとの比較による、関心対象である第１画像の、したがって関心対象であるオリジナル画像の識別の報告の一例である。トレーニング集合内の、最高の類似性スコアを有する顔の第１画像が表示されている。この最高の類似性スコアを有する顔の第１画像は、関心対象である第１画像と同一である。図３の部分の取り出し元であるトレーニング集合全体を使用して取得された既定の変換行列の辞書要素の一部を示す図である。この実施例では、それぞれの疑似画像は、５００個の辞書要素に対して５００個の要素重み（Ｋ＝５００）を有する。５００個の辞書要素のうちの３６個が示されている。５００次元の疑似画像に変換された場合の、トレーニング集合の疑似画像のライブラリの一部を示す図である。図３に示されている第１画像の各々に対応する５個の疑似画像が表示されている。Ｋが５００に等しい場合の、図２Ｂの関心対象である第１画像のための関心対象である疑似画像を示す図である。この関心対象である疑似画像は、図９に示されている辞書要素が含まれた既定の変換行列を使用して取得されたものである。疑似画像のそれぞれの要素重み（それぞれの成分）は、既定の変換行列の１つの辞書要素に対応し、すなわち、疑似画像のそれぞれの要素重みは、既定の変換行列の１つの列に対応する。この図面の下側のパネルには、上位１２個の（最大の）要素重みを有する辞書要素が強調表示されている。疑似画像におけるそれぞれの要素重みのグレースケールは、それらの要素重みの大きさを示す。５００個の要素重みおよび辞書要素が全て表示されている。図１１の疑似画像の１２個の有意な辞書要素を示す図である。それぞれの有意な辞書要素の要素重み（係数値）は、それらの要素に対応する線の高さによって示されている。下側のパネルには、１２個の辞書要素の拡大画像が表示されている。図１１の関心対象である疑似画像と、図１０の部分の取り出し元である疑似画像ライブラリ全体との比較による、関心対象である第１画像の、したがってオリジナル画像の識別の報告を示す図である。疑似画像ライブラリ内の、最高の類似性の値を有する顔の第１画像が表示されている。疑似画像ライブラリにおける顔の識別を示す図であるが、この顔は、オリジナルの顔を変化させていくらか覆い隠す眼鏡をかけている。眼鏡をかけた顔は、疑似画像ライブラリ内には存在していなかったが、プロセスは、この顔を、眼鏡をかけていないまさにその人物として正しく識別した。この図面の場合、Ｋは、１５００に等しかった。疑似画像ライブラリにおける顔の識別を示す図であるが、この顔は、対象者の目を完全に覆い隠すサングラスをかけている。サングラスをかけた顔は、疑似画像ライブラリ内には存在していなかったが、プロセスは、この顔を、サングラスをかけていないまさにその人物として正しく識別した。この図面の場合、Ｋは、１５００に等しかった。疑似画像ライブラリ内にある表情とは異なる表情を有する顔の識別を示す図である。上側のパネルは、トレーニング集合内に笑顔の顔が存在していた人物を示す。彼女の非笑顔の顔（「新しい」顔）は、トレーニング集合内には存在しておらず、したがってトレーニング集合から準備された疑似画像ライブラリ内には存在していなかったが、適切に識別された。下側のパネルは、非笑顔の顔がトレーニング集合内には存在しておらず、したがってトレーニング集合から準備された疑似画像ライブラリ内には存在していなかった人物を示す。彼女の笑顔は、正しく識別された。この図面の場合、Ｋは、１５００に等しかった。それぞれ異なる顔の修正が加えられた顔の、正しい識別を示す図である。サングラスをかけた顔（左上）と、口髭によって覆われた顔（右上）と、サングラスおよび口髭を有する顔（左下）とが、それぞれ疑似画像を生成し、これらの疑似画像は、夾雑物のない顔を含んでいる疑似画像ライブラリと比較された場合に、夾雑物のない顔に対して最高の類似性スコアを与えた。この図面の場合、Ｋは、１５００に等しかった。顔のそれぞれ異なる部分が遮蔽された場合の、女性の顔の識別を示す図である。高い類似性スコアを有する顔は、識別されるべきオリジナルの顔を含んでいた。如何なる特定の動作原理にも拘束されることは望まないが、女性の顔は、男性の顔よりも識別がより難しい可能性があり、その結果、４つのケースのうちの２つにおいて、最高の類似性スコアを有する疑似画像ライブラリの顔が正しい顔ではなかったと考えられる。この図面の場合、Ｋは、１５００に等しかった。図２７に示されているように、Ｋを２５００に増加させると、４つのケース全てにおいて正しい顔が識別された。顔のそれぞれ異なる部分が遮蔽された場合の、男性の顔の識別を示す図である。全てのケースにおいて、最高の類似性スコアを有する顔は、識別されるべきオリジナルの顔であった。この図面の場合、Ｋは、１５００に等しかった。疑似画像ライブラリにおける顔の識別を示す図であるが、図１４のように顔に眼鏡が追加されている。この図面では、Ｋは、図１４のような１５００ではなく、５００に等しかった。図１４とは対照的に、間違った顔が識別された。疑似画像ライブラリにおける顔の識別を示す図であるが、図１５のようにサングラスが女性の顔の目を覆い隠している。この図面では、Ｋは、図１５のような１５００ではなく、５００に等しかった。図１５とは対照的に、間違った顔が識別された。疑似画像ライブラリにおける２つの顔の識別を示す図であるが、これらの顔は、図１６のようにそれぞれ異なる表情を有する。この図面では、Ｋは、図１６のような１５００ではなく、５００に等しかった。図１６とは対照的に、間違った顔が識別された。疑似画像ライブラリにおける顔の識別を示す図であるが、図１７のようにサングラス、口髭、またはその両方を含む、顔の付属物が追加されている。この図面では、Ｋは、図１７のような１５００ではなく、５００に等しかった。図１７とは対照的に、間違った顔が識別された。疑似画像ライブラリにおける女性の顔の識別を示す図であるが、図１８のように彼女の顔のそれぞれ異なる部分が隠されている。この図面では、Ｋは、図１８のような１５００ではなく、５００に等しかった。図１８とは対照的に、全てのケースにおいて間違った顔が識別された。疑似画像ライブラリにおける男性の顔の識別を示す図であるが、図１９のように彼の顔のそれぞれ異なる部分が隠されている。この図面では、Ｋは、図１９のような１５００ではなく、５００に等しかった。図１９とは対照的に、間違った顔が識別された。疑似画像ライブラリにおける顔の識別を示す図であるが、図１７および図２３のようにサングラス、口髭、またはその両方を含む、顔の付属物が追加されている。この図面では、Ｋは、２５００に等しく、全てのケースにおいて、ライブラリ内の他の顔と比較して格段に高い類似性スコアによって正しい顔が識別された。疑似画像ライブラリにおける女性の顔の識別を示す図であるが、図１８および図２４のように彼女の顔のそれぞれ異なる部分が隠されている。この図面では、Ｋは、２５００に等しく、全てのケースにおいて、ライブラリ内の他の顔と比較して格段に高い類似性スコアによって正しい顔が識別された。実施例１の疑似画像ライブラリを生成するために使用されたトレーニング集合内には存在していなかった顔の集合を示す図である。これらの顔は、エール大学の顔画像データベースからの顔であった。この図面には、それぞれの顔につき１１種類の異なる表情および照明条件を有する１５人の異なる個人の顔が示されている。実施例１の既定の変換行列を使用した、図２８に示されている顔の識別を示す図である。このグラフは、図２８のエール大学のデータベースからの顔のための疑似画像のペア間のペアワイズ類似性スコアを示す。濃いグレースケールは、類似性スコアが高いことを示す。同じ人物に属する顔がグループ化されていて、軸に沿った番号によって示されている。このグラフは、表情および照明条件が異なるにもかかわらず、同じ人物に属する顔同士は、その人物の疑似画像では非常に類似しているが、異なる人物に属する顔とは類似していないことを示している。図２８のエール大学のデータベースからの顔のための疑似画像と、実施例１のトレーニング集合の顔のための疑似画像との間のペアワイズ類似性スコアを示す図である。エール大学の、同じ人物に属する顔同士の疑似画像の類似性とは対照的に、エール大学の顔は、トレーニング集合内の疑似画像に対しては殆ど類似性を示さない。本明細書に開示された技術による画像認識のためのトレーニング集合として使用された１０００個の記号（文字）を示す図である。それぞれの記号は、１６×１６の第１画像としてデジタル化された。図３１のトレーニング集合の記号のための疑似画像の生成を示すとともに、大文字の「Ｈ」および中国語の「並」の文字のための疑似画像と、疑似画像ライブラリとして使用されたそれらの疑似画像との類似性スコアを示す図である。この図面では、Ｋは、８００に等しかった。ピクセルの欠落によって文字が破損した場合（オリジナルの記号の隣に示されている）の、大文字の「Ｈ」および中国語の「並」の文字の識別を示す図である。この図面では、Ｋは、８００に等しかった。破損した文字のための疑似画像と、疑似画像ライブラリ内の疑似画像の各々との間の類似性スコアが示されている。正しい文字が識別された。ピクセルの欠落によって文字が破損した場合（オリジナルの記号の隣に示されている）の、大文字の「Ｈ」および中国語の「並」の文字の識別を示す図である。破損は、図３３と同じであった。この図面では、Ｋは、１００に等しかった。正しい記号が識別されたが、今や、多数の疑似画像が高い類似性スコアの値を有することとなった。オリジナル画像からランダムに選択された種々の数のピクセルから構成された画像について、８００に等しいＫ（上側のパネル）と、これに対して２００に等しいＫ（下側のパネル）とを使用した場合の、コサイン誤差率（１コサイン距離）を示す図である。ピクセル数の増加に伴う誤差率の低下は、Ｋの値が大きくなるほど急速になる。拡張された既定の変換行列を作成するためのデノボアプローチとシーケンシャルアプローチとを比較する際に使用された第１画像（Ｎ＝１０００）を示す図である。これらの第１画像の各々は、二値ピクセルの１６×１６の配列（Ｍ＝２５６）である。この図面の第１画像は、図３１の第１画像と同じであるが、ただしフォーマットが異なる。拡張された既定の変換行列を作成するためのデノボアプローチを使用して生成された辞書要素（Ｋ＝１０００）を示す図である。これらの辞書要素の各々は、二値ピクセルの１６×１６の配列（Ｍ＝２５６）である。拡張された既定の変換行列を作成するためのシーケンシャルアプローチを使用して生成された辞書要素（Ｋ＝１０００）を示す図である。これらの辞書要素の各々は、二値ピクセルの１６×１６の配列（Ｍ＝２５６）である。デノボ学習によって生成された図３７の辞書要素と、シーケンシャル学習によって生成された図３８の辞書要素との間のコサイン類似性を示す図である。シーケンシャル学習によって生成された図３８の辞書要素の成分間におけるペアワイズ相関を示す図である。図３６の第１画像のための疑似画像の成分間におけるペアワイズ相関を示す図であり、なお、これらの疑似画像は、シーケンシャル学習によって生成されたものである。既定の変換行列と、トレーニング集合のための疑似画像の集合とを生成する、本開示の例示的な実施形態を示すフローチャートである。関心対象である第１画像から関心対象である疑似画像を生成して、関心対象である疑似画像を疑似画像ライブラリと比較する、本開示の例示的な実施形態を示すフローチャートである。既知の画像から疑似画像を生成して、この疑似画像を１つ以上の疑似画像ライブラリに組み込む、本開示の例示的な実施形態を示すフローチャートである。既定の変換行列が拡張を必要としているかどうかを判定するための、本開示の例示的な実施形態を示すフローチャートである。シーケンシャルアプローチによって既定の変換行列を拡張するための、本開示の例示的な実施形態を示すフローチャートである。Φ_iおよびＡ_iの更新は、例えば、下記のアルゴリズム３を使用して実行可能である。本開示の方法の実施形態を実施する際に使用するためのコンピュータシステムの代表的な一例のコンポーネントを示す機能ブロック図である。

用語および表記法
本明細書および特許請求の範囲では、以下の用語、およびこれらの用語に関連する単数形ならびに複数形と、以下の表記法とが使用されている。

（Ａ）オリジナル画像、および第１レベルの、第２レベルの、ならびに他の前処理
「オリジナル画像」は、複数の成分（例えば、ピクセル）の順序付けられたシーケンスであり、それぞれの成分は、シーケンス内における所定の値および位置を有する。典型的に、人間は、必ずしも全ての場合ではないが、オリジナル画像内において現実世界からの１つ以上のオブジェクト（例えば、顔認識の場合には人間の顔）を知覚することが可能であり、例えば、オリジナル画像は、ＵＰＣまたはマトリックスバーコードのようなコンピュータ生成画像であり得る。オリジナル画像は、デジタル画像化装置、例えばスタンドアロン型のデジタルカメラ、または別の装置内に、例えば携帯電話内に具現化されたデジタルカメラによって生成可能である。オリジナル画像は、デジタル化されたアナログ画像であってもよい。

オリジナル画像がカラーである場合には、この画像をそれぞれの合成色に、例えばデジタルカメラによって生成される画像の赤、緑、青のサブ成分（例えば、サブピクセル）に分解することができ、これらの合成色の各々を、別個のオリジナル画像として処理することができる。これに代えて、複数の合成色を連結して、ただ１つのオリジナル画像にしてもよい。例えば、２５×２５のＲＧＢカラー画像の場合には、連結されたオリジナル画像は、もしこの画像がカラーでなければ、６２５個の成分ではなく１８７５個の成分を含んでいたはずである。

必要に応じてオリジナル画像を、疑似画像に変換する前に「第１レベルの前処理」に供することができる。以下で考察する第２レベルの前処理とは異なり、第１レベルの前処理は、成分のシーケンス内における成分の相対値および相対位置の両方の観点から画像の成分間の相対的な関係性を維持する。第１レベルの前処理の例には、限定するわけではないが、成分数の削減（ダウンサンプリング）、画像の一部のトリミング、画像の全部もしくは一部の回転、平行移動、拡大、および／または縮小のような画像のアフィン変換、正規化などが含まれる。

オリジナル画像と同様に、第１レベルの前処理が施された画像は、複数の成分の順序付けられたシーケンスであり、それぞれの成分は、シーケンス内における所定の値および位置を有する。オリジナル画像内において、現実世界からの１つ以上のオブジェクトを人間が知覚することができる場合には、現実世界からの１つ以上のオブジェクトは、例えばトリミングによってそのようなオブジェクトが全て削除されていない限り、通常、第１レベルの前処理の後にも依然として人間によって知覚可能である。第１レベルの前処理が施された画像内における成分の数は、この画像の導出元である画像内における成分の数と同じか、またはそれより少なくすることができる。

いくつかの用途では、第２レベルの前処理を、オリジナル画像に対して、または第１レベルの前処理が施された画像（第２レベルの前処理のための「出発画像」と称される）に対して実行することができる。一実施形態では、第２レベルの前処理は、出発画像のフーリエ変換を実行するステップと、その結果として得られたフーリエ係数を、第１画像の成分として使用するステップとを含むことができる。同様に、ウェーブレット変換を使用し、その結果として得られたウェーブレット係数を、第１画像の成分として使用してもよい。これらの種類の前処理は、「縮小画像」を生成することができ、この「縮小画像」は、複数の成分の順序付けられたシーケンスであり、それぞれの成分は、シーケンス内における所定の値および位置を有し、縮小画像内における成分の数は、出発画像内における成分の数よりも少ない。成分の数の削減によってストレージ要件が低減され、縮小画像を生成するために必要とされる計算の数によっては、全体的な処理時間を短縮することが可能である。

オリジナル画像、または第１レベルの前処理が施された画像と同様に、第２レベルの前処理が施された画像は、複数の成分の順序付けられたシーケンスであり、それぞれの成分は、シーケンス内における所定の値および位置を有する。しかしながら、第１レベルの前処理とは異なり、第２レベルの前処理は、成分間の関係性を変化させる。成分間の関係性の変化は、成分のシーケンス内における成分の相対値、相対位置、または成分のシーケンス内における相対値および相対位置の両方の観点からの変化であり得る。その結果、画像が、現実世界からのオブジェクトを含んでいる場合には、人間は、第２レベルの前処理が施された画像内においてそれらのオブジェクトを知覚することがより困難であるか、または場合によっては不可能であると感じる場合がある。

提示を容易にするために、第１レベルの前処理と第２レベルの前処理とを別個に定義してきたが、実際には、これらの２種類の前処理を、画像認識プロセス全体における単一の前処理ステップとして互いに統合することができる。また、第１レベルの前処理ステップおよび第２レベルの前処理ステップの各々は、任意の順序で複数回実行可能である。画像が、現実世界からのオブジェクトを含んでいる場合には、第２レベルの前処理が施された画像に対して第１レベルの前処理を実施すると、人間は、その結果として得られた、第２レベルの前処理の後に第１レベルの前処理が施された画像内において、それらの現実世界のオブジェクトを知覚することがより困難であるか、または不可能であると感じる場合がある。

さらに、具体的に第１レベルの前処理または第２レベルの前処理として見なすことができない前処理を使用することができる。例えば、ローパス、ハイパス、またはバンドパス空間フィルタリングは、成分間の相対値を変化させることができる。例えば、ローパスフィルタリングの場合には高周波ノイズが除去され、またはハイパスフィルタリングの場合にはオブジェクトのエッジが強化されるので、人間が、現実世界からのオブジェクトを知覚することが困難というよりもむしろ簡単であると感じるような画像を、このようなフィルタリングによって生成することができる。したがって、前処理は、第１レベルの前処理および第２レベルの前処理を含むが、これらに限定されているわけではない。

（Ｂ）第１画像
「第１画像」とは、オリジナル画像、または前処理に供されたオリジナル画像のことである。したがって、第１画像は、複数の成分（例えば、ピクセル）の順序付けられたシーケンスであり、それぞれの成分は、シーケンス内における所定の値および位置を有する。上で考察したように、典型的なオリジナル画像の場合には、人間は、オリジナル画像内において現実世界からの１つ以上のオブジェクト（例えば、人間の顔）を知覚することが可能である。第１画像がオリジナル画像であるか、または第１レベルの前処理のみが施されたオリジナル画像である場合には、このことが引き続き当てはまる。他の種類の前処理の場合には、人間は、第１画像内において現実世界からのオブジェクトを知覚することが困難であるか、または不可能であると感じる場合がある。

以下の考察では、第１画像は、ベクトルとして扱われ、個々の第１画像は、ｘ_nによって表され、行列の列として配置されている第１画像の集合は、Ｘによって表される。第１画像内における成分の数（第１画像の「次元」）は、文字Ｍによって表され、行列Ｘにおける列の数（第１画像の数）は、文字Ｎによって表される。したがって、上記の表記法では、ｎは、１〜Ｎの間の値を有することができ、それぞれのｘ_nは、Ｍ個の成分を有し、Ｘは、Ｍ×Ｎ行列である。

第１画像、および他の、複数の成分の順序付けられたシーケンスは、以下の考察ではベクトル（１次元の配列）として扱われるが、コンピュータでは、複数の成分の順序付けられたシーケンスは、必要に応じてより高次元の配列として、例えば二次元または三次元の配列として保存可能および／または処理可能である。

（Ｃ）既定の変換行列および辞書要素
「既定の変換行列」とは、Ｍ個の行およびＫ個の列を有する行列のことである。Ｋ個の列の各々は、「辞書要素」または単に「要素」と称される。それぞれの辞書要素は、Ｍ個の成分の順序付けられたシーケンスであり、それぞれの成分は、シーケンス内における所定の値および位置を有する。したがって、必要に応じてそれぞれの辞書要素を１つの画像として表示することができる（例えば、図４を参照）。以下の考察では、既定の変換行列は、行列Φによって表される。

上で説明したように、また以下でより詳細に考察するように、既定の変換行列は、トレーニング画像の行列のスパースかつ非負の因数分解を実行するステップを含む方法によって取得される。以下で考察するように、既定の変換行列の生成と、第１画像からの疑似画像の生成との両方に関するスパース性は、Ｌ₁ノルム、Ｌ₀ノルム、またはｐがゼロより大きく１より小さいＬ_pノルムを使用して測定可能であり、なお、殆どの場合、Ｌ₁ノルムが好ましい。他のスパース性の尺度を使用してもよい（以下を参照）。トレーニング画像の行列とは、既知の画像の行列、具体的には、既知の第１画像の行列のことである。これらの既知の第１画像は、前処理に供されたものであってもよい。そのような場合には、一実施形態では、関心対象である第１画像（ステップ（ａ）の第１画像）を、トレーニング集合を構成している第１画像と同じ前処理に供することができる。他の実施形態では、関心対象である第１画像を生成するために使用される前処理が、トレーニング集合の第１画像を生成するために使用された前処理とは異なっていてもよい（または関心対象である第１画像が、前処理されていないオリジナル画像であってもよい）が、ただし、前処理された関心対象である第１画像と、トレーニング集合を構成している前処理された第１画像とが、それぞれ異なる前処理であるにもかかわらず同数の成分（すなわち、同じＭの値）を有する場合に限る。

因数分解は、既定の変換行列と、トレーニング画像のための疑似画像とを生成する。既定の変換行列および疑似画像の両方が、非負になるように制約される。疑似画像は、スパースになるようにも制約される。しかしながら、既定の変換行列は、スパースであるようには制約されない。したがって、「スパースかつ非負の因数分解」という文言では、非負性は、因数分解によって生成される既定の変換行列および疑似画像の両方に適用され、その一方で、スパース性は、疑似画像にのみ適用される。既定の変換行列を生成するプロセスは、とりわけ非負性の制約の結果として線形ではなく非線形であり、本質的に非線形のプロセスである平行化（rectification）に類似していると見なすことができる。同様に、既定の変換行列を使用した第１画像からの疑似画像の生成もまた、非線形のプロセスである。

第１画像に関して上で使用した行列表記法を使用すると、トレーニング画像の行列は、行列Ｘによって表すことができる。この表記法では、既定の変換行列Φは、Ｍ行×Ｎ列の行列Ｘのスパースかつ非負の因数分解を実行することによって取得された、Ｍ個の行およびＫ個の列を有する行列である。一実施形態では、因数分解は、少なくとも１つのフロベニウスノルムの最小化を使用する。以下の考察では、既定の変換行列を使用して生成された個々の疑似画像は、ａによって表され、その一方で、行列の列として配置されている疑似画像の集合は、Ａによって表される。この表記法を使用すると、既定の変換行列Φを生成する際に使用されたトレーニング画像の行列Ｘと、Φを決定するプロセス中に生成されたトレーニング画像のための疑似画像の集合Ａとの関係性を、
Ｘ＝ΦＡ
のように記述することができ、ここで、Ａは、Ｋ個の行およびＮ個の列を有する。したがって、既定の変換行列は、Ｍ次元（Ｘ行列における行数）を有する基底から、Ｋ次元（Ａ行列における行数）を有する基底への変換を実行するものであると考えることができる。

如何なる特定の動作原理にも拘束されることは望まないが、ΦおよびＡに対する非負性の制約と、Ａに対するスパース性の制約との組み合わせは、トレーニング集合の画像の鍵となる特徴、例えば顔画像の場合であれば目の形状を、Φに含めることを強制すると考えられ、これによって画像認識の観点からΦがロバストになる。フロベニウスノルムの使用も、本技術のロバスト性に貢献することができる。このようなノルムは、２乗ノルムであるので、「エネルギ」に関連していると見なすことができ、この「エネルギ」自体は、「情報内容」に関連していると見なすことができる。鍵となる特徴とは、最も多くの情報内容を有する特徴のことであり、フロベニウスノルムを使用することにより、Φを、これらの特徴を捕捉するように強制することができる。次いで、非負性の制約は、鍵となる特徴がさほど重要ではない特徴によって希釈されてしまうことを防止し、スパース性の制約は、辞書要素において、複数の鍵となる特徴を一緒に結び付ける。その結果、辞書要素は、特定の受容野を有することが可能となり、すなわち、トレーニング集合の画像内において特定の形状と、形状の組み合わせとを捕捉することが可能となり、十分な数の辞書要素を有することにより、ロバストな画像認識を実現することが可能となる。

ロバスト性を実現するためのＭ（第１画像内における成分の数）、Ｎ（トレーニング集合内における第１画像の数）、およびＫ（疑似画像内における辞書要素のための要素重みの数）の適切な値は、当業者によって本開示に基づいて容易に決定可能である。一般に、トレーニング集合内における第１画像の数（Ｎ）は、第１画像内における成分の数（Ｍ）に比例する。すなわち、通常、第１画像内における成分の数（例えば、ピクセルの数）が増加するにつれて、より大きいトレーニング集合が必要となる。また、一般に、Ｎは、Ｋにほぼ等しく、通常は、Ｋよりも大きい。

上で考察したように、Ｋ自体は、Ｍおよび／またはＲに依存しており、特定の実施形態では、Ｋは、Ｋ／Ｍ≧１．０およびＫ／Ｒ≧１．０の関係性のうちの一方または両方を満たし、上記のように、Ｒは、Ｘ行列のランクである。より具体的には、上でも考察したように、特定の実施形態では、Ｋ／ＭおよびＫ／Ｒの比率のうちの一方または両方は、２．０以上、または３．０以上、または４．０以上、または５．０以上である。これらの比率は、グレースケール画像の場合には特に重要であり、二値画像の場合には必要に応じて緩和可能である。さらに、一般に、Ｋの値は、Ｎに比例する。すなわち、Ｎが増加するにつれてＫが増加することが一般に望ましい。ただし、Ｋが増加すると、計算（ＣＰＵ）時間および／またはメモリ要件のような計算リソースに対する要求も増加する。また、Ｋが大きくなり過ぎると、Ｋの増加の効果が小さくなる可能性がある。したがって、当業者には明らかであるように、本明細書に開示されている画像認識技術の任意の特定の用途のためにＫ、Ｍ、およびＮの値を選択する際には、精度および計算コストの観点からのトレードオフが行われる。

上で考察したように、また以下でより完全に考察するように、Ｋは、既定の変換行列を使用してＭ次元の第１画像から取得された疑似画像の次元であり、したがって、ロバスト性を実現するために、一実施形態では、必要に応じて疑似画像の次元を第１画像の次元よりも小さくすることができる二値画像の場合を除いて、疑似画像の次元は、Ｍ×Ｎ行列がフルランクであって、かつＮ＞Ｍの場合には、第１画像の次元よりも大きくなる。Ｍ×Ｎ行列は、通常、フルランクからさほど遠くない。すなわち、Ｒは、Ｍよりもさほど小さくはならないので、Ｋ≧Ｍを満たすことが、Ｋ≧Ｒを満たすことよりも顕著に厳密になることはない。Ｍ空間からＫ空間への変換は、正式には、ＫがＲ以上Ｍ未満である場合には、第１画像の情報内容を捕捉する際に使用される次元数の拡大ではないが、この変換は、有意な圧縮にはならない。変換によって次元数がいくらか減少する可能性があるが、通常はそれほどではない二値画像の場合にも、同じことが当てはまる。上で述べたように、本明細書に開示されている画像認識技術のＭ→Ｋの伸長戦略は、画像処理がデータ拡大ではなくデータ圧縮に基づくという従来の通念に反するものである。同様に、圧縮がほんのわずかであることも、従来の通念に反するものである。

（Ｄ）疑似画像および要素重み
「疑似画像」は、Ｋ個の成分の順序付けられたシーケンスであり、それぞれの成分は、シーケンス内における所定の値および位置を有する。したがって、必要に応じて疑似画像を画像として表示することができる（例えば、図５および図６のグレースケールの疑似画像を参照）。すなわち、実際にはコンピュータコーディングの目的のために、疑似画像をベクトルとして扱うことができる。

上で考察したように、疑似画像は、第１画像の非線形の変換によって、具体的には、上で考察した既定の変換行列を使用して実行される第１画像のスパースかつ非負の変換によって、第１画像から取得される。変換は、非負性の制約を適用するので、疑似画像のＫ個の成分の各々の値は、ゼロまたは正の数になる。

Ｋ個の成分の各々は、第１画像から疑似画像を構築する際に使用される既定の変換行列のＫ個の辞書要素（Ｋ個の列）のうちの１つのための「要素重み」として機能する。第１画像から疑似画像への変換は、疑似画像に対してスパース性の制約を適用するので、通常、比較的大きい値を有するほんの少数の成分（要素重み）が存在し、小さいまたはゼロの値を有する多数の成分（要素重み）が存在する（例えば、図６および図７を参照）。実際には、関心対象である疑似画像と、既知の画像の疑似画像とを比較するために、比較的大きい値を有する成分だけを保存および使用すればよい。したがって、「疑似画像」という用語は、保存および／または使用される疑似画像が、Ｋ個の成分全てを含んでいる場合と、疑似画像が、Ｋ個全ての成分よりも少数の成分を含んでいて、かつ小さいほうの成分が、保存および／または使用される疑似画像内には明示的に含まれていない場合とを含む。

二次元の配列として表示される場合には、人間は、疑似画像を、現実世界からのオブジェクトを示すものとして知覚しない（例えば、図５および図６のグレースケールの疑似画像を参照）。このことは、第１画像が疑似画像に変換される前に、人間が第１画像内において現実世界からのオブジェクトを知覚できていた場合であっても、すなわち、第１画像がオリジナル画像、または第１レベルの前処理のみが施されたオリジナル画像（例えば、図５および図６のグレースケールの第１画像を参照）であった場合であっても当てはまる。このことは、画像の分類および／または識別が、人間によって知覚可能なオブジェクトを含んでいない画像を使用して実行されるという点で、本技術の重要な相違点である。とりわけ、このことは、特定の個人の、人間によって知覚可能な画像が保存されることを回避し、したがって、そのような保存に関連するプライバシーの問題を回避する。

（Ｅ）疑似画像ライブラリ
「疑似画像ライブラリ」とは、関心対象である第１画像（ステップ（ａ）の第１画像）から取得された関心対象である疑似画像（ステップ（ｃ）の疑似画像）を分類および／または識別するために使用される疑似画像の集合のことである。

（Ｆ）分類および識別
「分類」とは、１つ以上の共通の特徴を有する少なくとも２つのメンバーを有する集合に、例えばクラスまたはカテゴリに、画像を関連付けることであり、「識別」とは、１つのメンバーを有する集合に、例えば個人に、画像を関連付けることである。

詳細な説明および好ましい実施形態
図１〜図８は、本開示の画像認識技術の実施形態を示す。特に、図１〜図８は、本技術が顔認識問題に適用されている実施形態を示す。図面を作成する際に使用された特定の手順については、以下および実施例１で考察する。

これらの図面は、以下の一般的な考察のための文脈を提供するために、説明のこの時点で紹介されている。本技術を説明するための手段として顔認識を使用することは、限定として見なされるべきではなく、本明細書に開示されている疑似画像技術は、オブジェクト認識、記号認識などを伴う画像認識問題のような他の画像認識問題にも等しく適用可能であることを理解すべきである（本明細書に開示されている技術の他の非限定的な用途については、以下の産業上の利用可能性のセクションを参照）。

図１〜図８に示されている本開示の画像認識技術の態様は、以下の通りである：
（１）図１は、関心対象である人物のオリジナル画像を示す。

（２）図２Ａおよび図２Ｂは、第１レベルの前処理の２つのラウンド後の図１のオリジナル画像を示し、具体的には、図２Ａは、トリミング後のオリジナル画像を示し、図２Ｂは、ダウンサンプリング後のオリジナル画像を示す。図２Ｂの画像は、関心対象である第１画像（ステップ（ａ）の第１画像）であり、この関心対象である第１画像は、その後、疑似画像に、具体的にはステップ（ｃ）の疑似画像に変換される。

（３）図３は、図２Ｂの関心対象である第１画像を取得する際に使用されたものと同じ、第１レベルの前処理の２つのラウンドを使用して取得された、第１画像のトレーニング集合の一部を示す。

（４）図４は、図３の部分の取り出し元であるトレーニング集合全体を使用して取得された既定の変換行列の辞書要素の一部を示す。

（５）図５は、疑似画像のライブラリの一部を示す。

（６）図６は、図２Ｂの関心対象である第１画像のための関心対象である疑似画像を示す。この関心対象である疑似画像は、図４に示されている辞書要素が含まれた既定の変換行列を使用して取得されたものである。

（７）図７は、図６の関心対象である疑似画像のうちの最大の要素重み（係数値）を有する辞書要素を示す。

（８）図８は、図６の関心対象である疑似画像と、図５の部分の取り出し元である疑似画像ライブラリ全体との比較による、関心対象である第１画像の、したがってオリジナル画像の識別の報告を示す。

上で考察したように、本開示は、画像認識を実行するために疑似画像を使用する。このプロセスは、オリジナル画像（例えば、図１を参照）から開始し、このオリジナル画像は、典型的に、少なくともいくつかの前処理（例えば、トリミングおよびダウンサンプリング）に供されて、関心対象である第１画像（例えば、図２Ｂを参照）を生成する。これに代えて、前処理を行うことなく直接的にオリジナル画像を関心対象である第１画像として使用してもよい。上の「用語および表記法」のセクションで考察したように、関心対象である第１画像は、ベクトルｘとして簡便的に表される。

関心対象である第１画像は、第１画像のトレーニング集合（例えば、図３を参照）を使用して取得された、複数の辞書要素（例えば、図４を参照）から構成される既定の変換行列を使用して、関心対象である疑似画像（例えば、図６および図７を参照）に変換される。上の「用語および表記法」のセクションで考察したように、関心対象である疑似画像は、ベクトルａによって簡便的に表され、既定の変換行列は、行列Φによって簡便的に表され、第１画像のトレーニング集合、すなわちトレーニング画像のためのｘベクトルの集合族は、行列Ｘによって簡便的に表され、トレーニング集合のための疑似画像は、行列Ａによって簡便的に表される。

次いで、関心対象である第１画像、したがってオリジナル画像の分類および／または識別が、関心対象である疑似画像を疑似画像のライブラリ（例えば、図５を参照）と比較することによって実行される。例えば、ライブラリ内における一致が発見されたエントリに対応する既知の画像を表示するか、または分類の場合は、クラスまたはカテゴリのための識別子を表示することによって、比較の結果をユーザに報告することができる。比較の結果は、分類および／または識別が正確である可能性を示す指標、例えば、関心対象である第１画像が或るクラス、カテゴリ、または個人に対応する可能性を示す指標を含むことができる。この指標は、類似性スコアまたは比較スコアであり得る（例えば、図８を参照）。

既定の変換行列は、ベクトル化された第１画像の行列（トレーニング集合）に対してスパースかつ非負の因数分解を実行するステップを含む方法によって取得される。トレーニング集合のサイズは、実行されるべき分類および／または識別によって異なる。例えば、顔認識の場合、限定された個人の集合に対して、例えば或る特定の施設へのアクセスが許可されるべき個人の集合に対して分類および／または識別を実行しようとした場合には、比較的小さいトレーニング集合でも十分であり得るが、ただし、規定の変換行列が、限定された個人の集合を分類および／または識別して、この限定された個人の集合と、この限定された集合の中に存在しない個人とを区別することができるようにするために十分な人数の個人が、その集合内に含まれている場合に限る。その一方で、一般的な集団における個人の分類および／または識別は、一般に、分類および／または識別を実行するために十分な特徴が既定の変換行列に埋め込まれるように、大きいトレーニング集合を必要とする。トレーニング集合のために適したサイズは、本明細書に開示された画像認識技術の任意の特定の用途のために、本開示に基づいた経常的な実験によって容易に発見可能である。

特定の実施形態では、不完全な画像に対する画像認識が、トレーニング集合内の限られた不完全な画像を用いて実行され、場合によっては不完全な画像を用いずに実行される。具体的には、不完全な画像に対する画像認識、特に、不完全な顔の画像に対する顔認識は、多数の不完全な画像を意図的にトレーニング集合内に含める必要なしに実行可能であることが判明した。必要に応じて、不完全な画像をトレーニング集合内に含めてもよく、場合によっては、トレーニング集合内の限られた数の不完全な画像が有用となる場合もある。例えば、姿勢および／または顔の表情が不完全となっている不完全な画像をトレーニング集合内に含めることにより、場合によっては、分類および／または識別の観点から既定の変換行列をよりロバストにすることができる。

従前の画像認識技術、特に従前の顔認識技術とは異なり、多数の不完全な画像は、画像認識が成功するための要件ではない。このような要件がないので、そうでない場合に必要であったトレーニング集合よりも、小さいトレーニング集合を使用することが可能となる。このようなより小さいトレーニング集合自体は、既定の変換行列を生成するために使用されるプロセスの速度および／またはストレージ要件を改善する。このような速度の高速化および／またはストレージの縮小という対価は、疑似画像ライブラリにも適用され、この場合、このライブラリが、トレーニング集合に基づいているか、トレーニング集合＋追加的な疑似画像に基づいているか、またはトレーニング集合が除外された疑似画像の集合に基づいているか（以下を参照）は関係ない。同様に、速度の高速化および／またはストレージの縮小という対価は、関心対象である疑似画像と１つ以上の疑似画像ライブラリとの比較にも適用される。

上で考察したように、いくつかの実施形態では、関心対象である第１画像は、前処理に供されたオリジナル画像であり、この前処理は、第１レベルの前処理、第２レベルの前処理、または第１レベルの前処理と第２レベルの前処理との組み合わせであり得る。前処理を使用すべき場合には、同じ前処理を、既定の変換行列の生成に使用する前に、トレーニング集合に対して実行することが好ましい。このような前処理の共通性は、画像認識を改善できるので好ましいが、画像認識を成功させるための要件ではない。このように、トレーニング集合の第１画像と、関心対象である第１画像との間に共通の前処理という要件が存在しないことは、多くの状況において有益であり得る。具体的には、所与のトレーニング集合を、それぞれ異なる程度の前処理に供された関心対象である第１画像とともに使用可能にすることにより、プロセス全体に対する柔軟性が提供される。

関心対象である第１画像のための関心対象である疑似画像は、関心対象である第１画像のスパースかつ非負の変換を実行するための既定の変換行列を使用して取得される。既定の変換行列を生成する因数分解は、トレーニング集合のメンバーのための疑似画像も生成する。特定の実施形態では、オリジナル画像の分類および／または識別は、関心対象である疑似画像をトレーニング集合のメンバーのための疑似画像と比較することによって実行可能である。このような場合、トレーニング集合のメンバーのための疑似画像は、分類および／または識別を実行するための疑似画像ライブラリとして機能する。

関心対象である疑似画像は、分類および／または識別以外の目的のためにも使用可能である。例えば、関心対象である第１画像が、カテゴリ、クラス、またはＩＤは既知であるがまだ疑似画像ライブラリの一部になっていない人物、オブジェクト、または記号などに対応する場合には、その関心対象である疑似画像を使用して１つ以上のライブラリを拡張することができ、すなわち、この関心対象である疑似画像を１つ以上のライブラリに追加することができる。このようにして拡大された１つ以上のライブラリは、将来、関心対象である第１画像、したがってオリジナル画像を、分類および／または識別するために使用可能である。このようにして疑似画像ライブラリは、時間の経過とともに、画像を分類および／または識別するためにより価値のあるものになり得る。

いくつかの実施形態では、分類および／または識別プロセスにおいて、種々異なるサイズのライブラリを含む、複数の疑似画像ライブラリを使用することができる。分類および／または識別プロセスは、関心対象である疑似画像を全てのライブラリまたはライブラリの部分集合と比較することができる。例えば、比較プロセスは、選択された順序で、例えば最小のライブラリから最大のライブラリへと、十分なレベルの信頼性を有する一致が発見されるまでライブラリを巡回することができ、発見後、比較プロセスを終了することができる。

いくつかの実施形態では、疑似画像ライブラリは、トレーニング集合のメンバーのための疑似画像を含まなくてもよく、すなわち、ライブラリは、トレーニング集合のメンバーの一部または全部を除外することができる。例えば、顔認識との関連では、このことは、トレーニング集合が、顔の特徴に関して十分な多様性を提供する場合であって、多様な個人から顔の特徴を抽出することができる既定の変換行列を、これらの個人がトレーニング集合内に存在するかどうかに関係なく生成することができる場合であり得る。

そのような実施形態では、顔認識の場合、または他の種類の画像認識の場合のいずれであっても、トレーニング集合は、分類および／または識別を実行するために十分な情報を含む、関心対象である疑似画像を生成する能力を備えた既定の変換行列をシーディングするものであると考えることができる。既定の変換行列が十分にシーディングされると、トレーニング集合は、その目的を果たしたと見なされることができ、したがって、比較ステップのためにはもはや不要であると見なされることができる。刑法の分野における特定の実施例として、トレーニング集合のほうを、前科を有さない個人から構成して、疑似画像ライブラリのほうには、前科を有する個人のみを含めてもよい。

前述したことは、本明細書に開示されている画像認識技術を実施する際に使用することができる多種多様な疑似画像ライブラリのうちのほんのいくつかの非限定的な例に過ぎない。一般に、比較ステップにおいて使用される１つ以上の疑似画像ライブラリは、特定の画像認識状況のニーズを満たすように調整される。１つ以上のライブラリの調整は、時間の経過とともに必要に応じて実施可能である。したがって、疑似画像を追加または削除することができ、また、複数のライブラリを相互に組み合わせること、または初期または後続のニーズに基づいて部分に細分化することができる。任意の特定の用途のためにライブラリまたはライブラリの集合を選択する際に考慮することができるパラメータには、１つ以上のライブラリによって実現される画像認識の精度（信頼性レベル）、１つ以上のライブラリの包括性、プロセスの速度、およびメモリ要件がある。典型的なこととして、これらの競合する対価の間でトレードオフが必要になることがしばしばある。

関心対象である疑似画像と１つ以上の疑似画像ライブラリとの比較は、種々の手法で実行可能である。例えば、関心対象である疑似画像とライブラリの疑似画像との間でユークリッド距離を計算することができ、この距離が小さくなるほど、関心対象である疑似画像と、ライブラリの特定の疑似画像とが一致していることが示される。別の例として、コサイン類似性の値（スコア）を計算することができ、すなわち、ｃｏｓ（θ）値を計算することができ、ここで、θは、関心対象である疑似画像と、ライブラリの特定の疑似画像との間の角度であり、関心対象である疑似画像と、ライブラリの特定の疑似画像とは、両方ともベクトルとして扱われる。関心対象である疑似画像が、ライブラリの特定の疑似画像と整列またはほぼ整列している場合には、θは、ゼロまたはほぼゼロに等しいので、コサイン類似性の値は、１．０または１．０に近く、したがって、関心対象である疑似画像と、ライブラリの特定の疑似画像とが一致していることを示す。

如何なる尺度が使用される場合でも、ライブラリの疑似画像は、既知の画像に対応しているので、比較の結果を使用して、例えば、関心対象である疑似画像に対応する第１画像が、
（ｉ）既知の画像の１つ以上のクラスまたはカテゴリにある、
（ｉｉ）特定の既知の画像である、
（ｉｉｉ）既知の画像の１つ以上のクラスまたはカテゴリにない、
（ｉｖ）既知の画像ではない
のうちの１つ以上であるかどうかを判定することができる。

比較の結果は、種々の手法で使用可能である。基本的な使用法の１つは、「一致」が発見されたことを知らせる視覚的、音響的、または他の種類の通知をユーザに提供することである。通知には、典型的に報告が付随し、この報告は、既知の画像の名称のように簡単であってもよいし、または識別の信頼性レベルの指示が含まれる他のデータを含んでいてもよい。報告は、視覚的、音響的、または他の形式であり得る。マシンビジョンの場合には、比較の結果は、例えば、ロボットによる実行のための一連の命令、例えば、識別されたオブジェクトと特定の手法で相互作用するための命令の集合であり得る。比較の結果を使用することができる他の手法は、本開示から当業者には明らかであろう。

トレーニング画像の行列Ｘを因数分解することによって既定の変換行列Φを取得するために、種々のアルゴリズムを使用することができる。同様に、関心対象である第１画像ｘを関心対象である第一疑似画像ａに変換するためにも、種々のアルゴリズムを使用することができる。以下は、使用することができる適切なアルゴリズムの非限定的な例である。

トレーニング画像の集合を使用して、既定の変換行列を生成するためのアルゴリズム
開示されている方法のパターン認識におけるロバスト性への鍵は、既定の変換行列である。上で考察したように、既定の変換行列は、トレーニング集合として使用される第１画像の集合から取得される。既定の変換行列を生成するプロセスは、第１画像のトレーニング集合を含む行列を２つの別個の行列に因数分解することを含む。１つの行列を２つの別個の行列に因数分解することは、一般に、ブラインド信号源分離（ＢＳＳ）として見なされるアプローチであり、ブラインド信号源分離（ＢＳＳ）は、歴史的に、独立した信号源を識別または近似するために開発されたものである。ＢＳＳの一般的な考察は、Comon and Jutten 2010およびYu, Hu et al. 2014に記載されている。本明細書に開示されている方法は、行列および（列）ベクトルに対する演算と、線形方程式の系に対する解法とを含む線形代数を使用し、その一般的な考察は、Gill, Murray et al. 1991およびStrang 2006に記載されている。本方法は、最適化法も使用し、その一般的な考察は、以下の文献に記載されている（Gill, Murray et al. 1991, Dantzig and Thapa 1997, Chen, Donoho et al. 2001, Boyd and Vandenberghe 2004, Candes and Tao 2005, Donoho 2006, Comon and Jutten 2010, Donoho, Tsaig et al. 2012, Yu, Hu et al. 2014）。

一般に、既定の変換行列の生成は、２ステップのプロセスを通じて実現可能である。第一に、トレーニング集合内の、まだデジタル化されていないそれぞれの画像がデジタル化され、必要に応じて次元ｍ₁×ｍ₂（例えば、２５×２５＝６２５）の第１画像へと前処理される。上で考察したように、この前処理は、好ましくは、画像認識が施されるべきオリジナル画像に対して実行されるものと同じ前処理である。第１画像は、Ｍ次元のベクトル（Ｍ＝ｍ₁・ｍ₂）としてさらに表され、したがって、それぞれの第１画像は、トレーニング集合行列Ｘのうちの１つの列ベクトルを形成することができる。したがって、トレーニング集合がＮ個の第１画像（例えば、Ｎ個の顔）から成る場合には、トレーニング集合行列Ｘは、Ｍ×Ｎ次元の行列である。

第２のステップでは、行列Ｘが、２つの行列ＡおよびΦに因数分解される。ここで、Φは、既定の変換行列である。Φの次元は、Ｍ×Ｋである。Ａは、Ｋ×Ｎ行列であり、Ｋ×Ｎ行列は、Ｎ個の第１画像をＫ次元で表す。Ａのそれぞれの列は、トレーニング集合の対応する第１画像を、この第１画像の疑似画像に変換したものであり、疑似画像の次元は、Ｋである。

第１画像のトレーニング集合を使用して、トレーニング集合の第１画像に対応する疑似画像がスパースになるように、既定の変換行列が生成される。疑似画像は、一意ではなく、ただし、トレーニング集合を構成している画像と、以下のアルゴリズム１のようなＡおよびΦの初期化ステップとに依存していることに留意されたい。しかしながら、一旦Φが決定されると、Φを使用して生成された疑似画像（例えば、以下のアルゴリズム２を使用して生成された疑似画像）は、Φにのみ依存するようになり、例えばアルゴリズム２に関連して以下で考察するように、疑似画像生成プロセスにおいて使用される初期化からは独立することとなる。なお、疑似画像生成プロセスにおいて使用される初期化は、例えばランダムであってよい。

本明細書に開示されている方法では、ＢＳＳ問題に２つの制限が課せられる。第一に、ΦおよびＡにおける全ての要素は、非負である必要がある。第二に、Ａは、スパースである必要がある。これらの制約は、疑似画像を生成するために使用される既定の変換行列を取得する際に重要である。特に、これらの制約は、ロバストな画像認識にとって重要である。スパース性の制約により、それぞれ異なる形態を有する複数の第１画像が同じ有意な係数を共有しないように、第１画像の際立った形態学的特徴が辞書要素にグループ化される。非負性の制約は、トレーニング集合内で一緒に発生する特徴のグループ化を強制する。このことは、負の係数の使用を防止することによって実現され、これにより、複雑な特徴の組み合わせから特徴を差し引くことができる。したがって、非負性の制約は、辞書要素が過度に複雑になることを防止し、すなわち、負の係数が許容されていれば発生していた可能性のある、実際の画像内では共起しない複雑な特徴の組み合わせが、分析に残ることを防止する。これらの２つの制約の結果、第１画像内で一緒に発生する可能性のある特徴同士が抽出されていくつかの辞書要素にされ、これにより、第１画像内において共起する特徴の組み合わせ、したがって決定的な特徴の組み合わせが、それぞれ別個の辞書要素に結び付けられる。したがって、この構成は、これらの特徴のための辞書要素と、同様にして第１画像内で一緒に発生する傾向がある他の特徴のための辞書要素との間の区別を最大化する。

換言すれば、これら２つの制約は、ソース特徴を、これらのソース特徴の間の統計的な関係性に基づいて分類（集約）するために非常に効果的である。例えば、トレーニング集合において使用された顔に基づいて、鼻の特定の輪郭が最終的に特定の頬の特徴を有する１つの辞書要素に含まれ、その一方で、耳＋眉の特徴の形状が別の辞書要素に含まれる場合がある。例えば、トレーニング集合内の全ての顔が、偶然にもほぼ同じような耳を有していたとしたら、この特定のトレーニング集合において顔を区別する際に「耳」は殆ど情報内容を有していないので、スパース性の制約は、耳を、辞書要素において捕捉された他の特徴と結び付ける傾向があるだろう。したがって、トレーニング集合を選択する際には、Ａに適用されるスパース性の制約によって有益な特徴が辞書要素から除外されないように、広範囲の特徴に対して十分な多様性を有するようにすることが有用であり得る。スパース性は、独立した辞書要素の形成を促進するのに効果的であるが、最大の独立性が保証されているわけではないことに留意されたい。

トレーニング集合行列Ｘの因数分解では、以下の方程式：
Ｘ＝ΦＡ
の両辺の間の誤差を最小化する行列ＡおよびΦを生成することが目標であり、その一方で、ΦおよびＡにおける全ての要素が非負であり（すなわち、Φ≧０およびＡ≧０）、かつＡがスパースである必要がある。スパース性は、種々の形式で測定可能である。最も一般的な尺度は、Ｌ₁ノルムおよびＬ₀ノルムである。スパース性のＬ₁尺度が使用される場合には、疑似画像の成分の絶対値の合計が最小化されるが、その一方で、スパース性のＬ₀尺度が使用される場合には、疑似画像は、非負性の制約によって最小化された数の要素、すなわち、最小化された数の正の要素を有する。スパース性がそのＬ₁ノルムによって定義されている場合には、最小化問題は、以下の形式：

を取る。

ここで、||・||_pは、Ｌ_pノルム、すなわち絶対値のｐ乗の合計のｐ乗根を表す（ｐ＞０）。この表記法では、||・||₁は、ベクトルａまたは行列ＡのＬ₁ノルム、すなわち、ａまたはＡにおける全ての係数値の絶対値の合計を表す。したがって、この問題を解くためのプロセスは、方程式の両辺の間のフロベニウスノルムの差（すなわち、ユークリッド距離）を最小化し、Ｌ₁ノルムを最小化する必要がある。

Ｌ₀ノルムが、非ゼロ要素の数である場合、最小化問題は、以下の形式：

を取る。

Ｌ₀ノルムが古典的なノルムの定義ではないことに留意されたい。また、Ｌ₀最小化はＮＰ困難な問題であるので、Ｌ₀ノルムは、一般に実際には使用されない。Ｌ₁ノルムの使用は、それ自体でスパース性の尺度を提供するだけでなく、最小化問題を解く際に、Ｌ₀ノルムに最も近い凸代理（convex surrogate）も提供する。また、ｐが０よりも大きくて１未満である、通常は小さい（例えば、ｐ＝１０^-5）Ｌ_pノルムを使用して、スパース性を定義することも可能である。Ｌ₀、Ｌ₁、およびＬ_p（０＜ｐ＜１）に加えて、スパース性の尺度は、Hoyerによって定義された尺度（Hoyer 2004）、またはGini Indexと称される尺度（Hurley and Rickard 2009）のような他の形式を取ってもよい。上記の式において、λが、スパース性の制約の厳密さを調整するために使用されるパラメータであることに留意されたい。実際には、λの値は、プロセスが進行するにつれてアルゴリズムによって選択可能である。反復回数の関数としてλを選択するための適切なアルゴリズムの代表的な、ただし限定的ではない一例が、以下に記載されている。

実際には、スパースかつ非負のＢＳＳを実行するためのプロセスは、凸最適化問題である。適切なアルゴリズムの一般的な概要が、以下のアルゴリズム１に記載されており、このアルゴリズム１では、第一に、計算をシーディングするためにΦおよびＡを非負のランダム行列になるように初期化し、次いで、（関数の勾配の正味の動きの欠如によって特定のアルゴリズムに対して定義された）収束が達成されるまで、課せられた制約を満たすために計算プロセスを反復する。実施例では、具体的には、実施例で使用されるΦ行列を生成する際に、非負のブラインド信号源分離アルゴリズムｎＧＭＣＡ（Rapin, Bobin et al. 2013, Rapin, Bobin et al. 2013）が使用された。このＢＳＳアルゴリズムは、アルゴリズム１の特定の一例である。スパース性は、Ｌ₁ノルムを使用して測定された。それぞれの反復ｉにおいて、最後の反復のためのＡの値（Ａ_i-1）が、（Ａ_i）を決定するための初期値として使用され、同様に、最後の反復のためのΦの値（Φ_i-1）が、（Φ_i）を決定するための初期値として使用された。

このアルゴリズムにおけるラムダの値は、反復回数ｉによって異なる。典型的に、ラムダは、プロセスの開始時には高レベルのスパース性を強制するために大きい値で始まり、その後、反復が増えると減少し、最終的な値は、典型的には１．０以下になる。例えば、ラムダは、以下の種類の式：

から計算可能であるが、必要に応じて他の式を使用してもよいことを理解すべきである。

この式では、ｉは、反復回数であり、σ_resは、Ｘ−Φ_iＡ_iの要素の標準偏差であり、要素は、数の集合として扱われる。

Ｉ、すなわち最大反復回数の初期化に関して、以下に記載する実施例では、Ｉが５００に設定された。当業者は、アルゴリズム１の任意の特定の用途に対するＩの適切な値を決定することができるか、または画像のトレーニング集合を使用して予備計算を実行することにより、Φを取得するために使用可能な他のアルゴリズムを決定することができる。実施例では、Ｉに到達した際、または最急降下法が停止した際に、Ｘの列とΦＡの列との間のＬ₂差が、誤差尺度として計算され、この差の中央値が、以下のアルゴリズム２における誤差しきい値（ε）として使用された。

第１画像から疑似画像を生成するためのアルゴリズム
第１画像のための疑似画像を生成するプロセスは、既定の変換行列Φに基づいた最小化のプロセスである。このプロセスは、以下の問題ｘ＝Φａの解として定式化されており、ベクトルｘは、第１画像を表すＭ次元のベクトルであり、ベクトルａは、第１画像のための疑似画像を構成するＫ次元のベクトルである。目標は、ｘ＝Φａ方程式の両辺の間の最小誤差を維持しながら、最もスパースなＫ次元のベクトルａを発見することである。

例えば、上記の線形代数の教科書（Gill, Murray et al. 1991, Strang 2006）において考察したように、この問題に対する一意の解のための必要ではあるが十分ではない条件は、Ｍ≧Ｋである。Ｍ＞Ｋの場合には、一意の解が存在するか、または解が存在しないかのいずれかである。Ｍ＝Ｋであって、かつΦがフルランクの場合には、一意の解が存在する。Ｍ＝Ｋであって、かつΦがフルランクでない場合には、一意の解は存在しない。Ｍ＜Ｋの場合には、一意の解は存在しない。

Ｋ（第１画像のための疑似画像内における要素重みの数）が、Ｍ（第１画像内における成分の数）よりも大きくなるように選択された場合には、この系は、劣決定であり、古典的な線形代数法を使用した一意の解を有さない。それにもかかわらず、スパース性の制約および非負性の制約のおかげで、驚くべきことに、この系は、効果的な画像認識を実現する。

開示されている方法では、既定の変換行列の生成中に生成される疑似画像の鍵となる特性は、これらの疑似画像がスパースであることであり、このことは、すなわち、トレーニング集合の第１画像のための所与の疑似画像内において、複数の要素のうちのごく一部（例えば、２０％以下、または１０％以下、または５％以下、または１％以下）のみがアクティブであることを意味する（すなわち、最大の要素重みは、実質的にゼロより大きく、例えば１％以上、または５％以上、または１０％以上である）。この特性により、Donoho (Chen, Donoho et al. 2001, Donoho and Elad 2003, Donoho 2006, Donoho, Tsaig et al. 2012)と、Candes and Tao (Candes and Tao 2005, Candes, Romberg et al. 2006, Candes, Romberg et al. 2006)とによって互いに独自に開発された理論は、最小化問題を解く際にスパース性の制約を課すことによって、一意の解を取得することが可能となることを示している。スパース性の尺度は、上で考察したように種々の形式を取ることができるが、最も一般に使用されるスパース性の定義は、Ｌ₀およびＬ₁である。

Ｌ₁最小化（Donoho 2006）を使用したプロセスの一例は、

を解くことであり、ここで、εは、ｘとΦａとの間の差の誤差尺度である。

Ｌ₁最小化問題は、例えばシンプレックス法に基づいた凸最適化手順によって実装可能である。これらの技術は、種々の本および研究出版物に記載されている（Gill, Murray et al. 1991, Dantzig and Thapa 1997, Chen, Donoho et al. 2001, Boyd and Vandenberghe 2004, Candes and Tao 2005, Donoho 2006, Donoho, Tsaig et al. 2012）。

とりわけ、本明細書に開示されている方法は、ベクトルａの全ての係数（要素重み）が非負であることを要求する非負性の制約を有する。したがって、問題は、

として適切に記述され、ここで、ａ≧０という用語は、ａの全ての成分がゼロまたは正であることを意味する。

既定の変換行列Φを使用して、ベクトルａによって表される疑似画像を取得するために使用することができるアルゴリズムの代表的な非限定的な例は、Candes and Romberg, 2005の“ｌ₁ＭＡＧＩＣ”技術である。以下の実施例では、二次制約を用いるCandesおよびRombergのＭｉｎ−ｌ₁アプローチが使用されたが、ただし、逆元を取得する際に行列が正定値であることを要求せず、ベクトルａの係数値が正であることを要求するという修正が加えられ、このことは、アルゴリズムの最後において負の係数をゼロに設定することによって実現された。アルゴリズム１からのε値が、誤差尺度として使用された。

この実施例で使用されたアルゴリズムの構造は、以下の通りであった：

この実施例で使用されたτ₁，μ，ηのパラメータの値は、
τ₁＝ｍａｘ｛（２ｍ＋１）／（||ａ₀||₁），１｝
μ＝１０
η＝０．００１
であった。

アルゴリズムの目標は、制約||ｘ−Φａ||₂≦εを満たすベクトルａのスパース性を最小化することである。これは、問題を解いている間、制約された領域内に留まることを定めた最適化問題である。すなわち、これは、ａ_iが、

を満たす必要があることを意味している。しかしながら、目標はスパース性であるので、||ｘ−Φａ_i||₂≦εを満たすだけでは、最適化されたスパース性を有するａ_iに到達したことが示されないことに注意すべきである。むしろ、双対ギャップ（ｍ／τ_i）と称されるパラメータが所定の値（以下の実施例では０．００１）未満になると、最適化の終わりに到達する。しかしながら、このアルゴリズムでは、双対ギャップとの直接的な比較は行われない。その代わりに、収束保証として機能する反復回数（Ｉ）が、双対ギャップのパラメータを使用して計算され、次いで、それらの回数の反復ごとにアルゴリズムが実行される。

ａ_iを所望の解に向かって移動させるために、コスト関数ｆを使用することができる。適切なコスト関数の一例は、実施例で使用された以下の関数：

である。

このコスト関数を最小化し、これにより、||ｘ−Φａ||₂≦εを満たしていて、かつスパースである所望のベクトルａを発見するために、以下のステップを使用することができる：
（１）双対ギャップのパラメータを使用して、コスト関数を最小化するために必要なステップ数を計算する。

（２）実行可能な出発点ａ₀、すなわち、||ｘ−Φａ||₂≦εの制約を満たす出発点を選択する（この実施例では使用されていないが、必要に応じてａ₀を、実行可能な領域内のランダムな出発点としてもよいことに留意されたい）。

（３）出発点からコスト関数の最小値に到達するためには、関数の値が出発点の値よりも小さくなる方向へと移動させる必要がある。その方向を発見するために、出発点でのコスト関数が、放物線に近似される（二次近似）。

（４）次いで、放物線の最小値が解析的に発見され、ａ₀を、実行可能な領域内に留めながら上記の方向に最大限に移動させる。

（５）ステップ（４）を実行する際に、コスト関数の減少がチェックされ、このコスト関数の減少が、出発点においてコスト関数の線形モデルによって予測された減少の、事前に選択されたパーセンテージの範囲内に、例えばこの実施例では１．０パーセントの範囲内にあるかどうかが判定される。

（６）この減少が、事前に選択されたパーセンテージの範囲内にない場合には、コスト関数の減少が、事前に選択されたパーセンテージの範囲内に入るまでステップサイズが低減される。

（７）次いで、ステップ（４）の結果として得られた新しい点が出発点として使用され、コスト関数の勾配が、事前に選択されたレベル、例えばこの実施例では０．００１を下回るまで、ステップ（３）〜（６）が繰り返される。

（８）勾配が、事前に選択されたレベルを下回ると、τ_iの値が変更され、例えば１０によって乗算され、ステップ（３）〜（７）が繰り返される。

放物線の最小値に到達するために、２つ以上のステップが必要になる場合があることに注意すべきである。実施例では、最大で５０のステップが使用され、すなわち、５０のステップの前に放物線の最小値に到達したか、または５０のステップにおいて到達した点が最小値として使用された。

アルゴリズム２の上記の構造は、“ｆｏｒループ”を使用していたが、以下の構造は、“ｗｈｉｌｅループ”を使用し、なお、τ₁，μ，ηのパラメータの値は、上記と同じである。ａを取得するための上記の手順と、ｘ＝Φａ方程式を満たすスパースかつ非負のベクトルを発見するための他の手順とをプログラミングするための他の多数のアプローチは、本開示から当業者には明らかであろう。

典型的なケースでは、第１画像は、グレースケール画像であり、このグレースケール画像のピクセルは、多数の値を有する。場合によっては、第１画像は、二値画像であってもよく、この二値画像のピクセルは、２つの可能な値（例えば、オンまたはオフ）のうちの一方のみを有することができる。この場合には、Ｋを、Ｍ未満になるように選択することができ、これにより、上記の線形代数の教科書（Gill, Murray et al. 1991, Strang 2006）において考察したように、一意の解が存在する。上記の技術は、Ｍ未満のＫを有する二値画像に適用されると、その一意の解を発見する。しかしながら、この一意の解は、スパース性が適用されてはいるが、特にスパースではないことが判明した。記号の第１画像は、典型的に、一意の解が存在し得るこのカテゴリに分類される。

開示されている方法は、圧縮センシングおよびスパース信号回復（Donoho 2006, Elad 2010, Eldar and Kutyniok 2012）において使用される方法とは異なっていることに注意すべきである。なぜなら、これらの方法では、元の信号を基準的に再構築または近似することが目標であったからである。開示されている方法では、作成された疑似画像は、オリジナル画像とは類似しておらず、異なる次元で作成されている。スパースかつ非負の変換を使用することにより、第１画像の変形形態から、および破損または遮蔽された第１画像から生成される疑似画像を、実施例に示されているように、夾雑物のない第１画像の疑似画像とほぼ同一にすることが可能となる。

図４２〜図４４は、本開示を実施する際に使用することができる代表的なフローチャートを示す。これらのフローチャート、および以下で考察する図４５〜図４６のフローチャートは、当然、本開示の実施形態を説明する目的でのみ提供されたものであり、特許請求の範囲によって定義される本発明の範囲を限定することを意図するものでは決してない。

図４２は、第１画像を疑似画像に変換する際に使用するための既定の変換行列を構築する際に使用することができるフローチャートを示す。このフローチャートは、（１）顔画像の集合を取得し、必要に応じてこれらの顔画像を、指定された次元Ｍ＝ｍ₁×ｍ₂の第１画像へと前処理するステップと、（２）第１画像をＸ行列に編成するステップと、（３）Ｘ行列のスパースかつ非負の因数分解を実行して、既定の変換行列Φと、トレーニング集合のための疑似画像の行列Ａとを取得するステップとを含む。その後、必要に応じてＡの列を、疑似画像ライブラリとして編成することができる。また、必要に応じて、疑似画像を分類するために、ＰＣＡ、階層的クラスタリング、および／またはサポートベクターマシンを用いた分析のような統計分析を、行列Ａに対して実行することができる。単なる一例として、上記の種類の技術を使用すると、人間の顔を男性または女性の顔に分類することができる。

図４３は、画像認識、具体的には顔認識を実行する際に使用することができるフローチャートを示す。このフローチャートは、（１）関心対象である顔画像（関心対象であるオリジナル画像）を取得するステップと、（２）必要に応じてこのオリジナル画像を、指定された次元Ｍ＝ｍ₁×ｍ₂の関心対象である第１画像へと前処理するステップと、（３）関心対象である第１画像のスパースかつ非負の変換を実行するための既定の変換行列を使用して、関心対象である疑似画像を生成するステップと、（４）関心対象である疑似画像を、少なくとも１つの疑似画像のライブラリと比較するステップと、（５）比較の結果を報告するステップとを含む。

図４４は、１つ以上の疑似画像ライブラリを準備または拡張する際に使用することができるフローチャートを示す。このフローチャートは、（１）１つ以上の疑似画像ライブラリに含められるべき顔画像を取得するステップと、（２）必要に応じてこの顔画像を、指定された次元Ｍ＝ｍ₁×ｍ₂の第１画像へと前処理するステップと、（３）第１画像のスパースかつ非負の変換を実行するための既定の変換行列を使用して、疑似画像を生成するステップと、（４）疑似画像を、少なくともいくつかの索引／識別情報とともに１つ以上の疑似画像ライブラリに組み込むステップとを含む。

上記の図４２〜図４４および下記の図４５〜図４６のフローチャート、または本開示に基づいて展開される他のフローチャートに記載されているステップは、行列計算のために好適である種々のコンピュータ機器および種々のソフトウェアプログラミング言語、例えば、ＭＡＴＬＡＢ(登録商標）またはＯＣＴＡＶＥを使用して容易に実装可能である。本開示を実施する際に使用することができる他のプログラミング言語には、限定するわけではないが、ＦＯＲＴＲＡＮ、Ｃ、Ｃ＋＋、ＰＹＴＨＯＮ、ＰＡＳＣＡＬ、ＢＡＳＩＣなどが含まれる。本開示を実施する際に必要に応じて、２つ以上のプログラミング言語を使用してもよい。

計算からの出力は、電子的な形式および／またはハードコピー形式であってよく、表形式およびグラフ形式を含む種々のフォーマットで表示可能である。例えば、グラフは、「ＭＡＴＬＡＢ」およびＯＣＴＡＶＥの一部であるソフトウェア、またはＭＩＣＲＯＳＯＦＴ社のＥＸＣＥＬプログラム、Ｒ、もしくは他のソフトウェアパッケージのソフトウェアのような、市販のデータ表示ソフトウェアを使用して準備可能である。

本開示を実装するためのプログラムは、プロセスのステップを実行するためにコンピュータプロセッサによって実行可能な命令が保存されている非一時的なコンピュータ可読媒体上で、ユーザに提供可能である。そのような媒体の非限定的な例には、ディスケット、ＣＤ、フラッシュドライブなどが含まれる。プログラムは、インターネットを介してユーザにダウンロードされてもよい。さらに、本開示のプロセスは、例えば、「クラウド」コンピューティングを介してオンラインでユーザに提供可能である。プロセスは、パーソナルコンピュータ、ワークステーション、メインフレーム、スーパーコンピュータなどを含む種々のコンピューティングプラットフォーム上で実行可能である。

既定の変換行列は、フィールドプログラマブルであるコンピュータハードウェアを含むコンピュータハードウェアとして実装可能である。例えば、既定の変換行列は、コンピュータチップ、例えばマイクロチップに直接的にプログラミング可能であり、プログラマブルデバイス、例えばＦＰＧＡを使用することによって現場で変更可能である。既定の変換行列を決定する際に十分な大きさのトレーニング集合が一旦使用されると、通常、追加的な学習が不要となり、１つの固定の既定の変換行列を、複数の異なるプラットフォーム（複数の異なるマシン）にわたって使用することができ、ハードウェア実装されたデバイスとして、例えばファームウェアとして提供することができる。ハードウェア実装は、確立された画像認識システムのために特に好適であろう。

すぐ上で述べたように、既定の変換行列は、上で考察した方法によって一旦決定されると、一般に、追加的な学習を必要としない。しかしながら、例えばロバスト性または精度を改善するために追加的な学習が望まれる場合には、「拡張された」既定の変換行列を生成するために２つのアプローチを使用することができる。これらの２つのアプローチは、「デノボ」アプローチおよび「シーケンシャル」アプローチと称される。追加的な学習から結果として得られた拡張された既定の変換行列は、画像認識を実行する際に、既存の既定の変換行列と同じ手法で使用可能であるので、「既定の変換行列」という用語は、既存の（例えば、元の）既定の変換行列と、追加的な学習によって生成される拡張された既定の変換行列との両方を含むことが理解されよう。必要に応じて、デノボアプローチ、シーケンシャルアプローチ、またはこれらのアプローチの組み合わせを使用して、拡張を複数回実行可能であることも理解されよう。

追加的な学習のためのデノボアプローチは、元の既定の変換行列を生成するための上で考察した方法を使用して、拡張された既定の変換行列を生成する。上で考察した方法によれば、第１画像のＭ×Ｎ次元のＸ行列を形成し、次いで、このＸ行列を、Ｍ×Ｋ次元の既定の変換行列（Φ行列）と、トレーニング集合の第１画像に対応するＫ×Ｎ次元の疑似画像のＡ行列とに因数分解することによって、全てのトレーニング画像が一度に利用される。

デノボアプローチによれば、トレーニング集合の全ての第１画像を一度に使用するこのプロセスが繰り返されるが、より大きい（拡張された）トレーニング集合、すなわちより多くの列を有するＸ行列が用いられる。具体的には、Ｍ×（Ｎ＋Ｎ’）次元のＸ行列が形成され、ここで、Ｎ’は、新しく組み込まれた画像の数である（Ｎ’≧１）。次いで、この行列が、Ｍ×Ｋ次元の既定の変換行列（拡張されたΦ行列）と、拡張されたトレーニング集合の第１画像に対応する、Ｋ×（Ｎ＋Ｎ’）次元の疑似画像のＡ行列とに因数分解される。このプロセスには、非負の乱数を使用したＡ行列（およびΦ行列）の初期のシーディングが伴うので（上記のアルゴリズム１を参照）、その結果として得られた拡張された既定の変換行列は、一般に、既存の（以前の）変換行列とは非常に異なるものとなり、したがって、以前の行列によって生成された疑似画像ライブラリの再計算が必要となる。したがって、このアプローチは、時間がかかることに加えて、疑似画像と他のデータセット（例えば、前科など）との間における以前に指定された関連付けを混乱させる可能性がある。

第２のアプローチであるシーケンシャルアプローチによれば、このような再計算の必要性を格段に低減することができるか、または完全に省略することができる。シーケンシャルアプローチは、その名前が示唆するようにシーケンシャル学習を実行し、このシーケンシャル学習では、デノボアプローチのように最初からやり直す必要なしに、トレーニング集合内に組み込まれた１つ以上の新しい第１画像に基づいてΦ行列およびＡ行列が更新される。本方法は、より効率的であるという、デノボ学習に対する利点を提供する。重要なことに、一般に、本方法は、トレーニング集合のための疑似画像を、この疑似画像の識別情報に影響を与えることなく更新することが可能である。

既存の既定の変換行列を拡張するためにデノボアプローチまたはシーケンシャルアプローチを使用する前の予備ステップとして、通常、新しい第１画像または新しい第１画像の集合のための疑似画像を生成できるようにするために、この行列が本当に拡張を必要としているかどうかを判定することが適切であろう。図４５は、そのような予備的な問い合わせを実行するための例示的なフローチャートを示す。この図面の最初のボックスに示されているように、プロセスへの入力は、既存の既定の変換行列Φ₀と、新しい第１画像の集合Ｙとであり、なお、この新しい第１画像の集合Ｙは、ただ１つの新しい第１画像であってもよい。以下で考察するように、シーケンシャルアプローチは、Φ₀を生成するために使用されたトレーニング集合に対応する既存の疑似画像の集合Ａ₀を使用するので、Ａ₀も、デノボアプローチを使用した場合には使用されないが、図４５の入力として示されている。

図４５の計算ステップ（図４５の２番目のボックス）に示されているように、Φ₀およびＹを使用して、上記のアルゴリズム１の手順と同様の手順を使用して、Ｙのための疑似画像の集合

が計算されるが、ＡおよびΦの両方ではなく、Ａのみが最小化される。したがって、図４５の決定ボックス（はい／いいえのボックス）において使用されるεと同様に、λおよびＩも、アルゴリズム１と同様である。決定ボックスに示されているように、誤差Ｅ₀がε以下である場合には、Φ₀を拡張することなく使用し続けることができる。このプロセスは、１つ以上の新しい第１画像のための疑似画像

も生成し、この疑似画像を、例えば、１つ以上の疑似画像ライブラリを拡張するために使用することができる。したがって、

を計算することによって、Φは拡張されないが、その一方で、疑似画像は拡張される。

図４５の計算ボックスがεよりも大きいＥ₀の値を生成すると、プロセスは、図４６に進む。（必要に応じて、図４５のプロセスを最初に実行することなく、図４６のプロセスを実行してもよいこと、同様に、図４５のプロセスを最初に実行することなく、デノボアプローチを開始してもよいことに留意されたい。）図４６のプロセスは、既定の変換行列Φ₀と、対応する疑似画像の集合Ａ₀とを生成するために、Ｎ個の第１画像の集合が使用されたと仮定する。新しい第１画像、または新しい第１画像の集合Ｙをシステムに組み込もうとした場合には、本方法は、新しい既定の変換行列Φ（拡張された既定の変換行列）と、Ｌ₁最小化を使用してコスト関数：

を最小化する疑似画像Ａとを検索する。

図４６には、この最小化を実行するためのプロセスの概要が記載されており、この概要とともに使用することができるアルゴリズムの代表的な非限定的な例は、以下のアルゴリズム３に記載されている。本開示から当業者には明らかであるように、必要に応じて、シーケンシャルプロセスを実行するための他のアルゴリズムおよび概要を使用してもよい。

アルゴリズム３において使用されるＩおよびλの値は、アルゴリズム１に関連して上で考察した方法と同じ手法で決定される。アルゴリズム１と同様に、それぞれの反復ｉにおいて、最後の反復のためのＡの値（Ａ_i-1）が、（Ａ_i）を決定するための初期値として使用され、同様に、最後の反復のためのΦの値（Φ_i-1）が、（Φ_i）を決定するための初期値として使用される。

図４６のプロセスおよびアルゴリズム３は、トレーニング集合の以前のメンバーのための既存の疑似画像と、既存の疑似画像ライブラリとを実質的に保持することが可能である。このことは、既存の既定の変換行列Φ₀がロバストである場合には、特に当てはまる。アルゴリズム３を検討すると、Ｙは、第１画像の元のトレーニング集合（Ｘ行列）と連結されるのではなく、Ｘのための代理（proxy）としてのΦ₀Ａ₀と連結されていることが明らかである。したがって、Φ₀は、プロセスにおいて積極的に使用され、それゆえ、拡張された既定の変換行列の内容に対して、ひいては、その拡張された行列を使用して生成される疑似画像に対して影響を与えることができる。Φ₀がロバストである場合には、拡張プロセスにおいてトレーニング集合に導入される新しい第１画像を網羅するために、拡張される既定の変換行列を、Φ₀から過度に異ならせる必要はない。その結果、元の既定の変換行列（Φ₀）によって生成される疑似画像と、拡張された既定の変換行列によって生成される疑似画像とは、互いに過度に異なっている必要がないので、既存の疑似画像と他のデータセットとの間における以前に指定された関連付けを保持することができる可能性がより高くなる。

図４７は、本明細書に開示されている方法を使用して画像認識を実行するためのコンピュータシステム２００のコンポーネントの非限定的なアーキテクチャを概略的に示す。この非限定的な例示的な実施形態では、システム２００は、１つ以上のコンピュータプロセッサ２０１と、データおよび命令が保存された１つ以上のメモリ２０３とを含み、このデータおよび命令は、１つ以上のコンピュータプロセッサによって使用された場合に、第１画像を疑似画像に変換するステップを実行することができ、次いで、疑似画像を疑似画像のライブラリと比較するステップ、および／または疑似画像を１つ以上の疑似画像ライブラリに組み込むステップを実行することができる。１つ以上のコンピュータプロセッサと、１つ以上のメモリとを使用して、オリジナル画像を第１画像に変換することもできる。同じまたは別個のコンピュータシステムを使用して、第１画像から疑似画像への変換を実行する際に使用するための１つ以上の既定の変換行列を計算することができる。図４７では、既定の変換行列２０５と、疑似画像ライブラリ２０７とが別々に図示されているが、これらは、１つ以上のメモリ２０３の一部であってもよいし、または１つ以上のコンピュータプロセッサ２０１にハードコーティングされていてもよいことが理解されよう。

コンピュータシステム２００は、コンピュータシステム２００のプロセッサ／メモリユニット２０９に加えてＩ／Ｏデバイス２１１を含むこともでき、このＩ／Ｏデバイス２１１は、取得した信号を、Ｉ／Ｏインターフェース２１３を介してプロセッサ／メモリユニットに送信する。これらのＩ／Ｏデバイスを使用して、例えば、オリジナル画像、第１画像、疑似画像ライブラリ、および／または既定の変換行列を、システムのメモリにロードすることができる。これらのデバイスを使用して、オペレータコマンドをシステムに送信することもできる。プロセッサ／メモリユニット２０９によって実行される計算の結果、例えば、疑似画像、既定の変換行列、疑似画像ライブラリ、または比較の報告などを、出力／表示ユニット２１５を介して出力すること、および／または非一時的なコンピュータ可読記憶媒体２１７に保存することができる。

本発明の範囲を限定する如何なる意図もなく、本発明を、以下の非限定的な実施例によってさらに説明する。

実施例１
この実施例は、本明細書に開示されている画像認識技術の、顔認識問題への適用を説明する。

図１は、関心対象である人物のオリジナル画像を示し、この関心対象である人物を識別することが望まれている。本明細書に開示されている顔認識技術の適用においてよくあるように、この関心対象である人物は、他の人々の群衆の中にいる。図２Ａは、第１レベルの前処理の最初の段階（第１ラウンド）を示し、ここでは、図１が、関心対象である人物の顔だけを強調するためにトリミングされている。トリミングされた顔の次元は、同数の垂直方向のピクセルと水平方向のピクセルとを有するものであった。具体的には、トリミングされた画像は、１００００ピクセル（１００×１００）を有するものであった。トリミングは、オープンソースソフトウェアであるＯＰＥＮ−ＣＶを使用して実行されたが、ＧＯＯＧＬＥＶＩＳＩＯＮＡＰＩまたはＣＬＡＮＤＭＡＲＫのような顔検出ソフトウェアを使用して実行されていてもよい。

図２Ｂは、さらなる第１レベルの前処理を示し、ここでは、図２Ａの画像が、事前に指定された次元（ｍ₁×ｍ₂＝２５×２５）までダウンサンプリングされた。この実施例では、ダウンサンプリングは、４×４ピクセルのサブエリアにわたる局所平均によって実現された。このダウンサンプリングは、図２Ａの１００×１００ピクセルを、図２Ｂの２５×２５ピクセルまで低減させたものである。各ピクセルのためのグレースケール値は、０から１の間になるように正規化されている。図２Ｂの画像は、この実施例での関心対象である第１画像（ステップ（ａ）の第１画像）であり、したがって、この実施例でのＭは、６２５であった。

自動化されたＷｅｂベースの画像検索から、２０００個の顔画像のトレーニング集合（Ｎ＝２０００）が取得され、図２Ａから図２Ｂを取得するために使用されたものと同じ第１レベルの前処理に供された。図３は、このトレーニング集合のうちの５個の顔画像を示す。

２０００個のトレーニング画像の全集合と、上記のアルゴリズム１とを使用して、１５００個の辞書要素から構成されるΦ行列、すなわち、既定の変換行列が取得された（すなわち、Ｋ＝１５００であり、Φは、６２５×１５００行列であった）。図４は、このようにして取得された１５００個の辞書要素のうちの３６個を示す。図４では、辞書要素は、既定の変換行列の列としてではなく二次元の配列として表示されている。

上で考察したように、既定の変換行列Φを生成するプロセスは、トレーニング集合内の全ての画像に対してそれぞれ１つの疑似画像を生成する。それぞれの疑似画像は、Φにおける列の数（辞書要素の数）と同数の要素重み（成分）を有し、すなわち、それぞれの疑似画像は、この実施例では１５００であるＫ個の要素重みを有する。図５は、このようにして生成された２０００個の疑似画像のうちの５個を示す。この図面では、疑似画像の要素重みは、コンピュータシステムでの典型的な形式のように数値のベクトルとしてではなく、二次元のグレースケール配列として表示されている。見て取れるように、現実世界からのオブジェクト（すなわち、人間の顔）は、第１画像内では知覚できるが、疑似画像内では知覚できない。

図６は、図２Ｂに示された顔に対応する疑似画像のアクティブ要素を示し、ここで、アクティブ要素とは、実質的にゼロより大きい係数（要素重み）を有する辞書要素のことである。この図面の疑似画像は、アルゴリズム２と、図４に示されている辞書要素が含まれた既定の変換行列とを使用して取得されたものである。

この疑似画像の上位１２個の辞書要素、すなわち、最大の要素重みを有する１２個の辞書要素が、全部で１５００個の辞書要素を示している図６の下側のパネルにおいて、濃い枠線によってマーキングされている。疑似画像におけるそれぞれの要素のグレースケールは、それらの要素の係数値を示す。

図７には、有意な辞書要素の係数値（要素重み）が記載された、アクティブ要素の代替図が示されている。それぞれの要素の係数値は、それらの要素に対応する線の高さによって示されている。

図２Ｂ、ひいては図１に示されている顔の識別は、関心対象である疑似画像、すなわち図６の疑似画像と、疑似画像のライブラリのそれぞれのメンバーとの間の類似性スコアを計算することによって実行された。この実施例の目的につき、疑似画像ライブラリは、トレーニング集合のための疑似画像の集合であり、この疑似画像の集合は、上で考察したように、既定の変換行列Φが生成されると同時に生成されている。したがって、疑似画像ライブラリのＳ値は、２０００であった。この実施例および実施例２〜実施例１０のための類似性スコアとして、関数ｃｏｓ（θ）が使用された。

図８は、図６の関心対象である疑似画像と、図５の部分の取り出し元である疑似画像ライブラリ全体との比較による、関心対象である第１画像の、したがってオリジナル画像の識別の報告を示す。最高のスコアを有する第１画像は、関心対象である第１画像と同一である。見て取れるように、最高のスコアを有する第１画像の類似性スコアは、その次に高いスコアよりも格段に高く、したがって、Ｋ／Ｍが２．４（Ｋ＝１５００；Ｍ＝６２５）であるこの系における識別のロバスト性を示している。「ＭＡＴＬＡＢ」のＲＡＮＫ（）関数によって決定されるＸ行列のランクは、６２５であり、したがって、この実施例でのＫ／ＲおよびＫ／Ｍの値は、両方とも２．４であり、これらの値の各々が、ロバスト性を示している。この実施例１でのＫ／ＭおよびＫ／Ｒの値は、以下の実施例３〜実施例６でのＫ／ＭおよびＫ／Ｒの値でもあった。

実施例２
この実施例は、Ｋ／ＭおよびＫ／Ｒの比率の値を低下させると画像認識手順のロバスト性がどのように損なわれるかを示す。

実施例１と同じ手順およびトレーニング集合を使用し、Ｋの値を１５００ではなく５００に設定した。したがって、疑似画像ライブラリは、依然として２０００個の疑似画像を有していたが、Ｋが異なるので、疑似画像は異なるものとなった。Ｘ行列は、実施例１と同じであり、したがって、実施例１と同じであるＭに等しいＲの値、すなわち６２５を有していたので、Ｋ／ＭおよびＫ／Ｒの値は、両方とも０．８であった。この実施例２でのＫ／ＭおよびＫ／Ｒの０．８という値は、以下の実施例７でのＫ／ＭおよびＫ／Ｒの値でもあった。

図９〜図１３は、結果を示す。図９を実施例１の図４と比較すると、Ｋを低下させたことによって辞書要素が変化したことが見て取れる。Ｋの値がより小さい場合には、辞書要素は、より少ない特徴を組み込んでおり、図４の辞書要素よりも大雑把ではあるが、依然として顔として見えている。

図１０〜図１２を実施例１の図５〜図７と比較すると、Ｋの値を低下させた結果、アクティブ要素が増加したこと、つまり疑似画像のスパース性が低下したことが見て取れる。スパース性の低下は、関心対象である疑似画像と疑似画像のライブラリとの比較に影響を与える。具体的には、図１３に示されているように、疑似画像のライブラリ内のより多数の顔が、図８のより少数の顔と比較して、類似性スコアにおいて中程度の値を有している。同じ正しい顔が識別されたが、この実施例では、Ｋの値を低下させたことにより、正しい顔に対する類似性スコアと、最も近い次点者に対する類似性スコアとの間の差（コントラスト）が、実施例１の場合よりもはるかに小さくなった。したがって、ロバスト性が損なわれている。

このロバスト性の低下は、以下の実施例３〜実施例６および実施例７によってさらに実証されており、実施例３〜実施例６では、Ｋが１５００である場合に、種々の種類の不完全な顔画像の識別が成功したが、実施例７においてＫを５００に低下させ、したがって、実施例３〜実施例６では１．０超としたＫ／ＭおよびＫ／Ｒの比率を、実施例７では１．０未満とした場合には、識別の成功が実現しなかった。

実施例３
この実施例は、顔の一部が隠されている人々、この場合には眼鏡またはサングラスによって隠されている人々に対して顔認識を実行するための本技術の能力を示す。実施例１と同じ手順、トレーニング集合、および疑似画像ライブラリが使用されているが、ただし、この実施例では、関心対象である第１画像は、目の周りに眼鏡またはサングラスを含めることによって修正された、トレーニング集合からの顔であった。トレーニング集合内の顔は、同じままであった。すなわち、識別したい関心対象である第１画像のみが変更された。

図１４および図１５は、結果を示す。実施例１の既定の変換行列Φと、アルゴリズム２とを使用して取得された疑似画像は、アクティブ要素の増加を示した。具体的には、図１４および図１５について、最大の要素重みのしきい値を０．３％とした場合、元の第１画像に関しては、それぞれ４．３％および２．６％のアクティブ要素を示したのに対し、変更された（不完全な）第１画像に関しては、オリジナル画像のために使用した上記のしきい値、すなわち元の第１画像のための最大の要素重みに基づいた上記のしきい値を使用した場合、それぞれ１８．９％および１９．１％のアクティブ要素を示した。しかしながら、追加的な要素のための係数値は、比較的小さく、すなわち、図１４および図１５の中央図では実質的に不可視であった。したがって、不完全な第１画像のための疑似画像のスパース性は損なわれたが、それでもなお、実質的にスパース性が存在した。重要なことに、これらの中央図において見て取れるように、主要な高い要素重み（高い係数値）の辞書要素は、修正された顔画像とオリジナル画像との間で同じである。

図１４および図１５の右図に示されているように、分析において使用された関心対象である第１画像が眼鏡を着用していたという事実にもかかわらず、類似性スコアは、オリジナルの顔が正しい顔であることを明確に識別する。

実施例４
この実施例は、トレーニング集合内に存在しない表情を有する人々に対して顔認識を実行するための本技術の能力を示す。実施例１と同じ手順、トレーニング集合、および疑似画像ライブラリが使用されている。トレーニング集合内の顔は、笑顔から非笑顔への変更（図１６の上側のパネル）、または非笑顔から笑顔への変更（図１６の下側のパネル）によって修正されている。次いで、これらの修正された顔が、関心対象である第１画像として使用されたが、トレーニング集合内の画像は、変更されなかった。すなわち、既定の変換行列Φと、比較のために使用される疑似画像のライブラリとは、変更されなかった。

図１６の右図は、複数の異なる表情を有する顔と、ライブラリの疑似画像との間の類似性スコアを示す。最高のスコアは、オリジナルの顔を正しく識別した。

実施例５
この実施例は、顔の複数の部分が隠されている人々、この場合にはサングラス、顔の毛、またはその両方によって隠されている人々に対して顔認識を実行するための本技術の能力を示す。実施例１と同じ手順、トレーニング集合、および疑似画像ライブラリが使用されている。この実施例では、関心対象である第１画像は、目の周りにサングラス、口の上に口髭、またはその両方を含めることによって修正された、トレーニング集合からの顔であった。トレーニング集合内の顔は、同じままであった。すなわち、識別したい関心対象である第１画像のみが変更された。

図１７は、結果を示す。修正された顔と、トレーニング集合のための疑似画像のライブラリとの間の最高の類似性スコアは、分析において使用された関心対象である第１画像が目の周りにサングラス、口の上に口髭、またはその両方を着用していたという事実にもかかわらず、オリジナルの顔である。

実施例６
この実施例は、オブジェクトによって顔の一部が隠されている人々に対して顔認識を実行するための本技術の能力を示し、このオブジェクトは、実際には、帽子、スカーフ、またはマスクなどである可能性がある。実施例１と同じ手順、トレーニング集合、および疑似画像ライブラリが使用されている。この実施例では、関心対象である第１画像は、顔の半分が見えないようにする黒色のマスクによって遮られた、トレーニング集合からの顔であった。マスクは、顔の種々の部分（すなわち、上半分、下半分、左半分、または右半分）を隠すために配置された。図１８および図１９は、隠された顔と、トレーニング集合のための疑似画像のライブラリとの間の類似性スコアを示す。２つのケース（図１８の左側のケース）では、正しい顔は、最高のスコアを有する顔ではなかったが、高い類似性スコアを有する顔のうちの１つであった。他の６つのケース（図１８の右側のケースおよび図１９の全てのケース）では、オリジナルの顔は、最高のスコアを有する顔であった。

実施例７
この実施例は、実施例３〜実施例６で使用した１５００というＫの値を５００に低下させた場合の影響を示す。上で述べたように、Ｋを低下させることにより、この実施例でのＫ／ＭおよびＫ／Ｒの値は、０．８となった。

具体的には、図２０および図２１は、実施例３の図１４および図１５に対応し、図２２は、実施例４の図１６に対応し、図２３は、実施例５の図１７に対応し、図２４および図２５は、実施例６の図１８および図１９に対応する。実施例１と同じ手順およびトレーニング集合が使用されているが、ただし、この実施例では、Ｋは、１５００ではなく５００であり、したがって、疑似画像ライブラリは、依然として２０００個の疑似画像を有していたが、Ｋが異なるので、疑似画像は異なるものとなった。

図２０〜図２５において見て取れるように、それぞれのケースにおいて間違った顔が識別されたので、Ｋ／ＭおよびＫ／Ｒの値が１．０未満であった場合に、不完全な画像を識別する際のロバスト性が欠如することが示された。

実施例８
この実施例は、Ｋの値、ひいてはＫ／ＭおよびＫ／Ｒの値を増加させることによって、不完全な第１画像に対して実行される画像認識においてさらに優れたロバスト性を実現するための能力を示す。

実施例５と、実施例６の女性の顔とが再度使用されたが、Ｋは、１５００ではなく２５００に等しく、したがって、Ｋ／ＭおよびＫ／Ｒの比率は、それぞれ２．４ではなく４．０であった。図２６および図２７は、分析の結果を示す。

これらの図面において見て取れるように、正しい顔に対する類似性スコアは、今や、最も近い次点者よりもはるかに高くなっており、すなわち、類似性スコア間のコントラストが大きくなっている。Ｋが１５００である図１７および図１８と比較すると、Ｋが２５００に等しい図２６および図２７での正しい顔は、今や、類似性スコアの観点から実質的に孤立している。また、実施例６の女性の顔の場合には、顔の一部が隠されているかどうかに関係なく、今や、正しい顔が識別されている。この実施例および実施例６の結果が示すように、女性の顔は、男性の顔よりも識別がより難しい傾向があるので、ロバストな識別のためにいくらか大きいＫ／Ｍおよび／またはＫ／Ｒの値が必要になる場合があることが判明した。

実施例９
この実施例は、トレーニング集合内に存在しない人々に対して顔認識を実行するための本技術の能力を示す。

使用された画像は、http://cvc.cs.yale.edu/cvc/projects/yalefaces/yalefaces.htmlに掲載されているエール大学の顔画像データベースからの画像であった。具体的には、それぞれ１１種類の異なる表情または照明条件を有する１５人の個人が使用された。図２８は、使用された１６５個の顔を示す。図２８のそれぞれの行は、複数の異なる表情または照明条件を有するそれぞれ異なる個人に対応し、これらの異なる表情または照明条件に対応する１人の個人が、列に沿って移動するにつれて示されている。

図２８のそれぞれの顔画像は、関心対象である第１画像として扱われ、実施例１と同じ手順およびトレーニング集合を使用して関心対象である疑似画像に変換されたが、ただし、Ｋは、１５００ではなく２５００に等しく、したがって、Ｋ／ＭおよびＫ／Ｒの比率は、２．４ではなく４．０であった。次いで、その結果として得られた関心対象である疑似画像間の類似性スコアが、ペアごとに取得され、計算された。

図２９は、１５人の個人と、これらの個人の１１種類の顔との間におけるペアワイズスコアを示す（合計２７２２５回の比較）。グレースケールが濃いほど、類似性スコアがより高いことを示す。同じ人物に属する顔がグループ化されていて、軸に沿った番号によって示されている。この図面の斜めの線に沿ったグループ化は、所与の人物が、それぞれ異なる表情および照明条件を有していても、彼自身／彼女自身の顔の画像間において高い類似性スコアを有することを示している。他方で、異なる人々の疑似画像間の類似性スコアは、低くなっている。したがって、このグラフは、表情および照明条件が異なるにもかかわらず、同じ人物に属する顔同士は、その人物の疑似画像では非常に類似しているが、異なる人物に属する顔とは類似していないことを示している。

図３０は、図２８のエール大学のデータベースからの顔のための疑似画像と、実施例１のトレーニング集合の顔のための疑似画像との間の類似性スコアを示す。これら２つの無関係な顔の集合のための疑似画像間の類似性スコアは、低くなっている。

したがって、本技術は、所与の個人が疑似画像ライブラリの一部であるかどうかを判定することが可能であり、また、複数の異なる表情および複数の異なる照明条件を有する特定の個人の第１画像を、たとえその個人が、疑似画像を生成する際に使用された既定の変換行列を生成するために使用されたトレーニング集合の一部ではなかったとしても、グループ化することが可能である。

実施例１０
この実施例は、記号の認識を実行するための本技術の能力を示す。

図３１は、世界の言語からの１０００個の文字を示す。これらの１０００個の記号は、８００個の辞書要素（すなわち、Ｋ＝８００）を有する既定の変換行列Φを生成するためのトレーニング集合（すなわち、Ｎ＝１０００）として使用され、次いで、このトレーニング集合は、夾雑物の有無にかかわらず、英語の大文字「Ｈ」および中国語の「並」文字のための疑似画像を生成するために使用された。

トレーニング集合の記号の各々と、テストで使用された「Ｈ」および「並」の文字とは、２５６ピクセル（すなわち、Ｍ＝２５６）を有しており、これにより、Φ行列に対して３．１のＫ／Ｍの比率が与えられている。したがって、既定の変換行列は、それぞれの記号を２５６次元の空間から８００次元の空間に変換した。上記の実施例１で参照した「ＭＡＴＬＡＢ」のＲＡＮＫ（）関数を使用して決定されるＸ行列のランクは、２５３であったので、Ｋ／Ｒの比率は、３．２であった。Φの計算中に生成されたＡ行列は、夾雑物を有する形式と夾雑物のない形式との両方における、文字「Ｈ」および文字「並」の疑似画像と比較するための疑似画像ライブラリ（Ｓ＝１０００）として使用された。前述した実施例と同様に、Φ行列を生成するためにアルゴリズム１が使用され、第１画像を疑似画像に変換する際にはアルゴリズム２が使用された。

図３２は、夾雑物のない「Ｈ」の文字（上側のパネル）と、夾雑物のない「並」の文字（下側のパネル）とに関する結果を示す。この図面に示されている類似性スコアは、疑似画像ライブラリの疑似画像の要素重みに対する関心対象である疑似画像の要素重みについてのｃｏｓ（θ）関数の値である。見て取れるように、いずれのケースにおいても正しい文字が発見された。英語の大文字「Ｈ」のケースにおける２番目に高い類似性スコアは、図３１の３行目の最後の列に出現するギリシャ語の大文字「Η（エータ）」であった。見て取れるように、このギリシャ文字と英語の文字との違いはごくわずかであるが、それでもなお、本明細書に開示されている画像認識手順は、これら２つの文字を区別することができた。

図３３は、破損した第１画像、具体的にはピクセルが欠落した（ピクセル値がゼロに設定された）第１画像に関する結果を示す。ここでも、画像が破損しているにもかかわらず、本手順によって正しい文字が容易に識別された。

上で述べたように、図３１の記号のような二値画像の場合には、ロバストな画像認識のためのＫに関する要件をしばしば緩和することができる。この影響は、図３３の反復である図３４に示されているが、ただし、図３４では、Ｋは、８００ではなく１００に等しい。したがって、図３３の３．１のＫ／Ｍの比率と、３．２のＫ／Ｒの比率との代わりに、図３４は、わずか０．４のＫ／ＭおよびＫ／Ｒの比率を有していた。

図３４において見て取れるように、本手順は、たとえＫの値がこのように低くても、破損した「Ｈ」の文字および破損した「並」の文字を識別することができた。図３３と比較すると、実質的な類似性スコアを有する多数の記号によって証明されるように、ロバスト性は明らかに損なわれたが、この系は、依然として正しい記号を発見するために十分にロバストであった。

図３５は、Ｋを８００から１００に変更した場合の影響をさらに描写している。この図面のパネルは、関心対象である第１画像内のピクセル数の関数として、関心対象である疑似画像と正しい疑似画像との間の誤差、特に１−ｃｏｓ（θ）の値をプロットしている。具体的には、図３１の１０００個の記号の各々からのピクセルのランダム集合が、関心対象である第１画像として使用され、これらの関心対象である第１画像が、関心対象である疑似画像に変換され、次いで、これらの関心対象である疑似画像が、夾雑物のない記号のための疑似画像と比較された。ランダム集合におけるピクセル数が、横軸に沿ってプロットされており、１−ｃｏｓ（θ）の値が、縦軸に沿ってプロットされている。具体的には、データ点は、１０００個の記号の平均であり、実線は、中央値に対応し、網掛けは、コサイン誤差の分散に対応する。上側のパネルは、Ｋ＝８００の場合であり、下側のパネルは、Ｋ＝１００の場合である。

図３５の下側のパネルにおいて見て取れるように、Ｋ＝１００の場合であっても、ピクセル数が総ピクセル数の約５０％よりも多くなると、正しい識別の可能性は、約８０％よりも大きくなる。Ｋ＝８００の場合には、ロバスト性が著しくより優れており、関心対象である第１画像内に２５６ピクセルのうちの４０ピクセル（１５．６％）しか存在しない状態でも、正しい識別の中央値は、１００％に達する。この結果は、画像認識を実行するために疑似画像を使用した場合の、特に、関心対象である第１画像がより高次元の空間に変換されている疑似画像を使用した場合の、意外な性能（意外なロバスト性）を示している。

実施例１１
この実施例は、拡張された既定の変換行列を作成するためのデノボアプローチとシーケンシャルアプローチとを比較する。この実施例は、第１画像として、図３６の１０００個の文字を使用し（Ｎ＝１０００）、これらの文字の各々は、二値ピクセルの１６×１６の配列（Ｍ＝２５６）であった。この実施例で使用されたＫの値は、１０００であり、これにより、３．９のＫ／Ｍの比率が与えられている。

Ｍ×Ｋ次元の既定の変換行列は、２つの手法で計算された。第一の手法として、図３６の全ての文字が、既定の変換行列を拡張するために、デノボアプローチを使用した場合に行われるであろうように一度に使用された。既定の変換行列を計算するために、アルゴリズム１が使用された。

第二の手法として、図３６の文字が、シーケンシャルアプローチの極端な例として順次に使用された。最初の文字のためにアルゴリズム１が使用され、その後、アルゴリズム３が繰り返し（９９９回）使用され、この際には、後続する計算のための既存の既定の変換行列として、最後の計算の既定の変換行列が使用された。

２つのアプローチに関して結果として得られた１０００個の辞書要素が、図３７および図３８に示されており、ここで、図３７は、デノボアプローチの場合であり、図３８は、シーケンシャルアプローチの場合である。目視で検査すると、２つのアプローチによって計算された既定の変換行列の辞書要素間に高レベルの類似性があることが分かる。

図３９は、図３７の辞書要素と図３８の辞書要素との間の類似性を定量化したものである。具体的には、この図面は、シーケンシャル学習から学習された辞書要素と、デノボ学習から学習された辞書要素との間におけるコサイン類似性をプロットしている。ヒートマップは、２つの学習方法間におけるペアワイズの類似性スコアを示す。高いスコア（濃い色）は、類似性のレベルが高いことを示す。斜めの濃い線は、要素同士がほぼ同一であることを示す。見て取れるように、２つの学習アプローチは、最初の約８５０個までの要素に対してほぼ同一の辞書要素の集合を生成した。最後の１５０個程度は、比較的異なっていた。このことは、最初の８５０個の要素が、重要な特徴の組み合わせを全て捕捉した可能性が高く、最後の１５０個程度は、精度を改善するのみであって、ロバスト性のためには必要なかったからであると考えられる。

図４０および図４１は、シーケンシャルアプローチを使用して取得された既定の変換行列のさらなる特徴を示す。図４０は、既定の変換行列の辞書要素の２５６個の成分間におけるペアワイズ相関のプロットである。実質的な斜めの線を外れた値の存在は、ロバストな画像認識にとって望ましい、辞書要素の個々の成分に実質的な情報内容があることを示す。図４１は、トレーニング集合（図３６）のためにシーケンシャルアプローチを使用して生成された疑似画像の成分間におけるペアワイズ相関のプロットである。実質的な斜めの線を外れた値の欠如は、ロバストな画像認識にとって望ましい、第１画像が疑似画像空間に変換された場合に実質的に一意の表現を有することを示す。

上で考察したように、本明細書に開示されている画像認識技術および関連するコンピュータシステムの主な用途の１つは、人間の顔認識である。この用途に関連して、一実施形態では、本明細書に開示されている顔認識技術を使用して、カメラまたはビデオレコーダのような画像捕捉装置から捕捉された画像と、関連情報を取得するための１つ以上のデータベースとを使用して、人物を識別することができる。例えば、セキュリティチェックポイントの環境では、チェックポイントを歩いて通過する人物を、顔の画像から直接的に識別することができる。これに代えて、本明細書に開示されている画像認識技術を使用して、身体画像から、または人物の歩行構造を捕捉した画像のシーケンスから、人物を識別することができる。さらなる代替案として、顔画像データ、身体画像データ、および歩行データのうちの２つ以上の組み合わせを使用して、人物を識別することができる。

これらの種類の実装形態では、個人識別情報を作成する必要なしに人物が識別される。このような実装形態により、他の形式の識別情報の必要性が減少する。刑事司法制度の場合には、顔画像、身体画像、および／または歩行画像を、既存の犯罪データベースとともに使用して、犯罪の加害者を識別することができるか、または既知の犯罪者が特定の時間に特定の場所に存在していたかどうかを判定することができる。消費者を識別する場合には、来店したリピーター顧客を、店員がこの顧客の購入履歴に基づいて製品を推薦することが可能となるように認識することができる。電子商取引の環境では、開示されている技術により、顔画像、身体画像、歩行画像、またはそれらの組み合わせを識別情報として使用することが可能となり、それにより、他の形式の識別情報の必要性を省略することができる。人物の識別情報が既知であれば、その人物のクレジットアカウントまたはデビットアカウントに直接的に請求可能であるので、現金、クレジットカード、またはデビットカードの必要性が省略される。

開示されている技術は、顔認識に加えて他の形式の画像化においても使用可能である。例えば、動物または他の生物（例えば、植物、細胞、器官、組織、またはウイルス）の画像を、顔の画像と同じ手法で処理して、疑似画像を生成し、次いで、この疑似画像を既知の疑似画像のライブラリ（データベース）と比較することができる。分析される画像は、ＭＲＩ、ｆＭＲＩ、Ｘ線、ＣＴ、および同様の装置のような医用画像化装置によって生成可能である。顕微鏡によって生成された画像、例えば、血液および組織サンプルの画像を、オリジナル画像として、ならびにシーケンスの形式（例えば、遺伝子シーケンス）またはトレースの形式（例えば、ＥＫＧおよびＥＥＧトレース）の画像として使用することもできる。関心対象である疑似画像と疑似画像ライブラリとの比較の結果を、例えば、疾患の診断の一部として、かつ／または医療処置において使用することができる。

本明細書に開示されている技術の他の用途は、人物の署名、網膜、指紋、または他の生物測定学的特徴を、生体認証の目的で別々にまたは組み合わせて使用することを含む。オブジェクトのアセンブリ（例えば、芸術家によって作成されたコラージュ）を、顔の画像と同じ手法で扱ってもよい。実際には、疑似画像を使用して、芸術家の作品を認証すること、または特定の製造業者によって製造されたとされるオブジェクト、例えばモダン家具またはアンティーク家具の真正性を確立することができる。

開示されている方法を、軍事状況に適用して、潜在的な脅威の高信頼性の認識を提供し、非常に変動しやすい条件下で友好的な施設と敵対的な施設とを区別することができる。例えば、本方法を適用して、霧、砂嵐、煙、薄明、または夜のような条件下で、カモフラージュされている状態の、または部分的に隠蔽されている状態の敵の戦車を識別することができる。

開示されている方法を、リモートセンシングにおいて使用してもよく、リモートセンシングは、例えば、人間の目には直接的には見えないパターンを検出するセンサを介して取得された画像を使用する。例えば、ソナーまたは赤外線スペクトル画像を使用して、例えば、鉱物、ガス、または石油の堆積物を認識することができる。

より一般には、開示された画像認識技術が、あらゆる形態のマシンビジョンにおいて使用可能であることは、当業者には明らかであろう。例えば、開示されている方法を、画像または画像シーケンスに適用して、自律型のロボット装置、車両、または船舶における車両、障害物、交通標識、および通行状態を識別して、中央の意思決定者（例えば、コンピュータ）に目下の状態を通知することができる。開示されている方法を、機械的、電気的、および電子的な製造における欠陥部品の識別のために使用してもよい。例えば、開示されている方法を使用して、無傷の電子回路に対する欠陥のある電子回路のための疑似画像を使用して、欠陥のある回路を正しく迅速に識別することができる。

本技術は、静止画像に対して使用可能であるのみならず、本技術を使用して、シーケンスで捕捉された複数の画像を１つの連結された画像と見なすことにより、画像シーケンス内の人物、動物、オブジェクト、またはパターンを認識することができる。すなわち、関心対象であるオブジェクトの複数の画像のシーケンスを、１つの新しい画像へと連結または変換することができ、その新しい画像を、開示されている方法を使用して変換および分析に供することができる。

疑似画像同士を組み合わせて新しい第１画像を構築することもでき、次いで、この新しい第１画像を、新しいより高レベルの疑似画像に変換することができる。この多層のアプローチは、例えば、本明細書に開示されている画像認識技術の人工知能用途において使用可能である。単なる一例として、品質管理の環境では、完成した機械の部品のための疑似画像を使用して、製造業者は、特定の完成した機械に全ての部品が含まれているかどうかの判断を、（ｉ）部品のための疑似画像同士を結合して１つの第１画像にし、（ｉｉ）この第１画像のための疑似画像を取得し、（ｉｉｉ）この疑似画像を、実際の完成した機械の疑似画像と比較して、全ての部品が存在するかどうかを判定することによって実施可能である。

学習を容易にし、人物およびオブジェクトを識別し、関連情報を検索するために、開示されている技術を検索エンジンと組み合わせて使用することができる。例えば、検索エンジンを使用して、疑似画像のライブラリを生成し、次いで、この疑似画像のライブラリを、画像捕捉装置によって捕捉された画像と比較することができる。検索エンジンは、クエリの対象である人物またはオブジェクトを識別することによってクエリに応答することができる。１つのシナリオでは、人物が、植物の画像を取得して、その画像を検索エンジンに送信し、次いで、この検索エンジンが、適切に識別された植物と関連情報とを返送する。別のシナリオでは、対象者がより詳細に知りたいと思う可能性のある人物の画像が検索エンジンに送信され、次いで、この検索エンジンが、所望の情報を返送する。例えば社会的な環境では、検索される情報は、単純に、当該人物との以前の邂逅が発生した時間および状況を思い出させるための簡単なリマインダであり得る。上記および他の用途では、コンピュータに関連付けられた画像捕捉装置（例えば、スマートフォンのカメラまたは眼鏡に組み込まれたカメラ）によって生成された画像を使用して、（検索エンジンのプロバイダまたは装置上に保存されている個人用データベースからの）既存のデータベースをリアルタイムで検索し、疑似画像の比較を通じて、所望の情報を検索することができる。

本開示の特徴
前述したことに基づいて、本発明は、上記の要約および概要に記載された本開示の６つの態様に加えて、限定するわけではないが以下の特徴を含む。６つの態様および以下の特徴、ならびにこれらの種々の段落および項目は、任意の全ての組み合わせで使用可能である。

特徴１：方法であって、当該方法は、
（ａ）コンピュータシステムにおいて画像を受信するステップと、
（ｂ）前記コンピュータシステムにより、既定の変換行列を使用して、前記画像のスパースかつ非負の変換を実行して疑似画像にするステップと、
（ｃ）前記コンピュータシステムにより、前記疑似画像を既知の画像の疑似画像のライブラリと比較するステップと、
（ｄ）前記コンピュータシステムにより、前記疑似画像と前記既知の画像の疑似画像のライブラリとの前記比較の結果を出力するステップと
を含み、
前記画像は、Ｍ個の成分を有し、前記疑似画像は、Ｋ個の成分を有し、Ｋは、Ｍ以上である、
方法。

特徴２：方法であって、当該方法は、
（ａ）コンピュータシステムにおいて画像を受信するステップと、
（ｂ）前記コンピュータシステムにより、既定の変換行列を使用して、前記画像のスパースかつ非負の変換を実行して疑似画像にするステップと、
（ｃ）前記コンピュータシステムにより、前記疑似画像を既知の画像の疑似画像のライブラリと比較するステップと、
（ｄ）前記コンピュータシステムにより、前記疑似画像と前記既知の画像の疑似画像のライブラリとの前記比較の結果を出力するステップと
を含み、
前記画像は、Ｍ個の成分を有し、前記Ｍ個の成分の各々は、２つの可能な値のうちの一方のみを有する、
方法。

特徴３：前記コンピュータシステムは、少なくとも１つのＬ₂ノルムを使用して、前記スパースかつ非負の変換を実行する、特徴１または２記載の方法。

特徴４：前記既定の変換行列は、前記コンピュータシステムにより、トレーニング画像の行列のスパースかつ非負の因数分解を実行するステップを含む方法によって取得された行列である、特徴１、２または３記載の方法。

特徴５：前記トレーニング画像の行列は、Ｍ×Ｎ行列であり、なお、Ｎは、Ｍ以上である、特徴４記載の方法。

特徴６：前記コンピュータシステムは、少なくとも１つのフロベニウスノルムを使用して、前記スパースかつ非負の因数分解を実行する、特徴４または５の方法。

特徴７：前記ステップ（ａ）の前記画像は、前処理された画像である、特徴１から６までのいずれか１つに記載の方法。

特徴８：前記コンピュータシステムは、ユークリッド距離およびコサイン距離のうちの少なくとも１つを使用して、前記ステップ（ｃ）の比較を実行する、特徴１から７までのいずれか１つに記載の方法。

特徴９：前記ステップ（ａ）の前記画像は、人間の顔を含む、特徴１、３、４、５、６、７、８または９記載の方法。

特徴１０：コンピュータ実装される画像認識を実行する方法であって、当該方法は、
（ａ）Ｍ個の成分を有する第１画像を１つ以上のコンピュータプロセッサに提供するステップと、
（ｂ）既定の変換行列を前記１つ以上のコンピュータプロセッサに提供するステップであって、
（ｉ）前記既定の変換行列は、Ｍ×Ｋ行列であり、なお、当該Ｍ×Ｋ行列では、Ｋ個の列が、Ｋ個の辞書要素の集合を構成し、
（ｉｉ）前記既定の変換行列は、Ｍ×Ｎ行列のスパースかつ非負の因数分解を実行するステップを含む方法によって構築され、なお、前記Ｍ×Ｎ行列では、Ｎ個の列が、Ｎ個のトレーニング画像の集合を構成し、それぞれのトレーニング画像は、Ｍ個の成分を有し、前記スパースかつ非負の因数分解は、少なくとも１つのフロベニウスノルムを使用する、
ステップと、
（ｃ）前記１つ以上のコンピュータプロセッサにより、前記第１画像のスパースかつ非負の変換を実行するための前記既定の変換行列を使用して、前記第１画像のための疑似画像を構築するステップであって、前記第１画像のための前記疑似画像は、Ｋ個の要素重みから成り、それぞれの要素重みは、前記Ｋ個の辞書要素のうちの１つに対応し、前記スパースかつ非負の変換は、少なくとも１つのＬ₂ノルムを使用する、ステップと、
（ｄ）前記１つ以上のコンピュータプロセッサにより、ユークリッド距離およびコサイン距離のうちの少なくとも１つを使用して、前記第１画像のための前記疑似画像を既知の画像の疑似画像のライブラリと比較するステップと、
（ｅ）前記１つ以上のコンピュータプロセッサにより、前記疑似画像と前記既知の画像の疑似画像のライブラリとの前記比較の結果を出力するステップと
を含み、
前記Ｍ×Ｎ行列は、ランクＲを有し、Ｋは、以下の関係性：
（ｉ）Ｋは、Ｍ以上である、および
（ｉｉ）Ｋは、Ｒ以上である、
のうちの一方または両方を満たす、
方法。

特徴１１：画像認識に使用するための既定の変換行列を準備する方法であって、当該方法は、
（ａ）Ｎ個のトレーニング画像の集合をコンピュータシステムに提供するステップであって、それぞれのトレーニング画像は、Ｍ個の成分を有する、ステップと、
（ｂ）前記コンピュータシステムにより、Ｍ×Ｎ行列のスパースかつ非負の因数分解を実行することによって既定の変換行列を生成するステップであって、前記Ｍ×Ｎ行列では、当該行列のＮ個の列の各々が、前記トレーニング画像のうちの１つを構成し、前記スパースかつ非負の因数分解は、少なくとも１つのフロベニウスノルムを使用する、ステップと、
（ｃ）前記既定の変換行列を非一時的なコンピュータ可読媒体に保存するステップと
を含み、
（ｉ）前記既定の変換行列は、Ｍ×Ｋ行列であり、
（ｉｉ）前記Ｍ×Ｎ行列は、ランクＲを有し、
（ｉｉｉ）Ｋは、以下の関係性：
（Ａ）Ｋは、Ｍ以上である、および
（Ｂ）Ｋは、Ｒ以上である、
のうちの一方または両方を満たす、
方法。

特徴１２：前記ステップ（ｂ）において、前記Ｎ個のトレーニング画像のための疑似画像の集合が生成され、
当該方法は、前記コンピュータシステムにより、前記疑似画像のうちの少なくとも一部を、疑似画像ライブラリの少なくとも一部として非一時的なコンピュータ可読媒体に保存するステップをさらに含む、特徴１１記載の方法。

特徴１３：当該方法は、前記既定の変換行列を商品として配布するステップをさらに含む、特徴１１記載の方法。

特徴１４：Ｋは、Ｍよりも大きい、特徴１、１０または１１（またはこれらの特徴を引用するいずれか１つの特徴）記載の方法。

特徴１５：以前の既定の変換行列から、画像認識に使用するための既定の変換行列を準備するための方法であって、当該方法は、
（ａ）以前の既定の変換行列Φ₀をコンピュータシステムに提供するステップであって、前記以前の既定の変換行列は、Ｎ個のトレーニング画像の集合を使用して取得されたものである、ステップと、
（ｂ）前記Ｎ個のトレーニング画像のための疑似画像の集合Ａ₀を前記コンピュータシステムに提供するステップと、
（ｃ）Ｎ’個のトレーニング画像の集合Ｙを前記コンピュータシステムに提供するステップであって、Ｎ’は、１以上であり、前記集合の少なくとも１つのメンバーは、前記Ｎ個のトレーニング画像の集合の一部ではないトレーニング画像である、ステップと、
（ｄ）前記コンピュータシステムにより、Ｙと行列積Φ₀Ａ₀との連結を使用して、既定の変換行列を生成するステップであって、前記行列積Φ₀Ａ₀は、前記Ｎ個のトレーニング画像の集合のための代理として機能する、ステップと、
（ｅ）前記ステップ（ｄ）の前記既定の変換行列を非一時的なコンピュータ可読媒体に保存するステップと
を含む、方法。

特徴１６：前記ステップ（ｄ）において、前記Ｎ’個のトレーニング画像のための疑似画像の集合が生成され、
当該方法は、前記コンピュータシステムにより、前記疑似画像のうちの少なくとも一部を、疑似画像ライブラリの少なくとも一部として非一時的なコンピュータ可読媒体に保存するステップをさらに含む、特徴１５記載の方法。

特徴１７：当該方法は、前記ステップ（ｄ）の前記既定の変換行列を商品として配布するステップをさらに含む、特徴１５の方法。

特徴１８：画像認識に使用するための疑似画像のライブラリを準備または拡張する方法であって、当該方法は、
（ａ）既知の画像の集合をコンピュータシステムに提供するステップと、
（ｂ）前記コンピュータシステムにより、既定の変換行列を使用して、前記既知の画像のスパースかつ非負の変換を実行して疑似画像にするステップと、
（ｃ）前記コンピュータシステムにより、前記疑似画像のうちの少なくとも一部を、疑似画像ライブラリの少なくとも一部として非一時的なコンピュータ可読媒体に保存するステップと
を含む、方法。

特徴１９：当該方法は、前記疑似画像ライブラリを商品として配布するステップをさらに含む、特徴１２、１６または１８記載の方法。

特徴２０：特徴１１または１５記載の方法によって準備された既定の変換行列が内部に保存されている、非一時的なコンピュータ可読媒体。

特徴２１：少なくとも部分的に特徴１２、１６または１８記載の方法によって準備された疑似画像ライブラリが内部に保存されている、非一時的なコンピュータ可読媒体。

特徴２２：未知の画像のための疑似画像と比較するための既知の画像の疑似画像のライブラリを含む、非一時的なコンピュータ可読媒体であって、
前記既知の画像の疑似画像は、既定の変換行列を使用して、前記既知の画像のスパースかつ非負の変換を実行して疑似画像にするステップを含む方法によって取得される、
非一時的なコンピュータ可読媒体。

特徴２３：非一時的なコンピュータ可読媒体であって、
（ａ）画像を疑似画像に変換するステップと、
（ｂ）前記疑似画像を既知の画像の疑似画像のライブラリと比較するステップと、
（ｃ）前記疑似画像と前記既知の画像の疑似画像のライブラリとの前記比較の結果を出力するステップと
を実行するための、コンピュータプロセッサによって実行可能な命令が保存されており、
前記ステップ（ａ）の前記変換は、既定の変換行列を使用したスパースかつ非負の変換である、
非一時的なコンピュータ可読媒体。

特徴２４：特徴２３記載の非一時的なコンピュータ可読媒体と、前記非一時的なコンピュータ可読媒体に保存されている命令を実行するためのコンピュータプロセッサとを有する、コンピュータシステム。

特徴２５：システムであって、当該システムは、
コンピュータプロセッサと、
少なくとも１つのコンピュータメモリ（例えば、ＲＡＭ）と、
少なくとも１つのコンピュータストレージデバイス（例えば、ハードドライブ、フラッシュドライブ、および／またはクラウド）と、
画像を受信して、前記画像を前記少なくとも１つのコンピュータメモリに保存するコンピュータインターフェースと、
受信した前記画像のための疑似画像を生成して、前記疑似画像を前記少なくとも１つのコンピュータストレージデバイスに保存するための、前記コンピュータプロセッサによって実行可能なコンピュータプログラムと
を含み、
前記コンピュータプログラムは、既定の変換行列を使用して、前記画像のスパースかつ非負の変換を実行するステップを含む方法によって、前記疑似画像を生成することが可能である、
システム。

特徴２６：前記コンピュータプログラムは、前記疑似画像を疑似画像のライブラリと比較し、前記比較の結果を出力することが可能である、特徴２５記載のシステム。

特徴２７：前記コンピュータプログラムは、前記疑似画像を前記疑似画像のライブラリに含めることが可能である、特徴２５または２６記載のシステム。

特徴２８：当該システムは、前記コンピュータインターフェースに画像を提供することができる画像捕捉装置をさらに含む、特徴２５、２６または２７記載のシステム。

本発明の範囲および精神から逸脱しない種々の修正は、前述した開示から当業者には明らかであろう。以下の特許請求の範囲は、本明細書に記載された特定の実施形態、ならびにそれらの実施形態の修正形態、変形形態、および等価形態を網羅することを意図している。

参考文献

Claims

方法であって、当該方法は、
（ａ）コンピュータシステムにおいて画像を受信するステップと、
（ｂ）前記コンピュータシステムにより、既定の変換行列を使用して、前記画像のスパースかつ非負の変換を実行して疑似画像にするステップと、
（ｃ）前記コンピュータシステムにより、前記疑似画像を既知の画像の疑似画像のライブラリと比較するステップと、
（ｄ）前記コンピュータシステムにより、前記疑似画像と前記既知の画像の疑似画像のライブラリとの前記比較の結果を出力するステップと
を含み、
前記画像は、Ｍ個の成分を有し、前記疑似画像は、Ｋ個の成分を有し、Ｋは、Ｍ以上である、
方法。
方法であって、当該方法は、
（ａ）コンピュータシステムにおいて画像を受信するステップと、
（ｂ）前記コンピュータシステムにより、既定の変換行列を使用して、前記画像のスパースかつ非負の変換を実行して疑似画像にするステップと、
（ｃ）前記コンピュータシステムにより、前記疑似画像を既知の画像の疑似画像のライブラリと比較するステップと、
（ｄ）前記コンピュータシステムにより、前記疑似画像と前記既知の画像の疑似画像のライブラリとの前記比較の結果を出力するステップと
を含み、
前記画像は、Ｍ個の成分を有し、前記Ｍ個の成分の各々は、２つの可能な値のうちの一方のみを有する、
方法。
前記コンピュータシステムは、少なくとも１つのＬ₂ノルムを使用して、前記スパースかつ非負の変換を実行する、請求項１または２記載の方法。
前記既定の変換行列は、前記コンピュータシステムにより、トレーニング画像の行列のスパースかつ非負の因数分解を実行するステップを含む方法によって取得された行列である、請求項１または２記載の方法。
前記トレーニング画像の行列は、Ｍ×Ｎ行列であり、なお、Ｎは、Ｍ以上である、請求項４記載の方法。
前記コンピュータシステムは、少なくとも１つのフロベニウスノルムを使用して、前記スパースかつ非負の因数分解を実行する、請求項４記載の方法。
前記ステップ（ａ）の前記画像は、前処理された画像である、請求項１または２記載の方法。
前記コンピュータシステムは、ユークリッド距離およびコサイン距離のうちの少なくとも１つを使用して、前記ステップ（ｃ）の比較を実行する、請求項１または２記載の方法。
前記ステップ（ａ）の前記画像は、人間の顔を含む、請求項１記載の方法。
コンピュータ実装される画像認識を実行する方法であって、当該方法は、
（ａ）Ｍ個の成分を有する第１画像を１つ以上のコンピュータプロセッサに提供するステップと、
（ｂ）既定の変換行列を前記１つ以上のコンピュータプロセッサに提供するステップであって、
（ｉ）前記既定の変換行列は、Ｍ×Ｋ行列であり、なお、当該Ｍ×Ｋ行列では、Ｋ個の列が、Ｋ個の辞書要素の集合を構成し、
（ｉｉ）前記既定の変換行列は、Ｍ×Ｎ行列のスパースかつ非負の因数分解を実行するステップを含む方法によって構築され、なお、前記Ｍ×Ｎ行列では、Ｎ個の列が、Ｎ個のトレーニング画像の集合を構成し、それぞれのトレーニング画像は、Ｍ個の成分を有し、前記スパースかつ非負の因数分解は、少なくとも１つのフロベニウスノルムを使用する、
ステップと、
（ｃ）前記１つ以上のコンピュータプロセッサにより、前記第１画像のスパースかつ非負の変換を実行するための前記既定の変換行列を使用して、前記第１画像のための疑似画像を構築するステップであって、前記第１画像のための前記疑似画像は、Ｋ個の要素重みから成り、それぞれの要素重みは、前記Ｋ個の辞書要素のうちの１つに対応し、前記スパースかつ非負の変換は、少なくとも１つのＬ₂ノルムを使用する、ステップと、
（ｄ）前記１つ以上のコンピュータプロセッサにより、ユークリッド距離およびコサイン距離のうちの少なくとも１つを使用して、前記第１画像のための前記疑似画像を既知の画像の疑似画像のライブラリと比較するステップと、
（ｅ）前記１つ以上のコンピュータプロセッサにより、前記疑似画像と前記既知の画像の疑似画像のライブラリとの前記比較の結果を出力するステップと
を含み、
前記Ｍ×Ｎ行列は、ランクＲを有し、Ｋは、以下の関係性：
（ｉ）Ｋは、Ｍ以上である、および
（ｉｉ）Ｋは、Ｒ以上である、
のうちの一方または両方を満たす、
方法。
画像認識に使用するための既定の変換行列を準備する方法であって、当該方法は、
（ａ）Ｎ個のトレーニング画像の集合をコンピュータシステムに提供するステップであって、それぞれのトレーニング画像は、Ｍ個の成分を有する、ステップと、
（ｂ）前記コンピュータシステムにより、Ｍ×Ｎ行列のスパースかつ非負の因数分解を実行することによって既定の変換行列を生成するステップであって、前記Ｍ×Ｎ行列では、当該行列のＮ個の列の各々が、前記トレーニング画像のうちの１つを構成し、前記スパースかつ非負の因数分解は、少なくとも１つのフロベニウスノルムを使用する、ステップと、
（ｃ）前記既定の変換行列を非一時的なコンピュータ可読媒体に保存するステップと
を含み、
（ｉ）前記既定の変換行列は、Ｍ×Ｋ行列であり、
（ｉｉ）前記Ｍ×Ｎ行列は、ランクＲを有し、
（ｉｉｉ）Ｋは、以下の関係性：
（Ａ）Ｋは、Ｍ以上である、および
（Ｂ）Ｋは、Ｒ以上である、
のうちの一方または両方を満たす、
方法。
前記ステップ（ｂ）において、前記Ｎ個のトレーニング画像のための疑似画像の集合が生成され、
当該方法は、前記コンピュータシステムにより、前記疑似画像のうちの少なくとも一部を、疑似画像ライブラリの少なくとも一部として非一時的なコンピュータ可読媒体に保存するステップをさらに含む、請求項１１記載の方法。
当該方法は、前記既定の変換行列を商品として配布するステップをさらに含む、請求項１１記載の方法。
Ｋは、Ｍよりも大きい、請求項１、１０または１１記載の方法。
以前の既定の変換行列から、画像認識に使用するための既定の変換行列を準備するための方法であって、当該方法は、
（ａ）以前の既定の変換行列Φ₀をコンピュータシステムに提供するステップであって、前記以前の既定の変換行列は、Ｎ個のトレーニング画像の集合を使用して取得されたものである、ステップと、
（ｂ）前記Ｎ個のトレーニング画像のための疑似画像の集合Ａ₀を前記コンピュータシステムに提供するステップと、
（ｃ）Ｎ’個のトレーニング画像の集合Ｙを前記コンピュータシステムに提供するステップであって、Ｎ’は、１以上であり、前記集合の少なくとも１つのメンバーは、前記Ｎ個のトレーニング画像の集合の一部ではないトレーニング画像である、ステップと、
（ｄ）前記コンピュータシステムにより、Ｙと行列積Φ₀Ａ₀との連結を使用して、既定の変換行列を生成するステップであって、前記行列積Φ₀Ａ₀は、前記Ｎ個のトレーニング画像の集合のための代理として機能する、ステップと、
（ｅ）前記ステップ（ｄ）の前記既定の変換行列を非一時的なコンピュータ可読媒体に保存するステップと
を含む、方法。
前記ステップ（ｄ）において、前記Ｎ’個のトレーニング画像のための疑似画像の集合が生成され、
当該方法は、前記コンピュータシステムにより、前記疑似画像のうちの少なくとも一部を、疑似画像ライブラリの少なくとも一部として非一時的なコンピュータ可読媒体に保存するステップをさらに含む、請求項１５記載の方法。
当該方法は、前記ステップ（ｄ）の前記既定の変換行列を商品として配布するステップをさらに含む、請求項１５記載の方法。
画像認識に使用するための疑似画像のライブラリを準備または拡張する方法であって、当該方法は、
（ａ）既知の画像の集合をコンピュータシステムに提供するステップと、
（ｂ）前記コンピュータシステムにより、既定の変換行列を使用して、前記既知の画像のスパースかつ非負の変換を実行して疑似画像にするステップと、
（ｃ）前記コンピュータシステムにより、前記疑似画像のうちの少なくとも一部を、疑似画像ライブラリの少なくとも一部として非一時的なコンピュータ可読媒体に保存するステップと
を含む、方法。
当該方法は、前記疑似画像ライブラリを商品として配布するステップをさらに含む、請求項１２、１６または１８記載の方法。
請求項１１または１５記載の方法によって準備された既定の変換行列が内部に保存されている、非一時的なコンピュータ可読媒体。
少なくとも部分的に請求項１２、１６または１８記載の方法によって準備された疑似画像ライブラリが内部に保存されている、非一時的なコンピュータ可読媒体。
未知の画像のための疑似画像と比較するための既知の画像の疑似画像のライブラリを含む、非一時的なコンピュータ可読媒体であって、
前記既知の画像の疑似画像は、既定の変換行列を使用して、前記既知の画像のスパースかつ非負の変換を実行して疑似画像にするステップを含む方法によって取得される、
非一時的なコンピュータ可読媒体。
非一時的なコンピュータ可読媒体であって、
（ａ）画像を疑似画像に変換するステップと、
（ｂ）前記疑似画像を既知の画像の疑似画像のライブラリと比較するステップと、
（ｃ）前記疑似画像と前記既知の画像の疑似画像のライブラリとの前記比較の結果を出力するステップと
を実行するための、コンピュータプロセッサによって実行可能な命令が保存されており、
前記ステップ（ａ）の前記変換は、既定の変換行列を使用したスパースかつ非負の変換である、
非一時的なコンピュータ可読媒体。
請求項２３記載の非一時的なコンピュータ可読媒体と、前記非一時的なコンピュータ可読媒体に保存されている命令を実行するためのコンピュータプロセッサとを有する、コンピュータシステム。
システムであって、当該システムは、
コンピュータプロセッサと、
少なくとも１つのコンピュータメモリと、
少なくとも１つのコンピュータストレージデバイスと、
画像を受信して、前記画像を前記少なくとも１つのコンピュータメモリに保存するコンピュータインターフェースと、
受信した前記画像のための疑似画像を生成して、前記疑似画像を前記少なくとも１つのコンピュータストレージデバイスに保存するための、前記コンピュータプロセッサによって実行可能なコンピュータプログラムと
を含み、
前記コンピュータプログラムは、既定の変換行列を使用して、前記画像のスパースかつ非負の変換を実行するステップを含む方法によって、前記疑似画像を生成することが可能である、
システム。
前記コンピュータプログラムは、前記疑似画像を疑似画像のライブラリと比較し、前記比較の結果を出力することが可能である、請求項２５記載のシステム。
前記コンピュータプログラムは、前記疑似画像を前記疑似画像のライブラリに含めることが可能である、請求項２５または２６記載のシステム。
当該システムは、前記コンピュータインターフェースに画像を提供することができる画像捕捉装置をさらに含む、請求項２５記載のシステム。