JP2021528728A - 疑似画像を使用した顔画像認識 - Google Patents

疑似画像を使用した顔画像認識 Download PDF

Info

Publication number
JP2021528728A
JP2021528728A JP2020567494A JP2020567494A JP2021528728A JP 2021528728 A JP2021528728 A JP 2021528728A JP 2020567494 A JP2020567494 A JP 2020567494A JP 2020567494 A JP2020567494 A JP 2020567494A JP 2021528728 A JP2021528728 A JP 2021528728A
Authority
JP
Japan
Prior art keywords
image
pseudo
images
matrix
computer
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2020567494A
Other languages
English (en)
Other versions
JP7357010B2 (ja
Inventor
ロン ユィ,ツォンロン
ラジ,リシャブ
ウィルバー ダーレン,ダール
Original Assignee
ストワーズ インスティテュート フォー メディカル リサーチ
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ストワーズ インスティテュート フォー メディカル リサーチ filed Critical ストワーズ インスティテュート フォー メディカル リサーチ
Publication of JP2021528728A publication Critical patent/JP2021528728A/ja
Application granted granted Critical
Publication of JP7357010B2 publication Critical patent/JP7357010B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/172Classification, e.g. identification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/7715Feature extraction, e.g. by transforming the feature space, e.g. multi-dimensional scaling [MDS]; Mappings, e.g. subspace methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/16Matrix or vector computation, e.g. matrix-matrix or matrix-vector multiplication, matrix factorization
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/213Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
    • G06F18/2134Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods based on separation criteria, e.g. independent component analysis
    • G06F18/21345Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods based on separation criteria, e.g. independent component analysis enforcing sparsity or involving a domain transformation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/30Noise filtering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/60Extraction of image or video features relating to illumination properties, e.g. using a reflectance or lighting model
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/168Feature extraction; Face representation
    • G06V40/169Holistic features and representations, i.e. based on the facial image taken as a whole
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30196Human being; Person
    • G06T2207/30201Face

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • General Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • Human Computer Interaction (AREA)
  • Software Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Medical Informatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Pure & Applied Mathematics (AREA)
  • Mathematical Optimization (AREA)
  • Mathematical Analysis (AREA)
  • Computational Mathematics (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Biology (AREA)
  • Algebra (AREA)
  • Image Analysis (AREA)

Abstract

本開示は、画像認識を実行するための、例えば顔画像認識を実行するための「疑似画像」の使用に関する。一実施形態では、疑似画像は、現実世界の画像から開始して、オプションの前処理の後、画像を疑似画像に変換する非線形変換にこの画像を供することによって取得される。現実世界のオブジェクト(またはより一般には、現実世界のパターン)は、出発画像内では知覚できる場合があるが、疑似画像内では知覚することができない。画像認識は、疑似画像を既知の疑似画像のライブラリと比較することによって行われる。すなわち、画像認識は、現実世界空間に戻ることなく疑似画像空間において行われる。このようにして、ノイズ、不十分な照明、不均一なライティング、および/または遮蔽、例えば顔画像の場合には眼鏡もしくはスカーフなどによって劣化している現実世界の画像のような、不完全な現実世界の画像の場合であっても、ロバストな画像認識が実現される。

Description

関連出願
本出願は、米国特許法第119条のもと、2018年7月2日に出願された米国仮特許出願第62/693,136号明細書の利益を主張し、その内容全体を参照により本明細書に援用するものとする。
政府の資金提供
本発明は、国立衛生研究所によって授与された助成金番号R01DC014701のもとで政府の支援を受けてなされた。政府は、本発明における一定の権利を有する。
本開示は、画像認識を実行するためのコンピュータシステムおよびコンピュータ実装方法に関する。特に重要な実施形態では、本システムおよび本方法は、顔認識を通じて画像内の人間の対象者を識別するために使用される。より一般には、本開示は、複数のピクセルから構成される画像、またはより一般には、複数の成分から構成される画像を処理して、分類、識別、または他の目的のために使用することができる画像内に埋め込まれたオブジェクト、パターン、または特徴を発見するための、コンピュータ実装方法およびコンピュータシステムを提供する。
コンピュータデバイスによる顔認識は、国家安全保障または刑事司法制度のような歴史的に重要な分野だけでなく、近年では、商業的な環境およびソーシャルメディアの相互作用においても広範囲な用途を有する。その結果、顔認識は、この問題を専門に取り扱う種々の科学雑誌(例えば、非特許文献1ならびにIEEE刊行物である非特許文献2および非特許文献3)と、進捗状況を報告するために定期的に開催される国際会議(例えば、国際パターン認識連盟の年次会議、コンピュータビジョンおよびパターン認識に関するIEEEコンピュータソサエティ会議、自動的な顔認識およびジェスチャ認識に関するIEEE国際会議)とによる集中的な研究の対象であったし、引き続き、集中的な研究の対象でありつづけている。
顔認識の成功は、実験室環境においては実現されてきた。しかしながら、監視カメラ、インターネット、またはモバイル機器のような不完全なソースから画像が収集されることの多い実際の用途では、依然として課題が残されている。このような現実世界の条件下で取得された顔画像は、ノイズ、不十分な照明、不均一なライティング、および/または遮蔽によって劣化していることが多く、これにより、画像内に顔を見せている人物を認識することが困難になっている。表情、姿勢、カメラアングルの変化は、さらなる問題をもたらすことが多い。したがって、顔認識の中心的な課題は、種々の条件下で、かつ劣化した画像を使用して、同じ顔のロバストかつ不変の認識を実現することである。このような画像は、本明細書では「不完全な画像」と称される。
コンピュータ化された顔認識は、通常、何らかの形式で顔を表示するシステムを使用して実行され、これに続いて、マッチングプロセスが実行される。認識の成功を実現するいくつかのシステムは、学習ベースのアプローチを使用して、または手動でキュレーションされた特徴を使用して、画像から特徴を抽出することを伴う。次いで、画像の表示がマッチングに供され、このマッチングは、顔を分類および/または識別するための統計的アプローチを伴うことが多い。手動でキュレーションされた特徴は、ロバスト性を提供することできるが、考えられる全ての特徴を列挙することには莫大な手間がかかる。深層学習アプローチにより、システムは、教師ありまたは教師なしアルゴリズムを使用した特徴抽出を実行することができる。しかしながら、深層学習アプローチは、通常、多数の起こり得る条件を網羅した大きいトレーニング集合を必要とする。トレーニング集合内に含まれていない条件が存在する場合には、システムは、実際には実行に失敗する可能性が高い。
International Journal of Computer Vision IEEE Transactions on Image Processing IEEE Transactions on Pattern Analysis and Machine Intelligence
本開示は、顔画像認識における上記の問題を対象とする。より一般には、本開示は、複数の成分(例えば、ピクセル)から構成される画像を処理して、画像内に埋め込まれたオブジェクト、パターン、または特徴を発見するためのロバストな方法を提供することを対象とする。
第1の態様によれば、本開示は、コンピュータ実装される画像認識を実行する方法であって、当該方法は、
(a)M個の成分を有する第1画像を提供するステップと、
(b)既定の変換行列を提供するステップであって、
(i)既定の変換行列は、M×K行列であり、なお、当該M×K行列では、K個の列が、K個の辞書要素の集合を構成し、
(ii)既定の変換行列は、M×N行列のスパースかつ非負の因数分解を実行するステップを含む方法によって構築され、なお、M×N行列では、N個の列が、N個のトレーニング画像の集合を構成し、それぞれのトレーニング画像は、M個の成分を有する、
ステップと、
(c)第1画像のスパースかつ非負の変換を実行するための既定の変換行列を使用して、第1画像のための疑似画像を構築するステップであって、第1画像のための疑似画像は、K個の要素重みから成り、それぞれの要素重みは、K個の辞書要素のうちの1つに対応する、ステップと
を含み、
M×N行列は、ランクRを有し、Kは、以下の関係性:
(i)Kは、M以上である、および
(ii)Kは、R以上である、
のうちの一方または両方を満たす、
方法を提供する。
知られているように、行列の行ランクとは、行列内で線形に独立している行の数であり、列ランクとは、線形に独立している列の数である。行ランクは、列ランクと常に等しくなるので、線形に独立している行または列の数が、行列の「ランク」を構成する。或る行列のランクが、同じ次元の行列に対する最大可能ランクに等しい場合、すなわち、或る行列のランクが、行数および列数のうちの小さい方である場合には、この行列は、「フルランク行列」である。
M×N行列は、フルランク行列であることが多く、通常は、N>Mも有する。これらの条件下では、RはMに等しいので、上記の第2の関係性は、第1の関係性と同じになり、すなわちK≧Mになる。したがって、上記の関係性は、多くの場合、正方行列(K=M)、またはより典型的には行よりも列のほうが多い長方行列(K>M)である既定の変換行列と等価である。
本開示の第1の態様の特定の実施形態では、本方法は、
(d)既知の画像のS個の疑似画像の集合を提供するステップであって、S個の疑似画像の各々は、K個の要素重みから成り、それぞれの要素重みは、K個の辞書要素のうちの1つに対応する、ステップと、
(e)ステップ(c)の疑似画像を、ステップ(d)のS個の疑似画像の集合と比較して、例えば、第1画像が、
(i)既知の画像の1つ以上のクラスまたはカテゴリにある、
(ii)特定の既知の画像である、
(iii)既知の画像の1つ以上のクラスまたはカテゴリにない、
(iv)既知の画像ではない
のうちの1つ以上である可能性を決定するステップと
をさらに含む。
本開示の第1の態様の他の実施形態では、本方法は、ステップ(e)の比較の結果を報告するさらなるステップを含むか、またはさもなければ、開示されている方法のマシンビジョン用途において、上記の結果を使用して、例えば上記の比較の結果を使用して、ロボットの動作を制御するさらなるステップを含む。
第2の態様によれば、本開示は、コンピュータ実装される画像認識を実行する方法であって、当該方法は、
(a)M個の成分を有する第1画像を提供するステップと、
(b)既定の変換行列を提供するステップであって、
(i)既定の変換行列は、M×K行列であり、なお、当該M×K行列では、K個の列が、K個の辞書要素の集合を構成し、
(ii)既定の変換行列は、M×N行列のスパースかつ非負の因数分解を実行するステップを含む方法によって構築され、なお、M×N行列では、N個の列が、N個のトレーニング画像の集合を構成し、それぞれのトレーニング画像は、M個の成分を有する、
ステップと、
(c)第1画像のスパースかつ非負の変換を実行するための既定の変換行列を使用して、第1画像のための疑似画像を構築するステップであって、第1画像のための疑似画像は、K個の要素重みから成り、それぞれの要素重みは、K個の辞書要素のうちの1つに対応する、ステップと、
(d)既知の画像のS個の疑似画像の集合を提供するステップであって、S個の疑似画像の各々は、K個の要素重みから成り、それぞれの要素重みは、K個の辞書要素のうちの1つに対応する、ステップと、
(e)ステップ(c)の疑似画像を、ステップ(d)のS個の疑似画像の集合と比較して、例えば、第1画像が、
(i)既知の画像の1つ以上のクラスまたはカテゴリにある、
(ii)特定の既知の画像である、
(iii)既知の画像の1つ以上のクラスまたはカテゴリにない、
(iv)既知の画像ではない
のうちの1つ以上である可能性を決定するステップと
を含む、方法を提供する。
本開示の第2の態様の特定の実施形態では、本方法は、ステップ(e)の比較の結果を報告するさらなるステップを含むか、またはさもなければ、開示されている方法のマシンビジョン用途において、上記の結果を使用して、例えば上記の比較の結果を使用して、ロボットの動作を制御するさらなるステップを含む。
第3の態様によれば、本開示は、コンピュータ実装される画像認識を実行する方法であって、当該方法は、
(a)2つの可能な値のうちの一方のみをそれぞれ有するM個の成分を有する第1画像を提供するステップと、
(b)既定の変換行列を提供するステップであって、
(i)既定の変換行列は、M×K行列であり、なお、当該M×K行列では、K個の列が、K個の辞書要素の集合を構成し、
(ii)既定の変換行列は、M×N行列のスパースかつ非負の因数分解を実行するステップを含む方法によって構築され、なお、M×N行列では、N個の列が、N個のトレーニング画像の集合を構成し、それぞれのトレーニング画像は、2つの可能な値のうちの一方のみをそれぞれ有するM個の成分を有する、
ステップと、
(c)第1画像のスパースかつ非負の変換を実行するための既定の変換行列を使用して、第1画像のための疑似画像を構築するステップであって、第1画像のための疑似画像は、K個の要素重みから成り、それぞれの要素重みは、K個の辞書要素のうちの1つに対応する、ステップと
を含む、方法を提供する。
本開示の第3の態様の特定の実施形態では、本方法は、
(d)既知の画像のS個の疑似画像の集合を提供するステップであって、疑似画像の成分は、2つの可能な値のうちの一方のみを有し、S個の疑似画像の各々は、K個の要素重みから成り、それぞれの要素重みは、K個の辞書要素のうちの1つに対応する、ステップと、
(e)ステップ(c)の疑似画像を、ステップ(d)のS個の疑似画像の集合と比較して、例えば、第1画像が、
(i)既知の画像の1つ以上のクラスまたはカテゴリにある、
(ii)特定の既知の画像である、
(iii)既知の画像の1つ以上のクラスまたはカテゴリにない、
(iv)既知の画像ではない
のうちの1つ以上である可能性を決定するステップと
をさらに含む。
本開示の第3の態様の他の実施形態では、本方法は、ステップ(e)の比較の結果を報告するさらなるステップを含むか、またはさもなければ、開示されている方法のマシンビジョン用途において、上記の結果を使用して、例えば上記の比較の結果を使用して、ロボットの動作を制御するさらなるステップを含む。
本開示の第1の態様、第2の態様、および第3の態様のステップ(a)に関して、第1画像は、例えばデジタル画像化装置、例えばスタンドアロン型のデジタルカメラ、または別の装置内に、例えば携帯電話内に具現化されたデジタルカメラから取得された画像であり得る。このような画像は、以下で定義される「オリジナル画像」の例である。特定の実施形態では、第1画像は、1つ以上のレベルの前処理に供されたオリジナル画像であり得る。提示を容易にするために、ステップ(a)の第1画像は、以下では「関心対象である第1画像」または「ステップ(a)の第1画像」と称され、これにより、ステップ(a)の第1画像と、プロセス全体の他の部分において使用される他の第1画像、例えば、トレーニング画像として使用される第1画像や、疑似画像ライブラリを準備する際に使用される第1画像とを区別している。
本開示の第1の態様、第2の態様、および第3の態様のステップ(b)に関して、このステップにおいて使用される既定の変換行列は、開示された画像認識プロセスの「エンジン」であると考えることができる。一実施形態では、既定の変換行列を取得する際に使用されるスパースかつ非負の因数分解は、少なくとも1つのフロベニウスノルムを使用する。(本明細書で使用されているように、行列のフロベニウスノルムは、行列の成分の2乗の合計の平方根である。)重要なことに、既定の変換行列を取得する際に使用されるトレーニング画像の行列(本明細書では「画像のトレーニング集合」または単に「トレーニング集合」と称される)は、必ずしも関心対象である第1画像を含んでいる必要はなく、典型的には、関心対象である第1画像を含まない。すなわち、開示されている方法は、本方法のトレーニング集合の一部ではなかった画像に対して画像認識を実行することが可能である。このことは、本プロセスの重要な利点である。なぜなら、とりわけ、これにより、1つ以上のノイズ、破損、または遮蔽を被った画像を含む、トレーニング集合の一部ではなかった不完全な画像に対して、画像認識を実行することが可能となるからである。一実施形態では、既定の変換行列は、一旦構築されると、後々に使用するために非一時的なコンピュータ可読媒体に保存される。
提示を容易にするために、ステップ(c)の疑似画像は、以下では「関心対象である疑似画像」または「ステップ(c)の疑似画像」と称され、これにより、ステップ(c)の疑似画像と、プロセス全体の他の部分において使用される他の疑似画像、例えば、既定の変換行列の生成中に生成される疑似画像や、疑似画像ライブラリを準備する際に使用される疑似画像とを区別している。一実施形態では、ステップ(c)の疑似画像は、一旦構築されると、後々に分析および/または使用するために非一時的なコンピュータ可読媒体に保存される。一実施形態では、疑似画像(既定の変換行列の生成中に生成される疑似画像を除く)を構築する際に使用されるスパースかつ非負の変換は、少なくとも1つのL2ノルムを使用する。(本明細書で使用されているように、ベクトルのL2ノルムは、ベクトルの成分の2乗の合計の平方根である。)
本開示の第1の態様および第3の態様のオプションのステップ(d)および(e)と、本開示の第2の態様の必須のステップ(d)および(e)とに関して、一実施形態では、これらのステップにおいて使用される既知の画像の疑似画像の集合(「疑似画像のライブラリ」または単に「ライブラリ」)は、ステップ(c)で使用されるものと同じ既定の変換行列を使用して取得される。重要なことに、ステップ(e)では、比較は、第1画像間ではなく疑似画像間で行われる。第1画像の比較とは対照的に、この疑似画像の比較は、開示されたプロセスを提供する際において、画像認識を実行するための従来の技術と比較して改善されたロバスト性を有する鍵となる要素である。
ステップ(e)の比較が完了すると、比較の結果を、ユーザに直接報告することができるか、または以後の使用、報告、または分析のために保存することができる。ステップ(e)の比較が分類のために使用される場合には、報告は、関心対象である第1画像(したがって、オリジナル画像、以下を参照)のための単一のカテゴリおよび/または単一のクラスを識別すること、のような簡単なものでよい。例えば、顔認識の場合には、分類は、関心対象である第1画像を男性の顔または女性の顔として分類すること、のような基本的なものでよい。報告は、典型的にはより詳細になり、例えば、典型的には、関心対象である複数のカテゴリおよび/または複数のクラスに関する情報を提供する。オプションで、報告は、比較が実行された1つ、2つ以上、または全てのカテゴリまたはクラスのための分類の信頼性レベルの表示を含むことができる。
ステップ(e)の比較が識別のために使用される場合には、報告は、「一致」が発見されたことをユーザに通知すること、のような簡単なものでよい。典型的に、通知には、少なくとも既知の画像の名前が添付される。通常、名前に加えて、報告は、既知の画像および既知の画像のコピーに関する他の関連データを含む。オプションで、報告は、識別の信頼性レベルの表示を含むことができ、例えば、報告は、類似性スコアまたは比較スコアを含むことができる。一実施形態では、信頼性の表示は、最高の信頼性レベルを有する既知の画像よりも信頼性レベルが低い(関心対象である第1画像に対応する可能性がより低い)1つ以上の既知の画像のコピーを含むことができる。
上で述べたように、本明細書に開示されている画像認識方法の重要な特徴は、本方法が、一旦疑似画像空間に入ると疑似画像空間に留まり、例えばステップ(e)の比較を実行するために、第1画像空間には戻らないことである。このようにして、本方法のロバスト性、例えば不完全な画像を処理する能力が顕著に改善される。ロバスト性が、Kの値に依存することも判明しており、Kの値が大きくなるほどロバスト性が高くなるが、計算時間も長くなり、かつ/またはストレージ要件も高くなる。
特に、以下でより詳細に考察するように、ロバスト性が、K対MおよびK対Rの比率とともに増加することが判明した。(上で述べたように、多くの場合、RはMに等しくなる。)定量的に、特定の実施形態では、K/MおよびK/Rの比率のうちの一方または両方は、1.0以上、または2.0以上、または3.0以上、または4.0以上、または5.0以上である。
上で述べたように、M×N行列は、フルランク行列であることが多く、通常は、N>Mも有する。これらの条件下では、RはMに等しいので、ロバストな画像認識のためのK≧R基準は、K≧Mになり、すなわち、N>Mを有するフルランクのM×N行列の場合には、K空間における疑似画像の次元は、M空間における第1画像の次元以上である必要がある。これらの状況下では、既定の変換行列を使用した第1画像から疑似画像への変換は、M個の成分からK個の成分への第1画像の「拡大」または「伸長」であると考えることができる。すなわち、既定の変換行列は、所与の数の成分(M個の成分)を有する画像を取得し、この画像を、より多くの成分(K個の要素重み)を有する画像に変換(拡大または伸長)する。先験的に、このことが画像認識の実行に役立つとは思われないであろう。本開示によれば、正反対のこと、すなわち、この変換が画像認識を実行するために極めて効果的であり、拡大が十分に大きければ、不完全な画像に対して画像認識を実行する際に高レベルのロバスト性がもたらされるということが判明した。
表面的には、本明細書に開示されている画像認識技術のM→K伸長戦略は、画像処理によってデータ拡大ではなくデータ圧縮が実現されるべきであるという従来の通念に反するものである。しかしながら、疑似画像の生成中に適用されるスパース性の条件のおかげで、伸長は、殆どの場合、第1画像よりも疑似画像のために多くのストレージが必要であることを意味しない。なぜなら、疑似画像を構成しているK個の要素重みのうち、疑似画像を表すために保存される必要のある値を有するものは、比較的少数であるからである。すなわち、多くの場合および殆どの場合、要素重みは、ゼロまたは実質的にゼロになり、したがって、保存される必要があるものは、ゼロまたは実質的にゼロではない要素重みの、疑似画像内における値および位置だけである。したがって、殆どの場合、本明細書に開示されている画像認識技術は、効果的な画像認識と、低減されたストレージ要件との両方を同時に実現する。(典型的には、ストレージ要件には影響しないが、第1画像から疑似画像への変換は、非負の変換であるので、保存される要素重みは、全て正の数であることに注意されたい。)定量的に、K’として保存される必要のある要素重みの数を明示すると、Mに対するK’の比率は、一般に、1.0未満、または0.75以下、または0.50以下、または0.25以下、または0.10以下、または0.05以下、または1/Mである。
グレースケールの第1画像の場合、K≧Mおよび/またはK≧Rを有することが、ロバストな画像認識のための基本要件であることが判明した。8ビットグレースケールの場合のような多数の値、例えば256の値とは対照的に、画像の成分が2つの値のうちの一方のみ、例えばオンまたはオフのみを有することができるような第1画像の場合には、K≧MおよびK≧Rの関係性のいずれも満たされない場合であっても、比較ステップ(e)において疑似画像を使用することにより、許容可能なレベルのロバスト性を実現することが可能であることが判明した。実施例10、特に図33および図34は、二値画像(二値画像)とグレースケール画像との間のこの差を示している。具体的には、この実施例において、記号(具体的には文字(letters and characters))の不完全な画像の許容可能なロバストな画像認識が、KがMより大きい場合(図33)と、KがMより小さい場合(図34)との両方において実現された。この実施例に示されているように、Mより大きいKを有する場合には、プロセスは格段によりロバストになるが、KがM未満であって、かつ第1画像が二値画像である場合には、ロバスト性は、実際の用途のために十分である。KをRと比較した場合にも、同じ結果が発見される。
本開示の第4の態様によれば、Kの値、および/またはMならびにRのうちの一方もしくは両方に対するKの比率の値は、対処中の特定の画像認識問題に対して適切なレベルのロバスト性が識別されるまで変更される。以下の実施例1〜8は、本開示のこの態様を示しており、ここでは、0.8のK/Mの比率は、修正が施されていない顔に対して顔認識を実行するためには十分であるが、修正が施された顔に対しては不十分であることが判明した。他方で、2.4のK/Mの比率は、修正が施された顔と、修正が施されていない顔との両方に対して正しい識別を提供することに成功し、4.0のK/Mの比率は、さらに良好であった。
第5の態様によれば、本開示は、本明細書に開示されている画像認識方法を実行するための、非一時的なコンピュータ可読媒体と、コンピュータシステムとを提供する。商品として販売および/または配布することができる非一時的なコンピュータ可読媒体は、開示されている画像認識技術の一部または全部を実行するための、コンピュータシステム上で実行可能なコンピュータ命令(コンピュータコード)を含むことができる。
第6の態様によれば、本開示は、ステップ(d)および(e)において疑似画像ライブラリとして使用するための疑似画像の1つ以上のデータセットを提供する。このデータセットまたはセットを、商品として販売および/または配布される非一時的なコンピュータ可読媒体に含めることができる。同様に、ステップ(b)で使用するための1つ以上の既定の変換行列、および/または既定の変換行列を取得するための1つ以上のトレーニング集合も、商品として販売および/または配布される非一時的なコンピュータ可読媒体に含めることができる。配布は、例えばインターネットを介して実施可能であり、このことは、とりわけ、例えば新しい疑似画像を追加するため、または実行中の画像認識にもはや関係のない疑似画像を削除するための、疑似画像ライブラリの更新を容易にすることができる。非一時的なコンピュータ可読媒体は、「クラウド」またはユーザの場所に存在することができる。
本開示の追加的な態様は、以下の「本開示の特徴」という見出しの下に記載されている。
本明細書に開示されている画像認識技術の好ましい用途は、顔認識である。他の用途には、オブジェクト認識および記号認識(機械読み取り)が含まれる。より一般には、開示されている画像認識技術は、あらゆる形態のマシンビジョンにおいて使用可能である。本明細書に開示されている技術を使用して分析することができる種々の画像の非限定的な例、ならびに本技術のための適用の非限定的な例は、以下の「産業上の利用可能性」という見出しの下で考察される。
本明細書に開示されている技術の追加の特性および利点は、以下の詳細な説明に記載されており、部分的には、その説明から当業者には容易に明らかであるか、または本明細書で説明されている技術を実践することによって認識されるであろう。添付の図面は、本技術をさらに理解するために含まれており、本明細書に組み込まれており、かつ本明細書の一部を構成している。本明細書および図面に開示されている技術の種々の態様が、個別にも、任意の全ての組み合わせでも使用可能であることを理解すべきである。上記の一般的な説明および以下の詳細な説明は、本発明の単なる例示に過ぎず、特許請求の範囲によって定義される本発明の性質および特徴を理解するための概要または枠組みを提供することを意図していることも理解すべきである。
関心対象である人物のオリジナル画像を示す図である。 第1レベルの前処理の第1ラウンド後の、具体的にはトリミング後の、図1の関心対象であるオリジナル画像を示す図である。 第1レベルの前処理の第2ラウンド後の、具体的にはダウンサンプリング後の、関心対象であるオリジナル画像を示す図である。この図面の画像は、関心対象である第1画像として使用された。すなわち、この図面の画像は、25×25の配列において625ピクセル(M=625)を含んでいた。 2000個の第1画像のトレーニング集合(N=2000)のうちの5個の第1画像を示す図である。これらの第1画像は、図2Bの関心対象である第1画像を取得する際に使用されたものと同じ第1レベルの前処理を使用して取得された。 図3の部分の取り出し元であるトレーニング集合全体を使用して取得された既定の変換行列の辞書要素の一部を示す図である。この実施例では、それぞれの疑似画像は、1500個の辞書要素に対して1500個の要素重み(K=1500)を有し、すなわち、それぞれの辞書要素につき1つの重みを有する。1500個の辞書要素のうちの36個が示されている。この図面では、それぞれの辞書要素は、25×25の二次元の配列として示されている625個の成分を有する。 トレーニング集合の疑似画像のライブラリ(S=2000)の一部を示す図である。図3に示されている第1画像の各々に対応する5個の疑似画像が表示されている。 図2Bの関心対象である第1画像のための関心対象である疑似画像を示す図である。図6は、疑似画像のための辞書要素も示しており、最大の要素重みを有する辞書要素を強調表示している。この関心対象である疑似画像は、図4に示されている辞書要素が含まれた既定の変換行列を使用して取得されたものである。1500個全ての辞書要素と、それらの辞書要素の要素重みとが表示されている。 図6の関心対象である疑似画像のための有意な要素重み(係数値)を示す図である。それぞれの要素の係数値は、それらの要素に対応する線の高さによって示されている。 図6の関心対象である疑似画像と、トレーニング集合の2000個の第1画像から取得された疑似画像ライブラリとの類似性スコアを示す図である。類似性は、コサイン距離によって測定された。この図面は、関心対象である疑似画像と疑似画像ライブラリとの比較による、関心対象である第1画像の、したがって関心対象であるオリジナル画像の識別の報告の一例である。トレーニング集合内の、最高の類似性スコアを有する顔の第1画像が表示されている。この最高の類似性スコアを有する顔の第1画像は、関心対象である第1画像と同一である。 図3の部分の取り出し元であるトレーニング集合全体を使用して取得された既定の変換行列の辞書要素の一部を示す図である。この実施例では、それぞれの疑似画像は、500個の辞書要素に対して500個の要素重み(K=500)を有する。500個の辞書要素のうちの36個が示されている。 500次元の疑似画像に変換された場合の、トレーニング集合の疑似画像のライブラリの一部を示す図である。図3に示されている第1画像の各々に対応する5個の疑似画像が表示されている。 Kが500に等しい場合の、図2Bの関心対象である第1画像のための関心対象である疑似画像を示す図である。この関心対象である疑似画像は、図9に示されている辞書要素が含まれた既定の変換行列を使用して取得されたものである。疑似画像のそれぞれの要素重み(それぞれの成分)は、既定の変換行列の1つの辞書要素に対応し、すなわち、疑似画像のそれぞれの要素重みは、既定の変換行列の1つの列に対応する。この図面の下側のパネルには、上位12個の(最大の)要素重みを有する辞書要素が強調表示されている。疑似画像におけるそれぞれの要素重みのグレースケールは、それらの要素重みの大きさを示す。500個の要素重みおよび辞書要素が全て表示されている。 図11の疑似画像の12個の有意な辞書要素を示す図である。それぞれの有意な辞書要素の要素重み(係数値)は、それらの要素に対応する線の高さによって示されている。下側のパネルには、12個の辞書要素の拡大画像が表示されている。 図11の関心対象である疑似画像と、図10の部分の取り出し元である疑似画像ライブラリ全体との比較による、関心対象である第1画像の、したがってオリジナル画像の識別の報告を示す図である。疑似画像ライブラリ内の、最高の類似性の値を有する顔の第1画像が表示されている。 疑似画像ライブラリにおける顔の識別を示す図であるが、この顔は、オリジナルの顔を変化させていくらか覆い隠す眼鏡をかけている。眼鏡をかけた顔は、疑似画像ライブラリ内には存在していなかったが、プロセスは、この顔を、眼鏡をかけていないまさにその人物として正しく識別した。この図面の場合、Kは、1500に等しかった。 疑似画像ライブラリにおける顔の識別を示す図であるが、この顔は、対象者の目を完全に覆い隠すサングラスをかけている。サングラスをかけた顔は、疑似画像ライブラリ内には存在していなかったが、プロセスは、この顔を、サングラスをかけていないまさにその人物として正しく識別した。この図面の場合、Kは、1500に等しかった。 疑似画像ライブラリ内にある表情とは異なる表情を有する顔の識別を示す図である。上側のパネルは、トレーニング集合内に笑顔の顔が存在していた人物を示す。彼女の非笑顔の顔(「新しい」顔)は、トレーニング集合内には存在しておらず、したがってトレーニング集合から準備された疑似画像ライブラリ内には存在していなかったが、適切に識別された。下側のパネルは、非笑顔の顔がトレーニング集合内には存在しておらず、したがってトレーニング集合から準備された疑似画像ライブラリ内には存在していなかった人物を示す。彼女の笑顔は、正しく識別された。この図面の場合、Kは、1500に等しかった。 それぞれ異なる顔の修正が加えられた顔の、正しい識別を示す図である。サングラスをかけた顔(左上)と、口髭によって覆われた顔(右上)と、サングラスおよび口髭を有する顔(左下)とが、それぞれ疑似画像を生成し、これらの疑似画像は、夾雑物のない顔を含んでいる疑似画像ライブラリと比較された場合に、夾雑物のない顔に対して最高の類似性スコアを与えた。この図面の場合、Kは、1500に等しかった。 顔のそれぞれ異なる部分が遮蔽された場合の、女性の顔の識別を示す図である。高い類似性スコアを有する顔は、識別されるべきオリジナルの顔を含んでいた。如何なる特定の動作原理にも拘束されることは望まないが、女性の顔は、男性の顔よりも識別がより難しい可能性があり、その結果、4つのケースのうちの2つにおいて、最高の類似性スコアを有する疑似画像ライブラリの顔が正しい顔ではなかったと考えられる。この図面の場合、Kは、1500に等しかった。図27に示されているように、Kを2500に増加させると、4つのケース全てにおいて正しい顔が識別された。 顔のそれぞれ異なる部分が遮蔽された場合の、男性の顔の識別を示す図である。全てのケースにおいて、最高の類似性スコアを有する顔は、識別されるべきオリジナルの顔であった。この図面の場合、Kは、1500に等しかった。 疑似画像ライブラリにおける顔の識別を示す図であるが、図14のように顔に眼鏡が追加されている。この図面では、Kは、図14のような1500ではなく、500に等しかった。図14とは対照的に、間違った顔が識別された。 疑似画像ライブラリにおける顔の識別を示す図であるが、図15のようにサングラスが女性の顔の目を覆い隠している。この図面では、Kは、図15のような1500ではなく、500に等しかった。図15とは対照的に、間違った顔が識別された。 疑似画像ライブラリにおける2つの顔の識別を示す図であるが、これらの顔は、図16のようにそれぞれ異なる表情を有する。この図面では、Kは、図16のような1500ではなく、500に等しかった。図16とは対照的に、間違った顔が識別された。 疑似画像ライブラリにおける顔の識別を示す図であるが、図17のようにサングラス、口髭、またはその両方を含む、顔の付属物が追加されている。この図面では、Kは、図17のような1500ではなく、500に等しかった。図17とは対照的に、間違った顔が識別された。 疑似画像ライブラリにおける女性の顔の識別を示す図であるが、図18のように彼女の顔のそれぞれ異なる部分が隠されている。この図面では、Kは、図18のような1500ではなく、500に等しかった。図18とは対照的に、全てのケースにおいて間違った顔が識別された。 疑似画像ライブラリにおける男性の顔の識別を示す図であるが、図19のように彼の顔のそれぞれ異なる部分が隠されている。この図面では、Kは、図19のような1500ではなく、500に等しかった。図19とは対照的に、間違った顔が識別された。 疑似画像ライブラリにおける顔の識別を示す図であるが、図17および図23のようにサングラス、口髭、またはその両方を含む、顔の付属物が追加されている。この図面では、Kは、2500に等しく、全てのケースにおいて、ライブラリ内の他の顔と比較して格段に高い類似性スコアによって正しい顔が識別された。 疑似画像ライブラリにおける女性の顔の識別を示す図であるが、図18および図24のように彼女の顔のそれぞれ異なる部分が隠されている。この図面では、Kは、2500に等しく、全てのケースにおいて、ライブラリ内の他の顔と比較して格段に高い類似性スコアによって正しい顔が識別された。 実施例1の疑似画像ライブラリを生成するために使用されたトレーニング集合内には存在していなかった顔の集合を示す図である。これらの顔は、エール大学の顔画像データベースからの顔であった。この図面には、それぞれの顔につき11種類の異なる表情および照明条件を有する15人の異なる個人の顔が示されている。 実施例1の既定の変換行列を使用した、図28に示されている顔の識別を示す図である。このグラフは、図28のエール大学のデータベースからの顔のための疑似画像のペア間のペアワイズ類似性スコアを示す。濃いグレースケールは、類似性スコアが高いことを示す。同じ人物に属する顔がグループ化されていて、軸に沿った番号によって示されている。このグラフは、表情および照明条件が異なるにもかかわらず、同じ人物に属する顔同士は、その人物の疑似画像では非常に類似しているが、異なる人物に属する顔とは類似していないことを示している。 図28のエール大学のデータベースからの顔のための疑似画像と、実施例1のトレーニング集合の顔のための疑似画像との間のペアワイズ類似性スコアを示す図である。エール大学の、同じ人物に属する顔同士の疑似画像の類似性とは対照的に、エール大学の顔は、トレーニング集合内の疑似画像に対しては殆ど類似性を示さない。 本明細書に開示された技術による画像認識のためのトレーニング集合として使用された1000個の記号(文字)を示す図である。それぞれの記号は、16×16の第1画像としてデジタル化された。 図31のトレーニング集合の記号のための疑似画像の生成を示すとともに、大文字の「H」および中国語の「並」の文字のための疑似画像と、疑似画像ライブラリとして使用されたそれらの疑似画像との類似性スコアを示す図である。この図面では、Kは、800に等しかった。 ピクセルの欠落によって文字が破損した場合(オリジナルの記号の隣に示されている)の、大文字の「H」および中国語の「並」の文字の識別を示す図である。この図面では、Kは、800に等しかった。破損した文字のための疑似画像と、疑似画像ライブラリ内の疑似画像の各々との間の類似性スコアが示されている。正しい文字が識別された。 ピクセルの欠落によって文字が破損した場合(オリジナルの記号の隣に示されている)の、大文字の「H」および中国語の「並」の文字の識別を示す図である。破損は、図33と同じであった。この図面では、Kは、100に等しかった。正しい記号が識別されたが、今や、多数の疑似画像が高い類似性スコアの値を有することとなった。 オリジナル画像からランダムに選択された種々の数のピクセルから構成された画像について、800に等しいK(上側のパネル)と、これに対して200に等しいK(下側のパネル)とを使用した場合の、コサイン誤差率(1コサイン距離)を示す図である。ピクセル数の増加に伴う誤差率の低下は、Kの値が大きくなるほど急速になる。 拡張された既定の変換行列を作成するためのデノボアプローチとシーケンシャルアプローチとを比較する際に使用された第1画像(N=1000)を示す図である。これらの第1画像の各々は、二値ピクセルの16×16の配列(M=256)である。この図面の第1画像は、図31の第1画像と同じであるが、ただしフォーマットが異なる。 拡張された既定の変換行列を作成するためのデノボアプローチを使用して生成された辞書要素(K=1000)を示す図である。これらの辞書要素の各々は、二値ピクセルの16×16の配列(M=256)である。 拡張された既定の変換行列を作成するためのシーケンシャルアプローチを使用して生成された辞書要素(K=1000)を示す図である。これらの辞書要素の各々は、二値ピクセルの16×16の配列(M=256)である。 デノボ学習によって生成された図37の辞書要素と、シーケンシャル学習によって生成された図38の辞書要素との間のコサイン類似性を示す図である。 シーケンシャル学習によって生成された図38の辞書要素の成分間におけるペアワイズ相関を示す図である。 図36の第1画像のための疑似画像の成分間におけるペアワイズ相関を示す図であり、なお、これらの疑似画像は、シーケンシャル学習によって生成されたものである。 既定の変換行列と、トレーニング集合のための疑似画像の集合とを生成する、本開示の例示的な実施形態を示すフローチャートである。 関心対象である第1画像から関心対象である疑似画像を生成して、関心対象である疑似画像を疑似画像ライブラリと比較する、本開示の例示的な実施形態を示すフローチャートである。 既知の画像から疑似画像を生成して、この疑似画像を1つ以上の疑似画像ライブラリに組み込む、本開示の例示的な実施形態を示すフローチャートである。 既定の変換行列が拡張を必要としているかどうかを判定するための、本開示の例示的な実施形態を示すフローチャートである。 シーケンシャルアプローチによって既定の変換行列を拡張するための、本開示の例示的な実施形態を示すフローチャートである。ΦiおよびAiの更新は、例えば、下記のアルゴリズム3を使用して実行可能である。 本開示の方法の実施形態を実施する際に使用するためのコンピュータシステムの代表的な一例のコンポーネントを示す機能ブロック図である。
用語および表記法
本明細書および特許請求の範囲では、以下の用語、およびこれらの用語に関連する単数形ならびに複数形と、以下の表記法とが使用されている。
(A)オリジナル画像、および第1レベルの、第2レベルの、ならびに他の前処理
「オリジナル画像」は、複数の成分(例えば、ピクセル)の順序付けられたシーケンスであり、それぞれの成分は、シーケンス内における所定の値および位置を有する。典型的に、人間は、必ずしも全ての場合ではないが、オリジナル画像内において現実世界からの1つ以上のオブジェクト(例えば、顔認識の場合には人間の顔)を知覚することが可能であり、例えば、オリジナル画像は、UPCまたはマトリックスバーコードのようなコンピュータ生成画像であり得る。オリジナル画像は、デジタル画像化装置、例えばスタンドアロン型のデジタルカメラ、または別の装置内に、例えば携帯電話内に具現化されたデジタルカメラによって生成可能である。オリジナル画像は、デジタル化されたアナログ画像であってもよい。
オリジナル画像がカラーである場合には、この画像をそれぞれの合成色に、例えばデジタルカメラによって生成される画像の赤、緑、青のサブ成分(例えば、サブピクセル)に分解することができ、これらの合成色の各々を、別個のオリジナル画像として処理することができる。これに代えて、複数の合成色を連結して、ただ1つのオリジナル画像にしてもよい。例えば、25×25のRGBカラー画像の場合には、連結されたオリジナル画像は、もしこの画像がカラーでなければ、625個の成分ではなく1875個の成分を含んでいたはずである。
必要に応じてオリジナル画像を、疑似画像に変換する前に「第1レベルの前処理」に供することができる。以下で考察する第2レベルの前処理とは異なり、第1レベルの前処理は、成分のシーケンス内における成分の相対値および相対位置の両方の観点から画像の成分間の相対的な関係性を維持する。第1レベルの前処理の例には、限定するわけではないが、成分数の削減(ダウンサンプリング)、画像の一部のトリミング、画像の全部もしくは一部の回転、平行移動、拡大、および/または縮小のような画像のアフィン変換、正規化などが含まれる。
オリジナル画像と同様に、第1レベルの前処理が施された画像は、複数の成分の順序付けられたシーケンスであり、それぞれの成分は、シーケンス内における所定の値および位置を有する。オリジナル画像内において、現実世界からの1つ以上のオブジェクトを人間が知覚することができる場合には、現実世界からの1つ以上のオブジェクトは、例えばトリミングによってそのようなオブジェクトが全て削除されていない限り、通常、第1レベルの前処理の後にも依然として人間によって知覚可能である。第1レベルの前処理が施された画像内における成分の数は、この画像の導出元である画像内における成分の数と同じか、またはそれより少なくすることができる。
いくつかの用途では、第2レベルの前処理を、オリジナル画像に対して、または第1レベルの前処理が施された画像(第2レベルの前処理のための「出発画像」と称される)に対して実行することができる。一実施形態では、第2レベルの前処理は、出発画像のフーリエ変換を実行するステップと、その結果として得られたフーリエ係数を、第1画像の成分として使用するステップとを含むことができる。同様に、ウェーブレット変換を使用し、その結果として得られたウェーブレット係数を、第1画像の成分として使用してもよい。これらの種類の前処理は、「縮小画像」を生成することができ、この「縮小画像」は、複数の成分の順序付けられたシーケンスであり、それぞれの成分は、シーケンス内における所定の値および位置を有し、縮小画像内における成分の数は、出発画像内における成分の数よりも少ない。成分の数の削減によってストレージ要件が低減され、縮小画像を生成するために必要とされる計算の数によっては、全体的な処理時間を短縮することが可能である。
オリジナル画像、または第1レベルの前処理が施された画像と同様に、第2レベルの前処理が施された画像は、複数の成分の順序付けられたシーケンスであり、それぞれの成分は、シーケンス内における所定の値および位置を有する。しかしながら、第1レベルの前処理とは異なり、第2レベルの前処理は、成分間の関係性を変化させる。成分間の関係性の変化は、成分のシーケンス内における成分の相対値、相対位置、または成分のシーケンス内における相対値および相対位置の両方の観点からの変化であり得る。その結果、画像が、現実世界からのオブジェクトを含んでいる場合には、人間は、第2レベルの前処理が施された画像内においてそれらのオブジェクトを知覚することがより困難であるか、または場合によっては不可能であると感じる場合がある。
提示を容易にするために、第1レベルの前処理と第2レベルの前処理とを別個に定義してきたが、実際には、これらの2種類の前処理を、画像認識プロセス全体における単一の前処理ステップとして互いに統合することができる。また、第1レベルの前処理ステップおよび第2レベルの前処理ステップの各々は、任意の順序で複数回実行可能である。画像が、現実世界からのオブジェクトを含んでいる場合には、第2レベルの前処理が施された画像に対して第1レベルの前処理を実施すると、人間は、その結果として得られた、第2レベルの前処理の後に第1レベルの前処理が施された画像内において、それらの現実世界のオブジェクトを知覚することがより困難であるか、または不可能であると感じる場合がある。
さらに、具体的に第1レベルの前処理または第2レベルの前処理として見なすことができない前処理を使用することができる。例えば、ローパス、ハイパス、またはバンドパス空間フィルタリングは、成分間の相対値を変化させることができる。例えば、ローパスフィルタリングの場合には高周波ノイズが除去され、またはハイパスフィルタリングの場合にはオブジェクトのエッジが強化されるので、人間が、現実世界からのオブジェクトを知覚することが困難というよりもむしろ簡単であると感じるような画像を、このようなフィルタリングによって生成することができる。したがって、前処理は、第1レベルの前処理および第2レベルの前処理を含むが、これらに限定されているわけではない。
(B)第1画像
「第1画像」とは、オリジナル画像、または前処理に供されたオリジナル画像のことである。したがって、第1画像は、複数の成分(例えば、ピクセル)の順序付けられたシーケンスであり、それぞれの成分は、シーケンス内における所定の値および位置を有する。上で考察したように、典型的なオリジナル画像の場合には、人間は、オリジナル画像内において現実世界からの1つ以上のオブジェクト(例えば、人間の顔)を知覚することが可能である。第1画像がオリジナル画像であるか、または第1レベルの前処理のみが施されたオリジナル画像である場合には、このことが引き続き当てはまる。他の種類の前処理の場合には、人間は、第1画像内において現実世界からのオブジェクトを知覚することが困難であるか、または不可能であると感じる場合がある。
以下の考察では、第1画像は、ベクトルとして扱われ、個々の第1画像は、xnによって表され、行列の列として配置されている第1画像の集合は、Xによって表される。第1画像内における成分の数(第1画像の「次元」)は、文字Mによって表され、行列Xにおける列の数(第1画像の数)は、文字Nによって表される。したがって、上記の表記法では、nは、1〜Nの間の値を有することができ、それぞれのxnは、M個の成分を有し、Xは、M×N行列である。
第1画像、および他の、複数の成分の順序付けられたシーケンスは、以下の考察ではベクトル(1次元の配列)として扱われるが、コンピュータでは、複数の成分の順序付けられたシーケンスは、必要に応じてより高次元の配列として、例えば二次元または三次元の配列として保存可能および/または処理可能である。
(C)既定の変換行列および辞書要素
「既定の変換行列」とは、M個の行およびK個の列を有する行列のことである。K個の列の各々は、「辞書要素」または単に「要素」と称される。それぞれの辞書要素は、M個の成分の順序付けられたシーケンスであり、それぞれの成分は、シーケンス内における所定の値および位置を有する。したがって、必要に応じてそれぞれの辞書要素を1つの画像として表示することができる(例えば、図4を参照)。以下の考察では、既定の変換行列は、行列Φによって表される。
上で説明したように、また以下でより詳細に考察するように、既定の変換行列は、トレーニング画像の行列のスパースかつ非負の因数分解を実行するステップを含む方法によって取得される。以下で考察するように、既定の変換行列の生成と、第1画像からの疑似画像の生成との両方に関するスパース性は、L1ノルム、L0ノルム、またはpがゼロより大きく1より小さいLpノルムを使用して測定可能であり、なお、殆どの場合、L1ノルムが好ましい。他のスパース性の尺度を使用してもよい(以下を参照)。トレーニング画像の行列とは、既知の画像の行列、具体的には、既知の第1画像の行列のことである。これらの既知の第1画像は、前処理に供されたものであってもよい。そのような場合には、一実施形態では、関心対象である第1画像(ステップ(a)の第1画像)を、トレーニング集合を構成している第1画像と同じ前処理に供することができる。他の実施形態では、関心対象である第1画像を生成するために使用される前処理が、トレーニング集合の第1画像を生成するために使用された前処理とは異なっていてもよい(または関心対象である第1画像が、前処理されていないオリジナル画像であってもよい)が、ただし、前処理された関心対象である第1画像と、トレーニング集合を構成している前処理された第1画像とが、それぞれ異なる前処理であるにもかかわらず同数の成分(すなわち、同じMの値)を有する場合に限る。
因数分解は、既定の変換行列と、トレーニング画像のための疑似画像とを生成する。既定の変換行列および疑似画像の両方が、非負になるように制約される。疑似画像は、スパースになるようにも制約される。しかしながら、既定の変換行列は、スパースであるようには制約されない。したがって、「スパースかつ非負の因数分解」という文言では、非負性は、因数分解によって生成される既定の変換行列および疑似画像の両方に適用され、その一方で、スパース性は、疑似画像にのみ適用される。既定の変換行列を生成するプロセスは、とりわけ非負性の制約の結果として線形ではなく非線形であり、本質的に非線形のプロセスである平行化(rectification)に類似していると見なすことができる。同様に、既定の変換行列を使用した第1画像からの疑似画像の生成もまた、非線形のプロセスである。
第1画像に関して上で使用した行列表記法を使用すると、トレーニング画像の行列は、行列Xによって表すことができる。この表記法では、既定の変換行列Φは、M行×N列の行列Xのスパースかつ非負の因数分解を実行することによって取得された、M個の行およびK個の列を有する行列である。一実施形態では、因数分解は、少なくとも1つのフロベニウスノルムの最小化を使用する。以下の考察では、既定の変換行列を使用して生成された個々の疑似画像は、aによって表され、その一方で、行列の列として配置されている疑似画像の集合は、Aによって表される。この表記法を使用すると、既定の変換行列Φを生成する際に使用されたトレーニング画像の行列Xと、Φを決定するプロセス中に生成されたトレーニング画像のための疑似画像の集合Aとの関係性を、
X=ΦA
のように記述することができ、ここで、Aは、K個の行およびN個の列を有する。したがって、既定の変換行列は、M次元(X行列における行数)を有する基底から、K次元(A行列における行数)を有する基底への変換を実行するものであると考えることができる。
如何なる特定の動作原理にも拘束されることは望まないが、ΦおよびAに対する非負性の制約と、Aに対するスパース性の制約との組み合わせは、トレーニング集合の画像の鍵となる特徴、例えば顔画像の場合であれば目の形状を、Φに含めることを強制すると考えられ、これによって画像認識の観点からΦがロバストになる。フロベニウスノルムの使用も、本技術のロバスト性に貢献することができる。このようなノルムは、2乗ノルムであるので、「エネルギ」に関連していると見なすことができ、この「エネルギ」自体は、「情報内容」に関連していると見なすことができる。鍵となる特徴とは、最も多くの情報内容を有する特徴のことであり、フロベニウスノルムを使用することにより、Φを、これらの特徴を捕捉するように強制することができる。次いで、非負性の制約は、鍵となる特徴がさほど重要ではない特徴によって希釈されてしまうことを防止し、スパース性の制約は、辞書要素において、複数の鍵となる特徴を一緒に結び付ける。その結果、辞書要素は、特定の受容野を有することが可能となり、すなわち、トレーニング集合の画像内において特定の形状と、形状の組み合わせとを捕捉することが可能となり、十分な数の辞書要素を有することにより、ロバストな画像認識を実現することが可能となる。
ロバスト性を実現するためのM(第1画像内における成分の数)、N(トレーニング集合内における第1画像の数)、およびK(疑似画像内における辞書要素のための要素重みの数)の適切な値は、当業者によって本開示に基づいて容易に決定可能である。一般に、トレーニング集合内における第1画像の数(N)は、第1画像内における成分の数(M)に比例する。すなわち、通常、第1画像内における成分の数(例えば、ピクセルの数)が増加するにつれて、より大きいトレーニング集合が必要となる。また、一般に、Nは、Kにほぼ等しく、通常は、Kよりも大きい。
上で考察したように、K自体は、Mおよび/またはRに依存しており、特定の実施形態では、Kは、K/M≧1.0およびK/R≧1.0の関係性のうちの一方または両方を満たし、上記のように、Rは、X行列のランクである。より具体的には、上でも考察したように、特定の実施形態では、K/MおよびK/Rの比率のうちの一方または両方は、2.0以上、または3.0以上、または4.0以上、または5.0以上である。これらの比率は、グレースケール画像の場合には特に重要であり、二値画像の場合には必要に応じて緩和可能である。さらに、一般に、Kの値は、Nに比例する。すなわち、Nが増加するにつれてKが増加することが一般に望ましい。ただし、Kが増加すると、計算(CPU)時間および/またはメモリ要件のような計算リソースに対する要求も増加する。また、Kが大きくなり過ぎると、Kの増加の効果が小さくなる可能性がある。したがって、当業者には明らかであるように、本明細書に開示されている画像認識技術の任意の特定の用途のためにK、M、およびNの値を選択する際には、精度および計算コストの観点からのトレードオフが行われる。
上で考察したように、また以下でより完全に考察するように、Kは、既定の変換行列を使用してM次元の第1画像から取得された疑似画像の次元であり、したがって、ロバスト性を実現するために、一実施形態では、必要に応じて疑似画像の次元を第1画像の次元よりも小さくすることができる二値画像の場合を除いて、疑似画像の次元は、M×N行列がフルランクであって、かつN>Mの場合には、第1画像の次元よりも大きくなる。M×N行列は、通常、フルランクからさほど遠くない。すなわち、Rは、Mよりもさほど小さくはならないので、K≧Mを満たすことが、K≧Rを満たすことよりも顕著に厳密になることはない。M空間からK空間への変換は、正式には、KがR以上M未満である場合には、第1画像の情報内容を捕捉する際に使用される次元数の拡大ではないが、この変換は、有意な圧縮にはならない。変換によって次元数がいくらか減少する可能性があるが、通常はそれほどではない二値画像の場合にも、同じことが当てはまる。上で述べたように、本明細書に開示されている画像認識技術のM→Kの伸長戦略は、画像処理がデータ拡大ではなくデータ圧縮に基づくという従来の通念に反するものである。同様に、圧縮がほんのわずかであることも、従来の通念に反するものである。
(D)疑似画像および要素重み
「疑似画像」は、K個の成分の順序付けられたシーケンスであり、それぞれの成分は、シーケンス内における所定の値および位置を有する。したがって、必要に応じて疑似画像を画像として表示することができる(例えば、図5および図6のグレースケールの疑似画像を参照)。すなわち、実際にはコンピュータコーディングの目的のために、疑似画像をベクトルとして扱うことができる。
上で考察したように、疑似画像は、第1画像の非線形の変換によって、具体的には、上で考察した既定の変換行列を使用して実行される第1画像のスパースかつ非負の変換によって、第1画像から取得される。変換は、非負性の制約を適用するので、疑似画像のK個の成分の各々の値は、ゼロまたは正の数になる。
K個の成分の各々は、第1画像から疑似画像を構築する際に使用される既定の変換行列のK個の辞書要素(K個の列)のうちの1つのための「要素重み」として機能する。第1画像から疑似画像への変換は、疑似画像に対してスパース性の制約を適用するので、通常、比較的大きい値を有するほんの少数の成分(要素重み)が存在し、小さいまたはゼロの値を有する多数の成分(要素重み)が存在する(例えば、図6および図7を参照)。実際には、関心対象である疑似画像と、既知の画像の疑似画像とを比較するために、比較的大きい値を有する成分だけを保存および使用すればよい。したがって、「疑似画像」という用語は、保存および/または使用される疑似画像が、K個の成分全てを含んでいる場合と、疑似画像が、K個全ての成分よりも少数の成分を含んでいて、かつ小さいほうの成分が、保存および/または使用される疑似画像内には明示的に含まれていない場合とを含む。
二次元の配列として表示される場合には、人間は、疑似画像を、現実世界からのオブジェクトを示すものとして知覚しない(例えば、図5および図6のグレースケールの疑似画像を参照)。このことは、第1画像が疑似画像に変換される前に、人間が第1画像内において現実世界からのオブジェクトを知覚できていた場合であっても、すなわち、第1画像がオリジナル画像、または第1レベルの前処理のみが施されたオリジナル画像(例えば、図5および図6のグレースケールの第1画像を参照)であった場合であっても当てはまる。このことは、画像の分類および/または識別が、人間によって知覚可能なオブジェクトを含んでいない画像を使用して実行されるという点で、本技術の重要な相違点である。とりわけ、このことは、特定の個人の、人間によって知覚可能な画像が保存されることを回避し、したがって、そのような保存に関連するプライバシーの問題を回避する。
(E)疑似画像ライブラリ
「疑似画像ライブラリ」とは、関心対象である第1画像(ステップ(a)の第1画像)から取得された関心対象である疑似画像(ステップ(c)の疑似画像)を分類および/または識別するために使用される疑似画像の集合のことである。
(F)分類および識別
「分類」とは、1つ以上の共通の特徴を有する少なくとも2つのメンバーを有する集合に、例えばクラスまたはカテゴリに、画像を関連付けることであり、「識別」とは、1つのメンバーを有する集合に、例えば個人に、画像を関連付けることである。
詳細な説明および好ましい実施形態
図1〜図8は、本開示の画像認識技術の実施形態を示す。特に、図1〜図8は、本技術が顔認識問題に適用されている実施形態を示す。図面を作成する際に使用された特定の手順については、以下および実施例1で考察する。
これらの図面は、以下の一般的な考察のための文脈を提供するために、説明のこの時点で紹介されている。本技術を説明するための手段として顔認識を使用することは、限定として見なされるべきではなく、本明細書に開示されている疑似画像技術は、オブジェクト認識、記号認識などを伴う画像認識問題のような他の画像認識問題にも等しく適用可能であることを理解すべきである(本明細書に開示されている技術の他の非限定的な用途については、以下の産業上の利用可能性のセクションを参照)。
図1〜図8に示されている本開示の画像認識技術の態様は、以下の通りである:
(1)図1は、関心対象である人物のオリジナル画像を示す。
(2)図2Aおよび図2Bは、第1レベルの前処理の2つのラウンド後の図1のオリジナル画像を示し、具体的には、図2Aは、トリミング後のオリジナル画像を示し、図2Bは、ダウンサンプリング後のオリジナル画像を示す。図2Bの画像は、関心対象である第1画像(ステップ(a)の第1画像)であり、この関心対象である第1画像は、その後、疑似画像に、具体的にはステップ(c)の疑似画像に変換される。
(3)図3は、図2Bの関心対象である第1画像を取得する際に使用されたものと同じ、第1レベルの前処理の2つのラウンドを使用して取得された、第1画像のトレーニング集合の一部を示す。
(4)図4は、図3の部分の取り出し元であるトレーニング集合全体を使用して取得された既定の変換行列の辞書要素の一部を示す。
(5)図5は、疑似画像のライブラリの一部を示す。
(6)図6は、図2Bの関心対象である第1画像のための関心対象である疑似画像を示す。この関心対象である疑似画像は、図4に示されている辞書要素が含まれた既定の変換行列を使用して取得されたものである。
(7)図7は、図6の関心対象である疑似画像のうちの最大の要素重み(係数値)を有する辞書要素を示す。
(8)図8は、図6の関心対象である疑似画像と、図5の部分の取り出し元である疑似画像ライブラリ全体との比較による、関心対象である第1画像の、したがってオリジナル画像の識別の報告を示す。
上で考察したように、本開示は、画像認識を実行するために疑似画像を使用する。このプロセスは、オリジナル画像(例えば、図1を参照)から開始し、このオリジナル画像は、典型的に、少なくともいくつかの前処理(例えば、トリミングおよびダウンサンプリング)に供されて、関心対象である第1画像(例えば、図2Bを参照)を生成する。これに代えて、前処理を行うことなく直接的にオリジナル画像を関心対象である第1画像として使用してもよい。上の「用語および表記法」のセクションで考察したように、関心対象である第1画像は、ベクトルxとして簡便的に表される。
関心対象である第1画像は、第1画像のトレーニング集合(例えば、図3を参照)を使用して取得された、複数の辞書要素(例えば、図4を参照)から構成される既定の変換行列を使用して、関心対象である疑似画像(例えば、図6および図7を参照)に変換される。上の「用語および表記法」のセクションで考察したように、関心対象である疑似画像は、ベクトルaによって簡便的に表され、既定の変換行列は、行列Φによって簡便的に表され、第1画像のトレーニング集合、すなわちトレーニング画像のためのxベクトルの集合族は、行列Xによって簡便的に表され、トレーニング集合のための疑似画像は、行列Aによって簡便的に表される。
次いで、関心対象である第1画像、したがってオリジナル画像の分類および/または識別が、関心対象である疑似画像を疑似画像のライブラリ(例えば、図5を参照)と比較することによって実行される。例えば、ライブラリ内における一致が発見されたエントリに対応する既知の画像を表示するか、または分類の場合は、クラスまたはカテゴリのための識別子を表示することによって、比較の結果をユーザに報告することができる。比較の結果は、分類および/または識別が正確である可能性を示す指標、例えば、関心対象である第1画像が或るクラス、カテゴリ、または個人に対応する可能性を示す指標を含むことができる。この指標は、類似性スコアまたは比較スコアであり得る(例えば、図8を参照)。
既定の変換行列は、ベクトル化された第1画像の行列(トレーニング集合)に対してスパースかつ非負の因数分解を実行するステップを含む方法によって取得される。トレーニング集合のサイズは、実行されるべき分類および/または識別によって異なる。例えば、顔認識の場合、限定された個人の集合に対して、例えば或る特定の施設へのアクセスが許可されるべき個人の集合に対して分類および/または識別を実行しようとした場合には、比較的小さいトレーニング集合でも十分であり得るが、ただし、規定の変換行列が、限定された個人の集合を分類および/または識別して、この限定された個人の集合と、この限定された集合の中に存在しない個人とを区別することができるようにするために十分な人数の個人が、その集合内に含まれている場合に限る。その一方で、一般的な集団における個人の分類および/または識別は、一般に、分類および/または識別を実行するために十分な特徴が既定の変換行列に埋め込まれるように、大きいトレーニング集合を必要とする。トレーニング集合のために適したサイズは、本明細書に開示された画像認識技術の任意の特定の用途のために、本開示に基づいた経常的な実験によって容易に発見可能である。
特定の実施形態では、不完全な画像に対する画像認識が、トレーニング集合内の限られた不完全な画像を用いて実行され、場合によっては不完全な画像を用いずに実行される。具体的には、不完全な画像に対する画像認識、特に、不完全な顔の画像に対する顔認識は、多数の不完全な画像を意図的にトレーニング集合内に含める必要なしに実行可能であることが判明した。必要に応じて、不完全な画像をトレーニング集合内に含めてもよく、場合によっては、トレーニング集合内の限られた数の不完全な画像が有用となる場合もある。例えば、姿勢および/または顔の表情が不完全となっている不完全な画像をトレーニング集合内に含めることにより、場合によっては、分類および/または識別の観点から既定の変換行列をよりロバストにすることができる。
従前の画像認識技術、特に従前の顔認識技術とは異なり、多数の不完全な画像は、画像認識が成功するための要件ではない。このような要件がないので、そうでない場合に必要であったトレーニング集合よりも、小さいトレーニング集合を使用することが可能となる。このようなより小さいトレーニング集合自体は、既定の変換行列を生成するために使用されるプロセスの速度および/またはストレージ要件を改善する。このような速度の高速化および/またはストレージの縮小という対価は、疑似画像ライブラリにも適用され、この場合、このライブラリが、トレーニング集合に基づいているか、トレーニング集合+追加的な疑似画像に基づいているか、またはトレーニング集合が除外された疑似画像の集合に基づいているか(以下を参照)は関係ない。同様に、速度の高速化および/またはストレージの縮小という対価は、関心対象である疑似画像と1つ以上の疑似画像ライブラリとの比較にも適用される。
上で考察したように、いくつかの実施形態では、関心対象である第1画像は、前処理に供されたオリジナル画像であり、この前処理は、第1レベルの前処理、第2レベルの前処理、または第1レベルの前処理と第2レベルの前処理との組み合わせであり得る。前処理を使用すべき場合には、同じ前処理を、既定の変換行列の生成に使用する前に、トレーニング集合に対して実行することが好ましい。このような前処理の共通性は、画像認識を改善できるので好ましいが、画像認識を成功させるための要件ではない。このように、トレーニング集合の第1画像と、関心対象である第1画像との間に共通の前処理という要件が存在しないことは、多くの状況において有益であり得る。具体的には、所与のトレーニング集合を、それぞれ異なる程度の前処理に供された関心対象である第1画像とともに使用可能にすることにより、プロセス全体に対する柔軟性が提供される。
関心対象である第1画像のための関心対象である疑似画像は、関心対象である第1画像のスパースかつ非負の変換を実行するための既定の変換行列を使用して取得される。既定の変換行列を生成する因数分解は、トレーニング集合のメンバーのための疑似画像も生成する。特定の実施形態では、オリジナル画像の分類および/または識別は、関心対象である疑似画像をトレーニング集合のメンバーのための疑似画像と比較することによって実行可能である。このような場合、トレーニング集合のメンバーのための疑似画像は、分類および/または識別を実行するための疑似画像ライブラリとして機能する。
関心対象である疑似画像は、分類および/または識別以外の目的のためにも使用可能である。例えば、関心対象である第1画像が、カテゴリ、クラス、またはIDは既知であるがまだ疑似画像ライブラリの一部になっていない人物、オブジェクト、または記号などに対応する場合には、その関心対象である疑似画像を使用して1つ以上のライブラリを拡張することができ、すなわち、この関心対象である疑似画像を1つ以上のライブラリに追加することができる。このようにして拡大された1つ以上のライブラリは、将来、関心対象である第1画像、したがってオリジナル画像を、分類および/または識別するために使用可能である。このようにして疑似画像ライブラリは、時間の経過とともに、画像を分類および/または識別するためにより価値のあるものになり得る。
いくつかの実施形態では、分類および/または識別プロセスにおいて、種々異なるサイズのライブラリを含む、複数の疑似画像ライブラリを使用することができる。分類および/または識別プロセスは、関心対象である疑似画像を全てのライブラリまたはライブラリの部分集合と比較することができる。例えば、比較プロセスは、選択された順序で、例えば最小のライブラリから最大のライブラリへと、十分なレベルの信頼性を有する一致が発見されるまでライブラリを巡回することができ、発見後、比較プロセスを終了することができる。
いくつかの実施形態では、疑似画像ライブラリは、トレーニング集合のメンバーのための疑似画像を含まなくてもよく、すなわち、ライブラリは、トレーニング集合のメンバーの一部または全部を除外することができる。例えば、顔認識との関連では、このことは、トレーニング集合が、顔の特徴に関して十分な多様性を提供する場合であって、多様な個人から顔の特徴を抽出することができる既定の変換行列を、これらの個人がトレーニング集合内に存在するかどうかに関係なく生成することができる場合であり得る。
そのような実施形態では、顔認識の場合、または他の種類の画像認識の場合のいずれであっても、トレーニング集合は、分類および/または識別を実行するために十分な情報を含む、関心対象である疑似画像を生成する能力を備えた既定の変換行列をシーディングするものであると考えることができる。既定の変換行列が十分にシーディングされると、トレーニング集合は、その目的を果たしたと見なされることができ、したがって、比較ステップのためにはもはや不要であると見なされることができる。刑法の分野における特定の実施例として、トレーニング集合のほうを、前科を有さない個人から構成して、疑似画像ライブラリのほうには、前科を有する個人のみを含めてもよい。
前述したことは、本明細書に開示されている画像認識技術を実施する際に使用することができる多種多様な疑似画像ライブラリのうちのほんのいくつかの非限定的な例に過ぎない。一般に、比較ステップにおいて使用される1つ以上の疑似画像ライブラリは、特定の画像認識状況のニーズを満たすように調整される。1つ以上のライブラリの調整は、時間の経過とともに必要に応じて実施可能である。したがって、疑似画像を追加または削除することができ、また、複数のライブラリを相互に組み合わせること、または初期または後続のニーズに基づいて部分に細分化することができる。任意の特定の用途のためにライブラリまたはライブラリの集合を選択する際に考慮することができるパラメータには、1つ以上のライブラリによって実現される画像認識の精度(信頼性レベル)、1つ以上のライブラリの包括性、プロセスの速度、およびメモリ要件がある。典型的なこととして、これらの競合する対価の間でトレードオフが必要になることがしばしばある。
関心対象である疑似画像と1つ以上の疑似画像ライブラリとの比較は、種々の手法で実行可能である。例えば、関心対象である疑似画像とライブラリの疑似画像との間でユークリッド距離を計算することができ、この距離が小さくなるほど、関心対象である疑似画像と、ライブラリの特定の疑似画像とが一致していることが示される。別の例として、コサイン類似性の値(スコア)を計算することができ、すなわち、cos(θ)値を計算することができ、ここで、θは、関心対象である疑似画像と、ライブラリの特定の疑似画像との間の角度であり、関心対象である疑似画像と、ライブラリの特定の疑似画像とは、両方ともベクトルとして扱われる。関心対象である疑似画像が、ライブラリの特定の疑似画像と整列またはほぼ整列している場合には、θは、ゼロまたはほぼゼロに等しいので、コサイン類似性の値は、1.0または1.0に近く、したがって、関心対象である疑似画像と、ライブラリの特定の疑似画像とが一致していることを示す。
如何なる尺度が使用される場合でも、ライブラリの疑似画像は、既知の画像に対応しているので、比較の結果を使用して、例えば、関心対象である疑似画像に対応する第1画像が、
(i)既知の画像の1つ以上のクラスまたはカテゴリにある、
(ii)特定の既知の画像である、
(iii)既知の画像の1つ以上のクラスまたはカテゴリにない、
(iv)既知の画像ではない
のうちの1つ以上であるかどうかを判定することができる。
比較の結果は、種々の手法で使用可能である。基本的な使用法の1つは、「一致」が発見されたことを知らせる視覚的、音響的、または他の種類の通知をユーザに提供することである。通知には、典型的に報告が付随し、この報告は、既知の画像の名称のように簡単であってもよいし、または識別の信頼性レベルの指示が含まれる他のデータを含んでいてもよい。報告は、視覚的、音響的、または他の形式であり得る。マシンビジョンの場合には、比較の結果は、例えば、ロボットによる実行のための一連の命令、例えば、識別されたオブジェクトと特定の手法で相互作用するための命令の集合であり得る。比較の結果を使用することができる他の手法は、本開示から当業者には明らかであろう。
トレーニング画像の行列Xを因数分解することによって既定の変換行列Φを取得するために、種々のアルゴリズムを使用することができる。同様に、関心対象である第1画像xを関心対象である第一疑似画像aに変換するためにも、種々のアルゴリズムを使用することができる。以下は、使用することができる適切なアルゴリズムの非限定的な例である。
トレーニング画像の集合を使用して、既定の変換行列を生成するためのアルゴリズム
開示されている方法のパターン認識におけるロバスト性への鍵は、既定の変換行列である。上で考察したように、既定の変換行列は、トレーニング集合として使用される第1画像の集合から取得される。既定の変換行列を生成するプロセスは、第1画像のトレーニング集合を含む行列を2つの別個の行列に因数分解することを含む。1つの行列を2つの別個の行列に因数分解することは、一般に、ブラインド信号源分離(BSS)として見なされるアプローチであり、ブラインド信号源分離(BSS)は、歴史的に、独立した信号源を識別または近似するために開発されたものである。BSSの一般的な考察は、Comon and Jutten 2010およびYu, Hu et al. 2014に記載されている。本明細書に開示されている方法は、行列および(列)ベクトルに対する演算と、線形方程式の系に対する解法とを含む線形代数を使用し、その一般的な考察は、Gill, Murray et al. 1991およびStrang 2006に記載されている。本方法は、最適化法も使用し、その一般的な考察は、以下の文献に記載されている(Gill, Murray et al. 1991, Dantzig and Thapa 1997, Chen, Donoho et al. 2001, Boyd and Vandenberghe 2004, Candes and Tao 2005, Donoho 2006, Comon and Jutten 2010, Donoho, Tsaig et al. 2012, Yu, Hu et al. 2014)。
一般に、既定の変換行列の生成は、2ステップのプロセスを通じて実現可能である。第一に、トレーニング集合内の、まだデジタル化されていないそれぞれの画像がデジタル化され、必要に応じて次元m1×m2(例えば、25×25=625)の第1画像へと前処理される。上で考察したように、この前処理は、好ましくは、画像認識が施されるべきオリジナル画像に対して実行されるものと同じ前処理である。第1画像は、M次元のベクトル(M=m1・m2)としてさらに表され、したがって、それぞれの第1画像は、トレーニング集合行列Xのうちの1つの列ベクトルを形成することができる。したがって、トレーニング集合がN個の第1画像(例えば、N個の顔)から成る場合には、トレーニング集合行列Xは、M×N次元の行列である。
第2のステップでは、行列Xが、2つの行列AおよびΦに因数分解される。ここで、Φは、既定の変換行列である。Φの次元は、M×Kである。Aは、K×N行列であり、K×N行列は、N個の第1画像をK次元で表す。Aのそれぞれの列は、トレーニング集合の対応する第1画像を、この第1画像の疑似画像に変換したものであり、疑似画像の次元は、Kである。
第1画像のトレーニング集合を使用して、トレーニング集合の第1画像に対応する疑似画像がスパースになるように、既定の変換行列が生成される。疑似画像は、一意ではなく、ただし、トレーニング集合を構成している画像と、以下のアルゴリズム1のようなAおよびΦの初期化ステップとに依存していることに留意されたい。しかしながら、一旦Φが決定されると、Φを使用して生成された疑似画像(例えば、以下のアルゴリズム2を使用して生成された疑似画像)は、Φにのみ依存するようになり、例えばアルゴリズム2に関連して以下で考察するように、疑似画像生成プロセスにおいて使用される初期化からは独立することとなる。なお、疑似画像生成プロセスにおいて使用される初期化は、例えばランダムであってよい。
本明細書に開示されている方法では、BSS問題に2つの制限が課せられる。第一に、ΦおよびAにおける全ての要素は、非負である必要がある。第二に、Aは、スパースである必要がある。これらの制約は、疑似画像を生成するために使用される既定の変換行列を取得する際に重要である。特に、これらの制約は、ロバストな画像認識にとって重要である。スパース性の制約により、それぞれ異なる形態を有する複数の第1画像が同じ有意な係数を共有しないように、第1画像の際立った形態学的特徴が辞書要素にグループ化される。非負性の制約は、トレーニング集合内で一緒に発生する特徴のグループ化を強制する。このことは、負の係数の使用を防止することによって実現され、これにより、複雑な特徴の組み合わせから特徴を差し引くことができる。したがって、非負性の制約は、辞書要素が過度に複雑になることを防止し、すなわち、負の係数が許容されていれば発生していた可能性のある、実際の画像内では共起しない複雑な特徴の組み合わせが、分析に残ることを防止する。これらの2つの制約の結果、第1画像内で一緒に発生する可能性のある特徴同士が抽出されていくつかの辞書要素にされ、これにより、第1画像内において共起する特徴の組み合わせ、したがって決定的な特徴の組み合わせが、それぞれ別個の辞書要素に結び付けられる。したがって、この構成は、これらの特徴のための辞書要素と、同様にして第1画像内で一緒に発生する傾向がある他の特徴のための辞書要素との間の区別を最大化する。
換言すれば、これら2つの制約は、ソース特徴を、これらのソース特徴の間の統計的な関係性に基づいて分類(集約)するために非常に効果的である。例えば、トレーニング集合において使用された顔に基づいて、鼻の特定の輪郭が最終的に特定の頬の特徴を有する1つの辞書要素に含まれ、その一方で、耳+眉の特徴の形状が別の辞書要素に含まれる場合がある。例えば、トレーニング集合内の全ての顔が、偶然にもほぼ同じような耳を有していたとしたら、この特定のトレーニング集合において顔を区別する際に「耳」は殆ど情報内容を有していないので、スパース性の制約は、耳を、辞書要素において捕捉された他の特徴と結び付ける傾向があるだろう。したがって、トレーニング集合を選択する際には、Aに適用されるスパース性の制約によって有益な特徴が辞書要素から除外されないように、広範囲の特徴に対して十分な多様性を有するようにすることが有用であり得る。スパース性は、独立した辞書要素の形成を促進するのに効果的であるが、最大の独立性が保証されているわけではないことに留意されたい。
トレーニング集合行列Xの因数分解では、以下の方程式:
X=ΦA
の両辺の間の誤差を最小化する行列AおよびΦを生成することが目標であり、その一方で、ΦおよびAにおける全ての要素が非負であり(すなわち、Φ≧0およびA≧0)、かつAがスパースである必要がある。スパース性は、種々の形式で測定可能である。最も一般的な尺度は、L1ノルムおよびL0ノルムである。スパース性のL1尺度が使用される場合には、疑似画像の成分の絶対値の合計が最小化されるが、その一方で、スパース性のL0尺度が使用される場合には、疑似画像は、非負性の制約によって最小化された数の要素、すなわち、最小化された数の正の要素を有する。スパース性がそのL1ノルムによって定義されている場合には、最小化問題は、以下の形式:
Figure 2021528728
を取る。
ここで、||・||pは、Lpノルム、すなわち絶対値のp乗の合計のp乗根を表す(p>0)。この表記法では、||・||1は、ベクトルaまたは行列AのL1ノルム、すなわち、aまたはAにおける全ての係数値の絶対値の合計を表す。したがって、この問題を解くためのプロセスは、方程式の両辺の間のフロベニウスノルムの差(すなわち、ユークリッド距離)を最小化し、L1ノルムを最小化する必要がある。
0ノルムが、非ゼロ要素の数である場合、最小化問題は、以下の形式:
Figure 2021528728
を取る。
0ノルムが古典的なノルムの定義ではないことに留意されたい。また、L0最小化はNP困難な問題であるので、L0ノルムは、一般に実際には使用されない。L1ノルムの使用は、それ自体でスパース性の尺度を提供するだけでなく、最小化問題を解く際に、L0ノルムに最も近い凸代理(convex surrogate)も提供する。また、pが0よりも大きくて1未満である、通常は小さい(例えば、p=10-5)Lpノルムを使用して、スパース性を定義することも可能である。L0、L1、およびLp(0<p<1)に加えて、スパース性の尺度は、Hoyerによって定義された尺度(Hoyer 2004)、またはGini Indexと称される尺度(Hurley and Rickard 2009)のような他の形式を取ってもよい。上記の式において、λが、スパース性の制約の厳密さを調整するために使用されるパラメータであることに留意されたい。実際には、λの値は、プロセスが進行するにつれてアルゴリズムによって選択可能である。反復回数の関数としてλを選択するための適切なアルゴリズムの代表的な、ただし限定的ではない一例が、以下に記載されている。
実際には、スパースかつ非負のBSSを実行するためのプロセスは、凸最適化問題である。適切なアルゴリズムの一般的な概要が、以下のアルゴリズム1に記載されており、このアルゴリズム1では、第一に、計算をシーディングするためにΦおよびAを非負のランダム行列になるように初期化し、次いで、(関数の勾配の正味の動きの欠如によって特定のアルゴリズムに対して定義された)収束が達成されるまで、課せられた制約を満たすために計算プロセスを反復する。実施例では、具体的には、実施例で使用されるΦ行列を生成する際に、非負のブラインド信号源分離アルゴリズムnGMCA(Rapin, Bobin et al. 2013, Rapin, Bobin et al. 2013)が使用された。このBSSアルゴリズムは、アルゴリズム1の特定の一例である。スパース性は、L1ノルムを使用して測定された。それぞれの反復iにおいて、最後の反復のためのAの値(Ai-1)が、(Ai)を決定するための初期値として使用され、同様に、最後の反復のためのΦの値(Φi-1)が、(Φi)を決定するための初期値として使用された。
Figure 2021528728
このアルゴリズムにおけるラムダの値は、反復回数iによって異なる。典型的に、ラムダは、プロセスの開始時には高レベルのスパース性を強制するために大きい値で始まり、その後、反復が増えると減少し、最終的な値は、典型的には1.0以下になる。例えば、ラムダは、以下の種類の式:
Figure 2021528728
から計算可能であるが、必要に応じて他の式を使用してもよいことを理解すべきである。
この式では、iは、反復回数であり、σresは、X−Φiiの要素の標準偏差であり、要素は、数の集合として扱われる。
I、すなわち最大反復回数の初期化に関して、以下に記載する実施例では、Iが500に設定された。当業者は、アルゴリズム1の任意の特定の用途に対するIの適切な値を決定することができるか、または画像のトレーニング集合を使用して予備計算を実行することにより、Φを取得するために使用可能な他のアルゴリズムを決定することができる。実施例では、Iに到達した際、または最急降下法が停止した際に、Xの列とΦAの列との間のL2差が、誤差尺度として計算され、この差の中央値が、以下のアルゴリズム2における誤差しきい値(ε)として使用された。
第1画像から疑似画像を生成するためのアルゴリズム
第1画像のための疑似画像を生成するプロセスは、既定の変換行列Φに基づいた最小化のプロセスである。このプロセスは、以下の問題x=Φaの解として定式化されており、ベクトルxは、第1画像を表すM次元のベクトルであり、ベクトルaは、第1画像のための疑似画像を構成するK次元のベクトルである。目標は、x=Φa方程式の両辺の間の最小誤差を維持しながら、最もスパースなK次元のベクトルaを発見することである。
例えば、上記の線形代数の教科書(Gill, Murray et al. 1991, Strang 2006)において考察したように、この問題に対する一意の解のための必要ではあるが十分ではない条件は、M≧Kである。M>Kの場合には、一意の解が存在するか、または解が存在しないかのいずれかである。M=Kであって、かつΦがフルランクの場合には、一意の解が存在する。M=Kであって、かつΦがフルランクでない場合には、一意の解は存在しない。M<Kの場合には、一意の解は存在しない。
K(第1画像のための疑似画像内における要素重みの数)が、M(第1画像内における成分の数)よりも大きくなるように選択された場合には、この系は、劣決定であり、古典的な線形代数法を使用した一意の解を有さない。それにもかかわらず、スパース性の制約および非負性の制約のおかげで、驚くべきことに、この系は、効果的な画像認識を実現する。
開示されている方法では、既定の変換行列の生成中に生成される疑似画像の鍵となる特性は、これらの疑似画像がスパースであることであり、このことは、すなわち、トレーニング集合の第1画像のための所与の疑似画像内において、複数の要素のうちのごく一部(例えば、20%以下、または10%以下、または5%以下、または1%以下)のみがアクティブであることを意味する(すなわち、最大の要素重みは、実質的にゼロより大きく、例えば1%以上、または5%以上、または10%以上である)。この特性により、Donoho (Chen, Donoho et al. 2001, Donoho and Elad 2003, Donoho 2006, Donoho, Tsaig et al. 2012)と、Candes and Tao (Candes and Tao 2005, Candes, Romberg et al. 2006, Candes, Romberg et al. 2006)とによって互いに独自に開発された理論は、最小化問題を解く際にスパース性の制約を課すことによって、一意の解を取得することが可能となることを示している。スパース性の尺度は、上で考察したように種々の形式を取ることができるが、最も一般に使用されるスパース性の定義は、L0およびL1である。
1最小化(Donoho 2006)を使用したプロセスの一例は、
Figure 2021528728
を解くことであり、ここで、εは、xとΦaとの間の差の誤差尺度である。
1最小化問題は、例えばシンプレックス法に基づいた凸最適化手順によって実装可能である。これらの技術は、種々の本および研究出版物に記載されている(Gill, Murray et al. 1991, Dantzig and Thapa 1997, Chen, Donoho et al. 2001, Boyd and Vandenberghe 2004, Candes and Tao 2005, Donoho 2006, Donoho, Tsaig et al. 2012)。
とりわけ、本明細書に開示されている方法は、ベクトルaの全ての係数(要素重み)が非負であることを要求する非負性の制約を有する。したがって、問題は、
Figure 2021528728
として適切に記述され、ここで、a≧0という用語は、aの全ての成分がゼロまたは正であることを意味する。
既定の変換行列Φを使用して、ベクトルaによって表される疑似画像を取得するために使用することができるアルゴリズムの代表的な非限定的な例は、Candes and Romberg, 2005の“l1MAGIC”技術である。以下の実施例では、二次制約を用いるCandesおよびRombergのMin−l1アプローチが使用されたが、ただし、逆元を取得する際に行列が正定値であることを要求せず、ベクトルaの係数値が正であることを要求するという修正が加えられ、このことは、アルゴリズムの最後において負の係数をゼロに設定することによって実現された。アルゴリズム1からのε値が、誤差尺度として使用された。
この実施例で使用されたアルゴリズムの構造は、以下の通りであった:
Figure 2021528728
この実施例で使用されたτ1,μ,ηのパラメータの値は、
τ1=max{(2m+1)/(||a0||1),1}
μ=10
η=0.001
であった。
アルゴリズムの目標は、制約||x−Φa||2≦εを満たすベクトルaのスパース性を最小化することである。これは、問題を解いている間、制約された領域内に留まることを定めた最適化問題である。すなわち、これは、aiが、
Figure 2021528728
を満たす必要があることを意味している。しかしながら、目標はスパース性であるので、||x−Φai||2≦εを満たすだけでは、最適化されたスパース性を有するaiに到達したことが示されないことに注意すべきである。むしろ、双対ギャップ(m/τi)と称されるパラメータが所定の値(以下の実施例では0.001)未満になると、最適化の終わりに到達する。しかしながら、このアルゴリズムでは、双対ギャップとの直接的な比較は行われない。その代わりに、収束保証として機能する反復回数(I)が、双対ギャップのパラメータを使用して計算され、次いで、それらの回数の反復ごとにアルゴリズムが実行される。
iを所望の解に向かって移動させるために、コスト関数fを使用することができる。適切なコスト関数の一例は、実施例で使用された以下の関数:
Figure 2021528728
である。
このコスト関数を最小化し、これにより、||x−Φa||2≦εを満たしていて、かつスパースである所望のベクトルaを発見するために、以下のステップを使用することができる:
(1)双対ギャップのパラメータを使用して、コスト関数を最小化するために必要なステップ数を計算する。
(2)実行可能な出発点a0、すなわち、||x−Φa||2≦εの制約を満たす出発点を選択する(この実施例では使用されていないが、必要に応じてa0を、実行可能な領域内のランダムな出発点としてもよいことに留意されたい)。
(3)出発点からコスト関数の最小値に到達するためには、関数の値が出発点の値よりも小さくなる方向へと移動させる必要がある。その方向を発見するために、出発点でのコスト関数が、放物線に近似される(二次近似)。
(4)次いで、放物線の最小値が解析的に発見され、a0を、実行可能な領域内に留めながら上記の方向に最大限に移動させる。
(5)ステップ(4)を実行する際に、コスト関数の減少がチェックされ、このコスト関数の減少が、出発点においてコスト関数の線形モデルによって予測された減少の、事前に選択されたパーセンテージの範囲内に、例えばこの実施例では1.0パーセントの範囲内にあるかどうかが判定される。
(6)この減少が、事前に選択されたパーセンテージの範囲内にない場合には、コスト関数の減少が、事前に選択されたパーセンテージの範囲内に入るまでステップサイズが低減される。
(7)次いで、ステップ(4)の結果として得られた新しい点が出発点として使用され、コスト関数の勾配が、事前に選択されたレベル、例えばこの実施例では0.001を下回るまで、ステップ(3)〜(6)が繰り返される。
(8)勾配が、事前に選択されたレベルを下回ると、τiの値が変更され、例えば10によって乗算され、ステップ(3)〜(7)が繰り返される。
放物線の最小値に到達するために、2つ以上のステップが必要になる場合があることに注意すべきである。実施例では、最大で50のステップが使用され、すなわち、50のステップの前に放物線の最小値に到達したか、または50のステップにおいて到達した点が最小値として使用された。
アルゴリズム2の上記の構造は、“forループ”を使用していたが、以下の構造は、“whileループ”を使用し、なお、τ1,μ,ηのパラメータの値は、上記と同じである。aを取得するための上記の手順と、x=Φa方程式を満たすスパースかつ非負のベクトルを発見するための他の手順とをプログラミングするための他の多数のアプローチは、本開示から当業者には明らかであろう。
Figure 2021528728
典型的なケースでは、第1画像は、グレースケール画像であり、このグレースケール画像のピクセルは、多数の値を有する。場合によっては、第1画像は、二値画像であってもよく、この二値画像のピクセルは、2つの可能な値(例えば、オンまたはオフ)のうちの一方のみを有することができる。この場合には、Kを、M未満になるように選択することができ、これにより、上記の線形代数の教科書(Gill, Murray et al. 1991, Strang 2006)において考察したように、一意の解が存在する。上記の技術は、M未満のKを有する二値画像に適用されると、その一意の解を発見する。しかしながら、この一意の解は、スパース性が適用されてはいるが、特にスパースではないことが判明した。記号の第1画像は、典型的に、一意の解が存在し得るこのカテゴリに分類される。
開示されている方法は、圧縮センシングおよびスパース信号回復(Donoho 2006, Elad 2010, Eldar and Kutyniok 2012)において使用される方法とは異なっていることに注意すべきである。なぜなら、これらの方法では、元の信号を基準的に再構築または近似することが目標であったからである。開示されている方法では、作成された疑似画像は、オリジナル画像とは類似しておらず、異なる次元で作成されている。スパースかつ非負の変換を使用することにより、第1画像の変形形態から、および破損または遮蔽された第1画像から生成される疑似画像を、実施例に示されているように、夾雑物のない第1画像の疑似画像とほぼ同一にすることが可能となる。
図42〜図44は、本開示を実施する際に使用することができる代表的なフローチャートを示す。これらのフローチャート、および以下で考察する図45〜図46のフローチャートは、当然、本開示の実施形態を説明する目的でのみ提供されたものであり、特許請求の範囲によって定義される本発明の範囲を限定することを意図するものでは決してない。
図42は、第1画像を疑似画像に変換する際に使用するための既定の変換行列を構築する際に使用することができるフローチャートを示す。このフローチャートは、(1)顔画像の集合を取得し、必要に応じてこれらの顔画像を、指定された次元M=m1×m2の第1画像へと前処理するステップと、(2)第1画像をX行列に編成するステップと、(3)X行列のスパースかつ非負の因数分解を実行して、既定の変換行列Φと、トレーニング集合のための疑似画像の行列Aとを取得するステップとを含む。その後、必要に応じてAの列を、疑似画像ライブラリとして編成することができる。また、必要に応じて、疑似画像を分類するために、PCA、階層的クラスタリング、および/またはサポートベクターマシンを用いた分析のような統計分析を、行列Aに対して実行することができる。単なる一例として、上記の種類の技術を使用すると、人間の顔を男性または女性の顔に分類することができる。
図43は、画像認識、具体的には顔認識を実行する際に使用することができるフローチャートを示す。このフローチャートは、(1)関心対象である顔画像(関心対象であるオリジナル画像)を取得するステップと、(2)必要に応じてこのオリジナル画像を、指定された次元M=m1×m2の関心対象である第1画像へと前処理するステップと、(3)関心対象である第1画像のスパースかつ非負の変換を実行するための既定の変換行列を使用して、関心対象である疑似画像を生成するステップと、(4)関心対象である疑似画像を、少なくとも1つの疑似画像のライブラリと比較するステップと、(5)比較の結果を報告するステップとを含む。
図44は、1つ以上の疑似画像ライブラリを準備または拡張する際に使用することができるフローチャートを示す。このフローチャートは、(1)1つ以上の疑似画像ライブラリに含められるべき顔画像を取得するステップと、(2)必要に応じてこの顔画像を、指定された次元M=m1×m2の第1画像へと前処理するステップと、(3)第1画像のスパースかつ非負の変換を実行するための既定の変換行列を使用して、疑似画像を生成するステップと、(4)疑似画像を、少なくともいくつかの索引/識別情報とともに1つ以上の疑似画像ライブラリに組み込むステップとを含む。
上記の図42〜図44および下記の図45〜図46のフローチャート、または本開示に基づいて展開される他のフローチャートに記載されているステップは、行列計算のために好適である種々のコンピュータ機器および種々のソフトウェアプログラミング言語、例えば、MATLAB(登録商標)またはOCTAVEを使用して容易に実装可能である。本開示を実施する際に使用することができる他のプログラミング言語には、限定するわけではないが、FORTRAN、C、C++、PYTHON、PASCAL、BASICなどが含まれる。本開示を実施する際に必要に応じて、2つ以上のプログラミング言語を使用してもよい。
計算からの出力は、電子的な形式および/またはハードコピー形式であってよく、表形式およびグラフ形式を含む種々のフォーマットで表示可能である。例えば、グラフは、「MATLAB」およびOCTAVEの一部であるソフトウェア、またはMICROSOFT社のEXCELプログラム、R、もしくは他のソフトウェアパッケージのソフトウェアのような、市販のデータ表示ソフトウェアを使用して準備可能である。
本開示を実装するためのプログラムは、プロセスのステップを実行するためにコンピュータプロセッサによって実行可能な命令が保存されている非一時的なコンピュータ可読媒体上で、ユーザに提供可能である。そのような媒体の非限定的な例には、ディスケット、CD、フラッシュドライブなどが含まれる。プログラムは、インターネットを介してユーザにダウンロードされてもよい。さらに、本開示のプロセスは、例えば、「クラウド」コンピューティングを介してオンラインでユーザに提供可能である。プロセスは、パーソナルコンピュータ、ワークステーション、メインフレーム、スーパーコンピュータなどを含む種々のコンピューティングプラットフォーム上で実行可能である。
既定の変換行列は、フィールドプログラマブルであるコンピュータハードウェアを含むコンピュータハードウェアとして実装可能である。例えば、既定の変換行列は、コンピュータチップ、例えばマイクロチップに直接的にプログラミング可能であり、プログラマブルデバイス、例えばFPGAを使用することによって現場で変更可能である。既定の変換行列を決定する際に十分な大きさのトレーニング集合が一旦使用されると、通常、追加的な学習が不要となり、1つの固定の既定の変換行列を、複数の異なるプラットフォーム(複数の異なるマシン)にわたって使用することができ、ハードウェア実装されたデバイスとして、例えばファームウェアとして提供することができる。ハードウェア実装は、確立された画像認識システムのために特に好適であろう。
すぐ上で述べたように、既定の変換行列は、上で考察した方法によって一旦決定されると、一般に、追加的な学習を必要としない。しかしながら、例えばロバスト性または精度を改善するために追加的な学習が望まれる場合には、「拡張された」既定の変換行列を生成するために2つのアプローチを使用することができる。これらの2つのアプローチは、「デノボ」アプローチおよび「シーケンシャル」アプローチと称される。追加的な学習から結果として得られた拡張された既定の変換行列は、画像認識を実行する際に、既存の既定の変換行列と同じ手法で使用可能であるので、「既定の変換行列」という用語は、既存の(例えば、元の)既定の変換行列と、追加的な学習によって生成される拡張された既定の変換行列との両方を含むことが理解されよう。必要に応じて、デノボアプローチ、シーケンシャルアプローチ、またはこれらのアプローチの組み合わせを使用して、拡張を複数回実行可能であることも理解されよう。
追加的な学習のためのデノボアプローチは、元の既定の変換行列を生成するための上で考察した方法を使用して、拡張された既定の変換行列を生成する。上で考察した方法によれば、第1画像のM×N次元のX行列を形成し、次いで、このX行列を、M×K次元の既定の変換行列(Φ行列)と、トレーニング集合の第1画像に対応するK×N次元の疑似画像のA行列とに因数分解することによって、全てのトレーニング画像が一度に利用される。
デノボアプローチによれば、トレーニング集合の全ての第1画像を一度に使用するこのプロセスが繰り返されるが、より大きい(拡張された)トレーニング集合、すなわちより多くの列を有するX行列が用いられる。具体的には、M×(N+N’)次元のX行列が形成され、ここで、N’は、新しく組み込まれた画像の数である(N’≧1)。次いで、この行列が、M×K次元の既定の変換行列(拡張されたΦ行列)と、拡張されたトレーニング集合の第1画像に対応する、K×(N+N’)次元の疑似画像のA行列とに因数分解される。このプロセスには、非負の乱数を使用したA行列(およびΦ行列)の初期のシーディングが伴うので(上記のアルゴリズム1を参照)、その結果として得られた拡張された既定の変換行列は、一般に、既存の(以前の)変換行列とは非常に異なるものとなり、したがって、以前の行列によって生成された疑似画像ライブラリの再計算が必要となる。したがって、このアプローチは、時間がかかることに加えて、疑似画像と他のデータセット(例えば、前科など)との間における以前に指定された関連付けを混乱させる可能性がある。
第2のアプローチであるシーケンシャルアプローチによれば、このような再計算の必要性を格段に低減することができるか、または完全に省略することができる。シーケンシャルアプローチは、その名前が示唆するようにシーケンシャル学習を実行し、このシーケンシャル学習では、デノボアプローチのように最初からやり直す必要なしに、トレーニング集合内に組み込まれた1つ以上の新しい第1画像に基づいてΦ行列およびA行列が更新される。本方法は、より効率的であるという、デノボ学習に対する利点を提供する。重要なことに、一般に、本方法は、トレーニング集合のための疑似画像を、この疑似画像の識別情報に影響を与えることなく更新することが可能である。
既存の既定の変換行列を拡張するためにデノボアプローチまたはシーケンシャルアプローチを使用する前の予備ステップとして、通常、新しい第1画像または新しい第1画像の集合のための疑似画像を生成できるようにするために、この行列が本当に拡張を必要としているかどうかを判定することが適切であろう。図45は、そのような予備的な問い合わせを実行するための例示的なフローチャートを示す。この図面の最初のボックスに示されているように、プロセスへの入力は、既存の既定の変換行列Φ0と、新しい第1画像の集合Yとであり、なお、この新しい第1画像の集合Yは、ただ1つの新しい第1画像であってもよい。以下で考察するように、シーケンシャルアプローチは、Φ0を生成するために使用されたトレーニング集合に対応する既存の疑似画像の集合A0を使用するので、A0も、デノボアプローチを使用した場合には使用されないが、図45の入力として示されている。
図45の計算ステップ(図45の2番目のボックス)に示されているように、Φ0およびYを使用して、上記のアルゴリズム1の手順と同様の手順を使用して、Yのための疑似画像の集合
Figure 2021528728
が計算されるが、AおよびΦの両方ではなく、Aのみが最小化される。したがって、図45の決定ボックス(はい/いいえのボックス)において使用されるεと同様に、λおよびIも、アルゴリズム1と同様である。決定ボックスに示されているように、誤差E0がε以下である場合には、Φ0を拡張することなく使用し続けることができる。このプロセスは、1つ以上の新しい第1画像のための疑似画像
Figure 2021528728
も生成し、この疑似画像を、例えば、1つ以上の疑似画像ライブラリを拡張するために使用することができる。したがって、
Figure 2021528728
を計算することによって、Φは拡張されないが、その一方で、疑似画像は拡張される。
図45の計算ボックスがεよりも大きいE0の値を生成すると、プロセスは、図46に進む。(必要に応じて、図45のプロセスを最初に実行することなく、図46のプロセスを実行してもよいこと、同様に、図45のプロセスを最初に実行することなく、デノボアプローチを開始してもよいことに留意されたい。)図46のプロセスは、既定の変換行列Φ0と、対応する疑似画像の集合A0とを生成するために、N個の第1画像の集合が使用されたと仮定する。新しい第1画像、または新しい第1画像の集合Yをシステムに組み込もうとした場合には、本方法は、新しい既定の変換行列Φ(拡張された既定の変換行列)と、L1最小化を使用してコスト関数:
Figure 2021528728
を最小化する疑似画像Aとを検索する。
図46には、この最小化を実行するためのプロセスの概要が記載されており、この概要とともに使用することができるアルゴリズムの代表的な非限定的な例は、以下のアルゴリズム3に記載されている。本開示から当業者には明らかであるように、必要に応じて、シーケンシャルプロセスを実行するための他のアルゴリズムおよび概要を使用してもよい。
Figure 2021528728
アルゴリズム3において使用されるIおよびλの値は、アルゴリズム1に関連して上で考察した方法と同じ手法で決定される。アルゴリズム1と同様に、それぞれの反復iにおいて、最後の反復のためのAの値(Ai-1)が、(Ai)を決定するための初期値として使用され、同様に、最後の反復のためのΦの値(Φi-1)が、(Φi)を決定するための初期値として使用される。
図46のプロセスおよびアルゴリズム3は、トレーニング集合の以前のメンバーのための既存の疑似画像と、既存の疑似画像ライブラリとを実質的に保持することが可能である。このことは、既存の既定の変換行列Φ0がロバストである場合には、特に当てはまる。アルゴリズム3を検討すると、Yは、第1画像の元のトレーニング集合(X行列)と連結されるのではなく、Xのための代理(proxy)としてのΦ00と連結されていることが明らかである。したがって、Φ0は、プロセスにおいて積極的に使用され、それゆえ、拡張された既定の変換行列の内容に対して、ひいては、その拡張された行列を使用して生成される疑似画像に対して影響を与えることができる。Φ0がロバストである場合には、拡張プロセスにおいてトレーニング集合に導入される新しい第1画像を網羅するために、拡張される既定の変換行列を、Φ0から過度に異ならせる必要はない。その結果、元の既定の変換行列(Φ0)によって生成される疑似画像と、拡張された既定の変換行列によって生成される疑似画像とは、互いに過度に異なっている必要がないので、既存の疑似画像と他のデータセットとの間における以前に指定された関連付けを保持することができる可能性がより高くなる。
図47は、本明細書に開示されている方法を使用して画像認識を実行するためのコンピュータシステム200のコンポーネントの非限定的なアーキテクチャを概略的に示す。この非限定的な例示的な実施形態では、システム200は、1つ以上のコンピュータプロセッサ201と、データおよび命令が保存された1つ以上のメモリ203とを含み、このデータおよび命令は、1つ以上のコンピュータプロセッサによって使用された場合に、第1画像を疑似画像に変換するステップを実行することができ、次いで、疑似画像を疑似画像のライブラリと比較するステップ、および/または疑似画像を1つ以上の疑似画像ライブラリに組み込むステップを実行することができる。1つ以上のコンピュータプロセッサと、1つ以上のメモリとを使用して、オリジナル画像を第1画像に変換することもできる。同じまたは別個のコンピュータシステムを使用して、第1画像から疑似画像への変換を実行する際に使用するための1つ以上の既定の変換行列を計算することができる。図47では、既定の変換行列205と、疑似画像ライブラリ207とが別々に図示されているが、これらは、1つ以上のメモリ203の一部であってもよいし、または1つ以上のコンピュータプロセッサ201にハードコーティングされていてもよいことが理解されよう。
コンピュータシステム200は、コンピュータシステム200のプロセッサ/メモリユニット209に加えてI/Oデバイス211を含むこともでき、このI/Oデバイス211は、取得した信号を、I/Oインターフェース213を介してプロセッサ/メモリユニットに送信する。これらのI/Oデバイスを使用して、例えば、オリジナル画像、第1画像、疑似画像ライブラリ、および/または既定の変換行列を、システムのメモリにロードすることができる。これらのデバイスを使用して、オペレータコマンドをシステムに送信することもできる。プロセッサ/メモリユニット209によって実行される計算の結果、例えば、疑似画像、既定の変換行列、疑似画像ライブラリ、または比較の報告などを、出力/表示ユニット215を介して出力すること、および/または非一時的なコンピュータ可読記憶媒体217に保存することができる。
本発明の範囲を限定する如何なる意図もなく、本発明を、以下の非限定的な実施例によってさらに説明する。
実施例1
この実施例は、本明細書に開示されている画像認識技術の、顔認識問題への適用を説明する。
図1は、関心対象である人物のオリジナル画像を示し、この関心対象である人物を識別することが望まれている。本明細書に開示されている顔認識技術の適用においてよくあるように、この関心対象である人物は、他の人々の群衆の中にいる。図2Aは、第1レベルの前処理の最初の段階(第1ラウンド)を示し、ここでは、図1が、関心対象である人物の顔だけを強調するためにトリミングされている。トリミングされた顔の次元は、同数の垂直方向のピクセルと水平方向のピクセルとを有するものであった。具体的には、トリミングされた画像は、10000ピクセル(100×100)を有するものであった。トリミングは、オープンソースソフトウェアであるOPEN−CVを使用して実行されたが、GOOGLE VISION APIまたはCLANDMARKのような顔検出ソフトウェアを使用して実行されていてもよい。
図2Bは、さらなる第1レベルの前処理を示し、ここでは、図2Aの画像が、事前に指定された次元(m1×m2=25×25)までダウンサンプリングされた。この実施例では、ダウンサンプリングは、4×4ピクセルのサブエリアにわたる局所平均によって実現された。このダウンサンプリングは、図2Aの100×100ピクセルを、図2Bの25×25ピクセルまで低減させたものである。各ピクセルのためのグレースケール値は、0から1の間になるように正規化されている。図2Bの画像は、この実施例での関心対象である第1画像(ステップ(a)の第1画像)であり、したがって、この実施例でのMは、625であった。
自動化されたWebベースの画像検索から、2000個の顔画像のトレーニング集合(N=2000)が取得され、図2Aから図2Bを取得するために使用されたものと同じ第1レベルの前処理に供された。図3は、このトレーニング集合のうちの5個の顔画像を示す。
2000個のトレーニング画像の全集合と、上記のアルゴリズム1とを使用して、1500個の辞書要素から構成されるΦ行列、すなわち、既定の変換行列が取得された(すなわち、K=1500であり、Φは、625×1500行列であった)。図4は、このようにして取得された1500個の辞書要素のうちの36個を示す。図4では、辞書要素は、既定の変換行列の列としてではなく二次元の配列として表示されている。
上で考察したように、既定の変換行列Φを生成するプロセスは、トレーニング集合内の全ての画像に対してそれぞれ1つの疑似画像を生成する。それぞれの疑似画像は、Φにおける列の数(辞書要素の数)と同数の要素重み(成分)を有し、すなわち、それぞれの疑似画像は、この実施例では1500であるK個の要素重みを有する。図5は、このようにして生成された2000個の疑似画像のうちの5個を示す。この図面では、疑似画像の要素重みは、コンピュータシステムでの典型的な形式のように数値のベクトルとしてではなく、二次元のグレースケール配列として表示されている。見て取れるように、現実世界からのオブジェクト(すなわち、人間の顔)は、第1画像内では知覚できるが、疑似画像内では知覚できない。
図6は、図2Bに示された顔に対応する疑似画像のアクティブ要素を示し、ここで、アクティブ要素とは、実質的にゼロより大きい係数(要素重み)を有する辞書要素のことである。この図面の疑似画像は、アルゴリズム2と、図4に示されている辞書要素が含まれた既定の変換行列とを使用して取得されたものである。
この疑似画像の上位12個の辞書要素、すなわち、最大の要素重みを有する12個の辞書要素が、全部で1500個の辞書要素を示している図6の下側のパネルにおいて、濃い枠線によってマーキングされている。疑似画像におけるそれぞれの要素のグレースケールは、それらの要素の係数値を示す。
図7には、有意な辞書要素の係数値(要素重み)が記載された、アクティブ要素の代替図が示されている。それぞれの要素の係数値は、それらの要素に対応する線の高さによって示されている。
図2B、ひいては図1に示されている顔の識別は、関心対象である疑似画像、すなわち図6の疑似画像と、疑似画像のライブラリのそれぞれのメンバーとの間の類似性スコアを計算することによって実行された。この実施例の目的につき、疑似画像ライブラリは、トレーニング集合のための疑似画像の集合であり、この疑似画像の集合は、上で考察したように、既定の変換行列Φが生成されると同時に生成されている。したがって、疑似画像ライブラリのS値は、2000であった。この実施例および実施例2〜実施例10のための類似性スコアとして、関数cos(θ)が使用された。
図8は、図6の関心対象である疑似画像と、図5の部分の取り出し元である疑似画像ライブラリ全体との比較による、関心対象である第1画像の、したがってオリジナル画像の識別の報告を示す。最高のスコアを有する第1画像は、関心対象である第1画像と同一である。見て取れるように、最高のスコアを有する第1画像の類似性スコアは、その次に高いスコアよりも格段に高く、したがって、K/Mが2.4(K=1500;M=625)であるこの系における識別のロバスト性を示している。「MATLAB」のRANK()関数によって決定されるX行列のランクは、625であり、したがって、この実施例でのK/RおよびK/Mの値は、両方とも2.4であり、これらの値の各々が、ロバスト性を示している。この実施例1でのK/MおよびK/Rの値は、以下の実施例3〜実施例6でのK/MおよびK/Rの値でもあった。
実施例2
この実施例は、K/MおよびK/Rの比率の値を低下させると画像認識手順のロバスト性がどのように損なわれるかを示す。
実施例1と同じ手順およびトレーニング集合を使用し、Kの値を1500ではなく500に設定した。したがって、疑似画像ライブラリは、依然として2000個の疑似画像を有していたが、Kが異なるので、疑似画像は異なるものとなった。X行列は、実施例1と同じであり、したがって、実施例1と同じであるMに等しいRの値、すなわち625を有していたので、K/MおよびK/Rの値は、両方とも0.8であった。この実施例2でのK/MおよびK/Rの0.8という値は、以下の実施例7でのK/MおよびK/Rの値でもあった。
図9〜図13は、結果を示す。図9を実施例1の図4と比較すると、Kを低下させたことによって辞書要素が変化したことが見て取れる。Kの値がより小さい場合には、辞書要素は、より少ない特徴を組み込んでおり、図4の辞書要素よりも大雑把ではあるが、依然として顔として見えている。
図10〜図12を実施例1の図5〜図7と比較すると、Kの値を低下させた結果、アクティブ要素が増加したこと、つまり疑似画像のスパース性が低下したことが見て取れる。スパース性の低下は、関心対象である疑似画像と疑似画像のライブラリとの比較に影響を与える。具体的には、図13に示されているように、疑似画像のライブラリ内のより多数の顔が、図8のより少数の顔と比較して、類似性スコアにおいて中程度の値を有している。同じ正しい顔が識別されたが、この実施例では、Kの値を低下させたことにより、正しい顔に対する類似性スコアと、最も近い次点者に対する類似性スコアとの間の差(コントラスト)が、実施例1の場合よりもはるかに小さくなった。したがって、ロバスト性が損なわれている。
このロバスト性の低下は、以下の実施例3〜実施例6および実施例7によってさらに実証されており、実施例3〜実施例6では、Kが1500である場合に、種々の種類の不完全な顔画像の識別が成功したが、実施例7においてKを500に低下させ、したがって、実施例3〜実施例6では1.0超としたK/MおよびK/Rの比率を、実施例7では1.0未満とした場合には、識別の成功が実現しなかった。
実施例3
この実施例は、顔の一部が隠されている人々、この場合には眼鏡またはサングラスによって隠されている人々に対して顔認識を実行するための本技術の能力を示す。実施例1と同じ手順、トレーニング集合、および疑似画像ライブラリが使用されているが、ただし、この実施例では、関心対象である第1画像は、目の周りに眼鏡またはサングラスを含めることによって修正された、トレーニング集合からの顔であった。トレーニング集合内の顔は、同じままであった。すなわち、識別したい関心対象である第1画像のみが変更された。
図14および図15は、結果を示す。実施例1の既定の変換行列Φと、アルゴリズム2とを使用して取得された疑似画像は、アクティブ要素の増加を示した。具体的には、図14および図15について、最大の要素重みのしきい値を0.3%とした場合、元の第1画像に関しては、それぞれ4.3%および2.6%のアクティブ要素を示したのに対し、変更された(不完全な)第1画像に関しては、オリジナル画像のために使用した上記のしきい値、すなわち元の第1画像のための最大の要素重みに基づいた上記のしきい値を使用した場合、それぞれ18.9%および19.1%のアクティブ要素を示した。しかしながら、追加的な要素のための係数値は、比較的小さく、すなわち、図14および図15の中央図では実質的に不可視であった。したがって、不完全な第1画像のための疑似画像のスパース性は損なわれたが、それでもなお、実質的にスパース性が存在した。重要なことに、これらの中央図において見て取れるように、主要な高い要素重み(高い係数値)の辞書要素は、修正された顔画像とオリジナル画像との間で同じである。
図14および図15の右図に示されているように、分析において使用された関心対象である第1画像が眼鏡を着用していたという事実にもかかわらず、類似性スコアは、オリジナルの顔が正しい顔であることを明確に識別する。
実施例4
この実施例は、トレーニング集合内に存在しない表情を有する人々に対して顔認識を実行するための本技術の能力を示す。実施例1と同じ手順、トレーニング集合、および疑似画像ライブラリが使用されている。トレーニング集合内の顔は、笑顔から非笑顔への変更(図16の上側のパネル)、または非笑顔から笑顔への変更(図16の下側のパネル)によって修正されている。次いで、これらの修正された顔が、関心対象である第1画像として使用されたが、トレーニング集合内の画像は、変更されなかった。すなわち、既定の変換行列Φと、比較のために使用される疑似画像のライブラリとは、変更されなかった。
図16の右図は、複数の異なる表情を有する顔と、ライブラリの疑似画像との間の類似性スコアを示す。最高のスコアは、オリジナルの顔を正しく識別した。
実施例5
この実施例は、顔の複数の部分が隠されている人々、この場合にはサングラス、顔の毛、またはその両方によって隠されている人々に対して顔認識を実行するための本技術の能力を示す。実施例1と同じ手順、トレーニング集合、および疑似画像ライブラリが使用されている。この実施例では、関心対象である第1画像は、目の周りにサングラス、口の上に口髭、またはその両方を含めることによって修正された、トレーニング集合からの顔であった。トレーニング集合内の顔は、同じままであった。すなわち、識別したい関心対象である第1画像のみが変更された。
図17は、結果を示す。修正された顔と、トレーニング集合のための疑似画像のライブラリとの間の最高の類似性スコアは、分析において使用された関心対象である第1画像が目の周りにサングラス、口の上に口髭、またはその両方を着用していたという事実にもかかわらず、オリジナルの顔である。
実施例6
この実施例は、オブジェクトによって顔の一部が隠されている人々に対して顔認識を実行するための本技術の能力を示し、このオブジェクトは、実際には、帽子、スカーフ、またはマスクなどである可能性がある。実施例1と同じ手順、トレーニング集合、および疑似画像ライブラリが使用されている。この実施例では、関心対象である第1画像は、顔の半分が見えないようにする黒色のマスクによって遮られた、トレーニング集合からの顔であった。マスクは、顔の種々の部分(すなわち、上半分、下半分、左半分、または右半分)を隠すために配置された。図18および図19は、隠された顔と、トレーニング集合のための疑似画像のライブラリとの間の類似性スコアを示す。2つのケース(図18の左側のケース)では、正しい顔は、最高のスコアを有する顔ではなかったが、高い類似性スコアを有する顔のうちの1つであった。他の6つのケース(図18の右側のケースおよび図19の全てのケース)では、オリジナルの顔は、最高のスコアを有する顔であった。
実施例7
この実施例は、実施例3〜実施例6で使用した1500というKの値を500に低下させた場合の影響を示す。上で述べたように、Kを低下させることにより、この実施例でのK/MおよびK/Rの値は、0.8となった。
具体的には、図20および図21は、実施例3の図14および図15に対応し、図22は、実施例4の図16に対応し、図23は、実施例5の図17に対応し、図24および図25は、実施例6の図18および図19に対応する。実施例1と同じ手順およびトレーニング集合が使用されているが、ただし、この実施例では、Kは、1500ではなく500であり、したがって、疑似画像ライブラリは、依然として2000個の疑似画像を有していたが、Kが異なるので、疑似画像は異なるものとなった。
図20〜図25において見て取れるように、それぞれのケースにおいて間違った顔が識別されたので、K/MおよびK/Rの値が1.0未満であった場合に、不完全な画像を識別する際のロバスト性が欠如することが示された。
実施例8
この実施例は、Kの値、ひいてはK/MおよびK/Rの値を増加させることによって、不完全な第1画像に対して実行される画像認識においてさらに優れたロバスト性を実現するための能力を示す。
実施例5と、実施例6の女性の顔とが再度使用されたが、Kは、1500ではなく2500に等しく、したがって、K/MおよびK/Rの比率は、それぞれ2.4ではなく4.0であった。図26および図27は、分析の結果を示す。
これらの図面において見て取れるように、正しい顔に対する類似性スコアは、今や、最も近い次点者よりもはるかに高くなっており、すなわち、類似性スコア間のコントラストが大きくなっている。Kが1500である図17および図18と比較すると、Kが2500に等しい図26および図27での正しい顔は、今や、類似性スコアの観点から実質的に孤立している。また、実施例6の女性の顔の場合には、顔の一部が隠されているかどうかに関係なく、今や、正しい顔が識別されている。この実施例および実施例6の結果が示すように、女性の顔は、男性の顔よりも識別がより難しい傾向があるので、ロバストな識別のためにいくらか大きいK/Mおよび/またはK/Rの値が必要になる場合があることが判明した。
実施例9
この実施例は、トレーニング集合内に存在しない人々に対して顔認識を実行するための本技術の能力を示す。
使用された画像は、http://cvc.cs.yale.edu/cvc/projects/yalefaces/yalefaces.htmlに掲載されているエール大学の顔画像データベースからの画像であった。具体的には、それぞれ11種類の異なる表情または照明条件を有する15人の個人が使用された。図28は、使用された165個の顔を示す。図28のそれぞれの行は、複数の異なる表情または照明条件を有するそれぞれ異なる個人に対応し、これらの異なる表情または照明条件に対応する1人の個人が、列に沿って移動するにつれて示されている。
図28のそれぞれの顔画像は、関心対象である第1画像として扱われ、実施例1と同じ手順およびトレーニング集合を使用して関心対象である疑似画像に変換されたが、ただし、Kは、1500ではなく2500に等しく、したがって、K/MおよびK/Rの比率は、2.4ではなく4.0であった。次いで、その結果として得られた関心対象である疑似画像間の類似性スコアが、ペアごとに取得され、計算された。
図29は、15人の個人と、これらの個人の11種類の顔との間におけるペアワイズスコアを示す(合計27225回の比較)。グレースケールが濃いほど、類似性スコアがより高いことを示す。同じ人物に属する顔がグループ化されていて、軸に沿った番号によって示されている。この図面の斜めの線に沿ったグループ化は、所与の人物が、それぞれ異なる表情および照明条件を有していても、彼自身/彼女自身の顔の画像間において高い類似性スコアを有することを示している。他方で、異なる人々の疑似画像間の類似性スコアは、低くなっている。したがって、このグラフは、表情および照明条件が異なるにもかかわらず、同じ人物に属する顔同士は、その人物の疑似画像では非常に類似しているが、異なる人物に属する顔とは類似していないことを示している。
図30は、図28のエール大学のデータベースからの顔のための疑似画像と、実施例1のトレーニング集合の顔のための疑似画像との間の類似性スコアを示す。これら2つの無関係な顔の集合のための疑似画像間の類似性スコアは、低くなっている。
したがって、本技術は、所与の個人が疑似画像ライブラリの一部であるかどうかを判定することが可能であり、また、複数の異なる表情および複数の異なる照明条件を有する特定の個人の第1画像を、たとえその個人が、疑似画像を生成する際に使用された既定の変換行列を生成するために使用されたトレーニング集合の一部ではなかったとしても、グループ化することが可能である。
実施例10
この実施例は、記号の認識を実行するための本技術の能力を示す。
図31は、世界の言語からの1000個の文字を示す。これらの1000個の記号は、800個の辞書要素(すなわち、K=800)を有する既定の変換行列Φを生成するためのトレーニング集合(すなわち、N=1000)として使用され、次いで、このトレーニング集合は、夾雑物の有無にかかわらず、英語の大文字「H」および中国語の「並」文字のための疑似画像を生成するために使用された。
トレーニング集合の記号の各々と、テストで使用された「H」および「並」の文字とは、256ピクセル(すなわち、M=256)を有しており、これにより、Φ行列に対して3.1のK/Mの比率が与えられている。したがって、既定の変換行列は、それぞれの記号を256次元の空間から800次元の空間に変換した。上記の実施例1で参照した「MATLAB」のRANK()関数を使用して決定されるX行列のランクは、253であったので、K/Rの比率は、3.2であった。Φの計算中に生成されたA行列は、夾雑物を有する形式と夾雑物のない形式との両方における、文字「H」および文字「並」の疑似画像と比較するための疑似画像ライブラリ(S=1000)として使用された。前述した実施例と同様に、Φ行列を生成するためにアルゴリズム1が使用され、第1画像を疑似画像に変換する際にはアルゴリズム2が使用された。
図32は、夾雑物のない「H」の文字(上側のパネル)と、夾雑物のない「並」の文字(下側のパネル)とに関する結果を示す。この図面に示されている類似性スコアは、疑似画像ライブラリの疑似画像の要素重みに対する関心対象である疑似画像の要素重みについてのcos(θ)関数の値である。見て取れるように、いずれのケースにおいても正しい文字が発見された。英語の大文字「H」のケースにおける2番目に高い類似性スコアは、図31の3行目の最後の列に出現するギリシャ語の大文字「Η(エータ)」であった。見て取れるように、このギリシャ文字と英語の文字との違いはごくわずかであるが、それでもなお、本明細書に開示されている画像認識手順は、これら2つの文字を区別することができた。
図33は、破損した第1画像、具体的にはピクセルが欠落した(ピクセル値がゼロに設定された)第1画像に関する結果を示す。ここでも、画像が破損しているにもかかわらず、本手順によって正しい文字が容易に識別された。
上で述べたように、図31の記号のような二値画像の場合には、ロバストな画像認識のためのKに関する要件をしばしば緩和することができる。この影響は、図33の反復である図34に示されているが、ただし、図34では、Kは、800ではなく100に等しい。したがって、図33の3.1のK/Mの比率と、3.2のK/Rの比率との代わりに、図34は、わずか0.4のK/MおよびK/Rの比率を有していた。
図34において見て取れるように、本手順は、たとえKの値がこのように低くても、破損した「H」の文字および破損した「並」の文字を識別することができた。図33と比較すると、実質的な類似性スコアを有する多数の記号によって証明されるように、ロバスト性は明らかに損なわれたが、この系は、依然として正しい記号を発見するために十分にロバストであった。
図35は、Kを800から100に変更した場合の影響をさらに描写している。この図面のパネルは、関心対象である第1画像内のピクセル数の関数として、関心対象である疑似画像と正しい疑似画像との間の誤差、特に1−cos(θ)の値をプロットしている。具体的には、図31の1000個の記号の各々からのピクセルのランダム集合が、関心対象である第1画像として使用され、これらの関心対象である第1画像が、関心対象である疑似画像に変換され、次いで、これらの関心対象である疑似画像が、夾雑物のない記号のための疑似画像と比較された。ランダム集合におけるピクセル数が、横軸に沿ってプロットされており、1−cos(θ)の値が、縦軸に沿ってプロットされている。具体的には、データ点は、1000個の記号の平均であり、実線は、中央値に対応し、網掛けは、コサイン誤差の分散に対応する。上側のパネルは、K=800の場合であり、下側のパネルは、K=100の場合である。
図35の下側のパネルにおいて見て取れるように、K=100の場合であっても、ピクセル数が総ピクセル数の約50%よりも多くなると、正しい識別の可能性は、約80%よりも大きくなる。K=800の場合には、ロバスト性が著しくより優れており、関心対象である第1画像内に256ピクセルのうちの40ピクセル(15.6%)しか存在しない状態でも、正しい識別の中央値は、100%に達する。この結果は、画像認識を実行するために疑似画像を使用した場合の、特に、関心対象である第1画像がより高次元の空間に変換されている疑似画像を使用した場合の、意外な性能(意外なロバスト性)を示している。
実施例11
この実施例は、拡張された既定の変換行列を作成するためのデノボアプローチとシーケンシャルアプローチとを比較する。この実施例は、第1画像として、図36の1000個の文字を使用し(N=1000)、これらの文字の各々は、二値ピクセルの16×16の配列(M=256)であった。この実施例で使用されたKの値は、1000であり、これにより、3.9のK/Mの比率が与えられている。
M×K次元の既定の変換行列は、2つの手法で計算された。第一の手法として、図36の全ての文字が、既定の変換行列を拡張するために、デノボアプローチを使用した場合に行われるであろうように一度に使用された。既定の変換行列を計算するために、アルゴリズム1が使用された。
第二の手法として、図36の文字が、シーケンシャルアプローチの極端な例として順次に使用された。最初の文字のためにアルゴリズム1が使用され、その後、アルゴリズム3が繰り返し(999回)使用され、この際には、後続する計算のための既存の既定の変換行列として、最後の計算の既定の変換行列が使用された。
2つのアプローチに関して結果として得られた1000個の辞書要素が、図37および図38に示されており、ここで、図37は、デノボアプローチの場合であり、図38は、シーケンシャルアプローチの場合である。目視で検査すると、2つのアプローチによって計算された既定の変換行列の辞書要素間に高レベルの類似性があることが分かる。
図39は、図37の辞書要素と図38の辞書要素との間の類似性を定量化したものである。具体的には、この図面は、シーケンシャル学習から学習された辞書要素と、デノボ学習から学習された辞書要素との間におけるコサイン類似性をプロットしている。ヒートマップは、2つの学習方法間におけるペアワイズの類似性スコアを示す。高いスコア(濃い色)は、類似性のレベルが高いことを示す。斜めの濃い線は、要素同士がほぼ同一であることを示す。見て取れるように、2つの学習アプローチは、最初の約850個までの要素に対してほぼ同一の辞書要素の集合を生成した。最後の150個程度は、比較的異なっていた。このことは、最初の850個の要素が、重要な特徴の組み合わせを全て捕捉した可能性が高く、最後の150個程度は、精度を改善するのみであって、ロバスト性のためには必要なかったからであると考えられる。
図40および図41は、シーケンシャルアプローチを使用して取得された既定の変換行列のさらなる特徴を示す。図40は、既定の変換行列の辞書要素の256個の成分間におけるペアワイズ相関のプロットである。実質的な斜めの線を外れた値の存在は、ロバストな画像認識にとって望ましい、辞書要素の個々の成分に実質的な情報内容があることを示す。図41は、トレーニング集合(図36)のためにシーケンシャルアプローチを使用して生成された疑似画像の成分間におけるペアワイズ相関のプロットである。実質的な斜めの線を外れた値の欠如は、ロバストな画像認識にとって望ましい、第1画像が疑似画像空間に変換された場合に実質的に一意の表現を有することを示す。
上で考察したように、本明細書に開示されている画像認識技術および関連するコンピュータシステムの主な用途の1つは、人間の顔認識である。この用途に関連して、一実施形態では、本明細書に開示されている顔認識技術を使用して、カメラまたはビデオレコーダのような画像捕捉装置から捕捉された画像と、関連情報を取得するための1つ以上のデータベースとを使用して、人物を識別することができる。例えば、セキュリティチェックポイントの環境では、チェックポイントを歩いて通過する人物を、顔の画像から直接的に識別することができる。これに代えて、本明細書に開示されている画像認識技術を使用して、身体画像から、または人物の歩行構造を捕捉した画像のシーケンスから、人物を識別することができる。さらなる代替案として、顔画像データ、身体画像データ、および歩行データのうちの2つ以上の組み合わせを使用して、人物を識別することができる。
これらの種類の実装形態では、個人識別情報を作成する必要なしに人物が識別される。このような実装形態により、他の形式の識別情報の必要性が減少する。刑事司法制度の場合には、顔画像、身体画像、および/または歩行画像を、既存の犯罪データベースとともに使用して、犯罪の加害者を識別することができるか、または既知の犯罪者が特定の時間に特定の場所に存在していたかどうかを判定することができる。消費者を識別する場合には、来店したリピーター顧客を、店員がこの顧客の購入履歴に基づいて製品を推薦することが可能となるように認識することができる。電子商取引の環境では、開示されている技術により、顔画像、身体画像、歩行画像、またはそれらの組み合わせを識別情報として使用することが可能となり、それにより、他の形式の識別情報の必要性を省略することができる。人物の識別情報が既知であれば、その人物のクレジットアカウントまたはデビットアカウントに直接的に請求可能であるので、現金、クレジットカード、またはデビットカードの必要性が省略される。
開示されている技術は、顔認識に加えて他の形式の画像化においても使用可能である。例えば、動物または他の生物(例えば、植物、細胞、器官、組織、またはウイルス)の画像を、顔の画像と同じ手法で処理して、疑似画像を生成し、次いで、この疑似画像を既知の疑似画像のライブラリ(データベース)と比較することができる。分析される画像は、MRI、fMRI、X線、CT、および同様の装置のような医用画像化装置によって生成可能である。顕微鏡によって生成された画像、例えば、血液および組織サンプルの画像を、オリジナル画像として、ならびにシーケンスの形式(例えば、遺伝子シーケンス)またはトレースの形式(例えば、EKGおよびEEGトレース)の画像として使用することもできる。関心対象である疑似画像と疑似画像ライブラリとの比較の結果を、例えば、疾患の診断の一部として、かつ/または医療処置において使用することができる。
本明細書に開示されている技術の他の用途は、人物の署名、網膜、指紋、または他の生物測定学的特徴を、生体認証の目的で別々にまたは組み合わせて使用することを含む。オブジェクトのアセンブリ(例えば、芸術家によって作成されたコラージュ)を、顔の画像と同じ手法で扱ってもよい。実際には、疑似画像を使用して、芸術家の作品を認証すること、または特定の製造業者によって製造されたとされるオブジェクト、例えばモダン家具またはアンティーク家具の真正性を確立することができる。
開示されている方法を、軍事状況に適用して、潜在的な脅威の高信頼性の認識を提供し、非常に変動しやすい条件下で友好的な施設と敵対的な施設とを区別することができる。例えば、本方法を適用して、霧、砂嵐、煙、薄明、または夜のような条件下で、カモフラージュされている状態の、または部分的に隠蔽されている状態の敵の戦車を識別することができる。
開示されている方法を、リモートセンシングにおいて使用してもよく、リモートセンシングは、例えば、人間の目には直接的には見えないパターンを検出するセンサを介して取得された画像を使用する。例えば、ソナーまたは赤外線スペクトル画像を使用して、例えば、鉱物、ガス、または石油の堆積物を認識することができる。
より一般には、開示された画像認識技術が、あらゆる形態のマシンビジョンにおいて使用可能であることは、当業者には明らかであろう。例えば、開示されている方法を、画像または画像シーケンスに適用して、自律型のロボット装置、車両、または船舶における車両、障害物、交通標識、および通行状態を識別して、中央の意思決定者(例えば、コンピュータ)に目下の状態を通知することができる。開示されている方法を、機械的、電気的、および電子的な製造における欠陥部品の識別のために使用してもよい。例えば、開示されている方法を使用して、無傷の電子回路に対する欠陥のある電子回路のための疑似画像を使用して、欠陥のある回路を正しく迅速に識別することができる。
本技術は、静止画像に対して使用可能であるのみならず、本技術を使用して、シーケンスで捕捉された複数の画像を1つの連結された画像と見なすことにより、画像シーケンス内の人物、動物、オブジェクト、またはパターンを認識することができる。すなわち、関心対象であるオブジェクトの複数の画像のシーケンスを、1つの新しい画像へと連結または変換することができ、その新しい画像を、開示されている方法を使用して変換および分析に供することができる。
疑似画像同士を組み合わせて新しい第1画像を構築することもでき、次いで、この新しい第1画像を、新しいより高レベルの疑似画像に変換することができる。この多層のアプローチは、例えば、本明細書に開示されている画像認識技術の人工知能用途において使用可能である。単なる一例として、品質管理の環境では、完成した機械の部品のための疑似画像を使用して、製造業者は、特定の完成した機械に全ての部品が含まれているかどうかの判断を、(i)部品のための疑似画像同士を結合して1つの第1画像にし、(ii)この第1画像のための疑似画像を取得し、(iii)この疑似画像を、実際の完成した機械の疑似画像と比較して、全ての部品が存在するかどうかを判定することによって実施可能である。
学習を容易にし、人物およびオブジェクトを識別し、関連情報を検索するために、開示されている技術を検索エンジンと組み合わせて使用することができる。例えば、検索エンジンを使用して、疑似画像のライブラリを生成し、次いで、この疑似画像のライブラリを、画像捕捉装置によって捕捉された画像と比較することができる。検索エンジンは、クエリの対象である人物またはオブジェクトを識別することによってクエリに応答することができる。1つのシナリオでは、人物が、植物の画像を取得して、その画像を検索エンジンに送信し、次いで、この検索エンジンが、適切に識別された植物と関連情報とを返送する。別のシナリオでは、対象者がより詳細に知りたいと思う可能性のある人物の画像が検索エンジンに送信され、次いで、この検索エンジンが、所望の情報を返送する。例えば社会的な環境では、検索される情報は、単純に、当該人物との以前の邂逅が発生した時間および状況を思い出させるための簡単なリマインダであり得る。上記および他の用途では、コンピュータに関連付けられた画像捕捉装置(例えば、スマートフォンのカメラまたは眼鏡に組み込まれたカメラ)によって生成された画像を使用して、(検索エンジンのプロバイダまたは装置上に保存されている個人用データベースからの)既存のデータベースをリアルタイムで検索し、疑似画像の比較を通じて、所望の情報を検索することができる。
本開示の特徴
前述したことに基づいて、本発明は、上記の要約および概要に記載された本開示の6つの態様に加えて、限定するわけではないが以下の特徴を含む。6つの態様および以下の特徴、ならびにこれらの種々の段落および項目は、任意の全ての組み合わせで使用可能である。
特徴1:方法であって、当該方法は、
(a)コンピュータシステムにおいて画像を受信するステップと、
(b)前記コンピュータシステムにより、既定の変換行列を使用して、前記画像のスパースかつ非負の変換を実行して疑似画像にするステップと、
(c)前記コンピュータシステムにより、前記疑似画像を既知の画像の疑似画像のライブラリと比較するステップと、
(d)前記コンピュータシステムにより、前記疑似画像と前記既知の画像の疑似画像のライブラリとの前記比較の結果を出力するステップと
を含み、
前記画像は、M個の成分を有し、前記疑似画像は、K個の成分を有し、Kは、M以上である、
方法。
特徴2:方法であって、当該方法は、
(a)コンピュータシステムにおいて画像を受信するステップと、
(b)前記コンピュータシステムにより、既定の変換行列を使用して、前記画像のスパースかつ非負の変換を実行して疑似画像にするステップと、
(c)前記コンピュータシステムにより、前記疑似画像を既知の画像の疑似画像のライブラリと比較するステップと、
(d)前記コンピュータシステムにより、前記疑似画像と前記既知の画像の疑似画像のライブラリとの前記比較の結果を出力するステップと
を含み、
前記画像は、M個の成分を有し、前記M個の成分の各々は、2つの可能な値のうちの一方のみを有する、
方法。
特徴3:前記コンピュータシステムは、少なくとも1つのL2ノルムを使用して、前記スパースかつ非負の変換を実行する、特徴1または2記載の方法。
特徴4:前記既定の変換行列は、前記コンピュータシステムにより、トレーニング画像の行列のスパースかつ非負の因数分解を実行するステップを含む方法によって取得された行列である、特徴1、2または3記載の方法。
特徴5:前記トレーニング画像の行列は、M×N行列であり、なお、Nは、M以上である、特徴4記載の方法。
特徴6:前記コンピュータシステムは、少なくとも1つのフロベニウスノルムを使用して、前記スパースかつ非負の因数分解を実行する、特徴4または5の方法。
特徴7:前記ステップ(a)の前記画像は、前処理された画像である、特徴1から6までのいずれか1つに記載の方法。
特徴8:前記コンピュータシステムは、ユークリッド距離およびコサイン距離のうちの少なくとも1つを使用して、前記ステップ(c)の比較を実行する、特徴1から7までのいずれか1つに記載の方法。
特徴9:前記ステップ(a)の前記画像は、人間の顔を含む、特徴1、3、4、5、6、7、8または9記載の方法。
特徴10:コンピュータ実装される画像認識を実行する方法であって、当該方法は、
(a)M個の成分を有する第1画像を1つ以上のコンピュータプロセッサに提供するステップと、
(b)既定の変換行列を前記1つ以上のコンピュータプロセッサに提供するステップであって、
(i)前記既定の変換行列は、M×K行列であり、なお、当該M×K行列では、K個の列が、K個の辞書要素の集合を構成し、
(ii)前記既定の変換行列は、M×N行列のスパースかつ非負の因数分解を実行するステップを含む方法によって構築され、なお、前記M×N行列では、N個の列が、N個のトレーニング画像の集合を構成し、それぞれのトレーニング画像は、M個の成分を有し、前記スパースかつ非負の因数分解は、少なくとも1つのフロベニウスノルムを使用する、
ステップと、
(c)前記1つ以上のコンピュータプロセッサにより、前記第1画像のスパースかつ非負の変換を実行するための前記既定の変換行列を使用して、前記第1画像のための疑似画像を構築するステップであって、前記第1画像のための前記疑似画像は、K個の要素重みから成り、それぞれの要素重みは、前記K個の辞書要素のうちの1つに対応し、前記スパースかつ非負の変換は、少なくとも1つのL2ノルムを使用する、ステップと、
(d)前記1つ以上のコンピュータプロセッサにより、ユークリッド距離およびコサイン距離のうちの少なくとも1つを使用して、前記第1画像のための前記疑似画像を既知の画像の疑似画像のライブラリと比較するステップと、
(e)前記1つ以上のコンピュータプロセッサにより、前記疑似画像と前記既知の画像の疑似画像のライブラリとの前記比較の結果を出力するステップと
を含み、
前記M×N行列は、ランクRを有し、Kは、以下の関係性:
(i)Kは、M以上である、および
(ii)Kは、R以上である、
のうちの一方または両方を満たす、
方法。
特徴11:画像認識に使用するための既定の変換行列を準備する方法であって、当該方法は、
(a)N個のトレーニング画像の集合をコンピュータシステムに提供するステップであって、それぞれのトレーニング画像は、M個の成分を有する、ステップと、
(b)前記コンピュータシステムにより、M×N行列のスパースかつ非負の因数分解を実行することによって既定の変換行列を生成するステップであって、前記M×N行列では、当該行列のN個の列の各々が、前記トレーニング画像のうちの1つを構成し、前記スパースかつ非負の因数分解は、少なくとも1つのフロベニウスノルムを使用する、ステップと、
(c)前記既定の変換行列を非一時的なコンピュータ可読媒体に保存するステップと
を含み、
(i)前記既定の変換行列は、M×K行列であり、
(ii)前記M×N行列は、ランクRを有し、
(iii)Kは、以下の関係性:
(A)Kは、M以上である、および
(B)Kは、R以上である、
のうちの一方または両方を満たす、
方法。
特徴12:前記ステップ(b)において、前記N個のトレーニング画像のための疑似画像の集合が生成され、
当該方法は、前記コンピュータシステムにより、前記疑似画像のうちの少なくとも一部を、疑似画像ライブラリの少なくとも一部として非一時的なコンピュータ可読媒体に保存するステップをさらに含む、特徴11記載の方法。
特徴13:当該方法は、前記既定の変換行列を商品として配布するステップをさらに含む、特徴11記載の方法。
特徴14:Kは、Mよりも大きい、特徴1、10または11(またはこれらの特徴を引用するいずれか1つの特徴)記載の方法。
特徴15:以前の既定の変換行列から、画像認識に使用するための既定の変換行列を準備するための方法であって、当該方法は、
(a)以前の既定の変換行列Φ0をコンピュータシステムに提供するステップであって、前記以前の既定の変換行列は、N個のトレーニング画像の集合を使用して取得されたものである、ステップと、
(b)前記N個のトレーニング画像のための疑似画像の集合A0を前記コンピュータシステムに提供するステップと、
(c)N’個のトレーニング画像の集合Yを前記コンピュータシステムに提供するステップであって、N’は、1以上であり、前記集合の少なくとも1つのメンバーは、前記N個のトレーニング画像の集合の一部ではないトレーニング画像である、ステップと、
(d)前記コンピュータシステムにより、Yと行列積Φ00との連結を使用して、既定の変換行列を生成するステップであって、前記行列積Φ00は、前記N個のトレーニング画像の集合のための代理として機能する、ステップと、
(e)前記ステップ(d)の前記既定の変換行列を非一時的なコンピュータ可読媒体に保存するステップと
を含む、方法。
特徴16:前記ステップ(d)において、前記N’個のトレーニング画像のための疑似画像の集合が生成され、
当該方法は、前記コンピュータシステムにより、前記疑似画像のうちの少なくとも一部を、疑似画像ライブラリの少なくとも一部として非一時的なコンピュータ可読媒体に保存するステップをさらに含む、特徴15記載の方法。
特徴17:当該方法は、前記ステップ(d)の前記既定の変換行列を商品として配布するステップをさらに含む、特徴15の方法。
特徴18:画像認識に使用するための疑似画像のライブラリを準備または拡張する方法であって、当該方法は、
(a)既知の画像の集合をコンピュータシステムに提供するステップと、
(b)前記コンピュータシステムにより、既定の変換行列を使用して、前記既知の画像のスパースかつ非負の変換を実行して疑似画像にするステップと、
(c)前記コンピュータシステムにより、前記疑似画像のうちの少なくとも一部を、疑似画像ライブラリの少なくとも一部として非一時的なコンピュータ可読媒体に保存するステップと
を含む、方法。
特徴19:当該方法は、前記疑似画像ライブラリを商品として配布するステップをさらに含む、特徴12、16または18記載の方法。
特徴20:特徴11または15記載の方法によって準備された既定の変換行列が内部に保存されている、非一時的なコンピュータ可読媒体。
特徴21:少なくとも部分的に特徴12、16または18記載の方法によって準備された疑似画像ライブラリが内部に保存されている、非一時的なコンピュータ可読媒体。
特徴22:未知の画像のための疑似画像と比較するための既知の画像の疑似画像のライブラリを含む、非一時的なコンピュータ可読媒体であって、
前記既知の画像の疑似画像は、既定の変換行列を使用して、前記既知の画像のスパースかつ非負の変換を実行して疑似画像にするステップを含む方法によって取得される、
非一時的なコンピュータ可読媒体。
特徴23:非一時的なコンピュータ可読媒体であって、
(a)画像を疑似画像に変換するステップと、
(b)前記疑似画像を既知の画像の疑似画像のライブラリと比較するステップと、
(c)前記疑似画像と前記既知の画像の疑似画像のライブラリとの前記比較の結果を出力するステップと
を実行するための、コンピュータプロセッサによって実行可能な命令が保存されており、
前記ステップ(a)の前記変換は、既定の変換行列を使用したスパースかつ非負の変換である、
非一時的なコンピュータ可読媒体。
特徴24:特徴23記載の非一時的なコンピュータ可読媒体と、前記非一時的なコンピュータ可読媒体に保存されている命令を実行するためのコンピュータプロセッサとを有する、コンピュータシステム。
特徴25:システムであって、当該システムは、
コンピュータプロセッサと、
少なくとも1つのコンピュータメモリ(例えば、RAM)と、
少なくとも1つのコンピュータストレージデバイス(例えば、ハードドライブ、フラッシュドライブ、および/またはクラウド)と、
画像を受信して、前記画像を前記少なくとも1つのコンピュータメモリに保存するコンピュータインターフェースと、
受信した前記画像のための疑似画像を生成して、前記疑似画像を前記少なくとも1つのコンピュータストレージデバイスに保存するための、前記コンピュータプロセッサによって実行可能なコンピュータプログラムと
を含み、
前記コンピュータプログラムは、既定の変換行列を使用して、前記画像のスパースかつ非負の変換を実行するステップを含む方法によって、前記疑似画像を生成することが可能である、
システム。
特徴26:前記コンピュータプログラムは、前記疑似画像を疑似画像のライブラリと比較し、前記比較の結果を出力することが可能である、特徴25記載のシステム。
特徴27:前記コンピュータプログラムは、前記疑似画像を前記疑似画像のライブラリに含めることが可能である、特徴25または26記載のシステム。
特徴28:当該システムは、前記コンピュータインターフェースに画像を提供することができる画像捕捉装置をさらに含む、特徴25、26または27記載のシステム。
本発明の範囲および精神から逸脱しない種々の修正は、前述した開示から当業者には明らかであろう。以下の特許請求の範囲は、本明細書に記載された特定の実施形態、ならびにそれらの実施形態の修正形態、変形形態、および等価形態を網羅することを意図している。
参考文献
Figure 2021528728
Figure 2021528728

Claims (28)

  1. 方法であって、当該方法は、
    (a)コンピュータシステムにおいて画像を受信するステップと、
    (b)前記コンピュータシステムにより、既定の変換行列を使用して、前記画像のスパースかつ非負の変換を実行して疑似画像にするステップと、
    (c)前記コンピュータシステムにより、前記疑似画像を既知の画像の疑似画像のライブラリと比較するステップと、
    (d)前記コンピュータシステムにより、前記疑似画像と前記既知の画像の疑似画像のライブラリとの前記比較の結果を出力するステップと
    を含み、
    前記画像は、M個の成分を有し、前記疑似画像は、K個の成分を有し、Kは、M以上である、
    方法。
  2. 方法であって、当該方法は、
    (a)コンピュータシステムにおいて画像を受信するステップと、
    (b)前記コンピュータシステムにより、既定の変換行列を使用して、前記画像のスパースかつ非負の変換を実行して疑似画像にするステップと、
    (c)前記コンピュータシステムにより、前記疑似画像を既知の画像の疑似画像のライブラリと比較するステップと、
    (d)前記コンピュータシステムにより、前記疑似画像と前記既知の画像の疑似画像のライブラリとの前記比較の結果を出力するステップと
    を含み、
    前記画像は、M個の成分を有し、前記M個の成分の各々は、2つの可能な値のうちの一方のみを有する、
    方法。
  3. 前記コンピュータシステムは、少なくとも1つのL2ノルムを使用して、前記スパースかつ非負の変換を実行する、請求項1または2記載の方法。
  4. 前記既定の変換行列は、前記コンピュータシステムにより、トレーニング画像の行列のスパースかつ非負の因数分解を実行するステップを含む方法によって取得された行列である、請求項1または2記載の方法。
  5. 前記トレーニング画像の行列は、M×N行列であり、なお、Nは、M以上である、請求項4記載の方法。
  6. 前記コンピュータシステムは、少なくとも1つのフロベニウスノルムを使用して、前記スパースかつ非負の因数分解を実行する、請求項4記載の方法。
  7. 前記ステップ(a)の前記画像は、前処理された画像である、請求項1または2記載の方法。
  8. 前記コンピュータシステムは、ユークリッド距離およびコサイン距離のうちの少なくとも1つを使用して、前記ステップ(c)の比較を実行する、請求項1または2記載の方法。
  9. 前記ステップ(a)の前記画像は、人間の顔を含む、請求項1記載の方法。
  10. コンピュータ実装される画像認識を実行する方法であって、当該方法は、
    (a)M個の成分を有する第1画像を1つ以上のコンピュータプロセッサに提供するステップと、
    (b)既定の変換行列を前記1つ以上のコンピュータプロセッサに提供するステップであって、
    (i)前記既定の変換行列は、M×K行列であり、なお、当該M×K行列では、K個の列が、K個の辞書要素の集合を構成し、
    (ii)前記既定の変換行列は、M×N行列のスパースかつ非負の因数分解を実行するステップを含む方法によって構築され、なお、前記M×N行列では、N個の列が、N個のトレーニング画像の集合を構成し、それぞれのトレーニング画像は、M個の成分を有し、前記スパースかつ非負の因数分解は、少なくとも1つのフロベニウスノルムを使用する、
    ステップと、
    (c)前記1つ以上のコンピュータプロセッサにより、前記第1画像のスパースかつ非負の変換を実行するための前記既定の変換行列を使用して、前記第1画像のための疑似画像を構築するステップであって、前記第1画像のための前記疑似画像は、K個の要素重みから成り、それぞれの要素重みは、前記K個の辞書要素のうちの1つに対応し、前記スパースかつ非負の変換は、少なくとも1つのL2ノルムを使用する、ステップと、
    (d)前記1つ以上のコンピュータプロセッサにより、ユークリッド距離およびコサイン距離のうちの少なくとも1つを使用して、前記第1画像のための前記疑似画像を既知の画像の疑似画像のライブラリと比較するステップと、
    (e)前記1つ以上のコンピュータプロセッサにより、前記疑似画像と前記既知の画像の疑似画像のライブラリとの前記比較の結果を出力するステップと
    を含み、
    前記M×N行列は、ランクRを有し、Kは、以下の関係性:
    (i)Kは、M以上である、および
    (ii)Kは、R以上である、
    のうちの一方または両方を満たす、
    方法。
  11. 画像認識に使用するための既定の変換行列を準備する方法であって、当該方法は、
    (a)N個のトレーニング画像の集合をコンピュータシステムに提供するステップであって、それぞれのトレーニング画像は、M個の成分を有する、ステップと、
    (b)前記コンピュータシステムにより、M×N行列のスパースかつ非負の因数分解を実行することによって既定の変換行列を生成するステップであって、前記M×N行列では、当該行列のN個の列の各々が、前記トレーニング画像のうちの1つを構成し、前記スパースかつ非負の因数分解は、少なくとも1つのフロベニウスノルムを使用する、ステップと、
    (c)前記既定の変換行列を非一時的なコンピュータ可読媒体に保存するステップと
    を含み、
    (i)前記既定の変換行列は、M×K行列であり、
    (ii)前記M×N行列は、ランクRを有し、
    (iii)Kは、以下の関係性:
    (A)Kは、M以上である、および
    (B)Kは、R以上である、
    のうちの一方または両方を満たす、
    方法。
  12. 前記ステップ(b)において、前記N個のトレーニング画像のための疑似画像の集合が生成され、
    当該方法は、前記コンピュータシステムにより、前記疑似画像のうちの少なくとも一部を、疑似画像ライブラリの少なくとも一部として非一時的なコンピュータ可読媒体に保存するステップをさらに含む、請求項11記載の方法。
  13. 当該方法は、前記既定の変換行列を商品として配布するステップをさらに含む、請求項11記載の方法。
  14. Kは、Mよりも大きい、請求項1、10または11記載の方法。
  15. 以前の既定の変換行列から、画像認識に使用するための既定の変換行列を準備するための方法であって、当該方法は、
    (a)以前の既定の変換行列Φ0をコンピュータシステムに提供するステップであって、前記以前の既定の変換行列は、N個のトレーニング画像の集合を使用して取得されたものである、ステップと、
    (b)前記N個のトレーニング画像のための疑似画像の集合A0を前記コンピュータシステムに提供するステップと、
    (c)N’個のトレーニング画像の集合Yを前記コンピュータシステムに提供するステップであって、N’は、1以上であり、前記集合の少なくとも1つのメンバーは、前記N個のトレーニング画像の集合の一部ではないトレーニング画像である、ステップと、
    (d)前記コンピュータシステムにより、Yと行列積Φ00との連結を使用して、既定の変換行列を生成するステップであって、前記行列積Φ00は、前記N個のトレーニング画像の集合のための代理として機能する、ステップと、
    (e)前記ステップ(d)の前記既定の変換行列を非一時的なコンピュータ可読媒体に保存するステップと
    を含む、方法。
  16. 前記ステップ(d)において、前記N’個のトレーニング画像のための疑似画像の集合が生成され、
    当該方法は、前記コンピュータシステムにより、前記疑似画像のうちの少なくとも一部を、疑似画像ライブラリの少なくとも一部として非一時的なコンピュータ可読媒体に保存するステップをさらに含む、請求項15記載の方法。
  17. 当該方法は、前記ステップ(d)の前記既定の変換行列を商品として配布するステップをさらに含む、請求項15記載の方法。
  18. 画像認識に使用するための疑似画像のライブラリを準備または拡張する方法であって、当該方法は、
    (a)既知の画像の集合をコンピュータシステムに提供するステップと、
    (b)前記コンピュータシステムにより、既定の変換行列を使用して、前記既知の画像のスパースかつ非負の変換を実行して疑似画像にするステップと、
    (c)前記コンピュータシステムにより、前記疑似画像のうちの少なくとも一部を、疑似画像ライブラリの少なくとも一部として非一時的なコンピュータ可読媒体に保存するステップと
    を含む、方法。
  19. 当該方法は、前記疑似画像ライブラリを商品として配布するステップをさらに含む、請求項12、16または18記載の方法。
  20. 請求項11または15記載の方法によって準備された既定の変換行列が内部に保存されている、非一時的なコンピュータ可読媒体。
  21. 少なくとも部分的に請求項12、16または18記載の方法によって準備された疑似画像ライブラリが内部に保存されている、非一時的なコンピュータ可読媒体。
  22. 未知の画像のための疑似画像と比較するための既知の画像の疑似画像のライブラリを含む、非一時的なコンピュータ可読媒体であって、
    前記既知の画像の疑似画像は、既定の変換行列を使用して、前記既知の画像のスパースかつ非負の変換を実行して疑似画像にするステップを含む方法によって取得される、
    非一時的なコンピュータ可読媒体。
  23. 非一時的なコンピュータ可読媒体であって、
    (a)画像を疑似画像に変換するステップと、
    (b)前記疑似画像を既知の画像の疑似画像のライブラリと比較するステップと、
    (c)前記疑似画像と前記既知の画像の疑似画像のライブラリとの前記比較の結果を出力するステップと
    を実行するための、コンピュータプロセッサによって実行可能な命令が保存されており、
    前記ステップ(a)の前記変換は、既定の変換行列を使用したスパースかつ非負の変換である、
    非一時的なコンピュータ可読媒体。
  24. 請求項23記載の非一時的なコンピュータ可読媒体と、前記非一時的なコンピュータ可読媒体に保存されている命令を実行するためのコンピュータプロセッサとを有する、コンピュータシステム。
  25. システムであって、当該システムは、
    コンピュータプロセッサと、
    少なくとも1つのコンピュータメモリと、
    少なくとも1つのコンピュータストレージデバイスと、
    画像を受信して、前記画像を前記少なくとも1つのコンピュータメモリに保存するコンピュータインターフェースと、
    受信した前記画像のための疑似画像を生成して、前記疑似画像を前記少なくとも1つのコンピュータストレージデバイスに保存するための、前記コンピュータプロセッサによって実行可能なコンピュータプログラムと
    を含み、
    前記コンピュータプログラムは、既定の変換行列を使用して、前記画像のスパースかつ非負の変換を実行するステップを含む方法によって、前記疑似画像を生成することが可能である、
    システム。
  26. 前記コンピュータプログラムは、前記疑似画像を疑似画像のライブラリと比較し、前記比較の結果を出力することが可能である、請求項25記載のシステム。
  27. 前記コンピュータプログラムは、前記疑似画像を前記疑似画像のライブラリに含めることが可能である、請求項25または26記載のシステム。
  28. 当該システムは、前記コンピュータインターフェースに画像を提供することができる画像捕捉装置をさらに含む、請求項25記載のシステム。
JP2020567494A 2018-07-02 2019-06-26 疑似画像を使用した顔画像認識 Active JP7357010B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US201862693136P 2018-07-02 2018-07-02
US62/693,136 2018-07-02
PCT/US2019/039313 WO2020009877A1 (en) 2018-07-02 2019-06-26 Facial image recognition using pseudo-images

Publications (2)

Publication Number Publication Date
JP2021528728A true JP2021528728A (ja) 2021-10-21
JP7357010B2 JP7357010B2 (ja) 2023-10-05

Family

ID=69055232

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2020567494A Active JP7357010B2 (ja) 2018-07-02 2019-06-26 疑似画像を使用した顔画像認識

Country Status (6)

Country Link
US (2) US11157721B2 (ja)
EP (1) EP3818693A4 (ja)
JP (1) JP7357010B2 (ja)
KR (1) KR20210025020A (ja)
CN (1) CN112368708B (ja)
WO (1) WO2020009877A1 (ja)

Families Citing this family (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11037330B2 (en) * 2017-04-08 2021-06-15 Intel Corporation Low rank matrix compression
WO2020009877A1 (en) * 2018-07-02 2020-01-09 Stowers Institute For Medical Research Facial image recognition using pseudo-images
US20220343691A1 (en) * 2019-06-06 2022-10-27 Nippon Telegraph And Telephone Corporation Image recognition system, image recognition server, and image recognition
CN111368662B (zh) * 2020-02-25 2023-03-21 华南理工大学 一种人脸图像属性编辑方法、装置、存储介质及设备
CN112132133B (zh) * 2020-06-16 2023-11-17 中国科学院计算技术研究所数字经济产业研究院 标识图像数据增强方法及真伪智能鉴定方法
CN112085112A (zh) * 2020-09-14 2020-12-15 苏州大学 一种图像类别检测方法、系统、电子设备及存储介质
CN112906656A (zh) * 2021-03-30 2021-06-04 自然资源部第三海洋研究所 水下照片珊瑚礁识别方法、系统及存储介质
CN113591607B (zh) * 2021-07-12 2023-07-04 辽宁科技大学 一种车站智能疫情防控系统及方法
CN114693684A (zh) * 2022-06-01 2022-07-01 领伟创新智能系统(浙江)有限公司 一种机载式风机叶片缺陷检测方法
CN115203663B (zh) * 2022-06-25 2023-08-22 北京基智科技有限公司 小视角远距离视频步态精准识别身份认证系统
CN114926890B (zh) * 2022-07-20 2022-09-30 北京远鉴信息技术有限公司 一种人脸真伪的区分方法、装置、电子设备及存储介质

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050246354A1 (en) * 2003-08-29 2005-11-03 Pablo Tamayo Non-negative matrix factorization in a relational database management system
JP2011081614A (ja) * 2009-10-07 2011-04-21 Denso It Laboratory Inc 認識装置、認識方法及びプログラム

Family Cites Families (36)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6353688B1 (en) 1993-06-08 2002-03-05 The Regents Of The University Of California Accelerated signal encoding and reconstruction using pixon method
US5668897A (en) * 1994-03-15 1997-09-16 Stolfo; Salvatore J. Method and apparatus for imaging, image processing and data compression merge/purge techniques for document image databases
US6690830B1 (en) 1998-04-29 2004-02-10 I.Q. Bio Metrix, Inc. Method and apparatus for encoding/decoding image data
US6292575B1 (en) 1998-07-20 2001-09-18 Lau Technologies Real-time facial recognition and verification system
HK1052831A2 (en) 2002-09-19 2003-09-05 Xiaoou Sean Tang Sketch-photo recognition
US7646924B2 (en) 2004-08-09 2010-01-12 David Leigh Donoho Method and apparatus for compressed sensing
RU2009139403A (ru) * 2007-04-25 2011-05-27 Пиксон Имэджинг ЭлЭлСи (US) Сжатие и восстановление изображений с использованием способа pixon
JP4881230B2 (ja) * 2007-06-14 2012-02-22 株式会社東芝 パターン認識装置及びその方法
US8406525B2 (en) * 2008-01-31 2013-03-26 The Regents Of The University Of California Recognition via high-dimensional data classification
US8671069B2 (en) 2008-12-22 2014-03-11 The Trustees Of Columbia University, In The City Of New York Rapid image annotation via brain state decoding and visual pattern mining
EP2328126A1 (en) * 2009-11-27 2011-06-01 Technical University of Denmark Genome-wide association study identifying determinants of facial characteristics for facial image generation
US8787682B2 (en) 2011-03-22 2014-07-22 Nec Laboratories America, Inc. Fast image classification by vocabulary tree based image retrieval
KR101453711B1 (ko) 2011-04-15 2014-10-22 이미지레콘, 엘엘씨 반복적 영상 재구성에서 픽손 맵을 결정하는 방법
US20120287031A1 (en) 2011-05-12 2012-11-15 Apple Inc. Presence sensing
CN103164713B (zh) 2011-12-12 2016-04-06 阿里巴巴集团控股有限公司 图像分类方法和装置
FR2989494B1 (fr) 2012-04-16 2014-05-09 Commissariat Energie Atomique Procede de reconnaissance d'un contexte visuel d'une image et dispositif correspondant
JP5887026B2 (ja) * 2012-09-03 2016-03-16 ゼンソモトリック インストゥルメンツ ゲゼルシャフト ヒューア イノベイティブ ゼンソリック エムベーハーSENSOMOTORIC INSTRUMENTS Gesellschaft fur innovative Sensorik mbH ヘッドマウントシステム及びヘッドマウントシステムを用いてディジタル画像のストリームを計算しレンダリングする方法
CN103268484A (zh) * 2013-06-06 2013-08-28 温州大学 用于高精度人脸识别的分类器设计方法
WO2014203531A1 (ja) * 2013-06-21 2014-12-24 富士フイルム株式会社 画像表示装置、画像表示方法および画像表示プログラム
US9812150B2 (en) 2013-08-28 2017-11-07 Accusonus, Inc. Methods and systems for improved signal decomposition
US20150269314A1 (en) 2014-03-20 2015-09-24 Rudjer Boskovic Institute Method and apparatus for unsupervised segmentation of microscopic color image of unstained specimen and digital staining of segmented histological structures
US9519826B2 (en) 2014-05-08 2016-12-13 Shutterfly, Inc. Automatic image product creation for user accounts comprising large number of images
US9582890B2 (en) 2014-05-19 2017-02-28 Ricoh Company, Ltd. Superpixel-based image segmentation using shading and albedo decomposition
WO2015192263A1 (en) 2014-06-16 2015-12-23 Xiaoou Tang A method and a system for face verification
US9275309B2 (en) 2014-08-01 2016-03-01 TCL Research America Inc. System and method for rapid face recognition
US9251427B1 (en) 2014-08-12 2016-02-02 Microsoft Technology Licensing, Llc False face representation identification
US9710729B2 (en) 2014-09-04 2017-07-18 Xerox Corporation Domain adaptation for image classification with class priors
US9639954B2 (en) 2014-10-27 2017-05-02 Playsigh Interactive Ltd. Object extraction from video images
US9430694B2 (en) 2014-11-06 2016-08-30 TCL Research America Inc. Face recognition system and method
US10304008B2 (en) 2015-03-20 2019-05-28 Nec Corporation Fast distributed nonnegative matrix factorization and completion for big data analytics
US10776710B2 (en) * 2015-03-24 2020-09-15 International Business Machines Corporation Multimodal data fusion by hierarchical multi-view dictionary learning
US9704020B2 (en) 2015-06-16 2017-07-11 Microsoft Technology Licensing, Llc Automatic recognition of entities in media-captured events
US9430697B1 (en) 2015-07-03 2016-08-30 TCL Research America Inc. Method and system for face recognition using deep collaborative representation-based classification
US9704025B2 (en) 2015-07-31 2017-07-11 King Abdulaziz City For Science And Technology Identifying non-occluded faces by learning from partially occluded faces
US10884503B2 (en) 2015-12-07 2021-01-05 Sri International VPA with integrated object recognition and facial expression recognition
WO2020009877A1 (en) * 2018-07-02 2020-01-09 Stowers Institute For Medical Research Facial image recognition using pseudo-images

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050246354A1 (en) * 2003-08-29 2005-11-03 Pablo Tamayo Non-negative matrix factorization in a relational database management system
JP2011081614A (ja) * 2009-10-07 2011-04-21 Denso It Laboratory Inc 認識装置、認識方法及びプログラム

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
M. RAJAPAKSE ET AL.: "COLOR CHANNEL ENCODING WITH NMF FOR FACE RECOGNITION", 2004 INTERNATIONAL CONFERENCE ON IMAGE PROCESSING(ICIP), JPN6023016098, 24 October 2004 (2004-10-24), ISSN: 0005047070 *
日野 英逸,村田 昇: "スパース表現の数理とその応用", 情報処理学会研究報告 コンピュータビジョンとイメージメディア(CVIM) NO.183 NO.20, JPN6023016097, 15 October 2012 (2012-10-15), ISSN: 0005047069 *
菊池 祥平,手塚 太郎: "スパース符号化を用いた試験結果からスキル構造の抽出", 第9回データ工学と情報マネジメントに関するフォーラム (第15回日本データベース学会年次大会) B8−, JPN6023016099, 27 February 2017 (2017-02-27), ISSN: 0005047071 *

Also Published As

Publication number Publication date
US11157721B2 (en) 2021-10-26
US20210374388A1 (en) 2021-12-02
JP7357010B2 (ja) 2023-10-05
US11769316B2 (en) 2023-09-26
CN112368708B (zh) 2024-04-30
KR20210025020A (ko) 2021-03-08
WO2020009877A1 (en) 2020-01-09
EP3818693A1 (en) 2021-05-12
US20200005023A1 (en) 2020-01-02
EP3818693A4 (en) 2021-10-13
CN112368708A (zh) 2021-02-12

Similar Documents

Publication Publication Date Title
JP7357010B2 (ja) 疑似画像を使用した顔画像認識
US11645835B2 (en) Hypercomplex deep learning methods, architectures, and apparatus for multimodal small, medium, and large-scale data representation, analysis, and applications
Bebis et al. Face recognition by fusing thermal infrared and visible imagery
Kantarcı et al. Thermal to visible face recognition using deep autoencoders
Verma et al. Using convolutional neural networks to discover cogntively validated features for gender classification
Zahid et al. A Multi Stage Approach for Object and Face Detection using CNN
Trokielewicz et al. Post-mortem iris recognition resistant to biological eye decay processes
Mukherjee et al. FuseKin: Weighted image fusion based kinship verification under unconstrained age group
Qiu et al. Learning transformations for classification forests
Hussein Robust iris recognition framework using computer vision algorithms
Al-Wajih et al. A new application for gabor filters in face-based gender classification.
Aro et al. Enhanced Gabor features based facial recognition using ant colony optimization algorithm
Josephine A Novel Binary Texture Pattern’s Based On Facial Expression Classification Using Neural Network
Menezes Analysis and evaluation of deep learning based super-resolution algorithms to improve performance in low-resolution face recognition
Barrah et al. Extended Set of DCT-TPLBP and DCT-FPLBP for Face Recognition
Thom Attributes in Face Processing: Novel Methods for Explanation, Training, and Representation
Dhar et al. Face Recognition by Radial Basis Function Network (RBFN)
Khan et al. Critical Evaluation of Frontal Image-Based Gender Classification Techniques
Chang et al. Skin feature point tracking using deep feature encodings
Sajja et al. Face recognition using local binary pattern and Gabor-Kernel Fisher analysis
Kaliappan et al. Chinese cabbage leaf disease prediction and classification using Naive Bayes VGG-19 convolution deep neural network
TW202347173A (zh) 使用局部赫布法則為基的更新之用於無變化物件表示和分類的神經網路架構
Olatunji et al. Feature Level Fusion Algorithm for Iris and Face
Kant Kumar et al. Estimating attention of faces due to its growing level of emotions
Abbas et al. COMBINING FEATURE DESCRIPTOR TECHNIQUES WITH CONVOLUTIONAL NEURAL NETWORK FOR MASKED FACIAL RECOGNITION

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20220601

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20230417

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20230426

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20230718

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20230830

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20230925

R150 Certificate of patent or registration of utility model

Ref document number: 7357010

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150