JP4860472B2 - 画像認識 - Google Patents

画像認識 Download PDF

Info

Publication number
JP4860472B2
JP4860472B2 JP2006530286A JP2006530286A JP4860472B2 JP 4860472 B2 JP4860472 B2 JP 4860472B2 JP 2006530286 A JP2006530286 A JP 2006530286A JP 2006530286 A JP2006530286 A JP 2006530286A JP 4860472 B2 JP4860472 B2 JP 4860472B2
Authority
JP
Japan
Prior art keywords
image
face
key
dimensional
recognition
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2006530286A
Other languages
English (en)
Other versions
JP2007508609A (ja
Inventor
ジェームズ オースティン,
ニコラス ピアース,
トーマス ヘーゼルタイン,
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
University of York
Original Assignee
University of York
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority claimed from GB0323662A external-priority patent/GB0323662D0/en
Priority claimed from GB0408570A external-priority patent/GB0408570D0/en
Application filed by University of York filed Critical University of York
Publication of JP2007508609A publication Critical patent/JP2007508609A/ja
Application granted granted Critical
Publication of JP4860472B2 publication Critical patent/JP4860472B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/10Image acquisition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/42Global feature extraction by analysis of the whole pattern, e.g. using frequency domain transformations or autocorrelation

Description

本発明は、画像の認識に関係し、自然画像及び合成画像両方の認識に関係する。
ここで、「自然画像」とは、たとえば、写真のような光学画像であるとか、別の波長の画像(たとえば、X線や赤外線)といったような、自然に発生する対象物の画像を意味する。自然画像は、デジタル手段によって記録したり、続いて処理したりすることができるが、コンピュータその他の人工的な手段によって生成または合成される画像、すなわち画像データとは対照的である。
自然画像を認識することは、多くの理由で望ましい。たとえば、特色のある景観や建物を認識して、地理的位置を確認することができる。また、人間の顔を認識することは、身元確認や安全対策に対して有効である。更に、競走馬といったような金銭的に高価な動物を認識することも身元確認の目的に対し非常に有用であり得る。
本願出願人は、この明細書において、本発明の好ましい実施の形態において、ヨーク大学(UofY)/Cybula3次元顔データベースから生成した様々な3次元顔曲面表現を使用して、新しい顔認識法を提供する。
顔認識技術は著しく進歩したのではあるが、それでもなお、商業的及び産業的の多くの用途に対して要求される正確性のレベルを達成しなければならない。いくつかの顔認識システムでは、実験環境において極めて低い誤り率を公表しているが、これらの誤り率の数値は、現実世界のシナリオにさらされた場合、たいていは大きくなる。このように誤り率が高い理由は、完全には解決されていない数多くの周知の従属的問題に起因する。顔認識システムは、画像がとらえられる環境に非常に影響をうけ易い。照明状態の変動や、顔の表情や向きが、すべて誤り率を著しく増大させるので、システムが適切に機能するために、これは本当かどうかという照会画像と展示してあるギャラリー画像との間の一致する画像キャプチャ状態(画像がとらえられている状態)を維持する必要がある。しかしながら、このやり方では、顔認識によって提供される鍵となる重要な利点をいくつか排除してしまうことになり、被写体の協力を必要としないという意味において受動的な生体測定方法である。
本発明の好ましい実施形態は、前述の点で改良を行った顔認識方法を提供することを目的としている。
本発明の一態様によれば、三次元画像を認識する方法は、
a.前記画像を、各々三次元表面構造に関連する、異なる特徴抽出処理により処理して複数の異なった処理画像を含む画像セットを得る工程と、
b.画像セット内の処理画像を組み合わせる工程と、
c.画像セット内の処理画像によって占有されたデータスペースを、縮小されたデータスペースを創り出すために変換(transform)させる工程と、
d.前記縮小されたデータスペース内に表示(represent)される組み合わされた画像セットから画像を代表する画像キーを生成する工程と、
e.前記画像キーを既知画像の少なくとも1つの以前に記憶しておいた画像キーと比較する工程と、を含む。
工程aは、エッジ、ライナ、ウェーブレット、グラジエント成分、曲率成分、およびカラー構成要素のうちの少なくとも1つを含む画像特徴を抽出する工程を含み得る。
工程bは、工程cの前に実施してもよい。あるいは、工程cを工程bの前に実施してもよい。
工程eは、画像キーを直ぐ1つ前に記憶させた画像キーと比較して画像の同一性を検証する工程を含み得る。
工程eは、画像キーを複数の以前に記憶させた画像キーと比較して画像を識別する。
上記の方法は、さらに、工程eにおける比較の結果をソートして、以前に記憶させておいた画像キーとの潜在的な一致のリストを作成する工程を含み得る。
工程eは、ユークリッド距離測定法(L2基準)、マハラノビス距離測定法またはコサイン距離測定法を使用して実施することができる。
上記の方法は、工程aの前に、所定向きおよび/または位置および/または深さ正規化への画像の回転および/または位置決めを行う工程を含み得る。
上記の方法は、工程bに先立って組み合わせ前にデータを正規化する工程を含み得る。
前記画像はカメラから得たものであってもよい。
前記画像は3次元データに加えて2次元データを含むことができる。
前記画像は位置合わせした2次元−3次元画像対を含むことができる。
工程cは、主成分分析法によって実施することができる。
工程cは、フィッシャーの線形識別分析法によって実施することができる。
前記画像は顔の画像であってもよい。
前記画像は人間の顔の画像であってもよい。
前記画像は自然画像であってもよい。
前記画像セットはオリジナル画像を含んでいてもよい。
別の態様においては、本発明は、三次元画像を認識する装置であって、
a.プロセスに複数の異なった処理画像を得るべく前記画像を、各々三次元表面構造に関連する、異なった特徴抽出処理により処理するように配置した処理手段と、
b.処理画像を組み合わせるように配置した組み合わせ手段と、
c.処理画像の占有するデータスペースを縮小するように配置した縮小手段と、
d.組み合わせ縮小した処理画像から画像を代表する画像キーを生成するように配置した生成手段と、
e.画像キーを既知画像の少なくとも1つの以前に記憶させておいた画像キーと比較するように配置した比較手段とを含む。
この装置は、本発明の先の態様のうちのいずれかによる方法を実施するように配置することができる。
別の態様においては、本発明は、3次元画像を認識する方法であって
a.フィッシャーの線形識別分析を使用して画像の占有するデータスペースを変換させる工程と、
b.変換させたデータスペースから画像を代表する画像キーを生成する工程と、
c.この画像キーを既知画像の少なくとも1つの以前に記憶しておいた画像キーと比較する工程と
を含む方法を提供する。
別の態様においては、本発明は、3次元画像を認識する装置であって、
a.フィッシャーの線形識別分析を使用して画像の占有するデータスペースを変換させる手段と、
b.変換させたデータスペースから画像を代表する画像キーを生成する手段と、
c.この画像キーを既知画像の少なくとも1つの以前に記憶しておいた画像キーと比較する手段と
を含む装置を提供する。
この明細書においては、「2次元画像(2D image)」とは、ピクセル値の2次元アレイからなる普通のデジタル画像を意味する。この画像は、ピクセル値が明暗度(輝度)を示すグレイスケール画像であってもよいし、ピクセルがそれと関連した色および明暗度の両方を持っていてもよい。この場合、いくつかの値は、各ピクセルと関連しており、たいていは代表的には赤(R)、緑(G)、青(B)のような三原色値(ピクセルのRGB色値と呼ばれることが多い)と関連しているが、ほかに沢山あるピクセルの色および明暗度の多値表現も可能である。
この明細書において、「3次元画像(3D image)」とは、顔であったり、さらに一般的には、顔とは別の対象物の、任意の3次元表現を意味する。たとえば、これは、3次元ポイント・クラウド(3D point cloud)、3次元メッシュ(3D mesh)、或いは3次元曲面の表現(3D surface representation)などである。好ましい実施態様では、使用される3次元画像は奥行きマップとなり、標準的な2次元画像と同じ矩形アレイ・ピクセル化構造を有するが、ただし、このとき、ピクセル値は、或る基準面に対する顔(対象物)の曲面の深さを表す。
この明細書において、「位置合わせされた2次元−3次元画像対」とは、同じ人間の顔(または、他の対象物)の2次元・3次元画像を意味する。ここで、2つの画像間の一致がわかる。すなわち、実際の顔(または対象物)の曲面上の同じ曲面ポイントの特性を表すという意味において、2次元画像におけるどのポイントが3次元画像のどのポイントに一致するかがわかる。
本発明をより良く理解して貰うべく、そして、本発明の実施形態が実際にどのように実施されるかを示すために、添付図面と共に、以下に例として説明を行なう。
これらの図において、同様の参照符号は、同様の部分または対応する部分を示している。
図1において、カメラAは、顔の3次元画像をキャプチャ(capture)し、それをプロセッサRに転送する。プロセッサRは、2次元テクスチャ画像(カラー・データまたはグレイスケール・データ)と共に、3次元奥行き画像を生成する。好ましくは、3次元および2次元のデータは互いに位置合わせする。Nのところで、(必要に応じて)画像を回転させ、尺度変換し、再位置決めして確実に正面に向け、画像スペースに位置決めする(一般的には、画像を所定の回転角度に回転させ、所定の奥行きで尺度変換し、画像スペース内の所定位置に位置決めすることができる。)。
C、D、Eのところで、画像を3つのそれぞれ異なった方法で処理して顔の特徴を抽出する。多くの異なった画像プロセスを採用できる。たとえば、エッジ、ライン、ウェーブレットなどである。多くの画像プロセスが当業者に知られている。プロセスC、D、の1つはナルプロセスである。すなわち、生画像をNから通過させるのである。特徴抽出プロセスまたは特徴分析プロセスは、入力画像と同じ次元であるかも知れないし、異なった次元であるかも知れない(普通は大きくなっている)新しい処理画像を多数創り出す。したがって、この時点で、大量のデータがあり、これを減らすことが望ましい。
F、G、Hのところで、変換工程を実施し、そのときに、C、D、Eからの処理画像出力を分析して、重要なデータを抽出し、重要性が低いかまたは重要性のないデータを不採用とする。多くの分析法が当業者に知られていることであろうが、たとえば、主成分分析法(PCA)、主曲線分析法、情報最大化分析法などがある。最終結果は、オリジナルのデータ・セットのサブスペース、好ましくは最適サブスペースを占める、入力データよりも小さい次元のデータを創り出すことである。情報抽出方法は、C、およびEからあらゆる画像出力に適用される。
プロセスF、G、Hの出力は一組のベクトルを含み、これらのベクトルをOのところで組み合わせて画像キーIと呼ぶ単一のベクトルを創り出す。多くの異なった組み合わせ法を使用することができる。たとえば、単純連結(エンドツーエンド型)、重畳などである。ベクトルは正規化してからOのところで入力し、その結果、すべて同じレンジ内に位置する。F、G、Hからのベクトルの有意ビットを組み合わせ、意味をなさないビットを廃棄してもよい。
Jのところで、測定法によってIからの画像キーをKのところで先に記憶させたキーと比較し、記憶させたキーとの類似度を創り出す。多くの適切な測定法が当業者に知られていることであろうが、たとえば、ユークリッド測定法、マンハッタン測定法などがある。
Jから得た比較結果は、Kのところで記憶させ、Mのところで最終リストとして出力する。
図2は、どのようにしてLのところでキーを記憶させるかを示している。この場合、既知の画像をカメラAでキャプチャし、上記のプロセス工程を工程Iまで繰り返し、Lのところで既知の画像の画像キーを記憶させる。
図1および図2の方法の代替案が図3に示してある。ここでは、特徴抽出工程C、D、Eの後にベクトルを組み合わせてIのところで単一のベクトルを創り出す。次に、Gのところでこの単一ベクトルに単一情報抽出工程(サブスペース法)をかけ、画像キーを創り出し、この画像キーをJのところで先に述べたように比較する。
図4は、キー画像をJのところでただ1つの記憶させた画像と比較する別の変形例を示している。Kのところで後続の閾値工程が出力として一致または非一致のいずれかを示す。
図4は、サブスペース変換プロセスGより前のベクトルO、Iの組み合わせを示している。しかしながら、代わりに、図1と同様に、ベクトル組み合わせ変換O、Iの前にF、G、Hのようなサブスペース・プロセスを適用してもよいことは了解されたい。
一般的に、本発明の実施形態は、3次元画像データ、またはそれに加えて、2次元画像データを処理することができる。図1〜4にカメラAが示してあるが、画像(単数または複数)は任意適当なソースからのものであってもよい。
以下、図5〜12について説明すると、本発明では、主成分分析(PCA)を3次元曲面構造に適用することによって、従来の2次元アプローチにとっては典型的な問題を呈する条件の下でキャプチャされた、3次元顔モデルの大きいデータベースにおいて認識を実施するときに、高レベルの精度が達成されることを示す実施形態を考えている。結果は、誤採択率および誤拒絶率として表わされ、イコール誤り率を単一の比較値として採用する。本発明は、警備、監視、データ圧縮、およびアーカイブ検索のような用途範囲に使用されるのに最も効果的な曲面表現および距離測定法を確定する。
これらの実施形態では、顔認識に共通して関連するいくつかの問題を排除する3次元顔モデルを使用することを含める。2次元画像で利用できる色情報およびテクスチャ情報よりもむしろ純粋に幾何学的形状に依存することによって、色データおよびテクスチャ・データでのみ利用できる識別特徴を失うという犠牲を払って、照明状態対して変化しないシステムを提供する。さらに、3次元空間において顔構造を回転させることができるということにより、姿勢の変化の補正可能にさせるこで、認識に先立って位置合わせを必要とするような方法を支援することができる。とは言っても、3次元データに加えて、2次元データを使用することができることは了解されたい。
ここでは、今までのおなじみの2次元画像の代わりとして、3次元顔モデルから採用した顔曲面データを使用する。つまり、周知の顔認識法である、TurkおよびPentland [Turk, M., Pentland, A.: Eigenfaces for Recognition Journal of Cognitive Neuroscience, Vol. 3, (1991) 72-86]、[Turk, M., Pentland, A: Face Recognition Using Eigenfaces. In Proc. IEEE Conf. on Computer Vision and Pattern Recognition, (1991) 586-591]の発表した固有顔アプローチを採用し、これを新しい3次元データについて使用できるように改造した。本願発明者等は、3次元曲面構造を使用して顔を認識する最も効果的な方法を得た。
この顔認識法をテストするために、大きな3次元顔モデル・データベースを使用した。しかし最近までは、3次元モデル生成法は、通常、レーザ・スキャニング装置を使用していた。このようなシステムは、非常に精密ではあるが、しばしば速度が遅く、被写体が完全に静止した状態に留まる必要がある。立体視技術は、レーザを使用することなくより速い速度でキャプチャすることが可能であるが、特徴相関には、コントラストが強く且つ安定した局所的テクスチャの領域、すなわち、頬および額が明確に欠如しているものを必要とする。これらの理由により、3次元顔認識は、2次元顔認識に集中する研究の豊富さと比べたとき、相対的に研究されないままであった。いくつかの研究[Beumier, C., Acheroy, M.: Automatic 3D Face Authentication. Image and Vision Computing, Vol. 18, No. 4, (2000) 315-321] [Beumier, C., Acheroy, M.: Automatic Face Verification from 3D And Grey Level Clues. 11th Portuguese Conference on Pattern Recognition, 2000] [Gordon, G.: Face Recognition Based on Depth and Curvature Features. In Proc. of the IEEE Computer Society Conference on Computer Vision and Pattern Recognition, Champaign, Illinois (1992) 108-110] [Chua, C., Han, F., Ho, T: 3D Human Face Recognition Using Point Signature. Proc. Fourth IEEE International Conference on Automatic Face and Gesture Recognition, (2000) 233-8] が3次元データで実験したが、これらの研究は、3次元顔モデルの小さい実験セットに依存しなければならなかったし、または、認識に先立って2次元画像を強調するために包括的な顔モデルを使用していた[Zhao, W., Chella, R: 3D Model Enhanced Face Recognition. In Proc. Of the International Conference on Image Processing, Vancouver (2000)], [Romdhani, S., Blanz V., Vetter, T.: Face Identification by Fitting a 3D Morphable Model using Linear Shape and Texture Error Functions. The European Conference on Computer Vision (2002)], [Blanz, V., Romdhani, S., Vetter, T. Face Identification across Different Poses and Illuminations with a 3D Morphable Model. In Proc. of the 5th IEEE Conference on AFGR (2002)]。しかしながら、この研究は、3次元情報の使用が現在の最高水準の技術を充分に超えて顔認識を向上させる潜在性を有することを示している。新しい3次元キャプチャ装置の出現により、大きい3次元顔データベース(large 3D face database)の数を増やすことが今や可能となり、3次元顔認識技術の研究を促進する、プロジェクトの一部としてのUofY/Cybulaにおいて、効果的に機能するようになった。
過去の研究では、顔認識を実施するために3次元幾何学的構造で行える可能性を探っていた。今までは、研究の焦点は2次元画像に当てられてきていて、顔構造についての演繹的知識を使用して現存の2次元アプローチを向上させる試みがいくつか行われてきた。たとえば、ZhaoおよびChellappa[既述]は、2次元画像における顔の向きおよび照明方向を正規化するために包括的な3次元顔モデルを使用している。照射方向および姿勢の推定を使用して、3次元顔モデルを2次元顔画像と位置合わせし、それを使用して正面を向いた姿勢に等しいプロトタイプ画像を投写した後に線形識別分析によって認識を行う。このアプローチでも、テスト・セットでの認識精度はほぼ81%(25のランクの内では正しい一致)から100%まで向上する。同様の結果が顔認識ベンダ・テスト(FRVT)[Phillips, P. J., Grother, P., Micheals, R.J., Blackburn, D.M., Tabassi, E., Bone, J. M.: FRVT 2002: Overview and Summary. http://www.frvt.org/FRV2002/documents.htm, March (2003)]でも証明されている。これは、Romdhani、BlanzおよびVetterの3次元モーフィング可能モデル技術[既述]を使用する姿勢補正がFERETデータベース[Phillips, P. J., Wechsler, H., Huang, J., Rauss, P.: The FERET database and evaluation procedure for face recognition algorithms Image and Vision Computing. J, Vol. 16, No. 5, (1998) 295-306]に適用したときに誤り率を減らすことを示している。
Blanz、RomdhaniおよびVetter[既述]は類似のアプローチを採用し、3次元モーフィング可能顔モデルを使用して(2次元)顔画像の識別を支援している。照明方向および顔形状の初期評価で始めて、Romdhani等は、モーフィング可能な顔モデルの形状パラメータおよびテクスチャ・パラメータを繰り返し変え、2次元画像に対する差異を最小限に抑えている。これらのパラメータは、次いで、身元確認のための特徴として採用される。
今までに述べてきた方法は正規化を改善することによって3次元顔形状についての知識が2次元顔認識システムを改善することができることを示しているが、これまでに述べてきた方法は、いずれも、認識を実施するために実際の幾何学的構造を使用していない。BeumierおよびAcheroy[既述]はこのような情報を直接使用し、構造化した光変形に基づいたアプローチを使用して3次元顔モデルを生成しているが、BeumierおよびAcheroyは、3次元顔モデルを一致させる種々の方法をテストしている。そのうち2、3しか成功していなかった。
曲率分析は効果がないと判明し、特徴抽出は精密な認識を行うに充分に確固たるものではなかった。しかしながら、BeumierおよびAcheroyは、垂直面輪郭の曲率値を使用して適切な誤り率を達成することができた。30人分のデータベースで実施した検証テストでは、自動的に整合した曲面について7.25%〜9%のイコール誤り率が得られ、手動位置合わせを使用したときには6.25%〜9.5%のイコール誤り率が得られた。
Chua等[既述]は、異なったアプローチを採用し、軟質曲面認識技術を顔構造に適用している。顔曲面の硬質領域を識別し、抽出して表情によって変化しないシステムを創り出す試みを行っている。これらの硬質領域を識別し、最終的に顔を区別するに使用される特性はポイント符号であり、これが顔曲面上の特定ポイント局所的領域を取り囲む奥行き値を表している。各顔についての一組の特有のポイント符号を識別し、比較することによって2つの顔モデルの類似性が計算される。識別テストは、6人分の30個の奥行きマップのテスト・セットに適用したとき、すべての人々についてプローブ画像が正しく識別されることを示している。
Coombes等[A. M. Coombes, R. Richards, A. Linney, V. Bruce, R. Fright. Description and recognition of faces from 3D data. Proc. of The International Society for Optical Engineering. Vol. 1766, (1992) 307-19]が、微分幾何学に基いた方法を研究している。顔曲面の奥行きマップに曲率分析が適用されている。ここでは、曲面を、最高点、隆起、鞍型隆起、最低点、くぼみ、谷、鞍型谷、平坦部の、基本的な8つのタイプに区分化している。Coombes等は、どの曲線が相関している領域の種類を分類するかを比較することによって2つの顔を区別することができることを示唆している。平均的な男性および女性の顔構造の数量化分析は、異性間の顔におけるあご、鼻、額の形状および頬骨位置の差異を示す。
Gordon[既述]の提案した別の方法は特徴ローカライゼーション(localisation)を組み入れている。3次元顔モデルから抽出した奥行き情報および曲率情報の両方を使用して、Gordonは、多数の顔特徴を識別し、そこから顔の幅、多数の鼻の次元および曲率、眼間の距離ならびに眼幅を含む一組の測定値を採用している。これらの特徴は、フィッシャーの線形識別法を使用して評価され、個々の特徴の識別能力を決定している。Gordonの研究結果は、顔幅および鼻位置が認識のために特に重要な特徴であり、眼幅および鼻曲率はあまり役に立たないことを示している。認識は、特徴スペースにおける単純なユークリッド距離測定によって実施される。8人から採取した24個の顔曲面のデータベースを使用していくつかの特徴組み合わせがテストされ、70.8%〜100%の範囲で正しく一致する結果を示している。
先に述べたように、現在のところ公に利用できる3次元顔データはほとんど無く、3次元顔認識システムの開発およびテストに対して必要とされるデータの重要性に対するものは皆無である。したがって、本願発明者等は、3次元顔モデルの新しいデータベースを集めた。このデータベースは、顔認識研究のために1000人以上の公けに利用できる3次元顔データベースを得るべく進行中のプロジェクトの一部としてUofY/Cybulaで集めた。3次元顔モデルは、より高い特徴密度を得るために光投射によって拡張した立体視技術を使用して生成する。各々の顔モデルは、3次元カメラで撮影したワンショットが必要で、そのワンショットから、秒以下の処理時間でモデルが生成される。
この評価の目的のために、本発明者等は、予備データ収集セッション中に獲得した3次元顔データベースのサブセットを使用する。このセットは、図5に示す条件の下に100人の人々から採取した330個の顔モデルからなる。
キャプチャ(capture)中には、照明状態を制御する努力はまったく行わなかった。種々の首の向きでの顔モデルを生成するために、被写体には、カメラの上下およそ45度にある基準点に顔を向けるように頼んだが、精密な向き角度を得る努力はいっさい行わなかった。各人について生成した顔モデルの例が図5に示してある。
3次元顔モデルは、OBJファイル・フォーマット(3次元データの共通表現)で記憶させ、奥行きマップに変換する前に向き正規化アルゴリズム(ここでは説明しない)を使用して真っすぐ前に顔を向けるように方向を合わせている。ついで、このデータベースを2つの独立セットに分離する。トレーニング・セットは、タイプ01(図5参照)の40個の奥行きマップからなり、残りの290個の奥行きマップのテスト・セットは図5に示すすべてのキャプチャ条件からなる。トレーニング・セット、テスト・セットは、共に、種々の人種、年齢、性の被写体を含んでおり、トレーニングおよびテスト・セットの両方に存在しないひとは誰もいない。
周囲のキャプチャ状態によって生じた望ましくない特徴を除去することによって画像処理技術を使用して2次元顔認識法の誤り率をかなり減らすことができることはよく知られている。この環境的影響の多くは、3次元顔モデルには存在しないが、識別特徴をより明確にすることによって前処理がなお認識を向上させることができる。この説明では、本発明者等は、認識誤り率に影響を及ぼす可能性のある多数の曲面表現を説明する。これらの曲面は、図8に示すように、トレーニング手順およびテスト手順の両方に先立って奥行きマップの前処理によって導き出されている。
本発明のアプローチにおいては、TurkおよびPentland[既述]によって発表されていて過去の研究において使用されたものに対する同様のアプローチを採用して、主成分分析法を顔曲面のトレーニング・セットに適用することによって『3次元曲面スペース(3D surface space)』を定めている。
向きを正規化した60×105の奥行きマップとして記憶させた本発明の顔曲面トレーニング・セットについて考察する。これら個々の奥行きマップは、6300個の要素のベクトルとして表現することができ、すべての可能性のある奥行きマップの6300次元スペース内のただ1つのポイントを表わしている。その上、類似した幾何学的構造を有する顔は、この高次元スペースの比較的局所的な領域におけるポイントを占めなければならない。この考えを継続させるべく、本発明者等は、同じ顔の異なった奥行きマップがスペース内の直ぐ近くのポイントに投影し、異なった顔の奥行きマップがはるかに離れたポイントに投影すると仮定する。理想的には、本発明者等は、顔曲面を含むこのスペースの領域を抽出し、次元の数を実際的な値まで減らすと共に奥行きマップ・サブスペース内の顔曲面の広がりを最大にすることを望んでいる。
前述の特性を有するスペースを定めるために、本発明では、M個の奥行きマップ(本実施形態ではM=40){Γ、Γ2、Γ、...Γ}のトレーニング・セットに主成分分析法を適用し、共分散行列を計算した。
ここで、Φは、平均Ψからn番目の奥行きマップの差分である。共分散行列の固有ベクトルおよび固有値は標準的な線形法を使用して算出する。こうして得た固有ベクトルは、1セットの軸線を記載しており、これらの軸線に沿ったほとんどの変化がトレーニング・セット内で生じ、対応する固有値が各軸線に沿ったこの変化の程度を表す。M個の固有ベクトルが、固有値の降順にソートされ、M’の最大固有ベクトル(本発明のシステムでは、M’=40)が選ばれて曲面スペースを表す。その効果は、M’に対するスペースの次元数が減り、しかも奥行きマップ・サブスペースの全体にわたって顔曲面間の高い分散レベルを保ったということである。
本発明では、各固有ベクトルを固有曲面と呼ぶが、これは、図7に示す顔曲面主成分のレンジ画像として表示され得る6300のエレメント(オリジナルの奥行きマップにおける奥行き値の数)を含む。
ひとたび曲面スペースを定めたならば、式1における共分散行列から算出した固有ベクトルを使用して単純行列乗算によって曲面スペースに任意の顔を投写する。
ここで、uはk番目の固有ベクトルであり、ωはベクトルΩ=[ω,ω,ω, ...ω]におけるk番目の重みである。M’係数は、投写された奥行きマップに対するそれぞれの固有曲面の寄与率を表している。ベクトルΩは、曲面スペースにおける個人の顔構造を表す『顔キー』として採用し、ユークリッド測定法またはコサイン距離測定法のいずれかによって比較する。
さらに、各顔キーをそのそれぞれの固有値によって除算してから距離計算を行い、任意固有の次元バイアスを除き、2つの補足距離、すなわち、マハラノビス距離(mahalanobis distance)と重み付きコサイン距離(weighted cosine match)を導入する。受忍(acceptance)(2つの顔曲面一致)するか、或いは拒絶(rejection)(2つの曲面が不一致)するかは、算出距離に閾値を適用することによって決定する。閾値を下回る距離を示す比較結果はいかなるものも受忍とみなされる。顔認識法の有効性を評価するために、本発明者等は、290の顔曲面からなるテスト・セットについて41,905回の検証作業を実施し、誤り率を計算した(図8参照)。テスト・セット内の各曲面を他のすべての曲面と比較したが、それ自体の画像との比較は行わず、各対の比較は一度だけであった(関係は対称形であった)。
誤採択率および誤拒絶率は、閾値適用後の不適当な採択および不適当な拒絶のパーセンテージとして算出する。或る閾値範囲を適用することで一連のFAR対、FRR対が生じ、これらを、図9に本発明者等のベンチマークシステムについて示すグラフにプロットした。イコール誤り率はFARがFRRに等しいポイントとして確認できる。
以下、290の顔曲面からなるテスト・セットについての3次元顔認識法のテストから集めた結果を示す。これらの結果は、FAR対FRRの誤差曲線およびEERのバーチャートによって表してある。図8は、先に説明した4つの距離測定法を使用してベースライン・システム(顔曲面奥行きマップ)について算出した誤差曲線を示している。
これらの結果は、固有値で除算してベクトル次元を正規化した後に距離値を計算することで、ユークリッド距離測定法およびコサイン距離測定法の両方に対する誤り率をかなり低下させ、マハラノビス距離が最も低いEERをもたらす、ということを明確に示している。図11に示すように、同じ4つの曲線が、すべての曲面表現および単一比較値として採用されたEERに対して産出された。
図11に示すEERから明らかなように、顔認識に対しては、曲面グラジエント表現が最も識別情報を与える。水平導関数は、重み付きコサイン距離測定法を用いてすべての最も低い誤り率をもたらす。実際には、重み付きコサイン距離が、重み付きコサインEERが特に高い2、3のケースを除いて、大多数の曲面表現に対して最も低い誤り率を返す。しかしながら、使用した距離測定法とは無関係に一般的にあまり特徴のない曲率表現の場合を除いては、どれが最も効果的な曲面表現かは、比較のために用いた距離測定法(図10参照)次第であるように思える。
最も効果的な曲面表現(水平、垂直導関数)の直交性により、本発明者等は、これらの表現を組み合わせることで誤り率をさらに減らすことになると仮定した。したがって、図11で使用した方法に加えて、多数の曲面スペースから投写した顔キーを連結することによって多数のシステム組み合わせをテストし、多数の曲面表現から識別特徴を利用することを試みた。表1に示す結果は、重み付きコサイン距離測定値を拡張顔キー組み合わせに適用することによって算出した。
これまで、周知の2次元顔認識法が3次元顔モデルで使用するのに適応できることを示してきた。テストは、認識を実施するときに典型的な問題点を与える条件の下にキャプチャした3次元顔曲面の大きいデータベースで実施した。ベースライン3次元システムで発生した誤り率は、2次元画像を使用する同様の実験で集めたよりもかなり低い。3次元顔認識が従来の2次元アプローチ以上の明確な利点を有することは明らかである。
多数の曲面表現で研究して、本願発明では、認識に対しては、顔曲面グラジエントが奥行き表現および曲率表現よりもより効果的であることを発見した。特に、水平グラジエントでの誤り率が最も低い。このことは、水平導関数が鉛直プロファイルよりも多くの識別情報を与えることを示しているように思える。別の利点としては、導関数がZ軸に沿った並進に対して変化しないので、グラジエントがアライメント手順における不正確さに対して、より一層ロバスト(robust)でありそうだということがある。
曲率表現は、他の曲面表現ほど多くの識別情報を含んでいるようには思えない。二次導関数はZ軸に沿った向きおよび並進の不正確さにあまり敏感でないはずなので、これは本発明者等にとって驚くべきことであった。しかしながら、これは、図12におけるノイズが多い曲率画像の原因となる可能性のある不適切な3次元モデル解像度に影響を与える可能性がある。
3つの距離測定法をテストしたところ、顔キー比較のための方法の選択が、その方法で生じた誤り率にかなり影響することがわかった。それぞれの固有値によって各顔キーを除算し、次元分布を正規化することが、通常は、ユークリッド距離およびコサイン距離の両方に対する結果を改善することも明らかである。このことは、次元分布が必ずしも識別能力に比例するわけではなく、均一分布時に曲面スペースが全体としてより多くの差異を見分けられるようになるということを示している。しかしながら、このことは、もっとEERの高いような曲面表現に対しては当てはまらず、このような表現は優位で有用な成分をほんの僅かしか取り込むことができず、他の大多数の識別能力の低い成分で正規化されたときに、これらの成分は隠されてしまう、ということを示唆している。
重み付きコサイン距離(weighted cosine distance)は、最適システムをも含めて、大多数の曲面表現に対し最も低い誤り率をもたらす。また、この測定法では、多数の曲面表現によって得られた利点を利用しようという目的で、多数の顔キーを組み合わせる手段を提供しており、誤り率をさらに減らしている。
本発明では、最も効果的な曲面表現をシングルシステムに組み合わせたときに、初期奥行きマップを使用して得た17.8%EERから12.1%のEERまで誤り率を減らすように管理を行った。これらの結果は、本発明者等が過去に行った研究におけると同様の環境の下にテストした最良の2次元システムよりもかなり低く、幾何学的な顔構造が色情報およびテクスチャ情報から独立して使用したときに認識のためには有用であり、高い精度を達成することができることを証明している。データ・キャプチャ法が照明状態に対して不変である顔モデルを生じさせ、姿勢と無関係に顔を認識できると想定すれば、このシステムは警備および監視の用途で使用するのに特に興味をそそる。
以下、図13〜図18の例に言及する。
過去の研究[Beumier, C., Acheroy, M.: Automatic 3D Face Authentication. Image and Vision Computing, Vol. 18, No. 4, (2000) 315-321], [Cordon, G.: Face Recognition Based on Depth and Curvature Features. In Proc. of the IEEE Computer Society Conference on Computer Vision and Pattern Recognition, Champaign, Illinois (1992) 108-110], [Chua, C., Han, F., Ho, T.: 3D Human Face Recognition Using Point Signature. Proc. Fourth IEEE International Conference on Automatic Face and Gesture Recognition, (2000) 233-8], [Zhao, W., Chellaa, R: 3D Model Enhanced Face Recognition. In Proc: Of the International Conference on Image Processing, Vancouver (2000)], [Romdhani, S., Blanz, V., Vetter, T.: Face Identification by Fitting a 3D Morphable Model using Linear Shape and Texture Error Functions. The European Conference on Computer Vision (2002)], [Blanz, V., Romdhani, S., Vetter, T.: Face Identification across Different Poses and Illuminations with a 3D Morphable Model. In Proc. of the 5th IEEE Conference on AVGR (2002)], [Beumier, C., Acheroy, M.: Automatic Face Verification from 3D And Grey Level Clues. 11th Portuguese Conference on Pattern Recognition, 2000]は、3次元顔モデルの使用で2次元顔認識と関連したいくつかの問題を解決することができることを示している。まず、色情報およびテクスチャ情報よりも、むしろ幾何学的形状に依存することよって、システムは、照明状態に対して不変となる。次に、3次元スペースにおいて顔構造を回転させることができ、姿勢の変化を補整することができるということは、認識に先立って位置合わせを必要とする方法の助けとなる。最後に、2次元画像からは利用できない、顔曲面構造で利用できる付加的な識別情報は、認識に対し付加的なキューを与える。
しかし、2次元データを3次元データに加えて、または、3次元データの代わりに使用できるということは認識されたい。
トレーニングおよび認識の前に適用する前処理技術を使用することで、識別特徴をより明確にし、周囲の効果を正規化し、ノイズ含有量を減らし、認識精度を大幅に向上させることができることもわかった[Heseltine, T., Pears, N., Austin J.: Evaluation of image preprocessing techniques for eigenface-based face recognition. In Proc, of the 2nd International Conf. on Image and Graphics, SPIE Vol. 4875 (2002) 677-685]。しかしながら、過去の研究では、個々の曲面表現によって得られる利点とほとんど関係なく、最適曲面表現を識別することに焦点を当てていた。本発明者等は、認識全体についての一般的な弱点を有するにもかかわらず、異なった曲面表現が異なったキャプチャ条件または或る種の顔特性に特に適している可能性があることを示唆したい。たとえば、曲率表現は、システムを3次元向きにおける不正確さに対してよりロバストにし、しかもノイズに非常に敏感であるようにすることによって認識を助けることができる。別の表現は、鼻形状を強調することができるが、顔特徴の相対的な位置を失う可能性がある。多数の固有スペースを使用することの利点は、以前にPentland等によって検討されていた[A. Pentland, B. Moghaddom, T: Straner, "Vien-Based and Modular Eigenfaces for Face Recognition", Proc. Of IEEE Conf. on Computer Vision and Pattern Recognition, 1994]。そのとき、スペシャリスト固有スペースが種々の顔の向きおよび局所的顔領域について構成され、そこからの累積的なスナッチ・スコアが誤り率を減らすことができた。この例における本発明者等のアプローチは、個々の次元を抽出し、組み合わせ、単一の統合曲面スペースを創り出すという点で異なる。このアプローチは、2次元画像に適用したときに効果的に作用することを示している。
ここで、本発明では一連の3次元顔認識システムを分析して数値を求めることにする。各表現によって得られる利点を識別して区別する目的で、各システムは顔構造の異なった曲面表現を利用する。本発明では、顔認識フィッシャー曲面法に焦点を当てて、各システムによって生じた曲面サブスペースから成分を選択して抽出し、これらの曲面サブスペースを統合曲面スペースに組み合わせることができるようにする、という手段を提案する。
トレーニングおよびテストに先立って、3次元顔モデルは、図13に示された曲面表現の1つに変換される。これは、まず最初に、3次元顔モデルを正面を向くように方向付けてから、奥行きマップに投写することによって行なわれる。次いで、奥行きマップの前処理によって、図13の表にある曲面が導き出される。
ここで、Belhumeur等[Belhumenr, J. Hespanha, D. Kriegman, "Eigenfaces vs. Fisherfaces: Face Recognition using class specific linear projection", Proc of the European Conference on Computer Vision, pp. 45-58, 1196]によって記載されたような、顔認識フィッシャー顔方法について簡単な説明を行い、3次元顔曲面にどのように適用するかを説明する(これはフィッシャー曲面法と呼ぶ)。本発明では、3次元顔モデルの曲面表現に対して主成分分析法および線形識別分析法の両方を適用し、固有顔法[A. Pentland, B. Moghaddom, T. Starner, "View-Based and Modular Eigenfaces for Face Recognition", Proc. of IEEE: Conf. on Computer Vision and Pattern Recognition, 1994]および固有曲面法で使用されるのと同様に、サブスペース投写行列を作成した。しかしながら、フィッシャー曲面法は、『クラス内(within-class)』情報の利点を採用し、同じ人間の多数の顔モデル間の変化を最小限に抑え、しかもなおクラス分けを最大化することができる。これを達成するために、本発明では、各被写体の多数の例を含むようにトレーニング・セットを拡張した。ここで、式4に示すように、顔モデル毎の人間の顔構造の変化(表情や首の向きのような影響による)を説明する。
ここで、Γは顔曲面であり、トレーニング・セットがcクラス毎に区切ってあり、各クラスXにおける各曲面は同じ人間のものであり、2つ以上のクラスに1人の人間が存在することはない。それに続いて、3つの散乱行列を計算し、式5に示す、曲面スペースの全体にわたるトレーニング・セットのクラス内(SW)分布、クラス間(S)分布および全体(S)分布を表した。
全体散乱行列STを使用してPCAを実施し、トップM−c主体成分を採用することよって、投写行列Upcaを作成し、これをクラス内散乱行列の次元数を減らすのに使用し、投写行列が確実に正則行列となるようにしてから、式6に示すように、縮小散乱行列比(Ufld)のトップc−1(この場合、49)の固有ベクトルを計算した。


ここで、uはk番目の固有ベクトルであり、ωはベクトルΩ=[ω ...ω]におけるk番目の重みである。c-1係数は、オリジナル顔曲面構造に対するそれぞれのフィッシャー曲面の寄与率を表している。ベクトルΩは、縮小次元数曲面スペースにおける人間の顔構造を表す『顔キー』として採用し、式9に示すようなユークリッド距離測定法またはコサイン距離測定法を使用して比較する。
受忍(acceptence;2つ顔曲面一致)あるいは拒絶(rejection:2つの曲面が一致しない)は、閾値を算出した距離に適用することによって決定される。閾値を下回る距離値をしめす比較結果はいかなるものも受忍とみなされる。
ここで、本発明では、種々の顔曲面表現をフィッシャー曲面法と共に使用したときに生じた曲面スペースを分析した。分析は、種々の曲面表現を使用したときに生じた誤り率の範囲を示す結果を得ることから開始した。図14は、曲面表現の選択がフィッシャー曲面法の有効性について有意の効果を有し、水平グラジエント表現が最も低いイコール誤り率(EER、FARがFRRに等しいときの誤り率)を与えることを明確に示している。
しかしながら、水平グラジエント表現の優位性は、垂直グラジエント表現および曲率表現がまったく無益であることを示唆するものではなく、これらの表現によって得られる識別情報は強くも顕著でもないかも知れないけれども、情報に対する積極的な貢献が水平グラジエント表現において既に利用可能であるようにさせることはないとは言えない。ここで、3次元顔特徴を分析するのにGordon[既述]によって使用されたように、フィッシャーの線形識別法(FLD)を各曲面スペースの個々の成分(単一次元)に適用することによって、各曲面スペースの識別能力の調査を更に行なう。単一の顔スペース次元に焦点を合わせて、本発明では、cの人々間で、識別力を記載している識別子dを計算した。
ここで、mは顔キーにおけるその次元の平均値であり、mはクラスiのクラス内平均であり、Φはクラスiの顔キーから採ったベクトル・エレメントのセットである。上記の式を各顔曲面表現を使用して生成した曲面スペース・システムの組合せに適用することで、本発明者等は、各曲面表現についてのトップ10個の最も識別次元について、図15に示すように、各個々の次元の識別能力を説明する広い判別値の範囲を確かめた。
いくつかの曲面表現は顔認識テストにおいてうまく機能せず、高いEER(たとえば、min_curvature)を発生するが、それらの顔キー成分のいくつかは高い識別情報を含むことは明らかである。本発明者等は、特に無効なサブスペースにおけるこれらの高い識別の偏りの理由は、或る種の曲面表現が単一識別ファクタ(たとえば、鼻の形または顎の構造)に特に適しているかもしれないが、より一般的な分類子として使用したときには効果的でないと仮定した。したがって、もしこれらの少ない有用な特性をより特殊化したサブスペースから隔離することができるならば、これらの特性を使用して積極的な寄与率を一般的により効果的な曲面スペースに与え、さらに誤り率を減らすことができるであろう。
ここで、上記の分析法をどのように使用して多数の顔認識システムを組み合わせるかを説明する。まず、曲面空間次元に優先順位をつけることについての問題に対処する必要がある。或るシステム範囲からの顔キー・ベクトルの平均的大きさおよび導関数が或る大きさの順序によって異なりそうなので、或る種の次元は、たとえ識別能力を一様に一致させたとしても他よりも大きな影響を有することになる。この影響を補正するために、本発明者等は、各顔キー・エレメントをそのクラス内標準導関数で割ることによってモーメントを正規化した。しかしながら、これらの次元を正規化するに際して、本発明者等は、いかなる優先順位をも取り除き、すべての顔スペース成分が等しいと看做されるようにした。単一曲面スペースに適用したときには問題はないが、多数の次元を組み合わせたとき、理想的には、より信頼性が高い成分により大きな優先順位を与えたいと思う。さもなければ、この状況は、多数のあまり際立っていない(が、まだ有用である)次元がより少なくてより際立った次元を上回り始めたときに生じ、それらの検証作業についての影響を最小限に抑え、それ故、誤り率を高めそうである。本発明者等は、FLDをどのように使用して任意所与の顔スペースからの単一の次元の識別能力を測定することができるかを確かめた。そのとき、本発明者等は、この判別値dを各顔空間次元のための重み付けとして用いて、これらの次元に最も高い識別能力で優先順位を付けた。
この重み付け構成を各システムによって生じたすべての顔キーに適用することで、本発明者等は、単一の統合曲面スペースに次元を組み合わせ始めることができた。或る曲面スペース範囲からの多数の次元を組み合わせるためには、どの次元を組み合わせるべきか決定するのに或る種の基準が必要である。判別値そのものにのみ依存するだけでは不充分である。判別値はその次元の判別能を示すだけなので、この次元を含むことが現存の次元セットのためになるかどうかをなんら示すことなく。もし現存の曲面スペースがすでに或る量の判別能を与えるならば、現存のセット内にすでに存在する特徴を表現している付加的な次元を導入する場合にはこの判別能はほとんど利点とはならないであろうし(あるいは、有害ですらあるかもしれない)。
研究では、FLDを使用し、組み合わせた固有スペースに適用して認識のために使用したときのその有効性を予測した。次いで、より大きな判別値を生じるかどうか付加的な次元を導入した。この方法は、2次元顔認識における誤り率をかなり低下させることのできる2次元固有スペース組み合わせを生み出すことを示したが、処理時間が極めて長くなるけれども、EERを使用することがおそらくより良い結果を与えるであろうことに注目されたい。しかしながら、ここで、本発明では、より効率的な組み合わせアルゴリズムと共に、このアプローチを採用し、新しい次元を或る現存の曲面スペースに導入するのに必要な基準が結果として生じたFERの増大であるようにした。実際には、任意の最適化方法を使用して最良の次元組み合わせ(たとえば、遺伝アルゴリズム、焼き鈍し法その他)を選ぶことができる。
図16では、一方はユークリッド距離測定法を使用し、他方はコサイン距離測定法を使用している、というように組み合わせた2つのシステムに加えるために、上記のアルゴリズムを使用して、どの曲面スペースからどの次元を選んだかを示している。。
ここで、本発明では、コサイン距離測定値およびユークリッド距離測定値の両方を使って、組み合わせた曲面スペース・システムと、最適な個々のシステムとを比較した。
図17及び図18に示す誤差曲線は、コサイン距離測定法およびユークリッド距離測定法を使用して、最適な単一フィッシャー曲面システムおよび組み合わせたフィッシャー曲面システムを、テスト・セットA(組み合わせシステムを構成するのに使用される)、テスト・セットB(初見のテスト・セット)および完全テスト・セット(セットA及びセットBからのすべての画像)に適用したときに得られた結果を示している。本発明者等は、組み合わせシステム(鎖線)がコサイン距離測定法、ユークリッド距離測定法の両方について単一システムよりも低い誤り率を生じることを確かめた。テスト・セットA、テスト・セットB、テスト・セット(A及びB)のそれぞれについて、7.2%、9.3%、8.2%のEERを発生する、コサイン距離を使用したフィッシャー曲面組み合わせが最適システムであることがわかった。
これは次元を選択することのほんの一例であり、この場合には水平導関数成分のすべての選択であるという初期選択成分のセットの近くに、性能的に極大を決定するだけであることは承知されたい。本発明の他の実施形態では、一般的に、正確で信頼性の高いシステム性能を与えるために全次元セットからの次元のサブセットを選択するのに使用される任意の検索法または最適化法を含む。
ここに開示した種々の方法は互いに組み合わせることができる。
上記のように、本発明の図示実施形態を顔の認識のために使用しているが、これらの図示実施形態を使用したり修正したりして他の対象物を認識することもできる。
この明細書において、「含む(comprise)」という動詞は、通常の辞書的な意味を有し、非排他的な包含を意味している。すなわち、1つまたはそれ以上の特徴を包含するように「含む(comprise)」という単語を使用することであり、さらに別の特徴も包含する可能性を排除することはない。
本明細書の読者は、本出願と関連して特定されたすべての優先文献、および、本願と同時にあるいは、本願に関する明細書より以前に出願され、本願明細書で公開されている全ての文献に注意を向けて頂きたく、このような文献全ての内容は参照されることにより本明細書の一部を構成するものである。
本明細書に開示した特徴のすべておよび/またはそこに開示した任意の方法またはプロセスの工程のすべては、これらの特徴および/または工程の少なくともいくつかが相互に排他的である組み合わせを除いて、任意の組み合わせで組み合わせることができる。
本明細書に開示した各特徴は、特に明示しない限り、同じまたは均等または類似の目的を果す代替の特徴と置き換えることができる。 したがって、特に明示しない限り、ここに開示した各特徴は包括的な一連の均等または類似の特徴のほんの一例である。
本発明は、前述の実施形態(単数または複数)の詳細に限定されることはない。本発明は、本明細書に開示した特徴のうちの任意の新規な1つまたは新規な特徴組み合わせに及ぶし、また、ここに開示した任意の方法またはプロセスの工程のうちの任意の1つまたは任意の新規な工程組み合わせにも及ぶ。
画像認識法の一例を説明するフローチャートである。 トレーニング・モードを説明する、図1と同様のフローチャートである。 図1の示す方法の変形例を示すフローチャートである。 図3と同様のフローチャートであるが、或る特定の一致を探す変形例を示す図である。 3次元顔データベースから採用した顔モデルの例を示している。 正面を向いた姿勢(中央)および顔曲面奥行きマップ(右)に対する未処理3次元顔モデル(左)の向きを示している。 平均奥行きマップ(最も左)と第1の8つの固有曲面を示している。 顔曲面奥行きマップおよび或る距離測定法レンジを使用している代表的な3次元顔認識システムについての誤採択率と誤拒絶率とを示すグラフである。 検証テスト手順の流れ図である。 最適曲面表現および距離測定法を使用している3次元顔認識システムについての誤採択率および誤拒絶率を示すグラフである。 種々の曲面表現および距離測定法を使用している3次元顔認識システムのイコール誤り率を示すチャートである。 コンボリューションカーネルを使用した曲面表現の簡単な説明を示している。 曲面表現の表である。 異なった曲面表現についてのイコール誤り率を示すグラフである。 異なった曲面表現についての判別値および次元を示すグラフである。 ユークリッド距離測定法およびコサイン距離測定法を使用している2つの組み合わせシステムに内蔵させるための曲面スペースから選んだ次元を示す表である。 コサイン距離測定法およびユークリッド距離測定法を使用しているフィッシャー曲面システムについての誤差曲線を示している。 コサイン距離測定法およびユークリッド距離測定法を使用しているフィッシャー曲面システムについての誤差曲線を示している。

Claims (19)

  1. 三次元画像を認識する方法であって、
    a. 前記画像を、各々三次元表面構造に関連する、異なる特徴抽出処理により処理して複数の異なった処理画像を含む画像セットを得る工程と、
    b. 前記画像セット内の処理画像を組み合わせる工程と、
    c. 前記画像セット内の処理画像によって占有されたデータスペースを、縮小されたデータスペースを創り出すために変換(transform)する工程と、
    d. 前記縮小されたデータスペース内に表示(represent)される組み合わされた画像セットから画像を代表する画像キーを生成する工程と、
    e. 前記画像キーを既知画像の少なくとも1つの以前に記憶しておいた画像キーと比較する工程とを含み、
    前記工程bは前記工程cに先立って実施され、又は前記工程cは前記工程bに先立って実施される、ことを特徴とする方法。
  2. 工程aが、エッジ、ライン、ウェーブレット、グラジエント成分、曲率成分、および色成分の内の少なくとも1つを含む画像特徴を抽出する工程を含むことを特徴とする請求項1に記載の方法。
  3. 工程eが、画像キーをすぐ前に記憶させた画像キーと比較して画像の同一性を検証する工程を含むことを特徴とする請求項1に記載の方法。
  4. 工程eが、画像キーを複数の前に記憶させた画像キーと比較して画像を識別する工程を含むことを特徴とする請求項1に記載の方法。
  5. 工程eにおける比較の結果を記憶させ、前に記憶させた画像キーとの潜在的な一致リストを生成する工程をさらに含むことを特徴とする請求項4に記載の方法。
  6. 工程eが、ユークリッド距離測定法(L2基準)、マハラノビス距離測定法、またはコサイン距離測定法を使用して実施されることを特徴とする請求項4または5に記載の方法。
  7. 工程aに先立って、画像を所定の向き及び/又は位置及び/又は奥行き正規化に回転及び/又は位置させる工程を含むことを特徴とする請求項1〜6のいずれか1つに記載の方法。
  8. 工程bに先立って、データを正規化してから組み合わせを行う工程を含むことを特徴とする請求項1〜7のいずれか1つに記載の方法。
  9. 前記画像がカメラから得たものであることを特徴とする請求項1〜8のいずれか1つに記載の方法。
  10. 前記画像が、重ね合わせた2次元−3次元画像対を含むことを特徴とする請求項1〜9のいずれかに記載の方法。
  11. 工程cが、主成分分析法によって実施されることを特徴とする請求項1〜10のいずれか1つに記載の方法。
  12. 工程cが、フィッシャーの線形識別分析法(Fisher's Linear Discriminant Analysis)によって実施されることを特徴とする請求項1〜11のいずれか1つに記載の方法。
  13. 前記画像が顔の画像であることを特徴とする請求項1〜12のいずれか1つに記載の方法。
  14. 前記画像が人間の顔の画像であることを特徴とする請求項1〜13のいずれか1つに記載の方法。
  15. 前記画像が自然画像であることを特徴とする請求項1〜14のいずれか1つに記載の方法。
  16. 前記画像セットがオリジナルの画像を含むことを特徴とする請求項1〜15のいずれか1つに記載の方法。
  17. 三次元画像を認識する装置であって、
    a. プロセスに複数の異なった処理画像を得るべく前記画像を、各々三次元表面構造に関連する、異なった特徴抽出処理により処理するように配置した処理手段と、
    b. 処理画像を組み合わせるように配置した組み合わせ手段と、
    c. 処理画像の占有するデータスペースを縮小するように配置した縮小手段と、
    d. 組み合わせ、縮小した処理画像から画像を代表する画像キーを生成するように配置した生成手段と、
    e. 画像キーを既知の画像の少なくとも1つ前に記憶させた画像キーと比較するように配置した比較手段と、を含むことを特徴とする装置。
  18. 3次元画像を認識する方法であって、
    a. フィッシャーの線形識別分析を使用して画像の占有するデータスペースを変換(transform)する工程と、
    b.変換されたデータスペースから画像を代表する画像キーを生成する工程と、
    c. 前記画像キーを既知画像の少なくとも1つの以前に記憶しておいた画像キーと比較する工程と、を含むことを特徴とする方法。
  19. 3次元画像を認識する装置であって、
    a. フィッシャーの線形識別分析法を使用して画像の占有するデータスペースを変換(transform)する手段と、
    b. 変換されたデータスペースから画像を代表する画像キーを生成する手段と、
    c. 前記画像キーを既知画像の少なくとも1つの以前に記憶させておいた画像キーと比較する手段と、を含むことを特徴とする装置。
JP2006530286A 2003-10-09 2004-10-11 画像認識 Expired - Fee Related JP4860472B2 (ja)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
GB0323662A GB0323662D0 (en) 2003-10-09 2003-10-09 Image recognition
GB0323662.7 2003-10-09
GB0408570A GB0408570D0 (en) 2004-04-17 2004-04-17 Image recognition
GB0408570.0 2004-04-17
PCT/EP2004/052502 WO2005038700A1 (en) 2003-10-09 2004-10-11 Image recognition

Publications (2)

Publication Number Publication Date
JP2007508609A JP2007508609A (ja) 2007-04-05
JP4860472B2 true JP4860472B2 (ja) 2012-01-25

Family

ID=33454600

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2006530286A Expired - Fee Related JP4860472B2 (ja) 2003-10-09 2004-10-11 画像認識

Country Status (6)

Country Link
US (1) US7689043B2 (ja)
EP (1) EP1673714A1 (ja)
JP (1) JP4860472B2 (ja)
KR (1) KR101149931B1 (ja)
GB (2) GB2408615B (ja)
WO (1) WO2005038700A1 (ja)

Families Citing this family (60)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8732025B2 (en) 2005-05-09 2014-05-20 Google Inc. System and method for enabling image recognition and searching of remote content on display
US7945099B2 (en) * 2005-05-09 2011-05-17 Like.Com System and method for use of images with recognition analysis
US7783135B2 (en) 2005-05-09 2010-08-24 Like.Com System and method for providing objectified image renderings using recognition information from images
US7760917B2 (en) 2005-05-09 2010-07-20 Like.Com Computer-implemented method for performing similarity searches
US20080177640A1 (en) 2005-05-09 2008-07-24 Salih Burak Gokturk System and method for using image analysis and search in e-commerce
US7519200B2 (en) 2005-05-09 2009-04-14 Like.Com System and method for enabling the use of captured images through recognition
US7657126B2 (en) 2005-05-09 2010-02-02 Like.Com System and method for search portions of objects in images and features thereof
US7660468B2 (en) 2005-05-09 2010-02-09 Like.Com System and method for enabling image searching using manual enrichment, classification, and/or segmentation
JP4696778B2 (ja) * 2005-08-23 2011-06-08 コニカミノルタホールディングス株式会社 認証装置、認証方法及びプログラム
US8571272B2 (en) * 2006-03-12 2013-10-29 Google Inc. Techniques for enabling or establishing the use of face recognition algorithms
US9690979B2 (en) 2006-03-12 2017-06-27 Google Inc. Techniques for enabling or establishing the use of face recognition algorithms
US8233702B2 (en) * 2006-08-18 2012-07-31 Google Inc. Computer implemented technique for analyzing images
KR100828412B1 (ko) * 2006-11-06 2008-05-09 연세대학교 산학협력단 멀티 포인트 신호를 이용한 3차원 얼굴 인식 방법
JP4780198B2 (ja) * 2006-11-10 2011-09-28 コニカミノルタホールディングス株式会社 認証システム及び認証方法
US7953294B2 (en) * 2007-01-23 2011-05-31 Accenture Global Services Limited Reshaping a camera image
US8416981B2 (en) 2007-07-29 2013-04-09 Google Inc. System and method for displaying contextual supplemental content based on image content
US8194933B2 (en) 2007-12-12 2012-06-05 3M Innovative Properties Company Identification and verification of an unknown document according to an eigen image process
US8540158B2 (en) * 2007-12-12 2013-09-24 Yiwu Lei Document verification using dynamic document identification framework
US8036468B2 (en) 2007-12-24 2011-10-11 Microsoft Corporation Invariant visual scene and object recognition
US20090185746A1 (en) * 2008-01-22 2009-07-23 The University Of Western Australia Image recognition
GB2463724B (en) 2008-09-26 2011-05-04 Cybula Ltd Forming 3D images
US8319666B2 (en) 2009-02-20 2012-11-27 Appareo Systems, Llc Optical image monitoring system and method for vehicles
US8319665B2 (en) 2009-02-20 2012-11-27 Appareo Systems, Llc Adaptive instrument and operator control recognition
WO2012078636A1 (en) 2010-12-07 2012-06-14 University Of Iowa Research Foundation Optimal, user-friendly, object background separation
CA2825169A1 (en) 2011-01-20 2012-07-26 University Of Iowa Research Foundation Automated determination of arteriovenous ratio in images of blood vessels
WO2012100225A1 (en) * 2011-01-20 2012-07-26 University Of Iowa Research Foundation Systems and methods for generating a three-dimensional shape from stereo color images
US8942917B2 (en) 2011-02-14 2015-01-27 Microsoft Corporation Change invariant scene recognition by an agent
US9001190B2 (en) * 2011-07-05 2015-04-07 Microsoft Technology Licensing, Llc Computer vision system and method using a depth sensor
US20130141433A1 (en) * 2011-12-02 2013-06-06 Per Astrand Methods, Systems and Computer Program Products for Creating Three Dimensional Meshes from Two Dimensional Images
WO2013086137A1 (en) 2011-12-06 2013-06-13 1-800 Contacts, Inc. Systems and methods for obtaining a pupillary distance measurement using a mobile computing device
WO2013120103A1 (en) 2012-02-10 2013-08-15 Appareo Systems, Llc Frequency-adaptable structural health and usage monitoring system
US10607424B2 (en) 2012-02-10 2020-03-31 Appareo Systems, Llc Frequency-adaptable structural health and usage monitoring system (HUMS) and method with smart sensors
WO2013165614A1 (en) 2012-05-04 2013-11-07 University Of Iowa Research Foundation Automated assessment of glaucoma loss from optical coherence tomography
US9483853B2 (en) 2012-05-23 2016-11-01 Glasses.Com Inc. Systems and methods to display rendered images
US9286715B2 (en) 2012-05-23 2016-03-15 Glasses.Com Inc. Systems and methods for adjusting a virtual try-on
US9311746B2 (en) 2012-05-23 2016-04-12 Glasses.Com Inc. Systems and methods for generating a 3-D model of a virtual try-on product
CN102779269B (zh) * 2012-06-13 2014-10-29 合肥工业大学 基于图像传感器成像系统的人脸识别算法
US10360672B2 (en) 2013-03-15 2019-07-23 University Of Iowa Research Foundation Automated separation of binary overlapping trees
CN103294998B (zh) * 2013-05-22 2016-02-24 合肥工业大学 一种基于属性空间的人脸可视化特征表征方法
US9792301B2 (en) * 2014-09-26 2017-10-17 Conduent Business Services, Llc Multi-query privacy-preserving parking management system and method
US10410355B2 (en) 2014-03-21 2019-09-10 U.S. Department Of Veterans Affairs Methods and systems for image analysis using non-euclidean deformed graphs
US9584510B2 (en) * 2014-09-30 2017-02-28 Airwatch Llc Image capture challenge access
CN107110781A (zh) 2014-12-18 2017-08-29 3M创新有限公司 用于自动防伪的材料批量认证
US10515259B2 (en) * 2015-02-26 2019-12-24 Mitsubishi Electric Research Laboratories, Inc. Method and system for determining 3D object poses and landmark points using surface patches
EP3274986A4 (en) 2015-03-21 2019-04-17 Mine One GmbH METHODS, SYSTEMS, AND SOFTWARE FOR VIRTUAL 3D
US10853625B2 (en) * 2015-03-21 2020-12-01 Mine One Gmbh Facial signature methods, systems and software
JP6886773B2 (ja) * 2015-03-31 2021-06-16 ポーラ化成工業株式会社 顔の見た目印象の決定部位の抽出方法、顔の見た目印象の決定因子の抽出方法、顔の見た目印象の鑑別方法
US10115194B2 (en) 2015-04-06 2018-10-30 IDx, LLC Systems and methods for feature detection in retinal images
US20180165510A1 (en) * 2015-05-29 2018-06-14 Indiana University Research And Technology Corporation Method and apparatus for 3d facial recognition
EP3106912A1 (en) 2015-06-17 2016-12-21 Thomson Licensing An apparatus and a method for obtaining a registration error map representing a level of fuzziness of an image
US9760700B2 (en) * 2015-12-03 2017-09-12 Google Inc. Image based CAPTCHA challenges
US10395099B2 (en) * 2016-09-19 2019-08-27 L'oreal Systems, devices, and methods for three-dimensional analysis of eyebags
US11538257B2 (en) * 2017-12-08 2022-12-27 Gatekeeper Inc. Detection, counting and identification of occupants in vehicles
JP6859970B2 (ja) * 2018-03-09 2021-04-14 京セラドキュメントソリューションズ株式会社 ログイン支援システム
CN108647636B (zh) * 2018-05-09 2024-03-05 深圳阜时科技有限公司 身份鉴权方法、身份鉴权装置及电子设备
CN109086728B (zh) * 2018-08-14 2022-03-08 成都智汇脸卡科技有限公司 活体检测方法
CN111723610B (zh) * 2019-03-20 2024-03-08 北京沃东天骏信息技术有限公司 图像识别方法、装置及设备
US10867193B1 (en) 2019-07-10 2020-12-15 Gatekeeper Security, Inc. Imaging systems for facial detection, license plate reading, vehicle overview and vehicle make, model, and color detection
US11196965B2 (en) 2019-10-25 2021-12-07 Gatekeeper Security, Inc. Image artifact mitigation in scanners for entry control systems
CN117079397B (zh) * 2023-09-27 2024-03-26 青海民族大学 一种基于视频监控的野外人兽安全预警方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0744712A (ja) * 1993-07-30 1995-02-14 Kawasaki Steel Corp 画像のモーメント算出方法
JP2002163637A (ja) * 2000-11-27 2002-06-07 Omron Corp 画像検査装置及び画像検査方法
JP2002183205A (ja) * 2000-12-11 2002-06-28 Minolta Co Ltd データベース構築プログラムを記録したコンピュータ読み取り可能な記録媒体、データベース構築方法およびデータベース構築装置、ならびに、データベース検索プログラムを記録したコンピュータ読み取り可能な記録媒体、データベース検索方法およびデータベース検索装置
WO2003049033A1 (en) * 2001-12-03 2003-06-12 Honda Giken Kogyo Kabushiki Kaisha Face recognition using kernel fisherfaces
JP2003228702A (ja) * 2002-02-04 2003-08-15 Minolta Co Ltd 撮影条件検出装置および撮影条件検出プログラム

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CA2312315A1 (en) * 1997-12-01 1999-06-10 Arsev H. Eraslan Three-dimensional face identification system
US6301370B1 (en) * 1998-04-13 2001-10-09 Eyematic Interfaces, Inc. Face recognition from video images
DE19837004C1 (de) * 1998-08-14 2000-03-09 Christian Eckes Verfahren zum Erkennen von Objekten in digitalisierten Abbildungen
EP1039417B1 (en) * 1999-03-19 2006-12-20 Max-Planck-Gesellschaft zur Förderung der Wissenschaften e.V. Method and device for the processing of images based on morphable models
US6763148B1 (en) * 2000-11-13 2004-07-13 Visual Key, Inc. Image recognition methods
US6826300B2 (en) * 2001-05-31 2004-11-30 George Mason University Feature based classification
AU2002951473A0 (en) * 2002-09-18 2002-10-03 Canon Kabushiki Kaisha Method for tracking facial features in video sequence
JP2004164503A (ja) * 2002-11-15 2004-06-10 Olympus Corp 三次元モデル検索方法、三次元モデル検索装置、三次元モデル検索プログラム、及び三次元モデル検索システム

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0744712A (ja) * 1993-07-30 1995-02-14 Kawasaki Steel Corp 画像のモーメント算出方法
JP2002163637A (ja) * 2000-11-27 2002-06-07 Omron Corp 画像検査装置及び画像検査方法
JP2002183205A (ja) * 2000-12-11 2002-06-28 Minolta Co Ltd データベース構築プログラムを記録したコンピュータ読み取り可能な記録媒体、データベース構築方法およびデータベース構築装置、ならびに、データベース検索プログラムを記録したコンピュータ読み取り可能な記録媒体、データベース検索方法およびデータベース検索装置
WO2003049033A1 (en) * 2001-12-03 2003-06-12 Honda Giken Kogyo Kabushiki Kaisha Face recognition using kernel fisherfaces
JP2003228702A (ja) * 2002-02-04 2003-08-15 Minolta Co Ltd 撮影条件検出装置および撮影条件検出プログラム

Also Published As

Publication number Publication date
GB2428325A (en) 2007-01-24
JP2007508609A (ja) 2007-04-05
US7689043B2 (en) 2010-03-30
KR101149931B1 (ko) 2012-05-30
WO2005038700A1 (en) 2005-04-28
US20070122007A1 (en) 2007-05-31
GB2408615A (en) 2005-06-01
GB2428325B (en) 2007-08-01
EP1673714A1 (en) 2006-06-28
GB0422530D0 (en) 2004-11-10
KR20070003759A (ko) 2007-01-05
GB2408615B (en) 2006-12-13
GB0615820D0 (en) 2006-09-20

Similar Documents

Publication Publication Date Title
JP4860472B2 (ja) 画像認識
Lu Image analysis for face recognition
US7876931B2 (en) Face recognition system and method
Barnouti et al. Face recognition: A literature review
Heseltine et al. Evaluation of image preprocessing techniques for eigenface-based face recognition
JP2004005622A (ja) 顔要素に基づく顔記述子を用いた顔認識方法及びその装置
JP2006085685A (ja) 顔を識別するシステムおよび方法
Bagherian et al. Facial feature extraction for face recognition: a review
Chen et al. Unconstrained face verification using fisher vectors computed from frontalized faces
Kar et al. A multi-algorithmic face recognition system
Arora Real time application of face recognition concept
Papatheodorou et al. Evaluation of 3D face recognition using registration and PCA
Conde et al. 3D facial normalization with spin images and influence of range data calculation over face verification
Sharma et al. 3D face recognition techniques-a review
Zhang et al. 3d face recognition using multi-level multi-feature fusion
JPH1185988A (ja) 顔画像認識システム
Li et al. Exploring face recognition by combining 3D profiles and contours
Rajalakshmi et al. A review on classifiers used in face recognition methods under pose and illumination variation
JP2004272326A (ja) 部分空間成分特徴を用いた顔面描写および認識用の確率的顔面成分融合方法
Ambika et al. The eye says it all: Periocular region methodologies
Hafez et al. 3D face recognition based on normal map features using selected Gabor filters and linear discriminant analysis
Singh et al. A comparative study of various face recognition algorithms (feature based, eigen based, line based, neural network approaches)
Tawaniya et al. Image based face detection and recognition using MATLAB
BUKOWSKI Review of face recognition algorithms
Romeo et al. Semi-Automatic Geometric Normalization of Profile Faces

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20071009

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20100330

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20100624

RD02 Notification of acceptance of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7422

Effective date: 20100624

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20100709

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20100726

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20100802

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20100823

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20100830

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20100930

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20101027

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20110126

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20110202

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20110427

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20111005

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20111102

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20141111

Year of fee payment: 3

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees