JP4589625B2 - カーネルフィッシャーフェイスを使用した顔認識 - Google Patents

カーネルフィッシャーフェイスを使用した顔認識 Download PDF

Info

Publication number
JP4589625B2
JP4589625B2 JP2003550152A JP2003550152A JP4589625B2 JP 4589625 B2 JP4589625 B2 JP 4589625B2 JP 2003550152 A JP2003550152 A JP 2003550152A JP 2003550152 A JP2003550152 A JP 2003550152A JP 4589625 B2 JP4589625 B2 JP 4589625B2
Authority
JP
Japan
Prior art keywords
face
vector
face image
space
kernel
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
JP2003550152A
Other languages
English (en)
Other versions
JP2005512201A5 (ja
JP2005512201A (ja
Inventor
ヤン,ミンシュアン
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Honda Motor Co Ltd
Original Assignee
Honda Motor Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Honda Motor Co Ltd filed Critical Honda Motor Co Ltd
Publication of JP2005512201A publication Critical patent/JP2005512201A/ja
Publication of JP2005512201A5 publication Critical patent/JP2005512201A5/ja
Application granted granted Critical
Publication of JP4589625B2 publication Critical patent/JP4589625B2/ja
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/168Feature extraction; Face representation
    • G06V40/169Holistic features and representations, i.e. based on the facial image taken as a whole

Landscapes

  • Engineering & Computer Science (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Collating Specific Patterns (AREA)
  • Image Analysis (AREA)
  • Measurement Of The Respiration, Hearing Ability, Form, And Blood Characteristics Of Living Organisms (AREA)
  • Measuring And Recording Apparatus For Diagnosis (AREA)
  • Image Processing (AREA)

Description

(関連出願)
本出願は、2001年12月3日に出願された"Kernel Methods for Face Recognition"と題する米国仮特許出願No.60/336,947と、2001年12月3日に出願された"Face Recognition Using Kernel Methods"と題する米国仮特許出願No.60/337,022、および、2002年7月22日に出願された" Face Recognition Using Kernel Fisherfaces"と題する米国特許出願No.10/201/429の優先権を主張するものである。
本発明は、顔認識に関し、特に、カーネルフィッシャー(Kernel Fisher)線形判別分析またはカーネルフィッシャーフェイス(Kernel Fisherfaces)を使用した顔認識に関する。
監視、警備、広告等の様々な用途に使用可能であるため、最近では、顔認識技術に対する注目度が高まっている。しかしながら、従来の顔認識システムに使用されていたコンピュータおよびアルゴリズムは膨大な量のデータ、および、顔認識に本質的につきまとう複雑な演算を効率的に処理できなかったため、効率的な顔認識システムを開発しようとする試みは成功しなかった。これらの従来の試みは、典型的には、顔画像における固有の構造情報を明らかにしない簡単な特徴表現データを使用していた。このような固有の構造情報は、より高次の統計等の、高度の方法を使用することによってのみエンコードされることができる。さらに、顔画像が様々異なる照明条件下で照明される場合には、従来の顔認識システムは適切に機能しなかった。
最近では、主成分分析("PCA": Principal Component Analysis)およびフィッシャー線形判別("FLD": Fisher Linear Discriminant)が顔認識に適用されており、目覚しい結果をもたらしている。前記PCAおよびFLDは、顔認識における基本的な固有値問題を使用し、故に、入力空間における画像サンプルから顔画像のより低次元のデータを生じさせる。このようにして、前記PCAおよびFLDは、データ量を減少し、従って、顔認識における演算上の負担を軽減する。
PCAを使用した顔認識システムの一例は、Turkその他に付与された米国特許No.Re.36,041に開示されている。そこでは、前記顔認識システムは、PCAを利用して、入力空間より低次元の多次元空間における顔画像のデータを取得する。
前記PCAおよびFLDの不利点の1つは、より低次元の顔画像のデータが、画素間の相対位置を除いて、画像における画素間の関係に関する情報を有さないということである。すなわち、PCAまたはFLDにおける前記より低次元の顔画像のデータは、画像の二次統計、すなわち、画素間の共分散に基づくものであり、3つ以上の画素間の関係のような高次の統計的な依存関係を扱うものではない。顔画像におけるこのような高次の依存関係は、エッジまたは湾曲部における3つ以上の画素間の関係等の画素強度値間の関係を含むことがある。前記高次の依存関係は、しばしば、顔画像のより意味のある、典型的な特徴を有し、顔認識のたるの重要な情報を捕捉する。PCAおよびFLDが高次の統計的な依存関係を使用しない理由の1つは、高次の統計的な依存関係の使用が莫大な演算上の負担を招くことである。
機械学習領域において、高次の統計的な依存関係を使用するための研究がなされてきた。しかしながら、前記機械学習に使用される入力データは、顔認識に使用される顔画像データとは全く異なる。第一に、機械学習におけるデータは、比較的クリーンであり(ノイズが多くなく)、次元数が低い。すなわち、各サンプルまたはデータポイントは、典型的には、200エレメント未満の短いベクトルである。また、顔画像の変化は大きく、これが顔認識の実施を困難にする理由の1つである。第二に、顔認識におけるサンプルは機械学習より次元数がはるかに高く、このため、顔認識における莫大なデータ量および演算上の負担をもたらす。例えば、典型的な50x50画素の顔画像は各サンプルごとに2500エレメントを有する。これらの理由により、機械学習に高次の統計的な依存関係を使用するのに必要なアルゴリズムおよび計算は、顔認識に使用されるものとは本質的に異なる。故に、機械学習に高次の統計的な依存関係を使用するのに必要なアルゴリズムおよび計算を、顔認識に適用することができない。
従って、顔認識システムに膨大な負担をかけることなく、顔画像の高次の統計的な依存関係を使用して顔画像のより典型的な特徴を得ることができるよう、幅広い変化および膨大な量の画像データを処理できる顔認識システムおよび方法を有することが必要である。さらに、顔画像の識別的な特徴を利用し、これらの特徴がより次元の低い顔画像空間射影されるときのクラス分離を最大にする顔認識システムが必要である。
本発明は、大きな計算上の負担を伴うことなく、顔画像のより典型的で識別的な特徴の両方を利用する顔画像認識システムおよび方法を提供する。前記顔画像認識システムは、入力顔画像システムおよび基準顔画像の組を入力空間から高次元特徴空間射影し、前記顔画像のより典型的な特徴を得る。前記基準顔画像のカーネルフィッシャーフェイス(Kernel Fisherfaces)が算出され、前記入力顔画像および基準顔画像を前記入力空間および高次元特徴空間より低次元の顔画像空間射影するために使用される。このようにして、前記顔画像の典型的で識別的な特徴が得られ、重大な計算上の負担をもたらすことなく、顔認識に使用され得る。
前記カーネルフィッシャーフェイスを使用して射影を行うと、前記入力顔画像と基準顔画像とは、前記低次元顔画像空間においてベクトルで表される。前記入力顔画像のポイントと各前記基準顔画像のポイントとの間の他の距離が、算出される。本発明の顔画像認識システムおよび方法は、算出された距離のうちの最小距離を求める。その結果、該算出された最短距離が閾値より短い場合、前記入力顔画像が前記顔画像空間において最短距離に対応する1つの前記基準顔画像に似ている、と判定される。
顔認識にカーネルフィッシャー(Kernel Fisher)線形判別(つまり、カーネルフィッシャーフェイス=Kernel Fisherfaces)を使用することによって、顔画像のより典型的で識別的な特徴を得て顔認識に利用しながら、画素間のより高次の依存関係および前記画像における識別的な特徴を使用する際の計算を簡略化できる。
本発明は、コンピュータプログラム製品、方法、システム、専用または汎用の計算装置、オンラインサービスまたはシステム、ユーザインターフェイス等、様々な形態で実施可能である。
図1Aは、本発明の一実施の形態に従う、1組の基準顔画像を使用する顔認識システムの訓練を示す図である。図1Aにおいて、1組の基準顔画像102が前記顔認識システム104に入力される。該基準顔画像102は、後に入力顔画像が顔認識のために比較されることになる顔画像である。前記顔認識システム104は、入力顔画像が前記基準顔画像102のうちの1つに似ていると後で判定できるよう、以下に詳述される方法で、前記基準顔画像102の画像データを分析し、該画像データによって訓練される。
図1Bは、前記顔認識システムが本発明の一実施の形態に従って、入力顔画像が前記1組の基準顔画像のうちの特定の基準顔画像に似ていると認識することを示す図である。前記顔認識システム104は、図1Aに示した1組の基準顔画像によって訓練されている。図1Bにおいて、入力顔画像106は前記顔認識システム104によって受け取られる。前記顔認識システム104は、前記入力顔画像106が前記1組の基準顔画像102のうちの1つに似ているか否か、および、具体的にどの顔画像に似ているかを判定する。この結果108は、前記顔認識システム104から出力される。
図1Cは、図1Aおよび図1Bに示した本発明の一実施の形態に従う顔認識システム104の構成を示すブロック図である。図1Cにおいて、前記顔認識システム104は、高次元射影モジュール110と、カーネルフィッシャーフェイス演算モジュール112と、顔画像空間射影モジュール114と、距離演算モジュール118と、記憶モジュール120とを備えている。前記高次元射影モジュール110は、射影された基準顔画像102または入力顔画像106の高次統計からより典型的な特徴を得るために、顔画像(基準画像102の組または入力顔画像106)を入力空間から高次元特徴空間射影する。前記高次元特徴空間は、前記入力空間より次元が多い。前記顔画像の高次元特徴空間への射影は、射影関数を使用して前記顔画像を示すベクトル間で多様な処理を実行することによって行われる。前記カーネルフィッシャーフェイス演算モジュール112は、前記高次元特徴空間における射影された基準顔画像102の固有値および固有ベクトル(カーネルフィッシャーフェイス)を算出する。前記顔画像空間射影モジュール118は、算出された前記カーネルフィッシャーフェイスを使用して、前記高次元特徴空間からより低次元の顔画像空間に前記顔画像を射影することによって、前記基準顔画像102または入力顔画像106の顔画像空間データを得る。典型的には、前記顔画像空間の次元は、ほとんどの顔認識像サンプルについて、前記入力空間および高次元特徴空間より低い。
前記記憶モジュール120は、前記入力顔画像106との比較に使用するために、前記基準顔画像102のデータを前記低次元の顔画像空間に記憶する。また、前記記憶モジュール120は、入力顔画像と共に使用するために、前記算出されたカーネルフィッシャーフェイスを記憶する。前記距離演算モジュール118は、前記顔画像空間における前記入力顔画像106に対応するポイント(点)と、前記顔画像空間における基準顔画像102に対応する各ポイントとの間の距離を算出し、特に、前記入力顔画像106がどの基準顔画像102に似ているかを確認するために、どの距離が最も短いかを判定する。本発明の一実施の形態によると、前記計算される距離はユークリッド距離である。前記顔認識システム104における様々なモジュールに関連する数学およびアルゴリズムの詳細は、以下に説明されている。
図1Dは、本発明の一実施の形態に従って、いかにして前記顔画像がベクトルの行列(マトリックス)としてデータ表現され、いかにしてこれらのベクトルが前記顔認識システム104において修正変更されるかを示す図である。先ず、各顔画像(基準顔画像または入力顔画像)はベクトルで表され、顔画像のセット122は前記入力空間においてベクトルの行列(マトリクス)124で表される。典型的には、顔画像は、2次元の強度値のNxNアレイである。nはN2に等しいと仮定する。各顔画像は、前記入力空間において、前記行列124におけるベクトルA1,A2,A3,.....,Amの1つとして表される。各ベクトルは次元nを有し、mは前記ベクトル行列によって表される顔画像の数に等しく、nはN2に等しい。換言すると、前記行列124は、m個のローとn個のコラムとを有する。例えば、40人の被験者の400個の画像が本発明の顔認識システムに使用され、顔画像の分解能は23 x 23である。この場合、mは400であり、nは529 (23 x 23)である。
本発明の顔認識システム104は、前記入力空間におけるベクトルの行列124を高次元特徴空間射影し、当該顔画像の画素のうちのより高次の統計データから、前記顔画像のより典型的な特徴を抽出し、これにより、該高次元特徴空間においてベクトルB1,B2,B3,.....,Bmの行列126が得られる。前記ベクトルB1,B2,B3,.....,Bmは、射影関数による前記ベクトルA1,A2,A3,.....,Am間の様々な処理の結果として作り出され、該ベクトルA1,A2,A3,.....,Amより高い次元を有する。換言すると、前記行列126はm個のローとf個のコラムとを有し、ここで、fはn(すなわち、前記行列124におけるコラムの数)よりかなり大きい。前記コラムの数fは、選択される射影関数によって決まる。
本発明の顔認識システム104は、前記ベクトルの行列126を前記高次元特徴空間より次元の低く、また、典型的には前記入力空間より次元の低い低次元顔画像空間射影し、これにより、低次元の画像空間においてベクトルC1,C2,C3,.....,Cmの行列128が得られる。この処理に係る演算は、後で詳述するように、カーネルフィッシャーフェイスの使用によって簡略化される。前記ベクトルC1,C2,C3,.....,Cmは、典型的には、前記ベクトルA1,A2,A3,.....,AmおよびベクトルB1,B2,B3,.....,Bpの次元より低い次元を有する。換言すると、前記行列128はm個のローとd個のコラムとを有し、ここで、dはnおよびf(すなわち、前記行列124および126におけるコラムの数)よりかなり小さく、典型的には、前記顔画像における被験者数から1を引いた値に等しい値を有する。上記例において、dは39 (40 - 1)に等しい。
図2は、本発明の一実施の形態に従って、1組の基準顔画像を使用して前記顔認識システム104を訓練する方法を示すフローチャートである。図2の202において、1組の基準顔画像が得られる。当初、前記基準顔画像は、各画素ごとの強度値の行列からなる。この目的のために、前記基準顔画像は、様々な顔の表情を使用して、様々な照明条件の下、各個人ごとに集められる。言い換えると、各人ごとに、照明と表情を変えながら、1組の画像が集められる。そして、各基準顔画像における目や鼻等の要素を揃えるために通常の画像処理が実行され、各基準顔画像にはクラス識別情報のラベルが付される。すなわち、顔画像の各組に、その個人の画像の種類を反映した識別子(例えば、番号)が付される。例えば、Johnについて15個の顔画像の組が集められ、各前記顔画像にクラス番号1が付される。同様に、Janeについて15個の顔画像の組が集められ、各前記顔画像にクラス番号2が付される、等々である。これらの顔画像は、顔認識用の基準画像として使用される。そして、各基準画像はベクトル形式の強度値のラスタ走査で表され、基準画像の組は複数のベクトルを含む行列の形式で表現される。例えば、100 x 100画素の顔画像における10000画素の各々がローごとに精査され、各画素の強度値(0〜255)が1 x 10000の形式にされる。その結果得られる行列はm x 10000の行列であり、ここで、mは基準顔画像の数である。入力ベクトル形式の顔画像を得る方法は、Turkらに付与された米国再発行特許No.36,041に詳細に開示されている。
その後、前記画像のより典型的な特徴を得るために、204において、前記基準顔画像102は、高次元射影モジュール110によって、前記入力空間より次元の高い高次元特徴空間射影される。これらのより典型的な特徴は、3つまたは3つ以上の画素間の関係のような、前記画像におけるより高次の統計的な依存関係から導出され得る。上述のごとく、画像における上記のより高次の依存関係は、エッジまたはカーブにおける3つまたは3つ以上の画素間の関係のような、画素強度値間の関係を含んでいてよい。
これは、画像におけるより高次の依存関係は使用しないが、顔画像間の関係をエンコードするために共分散を利用する前記Turkらに付与された米国再発行特許No.36,041に開示されているもののような従来の顔認識システムとは、大きく異なる。従来の顔認識システムにおける共分散行列は、二次統計データ、すなわち、(各2つの画素を考慮した)画素値のペアワイズ乗算に基づくものであり、一方、前記射影モジュール204は、3つ以上の画素値の乗算を可能にし、これにより、画素(3つ以上の画素)間におけるより高次の統計を算出する。このようなより高次の統計は、しばしば、エッジまたはカーブにおける3つまたは3つ以上の画素間の固有の関係を捕獲することができる。前記より高次の依存関係は、しばしば、画像のより有意義で、典型的な特徴を有し、二次統計データに比べて、顔認識用の重要な情報を捕獲することができる。これは、二次統計データが画像の振幅スペクトルに対応するのに対して、より高次の統計データが位相スペクトルに対応するからである。位相スペクトルは、構造情報を捕獲し、顔画像の有意義なデータを提供する。
前記基準顔画像102の高次元特徴空間への射影は、射影関数に基づく基準顔画像を示すベクトル間で様々な種類の処理を実行することによって実現可能である。例えば、以下の射影関数を使用して、2次元の空間におけるベクトルを3次元の特徴空間射影することができる。
Figure 0004589625
同様に、以下の射影関数を使用して、2次元の空間におけるベクトルを4次元の特徴空間射影することができる。
Figure 0004589625
その他の様々な射影関数を使用して、n次元顔画像をf次元の特徴空間(fはnよりかなり大きい)に射影できる。特定の射影関数の選択は、データおよびアプリケーションに依存し、しばしば、経験的に決定される。
多種類の射影関数Φ(x)を本発明に使用可能である。しかしながら、限られた数の射影関数のみが、効率的でシステマチックな演算に対応できる。特定の射影関数Φ(x)を選択するための1つの方法は、射影関数についてのドット積演算を実際に行う代わりに、カーネル関数を使用して効率的にドット積を算出できる射影関数を選択することである。というのは、前記射影関数のドット積演算は、顔画像を前記高次元特徴空間から前記低次元特徴空間射影するために行われる演算にしばしば使用され、計算的に集中したものであるからである。従って、このような方法は、下記の関係を満足させるカーネル関数k(x, y)を求める。
k(x, y) = Φ(x)・Φ(y)
典型的には、前記カーネル関数k(x, y)を使用する演算は、ドット積Φ(x)・Φ(y) を使用する演算に比べてはるかに効率的に行われることができる。というのは、前記ドット積Φ(x)・Φ(y) を使用する演算が通常大変高くて無限であることもあるΦ(x)およびΦ(y)の次元数に依存するのに対して、前記カーネル関数k(x, y)を使用する演算がn次元(通常、低い)の入力空間に依存するからである。
マーサー(Mercer)の条件(マーサーの法則としても知られている)は、当該分野において、高次元特徴空間ではなく入力空間における射影サンプル(Φ(x)・Φ(y))のドット積を演算するために一定のカーネル関数k(x, y)が使用可能であるかを判定する方法として知られている。しかしながら、他の方法または法則に従って(経験によってでもよい)、前記射影関数を選択することができる。前記マーサーの法則は、当業者に周知であり、Data Mining and Knowledge Discoveryのvol.2、no.2、121〜167ページ(1998年)にChristopher J.C. Burgesによって"A Tutorial on Support Vector Machines for Pattern Recognition"というタイトルで詳細に説明されている。
前記マーサー(Mercer)の条件を満たすカーネル関数が約2ダースある。多項式カーネル(k(x, y) = (x・y)d)およびガウスカーネル
Figure 0004589625
(ここで、σは、xおよびyが得られるガウス分布の標準偏差である)は、最も広く使用されているカーネル関数である。本発明の一実施の形態によると、二次(d = 2)多項式カーネルカーネルが前記射影関数として使用される。本発明の他の実施の形態によると、三次(d = 3)多項式カーネルが前記射影関数として使用される。なお、正確な射影関数(Φ(x)・Φ(y))の形態は、選択されたカーネル関数k(x, y)によって完全に決定される。事実、射影サンプルのドット積(Φ(x)・Φ(y))のみが顔画像を前記高次元特徴空間から前記低次元特徴空間射影するために行われる演算に使用される場合、正確な閉形式の射影関数を知る必要はない。というのは、このような射影を計算上効率的な態様で行うために、カーネル関数k(x, y)を代わりに使用可能であるからである。従って、カーネル関数を使用する1つの利点は、n次元の顔画像がf次元の特徴空間(fはnよりかなり大きい)に射影可能であり、これが、正確な閉形式の射影関数を知ることなしに、より豊かな特徴表現を実現する、ということである。D次の多項式カーネル関数が使用される場合、前記高次元特徴空間の次元数は
Figure 0004589625
である。例えば、二次(d = 2)多項式カーネルおよび16 x 16(n = 256)画素からなる顔画像の場合、前記高次元特徴空間の次元数fは32,896(前記入力空間の次元数の128倍以上)である。
入力空間から高次元特徴空間に顔画像を射影するために上記のような射影関数を使用する理由は、多種多様である。1番目に、高次元特徴空間射影される顔画像は、当初の入力空間における顔画像より表現に富む特徴表現を提供する。前記射影関数はパターンを表示するために様々な統計データを演算する。これは、より表現に富む特徴表示はしばしばパターン分類作業を容易にするので、重要である。2番目に、射影関数は、パターンにおける特徴間の非線形表現を可能にする。例えば、上記射影関数の例は、パターンにおける特徴間の関係を明らかにする。3番目に、射影関数は高次元空間において分類作業を行うことを可能にし、これにより、該分類作業がより容易になる。言い換えると、前記入力空間においてリニアに分離できないパターンは、通常、高次元特徴空間においてリニアに分離できる。
再び図2において、カーネルフィッシャーフェイス演算モジュール112は、206において、前記高次元特徴空間における射影された基準顔画像からカーネルフィッシャーフェイスを算出する。前記カーネルフィッシャーフェイスを演算するための技術については、後で詳述する。
前記基準顔画像は、208において、前記算出されたカーネルフィッシャーフェイスを使用して前記顔画像空間射影モジュール114によって、前記高次元特徴空間から低次元顔画像空間射影され、これにより、前記低次元顔画像空間に対応するベクトルがもたらされる。全体的な構成において同様な顔画像は、前記高次元特徴空間においてランダムに分散されず、従って、比較的低次元のサブ空間によって記述可能である。前記カーネルフィッシャーフェイスは、前記高次元特徴空間における射影された基準画像から前記低次元顔画像空間における顔画像の記述を導き出すための演算を簡略化することができる。典型的には、前記低次元顔画像空間の次元は、前記入力空間および入力顔画像が射影された高次元特徴空間の両方の次元より低い。
そして、その後の入力顔画像との比較に使用するために、前記カーネルフィッシャーフェイスおよび前記低次元顔画像空間における前記基準画像に対応するベクトルの分布は、210において、記憶モジュール120に記憶される。このようにして、前記記憶モジュール120は、入力顔画像が後に顔認識のために比較される基準顔画像の組に対応する顔画像空間におけるベクトルの分布を記憶することになる。
図3は、本発明の一実施の形態に従って、基準顔画像の組の中から特定の顔画像を認識する方法を例示するフローチャートである。先ず、302において、予め格納された基準顔画像102との比較のために入力顔画像106が入手される。302において、前記入力顔画像106は、前記基準顔画像102が上述のように入手される場合と同様に、ベクトルの形態で入手される。入力顔画像がただ1つである場合、前記入力空間におけるベクトルの行列124は1-ベクトル行列(1 x n行列)となる。前記高次元射影モジュール110は、前記入力顔画像106を高次元特徴空間射影し、前記入力顔画像106のより表現に富む特徴を得る。その後、308において、前記顔画像空間射影モジュール114によって、206で前記基準顔画像について前に算出されたカーネルフィッシャーフェイスを使用して、前記入力顔画像が前記顔画像空間射影される。
この時点で、前記入力顔画像106には、射影される前記入力顔画像106および基準顔画像102の組に対応するポイント(対応ベクトル)が存在する。前記基準顔画像102に対応するポイント(ベクトル)は、前記記憶モジュール120に記憶されるが、距離演算モジュール118によって取り出されることができる。前記距離演算モジュール118は、310において、前記低次元顔画像空間における前記入力顔画像のポイントと基準顔画像106に対応する各ポイントとの間のユークリッド距離を算出する。前記距離演算モジュール118は、このようにして算出された距離のうちの最短のものを求める。該最短の距離に対応するポイントに関連する基準顔画像は、基準顔画像の中で前記入力顔画像が最も似ている特定の顔画像であり、該特定の顔画像に割り当てられたクラス識別情報は、顔認識の結果である。
ここで、上記ステップの各々の基礎をなす数学的な技術について詳述する。
固有値問題
典型的には、顔画像は、強度値の2次元のN x Nアレイである。該顔画像は、多次元画像空間においてN2次元のベクトルとして表わされる。例えば、256 x 256画素の典型的な画像は、65,536次元のベクトル、また等価的には、65,536次元の画像空間における1つのポイントとなる。同様に、1組の顔画像が、この65,536次元の画像空間におけるポイント(点)の集合に対応付けられる。上述のごとく、本発明の顔認識システムは、画像(入力顔画像または基準顔画像)を高次元特徴空間射影し、当該顔画像の画素のうちより高次の統計データから、前記顔画像のより典型的な特徴を抽出する。それぞれの顔画像は全体構成において似ているので、これらの顔画像は、画像空間においてランダムに分散され、低次元のサブ空間によって記述可能である。さらに、同一の人に属する顔画像の組は、しばしば、前記低次元のサブ空間においてより小さなクラスタを構成する。言い換えると、同一の人の顔画像の人物内(クラス内)変化は、人物間(クラス間)変化より小さい。カーネルフィッシャー線形判別(KFLD)分析を使用して、前記低次元の顔画像空間におけるクラスタを最適に分離する射影ベクトルを確認することが可能である。これらの射影ベクトルはカーネルフィッシャーフェイスと呼ばれ、これらのカーネルフィッシャーフェイスを算出する処理は、前記高次元顔画像空間における画像に関する基本的な固有値問題を解くことと等価である。しかしながら、カーネル関数(故にカーネルフィッシャーフェイス)は、前記固有値問題を解くための計算上効率の高い方法を提供する。
m個の中心化(ゼロ平均、単位分散)サンプルxkの場合、xk =[xk1,xk2,...,xkn]T ∈ Rn (ここでRnは入力空間)であり、フィッシャー線形判別(FLD)は、射影された低次元顔画像空間における各クラスタ内の分散を最小化しながら、クラスタ間の分散を最大化する射影方向を求める。換言すると、FLDは、クラスタ同士を可能な限り分離(すなわち、クラス間散乱SBまたはクラスタ間の分散を最大化)しながら前記低次元顔画像空間でコンパクトなクラスタを形成するようサンプルクラスのサンプルが射影されるような射影方向を求めようとする。このため、次の基準関数J(w)を最大化するベクトルwを求める必要がある。
Figure 0004589625
このJ(w)を最大化する最適な方法は、固有値問題の解法であるということがわかる。最適値wのコラムは、固有値λが≧ 0および固有ベクトルがw∈Rn(ここでRは実数)である場合、
Bw = λSww (2)
における最大固有値に対応する汎用固有ベクトルである。前記入力空間nにおけるクラス内散乱Swは、
Figure 0004589625
によって定義される。ここで、cは合計クラス数であり、μiはクラス平均であり、niは該クラスiにおけるサンプルの数であり、x ∈ Xi平均xはクラスiに属するベクトルである。同様に、前記入力空間nにおけるクラス間散乱行列SBは、
Figure 0004589625
によって定義される。ここで、cは合計クラス数であり、μiはクラス平均であり、niは該クラスにおけるサンプルの数であり、μはどのクラスに属しているのかに関係なくすべてのクラスにおけるベクトルxの全平均、すなわち、
Figure 0004589625
である(nはすべてのクラスにおけるサンプルまたは(ベクトル)の数であり、xはそれがどのクラスに属しているのかに関係なく任意のクラスにおけるベクトルである)。
高次元特徴空間に対する画像射影
カーネルFLD分析において、各ベクトルxは、次の非線形マッピング関数(射影関数)によって、前記入力空間nから高次元特徴空間f射影される。
Figure 0004589625
前記射影関数Φの例は上述されている。前記高次元特徴空間の次元は任意の大きさであってよい。前記高次元特徴空間fにおけるクラス内およびクラス間散乱行列をそれぞれ
Figure 0004589625
によって示し、前記高次元特徴空間fにFLDを適用する場合、前記固有値問題の固有値λおよび固有ベクトルwΦを求める必要がある。
Figure 0004589625
前記高次元特徴空間fに上記式(2)、(3)、(4)および(5)を使用して、次の式を実行する。
Figure 0004589625
ここで、μΦはベクトルΦ(x)の全平均、すなわち、
Figure 0004589625
その結果、前記高次元特徴空間fにおける最適な射影行列
Figure 0004589625
は、
Figure 0004589625
となる。ここで
Figure 0004589625
は、m個の最も大きな汎用固有値 {λi|i = 1,2,.....,m} に対応する汎用固有ベクトルの組である。上記式(13)における
Figure 0004589625
は、arg maxに続く比率を最大化するwΦを求めるものである。
本発明の一実施の形態によると、wΦを算出する際の特異点問題を回避するためには、数値的に安定させるために小さな単位行列IがSw Φに加えられる。換言すると、Sw Φ = Sw Φ + εIであり、ここで、Iはその次元数がSw Φと同じである単位行列であり、εは、本発明の一実施の形態によると、例えば0.001である小さな実数である。前記クラス内散乱行列の対角要素に小さな実数を加えることによって、前記クラス内散乱行列の対角要素のいずれもゼロにはならず、従って、特異点問題を回避できる。
カーネルフィッシャーフェイスの算出
次にcクラス問題(すなわち、各サンプルがcクラスのうちの1つに属するもの)について考察し、tクラスのr番目のサンプルおよびuクラスのs番目のサンプルがそれぞれxtrおよびxusであるとする。ここで、tクラスはlt個のサンプルを有し、uクラスはlu個のサンプルを有する。カーネル関数は、
(krs)tu = k(xtr, xus) = Φ(xtr) ・Φ(xus) (14)
として定義可能である。Kがエレメント
Figure 0004589625
によって定義されるm x mの行列であると仮定する。ここで、Ktuは、前記高次元特徴空間Rfにおけるドット積からなる行列である。すなわち、
Figure 0004589625
ここで、ここで、K tuは lt x lu 行列であり、Kはm x mの対称的な行列である。さらに、行列Zは、
Z = (Zt)t=1,...,c (17)
によって定義され、ここで、(Zt)はその成員がすべて1/lt に等しいlt x lu 行列であり、すなわち、Zはm x mのブロック対角行列である。
式(12)および(9)における高次元特徴空間fにおけるクラス間およびクラス内行列は、それぞれ、
Figure 0004589625
となり、ここで、μi ΦはRfにおけるクラスiの平均であり、liはクラスiに属するサンプルの数である。再生核理論によると、いかなる解wΦ ∈ RfもRfにおけるすべての訓練サンプルの範囲内になければならない。すなわち、
Figure 0004589625
である。その結果、式(20)の解は、
λKKα = KZKα (21)
を解くことによって得られることになる。
同時に、上記式(13)は
Figure 0004589625
として書くことができる。ここで、式(22)における
Figure 0004589625
は、arg maxに続く比率を最大化するwΦを求めるものである。式(22)において得られる抽出された固有ベクトルwΦ = [w1 Φ,.....,wm Φ]はカーネルフィッシャーフェイスと呼ばれる。
より低次元の特徴空間に対する顔画像射影
こうして、前記カーネルフィッシャーフェイス(固有ベクトル)wΦを使用することによって走査されるより低次元の顔画像空間に、前記高次元特徴空間fにおけるベクトルΦ(x)が射影可能になる。xが前記高次元特徴空間fにおける射影がΦ(x)であるテストサンプルを示す場合、固有ベクトルwΦに対するΦ(x)の射影は、Φ(x)に対応する非線形のフィッシャー線形判別式(FLD)となる。
Figure 0004589625
このようにして、サンプルを高次元特徴空間f射影することに起因するやっかいな計算を実際に実行することなく、前記カーネル関数を使用してフィッシャー線形判別データを抽出することができる。
図4は、第1の組のテスト顔画像について本発明の一実施の形態に従う顔認識システムをテストした結果を例示するグラフである。該第1の組のテスト顔画像は40の被験者についての400個の画像(各被験者ごとに10個の画像)であり、該画像は、顔の輪郭ならびに様々なポーズおよび倍率の変化を含んでいる。しかしながら、照明条件は一定のままとした。計算上の複雑さを減少させるために、各顔画像は、23 x 28の画素にダウンサンプルされた。各顔画像は、強度値のラスタスキャンによって示され、その後、ゼロ平均ベクトルに正規化される。前記顔画像の尖鋭度の平均および標準偏差は、それぞれ、2.08と0.41であった。尖鋭度は、分布における非ガウス成分の測定値であり、4次モーメントに基づいて算出され、
kurt(x) = E[x4]−3(E[x2])2
によって定義される。ここで、Eは期待値である。
すべてのテストは"1つ除外(leave-one-out)"方法を使用して実行された。すなわち、1人の画像を分類するために、該画像はm個の画像から除去され、これにより、m-1個の基準顔画像および1つの入力顔画像が存在することになる。該グラフが示すように、本発明に係るKFLDを使用した顔認識システムは、ICA(Independent Component Analysis)、SVM(Support Vector Machine)、PCA、KPCA(Kernel Principal Component Analysis)、LLE(Locally Linear Embedding), Isomap, FLD等のその他の顔認識アルゴリズムに基づく顔認識システムのエラー率との比較で最も低いエラー率を有する。
図5は、第2の組のテスト顔画像について本発明の一実施の形態に従う顔認識システムをテストした結果を例示するグラフである。該第2の組のテスト顔画像は、眉、鼻、口および顎等の顔内構造を含むが、顔の輪郭を含まない、11人の被験者についての165個の綿密にトリミングされた画像を含むものであった。計算効率のために、各画像は、29 x 41の画素にダウンサンプルされ、しかる後、正規化された強度値の集中ベクトルによって示された。前記顔画像の尖鋭度の平均および標準偏差は、それぞれ、2.68と1.49であった。
図4と同様に、テストは、"1つ除外(leave-one-out)"方法を使用して実行された。さらに、図5のグラフが示すように、本発明に係るKFLDを使用した顔認識システムは、ICA、SVM、PCA、KPCA、LLE, Isomap, FLD等のその他の顔認識アルゴリズムに基づく顔認識システムのエラー率との比較で最も低いエラー率を有する。
以上、本発明は顔認識のための方法およびシステムとして説明されてきたが、本発明の顔認識システムは、コンピュータによって読み取り可能な媒体に記録されるコンピュータプログラム製品に実施可能である、ということは当業者に自明であろう。本発明の顔認識システムは、顔画像の認識に限らず、広範な変化および大量の要素を有するその他の複雑な画像の認識に使用されることもできる。
本発明は、1つの実施の形態について詳述されてきた。しかし、本発明は他の実施の形態にも実施可能であることは当業者に自明であろう。先ず、本発明の構成要素の特定の名称付け、用語の大文字使用法、属性、データ構造、またはその他のプログラミングもしくは構造上の特徴は、必須または重要ではなく、本発明またはその特徴を実施するメカニズムは、上述のようなハードウエアおよびソフトウエアの組合せによって、または完全にハードウエア要素のみによって実現されてもよい。さらに、ここに記載された様々なシステム要素の間の特定の機能分担は単に例示的なものであり、必須ではない。単一のシステム構成要素によって実行される機能は、その代わりに、多数の構成要素によって実行されてよく、また、多数の構成要素によって実行される機能は、その代わりに、単一の構成要素によって実行されてよい。
上記記載のいつくかの部分は、アルゴリズムおよび情報処理についての象徴的なデータ表現によって本発明の特徴を説明している。これらのアルゴリズム的な説明および表現は、データ処理技術の当業者が彼らの業務の内容を最も効果的に他の当業者に伝えるために使用される手段である。これらの処理は、作用的または論理的に説明されてきたが、コンピュータプログラムによって実施されてよい。さらに、これらの処理をモジュールまたはコード装置として言及することは、一般性を失うことなく、適時に便利となることが分かっている。
しかし、これらの用語およびこれらに類似した用語のすべては適当な物理的な数量に対応付けられ、これらの数量に適用される単なる便利な標識である、ということを心に留めておくべきである。以下の説明においてそうでない旨明示しない限り、該説明全体にわたり、"処理"、"計算"、"演算"、"判定"、"表示"等の用語を使用する説明は、コンピュータシステムメモリ、レジスタもしくはその他の情報記憶装置、送信または表示装置内の物理的(電子的)数量として表現されたデータを操作し、変換するコンピュータシステムまたはこれに類似した電子計算装置の動作および処理に言及するものである。
本発明のある特徴は、アルゴリズムの形態として説明された処理ステップおよび命令を含むものである。なお、本発明の処理ステップおよび命令は、ソフトウエア、ファームウエアまたはハードウエアとして実施してよく、ソフトウエアとして実施した場合、リアルタイムネットワークオペーレーティングシステムによって使用される異なるプラットフォームに存在し該プラットフォームから操作されるようダウンロードされてもよい。
本発明は、さらに、ここに記載した処理を実行するための装置にも関する。この装置は、必要な目的のために特別に構成されてよく、または、そこに記憶されたコンピュータプログラムによって選択的に起動または再構成される汎用コンピュータからなるものであってもよい。このようなコンピュータプログラムは、それに限られるものではないが、フロッピーディスク、光ディスク、CD-ROM、磁気光ディスク、リードオンリーメモリ(ROM)、ランダムアクセスメモリ(RAM)、EPROM、EEPROM、磁気または光カード、特定用途向け集積回路(ASIC)、または、電子命令を格納するのに適し、各々がコンピュータシステムバスに接続される任意タイプの媒体等のコンピュータによって読み取り可能な記憶媒体に記憶されてよい。さらに、この明細書において言及されているコンピュータは、1つのプロセッサを含んでよく、または、計算能力を向上させるよう多数のプロセッサを含むアーキテクチャであってよい。
ここに示されたアルゴリズムおよび表示は、特定のコンピュータまたは他の装置に対して固有に関連するものではない。様々な汎用システムが本発明の教示内容に従うプログラムと共に使用されてもよく、上記必要な方法ステップを実行するためにより特殊化された装置を構成することがより便利であることが分かるであろう。これらの様々なシステムに必要な構造は下記の説明から明らかであろう。さらに、本発明は、特定のプログラミング言語に関して記載されたものではない。システムが本発明の教示内容を実施するために様々なプログラミング言語が使用されてよく、特定の言語に対するすべての言及は、本発明の実施可能要件および最良の態様の開示のためになされている。
最後に、この明細書に使用されている言語は、主に読み易さおよび説明目的で選択されたものであり、発明の主題の線引きをなし、すなわち、境界線を引くよう選択されたものではない。従って、本発明の開示は、説明例示的なものであり、添付請求項に記載されている発明の範囲を限定するものではない。
本発明の一実施の形態に従う、1組の基準顔画像を使用した顔認識システムの訓練を示す図である。 前記顔認識システムが本発明の一実施の形態に従って、入力顔画像が前記1組の基準顔画像のうちの特定の基準顔画像に似ていると認識することを示す図。 図1Aおよび図1Bに示した本発明の一実施の形態に従う顔認識システム104の構成を示すブロック図。 図1Dは、本発明の一実施の形態に従って、いかにして前記顔画像がベクトルのマトリックスとして表現され、いかにしてこれらのベクトルが前記顔認識システム104において変更されるかを示す図。 本発明の一実施の形態に従って、1組の基準顔画像を使用して前記顔認識システムを訓練する方法を示すフローチャート。 本発明の一実施の形態に従って、基準顔画像の組の中から特定の顔画像を認識する方法を例示するフローチャート。 本発明の一実施の形態に従う前記顔認識システムによって第1の組の基準顔画像について行われたテストの結果を示すグラフ。 本発明の一実施の形態に従う前記顔認識システムによって第2の組の基準顔画像について行われたテストの結果を示すグラフ。

Claims (34)

  1. 基準顔画像の組におけるある特定の顔画像に対応するものとして入力顔画像を識別する方法であって、
    第1の次元の入力空間における第1のベクトルの組によって表される前記基準顔画像の組を入力するステップと、ここで、前記基準顔画像の組は少なくとも3つの異なるクラスの画像を含み、各クラスは異なる基準顔画像に相当し、
    前記第1の次元の入力空間における少なくとも第2のベクトルによって表される前記入力顔画像を入力するステップと、
    前記基準顔画像のエッジまたはカーブにおける少なくとも3つの画素間の関係を獲得するように構成された射影関数を使用して、前記第1のベクトルを、前記第1の次元より次元の多い第2の次元の高次元特徴空間に射影し、前記高次元特徴空間における第3のベクトルの組を発生するステップと、ここで、前記第3のベクトルは前記高次元特徴空間における少なくとも3つのクラスの画像を表しており、
    カーネルフィッシャーフェイスを演算する演算モジュールに前記第3のベクトルの組を入力し該演算モジュールを使用して該第3のベクトルにより表された前記少なくとも3つのクラスの画像に関するカーネルフィッシャーフェイスを演算することにより、前記第3のベクトルにより表された前記少なくとも3つのクラスの画像に関するカーネルフィッシャーフェイスを発生するステップと、
    前記第3のベクトルおよび前記カーネルフィッシャーフェイスに基づいて、第3の次元の顔画像空間における第4のベクトルの組を発生するステップであって、前記第4のベクトルが前記顔画像空間における基準顔画像ポイントに対応し、前記第3の次元が前記第1の次元および前記第2の次元より次元が少ないものであり、
    前記射影関数を使用して前記第2のベクトルを前記高次元特徴空間に射影し、前記高次元特徴空間における第5のベクトルの組を発生するステップと、
    前記第5のベクトルおよび前記カーネルフィッシャーフェイスに基づいて、前記第3の次元の顔画像空間における入力顔画像ポイントに対応する第6のベクトルを発生するステップと、
    前記第3の次元の顔画像空間における前記入力顔画像ポイントと各前記基準顔画像ポイントとの間の距離を算出するステップと、
    算出された前記距離の最小値を決定することに応じて、該最小距離に対応する基準顔画像に対応するものとして前記入力顔画像を識別するステップと、
    を具備する方法。
  2. 前記基準顔画像が少なくともつのクラスに分類され、前記第1、第2および第3のベクトルが、それぞれ、前記入力空間、前記高次元特徴空間および前記顔画像空間における少なくともつのクラスタに分配され、前記カーネルフィッシャーフェイスを発生するステップが、
    前記顔画像空間において、前記第4のベクトルの前記クラスタ間の分散が実質的に最大となり、前記第4のベクトルの各前記クラスタ内の分散が実質的に最小となるよう、前記第3のベクトルを前記顔画像空間に射影するベクトルを前記カーネルフィッシャーフェイスとして発生するステップを含む、
    ことを特徴とする請求項1に記載の方法。
  3. 前記第4のベクトルの前記クラスタ間の分散がクラス間散乱行列によって表され、前記第4のベクトルの各前記クラスタ内の分散がクラス内散乱行列によって表される請求項2に記載の方法。
  4. 前記カーネルフィッシャーフェイスは、前記クラス内散乱行列に対する前記クラス間散乱行列の比率が実質的に最大となるよう、前記第3のベクトルを前記顔画像空間に射影するためのベクトルである請求項3に記載の方法。
  5. 前記カーネルフィッシャーフェイスを発生するステップにおいて、前記クラス内散乱行列に単位行列の一部分を付加し、該単位行列の一部分を付加した前記クラス内散乱行列に対する前記クラス間散乱行列の比率が実質的に最大となるよう、前記カーネルフィッシャーフェイスを発生する請求項3に記載の方法。
  6. 前記射影関数Φ(x)が、
    k(x, y) = Φ(x)・Φ(y)
    の関係を満たすものであり、ここで、k(x, y)はカーネル関数、Φ(x)・Φ(y)は前記射影関数Φ(x)およびΦ(y)のドット積、xおよびyは実数変数である
    ことを特徴とする請求項1に記載の方法。
  7. 前記カーネル関数は多項式のカーネル関数である請求項6に記載の方法。
  8. 前記カーネル関数はガウスカーネル関数である請求項6に記載の方法。
  9. 前記第4のベクトルの組を発生するステップが、前記高次元特徴空間において前記第3のベクトルと前記カーネルフィッシャーフェイスとの間のドット積演算を実行することを含む請求項1に記載の方法。
  10. 前記第6のベクトルの組を発生するステップが、前記高次元特徴空間において前記第5のベクトルと前記カーネルフィッシャーフェイスとの間のドット積演算を実行することを含む請求項1に記載の方法。
  11. 前記距離がユークリッド距離である請求項1に記載の方法
  12. 基準顔画像の組におけるある特定の顔画像に対応するものとして入力顔画像を識別するためのコンピュータプログラムであって、コンピュータに、
    第1の次元の入力空間における第1のベクトルの組によって表される前記基準顔画像の組を入力するステップと、ここで、前記基準顔画像の組は少なくとも3つの異なるクラスの画像を含み、各クラスは異なる基準顔画像に相当し、
    前記第1の次元の入力空間における少なくとも第2のベクトルによって表される前記入力顔画像を入力するステップと、
    前記基準顔画像のエッジまたはカーブにおける少なくとも3つの画素間の関係を獲得するように構成された射影関数を使用して、前記第1のベクトルを、前記第1の次元より次元の多い第2の次元の高次元特徴空間に射影し、前記高次元特徴空間における第3のベクトルの組を発生するステップと、ここで、前記第3のベクトルは前記高次元特徴空間における少なくとも3つのクラスの画像を表しており、
    カーネルフィッシャーフェイスを演算する演算モジュールに前記第3のベクトルの組を入力し該演算モジュールを使用して該第3のベクトルにより表された前記少なくとも3つのクラスの画像に関するカーネルフィッシャーフェイスを演算することにより、前記第3のベクトルにより表された前記少なくとも3つのクラスの画像に関するカーネルフィッシャーフェイスを発生するステップと、
    前記第3のベクトルおよび前記カーネルフィッシャーフェイスに基づいて、第3の次元の顔画像空間における第4のベクトルの組を発生するステップと、ここで、前記第4のベクトルが前記顔画像空間における基準顔画像ポイントに対応し、前記第3の次元が前記第1の次元および前記第2の次元より次元が低いものであり、
    前記射影関数を使用して前記第2のベクトルを前記高次元特徴空間に射影し、前記高次元特徴空間における第5のベクトルの組を発生するステップと、
    前記第5のベクトルおよび前記カーネルフィッシャーフェイスに基づいて、前記第3の次元の顔画像空間における入力顔画像ポイントに対応する第6のベクトルを発生するステップと、
    前記第3の次元の顔画像空間における前記入力顔画像ポイントと各前記基準顔画像ポイントとの間の距離を算出するステップと、
    算出された前記距離の最小値を決定することに応じて、該最小距離に対応する基準顔画像に対応するものとして前記入力顔画像を識別するステップと、
    を実行させるためのコンピュータプログラム。
  13. 前記基準顔画像が少なくともつのクラスに分類され、前記第1、第2および第3のベクトルが、それぞれ、前記入力空間、前記高次元特徴空間および前記顔画像空間における少なくともつのクラスタに分配されており、
    前記カーネルフィッシャーフェイスを発生するステップが、前記顔画像空間において、前記第4のベクトルの前記クラスタ間の分散が実質的に最大となり、前記第4のベクトルの各前記クラスタ内の分散が実質的に最小となるよう、前記第3のベクトルを前記顔画像空間に射影するベクトルを前記カーネルフィッシャーフェイスとして発生するステップを含む、
    ことを特徴とする請求項12に記載のコンピュータプログラム。
  14. 前記第4のベクトルの前記クラスタ間の分散がクラス間散乱行列によって表され、前記第4のベクトルの各前記クラスタ内の分散がクラス内散乱行列によって表される請求項13に記載のコンピュータプログラム。
  15. 前記カーネルフィッシャーフェイスは、前記クラス内散乱行列に対する前記クラス間散乱行列の比率が実質的に最大となるよう、前記第3のベクトルを前記顔画像空間に射影するためのベクトルである請求項14に記載のコンピュータプログラム。
  16. 前記カーネルフィッシャーフェイスを発生するステップにおいて、前記クラス内散乱行列に単位行列の一部分を付加し、該単位行列の一部分を付加した前記クラス内散乱行列に対する前記クラス間散乱行列の比率が実質的に最大となるよう、前記カーネルフィッシャーフェイスを発生する請求項14に記載のコンピュータプログラム。
  17. 前記射影関数Φ(x)が、
    k(x, y) = Φ(x)・Φ(y)
    の関係を満たすものであり、ここで、k(x, y)はカーネル関数、Φ(x)・Φ(y)は前記射影関数Φ(x)およびΦ(y)のドット積、xおよびyは実数変数である
    ことを特徴とする請求項12に記載のコンピュータプログラム。
  18. 前記カーネル関数は多項式のカーネル関数である請求項17に記載のコンピュータプログラム。
  19. 前記カーネル関数はガウスカーネル関数である請求項17に記載のコンピュータプログラム。
  20. 前記第4のベクトルの組を発生するステップが、前記高次元特徴空間において前記第3のベクトルと前記カーネルフィッシャーフェイスとの間のドット積演算を実行することを含む請求項12に記載のコンピュータプログラム。
  21. 前記第6のベクトルの組を発生するステップが、前記高次元特徴空間において前記第5のベクトルと前記カーネルフィッシャーフェイスとの間のドット積演算を実行することを含む請求項12に記載のコンピュータプログラム。
  22. 前記距離がユークリッド距離である請求項12に記載のコンピュータプログラム。
  23. 基準顔画像の組におけるある特定の顔画像に対応するものとして入力顔画像を識別する顔認識システムであって、
    第1の次元の入力空間における第1のベクトルの組によって表される前記基準顔画像の組を入力する手段と、ここで、前記基準顔画像の組は少なくとも3つの異なるクラスの画像を含み、各クラスは異なる基準顔画像に相当し、
    前記第1の次元の入力空間における少なくとも第2のベクトルによって表される前記入力顔画像を入力する手段と、
    前記基準顔画像のエッジまたはカーブにおける少なくとも3つの画素間の関係を獲得するように構成された射影関数を使用して、前記第1のベクトルおよび第2のベクトルを、前記第1の次元より次元の多い第2の次元の高次元特徴空間に射影し、第3のベクトルおよび第4のベクトルの組を発生する高次元特徴空間射影モジュールと、ここで、前記第3のベクトルは前記高次元特徴空間における少なくとも3つのクラスの画像を表しており、
    カーネルフィッシャーフェイスを演算するための演算モジュールであって、前記第3のベクトルの組を入力して、該演算モジュールによる演算により該第3のベクトルに関するカーネルフィッシャーフェイスを発生するカーネルフィッシャーフェイスモジュールと、
    前記カーネルフィッシャーフェイスを使用して、前記第3のベクトルの組に基づき第3の次元の顔画像空間における第5のベクトルの組を発生すると共に、前記第4のベクトルに基づき前記第3の次元の顔画像空間における第6のベクトルを発生する顔画像空間射影モジュールであって、前記第5のベクトルが前記顔画像空間における基準顔画像ポイントに対応し、前記第6のベクトルが前記顔画像空間における入力顔画像ポイントに対応し、前記第3の次元が前記第1の次元および第2の次元より少ない次元を有するものと、
    前記第3の次元の顔画像空間における前記入力顔画像ポイントと各前記基準顔画像ポイントとの間の距離を算出すると共に、算出された距離の最小値を求め、前記入力顔画像を、該求めた距離の最小値に対応する基準顔画像に似ているとして識別する距離算出モジュールと、
    を具備する顔認識システム。
  24. 前記カーネルフィッシャーフェイスと前記第5のベクトルとを記憶する記憶モジュールをさらに具備した請求項23に記載の顔認識システム。
  25. 前記基準顔画像が少なくともつのクラスに分類され、前記第1、第3および第5のベクトルが、それぞれ、前記入力空間、前記高次元特徴空間および前記顔画像空間において少なくともつのクラスタに分配され、前記カーネルフィッシャーフェイスモジュールが、前記顔画像空間において、前記第5のベクトルの前記クラスタ間の分散が実質的に最大となり、前記第5のベクトルの各前記クラスタ内の分散が実質的に最小となるよう、前記第3のベクトルを前記顔画像空間に射影するベクトルを前記カーネルフィッシャーフェイスとして求めることによって、前記カーネルフィッシャーフェイスを算出する、
    ことを特徴とする請求項23に記載の顔認識システム。
  26. 前記第5のベクトルの前記クラスタ間の分散がクラス間散乱行列によって表され、前記第5のベクトルの各前記クラスタ内の分散がクラス内散乱行列によって表される請求項25に記載の顔認識システム。
  27. 前記カーネルフィッシャーフェイスは、前記クラス内散乱行列に対する前記クラス間散乱行列の比率が実質的に最大となるよう、前記第3のベクトルを前記顔画像空間に射影するためのベクトルである請求項26に記載の顔認識システム。
  28. 前記カーネルフィッシャーフェイスモジュールにおいて、前記クラス内散乱行列に単位行列の一部分を付加し、該単位行列の一部分を付加した前記クラス内散乱行列に対する前記クラス間散乱行列の比率が実質的に最大となるよう、前記カーネルフィッシャーフェイスを発生する請求項23に記載の顔認識システム。
  29. 前記射影関数Φ(x)が、
    k(x, y) = Φ(x)・Φ(y)
    の関係を満たすものであり、ここで、k(x, y)はカーネル関数、Φ(x)・Φ(y)は前記射影関数Φ(x)およびΦ(y)のドット積、xおよびyは実数変数である、
    ことを特徴とする請求項23に記載の顔認識システム。
  30. 前記カーネル関数は多項式のカーネル関数である請求項29に記載の顔認識システム。
  31. 前記カーネル関数はガウスカーネル関数である請求項29に記載の顔認識システム。
  32. 前記第5のベクトルの組が、前記高次元特徴空間において前記第3のベクトルと前記カーネルフィッシャーフェイスとの間のドット積演算を実行することによって発生される請求項23に記載の顔認識システム。
  33. 前記第6のベクトルが、前記高次元特徴空間において前記第4のベクトルと前記カーネルフィッシャーフェイスとの間のドット積演算を実行することによって発生される請求項23に記載の顔認識システム。
  34. 前記距離がユークリッド距離であ請求項23に記載の顔認識システム。
JP2003550152A 2001-12-03 2002-12-03 カーネルフィッシャーフェイスを使用した顔認識 Expired - Lifetime JP4589625B2 (ja)

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
US33694701P 2001-12-03 2001-12-03
US33702201P 2001-12-03 2001-12-03
US10/201,429 US7054468B2 (en) 2001-12-03 2002-07-22 Face recognition using kernel fisherfaces
PCT/JP2002/012649 WO2003049033A1 (en) 2001-12-03 2002-12-03 Face recognition using kernel fisherfaces

Publications (3)

Publication Number Publication Date
JP2005512201A JP2005512201A (ja) 2005-04-28
JP2005512201A5 JP2005512201A5 (ja) 2009-01-08
JP4589625B2 true JP4589625B2 (ja) 2010-12-01

Family

ID=27394293

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2003550152A Expired - Lifetime JP4589625B2 (ja) 2001-12-03 2002-12-03 カーネルフィッシャーフェイスを使用した顔認識

Country Status (8)

Country Link
US (1) US7054468B2 (ja)
EP (1) EP1464031B1 (ja)
JP (1) JP4589625B2 (ja)
CN (1) CN1302437C (ja)
AT (1) ATE408867T1 (ja)
AU (1) AU2002347641A1 (ja)
DE (1) DE60228999D1 (ja)
WO (1) WO2003049033A1 (ja)

Families Citing this family (77)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7379602B2 (en) 2002-07-29 2008-05-27 Honda Giken Kogyo Kabushiki Kaisha Extended Isomap using Fisher Linear Discriminant and Kernel Fisher Linear Discriminant
US7254275B2 (en) * 2002-12-17 2007-08-07 Symbol Technologies, Inc. Method and system for image compression using image symmetry
US7184595B2 (en) * 2002-12-26 2007-02-27 Carmel-Haifa University Economic Corporation Ltd. Pattern matching using projection kernels
US7370212B2 (en) 2003-02-25 2008-05-06 Microsoft Corporation Issuing a publisher use license off-line in a digital rights management (DRM) system
WO2005038700A1 (en) * 2003-10-09 2005-04-28 University Of York Image recognition
JP4483334B2 (ja) * 2004-02-18 2010-06-16 富士ゼロックス株式会社 画像処理装置
GB0408328D0 (en) 2004-04-14 2004-05-19 Imp College Innovations Ltd Method of processing image data
US20080137969A1 (en) * 2004-04-14 2008-06-12 Imperial College Innovations Limited Electrical And Electronic Engineering Building Estimation of Within-Class Matrix in Image Classification
US20060242406A1 (en) 2005-04-22 2006-10-26 Microsoft Corporation Protected computing environment
GB2414328A (en) * 2004-05-17 2005-11-23 Mitsubishi Electric Inf Tech Discrimination transforms applied to frequency domain derived feature vectors
WO2006010129A2 (en) * 2004-07-09 2006-01-26 Honda Motor Co., Ltd. Adaptive discriminative generative model and incremental fisher discriminant analysis and application to visual tracking
US8347078B2 (en) 2004-10-18 2013-01-01 Microsoft Corporation Device certificate individualization
US8464348B2 (en) 2004-11-15 2013-06-11 Microsoft Corporation Isolated computing environment anchored into CPU and motherboard
US8176564B2 (en) * 2004-11-15 2012-05-08 Microsoft Corporation Special PC mode entered upon detection of undesired state
US20060106920A1 (en) * 2004-11-15 2006-05-18 Microsoft Corporation Method and apparatus for dynamically activating/deactivating an operating system
US8336085B2 (en) 2004-11-15 2012-12-18 Microsoft Corporation Tuning product policy using observed evidence of customer behavior
US7376894B2 (en) * 2004-11-18 2008-05-20 Microsoft Corporation Vector path merging into gradient elements
KR100634527B1 (ko) * 2004-11-26 2006-10-16 삼성전자주식회사 층 기반 영상 처리 장치 및 방법
JP4734980B2 (ja) * 2005-03-15 2011-07-27 オムロン株式会社 顔認証装置およびその制御方法、顔認証装置を備えた電子機器、顔認証装置制御プログラム、ならびに該プログラムを記録した記録媒体
US20060217925A1 (en) * 2005-03-23 2006-09-28 Taron Maxime G Methods for entity identification
US8438645B2 (en) 2005-04-27 2013-05-07 Microsoft Corporation Secure clock with grace periods
US20070033102A1 (en) * 2005-03-29 2007-02-08 Microsoft Corporation Securely providing advertising subsidized computer usage
US8725646B2 (en) 2005-04-15 2014-05-13 Microsoft Corporation Output protection levels
KR100639988B1 (ko) * 2005-04-21 2006-10-31 한국전자통신연구원 얼굴 특징 추출 장치 및 그 방법
US9363481B2 (en) 2005-04-22 2016-06-07 Microsoft Technology Licensing, Llc Protected media pipeline
US9436804B2 (en) 2005-04-22 2016-09-06 Microsoft Technology Licensing, Llc Establishing a unique session key using a hardware functionality scan
US7760917B2 (en) 2005-05-09 2010-07-20 Like.Com Computer-implemented method for performing similarity searches
US7945099B2 (en) 2005-05-09 2011-05-17 Like.Com System and method for use of images with recognition analysis
US7657126B2 (en) 2005-05-09 2010-02-02 Like.Com System and method for search portions of objects in images and features thereof
US7519200B2 (en) 2005-05-09 2009-04-14 Like.Com System and method for enabling the use of captured images through recognition
US7660468B2 (en) 2005-05-09 2010-02-09 Like.Com System and method for enabling image searching using manual enrichment, classification, and/or segmentation
US8732025B2 (en) 2005-05-09 2014-05-20 Google Inc. System and method for enabling image recognition and searching of remote content on display
US20060265758A1 (en) 2005-05-20 2006-11-23 Microsoft Corporation Extensible media rights
US8353046B2 (en) 2005-06-08 2013-01-08 Microsoft Corporation System and method for delivery of a modular operating system
JP3976056B2 (ja) * 2005-10-24 2007-09-12 日本電気株式会社 係数決定方法、特徴抽出方法、システム及びプログラム、並びにパタン照合方法、システム及びプログラム
JP5049560B2 (ja) 2005-11-17 2012-10-17 サムソン エレクトロ−メカニックス カンパニーリミテッド. 積層型チップキャパシタ
JP4777059B2 (ja) * 2005-12-22 2011-09-21 パナソニック株式会社 画像検索装置および画像検索方法
US8233702B2 (en) * 2006-08-18 2012-07-31 Google Inc. Computer implemented technique for analyzing images
KR100825756B1 (ko) * 2006-12-05 2008-04-29 한국전자통신연구원 얼굴 특징 추출 방법 및 그 장치
JP5358083B2 (ja) * 2007-11-01 2013-12-04 株式会社日立製作所 人物画像検索装置及び画像検索装置
US20080184026A1 (en) * 2007-01-29 2008-07-31 Hall Martin H Metered Personal Computer Lifecycle
US8416981B2 (en) 2007-07-29 2013-04-09 Google Inc. System and method for displaying contextual supplemental content based on image content
US8331632B1 (en) 2007-08-06 2012-12-11 University Of South Florida Indexing face templates using linear models
US8165352B1 (en) 2007-08-06 2012-04-24 University Of South Florida Reconstruction of biometric image templates using match scores
US8190539B2 (en) * 2008-06-11 2012-05-29 International Business Machines Corporation Evolutionary facial feature selection
US8131063B2 (en) * 2008-07-16 2012-03-06 Seiko Epson Corporation Model-based object image processing
US8180167B2 (en) * 2008-07-16 2012-05-15 Seiko Epson Corporation Model-based error resilience in data communication
US8345932B2 (en) * 2008-11-24 2013-01-01 International Business Machines Corporation Support vector machine for biometric data processing
JP5137805B2 (ja) * 2008-12-15 2013-02-06 キヤノン株式会社 検査システム及びその制御方法、コンピュータプログラム
US8204301B2 (en) * 2009-02-25 2012-06-19 Seiko Epson Corporation Iterative data reweighting for balanced model learning
US8260039B2 (en) * 2009-02-25 2012-09-04 Seiko Epson Corporation Object model fitting using manifold constraints
US8208717B2 (en) * 2009-02-25 2012-06-26 Seiko Epson Corporation Combining subcomponent models for object image modeling
US8260038B2 (en) * 2009-02-25 2012-09-04 Seiko Epson Corporation Subdivision weighting for robust object model fitting
US8442330B2 (en) * 2009-03-31 2013-05-14 Nbcuniversal Media, Llc System and method for automatic landmark labeling with minimal supervision
TWI384406B (zh) * 2009-05-26 2013-02-01 Univ Nat Chiao Tung 人臉辨識與合成方法
US8194975B2 (en) * 2009-06-29 2012-06-05 Tandent Vision Science, Inc. Use of an intrinsic image in face recognition
CN101630405B (zh) * 2009-08-14 2011-10-12 重庆市勘测院 一种利用核Fisher分类与冗余小波变换的多聚焦图像融合方法
US7961956B1 (en) 2009-09-03 2011-06-14 Thomas Cecil Minter Adaptive fisher's linear discriminant
JP5714599B2 (ja) 2009-12-02 2015-05-07 クゥアルコム・インコーポレイテッドQualcomm Incorporated イメージ認識のための記述子パッチの高速部分空間射影
WO2011119509A1 (en) * 2010-03-20 2011-09-29 Emsense Corporation Spatially constrained biosensory measurements to decode physiological states and user responses induced by marketing media
US9530073B2 (en) 2010-04-20 2016-12-27 Qualcomm Incorporated Efficient descriptor extraction over multiple levels of an image scale space
CN103513890B (zh) * 2012-06-28 2016-04-13 腾讯科技(深圳)有限公司 一种基于图片的交互方法、装置和服务器
CN103035050B (zh) * 2012-12-19 2015-05-20 南京师范大学 一种用于复杂人脸识别门禁系统的高精度人脸识别方法
JP5866064B2 (ja) * 2013-04-09 2016-02-17 株式会社日立国際電気 画像検索装置、画像検索方法、および記録媒体
US9298988B2 (en) * 2013-11-08 2016-03-29 Analog Devices Global Support vector machine based object detection system and associated method
US9275306B2 (en) * 2013-11-13 2016-03-01 Canon Kabushiki Kaisha Devices, systems, and methods for learning a discriminant image representation
KR102010378B1 (ko) * 2014-09-24 2019-08-13 삼성전자주식회사 객체를 포함하는 영상의 특징을 추출하는 방법 및 장치
JP6453618B2 (ja) 2014-11-12 2019-01-16 株式会社東芝 算出装置、方法及びプログラム
US9747494B2 (en) 2015-11-16 2017-08-29 MorphoTrak, LLC Facial matching system
KR102221118B1 (ko) * 2016-02-16 2021-02-26 삼성전자주식회사 영상의 특징을 추출하여 객체를 인식하는 방법
WO2017210462A1 (en) * 2016-06-01 2017-12-07 Ohio State Innovation Foundation System and method for recognition and annotation of facial expressions
JP2018081402A (ja) * 2016-11-15 2018-05-24 キヤノン株式会社 画像処理装置、画像処理方法、及びプログラム
WO2018187951A1 (zh) * 2017-04-12 2018-10-18 邹霞 基于核主成分分析的人脸识别方法
CN109389017B (zh) * 2017-08-11 2021-11-16 苏州经贸职业技术学院 行人再识别方法
US10872258B2 (en) 2019-03-15 2020-12-22 Huawei Technologies Co., Ltd. Adaptive image cropping for face recognition
CN111291885B (zh) * 2020-01-20 2023-06-09 北京百度网讯科技有限公司 近红外图像的生成方法、生成网络的训练方法和装置
CN112749669B (zh) * 2021-01-18 2024-02-02 吾征智能技术(北京)有限公司 一种基于人面部图像的微表情智能识别系统

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CA2087523C (en) * 1990-07-17 1997-04-15 Mark Andrew Shackleton Method of processing an image
US5164992A (en) 1990-11-01 1992-11-17 Massachusetts Institute Of Technology Face recognition system
CA2215942A1 (en) * 1995-03-20 1996-09-26 Lee G. Slocum Systems and methods for identifying images
US5710833A (en) 1995-04-20 1998-01-20 Massachusetts Institute Of Technology Detection, recognition and coding of complex objects using probabilistic eigenspace analysis
US5842194A (en) * 1995-07-28 1998-11-24 Mitsubishi Denki Kabushiki Kaisha Method of recognizing images of faces or general images using fuzzy combination of multiple resolutions
US6038337A (en) * 1996-03-29 2000-03-14 Nec Research Institute, Inc. Method and apparatus for object recognition
US6112195A (en) 1997-03-27 2000-08-29 Lucent Technologies Inc. Eliminating invariances by preprocessing for kernel-based methods
JP2001273495A (ja) * 2000-03-24 2001-10-05 Minolta Co Ltd 物体認識装置
US6920231B1 (en) * 2000-06-30 2005-07-19 Indentix Incorporated Method and system of transitive matching for object recognition, in particular for biometric searches
US6826300B2 (en) * 2001-05-31 2004-11-30 George Mason University Feature based classification

Also Published As

Publication number Publication date
ATE408867T1 (de) 2008-10-15
EP1464031A1 (en) 2004-10-06
WO2003049033A1 (en) 2003-06-12
EP1464031B1 (en) 2008-09-17
US7054468B2 (en) 2006-05-30
CN1599917A (zh) 2005-03-23
CN1302437C (zh) 2007-02-28
US20040017932A1 (en) 2004-01-29
AU2002347641A1 (en) 2003-06-17
JP2005512201A (ja) 2005-04-28
DE60228999D1 (de) 2008-10-30
EP1464031A4 (en) 2007-05-23

Similar Documents

Publication Publication Date Title
JP4589625B2 (ja) カーネルフィッシャーフェイスを使用した顔認識
JP2005512201A5 (ja)
JP4292837B2 (ja) パターン特徴抽出方法及びその装置
Yan et al. Graph embedding and extensions: A general framework for dimensionality reduction
Kollreider et al. Real-time face detection and motion analysis with application in “liveness” assessment
US6430307B1 (en) Feature extraction system and face image recognition system
Martínez et al. Where are linear feature extraction methods applicable?
US8218880B2 (en) Linear laplacian discrimination for feature extraction
US7379602B2 (en) Extended Isomap using Fisher Linear Discriminant and Kernel Fisher Linear Discriminant
US8805653B2 (en) Supervised nonnegative matrix factorization
Yang et al. Face detection using multimodal density models
Bicego et al. A hidden Markov model approach for appearance-based 3D object recognition
US20030063781A1 (en) Face recognition from a temporal sequence of face images
Benouareth An efficient face recognition approach combining likelihood-based sufficient dimension reduction and LDA
JP4348202B2 (ja) 顔画像認識装置及び顔画像認識プログラム
Rajwade et al. Facial pose from 3D data
Ranjini et al. Haar Cascade Classifier-based Real-Time Face Recognition and Face Detection
Ren Facial expression recognition system
Chihaoui et al. A novel face recognition system based on skin detection, HMM and LBP
Ipe A Comparison of PCA and HOG for Feature Extraction and Classification of Human Faces
CN112069948A (zh) 一种基于改进二维降维的人脸识别方法
Thanvantri Vasudevan et al. Triah: an intelligent guiding system for the visually impaired
Chen Facial feature point detection
Liu et al. Semi-supervised discriminant analysis based on dependence estimation
Wai et al. Intelligent Face Recognition System

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20051109

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20080902

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20081104

A524 Written submission of copy of amendment under article 19 pct

Free format text: JAPANESE INTERMEDIATE CODE: A524

Effective date: 20081104

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20090203

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20090402

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20090521

A911 Transfer to examiner for re-examination before appeal (zenchi)

Free format text: JAPANESE INTERMEDIATE CODE: A911

Effective date: 20090526

A912 Re-examination (zenchi) completed and case transferred to appeal board

Free format text: JAPANESE INTERMEDIATE CODE: A912

Effective date: 20090710

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20100910

R150 Certificate of patent or registration of utility model

Ref document number: 4589625

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130917

Year of fee payment: 3

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

EXPY Cancellation because of completion of term