JP2005512201A5

JP2005512201A5 -

Info

Publication number: JP2005512201A5
Application number: JP2003550152A
Authority: JP
Filing date: 2002-12-03
Publication date: 2009-01-08
Anticipated expiration: 2022-12-03

Description

カーネルフィッシャーフェイスを使用した顔認識

(関連出願)
本出願は、2001年12月3日に出願された"Kernel Methods for Face Recognition"と題する米国仮特許出願No.60/336,947と、2001年12月3日に出願された"Face Recognition Using Kernel Methods"と題する米国仮特許出願No.60/337,022、および、2002年7月22日に出願された" Face Recognition Using Kernel Fisherfaces"と題する米国特許出願No.10/201/429の優先権を主張するものである。
本発明は、顔認識に関し、特に、カーネルフィッシャー（Kernel Fisher）線形判別分析またはカーネルフィッシャーフェイス（Kernel Fisherfaces）を使用した顔認識に関する。

監視、警備、広告等の様々な用途に使用可能であるため、最近では、顔認識技術に対する注目度が高まっている。しかしながら、従来の顔認識システムに使用されていたコンピュータおよびアルゴリズムは膨大な量のデータ、および、顔認識に本質的につきまとう複雑な演算を効率的に処理できなかったため、効率的な顔認識システムを開発しようとする試みは成功しなかった。これらの従来の試みは、典型的には、顔画像における固有の構造情報を明らかにしない簡単な特徴表現データを使用していた。このような固有の構造情報は、より高次の統計等の、高度の方法を使用することによってのみエンコードされることができる。さらに、顔画像が様々異なる照明条件下で照明される場合には、従来の顔認識システムは適切に機能しなかった。

最近では、主成分分析("PCA": Principal Component Analysis)およびフィッシャー線形判別("FLD": Fisher Linear Discriminant)が顔認識に適用されており、目覚しい結果をもたらしている。前記PCAおよびFLDは、顔認識における基本的な固有値問題を使用し、故に、入力空間における画像サンプルから顔画像のより低次元のデータを生じさせる。このようにして、前記PCAおよびFLDは、データ量を減少し、従って、顔認識における演算上の負担を軽減する。

PCAを使用した顔認識システムの一例は、Turkその他に付与された米国特許No.Re.36,041に開示されている。そこでは、前記顔認識システムは、PCAを利用して、入力空間より低次元の多次元空間における顔画像のデータを取得する。

前記PCAおよびFLDの不利点の1つは、より低次元の顔画像のデータが、画素間の相対位置を除いて、画像における画素間の関係に関する情報を有さないということである。すなわち、PCAまたはFLDにおける前記より低次元の顔画像のデータは、画像の二次統計、すなわち、画素間の共分散に基づくものであり、3つ以上の画素間の関係のような高次の統計的な依存関係を扱うものではない。顔画像におけるこのような高次の依存関係は、エッジまたは湾曲部における3つ以上の画素間の関係等の画素強度値間の関係を含むことがある。前記高次の依存関係は、しばしば、顔画像のより意味のある、典型的な特徴を有し、顔認識のたるの重要な情報を捕捉する。PCAおよびFLDが高次の統計的な依存関係を使用しない理由の1つは、高次の統計的な依存関係の使用が莫大な演算上の負担を招くことである。

機械学習領域において、高次の統計的な依存関係を使用するための研究がなされてきた。しかしながら、前記機械学習に使用される入力データは、顔認識に使用される顔画像データとは全く異なる。第一に、機械学習におけるデータは、比較的クリーンであり(ノイズが多くなく)、次元数が低い。すなわち、各サンプルまたはデータポイントは、典型的には、200エレメント未満の短いベクトルである。また、顔画像の変化は大きく、これが顔認識の実施を困難にする理由の1つである。第二に、顔認識におけるサンプルは機械学習より次元数がはるかに高く、このため、顔認識における莫大なデータ量および演算上の負担をもたらす。例えば、典型的な50x50画素の顔画像は各サンプルごとに2500エレメントを有する。これらの理由により、機械学習に高次の統計的な依存関係を使用するのに必要なアルゴリズムおよび計算は、顔認識に使用されるものとは本質的に異なる。故に、機械学習に高次の統計的な依存関係を使用するのに必要なアルゴリズムおよび計算を、顔認識に適用することができない。

従って、顔認識システムに膨大な負担をかけることなく、顔画像の高次の統計的な依存関係を使用して顔画像のより典型的な特徴を得ることができるよう、幅広い変化および膨大な量の画像データを処理できる顔認識システムおよび方法を有することが必要である。さらに、顔画像の識別的な特徴を利用し、これらの特徴がより次元の低い顔画像空間に射影されるときのクラス分離を最大にする顔認識システムが必要である。

本発明は、大きな計算上の負担を伴うことなく、顔画像のより典型的で識別的な特徴の両方を利用する顔画像認識システムおよび方法を提供する。前記顔画像認識システムは、入力顔画像システムおよび基準顔画像の組を入力空間から高次元特徴空間に射影し、前記顔画像のより典型的な特徴を得る。前記基準顔画像のカーネルフィッシャーフェイス（Kernel Fisherfaces）が算出され、前記入力顔画像および基準顔画像を前記入力空間および高次元特徴空間より低次元の顔画像空間に射影するために使用される。このようにして、前記顔画像の典型的で識別的な特徴が得られ、重大な計算上の負担をもたらすことなく、顔認識に使用され得る。

前記カーネルフィッシャーフェイスを使用して射影を行うと、前記入力顔画像と基準顔画像とは、前記低次元顔画像空間においてベクトルで表される。前記入力顔画像のポイントと各前記基準顔画像のポイントとの間の他の距離が、算出される。本発明の顔画像認識システムおよび方法は、算出された距離のうちの最小距離を求める。その結果、該算出された最短距離が閾値より短い場合、前記入力顔画像が前記顔画像空間において最短距離に対応する1つの前記基準顔画像に似ている、と判定される。

顔認識にカーネルフィッシャー（Kernel Fisher）線形判別（つまり、カーネルフィッシャーフェイス＝Kernel Fisherfaces）を使用することによって、顔画像のより典型的で識別的な特徴を得て顔認識に利用しながら、画素間のより高次の依存関係および前記画像における識別的な特徴を使用する際の計算を簡略化できる。

本発明は、コンピュータプログラム製品、方法、システム、専用または汎用の計算装置、オンラインサービスまたはシステム、ユーザインターフェイス等、様々な形態で実施可能である。

図1Aは、本発明の一実施の形態に従う、1組の基準顔画像を使用する顔認識システムの訓練を示す図である。図1Aにおいて、1組の基準顔画像102が前記顔認識システム104に入力される。該基準顔画像102は、後に入力顔画像が顔認識のために比較されることになる顔画像である。前記顔認識システム104は、入力顔画像が前記基準顔画像102のうちの1つに似ていると後で判定できるよう、以下に詳述される方法で、前記基準顔画像102の画像データを分析し、該画像データによって訓練される。

図1Bは、前記顔認識システムが本発明の一実施の形態に従って、入力顔画像が前記1組の基準顔画像のうちの特定の基準顔画像に似ていると認識することを示す図である。前記顔認識システム104は、図1Aに示した1組の基準顔画像によって訓練されている。図1Bにおいて、入力顔画像106は前記顔認識システム104によって受け取られる。前記顔認識システム104は、前記入力顔画像106が前記1組の基準顔画像102のうちの1つに似ているか否か、および、具体的にどの顔画像に似ているかを判定する。この結果108は、前記顔認識システム104から出力される。

図1Cは、図1Aおよび図1Bに示した本発明の一実施の形態に従う顔認識システム104の構成を示すブロック図である。図1Cにおいて、前記顔認識システム104は、高次元射影モジュール110と、カーネルフィッシャーフェイス演算モジュール112と、顔画像空間射影モジュール114と、距離演算モジュール118と、記憶モジュール120とを備えている。前記高次元射影モジュール110は、射影された基準顔画像102または入力顔画像106の高次統計からより典型的な特徴を得るために、顔画像(基準画像102の組または入力顔画像106)を入力空間から高次元特徴空間に射影する。前記高次元特徴空間は、前記入力空間より次元が多い。前記顔画像の高次元特徴空間への射影は、射影関数を使用して前記顔画像を示すベクトル間で多様な処理を実行することによって行われる。前記カーネルフィッシャーフェイス演算モジュール112は、前記高次元特徴空間における射影された基準顔画像102の固有値および固有ベクトル(カーネルフィッシャーフェイス)を算出する。前記顔画像空間射影モジュール118は、算出された前記カーネルフィッシャーフェイスを使用して、前記高次元特徴空間からより低次元の顔画像空間に前記顔画像を射影することによって、前記基準顔画像102または入力顔画像106の顔画像空間データを得る。典型的には、前記顔画像空間の次元は、ほとんどの顔認識像サンプルについて、前記入力空間および高次元特徴空間より低い。

前記記憶モジュール120は、前記入力顔画像106との比較に使用するために、前記基準顔画像102のデータを前記低次元の顔画像空間に記憶する。また、前記記憶モジュール120は、入力顔画像と共に使用するために、前記算出されたカーネルフィッシャーフェイスを記憶する。前記距離演算モジュール118は、前記顔画像空間における前記入力顔画像106に対応するポイント(点)と、前記顔画像空間における基準顔画像102に対応する各ポイントとの間の距離を算出し、特に、前記入力顔画像106がどの基準顔画像102に似ているかを確認するために、どの距離が最も短いかを判定する。本発明の一実施の形態によると、前記計算される距離はユークリッド距離である。前記顔認識システム104における様々なモジュールに関連する数学およびアルゴリズムの詳細は、以下に説明されている。

図1Dは、本発明の一実施の形態に従って、いかにして前記顔画像がベクトルの行列(マトリックス)としてデータ表現され、いかにしてこれらのベクトルが前記顔認識システム104において修正変更されるかを示す図である。先ず、各顔画像(基準顔画像または入力顔画像)はベクトルで表され、顔画像のセット122は前記入力空間においてベクトルの行列(マトリクス)124で表される。典型的には、顔画像は、2次元の強度値のＮxＮアレイである。nはＮ²に等しいと仮定する。各顔画像は、前記入力空間において、前記行列124におけるベクトルA₁,A₂,A₃,.....,A_mの1つとして表される。各ベクトルは次元nを有し、mは前記ベクトル行列によって表される顔画像の数に等しく、ｎはＮ²に等しい。換言すると、前記行列124は、m個のローとn個のコラムとを有する。例えば、40人の被験者の400個の画像が本発明の顔認識システムに使用され、顔画像の分解能は23 x 23である。この場合、mは400であり、nは529 (23 x 23)である。

本発明の顔認識システム104は、前記入力空間におけるベクトルの行列124を高次元特徴空間に射影し、当該顔画像の画素のうちのより高次の統計データから、前記顔画像のより典型的な特徴を抽出し、これにより、該高次元特徴空間においてベクトルB₁,B₂,B₃,.....,B_mの行列126が得られる。前記ベクトルB₁,B₂,B₃,.....,B_mは、射影関数による前記ベクトルA₁,A₂,A₃,.....,A_m間の様々な処理の結果として作り出され、該ベクトルA₁,A₂,A₃,.....,A_mより高い次元を有する。換言すると、前記行列126はm個のローとf個のコラムとを有し、ここで、fはn(すなわち、前記行列124におけるコラムの数)よりかなり大きい。前記コラムの数fは、選択される射影関数によって決まる。

本発明の顔認識システム104は、前記ベクトルの行列126を前記高次元特徴空間より次元の低く、また、典型的には前記入力空間より次元の低い低次元顔画像空間に射影し、これにより、低次元の画像空間においてベクトルC₁,C₂,C₃,.....,C_mの行列128が得られる。この処理に係る演算は、後で詳述するように、カーネルフィッシャーフェイスの使用によって簡略化される。前記ベクトルC₁,C₂,C₃,.....,C_mは、典型的には、前記ベクトルA₁,A₂,A₃,.....,A_mおよびベクトルB₁,B₂,B₃,.....,B_pの次元より低い次元を有する。換言すると、前記行列128はm個のローとd個のコラムとを有し、ここで、dはnおよびf(すなわち、前記行列124および126におけるコラムの数)よりかなり小さく、典型的には、前記顔画像における被験者数から1を引いた値に等しい値を有する。上記例において、dは39 (40 - 1)に等しい。

図2は、本発明の一実施の形態に従って、1組の基準顔画像を使用して前記顔認識システム104を訓練する方法を示すフローチャートである。図2の202において、1組の基準顔画像が得られる。当初、前記基準顔画像は、各画素ごとの強度値の行列からなる。この目的のために、前記基準顔画像は、様々な顔の表情を使用して、様々な照明条件の下、各個人ごとに集められる。言い換えると、各人ごとに、照明と表情を変えながら、1組の画像が集められる。そして、各基準顔画像における目や鼻等の要素を揃えるために通常の画像処理が実行され、各基準顔画像にはクラス識別情報のラベルが付される。すなわち、顔画像の各組に、その個人の画像の種類を反映した識別子(例えば、番号)が付される。例えば、Johnについて15個の顔画像の組が集められ、各前記顔画像にクラス番号1が付される。同様に、Janeについて15個の顔画像の組が集められ、各前記顔画像にクラス番号2が付される、等々である。これらの顔画像は、顔認識用の基準画像として使用される。そして、各基準画像はベクトル形式の強度値のラスタ走査で表され、基準画像の組は複数のベクトルを含む行列の形式で表現される。例えば、100 x 100画素の顔画像における10000画素の各々がローごとに精査され、各画素の強度値(0〜255)が1 x 10000の形式にされる。その結果得られる行列はm x 10000の行列であり、ここで、mは基準顔画像の数である。入力ベクトル形式の顔画像を得る方法は、Turkらに付与された米国再発行特許No.36,041に詳細に開示されている。

その後、前記画像のより典型的な特徴を得るために、204において、前記基準顔画像102は、高次元射影モジュール110によって、前記入力空間より次元の高い高次元特徴空間に射影される。これらのより典型的な特徴は、3つまたは3つ以上の画素間の関係のような、前記画像におけるより高次の統計的な依存関係から導出され得る。上述のごとく、画像における上記のより高次の依存関係は、エッジまたはカーブにおける3つまたは3つ以上の画素間の関係のような、画素強度値間の関係を含んでいてよい。

これは、画像におけるより高次の依存関係は使用しないが、顔画像間の関係をエンコードするために共分散を利用する前記Turkらに付与された米国再発行特許No.36,041に開示されているもののような従来の顔認識システムとは、大きく異なる。従来の顔認識システムにおける共分散行列は、二次統計データ、すなわち、(各2つの画素を考慮した)画素値のペアワイズ乗算に基づくものであり、一方、前記射影モジュール204は、3つ以上の画素値の乗算を可能にし、これにより、画素(3つ以上の画素)間におけるより高次の統計を算出する。このようなより高次の統計は、しばしば、エッジまたはカーブにおける3つまたは3つ以上の画素間の固有の関係を捕獲することができる。前記より高次の依存関係は、しばしば、画像のより有意義で、典型的な特徴を有し、二次統計データに比べて、顔認識用の重要な情報を捕獲することができる。これは、二次統計データが画像の振幅スペクトルに対応するのに対して、より高次の統計データが位相スペクトルに対応するからである。位相スペクトルは、構造情報を捕獲し、顔画像の有意義なデータを提供する。

前記基準顔画像102の高次元特徴空間への射影は、射影関数に基づく基準顔画像を示すベクトル間で様々な種類の処理を実行することによって実現可能である。例えば、以下の射影関数を使用して、2次元の空間におけるベクトルを3次元の特徴空間に射影することができる。

同様に、以下の射影関数を使用して、2次元の空間におけるベクトルを4次元の特徴空間に射影することができる。

その他の様々な射影関数を使用して、n次元顔画像をf次元の特徴空間(fはnよりかなり大きい)に射影できる。特定の射影関数の選択は、データおよびアプリケーションに依存し、しばしば、経験的に決定される。

多種類の射影関数Φ(x)を本発明に使用可能である。しかしながら、限られた数の射影関数のみが、効率的でシステマチックな演算に対応できる。特定の射影関数Φ(x)を選択するための1つの方法は、射影関数についてのドット積演算を実際に行う代わりに、カーネル関数を使用して効率的にドット積を算出できる射影関数を選択することである。というのは、前記射影関数のドット積演算は、顔画像を前記高次元特徴空間から前記低次元特徴空間に射影するために行われる演算にしばしば使用され、計算的に集中したものであるからである。従って、このような方法は、下記の関係を満足させるカーネル関数k(x, y)を求める。
k(x, y) = Φ(x)・Φ(y)
典型的には、前記カーネル関数k(x, y)を使用する演算は、ドット積Φ(x)・Φ(y) を使用する演算に比べてはるかに効率的に行われることができる。というのは、前記ドット積Φ(x)・Φ(y) を使用する演算が通常大変高くて無限であることもあるΦ(x)およびΦ(y)の次元数に依存するのに対して、前記カーネル関数k(x, y)を使用する演算がn次元(通常、低い)の入力空間に依存するからである。

マーサー(Mercer)の条件(マーサーの法則としても知られている)は、当該分野において、高次元特徴空間ではなく入力空間における射影サンプル(Φ(x)・Φ(y))のドット積を演算するために一定のカーネル関数k(x, y)が使用可能であるかを判定する方法として知られている。しかしながら、他の方法または法則に従って(経験によってでもよい)、前記射影関数を選択することができる。前記マーサーの法則は、当業者に周知であり、Data Mining and Knowledge Discoveryのvol.2、no.2、121〜167ページ(1998年)にChristopher J.C. Burgesによって"A Tutorial on Support Vector Machines for Pattern Recognition"というタイトルで詳細に説明されている。

前記マーサー(Mercer)の条件を満たすカーネル関数が約2ダースある。多項式カーネル(k(x, y) = (x・y)^d)およびガウスカーネル

(ここで、σは、xおよびyが得られるガウス分布の標準偏差である)は、最も広く使用されているカーネル関数である。本発明の一実施の形態によると、二次(d = 2)多項式カーネルカーネルが前記射影関数として使用される。本発明の他の実施の形態によると、三次(d = 3)多項式カーネルが前記射影関数として使用される。なお、正確な射影関数(Φ(x)・Φ(y))の形態は、選択されたカーネル関数k(x, y)によって完全に決定される。事実、射影サンプルのドット積(Φ(x)・Φ(y))のみが顔画像を前記高次元特徴空間から前記低次元特徴空間に射影するために行われる演算に使用される場合、正確な閉形式の射影関数を知る必要はない。というのは、このような射影を計算上効率的な態様で行うために、カーネル関数k(x, y)を代わりに使用可能であるからである。従って、カーネル関数を使用する1つの利点は、n次元の顔画像がf次元の特徴空間(fはnよりかなり大きい)に射影可能であり、これが、正確な閉形式の射影関数を知ることなしに、より豊かな特徴表現を実現する、ということである。D次の多項式カーネル関数が使用される場合、前記高次元特徴空間の次元数は

である。例えば、二次(d = 2)多項式カーネルおよび16 x 16(n = 256)画素からなる顔画像の場合、前記高次元特徴空間の次元数fは32,896(前記入力空間の次元数の128倍以上)である。

入力空間から高次元特徴空間に顔画像を射影するために上記のような射影関数を使用する理由は、多種多様である。1番目に、高次元特徴空間に射影される顔画像は、当初の入力空間における顔画像より表現に富む特徴表現を提供する。前記射影関数はパターンを表示するために様々な統計データを演算する。これは、より表現に富む特徴表示はしばしばパターン分類作業を容易にするので、重要である。2番目に、射影関数は、パターンにおける特徴間の非線形表現を可能にする。例えば、上記射影関数の例は、パターンにおける特徴間の関係を明らかにする。3番目に、射影関数は高次元空間において分類作業を行うことを可能にし、これにより、該分類作業がより容易になる。言い換えると、前記入力空間においてリニアに分離できないパターンは、通常、高次元特徴空間においてリニアに分離できる。

再び図2において、カーネルフィッシャーフェイス演算モジュール112は、206において、前記高次元特徴空間における射影された基準顔画像からカーネルフィッシャーフェイスを算出する。前記カーネルフィッシャーフェイスを演算するための技術については、後で詳述する。
前記基準顔画像は、208において、前記算出されたカーネルフィッシャーフェイスを使用して前記顔画像空間射影モジュール114によって、前記高次元特徴空間から低次元顔画像空間に射影され、これにより、前記低次元顔画像空間に対応するベクトルがもたらされる。全体的な構成において同様な顔画像は、前記高次元特徴空間においてランダムに分散されず、従って、比較的低次元のサブ空間によって記述可能である。前記カーネルフィッシャーフェイスは、前記高次元特徴空間における射影された基準画像から前記低次元顔画像空間における顔画像の記述を導き出すための演算を簡略化することができる。典型的には、前記低次元顔画像空間の次元は、前記入力空間および入力顔画像が射影された高次元特徴空間の両方の次元より低い。

そして、その後の入力顔画像との比較に使用するために、前記カーネルフィッシャーフェイスおよび前記低次元顔画像空間における前記基準画像に対応するベクトルの分布は、210において、記憶モジュール120に記憶される。このようにして、前記記憶モジュール120は、入力顔画像が後に顔認識のために比較される基準顔画像の組に対応する顔画像空間におけるベクトルの分布を記憶することになる。

図3は、本発明の一実施の形態に従って、基準顔画像の組の中から特定の顔画像を認識する方法を例示するフローチャートである。先ず、302において、予め格納された基準顔画像102との比較のために入力顔画像106が入手される。302において、前記入力顔画像106は、前記基準顔画像102が上述のように入手される場合と同様に、ベクトルの形態で入手される。入力顔画像がただ1つである場合、前記入力空間におけるベクトルの行列124は1-ベクトル行列(1 x n行列)となる。前記高次元射影モジュール110は、前記入力顔画像106を高次元特徴空間に射影し、前記入力顔画像106のより表現に富む特徴を得る。その後、308において、前記顔画像空間射影モジュール114によって、206で前記基準顔画像について前に算出されたカーネルフィッシャーフェイスを使用して、前記入力顔画像が前記顔画像空間に射影される。

この時点で、前記入力顔画像106には、射影される前記入力顔画像106および基準顔画像102の組に対応するポイント(対応ベクトル)が存在する。前記基準顔画像102に対応するポイント(ベクトル)は、前記記憶モジュール120に記憶されるが、距離演算モジュール118によって取り出されることができる。前記距離演算モジュール118は、310において、前記低次元顔画像空間における前記入力顔画像のポイントと基準顔画像106に対応する各ポイントとの間のユークリッド距離を算出する。前記距離演算モジュール118は、このようにして算出された距離のうちの最短のものを求める。該最短の距離に対応するポイントに関連する基準顔画像は、基準顔画像の中で前記入力顔画像が最も似ている特定の顔画像であり、該特定の顔画像に割り当てられたクラス識別情報は、顔認識の結果である。

ここで、上記ステップの各々の基礎をなす数学的な技術について詳述する。
固有値問題
典型的には、顔画像は、強度値の2次元のN x Nアレイである。該顔画像は、多次元画像空間においてN²次元のベクトルとして表わされる。例えば、256 x 256画素の典型的な画像は、65,536次元のベクトル、また等価的には、65,536次元の画像空間における1つのポイントとなる。同様に、1組の顔画像が、この65,536次元の画像空間におけるポイント(点)の集合に対応付けられる。上述のごとく、本発明の顔認識システムは、画像(入力顔画像または基準顔画像)を高次元特徴空間に射影し、当該顔画像の画素のうちより高次の統計データから、前記顔画像のより典型的な特徴を抽出する。それぞれの顔画像は全体構成において似ているので、これらの顔画像は、画像空間においてランダムに分散され、低次元のサブ空間によって記述可能である。さらに、同一の人に属する顔画像の組は、しばしば、前記低次元のサブ空間においてより小さなクラスタを構成する。言い換えると、同一の人の顔画像の人物内(クラス内)変化は、人物間(クラス間)変化より小さい。カーネルフィッシャー線形判別(KFLD)分析を使用して、前記低次元の顔画像空間におけるクラスタを最適に分離する射影ベクトルを確認することが可能である。これらの射影ベクトルはカーネルフィッシャーフェイスと呼ばれ、これらのカーネルフィッシャーフェイスを算出する処理は、前記高次元顔画像空間における画像に関する基本的な固有値問題を解くことと等価である。しかしながら、カーネル関数(故にカーネルフィッシャーフェイス)は、前記固有値問題を解くための計算上効率の高い方法を提供する。

ｍ個の中心化(ゼロ平均、単位分散)サンプルｘ_kの場合、ｘ_k=[ｘ_k1,ｘ_k2,...,ｘ_kn]^T ∈ Ｒⁿ(ここでＲⁿは入力空間)であり、フィッシャー線形判別(FLD)は、射影された低次元顔画像空間における各クラスタ内の分散を最小化しながら、クラスタ間の分散を最大化する射影方向を求める。換言すると、FLDは、クラスタ同士を可能な限り分離(すなわち、クラス間散乱S_Bまたはクラスタ間の分散を最大化)しながら前記低次元顔画像空間でコンパクトなクラスタを形成するようサンプルクラスのサンプルが射影されるような射影方向を求めようとする。このため、次の基準関数J(w)を最大化するベクトルwを求める必要がある。

このＪ(w)を最大化する最適な方法は、固有値問題の解法であるということがわかる。最適値wのコラムは、固有値λが≧ 0および固有ベクトルがｗ∈Ｒⁿ（ここでＲは実数）である場合、
Ｓ_Bｗ = λＳ_wｗ (2)
における最大固有値に対応する汎用固有ベクトルである。前記入力空間Ｒⁿにおけるクラス内散乱Ｓ_wは、

によって定義される。ここで、cは合計クラス数であり、μ_iはクラス平均であり、ｎ_iは該クラスｉにおけるサンプルの数であり、ｘ ∈ Ｘ_i平均ｘはクラスｉに属するベクトルである。同様に、前記入力空間Ｒⁿにおけるクラス間散乱行列Ｓ_Bは、

によって定義される。ここで、ｃは合計クラス数であり、μ_iはクラス平均であり、ｎ_iは該クラスにおけるサンプルの数であり、μはどのクラスに属しているのかに関係なくすべてのクラスにおけるベクトルｘの全平均、すなわち、

である（nはすべてのクラスにおけるサンプルまたは（ベクトル）の数であり、xはそれがどのクラスに属しているのかに関係なく任意のクラスにおけるベクトルである）。

高次元特徴空間に対する画像射影
カーネルFLD分析において、各ベクトルｘは、次の非線形マッピング関数(射影関数)によって、前記入力空間Ｒⁿから高次元特徴空間Ｒ^fへ射影される。

前記射影関数Φの例は上述されている。前記高次元特徴空間の次元は任意の大きさであってよい。前記高次元特徴空間Ｒ^fにおけるクラス内およびクラス間散乱行列をそれぞれ

によって示し、前記高次元特徴空間Ｒ^fにFLDを適用する場合、前記固有値問題の固有値λおよび固有ベクトルｗ^Φを求める必要がある。

前記高次元特徴空間Ｒ^fに上記式(2)、(3)、(4)および(5)を使用して、次の式を実行する。

ここで、μ^ΦはベクトルΦ(x)の全平均、すなわち、

その結果、前記高次元特徴空間Ｒ^fにおける最適な射影行列

は、

となる。ここで

は、m個の最も大きな汎用固有値 {λ_i|i = 1,2,.....,m} に対応する汎用固有ベクトルの組である。上記式(13)における

は、arg maxに続く比率を最大化するw^Φを求めるものである。

本発明の一実施の形態によると、w^Φを算出する際の特異点問題を回避するためには、数値的に安定させるために小さな単位行列IがＳ_w ^Φに加えられる。換言すると、Ｓ_w ^Φ = Ｓ_w ^Φ + εＩであり、ここで、Ｉはその次元数がＳ_w ^Φと同じである単位行列であり、εは、本発明の一実施の形態によると、例えば0.001である小さな実数である。前記クラス内散乱行列の対角要素に小さな実数を加えることによって、前記クラス内散乱行列の対角要素のいずれもゼロにはならず、従って、特異点問題を回避できる。

カーネルフィッシャーフェイスの算出
次にｃクラス問題(すなわち、各サンプルがｃクラスのうちの1つに属するもの)について考察し、ｔクラスのｒ番目のサンプルおよびｕクラスのｓ番目のサンプルがそれぞれｘ_trおよびｘ_usであるとする。ここで、ｔクラスはｌ_t個のサンプルを有し、uクラスはｌ_u個のサンプルを有する。カーネル関数は、
(k_rs)_tu = k(x_tr, x_us) = Φ(x_tr) ・Φ(x_us) (14)
として定義可能である。Kがエレメント

によって定義されるm x mの行列であると仮定する。ここで、K_tuは、前記高次元特徴空間R^fにおけるドット積からなる行列である。すなわち、

ここで、ここで、K_tuは l_t x l_u行列であり、Kはm x mの対称的な行列である。さらに、行列Zは、
Z = (Z_t)_t=1,...,c (17)
によって定義され、ここで、(Z_t)はその成員がすべて１／ｌ_t に等しいl_t x l_u行列であり、すなわち、Zはm x mのブロック対角行列である。
式(12)および(9)における高次元特徴空間Ｒ^fにおけるクラス間およびクラス内行列は、それぞれ、

となり、ここで、μ_i ^ΦはR^fにおけるクラスiの平均であり、l_iはクラスiに属するサンプルの数である。再生核理論によると、いかなる解ｗ^Φ ∈ R^fもR^fにおけるすべての訓練サンプルの範囲内になければならない。すなわち、

である。その結果、式(20)の解は、
λＫＫα = ＫＺＫα (21)
を解くことによって得られることになる。
同時に、上記式(13)は

として書くことができる。ここで、式(22)における

は、arg maxに続く比率を最大化するｗ^Φを求めるものである。式(22)において得られる抽出された固有ベクトルｗ^Φ = [ｗ₁ ^Φ,.....,ｗ_m ^Φ]はカーネルフィッシャーフェイスと呼ばれる。

より低次元の特徴空間に対する顔画像射影
こうして、前記カーネルフィッシャーフェイス(固有ベクトル)ｗ^Φを使用することによって走査されるより低次元の顔画像空間に、前記高次元特徴空間Ｒ^fにおけるベクトルΦ(x)が射影可能になる。ｘが前記高次元特徴空間Ｒ^fにおける射影がΦ(x)であるテストサンプルを示す場合、固有ベクトルｗ^Φに対するΦ(x)の射影は、Φ(x)に対応する非線形のフィッシャー線形判別式(FLD)となる。

このようにして、サンプルを高次元特徴空間Ｒ^fに射影することに起因するやっかいな計算を実際に実行することなく、前記カーネル関数を使用してフィッシャー線形判別データを抽出することができる。

図4は、第1の組のテスト顔画像について本発明の一実施の形態に従う顔認識システムをテストした結果を例示するグラフである。該第1の組のテスト顔画像は40の被験者についての400個の画像(各被験者ごとに10個の画像)であり、該画像は、顔の輪郭ならびに様々なポーズおよび倍率の変化を含んでいる。しかしながら、照明条件は一定のままとした。計算上の複雑さを減少させるために、各顔画像は、23 x 28の画素にダウンサンプルされた。各顔画像は、強度値のラスタスキャンによって示され、その後、ゼロ平均ベクトルに正規化される。前記顔画像の尖鋭度の平均および標準偏差は、それぞれ、2.08と0.41であった。尖鋭度は、分布における非ガウス成分の測定値であり、4次モーメントに基づいて算出され、
kurt(x) = Ｅ[ｘ⁴]−３(Ｅ[ｘ²])²
によって定義される。ここで、Ｅは期待値である。

すべてのテストは"1つ除外(leave-one-out)"方法を使用して実行された。すなわち、1人の画像を分類するために、該画像はm個の画像から除去され、これにより、m-1個の基準顔画像および1つの入力顔画像が存在することになる。該グラフが示すように、本発明に係るKFLDを使用した顔認識システムは、ICA(Independent Component Analysis)、SVM(Support Vector Machine)、PCA、KPCA(Kernel Principal Component Analysis)、LLE(Locally Linear Embedding), Isomap, FLD等のその他の顔認識アルゴリズムに基づく顔認識システムのエラー率との比較で最も低いエラー率を有する。

図5は、第2の組のテスト顔画像について本発明の一実施の形態に従う顔認識システムをテストした結果を例示するグラフである。該第2の組のテスト顔画像は、眉、鼻、口および顎等の顔内構造を含むが、顔の輪郭を含まない、11人の被験者についての165個の綿密にトリミングされた画像を含むものであった。計算効率のために、各画像は、29 x 41の画素にダウンサンプルされ、しかる後、正規化された強度値の集中ベクトルによって示された。前記顔画像の尖鋭度の平均および標準偏差は、それぞれ、2.68と1.49であった。

図4と同様に、テストは、"1つ除外(leave-one-out)"方法を使用して実行された。さらに、図5のグラフが示すように、本発明に係るKFLDを使用した顔認識システムは、ICA、SVM、PCA、KPCA、LLE, Isomap, FLD等のその他の顔認識アルゴリズムに基づく顔認識システムのエラー率との比較で最も低いエラー率を有する。

以上、本発明は顔認識のための方法およびシステムとして説明されてきたが、本発明の顔認識システムは、コンピュータによって読み取り可能な媒体に記録されるコンピュータプログラム製品に実施可能である、ということは当業者に自明であろう。本発明の顔認識システムは、顔画像の認識に限らず、広範な変化および大量の要素を有するその他の複雑な画像の認識に使用されることもできる。

本発明は、1つの実施の形態について詳述されてきた。しかし、本発明は他の実施の形態にも実施可能であることは当業者に自明であろう。先ず、本発明の構成要素の特定の名称付け、用語の大文字使用法、属性、データ構造、またはその他のプログラミングもしくは構造上の特徴は、必須または重要ではなく、本発明またはその特徴を実施するメカニズムは、上述のようなハードウエアおよびソフトウエアの組合せによって、または完全にハードウエア要素のみによって実現されてもよい。さらに、ここに記載された様々なシステム要素の間の特定の機能分担は単に例示的なものであり、必須ではない。単一のシステム構成要素によって実行される機能は、その代わりに、多数の構成要素によって実行されてよく、また、多数の構成要素によって実行される機能は、その代わりに、単一の構成要素によって実行されてよい。

上記記載のいつくかの部分は、アルゴリズムおよび情報処理についての象徴的なデータ表現によって本発明の特徴を説明している。これらのアルゴリズム的な説明および表現は、データ処理技術の当業者が彼らの業務の内容を最も効果的に他の当業者に伝えるために使用される手段である。これらの処理は、作用的または論理的に説明されてきたが、コンピュータプログラムによって実施されてよい。さらに、これらの処理をモジュールまたはコード装置として言及することは、一般性を失うことなく、適時に便利となることが分かっている。

しかし、これらの用語およびこれらに類似した用語のすべては適当な物理的な数量に対応付けられ、これらの数量に適用される単なる便利な標識である、ということを心に留めておくべきである。以下の説明においてそうでない旨明示しない限り、該説明全体にわたり、"処理"、"計算"、"演算"、"判定"、"表示"等の用語を使用する説明は、コンピュータシステムメモリ、レジスタもしくはその他の情報記憶装置、送信または表示装置内の物理的(電子的)数量として表現されたデータを操作し、変換するコンピュータシステムまたはこれに類似した電子計算装置の動作および処理に言及するものである。

本発明のある特徴は、アルゴリズムの形態として説明された処理ステップおよび命令を含むものである。なお、本発明の処理ステップおよび命令は、ソフトウエア、ファームウエアまたはハードウエアとして実施してよく、ソフトウエアとして実施した場合、リアルタイムネットワークオペーレーティングシステムによって使用される異なるプラットフォームに存在し該プラットフォームから操作されるようダウンロードされてもよい。

本発明は、さらに、ここに記載した処理を実行するための装置にも関する。この装置は、必要な目的のために特別に構成されてよく、または、そこに記憶されたコンピュータプログラムによって選択的に起動または再構成される汎用コンピュータからなるものであってもよい。このようなコンピュータプログラムは、それに限られるものではないが、フロッピーディスク、光ディスク、CD-ROM、磁気光ディスク、リードオンリーメモリ(ROM)、ランダムアクセスメモリ(RAM)、EPROM、EEPROM、磁気または光カード、特定用途向け集積回路(ASIC)、または、電子命令を格納するのに適し、各々がコンピュータシステムバスに接続される任意タイプの媒体等のコンピュータによって読み取り可能な記憶媒体に記憶されてよい。さらに、この明細書において言及されているコンピュータは、1つのプロセッサを含んでよく、または、計算能力を向上させるよう多数のプロセッサを含むアーキテクチャであってよい。

ここに示されたアルゴリズムおよび表示は、特定のコンピュータまたは他の装置に対して固有に関連するものではない。様々な汎用システムが本発明の教示内容に従うプログラムと共に使用されてもよく、上記必要な方法ステップを実行するためにより特殊化された装置を構成することがより便利であることが分かるであろう。これらの様々なシステムに必要な構造は下記の説明から明らかであろう。さらに、本発明は、特定のプログラミング言語に関して記載されたものではない。システムが本発明の教示内容を実施するために様々なプログラミング言語が使用されてよく、特定の言語に対するすべての言及は、本発明の実施可能要件および最良の態様の開示のためになされている。

最後に、この明細書に使用されている言語は、主に読み易さおよび説明目的で選択されたものであり、発明の主題の線引きをなし、すなわち、境界線を引くよう選択されたものではない。従って、本発明の開示は、説明例示的なものであり、添付請求項に記載されている発明の範囲を限定するものではない。

本発明の一実施の形態に従う、1組の基準顔画像を使用した顔認識システムの訓練を示す図である。前記顔認識システムが本発明の一実施の形態に従って、入力顔画像が前記1組の基準顔画像のうちの特定の基準顔画像に似ていると認識することを示す図。図1Aおよび図1Bに示した本発明の一実施の形態に従う顔認識システム104の構成を示すブロック図。図1Dは、本発明の一実施の形態に従って、いかにして前記顔画像がベクトルのマトリックスとして表現され、いかにしてこれらのベクトルが前記顔認識システム104において変更されるかを示す図。本発明の一実施の形態に従って、1組の基準顔画像を使用して前記顔認識システムを訓練する方法を示すフローチャート。本発明の一実施の形態に従って、基準顔画像の組の中から特定の顔画像を認識する方法を例示するフローチャート。本発明の一実施の形態に従う前記顔認識システムによって第1の組の基準顔画像について行われたテストの結果を示すグラフ。本発明の一実施の形態に従う前記顔認識システムによって第2の組の基準顔画像について行われたテストの結果を示すグラフ。