JP2005149506A

JP2005149506A - 対象物自動認識照合方法および装置

Info

Publication number: JP2005149506A
Application number: JP2004331172A
Authority: JP
Inventors: Sergey Ioffe; イオッフェセルゲイ
Original assignee: Fuji Photo Film Co Ltd
Current assignee: Fujifilm Holdings Corp
Priority date: 2003-11-14
Filing date: 2004-11-15
Publication date: 2005-06-09
Anticipated expiration: 2024-11-15
Also published as: US20050105780A1; US7596247B2; JP4543423B2

Abstract

【課題】デジタル画像における対象物を自動的に認識あるいは照合する方法および装置を提供する。
【解決手段】確率モデルを用いてデジタル画像における対象物を自動的に認識あるいは照合する方法および装置であって、関心ある対象物を有するデジタル画像データにアクセス（Ｓ２１２）し、前記画像中の関心ある対象物を検出し、前記対象物を正規化して正規化された対象物表現を生成し（Ｓ２１４）、前記正規化された対象物表現から複数の特徴を抽出し（Ｓ２１６）、および特徴の各々を予め決められた付加確率モデルに適用して（Ｓ２１８）前記関心ある対象物が既存のクラスに属する尤度を決定する（Ｓ２２２）ことによって、デジタル画像における対象物を自動的に認識あるいは照合する方法および装置である。
【選択図】図３

Description

本発明はデジタル画像処理、特に確率モデルを用いるデジタル画像における対象物の認識あるいは照合のための方法および装置に関する。

顔認識はコンピュータ映像の応用分野として、特にセキュリティのような分野においてその重要性が増してきている。しかしながら精度の高い顔認識は、人の顔はポーズや表情や照明および顔に装用するアクセサリーによって非常に異なって見えるという事実の所為で、しばしば困難となる。顔認識は３次元モデルに基づいた手法や特徴に基づいた方法等によって研究されてきた。すべての顔認識システムにおける本質的な特徴は、類似性の測定、すなわち、もし複数の顔が同一人物の顔に属しているものなら、それらは類似していると考えられる。この類似性測定は、２つの顔画像が同一人に属するものであることを照合したり、新たな標本例が所与の顔のどれに最も類似しているかを判定することによって新規な画像を分類するために使用される。しかしながら、良好な類似性測定を計画デザインすることは難しい。たとえば画素空間におけるユークリッド距離に基づいた簡易な類似性測定は、概してうまく機能しない。というのは画像がクラス（級）間のばらつき（個々人の間の違いに起因する）よりもクラス（級）内のばらつき（表情とかポーズのような）により大きく影響を受けるからである。それゆえ顔認識アルゴリズムは、クラス内の差に対して相対的にクラス間の差を最大化する画像特徴を抽出できることが必要である。

新たな顔標本のアイデンティティについて最良の決定をするためには、理想的なシステムは、その顔およびその環境についてのモデルとしてか、あるいは各顔についての多数のビュー（view）として、各人の顔の外観における可能なばらつきの全てについての表現を有していることになる。もし各人についての多数の実例がギャラリーで利用できるなら、各人についてのモデルが計算算出でき、新しい顔のビュー（view）を分類することに用いることができる。しかしながら実際にはギャラリーは各人の少数の実例を有しているにすぎない。

本発明はこのような事情に鑑みてなされたもので、デジタル画像における対象物を自動的に認識あるいは照合する方法および装置を提供することを目的とする。

本発明は、デジタル写真のようなデジタル画像における顔の自動的認識又は照合のための方法および装置を対象としている。

本発明は, デジタル画像における対象物を自動的に認識あるいは照合する方法であって、関心ある対象物を有するデジタル画像データにアクセスするステップと、前記デジタル画像中の関心ある対象物を検出するステップと、前記関心ある対象物を正規化して正規化された対象物表現を生成するステップと、前記正規化された対象物表現から複数の特徴を抽出するステップと、抽出された特徴の各々を予め決められた付加確率モデルに適用して該前記関心ある対象物が既存のクラスに属する尤度を決定するステップとを有することを特徴とする対象物自動認識照合方法である。

一実施態様においては、前記予め決められた付加確率モデルは対象物の外観をクラス（すなわちアイデンティティ）とビュー（ポーズ、表情、その他）に対応する成分に分解する付加ガウスモデルである。一実施例においては、前記方法は複数のクラスに対して予め決められた付加確率モデルに基づいてデジタル画像中に現れている顔を分類する。

また本発明は,デジタル画像における対象物を自動的に認識あるいは照合する装置であって、デジタル画像データを供給する画像データユニットと、前記デジタル画像データ中の関心ある対象物を検出するための対象物検出器と、前記関心ある対象物を正規化して正規化された対象物表現を生成するための正規化ユニットと、前記正規化された対象物表現から複数の特徴を抽出するための特徴抽出ユニットと、抽出された特徴の各々を予め決められた付加確率モデルに適用して前記関心ある対象物が既存のクラスに属する尤度を決定するための類似性決定ユニットとを有することを特徴とする対象物自動認識照合装置である。

本発明の一実施態様においては、前記予め決められた付加確率モデルは対象物の外観をクラス（すなわちアイデンティティ）とそのビュー（ポーズ、表情、その他）に対応する成分に分解する付加ガウスモデルである。一実施例では、前記装置は複数のクラスに対して予め決められた付加確率モデルに基づいてデジタル画像中に現れている顔を分類する。

本発明の特徴とするところは以下に図面を参照しながらより具体的に開示する。以下に述べられる実施態様の詳細は、顔の認識あるいは照合に関するものであるが、ここにおいて記述される本発明の原理はデジタル画像中に見える他の異なる対象物にも適用できるものである。

図１は本発明の実施態様に従った対象物認識又は照合のためのシステムのブロック図を示している。

図１におけるシステム１００は下記の構成要素、すなわち、画像入力デバイス２０、画像処理ユニット３０、ユーザー入力ユニット５０およびディスプレイ６０を備えている。図１において示される各構成要素の作用（操作）および要素間の機能的な相互作用に関しては、以下の説明から明らかになる。

実施例においては、画像入力デバイス２０はデジタル画像データ（たとえば関心のある対象（たとえば顔）を含んでいる写真を表している）を供給するものである。画像入力デバイス２０はたとえばペーパーやフィルム上に記録された画像をスキャンするスキャナーであり、たとえば、フィルムあるいはペーパーから１フレームづつR（赤）, G（緑）, B(青)各色の画像情報を光電的に読み取るCCDセンサーを有している。画像入力デバイス２０としてはデジタル画像データを供給するものならどのようなものでも、たとえばCD-R、フロッピーディスクその他の記録媒体やネットワーク接続によるもの等がある。画像処理ユニット３０は画像入力デバイス２０からデジタル画像データを受けとり、以下に詳細に説明されるやり方で対象物の認識／照合を実行するものである。

図１に示す実施態様においてはユーザー入力ユニット５０はキーボード５２およびマウス５４である。

本発明の実施態様に従った対象物認識を実行することに加えて、画像処理ユニット３０は、色／濃度補正、圧縮、その他の付加機能を実行することができる。

図２は、デジタル画像に見られる顔を分類(classifies)あるいは照合する本発明の実施態様に従って図１に示されたシステムにおける画像処理ユニット３０をより詳細を示すブロック図である。図２に示されるように、この実施態様における画像処理ユニット３０は、画像メモリー3２、顔検出ユニット３４、正規化ユニット３６、特徴抽出ユニット３７、画像処理コントロールユニット３８及び類似性抽出ユニット３９を有している。

この図２の種々の構成要素は一つ一つ分離した形で図示されているが、この図示は説明を容易にするためであり、当然のことながら、種々の構成要素のある幾つかの作用操作は同じ物理的デバイスによって、たとえばパソコンのマイクロプロセッサーによって、実行され得るものである。画像処理ユニット３０の複数構成要素のある幾つかの作用操作は、次に図３から図８までを参照して説明される。

画像処理ユニット３０の作用操作は一般に2段階に分割される。すなわち、（１）トレーニングおよび（２）自動的対象物認識又は照合に分けられる。本発明の実施のためのこれら両方の段階に関与する原理は以下に説明される。

図３のフローダイアグラムにおいて示されるように、顔認識のために画像処理コントロールユニット３８が最初に、たとえば画像メモリー３２あるいは画像入力デバイス２０から直接に、少なくとも一つの顔を有するデジタル画像を入力する(ステップＳ２１２)。次に顔検出ユニット３４がデジタル画像データを受け取り、その入力されたデジタル画像（たとえば図４における顔図４（a））における顔を検出し、正規化ユニット３６は前記顔検出ユニット３４によって検出されたその顔を正規化する（ステップＳ２１４）。正規化された顔の実例(example)は図４の図（b）として示されている。次に特徴抽出ユニット３７が認識のために使用される予定のその正規化された顔表現（描写）から特徴を抽出する（ステップＳ２１６）。一実施例においては、この抽出された特徴は離散ウェーブレット変換係数である。認識のために顔検出し正規化し特徴抽出を行うための種々の手法が知られていて、画像処理ユニット３０で使用可能だが、以下に画像処理ユニット３０の学習（トレーニング）段階に関連して、顔の検出／正規化および特徴検出のための特定の具体的手法が説明される。類似性判定ユニット３９は特徴抽出ユニット３７によって抽出された複数の特徴量を受け取り、複数の既存クラスの各々に対してあらかじめ決められた付加ガウスモデルへこれらの特徴量を適用し（ステップＳ２１８）、正規化された顔が複数の既存のクラスの各々に属する尤度を決定する。正規化された顔がどの既存クラスに属するかを決定するために、類似性判定ユニット３９は算出された最も高い尤度値を有するクラスを選択する（ステップＳ２２２）。本発明の原理に従って顔認識のための画像処理構成要素の作用操作の概要を述べてきたが、顔認識用の用いられる付加ガウスモデルの具体的説明が、顔と学習のための付加ガウスモデルを導出するプロセスを含めて以下に示される。

[概要]
本発明の一つの特徴によれば、そのシステムは、様々な照明、表情およびポーズにわたっているモデルに対して単一のビューを生成することができる。システムは、非常に多数の個人の顔からなるトレーニングセットを通じて、ひとりの人の顔の外観におけるばらつきに対して相対的に、人々の間の分離を最大化する特徴について学習する。その特徴は、各特徴の寄与がその識別能力に依存するように付加ガウスモデルに組み込むことができる。付加ガウスモデル（AGM）は、システムに外観におけるクラス内およびクラス間ばらつき（変動）の両方をモデル化させ、たった一つあるいは少数の実例から、種々のポーズ、表情および照明を有している各個人に関するモデルを作り出すために用いられる。認識のためにAGMを用いることは、各顔の一つの実例しか用いない認識にたいしてもパワフルな方法であり、一方多数の実例を原理に則ってより正確な顔モデルに組み込んでもよい。このモデルは頑健(robust)で正面および非正面の顔の両方に対して適用出来る。

[付加ガウスモデル]
本発明に従って付加ガウスモデルを明らかにするために、幾つかのクラスからの実例を有する訓練（トレーニング）データセットを考えてみる。顔認識の背景には各クラスはひとりの人に対応し、そのクラスにおける各実例はその人の顔の或るビューである。本発明の一実施例においては、クラス間およびクラス内変動（それぞれ異なる人における外観の差および同一人における異なるビューに対応する）に対するモデルを学習しながら、トレーニング用の実例から識別力のある特徴のセットを抽出し、そしてこれらのモデルを以前には見たことのない人々の実例と組み合わせる。このようにして、このシステムは人のたった一つの実例からさえ、その人の外観における変動（ばらつき）の範囲にわたってのモデルを生成することが出来る。

一実施例においては各々の顔はベクトルとして表現される。しかしながら、多変量ケースを扱う前に、本発明の原理は、各実例は単一の数字で表現されている単純なケースの状況において説明される。

初めに全ての顔セットおよび同一クラスに属する顔セットの両方ともその確立分布はガウス分布であると仮定する。一般的には真ではないけれども、この仮定はしばしば適用可能であり、特に顔に関して学習された識別力のある特徴のセット（後で説明される）に対して適用できる。更に認識問題を取り扱い易いものにし、以前には見たことのない個人に対して一般化することが出来るように、異なるクラスに対応する前記分布が同じ分散をもっていると仮定する。

かくて、そのデータは、全てのクラス内分布が下記単位（unit）分散を持つように、再調整(rescaled)される。

ここで、Nは正規分布でｙはクラス中心である。z = x ( yをそのクラスの中心と実例との差とすることは都合がよく、それから、ｚはｙに対して独立であり（そしてそれゆえｘ＝ｙ＋ｚについても）ゼロ平均(zero mean)と単位分散に関してノーマルである。最後にｘおよびｚはノーマルで独立していると仮定しているので、ｙも同様にガウシアン（Gaussian）である。(²を分散としデータをその平均がゼロとなるようにシフトする。その結果、以下を得る。

ここで、Nは正規分布を表し、ｘはデータサンプルであり（適当にシフトされ調整された（scaled））、ｙはクラス（たとえば顔認識のケースにおける人）を表し、ｚはビュー、すなわちサンプルとクラス中心の間の残差を表す。これを付加ガウスモデルと呼ぶことにする。それは概念的に図５（a）及び図５（b）に図示されている。図５（b）は二つの実例のための付加ガウスモデルの概念を示していて、同じクラスｙのｘ１およびｘ２（たとえば、異なった時刻に、場合によったら数年も離れて、撮られた同じ顔についての二つの画像）で、それぞれは残差成分ｚ１、ｚ２を有する。

図５（a）及び図５（b）に図示されているように、モデル（１）はデータを内容とスタイルに対応した成分に分解する。このアプローチにおいて各実例はクラスラベルとのみ関連付けられ、ビューラベルとは関連付けない。この手法はビューラベルを作成する必要がないし、解釈するためのビューを具体的にモデル化（作成）する（クラスとビューを対称的に処理することが必ずしも認識のためには最適でないけれども）ので、これは好都合である。

以下にどのように付加ガウスモデルが学習されるか、すなわちデータをどのように再調整(rescale)しシフトし、(を見出し、そして各実例ｘをモデル（１）に適合するようにクラスｙとビューｚに分離するか、が以下に説明される。しかし先ず第一に次のセクションでは、AGMが認識のための画像処理ユニット３０によってどのように用いられるかを示す。

[顔分類]
多クラス認識問題を考えてみよう。そこでは画像処理ユニット３０に入力された新規な実例は、M既存クラス（たとえば、各々異なる人に対応する）の一つに割り当てられる必要がある。各クラスに対して確率分布P(x|class)として表されるモデルがあるとされる。それからその新実例ｘを分類するために、類似性判定ユニットが尤度P(x|class₁)，…，P(x|class_M)を計算する。各クラスiは単位（unit）分散と既知の平均y_i,を有する正規分布によってモデル化されると仮定すると、尤度は P(x|class_i) = N(x(y_i, 1)となる。どのクラスにその実例が属するかを決定するために、類似性判定ユニット３９は単純に最も高い尤度を有するクラスを選択する。

しかし実際にはクラスの真の平均は未知である。事実、そのギャラリーにはしばしばクラス当たりたった一つの実例しかないことがあり、それでは平均y_iの正確な推定を与えることが出来ない。しかしながら付加ガウスモデルに関してはこの不確実性はモデルの中に表現されている。

より具体的にはｎ個の実例x_i...x_n.が利用できるクラスを考えてみる。これらの実例は分布N(x(y, 1)から独立に導きだされたものとみなされる。ｙはまだ未知であるが、その事後（確率）分布（posterior distribution）を計算するため推論が実行される。このことは図７において概念的に図示されている。上記モデル（１）によって規定されるAGMによれば、

である。ここでｙの事後確率分布は、平均を｛σ²／（1+ｎσ²）｝Σ_iｘ_i、分散をσ^2/（1+ｎσ²）とするガウス分布であることは容易に理解される。データ点の数ｎが増加するに従って、予想されるように、分散はゼロに近づき、平均値は実例のサンプル平均値に近づく。もしごく少数の実例しか利用できない場合、ｙの条件付分散は増加し、その平均はよりあいまいなゼロに向かって（すなわち全てのデータの中心）シフトする。

もし新しい実例ｘが同一のクラスx₁... x_n,から独立に導かれたものならば、x = y + zここで P(z) = N(z(0,1). 故に、ｘに対する尤度？x₁...x_n の各々と同じ顔を有することを条件とする実例を観測することの確率分布？は

である。もし実例の幾つかのグループが存在し、各々が特定のクラスに対応するなら、その尤度（必要に応じてそのクラス事前分布（priors）によって重み付けされる）を最大化することによって新しい実例に対してどのクラスに最も属しそうかが決定される。

［二つの顔セットの比較］
二つの実例のクラスター(clusters)（各クラスターにおいて全ての実例は同じ人についてであるような）を考えてみる。目標はその二つのクラスターが実際に同じ人物の実例を有しているかどうかを決定することである。

この問題は幾つかの応用例を有する。一つはある個人が誰であるかを述べる照合であり、システム１００はその人物の顔をデータベース（たとえば画像メモリー３２）に保存されている顔と合わせる事によって照合を行う。もう一つは画像の組織化整理である。そこで顔はクラスター当たり一つの顔から始まって小さいセットのクラスターにグループ化され、それからそれらクラスターをその数が十分小さくなるまでクラスター同志を合併してゆく。類似の画像を一緒にクラスター化することによって、たとえば同時係属出願の発明名称“Method and Apparatus for Organizing Digital Media Based on Face Recognition”で本件と同時に出願され、出願の参照による援用（incorporated by reference）がされるているものに述べられているように、画像収集のブラウジングが促進される。仮に二つのクラスターi = 1, 2の各々が一人の人物についてのn_i 個の実例 x_i1,..., x_ini を有するとしよう。システムはそれらクラスターによって表されている二人の人が同一人物かどうかを対数（log）尤度

を計算することによって決定することができる。ここでL₁は二つのクラスターが一致する場合に相当し、L₀は二つのクラスターが一致するかも知れないし一致しないかもしれない一般的な場合に相当する。二つのクラスターが同一の顔を有する事後確率分布はL₁- L₀の単調増加関数であり、それ故もし差L₁- L₀が閾値より大きければ、システムはその二つのクラスターが同一人物を表しているということを決定できる。この閾値はROC（receiver operating characteristic）曲線に沿って、偽陽性と偽陰性とのバランスを取りながら調整される。

L₁とL₀を計算するために、そのクラスター対数尤度は、一人の人物のランダムビューにおいて実例セットを見る対数確率：

であるように定義される。そして二つのクラスターが一致するかどうかを決定するために計算された値は

である。
ここで

である事実を利用して

を計算する。ここで、ｓ＝ｘ₁+…+ｘ_n ａｎｄｑ＝ｘ² ₁+…+ｘ² _nについて対数をとるとクラスター対数尤度は数１０式のように表される。

これを方程式（３）に代入し二つのクラスターが一致するかを決定する。ｑは方程式（３）においてキャンセルされるので実際は計算する必要はない。

クラスターマッチング（一致）は、上述したどの既存クラスターに新規な実例を割り当てるかを決定するための方法を導き出す一つの代替的方法である。既存クラスターの各々は方程式（３）を使って新規な実例を有するクラスターに一致させられ、その実例はL₁- L₀の値が最大になるクラスターに割り当てられる。加えて、もしL₁- L₀の最大値があまりに小さい場合にはその実例を外れ値（outlier）に割り当てることが出来る。

画像の組織化整理のためには、方程式（３）は集積的なクラスター化（agglomerative clustering）において用いられ、そこでは当初クラスター当たり一つの画像があり、それから一対のクラスターを連続的に合併する操作が実行される。もし目標が顔セットの尤度を最大化するクラスターのセットを見つけることであり、欲張り法がそのために用いられるのなら、各ステップで合併されるクラスター対は差L₁- L₀が最大化されているものの筈である。合併はL₁- L₀があまりに小さいかあるいは望ましい数のクラスターが得られたときに完了する。

全ての画像のセットがグループにクラスター化され得るように（おそらくブラウズィングやラベリング（browsing and labeling）を促進するため）、このことは特定の個人としてラベルのつけられた顔セットに対してもなされる。このことは上述した集積的クラスター化（agglomerative clustering）を用いてなされる。期待値最大化（Expectation Maximization (EM)）のような他の方法もクラスター化のために用いることが出来るが、その最終結果は同一人物の顔のグループへの分離である。これは混合モデル（mixture model）を招来する。すなわち特定個人に対するその確率分布は全てのラベル付けされた顔に基づいた単一（ガウシアン）モデルではなく、各クラスターに対する分離ガウスモデルを有する混合モデルである。この混合モデルに対して顔のスコアー（score）(あるいは確率)を計算するため、各混合成分に対して類似性スコアーが算出され、そして単一スコアーを得るために結合される。これを実行するための最も単純な方法は最大値をとることによってなされる。

たとえばある人の５歳のときの幾つかの顔と１０歳の時の幾つかの顔を考えてみる。二つのグループへのクラスター化はそれら年齢の異なる顔を分離するかもしれない。上述した方法を用いて各クラスターからガウスモデルが計算される。残りの顔をソート（sort）するため、両方のモデルに対して各顔のスコアーを計算し、二つのうちの最大値をとることが可能で、その結果としてのスコアーはソートするために用いられる。

［モデルパラメーターの学習］
今までは実例ｘは、x = y + zここでP（y）=Ｎ（y|0,σ²）andＰ（z）−Ｎ（0,1）として表される仮定されてきた。このような表現は一般性を失うことにはならない、なぜならそのデータは必要に応じてｙおよびzがゼロ平均を持つようにシフトされ、そしてそのデータはｚが単一の分散を持つように調整される(scaled)からである。しかしながらこれを行うためには各実例ｘは、x = y + z,となるように、クラス変数ｙとビュー変数ｚに分離されなければならない。

i番目のクラスにn_i 個の実例ｘ_i1…ｘ_in1を有するk 個のクラスからの実例のセットを考えてみる。システムは、クラスター中心y₁…y_k.という変数を欠いている尤度最大化問題を解くことが出来る。このシステムは、欠けている変数と同様に平均ｍ、分散u、およびvを決定しなければならず、それが完全尤度

を最大にする。この完全データ尤度を欠けている変数[y_i] とパラメーターm, u, vの両方にわたって最適化する必要がある以上、期待値最大化方法を用いることは当然のことであり、それはたとえば C. Bishop, Neural networks for pattern recognition, Oxford University Press, 1995, に記載されていて、これは参照による援用（incorporated by reference）がされる。

期待値（E）ステップにおいて、システムは完全データ尤度（４）から、データ[x_ij]と、パラメータm, u, vの現在の推定値を条件としての欠けている変数y₁… ykを導き出す。y_iの暫定的分布はガウシアンであり、次の平均と分散を有する。

このEステップを完成するために、期待される完全対数尤度が暫定的分布

に関して計算される。ここで簡単のため定数付加項は省略されている。

最大化（M）ステップにおいて、期待される完全対数尤度を最大化するm, u, v の値が、対応する導関数をゼロとすることで見出される。この結果

となる。

このEステップとMステップの間で繰り返すことによりm, u, v の値は収束する。最終的に各実例ｘは、それによって所望の付加モデル（１）を完成する数１５式で置き換えられる。

[多変量の場合]
実際には、顔や他の対象物は一つより多い数字によって表現されるだろう。今までの解析は一変量の場合を取り扱ってきたが、多次元に一般化される必要がある。この問題は変数独立（variable independence）を仮定することによって著しく単純化される。換言すれば各実例はフォーム（x₍₁₎…x_(D)）を有し、ここでDは次元の数で、x_(j) = y_(j) + z_(j),j = 1...D,であり、(y₍₁₎ ... y_(D))はそのクラス（individual）を表し、(z₍₁₎…z_(D))はそのクラス内における対象物のビューを表し、全てのy_(j)とz_(j)は互いに独立である。これらの変数は分布

を持っていて、各変数はそのクラス内分散を１とするように独立して再調整されるが、異なる変数は、より識別力のある変数に相当するより大きなσ_(j)に関して、異なるクラス中心分散σ² _(j)を持っている。この独立性仮定の下では、個々の変数に対応する尤度は単純に掛け合わせることが出来、解析に用いられる他の全ての量は同様に影響される。

たとえば、方程式（２）、それはｎ個の既知の実例として同じクラスに属している新しい実例の尤度を計算するために用いられ、かくて、どの既知の個人にその新しい実例が相当するかを決定する。多変量ケースの場合においては、その新規な実例はベクトルx = (x₍₁₎ ... x_(D)),であり、既知の実例の各々はベクトルx_i = (x_i(1) ...x_i(D)), i = 1...n.である。変数独立の仮定ゆえ、方程式（２）は以下のように多変量の場合に変換される。

［AGMを用いた顔認識システムの実行］
今まで述べてきた付加ガウスモデルにおいては、データは固定した数の独立したおよび略ガウシアンの変数によって表現されることが前提とされてきた。以下のセクションではそのような表現が顔に関して如何に導き出されるかが説明される。この手法は画像処理ユニット３０の各要素に対するトレーニング手順（sequence）を示す図６のフローダイアグラムを参照して説明される。

[顔検出]
画像処理ユニット３０は個々の顔の特徴というよりは、顔全体画像を解析できる。それゆえ二つの顔を比較するに当たり、正規化ユニット３６は、画像中において略同じ位置を占めている二つの顔上の対応する点に関して、それらが同一のサイズとなるように正規化する。最初に、図６のフローダイアグラムを参照するに、画像が入力され（ステップＳ３０２）顔検出ユニット３４がそれら画像から顔を抽出する（ステップＳ３０４Ａ）。そして正規化ユニット３６が孤立分離された顔を受け取り（ステップＳ３０６）、各顔に対して、たとえば学習訓練された（trained）検出器を用いて、顔の特徴点（たとえば目や口の角や中心）を検出する（ステップＳ３０８A）。この正規化ユニット３６は、検出された特徴点を出来るだけその標準の位置に近づけて図示する類似性変換を計算し（ステップＳ３１２）正規化された顔を出力する（ステップＳ３１４）。このような変換（ワープ、“warping“）を各顔に適用することは、顔を正規化するとともにその画像中における対応する画素が同様の顔の特徴点に対応することを確実にする。

一実施例において、顔検出ユニットは、ブースティング（boosting）を用いて学習訓練され（ステップＳ３０４Ｂ）量子化された離散ウェーブレット変換係数を顔を表現するために使用する。顔検出に対するこのような手法は、ブースティングに関して米国出願10/440,173、発明名称“Method and Apparatus for Red-Eye Detection" に記述されているが、これは前記出願の参照による援用（incorporated by reference）がされる。顔の特徴の各々に対して検出器は似たように訓練される（ステップＳ３０８Ｂ）、たとえば学習訓練用顔画像（顔認識モジュールの訓練に用いる画像とは異なる）において手でマークされた顔特徴の位置を中心とする画像パッチのセットからに基づいて訓練される例である。顔における特徴を検出すると（たとえば目や口の角（corners）や中心）、これらの特徴点（ステップＳ３１０）は正規化ユニットによって、回転や平行移動して、出来るだけ標準の位置に近づけて特徴を図示するスケールを最小二乗法的に決定するために用いられる。

このようにして、正規化ユニット３６は顔を、略標準の位置に特徴を有する固定サイズに変換（ワープ、warps）する（ステップＳ３１２）。一実施例において、各顔は32 x 32のグレースケール画像に変換される。幾何学的な正規化に加えて、正規化ユニット３６は、各ピクセルをその周囲のピクセルの標準偏差で除することによって画像コントラストを正規化することができ、このようにして照明の変動による影響を減少する。

顔検出ユニット３４は目、その他を以下のように検出する。初めに学習訓練用実例（ポジおよびネガ）が離散した特徴のセット（たとえば離散ウェーブレット変換係数の組み合わせ）を用いて表される。各特徴に対して顔検出ユニット３４はネガ画像と同じくポジに対してその確率分布（ヒストグラムとして表現されている）を計算し、一つのヒストグラムを他のヒストグラムで除して尤度比の値を有するテーブルを各特徴に対して作成する。

P(feature eye)
P(feature non-eye)
特徴の独立を仮定して（この仮定は事実上は正しくないが、無視し得る）顔検出ユニット３４は全てのDWT基準の特徴を計算し、対応する尤度比を調べ、そしてそれらを一緒に掛け合わせることによって、各候補画像パッチに対して目らしさの程度を計算する。パッチは、結果としてのスコアー（score）が十分高ければ、そのパッチは目であると判断され、また、目サーチが実行された領域においてこのスコアーの最大値が選択される（すなわち、最も高スコアーの位置を選択することによるローカライズがされる）。これはS. Ioffe, Automatic Red-Eye Reduction, In Proc. Int. Conf. Image Processing, 2003,（参照による援用（incorporated by reference）がされる）に記載されている顔検出方法に似ている。

実際には、この方法は、各特徴が各画像パッチに対して評価される必要があり、パッチ当たりの特徴の数は高い（たとえば数千）ので時間がかかる(slow)。この問題を克服するため、顔検出ユニット３４は早期棄却（early rejection）を利用する。訓練用画像を用いて、特徴は、承認率を固定して（たとえば９９％）、各特徴に関してシステムが最大数の非目(non-eye)パッチを棄却することができるように、ソートされる（sorted）。特徴を整理することに加えて、システムは中間閾値のセットを計算し、検出における候補パッチの評価の間に、顔検出ユニット３４は学習中に決定された順番で特徴を良く調べ、対応する尤度比を調べそしてそれらを累積和に加える。各特徴を評価した後、この累積和は対応する閾値（訓練中に決定された）と比較され、その候補は、その和が閾値より下なら、棄却される。

顔の特徴を得ると、正規化ユニット３６はアフィン変換を既知の手法を用いて、顔特徴が間違いのない標準の位置に出来るだけ近いようにマッピング（mapping）しながら計算する。同様にその変換を用いて顔をワーピング（warping）する。この顔表現は多スケールと方向において特徴を捕捉するべきである。一実施例において、正規化された顔画像は特徴抽出ユニット３７に与えられ（ステップＳ３１４）、離散ウェーブレット変換が計算される（ステップＳ３１６）。S. Ioffe, Automatic Red-Eye Reduction, In Proc. Int. Conf. Image Processing, 2003, に開示されている手法は手本になるものであり、副サンプル化される前にその変換の各レベルを記録しながら超完全DWT（over complete DWT）も用いられる。一実施例においては、特徴抽出ユニット３７はハール基底（Haar basis）を用いて３スケールでDWTを計算し、HH成分を切り捨て結果としての特徴は水平および垂直のエッジ強調をする。二つのエッジ方向の各々に対して、最も細かいスケールでの３２×３２マトリックスのレスポンスが得られ、次の２スケールで１６×１６や８×８マトリックスが得られる。加えて、能力は、もし非線形性が導入され各DWT係数cはポジティブおよびネガティブチャンネルｃ₊＝ｍａｘ（ｃ，０）およびｃ_-＝ｍａｘ（ｃ，０）に分離される。そのため、顔は３スケールにおける5376DWT係数、２方向および２チャンネルで表される。

［モデルの学習］
上述してきた多次元付加ガウスモデルは変数独立を仮定していて、その特性は過完全DWTには欠けている。それゆえ、モデル（１）を適用するまえに、システムは独立な特徴を抽出すべきであり、更にはこれらの特徴はクラス間の識別力において出来るだけ良好であるべきである。C. Bishop, Neural networks for pattern recognition, Oxford University Press, 1995,に記載されているような、フィッシャー線形判別（FLD）がこの目的のために用いられる。高いクラス間分散と低いクラス内分散を有する特徴の一次結合が、クラス間およびクラス内共分散マトリックスＳ_bおよびＳ_wを計算し、一般化固有値問題Ｓ_bv = λＳ_wvを解くことによって、見出される。特徴の最適射影は最も高い固有値に対応する固有値ベクトルによって与えられる。

しかしながら、5367次元データを扱いながら、共分散マトリックスを推定するのは困難である。他の問題は、訓練セットに存在するクラス以上の固有値は存在し得ないということである。これらの問題は回避可能で、より良い性能が、線形変換を、特徴の全セットに対してではなく、それらの位置とスケールに従って一緒にグループ化された特徴のブロック（blocks）に対して計算することによって達成される。２１の特徴ブロック（たとえば図４（ｃ）に示されている）の各々に対して、FLD（ステップＳ３１８Ｂ）がベスト５０のDWT係数の一次結合を見出すために使われ（ステップＳ３１８Ａ）、結果としてもたらされる１０５０の射影のうち、最も高い固有値に対応する６００が保存される（ステップＳ３２０）。その結果残っている特徴は、それらの相関を計算し、特徴ヒストグラムを見て、それらが事実ガウシアンで独立であることを示すことによって経験的に解析され、かくて付加ガウスモデルに役立つ。最も高い固有値に対応する６００の特徴の各々は再スケールされ（rescaled）、対応するクラスター中心分散(²が、上記で概略説明された方法を用いて計算される。このようにして、確率分布が各特徴に対して計算される。（ステップＳ３２２）。そして異なる特徴の寄与が上述したように結合される。特徴抽出ユニット３７によって抽出された特徴の数とタイプは様々である。

［顔照合］
上述してきた手法は、たとえば許可されていないのにアクセスしようとする詐欺師を防ぐ方法として、顔照合にも使用できる。人がその人の身分（identity）を述べ提示する時、画像処理装置はその人の顔を身分証明のためギャラリーに保存記憶されている映像と比較し、その人がその人が申し立てている人自身かどうかの決定がなされる。応用次第で、このシステムは偽陽性（誤った承認）あるいは偽陰性（誤った拒否）を許容するようになる。それゆえ照合性能を表す最良の方法は、ROC曲線を持って偽陽性および偽陰性両方の割合を示すことである。その曲線にそって動いて、一致スコアー（match score）（方程式（３））が比較されるところの閾値が変化する。顔照合は図８に概念的に図示されている。図８に示されるように、画像処理ユニット３０は、与えられた実例ｘ１およびｘ２が同一人物に属する可能性の方が高いか（図８（a））あるいは異なる人物に属する可能性のほうが高いか（図８（b））を決定することによって、顔照合を実行する。このことが抽出された特徴の各々に対して独立に決定される。

以上、本発明の詳細な実施態様および実施例が説明されてきたが、本発明の本質と範囲を逸脱することなく種々の変更修正等が可能なことはもちろんである。
本発明の更なる特徴と利点は、添付の図面に沿った以下の詳細な記載を読めば明らかになる。

図１は本発明の実施態様に従った対象物認識又は照合を実行するシステムのブロック図である。図２は本発明の実施態様に従って図１に示されたシステムにおける画像処理ユニットのより詳細な特徴を示すブロック図である。図３は本発明の実施態様に従った確率モデルを用いて顔の分類を実行する操作手順を示すフローダイアグラムである。図４は本発明の具体例に従って顔正規化と特徴抽出を示す。図５（ａ）および図５（ｂ）は本発明の原理に従って認識又は照合のために利用される付加ガウスモデルの概念（対象物の外観をクラス（級）とビュー（view）に対応した成分に分解する）を示す。図６は本発明の実施態様に従って対象物認識又は照合のための特徴を識別判定するためのトレーニング（学習）用操作手順をしめすフローダイアグラムである。図７は本発明の実施態様に従って既存のクラス（級）に対する確率分布の計算の概念図である。図８は本発明の実施態様に従っての対象物照合をしめす概念図である。

Claims

デジタル画像における対象物を自動的に認識又は照合する対象物自動識別照合方法であって、
関心ある対象物を有するデジタル画像データにアクセスするステップと、
前記デジタル画像中の関心ある対象物を検出するステップと、
前記関心ある対象物を正規化して正規化された対象物表現を生成するステップと、
前記正規化された対象物表現から複数の特徴を抽出するステップと、
抽出された特徴の各々を予め決められた付加確率モデルに適用して前記関心ある対象物が既存のクラスに属する尤度を決定するステップと、
を有することを特徴とする対象物自動認識照合方法。
前記予め決められた付加確率モデルは対象物の外観をクラスとビューに対応する成分に分解する付加ガウスモデルである、
ことを特徴とする請求項１記載の対象物自動認識照合方法。
前記尤度に基づいて前記関心ある対象物に対する既存クラスを選択するステップと、
付加確率モデルを前記選択されたクラスに対して前記関心ある対象物の特徴量を用いて再計算するステップと、を更に有する、
ことを特徴とする請求項１記載の対象物自動認識照合方法。
前記関心ある対象物は顔であり、
前記対象物自動認識照合方法は顔認識を実行する、
ことを特徴とする請求項１記載の対象物自動認識照合方法。
前記関心ある対象物は顔であり、
前記対象物自動認識照合方法は前記尤度に基づいて顔照合を実行する、
ことを特徴とする請求項１記載の対象物自動認識照合方法。
前記関心ある対象物は顔であり、
前記関心ある対象物を検出するステップは前記デジタル画像データにおける顔の特徴を検出する、
ことを特徴とする請求項１記載の対象物自動認識照合方法。
前記関心ある対象物を検出するステップは画像領域が顔の特徴には対応してないことを決定する早期棄却を利用する、
ことを特徴とする請求項６記載の対象物自動認識照合方法。
前記関心ある対象物はデジタル写真における顔である、
ことを特徴とする請求項１記載の対象物自動認識照合方法。
前記クラスに属する対象物についての特徴量に基づいて複数のクラスの各々に対して付加確率モデルを生成するステップを更に有する、
ことを特徴とする請求項１記載の対象物自動認識照合方法。
前記特定のクラスに対して付加確率モデルを生成するステップは、検出された関心ある対象物が前記対応するクラスに加えられる度に繰り返される、
ことを特徴とする請求項９記載の対象物自動認識照合方法。
前記付加確率モデルを生成するステップは、多数の付加確率モデルを各クラスアイデンティティに対して生成できるように、単一のクラスに属する実例をクラスター化する、
ことを特徴とする請求項９記載の対象物自動認識照合方法。
前記付加確率モデルを生成するステップは、少なくとも一つの実例特徴量から特徴量平均に対する事後分布を計算する、
ことを特徴とする請求項９記載の対象物自動認識照合方法。
前記付加確率モデルは前記特徴量平均の分散を作成する、
ことを特徴とする請求項１２記載の対象物自動認識照合方法。
前記特徴量平均の前記分散は、より多くの実例が前記対応するクラスに関連付けられるに従ってゼロに近づく、
ことを特徴とする請求項１３記載の対象物自動認識照合方法。
クラス間を区別する独立した特徴のセットを識別する訓練段階を実行するステップを更に有する、
ことを特徴とする請求項１記載の対象物自動認識照合方法。
前記デジタル画像データはデジタル写真を表している、
ことを特徴とする請求項１記載の対象物自動認識照合方法。
デジタル画像における対象物を自動的に認識あるいは照合する装置であって、
関心ある対象物を有するデジタル画像データにアクセスするためのデジタル画像データ入力部と、
前記デジタル画像データ中の関心ある対象物を検出するための対象物検出器と、
前記関心ある対象物を正規化して正規化された対象物表現を生成するための正規化ユニットと、
前記正規化された対象物表現から複数の特徴を抽出するための特徴抽出ユニットと、
抽出された特徴の各々を予め決められた付加確率モデルに適用して前記関心ある対象物が既存のクラスに属する尤度を決定するための尤度決定ユニットと、
を有することを特徴とする対象物自動認識照合装置。
前記予め決められた付加確率モデルは対象物の外観をクラスとビューに対応する成分に分解する付加ガウスモデルである、
ことを特徴とする請求項１７記載の対象物自動認識照合装置。
前記尤度決定ユニットは、前記尤度に基づいて前記関心ある対象物に対する既存クラスを選択し、および付加確率モデルを前記選択されたクラスに対して前記分類された関心ある対象物の特徴量を用いて再計算する、
ことを特徴とする請求項１７記載の対象物自動認識照合装置。
前記関心ある対象物は顔であり、前記対象物自動認識照合装置は顔認識を実行することであることを特徴とする請求項１７記載の対象物自動認識照合装置。
前記関心ある対象物は顔であり、前記対象物自動認識照合装置は前記尤度に基づいて顔照合を実行することであることを特徴とする請求項１７記載の対象物自動認識照合装置。
前記関心ある対象物は顔であり、前記対象物検出器は前記デジタル画像データにおける顔の特徴を検出する、
ことを特徴とする請求項１７記載の対象物自動認識照合装置。
前記対象物検出器は、画像領域が顔の特徴には対応してないことを決定する早期棄却を利用して関心ある対象物を検出する、
ことを特徴とする請求項２２記載の対象物自動認識照合装置。
前記関心ある対象物はデジタル写真における顔である、
ことを特徴とする請求項１７記載の対象物自動認識照合装置。
前記対象物自動認識照合装置は、前記クラスに属する対象物についての特徴量に基づいて複数のクラスの各々に対して付加確率モデルを生成する、
ことを特徴とする請求項１７記載の対象物自動認識照合装置。
前記対象物自動認識照合装置は、検出された関心ある対象物が前記対応するクラスに加えられる度に特定のクラスに対して付加確率モデルの生成を繰り返す、
ことを特徴とする請求項２５記載の対象物自動認識照合装置。
前記対象物自動認識照合装置は、多数の付加確率モデルを各クラスアイデンティティに対して生成できるように、単一のクラスに属する実例をクラスター化することによって付加確率モデルを生成する、
ことを特徴とする請求項２５記載の対象物自動認識照合装置。
前記対象物自動認識照合装置は、少なくとも一つの実例特徴量から特徴量平均に対する事後分布を計算することによって付加確率モデルを生成する、
ことを特徴とする請求項２５記載の対象物自動認識照合装置。
前記付加確率モデルは前記特徴量平均の分散を作成する、
ことを特徴とする請求項２８記載の対象物自動認識照合装置。
前記特徴量平均の前記分散は、より多くの実例が前記対応するクラスに関連付けられるに従ってゼロに近づく、
ことを特徴とする請求項２９記載の対象物自動認識照合装置。
前記装置は、クラス間を区別する独立した特徴のセットを識別する訓練段階を実行する、
ことを特徴とする請求項１７記載の対象物自動認識照合装置。
前記デジタル画像データはデジタル写真を表している、
ことを特徴とする請求項１７記載の対象物自動認識照合装置。