JP2005149507A

JP2005149507A - テクストンを用いる対象物認識方法及び装置

Info

Publication number: JP2005149507A
Application number: JP2004331174A
Authority: JP
Inventors: King-Hong Leung Thomas; キン‐ホンレオントーマス
Original assignee: Fuji Photo Film Co Ltd
Current assignee: Fujifilm Holdings Corp
Priority date: 2003-11-14
Filing date: 2004-11-15
Publication date: 2005-06-09
Anticipated expiration: 2024-11-15
Also published as: US20050147302A1; US7680330B2; JP4505733B2

Abstract

【課題】ギャラリーに各人の少数の実例を有している場合にも利用できる顔認識アルゴリズムに関する技術を提供することを目的とする。
【解決手段】デジタル画像データにおける対象物を自動的に認識する方法であって、入力されたデジタル画像データにおける関心対象物を検出するステップ（Ｓ３１０）と、正規化関心対象物を得るステップ（Ｓ３２０）と、前記正規化関心対象物のテクストン表現を割り当て付与して第一のテクストンアレイを形成するステップ（Ｓ３３０）と、前記テクストン表現と少なくとも一つの他の対象物についての前以て決定されているテクストン表現の間の類似性を決定するステップ（Ｓ３４０）と、を有する。
【選択図】図３

Description

本出願は、米国仮出願番号60/519、639出願日2003年11月14日の米国特許法119(e)条に基づいての優先権を主張するものである。本出願は、また2003年12月15日に出願された米国出願番号10/734、258および2003年12月15日に出願された米国出願番号10/734、259に関連している。これらの上記出願の全内容は出願のための援用がされる。

本発明はデジタル画像処理、特にデジタル画像における対象物（被写体）を認識および／または照合するための方法および装置に関する。より詳細には本発明はデジタル画像中に現れている対象物の代表的特徴を符号化するオペレーターを用いる対象物認識に関する。

対象物認識は、たとえば画像のアーカイブ（保管）、検索や整理、製造およびセキュリティ（保安・警備）のような広範囲にわたる実用的応用を有するコンピュータ視覚（vision）の領域でますます重要になって来ている。産業上のおよび国家的セキュリティの向上に対する必要性、そしてまた急激に増大しているデジタル写真の普及を考慮すると、顔認識は対象物認識における重要な一分野になりつつある。しかしながら精度の高い顔認識は、外的および内的要因によって変化するイメージング条件(画像化する時の条件)の所為で、しばしば困難になる。外的要因とは照明条件（たとえば逆光か順光かあるいは曇天か晴天の直射光か等）およびカメラポーズ（たとえば正面写真か横向きの写真か）等である。内的要因とは時間の経過に直接起因する変動（たとえば人が歳をとる）あるいは対象物の条件の変化（たとえば顔の表情やアクセサリー類が異なる）等である。パターン認識の分野では、イメージング条件の変化の所為で画像の対象物が見せる変動は、通常クラス内変動と称されている。

クラス内変動を乗り越えて対象物を認識できるアルゴリズムかどうかが、実用的応用において成功するかどうかを決める。顔認識は伝統的に３次元モデルに基づいた手法や特徴に基づいた方法等によって研究されてきた。顔認識システムに共通する特徴は、類似性の尺度(測定)（similarity measure）、すなわち、もし複数の顔が同一人物の顔に属しているものなら、それらは類似していると考えられる、にある。この類似性尺度は２つの顔画像が同一人に属するものであることを照合するために用いられる。この類似性尺度は、２つの顔画像が同一人に属するものであることを照合したり、新たな標本例が所与の顔のどれに最も類似しているかを判定したりすることによって新規な画像を分類するために使用される。

しかしながら、良好な類似性尺度をデザインすることは難しい。たとえば画像空間において直接用いられるユークリッド距離に基づいた簡易な類似性尺度は、概してうまく機能しない。というのは画像がクラス間の変動よりもクラス内の変動により大きく影響を受けるからである。新たな顔標本のアイデンティティについて最良の決定をするためには、理想的なシステムは、その顔およびその環境についてのモデルとしてか、あるいは各顔についての多数のビュー（view）として、各人の顔の外観における可能なばらつきの全てについての表現を有していることになる。もし各人についての多数の実例サンプルがギャラリーで利用できるなら、各人についてのモデルが計算算出でき、新しい顔のビュー（view）を分類することに用いることができる。しかしながら実際にはギャラリーは各人の少数の実例を有しているにすぎない。

本発明は上記問題に鑑みてなされたものであり、クラス内の差に対して相対的にクラス間の差を最大化する画像特徴を抽出でき、ギャラリーに各人の少数の実例を有している場合にも利用できる顔認識アルゴリズムに関する技術を提供することを目的とする。

前記目的を達成するために、本発明は、デジタル写真のようなデジタル画像における顔の自動的認識および／または照合のための方法および装置を対象としている。また、本発明の他の実施態様は、デジタル画像データにおける対象物を自動的に認識する方法であって、入力されたデジタル画像データにおける関心対象物を検出するステップと、正規化関心対象物を得るステップと、前記正規化関心対象物のテクストン表現を割り当て付与して第一のテクストンアレイを形成するステップと、前記テクストン表現と少なくとも一つの他の対象物についての前以て決定されているテクストン表現の間の類似性を決定するステップと、を有する。

本発明に従った他の実施態様においては、デジタル画像データ対象物の自動認識方法は、複数の画像から複数の基準対象物を検出して正規化するステップと、前記複数の正規化基準対象物を形成している画素に基づいて第一の複数のフィルター応答を得るステップと、前記第一の複数フィルター応答に基づいて第一の複数ベクトルを形成するステップと、前記第一の複数ベクトルを複数のグループにクラスター化するステップと、を更に有し、各グループはテクストンラベルを付与される。

本発明に従った他の実施態様においては、デジタル画像データ対象物の自動認識方法は、前記正規化関心対象物を形成する画素に基づいて第二の複数のフィルター応答を得るステップと、前記第二の複数フィルター応答に基づいて第二の複数ベクトルを形成するステップと、前記正規化関心対象物を形成する画素の各々にテクストンラベルを割り当て付与することにより第一のテクストンラベルアレイを作成するステップと、を更に有する。

本発明に従った他の実施態様においては、デジタル画像データ対象物の自動認識方法は、前記複数の正規化基準対象物からのトレーニング用セットに属する画像から複数のテクストンアレイを形成するステップと、前記複数のテクストンアレイから一対のテクストンアレイを選択するステップと、前記一対のテクストンアレイにおける各要素に対して、前記テクストンラベルの一対が同一クラスにあるかどうかを決定するステップと、前記テクストンラベルの一対が同一のクラスにあると決定することに基づいて第一の条件付確率表において要素を１つ増加するステップと、前記テクストンラベルの一対が異なるクラスにあると決定することに基づいて第二の条件付確率表において要素を１つ増加するステップと、前記選択するステップ、前記決定するステップおよび各増加するステップを前記テクストンアレイの全ての一対が処理されるまで繰り返すステップと、前記第一および第二の条件付確率表を正規化するステップと、更に有する。

本発明に従った他の実施態様においては、デジタル画像データ対象物の自動認識方法は、第二のテクストンアレイを形成するためにプローブ画像にテクストンラベルを割り当て付与するステップと、前記第一および第二テクストンアレイにおける各位置に対して、前記正規化関心対象物と前記プローブ画像のテクストン値が同じである第一の確率を前記第一の条件付確率表を用いて決定するステップと、全ての前記第一の確率を掛けることによって全体類似性の確率を決定するステップと、前記第一および第二テクストンアレイにおける各位置に対して、前記正規化関心対象物と前記プローブ画像のテクストン値が異なっている第二の確率を前記第二の条件付確率表を用いて決定するステップと、全ての前記第二の確率を掛けることによって全体非類似性の確率を決定するステップと、前記全体類似性確率と全体非類似性確率を用いて尤度比を計算するステップと、前記正規化関心対象物と前記モデル画像の類似性を前記尤度比を用いて決定するステップと、を更に有する。

本発明に従った他の実施態様においては、デジタル画像データ対象物の自動認識方法は、複数のテクストンアレイを作成するために、テクストンラベルを前記複数の正規化基準対象物に割り当て付与するステップと、前記複数のテクストンアレイをベクトルに変換するステップと、前記ベクトルを用いて線形判別分析を計算して基準ベクトルを形成するステップと、を更に有する。

本発明に従った他の実施態様においては、デジタル画像データ対象物の自動認識方法は、前記第一テクストンアレイを用いて第一のベクトルを生成するステップと、前記第一ベクトルを前記フィッシャーテクストン上へ射影することによって第一射影を決定するステップと、テクストンラベルをプローブ画像へ割り当て付与して第二テクストンアレイを形成するステップと、前記第二テクストンアレイを用いて第二のベクトルを生成するステップと、前記第二ベクトルを前記フィッシャーテクストン上へ射影することによって第二射影を決定するステップと、前記第一および第二射影を用いて前記正規化関心対象物と前記プローブ画像の類似性を決定するステップと、を更に有する。

本発明に従った他の実施態様において、デジタル画像データにおける対象物を自動的に認識するための装置が提示されていて、その装置は、メモリーと機能的処理ユニットに操作可能に接続されていて認識処理を制御するための画像処理制御ユニットを有し、前記機能的処理ユニットは、入力デジタル画像データにおける関心対象物の検出のための対象物検出ユニットと、正規化された関心対象物を得るための正規化ユニットと、第一のテクストンアレイを形成するために正規化された関心対象物のテクストン表現を割り当て付与するためのテクストン生成ユニットと、前記テクストン表現と少なくとも一つの他の対象物についての前以て決定されているテクストン表現の間の類似性を決定するための類似性ユニットと、を有する。

本発明の態様は以下に図面を参照しながらより具体的に説明する。以下に述べられる実施態様の詳細は、顔の認識あるいは照合に関するものであるが、ここにおいて記述される本発明の原理はデジタル画像中に現れている他の異なる対象物にも適用できるものである。

図１は本発明の実施態様に従った対象物認識および／または照合のためのシステムのブロック図を示している。図１におけるシステム１００は下記の構成要素、すなわち、画像入力デバイス１１0、画像処理ユニット１２０、ユーザー入力ユニット１３０、およびディスプレイ１４０を備えている。図１において示される各構成要素の作用（操作）および要素間の機能的な相互作用に関しては、以下の説明から明らかになる。

一実施例においては、画像入力デバイス１１０は、関心対象物（たとえば顔）を含んでいるデジタル写真のようなデジタル画像データを供給するものである。画像入力デバイス１１０はたとえばペーパーやフィルム上に記録された画像をスキャンするスキャナーであり、たとえば、フィルムあるいはペーパーから１フレームずつＲ（赤）、Ｇ（緑）、Ｂ(青)各色の画像情報を光電的に読み取るCCDセンサーを有している。画像入力デバイスとしてはデジタル画像データを供給するものならどのようなものでもよく、たとえばＣＤ−Ｒ、フロッピーディスクその他の記録媒体やネットワーク接続によるもの、および／またはどのようなデジタル画像捕捉デバイス、たとえば画像を直接デジタルの形で取り込むデジタルカメラ等がある。画像処理ユニット１２０は画像入力デバイス１１０からデジタル画像データを受けとり、以下に詳細に説明されるやり方で対象物の認識および／または照合を実行するものである。図１に示す実施態様において、ユーザー入力ユニット１３０はキーボード１３２およびマウス１３４を有している。本発明の実施態様に従った対象物の認識および／または照合を実行することに加えて、画像処理ユニット１２０は色／濃度補正、圧縮その他の画像処理機能等当業者に知られている付加機能を実行することができる。

図２は本発明の実施態様に従った画像処理ユニット１２０の一実施例を示すブロック図である。
図２に示されるように、この実施態様における画像処理ユニット１２０は、メモリー２１０、対象物検出ユニット２２０、正規化ユニット２３０、テクストン処理ユニット２４０、類似性決定ユニット２５０、および画像処理コントロールユニット２６０を有している。この図２の種々の構成要素は一つ一つ分離した要素として図示されているが、この図示は説明を容易にするためであり、当然のことながら、種々の構成要素のある幾つかの作用操作は同じ物理的デバイスによって、たとえばパソコンのマイクロプロセッサーによって実行され、あるいは複数の汎用および／または特定目的のプロセッサーに分散実施され得るものである。当業者はまた、示されている各機能ユニットは部分的にまたは全面的にソフトウエアー、ハードウエアーおよび／またはファームウエアー、あるいはそれらのいかなる組合せによっても実行されることを理解するだろう。画像処理ユニット１２０の複数構成要素の作用操作は、以下の図を参照して説明される。

画像処理ユニット１２０の作用操作は一般に2段階に分割される、すなわち（１）トレーニングおよび（２）自動的対象物認識および／または照合に分けられる。トレーニング段階は予めオフラインで、あるいは認識および照合プロセスの間で実行される。トレーニングは更に２つの段階、(i)一般的なテクストンボキャブラリーの生成段階および(ii)類似性尺度（similarity measure）を定式化する段階である。一般的テクストンボキャブラリーは基準とする関心対象物のトレーニング用データベースから生成される。この一般的テクストンボキャブラリーは画像条件の変化による対象物の外観における変動ばらつきを符号化し、関心対象物の全ての事例に適用できる。このトレーニングプロセスの間に類似性尺度が学習される。既知のアイデンティティを有する対象物のデータベースを用いることで、異なる対象物を区別できる特徴について学習がなされる。同時に、イメージング条件の変化の所為で生ずる特徴（クラス内変動）も同様に学習される。これら二組の学習された特徴を用いて、類似性尺度は、二つの画像が同一の対象物から来ているものか否かを、自動的な対象物認識および／または照合の段階において区別することが出来る。この段階の間に、(i)一般的テクストンボキャブラリーからのテクストンが関心対象物に与えられ、そして(ii)二つの画像が同一人物に属するかどうかが決定される。

［概要］
種々の異なる条件下での多数の対象物を見た後で、人間は対象物がその外観をどのように変化させるかということについての暗黙の内的モデルを構築することが出来る。この内的モデルを用いて、人間は新たな条件の下で対象物がどのように見える（外観）かを想像することが出来る。たとえば人間は一つの正面像をみただけでも、次に横からその人を見て容易に認識することが出来る。また、たとえば人間はかなり長年月会わなかった場合でも友人を認識することができる。本発明の幾つかの実施態様は、種々のイメージング条件下における対象物、特に顔の認識能力についてスポットを当てている。これらの実施態様は人間の視覚に大まかに似ているアルゴリズムモデルを用いることが出来る。すなわち、異なるイメージング条件下で対象物の外観がどのように変化するかを予測するモデル構築するために、アルゴリズムフレームワークが用いられる。一実施態様においてはこの課題を実現するために、テクストン相関モデル（Texton Correlation Model）が用いられる。テクストンは対象物の別々の（離散した）代表的な局部的特徴の集合（セット）である。テクストン相関モデルは、イメージング条件が変化するときにどのようにテクストンが変化するかを効率的に符号化する。一旦これらの変化が考慮されると、イメージング条件に対してセンシティブでない画像の間の類似性尺度が実行できる。このテクストン相関モデルを用いることで、たった一つの人の顔から、広範囲にわたる照明やポーズや、あるいはまた何年も歳を取ったあとにおける顔を認識することが出来る。別の実施態様ではフィッシャーテクストンモデルを用いる。フィッシャーテクストンモデルは、同一個人の顔画像から別の個人の顔画像を最も良く判別する線形ベクトルのセットを算出するために、線形判別分析（Linear Discriminant Analysis）を利用する。テクストン相関モデルに似て、フィッシャーテクストンモデルは、広範囲にわたる照明やポーズや年齢の変化を乗り越えて顔を認識するために用いられる。

図３は対象物認識および／または照合についての基本的なフローダイアグラムを示す。説明を簡単にするために、関心対象物は顔とするが、もちろん発明の実施態様が顔対象物に限られるわけではなく、他の対象物の使用は本発明の態様として適用可能である。

最初に少なくとも一つの顔を有する入力画像が画像処理コントロールユニット２６０に与えられる（ステップＳ３０５）。この入力画像はメモリー２１０あるいは直接に画像入力デバイス１１０から与えられる。次に対象物検出ユニット２２０は入力デジタル画像中の顔を検出するためにデジタル画像データを受け取る（ステップＳ３１０）。顔は訓練された顔検出器を用いて自動的に抽出される。この顔検出器は関心対象物が顔であるかどうかを決定する分類器（classifier）である。この分類器によって使用される特徴はウェーブレット係数あるいはボックスフィルター出力(box filter outputs)である。この分類器は増強カスケード分類器(boosted cascade of classifier) あるいは神経回路網（neural network）を用いて訓練（トレーニング）される。同様の方法の詳細については、 S. Loffe、 Automatic Red-Eye Reduction、 Proc. Int. Conf. Image Processing、 2003に記載されていて、出願のための援用（incorporated herein by reference）がされる。

正規化ユニット２３０は対象物検出ユニット２２０によって検出された顔を正規化する(ステップＳ３２０)。この正規化プロセスは、各々の顔において、サイズおよび／または面内回転に対して正規化するために、たとえば目とか口の角とかの特徴を決定するステップを有する。各顔はその後のテクストンの計算の効率的な処理を円滑にするため、標準の画素数（たとえば３０×３０画素）にリサンプリングされる。他の正規化ステップは他のイメージング変動（たとえば照明の違い）に対処するために実行される。

そして、テクストン処理ユニット２４０は正規化された顔のテクストン表現を決定し、それは頻繁に生ずる顔の顕著な特徴の抽出を可能にする（ステップＳ３３０）。ここで用いられているように、テクストンはフィルター出力の共起（性）（co-occurrences）として定義されるが、以下でより詳細に説明される。ステップＳ３３０で、正規化された顔は原則的にテクストン表現に写像される（mapped）。この写像（mapping）を完遂するため一般的テクストンボキャブラリーが利用されるが、後述されるようにそれはテクストン生成トレーニング５００の間に決定される。上述したように、テクストン生成トレーニング５００は予めオフラインで決定されるか、あるいはステップＳ３３０より前の認識プロセスの間に決定される。テクストン処理の詳細（トレーニングおよび割り当て付与の両方））は後述される。

一旦顔のテクストン表現が生成されると、類似性処理が類似性決定ユニット２５０によって実行され、その顔のテクストン表現と他の対象物の基準テクストンが比較される(ステップＳ３４０)。このタスクを完遂するために類似性尺度トレーニングが実行され、類似性尺度を定式化するために他の対象物に関する一般的テクストンボキャブラリーを利用する。もし顔照合が実行される予定なら、他の対象物の基準テクストンは異なるイメージング条件下における同一の顔を表すことになる（すなわち類似性処理はクラス内での差異を有する対象物に関して成される）。ここにおいて用いられるように、顔照合は、既知の対象のアイデンティティをその対象の従来の基準(参照)画像に基づいて自動的に確立する。もし顔認識が実行される予定なら、他の対象物の基準テクストンは、種々の異なるイメージング条件における同一の顔および／または他の顔を表すことになる。ここで用いられているように、顔認識は未知の対象を同一および他の顔対象物との比較を通して特定する（すなわち類似性処理はクラス内およびクラス間両方の差異を有する対象物に関して成される。）。一実施態様において、類似性決定ユニット２５０はテクストン相関モデルを利用している。他の実施態様では、フィッシャーテクストンが類似性決定ユニット２５０によって用いられる。テクストン相関モデルとフィッシャーテクストンについて以下に詳細が説明される。

[テクストン生成]
テクストンは学習によって得られたフィルター出力の共起（性）（co-occurrences）として定義される。特にフィルターはたとえばガウス微分フィルター（Gaussian ｄerivative filter）のような線形畳み込みオペレーターの形をとる。グレイスケール画像処理で用いられるテクストンに対する同様の定義は、 “Representing and Recognizing the Visual Appearance of Materials using three-dimensional Textons、" T. Leung and J. Malik、 Int. J. Computer Vision、 43(1): 5-24、 1195、に記載されており、上記文献は出願のための援用がされる。

テクストンは、実際の対象物から得られるあるいは合成対象物として生成される２次元あるいは３次元面の２次元画像表現についての離散した局部的特性の集合（セット）を符号化する（すなわち、たとえばデジタルカメラのようなセンサーを通じて獲得された画像、あるいは、たとえば警察における犯罪容疑者の合成画像のような人間および／またはコンピュータによって生成される画像）。この離散セット（discrete set）はテクストンボキャブラリーと称され、離散セットの各要素は個々のテクストンである。関心対象物を形成する各画素はテクストンボキャブラリーの中の要素に写像される。たとえば関心対象物が顔の場合、或るテクストンは目の外観を符号化し、一方、他は口の角の外観を符号化する。他の対象物たとえば具体的構造物の場合、テクストンは、バー(bar)、リッジ(ridge)あるいはシャドーエッジ（shadow edge）画像特性を符号化する。このようにクラス特定のテクストンボキャブラリーの形成しながら、テクストンは、特定の個人あるいは構造物タイプのような対象物の単一のクラスから学習によって得られ、あるいはより広範なテクストンボキャブラリーを形成しながら、テクストンは異なるクラスを集めることから形成される。

テクストン表現は、イメージング条件の変動による画像における変化を簡単に特徴付ける利点がある。たとえば、仮に人がその顔の表情を微笑みからしかめっ面に変えた場合、口の角を表しているテクストンは変化する。他の例として、照明の角度が正面方向から斜めの角度方向へ移動する場合、特定の面のテクストン要素は別のテクストンに変わる。異なるイメージング条件においてテクストンがどのように変化するかを知ることによって、かなりの範囲にわたって異なる条件下で収集された画像化対象物を認識および／または照合するという困難な問題が対処し得ることになる。テクストンの生成は(i)トレーニング段階および(ii)付与段階の２段階を有する。トレーニング段階ではテクストンのセットがトレーニングデータベースから作成され、次の認識および／または照合処理で用いられるテクストンボキャブラリーを形成する。付与段階では画像のテクストン表現が前記テクストンボキャブラリーを用いて生成される。トレーニング段階および付与段階の詳細は以下で説明される。

図４は本発明の実施態様に従ったテクストン生成のトレーニング段階の基本についての説明図である。この図において、どのように一般的テクストンボキャブラリーがトレーニングデータから得られるかが示されている。この段階の間、フィルターリングがトレーニング用実例のデータベースに適用される、その結果としてのフィルター応答はＫ個の異なるグループにクラスター化される。このプロセスは、複数Z個の、正規化された基準対象物４１０の表現を含む基準画像から始まり、それらは正規化された対象画像６１０に対する比較の基礎として用いられることになる。Ｚ個の正規化された基準対象物画像４１０の各々はＭ×Ｎ画素を有している（すなわちＭ行画素×Ｎ列画素）。ＭおよびＮに対する値は、画像の忠実度を維持しながら処理スピードを最大にするように選ばれる。このＭおよびＮに対する実際の値は、たとえばＭ＝３０、Ｎ＝３０である。1つの使用できる正規化プロセスの詳細について以上述べてきたが、しかしながら当業者ならば、関心対象物を有している画像と比較される対象物が、その後のテクストンの生成および認識／照合処理に先立って一貫した矛盾のない特性を有する限り、他の正規化プロセスも利用できることを理解するだろう。

正規化された基準対象物画像４１０の各々はそれから複数のフィルターによってフィルターされ、フィルターの数はIによって表され、Iフィルター応答４２０azをＺ個の正規
化された基準対象物画像の各々について形成する。各フィルター応答４２０azはおよそＭ×Ｎ画素を有する画像である。フィルター応答４２０azにおける画素数は正規化された対象画像４１０における画素数とはフィルターオーバーハングの所為で多少異なる。フィルター応答４２０azを形成するために使用されるフィルターの詳細は図５に関連して説明される。

フィルターリング操作の後、Iフィルター応答４２０azを有するデータは複数のフィルター応答ベクトルに再配列される。これでＺ個の正規化された基準対象物画像の各々に対しておよそＭ×Ｎのフィルター応答ベクトルがある。各フィルター応答ベクトル４２１a1 ‐４２１z(M*N) はIの長さを有し、それぞれの正規化対象画像４１０における各画素に１対１で対応している。各フィルター応答ベクトルはフィルターのスケールに依存して様々な画素グループからのプーリング(pooling)情報であることがわかる。しかしながらフィルター応答ベクトルは異なる画素グループから生成されている以上異なる画素ごとに変化するので、各フィルター応答ベクトルは各画素に１対１で対応する。

それゆえ、複数の正規化された基準対象物画像４１０の各画像に対して、フィルター応答ベクトルが形成される。たとえば１番目の正規化基準対象物画像（図４で示されているグループ４１０におけるラベル１が付けられている）においては、フィルター応答ベクトル４２１a1 ‐４２１ａ_(M*N)が形成される。Ｚ個の正規化基準対象物画像がそのデータベースにはあって、多数の対象物クラス（その各々が多数の画像を持った）に相当する。顔認識に対しては、そのデータベースは多数の人々を含んでいて、各々が異なるイメージング条件に対応する多数の画像を持っている。全体としてこれらの(Ｍ×Ｎ×Ｚ)個のフィルター応答ベクトルはＫ個の明確に識別可能なグループにクラスター化される。この個々のグループのそれぞれをテクストンと称し、正規化対象物画像データベースにおけるプロトタイプ的特徴の標本である。このテクストンの全体は、集団でテクストンボキャブラリー４４０と称する。このテクストンボキャブラリー４４０が多数のクラスを含むデータベースから得られるとき、一般的テクストンボキャブラリーと呼ばれる。この一般的テクストンボキャブラリーは関心対象物のいかなる画像の特徴も表すことが出来る。顔に関していえば、一般的テクストンボキャブラリーはどのような人に対しても、その人がトレーニングデータベースの中にあろうとなかろうと、良好な表現を提供する。テクストンボキャブラリー４４０における各テクストンはラベルを付けられ、テクストンラベル４４１a-４４１Kと呼ばれ、各テクストンを一意的に特定するためのものである。フィルター応答ベクトル４２１a1 ４２１z(M*N) はそれら相互の類似性に基づいてクラスター化され、フィルター応答ベクトルは一つのテクストンにのみ付与される。たとえば図４に示すように、テクストンラベル１(４４１a)を付与されているテクストンは５つの識別可能なフィルター応答を有していて、それらは正規化された基準対象物画像４１０における特定のユニークな特徴を表している。クラスター化は当業者に知られている適当なクラスター化アルゴリズム、たとえばＫ‐ミーンズ（K-means）アルゴリズム（詳細は後述）によって行われる。ここではＫで表されているテクストンボキャブラリー４４０におけるテクストンの数は、関心対象物の複雑さに基づいて選ばれるが、目的と応用によって変化したり一定だったりする。テクストンボキャブラリーの生成はトレーニング段階で実行されるが、事前にも実行できるし、あるいは連続的に増加してゆくプロセスであっても良い。

図５はトレーニングにおけるテクストン生成プロセスをより詳細に示すフローダイアグラムである。このプロセスはトレーニング用データベースである正規化された基準対象物データベース５１０を使っていて、複数の正規化基準対象物画像４１０で構成されている。正規化基準対象物画像４１０は、図３および上述のステップＳ３１０およびＳ３２０と同様のプロセスを通して抽出され正規化された対象物を有している関心対象物を含む画像から生成される。データベース５１０からの最初の正規化対象物画像は複数の別々のフィルターを用いテクストン処理ユニット２４０を用いてＩ回フィルターされる。これらのフィルターは当業者に知られているどのようなタイプのフィルターでも良い。本発明の一実施態様によれば、これらのフィルターは畳み込み方法（convolutional methods）を用いて正規化基準対象物画像４１０の各々に適用される線形フィルターである。特定のフィルターを選択することはそれほど重要な問題ではなく、実施の容易さと計算効率から選定することが出来る。更なる効率は分離型のフィルターを選択する事で得られる。

一実施態様において、テクストン処理ユニット２４０は複数のガウス微分フィルターを使っている。これらのフィルターは循環対称ガウスフィルター（circular symmetric Gaussian filter）の分離可能な水平および垂直導関数として表現される。数学的にはこれらのフィルターは下記の方程式によって表される。ここでＦ_VおよびＦ_Hは分離可能な垂直および水平微分フィルターであり、それぞれｘおよびｙは画素位置を、(はフィルターのスケールファクターを表す。

どのような数の異なるフィルタースケーリング（filter scalings）も使用可能で、言い換えると、フィルターリング操作において使用されるフィルターの全数に影響を与える。たとえば４つの異なるサイズのスケーリングが使用され、それは８つの異なるフィルターを使うことになる（すなわちI＝８）。

テクストン処理ユニット２４０によって実行される多数のフィルターリング操作は、フィルターされた画像４２０の数（I）を決定する。フィルターリングの後で、そのI回フィルターされた画像はテクストン処理ユニット２４０によって複数(M*N)のフィルター応答ベクトルに再配列され、その各々は長さIを有する（ステップＳ５３０）。このプロセスは、トレーニング用データベース５１０の全ての正規化基準対象物画像がフィルターされるまで繰り返される（ステップＳ５４０）。

図５において、テクストン処理ユニット２４０はそれから全ての（Ｍ＊Ｎ＊Ｚ）個のフィルター応答ベクトル４２１a1 -４２１z(M*N) を個々のＫ個のテクストンにクラスター化して、テクストンボキャブラリー４４０を形成する（ステップＳ５５０）。このクラスター化はＫ-ミーンズ（K-means）クラスター化アルゴリズムによって行われる。Ｋ-ミーンズ・クラスター化アルゴリズムは特定の数Ｋ個の、重複しないばらばらで非階層的なグループを生成する。このＫの値は関心対象物の複雑さ程度によって決定される。それはまた計算効率上の要請あるいはユーザーの選択によっても決められる。Ｋ-ミーンズ・アルゴリズムは典型的な繰り返し数値計算アルゴリズムで、"Pattern Classification、" R. Duda、 P. Hart and D. Stork、 Wiley 2001に記載されており、前記文献は出願のための援用がされる。当業者は、テクストン処理ユニット２４０が他の知られているクラスター化アルゴリズムもステップＳ５５０で使用できることは理解するであろう。

図６はテクストン生成のテクストン付与段階の基本を表している説明図である。(Ｎ＊Ｍ＊Ｚ)個のフィルター応答ベクトル４２１a₁ ４２１z_(M*N) がテクストンボキャブラリー４４０を形成するためにテクストンにクラスター化された後で、テクストンラベル４４１a-Kがどの正規化された関心対象物画像にも付与され、Ｍ×Ｎのテクストンラベルのアレイに配列される。

正規化された関心対象物画像６１０は、入力画像から最初に関心対象物を抽出し次いでその画像を正規化することによって得られる。抽出と正規化は、図３に示すようなステップＳ３１０およびＳ３２０において既述されたと同様の手法を用いて、対象物検出ユニット２２０および正規化ユニット２３０によって実行される。正規化された関心対象物画像６１０はそれからＩ回フィルターされＩ個のフィルター応答画像６２０を形成する。このフィルター応答画像６２０は、図４に対して説明されたと同様の方法を用いて、Ｍ＊Ｎ個のフィルター応答ベクトル６２１a-６２１(M*N)に再配列される。そしてこのフィルター応答ベクトル６２１a-６２１(M*N)はテクストンアレイ６３０へ割り当て付与される。テクストンラベルアレイ６３０における位置は正規化された対象物画像６１０における画素に直接対応している。各画素に対応する値は、テクストンボキャブラリー４４０におけるどのテクストンが最も良くその画素の局部的表面特性（local surface characteristics ）を記述しているかによって１からＫが付けられる。従って、テクストンラベルアレイはＭ×Ｎ画像であり、そこでは各画素はテクストン・アレイ６３０における各テクストンを特定する整数値を持っている。

図７は本発明の実施態様に従ったテクストン生成のテクストン割り当て付与段階に対するプロセスフロー図である。正規化関心対象物画像６１０はテクストン処理ユニット２４０によってフィルターされる（ステップＳ７１０）。このフィルターリングは通常は図５で上述されたように同様のやり方で同じフィルターを使って実行される。テクストン処理ユニット２４０はそれからフィルター応答画像６２０を図５におけるのと同様のやり方でフィルター応答ベクトル６２１a-６２１(M*N)へと再配列する（ステップＳ７２０）。ステップＳ７３０では、テクストン処理ユニット２４０は、正規化された関心対象物画像６１０における各画素に１対１で関連づけられたフィルター応答ベクトル６２１a-６２１(M*N)を、テクストンボキャブラリー４４０内の最も近いテクストンに写像する。この写像(mapping)はどのテクストンがフィルター応答ベクトル間のユークリッド距離を最小にするかを決定することによって完遂される。当業者に既知の他の距離測定基準も使用できる。テクストン処理ユニット２４０はそして写像されたテクストンの各々に対応するテクストンラベルを、テクストンアレイ６３０を作り上げつつそれぞれの画素位置に割り当て付与する（ステップＳ７３０）。

[類似性の決定]
一旦テクストンが正規化された関心対象物４１０に対し生成されると、それらの類似性が他のクラス間あるいはクラス内関心対象物についての他のテクストンと比較される。このタスクは、２つの関心画像を与えられてそれらが同一対象物に属するか否かを決定するということになる。顔の認識および照合の問題においては、このタスクは２つの顔画像が同一人物に属するかどうかを決定することである。本発明の実施態様に従って２つのアプローチ、ここで言うテクストン相関モデルおよびフィッシャーテクストンについて、以下詳細に説明される。しかしながら当業者は対象物の認識および／または照合を実行するために、他の手法が画像化された(imaged)対象物のテクストン表現と関連して使用することができることは理解するであろう。

[テクストン相関モデル]
異なる条件下で画像化された対象物の比較を行う一つのアプローチは、変化するイメージング（画像化）条件の結果として生ずるテクストン変化を表現できるモデルを開発することである。そのようなモデルは対象物クラス内、すなわち、たとえば照明とかポーズとかその他の変化、での認識および／または照合を可能にする。テクストン相関モデルは確率的アプローチであり、それは種々の変化するイメージング条件下で対象物がその外観をどのように変化させるかを決定し、種々の条件下、たとえば広範囲にわたる照明、ポーズおよび何年もの年月経過、での人の単一の画像から顔を認識する。テクストン相関モデルには２つの異なる段階がある。最初の段階はトレーニングとみなされ、２つ目の段階は認識とみなされる。トレーニング段階では、２つの条件付確率表が対象物画像に関するデータベースから学習によって得られる。顔の認識と照合の場合、このデータベースは異なる人々の顔画像を有する。学習によって得られたこれらの確率表は、関心対象物の他の事例に対して適用される。顔に関しては、これらの確率表は２つの顔画像がどの位類似しているかを教え、どの位の確かさでそれらが同一人物から来ているかに関する類似性尺度を与える。認識段階においては、この確率表は２つの識別可能な画像に含まれる対象物表現は同じ対象物によって作られていたという尤度（確からしさ）を決定するために用いられる。

図８はテクストン相関モデルにおける確率表を学習する（学習によって得る）基本についての説明図である（すなわちトレーニング段階）。テクストン相関モデルは対象物クラス内においては全ての事例に対して通用する固有の変動を学習する。顔認識との関連においては、その固有の変動は、適切に正規化された顔画像の大きな集合（グループ）から学習される。顔画像は正規化された基準対象物データベース５１０に含まれている。データベース５１０は大きな基準対象物のセットを有していて、各々は種々の関心の範囲にわたって画像化されている。顔の場合、このデータベースは、異なる照明条件やポーズや年齢や顔の表情その他を有する多数の画像付きで、異なる人々の大きなセットを持っている。これら対象物のアイデンティティ（たとえば特定の人のような）は通常知られている。一人の人における固有の変動と個々人の間における差異は単一のモデル８１０において捕捉される。モデル８１０は本質的に２つのこと、すなわち（１）対象物クラス内で生ずる異なる変動に対してどのようにテクストンは変化するか、および（２）２つのクラス間でどのようにテクストンは変化するか、を予測する。一旦これらの変化について学習がなされると、それらは新規な対象のグループに対しても適用できるようになり、モデル化されたクラス内の変動を乗り越えて、関心対象の単一の画像から認識が実現されることになる。より具体的には、２つの顔画像が与えられたとして、それらが同じ人から来ている尤度と二人の異なる人から来ている尤度とを予測する。これら２つの尤度の比較によって２つの写真の人たちは同一人物か否か知ることが出来る。

以下のセクションはこのモデルがどのように生成されるかが本発明の実施例に従って説明される。Ｍを関心対象物の正規化対象物画像（すなわち“モデル”）とする、たとえばＭは顔認識のために認識するある個人の顔である。Ｉを、入ってくるすでに正規化された対象物画像（すなわち“プローブ”(probe)）とする。顔認識のタスクは、ＩはＭと同じ対象物かどうかを決定することである。

TMは対象物Ｍに対するテクストン割り当て付与を表し、TIは対象物Ｉに対するテクストン割り当て付与を表す。Psame(TI|TM)はＩがモデル対象物Ｍと同じ対象物である確率であり、Pdiff(TI|TM)はＩがモデル対象物Mとは異なる対象物であることを示す確率である。それらが同じ対象物であるかどうかを決定するために使われる尤度比は次のように定義される。

尤度比は画像とモデルの間の類似性尺度として用いられる。これはその顔がモデルに一致するかどうかを決めるために、あるいは分類法として、入ってくる画像を最も高い尤度比スコアーL を有するクラスへ割り当てるために、L(TI|TM)に対する閾値を確立することによって実現される。

尤度比を計算するために、 Psame(TI|TM) および Pdiff(TI|TM) が決定される。これら２つの関数は対象物のトレーニング用データベースから学習される。テクストンラベルは位置に関して独立であるという仮定が計算を下記のように単純化するためになされる。

ここで“ｘ”はテクストンアレイにおける各画素位置を表す。

テクストンの離散的性質は、たとえばガウス分布を仮定するような単純化を行うことなしに、上記の確立が決定されることを可能にする。TI(x)はテクストンボキャブラリーの要素であり、スカラー量である。すなわちTI(x)( [1. . . K]. テクストンボキャブラリーは一般的で全ての対象物に対して適用できることを想起してみる。これは同様にTM(x)([1、 … K] であることを意味する。テクストンボキャブラリーのサイズがＫであることを考慮すると、Psame(TI(x)|TM(x)) および Pdiff(TI(x)|TM(x)) は各々完全にＫ×Ｋの条件付確率表として表現できる。これら両方の確率表は以下において、条件付テクストン分布モデルと称し、それらは正規化基準対象物データベース５１０に含まれるトレーニング用データを通じて完全に学習される。この表の計算の詳細は以下に説明される。

トレーニングセット（正規化基準対象物データベース５１０に含まれている全ての画像あるいはその幾つかのサブセット）で複数の正規化された対象物を有するものをTとする。CMをMとして同じクラスに属する全てのトレーニング用データのセットとする。a、b ( [1、 . . . 、 K) をボキャブラリーにおける２つのテクストン要素とする。Ｋ×Ｋの確率表における項目（entries）は以下のように累積される。（x 依存性が表記を単純化するために間接的に暗示されていることに留意）

Z１およびZ2は確率Psame およびPdiffを構成するための正規化定数である。関数1(a、c、CM)(もしTI=a、TM=b、I(CM ならば（TI、TM、I)=１であり、それ以外の場合は０である。もしTI=a、TM=b、I( CMならば(a、c、CM)(TI、TM、I)=１であり、それ以外の場合は０である。換言すれば、Psame(TI=a|TM=b)の意味するところは、各画素位置"x"において、我々は同一人物に属するデータベースにおける顔画像ＩおよびＭの全ての一対（ペア）に対して、テクストンaがTIにおいて生じる回数およびテクストンbがTMにおいて生ずる回数をカウントすること、である。同様にPdiff(TI=a|TM=b)は顔画像ＩおよびＭが二人の異なる人々に属する時のカウントを指す。

これら２つの条件付確率表は、正規化基準対象物データベース５１０からのトレーニング用セットから学習して得られる。しかしながらそれらはデータベース内およびデータベース外のどの一対に対しても適用できる。それらは種々のイメージング条件下での一対の同一あるいは異なる対象物の間で生ずる固有変動を表している。これら２つの学習して得られた条件付確率表を尤度比L(TI|TM)に適用することによって、いかなるモデルといかなる入ってくる画像との間の類似性も計算できる。

トレーニング用セットはこれら２つの確率表を学習するのに使用される。一旦学習されると、そのトレーニングセットは不要となる。これら２つの確率表は一回だけ、大抵はオフラインで学習される。実際の顔認識および照合の間は、モデル画像とプローブ画像に対するテクストンラベルのみが計算される。どの画像（モデルあるいはプローブ）に対しても、それは先ず最初にフィルターセットを用いてフィルターされる。各画素はフィルター応答のベクトルとなる。テクストンラベルは、その画素のフィルター応答とテクストンボキャブラリーのフィルター出力の間のユークリッド距離に基づいて、各フィルター応答に対して割り当て付与される。換言すれば、テクストン付与の後は、各画像（たとえば３０×３０）は３０×３０の整数行列になる。行列における各要素は１からＫのスカラー量である。

図９は本発明の実施態様に従ったテクストン相関モデルのトレーニング段階に対するプロセスフロー図を示す。このプロセスの間、条件付テクストン分布モデルが２つの条件付確率表の形で実現される。トレーニング段階では最初に、複数の正規化された基準対象物画像によって構成されるトレーニング用データベースに含まれる画像を利用する（すなわち正規化基準対象物データベース５１０）。テクストン処理ユニット２４０はテクストンを、正規化基準対象物データベース５１０、あるいはそのサブセットにおける各画像へ割り当て付与し、テクストンアレイを形成する（ステップＳ９１０）。テクストン処理ユニット２４０は上述されたようにテクストン生成の割り当て付与段階における方法を用いることができる。類似性決定ユニット２５０がそれから一対のテクストンアレイを選択する（ステップＳ９２０）。一対のテクストンアレイにおける各位置において、類似性決定ユニット２５０は、既知のアイデンティティ情報を用いて、そのテクストンラベルが同一クラスにあるかどうかをチェックする（ステップＳ９３０）。もしそのテクストンラベルが同一クラスには無い場合には、類似性決定ユニット２５０は条件付確率表Pdiff において比較しながらそのテクストンラベルに対応する要素を１つ増加する（ステップＳ９４０）。もしそのテクストンラベルが同一クラスにある場合には、類似性決定ユニット２５０は条件付確率表Psame におけるそのテクストンラベルに対応する要素が１つ増加される（ステップＳ９５０）。類似性決定ユニット２５０はこのプロセスを、その一対（すなわち“pixels”）内の個々のテクストンの全てが処理されるまでその一対のテクストンアレイに対して繰り返す（ステップＳ９６０）。一旦これが完了すると、類似性決定ユニット２５０は、新しい一対のテクストンアレイを選択し、正規化基準対象物データベースにおける画像から生成される一対のテクストンアレイの全てが処理されるまでこのプロセスを繰り返す（ステップＳ９７０）。この時点で、類似性決定ユニット２５０は条件付確率表における項目（entries）を正規化する（ステップＳ９８０）。

図１０は本発明の実施態様に従ったテクストン相関モデルの認識段階に対するプロセスフロー図であり、２つの顔画像の類似性を決定するために、テクストン相関モデルにおける学習によって得られた条件付確率表がどのように用いられるかを示している。最初にプローブ画像とモデル画像は対応するテクストン表現に写像される（ステップS１０１０およびＳ１０２０）。各画像はいまや整数行列（たとえば３０×３０）に変換され、その各要素はテクストンボキャブラリーの一員である。すなわちTM(x)=a([1、…、K]およびTI(x)=b([1、…、K]ここでKはテクストンボキャブラリーのサイズである。各位置"x"に対し、学習された確率表からPsame(a、b)が読み出される（ステップS１０３０）。画像全体にわたる全体類似性であるPsame、が、個々の値を全ての位置"x"にわたって掛けることにより得られる（ステップＳ１０４０）。

同様に、Pdiffに対して、各位置"x"に対し、Pdiff(a、b)が対応する学習された確率表から読み出される（ステップS１０５０）。画像全体にわたる全体非類似性であるPdiffが、個々の値を全ての位置"x"にわたって掛けることにより得られる（ステップS１０６０）。考慮中の２つの画像が同一の人物から来ている尤度は、２つの尺度をPsame/Pdiff のように割り算することで得られる（ステップＳ１０７０）。

[フィッシャーテクストン]
ここまでで示された条件付テクストン分布モデルは、テクストン割り当て付与は位置について独立しているという仮定をしている。これは通常正確な仮定ではない。たとえば左目と右目の外観は明らかに相互に関連がある。しかしながらこの仮定は尤度比が効率的に計算できることを可能にする。フィッシャーテクストンでは対象物の特徴間の相互関連を無視しない。特にフィッシャーテクストンは２次の相関も考慮する（すなわち位置的な相関は２次項として捉えられる）。しかしながらイメージング条件の相関は同様に２次項にしか捉えられない。一方、条件付テクストン分布モデルの方は、変化するイメージング条件下での正確なテクストン分布を捉えるために、位置依存性を犠牲にしている。

フィッシャーテクストンのモデル化においては２段階がある。第一段階はトレーニングである。トレーニング段階においては、アイデンティティ既知の対象物のデータベースを用いて線形射影（projection）ベクトルのセットが計算されることになる。これらの射影ベクトルはフィッシャーテクストンと呼ばれる。このフィッシャーテクストンは異なる個々人を良く識別できるように選ばれる。トレーニング段階は通常前以て実行されている。しかしながら認識および／または照合の間に実行することもでき、以前に決定されたフィッシャーテクストンを絶え間なくアップデートすることが出来る。第二段階は認識である。この段階において正規化された対象物画像はフィッシャーテクストン上に射影される。２つの正規化対象物画像の射影間の距離が、２つの画像の類似性を符号化するために用いられる。

図１１は本発明の実施態様に従ったフィッシャーテクストンのトレーニング段階に対するプロセスフロー図である。上述したように、テクストンの割り当て付与の後（一旦テクストンアレイが形成されてしまう）、トレーニングセットにおける総ての対象物はＭ×Ｎのテクストンアレイに変換され、大抵はＭ＝Ｎ＝３０である（ステップS１１１０）。このアレイにおける各要素TI(x)は１、 . . . 、 K、の値をとり、ここでKは各要素におけるテクストンボキャブラリーのサイズである。典型的なKの値は大体８から１０である。テクストンアレイにおける各要素は長さKのインジケーターベクトル：[0、 . . .、0、1、0、 . . . 、0]、TI(x)=kの場合、k番目要素が１、変換される。（ステップＳ１１２０）。このインジケーターベクトルは一緒に連結され、テクストンアレイは一つの（Ｍ＊Ｎ＊Ｋ）次元ベクトルによって表現される（すなわち上記の典型的値を用いると、このベクトルは９０００次元を有する）（ステップＳ１１２０）。

そしてフィッシャー線形判別分析が、トレーニング用データベースにおける正規化画像から得られたこれらのベクトルに関して実行され、対象物を異なるクラスに分離するのに最も良い射影方向（projection directions）を得る（顔認識に対しては、異なる人々から顔を最もうまく分離するベクトルをこのプロセスが見出す）（ステップＳ１１３０）。これら射影ベクトルはフィッシャーテクストンと呼ばれる。フィッシャー線形判別式は、"Pattern Classification、" R. Duda、 P. Hart and D. Stork、 Wiley 2001、に詳細が記載されており、出願のための援用がされる。当業者は他の判別分析手法も使えることは理解するであろう。

フィッシャーテクストンの決定は、まず最初に以下の方程式を用いてクラス内変動行列の計算を始めることから始まる。

ここでc はクラスの数であり、Ciはクラスiに属するトレーニング用実例のセットである。更にni = |Ci| および n=(ic niである。クラス間変動行列は次のように定義される。

ここでmは全平均ベクトル（total mean vector）である。

目標は次の基準関数（criteria function）の値を最大にする行列Ｖの値である。

最適行列Ｖベクトルの列は、次の方程式における最大の固有値に対する一般化固有ベクトルである。

ベクトルviは、対象物を異なるクラスに分類するための必須情報を捕捉する射影方向（projection directions）（すなわちフィッシャーテクストン）である。この考えは、多数のトレーニング用実例が用いられるとき、ベクトルviはトレーニング用のセットの中には居なかった人々を識別可能にするということである。

図１２は本発明の実施態様に従ったフィッシャーテクストンの認識段階に対するプロセスフロー図である。一旦フィッシャーテクストンが見つかると、それらは、どのような対象物でも、たとえば顔を、それがトレーニング用データベースの中にあろうとなかろうと認識するために使用できる。この認識段階はテクストンラベルを正規化されて入ってくる対象物画像（すなわち認識される予定の“プローブ画像”）に割り当て付与することで始まる（ステップＳ１２１０）。正規化された対象物を有するプローブ画像の各々は、そのテクストン表現に変換され、上述したようにベクトル化される（ステップＳ１２２０）。このベクトルはそれからフィッシャーテクストンvi'sに射影される（ステップＳ１２３０)。この認識段階はさらにテクストンラベルを関心対象物の正規化対象物画像（すなわちそれに対して比較がなされる“モデル画像”）に割り当て付与することで進行する（ステップＳ１２４０）。モデル画像の各々は、そのテクストンをベクトル化される（ステップＳ１２５０）。これらのベクトルはフィッシャーテクストンvi's に射影される（ステップＳ１２６０）。プローブ画像中で見つかった対象物とモデル画像の比較が、たとえば、ステップＳ１２３０で決められる“プローブベクトル”の射影と、ステップＳ１２６０で決められる“モデル”ベクトルの射影の間のユークリッド距離を計算することによって決定される（ステップＳ１２７０）。他のプローブ画像を使ったユークリッド距離の比較もなされ、この距離を最小にするものがモデル画像に一致するものとして決定される。当業者に知られている他の測定基準もこの比較をするために使われる。

以上、本発明の詳細な実施態様および実施例が説明されてきたが、本発明の本質と範囲を逸脱することなく種々の変更修正等が可能なことはもちろんである。

本発明の実施態様に従った対象物認識および／または照合を実行するシステムのブロック図本発明の実施態様に従った画像処理ユニットの詳細を示すブロック図本発明の実施態様に従った全体のプロセスフロー図本発明の実施態様に従ったテクストン生成のトレーニング段階の基本についての説明図本発明の実施態様に従ったテクストン生成のトレーニング段階に対するプロセスフロー図本発明の実施態様に従ったテクストン生成のテクストン割り当て付与段階の基本についての説明図本発明の実施態様に従ったテクストン生成のテクストン割り当て付与段階に対するプロセスフロー図本発明の実施態様に従ったテクストン相関モデルに対するトレーニング段階の基本について示している。本発明の実施態様に従ったテクストン相関モデルのトレーニング段階に対するプロセスフロー図本発明の実施態様に従ったテクストン相関モデルの認識段階に対するプロセスフロー図本発明の実施態様に従ったフィッシャーテクストンのトレーニング段階に対するプロセスフロー図本発明の実施態様に従ったフィッシャーテクストンの認識段階に対するプロセスフロー図

Claims

デジタル画像データにおける対象物を自動的に認識する方法であって、
入力されたデジタル画像データにおける関心対象物を検出するステップと、
正規化関心対象物を得るステップと、
前記正規化関心対象物のテクストン表現を割り当て付与して第一のテクストンアレイを形成するステップと、
前記テクストン表現と少なくとも一つの他の対象物についての前以て決定されているテクストン表現の間の類似性を決定するステップと、
を有することを特徴とするデジタル画像データ対象物の自動認識方法。
複数の画像から複数の基準対象物を検出して正規化するステップと、
前記複数の正規化基準対象物を形成している画素に基づいて第一の複数のフィルター応答を得るステップと、
前記第一の複数フィルター応答に基づいて第一の複数ベクトルを形成するステップと、
前記第一の複数ベクトルを複数のグループにクラスター化するステップと、を更に有し、
各グループはテクストンラベルを付与されることを特徴とする請求項１記載のデジタル画像データ対象物の自動認識方法。
前記正規化関心対象物を形成する画素に基づいて第二の複数のフィルター応答を得るステップと、
前記第二の複数フィルター応答に基づいて第二の複数ベクトルを形成するステップと、
前記正規化関心対象物を形成する画素の各々にテクストンラベルを割り当て付与することにより第一のテクストンラベルアレイを作成するステップと、
を更に有することを特徴とする請求項２記載のデジタル画像データ対象物の自動認識方法。
前記第一および第二の複数フィルター応答が複数の循環対称ガウスフィルターの水平および垂直導関数を用いて得られ、更に前記複数のガウスフィルターは複数のスケールを有することを特徴とする請求項３記載のデジタル画像データ対象物の自動認識方法。
前記ガウスフィルターは分離可能であることを特徴とする請求項４記載のデジタル画像データ対象物の自動認識方法。
前記第一および第二の複数ベクトルの各々は、前記第一および第二のフィルター応答を得るために用いられるフィルターの数に基づく長さを有することを特徴とする請求項４記載のデジタル画像データ対象物の自動認識方法。
前記クラスター化ステップはＫ-ミーンズ・クラスター化アルゴリズムを有することを特徴とする請求項２記載のデジタル画像データ対象物の自動認識方法。
前記複数の正規化基準対象物からのトレーニング用セットに属する画像から複数のテクストンアレイを形成するステップと、
前記複数のテクストンアレイから一対のテクストンアレイを選択するステップと、
前記一対のテクストンアレイにおける各要素に対して、前記テクストンラベルの一対が同一クラスにあるかどうかを決定するステップと、
前記テクストンラベルの一対が同一のクラスにあると決定することに基づいて第一の条件付確率表において要素を１つ増加するステップと、
前記テクストンラベルの一対が異なるクラスにあると決定することに基づいて第二の条件付確率表において要素を１つ増加するステップと、
前記選択するステップ、前記決定するステップおよび各増加するステップを前記テクストンアレイの全ての一対が処理されるまで繰り返すステップと、
前記第一および第二の条件付確率表を正規化するステップと、
を更に有することを特徴とする請求項２記載のデジタル画像データ対象物の自動認識方法。
前記トレーニング用セットはクラス内画像変動に基づいていることを特徴とする請求項８記載のデジタル画像データ対象物の自動認識方法。
前記トレーニング用セットは異なるイメージング条件下における同一対象物の画像に基づいていることを特徴とする請求項８記載のデジタル画像データ対象物の自動認識方法。
前記第一および第二の条件付確率表は、テクストンラベルは前記関心対象物における位置に独立であるという仮定に基づいて計算されることを特徴とする請求項８記載のデジタル画像データ対象物の自動認識方法。
前記類似性は前記第一および第二確率の尤度比に基づいていることを特徴とする請求項８記載のデジタル画像データ対象物の自動認識方法。
第二のテクストンアレイを形成するためにプローブ画像にテクストンラベルを割り当て付与するステップと、
前記第一および第二テクストンアレイにおける各位置に対して、前記正規化関心対象物と前記プローブ画像のテクストン値が同じである第一の確率を前記第一の条件付確率表を用いて決定するステップと、
全ての前記第一の確率を掛けることによって全体類似性の確率を決定するステップと、
前記第一および第二テクストンアレイにおける各位置に対して、前記正規化関心対象物と前記プローブ画像のテクストン値が異なっている第二の確率を前記第二の条件付確率表を用いて決定するステップと、
全ての前記第二の確率を掛けることによって全体非類似性の確率を決定するステップと、
前記全体類似性確率と全体非類似性確率を用いて尤度比を計算するステップと、
前記正規化関心対象物と前記モデル画像の類似性を前記尤度比を用いて決定するステップと、を更に有する、
ことを特徴とする請求項８記載のデジタル画像データ対象物の自動認識方法。
複数のテクストンアレイを作成するために、テクストンラベルを前記複数の正規化基準対象物に割り当て付与するステップと、
前記複数のテクストンアレイをベクトルに変換するステップと、
前記ベクトルを用いて線形判別分析を計算して基準ベクトルを形成するステップと、
を更に有することを特徴とする請求項２記載のデジタル画像データ対象物の自動認識方法。
前記線形判別分析はフィッシャー線形判別分析であり、前記基準ベクトルはフィッシャーテクストンであることを特徴とする請求項１４記載のデジタル画像データ対象物の自動認識方法。
前記第一テクストンアレイを用いて第一のベクトルを生成するステップと、
前記第一ベクトルを前記フィッシャーテクストン上へ射影することによって第一射影を決定するステップと、
テクストンラベルをプローブ画像へ割り当て付与して第二テクストンアレイを形成するステップと、
前記第二テクストンアレイを用いて第二のベクトルを生成するステップと、
前記第二ベクトルを前記フィッシャーテクストン上へ射影することによって第二射影を決定するステップと、
前記第一および第二射影を用いて前記正規化関心対象物と前記プローブ画像の類似性を決定するステップと、
を更に有することを特徴とする請求項１５記載のデジタル画像データ対象物の自動認識方法。
前記関心対象物は顔であり、
前記デジタル画像データ対象物の自動認識方法は、顔認識を実行するステップを更に有する、
ことを特徴とする請求項１記載のデジタル画像データ対象物の自動認識方法。
前記関心対象物は顔であり、
前記デジタル画像データ対象物の自動認識方法は、顔照合を実行するステップを更に有する、
ことを特徴とする請求項１記載のデジタル画像データ対象物の自動認識方法。
前記関心対象物は顔であり、
前記テクストン表現は顔の特徴を符号化する、
ことを特徴とする請求項１記載のデジタル画像データ対象物の自動認識方法。
クラス内で識別できる顔の特徴を区別するトレーニング用セットを生成するステップを有する、
ことを特徴とする請求項８記載のデジタル画像データ対象物の自動認識方法。
少なくともひとつの異なるクラスにわたって識別できる顔の特徴を区別するトレーニング用セットを生成するステップを更に有する、
ことを特徴とする請求項８記載のデジタル画像データ対象物の自動認識方法。
デジタル画像データにおける対象物を自動的に認識するための装置であって、
メモリーと機能的処理ユニットに操作可能に接続されていて認識処理を制御するための画像処理制御ユニットを有し、
前記機能的処理ユニットは、
入力デジタル画像データにおける関心対象物の検出のための対象物検出ユニットと、
正規化された関心対象物を得るための正規化ユニットと、
第一のテクストンアレイを形成するために正規化された関心対象物のテクストン表現を割り当て付与するためのテクストン生成ユニットと、
前記テクストン表現と少なくとも一つの他の対象物についての前以て決定されているテクストン表現の間の類似性を決定するための類似性ユニットと、
を有することを特徴とするデジタル画像データ対象物の自動認識装置。
前記検出ユニットおよび正規化ユニットはそれぞれ複数の画像からの複数の基準対象物を検出、正規化し、
更に前記テクストン生成ユニットは、前記複数の正規化基準対象物を形成している画素に基づいて第一の複数のフィルター応答を得、
前記第一の複数フィルター応答に基づいて第一の複数ベクトルを形成し、
前記第一の複数ベクトルを複数のグループにクラスター化し、各グループはテクストンラベルを付与される、
ことを特徴とする請求項２２記載のデジタル画像データ対象物の自動認識装置。
前記テクストン生成ユニットは、前記正規化関心対象物を形成する画素に基づいて第二の複数のフィルター応答を得、
前記第二の複数フィルター応答に基づいて第二の複数ベクトルを形成し、
前記正規化関心対象物を形成する画素の各々にテクストンラベルを割り当て付与することにより第一のテクストンラベルアレイを作成する、
ことを特徴とする請求項２３記載のデジタル画像データ対象物の自動認識装置。
前記第一および第二の複数フィルター応答が複数の循環対称ガウスフィルターの水平および垂直導関数を用いて得られ、
前記複数のガウスフィルターは複数のスケールを更に有する、
ことを特徴とする請求項２４記載のデジタル画像データ対象物の自動認識装置。
前記ガウスフィルターは分離可能であることを特徴とする請求項２５記載のデジタル画像データ対象物の自動認識装置。
前記第一および第二の複数ベクトルの各々は、前記第一および第二のフィルター応答を得るために用いられるフィルターの数に基づく長さを有することを特徴とする請求項２５記載のデジタル画像データ対象物の自動認識装置。
前記クラスター化はＫ-ミーンズ・クラスター化アルゴリズムを更に有する、
ことを特徴とする請求項２３記載のデジタル画像データ対象物の自動認識装置。
前記テクストン生成ユニットは、前記複数の正規化基準対象物からのトレーニング用セットに属する画像から複数のテクストンアレイを形成し、
更に前記類似性決定ユニットは、前記複数のテクストンアレイから一対のテクストンアレイを選択し、
前記一対のテクストンアレイにおける各要素に対して、前記テクストンラベルの一対が同一クラスにあるかどうかを決定し、
前記テクストンラベルの一対が同一のクラスにあると決定することに基づいて第一の条件付確率表において要素を１つ増加し、
前記テクストンラベルの一対が異なるクラスにあると決定することに基づいて第二の条件付確率表において要素を１つ増加し、
前記選択し、前記決定し、および各増加することを前記テクストンアレイの全ての一対が処理されるまで繰り返し、
前記第一および第二の条件付確率表を正規化する、
ことを特徴とする請求項２３記載のデジタル画像データ対象物の自動認識装置。
前記トレーニング用セットはクラス内画像変動に基づいている、
ことを特徴とする請求項２９記載のデジタル画像データ対象物の自動認識装置。
前記トレーニング用セットは異なるイメージング条件下における同一対象物の画像に基づいている、
ことを特徴とする請求項３０記載のデジタル画像データ対象物の自動認識装置。
前記第一および第二の条件付確率表は、テクストンラベルは前記関心対象物における位置に独立であるという仮定に基づいて計算される、
ことを特徴とする請求項２９記載のデジタル画像データ対象物の自動認識装置。
前記類似性は前記第一および第二確率の尤度比に基づいている、
ことを特徴とする請求項２９記載のデジタル画像データ対象物の自動認識装置。
前記類似性決定ユニットは
第二のテクストンアレイを形成するためにプローブ画像にテクストンラベルを割り当て付与し、
前記第一および第二テクストンアレイにおける各位置に対して、前記正規化関心対象物と前記プローブ画像のテクストン値が同じである第一の確率を前記第一の条件付確率表を用いて決定し、
全ての前記第一の確率を掛けることによって全体類似性の確率を決定し、
前記第一および第二テクストンアレイにおける各位置に対して、前記正規化関心対象物と前記プローブ画像のテクストン値が異なっている第二の確率を前記第二の条件付確率表を用いて決定し、
全ての前記第二の確率を掛けることによって全体非類似性の確率を決定し、
前記全体類似性確率と全体非類似性確率を用いて尤度比を計算し、
前記正規化関心対象物と前記モデル画像の類似性を前記尤度比を用いて決定する、
ことを特徴とする請求項２２記載のデジタル画像データ対象物の自動認識装置。
前記テクストン生成ユニットは、複数のテクストンアレイを作成するために、テクストンラベルを前記複数の正規化基準対象物に割り当て付与し、
前記類似性決定ユニットは、前記複数のテクストンアレイをベクトルに変換し、前記ベクトルを用いて線形判別分析を計算して基準ベクトルを形成する、
ことを特徴とする請求項２３記載のデジタル画像データ対象物の自動認識装置。
前記線形判別分析は、フィッシャー線形判別分析であり、前記基準ベクトルはフィッシャーテクストンであることを特徴とする請求項３５記載のデジタル画像データ対象物の自動認識装置。
前記類似性決定ユニットは、
前記第一テクストンアレイを用いて第一のベクトルを生成し、
前記第一ベクトルを前記フィッシャーテクストン上へ射影することによって第一射影を決定し、
テクストンラベルをプローブ画像へ割り当て付与して第二テクストンアレイを形成し、
前記第二テクストンアレイを用いて第二のベクトルを生成し、
前記第二ベクトルを前記フィッシャーテクストン上へ射影することによって第二射影を決定し、
前記第一および第二射影を用いて前記正規化関心対象物と前記プローブ画像の類似性を決定する、
ことを特徴とする請求項３６記載のデジタル画像データ対象物の自動認識装置。
前記関心対象物は顔であり、前記類似性決定ユニットは顔認識を実行する、
ことを特徴とする請求項２２記載のデジタル画像データ対象物の自動認識装置。
前記関心対象物は顔であり、前記類似性決定ユニットは顔照合を実行する、
ことを特徴とする請求項２２記載のデジタル画像データ対象物の自動認識装置。
前記関心対象物は顔であり、前記テクストン表現は顔の特徴を符号化する、
ことを特徴とする請求項２２記載のデジタル画像データ対象物の自動認識装置。
前記類似性決定ユニットは、クラス内で識別できる顔の特徴を区別するトレーニング用セットを生成する、
ことを特徴とする請求項２９記載のデジタル画像データ対象物の自動認識装置。
前記類似性決定ユニットは、少なくともひとつの異なるクラスにわたって識別できる顔の特徴を区別するトレーニング用セットを生成する、
ことを特徴とする請求項２９記載のデジタル画像データ対象物の自動認識装置。