JP4505733B2 - テクストンを用いる対象物認識方法及び装置 - Google Patents

テクストンを用いる対象物認識方法及び装置 Download PDF

Info

Publication number
JP4505733B2
JP4505733B2 JP2004331174A JP2004331174A JP4505733B2 JP 4505733 B2 JP4505733 B2 JP 4505733B2 JP 2004331174 A JP2004331174 A JP 2004331174A JP 2004331174 A JP2004331174 A JP 2004331174A JP 4505733 B2 JP4505733 B2 JP 4505733B2
Authority
JP
Japan
Prior art keywords
texton
image data
interest
digital image
normalized
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2004331174A
Other languages
English (en)
Other versions
JP2005149507A (ja
Inventor
キン‐ホン レオン トーマス
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujifilm Corp
Original Assignee
Fujifilm Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujifilm Corp filed Critical Fujifilm Corp
Publication of JP2005149507A publication Critical patent/JP2005149507A/ja
Application granted granted Critical
Publication of JP4505733B2 publication Critical patent/JP4505733B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/42Global feature extraction by analysis of the whole pattern, e.g. using frequency domain transformations or autocorrelation
    • G06V10/422Global feature extraction by analysis of the whole pattern, e.g. using frequency domain transformations or autocorrelation for representing the structure of the pattern or shape of an object therefor
    • G06V10/424Syntactic representation, e.g. by using alphabets or grammars
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/46Descriptors for shape, contour or point-related descriptors, e.g. scale invariant feature transform [SIFT] or bags of words [BoW]; Salient regional features
    • G06V10/462Salient features, e.g. scale invariant feature transforms [SIFT]
    • G06V10/464Salient features, e.g. scale invariant feature transforms [SIFT] using a plurality of salient features, e.g. bag-of-words [BoW] representations

Description

本出願は、米国仮出願番号60/519、639出願日2003年11月14日の米国特許法119(e)条に基づいての優先権を主張するものである。本出願は、また2003年12月15日に出願された米国出願番号10/734、258および2003年12月15日に出願された米国出願番号10/734、259に関連している。これらの上記出願の全内容は出願のための援用がされる。
本発明はデジタル画像処理、特にデジタル画像における対象物(被写体)を認識および/または照合するための方法および装置に関する。より詳細には本発明はデジタル画像中に現れている対象物の代表的特徴を符号化するオペレーターを用いる対象物認識に関する。
対象物認識は、たとえば画像のアーカイブ(保管)、検索や整理、製造およびセキュリティ(保安・警備)のような広範囲にわたる実用的応用を有するコンピュータ視覚(vision)の領域でますます重要になって来ている。産業上のおよび国家的セキュリティの向上に対する必要性、そしてまた急激に増大しているデジタル写真の普及を考慮すると、顔認識は対象物認識における重要な一分野になりつつある。しかしながら精度の高い顔認識は、外的および内的要因によって変化するイメージング条件(画像化する時の条件)の所為で、しばしば困難になる。外的要因とは照明条件(たとえば逆光か順光かあるいは曇天か晴天の直射光か等)およびカメラポーズ(たとえば正面写真か横向きの写真か)等である。内的要因とは時間の経過に直接起因する変動(たとえば人が歳をとる)あるいは対象物の条件の変化(たとえば顔の表情やアクセサリー類が異なる)等である。パターン認識の分野では、イメージング条件の変化の所為で画像の対象物が見せる変動は、通常クラス内変動と称されている。
クラス内変動を乗り越えて対象物を認識できるアルゴリズムかどうかが、実用的応用において成功するかどうかを決める。顔認識は伝統的に3次元モデルに基づいた手法や特徴に基づいた方法等によって研究されてきた。顔認識システムに共通する特徴は、類似性の尺度(測定)(similarity measure)、すなわち、もし複数の顔が同一人物の顔に属しているものなら、それらは類似していると考えられる、にある。この類似性尺度は2つの顔画像が同一人に属するものであることを照合するために用いられる。この類似性尺度は、2つの顔画像が同一人に属するものであることを照合したり、新たな標本例が所与の顔のどれに最も類似しているかを判定したりすることによって新規な画像を分類するために使用される。
しかしながら、良好な類似性尺度をデザインすることは難しい。たとえば画像空間において直接用いられるユークリッド距離に基づいた簡易な類似性尺度は、概してうまく機能しない。というのは画像がクラス間の変動よりもクラス内の変動により大きく影響を受けるからである。新たな顔標本のアイデンティティについて最良の決定をするためには、理想的なシステムは、その顔およびその環境についてのモデルとしてか、あるいは各顔についての多数のビュー(view)として、各人の顔の外観における可能なばらつきの全てについての表現を有していることになる。もし各人についての多数の実例サンプルがギャラリーで利用できるなら、各人についてのモデルが計算算出でき、新しい顔のビュー(view)を分類することに用いることができる。しかしながら実際にはギャラリーは各人の少数の実例を有しているにすぎない。
本発明は上記問題に鑑みてなされたものであり、クラス内の差に対して相対的にクラス間の差を最大化する画像特徴を抽出でき、ギャラリーに各人の少数の実例を有している場合にも利用できる顔認識アルゴリズムに関する技術を提供することを目的とする。
前記目的を達成するために、本発明は、デジタル写真のようなデジタル画像における顔の自動的認識および/または照合のための方法および装置を対象としている。また、本発明の他の実施態様は、デジタル画像データにおける対象物を自動的に認識する方法であって、入力されたデジタル画像データにおける関心対象物を検出するステップと、正規化関心対象物を得るステップと、前記正規化関心対象物のテクストン表現を割り当て付与して第一のテクストンアレイを形成するステップと、前記テクストン表現と少なくとも一つの他の対象物についての前以て決定されているテクストン表現の間の類似性を決定するステップと、を有する。
本発明に従った他の実施態様においては、デジタル画像データ対象物の自動認識方法は、複数の画像から複数の基準対象物を検出して正規化するステップと、前記複数の正規化基準対象物を形成している画素に基づいて第一の複数のフィルター応答を得るステップと、前記第一の複数フィルター応答に基づいて第一の複数ベクトルを形成するステップと、前記第一の複数ベクトルを複数のグループにクラスター化するステップと、を更に有し、各グループはテクストンラベルを付与される。
本発明に従った他の実施態様においては、デジタル画像データ対象物の自動認識方法は、前記正規化関心対象物を形成する画素に基づいて第二の複数のフィルター応答を得るステップと、前記第二の複数フィルター応答に基づいて第二の複数ベクトルを形成するステップと、前記正規化関心対象物を形成する画素の各々にテクストンラベルを割り当て付与することにより第一のテクストンラベルアレイを作成するステップと、を更に有する。
本発明に従った他の実施態様においては、デジタル画像データ対象物の自動認識方法は、前記複数の正規化基準対象物からのトレーニング用セットに属する画像から複数のテクストンアレイを形成するステップと、前記複数のテクストンアレイから一対のテクストンアレイを選択するステップと、前記一対のテクストンアレイにおける各要素に対して、前記テクストンラベルの一対が同一クラスにあるかどうかを決定するステップと、前記テクストンラベルの一対が同一のクラスにあると決定することに基づいて第一の条件付確率表において要素を1つ増加するステップと、前記テクストンラベルの一対が異なるクラスにあると決定することに基づいて第二の条件付確率表において要素を1つ増加するステップと、前記選択するステップ、前記決定するステップおよび各増加するステップを前記テクストンアレイの全ての一対が処理されるまで繰り返すステップと、前記第一および第二の条件付確率表を正規化するステップと、更に有する。
本発明に従った他の実施態様においては、デジタル画像データ対象物の自動認識方法は、第二のテクストンアレイを形成するためにプローブ画像にテクストンラベルを割り当て付与するステップと、前記第一および第二テクストンアレイにおける各位置に対して、前記正規化関心対象物と前記プローブ画像のテクストン値が同じである第一の確率を前記第一の条件付確率表を用いて決定するステップと、全ての前記第一の確率を掛けることによって全体類似性の確率を決定するステップと、前記第一および第二テクストンアレイにおける各位置に対して、前記正規化関心対象物と前記プローブ画像のテクストン値が異なっている第二の確率を前記第二の条件付確率表を用いて決定するステップと、全ての前記第二の確率を掛けることによって全体非類似性の確率を決定するステップと、前記全体類似性確率と全体非類似性確率を用いて尤度比を計算するステップと、前記正規化関心対象物と前記モデル画像の類似性を前記尤度比を用いて決定するステップと、を更に有する。
本発明に従った他の実施態様においては、デジタル画像データ対象物の自動認識方法は、複数のテクストンアレイを作成するために、テクストンラベルを前記複数の正規化基準対象物に割り当て付与するステップと、前記複数のテクストンアレイをベクトルに変換するステップと、前記ベクトルを用いて線形判別分析を計算して基準ベクトルを形成するステップと、を更に有する。
本発明に従った他の実施態様においては、デジタル画像データ対象物の自動認識方法は、前記第一テクストンアレイを用いて第一のベクトルを生成するステップと、前記第一ベクトルを前記フィッシャーテクストン上へ射影することによって第一射影を決定するステップと、テクストンラベルをプローブ画像へ割り当て付与して第二テクストンアレイを形成するステップと、前記第二テクストンアレイを用いて第二のベクトルを生成するステップと、前記第二ベクトルを前記フィッシャーテクストン上へ射影することによって第二射影を決定するステップと、前記第一および第二射影を用いて前記正規化関心対象物と前記プローブ画像の類似性を決定するステップと、を更に有する。
本発明に従った他の実施態様において、デジタル画像データにおける対象物を自動的に認識するための装置が提示されていて、その装置は、メモリーと機能的処理ユニットに操作可能に接続されていて認識処理を制御するための画像処理制御ユニットを有し、前記機能的処理ユニットは、入力デジタル画像データにおける関心対象物の検出のための対象物検出ユニットと、正規化された関心対象物を得るための正規化ユニットと、第一のテクストンアレイを形成するために正規化された関心対象物のテクストン表現を割り当て付与するためのテクストン生成ユニットと、前記テクストン表現と少なくとも一つの他の対象物についての前以て決定されているテクストン表現の間の類似性を決定するための類似性ユニットと、を有する。
本発明の態様は以下に図面を参照しながらより具体的に説明する。以下に述べられる実施態様の詳細は、顔の認識あるいは照合に関するものであるが、ここにおいて記述される本発明の原理はデジタル画像中に現れている他の異なる対象物にも適用できるものである。
図1は本発明の実施態様に従った対象物認識および/または照合のためのシステムのブロック図を示している。図1におけるシステム100は下記の構成要素、すなわち、画像入力デバイス110、画像処理ユニット120、ユーザー入力ユニット130、およびディスプレイ140を備えている。図1において示される各構成要素の作用(操作)および要素間の機能的な相互作用に関しては、以下の説明から明らかになる。
一実施例においては、画像入力デバイス110は、関心対象物(たとえば顔)を含んでいるデジタル写真のようなデジタル画像データを供給するものである。画像入力デバイス110はたとえばペーパーやフィルム上に記録された画像をスキャンするスキャナーであり、たとえば、フィルムあるいはペーパーから1フレームずつR(赤)、G(緑)、B(青)各色の画像情報を光電的に読み取るCCDセンサーを有している。画像入力デバイスとしてはデジタル画像データを供給するものならどのようなものでもよく、たとえばCD−R、フロッピーディスクその他の記録媒体やネットワーク接続によるもの、および/またはどのようなデジタル画像捕捉デバイス、たとえば画像を直接デジタルの形で取り込むデジタルカメラ等がある。画像処理ユニット120は画像入力デバイス110からデジタル画像データを受けとり、以下に詳細に説明されるやり方で対象物の認識および/または照合を実行するものである。図1に示す実施態様において、ユーザー入力ユニット130はキーボード132およびマウス134を有している。本発明の実施態様に従った対象物の認識および/または照合を実行することに加えて、画像処理ユニット120は色/濃度補正、圧縮その他の画像処理機能等当業者に知られている付加機能を実行することができる。
図2は本発明の実施態様に従った画像処理ユニット120の一実施例を示すブロック図である。
図2に示されるように、この実施態様における画像処理ユニット120は、メモリー210、対象物検出ユニット220、正規化ユニット230、テクストン処理ユニット240、類似性決定ユニット250、および画像処理コントロールユニット260を有している。この図2の種々の構成要素は一つ一つ分離した要素として図示されているが、この図示は説明を容易にするためであり、当然のことながら、種々の構成要素のある幾つかの作用操作は同じ物理的デバイスによって、たとえばパソコンのマイクロプロセッサーによって実行され、あるいは複数の汎用および/または特定目的のプロセッサーに分散実施され得るものである。当業者はまた、示されている各機能ユニットは部分的にまたは全面的にソフトウエアー、ハードウエアーおよび/またはファームウエアー、あるいはそれらのいかなる組合せによっても実行されることを理解するだろう。画像処理ユニット120の複数構成要素の作用操作は、以下の図を参照して説明される。
画像処理ユニット120の作用操作は一般に2段階に分割される、すなわち(1)トレーニングおよび(2)自動的対象物認識および/または照合に分けられる。トレーニング段階は予めオフラインで、あるいは認識および照合プロセスの間で実行される。トレーニングは更に2つの段階、(i)一般的なテクストンボキャブラリーの生成段階および(ii)類似性尺度(similarity measure)を定式化する段階である。一般的テクストンボキャブラリーは基準とする関心対象物のトレーニング用データベースから生成される。この一般的テクストンボキャブラリーは画像条件の変化による対象物の外観における変動ばらつきを符号化し、関心対象物の全ての事例に適用できる。このトレーニングプロセスの間に類似性尺度が学習される。既知のアイデンティティを有する対象物のデータベースを用いることで、異なる対象物を区別できる特徴について学習がなされる。同時に、イメージング条件の変化の所為で生ずる特徴(クラス内変動)も同様に学習される。これら二組の学習された特徴を用いて、類似性尺度は、二つの画像が同一の対象物から来ているものか否かを、自動的な対象物認識および/または照合の段階において区別することが出来る。この段階の間に、(i)一般的テクストンボキャブラリーからのテクストンが関心対象物に与えられ、そして(ii)二つの画像が同一人物に属するかどうかが決定される。
[概要]
種々の異なる条件下での多数の対象物を見た後で、人間は対象物がその外観をどのように変化させるかということについての暗黙の内的モデルを構築することが出来る。この内的モデルを用いて、人間は新たな条件の下で対象物がどのように見える(外観)かを想像することが出来る。たとえば人間は一つの正面像をみただけでも、次に横からその人を見て容易に認識することが出来る。また、たとえば人間はかなり長年月会わなかった場合でも友人を認識することができる。本発明の幾つかの実施態様は、種々のイメージング条件下における対象物、特に顔の認識能力についてスポットを当てている。これらの実施態様は人間の視覚に大まかに似ているアルゴリズムモデルを用いることが出来る。すなわち、異なるイメージング条件下で対象物の外観がどのように変化するかを予測するモデル構築するために、アルゴリズムフレームワークが用いられる。一実施態様においてはこの課題を実現するために、テクストン相関モデル(Texton Correlation Model)が用いられる。テクストンは対象物の別々の(離散した)代表的な局部的特徴の集合(セット)である。テクストン相関モデルは、イメージング条件が変化するときにどのようにテクストンが変化するかを効率的に符号化する。一旦これらの変化が考慮されると、イメージング条件に対してセンシティブでない画像の間の類似性尺度が実行できる。このテクストン相関モデルを用いることで、たった一つの人の顔から、広範囲にわたる照明やポーズや、あるいはまた何年も歳を取ったあとにおける顔を認識することが出来る。別の実施態様ではフィッシャーテクストンモデルを用いる。フィッシャーテクストンモデルは、同一個人の顔画像から別の個人の顔画像を最も良く判別する線形ベクトルのセットを算出するために、線形判別分析(Linear Discriminant Analysis)を利用する。テクストン相関モデルに似て、フィッシャーテクストンモデルは、広範囲にわたる照明やポーズや年齢の変化を乗り越えて顔を認識するために用いられる。
図3は対象物認識および/または照合についての基本的なフローダイアグラムを示す。説明を簡単にするために、関心対象物は顔とするが、もちろん発明の実施態様が顔対象物に限られるわけではなく、他の対象物の使用は本発明の態様として適用可能である。
最初に少なくとも一つの顔を有する入力画像が画像処理コントロールユニット260に与えられる(ステップS305)。この入力画像はメモリー210あるいは直接に画像入力デバイス110から与えられる。次に対象物検出ユニット220は入力デジタル画像中の顔を検出するためにデジタル画像データを受け取る(ステップS310)。顔は訓練された顔検出器を用いて自動的に抽出される。この顔検出器は関心対象物が顔であるかどうかを決定する分類器(classifier)である。この分類器によって使用される特徴はウェーブレット係数あるいはボックスフィルター出力(box filter outputs)である。 この分類器は増強カスケード分類器(boosted cascade of classifier) あるいは神経回路網(neural network)を用いて訓練(トレーニング)される。同様の方法の詳細については、 S. Loffe、 Automatic Red-Eye Reduction、 Proc. Int. Conf. Image Processing、 2003に記載されていて、出願のための援用(incorporated herein by reference)がされる。
正規化ユニット230は対象物検出ユニット220によって検出された顔を正規化する(ステップS320)。この正規化プロセスは、各々の顔において、サイズおよび/または面内回転に対して正規化するために、たとえば目とか口の角とかの特徴を決定するステップを有する。各顔はその後のテクストンの計算の効率的な処理を円滑にするため、標準の画素数(たとえば30×30画素)にリサンプリングされる。他の正規化ステップは他のイメージング変動(たとえば照明の違い)に対処するために実行される。
そして、テクストン処理ユニット240は正規化された顔のテクストン表現を決定し、それは頻繁に生ずる顔の顕著な特徴の抽出を可能にする(ステップS330)。ここで用いられているように、テクストンはフィルター出力の共起(性)(co-occurrences)として定義されるが、以下でより詳細に説明される。ステップS330で、正規化された顔は原則的にテクストン表現に写像される(mapped)。この写像(mapping)を完遂するため一般的テクストンボキャブラリーが利用されるが、後述されるようにそれはテクストン生成トレーニング500の間に決定される。上述したように、テクストン生成トレーニング500は予めオフラインで決定されるか、あるいはステップS330より前の認識プロセスの間に決定される。テクストン処理の詳細(トレーニングおよび割り当て付与の両方))は後述される。
一旦顔のテクストン表現が生成されると、類似性処理が類似性決定ユニット250によって実行され、その顔のテクストン表現と他の対象物の基準テクストンが比較される(ステップS340)。このタスクを完遂するために類似性尺度トレーニングが実行され、類似性尺度を定式化するために他の対象物に関する一般的テクストンボキャブラリーを利用する。もし顔照合が実行される予定なら、他の対象物の基準テクストンは異なるイメージング条件下における同一の顔を表すことになる(すなわち類似性処理はクラス内での差異を有する対象物に関して成される)。ここにおいて用いられるように、顔照合は、既知の対象のアイデンティティをその対象の従来の基準(参照)画像に基づいて自動的に確立する。もし顔認識が実行される予定なら、他の対象物の基準テクストンは、種々の異なるイメージング条件における同一の顔および/または他の顔を表すことになる。ここで用いられているように、顔認識は未知の対象を同一および他の顔対象物との比較を通して特定する(すなわち類似性処理はクラス内およびクラス間両方の差異を有する対象物に関して成される。)。一実施態様において、類似性決定ユニット250はテクストン相関モデルを利用している。他の実施態様では、フィッシャーテクストンが類似性決定ユニット250によって用いられる。テクストン相関モデルとフィッシャーテクストンについて以下に詳細が説明される。
[テクストン生成]
テクストンは学習によって得られたフィルター出力の共起(性)(co-occurrences)として定義される。特にフィルターはたとえばガウス微分フィルター(Gaussian derivative filter)のような線形畳み込みオペレーターの形をとる。グレイスケール画像処理で用いられるテクストンに対する同様の定義は、 “Representing and Recognizing the Visual Appearance of Materials using three-dimensional Textons、" T. Leung and J. Malik、 Int. J. Computer Vision、 43(1): 5-24、 1195、に記載されており、上記文献は出願のための援用がされる。
テクストンは、実際の対象物から得られるあるいは合成対象物として生成される2次元あるいは3次元面の2次元画像表現についての離散した局部的特性の集合(セット)を符号化する(すなわち、たとえばデジタルカメラのようなセンサーを通じて獲得された画像、あるいは、たとえば警察における犯罪容疑者の合成画像のような人間および/またはコンピュータによって生成される画像)。この離散セット(discrete set)はテクストンボキャブラリーと称され、離散セットの各要素は個々のテクストンである。 関心対象物を形成する各画素はテクストンボキャブラリーの中の要素に写像される。たとえば関心対象物が顔の場合、或るテクストンは目の外観を符号化し、一方、他は口の角の外観を符号化する。他の対象物たとえば具体的構造物の場合、テクストンは、バー(bar)、リッジ(ridge)あるいはシャドーエッジ(shadow edge)画像特性を符号化する。このようにクラス特定のテクストンボキャブラリーの形成しながら、テクストンは、特定の個人あるいは構造物タイプのような対象物の単一のクラスから学習によって得られ、あるいはより広範なテクストンボキャブラリーを形成しながら、テクストンは異なるクラスを集めることから形成される。
テクストン表現は、イメージング条件の変動による画像における変化を簡単に特徴付ける利点がある。たとえば、仮に人がその顔の表情を微笑みからしかめっ面に変えた場合、口の角を表しているテクストンは変化する。他の例として、照明の角度が正面方向から斜めの角度方向へ移動する場合、特定の面のテクストン要素は別のテクストンに変わる。異なるイメージング条件においてテクストンがどのように変化するかを知ることによって、 かなりの範囲にわたって異なる条件下で収集された画像化対象物を認識および/または照合するという困難な問題が対処し得ることになる。テクストンの生成は(i)トレーニング段階および(ii)付与段階の2段階を有する。トレーニング段階ではテクストンのセットがトレーニングデータベースから作成され、次の認識および/または照合処理で用いられるテクストンボキャブラリーを形成する。付与段階では画像のテクストン表現が前記テクストンボキャブラリーを用いて生成される。トレーニング段階および付与段階の詳細は以下で説明される。
図4は本発明の実施態様に従ったテクストン生成のトレーニング段階の基本についての説明図である。この図において、どのように一般的テクストンボキャブラリーがトレーニングデータから得られるかが示されている。この段階の間、フィルターリングがトレーニング用実例のデータベースに適用される、その結果としてのフィルター応答はK個の異なるグループにクラスター化される。このプロセスは、複数Z個の、正規化された基準対象物410の表現を含む基準画像から始まり、それらは正規化された対象画像610に対する比較の基礎として用いられることになる。Z個の正規化された基準対象物画像410の各々はM×N画素を有している(すなわちM行画素×N列画素)。MおよびNに対する値は、画像の忠実度を維持しながら処理スピードを最大にするように選ばれる。このMおよびNに対する実際の値は、たとえばM=30、N=30である。1つの使用できる正規化プロセスの詳細について以上述べてきたが、しかしながら当業者ならば、関心対象物を有している画像と比較される対象物が、その後のテクストンの生成および認識/照合処理に先立って一貫した矛盾のない特性を有する限り、他の正規化プロセスも利用できることを理解するだろう。
正規化された基準対象物画像410の各々はそれから複数のフィルターによってフィルターされ、フィルターの数はIによって表され、Iフィルター応答420azをZ個の正規
化された基準対象物画像の各々について形成する。各フィルター応答420azはおよそM×N画素を有する画像である。フィルター応答420azにおける画素数は正規化された対象画像410における画素数とはフィルターオーバーハングの所為で多少異なる。フィルター応答420azを形成するために使用されるフィルターの詳細は図5に関連して説明される。
フィルターリング操作の後、Iフィルター応答420azを有するデータは複数のフィルター応答ベクトルに再配列される。これでZ個の正規化された基準対象物画像の各々に対しておよそM×Nのフィルター応答ベクトルがある。各フィルター応答ベクトル421a1 ‐421z(M*N) はIの長さを有し、それぞれの正規化対象画像410における各画素に1対1で対応している。各フィルター応答ベクトルはフィルターのスケールに依存して様々な画素グループからのプーリング(pooling)情報であることがわかる。しかしながらフィルター応答ベクトルは異なる画素グループから生成されている以上異なる画素ごとに変化するので、各フィルター応答ベクトルは各画素に1対1で対応する。
それゆえ、複数の正規化された基準対象物画像410の各画像に対して、フィルター応答ベクトルが形成される。たとえば1番目の正規化基準対象物画像(図4で示されているグループ410におけるラベル1が付けられている)においては、フィルター応答ベクトル421a1 ‐421a(M*N)が形成される。Z個の正規化基準対象物画像がそのデータベースにはあって、多数の対象物クラス(その各々が多数の画像を持った)に相当する。顔認識に対しては、そのデータベースは多数の人々を含んでいて、各々が異なるイメージング条件に対応する多数の画像を持っている。全体としてこれらの(M×N×Z)個のフィルター応答ベクトルはK個の明確に識別可能なグループにクラスター化される。この個々のグループのそれぞれをテクストンと称し、正規化対象物画像データベースにおけるプロトタイプ的特徴の標本である。このテクストンの全体は、集団でテクストンボキャブラリー440と称する。このテクストンボキャブラリー440が多数のクラスを含むデータベースから得られるとき、一般的テクストンボキャブラリーと呼ばれる。この一般的テクストンボキャブラリーは関心対象物のいかなる画像の特徴も表すことが出来る。顔に関していえば、一般的テクストンボキャブラリーはどのような人に対しても、その人がトレーニングデータベースの中にあろうとなかろうと、良好な表現を提供する。テクストンボキャブラリー440における各テクストンはラベルを付けられ、テクストンラベル441a-441Kと呼ばれ、各テクストンを一意的に特定するためのものである。フィルター応答ベクトル421a1 421z(M*N) はそれら相互の類似性に基づいてクラスター化され、フィルター応答ベクトルは一つのテクストンにのみ付与される。たとえば図4に示すように、テクストンラベル1(441a)を付与されているテクストンは5つの識別可能なフィルター応答を有していて、それらは正規化された基準対象物画像410における特定のユニークな特徴を表している。クラスター化は当業者に知られている適当なクラスター化アルゴリズム、たとえばK‐ミーンズ(K-means)アルゴリズム(詳細は後述)によって行われる。ここではKで表されているテクストンボキャブラリー440におけるテクストンの数は、関心対象物の複雑さに基づいて選ばれるが、目的と応用によって変化したり一定だったりする。テクストンボキャブラリーの生成はトレーニング段階で実行されるが、事前にも実行できるし、あるいは連続的に増加してゆくプロセスであっても良い。
図5はトレーニングにおけるテクストン生成プロセスをより詳細に示すフローダイアグラムである。このプロセスはトレーニング用データベースである正規化された基準対象物データベース510を使っていて、複数の正規化基準対象物画像410で構成されている。正規化基準対象物画像410は、図3および上述のステップS310およびS320と同様のプロセスを通して抽出され正規化された対象物を有している関心対象物を含む画像から生成される。データベース510からの最初の正規化対象物画像は複数の別々のフィルターを用いテクストン処理ユニット240を用いてI回フィルターされる。これらのフィルターは当業者に知られているどのようなタイプのフィルターでも良い。本発明の一実施態様によれば、これらのフィルターは畳み込み方法(convolutional methods)を用いて正規化基準対象物画像410の各々に適用される線形フィルターである。特定のフィルターを選択することはそれほど重要な問題ではなく、実施の容易さと計算効率から選定することが出来る。更なる効率は分離型のフィルターを選択する事で得られる。
一実施態様において、テクストン処理ユニット240は複数のガウス微分フィルターを使っている。これらのフィルターは循環対称ガウスフィルター(circular symmetric Gaussian filter) の分離可能な水平および垂直導関数として表現される。数学的にはこれらのフィルターは下記の方程式によって表される。ここでFVおよびFHは分離可能な垂直および水平微分フィルターであり、それぞれxおよびyは画素位置を、(はフィルターのスケールファクターを表す。
Figure 0004505733
どのような数の異なるフィルタースケーリング(filter scalings)も使用可能で、言い換えると、フィルターリング操作において使用されるフィルターの全数に影響を与える。たとえば4つの異なるサイズのスケーリングが使用され、それは8つの異なるフィルターを使うことになる(すなわちI=8)。
テクストン処理ユニット240によって実行される多数のフィルターリング操作は、フィルターされた画像420の数(I)を決定する。フィルターリングの後で、そのI回フィルターされた画像はテクストン処理ユニット240によって複数(M*N)のフィルター応答ベクトルに再配列され、その各々は長さIを有する(ステップS530)。このプロセスは、トレーニング用データベース510の全ての正規化基準対象物画像がフィルターされるまで繰り返される(ステップS540)。
図5において、テクストン処理ユニット240はそれから全ての(M*N*Z)個のフィルター応答ベクトル421a1 -421z(M*N) を個々のK個のテクストンにクラスター化して、テクストンボキャブラリー440を形成する(ステップS550)。このクラスター化はK-ミーンズ(K-means)クラスター化アルゴリズムによって行われる。K-ミーンズ・クラスター化アルゴリズムは特定の数K個の、重複しないばらばらで非階層的なグループを生成する。このKの値は関心対象物の複雑さ程度によって決定される。それはまた計算効率上の要請あるいはユーザーの選択によっても決められる。K-ミーンズ・アルゴリズムは典型的な繰り返し数値計算アルゴリズムで、"Pattern Classification、" R. Duda、 P. Hart and D. Stork、 Wiley 2001に記載されており、前記文献は出願のための援用がされる。当業者は、テクストン処理ユニット240が他の知られているクラスター化アルゴリズムもステップS550で使用できることは理解するであろう。
図6はテクストン生成のテクストン付与段階の基本を表している説明図である。(N*M*Z)個のフィルター応答ベクトル421a1 421z(M*N) がテクストンボキャブラリー440を形成するためにテクストンにクラスター化された後で、テクストンラベル441a-Kがどの正規化された関心対象物画像にも付与され、M×Nのテクストンラベルのアレイに配列される。
正規化された関心対象物画像610は、入力画像から最初に関心対象物を抽出し次いでその画像を正規化することによって得られる。抽出と正規化は、図3に示すようなステップS310およびS320において既述されたと同様の手法を用いて、対象物検出ユニット220および正規化ユニット230によって実行される。正規化された関心対象物画像610はそれからI回フィルターされI個のフィルター応答画像620を形成する。このフィルター応答画像620は、図4に対して説明されたと同様の方法を用いて、M*N個のフィルター応答ベクトル621a-621(M*N)に再配列される。そしてこのフィルター応答ベクトル621a-621(M*N)はテクストンアレイ630へ割り当て付与される。テクストンラベルアレイ630における位置は正規化された対象物画像610における画素に直接対応している。各画素に対応する値は、テクストンボキャブラリー440におけるどのテクストンが最も良くその画素の局部的表面特性(local surface characteristics )を記述しているかによって1からKが付けられる。従って、テクストンラベルアレイはM×N画像であり、そこでは各画素はテクストン・アレイ630における各テクストンを特定する整数値を持っている。
図7は本発明の実施態様に従ったテクストン生成のテクストン割り当て付与段階に対するプロセスフロー図である。正規化関心対象物画像610はテクストン処理ユニット240によってフィルターされる(ステップS710)。このフィルターリングは通常は図5で上述されたように同様のやり方で同じフィルターを使って実行される。テクストン処理ユニット240はそれからフィルター応答画像620を図5におけるのと同様のやり方でフィルター応答ベクトル621a-621(M*N)へと再配列する(ステップS720)。ステップS730では、テクストン処理ユニット240は、正規化された関心対象物画像610における各画素に1対1で関連づけられたフィルター応答ベクトル621a-621(M*N)を、テクストンボキャブラリー440内の最も近いテクストンに写像する。この写像(mapping)はどのテクストンがフィルター応答ベクトル間のユークリッド距離を最小にするかを決定することによって完遂される。当業者に既知の他の距離測定基準も使用できる。テクストン処理ユニット240はそして写像されたテクストンの各々に対応するテクストンラベルを、テクストンアレイ630を作り上げつつそれぞれの画素位置に割り当て付与する(ステップS730)。
[類似性の決定]
一旦テクストンが正規化された関心対象物410に対し生成されると、それらの類似性が他のクラス間あるいはクラス内関心対象物についての他のテクストンと比較される。このタスクは、2つの関心画像を与えられてそれらが同一対象物に属するか否かを決定するということになる。顔の認識および照合の問題においては、このタスクは2つの顔画像が同一人物に属するかどうかを決定することである。本発明の実施態様に従って2つのアプローチ、ここで言うテクストン相関モデルおよびフィッシャーテクストンについて、以下詳細に説明される。しかしながら当業者は対象物の認識および/または照合を実行するために、他の手法が画像化された(imaged)対象物のテクストン表現と関連して使用することができることは理解するであろう。
[テクストン相関モデル]
異なる条件下で画像化された対象物の比較を行う一つのアプローチは、変化するイメージング(画像化)条件の結果として生ずるテクストン変化を表現できるモデルを開発することである。そのようなモデルは対象物クラス内、すなわち、たとえば照明とかポーズとかその他の変化、での認識および/または照合を可能にする。テクストン相関モデルは確率的アプローチであり、それは種々の変化するイメージング条件下で対象物がその外観をどのように変化させるかを決定し、種々の条件下、たとえば広範囲にわたる照明、ポーズおよび何年もの年月経過、での人の単一の画像から顔を認識する。テクストン相関モデルには2つの異なる段階がある。最初の段階はトレーニングとみなされ、2つ目の段階は認識とみなされる。トレーニング段階では、2つの条件付確率表が対象物画像に関するデータベースから学習によって得られる。顔の認識と照合の場合、このデータベースは異なる人々の顔画像を有する。学習によって得られたこれらの確率表は、関心対象物の他の事例に対して適用される。顔に関しては、これらの確率表は2つの顔画像がどの位類似しているかを教え、どの位の確かさでそれらが同一人物から来ているかに関する類似性尺度を与える。認識段階においては、この確率表は2つの識別可能な画像に含まれる対象物表現は同じ対象物によって作られていたという尤度(確からしさ)を決定するために用いられる。
図8はテクストン相関モデルにおける確率表を学習する(学習によって得る)基本についての説明図である(すなわちトレーニング段階)。テクストン相関モデルは対象物クラス内においては全ての事例に対して通用する固有の変動を学習する。顔認識との関連においては、その固有の変動は、適切に正規化された顔画像の大きな集合(グループ)から学習される。顔画像は正規化された基準対象物データベース510に含まれている。データベース510は大きな基準対象物のセットを有していて、各々は種々の関心の範囲にわたって画像化されている。顔の場合、このデータベースは、異なる照明条件やポーズや年齢や顔の表情その他を有する多数の画像付きで、異なる人々の大きなセットを持っている。これら対象物のアイデンティティ(たとえば特定の人のような)は通常知られている。一人の人における固有の変動と個々人の間における差異は単一のモデル810において捕捉される。モデル810は本質的に2つのこと、すなわち(1)対象物クラス内で生ずる異なる変動に対してどのようにテクストンは変化するか、および(2)2つのクラス間でどのようにテクストンは変化するか、を予測する。一旦これらの変化について学習がなされると、それらは新規な対象のグループに対しても適用できるようになり、モデル化されたクラス内の変動を乗り越えて、関心対象の単一の画像から認識が実現されることになる。より具体的には、2つの顔画像が与えられたとして、それらが同じ人から来ている尤度と二人の異なる人から来ている尤度とを予測する。これら2つの尤度の比較によって2つの写真の人たちは同一人物か否か知ることが出来る。
以下のセクションはこのモデルがどのように生成されるかが本発明の実施例に従って説明される。Mを関心対象物の正規化対象物画像(すなわち“モデル”)とする、たとえばMは顔認識のために認識するある個人の顔である。Iを、入ってくるすでに正規化された対象物画像(すなわち“プローブ”(probe))とする。顔認識のタスクは、IはMと同じ対象物かどうかを決定することである。
TMは対象物Mに対するテクストン割り当て付与を表し、TIは対象物Iに対するテクストン割り当て付与を表す。Psame(TI|TM)はIがモデル対象物Mと同じ対象物である確率であり、Pdiff(TI|TM)はIがモデル対象物Mとは異なる対象物であることを示す確率である。それらが同じ対象物であるかどうかを決定するために使われる尤度比は次のように定義される。
Figure 0004505733
尤度比は画像とモデルの間の類似性尺度として用いられる。これはその顔がモデルに一致するかどうかを決めるために、あるいは分類法として、入ってくる画像を最も高い尤度比スコアーL を有するクラスへ割り当てるために、L(TI|TM)に対する閾値を確立することによって実現される。
尤度比を計算するために、 Psame(TI|TM) および Pdiff(TI|TM) が決定される。これら2つの関数は対象物のトレーニング用データベースから学習される。テクストンラベルは位置に関して独立であるという仮定が計算を下記のように単純化するためになされる。
Figure 0004505733
ここで“x”はテクストンアレイにおける各画素位置を表す。
テクストンの離散的性質は、たとえばガウス分布を仮定するような単純化を行うことなしに、上記の確立が決定されることを可能にする。TI(x)はテクストンボキャブラリーの要素であり、スカラー量である。すなわちTI(x)( [1. . . K]. テクストンボキャブラリーは一般的で全ての対象物に対して適用できることを想起してみる。これは同様にTM(x)([1、 … K] であることを意味する。テクストンボキャブラリーのサイズがKであることを考慮すると、Psame(TI(x)|TM(x)) および Pdiff(TI(x)|TM(x)) は各々完全にK×Kの条件付確率表として表現できる。これら両方の確率表は以下において、条件付テクストン分布モデルと称し、それらは正規化基準対象物データベース510に含まれるトレーニング用データを通じて完全に学習される。この表の計算の詳細は以下に説明される。
トレーニングセット(正規化基準対象物データベース510に含まれている全ての画像あるいはその幾つかのサブセット)で複数の正規化された対象物を有するものをTとする。CMをMとして同じクラスに属する全てのトレーニング用データのセットとする。a、b ( [1、 . . . 、 K) をボキャブラリーにおける2つのテクストン要素とする。K×Kの確率表における項目(entries)は以下のように累積される。(x 依存性が表記を単純化するために間接的に暗示されていることに留意)
Figure 0004505733
Z1およびZ2は確率Psame およびPdiffを構成するための正規化定数である。関数1(a、c、CM)(もしTI=a、TM=b、I(CM ならば(TI、TM、I)=1であり、それ以外の場合は0である。もしTI=a、TM=b、I( CMならば(a、c、CM)(TI、TM、I)=1であり、それ以外の場合は0である。換言すれば、Psame(TI=a|TM=b)の意味するところは、各画素位置"x"において、我々は同一人物に属するデータベースにおける顔画像IおよびMの全ての一対(ペア)に対して、テクストンaがTIにおいて生じる回数およびテクストンbがTMにおいて生ずる回数をカウントすること、である。同様にPdiff(TI=a|TM=b)は顔画像IおよびMが二人の異なる人々に属する時のカウントを指す。
これら2つの条件付確率表は、正規化基準対象物データベース510からのトレーニング用セットから学習して得られる。しかしながらそれらはデータベース内およびデータベース外のどの一対に対しても適用できる。それらは種々のイメージング条件下での一対の同一あるいは異なる対象物の間で生ずる固有変動を表している。これら2つの学習して得られた条件付確率表を尤度比L(TI|TM)に適用することによって、いかなるモデルといかなる入ってくる画像との間の類似性も計算できる。
トレーニング用セットはこれら2つの確率表を学習するのに使用される。一旦学習されると、そのトレーニングセットは不要となる。これら2つの確率表は一回だけ、大抵はオフラインで学習される。実際の顔認識および照合の間は、モデル画像とプローブ画像に対するテクストンラベルのみが計算される。どの画像(モデルあるいはプローブ)に対しても、それは先ず最初にフィルターセットを用いてフィルターされる。各画素はフィルター応答のベクトルとなる。テクストンラベルは、その画素のフィルター応答とテクストンボキャブラリーのフィルター出力の間のユークリッド距離に基づいて、各フィルター応答に対して割り当て付与される。換言すれば、テクストン付与の後は、各画像(たとえば30×30)は30×30の整数行列になる。行列における各要素は1からKのスカラー量である。
図9は本発明の実施態様に従ったテクストン相関モデルのトレーニング段階に対するプロセスフロー図を示す。このプロセスの間、条件付テクストン分布モデルが2つの条件付確率表の形で実現される。トレーニング段階では最初に、複数の正規化された基準対象物画像によって構成されるトレーニング用データベースに含まれる画像を利用する(すなわち正規化基準対象物データベース510)。テクストン処理ユニット240はテクストンを、正規化基準対象物データベース510、あるいはそのサブセットにおける各画像へ割り当て付与し、テクストンアレイを形成する(ステップS910)。テクストン処理ユニット240は上述されたようにテクストン生成の割り当て付与段階における方法を用いることができる。類似性決定ユニット250がそれから一対のテクストンアレイを選択する(ステップS920)。一対のテクストンアレイにおける各位置において、類似性決定ユニット250は、既知のアイデンティティ情報を用いて、そのテクストンラベルが同一クラスにあるかどうかをチェックする(ステップS930)。もしそのテクストンラベルが同一クラスには無い場合には、類似性決定ユニット250は条件付確率表Pdiff において比較しながらそのテクストンラベルに対応する要素を1つ増加する(ステップS940)。もしそのテクストンラベルが同一クラスにある場合には、類似性決定ユニット250は条件付確率表Psame におけるそのテクストンラベルに対応する要素が1つ増加される(ステップS950)。類似性決定ユニット250はこのプロセスを、その一対(すなわち“pixels”)内の個々のテクストンの全てが処理されるまでその一対のテクストンアレイに対して繰り返す(ステップS960)。一旦これが完了すると、類似性決定ユニット250は、新しい一対のテクストンアレイを選択し、正規化基準対象物データベースにおける画像から生成される一対のテクストンアレイの全てが処理されるまでこのプロセスを繰り返す(ステップS970)。この時点で、類似性決定ユニット250は条件付確率表における項目(entries)を正規化する(ステップS980)。
図10は本発明の実施態様に従ったテクストン相関モデルの認識段階に対するプロセスフロー図であり、2つの顔画像の類似性を決定するために、テクストン相関モデルにおける学習によって得られた条件付確率表がどのように用いられるかを示している。最初にプローブ画像とモデル画像は対応するテクストン表現に写像される(ステップS1010およびS1020)。各画像はいまや整数行列(たとえば30×30)に変換され、その各要素はテクストンボキャブラリーの一員である。すなわちTM(x)=a([1、…、K]およびTI(x)=b([1、…、K]ここでKはテクストンボキャブラリーのサイズである。各位置"x"に対し、学習された確率表からPsame(a、b)が読み出される(ステップS1030)。画像全体にわたる全体類似性であるPsame、が、個々の値を全ての位置"x"にわたって掛けることにより得られる(ステップS1040)。
同様に、Pdiffに対して、各位置"x"に対し、Pdiff(a、b)が対応する学習された確率表から読み出される(ステップS1050)。画像全体にわたる全体非類似性であるPdiffが、個々の値を全ての位置"x"にわたって掛けることにより得られる(ステップS1060)。考慮中の2つの画像が同一の人物から来ている尤度は、2つの尺度をPsame/Pdiff のように割り算することで得られる(ステップS1070)。
[フィッシャーテクストン]
ここまでで示された条件付テクストン分布モデルは、テクストン割り当て付与は位置について独立しているという仮定をしている。これは通常正確な仮定ではない。たとえば左目と右目の外観は明らかに相互に関連がある。しかしながらこの仮定は尤度比が効率的に計算できることを可能にする。フィッシャーテクストンでは対象物の特徴間の相互関連を無視しない。特にフィッシャーテクストンは2次の相関も考慮する(すなわち位置的な相関は2次項として捉えられる)。しかしながらイメージング条件の相関は同様に2次項にしか捉えられない。一方、条件付テクストン分布モデルの方は、変化するイメージング条件下での正確なテクストン分布を捉えるために、位置依存性を犠牲にしている。
フィッシャーテクストンのモデル化においては2段階がある。第一段階はトレーニングである。トレーニング段階においては、アイデンティティ既知の対象物のデータベースを用いて線形射影(projection)ベクトルのセットが計算されることになる。これらの射影ベクトルはフィッシャーテクストンと呼ばれる。このフィッシャーテクストンは異なる個々人を良く識別できるように選ばれる。トレーニング段階は通常前以て実行されている。しかしながら認識および/または照合の間に実行することもでき、以前に決定されたフィッシャーテクストンを絶え間なくアップデートすることが出来る。第二段階は認識である。この段階において正規化された対象物画像はフィッシャーテクストン上に射影される。2つの正規化対象物画像の射影間の距離が、2つの画像の類似性を符号化するために用いられる。
図11は本発明の実施態様に従ったフィッシャーテクストンのトレーニング段階に対するプロセスフロー図である。 上述したように、テクストンの割り当て付与の後(一旦テクストンアレイが形成されてしまう)、トレーニングセットにおける総ての対象物はM×Nのテクストンアレイに変換され、大抵はM=N=30である(ステップS1110)。このアレイにおける各要素TI(x)は1、 . . . 、 K、の値をとり、ここでKは各要素におけるテクストンボキャブラリーのサイズである。典型的なKの値は大体8から10である。テクストンアレイにおける各要素は長さKのインジケーターベクトル:[0、 . . .、0、1、0、 . . . 、0]、TI(x)=kの場合、k番目要素が1、変換される。(ステップS1120)。このインジケーターベクトルは一緒に連結され、テクストンアレイは一つの(M*N*K)次元ベクトルによって表現される(すなわち上記の典型的値を用いると、このベクトルは9000次元を有する)(ステップS1120)。
そしてフィッシャー線形判別分析が、トレーニング用データベースにおける正規化画像から得られたこれらのベクトルに関して実行され、対象物を異なるクラスに分離するのに最も良い射影方向(projection directions)を得る(顔認識に対しては、異なる人々から顔を最もうまく分離するベクトルをこのプロセスが見出す)(ステップS1130)。これら射影ベクトルはフィッシャーテクストンと呼ばれる。フィッシャー線形判別式は、"Pattern Classification、" R. Duda、 P. Hart and D. Stork、 Wiley 2001、に詳細が記載されており、出願のための援用がされる。当業者は他の判別分析手法も使えることは理解するであろう。
フィッシャーテクストンの決定は、まず最初に以下の方程式を用いてクラス内変動行列の計算を始めることから始まる。
Figure 0004505733
ここでc はクラスの数であり、Ciはクラスiに属するトレーニング用実例のセットである。更にni = |Ci| および n=(ic niである。クラス間変動行列は次のように定義される。
Figure 0004505733
ここでmは全平均ベクトル(total mean vector)である。
Figure 0004505733
目標は次の基準関数(criteria function)の値を最大にする行列Vの値である。
Figure 0004505733
最適行列Vベクトルの列は、次の方程式における最大の固有値に対する一般化固有ベクトルである。
Figure 0004505733
ベクトルviは、対象物を異なるクラスに分類するための必須情報を捕捉する射影方向(projection directions)(すなわちフィッシャーテクストン)である。この考えは、多数のトレーニング用実例が用いられるとき、ベクトルviはトレーニング用のセットの中には居なかった人々を識別可能にするということである。
図12は本発明の実施態様に従ったフィッシャーテクストンの認識段階に対するプロセスフロー図である。一旦フィッシャーテクストンが見つかると、それらは、どのような対象物でも、たとえば顔を、それがトレーニング用データベースの中にあろうとなかろうと認識するために使用できる。この認識段階はテクストンラベルを正規化されて入ってくる対象物画像(すなわち認識される予定の“プローブ画像”)に割り当て付与することで始まる(ステップS1210)。正規化された対象物を有するプローブ画像の各々は、そのテクストン表現に変換され、上述したようにベクトル化される(ステップS1220)。このベクトルはそれからフィッシャーテクストンvi'sに射影される(ステップS1230)。この認識段階はさらにテクストンラベルを関心対象物の正規化対象物画像(すなわちそれに対して比較がなされる“モデル画像”)に割り当て付与することで進行する(ステップS1240)。モデル画像の各々は、そのテクストンをベクトル化される(ステップS1250)。これらのベクトルはフィッシャーテクストンvi's に射影される(ステップS1260)。プローブ画像中で見つかった対象物とモデル画像の比較が、たとえば、ステップS1230で決められる“プローブベクトル”の射影と、ステップS1260で決められる“モデル”ベクトルの射影の間のユークリッド距離を計算することによって決定される(ステップS1270)。他のプローブ画像を使ったユークリッド距離の比較もなされ、この距離を最小にするものがモデル画像に一致するものとして決定される。当業者に知られている他の測定基準もこの比較をするために使われる。
以上、本発明の詳細な実施態様および実施例が説明されてきたが、本発明の本質と範囲を逸脱することなく種々の変更修正等が可能なことはもちろんである。
本発明の実施態様に従った対象物認識および/または照合を実行するシステムのブロック図 本発明の実施態様に従った画像処理ユニットの詳細を示すブロック図 本発明の実施態様に従った全体のプロセスフロー図 本発明の実施態様に従ったテクストン生成のトレーニング段階の基本についての説明図 本発明の実施態様に従ったテクストン生成のトレーニング段階に対するプロセスフロー図 本発明の実施態様に従ったテクストン生成のテクストン割り当て付与段階の基本についての説明図 本発明の実施態様に従ったテクストン生成のテクストン割り当て付与段階に対するプロセスフロー図 本発明の実施態様に従ったテクストン相関モデルに対するトレーニング段階の基本について示している。 本発明の実施態様に従ったテクストン相関モデルのトレーニング段階に対するプロセスフロー図 本発明の実施態様に従ったテクストン相関モデルの認識段階に対するプロセスフロー図 本発明の実施態様に従ったフィッシャーテクストンのトレーニング段階に対するプロセスフロー図 本発明の実施態様に従ったフィッシャーテクストンの認識段階に対するプロセスフロー図

Claims (42)

  1. デジタル画像データにおける対象物を自動的に認識する方法であって、
    入力されたデジタル画像データにおける関心対象物を検出するステップと、
    正規化関心対象物を得るステップと、
    前記正規化関心対象物のテクストン表現を割り当て付与して第一のテクストンアレイを形成するステップと、
    テクストン相関モデルを用いてテクストン生成トレーニングを行うステップと、
    前記テクストン表現と少なくとも一つの他の対象物についての前以て決定されているテクストン表現の間の類似性を決定するステップと、
    を備え、
    前記関心対象物を検出するステップ及び前記正規化関心対象物を得るステップでは、複数の画像から複数の基準対象物を検出して正規化し、
    前記第一のテクストンアレイを形成するステップは、
    前記複数の正規化基準対象物を形成している画素に基づいて第一の複数のフィルター応答を得るステップと、
    前記第一の複数フィルター応答に基づいて第一の複数ベクトルを形成するステップと、
    前記複数のグループの各々にテクストンラベルを付与するステップと、
    前記第一の複数ベクトルを複数のグループにクラスター化するステップと、
    を有し、
    前記テクストン相関モデルを用いてテクストン生成トレーニングを行うステップは、
    前記複数の正規化基準対象物からのトレーニング用セットに属する画像から複数のテクストンアレイを形成するステップと、
    前記複数のテクストンアレイから一対のテクストンアレイを選択するステップと、
    前記一対のテクストンアレイにおける各要素に対して、前記テクストンラベルの一対が同一クラスにあるかどうかを決定するステップと、
    前記テクストンラベルの一対が同一のクラスにあると決定することに基づいて第一の条件付確率表において要素を1つ増加するステップと、
    前記テクストンラベルの一対が異なるクラスにあると決定することに基づいて第二の条件付確率表において要素を1つ増加するステップと、
    前記選択するステップ、前記決定するステップおよび各増加するステップを前記テクストンアレイの全ての一対が処理されるまで繰り返すステップと、
    前記第一および第二の条件付確率表を正規化するステップと、
    を有することを特徴とするデジタル画像データ対象物の自動認識方法。
  2. 前記正規化関心対象物を形成する画素に基づいて第二の複数のフィルター応答を得るステップと、
    前記第二の複数フィルター応答に基づいて第二の複数ベクトルを形成するステップと、
    前記正規化関心対象物を形成する画素の各々にテクストンラベルを割り当て付与することにより第一のテクストンラベルアレイを作成するステップと、
    を更に有することを特徴とする請求項1記載のデジタル画像データ対象物の自動認識方法。
  3. 前記第一および第二の複数フィルター応答が複数の循環対称ガウスフィルターの水平および垂直導関数を用いて得られ、更に前記複数のガウスフィルターは複数のスケールを有することを特徴とする請求項2記載のデジタル画像データ対象物の自動認識方法。
  4. 前記ガウスフィルターは分離可能であることを特徴とする請求項3記載のデジタル画像データ対象物の自動認識方法。
  5. 前記第一および第二の複数ベクトルの各々は、前記第一および第二のフィルター応答を得るために用いられるフィルターの数に基づく長さを有することを特徴とする請求項3記載のデジタル画像データ対象物の自動認識方法。
  6. 前記クラスター化ステップはK-ミーンズ・クラスター化アルゴリズムを有することを特徴とする請求項1記載のデジタル画像データ対象物の自動認識方法。
  7. 前記トレーニング用セットはクラス内画像変動に基づいていることを特徴とする請求項1記載のデジタル画像データ対象物の自動認識方法。
  8. 前記トレーニング用セットは異なるイメージング条件下における同一対象物の画像に基づいていることを特徴とする請求項1記載のデジタル画像データ対象物の自動認識方法。
  9. 前記第一および第二の条件付確率表は、テクストンラベルは前記関心対象物における位置に独立であるという仮定に基づいて計算されることを特徴とする請求項1記載のデジタル画像データ対象物の自動認識方法。
  10. 前記類似性は前記第一および第二確率の尤度比に基づいていることを特徴とする請求項1記載のデジタル画像データ対象物の自動認識方法。
  11. 第二のテクストンアレイを形成するためにプローブ画像にテクストンラベルを割り当て付与するステップと、
    前記第一および第二テクストンアレイにおける各位置に対して、前記正規化関心対象物と前記プローブ画像のテクストン値が同じである第一の確率を前記第一の条件付確率表を用いて決定するステップと、
    全ての前記第一の確率を掛けることによって全体類似性の確率を決定するステップと、
    前記第一および第二テクストンアレイにおける各位置に対して、前記正規化関心対象物と前記プローブ画像のテクストン値が異なっている第二の確率を前記第二の条件付確率表を用いて決定するステップと、
    全ての前記第二の確率を掛けることによって全体非類似性の確率を決定するステップと、
    前記全体類似性確率と全体非類似性確率を用いて尤度比を計算するステップと、
    前記正規化関心対象物と前記モデル画像の類似性を前記尤度比を用いて決定するステップと、を更に有する、
    ことを特徴とする請求項1記載のデジタル画像データ対象物の自動認識方法。
  12. 前記関心対象物は顔であり、
    前記デジタル画像データ対象物の自動認識方法は、顔認識を実行するステップを更に有する、
    ことを特徴とする請求項1記載のデジタル画像データ対象物の自動認識方法。
  13. 前記関心対象物は顔であり、
    前記デジタル画像データ対象物の自動認識方法は、顔照合を実行するステップを更に有する、
    ことを特徴とする請求項1記載のデジタル画像データ対象物の自動認識方法。
  14. 前記関心対象物は顔であり、
    前記テクストン表現は顔の特徴を符号化する、
    ことを特徴とする請求項1記載のデジタル画像データ対象物の自動認識方法。
  15. クラス内で識別できる顔の特徴を区別するトレーニング用セットを生成するステップを有する、
    ことを特徴とする請求項1記載のデジタル画像データ対象物の自動認識方法。
  16. 少なくともひとつの異なるクラスにわたって識別できる顔の特徴を区別するトレーニング用セットを生成するステップを更に有する、
    ことを特徴とする請求項1記載のデジタル画像データ対象物の自動認識方法。
  17. デジタル画像データにおける対象物を自動的に認識する方法であって、
    入力されたデジタル画像データにおける関心対象物を検出するステップと、
    正規化関心対象物を得るステップと、
    前記正規化関心対象物のテクストン表現を割り当て付与して第一のテクストンアレイを形成するステップと、
    複数のテクストンアレイを作成するために、テクストンラベルを前記複数の正規化基準対象物に割り当て付与するステップと、
    前記複数のテクストンアレイをベクトルに変換するステップと、
    前記ベクトルを用いてフィッシャー線形判別分析を計算してフィッシャーテクストンを形成するステップと、
    前記テクストン表現と少なくとも一つの他の対象物についての前以て決定されているテクストン表現の間の類似性を決定するステップと、
    を備え、
    前記関心対象物を検出するステップ及び前記正規化関心対象物を得るステップでは、複数の画像から複数の基準対象物を検出して正規化し、
    前記第一のテクストンアレイを形成するステップは、
    前記複数の正規化基準対象物を形成している画素に基づいて第一の複数のフィルター応答を得るステップと、
    前記第一の複数フィルター応答に基づいて第一の複数ベクトルを形成するステップと、
    前記第一の複数ベクトルを複数のグループにクラスター化するステップと、
    を有することを特徴とするデジタル画像データ対象物の自動認識方法。
  18. 前記第一テクストンアレイを用いて第一のベクトルを生成するステップと、
    前記第一ベクトルを前記フィッシャーテクストン上へ射影することによって第一射影を決定するステップと、
    テクストンラベルをプローブ画像へ割り当て付与して第二テクストンアレイを形成するステップと、
    前記第二テクストンアレイを用いて第二のベクトルを生成するステップと、
    前記第二ベクトルを前記フィッシャーテクストン上へ射影することによって第二射影を決定するステップと、
    前記第一および第二射影を用いて前記正規化関心対象物と前記プローブ画像の類似性を決定するステップと、
    を更に有することを特徴とする請求項17記載のデジタル画像データ対象物の自動認識方法。
  19. 前記関心対象物は顔であり、
    前記デジタル画像データ対象物の自動認識方法は、顔認識を実行するステップを更に有する、
    ことを特徴とする請求項17記載のデジタル画像データ対象物の自動認識方法。
  20. 前記関心対象物は顔であり、
    前記デジタル画像データ対象物の自動認識方法は、顔照合を実行するステップを更に有する、
    ことを特徴とする請求項17記載のデジタル画像データ対象物の自動認識方法。
  21. 前記関心対象物は顔であり、
    前記テクストン表現は顔の特徴を符号化する、
    ことを特徴とする請求項17記載のデジタル画像データ対象物の自動認識方法。
  22. デジタル画像データにおける対象物を自動的に認識するための装置であって、
    メモリーと機能的処理ユニットに操作可能に接続されていて認識処理を制御するための画像処理制御ユニットを有し、
    前記機能的処理ユニットは、
    入力デジタル画像データにおける関心対象物の検出のための対象物検出ユニットと、
    正規化された関心対象物を得るための正規化ユニットと、
    第一のテクストンアレイを形成するために、テクストン相関モデルを用いて、正規化された関心対象物のテクストン表現を割り当て付与するためのテクストン生成ユニットと、
    前記テクストン表現と少なくとも一つの他の対象物についての前以て決定されているテクストン表現の間の類似性を決定するための類似性ユニットと、
    を備え、
    前記検出ユニットおよび正規化ユニットはそれぞれ複数の画像からの複数の基準対象物を検出、正規化し、
    更に前記テクストン生成ユニットは、前記複数の正規化基準対象物を形成している画素に基づいて第一の複数のフィルター応答を得、
    前記第一の複数フィルター応答に基づいて第一の複数ベクトルを形成し、
    前記第一の複数ベクトルを複数のグループにクラスター化し、各グループはテクストンラベルを付与され、
    前記テクストン生成ユニットは、前記複数の正規化基準対象物からのトレーニング用セットに属する画像から複数のテクストンアレイを形成し、
    更に前記類似性決定ユニットは、前記複数のテクストンアレイから一対のテクストンアレイを選択し、
    前記一対のテクストンアレイにおける各要素に対して、前記テクストンラベルの一対が同一クラスにあるかどうかを決定し、
    前記テクストンラベルの一対が同一のクラスにあると決定することに基づいて第一の条件付確率表において要素を1つ増加し、
    前記テクストンラベルの一対が異なるクラスにあると決定することに基づいて第二の条件付確率表において要素を1つ増加し、
    前記選択し、前記決定し、および各増加することを前記テクストンアレイの全ての一対が処理されるまで繰り返し、
    前記第一および第二の条件付確率表を正規化する、
    ことを特徴とするデジタル画像データ対象物の自動認識装置。
  23. 前記テクストン生成ユニットは、前記正規化関心対象物を形成する画素に基づいて第二の複数のフィルター応答を得、
    前記第二の複数フィルター応答に基づいて第二の複数ベクトルを形成し、
    前記正規化関心対象物を形成する画素の各々にテクストンラベルを割り当て付与することにより第一のテクストンラベルアレイを作成する、
    ことを特徴とする請求項22記載のデジタル画像データ対象物の自動認識装置。
  24. 前記第一および第二の複数フィルター応答が複数の循環対称ガウスフィルターの水平および垂直導関数を用いて得られ、
    前記複数のガウスフィルターは複数のスケールを更に有する、
    ことを特徴とする請求項23記載のデジタル画像データ対象物の自動認識装置。
  25. 前記ガウスフィルターは分離可能であることを特徴とする請求項24記載のデジタル画像データ対象物の自動認識装置。
  26. 前記第一および第二の複数ベクトルの各々は、前記第一および第二のフィルター応答を得るために用いられるフィルターの数に基づく長さを有することを特徴とする請求項24記載のデジタル画像データ対象物の自動認識装置。
  27. 前記クラスター化はK-ミーンズ・クラスター化アルゴリズムを更に有する、
    ことを特徴とする請求項22記載のデジタル画像データ対象物の自動認識装置。
  28. 前記トレーニング用セットはクラス内画像変動に基づいている、
    ことを特徴とする請求項22記載のデジタル画像データ対象物の自動認識装置。
  29. 前記トレーニング用セットは異なるイメージング条件下における同一対象物の画像に基づいている、
    ことを特徴とする請求項28記載のデジタル画像データ対象物の自動認識装置。
  30. 前記第一および第二の条件付確率表は、テクストンラベルは前記関心対象物における位置に独立であるという仮定に基づいて計算される、
    ことを特徴とする請求項22記載のデジタル画像データ対象物の自動認識装置。
  31. 前記類似性は前記第一および第二確率の尤度比に基づいている、
    ことを特徴とする請求項22記載のデジタル画像データ対象物の自動認識装置。
  32. 前記類似性決定ユニットは
    第二のテクストンアレイを形成するためにプローブ画像にテクストンラベルを割り当て付与し、
    前記第一および第二テクストンアレイにおける各位置に対して、前記正規化関心対象物と前記プローブ画像のテクストン値が同じである第一の確率を前記第一の条件付確率表を用いて決定し、
    全ての前記第一の確率を掛けることによって全体類似性の確率を決定し、
    前記第一および第二テクストンアレイにおける各位置に対して、前記正規化関心対象物と前記プローブ画像のテクストン値が異なっている第二の確率を前記第二の条件付確率表を用いて決定し、
    全ての前記第二の確率を掛けることによって全体非類似性の確率を決定し、
    前記全体類似性確率と全体非類似性確率を用いて尤度比を計算し、
    前記正規化関心対象物と前記モデル画像の類似性を前記尤度比を用いて決定する、
    ことを特徴とする請求項22記載のデジタル画像データ対象物の自動認識装置。
  33. 前記関心対象物は顔であり、前記類似性決定ユニットは顔認識を実行する、
    ことを特徴とする請求項22記載のデジタル画像データ対象物の自動認識装置。
  34. 前記関心対象物は顔であり、前記類似性決定ユニットは顔照合を実行する、
    ことを特徴とする請求項22記載のデジタル画像データ対象物の自動認識装置。
  35. 前記関心対象物は顔であり、前記テクストン表現は顔の特徴を符号化する、
    ことを特徴とする請求項22記載のデジタル画像データ対象物の自動認識装置。
  36. 前記類似性決定ユニットは、クラス内で識別できる顔の特徴を区別するトレーニング用セットを生成する、
    ことを特徴とする請求項22記載のデジタル画像データ対象物の自動認識装置。
  37. 前記類似性決定ユニットは、少なくともひとつの異なるクラスにわたって識別できる顔の特徴を区別するトレーニング用セットを生成する、
    ことを特徴とする請求項22記載のデジタル画像データ対象物の自動認識装置。
  38. デジタル画像データにおける対象物を自動的に認識するための装置であって、
    メモリーと機能的処理ユニットに操作可能に接続されていて認識処理を制御するための画像処理制御ユニットを有し、
    前記機能的処理ユニットは、
    入力デジタル画像データにおける関心対象物の検出のための対象物検出ユニットと、
    正規化された関心対象物を得るための正規化ユニットと、
    第一のテクストンアレイを形成するために、正規化された関心対象物のテクストン表現を割り当て付与するためのテクストン生成ユニットと、
    前記テクストン表現と少なくとも一つの他の対象物についての前以て決定されているテクストン表現の間の類似性を決定するための類似性ユニットと、
    を備え、
    前記検出ユニットおよび正規化ユニットはそれぞれ複数の画像からの複数の基準対象物を検出、正規化し、
    更に前記テクストン生成ユニットは、前記複数の正規化基準対象物を形成している画素に基づいて第一の複数のフィルター応答を得、
    前記第一の複数フィルター応答に基づいて第一の複数ベクトルを形成し、
    前記第一の複数ベクトルを複数のグループにクラスター化し、各グループはテクストンラベルを付与され、
    前記テクストン生成ユニットは、複数のテクストンアレイを作成するために、テクストンラベルを前記複数の正規化基準対象物に割り当て付与し、
    前記類似性決定ユニットは、前記複数のテクストンアレイをベクトルに変換し、前記ベクトルを用いてフィッシャー線形判別分析を計算してフィッシャーテクストンを形成する、
    ことを特徴とするデジタル画像データ対象物の自動認識装置。
  39. 前記類似性決定ユニットは、
    前記第一テクストンアレイを用いて第一のベクトルを生成し、
    前記第一ベクトルを前記フィッシャーテクストン上へ射影することによって第一射影を決定し、
    テクストンラベルをプローブ画像へ割り当て付与して第二テクストンアレイを形成し、
    前記第二テクストンアレイを用いて第二のベクトルを生成し、
    前記第二ベクトルを前記フィッシャーテクストン上へ射影することによって第二射影を決定し、
    前記第一および第二射影を用いて前記正規化関心対象物と前記プローブ画像の類似性を決定する、
    ことを特徴とする請求項38記載のデジタル画像データ対象物の自動認識装置。
  40. 前記関心対象物は顔であり、前記類似性決定ユニットは顔認識を実行する、
    ことを特徴とする請求項38記載のデジタル画像データ対象物の自動認識装置。
  41. 前記関心対象物は顔であり、前記類似性決定ユニットは顔照合を実行する、
    ことを特徴とする請求項38記載のデジタル画像データ対象物の自動認識装置。
  42. 前記関心対象物は顔であり、前記テクストン表現は顔の特徴を符号化する、
    ことを特徴とする請求項38記載のデジタル画像データ対象物の自動認識装置。
JP2004331174A 2003-11-14 2004-11-15 テクストンを用いる対象物認識方法及び装置 Expired - Fee Related JP4505733B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US51963903P 2003-11-14 2003-11-14
US10/979,175 US7680330B2 (en) 2003-11-14 2004-11-03 Methods and apparatus for object recognition using textons

Publications (2)

Publication Number Publication Date
JP2005149507A JP2005149507A (ja) 2005-06-09
JP4505733B2 true JP4505733B2 (ja) 2010-07-21

Family

ID=34704214

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2004331174A Expired - Fee Related JP4505733B2 (ja) 2003-11-14 2004-11-15 テクストンを用いる対象物認識方法及び装置

Country Status (2)

Country Link
US (1) US7680330B2 (ja)
JP (1) JP4505733B2 (ja)

Families Citing this family (50)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4824411B2 (ja) * 2005-01-20 2011-11-30 パナソニック株式会社 顔抽出装置、半導体集積回路
JP2006293783A (ja) * 2005-04-12 2006-10-26 Fuji Photo Film Co Ltd 画像処理装置及び画像処理プログラム
US7720258B1 (en) 2006-01-26 2010-05-18 Adobe Systems Incorporated Structured comparison of objects from similar images
US7978936B1 (en) 2006-01-26 2011-07-12 Adobe Systems Incorporated Indicating a correspondence between an image and an object
US7813557B1 (en) 2006-01-26 2010-10-12 Adobe Systems Incorporated Tagging detected objects
US7706577B1 (en) 2006-01-26 2010-04-27 Adobe Systems Incorporated Exporting extracted faces
US7813526B1 (en) 2006-01-26 2010-10-12 Adobe Systems Incorporated Normalizing detected objects
US7716157B1 (en) 2006-01-26 2010-05-11 Adobe Systems Incorporated Searching images with extracted objects
US7636450B1 (en) 2006-01-26 2009-12-22 Adobe Systems Incorporated Displaying detected objects to indicate grouping
US7694885B1 (en) 2006-01-26 2010-04-13 Adobe Systems Incorporated Indicating a tag with visual data
US8259995B1 (en) * 2006-01-26 2012-09-04 Adobe Systems Incorporated Designating a tag icon
US7711145B2 (en) * 2006-01-27 2010-05-04 Eastman Kodak Company Finding images with multiple people or objects
US8027549B2 (en) * 2006-06-12 2011-09-27 D&S Consultants, Inc. System and method for searching a multimedia database using a pictorial language
US7870140B2 (en) * 2006-06-12 2011-01-11 D&S Consultants, Inc. System and method of incorporating user preferences in image searches
US7840060B2 (en) * 2006-06-12 2010-11-23 D&S Consultants, Inc. System and method for machine learning using a similarity inverse matrix
US7840059B2 (en) * 2006-09-21 2010-11-23 Microsoft Corporation Object recognition using textons and shape filters
US8504546B2 (en) * 2006-11-29 2013-08-06 D&S Consultants, Inc. Method and system for searching multimedia content
US20080123901A1 (en) * 2006-11-29 2008-05-29 D&S Consultants, Inc. Method and System for Comparing Images Using a Pictorial Edit Distance
US7921120B2 (en) 2006-11-30 2011-04-05 D&S Consultants Method and system for image recognition using a similarity inverse matrix
US7773811B2 (en) * 2006-12-06 2010-08-10 D & S Consultants, Inc. Method and system for searching a database of graphical data
JP4639208B2 (ja) 2007-03-16 2011-02-23 富士フイルム株式会社 画像選択装置、画像選択方法、撮像装置及びプログラム
WO2008126790A1 (ja) * 2007-04-09 2008-10-23 Nec Corporation 物体認識システム、物体認識方法および物体認識用プログラム
US7844085B2 (en) * 2007-06-07 2010-11-30 Seiko Epson Corporation Pairwise feature learning with boosting for use in face detection
WO2009037828A1 (ja) * 2007-09-21 2009-03-26 Panasonic Corporation 画像符号化装置および画像復号化装置
WO2009139161A1 (ja) * 2008-05-15 2009-11-19 株式会社ニコン 画像処理装置、画像処理方法、処理装置、処理方法およびプログラム
US8560488B2 (en) * 2008-08-08 2013-10-15 Nec Corporation Pattern determination devices, methods, and programs
FR2939325B1 (fr) * 2008-12-04 2015-10-16 Parrot Systeme de drones munis de balises de reconnaissance
AU2009347535B2 (en) * 2009-06-03 2015-05-28 Google Llc Co-selected image classification
US20110251493A1 (en) * 2010-03-22 2011-10-13 Massachusetts Institute Of Technology Method and system for measurement of physiological parameters
US8485975B2 (en) 2010-06-07 2013-07-16 Atheropoint Llc Multi-resolution edge flow approach to vascular ultrasound for intima-media thickness (IMT) measurement
US8532360B2 (en) 2010-04-20 2013-09-10 Atheropoint Llc Imaging based symptomatic classification using a combination of trace transform, fuzzy technique and multitude of features
US8708914B2 (en) 2010-06-07 2014-04-29 Atheropoint, LLC Validation embedded segmentation method for vascular ultrasound images
US8313437B1 (en) 2010-06-07 2012-11-20 Suri Jasjit S Vascular ultrasound intima-media thickness (IMT) measurement system
US8639008B2 (en) 2010-04-20 2014-01-28 Athero Point, LLC Mobile architecture using cloud for data mining application
KR20120085476A (ko) * 2011-01-24 2012-08-01 삼성전자주식회사 영상 재생 방법, 영상 재생 장치, 및 컴퓨터 판독가능 저장매체
US8306257B2 (en) * 2011-01-31 2012-11-06 Seiko Epson Corporation Hierarchical tree AAM
CN103620590B (zh) * 2011-02-03 2018-10-09 脸谱公司 用于图像至文本以及文本至图像的关联的系统和方法
US8903167B2 (en) 2011-05-12 2014-12-02 Microsoft Corporation Synthesizing training samples for object recognition
JP5828552B2 (ja) * 2011-12-22 2015-12-09 本田技研工業株式会社 物体分類装置、物体分類方法、物体認識装置及び物体認識方法
US8942468B1 (en) 2012-04-17 2015-01-27 Google Inc. Object recognition
US9008429B2 (en) * 2013-02-01 2015-04-14 Xerox Corporation Label-embedding for text recognition
US9262443B2 (en) 2013-05-15 2016-02-16 Canon Kabushiki Kaisha Classifying materials using texture
US9384423B2 (en) * 2013-05-28 2016-07-05 Xerox Corporation System and method for OCR output verification
US9524447B2 (en) * 2014-03-05 2016-12-20 Sizhe Tan Searching 2D image based on transformed 1D data matching
US9626594B2 (en) 2015-01-21 2017-04-18 Xerox Corporation Method and system to perform text-to-image queries with wildcards
KR102648194B1 (ko) * 2016-06-03 2024-03-14 매직 립, 인코포레이티드 증강 현실 아이덴티티 검증
CN108681710B (zh) * 2018-05-16 2020-11-27 北京理工大学 基于宽波段-高光谱红外图像融合方法的海天背景下舰船识别方法及装置
US20210312229A1 (en) * 2018-07-16 2021-10-07 Element Ai Inc. Selecting unlabeled data objects to be processed
CN109360170B (zh) * 2018-10-24 2020-08-14 北京工商大学 基于高级特征的人脸修复方法
CN112418197B (zh) * 2021-01-22 2021-05-07 北京世纪好未来教育科技有限公司 简化图像获取模型训练、图像文本识别方法及相关装置

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2003088132A1 (en) * 2002-04-12 2003-10-23 Agency For Science, Technology And Research Robust face registration via multiple face prototypes synthesis
JP2003317101A (ja) * 2002-04-23 2003-11-07 Samsung Electronics Co Ltd データベース自動更新方法を用いた顔検証方法及びそのシステム
US20030210808A1 (en) * 2002-05-10 2003-11-13 Eastman Kodak Company Method and apparatus for organizing and retrieving images containing human faces

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6028960A (en) * 1996-09-20 2000-02-22 Lucent Technologies Inc. Face feature analysis for automatic lipreading and character animation
US7149368B2 (en) * 2002-11-19 2006-12-12 Microsoft Corporation System and method for synthesis of bidirectional texture functions on arbitrary surfaces
US7436986B2 (en) * 2003-03-25 2008-10-14 Bausch & Lomb Incorporated Positive patient identification

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2003088132A1 (en) * 2002-04-12 2003-10-23 Agency For Science, Technology And Research Robust face registration via multiple face prototypes synthesis
JP2003317101A (ja) * 2002-04-23 2003-11-07 Samsung Electronics Co Ltd データベース自動更新方法を用いた顔検証方法及びそのシステム
US20030210808A1 (en) * 2002-05-10 2003-11-13 Eastman Kodak Company Method and apparatus for organizing and retrieving images containing human faces

Also Published As

Publication number Publication date
US20050147302A1 (en) 2005-07-07
US7680330B2 (en) 2010-03-16
JP2005149507A (ja) 2005-06-09

Similar Documents

Publication Publication Date Title
JP4505733B2 (ja) テクストンを用いる対象物認識方法及び装置
US11657525B2 (en) Extracting information from images
CN108460356B (zh) 一种基于监控系统的人脸图像自动处理系统
JP5801601B2 (ja) 画像認識装置、画像認識装置の制御方法、およびプログラム
JP4908505B2 (ja) 撮影者を利用した画像の分類
JP5121506B2 (ja) 画像処理装置、画像処理方法、プログラム及び記憶媒体
US11941918B2 (en) Extracting information from images
JP4443722B2 (ja) 画像認識装置及び方法
JP4543423B2 (ja) 対象物自動認識照合方法および装置
JP2004152297A (ja) 複数のキューを統合するための方法及びシステム
JP2006012130A (ja) 画像を表現する方法、この方法の使用により導出される記述子、この記述子の送信、受信、および記憶のいずれかを含む使用ないし記述子の記憶装置、顔の認識、検出、または分類を行う方法及び装置ないしそのコンピュータプログラム及びコンピュータ読み取り可能な記憶媒体
EP1573658A1 (en) Expression invariant face recognition
JP2019109709A (ja) 画像処理装置、画像処理方法およびプログラム
US11176679B2 (en) Person segmentations for background replacements
JP2011100229A (ja) 画像処理装置、画像処理方法
JP5241606B2 (ja) オブジェクト識別装置及びオブジェクト識別方法
JP2014041477A (ja) 画像認識装置及び画像認識方法
CN111079648A (zh) 数据集清洗方法、装置和电子系统
CN111666976A (zh) 基于属性信息的特征融合方法、装置和存储介质
CN114170690A (zh) 活体识别和构建活体识别模型的方法、装置
CN108427923B (zh) 一种掌纹识别方法及装置
CN107480628B (zh) 一种人脸识别方法及装置
JPH0520442A (ja) 顔画像照合装置
Nahar et al. Twins and Similar Faces Recognition Using Geometric and Photometric Features with Transfer Learning
JP4099981B2 (ja) 画像認識システム、画像認識方法および画像認識プログラム

Legal Events

Date Code Title Description
A711 Notification of change in applicant

Free format text: JAPANESE INTERMEDIATE CODE: A712

Effective date: 20070110

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20070628

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20100104

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20100303

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20100401

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20100414

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130514

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

LAPS Cancellation because of no payment of annual fees