JP2006510079A

JP2006510079A - 照度不変ニューラルネットワークを利用したコンピュータビジョンシステム及び方法

Info

Publication number: JP2006510079A
Application number: JP2004558261A
Authority: JP
Inventors: フィロミン，ヴァサント; ギュッタ，スリニヴァス; トライコヴィッチ，ミロスラフ
Original assignee: Koninklijke Philips Electronics NV
Current assignee: Koninklijke Philips NV
Priority date: 2002-12-11
Filing date: 2003-12-08
Publication date: 2006-03-23
Also published as: WO2004053778A2; EP1573657A2; KR20050085576A; AU2003302791A1; WO2004053778A3; US20060013475A1; CN1723468A

Abstract

正規化相互相関（ＮＣＣ）度を利用して一様でない照度状態の下で取得される２つの画像を比較することにより、オブジェクトが分類される。仮の分類ラベル及び分類値を割当てるため、入力パターンが分類される。この入力パターンは、動径基底関数ネットワークにおける最大分類値を有する出力ノードに割当てられる。入力パターンとノード画像と呼ばれる当該ノードに関連付けされた画像の両方が一様な照度を有する場合、ノード画像は受付けられ、ユーザにより指定された閾値を上回る確率が設定される。テスト画像とノード画像の何れかが一様でない場合、ノード画像は受付けられず、分類値は分類装置により割当てられた値に維持される。テスト画像とノード画像が共に一様でない場合、ＮＣＣ値が利用され、分類値がＮＣＣ値に設定される。

Description

本発明は、コンピュータビジョンシステムに関し、より詳細には、動径基底関数ネットワーク（ＲＢＦＮ）を利用した画像データにおけるオブジェクトの分類に関する。

コンピュータビジョン技術は、画像におけるオブジェクトやイベントの自動的な検出または分類を行うのに頻繁に利用される。オブジェクト間の識別能力は、多くのコンピュータビジョンシステムの効率的な機能に対する重要なタスクである。例えば、あるアプリケーションでは、コンピュータビジョンシステムによる人間やペットなどの生物オブジェクトと家具やドアなどの無生物オブジェクトとの間の識別は重要である。パターン認識技術は、例えば、所与のオブジェクトやオブジェクトクラスが画像中に出現する可能性（確率）を決定するため、画像に適用される。パターン認識及び分類の詳細な説明については、参照することによりここに含まれる、例えば、Ｒ．Ｏ．ＤｕｄａとＰ．Ｈａｒｔによる「ＰａｔｔｅｒｎＲｅｃｏｇｎｉｔｉｏｎａｎｄＳｃｅｎｅＡｎａｌｙｓｉｓ」（Ｗｉｌｅｙ，ＮｅｗＹｏｒｋ（１９７３））、Ｒ．Ｔ．ＣｈｉｎａｎｄＣ．Ｒ．Ｄｙｅｒによる「Ｍｏｄｅｌ−ＢａｓｅｄＲｅｃｏｇｎｉｔｉｏｎｉｎＲｏｂｏｔＶｉｓｉｏｎ」（ＡＣＭＣｏｍｐｕｔｉｎｇＳｕｒｖｅｙｓ，１８（１），６７−１０８（１９８６年３月））、あるいはＰ．Ｊ．ＢｅｓｌａｎｄＲ．Ｃ．Ｊａｉｎによる「Ｔｈｒｅｅ−ＤｉｍｅｎｓｉｏｎａｌＯｂｊｅｃｔＲｅｃｏｇｎｉｔｉｏｎ」（ＣｏｍｐｕｔｉｎｇＳｕｒｖｅｙｓ，１７（１），７５−１４５（１９８５年３月）を参照されたい。

外観ベース技術が、画像ベース情報を利用するそれの固有の能力のため、オブジェクト認識に広範に利用されてきた。外観ベース技術は、オブジェクトの外観の２次元画像表現と格納されているプロトタイプとのベストマッチを検出することにより、オブジェクトを認識しようとするものである。一般には、外観ベース方法は、比較のため、高次元表現の低次元部分空間を利用する。例えば、２００１年２月２７日に出願された米国特許出願第０９/７９４，４４３号「ＣｌａｓｓｉｆｉｃａｔｉｏｎｏｆＯｂｊｅｃｔｓＴｈｒｏｕｇｈＭｏｄｅｌＥｎｓｅｍｂｌｅｓ」は、家庭環境における人間とペットとを識別するオブジェクト分類エンジンを開示している。第１には、家具などの移動オブジェクトでないものをフィルタリングするのに、速度やアスペクト比に関する情報が利用される。その後、残りのオブジェクトからグラディエント画像（ｇｒａｄｉｅｎｔｉｍａｇｅ）が抽出され、移動オブジェクトを人間またはペットに分類するため、動径基底関数ネットワークが適用される。

一般に、動径基底関数ネットワークは３つのレイヤに関するものである。入力レイヤは、しばしば入力ノードと呼ばれるソースノードから構成される。第２レイヤは、データをクラスタリングし、一般にはその次元を限定された程度まで低減する機能を有する隠れノードから構成される隠れレイヤである。出力レイヤは、入力レイヤに適用された動作パターンに対する当該ネットワークの応答を供給する。入力空間から隠れユニット空間への変換は非線形であるが、隠れユニット空間から出力空間への変換は線形である。初期的には、認識対象のオブジェクトの画像例を利用して、動径基底関数ネットワークがトレーニングされる。認識対象の画像データが提供されると、動径基底関数ネットワークは、入力データと各隠れノードとの間の距離を計算する。この計算された距離は、オブジェクトを分類するのに利用可能なスコアを提供する。

トレーニング画像と分類対象のテスト画像が同様の照度条件の下で取得されていない場合、各隠れノードと入力画像との比較は誤ったものとなり、これにより、不良な分類または認識を招くことになる。従って、一様でない照度状態の下で取得された画像を比較するための改良された方法及び装置が必要とされる。

一般には、可変照度状態の下でオブジェクトを分類する方法及び装置が開示される。この開示された分類装置は、動径基底関数ネットワークなどの改良されたニューラルネットワークを利用して、オブジェクトの分類を行う。本分類装置は、正規化相互相関（ＮＣＣ）度を利用して、一様でない照度状態の下で取得される２つの画像を比較する。

分類対象の入力パターンは、まず従来の分類技術を用いて仮の分類ラベルと分類値（「確率値」と呼ばれることもある）を入力パターンに割当てることにより処理される。一般に、入力パターンは、最大の分類値を有する動径基底関数ネットワークにおける出力ノードに割当てられる。その後、本発明の一特徴によると、入力パターンと、ノード画像と呼ばれる入力パターンが分類されたノードに関連する画像とが一様な照度を有するか判断される。

テスト画像とノード画像の両方が一様である場合、ノード画像は受付けられ、その確率はユーザに指定された閾値を上回る値に設定される。テスト画像は一様であるが、ノード画像が一様でない場合（あるいはその逆）、当該画像は受付けられず、分類値は分類装置により割当てられたものと同じ値に維持される。最後に、テスト画像とノード画像の両方が一様でない場合、正規化相互相関度が利用され、分類値がＮＣＣ値に設定される。

本発明のさらなる特徴及び効果と共に本発明のより完全な理解は、以下の詳細な説明及び図面を参照することにより得られるであろう。

本発明は、一様でない照度状態の下で取得された画像を比較するため、改良された動径基底関数ネットワークを利用したオブジェクト分類スキームを提供する。ここで開示された実施例は動径基底関数ネットワークを利用するが、当業者には周知のバックプロパゲーションネットワーク、マルチレイヤードパーセプトロンベースネットワーク、ベイズベースニューラルネットワークなどの他のニューラルネットワークが同様に利用可能である。例えば、主成分分析（ＰＣＡ）や独立成分分析（ＩＣＡ）に基づくニューラルネットワークや、ベイズ技術や線形判別分析（ＬＤＡ）に基づく分類装置もまた、当業者には周知のように、利用可能である。

図１は、動径基底関数（ＲＢＦ）を利用した一例となる従来技術による分類装置１００を示す。前述のように、分類に用いられるＲＢＦニューラルネットワークの構成は、３つの異なるレイヤを伴う。入力レイヤは、ここでは入力ノードと呼ばれるソースノードから構成される。第２レイヤは、データをクラスタリングし、一般には、その次元を限定される程度まで減少させる機能を有する隠れレイヤである。出力レイヤは、入力レイヤに印加された動作パターンに対する当該ネットワークの応答を供給する。入力空間から隠れユニット空間への変換は非線形であるが、隠れユニット空間から出力空間への変換は線形である。

従って、分類装置１００は、（１）入力ノード１１０と単位ウェート１１５を有し、入力ノード１１０と隠れノード１２０を接続する入力レイヤと、（２）隠れノード１２０を有する「隠れレイヤ」と、（３）線形ウェート１２５と出力ノード１３０を有する出力レイヤとを有する。パターン認識及び分類では、選択最大装置１４０と最終出力１５０とが加算される。

ここで、単位ウェート１１５は、入力ノード１１０から隠れノード１２０への各接続が実質的に同一に維持されるというものである（すなわち、各接続は１と「乗算」される）。しかしながら、線形ウェート１２５は、隠れノード１２０と出力ノード１３０と間の各接続が、あるウェートと乗算されるというものである。このウェートは、図３に関して以下で説明されるように、トレーニング段階中に決定及び調整される。

図１の例では、５つの入力ノード１１０と、４つの隠れノード１２０と、３つの出力ノード１３０とが設けられている。しかしながら、図１は単なる一例であり、以下に与えられる説明では、Ｄ個の入力ノード１１０と、Ｆ個の隠れノード１２０と、Ｍ個の出力ノード１３０とが設けられる。各隠れノード１２０は、ある平均ベクトルμ_ｉと分散ベクトルσ_ｉ ^２（ただし、ｉ＝１，．．．，Ｆであり、Ｆは隠れノード１２０の個数である）により特定されるガウスパルス非線形性を有する。ここで、σ_ｉ ^２は、ガウスパルスｉの共分散行列の対角要素を表す。Ｄ次元入力ベクトルＸが与えられると、各ＢＦノードｉは以下のような当該入力によるＢＦの動作を反映したスカラー値ｙ_ｉを出力する。

ここで、ｈは分散の比例定数であり、ｘ_ｋは入力ベクトルＸ＝［ｘ_１，ｘ_２，．．．，ｘ_Ｄ］の第ｋ成分であり、μ_ｉｋとφ_ｉｋはそれぞれ基底ノードｉの平均と分散ベクトルの第ｋ成分である。ガウスＢＦの中心に近い入力は高い動作を発生させ、遠い入力は低い動作を発生させる。ＲＢＦ分類装置１００の各出力ノードは隠れノード１２０の動作の線形結合を構成するため、中間レイヤと出力レイヤを接続するネットワーク１００の部分は、以下に示されるように線形である。

ここで、ｚ_ｊはｊ番目の出力ノードの出力であり、ｙ_ｉはｉ番目のＢＦノードの動作であり、ｗ_ｉｊはｉ番目のＢＦノードとｊ番目の出力ノードを接続するウェートであり、ｗ_ｏｊはｊ番目の出力ノードの基底または閾値である。この基底は、入力とは無関係に出力される一定単位を有する隠れノードと関連付けされたウェートから得られる。

未知のベクトルＸは、選択最大装置１４０により選択されるような最大出力ｚ_ｊを有する出力ノードｊと関連付けされたクラスに属するものとして分類される。選択最大装置１４０は、最終的な出力１５０を決定するため、Ｍ個の出力ノードからの各出力を比較する。最終的な出力１５０は、入力ベクトルＸが対応するクラスとして選択されたクラスを示す。入力ベクトルＸに対するクラスを関連付けるのに用いられる線形ウェート１２５は、トレーニング中に学習される。分類装置１００の線形部分のウェートｗ_ｉｊは、一般には、勾配降下法などの繰り返し最小化法を用いては解かれない。代わりに通常は、擬似逆行列技術を利用して、迅速かつ正確に決定される。この技術とＲＢＦ分類装置に関する追加情報は、例えば、参照することによりここに含まれる、Ｒ．Ｐ．ＬｉｐｐｍａｎｎとＫ．Ａ．Ｎｇらによる「ＣｏｍｐａｒａｔｉｖｅＳｔｕｄｙｏｆｔｈｅＰｒａｃｔｉｃａｌＣｈａｒａｃｔｅｒｉｓｔｉｃｏｆＮｅｕｒａｌＮｅｔｗｏｒｋｓａｎｄＰａｔｔｅｒｎＣｌａｓｓｉｆｉｅｒｓ」（ＭＩＴＴｅｃｈｎｉｃａｌＲｅｐｏｒｔ８９４，ＬｉｎｃｏｌｎＬａｂｓ．（１９９１））、Ｃ．Ｍ．Ｂｉｓｈｏｐによる「ＮｅｕｒａｌＮｅｔｗｏｒｋｓｆｏｒＰａｔｔｅｒｎＲｅｃｏｇｎｉｔｉｏｎ」（Ｃｈ．５（１９９５）、Ｊ．ＭｏｏｄｙとＣ．Ｊ．Ｄａｒｋｅｎらによる「ＦａｓｔＬｅａｒｎｉｎｇｉｎＮｅｔｗｏｒｋｓｏｆＬｏｃａｌｌｙＴｕｎｅｄＰｒｏｃｅｓｓｉｎｇＵｎｉｔｓ」（ＮｅｕｒａｌＣｏｍｐｕｔａｔｉｏｎ，ｖｏｌ．１，２８１−９４（１９８９）、あるいはＳｉｍｏｎＨａｙｋｉｎによる「ＮｅｕｒａｌＮｅｔｗｏｒｋｓ：ＡＣｏｍｐｒｅｈｅｎｓｉｖｅＦｏｕｎｄａｔｉｏｎ」（ＰｒｅｎｔｉｃｅＨａｌｌ，２５６−３１７（１９９９）に説明されている。

図３及び４を参照して、一例となる動径基底関数分類装置の詳細なアルゴリズム説明が与えられる。まず、ＲＢＦネットワークのサイズは、隠れノードの個数Ｆを選択することにより決定される。Ｆの適切な値は問題に固有なものであり、通常は、問題の次元と構成される決定領域の複雑さに依存する。一般に、Ｆは、様々なＦの値を試行することにより経験的に決定されうるか、あるいは普通は問題の入力次元より大きな定数に設定することが可能である。

Ｆを設定した後、ＢＦの平均ベクトルｍ_ｉと分散ベクトルσ_ｉ ^２が、様々な方法を用いて決定することができる。それらはバックプロパゲーション勾配降下法を利用して出力ウェートと共にトレーニングすることが可能であるが、これには長いトレーニング時間を要し、次善的な局所的最小値を導くかもしれない。あるいは、平均と分散は、出力ウェートをトレーニングする前に決定することができる。このとき、ネットワークのトレーニングは、ウェートの決定のみに関する。

通常、ＢＦの中心と分散は、対象空間をカバーするよう選択される。様々な手法が提案されてきた。１つの手法は、入力空間をサンプリングする等間隔のＢＦの格子を利用する。他の手法は、Ｋ−ｍｅａｎｓなどのクラスタリングアルゴリズムを利用して、ＢＦの中心集合を決定し、他のものは、各クラスが表されていることを確認するため、ＢＦの中心としてトレーニング集合からランダムベクトルを選択している。ＲＢＦＮのさらなる説明は、例えば、参照することによりここに含まれる、２００１年２月２７日に出願された米国特許出願第０９/７９４，４４３号「ＣｌａｓｓｉｆｉｃａｔｉｏｎｏｆＯｂｊｅｃｔｓＴｈｒｏｕｇｈＭｏｄｅｌＥｎｓｅｍｂｌｅｓ」を参照されたい。

一般に、各動径基底関数分類装置１００は、所与のオブジェクトが対応するノードに関連するクラスのメンバーとなる確率を示すであろう。特徴ベクトルとして利用される入力強度画像からの水平、垂直及び合成勾配の抽出の説明は、参照することによりここに含まれる、２００１年２月２７日に出願された米国特許出願第０９/７９４，４４３号「ＣｌａｓｓｉｆｉｃａｔｉｏｎｏｆＯｂｊｅｃｔｓＴｈｒｏｕｇｈＭｏｄｅｌＥｎｓｅｍｂｌｅｓ」を参照されたい。一般に、当該プロセスは、モデルオブジェクトの集合のシーケンス群を処理し、各オブジェクトに対応する画像ベクトル集合を形成するため、各オブジェクトに対する水平、垂直及び合成勾配を抽出することに関する。

図２は、本発明に従って変更されたような図１の動径基底関数ネットワーク１００を用いた例示的なパターン分類システム２００である。図２は、入力パターン２１０とデジタル多用途ディスク（ＤＶＤ）２５０とやりとりし、分類２４０を生成するパターン分類システム２００を有する。

パターン分類システム２００は、プロセッサ２２０と、図３に関して後述されるＲＢＦＮトレーニングプロセス３００を有するメモリ２３０と、図４に関して後述されるオブジェクト分類プロセス４００とを有する。パターン分類システム２００は、入力パターンを受付け、当該パターンを分類する。例えば、入力パターンは映像からの画像であってもよく、パターン分類システム２００は人間とペットとを識別するのに利用することができる。

パターン分類システム２００は、ＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）などのプロセッサ２２０とＲＡＭ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）やＲＯＭ（Ｒｅａｄ−ＯｎｌｙＭｅｍｏｒｙ）などのメモリ２３０を有するパーソナルコンピュータまたはワークステーションなどの任意の計算装置として実現されてもよい。他の実施例では、ここで開示されるパターン分類システム２００は、例えば、映像処理システムの一部としてなど、ＡＳＩＣ（ＡｐｐｌｉｃａｔｉｏｎＳｐｅｃｉｆｉｃＩｎｔｅｇｒａｔｅｄＣｉｒｃｕｉｔ）として実現可能である。

従来技術から周知のように、ここで開示される方法及び装置は、そこに実現されたコンピュータ可読コード手段を有するコンピュータ可読媒体を有する製造物として販売されてもよい。コンピュータ可読プログラムコード手段は、コンピュータシステムと協調して、ここで開示される方法を実行したり、あるいは装置を生成するためのすべてのステップまたはその一部を実行するよう動作可能である。コンピュータ可読媒体は、記録可能な媒体（例えば、フロッピー（登録商標）ディスク、ハードドライブ、ＤＶＤ２５０などのコンパクトディスクまたはメモリカードなど）であってもよいし、あるいは送信媒体（例えば、光ファイバ、ワールドワイドウェブ、ケーブル、あるいは時分割多重接続、符号分割多重接続や他の無線周波数チャネルを用いた無線チャネルを有するネットワークなど）であってもよい。コンピュータシステムとの利用に適した情報を格納することが可能な任意の既知または開発された媒体が利用されてもよい。コンピュータ可読コード手段は、磁気媒体上の磁気的変化やＤＶＤ２５０などのコンパクトディスク表面上の高低変位などにより、コンピュータが命令及びデータを読み出すことが可能な任意の機構である。

メモリ２３０は、ここで開示された方法、ステップ及び機能を実現するようプロセッサ２２０を構成する。メモリ２３０は、分散化または局在させることが可能であり、プロセッサ２２０は分散化または単一のものとすることができる。メモリ２３０は、電気、磁気または光メモリ、あるいは上記または他のタイプの記憶装置の任意の組み合わせとして実現することが可能である。「メモリ」という用語は、プロセッサ２２０によりアクセスされるアドレス指定可能な空間におけるアドレスからの読出しまたはアドレスへの書き込みを可能にする任意の情報を含むよう十分広く解釈されるべきである。この定義により、ネットワーク上の情報は、プロセッサ２２０がネットワークから情報を抽出可能であるため、パターン分類システム３００のメモリ２５０の内部に依然として存在する。

図３は、図２のＲＢＦＮトレーニングプロセス４００の一例となる実現形態を示すフローチャートである。当該技術分野では周知のように、パターン分類システムのトレーニングは、一般に、分類装置が各パターンをクラスに分類することができるように実行される。一般に、ＲＢＦＮトレーニングプロセス３００は、正確なオブジェクト分類の表示を有する適切な基礎となる真データ集合からの画像データを利用して動径基底関数ニューラルネットワーク１００をトレーニングするのに利用される。前述のように、動径基底関数ニューラルネットワーク１００における入力レイヤ１１０とパターン（隠れレイヤ）１２０との各接続と、パターン（隠れレイヤ）１２０と出力レイヤ１３０との各接続は、トレーニング段階中にウェートの割当てが行われる。

図３に示されるように、一例となるＲＢＦＮトレーニングプロセス３００は、ステップ３１０においてＲＢＦネットワーク１００を初期化する。前述のように、この初期化プロセスは、典型的には以下のステップを伴う。
（ａ）各規定関数Ｉが以下の出力を有するような基底関数の個数Ｆを選択することによりネットワーク構成を固定化するステップ

（ただし、ｋは成分インデックス）
（ｂ）Ｋ−ｍｅａｎｓクラスタリングアルゴリズムを利用して、基底関数の平均μ_Ｉ（ただし、Ｉ＝１，．．．，Ｆ）を決定するステップ
（ｃ）基底関数の分散σ_Ｉ ^２（ただし、Ｉ＝１，．．．，Ｆ）を決定するステップ（基底関数の分散σ_Ｉ ^２は、ある大域的値に固定されるか、あるいはＢＦ中心の近傍のデータベクトルの稠密さを反映するよう設定することも可能である）
（ｄ）ＢＦの幅のリスケーリングを可能にするため、経験的検索により基底関数の分散に対する大域的比例定数Ｈを決定するステップ（良好なパフォーマンスを生じさせる値に対しＨの空間を探索することにより、それの適切な値が決定される）
ＢＦパラメータが設定された後、出力ウェートをトレーニングするため次のステップが行われる。従って、一例となるＲＢＦＮトレーニングプロセス３００は、ステップ３２０において、初期化されたＲＢＦネットワーク１００にトレーニング画像データを提供する。一実施例では、このトレーニング画像提供プロセスは、典型的には以下のステップを伴う。
（ａ）トレーニングパターンＸ（ｐ）とそれらのクラスラベルＣ（ｐ）（ただし、ｐはパターンインデックスであり、ｐ＝１，．．．，Ｎである）を入力するステップ
（ｂ）パターンＸ（ｐ）から生成された基底関数ノードｙ_Ｉ（ｐ）（ただし、Ｉ＝１，．．．，Ｆ）の出力を計算するステップ
（ｃ）基底関数出力のＦ×Ｆの相関行列Ｒ

を計算するステップ
（ｄ）Ｆ×Ｍの出力行列Ｂ

（ただし、ｄ_ｊは所望の出力であり、Ｍは出力クラス数であり、ｊ＝１，．．．，Ｍである）
を計算するステップ
ここで、各トレーニングパターンは、１つの行列Ｒと１つの行列Ｂを生成する。最終的なＲ及びＢの行列は、Ｎ個のＲ行列とＢ行列の和とされる（ただし、Ｎはトレーニングパターンの総数である）。分類装置にＮ個のすべてのパターンが提供されると、出力ウェートｗ_ｉｊを決定することができる。

従って、一例となるＲＢＦＮトレーニングプロセス３００は、ステップ３３０において、ＲＢＦネットワーク１００に対する出力ウェートｗ_ｉｊを決定する。一実施例では、初期化されたＲＢＦネットワーク１００のウェートは、以下のように計算される。
（ａ）最終的なＦ×Ｆの相関行列Ｒを反転し、Ｒ^−１を求める
（ｂ）以下の式

を利用して、ネットワークのウェートを求める
その後、ＲＢＦＮトレーニングプロセス３００のプログラム制御は終了される。

ＲＢＦＮのさらなる説明は、例えば、参照することによりここに含まれる、２００１年２月２７日に出願された米国特許出願第０９/７９４，４４３号「ＣｌａｓｓｉｆｉｃａｔｉｏｎｏｆＯｂｊｅｃｔｓＴｈｒｏｕｇｈＭｏｄｅｌＥｎｓｅｍｂｌｅｓ」を参照されたい。

図４は、本発明の特徴を有する一例となるオブジェクト分類プロセス４００を説明するフローチャートである。図４に示されるように、この一例となるオブジェクト分類プロセス４００は、未知のパターンＸ_ｔｅｓｔが提供または取得されると、ステップ４１０において開始される。ここで、画像Ｘ_ｔｅｓｔは、例えば、検出された各移動オブジェクトの検出スピードとアスペクト比に従って、既知の方法により検出された移動オブジェクトから意図しない移動オブジェクトをフィルタリングするよう前処理可能である。

ステップ４２０において、分類値を計算するため、入力パターンＸ_ｔｅｓｔが動径基底機能分類装置１００に印加される。その後、ステップ４３０において、従来技術を利用することにより、入力パターンＸ_ｔｅｓｔがＲＢＦネットワーク１００により分類される。一実施例では、入力パターンＸ_ｔｅｓｔは以下のように分類される。
（ａ）Ｆ個すべての基底関数に対し、基底関数出力

を計算する。
（ｂ）出力ノード動作

を計算する。
（ｃ）最大値を有する出力ｚ_ｊを選択し、Ｘ_ｔｅｓｔをクラスｊとして分類する
ＲＢＦ入力は、一般に、１Ｄベクトルとしてネットワーク１００に与えられるサイズｎの正規化された顔画像から構成される。隠れ（教師なし）レイヤは、ガウスクラスタノードの個数とそれらの分散が動的に設定される拡張されたｋ−ｍｅａｎｓクラスタリング手順を実現する。クラスタ数は、トレーニング画像の個数の１/５からトレーニング画像の総数ｎまで５つ刻みで可変とされる。各クラスタに対するガウスの幅は、ここでは２に等しい重複係数ｏと乗算された最大値（クラスタ中心とクラス直径範囲内の最遠メンバーとの距離、クラスタ中心と他のすべてのクラスタから最も近いパターンとの距離）に設定される。この幅は、異なる比例定数ｈを用いてさらに動的に精緻化される。隠れレイヤは、機能顔基底と等価なものを生成する。ここで、各クラスタノードは、顔空間におけるいくつかの共通の特徴を符号化する。出力（教師あり）レイヤは、このような空間に沿った顔符号化（「拡張」）をそれらの対応するＩＤクラスにマッピングし、擬似逆行列手法を用いて対応する拡張（「ウェート」）係数を求める。ここで、クラスタの個数は、同一のトレーニング画像に対してテストされるとき、ＩＤ分類の１００％の精度を生み出す構成（クラスタ数と特定の比例定数ｈ）に対し固定される。

本発明の一特徴によると、ステップ４３０において入力パターンに割当てられる分類値が所定の設定可能な閾値を下回るか判断するためテストが行われる。ステップ４３０において、分類値が閾値を下回らないと判断されると、プログラム制御は終了される。しかしながら、ステップ４３０において、分類値が閾値を下回ると判断されると、良好でない分類値が一様でない照度によるものであるか判断するため、ステップ４５０〜４８０においてさらなる処理が実行される。

従って、ステップ４５０において、入力パターンＸ_ｔｅｓｔとＸ_ｔｅｓｔが分類された隠れノードに関連する画像とが、一様な照度を有するか判断するため評価される。例えば、画像が一様であるか確認するため、強度が０〜１の範囲に属するよう正規化される。その後、画像はいくつかの領域に分割され、平均と分散が計算される。平均と分散が任意の２つの領域の間の領域に属する場合、当該画像は一様であると言われる。

ステップ４５０において、テスト画像と分類装置が当該テスト画像に割当てた隠れノードの両方が一様であると判断されると、ステップ４６０において、当該画像は受付けられ、確率がユーザに指定された閾値を上回る値に設定される。

ステップ４５０において、テスト画像は一様であるが、隠れノードは一様でない（その逆でもよい）と判断されると、ステップ４７０において、当該画像は受付けられず、分類値は分類装置１００により割当てられたものと同じ値に維持される。

最後に、ステップ４５０において、テスト画像と隠れノードが何れも一様でないと判断されると、ステップ４８０において、正規化相互相関（ＮＣＣ）が利用され、分類値がＮＣＣ値として設定される。ＮＣＣに対する方程式は、以下のように表現される。

ただし、ｘはテスト画像であり、ｒは隠れノードである。通常、ＮＣＣはテスト画像と隠れノードをいくつかの部分領域に分割し、その後で各領域に対する計算結果の和をとることにより実行される。一般に、ＮＣＣは、各画像内部のセグメントをマッチングさせ、各画像が平均からどれくらい離れているか決定することによって、画像を平滑化するであろう。その後、各セグメントの平均値からの乖離が平均化される。

さらなる変形では、ネットワーク１００は図３に従ってトレーニングされる。その後、各テスト画像に対し、ユークリッド距離が計算される。距離が最小となるノードに対し、この最小ノードに関連する画像とテスト画像とが、図４のステップ４５０〜４８０のみを用いて処理される。

ここで図示及び開示された実施例及び変形は、本発明の原理を単に例示したものであり、本発明の趣旨及び範囲から逸脱することなく様々な変更が当業者には実現可能であるということは理解されるであろう。

図１は、動径基底関数（ＲＢＦ）を利用した従来技術による一例となる分類装置を示す。図２は、本発明による例示的なパターン分類システムの概略ブロック図である。図３は、図２のパターン分類システムをトレーニングするための一例となるＲＢＦＮトレーニングプロセスを説明するフローチャートである。図４は、パターン認識及び分類のため図２のパターン分類システムを利用するための一例となるオブジェクト分類プロセスを説明するフローチャートである。

Claims

画像データにおけるオブジェクトを分類する方法であって、
前記画像データをニューラルネットワークにおける関連付けされたノード画像を有するノードに割当てるステップと、
前記画像データと前記ノード画像が一様でない照度状態の下で取得されている場合、前記画像データと前記ノード画像を比較するため、正規化相互相関度を適用するステップと、
を有することを特徴とする方法。
請求項１記載の方法であって、
前記オブジェクトの分類値は、前記正規化相互相関度により決定されることを特徴とする方法。
請求項１記載の方法であって、
画像が一様でない状態の下で取得されたものかの判断はさらに、
前記画像における強度を正規化するステップと、
前記画像をいくつかの領域に分割するステップと、
前記領域の平均及び分散を計算するステップと、
前記画像が前記平均及び分散に基づき一様であるか判断するステップと、
を有することを特徴とする方法。
請求項１記載の方法であって、
前記画像データと前記ノード画像の両方が一様な照度の下で取得されている場合、前記ノードに関連付けされた分類値は前記画像データに割当てられることを特徴とする方法。
請求項１記載の方法であって、
前記画像データと前記ノード画像の１つのみが一様な照度の下で取得されている場合、前記ノード画像は受付けられないことを特徴とする方法。
請求項１記載の方法であって、
前記適用するステップは、前記分類値が所定の閾値を満たさない場合のみ実行されることを特徴とする方法。
請求項１記載の方法であって、
前記ノードは、前記オブジェクトが対応するクラスを特定する関連するクラスラベルと、前記オブジェクトが前記クラスに属する確率を示す分類値とを有することを特徴とする方法。
請求項１記載の方法であって、さらに、
前記正規化相互相関度に基づき、クラスラベルを出力するステップを有することを特徴とする方法。
請求項１記載の方法であって、
前記ニューラルネットワークは、動径基底関数ネットワークであることを特徴とする方法。
請求項１記載の方法であって、
前記ニューラルネットワークは、バックプロパゲーションネットワークであることを特徴とする方法。
請求項１記載の方法であって、
前記ニューラルネットワークは、マルチレイヤードパーセプトロンベースネットワークであることを特徴とする方法。
請求項１記載の方法であって、
前記ニューラルネットワークは、ベイズベースニューラルネットワークであることを特徴とする方法。
画像データにおけるオブジェクトを分類する装置であって、
メモリと、
前記メモリに結合され、前記画像データをニューラルネットワークにおける関連付けされたノード画像を有するノードに割当て、前記画像データと前記ノード画像が一様でない照度状態の下で取得されている場合、前記画像データと前記ノード画像を比較するため、正規化相互相関度を適用するよう動作する少なくとも１つのプロセッサと、
を有することを特徴とする装置。
請求項１３記載の装置であって、
前記オブジェクトに対する分類値は、前記正規化相互相関度により決定されることを特徴とする装置。
請求項１３記載の装置であって、
前記プロセッサはさらに、前記画像における強度を正規化し、前記画像をいくつかの領域に分割し、前記領域の平均及び分散を計算し、前記画像が前記平均及び分散に基づき一様であるか判断するよう構成されることを特徴とする装置。
請求項１３記載の装置であって、
前記画像データと前記ノード画像の両方が一様な照度の下で取得されている場合、前記ノードに関連付けされた分類値は前記画像データに割当てられることを特徴とする装置。
請求項１３記載の装置であって、
前記画像データと前記ノード画像の１つのみが一様な照度の下で取得されている場合、前記ノード画像は受付けられないことを特徴とする装置。
請求項１３記載の装置であって、
前記ノードは、前記オブジェクトが対応するクラスを特定する関連するクラスラベルと、前記オブジェクトが前記クラスに属する確率を示す分類値とを有することを特徴とする装置。
請求項１３記載の装置であって、
前記ニューラルネットワークは、動径基底関数ネットワークであることを特徴とする装置。
請求項１３記載の装置であって、
前記ニューラルネットワークは、バックプロパゲーションネットワークであることを特徴とする装置。
請求項１３記載の装置であって、
前記ニューラルネットワークは、マルチレイヤードパーセプトロンベースネットワークであることを特徴とする装置。
請求項１３記載の装置であって、
前記ニューラルネットワークは、ベイズベースニューラルネットワークであることを特徴とする装置。
画像データにおけるオブジェクトを分類する製造物品であって、実行時に、
前記画像データをニューラルネットワークにおける関連付けされたノード画像を有するノードに割当てるステップと、
前記画像データと前記ノード画像が一様でない照度状態の下で取得されている場合、前記画像データと前記ノード画像を比較するため、正規化相互相関度を適用するステップと、
を実現する１以上のプログラムを有するマシーン可読媒体を有することを特徴とする製造物品。