JP2006510079A - 照度不変ニューラルネットワークを利用したコンピュータビジョンシステム及び方法 - Google Patents

照度不変ニューラルネットワークを利用したコンピュータビジョンシステム及び方法 Download PDF

Info

Publication number
JP2006510079A
JP2006510079A JP2004558261A JP2004558261A JP2006510079A JP 2006510079 A JP2006510079 A JP 2006510079A JP 2004558261 A JP2004558261 A JP 2004558261A JP 2004558261 A JP2004558261 A JP 2004558261A JP 2006510079 A JP2006510079 A JP 2006510079A
Authority
JP
Japan
Prior art keywords
image
node
image data
neural network
network
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
JP2004558261A
Other languages
English (en)
Inventor
フィロミン,ヴァサント
ギュッタ,スリニヴァス
トライコヴィッチ,ミロスラフ
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Koninklijke Philips NV
Original Assignee
Koninklijke Philips Electronics NV
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Koninklijke Philips Electronics NV filed Critical Koninklijke Philips Electronics NV
Publication of JP2006510079A publication Critical patent/JP2006510079A/ja
Withdrawn legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2413Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
    • G06F18/24133Distances to prototypes
    • G06F18/24137Distances to cluster centroïds
    • G06F18/2414Smoothing the distance, e.g. radial basis function networks [RBFN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/355Class or cluster creation or modification

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Image Analysis (AREA)

Abstract

正規化相互相関(NCC)度を利用して一様でない照度状態の下で取得される2つの画像を比較することにより、オブジェクトが分類される。仮の分類ラベル及び分類値を割当てるため、入力パターンが分類される。この入力パターンは、動径基底関数ネットワークにおける最大分類値を有する出力ノードに割当てられる。入力パターンとノード画像と呼ばれる当該ノードに関連付けされた画像の両方が一様な照度を有する場合、ノード画像は受付けられ、ユーザにより指定された閾値を上回る確率が設定される。テスト画像とノード画像の何れかが一様でない場合、ノード画像は受付けられず、分類値は分類装置により割当てられた値に維持される。テスト画像とノード画像が共に一様でない場合、NCC値が利用され、分類値がNCC値に設定される。

Description

本発明は、コンピュータビジョンシステムに関し、より詳細には、動径基底関数ネットワーク(RBFN)を利用した画像データにおけるオブジェクトの分類に関する。
コンピュータビジョン技術は、画像におけるオブジェクトやイベントの自動的な検出または分類を行うのに頻繁に利用される。オブジェクト間の識別能力は、多くのコンピュータビジョンシステムの効率的な機能に対する重要なタスクである。例えば、あるアプリケーションでは、コンピュータビジョンシステムによる人間やペットなどの生物オブジェクトと家具やドアなどの無生物オブジェクトとの間の識別は重要である。パターン認識技術は、例えば、所与のオブジェクトやオブジェクトクラスが画像中に出現する可能性(確率)を決定するため、画像に適用される。パターン認識及び分類の詳細な説明については、参照することによりここに含まれる、例えば、R.O.DudaとP.Hartによる「Pattern Recognition and Scene Analysis」(Wiley,New York(1973))、R.T.Chin and C.R.Dyerによる「Model−Based Recognition in Robot Vision」(ACM Computing Surveys,18(1),67−108(1986年3月))、あるいはP.J.Besl and R.C.Jainによる「Three−Dimensional Object Recognition」(Computing Surveys,17(1),75−145(1985年3月)を参照されたい。
外観ベース技術が、画像ベース情報を利用するそれの固有の能力のため、オブジェクト認識に広範に利用されてきた。外観ベース技術は、オブジェクトの外観の2次元画像表現と格納されているプロトタイプとのベストマッチを検出することにより、オブジェクトを認識しようとするものである。一般には、外観ベース方法は、比較のため、高次元表現の低次元部分空間を利用する。例えば、2001年2月27日に出願された米国特許出願第09/794,443号「Classification of Objects Through Model Ensembles」は、家庭環境における人間とペットとを識別するオブジェクト分類エンジンを開示している。第1には、家具などの移動オブジェクトでないものをフィルタリングするのに、速度やアスペクト比に関する情報が利用される。その後、残りのオブジェクトからグラディエント画像(gradient image)が抽出され、移動オブジェクトを人間またはペットに分類するため、動径基底関数ネットワークが適用される。
一般に、動径基底関数ネットワークは3つのレイヤに関するものである。入力レイヤは、しばしば入力ノードと呼ばれるソースノードから構成される。第2レイヤは、データをクラスタリングし、一般にはその次元を限定された程度まで低減する機能を有する隠れノードから構成される隠れレイヤである。出力レイヤは、入力レイヤに適用された動作パターンに対する当該ネットワークの応答を供給する。入力空間から隠れユニット空間への変換は非線形であるが、隠れユニット空間から出力空間への変換は線形である。初期的には、認識対象のオブジェクトの画像例を利用して、動径基底関数ネットワークがトレーニングされる。認識対象の画像データが提供されると、動径基底関数ネットワークは、入力データと各隠れノードとの間の距離を計算する。この計算された距離は、オブジェクトを分類するのに利用可能なスコアを提供する。
トレーニング画像と分類対象のテスト画像が同様の照度条件の下で取得されていない場合、各隠れノードと入力画像との比較は誤ったものとなり、これにより、不良な分類または認識を招くことになる。従って、一様でない照度状態の下で取得された画像を比較するための改良された方法及び装置が必要とされる。
一般には、可変照度状態の下でオブジェクトを分類する方法及び装置が開示される。この開示された分類装置は、動径基底関数ネットワークなどの改良されたニューラルネットワークを利用して、オブジェクトの分類を行う。本分類装置は、正規化相互相関(NCC)度を利用して、一様でない照度状態の下で取得される2つの画像を比較する。
分類対象の入力パターンは、まず従来の分類技術を用いて仮の分類ラベルと分類値(「確率値」と呼ばれることもある)を入力パターンに割当てることにより処理される。一般に、入力パターンは、最大の分類値を有する動径基底関数ネットワークにおける出力ノードに割当てられる。その後、本発明の一特徴によると、入力パターンと、ノード画像と呼ばれる入力パターンが分類されたノードに関連する画像とが一様な照度を有するか判断される。
テスト画像とノード画像の両方が一様である場合、ノード画像は受付けられ、その確率はユーザに指定された閾値を上回る値に設定される。テスト画像は一様であるが、ノード画像が一様でない場合(あるいはその逆)、当該画像は受付けられず、分類値は分類装置により割当てられたものと同じ値に維持される。最後に、テスト画像とノード画像の両方が一様でない場合、正規化相互相関度が利用され、分類値がNCC値に設定される。
本発明のさらなる特徴及び効果と共に本発明のより完全な理解は、以下の詳細な説明及び図面を参照することにより得られるであろう。
本発明は、一様でない照度状態の下で取得された画像を比較するため、改良された動径基底関数ネットワークを利用したオブジェクト分類スキームを提供する。ここで開示された実施例は動径基底関数ネットワークを利用するが、当業者には周知のバックプロパゲーションネットワーク、マルチレイヤードパーセプトロンベースネットワーク、ベイズベースニューラルネットワークなどの他のニューラルネットワークが同様に利用可能である。例えば、主成分分析(PCA)や独立成分分析(ICA)に基づくニューラルネットワークや、ベイズ技術や線形判別分析(LDA)に基づく分類装置もまた、当業者には周知のように、利用可能である。
図1は、動径基底関数(RBF)を利用した一例となる従来技術による分類装置100を示す。前述のように、分類に用いられるRBFニューラルネットワークの構成は、3つの異なるレイヤを伴う。入力レイヤは、ここでは入力ノードと呼ばれるソースノードから構成される。第2レイヤは、データをクラスタリングし、一般には、その次元を限定される程度まで減少させる機能を有する隠れレイヤである。出力レイヤは、入力レイヤに印加された動作パターンに対する当該ネットワークの応答を供給する。入力空間から隠れユニット空間への変換は非線形であるが、隠れユニット空間から出力空間への変換は線形である。
従って、分類装置100は、(1)入力ノード110と単位ウェート115を有し、入力ノード110と隠れノード120を接続する入力レイヤと、(2)隠れノード120を有する「隠れレイヤ」と、(3)線形ウェート125と出力ノード130を有する出力レイヤとを有する。パターン認識及び分類では、選択最大装置140と最終出力150とが加算される。
ここで、単位ウェート115は、入力ノード110から隠れノード120への各接続が実質的に同一に維持されるというものである(すなわち、各接続は1と「乗算」される)。しかしながら、線形ウェート125は、隠れノード120と出力ノード130と間の各接続が、あるウェートと乗算されるというものである。このウェートは、図3に関して以下で説明されるように、トレーニング段階中に決定及び調整される。
図1の例では、5つの入力ノード110と、4つの隠れノード120と、3つの出力ノード130とが設けられている。しかしながら、図1は単なる一例であり、以下に与えられる説明では、D個の入力ノード110と、F個の隠れノード120と、M個の出力ノード130とが設けられる。各隠れノード120は、ある平均ベクトルμと分散ベクトルσ (ただし、i=1,...,Fであり、Fは隠れノード120の個数である)により特定されるガウスパルス非線形性を有する。ここで、σ は、ガウスパルスiの共分散行列の対角要素を表す。D次元入力ベクトルXが与えられると、各BFノードiは以下のような当該入力によるBFの動作を反映したスカラー値yを出力する。
Figure 2006510079
ここで、hは分散の比例定数であり、xは入力ベクトルX=[x,x,...,x]の第k成分であり、μikとφikはそれぞれ基底ノードiの平均と分散ベクトルの第k成分である。ガウスBFの中心に近い入力は高い動作を発生させ、遠い入力は低い動作を発生させる。RBF分類装置100の各出力ノードは隠れノード120の動作の線形結合を構成するため、中間レイヤと出力レイヤを接続するネットワーク100の部分は、以下に示されるように線形である。
Figure 2006510079
ここで、zはj番目の出力ノードの出力であり、yはi番目のBFノードの動作であり、wijはi番目のBFノードとj番目の出力ノードを接続するウェートであり、wojはj番目の出力ノードの基底または閾値である。この基底は、入力とは無関係に出力される一定単位を有する隠れノードと関連付けされたウェートから得られる。
未知のベクトルXは、選択最大装置140により選択されるような最大出力zを有する出力ノードjと関連付けされたクラスに属するものとして分類される。選択最大装置140は、最終的な出力150を決定するため、M個の出力ノードからの各出力を比較する。最終的な出力150は、入力ベクトルXが対応するクラスとして選択されたクラスを示す。入力ベクトルXに対するクラスを関連付けるのに用いられる線形ウェート125は、トレーニング中に学習される。分類装置100の線形部分のウェートwijは、一般には、勾配降下法などの繰り返し最小化法を用いては解かれない。代わりに通常は、擬似逆行列技術を利用して、迅速かつ正確に決定される。この技術とRBF分類装置に関する追加情報は、例えば、参照することによりここに含まれる、R.P.LippmannとK.A.Ngらによる「Comparative Study of the Practical Characteristic of Neural Networks and Pattern Classifiers」(MIT Technical Report894,Lincoln Labs.(1991))、C.M.Bishopによる「Neural Networks for Pattern Recognition」(Ch.5(1995)、J.MoodyとC.J.Darkenらによる「Fast Learning in Networks of Locally Tuned Processing Units」(Neural Computation,vol.1,281−94(1989)、あるいはSimon Haykinによる「Neural Networks:A Comprehensive Foundation」(Prentice Hall,256−317(1999)に説明されている。
図3及び4を参照して、一例となる動径基底関数分類装置の詳細なアルゴリズム説明が与えられる。まず、RBFネットワークのサイズは、隠れノードの個数Fを選択することにより決定される。Fの適切な値は問題に固有なものであり、通常は、問題の次元と構成される決定領域の複雑さに依存する。一般に、Fは、様々なFの値を試行することにより経験的に決定されうるか、あるいは普通は問題の入力次元より大きな定数に設定することが可能である。
Fを設定した後、BFの平均ベクトルmと分散ベクトルσ が、様々な方法を用いて決定することができる。それらはバックプロパゲーション勾配降下法を利用して出力ウェートと共にトレーニングすることが可能であるが、これには長いトレーニング時間を要し、次善的な局所的最小値を導くかもしれない。あるいは、平均と分散は、出力ウェートをトレーニングする前に決定することができる。このとき、ネットワークのトレーニングは、ウェートの決定のみに関する。
通常、BFの中心と分散は、対象空間をカバーするよう選択される。様々な手法が提案されてきた。1つの手法は、入力空間をサンプリングする等間隔のBFの格子を利用する。他の手法は、K−meansなどのクラスタリングアルゴリズムを利用して、BFの中心集合を決定し、他のものは、各クラスが表されていることを確認するため、BFの中心としてトレーニング集合からランダムベクトルを選択している。RBFNのさらなる説明は、例えば、参照することによりここに含まれる、2001年2月27日に出願された米国特許出願第09/794,443号「Classification of Objects Through Model Ensembles」を参照されたい。
一般に、各動径基底関数分類装置100は、所与のオブジェクトが対応するノードに関連するクラスのメンバーとなる確率を示すであろう。特徴ベクトルとして利用される入力強度画像からの水平、垂直及び合成勾配の抽出の説明は、参照することによりここに含まれる、2001年2月27日に出願された米国特許出願第09/794,443号「Classification of Objects Through Model Ensembles」を参照されたい。一般に、当該プロセスは、モデルオブジェクトの集合のシーケンス群を処理し、各オブジェクトに対応する画像ベクトル集合を形成するため、各オブジェクトに対する水平、垂直及び合成勾配を抽出することに関する。
図2は、本発明に従って変更されたような図1の動径基底関数ネットワーク100を用いた例示的なパターン分類システム200である。図2は、入力パターン210とデジタル多用途ディスク(DVD)250とやりとりし、分類240を生成するパターン分類システム200を有する。
パターン分類システム200は、プロセッサ220と、図3に関して後述されるRBFNトレーニングプロセス300を有するメモリ230と、図4に関して後述されるオブジェクト分類プロセス400とを有する。パターン分類システム200は、入力パターンを受付け、当該パターンを分類する。例えば、入力パターンは映像からの画像であってもよく、パターン分類システム200は人間とペットとを識別するのに利用することができる。
パターン分類システム200は、CPU(Central Processing Unit)などのプロセッサ220とRAM(Random Access Memory)やROM(Read−Only Memory)などのメモリ230を有するパーソナルコンピュータまたはワークステーションなどの任意の計算装置として実現されてもよい。他の実施例では、ここで開示されるパターン分類システム200は、例えば、映像処理システムの一部としてなど、ASIC(Application Specific Integrated Circuit)として実現可能である。
従来技術から周知のように、ここで開示される方法及び装置は、そこに実現されたコンピュータ可読コード手段を有するコンピュータ可読媒体を有する製造物として販売されてもよい。コンピュータ可読プログラムコード手段は、コンピュータシステムと協調して、ここで開示される方法を実行したり、あるいは装置を生成するためのすべてのステップまたはその一部を実行するよう動作可能である。コンピュータ可読媒体は、記録可能な媒体(例えば、フロッピー(登録商標)ディスク、ハードドライブ、DVD250などのコンパクトディスクまたはメモリカードなど)であってもよいし、あるいは送信媒体(例えば、光ファイバ、ワールドワイドウェブ、ケーブル、あるいは時分割多重接続、符号分割多重接続や他の無線周波数チャネルを用いた無線チャネルを有するネットワークなど)であってもよい。コンピュータシステムとの利用に適した情報を格納することが可能な任意の既知または開発された媒体が利用されてもよい。コンピュータ可読コード手段は、磁気媒体上の磁気的変化やDVD250などのコンパクトディスク表面上の高低変位などにより、コンピュータが命令及びデータを読み出すことが可能な任意の機構である。
メモリ230は、ここで開示された方法、ステップ及び機能を実現するようプロセッサ220を構成する。メモリ230は、分散化または局在させることが可能であり、プロセッサ220は分散化または単一のものとすることができる。メモリ230は、電気、磁気または光メモリ、あるいは上記または他のタイプの記憶装置の任意の組み合わせとして実現することが可能である。「メモリ」という用語は、プロセッサ220によりアクセスされるアドレス指定可能な空間におけるアドレスからの読出しまたはアドレスへの書き込みを可能にする任意の情報を含むよう十分広く解釈されるべきである。この定義により、ネットワーク上の情報は、プロセッサ220がネットワークから情報を抽出可能であるため、パターン分類システム300のメモリ250の内部に依然として存在する。
図3は、図2のRBFNトレーニングプロセス400の一例となる実現形態を示すフローチャートである。当該技術分野では周知のように、パターン分類システムのトレーニングは、一般に、分類装置が各パターンをクラスに分類することができるように実行される。一般に、RBFNトレーニングプロセス300は、正確なオブジェクト分類の表示を有する適切な基礎となる真データ集合からの画像データを利用して動径基底関数ニューラルネットワーク100をトレーニングするのに利用される。前述のように、動径基底関数ニューラルネットワーク100における入力レイヤ110とパターン(隠れレイヤ)120との各接続と、パターン(隠れレイヤ)120と出力レイヤ130との各接続は、トレーニング段階中にウェートの割当てが行われる。
図3に示されるように、一例となるRBFNトレーニングプロセス300は、ステップ310においてRBFネットワーク100を初期化する。前述のように、この初期化プロセスは、典型的には以下のステップを伴う。
(a)各規定関数Iが以下の出力を有するような基底関数の個数Fを選択することによりネットワーク構成を固定化するステップ
Figure 2006510079
(ただし、kは成分インデックス)
(b)K−meansクラスタリングアルゴリズムを利用して、基底関数の平均μ(ただし、I=1,...,F)を決定するステップ
(c)基底関数の分散σ (ただし、I=1,...,F)を決定するステップ(基底関数の分散σ は、ある大域的値に固定されるか、あるいはBF中心の近傍のデータベクトルの稠密さを反映するよう設定することも可能である)
(d)BFの幅のリスケーリングを可能にするため、経験的検索により基底関数の分散に対する大域的比例定数Hを決定するステップ(良好なパフォーマンスを生じさせる値に対しHの空間を探索することにより、それの適切な値が決定される)
BFパラメータが設定された後、出力ウェートをトレーニングするため次のステップが行われる。従って、一例となるRBFNトレーニングプロセス300は、ステップ320において、初期化されたRBFネットワーク100にトレーニング画像データを提供する。一実施例では、このトレーニング画像提供プロセスは、典型的には以下のステップを伴う。
(a)トレーニングパターンX(p)とそれらのクラスラベルC(p)(ただし、pはパターンインデックスであり、p=1,...,Nである)を入力するステップ
(b)パターンX(p)から生成された基底関数ノードy(p)(ただし、I=1,...,F)の出力を計算するステップ
(c)基底関数出力のF×Fの相関行列R
Figure 2006510079
を計算するステップ
(d)F×Mの出力行列B
Figure 2006510079
(ただし、dは所望の出力であり、Mは出力クラス数であり、j=1,...,Mである)
を計算するステップ
ここで、各トレーニングパターンは、1つの行列Rと1つの行列Bを生成する。最終的なR及びBの行列は、N個のR行列とB行列の和とされる(ただし、Nはトレーニングパターンの総数である)。分類装置にN個のすべてのパターンが提供されると、出力ウェートwijを決定することができる。
従って、一例となるRBFNトレーニングプロセス300は、ステップ330において、RBFネットワーク100に対する出力ウェートwijを決定する。一実施例では、初期化されたRBFネットワーク100のウェートは、以下のように計算される。
(a)最終的なF×Fの相関行列Rを反転し、R−1を求める
(b)以下の式
Figure 2006510079
を利用して、ネットワークのウェートを求める
その後、RBFNトレーニングプロセス300のプログラム制御は終了される。
RBFNのさらなる説明は、例えば、参照することによりここに含まれる、2001年2月27日に出願された米国特許出願第09/794,443号「Classification of Objects Through Model Ensembles」を参照されたい。
図4は、本発明の特徴を有する一例となるオブジェクト分類プロセス400を説明するフローチャートである。図4に示されるように、この一例となるオブジェクト分類プロセス400は、未知のパターンXtestが提供または取得されると、ステップ410において開始される。ここで、画像Xtestは、例えば、検出された各移動オブジェクトの検出スピードとアスペクト比に従って、既知の方法により検出された移動オブジェクトから意図しない移動オブジェクトをフィルタリングするよう前処理可能である。
ステップ420において、分類値を計算するため、入力パターンXtestが動径基底機能分類装置100に印加される。その後、ステップ430において、従来技術を利用することにより、入力パターンXtestがRBFネットワーク100により分類される。一実施例では、入力パターンXtestは以下のように分類される。
(a)F個すべての基底関数に対し、基底関数出力
Figure 2006510079
を計算する。
(b)出力ノード動作
Figure 2006510079
を計算する。
(c)最大値を有する出力zを選択し、Xtestをクラスjとして分類する
RBF入力は、一般に、1Dベクトルとしてネットワーク100に与えられるサイズnの正規化された顔画像から構成される。隠れ(教師なし)レイヤは、ガウスクラスタノードの個数とそれらの分散が動的に設定される拡張されたk−meansクラスタリング手順を実現する。クラスタ数は、トレーニング画像の個数の1/5からトレーニング画像の総数nまで5つ刻みで可変とされる。各クラスタに対するガウスの幅は、ここでは2に等しい重複係数oと乗算された最大値(クラスタ中心とクラス直径範囲内の最遠メンバーとの距離、クラスタ中心と他のすべてのクラスタから最も近いパターンとの距離)に設定される。この幅は、異なる比例定数hを用いてさらに動的に精緻化される。隠れレイヤは、機能顔基底と等価なものを生成する。ここで、各クラスタノードは、顔空間におけるいくつかの共通の特徴を符号化する。出力(教師あり)レイヤは、このような空間に沿った顔符号化(「拡張」)をそれらの対応するIDクラスにマッピングし、擬似逆行列手法を用いて対応する拡張(「ウェート」)係数を求める。ここで、クラスタの個数は、同一のトレーニング画像に対してテストされるとき、ID分類の100%の精度を生み出す構成(クラスタ数と特定の比例定数h)に対し固定される。
本発明の一特徴によると、ステップ430において入力パターンに割当てられる分類値が所定の設定可能な閾値を下回るか判断するためテストが行われる。ステップ430において、分類値が閾値を下回らないと判断されると、プログラム制御は終了される。しかしながら、ステップ430において、分類値が閾値を下回ると判断されると、良好でない分類値が一様でない照度によるものであるか判断するため、ステップ450〜480においてさらなる処理が実行される。
従って、ステップ450において、入力パターンXtestとXtestが分類された隠れノードに関連する画像とが、一様な照度を有するか判断するため評価される。例えば、画像が一様であるか確認するため、強度が0〜1の範囲に属するよう正規化される。その後、画像はいくつかの領域に分割され、平均と分散が計算される。平均と分散が任意の2つの領域の間の領域に属する場合、当該画像は一様であると言われる。
ステップ450において、テスト画像と分類装置が当該テスト画像に割当てた隠れノードの両方が一様であると判断されると、ステップ460において、当該画像は受付けられ、確率がユーザに指定された閾値を上回る値に設定される。
ステップ450において、テスト画像は一様であるが、隠れノードは一様でない(その逆でもよい)と判断されると、ステップ470において、当該画像は受付けられず、分類値は分類装置100により割当てられたものと同じ値に維持される。
最後に、ステップ450において、テスト画像と隠れノードが何れも一様でないと判断されると、ステップ480において、正規化相互相関(NCC)が利用され、分類値がNCC値として設定される。NCCに対する方程式は、以下のように表現される。
Figure 2006510079
ただし、xはテスト画像であり、rは隠れノードである。通常、NCCはテスト画像と隠れノードをいくつかの部分領域に分割し、その後で各領域に対する計算結果の和をとることにより実行される。一般に、NCCは、各画像内部のセグメントをマッチングさせ、各画像が平均からどれくらい離れているか決定することによって、画像を平滑化するであろう。その後、各セグメントの平均値からの乖離が平均化される。
さらなる変形では、ネットワーク100は図3に従ってトレーニングされる。その後、各テスト画像に対し、ユークリッド距離が計算される。距離が最小となるノードに対し、この最小ノードに関連する画像とテスト画像とが、図4のステップ450〜480のみを用いて処理される。
ここで図示及び開示された実施例及び変形は、本発明の原理を単に例示したものであり、本発明の趣旨及び範囲から逸脱することなく様々な変更が当業者には実現可能であるということは理解されるであろう。
図1は、動径基底関数(RBF)を利用した従来技術による一例となる分類装置を示す。 図2は、本発明による例示的なパターン分類システムの概略ブロック図である。 図3は、図2のパターン分類システムをトレーニングするための一例となるRBFNトレーニングプロセスを説明するフローチャートである。 図4は、パターン認識及び分類のため図2のパターン分類システムを利用するための一例となるオブジェクト分類プロセスを説明するフローチャートである。

Claims (23)

  1. 画像データにおけるオブジェクトを分類する方法であって、
    前記画像データをニューラルネットワークにおける関連付けされたノード画像を有するノードに割当てるステップと、
    前記画像データと前記ノード画像が一様でない照度状態の下で取得されている場合、前記画像データと前記ノード画像を比較するため、正規化相互相関度を適用するステップと、
    を有することを特徴とする方法。
  2. 請求項1記載の方法であって、
    前記オブジェクトの分類値は、前記正規化相互相関度により決定されることを特徴とする方法。
  3. 請求項1記載の方法であって、
    画像が一様でない状態の下で取得されたものかの判断はさらに、
    前記画像における強度を正規化するステップと、
    前記画像をいくつかの領域に分割するステップと、
    前記領域の平均及び分散を計算するステップと、
    前記画像が前記平均及び分散に基づき一様であるか判断するステップと、
    を有することを特徴とする方法。
  4. 請求項1記載の方法であって、
    前記画像データと前記ノード画像の両方が一様な照度の下で取得されている場合、前記ノードに関連付けされた分類値は前記画像データに割当てられることを特徴とする方法。
  5. 請求項1記載の方法であって、
    前記画像データと前記ノード画像の1つのみが一様な照度の下で取得されている場合、前記ノード画像は受付けられないことを特徴とする方法。
  6. 請求項1記載の方法であって、
    前記適用するステップは、前記分類値が所定の閾値を満たさない場合のみ実行されることを特徴とする方法。
  7. 請求項1記載の方法であって、
    前記ノードは、前記オブジェクトが対応するクラスを特定する関連するクラスラベルと、前記オブジェクトが前記クラスに属する確率を示す分類値とを有することを特徴とする方法。
  8. 請求項1記載の方法であって、さらに、
    前記正規化相互相関度に基づき、クラスラベルを出力するステップを有することを特徴とする方法。
  9. 請求項1記載の方法であって、
    前記ニューラルネットワークは、動径基底関数ネットワークであることを特徴とする方法。
  10. 請求項1記載の方法であって、
    前記ニューラルネットワークは、バックプロパゲーションネットワークであることを特徴とする方法。
  11. 請求項1記載の方法であって、
    前記ニューラルネットワークは、マルチレイヤードパーセプトロンベースネットワークであることを特徴とする方法。
  12. 請求項1記載の方法であって、
    前記ニューラルネットワークは、ベイズベースニューラルネットワークであることを特徴とする方法。
  13. 画像データにおけるオブジェクトを分類する装置であって、
    メモリと、
    前記メモリに結合され、前記画像データをニューラルネットワークにおける関連付けされたノード画像を有するノードに割当て、前記画像データと前記ノード画像が一様でない照度状態の下で取得されている場合、前記画像データと前記ノード画像を比較するため、正規化相互相関度を適用するよう動作する少なくとも1つのプロセッサと、
    を有することを特徴とする装置。
  14. 請求項13記載の装置であって、
    前記オブジェクトに対する分類値は、前記正規化相互相関度により決定されることを特徴とする装置。
  15. 請求項13記載の装置であって、
    前記プロセッサはさらに、前記画像における強度を正規化し、前記画像をいくつかの領域に分割し、前記領域の平均及び分散を計算し、前記画像が前記平均及び分散に基づき一様であるか判断するよう構成されることを特徴とする装置。
  16. 請求項13記載の装置であって、
    前記画像データと前記ノード画像の両方が一様な照度の下で取得されている場合、前記ノードに関連付けされた分類値は前記画像データに割当てられることを特徴とする装置。
  17. 請求項13記載の装置であって、
    前記画像データと前記ノード画像の1つのみが一様な照度の下で取得されている場合、前記ノード画像は受付けられないことを特徴とする装置。
  18. 請求項13記載の装置であって、
    前記ノードは、前記オブジェクトが対応するクラスを特定する関連するクラスラベルと、前記オブジェクトが前記クラスに属する確率を示す分類値とを有することを特徴とする装置。
  19. 請求項13記載の装置であって、
    前記ニューラルネットワークは、動径基底関数ネットワークであることを特徴とする装置。
  20. 請求項13記載の装置であって、
    前記ニューラルネットワークは、バックプロパゲーションネットワークであることを特徴とする装置。
  21. 請求項13記載の装置であって、
    前記ニューラルネットワークは、マルチレイヤードパーセプトロンベースネットワークであることを特徴とする装置。
  22. 請求項13記載の装置であって、
    前記ニューラルネットワークは、ベイズベースニューラルネットワークであることを特徴とする装置。
  23. 画像データにおけるオブジェクトを分類する製造物品であって、実行時に、
    前記画像データをニューラルネットワークにおける関連付けされたノード画像を有するノードに割当てるステップと、
    前記画像データと前記ノード画像が一様でない照度状態の下で取得されている場合、前記画像データと前記ノード画像を比較するため、正規化相互相関度を適用するステップと、
    を実現する1以上のプログラムを有するマシーン可読媒体を有することを特徴とする製造物品。
JP2004558261A 2002-12-11 2003-12-08 照度不変ニューラルネットワークを利用したコンピュータビジョンシステム及び方法 Withdrawn JP2006510079A (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US43254002P 2002-12-11 2002-12-11
PCT/IB2003/005747 WO2004053778A2 (en) 2002-12-11 2003-12-08 Computer vision system and method employing illumination invariant neural networks

Publications (1)

Publication Number Publication Date
JP2006510079A true JP2006510079A (ja) 2006-03-23

Family

ID=32507955

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2004558261A Withdrawn JP2006510079A (ja) 2002-12-11 2003-12-08 照度不変ニューラルネットワークを利用したコンピュータビジョンシステム及び方法

Country Status (7)

Country Link
US (1) US20060013475A1 (ja)
EP (1) EP1573657A2 (ja)
JP (1) JP2006510079A (ja)
KR (1) KR20050085576A (ja)
CN (1) CN1723468A (ja)
AU (1) AU2003302791A1 (ja)
WO (1) WO2004053778A2 (ja)

Families Citing this family (23)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4532171B2 (ja) * 2004-06-01 2010-08-25 富士重工業株式会社 立体物認識装置
JP2007257295A (ja) * 2006-03-23 2007-10-04 Toshiba Corp パターン認識方法
KR100701163B1 (ko) 2006-08-17 2007-03-29 (주)올라웍스 디시젼 퓨전을 이용하여 디지털 데이터 내의 인물 식별을통해 태그를 부여 하고 부가 태그를 추천하는 방법
KR100851433B1 (ko) * 2007-02-08 2008-08-11 (주)올라웍스 이미지 태그 정보에 기반한 인물 이미지 전송 방법,송수신자 이미지 디스플레이 방법 및 인물 이미지 검색방법
US8837721B2 (en) 2007-03-22 2014-09-16 Microsoft Corporation Optical DNA based on non-deterministic errors
US8788848B2 (en) 2007-03-22 2014-07-22 Microsoft Corporation Optical DNA
US9135948B2 (en) * 2009-07-03 2015-09-15 Microsoft Technology Licensing, Llc Optical medium with added descriptor to reduce counterfeiting
US9513139B2 (en) 2010-06-18 2016-12-06 Leica Geosystems Ag Method for verifying a surveying instruments external orientation
EP2397816A1 (en) * 2010-06-18 2011-12-21 Leica Geosystems AG Method for verifying a surveying instrument's external orientation
US8761437B2 (en) 2011-02-18 2014-06-24 Microsoft Corporation Motion recognition
CN102509123B (zh) * 2011-12-01 2013-03-20 中国科学院自动化研究所 一种基于复杂网络的脑功能磁共振图像分类方法
US9336302B1 (en) * 2012-07-20 2016-05-10 Zuci Realty Llc Insight and algorithmic clustering for automated synthesis
CN104408072B (zh) * 2014-10-30 2017-07-18 广东电网有限责任公司电力科学研究院 一种基于复杂网络理论的适用于分类的时间序列特征提取方法
CN107636678B (zh) * 2015-06-29 2021-12-14 北京市商汤科技开发有限公司 用于预测图像样本的属性的方法和设备
DE102016216954A1 (de) * 2016-09-07 2018-03-08 Robert Bosch Gmbh Modellberechnungseinheit und Steuergerät zur Berechnung einer partiellen Ableitung eines RBF-Modells
DE102017215420A1 (de) * 2016-09-07 2018-03-08 Robert Bosch Gmbh Modellberechnungseinheit und Steuergerät zur Berechnung eines RBF-Modells
EP3580693A1 (en) * 2017-03-16 2019-12-18 Siemens Aktiengesellschaft Visual localization in images using weakly supervised neural network
US10635813B2 (en) 2017-10-06 2020-04-28 Sophos Limited Methods and apparatus for using machine learning on multiple file fragments to identify malware
WO2019145912A1 (en) 2018-01-26 2019-08-01 Sophos Limited Methods and apparatus for detection of malicious documents using machine learning
US11941491B2 (en) 2018-01-31 2024-03-26 Sophos Limited Methods and apparatus for identifying an impact of a portion of a file on machine learning classification of malicious content
US11947668B2 (en) * 2018-10-12 2024-04-02 Sophos Limited Methods and apparatus for preserving information between layers within a neural network
KR102027708B1 (ko) * 2018-12-27 2019-10-02 주식회사 넥스파시스템 주파수 상관도 분석 및 엔트로피 계산을 이용한 자동 영역 추출 방법 및 시스템
US11574052B2 (en) 2019-01-31 2023-02-07 Sophos Limited Methods and apparatus for using machine learning to detect potentially malicious obfuscated scripts

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5239594A (en) * 1991-02-12 1993-08-24 Mitsubishi Denki Kabushiki Kaisha Self-organizing pattern classification neural network system
US5790690A (en) * 1995-04-25 1998-08-04 Arch Development Corporation Computer-aided method for automated image feature analysis and diagnosis of medical images
DE69634247T2 (de) * 1995-04-27 2006-01-12 Northrop Grumman Corp., Los Angeles Klassifiziervorrichtung mit einem neuronalen Netz zum adaptiven Filtern
US5842194A (en) * 1995-07-28 1998-11-24 Mitsubishi Denki Kabushiki Kaisha Method of recognizing images of faces or general images using fuzzy combination of multiple resolutions

Also Published As

Publication number Publication date
WO2004053778A2 (en) 2004-06-24
EP1573657A2 (en) 2005-09-14
KR20050085576A (ko) 2005-08-29
AU2003302791A1 (en) 2004-06-30
WO2004053778A3 (en) 2004-07-29
US20060013475A1 (en) 2006-01-19
CN1723468A (zh) 2006-01-18

Similar Documents

Publication Publication Date Title
JP2006510079A (ja) 照度不変ニューラルネットワークを利用したコンピュータビジョンシステム及び方法
US7043075B2 (en) Computer vision system and method employing hierarchical object classification scheme
US8842883B2 (en) Global classifier with local adaption for objection detection
Gutta et al. Face recognition using hybrid classifier systems
Juang et al. A TS fuzzy system learned through a support vector machine in principal component space for real-time object detection
JP2004523840A (ja) モデル集合によるオブジェクトの分類
Yang et al. Learning to recognize 3D objects with SNoW
SG171858A1 (en) A method for updating a 2 dimensional linear discriminant analysis (2dlda) classifier engine
Chen et al. Object detection using color entropies and a fuzzy classifier
Liliana et al. Human emotion recognition based on active appearance model and semi-supervised fuzzy C-means
Emmanuel et al. Fuzzy clustering and Whale-based neural network to food recognition and calorie estimation for daily dietary assessment
Verma et al. Local invariant feature-based gender recognition from facial images
CN116110089A (zh) 一种基于深度自适应度量学习的面部表情识别方法
Islam Machine learning in computer vision
Debnath et al. Appearance and shape-based hybrid visual feature extraction: toward audio–visual automatic speech recognition
Misra et al. Integrated features and GMM based hand detector applied to character recognition system under practical conditions
Vorugunti et al. COMPOSV: Compound feature extraction and depthwise separable convolution-based online signature verification
Mehta et al. Ear recognition system using averaging ensemble technique
US20210365746A1 (en) Method of classificating outlier in object recognition and device and robot of classifying thereof
Nanda et al. A person re-identification framework by inlier-set group modeling for video surveillance
Abdallah et al. Facial-expression recognition based on a low-dimensional temporal feature space
US10943099B2 (en) Method and system for classifying an input data set using multiple data representation source modes
De Croon et al. Adaptive gaze control for object detection
Tavoosi Designing a new recurrent convolutional neural network for face detection and recognition in a color image
Visentini et al. Cascaded online boosting

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20061205

A761 Written withdrawal of application

Free format text: JAPANESE INTERMEDIATE CODE: A761

Effective date: 20071130