JP4378660B2

JP4378660B2 - 情報処理装置および方法、並びにプログラム

Info

Publication number: JP4378660B2
Application number: JP2007199227A
Authority: JP
Inventors: 嘉昭岩井; 隆之芦ヶ原; 章中村
Original assignee: Sony Corp
Current assignee: Sony Corp
Priority date: 2007-02-26
Filing date: 2007-07-31
Publication date: 2009-12-09
Anticipated expiration: 2027-07-31
Also published as: JP2008243175A; CN101256632A; CN101256632B

Description

本発明は、情報処理装置および方法、並びにプログラムに関し、特に、画像内の物体を認識する情報処理装置および方法、並びにプログラムに関する。

カメラから取得した画像など、その画像内に存在する物体の認識についての研究は、古くから行われてきた。従来は、物体を大局的に記述する方法、すなわち、物体全体のテクスチャのテンプレートを用意し、このテンプレートを物体全体にあてはめてマッチングすることにより物体の認識を行う方法が主流であった。しかしながら、この方法では、取得した画像内の物体に部分的な隠れがある場合や、複雑な背景を含む場合などの物体の認識は困難であった。

そこで、近年、物体を局所的な特徴量で記述し、その局所特徴量同士のマッチングを行うことで、取得した画像内の物体の部分的な隠れや複雑な背景などに対して非常にロバストな方法が提案されている（例えば、非特許文献１参照）。

また、テクスチャの少ない物体の認識に関しては、物体の輪郭形状、例えば、エッジを用いる方法が数多く提案されてきた。エッジを利用した認識方法も、大局的な記述方法が主流であり、一般的な画像について物体全体の輪郭を抽出することは非常に困難であった。また、上述したように、大局的な記述方法は、部分的な隠れや複雑な背景などに対応することが困難であるという問題が存在する。

そこで、最近では、上述したテクスチャの局所特徴量での記述方法を基に、エッジを局所的に記述する方法が提案されている（例えば、非特許文献２および非特許文献３参照）。

D．G．Lowe，"Object Recognition from local scale‐invariant features"， ICCV， 1999 S．Belongie， J．Malik， J．Puzicha， "Shape Matching and Object Recognition Using Shape Contexts"， PAMI， 2002 F．Jurie and C．Schmid， "Scale‐invariant shape features for recognition of object categories"， CVPR， 2004

しかしながら、非特許文献１の方法は、テクスチャの多い物体には非常に有効であるが、テクスチャの少ない物体には、その適用は困難とされる。また、非特許文献２および非特許文献３の方法は、部分的な隠れや複雑な背景を含むような一般的な画像に対して、十分ロバストな方法であるとは言えないのが現状である。

本発明は、このような状況に鑑みてなされたものであり、部分的な隠れや複雑な背景を含むような一般的な画像に対しても、より確実に画像内の物体を認識することができるようにするものである。

本発明の一側面の情報処理装置は、入力画像とモデル画像とを比較し、前記モデル画像の被写体と前記入力画像の被写体とを同定する情報処理装置であって、前記モデル画像のエッジ上の点であって、前記モデル画像の特徴量であるモデル画像特徴量を抽出するための点である特徴点の近傍の、１つの前記特徴点に対して複数の特徴量抽出領域のそれぞれにおいて、前記モデル画像特徴量を抽出する特徴量抽出手段と、前記入力画像のエッジ上の点を前記特徴点に対応する対応点の候補として、前記対応点の候補における前記入力画像の特徴量である入力画像特徴量と、前記特徴点における複数の前記モデル画像特徴量のそれぞれとの各組をマッチングペア候補としてマッチングを行うことで、マッチングの度合を示す特徴量コストを前記マッチングペア候補毎にそれぞれ算出し、前記特徴量コストの最も高いマッチングペア候補を、前記対応点の候補についての第１のマッチングペアとして選択するマッチング手段と、前記マッチング手段により前記入力画像のエッジ上の複数の前記対応点の候補のそれぞれについて選択された前記第１のマッチングペアのうち、前記特徴量コストが最も高い前記第１のマッチングペアを求め、それを構成する前記対応点の候補を、１つの前記特徴点に対応する前記対応点として、前記対応点と前記特徴点との組である第２のマッチングペアを決定する決定手段と、前記決定手段により決定された複数の前記特徴点に対する前記第２のマッチングペアのうち、幾何拘束条件を満たす前記第２のマッチングペアの数が、所定の値より大きい場合、前記モデル画像の被写体と前記入力画像の被写体とを同定する同定手段とを備える。

前記特徴量抽出手段は、前記複数の特徴量抽出領域のそれぞれにおいて、前記モデル画像特徴量として複数種類抽出し、前記マッチング手段は、前記複数種類毎に前記マッチングをそれぞれ行うことができる。

前記特徴量抽出手段には、複数の前記特徴量抽出領域のそれぞれにおける、前記モデル画像のエッジの近傍で画素毎に連続値をもつ前記モデル画像特徴量を抽出させるようにすることができる。

前記特徴量抽出手段には、複数の前記特徴量抽出領域のそれぞれにおける、前記モデル画像のエッジの近傍におけるエッジ強度を抽出させるようにすることができる。

前記特徴量抽出手段には、その内側により多くの前記モデル画像のエッジが含まれるように決められた参照円と、前記モデル画像のエッジとが交差する点を前記特徴点とし、前記特徴点の近傍の複数の前記特徴量抽出領域のそれぞれにおいて、前記モデル画像の特徴量であるモデル画像特徴量を抽出させるようにすることができる。

前記特徴量抽出手段には、前記モデル画像に配置可能な円の輪郭の近傍における、その円全体のエッジ上の点のばらつきの度合いにより、１以上の中心および半径をそれぞれ設定し、設定された前記１以上の中心および半径のそれぞれで特定される１以上の円を参照円としてそれぞれ決定し、それぞれの前記参照円を角度方向に分割し、分割されて結果得られる複数の円弧のそれぞれに対して設定された所定領域内において最も前記参照円に近い前記モデル画像のエッジ上の点のそれぞれを前記特徴点とし、前記特徴点の近傍の複数の前記特徴量抽出領域のそれぞれにおいて、前記モデル画像の特徴量であるモデル画像特徴量を抽出させるようにすることができる。

前記情報処理装置には、前記入力画像特徴量と複数の前記モデル画像特徴量とのマッチングの結果であるマッチングペアの数が所定の値より大きい場合、前記モデル画像の被写体と前記入力画像の被写体とを同定する同定手段をさらに設けることができる。

本発明の一側面の情報処理方法は、入力画像とモデル画像とを比較し、前記モデル画像の被写体と前記入力画像の被写体とを同定する情報処理装置の情報処理方法であって、前記モデル画像のエッジ上の点であって、前記モデル画像の特徴量であるモデル画像特徴量を抽出するための点である特徴点の近傍の、１つの前記特徴点に対して複数の特徴量抽出領域のそれぞれにおいて、前記モデル画像特徴量を抽出し、前記入力画像のエッジ上の点を前記特徴点に対応する対応点の候補として、前記対応点の候補における前記入力画像の特徴量である入力画像特徴量と、前記特徴点における複数の前記モデル画像特徴量のそれぞれとの各組をマッチングペア候補としてマッチングを行うことで、マッチングの度合を示す特徴量コストを前記マッチングペア候補毎にそれぞれ算出し、前記特徴量コストの最も高いマッチングペア候補を、前記対応点の候補についての第１のマッチングペアとして選択し、前記入力画像のエッジ上の複数の前記対応点の候補のそれぞれについて選択された前記第１のマッチングペアのうち、前記特徴量コストが最も高い前記第１のマッチングペアを求め、それを構成する前記対応点の候補を、１つの前記特徴点に対応する前記対応点として、前記対応点と前記特徴点との組である第２のマッチングペアを決定し、決定された複数の前記特徴点に対する前記第２のマッチングペアのうち、幾何拘束条件を満たす前記第２のマッチングペアの数が、所定の値より大きい場合、前記モデル画像の被写体と前記入力画像の被写体とを同定するステップを含む。

本発明の一側面のプログラムは、入力画像とモデル画像とを比較し、前記モデル画像の被写体と前記入力画像の被写体とを同定する処理をコンピュータに行わせるプログラムであって、前記モデル画像のエッジ上の点であって、前記モデル画像の特徴量であるモデル画像特徴量を抽出するための点である特徴点の近傍の、１つの前記特徴点に対して複数の特徴量抽出領域のそれぞれにおいて、前記モデル画像特徴量を抽出し、前記入力画像のエッジ上の点を前記特徴点に対応する対応点の候補として、前記対応点の候補における前記入力画像の特徴量である入力画像特徴量と、前記特徴点における複数の前記モデル画像特徴量のそれぞれとの各組をマッチングペア候補としてマッチングを行うことで、マッチングの度合を示す特徴量コストを前記マッチングペア候補毎にそれぞれ算出し、前記特徴量コストの最も高いマッチングペア候補を、前記対応点の候補についての第１のマッチングペアとして選択し、前記入力画像のエッジ上の複数の前記対応点の候補のそれぞれについて選択された前記第１のマッチングペアのうち、前記特徴量コストが最も高い前記第１のマッチングペアを求め、それを構成する前記対応点の候補を、１つの前記特徴量に対する前記対応点として、前記対応点と前記特徴点との組である第２のマッチングペアを決定し、決定された複数の前記特徴量に対する前記第２のマッチングペアのうち、幾何拘束条件を満たす前記第２のマッチングペアの数が、所定の値より大きい場合、前記モデル画像の被写体と前記入力画像の被写体とを同定するステップを含む。

本発明の一側面においては、モデル画像のエッジ上の点であって、前記モデル画像の特徴量であるモデル画像特徴量を抽出するための点である特徴点の近傍の、１つの前記特徴点に対して複数の特徴量抽出領域のそれぞれにおいて、前記モデル画像特徴量が抽出され、前記入力画像のエッジ上の点を前記特徴点に対応する対応点の候補として、前記対応点の候補における前記入力画像の特徴量である入力画像特徴量と、前記特徴点における複数の前記モデル画像特徴量のそれぞれとの各組をマッチングペア候補としてマッチングを行うことで、マッチングの度合を示す特徴量コストが前記マッチングペア候補毎にそれぞれ算出され、前記特徴量コストの最も高いマッチングペア候補が、前記対応点の候補についての第１のマッチングペアとして選択され、前記入力画像のエッジ上の複数の前記対応点の候補のそれぞれについて選択された前記第１のマッチングペアのうち、前記特徴量コストが最も高い前記第１のマッチングペアが求められ、それを構成する前記対応点の候補を、１つの前記特徴点に対応する前記対応点として、前記対応点と前記特徴点との組である第２のマッチングペアが決定され、決定された複数の前記特徴点に対する前記第２のマッチングペアのうち、幾何拘束条件を満たす前記第２のマッチングペアの数が、所定の値より大きい場合、前記モデル画像の被写体と前記入力画像の被写体とが同定される。

以上のように、本発明の一側面によれば、画像内の物体を認識することができる。特に、本発明の一側面によれば、部分的な隠れや複雑な背景を含むような一般的な画像に対しても、より確実に画像内の物体を認識することができる。

以下、図面を参照しながら本発明の実施の形態について説明する。

図１は、本発明の一実施の形態である物体認識装置の機能の構成を示すブロック図である。

図１において、物体認識装置１１は、モデル特徴量登録部３１およびターゲット画像認識部３２から構成される。

モデル特徴量登録部３１は、物体の認識において、認識の対象の物体の画像であるモデル画像からエッジ画像を生成し、エッジ画像上のエッジ点における局所特徴量であるモデル特徴量を抽出し、エッジ点同士の幾何学的位置関係とともに辞書に登録する。

モデル特徴量登録部３１は、カメラ部５１、フレームメモリ５２、エッジ強度画像生成部５３、エッジ画像生成部５４、モデル特徴量抽出部５５、およびモデル辞書５６を含むように構成される。

カメラ部５１は、撮像素子と、その撮像素子に画像を結像させるレンズなどの光学系から構成される。カメラ部５１は、被写体の像を撮像し、撮像された画像をフレームメモリ５２に供給する。撮像される画像は、静止画像または動画像とされる。

フレームメモリ５２は、カメラ部５１から供給されたモデル画像を蓄積する。フレームメモリ５２は、供給された画像が静止画像であった場合、その静止画像をそのまま記憶する。また、フレームメモリ５２は、供給された画像が動画像であった場合、その動画像をフレーム毎に記憶する。フレームメモリ５２に記憶された静止画像または動画像のフレーム画像は、これ以降の処理でモデル画像として扱われる。

エッジ強度画像生成部５３は、フレームメモリ５２に蓄積されているモデル画像を基に、エッジ強度画像を生成する。エッジ強度画像は、モデル画像の所定の領域における位置の変化に対する画素値の変化の大きさの度合いを示すエッジ強度からなる。エッジ強度画像において、画素値の変化が急峻かつ大きいほど、エッジ強度は強くなり、画素値の変化が緩やかかつ小さいほどエッジ強度は弱くなる。すなわち、エッジ強度画像生成部５３は、モデル画像内の注目画素を含む近傍の領域における位置の変化に対する画素値の変化の大きさの度合いを示すエッジ強度からなるエッジ強度画像を生成する。エッジ強度画像生成部５３は、生成されたエッジ強度画像を、モデル特徴量抽出部５５に供給する。

エッジ画像生成部５４は、フレームメモリ５２に蓄積されているモデル画像を基に、エッジ画像を生成する。エッジ画像は、モデル画像の画素の画素値の大小の境界を示す画像である。例えば、エッジ画像生成部５４は、モデル画像内の注目画素の画素値の大きさが、予め定められた閾値以上であれば１とし、それ以外を０とすることで得られる画像であるエッジ画像を生成する。エッジ画像生成部５４は、生成されたエッジ画像を、モデル特徴量抽出部５５に供給する。

モデル特徴量抽出部５５は、エッジ画像生成部５４から供給されたエッジ画像上の局所領域に、特徴量を抽出するためのサンプリング点を決定する。また、モデル特徴量抽出部５５は、サンプリング点のうちの基準の点となるベース点と、ベース点以外のサンプリング点であってベース点に従属して決定される点であるサポート点との幾何学的位置関係を決定する。ここで、幾何学的位置関係は、注目される２点のうちの１点を基準とした場合、他の１点の位置を基準の点からの距離および角度で表す関係とされる。すなわち、モデル特徴量抽出部５５は、ベース点に対するサポート点の相対位置を決定する。

ここで、特徴量を抽出するためのサンプリング点は、エッジ画像上の局所領域に設定される参照円と、エッジ画像とが交差する点であるエッジ点とされる。ベース点は、その参照円上のエッジ点の１つであり、その他の点はサポート点とされる。また、ベース点とサポート点との幾何学的位置関係によれば、サポート点の位置はそれぞれ、ベース点からの距離と角度とで表される。

より具体的には、モデル特徴量抽出部５５は、図２に示されるように、エッジ画像生成部５４によって生成されたエッジ画像１１１の局所領域としての参照円Ｒを決定し、参照円Ｒと交差するエッジ画像１１１上のエッジ点を、ベース点ｂ、およびサポート点ｓ１，ｓ２、およびｓ３とする。

また、図３に示されるように、モデル特徴量抽出部５５において、図２のように決定されたサポート点ｓ１乃至ｓ３のベース点ｂからの相対的な位置（距離および角度）は、相対距離ｒ１，ｒ２、およびｒ３、並びに基準軸Ｉからの相対角度θ１，θ２、およびθ３で表される。

また、モデル特徴量抽出部５５は、決定されたベース点およびサポート点の近傍に、複数の特徴量抽出領域を設定し、エッジ強度画像生成部５３から供給されたエッジ強度画像を基に、それぞれの特徴量抽出領域におけるエッジ強度をモデル画像の特徴量であるモデル特徴量として抽出する。

抽出されるモデル画像のモデル特徴量は、エッジ画像から得られる０および１の２値で表されるものでなく、上述したエッジ強度のように、エッジの近傍において、画素毎に連続値をとるものとされる。すなわち、モデル特徴量は、エッジ強度に限らず、画像処理によって得られる、モデル画像のエッジの近傍における変化を表すものであればよい。例えば、モデル特徴量は、画素の位置に対して変化する輝度などとされる。より具体的には、例えば、モデル特徴量は、モデル画像に対して、ガボアフィルタやガウシアン微分フィルタなどの微分フィルタによる演算を用いて抽出される特徴量とされる。

さらに、モデル特徴量抽出部５５は、ベース点とサポート点との幾何学的位置関係、およびそれぞれの点についての特徴量抽出領域において抽出されたモデル特徴量を、モデル画像毎にモデル辞書５６に供給（登録）する。

モデル辞書５６は、例えば、ハードディスクドライブなどの記憶装置、ハードディスクやRAM（Random Access Memory）などの記憶媒体などから構成される。モデル辞書５６は、モデル特徴量抽出部５５から供給されたベース点とサポート点との幾何学的位置関係と、それぞれの点についてのモデル特徴量とを対応させて記憶する。

このように、モデル特徴量登録部３１は、モデル画像の局所領域を、注目点（ベース点ｂ）の特徴量、周辺の点（サポート点ｓ１乃至ｓ３）の特徴量、および注目点と周辺の点との位置関係（相対距離ｒ１乃至ｒ３、および相対角度θ１乃至θ３）で記述することができる。

次に、図１の説明に戻り、ターゲット画像認識部３２について説明する。ターゲット画像認識部３２は、モデル画像に含まれる物体と比較され、認識される画像であるターゲット画像からエッジ画像を生成し、生成したエッジ画像上のエッジ点の局所特徴量であるターゲット特徴量を抽出する。ターゲット画像認識部３２は、抽出したターゲット特徴量と、モデル特徴量登録部３１のモデル辞書５６に登録されているモデル特徴量とのマッチングを行い、モデル画像とターゲット画像とのマッチングペアを取得する。ターゲット画像認識部３２は、取得されたマッチングペアの数を基に、モデル画像内の物体とターゲット画像内の物体とを同定する。

なお、ターゲット画像は、モデル画像と同様に、静止画像そのものまたは動画像のフレーム画像とされる。

ターゲット画像認識部３２は、カメラ部６１、フレームメモリ６２、エッジ強度画像生成部６３、エッジ画像生成部６４、ターゲット特徴量抽出部６５、マッチング部６６、および物体同定部６７を含むように構成される。

カメラ部６１、フレームメモリ６２、エッジ強度画像生成部６３、およびエッジ画像生成部６４は、それぞれ上述したモデル特徴量登録部３１に含まれるカメラ部５１、フレームメモリ５２、エッジ強度画像生成部５３、およびエッジ画像生成部５４のそれぞれと同様の構成とされるので、その説明は省略する。

ターゲット特徴量抽出部６５は、ターゲット画像のエッジ画像およびエッジ強度画像を基に、モデル画像のベース点およびサポート点に対応するターゲット画像のエッジ点におけるエッジ強度を、ターゲット画像の特徴量であるターゲット特徴量として抽出する。ターゲット特徴量抽出部６５は、抽出されたターゲット画像のターゲット特徴量を、マッチング部６６に供給する。

抽出されるターゲット特徴量は、エッジ画像から得られる０および１の２値で表されるものでなく、エッジの近傍において、画素毎に連続値をとるものとされる。すなわち、ターゲット特徴量は、エッジ強度に限らず、画像処理によって得られる、モデル画像のエッジの近傍における変化を表すものであればよく、画素の位置に対して変化する輝度などとされる。より具体的には、例えば、ターゲット特徴量は、ターゲット画像に対して、ガボアフィルタやガウシアン微分フィルタなどの微分フィルタによる演算を用いて抽出される特徴量とされる。

このように、ターゲット特徴量およびモデル特徴量のそれぞれを、０および１の２値で表されるエッジ情報ではなく、画素の位置に対して変化する値とすることで、ターゲット特徴量とモデル特徴量とを比較するときの、それぞれの特徴量の抽出の誤差の影響を小さくすることができる。

マッチング部６６は、ターゲット特徴量抽出部６５において抽出されたターゲット画像のターゲット特徴量と、モデル辞書５６に登録されているモデル画像のモデル特徴量とのマッチングを行い、モデル画像とターゲット画像とのマッチングペアを取得する。より具体的には、マッチング部６６は、ターゲット特徴量抽出部６５において抽出されたターゲット画像のエッジ上の、モデル画像のベース点およびサポート点に対応する点におけるターゲット特徴量と、モデル画像のベース点およびサポート点における複数のモデル特徴量のそれぞれとのマッチングを行う。

物体同定部６７は、マッチング部６６において取得されたマッチングペアの数を基に、ターゲット画像に含まれている物体を同定する。より具体的には、物体同定部６７は、ターゲット特徴量と複数のモデル特徴量とのマッチングの結果であるマッチングペアの数が所定の値より大きい場合、ターゲット画像の被写体とモデル画像の被写体とを同定する。

このような構成により、ターゲット画像認識部３２は、モデル画像の特徴量とターゲット画像の特徴量とのマッチングを行い、モデル画像に含まれている物体とターゲット画像に含まれている物体とを同定することで、画像内の物体を認識することができる。

次に、物体認識装置１１における、モデル画像の特徴量の登録の処理について説明する。

例えば、カメラ部５１によって所定の物体が撮像され、フレームメモリ５２に記録されている画像がエッジ強度画像生成部５３およびエッジ画像生成部５４に取得されると、モデル特徴量登録部３１によって、モデル画像の特徴量の登録の処理が開始される。

図４は、物体認識装置１１のモデル特徴量登録部３１におけるモデル画像の特徴量の登録の処理を説明するフローチャートである。

ステップＳ１１において、エッジ強度画像生成部５３は、フレームメモリ５２から取得したモデル画像に対して、エッジ強度画像の生成の処理を施す。

図５は、エッジ強度画像の生成の処理の詳細を説明するフローチャートである。

ここでは、グレースケール画像からエッジ画像を生成する手法を示す。エッジ抽出には様々な手法があるが、安定性および正確性の観点ではカニーエッジフィルタ（Canny-Edge Filter）が知られており、ここでのエッジ抽出処理にもカニーエッジフィルタを利用する。なお、カニーエッジフィルタは、非特許文献「J．R．Parker， “Algorithms for Image Processing and Computer Vision”， John Wiley ＆ Sons， Inc．」で詳しく説明されている。

ステップＳ３１において、エッジ強度画像生成部５３は、スムージング（Smoothing）処理を行う。すなわち、エッジ強度画像生成部５３は、ガウスフィルタＧ（ｘ，ｙ）を画像ｆ（ｘ，ｙ）に適用することにより、画像内のノイズおよび細かいテクスチャの削減を行う。より具体的には、エッジ強度画像生成部５３は、式（１）に示されるように、ガウスフィルタＧ（ｘ，ｙ）と画像ｆ（ｘ，ｙ）との畳み込みを行い、スムージング画像ｇ（ｘ，ｙ）を得る。また、ガウスフィルタＧ（ｘ，ｙ）は、式（２）で示される。

ステップＳ３２において、エッジ強度画像生成部５３は、ｘ軸方向の勾配ｇｘ（ｘ，ｙ）およびｙ軸方向の勾配ｇｙ（ｘ，ｙ）を算出する。より具体的には、エッジ強度画像生成部５３は、ステップＳ３１で得られたスムージング画像ｇ（ｘ，ｙ）に、図６に示される微分フィルタを適用し、ｘ軸方向の勾配とｙ軸方向の勾配とで表される勾配画像を作成する。すなわち、ｘ軸方向の勾配ｇｘ（ｘ，ｙ）の作成には、図６の左側に示されるｘ方向フィルタが適用され、ｙ軸方向の勾配ｇｙ（ｘ，ｙ）の作成には、図６の右側に示されるｙ方向フィルタが適用される。

ステップＳ３３において、エッジ強度画像生成部５３は、エッジ強度およびエッジ角度を算出する。エッジ強度画像生成部５３は、ステップＳ３２において作成した勾配画像ｇｘ（ｘ，ｙ）およびｇｙ（ｘ，ｙ）を用いて、式（３）に示されるエッジ強度画像Ｍ（ｘ，ｙ）、および式（４）に示されるエッジ角度画像θ（ｘ，ｙ）を生成する。

このようにして、エッジ強度画像生成部５３は、エッジ強度画像を生成する。

図４のフローチャートの説明に戻り、ステップＳ１２において、エッジ画像生成部５４は、フレームメモリ５２から取得したモデル画像に対して、エッジ画像の生成の処理を施す。

図７は、エッジ画像の生成の処理の詳細を説明するフローチャートである。

図７のフローチャートにおいて、エッジ画像生成部５４によって実行されるステップＳ５１乃至ステップＳ５３の処理は、図５のフローチャートにおいて、エッジ強度画像生成部５３によって実行されるステップＳ３１乃至ステップＳ３３の処理と同様であるので、説明は省略する。

ステップＳ５４において、エッジ画像生成部５４は、エッジの細線化を行う。すなわちステップＳ５３において生成されたエッジ強度画像Ｍ（ｘ，ｙ）は、部分的に数ピクセルの幅をもっている。エッジ画像生成部５４は、これを１ピクセルの幅にするように細線化の処理を施す。より具体的には、エッジ画像生成部５４は、所定の点（ｘ，ｙ）においてエッジ強度画像Ｍ（ｘ，ｙ）が０でない場合、その点におけるエッジ強度画像Ｍ（ｘ，ｙ）の値と、その点のエッジ角度画像θ（ｘ，ｙ）で表されるエッジ方向にある点（ｘ１，ｙ１）におけるエッジ強度画像Ｍ（ｘ１，ｙ１）の値およびその反対側のエッジ方向の点（ｘ２，ｙ２）におけるエッジ強度画像Ｍ（ｘ２，ｙ２）の値のそれぞれとを比較する。エッジ画像生成部５４は、点（ｘ，ｙ）におけるエッジ強度画像Ｍ（ｘ，ｙ）が、エッジ強度画像Ｍ（ｘ１，ｙ１）またはエッジ強度画像Ｍ（ｘ２，ｙ２）より小さい場合、点（ｘ，ｙ）はエッジ点ではないとして、エッジ強度画像Ｍ（ｘ，ｙ）を０とする。

ステップＳ５５において、エッジ画像生成部５４は、エッジ検出を行う。すなわち、エッジ画像生成部５４は、ステップＳ５４において細線化されたエッジ強度画像Ｍ（ｘ，ｙ）から閾値処理によってエッジ画像を生成する。カニーエッジフィルタの場合、２つの閾値T_highおよびT_lowが閾値処理に用いられる。より具体的には、エッジ画像生成部５４は、点（ｘ，ｙ）のエッジ強度画像Ｍ（ｘ，ｙ）がT_highより大きい場合、その点をスタート点とし、エッジ強度画像Ｍ（ｘ，ｙ）がT_low以上の点を順次探索していき、その点をエッジ点としていく。

上述したカニーエッジフィルタにおけるパラメータは、ステップＳ５１（または、ステップＳ３１）において用いられるスムージングの度合いσ、並びに、ステップＳ５５において用いられるエッジの検出のための２つの閾値T_highおよびT_lowとなる。これらのパラメータが予め適切な値に設定されることで、より高精度なエッジ検出が可能となる。

図４のフローチャートの説明に戻り、ステップＳ１３において、モデル特徴量抽出部５５は、参照円の決定の処理を行う。

物体の輪郭は局所的に様々であり、上述したような相対距離および相対角度による拘束である幾何拘束を利用するためには、参照円の大きさ（半径）はそれぞれの局所領域に含まれる物体の輪郭、すなわちエッジ画像に応じて設定される。ここで、幾何拘束とは、上述したベース点とサポート点との幾何学的位置関係を保持することであり、ベース点に対してサポート点が多いほど幾何拘束が強いと言える。

より具体的には、例えば、図８Ａに示されるように、参照円の半径が一定である場合、参照円Ｒ１の領域では十分な幾何拘束が得られない。一方、図８Ｂに示される参照円Ｒ１'の領域のように、参照円Ｒ１の半径を大きく変えた領域とすることで、十分な幾何拘束が得られる。すなわち、参照円Ｒ１'によりエッジ点が２つ増えている。なお、物体の輪郭に応じて、参照円の半径を小さく変えた領域とすることで十分な幾何拘束を得ることもできる。

従って、参照円の半径は、エッジ画像と交差するエッジ点がより多くなるように決定される。

このような参照円Ｒを決定するためには、参照円Ｒの中心となる中心画素および参照円Ｒの半径を決定する必要がある。そこで、参照円Ｒ周辺で十分な幾何拘束が得られる領域を抽出するために、参照円Ｒの輪郭の近傍における、参照円Ｒ全体のエッジ点のばらつき度合いを評価として用いる。

すなわち、エッジ点のばらつき評価は、図９に示されるように、参照円Ｒの半径ｒ、参照円Ｒの中心点ｃ、中心点ｃと各エッジ点ｐとの距離ｄ、および各エッジ点ｐのｘ軸からの角度φを用いて、式（５）および式（６）によって表される。

ここでは、参照円Ｒの角度をＬ段階に量子化し、ｋは１乃至Ｌの値をとる。

但し、Ｋ(ｘ)はスムージングカーネルで、式（７）によって表される。

エントロピー値H(c,r)は、参照円Ｒ上付近のエッジ点が参照円Ｒ全体に十分なばらつきを持つ程大きくなる。すなわち、エントロピー値が大きければ、参照円Ｒの中の領域に十分な数のエッジ点が含まれていると言える。

より具体的には、モデル特徴量抽出部５５は、エッジ点ではない点を中心として、徐々に参照円Ｒの半径を大きくしていく。モデル特徴量抽出部５５は、その都度エントロピー値を求めて、一番大きいエントロピー値のときの半径を記憶する。モデル特徴量抽出部５５は、全ての点についてエントロピー値が最大となる半径を求める。このようにすることで、より大きいエントロピー値となる中心点と半径の参照円、すなわちより多くのエッジ点が含まれる参照円が決定される。

図１０は、上述した指標を用いた、モデル画像上の任意点ciを中心とした参照円の決定の処理を説明するフローチャートである。

ステップＳ７１において、モデル特徴量抽出部５５は、参照円の半径ｒを、予め設定されている参照円の最小半径st_rとし、最大値H_maxを０とする。最大値H_maxは、任意点ciにおいて、参照円の半径の変化に応じて変化するエントロピー値の最大値を示す。

ステップＳ７２において、モデル特徴量抽出部５５は、上述した式（５）により、任意点ciを中心とした参照円の、そのときの半径でのエントロピー値Hi=H(ci,r)を算出する。

ステップＳ７３において、モデル特徴量抽出部５５は、算出したエントロピー値Hiが最大値H_maxより大きいか否かを判定する。エントロピー値Hiが最大値H_maxより大きいと判定されると、処理はステップＳ７４に進む。

ステップＳ７４において、モデル特徴量抽出部５５は、最大値H_maxをエントロピー値Hiとし、エントロピー値が最大となるときの参照円の半径r_maxを半径ｒとする。ステップＳ７４の後、処理はステップＳ７５に進む。

一方、ステップＳ７３において、エントロピー値Hiがエントロピー値の最大値H_max以下であると判定されると、ステップＳ７４はスキップされて、処理はステップＳ７５に進む。

ステップＳ７５において、モデル特徴量抽出部５５は、予め設定されている半径の更新ステップr_stepの分だけ、半径ｒを大きくする。

ステップＳ７６において、モデル特徴量抽出部５５は、半径ｒが予め決められた閾値r_threshより大きいか否かを判定する。半径ｒが閾値r_threshより大きいと判定された場合、処理は終了する。

一方、半径ｒが閾値r_thresh以下であると判定された場合、処理はステップＳ７２に戻り、ステップ７２以降の処理を繰り返す。

このように、モデル特徴量抽出部５５は、任意点ciを中心とした参照円について、予め設定されている半径の更新ステップで、順次半径を大きくしながら、参照円の半径とエントロピー値を算出し、最大エントロピー値H_maxと、そのときの参照円の半径r_maxとを記憶する。

すなわち、モデル特徴量抽出部５５は、この処理をモデル画像上のすべての点で行うことで、図１１に示される、各画素におけるエントロピー値の最大値H_maxおよび参照円の半径r_maxを記憶したエントロピーマップE_Mapを得る。

このようにして、すべての点についての参照円が決定された後、最終的な参照円の決定の処理として、モデル特徴量抽出部５５は、エントロピーマップE_Mapのエントロピー値を使って、ノンマキシマムサプレッション（non-maximum suppression）を行う。すなわち、モデル特徴量抽出部５５は、注目画素が極大値でない場合、注目画素の近傍領域（８近傍、１６近傍など）において、エントロピーマップE_Mapの保持するエントロピー値および半径の値を０とする。

そして、モデル特徴量抽出部５５は、予め設定された最小エントロピー値により閾値処理をすることで、最終的なエントロピーマップE_Mapを生成する。エントロピーマップE_Mapは、モデル画像と同様の大きさを持ち、各画素にはエントロピー値と円の半径が保持されている。これによって、エントロピー値が０でない画素の位置が参照円の中心とされ、参照円Ｒｉ（ｉは１乃至ｎの整数）が決定される。

図４のフローチャートの説明に戻り、ステップＳ１４において、モデル特徴量抽出部５５は、ベース点およびサポート点を決定する。

より具体的には、モデル特徴量抽出部５５は、参照円Ｒｉとエッジ画像を用いて、ベース点ｂｉ、サポート点ｓｉｊ（ｊは１以上の整数）を決定する。ここで、参照円の選択順序は、エントロピーマップE_Mapにおけるエントロピー値の降順とされる。

図１２は、ベース点およびサポート点であるサンプリング点のサンプリングについて説明する図である。

ベース点およびサポート点のサンプリングにおいて、モデル特徴量抽出部５５は、図１２に示されるように、参照円Ｒｉを角度方向にｍ分割する。分割数ｍは、参照円Ｒｉの半径に応じて変化させる（例えば、参照円Ｒｉの半径が大きい場合には分割数ｍは多く、参照円Ｒｉの半径が小さい場合には分割数ｍは少なくする）。

さらに、モデル特徴量抽出部５５は、分割された各領域にサンプリング領域を設定する。より具体的には、例えば、モデル特徴量抽出部５５は、図１２に示されるように、分割された円弧の中心付近に円弧を含むように、円弧の接線方向に長辺をもつ長方形の領域であるサンプリング領域Asamを設定する。このサンプリング領域Asam内で最も参照円に近いエッジ画像１１１上のエッジ点が、サンプリング点ｍｉｊ（ｊは１以上であってｍ以下の整数）とされる。

次に、モデル特徴量抽出部５５は、複数のサンプリング点の中からベース点を決定する。例えば、モデル特徴量抽出部５５は、複数のサンプリング点のうちのｘ座標が最も小さいものをベース点とする。本発明において、物体の形状は、ベース点の集合によって記述されることから、ベース点はエッジ画像全体に広がっていることが望ましい。そこで、ベース点として既に決定された位置を履歴として参照して新たなベース点が決定されるようにする。すなわち、モデル特徴量抽出部５５は、前回までのベース点の位置の履歴を参照し、それらベース点の画素の周辺に存在しない点（画素）をサンプリング点ｍｉｊの中から選択し、今回のベース点とするとともに、その他の点（画素）をサポート点とする。また、ベース点の位置の履歴は、逐次更新される。

ステップＳ１５において、モデル特徴量抽出部５５は、サポート点の相対角度θｉｊおよび相対距離ｒｉｊを決定する。より具体的には、モデル特徴量抽出部５５は、決定されたベース点ｂｉと、その基準軸方向（０度方向）を用いて、ベース点ｂｉからの、サポート点ｓｉｊそれぞれの相対位置を決定する。

図１３は、ベース点ｂｉからの、サポート点ｓｉｊの相対位置を示す図である。

図１３Ａにおいて、エッジ画像１１１上に、ベース点ｂｉおよびそのサポート点ｓｉ１乃至ｓｉ３が設定されている。図１３Ａに示されるように、モデル特徴量抽出部５５は、ベース点ｂｉからのサポート点ｓｉ１の相対距離ｒｉ１、ベース点ｂｉからのサポート点ｓｉ２の相対距離ｒｉ２、およびベース点ｂｉからのサポート点ｓｉ３の相対距離ｒｉ３を決定する。

また、図１３Ｂに示されるように、モデル特徴量抽出部５５は、ベース点ｂｉの基準軸に対するサポート点ｓｉ１の相対角度θｉ１、ベース点ｂｉの基準軸に対するサポート点ｓｉ２の相対角度θｉ２、およびベース点ｂｉの基準軸に対するサポート点ｓｉ３の相対角度θｉ３を決定する。

ステップＳ１６において、モデル特徴量抽出部５５は、参照円Ｒｉを基に、ベース点ｂｉおよびサポート点ｓｉｊの近傍に設定される複数の特徴量抽出領域のそれぞれにおいてモデル特徴量を抽出し、処理は終了する。より具体的には、モデル特徴量抽出部５５は、参照円Ｒｉの中心と、サンプリング点（ベース点およびサポート点）のそれぞれとを結ぶ直線を基準として、サンプリング点の近傍に複数の特徴量抽出領域を設けることで、そのモデル特徴量を抽出する。

図１４は、参照円Ｒ１についての、特徴量抽出領域の設定を説明する図である。図１４に示されるように、参照円Ｒ１の中心点と、参照円Ｒ１上のサンプリング点のうちの１つであるベース点ｂ１とを結ぶ直線上に、２つの特徴量抽出領域１３１Ａおよび特徴量抽出領域１３１Ｂが設定されている。特徴量抽出領域１３１Ａおよび特徴量抽出領域１３１Ｂは、ベース点ｂ１を基準に、参照円Ｒ１の内側と外側とに設定される。

このようにすることで、モデル特徴量抽出部５５は、１つのサンプリング点（ベース点またはサポート点）について、２つのモデル特徴量を抽出することができる。

また、設定される特徴量抽出領域は、上述したように参照円Ｒ１の内側および外側の２つに限らず、サンプリング点の近傍に複数設定されることで、それぞれのサンプリング点は複数の特徴量を持つことができる。

一般的に、テクスチャの少ない物体の場合、ステップＳ１４において決定されたベース点およびサポート点は、物体の輪郭の部分に位置することが多い。そこで、それぞれのサンプリング点を中心に特徴量を抽出すると、ターゲット画像に複雑な背景が含まれる場合、背景のノイズの影響を受け、特徴量同士の一致が困難となる。

そこで、上述のように、１つのサンプリング点に対して複数のモデル特徴量を持たせることで、複数のモデル特徴量のうちの少なくとも１つは、背景のノイズの影響を受けにくくなり、ターゲット画像に複雑な背景が含まれる場合の物体の輪郭部分においても、特徴量同士が一致する可能性が高くなる。

また、決定した特徴量抽出領域内でのモデル特徴量は、エッジ画像ではなく、ステップＳ１１において生成された、例えば０乃至２５５の連続値を持つエッジ強度画像Ｍをサンプリングしたものとされる。図１５は、エッジ強度画像１５１を用いた、特徴量抽出領域１３１Ａおよび特徴量抽出領域１３１Ｂにおける特徴量抽出を説明する図である。

図１５に示されるように、エッジ強度画像１５１において、図１４のエッジ画像１１１における特徴量抽出領域に対応する位置に、特徴量抽出領域１３１Ａおよび特徴量抽出領域１３１Ｂが設定される。図１５における特徴量抽出領域１３１Ａおよび特徴量抽出領域１３１Ｂは、それぞれ半径の異なる複数の同心円のうちの最も外側の円で囲まれる前記特徴量抽出領域であり、その同心円は所定の角度毎に放射状に区分されている。

以下、特徴量抽出領域１３１Ａおよび特徴量抽出領域１３１Ｂを、特に区別をする必要がない場合、単に特徴量抽出領域１３１と称する。

図１６は、図１５において設定された特徴量抽出領域１３１の分割を説明する図である。

図１６に示されるように、特徴量抽出領域１３１は、半径の異なる３つの同心円で構成されるように、その中心からの距離方向に３（ｒ０乃至ｒ２）、角度方向に８（θ０乃至θ７）の２４の小領域に分割されている。

図１７は、図１６のように分割された特徴量抽出領域１３１Ｂにおけるエッジ強度について説明する図である。

図１７に示されるように、特徴量抽出領域１３１Ｂの分割された領域毎に、エッジ強度画像１５１のエッジ強度が加算されることによって、距離と半径とについての２次元ヒストグラムが得られる。

より具体的には、図１７のエッジ強度画像１５１の輪郭が比較的多く含まれる、距離がｒ２で角度がθ１である領域と、距離がｒ１で角度がθ３である領域と、距離がｒ１で角度がθ４である領域と、距離がｒ２で角度がθ４である領域とにおけるエッジ強度は高いとされるので、２次元ヒストグラムにおいて、エッジ強度の高い領域に対応する部分は濃く塗りつぶされている。図１７のエッジ強度画像１５１の輪郭が一部含まれる、距離がｒ１で角度がθ１である領域と、距離がｒ１で角度がθ４である領域とにおけるエッジ強度はやや高いとされるので、２次元ヒストグラムにおいて、エッジ強度のやや高い領域に対応する部分は薄く塗りつぶされている。また、図１７のエッジ強度画像１５１の輪郭が含まれない領域におけるエッジ強度は低いとされるので、２次元ヒストグラムにおいて、エッジ強度の低い領域に対応する部分は白抜きとされている。

このような２次元ヒストグラムによって、特徴量抽出領域が分割されたそれぞれの領域におけるモデル特徴量であるエッジ強度が表される。なお、特徴量抽出領域は、上述のように距離方向に３、角度方向に８の２４の小領域に限らず、他の数の小領域に分割されてもよい。

一般的に、エッジの抽出の処理には、閾値処理が含まれるためモデル画像と入力画像であるターゲット画像とで同様のエッジ画像を取得することは非常に困難とされる。エッジ点におけるエッジ情報をそのまま特徴量とした場合、０および１の２値によって与えられる特徴量はエッジの抽出誤差の影響を大きく受け、モデル画像とターゲット画像との差異が大きくなってしまう。

そこで、上述したように、０および１の２値で表されるエッジ点におけるエッジ情報ではなく、０乃至２５５の連続値を持つエッジ強度の情報を用いることで、エッジの抽出誤差による特徴量の変化を吸収することができる。

また、設定される特徴量抽出領域を粗く分割し、分割されたそれぞれの領域における特徴量の和を用いることで、輝度変化などによる物体の見え方の変化や、物体の遠近などのスケールの変化にも対応することができる。

このようにして、モデル画像から得られる情報は、それぞれのベース点について、サポート点の数をＮ、特徴量の数（特徴量抽出領域の数）をＭとした場合、以下のようになる。

すなわち、ベース点の位置(ｂｘ，ｂｙ)、ベース点の特徴量抽出領域の相対位置（ｆｂθｉ，ｆｂｒｉ）、およびベース点の特徴量ｂｆｉが１つのモデル画像について得られる。ここで、ｉは、１乃至Ｍの整数である。

また、サポート点の相対位置(θｊ，ｒｊ)（ｊは、１乃至Ｎの整数）、サポート点の特徴量抽出領域の相対位置(ｆｓθｉ，ｆｓｒｉ)、およびサポート点の特徴量ｓｆｉが１つのモデル画像について得られる。

このようにして、得られたベース点およびサポート点のそれぞれについての特徴量抽出領域の位置および特徴量が、モデル辞書５６に登録される。

次に、物体認識装置１１における、ターゲット画像の認識について説明する。すなわち、入力されるターゲット画像に含まれる物体が、モデル辞書５６に登録されているモデル画像に含まれる物体のうちのどのモデル画像の物体に最も類似しているかを認識する処理について説明する。

類似度を図る方法には様々な方法があるが、例えば、そのうちの１つによれば、モデル画像が持つＰ個の特徴点であるエッジ点と、ターゲット画像におけるＰ個の特徴点に対応する点とについて、特徴量同士のコストが算出され、コストの値が十分高い点がマッチングペアとして保存される。得られたマッチングペア数が十分に多ければ、モデル画像に含まれる物体とターゲット画像に含まれる物体とが同定される。

次に、物体認識装置１１における、ターゲット画像とモデル画像とのマッチングペアの取得の処理について説明する。

例えば、カメラ部６１によって認識しようとする物体が撮像され、フレームメモリ６２に記録されたターゲット画像がエッジ強度画像生成部６３およびエッジ画像生成部６４に取得されると、ターゲット画像認識部３２によって、マッチングペアの取得の処理が開始される。

図１８は、物体認識装置１１のターゲット画像認識部３２における、ターゲット画像とモデル画像とのマッチングペアの取得の処理を説明するフローチャートである。

図１８のフローチャートにおいて、エッジ強度画像生成部６３によって実行されるステップＳ９１の処理は、図４のフローチャートにおいて、エッジ強度画像生成部５３によって実行されるステップＳ１１の処理と同様であるので、説明は省略する。

また、図１８のフローチャートにおいて、エッジ画像生成部６４によって実行されるステップＳ９２の処理は、図４のフローチャートにおいて、エッジ画像生成部５４によって実行されるステップＳ１２の処理と同様であるので、説明は省略する。

ステップＳ９３において、ターゲット特徴量抽出部６５は、全てのエッジ点の周辺の特徴量を抽出する。より具体的には、ターゲット特徴量抽出部６５は、エッジ画像生成部６４から供給されたエッジ画像に対して、全てのエッジ点を中心とした、図４のフローチャートのステップＳ１６においてモデル特徴量抽出部５５によって設定されたものと同じ半径の特徴量抽出領域を設定する。ターゲット特徴量抽出部６５は、エッジ強度画像生成部６３から供給されたエッジ強度画像と、設定した特徴量抽出領域とに基づいて、図１７を参照して説明した方式と同様の方式でターゲット特徴量であるエッジ強度を抽出する。ターゲット特徴量抽出部６５は、抽出したターゲット特徴量を、マッチング部６６に供給する。

ステップＳ９４において、マッチング部６６は、ターゲット画像のエッジ上の、モデル画像のベース点およびサポート点に対応する点におけるターゲット特徴量と、モデル画像のベース点およびサポート点における複数のモデル特徴量のそれぞれとのマッチングを行う。

図１９は、モデル画像のエッジ画像１１１のベース点ｂ１におけるモデル特徴量と、ターゲット画像のエッジ画像２１１の点ｐ'におけるターゲット特徴量とのマッチングを説明するための図である。

図１９に示されるように、マッチング部６６は、ベース点ｂ１を点ｐ'の位置に合わせて、ベース点ｂ１と点ｐ'との間の特徴量コストｄ（ｂ１，ｐ'）を算出する。また、マッチング部６６は、サポート点ｓ１１，ｓ１２、およびｓ１３について、図１９のエッジ画像２１１の探索領域内で特徴量コストｄ（ｓ１ｊ，ｐ'ｋ）が最大となる点を探索する。ここで、探索の対象となる点は、探索領域内のエッジ点とされる。

このように、探索領域において最もマッチする点が探索されることで、ターゲット画像に歪みがある場合や、大きさの変化にも対応することができる。

また、上述したように、モデル画像のベース点およびサポート点のそれぞれは、複数のモデル特徴量を有しているので、マッチング部６６は、モデル画像のベース点およびサポート点のモデル特徴量の中で最も高いコストを採用する。

図２０は、複数のモデル特徴量とターゲット特徴量とのマッチングの例を示す図である。

図２０の左側に示されるように、モデル画像のエッジ強度画像１５１におけるベース点ｂ１には、特徴量抽出領域１３１Ａおよび１３１Ｂが設定され、サポート点ｓ１１には、特徴量抽出領域２３１Ａおよび２３１Ｂが設定されている。また、サポート点ｓ１２には、特徴量抽出領域２３２Ａおよび２３２Ｂが設定され、また、サポート点ｓ１２には、特徴量抽出領域２３２Ａおよび２３２Ｂが設定され、また、サポート点ｓ１３には、特徴量抽出領域２３３Ａおよび２３３Ｂが設定されている。

図２０の中央に示されるように、マッチング部６６が、モデル画像のエッジ強度画像１５１に対して設定されている特徴量抽出領域におけるモデル特徴量と、ターゲット画像のエッジ強度画像２５１におけるターゲット特徴量とのマッチングを行う場合、図２０の右側に示されるように、ターゲット画像の点ｐ'では、特徴量抽出領域１３１Ｂの特徴量が選択され、ターゲット画像の点ｐ'１では、特徴量抽出領域２３１Ａの特徴量が選択される。また、ターゲット画像の点ｐ'２では、特徴量抽出領域２３２Ｂの特徴量が選択され、ターゲット画像の点ｐ'３では、特徴量抽出領域２３３Ｂの特徴量が選択される。

このようにして、ターゲット画像認識部３２は、サンプリング点（ベース点およびサポート点）のそれぞれについて、複数のモデル特徴量と、ターゲット特徴量とのマッチングを行い、その中で最も特徴量コストの高いもの同士をマッチングペアとして選択する。これによって、複雑な背景や、物体の見え方の変化にも対応してマッチングを行うことができる。

上述したように、全てのベース点およびサポート点についてマッチングを行った結果得られる特徴量コストの合計は、式（８）で表される。

式（８）において、Ｎはサポート点の数を表す。また、αおよびβはそれぞれ、角度および距離のペナルティコストを表し、モデル画像の局所的な拘束から外れるほど小さくなる。

また、モデル画像のサンプリング点をｍ、これに対応するターゲット画像の点をｔとすると、局所特徴量間の距離を表す特徴量コスト関数d(m,t)は、式（９）に示されるように、正規化相関関数で表される。

式（９）において、ｆｍおよびｆｔは、それぞれモデル画像およびターゲット画像の特徴量ベクトルを表す。また、ｆｍ'およびｆｔ'は、それぞれの特徴量ベクトルの平均値を表す。

マッチング部６６は、モデル画像のベース点のそれぞれに対して、ターゲット画像の全てのエッジ点についての式（８）で表される特徴量コストを算出し、最もコストの高い点を、そのベース点に対応する点とする。

このようにして得られる情報は、モデル画像のベース点の数をｑ個とした場合、以下のようになる。

すなわち、モデル画像の座標点(ｍｘｉ，ｍｙｉ)、およびターゲット画像の座標点(ｔｘｉ，ｔｙｉ)（ｉは１乃至ｑの整数）が得られる。

図１８のフローチャートの説明に戻り、ステップＳ９５において、物体同定部６７は、ミスマッチのペアを除去する。

すなわち、ステップＳ９４において、モデル画像とターゲット画像との間のマッチングペアが取得されるが、ステップＳ９４における処理は、局所的なマッチングの処理であるので、多くのアウトライア（ミスマッチペア）が存在する。物体同定部６７は、このようなアウトライアを除去する。

モデル画像に含まれる物体とターゲット画像に含まれる物体とが同一の物体である場合、モデル画像のサンプリング点を(ｍｘ，ｍｙ)とし、その点に対応するターゲット画像の点を(ｔｘ，ｔｙ)としたとき、マッチングペアは、以下の拘束条件を満たす必要がある。

ここで、ｄｘはｘ軸方向の移動量であり、ｄｙはｙ軸方向の移動量である。

この拘束条件を利用して、アウトライアを除去する方法を図２１に示す。

図２１において、モデル画像３０１のサンプリング点ｍ１，ｍ２，ｍ３、およびｍ４は、それぞれ、ターゲット画像３０２のエッジ点ｔ１，ｔ２，ｔ３、およびｔ４に対応している。すなわち、図２１においてｍｉ−ｔｉ（ｉは１乃至４の整数）はマッチングペアを示す。物体同定部６７は、それぞれのペアについて、式（１０）を用いて、移動量ｄｘおよびｄｙを算出する。物体同定部６７は、算出した移動量を、予め用意した投票空間３０３に投票する。

モデル画像に含まれる物体とターゲット画像に含まれる物体とが同一である場合、式（１０）の拘束条件を満たすペアが多くなるので、最終的に得られる投票空間３０３において、ピーク３０４が形成される。このピークの値は、マッチングペアの数を表しているので、ピークが十分大きい場合には、このピークに投票されたペアを抽出することで、アウトライアは除去される。

例えば、図２１において、ｍ１−ｔ１，ｍ２−ｔ２、およびｍ３−ｔ３は同一の移動量をもち、同一の投票空間に投票されるが、ｍ４−ｔ４は異なる投票空間に投票され、アウトライアとして検出される。

図１８のフローチャートの説明に戻り、ステップＳ９６において、物体同定部６７は、最終的なマッチングペアを取得して、処理は終了する。このようにして、例えば、得られたマッチングペアの数が予め定められた値より十分大きい場合、物体同定部６７は、入力されたターゲット画像に含まれる物体と、注目しているモデル画像に含まれる物体とを同定することができる。

以上のようにして、物体認識装置１１は、モデル画像とターゲット画像とのマッチングを行い、モデル画像の物体とターゲット画像の物体とを同定することができる。

上述したように、参照円によって決定される局所的な特徴量を用いることで、認識の対象となる物体の部分的な隠れに対しても、より確実な認識を行うことができる。すなわち、様々な大きさの参照円を用いれば、認識対象に隠れが存在する場合でも、隠れのない部分に対応する参照円でモデル画像の物体とターゲット画像の物体とを同定することができる。

また、ベース点とサポート点のように、注目点とその周辺の点における特徴量および位置関係を拘束条件として用いることで、ターゲット画像において対応する点の検出の精度を高くすることができる。

本発明においては、エッジ点は再現性の高い点として用いられ、マッチングの処理において、そのエッジ点の探索範囲が限定されるので、演算量を抑えることができ効率的なマッチングが可能となる。

なお、上述した説明では、１つの参照円に対して、ベース点を１つのみ定めるようにしたが、１つの参照円の中でベース点を複数設定することで、ターゲット画像において、１つのベース点に対応するエッジ点に部分的な隠れがある場合でも、安定してマッチングを行うようにすることができる。

また、上述した説明では、局所的な参照円を決定することで、ベース点およびサポート点を決定したが、円のほか、局所的な閉曲線であることを条件とした他の形状としてもよい。

なお、１つのモデル画像について、複数のスケールを持ったモデル画像と、複数の角度を持ったモデル画像とを生成するようにすれば、どのようなターゲット画像に対しても普遍的に対応することができる。

また、物体認識装置１１は、物体の認識を繰り返すうちに、複数の特徴量抽出領域のうちのどの特徴量抽出領域を用いるかを学習するようにしてもよい。すなわち、例えば、物体の輪郭の内側と外側とに設定された特徴量抽出領域とでは、背景に近い外側の特徴量抽出領域よりも、内側の特徴量抽出領域の方がマッチングの処理に用いられる頻度が高くなるので、物体認識装置１１は、このことを、モデル辞書５６を更新することで記憶するようにしてもよい。

このように、モデル画像と入力画像との特徴量同士をマッチングするようにした場合には、画像内の物体を認識することができる。また、モデル画像のエッジ上の点であって、モデル画像の特徴量であるモデル画像特徴量を抽出するための点である特徴点の近傍の、１つの特徴点に対して複数の特徴量抽出領域のそれぞれにおいて、モデル画像特徴量を抽出し、特徴点に対応する入力画像のエッジ上の点における入力画像の特徴量である入力画像特徴量と、特徴点における複数のモデル画像特徴量のそれぞれとのマッチングを行うようにした場合には、部分的な隠れや複雑な背景を含むような一般的な画像に対しても、より確実に画像内の物体を認識することができる。

また、参照円における１つのサンプリング点（ベース点またはサンプリング点）に対して、複数のモデル特徴量を持たせることで、複数のモデル特徴量のうちの少なくとも１つは、背景のノイズの影響を受けにくくなり、ターゲット画像に複雑な背景が含まれる場合の物体の輪郭部分においても、特徴量同士が一致する可能性が高くなる、という効果を奏することが可能になることについては上述した通りである。

そこで、かかる効果を奏すべく、上述した例では、１つのサンプリング点（ベース点またはサポート点）について、２つの特徴量抽出領域が設定され、２つの特徴量抽出領域からそれぞれ１つの種類のモデル特徴量が抽出されていた。

例えば図１４の例では、参照円Ｒ１の中心点と、参照円Ｒ１上のサンプリング点のうちの１つであるベース点ｂ１とを結ぶ直線上に、２つの特徴量抽出領域１３１Ａおよび特徴量抽出領域１３１Ｂが設定されていた。そして、特徴量抽出領域１３１Ａおよび特徴量抽出領域１３１Ｂのそれぞれから、１つの種類のモデル特徴量が抽出されていた。即ち、１つのサンプリング点（ベース点またはサポート点）について、２つのモデル特徴量が抽出されていた。

しかしながら、モデル特徴量の抽出数は、複数であれば足り、「２つ」という図１４の例は例示にしか過ぎない。

例えば、設定される特徴量抽出領域は、上述したように参照円Ｒ１の内側および外側の２つに限らず、サンプリング点の近傍に複数設定されることで、それぞれのサンプリング点は複数の特徴量を持つことができ、上述した効果がより顕著なものとなる。

また例えば、１つの特徴量抽出領域から抽出されるモデル特徴量の種類は、上述した１種類に限定されず、複数種類でもよい。この場合、1つのサンプル点(ベース点，サポート点)は、複数の特徴量抽出領域を持ち、さらに各特徴量抽出領域からは複数種類のモデル特徴量が抽出されることになる。その結果、各サンプリング点はさらに多数の特徴量を持つことができ、上述した効果がより顕著なものとなる。

具体的には例えば、図１９に示されるように、モデル特徴量抽出部５５は、参照円Ｒ１上のサンプリング点のうちの１つであるベース点ｂ１とを結ぶ直線上に、２つの特徴量抽出領域１３１Ａおよび特徴量抽出領域１３１Ｂを設定したとする。ここまでの処理は、図１４の例と基本的に同様である。

その後、図１４の例では、モデル特徴量抽出部５５は、特徴量抽出領域１３１Ａから所定の一種類のモデル特徴量を抽出し、特徴量抽出領域１３１Ａから同一種類のモデル特徴量を抽出していた。

これに対して、図２２の例では、モデル特徴量抽出部５５は、特徴量抽出領域１３１Ａから第１の種類のモデル特徴量（図２２に記載の特徴量Ａ１）と第２の種類のモデル特徴量（図２２に記載の特徴量Ａ２）とを抽出する。また、モデル特徴量抽出部５５は、特徴量抽出領域１３１Ｂから第１の種類のモデル特徴量（図２２に記載の特徴量Ｂ１）と第２の種類のモデル特徴量（図２２に記載の特徴量Ｂ２）とを抽出する。

このように、ベース点ｂ１から抽出されるモデル特徴量の個数は、図１４の例では２個であったのに対して、図２２の例では４個になる。

よって、１つのサンプリング点に対して複数のモデル特徴量を持たせることで、複数のモデル特徴量のうちの少なくとも１つは、背景のノイズの影響を受けにくくなり、ターゲット画像に複雑な背景が含まれる場合の物体の輪郭部分においても、特徴量同士が一致する可能性が高くなる、という上述した効果は、図１４の例に比較して図２２の例の方が顕著なものとなる。

なお、モデル特徴量として採用する種類は、特に限定されず、相互に異なる種類であれば足りる。

例えば、図１７を用いて説明した種類、即ち、２次元ヒストグラムによって、特徴量抽出領域が分割されたそれぞれの領域におけるエッジ強度（以下、単にエッジ強度と称する）を、複数種類のうちの１種類として採用することができる。

また例えば、ＲＧＢそれぞれのレイヤは0乃至255の連続値を持つため、各レイヤの画像をエッジ強度画像と同等に扱うことができる。そこで、モデル特徴量抽出部５５は、エッジ強度と同様の手順で、即ち、図１６と図１７を用いて説明した手順で、R,G,Bそれぞれについての2次元ヒストグラムを作成し、それらをモデル特徴量として抽出することができる。このようにして抽出される種類（以下、カラーテンプレートと称する）を、複数種類のうちの１種類乃至３種類として採用することができる。１乃至３種類と記述したのは、ＲＧＢ全体で１つの種類と捉えてもよいし、ＲＧＢそれぞれのレイヤを別々の種類、即ち総計３種類と捉えてもよいからである。

なお、カラーテンプレートを作成する情報は、RGBに限定されず、他の色空間の情報を採用することもできる。

また例えば、図２３に示されるように、モデル特徴量抽出部５５は、特徴量抽出領域１３１に存在する色を量子化し、あらかじめ設定されたBinに投票することで、カラーヒストグラムを作成し、それらをモデル特徴量として抽出することができる。このようにして抽出される種類（以下、カラーヒストグラムと称する）を、複数種類のうちの１種類乃至３種類として採用することができる。１乃至３種類と記述した理由は、カラーテンプレートについての上述した理由と同様である。

なお、カラーヒストグラムを作成する情報は、図２３の例ではRGBとされているが、RGBに限定されず、他の色空間の情報を採用することもできる。

いずれの種類のモデル特徴量を採用した場合でも、その抽出処理として、特徴量抽出領域１３１を粗く分割または値を粗く分割し、各領域または値の和を用いる処理を採用することで、物体の見え方の変化やスケール変化に対応することが可能となる。

このように、モデル特徴量抽出部５５は、1つのサンプル点(ベース点，サポート点)に対して、複数の特徴量抽出領域１３１を設定することができ、さらに各特徴量抽出領域１３１のそれぞれでは、複数種類の特徴量を抽出することができる。

その結果、各ベース点に対してサポート点の数をＮと記述し、特徴量抽出領域１３１の数をＭと記述し、抽出されるモデル特徴量の種類数をＬと記述した場合、次のような情報が１つのモデル画像から得られ、モデル辞書５６に登録されることになる。

すなわち、ベース点の位置(ｂｘ，ｂｙ)、ベース点の特徴量抽出領域の相対位置（ｆｂθｉ，ｆｂｒｉ）、およびベース点の特徴量ｂｆｉｋが１つのモデル画像について得られる。ここで、ｉは、１乃至Ｍの整数であり、ｋは、１乃至Ｌの整数である。

また、サポート点の相対位置(θｊ，ｒｊ)（ｊは、１乃至Ｍの整数）、サポート点の特徴量抽出領域の相対位置(ｆｓθｉ，ｆｓｒｉ)、およびサポート点の特徴量ｓｆｉｋ（ｋは、１乃至Ｌの整数）が１つのモデル画像について得られる。

以下、このようにして１つの特徴量抽出領域１３１から複数種類のモデル特徴量が抽出される処理が採用された場合における、ターゲット画像認識部３２の処理について説明する。ただし、１つの特徴量抽出領域１３１から１種類の特徴量が抽出される処理が採用された場合における、上述したターゲット画像認識部３２の処理との相違点を主に説明し、一致点については適宜省略する。

ターゲット特徴量抽出部６５は、ターゲット画像の特徴量であるターゲット特徴量として、モデル特徴量として抽出された複数種類のそれぞれについて抽出する。ターゲット特徴量抽出部６５は、抽出されたターゲット画像の複数種類のターゲット特徴量を、マッチング部６６に供給する。

マッチング部６６は、ターゲット特徴量抽出部６５において抽出されたターゲット画像のターゲット特徴量と、モデル辞書５６に登録されているモデル画像のモデル特徴量とのマッチングを各種類毎に行い、モデル画像とターゲット画像とのマッチングペアを取得する。

即ち、マッチング部６６は、図１８のステップＳ９４の処理を、モデル特徴量の各種類毎にそれぞれ実行することになる。

例えば上述した図２２のエッジ画像１１１とのマッチングを行う場合、マッチング部６６は、図２４に示されるように、サンプリング点（ベース点およびサポート点）のそれぞれについて、第１の種類の複数のモデル特徴量と、第１の種類のターゲット特徴量とのマッチングを行い、その中で最も特徴量コストの高いもの同士をマッチングペア候補として選択する。

同様に、マッチング部６６は、図２５に示されるように、サンプリング点（ベース点およびサポート点）のそれぞれについて、第２の種類の複数のモデル特徴量と、第２の種類のターゲット特徴量とのマッチングを行い、その中で最も特徴量コストの高いもの同士をマッチングペア候補として選択する。

ここで、サンプリング点（ベース点およびサポート点）について、２つの特徴量抽出領域が設定され、各特徴量抽出領域に対して、第１の種類の特徴量と、第２の種類の特徴量がそれぞれ抽出されている。このため、図２４と図２５の例では、図２２の記載にあわせ、符号Ａが付された特徴量抽出領域については、第１の種類のモデル特徴量が特徴量Ａ１と記述され、第２の種類のモデル特徴量が特徴量Ａ２と記述されている。また、符号Ｂが付された特徴量抽出領域については、第１の種類のモデル特徴量が特徴量Ｂ１と記述され、第２の種類のモデル特徴量が特徴量Ｂ２と記述されている。

例えば図２４の中央に示されるように、マッチング部６６は、モデル画像のエッジ強度画像１５１に対して設定されている特徴量抽出領域における第１の種類のモデル特徴量（特徴量Ａ１や特徴量Ｂ１）と、ターゲット画像のエッジ強度画像２５１における第１の種類のターゲット特徴量とのマッチングを行う。この場合、図２４の右側に示されるように、ターゲット画像の点ｐ'では、特徴量抽出領域１３１Ｂの特徴量Ｂ１が選択され、ターゲット画像の点ｐ'１では、特徴量抽出領域２３１Ａの特徴量Ａ１が選択される。また、ターゲット画像の点ｐ'２では、特徴量抽出領域２３２Ｂの特徴量Ｂ１が選択され、ターゲット画像の点ｐ'３では、特徴量抽出領域２３３Ｂの特徴量Ｂ１が選択される。

また、上述の第１の種類のモデル特徴量（特徴量Ａ１や特徴量Ｂ１）とのマッチングとは独立して、例えば図２５の中央に示されるように、マッチング部６６が、モデル画像のエッジ強度画像１５１に対して設定されている特徴量抽出領域における第２の種類のモデル特徴量（特徴量Ａ２や特徴量Ｂ２）と、ターゲット画像のエッジ強度画像２５１における第２の種類のターゲット特徴量とのマッチングを行う。この場合、図２５の右側に示されるように、ターゲット画像の点ｐ'では、特徴量抽出領域１３１Ｂの特徴量Ｂ２が選択され、ターゲット画像の点ｐ'１では、特徴量抽出領域２３１Ａの特徴量Ａ２が選択される。また、ターゲット画像の点ｐ'２では、特徴量抽出領域２３２Ｂの特徴量Ｂ２が選択され、ターゲット画像の点ｐ'３では、特徴量抽出領域２３３Ｂの特徴量Ｂ２が選択される。

なお、図２４と図２５に示されるモデル特徴量の選択は例示に過ぎない。即ち、特徴量の第１の種類と第２の種類とは相互に独立した別々の種類であり、上述の如く、各種類毎に独立してマッチングがそれぞれ行われる。よって、当然ながら、ターゲット画像によっては、点ｐ'、点ｐ'１、点ｐ'２、または点ｐ'３に対して、第１の種類については特徴量Ａ１が選択され、第２の種類については特徴量Ｂ２が選択される場合もある。さらにまた、点ｐ'、点ｐ'１、点ｐ'２、または点ｐ'３に対して、第１の種類については特徴量Ｂ１が選択され、第２の種類については特徴量Ａ２が選択される場合もある。

以上の説明においては、本発明の理解を容易なものとすべく、モデル特徴量の種類は第１の種類と第２の種類の２種類とされた。しかしながら、モデル特徴量の種類は、２種類に限定されず、当然ながらL種類（Lは２以上の整数値）でもよい。この場合、モデル画像のベース点の数をｑ個とすると、ｑ個のベース点毎に、L種類の各特徴量についてのマッチング処理がそれぞれ独立して行われる。その結果、最終的に得られる情報は、以下のようになる。

すなわち、モデル画像の座標点(ｍｘｉｊ，ｍｙｉｊ)、ターゲット画像の座標点(ｔｘｉｊ，ｔｙｉｊ)、および最大コスト値cost_i_j（ｉは１乃至ｑの整数であり、ｊは１乃至Lの整数である）が得られる。

ここで、１つのベース点について着目するに、１つのベース点に対しては、L種類の特徴量によるマッチングペア候補がそれぞれ取得されることになる。この場合、L種類の特徴量によるマッチングペア候補を全て、最終的なマッチングペアとすることもできる。

ただし、本実施の形態では、さらに、マッチング部６６は、各ベース点毎に、保存されているコスト値をもとに、L種類の特徴量によるマッチングペア候補の中から、最終的なマッチングペアの選択を行うとする。なお、後述するように、選択されるマッチングペアは、１つとは限らない点留意する。

ここで、L種類の特徴量の中に、他とは異なる尺度を有する種類が存在する場合と、存在しない場合とでは、マッチングペアの選択手法が異なる。そこで、以下、両者の場合の選択手法の一例についてそれぞれ説明する。

はじめに、異なる尺度を有する種類の特徴量が存在する場合の選択手法の一例について説明する。

例えば、ここでは、L＝２として、第１の種類の特徴量としてエッジ強度が採用されており、第２の種類の特徴量としてカラーヒストグラムが採用されているとする。

この場合、両種類の特徴量の特徴空間でのスケールが異なるため、そのコスト値を単純に比較することはできない。そこで、このような場合、各種類の特徴量のコスト値に対して、信頼度を表す閾値を設定すればよい。例えば、エッジ強度（第１の種類の特徴量）の閾値としてはthresh1を採用し、カラーヒストグラム（第２の種類の特徴量）の閾値としてはthresh2を採用するとする。

この場合、マッチング部６６は、各ベース点毎に、エッジ強度（第１の種類の特徴量）についてのマッチングペア候補のコスト値が閾値thresh1を超えているか否かを判定する。閾値thresh1を超えている場合には、マッチング部６６は、そのマッチングペア候補をマッチングペアとして採用する。

同様に、マッチング部６６は、各ベース点毎に、カラーヒストグラム（第２の種類の特徴量）についてのマッチングペア候補のコスト値が閾値thresh2を超えているか否かを判定する。閾値thresh2を超えている場合には、マッチング部６６は、そのマッチングペア候補をマッチングペアとして採用する。

このように、各種類毎に別々の閾値で比較されるので、同一のベース点について、２種類の特徴量コストの何れもが各閾値を超える場合もでてくる。このような場合、マッチング部６６は、２種類の各マッチングペアペアは何れも信頼性が十分高いとして判断し、たとえ対応する点がそれぞれ異なる場合であっても、両者ともマッチングペアとして採用するとする。

次に、異なる尺度を有する種類の特徴量が存在しない場合、即ち、同一尺度を有する種類の特徴量のみが存在する場合の選択の手法の一例について説明する。

例えば、ここでは、L＝３として、第１の種類の特徴量としてカラーテンプレートのうちのＲのレイヤが採用されており、第２の種類の特徴量としてカラーテンプレートのうちのＧのレイヤが採用されており、第３の種類の特徴量としてカラーテンプレートのうちのＢのレイヤが採用されているとする。

この場合、R,G,Bの３種類の特徴量は同一のスケールとして取り扱うことが可能である。よって、マッチング部６６は、各ベース点毎に、マッチングペア候補の中から、それぞれ得られたコスト値の中で最も良いものをマッチペアとして選択すればよい。

以上の処理により、最終的なモデルの各ベース点のそれぞれに対応するターゲット点のマッチングペアの取得が可能となる。ただし、上述したように、各ベース点のうちの幾つかのベース点については、場合によっては複数の対応点が得られることになる。

即ち、以上の処理により、モデルの各ベース点は，その周辺に設けた複数の特徴量抽出領域から抽出した特徴量を持ち、マッチングの際にそれらの中で最もスコアが良いものが選択されるため、複雑背景化やビュー変化などの環境変化に対処可能となる。

さらに、モデルの各ベース点は複数種類の特徴量を持ち、その結果、得られたマッチングペア候補から、各種類の特徴量でのマッチング結果のコストによって絞り込んでマッチングペアが選択される。よって、１つの種類の特徴量を利用する場合と比較して、上述した環境変化に対してロバストになる。

また、各ベース点について、使用する特徴量をマッチング時に適応的に判定するため、事前に1つの特徴量を決定する必要がない。

このような各種効果を奏する図１８のステップＳ９４の処理が終了すると、処理はステップＳ９５の処理に進む。ただし、ステップＳ９５以降の処理は、上述した処理と基本的に同様となるため、ここではその説明は省略する。

以上においては、本発明を物体認識装置に適用した実施の形態について説明したが、本発明は、例えば、画像内の物体を比較し認識する情報処理装置に適用することができる。

上述した一連の処理は、ハードウェアにより実行することもできるし、ソフトウェアにより実行することもできる。一連の処理をソフトウェアにより実行する場合には、そのソフトウェアを構成するプログラムが、専用のハードウェアに組み込まれているコンピュータ、または、各種のプログラムをインストールすることで、各種の機能を実行することが可能な、例えば汎用のパーソナルコンピュータなどに、プログラム記録媒体からインストールされる。

図２６は、上述した一連の処理をプログラムにより実行するパーソナルコンピュータの構成の例を示すブロック図である。CPU（Central Processing Unit）４０１は、ROM（Read Only Memory）４０２、または記憶部４０８に記憶されているプログラムに従って各種の処理を実行する。RAM（Random Access Memory）４０３には、CPU４０１が実行するプログラムやデータなどが適宜記憶される。これらのCPU４０１、ROM４０２、およびRAM４０３は、バス４０４により相互に接続されている。

CPU４０１にはまた、バス４０４を介して入出力インターフェース４０５が接続されている。入出力インターフェース４０５には、キーボード、マウス、マイクロフォンなどよりなる入力部４０６、ディスプレイ、スピーカなどよりなる出力部４０７が接続されている。CPU４０１は、入力部４０６から入力される指令に対応して各種の処理を実行する。
そして、CPU４０１は、処理の結果を出力部４０７に出力する。

入出力インターフェース４０５に接続されている記憶部４０８は、例えばハードディスクからなり、CPU４０１が実行するプログラムや各種のデータを記憶する。通信部４０９は、インターネットやローカルエリアネットワークなどのネットワークを介して外部の装置と通信する。

また、通信部４０９を介してプログラムを取得し、記憶部４０８に記憶してもよい。

入出力インターフェース４０５に接続されているドライブ４１０は、磁気ディスク、光ディスク、光磁気ディスク、或いは半導体メモリなどのリムーバブルメディア４１１が装着されたとき、それらを駆動し、そこに記録されているプログラムやデータなどを取得する。取得されたプログラムやデータは、必要に応じて記憶部４０８に転送され、記憶される。

コンピュータにインストールされ、コンピュータによって実行可能な状態とされるプログラムを格納するプログラム記録媒体は、図２６に示されるように、磁気ディスク（フレキシブルディスクを含む）、光ディスク（CD-ROM(Compact Disc-Read Only Memory),DVD(Digital Versatile Disc)を含む）、光磁気ディスク、もしくは半導体メモリなどよりなるパッケージメディアであるリムーバブルメディア４１１、または、プログラムが一時的もしくは永続的に格納されるROM４０２や、記憶部４０８を構成するハードディスクなどにより構成される。プログラム記録媒体へのプログラムの格納は、必要に応じてルータ、モデムなどのインターフェースである通信部４０９を介して、ローカルエリアネットワーク、インターネット、デジタル衛星放送といった、有線または無線の通信媒体を利用して行われる。

なお、本明細書において、プログラム記録媒体に格納されるプログラムを記述するステップは、記載された順序に沿って時系列的に行われる処理はもちろん、必ずしも時系列的に処理されなくとも、並列的あるいは個別に実行される処理をも含むものである。

また、本発明の実施の形態は、上述した実施の形態に限定されるものではなく、本発明の要旨を逸脱しない範囲において種々の変更が可能である。

本発明の一実施の形態である物体認識装置の機能の構成を示すブロック図である。モデル特徴量抽出部によって決定されるベース点およびサポート点を説明する図である。ベース点とサポート点との幾何学的位置関係を説明する図である。モデル画像の特徴量の登録の処理を説明するフローチャートである。エッジ強度画像の生成の処理の詳細を説明するフローチャートである。エッジ強度画像の生成の処理で用いる微分フィルタを示す図である。エッジ画像の生成の処理の詳細を説明するフローチャートである。参照円における幾何拘束について説明する図である。参照円におけるエッジ点のばらつき評価を説明する図である。参照円の決定の処理を説明するフローチャートである。エントロピーマップを示す図である。サンプリング点のサンプリングについて説明する図である。ベース点からのサポート点の相対位置を示す図である。特徴量抽出領域の設定を説明する図である。特徴量抽出領域における特徴量抽出を説明する図である。特徴量抽出領域１３１の分割を説明する図である。分割された特徴量抽出領域におけるエッジ強度について説明する図である。ターゲット画像とモデル画像とのマッチングペアの取得の処理を説明するフローチャートである。モデル画像のベース点におけるモデル特徴量と、ターゲット画像の点におけるターゲット特徴量とのマッチングを説明するための図である。複数のモデル特徴量とターゲット特徴量とのマッチングの例を示す図である。アウトライアを除去する方法を説明する図である。特徴量抽出領域における複数種類の特徴量抽出を説明する図である。特徴量の一種類であるカラーヒストグラムを説明する図である。第１の種類の複数のモデル特徴量とターゲット特徴量とのマッチングの例を示す図である。第２の種類の複数のモデル特徴量とターゲット特徴量とのマッチングの例を示す図である。パーソナルコンピュータの構成の例を示すブロック図である。

符号の説明

１１物体認識装置，３１モデル特徴量登録部，３２ターゲット画像認識部，５１カメラ部，５２フレームメモリ，５３エッジ強度画像生成部，５４エッジ画像生成部，５５モデル特徴量抽出部，５６モデル辞書，６１カメラ部，６２フレームメモリ，６３エッジ強度画像生成部，６４エッジ画像生成部，６５ターゲット特徴量抽出部，６６マッチング部，６７物体同定部

Claims

入力画像とモデル画像とを比較し、前記モデル画像の被写体と前記入力画像の被写体とを同定する情報処理装置において、
前記モデル画像のエッジ上の点であって、前記モデル画像の特徴量であるモデル画像特徴量を抽出するための点である特徴点の近傍の、１つの前記特徴点に対して複数の特徴量抽出領域のそれぞれにおいて、前記モデル画像特徴量を抽出する特徴量抽出手段と、
前記入力画像のエッジ上の点を前記特徴点に対応する対応点の候補として、前記対応点の候補における前記入力画像の特徴量である入力画像特徴量と、前記特徴点における複数の前記モデル画像特徴量のそれぞれとの各組をマッチングペア候補としてマッチングを行うことで、マッチングの度合を示す特徴量コストを前記マッチングペア候補毎にそれぞれ算出し、前記特徴量コストの最も高いマッチングペア候補を、前記対応点の候補についての第１のマッチングペアとして選択するマッチング手段と、
前記マッチング手段により前記入力画像のエッジ上の複数の前記対応点の候補のそれぞれについて選択された前記第１のマッチングペアのうち、前記特徴量コストが最も高い前記第１のマッチングペアを求め、それを構成する前記対応点の候補を、１つの前記特徴点に対応する前記対応点として、前記対応点と前記特徴点との組である第２のマッチングペアを決定する決定手段と、
前記決定手段により決定された複数の前記特徴点に対する前記第２のマッチングペアのうち、幾何拘束条件を満たす前記第２のマッチングペアの数が、所定の値より大きい場合、前記モデル画像の被写体と前記入力画像の被写体とを同定する同定手段と
を備える情報処理装置。
前記特徴量抽出手段は、前記複数の特徴量抽出領域のそれぞれにおいて、前記モデル画像特徴量として複数種類抽出し、
前記マッチング手段は、前記複数種類毎に前記マッチングをそれぞれ行う
請求項１に記載の情報処理装置。
前記特徴量抽出手段は、複数の前記特徴量抽出領域のそれぞれにおける、前記モデル画像のエッジの近傍で画素毎に連続値をもつ前記モデル画像特徴量を抽出する
請求項１に記載の情報処理装置。
前記特徴量抽出手段は、複数の前記特徴量抽出領域のそれぞれにおける、前記モデル画像のエッジの近傍におけるエッジ強度を抽出する
請求項１に記載の情報処理装置。
前記特徴量抽出手段は、前記モデル画像に配置可能な円の輪郭の近傍における、その円全体のエッジ上の点のばらつきの度合いにより、１以上の中心および半径をそれぞれ設定し、設定された前記１以上の中心および半径のそれぞれで特定される１以上の円を参照円としてそれぞれ決定し、それぞれの前記参照円を角度方向に分割し、分割されて結果得られる複数の円弧のそれぞれに対して設定された所定領域内において最も前記参照円に近い前記モデル画像のエッジ上の点のそれぞれを前記特徴点とし、前記特徴点の近傍の複数の前記特徴量抽出領域のそれぞれにおいて、前記モデル画像の特徴量であるモデル画像特徴量を抽出する
請求項１に記載の情報処理装置。
前記特徴量抽出手段は、それぞれ半径の異なる複数の同心円のうちの最も外側の円で囲まれる前記特徴量抽出領域が、前記同心円を所定の角度毎に放射状に区分してなる小領域のそれぞれにおける前記特徴量が、前記同心円の中心からの距離と角度とについての２次元のヒストグラムで表される前記特徴量を抽出する
請求項１に記載の情報処理装置。
入力画像とモデル画像とを比較し、前記モデル画像の被写体と前記入力画像の被写体とを同定する情報処理装置の情報処理方法において、
前記モデル画像のエッジ上の点であって、前記モデル画像の特徴量であるモデル画像特徴量を抽出するための点である特徴点の近傍の、１つの前記特徴点に対して複数の特徴量抽出領域のそれぞれにおいて、前記モデル画像特徴量を抽出し、
前記入力画像のエッジ上の点を前記特徴点に対応する対応点の候補として、前記対応点の候補における前記入力画像の特徴量である入力画像特徴量と、前記特徴点における複数の前記モデル画像特徴量のそれぞれとの各組をマッチングペア候補としてマッチングを行うことで、マッチングの度合を示す特徴量コストを前記マッチングペア候補毎にそれぞれ算出し、前記特徴量コストの最も高いマッチングペア候補を、前記対応点の候補についての第１のマッチングペアとして選択し、
前記入力画像のエッジ上の複数の前記対応点の候補のそれぞれについて選択された前記第１のマッチングペアのうち、前記特徴量コストが最も高い前記第１のマッチングペアを求め、それを構成する前記対応点の候補を、１つの前記特徴点に対応する前記対応点として、前記対応点と前記特徴点との組である第２のマッチングペアを決定し、
決定された複数の前記特徴点に対する前記第２のマッチングペアのうち、幾何拘束条件を満たす前記第２のマッチングペアの数が、所定の値より大きい場合、前記モデル画像の被写体と前記入力画像の被写体とを同定する
ステップを含む情報処理方法。
入力画像とモデル画像とを比較し、前記モデル画像の被写体と前記入力画像の被写体とを同定する処理をコンピュータに行わせるプログラムにおいて、
前記モデル画像のエッジ上の点であって、前記モデル画像の特徴量であるモデル画像特徴量を抽出するための点である特徴点の近傍の、１つの前記特徴点に対して複数の特徴量抽出領域のそれぞれにおいて、前記モデル画像特徴量を抽出し、
前記入力画像のエッジ上の点を前記特徴点に対応する対応点の候補として、前記対応点の候補における前記入力画像の特徴量である入力画像特徴量と、前記特徴点における複数の前記モデル画像特徴量のそれぞれとの各組をマッチングペア候補としてマッチングを行うことで、マッチングの度合を示す特徴量コストを前記マッチングペア候補毎にそれぞれ算出し、前記特徴量コストの最も高いマッチングペア候補を、前記対応点の候補についての第１のマッチングペアとして選択し、
前記入力画像のエッジ上の複数の前記対応点の候補のそれぞれについて選択された前記第１のマッチングペアのうち、前記特徴量コストが最も高い前記第１のマッチングペアを求め、それを構成する前記対応点の候補を、１つの前記特徴量に対する前記対応点として、前記対応点と前記特徴点との組である第２のマッチングペアを決定し、
決定された複数の前記特徴量に対する前記第２のマッチングペアのうち、幾何拘束条件を満たす前記第２のマッチングペアの数が、所定の値より大きい場合、前記モデル画像の被写体と前記入力画像の被写体とを同定する
ステップを含むプログラム。