JP4613617B2

JP4613617B2 - 画像処理システム、学習装置および方法、並びにプログラム

Info

Publication number: JP4613617B2
Application number: JP2005003049A
Authority: JP
Inventors: 洋貴鈴木; 章中村; 隆之芦ヶ原; 浩太郎佐部; 雅博藤田
Original assignee: Sony Corp
Current assignee: Sony Corp
Priority date: 2005-01-07
Filing date: 2005-01-07
Publication date: 2011-01-19
Anticipated expiration: 2025-01-07
Also published as: WO2006073076A1; CN101138007B; CN101138007A; EP1835460A1; US20090041340A1; US8582887B2; EP1835460A4; JP2006190201A; EP1835460B1

Description

本発明は、画像処理システム、学習装置および方法、並びにプログラムに関し、特に、物体を確実に認識できるようにするために特徴点特徴量を抽出し、データベースに登録する際に適用して好適な画像処理システム、学習装置および方法、並びにプログラムに関する。

例えば、ロボットにより対象物体を認識するための実用化されている対象物体認識技術の多くは、残差逐次検定法や相互相関係数によるテンプレートマッチング手法を用いている。しかしテンプレートマッチング手法は、検出対象物体が入力画像中に変形なく出現すると仮定できる特殊な場合には有効であるが、視点や照明状態の一定でない一般的な画像からの物体認識環境においては有効でない。

他方、対象物体の形状特徴と、画像分割手法によって切り出された入力画像中の各領域の形状特徴とをマッチングする形状マッチング手法も提案されているが、上述のような一般的な物体認識環境においては、領域分割の結果が安定せず、入力画像中の物体の良質な形状記述が難しくなる。特に、検出対象物体が、他の物体に部分的に隠されている場合などは認識が非常に困難になる。

以上のような、入力画像全体あるいは領域の全体的な特徴を用いたマッチング手法に対し、画像から特徴的な点やエッジを抽出し、それらが構成する線分集合やエッジ集合の空間的位置関係を線図形やグラフとして表現し、線図形間やグラフ間の構造類似性に基づいてマッチングを行う手法も提案されている。しかしながら、これらの手法は、ある特化した対象物に対してはうまく作用するが、画像の変形により、時として安定した特徴点間構造が抽出されず、特に前に述べたような部分的に隠されている物体の認識は困難となる。

そこで、画像から特徴的な点（特徴点）を抽出し、特徴点とその局所近傍の画像情報から得られる特徴量を用いたマッチング手法が提案されている。このような特徴点の部分的画像変形に対して不変な局所特徴量を用いるマッチング手法では、前述の手法に比べ画像の変形に対しても、検出対象が部分的に隠されるような場合にも安定した検出が可能となる。拡大縮小変換に対して不変性を持つ特徴点の抽出法として、画像のスケールスペースを構築し、各スケール画像のDifference of Gaussian（DoG）フィルタ出力の局所極大点及び局所極小点のうち、スケール方向の変化によっても位置が変化しない点をスケール特徴点として抽出する方法（非特許文献１または非特許文献２）や、画像のスケールスペースを構築し、各スケール画像からHarrisコーナー検出器により抽出されたコーナー点のうち、スケールスペース画像のLaplacian of Gaussian（LoG）フィルタ出力の局所極大を与える点を特徴点として抽出する方法（非特許文献３）などが提案されている。

さらに、このように抽出された特徴点においては、視線変化に対して不変な特徴量が選択されることが好ましい。例えば、 Schmid & Mohr は、 Harris コーナー検出器を用いて検出されたコーナーを特徴点とし、その特徴点付近の回転不変特徴量を用いたマッチング手法を提案している（非特許文献４）。

D. Lowe, "Object recognition from local scale-invariant features, in Proc. International Conference on Computer Vision, Vol. 2, pp. 1150-1157, September 20-25, 1999, Corfu, Greece. D. Lowe, "Distinctive image features from scale-invariant keypoints, accepted for publication in the International Journal of Computer Vision, 2004. K. Mikolajczyk, C. Schmid, 的ndexing based on scale invariant interest points, International Conference on Computer Vision, 525-531, July 2001. K. Mikolajczyk, C. Schmid, "Indexing based on scale invariant interest points, International Conference on Computer Vision, 525-531, July 2001. Schmid, C., and R. Mohr, 鏑ocal grayvalue invariants for image retrieval, IEEE PAMI, 19, 5, 1997, pp. 530-534. Schmid, C., and R. Mohr, "Local grayvalue invariants for image retrieval, IEEE PAMI, 19, 5, 1997, pp. 530-534.

上述したように、認識対象物体画像（モデル画像）と、その認識対象物体を検出したい画像（入力画像）のそれぞれから特徴的な点（特徴点）を抽出し、各特徴点から特徴点における特徴量（以下、適宜、特徴点特徴量または特徴量と記述する）を抽出し、モデル画像の特徴量群と入力画像の特徴量群の類似度を評価（モデル画像と入力画像のマッチング）し、対応特徴点群を抽出し、その対応特徴点群の解析から入力画像中のモデル物体の検出を行う方法は、物体認識の分野において一般的な手法になりつつある。

しかしながら、このような手法においては、類似度を比較する特徴点数（実際に比較するのはその特徴点から抽出された特徴量であり、１つの特徴点から複数の特徴量を抽出する場合もあるため特徴点の数と類似度計算する特徴量の数は一致しないが、ここでは説明の都合上、特徴点数、あるいは特徴点特徴量数と記述する）を多くすれば、認識の精度を上げられる可能性がある一方で、認識にかかる時間が増大してしまうというトレードオフの関係がある。

すなわち、認識パフォーマンスを上げるためには、特徴点数の調整（増加させる、または減少させるといった処理）が不可欠である。この特徴点数の調整は一般的に特徴点抽出のパラメータの調整によって行われていた。

しかしながら、認識対象物の特性（一般物体なのか、特定のカテゴリの物体なのか、人の顔なのか）や認識環境（屋外、屋内、カメラ解像度など）により適したパラメータは異なるため、適切なパラメータを実験経験的に人手によって発見する必要があった。従って、認識の精度を上げるための特徴点数の調整には、人手（労力）がかかり、時間がかかるといった課題があった。

本発明はこのような状況に鑑みてなされたものであり、最適なパラメータを簡便に設定できるようにすることを目的とする。

本発明の画像処理システムは、第１の画像から第１の特徴点を抽出する第１の特徴点抽出手段と、前記第１の特徴点抽出手段により抽出された前記第１の特徴点から第１の特徴量を抽出する第１の特徴量抽出手段と、前記第１の特徴量抽出手段により抽出された前記第１の特徴量を登録する第１の登録手段と、第２の画像から第２の特徴点を抽出する第２の特徴点抽出手段と、前記第２の特徴点抽出手段により抽出された前記第２の特徴点から第２の特徴量を抽出する第２の特徴量抽出手段と、前記第１の登録手段により登録された前記第１の特徴量と、前記第２の特徴量抽出手段により抽出された前記第２の特徴量を比較し、類似する特徴量を有する特徴点の組としての候補対応特徴点組を生成する生成手段と、前記第１の特徴量から、前記生成手段により生成された候補対対応特徴点組に含まれた頻度が閾値以上である前記第１の特徴量を、登録する登録用特徴量として選択する選択手段と、前記選択手段により選択された登録用特徴量を登録する第２の登録手段と、第３の画像から第３の特徴点を抽出する第３の特徴点抽出手段と、前記第３の特徴点抽出手段により抽出された前記第３の特徴点から第３の特徴量を抽出する第３の特徴量抽出手段と、前記第２の登録手段により登録された前記登録用特徴量と、前記第３の特徴量抽出手段により抽出された前記第３の特徴量とを比較し、前記第３の画像に含まれるモデル物体を検出する検出手段とを含む。

本発明の学習装置は、所定の画像に含まれるモデル物体を検出するときに用いられる登録用特徴量を学習し、登録する学習装置において、第１の画像から第１の特徴点を抽出する第１の特徴点抽出手段と、前記第１の特徴点抽出手段により抽出された前記第１の特徴点から第１の特徴量を抽出する第１の特徴量抽出手段と、前記第１の特徴量抽出手段により抽出された前記第１の特徴量を登録する第１の登録手段と、第２の画像から第２の特徴点を抽出する第２の特徴点抽出手段と、前記第２の特徴点抽出手段により抽出された前記第２の特徴点から第２の特徴量を抽出する第２の特徴量抽出手段と、前記第１の登録手段により登録された前記第１の特徴量と、前記第２の特徴量抽出手段により抽出された前記第２の特徴量を比較し、類似する特徴量を有する特徴点の組としての候補対応特徴点組を生成する生成手段と、前記第１の特徴量から、前記生成手段により生成された候補対対応特徴点組に含まれた頻度が閾値以上である前記第１の特徴量を、登録する登録用特徴量として選択する選択手段とを含む。

前記第２の画像には、第１の画像に含まれるモデル画像が必ず含まれているようにすることができる。

前記第１の特徴点抽出手段と前記第１の特徴点抽出手段が抽出処理を実行するときに用いるパラメータは、無効を示す値に設定されるようにすることができる。

前記第２の画像は、所定の画像をデジタル処理することにより生成された画像であるようにすることができる。

前記デジタル処理は、拡大縮小変換、回転変換、相似変換、アフィン変換、投射変換、ノイズ付加、明度変化、シャープネス変化、ぼかし付加、及び、それらの画像変換の組み合わせのうちのいずれか１つの処理であるようにすることができる。

本発明の学習方法は、所定の画像に含まれるモデル物体を検出するときに用いられる登録用特徴量を学習し、登録する学習装置の学習方法において、第１の画像から第１の特徴点を抽出する第１の特徴点抽出ステップと、前記第１の特徴点抽出ステップの処理で抽出された前記第１の特徴点から第１の特徴量を抽出する第１の特徴量抽出ステップと、前記第１の特徴量抽出ステップの処理で抽出された前記第１の特徴量を登録する第１の登録ステップと、第２の画像から第２の特徴点を抽出する第２の特徴点抽出ステップと、前記第２の特徴点抽出ステップの処理で抽出された前記第２の特徴点から第２の特徴量を抽出する第２の特徴量抽出ステップと、前記第１の登録ステップの処理で登録された前記第１の特徴量と、前記第２の特徴量抽出ステップにより抽出された前記第２の特徴量を比較し、類似する特徴量を有する特徴点の組としての候補対応特徴点組を生成する生成ステップと、前記第１の特徴量から、前記生成ステップの処理で生成された候補対対応特徴点組に含まれた頻度が閾値以上である前記第１の特徴量を、登録する登録用特徴量として選択する選択ステップとを含む。

本発明のプログラムは、所定の画像に含まれるモデル物体を検出するときに用いられる登録用特徴量を学習し、登録する学習装置を制御するコンピュータが読み取り可能なプログラムにおいて、第１の画像から第１の特徴点を抽出する第１の特徴点抽出ステップと、前記第１の特徴点抽出ステップの処理で抽出された前記第１の特徴点から第１の特徴量を抽出する第１の特徴量抽出ステップと、前記第１の特徴量抽出ステップの処理で抽出された前記第１の特徴量を登録する第１の登録ステップと、第２の画像から第２の特徴点を抽出する第２の特徴点抽出ステップと、前記第２の特徴点抽出ステップの処理で抽出された前記第２の特徴点から第２の特徴量を抽出する第２の特徴量抽出ステップと、前記第１の登録ステップの処理で登録された前記第１の特徴量と、前記第２の特徴量抽出ステップにより抽出された前記第２の特徴量を比較し、類似する特徴量を有する特徴点の組としての候補対応特徴点組を生成する生成ステップと、前記第１の特徴量から、前記生成ステップの処理で生成された候補対対応特徴点組に含まれた頻度が閾値以上である前記第１の特徴量を、登録する登録用特徴量として選択する選択ステップとを含む。

本発明の学習装置および方法、並びにプログラムにおいては、学習用の画像から特徴量が抽出され、登録され、その登録された特徴量と、同じく学習用の画像として用意された画像から抽出された特徴量が比較される。その比較結果が用いられ、実際の認識処理に用いられる特徴量が設定される。

本発明の画像処理システムにおいては、さらに、上記のようにして設定された特徴量が用いられて、取得される画像とのマッチングが行なわれ、その取得された画像に含まれるモデル物体が検出されることにより認識処理が行われる。

本発明によれば、特徴点（特徴量）を抽出することができる。

本発明によれば、実験、経験的に人手により特徴点抽出のパラメータ設定を行うことなく、認識に最適な特徴点特徴量の選択抽出が可能となる。

本発明によれば、認識の精度を向上させ、かつ、認識の処理にかかる時間を短縮させるための最適な特徴点の数（特徴量の数）を設定することが可能となる。換言すれば、特徴点の数を減らすことができる一方で、認識速度を向上させることが可能となる。

本発明によれば、高い認識パフォーマンスの実現に対して寄与度の高い特徴点（特徴量）のみを選択、抽出することが可能となる。そして、その選択、抽出された特徴点（特徴量）を認識処理に用いることにより、認識速度、認識精度を向上させることが可能となる。

本発明によれば、モデル学習用画像群を用意する際に想定した認識環境下でロバストな認識を実現できる特徴点のみが選択でき、この特徴点を認識処理に用いることで認識速度、認識精度を向上させることが可能となる。

以下に、本発明の実施の形態について図面を参照して説明する。

［システム構成例］
図１は、本発明を適用したシステムの一実施の形態の構成を示す図である。このシステムは、特徴点（特徴点特徴量）の学習処理を行う学習装置１１、学習装置１１により学習された結果としての特徴点特徴量を記憶するモデル辞書登録部１２、および、入力画像中のモデル物体を認識する認識部１３の３つの部分から構成される。

学習部１１は、特徴点抽出部２１、特徴量抽出部２２、学習用モデル辞書登録部２３、特徴点抽出部２４、特徴量抽出部２５、特徴量比較部２６、およびモデル辞書登録処理部２７により構成されている。

特徴点抽出部２１は、入力される学習用モデル画像から特徴点を抽出する。特徴量抽出部２２は、特徴点抽出部２２により抽出された各特徴点の特徴量を抽出する。学習用モデル辞書登録部２３は、特徴量抽出部２２により抽出されたモデル画像の特徴量群を登録（記憶）する。

特徴点抽出部２４は、入力される学習用入力画像から特徴点を抽出する。特徴量抽出部２５は、特徴点抽出部２４により抽出された各特徴点の特徴量を抽出する。これらの特徴点抽出部２４と特徴量抽出部２５により行われる処理は、学習用モデル画像を処理する特徴点抽出部２１と特徴量抽出部２２において行われる処理と同様の処理である。

特徴量比較部２６は、特徴量抽出部２５により抽出された特徴量と、認識対象となるモデル画像の特徴量群を比較する。モデル辞書登録処理部２７は、モデル辞書登録部１２に登録させる特徴点特徴量を抽出し、モデル辞書登録部１２に供給する。

なお、学習用モデル画像は学習対象物体１つに対して１枚のみである。学習用モデル辞書登録部２３には、学習対象物体の学習用モデル画像１枚から抽出されたシード特徴量群（後述する）のみが保持されており、学習装置１１の特徴量比較部２６は、そのシード特徴量群と学習用入力画像の特徴量群とのマッチングを実行する。

モデル辞書登録部１２には、このようにして、学習装置１１側で学習された結果（この場合、認識装置１３で認識を行うときに参照されるモデル画像に関する特徴量群）が登録される。

学習用モデル辞書登録部２３とモデル辞書登録部１２には、共に、学習用モデル画像から抽出された特徴量群が登録されるが、モデル辞書登録部１２に登録される特徴量群は、学習が行われた後のものであり、認識装置１３が認識処理を実行するときに、最適なデータとされている。

モデル辞書登録部１２に登録されている特徴量群を用いて認識処理を実行する認識装置１３は、特徴点抽出部３１、特徴量抽出部３２、特徴量比較部３３、およびモデル検出判定部３４から構成されている。

この認識装置１３の特徴点抽出部３１、特徴量抽出部３２、および特徴量比較部３３で行われる処理は、学習装置１１の特徴点抽出部２４、特徴量抽出部２５、および特徴量比較部２６で行われる処理と基本的に同様である。

なお、認識対象物体が複数ある場合、そのそれぞれの物体について学習装置１１により特徴点特徴量の選択、抽出が行われ、モデル辞書登録部１２に登録される。すなわち、モデル辞書登録部１２には、認識対象とする全ての物体について、そのモデル特徴量群が保持されており、認識装置１３の特徴量比較部３３は、全ての認識対象物体の特徴量群と入力画像の特徴量群とマッチングを行うように構成されている。よって、特徴量比較部２６と特徴量比較部３３とは、アルゴリズムは同じでも、扱うデータが違うことがある。

また、各部で実行される処理において用いられるパラメータなどは適宜異なる値が用いられるようにしても勿論良い。モデル検出判定部３４は、入力画像に含まれるモデル物体を、特徴量比較部３３から供給されるデータを利用して検出する。

なお、学習装置１１において、同一の処理を行う部分、例えば、特徴点抽出部２１と特徴点抽出部２４などを、別々に設けるのではなく、共用できる構成としても良い。また、学習装置１１は、モデル辞書登録部１２を含む構成としても良いし、含む構成とした場合、学習用モデル辞書登録部２３と共用される（または、学習用モデル辞書登録部２３の登録内容が更新される）ようにしても良い。

または、モデル辞書登録部１２を、認識装置１３に含ませる構成とすることも可能である。

学習装置１１、モデル辞書学習部１２、認識装置１３は、それぞれ、ネットワークで接続され、互いにデータの授受が行える（少なくとも、学習装置１１とモデル辞書登録部１２、モデル辞書登録部１２と認識装置１３は、それぞれデータの授受が行える）ように構成されている。そのネットワークは、有線で構成されていても良いし、無線で構成されていても良い。

［学習装置の動作について］
次に、図１に示したシステムのうち、学習装置１１の動作について、図２のフローチャートを参照して説明する。なお、図２のフローチャートを参照して説明する処理は、学習用モデル画像の特徴量群を登録するときの処理である。

ステップＳ１１において、学習装置１１の特徴点抽出部２１は、学習用モデル画像を取得する。この学習用モデル画像は、認識対象物体（モデル物体）が撮像された画像である。

学習装置１１には、学習対象物体１つにつき、学習用モデル画像を１枚だけ撮像して用意されている。この１枚の学習用モデル画像からシード特徴量群が抽出される。よって、この学習用モデル画像は、なるべく理想的な撮像環境で用意されたものとすることが好ましい。一方で、後述する学習用入力画像には、様々な視点で撮像された画像が多数枚用意される。または、デジタル処理により学習用モデル画像から生成された画像が多数枚用意される。

ステップＳ１１において、学習用モデル画像が取得されると、ステップＳ１２において、特徴点抽出部２１は、学習用モデル画像から特徴点を抽出する。特徴点抽出部２１が行う処理（特徴点を抽出するための手法）は、Harrisコーナー検出器（C. Harris and M. Stephens, A combined corner and edge detector", Fourth Alvey Vision Conference, pp.147-151, 1988.）、SUSANコーナー検出器（S.M. Smith and J.M. Brady. SUSAN - a new approach to low level image processing）、KLT特徴点（Carlo Tomasi and Takeo Kanade. Detection and Tracking of Point Features. Carnegie Mellon University Technical Report CMU-CS-91-132, April 1991）など、さまざまな手法が提案されおり、それらの手法を適用することが可能である。

また、上記した手法の他に、元画像（この場合、学習用モデル画像）の多重解像度化、スケールスペース化により複数階層の画像群を生成し、その画像群から回転変換、スケール変換に不変な特徴点の抽出を行う手法も提案されており、その手法を、特徴点抽出部２１が行う特徴点の抽出に係わる手法として適用することができる（D. Lowe, “Distinctive image features from scale-invariant keypoints, accepted for publication in the International Journal of Computer Vision, 2004. K. Mikolajczyk, C. Schmid, 的ndexing based on scale invariant interest points, International Conference on Computer Vision, 525-531, July 2001.、K. Mikolajczyk, C. Schmid, “Indexing based on scale invariant interest points,” International Conference on Computer Vision, 525-531, July 2001. Schmid, C., and R. Mohr, “Local grayvalue invariants for image retrieval,” IEEE PAMI, 19, 5, 1997, pp. 530-534.）。

［特徴点の抽出について］
ここでは、図３を参照して、Harrisコーナー検出器によるHarrisLaplacian特徴点抽出手法について簡便に説明を加える（詳細は、K. Mikolajczyk, C. Schmid, 的ndexing based on scale invariant interest points, International Conference on Computer Vision, 525-531, July 2001.に記載されている）。

HarrisLaplacian特徴点抽出手法は、画像Ｉに対してガウス（Gaussian）フィルタリングすることで、画像Ｇ₁（Ｉ）を生成する。この画像Ｇ₁（Ｉ）と画像Ｉとは異なるより粗い解像度の画像となる。ガウスフィルタの形状を決めるパラメータσを大きくすることで、より粗い解像度の画像を生成することができる。

画像Ｉに対して、画像Ｇ₁（Ｉ）とは異なるさらにより粗い解像度になるようなガウスフィルタリングされることで（より大きいσ値のガウスフィルタを用いてフィルタリングされることで）、画像Ｇ₂（Ｉ）が生成される。同様に、画像Ｉに対して、画像Ｇ₁（Ｉ）や画像Ｇ₂（Ｉ）とは異なるさらにより粗い解像度になるようにガウスフィルタリングすることで（より大きいσ値のガウスフィルタを用いてフィルタリングすることで）、画像Ｇ₃（Ｉ）が生成される。このようにして、異なる解像度の画像Ｉ、画像Ｇ₁（Ｉ）、画像Ｇ₂（Ｉ）、画像Ｇ₃（Ｉ）がそれぞれ生成される（なお、生成される画像の数は、適宜変更可能である）。

これらの画像Ｉ、画像Ｇ₁（Ｉ）、画像Ｇ₂（Ｉ）、画像Ｇ₃（Ｉ）の各画像（各スケール）で、コーナー検出器により、特徴点の候補が抽出される。この抽出は、Harrisコーナー度に極大点（直接近傍（例えば９ピクセル）中の最大値を有する点（ピクセル））のうち、Harrisコーナー度に対する規定の閾値（ここでは、第１の閾値とする）以上を満たす点が、特徴点の候補として抽出される。

このような特徴点の候補が抽出されると、画像Ｉ、画像Ｇ₁（Ｉ）、画像Ｇ₂（Ｉ）、画像Ｇ₃（Ｉ）の各画像に対応し、ラプラシアン（Laplacian）フィルタリングされた画像が生成される。ラプラシアンフィルタの形状を決めるパラメータσを大きくすることで、より粗い解像度のラプラシアンフィルタ出力画像を生成することができる。すなわち、この場合、まず、画像Ｉにラプラシアンフィルタリングが施され、画像Ｌ₁（Ｉ）が生成される。

次に、画像Ｌ₁（Ｉ）を生成した際のラプラシアンフィルタよりσ値のより大きいラプラシアンフィルタで画像Ｉにフィルタリングを行い、画像Ｌ₂（Ｉ）が生成される。さらにσ値が大きいラプラシアンフィルタで画像Ｉにフィルタリングを行い、画像Ｌ₃（Ｉ）が生成される。これらの画像Ｌ₁（Ｉ）、画像Ｌ₂（Ｉ）、画像Ｌ₃（Ｉ）を用いて、特徴点が抽出されるのだが、その抽出については、図４を参照して説明する。

図４においては、画像Ｌ₁（Ｉ）に対応する画像Ｇ₁（Ｉ）から抽出された特徴点の候補を、点Ｐ₁、画像Ｌ₂（Ｉ）に対応する画像Ｇ₂（Ｉ）から抽出された特徴点の候補を、点Ｐ₂、画像Ｌ₃（Ｉ）に対応する画像Ｇ₃（Ｉ）から抽出された特徴点の候補を、点Ｐ₃としている。またこの場合、画像Ｌ₂（Ｉ）の点Ｐ₂と同じ位置に存在する画像Ｌ₁（Ｉ）の点は、点Ｐ₁であり、画像Ｌ₃（Ｉ）の点は、点Ｐ₃である。

特徴点の候補のうち、以下の条件を満たす点が特徴点として抽出される。ここでは、特徴点の候補が、点Ｐ₂である場合を例に挙げて条件について説明する。まず、点Ｐ₂が所定の閾値（ここでは、第２の閾値とする）以上であることが第１の条件である。すなわち、点Ｐ２≧第２の閾値を満たすことが第１の条件である。

第２の条件は、点Ｐ₂に対する上下のスケールの画像の対応する点よりも大きいこと、この場合、点Ｐ₁と点Ｐ₃よりも大きいことである。すなわちこの場合、点Ｐ₂≧点Ｐ₁、かつ点、Ｐ₂≧点Ｐ₃を満たすことが第２の条件である。

この第１の条件と第２の条件が満たされたとき、その特徴点の候補は、特徴点として抽出される。

このようにして、ステップＳ１２（図２）において、複数の特徴点が学習用モデル画像から抽出される。

ここでは、特徴点を抽出する１つの手法として、HarrisLaplacian特徴点抽出手法について説明を加えたが、他の手法を適用することも勿論可能である。他の手法を適用して特徴点を抽出した場合においても、特徴点の抽出に関しては、以下のようなことが言える。すなわち、何らかの閾値（パラメータ）を用いて、特徴点を抽出するということである。

上記したHarrisLaplacian特徴点抽出手法においては、ガウスフィルタリングが施された画像の各ピクセルから、特徴点の候補を抽出するときに、第１の閾値が用いられ、ラプラシアンフィルタリングが施された画像の特徴点の候補から、特徴点を抽出するときに、第２の閾値が用いられた。このように、特徴点を抽出するときには、閾値（パラメータ）が何らかのかたちで用いられる。パラメータが用いられて、特徴点が抽出されるということは、HarrisLaplacian特徴点抽出手法以外の手法でも、同様である。

ところで、認識対象物（この場合、学習用モデル画像）の特性（一般物体なのか、特定のカテゴリの物体なのか、人の顔なのかなど）や、認識環境（屋外、屋内、カメラ解像度など）により、最適なパラメータはさまざまな値をとる。その最適なパラメータを設定するには、実験、経験的に人手によって発見する必要があった。

パラメータの調整を人手に頼る必要がある理由の１つとしては、パラメータ調節の結果得られる認識パフォーマンスがシステム内部的に評価されておらず、パラメータ調節にフィードバックされない構成になっていない点であり、そのフィードバックをシステム外部で人が経験的に行っていたからである。また、パラメータ調整は、認識結果に対しては間接的にしか影響を与えないため、パラメータ操作により特徴点の数を調整したからといっても必ずしも望みどおりの認識パフォーマンスの向上が実現されるわけではないという課題もあった。

すなわち、最適な数の特徴点を抽出するには時間がかかり、労力がかかるといった課題があり、また、時間や労力をかけても認識パフォーマンスを必ずしも向上できるとは限らないといった課題があった。本発明は、以下に説明するような処理が実行されることにより特徴点（特徴点特徴量）を抽出（設定）することにより、このような課題を解決する。

図２のフローチャートの説明に戻り、ステップＳ１２において、特徴点抽出部２１により、学習用モデル画像から特徴点が抽出されると、ステップＳ１３に処理が進められる。ステップＳ１３において、特徴量抽出部２２は、特徴点抽出部２１により抽出された特徴点に関して、特徴量を計算する。特徴量抽出部２２は、特徴点抽出部２１により抽出された複数の特徴点に対して、特徴点毎に、その特徴点の近傍の画像情報から特徴量を計算する。

その特徴量の計算は、例えば、グレーパッチ（近傍ピクセルの輝度値を並べ特徴量ベクトルとする）、グラディエントベクトル、ガボアジェット、ステアラブルジェットなどの、既に提案されている手法を適用することができる。１つの特徴点に同一タイプの特徴量が複数計算される手法や、タイプの異なる複数の特徴量を各特徴量から計算するようにしても良い。特徴量抽出部２２による特徴量の計算の手法は、特に、限定を加える必要がなく、どのような手法を適用した場合にも本発明を適用することは可能である。

ステップＳ１３において、特徴量が計算されると、ステップＳ１４において、その計算された特徴量が、学習用モデル辞書登録部２３に登録される。ここでは、学習用モデル辞書登録部２３に登録される特徴量を、シード特徴点特徴量群と記述する。なお、シードとは、種（ＳＥＥＤ）の意味であるとする。

シード特徴点特徴量群は、最適な特徴点（特徴量）を設定するための学習段階で、登録される特徴量である。そのような特徴量である、シード特徴点特徴量群を抽出するためには、特徴点抽出部２１と特徴量抽出部２２の処理には、以下のような条件が加えられることが好ましい。

特徴点抽出部２１は、なるべく多くの特徴点を抽出するように、その特徴点の抽出の処理において用いられるパラメータの値が設定される。すなわちこの場合、［特徴点の抽出について］のところで説明を加えたHarrisLaplacian特徴点抽出手法により特徴点の抽出が行われる場合、第１の閾値と第２の閾値は、なるべく多くの特徴点が抽出されるような値に設定される。

具体的には、第２に閾値は、特徴点の候補から、特徴点を抽出する処理が実行される際に用いられる閾値であったが、その値を０（無効）にすれば、少なくとも、特徴点の候補のうち、第２の閾値以上である候補を特徴点とするという上述した第１の条件は、全ての候補が満たすことになるため、結果として多くの特徴点が候補として抽出されることになる。

このような特徴を有するシード特徴点特徴量群が、学習用モデル辞書登録部２３には登録される。

仮に、シード特徴点特徴量群が、認識処理に用いられると、上記したような理由から、特徴点数が多いために、認識にかかる時間が長くなってしまう。また、特徴点数は多いが、その特徴点は、上記したように、単に、多くの特徴点を抽出するためにパラメータを設定した結果であり、最適な特徴点とするために設定されたパラメータが用いられて抽出されたものではないため、認識精度を必ずしも良くするものではない。

よって、本実施の形態においては、以下の処理（学習処理）により、シード特徴点特徴量群を最適化し、特徴点の数を減らすとともに、認識処理に最適な特徴点（特徴点特徴量群）のみが抽出されるようにする。

図２のフローチャートの説明に戻り、ステップＳ１４において、学習用モデル辞書登録部２３に、学習用モデル画像に関するシード特徴点特徴量群が登録されると、ステップS１５において、特徴点抽出部２４により、学習用入力画像が取得される。この学習用入力画像とは、学習対象の物体（モデル物体）を、さまざまな角度から撮影した画像、明暗が異なる状況で撮像した画像などの複数の画像のうちの１枚の画像である。予めこのような複数の画像が撮像されるようにしても良い。または、ステップＳ１１で取得された学習用モデル画像を、デジタル処理によりさまざまに加工し用意した画像でも良い。

デジタル処理が施される場合、そのデジタル処理としては、例えば、拡大縮小変換、回転変換、相似変換、アフィン変換、投射変換、ノイズ付加、明度変化、シャープネス増強、ぼかし付加など、および、それらの画像変換の組み合わせにより、一般の撮像環境、撮像位置の変化により生じる画像変化をデジタル画像処理で擬似的に加工するための処理がある。

学習装置１１には、学習対象となる物体１つにつき、学習用モデル画像を１枚だけ撮像した画像が用意されている。すなわち、学習用モデル画像は一枚のみである。一方、ここで言及している学習用入力画像には、さまざまな視点で撮像された画像や、デジタル処理により生成された画像を多数枚用意される。

この学習用入力画像には、学習用モデル画像のモデル物体が必ず含まれている。

ステップＳ１６において、特徴点抽出部２４は、取得した学習用入力画像から、特徴点を抽出する。ステップＳ１７において、特徴量抽出部２５は、特徴点抽出部２４により抽出された特徴点の近傍の画像情報から、特徴量を計算する。このステップＳ１６とステップＳ１７における処理（特徴点抽出部２４と特徴量抽出部２５により行われる処理）は、基本的に、ステップＳ１２とステップＳ１３における処理（特徴点抽出部２１と特徴量抽出部２２により行われる処理）と同様であるので、その説明は省略する。

このようにして計算された特徴量は、特徴量比較部２６に供給される。特徴量比較部２６は、ステップＳ１８において、供給された特徴量と、学習用モデル辞書登録部２３に登録されている現在学習対象となっている学習用モデル画像から抽出されたシード特徴点特徴量群とを比較する。すなわち、特徴量比較部２６は、所定の物体認識手法の特徴量間マッチング操作に従い、抽出された特徴点特徴量と、学習用モデル辞書登録部２３に登録されているシード特徴点特徴量群との類似度を計算し、類似度の高い特徴点特徴量同士の対応付けを行う。この処理により、対応付けされた特徴点ペア群が生成される。

学習用入力画像にモデル物体が存在する場合、そのモデルに対して対応付けされる特徴量が数多く検出されることになる。この場合、上記したように、学習用入力画像中にモデル物体が存在することになっている。よって、学習用モデル画像と学習用入力画像全てに対してこのマッチングの処理を行った結果を集計し、その集計結果から、学習用モデル画像の各特徴点特徴量Miの対応特徴点ペア群として認識に使われた頻度F(Mi)を求めると、この頻度が高い特徴点特徴量ほど、高い認識パフォーマンス実現に対して寄与度が高い特徴点特徴量とみなせる。

よって学習用モデル画像の特徴点特徴量のうち、頻度F(Mi)の高い特徴点特徴量のみを選択抽出し、モデル物体の特徴点特徴量群として、モデル辞書登録部１２に登録されるようにする。

このように、モデル辞書登録部１２に、寄与度の高い特徴点特徴量（群）のみが、モデル辞書登録部１２に登録されるようにするために、まず、学習用モデル画像と、複数の学習用入力画像とがマッチングされ、複数の特徴点特徴量が抽出されるようにする。そのためにステップＳ２０において、全ての学習用入力画像を処理したか否かが判断される。

ステップＳ２０において、全ての学習用入力画像は処理されてはいないと判断された場合、ステップＳ１５に処理が戻され、それ以降の処理が繰り返される。この繰り返しにより、学習用モデル画像と、複数の学習用入力画像とのマッチングの処理が実行される。一方、ステップＳ２０において、全ての学習用入力画像は処理されたと判断された場合、ステップＳ２１に処理が進められる。

ステップＳ２１において、モデル辞書登録処理部２７は、各特徴点特徴量Miの対応特徴点ペア群として認識に使われた頻度F(Mi)を求め、この頻度が高い特徴点特徴量を抽出する。特徴点特徴量を選択する基準としては、例えば、頻度F(Mi)が既定の閾値以上となった特徴点特徴量Miのみを抽出する、頻度F(Mi)の大きい順にソートし、上位ｋ個の特徴点特徴量Miのみを抽出する、頻度F(Mi)を学習用入力画像の枚数で割ることで各特徴点特徴量Miが、どれくらいの確率で認識時に利用されたかを求め、この確率が既定の閾値以上になる特徴点特徴量Miのみを抽出するなどの方法が考えられる。そして、これらの方法を適宜利用することにより、抽出処理が実行されるようにすればよい。

この抽出に関し、図５と図６を参照して説明を加える。図５は、学習用モデル画像と５枚の学習用入力画像とをマッチングした結果（一例）を示している。図５においては、マッチングの結果としての対応特徴点ペア群を、線で表している。例えば、学習用モデル特徴点特徴量M1は、学習用入力画像１の特徴点特徴量L11、学習用入力画像２の特徴点特徴量L22、学習用入力画像３の特徴点特徴量L33、および、学習用入力画像５の特徴点特徴量L52と対応特徴点ペア組みされている。

また、同様に、学習用モデル特徴点特徴量M2は、学習用入力画像１の特徴点特徴量L13、学習用入力画像２の特徴点特徴量L24、学習用入力画像３の特徴点特徴量L32、および、学習用入力画像５の特徴点特徴量L51と対応特徴点ペア組みされている。さらに、同様に、学習用モデル特徴点特徴量M3は、学習用入力画像２の特徴点特徴量L24と、学習用入力画像４の特徴点特徴量L43と対応特徴点ペア組みされている。

このようなことを、特徴量比較部２６（または、モデル辞書登録処理部２７でも良い）は管理（一旦記憶）しており、その記憶されているデータは、例えば、図６に示すようなデータである。図６を参照するに、学習用モデル画像の特徴点特徴量M1には、特徴点特徴量L11、特徴点特徴量L22、特徴点特徴量L33、および、特徴点特徴量L52という４つの特徴点特徴量が対応付けられていることがわかる。すなわち、この結果から、特徴点特徴量M1は、頻度F(M1)=4であることがわかる。

同様に、特徴点特徴量M2は、頻度F(M2)=4であり、特徴点特徴量M3は、頻度F(M3)=2であることがわかる。この結果から、モデル辞書登録処理部２７は、ステップＳ２１の処理として、頻度の高い特徴点特徴量を抽出する際、特徴点特徴量M1と特徴点特徴量M2をそれぞれ抽出（選択）する。そして、ステップＳ２２の処理として、その抽出した特徴点特徴量M1と特徴点特徴量M2を、モデル辞書登録部１２に登録する。

このようにして、学習装置１１において、特徴点特徴量の学習が行われる。

このように、モデル辞書登録部１２に登録される特徴点特徴量を学習（抽出、選択）することにより、高い認識パフォーマンスを実現するときに寄与度の高い特徴点特徴量を学習（抽出、選択）することが可能となる。このことにより、特徴点特徴量を抽出する際に設定すべきパラメータ（上記した説明においては、例えば、第１の閾値や第２の閾値）を、実験、経験的に人手により設定することなく、認識に最適な特徴点特徴量の選択抽出が可能となる。

なお、後述する認識装置１３により認識対象となる物体が複数ある場合には、それら物体毎に学習装置１１側で、ステップＳ１１乃至Ｓ２２の処理が繰り返し適用され、モデル辞書登録部１２のモデル辞書に認識対象となる全ての物体の特徴点特徴量が登録される。

すなわち、図２のフローチャートには記載していないが、複数の学習用モデル画像を処理する（学習する）必要があるときには、ステップＳ２２の処理が実行された後に、“全ての学習対象物体の学習用モデル画像を処理したか？”といったような判定が行われるようにし、ＮＯの場合には（全ての学習対象物体の学習用モデル画像は処理していないと判断された場合には）、ステップＳ１１に処理が戻され、それ以降の処理が繰り返し行われるようにする。

このような特徴点特徴量を利用し、高い認識パフォーマンスを実現する認識装置１３（図１）の処理について、以下に説明を加える。

［認識装置の処理について］
図７のフローチャートを参照し、認識装置１３の処理について説明する。なお、以下に説明するような認識処理を実行する認識装置１３は、例えば、ロボットなどに搭載される。

ステップＳ４１において、認識装置１３の特徴点抽出部３１は、処理対象となる入力画像を取得する。特徴点抽出部３１は、ステップＳ４２において、取得された入力画像から特徴点を抽出し、特徴量抽出部３２に供給する。

特徴量抽出部３２は、ステップＳ４３において、供給された特徴点に関する特徴量を抽出し、特徴量比較部３３に供給する。ここまでの処理は、図２のフローチャートを参照して説明したステップＳ１１乃至Ｓ１３、または、ステップＳ１５乃至Ｓ１７の処理と基本的に同様に行われるため、その詳細な説明は省略する。

ただし、特徴点の抽出や特徴量の抽出の際に用いられるパラメータなどは、必ずしも、学習装置１１側と認識装置１３側で同一の値を用いる必要はなく、適宜、異なる値を用いても良い。また、その抽出に係わる手法自体も、学習装置１１側と認識装置１３側で、全く同一の手法を用いなくてはならないという限定はなく、異なる手法を用いることも可能である。

ステップＳ４４において、特徴量比較部３３は、モデル辞書登録部１２に登録されているモデル画像の特徴点特徴量を取得する。上記したように、モデル辞書登録部１２と認識装置１３がネットワークなどを介して接続されている場合、そのネットワークを介して特徴点特徴量が取得される。

ステップＳ４５において、特徴量比較部３３は、特徴量抽出部３２から供給された特徴点特徴量と、モデル辞書登録部１２から取得した特徴点特徴量を比較する。この比較に関しては、図２のステップＳ１４またはステップＳ１８と基本的に同様の処理により行われるため、その詳細な説明は省略する。この比較の処理は、１枚の入力画像と、複数のモデル画像（学習装置１１側で処理された学習用モデル画像の枚数分）とに対して行われる。複数のモデル画像（モデル画像に関する特徴点特徴量）は、一度にまとめて、モデル辞書登録部１２から取得されても良いし、必要に応じて取得されるようにしても良く、その取得のタイミングなどに関しては、適宜、設計の段階で決定されればよい。

ステップＳ４６において、モデル検出判定部３４は、特徴量比較部３３による比較結果を参照し、モデル物体の検出を行う。例えば、対応特徴点ペア組の最も多いモデル画像のモデル物体を検出した物体として判定する。

このような特徴点特徴量の比較の際、モデル辞書登録部１２に登録されているモデル画像の特徴点特徴量が用いられるが、その特徴点特徴量は、学習装置１１における学習結果が登録されており、その登録されている特徴点特徴量は、上記したように、認識パフォーマンスを向上させるようなものとされている。すなわち、比較の処理が実行される際に取得される（参照される）特徴点特徴量の数は、認識処理を実行するうえで、認識率を向上させるために必要な数だけ登録されているため、認識率を向上させることが可能となる。また、このように登録されている特徴点特徴量の数が限定されているため、比較の処理にかかる時間を短縮させることが可能となる。

［学習装置の他の構成例について］
図８は、学習装置１１の他の構成例を示す図である。図８に示した学習装置１０１と、図１に示した学習装置１１とを比較するに、学習装置１０１は、学習装置１１の特徴量比較部２６とモデル辞書登録処理部２７との間に、アウトライヤ除去部１１１が追加された構成とされている。

すなわち、学習装置１１１は、特徴量比較部２６からの特徴点特徴量のうち、アウトライヤに該当する特徴量を除去し、モデル辞書登録処理部２７に出力する構成とされている。アウトライヤについて、図９を参照して説明する。特徴量比較部２６からは、対応特徴点ペア組が出力されるわけだが、その対応特徴点ペア組のなかには、対応特徴点間の空間的位置関係が学習用モデル画像上での姿勢と矛盾しない「真の特徴点ペア（インライヤ）」だけでなく、矛盾するような「偽の特徴点ペア（アウトライヤ）」も含まれている可能性がある。

図９は、インライヤとアウトライヤを模式的に表している。同図に示されるように、図中左側に示される三角形の学習用モデル画像と、図中右側に示される学習用入力画像の三角形の検出対象物体（モデル物体）が対応するとすると、学習用モデル画像の三角形の頂点近傍の特徴点Ｐ１乃至Ｐ４は、検出対象物体の特徴点Ｐ11乃至Ｐ14とそれぞれ対応する。すなわち、特徴点Ｐ１が特徴点Ｐ11と、特徴点Ｐ２が特徴点Ｐ12と、特徴点Ｐ３が特徴点Ｐ13と、特徴点Ｐ４が特徴点Ｐ14とそれぞれ対応する。したがって、これらの候補対応特徴点組はインライヤを構成する。なお、図９において、インライヤは実線で示されている。

これに対して、学習用モデル画像の特徴点Ｐ５は三角形の内部のほぼ中央に位置し、特徴点Ｐ６は三角形の周辺の近傍の外部に位置する。これに対して、特徴点Ｐ５とペア組された学習用入力画像の特徴点Ｐ15と、特徴点Ｐ６とペア組された学習用入力画像の特徴点Ｐ16は、それぞれ、検出対象物体とは遠く離れた点である。すなわち、特徴点Ｐ５と特徴点Ｐ15の候補対応特徴点組、並びに特徴点Ｐ６と特徴点Ｐ16の候補対応特徴点組はアウトライヤである。なお、図９において、アウトライヤは破線で示されている。

このようなアウトライヤが存在するような対応特徴点ペア組を利用すると、結果的にモデル辞書登録部１２に登録される特徴点特徴量の精度が低下することになり、その結果、認識装置１３における認識パフォーマンスが低下する可能性がある。そこで、学習装置１０１の構成を図８に示したような、アウトライヤ除去部１１１を備える構成とし、アウトライヤが除去される手法を設けるようにし、そのような精度やパフォーマンスの低下を防ぐようにしても良い。

学習装置１０１のように、アウトライヤ除去部１１１を設ける構成とした場合の処理について、図１０のフローチャートを参照して説明する。

ステップＳ１１１乃至Ｓ１１８の処理は、図２のステップ１１乃至Ｓ１８に、ステップＳ１２０乃至Ｓ１２３の処理は、図２のステップＳ１９乃至Ｓ２２に、それぞれ基本的に同様であるので、その詳細な説明は省略する。すなわち、アウトライヤ除去部１１１が設けられた学習装置１０１では、アウトライヤ除去部１１１が設けられていない学習装置１１と比較し、ステップＳ１１９においてアウトライヤの除去の処理が実行される点が異なり、その他の処理は、基本的に同様である。もちろん、ステップＳ１２０以下の処理は、アウトラインが除去されたデータに対して行われる。

ステップＳ１１９において行われるアウトライヤの除去の処理についての詳細は、本出願人が、先に出願した特願２００４−２４４０１８号に開示されており、その発明を適用することができる。

このように、本発明によれば、モデル学習用画像群を用意する際に想定した認識環境下でロバストな認識を実現できる特徴点のみが選択でき、この特徴点（特徴量）を認識に用いることで認識速度、認識精度を向上させることが可能となる。

［記録媒体について］
上述した一連の処理は、ハードウエアにより実行させることもできるし、ソフトウエアにより実行させることもできる。この場合、例えば、学習装置１１は、図１１に示されるようなパーソナルコンピュータにより構成される。

図１１において、CPU（Central Processing Unit）１２１は、ROM（Read Only Memory）１２２に記憶されているプログラム、または記憶部１２８からRAM（Random Access Memory）１２３にロードされたプログラムに従って各種の処理を実行する。RAM１２３にはまた、CPU１２１が各種の処理を実行する上において必要なデータなども適宜記憶される。

CPU１２１、ROM１２２、およびRAM１２３は、バス１２４を介して相互に接続されている。このバス１２４にはまた、入出力インタフェース１２５も接続されている。

入出力インタフェース１２５には、キーボード、マウスなどよりなる入力部１２６、CRT(Cathode Ray Tube)、LCD(Liquid Crystal display)などよりなるディスプレイ、並びにスピーカなどよりなる出力部１２７、ハードディスクなどより構成される記憶部１２８、モデムなどより構成される通信部１２９が接続されている。通信部１２９は、インターネットを含むネットワークを介しての通信処理を行う。

入出力インタフェース１２５にはまた、必要に応じてドライブ１３０が接続され、磁気ディスク、光ディスク、光磁気ディスク、或いは半導体メモリなどのリムーバブルメディア１３１が適宜装着され、それらから読み出されたコンピュータプログラムが、必要に応じて記憶部１２８にインストールされる。

一連の処理をソフトウエアにより実行させる場合には、そのソフトウエアを構成するプログラムが、専用のハードウエアに組み込まれているコンピュータ、または、各種のプログラムをインストールすることで、各種の機能を実行することが可能な、例えば汎用のパーソナルコンピュータなどに、ネットワークや記録媒体からインストールされる。

この記録媒体は、図１１に示されるように、装置本体とは別に、ユーザにプログラムを提供するために配布される、プログラムが記録されている磁気ディスク（フロッピディスクを含む）、光ディスク（CD-ROM(Compact Disk-Read Only Memory),DVD(Digital Versatile Disk)を含む）、光磁気ディスク（MD（Mini-Disk）を含む）、もしくは半導体メモリなどよりなるリムーバブルメディア１３１により構成されるだけでなく、装置本体に予め組み込まれた状態でユーザに提供される、プログラムが記録されているROM１２２や、記憶部１２８に含まれるハードディスクなどで構成される。

なお、本明細書において、記録媒体に記録されるプログラムを記述するステップは、記載された順序に沿って時系列的に行われる処理はもちろん、必ずしも時系列的に処理されなくとも、並列的あるいは個別に実行される処理をも含むものである。

また、本明細書において、システムとは、複数の装置により構成される装置全体を表すものである。

本発明を適用したシステムの一実施の形態の構成を示す図である。学習装置の動作を説明するフローチャートである。特徴点の抽出について説明するための図である。特徴点の抽出について説明するための図である。抽出される特徴点特徴量について説明するための図である。抽出処理に係わるデータについて説明するための図である。認識装置の動作について説明するフローチャートである。学習装置の他の構成例を示す図である。アウトライヤについて説明するための図である。学習装置の他の動作について説明するためのフローチャートである。媒体を説明する図である。

符号の説明

１１学習装置，１２モデル辞書登録部，１３認識装置，２１特徴点抽出部，２２特徴量抽出部，２３学習用モデル辞書登録部，２４特徴点抽出部，２５特徴量抽出部，２６特徴量比較部，２７モデル辞書登録処理部，３１特徴点抽出部，３２特徴量抽出部，３３特徴量比較部，３４モデル検出判定部，１０１学習装置，１１１アウトライン除去部

Claims

第１の画像から第１の特徴点を抽出する第１の特徴点抽出手段と、
前記第１の特徴点抽出手段により抽出された前記第１の特徴点から第１の特徴量を抽出する第１の特徴量抽出手段と、
前記第１の特徴量抽出手段により抽出された前記第１の特徴量を登録する第１の登録手段と、
第２の画像から第２の特徴点を抽出する第２の特徴点抽出手段と、
前記第２の特徴点抽出手段により抽出された前記第２の特徴点から第２の特徴量を抽出する第２の特徴量抽出手段と、
前記第１の登録手段により登録された前記第１の特徴量と、前記第２の特徴量抽出手段により抽出された前記第２の特徴量を比較し、類似する特徴量を有する特徴点の組としての候補対応特徴点組を生成する生成手段と、
前記第１の特徴量から、前記生成手段により生成された候補対対応特徴点組に含まれた頻度が閾値以上である前記第１の特徴量を、登録する登録用特徴量として選択する選択手段と、
前記選択手段により選択された登録用特徴量を登録する第２の登録手段と、
第３の画像から第３の特徴点を抽出する第３の特徴点抽出手段と、
前記第３の特徴点抽出手段により抽出された前記第３の特徴点から第３の特徴量を抽出する第３の特徴量抽出手段と、
前記第２の登録手段により登録された前記登録用特徴量と、前記第３の特徴量抽出手段により抽出された前記第３の特徴量とを比較し、前記第３の画像に含まれるモデル物体を検出する検出手段と
を含むことを特徴とする画像処理システム。
所定の画像に含まれるモデル物体を検出するときに用いられる登録用特徴量を学習し、登録する学習装置において、
第１の画像から第１の特徴点を抽出する第１の特徴点抽出手段と、
前記第１の特徴点抽出手段により抽出された前記第１の特徴点から第１の特徴量を抽出する第１の特徴量抽出手段と、
前記第１の特徴量抽出手段により抽出された前記第１の特徴量を登録する第１の登録手段と、
第２の画像から第２の特徴点を抽出する第２の特徴点抽出手段と、
前記第２の特徴点抽出手段により抽出された前記第２の特徴点から第２の特徴量を抽出する第２の特徴量抽出手段と、
前記第１の登録手段により登録された前記第１の特徴量と、前記第２の特徴量抽出手段により抽出された前記第２の特徴量を比較し、類似する特徴量を有する特徴点の組としての候補対応特徴点組を生成する生成手段と、
前記第１の特徴量から、前記生成手段により生成された候補対対応特徴点組に含まれた頻度が閾値以上である前記第１の特徴量を、登録する登録用特徴量として選択する選択手段と
を含むことを特徴とする学習装置。
前記第２の画像には、前記第１の画像に含まれるモデル画像が必ず含まれている
ことを特徴とする請求項２に記載の学習装置。
前記第１の特徴点抽出手段と前記第１の特徴点抽出手段が抽出処理を実行するときに用いるパラメータは、無効を示す値に設定される
ことを特徴とする請求項２に記載の学習装置。
前記第２の画像は、所定の画像をデジタル処理することにより生成された画像である
ことを特徴とする請求項２に記載の学習装置。
前記デジタル処理は、拡大縮小変換、回転変換、相似変換、アフィン変換、投射変換、ノイズ付加、明度変化、シャープネス変化、ぼかし付加、及び、それらの画像変換の組み合わせのうちのいずれか１つの処理である
ことを特徴とする請求項５に記載の学習装置。
所定の画像に含まれるモデル物体を検出するときに用いられる登録用特徴量を学習し、登録する学習装置の学習方法において、
第１の画像から第１の特徴点を抽出する第１の特徴点抽出ステップと、
前記第１の特徴点抽出ステップの処理で抽出された前記第１の特徴点から第１の特徴量を抽出する第１の特徴量抽出ステップと、
前記第１の特徴量抽出ステップの処理で抽出された前記第１の特徴量を登録する第１の登録ステップと、
第２の画像から第２の特徴点を抽出する第２の特徴点抽出ステップと、
前記第２の特徴点抽出ステップの処理で抽出された前記第２の特徴点から第２の特徴量を抽出する第２の特徴量抽出ステップと、
前記第１の登録ステップの処理で登録された前記第１の特徴量と、前記第２の特徴量抽出ステップにより抽出された前記第２の特徴量を比較し、類似する特徴量を有する特徴点の組としての候補対応特徴点組を生成する生成ステップと、
前記第１の特徴量から、前記生成ステップの処理で生成された候補対対応特徴点組に含まれた頻度が閾値以上である前記第１の特徴量を、登録する登録用特徴量として選択する選択ステップと
を含むことを特徴とする学習方法。
所定の画像に含まれるモデル物体を検出するときに用いられる登録用特徴量を学習し、登録する学習装置を制御するコンピュータが読み取り可能なプログラムにおいて、
第１の画像から第１の特徴点を抽出する第１の特徴点抽出ステップと、
前記第１の特徴点抽出ステップの処理で抽出された前記第１の特徴点から第１の特徴量を抽出する第１の特徴量抽出ステップと、
前記第１の特徴量抽出ステップの処理で抽出された前記第１の特徴量を登録する第１の登録ステップと、
第２の画像から第２の特徴点を抽出する第２の特徴点抽出ステップと、
前記第２の特徴点抽出ステップの処理で抽出された前記第２の特徴点から第２の特徴量を抽出する第２の特徴量抽出ステップと、
前記第１の登録ステップの処理で登録された前記第１の特徴量と、前記第２の特徴量抽出ステップにより抽出された前記第２の特徴量を比較し、類似する特徴量を有する特徴点の組としての候補対応特徴点組を生成する生成ステップと、
前記第１の特徴量から、前記生成ステップの処理で生成された候補対対応特徴点組に含まれた頻度が閾値以上である前記第１の特徴量を、登録する登録用特徴量として選択する選択ステップと
を含むことを特徴とするコンピュータが読み取り可能なプログラム。