JP4596253B2

JP4596253B2 - 画像処理システム、学習装置および方法、画像認識装置および方法、記録媒体、並びにプログラム

Info

Publication number: JP4596253B2
Application number: JP2005158498A
Authority: JP
Inventors: 順横野
Original assignee: Sony Corp
Current assignee: Sony Corp
Priority date: 2005-05-31
Filing date: 2005-05-31
Publication date: 2010-12-08
Anticipated expiration: 2025-05-31
Also published as: JP2006338082A

Description

本発明は、画像処理システム、学習装置および方法、画像認識装置および方法、記録媒体、並びにプログラムに関し、特に、簡単な学習処理で画像における認識対象を高い精度で認識できるようにした画像処理システム、学習装置および方法、画像認識装置および方法、記録媒体、並びにプログラムに関する。

画像処理による物体認識(Object Recognition)技術は、広く一般に普及しており、特に、最近の10年で飛躍的に向上している。

最近の物体認識技術においては、画像がいくつかの小さい領域、すなわち、“局所領域”(local region)に分けられ、その局所領域の何らかの特徴情報（局所情報）に基づいて、物体を認識するという方法が、一般的なものとなりつつある。この局所領域という表現は、研究者により、”local descriptor”，“component”，“parts”、または“fragments”のように様々に称されることがある。

特徴情報としては、例えば、1999年 David Loweにより提案されたSIFT特徴量が挙げられる。このSIFT特徴量は、回転・スケールに対して不変な局所情報であるため、複雑な背景でロバストかつ高速な物体認識を可能にした。Loweの研究に端を発して、学会では、Local Featureを用いた物体認識システムに関する関心が集まっている。

例えば、“一発（One-shot）”学習と呼ばれる、画像一枚からの物体認識の学習を行う手法が提案されている（非特許文献１参照）。

また、画素のヒストグラムを用いて、物体を認識させる方法が提案されている（非特許文献２参照）

さらに、Haar特徴量（非特許文献３参照）と称される物体認識に用いられる特徴量を用いて、従来用いられていたSVM（Support Vector Machine）による識別ではなく、AdaBoostと呼ばれる統計学習機械による識別で、性能は従来と同等で、計算時間を高速にする方法が提案されている（非特許文献４）。

ここで、AdaBoostとは、“ランダムよりも少し良い弱い識別器”（WeakLearnerとも称する）を多数組み合わせることで、“強い識別器”を構築できるとする理論であり、1996年に、Freundらによって提案されているものである（非特許文献５）。

また、輝度画像のパッチ（小領域）の場所とサイズを様々に変化させ、認識に良いものを選ぶという顔検出・認識システムも提案されている（非特許文献６参照）。

さらに、やはり、輝度画像の小領域を特徴量として用い、それらの相関値を識別器への入力特徴量として、Boostingで学習させる際に、”grid”と呼ばれる、幾何学的拘束を与えることで、識別能力を向上させるものが提案されている（非特許文献７）。

また、学習画像から、Local Featureを集めて、”Bag”の中に入れ、そこから学習用の特徴量を計算することで、識別器を学習させるものが提案されている（非特許文献８参照）。

D. G. Lowe."Object recognition from local scale-invariant features". In ICCV, pp. 11501157, 1999 Schneiderman, H. and Kanade, T."A statistical approach to 3d object detection applied to faces and cars". Proceedings of the IEEE Computer Society Conference on Computer Vision and Pattern Recognition (CVPR), pages 746--751, Hilton Head Island, South Carolina, June 2000 Papageorgiou, C., M. Oren, and T. Poggio."A General Framework for Object Detection".In: Proceedings of the Sixth International Conference on Computer Vision (ICCV'98), Bombay, India, 555-562, January 1998. Paul Viola and Michael J. Jones."Robust real-time object detection".Technical Report CRL 2001. Y. Freund, R. Schapire,"Experiments with a new boosting algorithm". IEEE Int. Conf. On Machine Learning, pp.148-156, 1996 Heisele, B., P. Ho, J. Wu and T. Poggio."Face Recognition: Component-based versus Global Approaches".Computer Vision and Image Understanding, Vol. 91, No. 1/2, 6-21, 2003. C. Morgenstern and B.Heisele,"Component Based Recognition of Objects in an Office Environment",AI Memo No.2003-024, CBCL Memo No.232, MIT Center of Biological and Computational Learning, 2003 Gabriela Csurka, Cedric Bray, Chris Dance, Lixin Fan."Visual categorization with bags of keypoints", ECCV 2004

しかしながら、非特許文献１に開示されている一発学習においては、当然のことながら、統計的に物体を認識するのに有意な特徴量を選ぶことが必ずしもできない。つまり、例えば、100枚の学習画像があった場合、一発学習では、全ての画像を保持しておいて、それら全てとマッチングする必要があり、また、保持しておかなければならない特徴量の数も膨大なものとなってしまう。さらに、一発学習では、特徴量の選択が“汎化（Generalization）”されていないため、認識に限界がある。

また、非特許文献２で提案されている手法は、“Categorization”（分類）であって、本発明の”Identification“（識別）とは異なるものである。”Identification”は、あるカテゴリにおいて特定の実例を示すものである。例えば、“顔”ではなく、“ジェリーさんの顔”のようなものを示す。また、非特許文献２の手法は、ヒストグラムにより、画素の位置と輝度の分布を計算するので、大量の学習データが必要となる。さらに、非特許文献２の手法は、回転に対しては不変ではなく、正面顔の検出に対してよい結果を示すものの、統計学習に十分なほどのデータ量が得られない。結果として、ヒストグラムを用いた非特許文献２で提案されている手法では、一発学習は、困難である。

さらに、非特許文献３の手法では、AdaboostによるBoostingのフレームワークを用いて、大量にあるHaar特徴量の中から、学習時に、有意な特徴量を選択し、それをカスケード接続することで、大幅な計算時間の短縮を可能にしている。しかしながら、Haar特徴量による個々の識別器の識別能力が弱いため、一発学習は困難である。

また、非特許文献６の手法では、輝度画像というWeakな特徴情報（識別能力の低い特徴情報）を用いているため、学習に時間がかかる。また、当然、輝度画像というWeakな特徴情報は回転に対しては不変ではないので識別器としての能力も低く、加えて一発学習も困難である。

さらに、非特許文献７の手法においては、当然のことながら、幾何学的拘束が与えられることになるので、回転に対しては不変ではない。さらには、Grid上にパターンがない場合でも、その周辺でパターンを探すので、認識できる物体のパターンが限られてしまう。

また、非特許文献１乃至８の手法では、識別しようとする物体の数が増えるに従い、モデルの数が増え、当然、特徴量の数も増加する。このため、学習に時間が掛かってしまう（当然のことながら一発学習は困難である）。また、これらの手法では、視点の変化や、少し異なるが、同じラベルを振りたい物体が存在する場合、対応できない。

本発明はこのような状況に鑑みてなされたものであり、特に、簡単な学習処理により、高い精度で画像認識を可能にするものである。

本発明の画像処理システムは、学習装置が、認識対象を含む画像のみからなる学習用モデル画像より複数の第１の特徴点を抽出する第１の特徴点抽出手段と、第１の特徴点抽出手段により抽出された複数の第１の特徴点より、それぞれ第１の特徴量を抽出する第１の特徴量抽出手段と、所定の位置関係を有する、少なくとも２個以上の第１の特徴点の第１の特徴量を合わせて、複数の第１の特徴情報を生成する第１の特徴情報生成手段と、認識対象を含む画像と含まない画像とからなる学習用入力画像より複数の第２の特徴点を抽出する第２の特徴点抽出手段と、第２の特徴点抽出手段により抽出された複数の第２の特徴点より、それぞれ第２の特徴量を抽出する第２の特徴量抽出手段と、所定の位置関係を有する、少なくとも２個以上の第２の特徴点の第２の特徴量を合わせて、複数の第２の特徴情報を生成する第２の特徴情報生成手段と、複数の第１の特徴情報のそれぞれについて、複数の第２の特徴情報のうち、最も相関の高い第２の特徴情報を選択する第１の選択手段と、第１の選択手段により選択された第２の特徴情報を用いた統計学習により認識対象を認識する認識器を生成する認識器生成手段とを含み、画像認識装置が、認識用入力画像より複数の第３の特徴点を抽出する第３の特徴点抽出手段と、第３の特徴点抽出手段により抽出された複数の第３の特徴点より、それぞれ第３の特徴量を抽出する第３の特徴量抽出手段と、所定の位置関係を有する、少なくとも２個以上の第３の特徴点の第３の特徴量を合わせて、複数の第３の特徴情報を生成する第３の特徴情報生成手段と、複数の第１の特徴情報のそれぞれについて、複数の第３の特徴情報のうち、最も相関の高い第３の特徴情報を選択する第２の選択手段と、認識器を用いて、第２の選択手段により選択された第３の特徴情報に基づいて、認識用入力画像における認識対象の有無を認識する認識手段とを含むことを特徴とする。

本発明の学習装置は、認識対象を含む画像のみからなる学習用モデル画像より複数の第１の特徴点を抽出する第１の特徴点抽出手段と、第１の特徴点抽出手段により抽出された複数の第１の特徴点より、それぞれ第１の特徴量を抽出する第１の特徴量抽出手段と、所定の位置関係を有する、少なくとも２個以上の第１の特徴点の第１の特徴量を合わせて、複数の第１の特徴情報を生成する第１の特徴情報生成手段と、認識対象を含む画像と含まない画像とからなる学習用入力画像より複数の第２の特徴点を抽出する第２の特徴点抽出手段と、第２の特徴点抽出手段により抽出された複数の第２の特徴点より、それぞれ第２の特徴量を抽出する第２の特徴量抽出手段と、所定の位置関係を有する、少なくとも２個以上の第２の特徴点の第２の特徴量を合わせて、複数の第２の特徴情報を生成する第２の特徴情報生成手段と、複数の第１の特徴情報のそれぞれについて、複数の第２の特徴情報のうち、最も相関の高い第２の特徴情報を選択する選択手段と、選択手段により選択された第２の特徴情報を用いた統計学習により認識対象を認識する認識器を生成する認識器生成手段とを含むことを特徴とする。

前記第１および第２の特徴量は、回転不変な局所画像情報とするようにすることができる。

前記第１および第２の特徴量は、ステアラブルフィルタにより得られる回転不変な局所画像情報とするようにすることができる。

前記第１および第２の特徴情報生成手段には、第１または第２の特徴点間の所定の幾何学的な位置関係を有する、少なくとも２個以上の第１または第２の特徴点の第１または第２の特徴量を合わせて、複数の第１または第２の特徴情報を生成させるようにすることができる。

前記第１および第２の特徴情報生成手段には、第１または第２の特徴量に含まれる主方向に基づいて設定される、第１または第２の特徴点間の所定の幾何学的な位置関係を有する、少なくとも２個以上の第１または第２の特徴点の第１または第２の特徴量を合わせて、複数の第１または第２の特徴情報を生成させるようにすることができる。

前記第１および第２の特徴情報生成手段には、第１または第２の特徴点間のランダムに設定される幾何学的な位置関係を有する、少なくとも２個以上の第１または第２の特徴点の第１または第２の特徴量を合わせて、複数の第１または第２の特徴情報を生成させるようにすることができる。

前記統計学習は、ブースティング学習とするようにさせることができる。

本発明の学習方法は、認識対象を含む画像のみからなる学習用モデル画像より複数の第１の特徴点を抽出する第１の特徴点抽出ステップと、第１の特徴点抽出ステップの処理により抽出された複数の第１の特徴点より、それぞれ第１の特徴量を抽出する第１の特徴量抽出ステップと、所定の位置関係を有する、少なくとも２個以上の第１の特徴点の第１の特徴量を合わせて、複数の第１の特徴情報を生成する第１の特徴情報生成ステップと、認識対象を含む画像と含まない画像とからなる学習用入力画像より複数の第２の特徴点を抽出する第２の特徴点抽出ステップと、第２の特徴点抽出ステップの処理により抽出された複数の第２の特徴点より、それぞれ第２の特徴量を抽出する第２の特徴量抽出ステップと、所定の位置関係を有する、少なくとも２個以上の第２の特徴点の第２の特徴量を合わせて、複数の第２の特徴情報を生成する第２の特徴情報生成ステップと、複数の第１の特徴情報のそれぞれについて、複数の第２の特徴情報のうち、最も相関の高い第２の特徴情報を選択する選択ステップと、選択ステップの処理により選択された第２の特徴情報を用いた統計学習により認識対象を認識する認識器を生成する認識器生成ステップとを含むことを特徴とする。

本発明の第１の記録媒体のプログラムは、認識対象を含む画像のみからなる学習用モデル画像より複数の第１の特徴点を抽出する第１の特徴点抽出ステップと、第１の特徴点抽出ステップの処理により抽出された複数の第１の特徴点より、それぞれ第１の特徴量を抽出する第１の特徴量抽出ステップと、所定の位置関係を有する、少なくとも２個以上の第１の特徴点の第１の特徴量を合わせて、複数の第１の特徴情報を生成する第１の特徴情報生成ステップと、認識対象を含む画像と含まない画像とからなる学習用入力画像より複数の第２の特徴点を抽出する第２の特徴点抽出ステップと、第２の特徴点抽出ステップの処理により抽出された複数の第２の特徴点より、それぞれ第２の特徴量を抽出する第２の特徴量抽出ステップと、所定の位置関係を有する、少なくとも２個以上の第２の特徴点の第２の特徴量を合わせて、複数の第２の特徴情報を生成する第２の特徴情報生成ステップと、複数の第１の特徴情報のそれぞれについて、複数の第２の特徴情報のうち、最も相関の高い第２の特徴情報を選択する選択ステップと、選択ステップの処理により選択された第２の特徴情報を用いた統計学習により認識対象を認識する認識器を生成する認識器生成ステップとを含むことを特徴とする。

本発明の第１のプログラムは、認識対象を含む画像のみからなる学習用モデル画像より複数の第１の特徴点を抽出する第１の特徴点抽出ステップと、第１の特徴点抽出ステップの処理により抽出された複数の第１の特徴点より、それぞれ第１の特徴量を抽出する第１の特徴量抽出ステップと、所定の位置関係を有する、少なくとも２個以上の第１の特徴点の第１の特徴量を合わせて、複数の第１の特徴情報を生成する第１の特徴情報生成ステップと、認識対象を含む画像と含まない画像とからなる学習用入力画像より複数の第２の特徴点を抽出する第２の特徴点抽出ステップと、第２の特徴点抽出ステップの処理により抽出された複数の第２の特徴点より、それぞれ第２の特徴量を抽出する第２の特徴量抽出ステップと、所定の位置関係を有する、少なくとも２個以上の第２の特徴点の第２の特徴量を合わせて、複数の第２の特徴情報を生成する第２の特徴情報生成ステップと、複数の第１の特徴情報のそれぞれについて、複数の第２の特徴情報のうち、最も相関の高い第２の特徴情報を選択する選択ステップと、選択ステップの処理により選択された第２の特徴情報を用いた統計学習により認識対象を認識する認識器を生成する認識器生成ステップとを含む処理をコンピュータに実行させることを特徴とする。

本発明の画像認識装置は、認識用入力画像より複数の第１の特徴点を抽出する第１の特徴点抽出手段と、第１の特徴点抽出手段により抽出された複数の第１の特徴点より、それぞれ第１の特徴量を抽出する第１の特徴量抽出手段と、所定の位置関係を有する、少なくとも２個以上の第１の特徴点の第１の特徴量を合わせて、複数の第１の特徴情報を生成する第１の特徴情報生成手段と、認識対象を含む画像のみからなる学習用モデル画像より抽出された、所定の位置関係を有する、少なくとも２個以上の第２の特徴点の第２の特徴量を合わせた複数の第２の特徴情報のそれぞれについて、最も相関の高い第１の特徴情報を選択する選択手段と、複数の第２の特徴情報のそれぞれについて、最も相関の高い、認識対象を含む画像と含まない画像からなる学習用入力画像より抽出された、所定の位置関係を有する、少なくとも２個以上の第３の特徴点の第３の特徴量を合わせた複数の第３の特徴情報を用いた統計学習により生成される認識器を用いて、選択手段により選択された第１の特徴情報に基づいて、認識用入力画像における認識対象の有無を認識する認識手段とを含むことを特徴とする。

本発明の認識方法は、認識用入力画像より複数の第１の特徴点を抽出する第１の特徴点抽出ステップと、第１の特徴点抽出ステップの処理により抽出された複数の第１の特徴点より、それぞれ第１の特徴量を抽出する第１の特徴量抽出ステップと、所定の位置関係を有する、少なくとも２個以上の第１の特徴点の第１の特徴量を合わせて、複数の第１の特徴情報を生成する第１の特徴情報生成ステップと、認識対象を含む画像のみからなる学習用モデル画像より抽出された、所定の位置関係を有する、少なくとも２個以上の第２の特徴点の第２の特徴量を合わせた複数の第２の特徴情報のそれぞれについて、最も相関の高い第１の特徴情報を選択する選択ステップと、複数の第２の特徴情報のそれぞれについて、最も相関の高い、認識対象を含む画像と含まない画像からなる学習用入力画像より抽出された、所定の位置関係を有する、少なくとも２個以上の第３の特徴点の第３の特徴量を合わせた複数の第３の特徴情報を用いた統計学習により生成される認識器を用いて、選択ステップの処理により選択された第１の特徴情報に基づいて、認識用入力画像における認識対象の有無を認識する認識ステップとを含むことを特徴とする。

本発明の第２の記録媒体のプログラムは、認識用入力画像より複数の第１の特徴点を抽出する第１の特徴点抽出ステップと、第１の特徴点抽出ステップの処理により抽出された複数の第１の特徴点より、それぞれ第１の特徴量を抽出する第１の特徴量抽出ステップと、所定の位置関係を有する、少なくとも２個以上の第１の特徴点の第１の特徴量を合わせて、複数の第１の特徴情報を生成する第１の特徴情報生成ステップと、認識対象を含む画像のみからなる学習用モデル画像より抽出された、所定の位置関係を有する、少なくとも２個以上の第２の特徴点の第２の特徴量を合わせた複数の第２の特徴情報のそれぞれについて、最も相関の高い第１の特徴情報を選択する選択ステップと、複数の第２の特徴情報のそれぞれについて、最も相関の高い、認識対象を含む画像と含まない画像からなる学習用入力画像より抽出された、所定の位置関係を有する、少なくとも２個以上の第３の特徴点の第３の特徴量を合わせた複数の第３の特徴情報を用いた統計学習により生成される認識器を用いて、選択ステップの処理により選択された第１の特徴情報に基づいて、認識用入力画像における認識対象の有無を認識する認識ステップとを含むことを特徴とする。

本発明の第２のプログラムは、認識用入力画像より複数の第１の特徴点を抽出する第１の特徴点抽出ステップと、第１の特徴点抽出ステップの処理により抽出された複数の第１の特徴点より、それぞれ第１の特徴量を抽出する第１の特徴量抽出ステップと、所定の位置関係を有する、少なくとも２個以上の第１の特徴点の第１の特徴量を合わせて、複数の第１の特徴情報を生成する第１の特徴情報生成ステップと、認識対象を含む画像のみからなる学習用モデル画像より抽出された、所定の位置関係を有する、少なくとも２個以上の第２の特徴点の第２の特徴量を合わせた複数の第２の特徴情報のそれぞれについて、最も相関の高い第１の特徴情報を選択する選択ステップと、複数の第２の特徴情報のそれぞれについて、最も相関の高い、認識対象を含む画像と含まない画像からなる学習用入力画像より抽出された、所定の位置関係を有する、少なくとも２個以上の第３の特徴点の第３の特徴量を合わせた複数の第３の特徴情報を用いた統計学習により生成される認識器を用いて、選択ステップの処理により選択された第１の特徴情報に基づいて、認識用入力画像における認識対象の有無を認識する認識ステップとを含む処理をコンピュータに実行させることを特徴とする。

本発明の画像処理システムにおいては、学習装置により、認識対象を含む画像のみからなる学習用モデル画像より複数の第１の特徴点が抽出され、り抽出された複数の第１の特徴点より、それぞれ第１の特徴量が抽出され、所定の位置関係を有する、少なくとも２個以上の第１の特徴点の第１の特徴量が合わせられて、複数の第１の特徴情報が生成され、認識対象を含む画像と含まない画像とからなる学習用入力画像より複数の第２の特徴点が抽出され、抽出された複数の第２の特徴点より、それぞれ第２の特徴量が抽出され、所定の位置関係を有する、少なくとも２個以上の第２の特徴点の第２の特徴量が合わせられて、複数の第２の特徴情報が生成され、複数の第１の特徴情報のそれぞれについて、複数の第２の特徴情報のうち、最も相関の高い第２の特徴情報が選択され、選択された第２の特徴情報が用いられた統計学習により認識対象を認識する認識器が生成され、画像認識装置により、認識用入力画像より複数の第３の特徴点が抽出され、抽出された複数の第３の特徴点より、それぞれ第３の特徴量が抽出され、所定の位置関係を有する、少なくとも２個以上の第３の特徴点の第３の特徴量が合わせられて、複数の第３の特徴情報が生成され、複数の第１の特徴情報のそれぞれについて、複数の第３の特徴情報のうち、最も相関の高い第３の特徴情報が選択され、認識器が用いられて、選択された第３の特徴情報に基づいて、認識用入力画像における認識対象の有無が認識される。

本発明の学習装置においては、認識対象を含む画像のみからなる学習用モデル画像より複数の第１の特徴点が抽出され、抽出された複数の第１の特徴点より、それぞれ第１の特徴量が抽出され、所定の位置関係を有する、少なくとも２個以上の第１の特徴点の第１の特徴量が合わせられて、複数の第１の特徴情報が生成され、認識対象を含む画像と含まない画像とからなる学習用入力画像より複数の第２の特徴点が抽出され、抽出された複数の第２の特徴点より、それぞれ第２の特徴量が抽出され、所定の位置関係を有する、少なくとも２個以上の第２の特徴点の第２の特徴量が合わせられて、複数の第２の特徴情報が生成され、複数の第１の特徴情報のそれぞれについて、複数の第２の特徴情報のうち、最も相関の高い第２の特徴情報が選択され、選択された第２の特徴情報が用いられた統計学習により認識対象を認識する認識器が生成される。

本発明の画像認識装置においては、認識用入力画像より複数の第１の特徴点が抽出され、抽出された複数の第１の特徴点より、それぞれ第１の特徴量が抽出され、所定の位置関係を有する、少なくとも２個以上の第１の特徴点の第１の特徴量が合わせられて、複数の第１の特徴情報が生成され、認識対象を含む画像のみからなる学習用モデル画像より抽出された、所定の位置関係を有する、少なくとも２個以上の第２の特徴点の第２の特徴量が合わせられた複数の第２の特徴情報のそれぞれについて、最も相関の高い第１の特徴情報が選択され、複数の第２の特徴情報のそれぞれについて、最も相関の高い、認識対象を含む画像と含まない画像からなる学習用入力画像より抽出された、所定の位置関係を有する、少なくとも２個以上の第３の特徴点の第３の特徴量が合わせられた複数の第３の特徴情報が用いられた統計学習により生成される認識器が用いられて、選択された第１の特徴情報に基づいて、認識用入力画像における認識対象の有無が認識される。

本発明の学習装置または画像認識装置は、独立した装置であっても良いし、学習処理または認識処理を行うブロックであっても良い。

本発明によれば、簡単な学習処理で認識対象を高い精度で認識することが可能となる。

以下に本発明の実施の形態を説明するが、本明細書に記載の発明と、発明の実施の形態との対応関係を例示すると、次のようになる。この記載は、本明細書に記載されている発明をサポートする実施の形態が本明細書に記載されていることを確認するためのものである。従って、発明の実施の形態中には記載されているが、発明に対応するものとして、ここには記載されていない実施の形態があったとしても、そのことは、その実施の形態が、その発明に対応するものではないことを意味するものではない。逆に、実施の形態が発明に対応するものとしてここに記載されていたとしても、そのことは、その実施の形態が、その発明以外の発明には対応しないものであることを意味するものでもない。

さらに、この記載は、本明細書に記載されている発明の全てを意味するものではない。換言すれば、この記載は、本明細書に記載されている発明であって、この出願では請求されていない発明の存在、すなわち、将来、分割出願されたり、補正により出現、追加される発明の存在を否定するものではない。

即ち、本発明の学習装置は、認識対象を含む画像のみからなる学習用モデル画像より複数の第１の特徴点を抽出する第１の特徴点抽出手段（例えば、図１の特徴点抽出部１１）と、第１の特徴点抽出手段により抽出された複数の第１の特徴点より、それぞれ第１の特徴量を抽出する第１の特徴量抽出手段（例えば、図１の特徴量抽出部１２）と、所定の位置関係を有する、少なくとも２個以上の第１の特徴点の第１の特徴量を合わせて、複数の第１の特徴情報を生成する第１の特徴情報生成手段（例えば、図１の特徴点ペアリング部１３）と、認識対象を含む画像と含まない画像とからなる学習用入力画像より複数の第２の特徴点を抽出する第２の特徴点抽出手段（例えば、図１の特徴点抽出部１５）と、第２の特徴点抽出手段により抽出された複数の第２の特徴点より、それぞれ第２の特徴量を抽出する第２の特徴量抽出手段（例えば、図１の特徴量抽出部１６）と、所定の位置関係を有する、少なくとも２個以上の第２の特徴点の第２の特徴量を合わせて、複数の第２の特徴情報を生成する第２の特徴情報生成手段（例えば、図１の特徴点ペアリング部１７）と、複数の第１の特徴情報のそれぞれについて、複数の第２の特徴情報のうち、最も相関の高い第２の特徴情報を選択する選択手段（例えば、図１の特徴量選択部１８）と、選択手段により選択された第２の特徴情報を用いた統計学習により認識対象を認識する認識器を生成する認識器生成手段（例えば、図１の認識器生成部１９）とを含むことを特徴とする。

本発明の学習方法は、認識対象を含む画像のみからなる学習用モデル画像より複数の第１の特徴点を抽出する第１の特徴点抽出ステップ（例えば、図９のフローチャートにおけるステップＳ１の処理）と、第１の特徴点抽出ステップの処理により抽出された複数の第１の特徴点より、それぞれ第１の特徴量を抽出する第１の特徴量抽出ステップ（例えば、図９のフローチャートにおけるステップＳ２の処理）と、所定の位置関係を有する、少なくとも２個以上の第１の特徴点の第１の特徴量を合わせて、複数の第１の特徴情報を生成する第１の特徴情報生成ステップ（例えば、図９のフローチャートにおけるステップＳ３の処理）と、認識対象を含む画像と含まない画像とからなる学習用入力画像より複数の第２の特徴点を抽出する第２の特徴点抽出ステップ（例えば、図９のフローチャートにおけるステップＳ５の処理）と、第２の特徴点抽出ステップの処理により抽出された複数の第２の特徴点より、それぞれ第２の特徴量を抽出する第２の特徴量抽出ステップ（例えば、図９のフローチャートにおけるステップＳ６の処理）と、所定の位置関係を有する、少なくとも２個以上の第２の特徴点の第２の特徴量を合わせて、複数の第２の特徴情報を生成する第２の特徴情報生成ステップ（例えば、図９のフローチャートにおけるステップＳ７の処理）と、複数の第１の特徴情報のそれぞれについて、複数の第２の特徴情報のうち、最も相関の高い第２の特徴情報を選択する選択ステップ（例えば、図９のフローチャートにおけるステップＳ８の処理）と、選択ステップの処理により選択された第２の特徴情報を用いた統計学習により認識対象を認識する認識器を生成する認識器生成ステップ（例えば、図９のフローチャートにおけるステップＳ９の処理）とを含むことを特徴とする。

本発明の画像認識装置は、認識用入力画像より複数の第１の特徴点を抽出する第１の特徴点抽出手段（例えば、図１の特徴点抽出部３１）と、第１の特徴点抽出手段により抽出された複数の第１の特徴点より、それぞれ第１の特徴量を抽出する第１の特徴量抽出手段（例えば、図１の特徴量抽出部３２）と、所定の位置関係を有する、少なくとも２個以上の第１の特徴点の第１の特徴量を合わせて、複数の第１の特徴情報を生成する第１の特徴情報生成手段（例えば、図１の特徴点ペアリング部３３）と、認識対象を含む画像のみからなる学習用モデル画像より抽出された、所定の位置関係を有する、少なくとも２個以上の第２の特徴点の第２の特徴量を合わせた複数の第２の特徴情報のそれぞれについて（認識用特徴量記憶部３に記憶されている特徴量のそれぞれについて）、最も相関の高い第１の特徴情報を選択する選択手段（例えば、図１の特徴量選択部３４）と、複数の第２の特徴情報のそれぞれについて、最も相関の高い、認識対象を含む画像と含まない画像からなる学習用入力画像より抽出された、所定の位置関係を有する、少なくとも２個以上の第３の特徴点の第３の特徴量を合わせた複数の第３の特徴情報を用いた統計学習により生成される認識器（例えば、認識器記憶部４に記憶されている認識器）を用いて、選択手段により選択された第１の特徴情報に基づいて、認識用入力画像における認識対象の有無を認識する認識手段（例えば、図１の認識計算部３５）とを含むことを特徴とする。

本発明の認識方法は、認識用入力画像より複数の第１の特徴点を抽出する第１の特徴点抽出ステップ（例えば、図１７のフローチャートにおけるステップＳ１２１の処理）と、第１の特徴点抽出ステップの処理により抽出された複数の第１の特徴点より、それぞれ第１の特徴量を抽出する第１の特徴量抽出ステップ（例えば、図１７のフローチャートにおけるステップＳ１２２の処理）と、所定の位置関係を有する、少なくとも２個以上の第１の特徴点の第１の特徴量を合わせて、複数の第１の特徴情報を生成する第１の特徴情報生成ステップ（例えば、図１７のフローチャートにおけるステップＳ１２３の処理）と、認識対象を含む画像のみからなる学習用モデル画像より抽出された、所定の位置関係を有する、少なくとも２個以上の第２の特徴点の第２の特徴量を合わせた複数の第２の特徴情報のそれぞれについて、最も相関の高い第１の特徴情報を選択する選択ステップ（例えば、図１７のフローチャートにおけるステップＳ１２４の処理）と、複数の第２の特徴情報のそれぞれについて、最も相関の高い、認識対象を含む画像と含まない画像からなる学習用入力画像より抽出された、所定の位置関係を有する、少なくとも２個以上の第３の特徴点の第３の特徴量を合わせた複数の第３の特徴情報を用いた統計学習により生成される認識器を用いて、選択ステップの処理により選択された第１の特徴情報に基づいて、認識用入力画像における認識対象の有無を認識する認識ステップ（例えば、図１７のフローチャートにおけるステップＳ１２５の処理）とを含むことを特徴とする。

尚、記録媒体、および、プログラムについては、学習方法、および、画像認識装置と同様であるので、その説明は省略する。

図１は、本発明を適用した画像処理システムの一実施の形態の構成を示す図である。

本発明を適用した画像処理システムは、画像中の対象物体を認識させる、いわゆる画像認識処理を実現させるものである。

学習装置１は、認識しようとする対象物体が含まれている画像からなる複数の学習用モデル画像と、認識しようとする対象物体が含まれている画像、および対象物体が含まれていない画像のいずれもが含まれている複数の学習用入力画像とに基づいて、画像認識装置２による画像認識処理において必要とされる認識用特徴量と、認識器を生成し、それぞれ認識特徴量記憶部３、および認識器記憶部４に記憶させる。

画像認識装置２は、入力画像に基づいて、認識用特徴量記憶部３に記憶されている認識用特徴量と、認識器記憶部４に記憶されている認識器に基づいて、入力画像中に対象物体が存在するか否かを判定する。

学習装置１の特徴点抽出部１１は、例えば、Harris Corner Ditectorなどからなり、学習用モデル画像の各画素について、特徴を有する位置、すなわち、特徴点を抽出し、特徴量抽出部１２に供給する。

特徴量抽出部１２は、特徴点抽出部１１より供給される特徴点のそれぞれについて、ステアラブルフィルタと呼ばれるフィルタ処理により特徴量を抽出し、特徴点ペアリング部１３に供給する。尚、特徴量抽出部１２については、図２を参照して、詳細を後述する。

特徴点ペアリング部１３は、特徴量抽出部１２より供給される各特徴点毎の特徴量のうち、後述する主方向の情報に基づいて、２個の特徴点をペアリングし、それぞれの特徴量を１個の特徴量（以下、モデル特徴量とも称する）として、学習用モデル特徴量記憶部１４に記憶させる。尚、特徴点ペアリング部１３については、図５を参照して、詳細を後述する。

特徴点抽出部１５、特徴量抽出部１６、および特徴点ペアリング部１７は、学習用入力画像に対して、特徴点抽出部１１、特徴量抽出部１２、および特徴点ペアリング部１３と同様の処理を実行するものであるので、その説明は省略する。尚、特徴点ペアリング部１７が特徴量選択部１８に供給する、特徴量ペアリング部１７より供給されてくる学習用入力画像より抽出された２個の特徴点の特徴量がペアリングされた特徴量については、学習用入力特徴量とも称するものとする。

特徴量選択部１８は、学習用モデル特徴量記憶部１４に記憶されている、モデル特徴量毎に、最も相関の高い学習用入力特徴量を選択し、認識器生成部１９に供給する。尚、特徴量選択部１８については、図７を参照して、詳細を後述する。

尚、特徴点抽出部１１、特徴量抽出部１２、および特徴点ペアリング部１３は、複数の学習用モデル画像よりモデル特徴量を抽出して学習用モデル特徴量記憶部１４に記憶させる。この際、学習用モデル画像を区別することはない。一方、特徴量選択部１８は、学習用入力画像のそれぞれについて区別して学習用入力特徴量を選択して、認識器生成部１９に供給する。

認識器生成部１９は、モデル特徴量毎に、最も相関の高い学習用入力特徴量を用いて、（Adaboostによる）統計学習処理を実行し、対象物体を認識する認識器を生成し、認識器記憶部４に記憶させる。この際、認識器生成部１９は、認識器の学習の過程で、対象物体を認識するのに大きく影響するモデル特徴量のみを抽出し、認識用特徴量として認識用特徴量記憶部３に記憶させる。尚、認識器生成部１９については、図８を参照して、詳細を後述する。

特徴点抽出部３１、特徴量抽出部３２、および特徴点ペアリング部３３は、対象物体を認識しようとする入力画像に対して、特徴点抽出部１１、特徴量抽出部１２、および特徴点ペアリング部１３と同様の処理を実行するものであるので、その説明は省略する。尚、特徴点ペアリング部３３が特徴量選択部３４に供給する、特徴量ペアリング部３３より供給されてくる入力画像より抽出された２個の特徴点の特徴量がペアリングされた特徴量については、入力特徴量とも称するものとする。

特徴量選択部３４は、基本的に特徴量選択部１８と同様であり、すなわち、認識用特徴量記憶部３に記憶されている、認識用特徴量毎に、最も相関の高い入力特徴量を選択し、認識計算部３５に供給する。

認識計算部３５は、認識器記憶部４に記憶されている認識器を読み出し、特徴量選択部３４より供給されてくる入力特徴量に基づいて計算し、計算結果を認識結果出力部３６に供給する。認識結果出力部３６は、認識計算部３５より供給される認識結果に基づいて、対象物体が入力画像で認識されたか否かの認識結果を出力する。

次に、図２を参照して、特徴量抽出部１２について説明する。１次フィルタ処理部５１は、特徴点抽出部１１より供給されてくる特徴点ごとに、ガウシアン関数Gの１次導関数G₁によりフィルタ処理を施し特徴量を抽出する。より詳細には、１次フィルタ処理部５１は、図３で示されるように、処理しようとする特徴点の画素が、注目画素Ｊ₁である場合、注目画素Ｊ₁と、注目画素Ｊ₁に対して水平方向に５画素、および垂直方向に５画素だけ離れている画素Ｊ₂乃至Ｊ₅のそれぞれに対して、以下の式（１）で示されるようなガウシアン関数Gの１次導関数G₁を用いたフィルタ処理を施し、特徴量生成部５５に供給する。さらに、１次フィルタ処理部５１は、以下の式（２）で示されるガウス関数Gのガウス幅σを３個の所定値（例えば、ガウス幅σ₁，σ₂，σ₃＝１，２，４）に変化させて、それぞれのガウス幅σについてのフィルタ処理結果を特徴量生成部５５に供給する。

・・・（１）

ここで、θは、任意の角度であり、１次フィルタ処理部５１は、所定の４方向（例えば、θ＝θ₁，θ₂，θ₃，θ₄）について、式（１）を計算する。また、関数Gは、以下の式（２）で示されるガウス関数である。

・・・（２）

さらに、ここで、σは、ガウス幅を示す。

２次フィルタ処理部５２は、特徴点抽出部１１より供給されてくる特徴点ごとに、ガウシアン関数Gの２次導関数G₂によりフィルタ処理を施し特徴量を抽出する。より詳細には、２次フィルタ処理部５２は、図３で示されるように、処理しようとする特徴点の画素が、注目画素Ｊ₁である場合、注目画素Ｊ₁と、注目画素Ｊ₁に対して水平方向に５画素、および垂直方向に５画素だけ離れている参照画素Ｊ₂乃至Ｊ₅のそれぞれに対して、以下の式（３）で示されるようなガウシアン関数Gの２次導関数G₂を用いたフィルタ処理を施し特徴量生成部５５に供給する。さらに、２次フィルタ処理部５２は、ガウス幅σを３個の所定値（例えば、ガウス幅σ₁，σ₂，σ₃＝１，２，４）に変化させて、それぞれのガウス幅σについてのフィルタ処理結果を特徴量生成部５５に供給する。

・・・（３）

ここで、θは、上述と同様に任意の角度であり、２次フィルタ処理部５２は、所定の４方向（例えば、θ＝θ₁，θ₂，θ₃，θ₄）について、式（３）を計算する。また、係数k_2i（ｉ＝１，２，３：k₂₁，k₂₂，k₂₃）は、以下の式（４）で示される関数である。

・・・（４）

３次フィルタ処理部５３は、特徴点抽出部１１より供給されてくる特徴点ごとに、ガウシアン関数Gの３次導関数G₃によりフィルタ処理を施し特徴量を抽出する。より詳細には、３次フィルタ処理部５３は、図３で示されるように、処理しようとする特徴点の画素が、注目画素Ｊ₁である場合、注目画素Ｊ₁と、注目画素Ｊ₁に対して水平方向に５画素、および垂直方向に５画素だけ離れている参照画素Ｊ₂乃至Ｊ₅のそれぞれに対して、以下の式（５）で示されるようなガウシアン関数Gの３次導関数G₃を用いたフィルタ処理を施し特徴量生成部５５に供給する。さらに、３次フィルタ処理部５２は、ガウス幅σを３個の所定値（例えば、ガウス幅σ₁，σ₂，σ₃＝１，２，４）に変化させて、それぞれのガウス幅σについてのフィルタ処理結果を特徴量生成部５５に供給する。

・・・（５）

ここで、θは、上述と同様に任意の角度であり、３次フィルタ処理部５３は、所定の４方向（例えば、θ＝θ₁，θ₂，θ₃，θ₄）について、式（５）を計算する。また、係数k_3i（ｉ＝１，２，３：k₃₁，k₃₂，k₃₃）は、以下の式（６）で示される関数である。

・・・（６）

主方向計算部５４は、特徴点抽出部１１より供給されてくる特徴点ごとに、上述した３個の所定値であるガウス幅σの最大値のガウシアン関数Gのｘ方向とｙ方向の１次導関数G_x，G_yを求め、特徴点における主方向α（＝atan（G_y／G_x））を計算し、特徴量生成部５５に供給する。すなわち、特徴量の主方向αは、ガウシアン関数Gのｘ方向とｙ方向の１次導関数G_x，G_yにより決定される値である。従って、特徴点における図４の左部で示されるように、注目画素Ｊ₁に対して参照画素Ｊ₂乃至Ｊ₅が、水平方向および垂直方向に対して平行で、かつ等距離に配置された状態で主方向が角度αである場合、図４の右部で示されるように、注目画素Ｊ₁に対して参照画素Ｊ₂乃至Ｊ₅が、それぞれ角度αだけ回転移動するようなことがあっても、主方向はαから２αとなるだけである。従って、特徴点における特徴量は、特徴点を中心とした回転に対して不変である。

特徴量生成部５５は、１次フィルタ処理部５１、２次フィルタ処理部５２、および３次フィルタ処理部５３よりそれぞれ供給されてくる特徴点毎に、４個の角度θで、かつ、３種類のガウス幅σのそれぞれについて注目画素を含む５点分のそれぞれの特徴量の供給を受け、さらに、主方向計算部５４より主方向αの情報を取得するため、合計１８１個（＝３（次数）×５（特徴点の画素＋特徴点から水平方向および垂直方向に対して均等な距離だけ離れた４画素）×４（方向）×３（ガウス幅）＋１（主方向の情報））のパラメータを特徴点における特徴量として生成し、特徴点ペアリング部１３に供給する。このとき、特徴量生成部５５は、各特徴点の位置の情報についても併せて特徴点ペアリング部１３に供給する。

このように各特徴点に対する特徴量は、特徴点を中心として回転不変であるため、特に、回転不変局所記述子とも称される。

次に、図５を参照して、特徴点ペアリング部１３の構成について説明する。

特徴量バッファ７１は、特徴量抽出部１２より供給されてくる特徴量を特徴点に対応付けて一旦記憶する。主方向抽出部７２は、特徴量バッファ７１に記憶されている特徴量毎に、すなわち、各特徴点の特徴量毎に、主方向の情報を抽出し、特徴点の情報と共に同一主方向特徴量検索部７３に供給する。

同一主方向特徴量検索部７３は、主方向抽出部７２より供給されてくる主方向の情報に基づいて、各特徴点毎の主方向αに対して所定の角度（α−θ）乃至角度（α＋θ）の範囲内に存在する特徴点のうち、注目画素に対して最も近い位置に存在する特徴点をペアリング特徴点として検索し、注目画素となる特徴点とペアリング特徴点とを特徴量合成部７４に供給する。

例えば、図６で示されるように、特徴点Ｐ₁乃至Ｐ₆が存在するものとする。尚、図６においては、各特徴点Ｐ₁乃至Ｐ₆から伸びている矢印が各特徴点における主方向であるものとする。注目画素となる特徴点P₁における主方向αに対して角度（α−θ）乃至角度（α＋θ）の範囲内に存在する特徴点は、特徴点Ｐ₂乃至Ｐ₄，Ｐ₆である。さらに、このうち、注目画素である特徴点Ｐ₁から最も近い位置に存在する特徴点は、特徴点Ｐ₂である。従って、図６において、同一主方向特徴量検索部７３は、特徴点Ｐ₁と、特徴点Ｐ₁のペアリング特徴点としての特徴点Ｐ₂とを特徴量合成部７４に供給する。同一主方向特徴量検索部７３は、各特徴点毎に、ペアリング特徴点を抽出して、特徴量合成部７４に供給する。

特徴量合成部７４は、同一主方向特徴量検索部７３より供給されてくる各特徴点と、そのペアリング特徴点とのそれぞれの特徴量を特徴量バッファ７１より読み出して合成し、ペアリング特徴量を生成して、学習用モデル特徴量として、学習用モデル特徴量記憶部１４に記憶させる。

すなわち、特徴点ペアリング部１３は、図６の特徴点Ｐ₁の特徴量を、特徴点Ｐ₁における特徴量と、特徴点Ｐ₁における主方向αに対して、角度α±θの範囲に存在する特徴点であって、最も近い位置に存在する特徴点Ｐ₂における特徴量とを併せたものとする。従って、特徴点１点についてステアラブルフィルタにより得られるパラメータが１８１個であるので、特徴点がペアリングされることにより各特徴点の特徴量（ペアリング特徴量）のパラメータは３６２個となる。つまり、ここでは、各特徴点における主方向という幾何学的な弱い拘束により決定される２個の特徴点の特徴量が、１個の特徴点の特徴量（ペアリング特徴量）として扱われることになる。

結果として、学習用モデル特徴量記憶部１４には、各特徴点について３６２個のパラメータからなる特徴量がモデル特徴量として記憶されることになる。

尚、上述したように、特徴点抽出部１５、特徴量抽出部１６、および特徴点ペアリング部１７については、特徴点抽出部１１、特徴量抽出部１２、および特徴点ペアリング部１３と同様の構成であり、特徴点抽出部１１、特徴量抽出部１２、および特徴点ペアリング部１３は、認識対象物体を含んだ画像からなる学習用モデル画像を対象にしているのに対して、特徴点抽出部１５、特徴量抽出部１６、および特徴点ペアリング部１７は、認識対象物体を含む画像と、含まない画像からなる学習用入力画像に対して同様の処理を施している点で異なる。

次に、図７を参照して、特徴量選択部１８の構成について説明する。ペアリング特徴量記憶部９１は、特徴量ペアリング部１７より供給されてくる学習用入力画像から抽出されたペアリング特徴量を特徴点毎に一時的に記憶する。相関係数生成部９２は、学習モデル特徴量記憶部１４に記憶されている各ペアリング特徴量毎に、ペアリング特徴量記憶部９１に記憶されている各ペアリング特徴量との相関係数を生成し、最大相関係数探索部９３に供給する。

より具体的には、ペアリング特徴量が、ｎ次元のパラメータから構成される場合（今の場合、ｎ＝３６２である）、各特徴点における特徴量は、ｎ次元のベクトルであるとみなすことができる。そこで、学習用モデル特徴量記憶部１４にN個の特徴点（複数の学習用モデル画像により設定された特徴点）に対応するN個のペアリング特徴量（上述したモデル特徴量）が記憶され、ペアリング特徴量記憶部９１にＳ個の特徴点（１個の学習用入力画像により設定された特徴点）に対応するＳ個のペアリング特徴量（以降においては、入力特徴量とも称する）が記憶されている場合、相関係数生成部９２は、モデル特徴量であるN個のｎ次元のベクトルｇ_i（ｉ＝１，２，３，・・・Ｎ）のそれぞれに対して、入力特徴量であるＳ個のｎ次元のベクトルｈ_j（ｊ＝１，２，３，・・・Ｓ）との内積を求め、ベクトルｇ_i，ｈ_jのそれぞれの長さの積で除することにより相関係数を計算し、それぞれ最大相関係数探索部９３に供給する。すなわち、モデル特徴量であるN個のベクトルｇ_iのそれぞれについて、入力特徴量であるＳ個のベクトルｈ_jのそれぞれとの相関係数D_ijが求められることになる。相関係数は、具体的には（ベクトルｇ_i・ベクトルｈ_j）／（｜ベクトルｇ_i｜×｜ベクトルｈ_j｜）で表される。ここで、「（ベクトルｇ_i・ベクトルｈ_j）」はベクトルｇ_iとベクトルｈ_jとの内積を示し、「｜ベクトルｇ_i｜」および「｜ベクトルｈ_j｜」は、それぞれベクトルｇ_iおよびベクトルｈ_jの絶対値を示している。

最大相関係数探索部９３は、相関係数生成部９２より供給されてくる相関係数のうち、各モデル特徴量毎に（各ベクトルｇ_i毎に）、最大の相関係数D_ijとなるを探索し、探索結果を選択部９４に供給する。

選択部９４は、最大相関係数探索部９３より供給されてきたモデル特徴量毎の最大の相関係数D_ijを構成する入力特徴量（ベクトルｈ_j）を選択し、認識器生成部１９に供給する。すなわち、今の場合、モデル特徴量がＮ個である（ベクトルｇ_i（ｉ＝１，２，３，・・・Ｎ））ことが前提であるので、１個の学習用入力画像につき、Ｎ個のモデル特徴量のそれぞれに対して、最も相関の高い入力特徴量が選択されることになる（ベクトルｇ_i（ｉ＝１，２，３，・・・Ｎ）について、最も相関の高いベクトルｈ_jが選択されることになる）。

次に、図８を参照して、認識器生成部１９の構成について説明する。尚、上述した特徴量選択部１８により１個の学習用入力画像毎に選択されるＮ個の入力特徴量が選択されることになるので、複数のＭ個の学習用入力画像が用いられた場合、認識器生成部１９にはM個の学習用入力画像毎に、N個のモデル特徴量のそれぞれについて、最も相関の高い入力特徴量が供給されてくることになる。換言すれば、Ｍ個の学習用入力画像毎に、Ｎ個のモデル特徴量のそれぞれに対して最も相関の高い入力特徴量をパラメータとしたＮ次元のベクトルが生成されるていることになる。

サンプリング部１０１は、重み設定部１０２により設定される学習用入力画像単位の重みに応じて、モデル特徴量毎に（パラメータ毎に）Ｍ個の入力特徴量をサンプリングし、並び替え部１０３に供給する。

並び替え部１０３は、Ｎ個の入力特徴量のそれぞれについてサンプリングされたＭ個の入力特徴量を昇べきの順、または、降べきの順に並び替えて、認識器設定部１０４に供給する。

認識器設定部１０４は、入力特徴量が抽出された学習用入力画像に認識しようとする対象物体が含まれている画像であるか否かを示す正誤情報に基づいて、昇べきの順、または、降べきの順に並び替えられたＮ個の入力特徴量のそれぞれについて、閾値を変化させながら誤り率計算部１０４ａを制御して、誤り率を計算させ、誤り率が最小となるように閾値設定する（この閾値が、弱認識器として設定される）。さらに、認識器設定部１０４は、認識器毎の誤り率を認識器選択部１０５に供給する。すなわち、Ｎ個の入力特徴量に応じたＮ個の弱認識器が設定され、Ｎ個のそれぞれについて誤り率が求められることになる。

認識器選択部１０５は、Ｎ個の弱認識器のうち、誤り率が最小となる弱認識器を選択して、認識器記憶部４に記憶させる（更新させる）と共に、弱認識器に対応するモデル特徴量を学習用モデル特徴量記憶部より読み出し、認識用特徴量記憶部３に記憶させる。さらに、認識器選択部１０５は、選択した弱認識器の誤り率に基づいて、信頼度を計算し、重み更新部１０６に供給する。

重み更新部１０６は、供給された信頼度に基づいて学習用入力画像毎の重みを再計算すると共に、重みを正規化して更新し、更新結果を重み設定部１０２に供給する。重み設定部１０２は、重み更新部１０６より供給されてくる重みの更新結果に基づいて、学習用入力画像単位の重みを設定する。

次に、図９のフローチャートを参照して、学習装置１による学習処理について説明する。

ステップＳ１において、特徴点抽出部１１は、入力される複数の学習用モデル画像よりハリスコーナ点などを抽出し、特徴量抽出部１２に供給する。

ステップＳ２において、特徴量抽出部１２は、学習用モデル画像特徴量抽出処理を実行し、供給された特徴点における特徴量を各学習用モデル画像より抽出し、特徴点ペアリング部１３に供給する。

ここで、図１０のフローチャートを参照して、特徴量抽出部１２による特徴量抽出処理について説明する。

ステップＳ２１において、１次フィルタ処理部５１、２次フィルタ処理部５２、３次フィルタ処理部５３、および主方向計算部５４は、それぞれ特徴点抽出部１１より供給されてきた特徴点の情報のうち、未処理の特徴点を注目画素として選択する。

ステップＳ２２において、１次フィルタ処理部５１、２次フィルタ処理部５２、３次フィルタ処理部５３、および主方向計算部５４は、それぞれ注目画素に対応する参照画素を抽出する。すなわち、例えば、図３で示されるように、画素Ｊ₁が注目画素として選択された場合、注目画素Ｊ₁に対して垂直方向に５画素、および、水平方向に５画素離れた参照画素Ｊ₂乃至Ｊ₅が抽出されることになる。つまり、この場合、注目画素を含む５画素が処理対象画素として抽出されることになる。尚、参照画素は、今の場合、各注目画素Ｊ₁に対して垂直方向に５画素、および、水平方向に５画素だけ離れた合計４画素であるが、各注目画素に対して、それ以外の位置関係にある画素であってもよいし、さらに、４個以外の個数であってもよい。

ステップＳ２３において、１次フィルタ処理部５１、２次フィルタ処理部５２、および３次フィルタ処理部５３は、注目画素および参照画素の全ての処理対象画素のうち未処理の画素を選択する。

ステップＳ２４において、方向θを示すカウンタｑが１に初期化される。従って、この時点では、方向θ_qは、方向θ₁となる。

ステップＳ２５において、ガウス幅σを示すカウンタｐが、１に初期化される。従って、この時点では、ガウス幅σ_pは、ガウス幅σ₁となる。

ステップＳ２６において、１次フィルタ処理部５１は、処理対象となる画素の画素値に基づいて、ガウス幅σ_pで、かつ、方向θ_qにおける、上述した式（１）を演算し、フィルタ処理した結果を特徴量生成部５５に供給する。

ステップＳ２７において、２次フィルタ処理部５２は、処理対象となる画素の画素値に基づいて、ガウス幅σ_pで、かつ、方向θ_qにおける、上述した式（３）を演算し、フィルタ処理した結果を特徴量生成部５５に供給する。

ステップＳ２８において、３次フィルタ処理部５３は、処理対象となる画素の画素値に基づいて、ガウス幅σ_pで、かつ、方向θ_qにおける、上述した式（５）を演算し、フィルタ処理した結果を特徴量生成部５５に供給する。

ステップＳ２９において、ガウス幅σ_pがガウス幅σ₃であるか否かが判定され、ガウス幅σ_pがガウス幅σ₃ではないと判定された場合、ステップＳ３０において、カウンタｐは、１インクリメントされ、その処理は、ステップＳ２６に戻る。また、ステップＳ２９において、ガウス幅σ_pがガウス幅σ₃であると判定された場合、その処理は、ステップＳ３１に進む。すなわち、ガウス幅σ_pがガウス幅σ₁乃至σ₃の３種類のガウス幅について１次乃至３次フィルタ処理が実行されるまで、ステップＳ２６乃至Ｓ３０の処理が繰り返される。

ステップＳ３１において、方向θ_qが方向θ₄であるか否かが判定され、方向θ_qが方向θ₄ではないと判定された場合、ステップＳ３２において、カウンタｑは、１インクリメントされ、その処理は、ステップＳ２５に戻る。また、ステップＳ３１において、方向θ_qが方向θ₄であると判定された場合、その処理は、ステップＳ３３に進む。すなわち、方向θ_qが方向θ₁乃至θ₄の４種類の方向θについて１次乃至３次フィルタ処理が実行されるまで、ステップＳ２５乃至Ｓ３２の処理が繰り返されることになる。

ステップＳ３３において、１次フィルタ処理部５１、２次フィルタ処理部５２、および３次フィルタ処理部５３は、注目画素および参照画素の全てについて、特徴量が抽出される処理がなされたか否かを判定し、注目画素および参照画素の全てにおいて、処理がなされていないと判定された場合、その処理は、ステップＳ２３に戻る。

ステップＳ３３において、注目画素および参照画素の全てにおいて、処理がなされていると判定された場合、その処理はステップＳ３４に進む。

ステップＳ３４において、主方向計算部５４は、上述した３個の所定値であるガウス幅σの最大値のガウシアン関数Gのｘ方向とｙ方向の１次導関数G_x，G_yを求め、特徴点における主方向α（＝atan（G_y／G_x））を計算し、特徴量生成部５５に供給する。

ステップＳ３５において、特徴量生成部５５は、１次フィルタ処理部５１、２次フィルタ処理部５２、３次フィルタ処理部５３、および主方向計算部５４よりそれぞれに供給されてくる計算結果を特徴量として合成し、１個の特徴点に対する特徴量を生成する。

ステップＳ３６において、ステップＳ２１において、１次フィルタ処理部５１、２次フィルタ処理部５２、３次フィルタ処理部５３、および主方向計算部５４は、全ての特徴点について処理が終了したか否かを判定し、全ての特徴点について処理が終了していないと判定された場合、その処理は、ステップＳ２１に戻る。すなわち、全ての特徴点において、特徴量が生成されるまで、ステップＳ２１乃至Ｓ３６の処理が繰り返される。

ステップＳ３６において、全ての特徴点について処理が終了したと判定された場合、その処理は終了する。

すなわち、以上に処理により、複数の認識対象を含む画像における特徴点の特徴量が抽出されることになる。

ここで、図９のフローチャートの説明に戻る。

ステップＳ３において、特徴点ペアリング部１３は、ステップＳ２の学習用モデル画像特徴量抽出処理により抽出された、複数の学習用モデル画像の特徴点から抽出された特徴量の情報を用いて、学習用モデル画像ペアリング処理を実行し、各特徴点の特徴量と、各特徴点の主方向の条件に基づいたペアリング特徴点の特徴量とをペアリング（合成）し、ペアリング特徴量を生成する。

ここで、図１１のフローチャートを参照して、特徴点ペアリング部１３によるペアリング処理について説明する。

ステップＳ５１において、特徴量バッファ７１は、特徴量抽出部１２より供給されてくる特徴量を特徴点に対応付けて記憶する。

ステップＳ５２において、主方向抽出部７２は、特徴量バッファ７１に記憶された各特徴点毎に特徴量より主方向の情報を抽出し、同一主方向特徴量検索部７３に供給する。

ステップＳ５３において、同一主方向特徴量検索部７３は、処理対象とする未処理の特徴点の主方向の情報を決定する。

ステップＳ５４において、同一方向特徴量検索部７３は、処理対象として決定した未処理の特徴点の主方向と同一の主方向の特徴点を１個検索し、検索結果となる特徴点を特徴量合成部７４に供給する。より詳細には、同一方向特徴量検索部７３は、処理対象として決定した未処理の特徴点の主方向が角度αである場合、その他の特徴点の主方向φが、α＋Θ＜φ＜α−Θの範囲であるとき、同一方向の特徴点とみなす。尚、複数の同一方向の特徴点が検索された場合、処理対象とする特徴点から最も近い位置に存在する特徴点が検索される。また、主方向φが、α＋Θ＜φ＜α−Θの範囲の特徴点が検索されない場合、同一方向特徴量検索部７３は、主方向φが、α＋Θ＜φ＜α−Θの範囲に最も近い主方向の特徴点を検索する。

ステップＳ５５において、特徴量合成部７４は、処理対象となっている特徴点の特徴量と、処理対象となっている特徴点と主方向が同一の特徴点の特徴量とを合成し、処理対象となっている特徴点の特徴量（ペアリング特徴量）として学習用モデル特徴量記憶部１４に供給する。

ステップＳ５６において、同一主方向特徴量検索部７３は、処理対象とする未処理の特徴点があるか否かを判定し、未処理の特徴点があると判定された場合、その処理は、ステップＳ５３に戻る。すなわち、ステップＳ５３乃至Ｓ５６の処理が繰り返されて、全ての特徴点について、同一主方向であって、かつ、最も近い位置に存在するペアリング特徴点が検索され、処理対象となる特徴点の特徴量と、ペアリング特徴点の特徴量とが合成される。

ステップＳ５６において、未処理の特徴点がないと判定された場合、その処理は、終了する。

以上の処理により、全ての特徴点の特徴量と、全ての特徴点における同一主方向の特徴点の特徴量とがペアリングされる。結果として、各特徴点における特徴量には、特徴点における主方向に応じた特徴量が付加される事になるため、特徴点毎に特徴量に幾何学的な弱い拘束が付加されることになる。

ここで、図９のフローチャートの説明に戻る。

ステップＳ４において、学習用モデル特徴量記憶部１４は、特徴点ペアリング部１３より供給されてくる、特徴点毎に、特徴点の特徴量と、主方向に基づいてペアリングされた特徴点の特徴量とが合成されたペアリング特徴量を記憶する。

ステップＳ１乃至Ｓ４の処理により、複数の学習用モデル画像における特徴点のペアリング特徴量が、学習用モデル特徴量記憶部１４に記憶されることになる。

ステップＳ５において、特徴点抽出部１５は、入力される学習用入力画像よりハリスコーナ点などを抽出し、特徴量抽出部１６に供給する。

ステップＳ６において、特徴量抽出部１６は、学習用入力画像特徴量抽出処理を実行し、供給された特徴点における特徴量を各学習用入力画像より抽出し、特徴点ペアリング部１７に供給する。尚、特徴量抽出処理については、図１０のフローチャートを参照して説明した処理と同様であるので、その説明は省略する。

ステップＳ７において、特徴点ペアリング部１７は、学習用入力画像ペアリング処理を実行し、主方向が同一で、かつ、距離の近い位置に存在する２個の特徴点における特徴量をペアリングし、ペアリング特徴量を生成し、特徴量選択部１８に供給する。尚、ペアリング処理については、図１１のフローチャートを参照して説明した処理と同様であるので、その説明は省略する。

尚、ステップＳ６乃至Ｓ８の処理については、いずれの処理においても、処理結果は、各学習用入力画像毎に区別されて出力される。

ステップＳ８において、特徴量選択部１８は、特徴量選択処理を実行し、各学習用入力画像について、モデル特徴量毎に入力特徴量（いずれもペアリング特徴量）を選択し、認識器生成部１９に供給する。

ここで、図１２のフローチャートを参照して、特徴量選択処理について説明する。

ステップＳ７１において、ペアリング特徴量記憶部９１は、特徴量ペアリング部１７より供給されてくる学習用入力画像から抽出されたペアリング特徴量を、学習用入直画像毎に全ての特徴点について一時的に取得し、記憶する。

ステップＳ７２において、相関係数生成部９２は、ペアリング特徴量記憶部９１に記憶された学習用入力画像の学習用入力特徴量のうち、未処理の学習用入力画像の学習用入力特徴量を選択する。

ステップＳ７３において、相関係数生成部９２は、学習用モデル特徴量記憶部１４に記憶されている未処理の学習用モデル特徴量を読み出す。

ステップＳ７４において、相関係数生成部９２は、ステップＳ７２の処理で選択された学習用入力特徴量のうち未処理の学習用入力特徴量（ペアリング特徴量）を選択する。

ステップＳ７５において、相関係数生成部９２は、ステップＳ７３の処理で選択された学習用モデル特徴量と、ステップＳ７４の処理で選択された学習用入力画像における学習用入力特徴量との相関係数を生成し、最大相関係数探索部９３に供給する。

ステップＳ７６において、相関係数生成部９２は、ステップＳ７４の処理で選択された学習用入力画像における学習用入力特徴量のうち、未処理の学習用入力特徴量が存在するか否かを判定し、存在する場合、その処理は、ステップＳ７４に戻る。すなわち、ステップＳ７２の処理で選択された学習用入力特徴量のうち、未処理の学習用入力特徴量がないと判定されるまで、ステップＳ７４乃至Ｓ７６の処理が繰り返され、１個のモデル特徴量について、ステップＳ７２の処理で選択された学習用入力特徴量の数だけ相関係数が計算される。

ステップＳ７６において、ステップＳ７２の処理で選択された学習用入力特徴量のうち、未処理の学習用入力特徴量がないと判定された場合、その処理は、ステップＳ７７に進む。

ステップＳ７７において、最大相関係数探索部９３は、相関係数生成部９２より供給された相関係数のうち最大相関係数を探索し、選択部９４に供給する。選択部９４は、最大相関係数となるペアリング特徴量を、ペアリング特徴量記憶部９１より選択する。

ステップＳ７８において、相関係数生成部９２は、未処理の学習用モデル特徴量が学習用モデル特徴量記憶部１４に記憶されているか否かを判定し、例えば、未処理の学習用モデル特徴量があると判定された場合、その処理は、ステップＳ７３に戻る。すなわち、１個の学習用入直画像について、全ての学習用モデル特徴量のそれぞれの、学習用入力特徴量の中で最も相関の高いペアリング特徴量が選択され、認識器生成部１９に出力されるまで、ステップＳ７３乃至Ｓ７８の処理が繰り返される。

ステップＳ７８において、未処理の学習用モデル特徴量が学習用モデル特徴量記憶部１４に記憶されていないと判定された場合、ステップＳ７９において、相関係数生成部９２は、未処理の学習用入力画像の学習用入力特徴量があるか否かを判定する。ステップＳ７９において、例えば、未処理の学習用入力画像の学習用入力特徴量があると判定された場合、その処理は、ステップＳ７２に戻り、ステップＳ７２乃至Ｓ７９の処理が繰り返される。すなわち、全ての学習用入力画像毎に、全ての学習用モデル特徴量のそれぞれについて最も相関の高い相関係数が計算される。

ステップＳ７９において、未処理の学習用入力画像の学習用入力特徴量がないと判定された場合、その処理は、終了する。

以上の処理により、学習用入力画像１個毎に、学習用モデル特徴量記憶部１４に記憶されているモデル特徴量のそれぞれに最も相関の高い学習用入力特徴量が抽出されることになる。

すなわち、例えば、学習用モデル特徴量記憶部１４に、図１３の上部で示されるようにＸ個の学習用モデル画像ＰＭ₁乃至ＰＭ_Xのそれぞれの特徴点より抽出されるＮ個のモデル特徴量が記憶されているものとする。ここで、認識しようとする対象物体は、学習用モデル画像ＰＭ₁乃至ＰＭ_Xの全ての画像に含まれている自動車の画像である。

図１２のフローチャートを参照して説明した特徴量選択処理により、例えば、図１３の下部で示されるＭ個の学習用入力画像ＰＩ₁乃至ＰＩ_Mのそれぞれについて、特徴点毎に最も相関の高いＮ個の入力特徴量のベクトル（Ａ₁，Ａ₂，・・・Ａ_N），（Ｂ₁，Ｂ₂，・・・Ｂ_N），・・・，（Ｍ₁，Ｍ₂，・・・Ｍ_N）が構成され、認識器生成部１９に出力されることになる。ここで、学習用入力画像ＰＩ₁乃至ＰＩ_Mには、認識しようとする対象物体を含むものと含まないものが有り、図１３においては、認識しようとする対象物体を含む学習用入力画像ＰＩ_iについては「＋１」と表記されており、認識しようとする対象物体を含まない学習用入力画像ＰＩ_iについては「−１」と表記されている。

ここで、図９のフローチャートの説明に戻る。

ステップＳ９において、認識器生成部１９は、ステップＳ８の特徴量選択処理により選択された学習用入力画像毎に求められた最もモデル特徴量と相関の高い特徴量を用いて、認識器生成処理を実行し、生成した認識器を認識器記憶部４に記憶させると共に、生成した認識器を使用するための学習用モデル特徴量を読み出し、認識用特徴量として認識用特徴量記憶部３に記憶させる。

ここで、図１４のフローチャートを参照して、認識器生成部１９による認識器生成処理について説明する。

ステップＳ９１において、重み設定部１０２は、例えば、図１３で示される学習用入力画像ＰＩ_i毎の重みＷ_iを全て１／Ｍに初期化すると共に、カウンタｊを１に、認識器R(x)を０にそれぞれ初期化する。ここで、ｉは、図１３における学習用入力画像ＰＩ_iを識別するものであり、１＜ｉ＜Ｍである。従って、ステップＳ９１の処理により、全ての学習用入力画像ＰＩ_iは、いずれも正規化された同一の重み（＝１／Ｍ）に設定されることになる。

ステップＳ９２において、サンプリング部１０１は、モデル特徴量が抽出される特徴点ｋ（ｋ＝１，２，３，・・・Ｎ）毎に、学習用入力画像ＰＩ_iの重みＷ_iに応じてＭ個選択し、並び替え部１０３に供給する。すなわち、特徴量選択部１８より供給されてくる各学習用入力画像毎に相関の高い学習用入力特徴量が、例えば、図１５で示されるように、学習用入力画像ＰＩ₁について、（Ａ₁，Ａ₂，・・・Ａ_N）として、学習用入力画像ＰＩ₂について、（Ｂ₁，Ｂ₂，・・・Ｂ_N）として、学習用入力画像ＰＩ₃について、（Ｃ₁，Ｃ₂，・・・Ｃ_N）として、・・・、学習用入力画像ＰＩ_Mについて、（Ｍ₁，Ｍ₂，・・・Ｍ_N）として、それぞれ供給された場合、特徴点ｋ＝１の特徴量は、グループＧｒ₁で示される（Ａ₁，Ｂ₁，Ｃ₁，・・・Ｍ₁）であり、同様に、特徴点ｋ＝２の特徴量は、グループＧｒ₂で示される（Ａ₂，Ｂ₂，Ｃ₂，・・・Ｍ₂）であり、・・・特徴点ｋ＝Ｎの特徴量は、グループＧｒ_Nで示される（Ａ_N，Ｂ_N，Ｃ_N，・・・Ｍ_N）となる。すなわち、各特徴点ｋについて、学習用入力画像ＰＩ_i毎にＭ個の特徴量のグループＧｒkが設定されることになる。尚、図１５においては、学習用入力画像ＰＩ₁，ＰＩ₂が、認識しようとする対象物体を含む画像であることを示しており（図中の「＋１」の表記）、学習用入力画像ＰＩ₃，ＰＩ_Mが、認識しようとする対象物体を含まない画像であることを示している（図中の「−１」の表記）。

サンプリング部１０１は、各特徴点ｋ毎に、各学習用入力画像ＰＩ_iに設定された重みに応じて特徴量をＭ個抽選で抽出する。最初の処理においては、いずれの重みＷ_iも等しいため、Ｍ個が抽選されると、確率的には全ての特徴量が選択されることになるので、ここでは、最初の処理では各特徴点ｋにおいて、全ての特徴量が選択されたものとする。もちろん、実際には、同一の特徴量が重複して選択されることもある。

ステップＳ９３において、並び替え部１０３は、Ｎ個の特徴点のそれぞれについてサンプリングされたＭ個の特徴量のグループＧｒ_N毎に、特徴量を昇べきの順、または、降べきの順に並び替えて、認識器設定部１０４に供給する。

ステップＳ９４において、認識器設定部１０４は、入力特徴量が抽出された学習用入力画像に認識しようとする対象物体が含まれている画像であるか否かを示す情報に基づいて、特徴点ｋ毎に、Ｍ個の特徴量のそれぞれについて、閾値を変化させながら誤り率計算部１０４ａを制御して、以下の式（７）で示すように誤り率ｅ_jkを計算させ、誤り率ｅ_jkが最小となるように閾値を設定する。ここで、特徴点ｋ毎の閾値th_jkが、1個の弱認識器f_jkとなる。そこで、認識器設定部１０４は、弱認識器毎の誤り率ｅ_jkを認識器選択部１０５に供給する。すなわち、各特徴点ｋについて、Ｎ個の特徴量に応じたＮ個の弱認識器f_jkが設定され、Ｎ個のそれぞれについて（弱認識器f_jkのそれぞれについて）誤り率ｅ_jkが求められることになる。ここで、認識器f_jkは、認識しようとする対象物体を含む場合「＋１」を出力し、認識しようとする対象物体を含まない場合「−１」を出力する関数である。

すなわち、ｊ＝１であって、特徴点ｋ＝１が、図１６で示されるようにＬ₁，Ａ₁，Ｃ₁，Ｂ₁，・・・，Ｍ₁に昇べき、または、降べきの順に並べられた場合、閾値th₁₁が、特徴量Ａ₁とＣ₁の間に設定されて、閾値th₁₁より小さい範囲では、認識しようとする対象物体がないと認識し（「−１」で示されている範囲）、閾値th₁₁より大きい範囲では、認識しようとする対象物体があると認識する（「＋１」で示されている範囲）とき、図中の点線で囲まれた特徴量Ａ₁は、認識しようとする対象物体が含まれた学習用入力画像の特徴量であるので、エラーであるとみなされ、特徴量Ｃ₁，Ｍ₁は、逆に、認識しようとする対象物体が含まれていない学習用入力画像の特徴量であるので、エラーであるとみなされる。誤り率計算部１０４ａは、以下の式（７）で示されるように、学習用入力画像の正誤情報（認識しようとする対象物体が含まれているか否かの情報）に基づいて、エラーであるとみなされた特徴量が抽出された学習用入力画像の重みＷ_iを加算し、誤り率ｅ_jkを計算する。

・・・（７）

ここで、ｙ≠f_jkは、エラーとなっている特徴点ｋの条件を示しており、Ｅ_wは、エラーの発生した特徴点ｋにおける重みが加算されることを示している。

ステップＳ９５において、認識器選択部１０５は、Ｎ個の弱認識器f_jkのうち、誤り率ｅ_jkが最小となる弱認識器f_jkを選択する。

ステップＳ９６において、認識器選択部１０５は、選択した弱認識器の最小の誤り率ｅ_jk（＝ｅ_j）に基づいて、以下の式（８）で示されるように信頼度ｃ_jを計算し、計算結果を重み更新部１０６に供給する。

・・・（８）

ステップＳ９７において、重み更新部１０６は、供給された信頼度ｃ_jに基づいて、以下の式（９）で示されるように各学習用入力画像毎に重みＷ_iを再計算すると共に、全ての重みＷ_iを正規化して更新し、更新結果を重み設定部１０２に供給する。重み設定部１０２は、重み更新部１０６より供給されてくる重みの更新結果に基づいて、学習入力画像毎の重みを設定する。

・・・（９）

すなわち、式（９）においては、エラーの発生した特徴量を含む学習用入力画像の重みが大きくなることが示されている。

ステップＳ９８において、認識器選択部１０５は、認識器f_jとして認識器記憶部４に記憶させる（更新させる）。すなわち、認識器選択部１０５は、以下の式（１０）で示されるように、認識器R(x)を更新して、以下の式（１１）で示される形式で認識器記憶部４に記憶させる。

R(x)＝R(x)＋c_j×f_j(x)
・・・（１０）

sign（R(x)）＝sign（R(x)＋c_j×f_j）
・・・（１１）

すなわち、重み付けされた弱認識器f_jが認識器R(x)に加算される。また、sign（Y）は、Yが正の場合、認識しようとする対象物体が、入力画像中に存在することを示す「＋１」を出力し、Yが負の場合、認識しようとする対象物体が、入力画像中に存在しないことを示す「−１」を出力する関数である。

ステップＳ９９において、認識器選択部１０５は、弱認識器f_jの特徴点ｋに対応するモデル特徴量を学習用モデル特徴量記憶部１４より読み出し、認識用特徴量記憶部３に記憶させる。

ステップＳ１００において、認識器選択部１０５は、カウンタｊがＬより大きいか否かを判定し、Ｌよりも大きくないと判定された場合、その処理は、ステップＳ１０１に進み、カウンタｊが１インクリメントされ、ステップＳ９２に戻る。ステップＳ１００において、カウンタｊがＬよりも大きいと判定された場合、その処理は、終了する。

以上の処理により、Ｌ個の比較的誤り率の低い弱認識器f_j（１＜ｊ＜L）からなる認識器R(x)が認識器記憶部４に記憶されると共に、それぞれの弱認識器f_jで使用されるべき特徴点ｋのモデル特徴量が認識用特徴量記憶部３に記憶される。ここで、Lは、Ｌ≦Nである。

尚、式（１１）の認識器は、L個の弱認識器の多数決により、認識しようとする対象物体の有無を出力する関数であると言える。また、図１４のフローチャートを参照して説明した弱認識器を学習処理により重み付けしつつ付加することを繰り返し、認識器を生成する学習処理は、Descrete Adaboost Algorithmと呼ばれる処理である。

すなわち、以上の認識器生成処理により、誤り率の高い学習用入力画像の学習用入力特徴量の重みが順次大きくなり、誤り率の低い学習用入力特徴量の重みが小さくなるように、モデル特徴量ごとに認識器と誤り率が計算される処理が繰り返されることになる。したがって、繰り返し処理（ステップＳ９２乃至Ｓ１０１の処理）の中で、認識器を設定する際に選択される学習用入力特徴量（ステップＳ９２で選択される学習用入力特徴量）は、徐々に誤り率の高いものが選択されやすくなるので、認識し難い学習用入力特徴量が繰り返されるほどに選択されて学習が繰り返されることになるため、認識し難い学習用入力画像の特徴量がより多く選択されることになり、最終的に高い認識率にすることが可能となる。

また、繰り返し処理（ステップＳ９２乃至Ｓ１０１の処理）の中で、認識器選択部１０５は、常に誤り率の最も低いモデル特徴量に対応する弱認識器を選択することになるので、学習処理の繰り返しにより、常に信頼度の最も高いモデル特徴量についての弱認識器が選択されて認識器に加算されることになり、繰り返されるごとに精度の高い弱認識器が順次加算されることになる。

この認識器生成処理が終了すると共に、図９のフローチャートにおける学習処理が終了する。

すなわち、以上の学習処理により、特徴点毎に特徴量に幾何学的な拘束が付加された特徴量を用いて、誤り率e_jの低いＬ個の弱認識器f_j（１＜ｊ＜L）からなる認識器R(x)が生成されることになる。結果として、信頼度の高い弱認識器のみからなる認識器が構成されることになるので、限られた個数の弱認識器で信頼度の高い認識器を構成することが可能となるので、後述する認識処理における演算処理数を低減させつつ、認識精度を向上させることが可能となる。

また、認識器の数を多くすれば（上述したＬを大きくすれば）、弱認識器をより多くすることで、認識精度を向上させることが可能となる。一方、認識器の数を少数にしても（上述したＬを小さくしても）、選択される弱認識器は、少数ながらも信頼度の高い弱認識器のみのを用いた認識処理がなされるので、信頼度を維持しつつ認識処理における演算処理数を低減させることが可能となる。すなわち、必要に応じて、学習処理に手間を掛けて認識器の生成個数を多くすることでより高い精度の認識器を生成することも可能であるし、逆に、学習に手間を掛けず生成する認識器の個数を減らして１発学習に近い学習にしても比較的精度の高い認識器を生成することが可能となる。

さらに、学習の過程において使用される各特徴点の特徴量は、特徴点における回転不変なステアラブルフィルタにより得られる特徴量に、主方向が同一で、かつ、最も近い位置の特徴点における特徴量とがペアリングされた特徴量であるため、空間的に弱い幾何学的な拘束を含んだ学習がなされることになり、例えば、認識対象となる物体が回転していたり、視点が異なるような画像であっても認識することが可能となる。

次に、図１７のフローチャートを参照して、画像認識装置２による画像認識処理について説明する。

ステップＳ１２１において、特徴点抽出部３１は、認識しようとする対象物体の有無を認識しようとする入力画像よりハリスコーナ点などを抽出し、特徴量抽出部３２に供給する。

ステップＳ１２２において、特徴量抽出部３２は、入力画像特徴量抽出処理を実行し、供給された特徴点における特徴量を入力画像より抽出し、特徴点ペアリング部３３に供給する。尚、特徴量抽出処理については、図１０を参照して説明した処理と同様であるので、その説明は省略する。

ステップＳ１２３において、特徴点ペアリング処理部３３は、入力画像ペアリング処理を実行し、主方向の条件に応じて２個の特徴点における特徴量をペアリングし、ペアリング特徴量を生成する。尚、特徴量ペアリング処理については、図１１を参照して説明した処理と同様であるので、その説明は省略する。

ステップＳ１２４において、特徴量選択部３４は、認識用特徴量記憶部３に記憶された特徴量を用いて、特徴量選択処理を実行し、特徴量を選択し、認識計算部３５に供給する。尚、特徴量選択処理については、学習用モデル特徴量記憶部１４に記憶されている特徴量を用いる点と、認識用特徴量記憶部３に記憶された特徴量を用いる点で異なるが、その他の処理については、図１２のフローチャートを参照して説明した処理と同様であるので、その説明は、省略する。

ステップＳ１２５において、認識計算部３５は、認識器記憶部４に記憶されている認識器を読み出し、特徴量選択部３４より供給されてくる入力画像の特徴量に基づいて、認識器を計算する。すなわち、上述したように、特徴量選択部３４より供給されてくる特徴量は、学習の際、信頼度の高い弱認識器f_jの計算に必要な特徴量であるので、認識計算部３５は、供給されてくる選択された特徴量を各弱認識器f_jに代入して認識器R(x)を計算する。そして、認識計算部３５は、各弱認識器fjの判定結果の重み付けられた投票結果を計算結果として認識結果出力部３６に供給する。

ステップＳ１２６は、認識計算部３５より供給されてくる計算結果に基づいて、認識しようとする対象物体の有無の判定結果を出力する。すなわち、認識計算部３５より供給されてくる計算結果は、上述した式（１１）で示される演算結果であるので、演算結果として「＋１」が供給されてきた場合、認識しようとする対象物体が入力画像に含まれているという結果を出力し、演算結果として「−１」が供給されてきた場合、認識しようとする対象物体が入力画像に含まれていないという結果を出力することになる。

以上の処理により、学習処理の過程で、特徴点毎に特徴量に幾何学的な弱い拘束が付加された特徴量が用いられて、生成された誤り率e_jの比較的低いＬ個の弱認識器f_j（１＜ｊ＜L）からなる認識器R(x)により対象物体の認識処理がなされる。

結果として、学習の過程において使用される各特徴点の特徴量が、特徴点における回転不変なステアラブルフィルタにより得られる特徴量に、主方向が同一で、かつ、最も近い位置の特徴点における特徴量とがペアリングされた特徴量であるため、空間的に幾何学的な弱い拘束を含んだ学習がなされるため、例えば、認識対象となる物体が回転していたり、視点が異なるような画像であっても比較的高い精度で認識することが可能となる。

尚、以上においては、Descrete Adaboost Algorithmに基づいて、学習処理を実行する例について説明してきたが、それ以外のBoosting Algorithmを適用するようにしてもよく、例えば、Gentle Adaboost Algorithmを用いるようにしてもよい。Descrete Adaboost Algorithmと、Gentle Adaboost Algorithmとは、前者の認識器の出力結果が離散変量であるのに対して、後者は、連続変量である点で異なる。しかしながら、前者においては、信頼度が乗じられるため、出力結果は、実質的に連続変量として扱われており、本質的に処理の違いはない。Gentle Adaboost Algorithmを適用した場合、上述した式（９）、および式（１１）は、以下の式（１２）および式（１３）に置き換えられることになるが、処理は同様である。

・・・（１２）

sign（R(x)）＝sign（R(x)＋f_j）
・・・（１３）

すなわち、Gentle Adaboost Algorithmを適用した場合、弱認識器f_jが、それぞれ信頼度を含んだ連続変量の値を出力することになるため、対応した重み付けがなされ、信頼度の計算が省かれることになる。

また、以上においては、特徴点の特徴量と、主方向が同一とみなされる特徴点であって、最も近い位置の特徴点における特徴量との２点の特徴点の特徴量がペアリングされる例について説明してきたが、特徴量がペアリングされる特徴点の数は、２点に限らずそれ以上の数であってもよく、例えば、全ての特徴点とペアリングするようにしても良い。

さらに、特徴量がペアリングされる特徴点の条件は、主方向に対して同一であるという条件でなくてもよく、例えば、図１８で示されるように、特徴点の主方向と、所定の角度βを成す主方向の特徴点とのそれぞれの特徴量をペアリングさせるようにしてもよい。図１８においては、特徴点Ｐ₁₁とＰ₁₂の主方向は、それぞれ角度βを成している。同様にして、特徴点Ｐ₁₃とＰ₁₄および特徴点Ｐ₁₅とＰ₁₆の主方向は、それぞれ角度βを成している。このため、特徴点Ｐ₁₁とＰ₁₂、特徴点Ｐ₁₃とＰ₁₄および特徴点Ｐ₁₅とＰ₁₆のそれぞれの特徴量がペアリングされることになる。このような条件であっても、特徴点間には、空間的に幾何学的な弱い拘束がなされることになるので、上述した物体認識における精度の向上が期待できる。

また、基準となる特徴点の主方向に対してランダムな角度を成す特徴点のそれぞれの特徴量をペアリングさせるようにしてもよい。すなわち、例えば、図１９で示されるように、基準となる特徴点Ｐ₂₁の主方向に対して、角度γ₁だけ成す角度の主方向を持つ特徴点Ｐ₂₂とペアリングさせる一方で、基準となる特徴点Ｐ₂₃の主方向に対して、角度γ₂だけ成す角度の主方向を持つ特徴点Ｐ₂₄とペアリングさせ、さらに、基準となる特徴点Ｐ₂₅の主方向に対して、角度γ₃だけ成す角度の主方向を持つ特徴点Ｐ₂₆とペアリングさせるようにしてもよい。

換言すれば、特徴点のペアリングは、少なくとも２個以上で、かつ、ランダムに選択される特徴点同士であればよいものである。

いずれにおいても、特徴点間には、空間的に幾何学的な弱い拘束がなされることになるので、上述した物体認識における物体の回転や視点の変化に対しての認識精度の向上が期待できる。

以上によれば、空間的に幾何学的な拘束がなされる特徴点間の特徴量をペアリングして、認識しようとする対象物体の学習処理および認識処理を実行するようにしたので、少ないながら信頼度の高い弱認識器のみで構成される認識器を用いた認識処理がなされ、認識率を低下させることなく認識処理における演算処理数を低減させることが可能となる。また、学習の過程において使用される各特徴点の特徴量は、空間的に幾何学的な所定の条件が満たされる特徴点間の特徴量がペアリングされるため、空間的に幾何学的な弱い拘束を含んだ学習がなされ、例えば、認識対象となる物体が回転していたり、視点が異なるような画像であっても認識することが可能となる。

上述した一連の処理は、ハードウェアにより実行させることもできるが、ソフトウェアにより実行させることもできる。一連の処理をソフトウェアにより実行させる場合には、そのソフトウェアを構成するプログラムが、専用のハードウェアに組み込まれているコンピュータ、または、各種のプログラムをインストールすることで、各種の機能を実行させることが可能な、例えば汎用のパーソナルコンピュータなどに記録媒体からインストールされる。

図２０は、図１の学習装置１または画像認識装置２の電気的な内部構成をソフトウェアにより実現する場合のパーソナルコンピュータの一実施の形態の構成を示している。パーソナルコンピュータのCPU２０１は、パーソナルコンピュータの全体の動作を制御する。また、CPU２０１は、バス２０４および入出力インタフェース２０５を介してユーザからキーボードやマウスなどからなる入力部２０６から指令が入力されると、それに対応してROM(Read Only Memory)２０２に格納されているプログラムを実行する。あるいはまた、CPU２０１は、ドライブ２１０に接続された磁気ディスク２２１、光ディスク２２２、光磁気ディスク２２３、または半導体メモリ２２４から読み出され、記憶部２０８にインストールされたプログラムを、RAM(Random Access Memory)２０３にロードして実行する。これにより、上述した図１の学習装置１または画像認識装置２の機能が、ソフトウェアにより実現されている。さらに、CPU２０１は、通信部２０９を制御して、外部と通信し、データの授受を実行する。

プログラムが記録されている記録媒体は、図２０に示すように、コンピュータとは別に、ユーザにプログラムを提供するために配布される、プログラムが記録されている磁気ディスク２２１（フレキシブルディスクを含む）、光ディスク２２２（CD-ROM(Compact Disc-Read Only Memory)，DVD（Digital Versatile Disk）を含む）、光磁気ディスク２２３（MD（Mini-Disc）を含む）、もしくは半導体メモリ２２４などよりなるパッケージメディアにより構成されるだけでなく、コンピュータに予め組み込まれた状態でユーザに提供される、プログラムが記録されているROM２０２や、記憶部２０８に含まれるハードディスクなどで構成される。

尚、本明細書において、記録媒体に記録されるプログラムを記述するステップは、記載された順序に沿って時系列的に行われる処理は、もちろん、必ずしも時系列的に処理されなくとも、並列的あるいは個別に実行される処理を含むものである。

また、本明細書において、システムとは、複数の装置により構成される装置全体を表すものである。

本発明を適用した画像処理システムの一実施の形態の構成を示す図である。図１の特徴量抽出部の一実施の形態の構成を示す図である。特徴量を説明する図である。特徴量を説明する図である。図１の特徴点ペアリング部の一実施の形態の構成を示す図である。特徴点のペアリングの例を説明する図である。図１の特徴量選択部の一実施の形態の構成を示す図である。図１の認識器生成部の一実施の形態の構成を示す図である。学習処理を説明するフローチャートである。特徴量抽出処理を説明するフローチャートである。特徴量ペアリング処理を説明するフローチャートである。特徴量選択処理を説明するフローチャートである。特徴量選択処理を説明する図である。認識器生成処理を説明するフローチャートである。認識器生成処理を説明する図である。認識器生成処理を説明する図である。画像認識処理を説明するフローチャートである。特徴点のペアリングのその他の例を説明する図である。特徴点のペアリングのさらにその他の例を説明する図である。媒体を説明する図である。

符号の説明

１学習装置，２画像認識装置，３認識用特徴量記憶部，４認識器記憶部，１１特徴点抽出部，１２特徴量抽出部，１３特徴点ペアリング部，１４学習用モデル特徴量記憶部，１５特徴点抽出部，１６特徴量抽出部，１７特徴点ペアリング部，１８特徴点選択部，１９認識器生成部，３１特徴点抽出部，３２特徴量抽出部，３３特徴点ペアリング部，３４特徴量選択部，３５認識計算部，３６認識結果出力部

Claims

画像内の認識対象を認識するための認識器を生成する学習装置と、前記学習装置により生成された前記認識器により認識用入力画像における前記認識対象を認識する画像認識装置からなる画像処理システムにおいて、
前記学習装置は、
前記認識対象を含む画像のみからなる学習用モデル画像より複数の第１の特徴点を抽出する第１の特徴点抽出手段と、
前記第１の特徴点抽出手段により抽出された前記複数の第１の特徴点より、それぞれ第１の特徴量を抽出する第１の特徴量抽出手段と、
所定の位置関係を有する、少なくとも２個以上の第１の特徴点の第１の特徴量を合わせて、複数の第１の特徴情報を生成する第１の特徴情報生成手段と、
前記認識対象を含む画像と含まない画像とからなる学習用入力画像より複数の第２の特徴点を抽出する第２の特徴点抽出手段と、
前記第２の特徴点抽出手段により抽出された前記複数の第２の特徴点より、それぞれ第２の特徴量を抽出する第２の特徴量抽出手段と、
前記所定の位置関係を有する、少なくとも２個以上の第２の特徴点の第２の特徴量を合わせて、複数の第２の特徴情報を生成する第２の特徴情報生成手段と、
前記複数の第１の特徴情報のそれぞれについて、前記複数の第２の特徴情報のうち、最も相関の高い第２の特徴情報を選択する第１の選択手段と、
前記第１の選択手段により選択された第２の特徴情報を用いた統計学習により前記認識対象を認識する認識器を生成する認識器生成手段と
を含み、
前記画像認識装置は、
前記認識用入力画像より複数の第３の特徴点を抽出する第３の特徴点抽出手段と、
前記第３の特徴点抽出手段により抽出された前記複数の第３の特徴点より、それぞれ第３の特徴量を抽出する第３の特徴量抽出手段と、
前記所定の位置関係を有する、少なくとも２個以上の第３の特徴点の第３の特徴量を合わせて、複数の第３の特徴情報を生成する第３の特徴情報生成手段と、
前記複数の第１の特徴情報のそれぞれについて、前記複数の第３の特徴情報のうち、最も相関の高い第３の特徴情報を選択する第２の選択手段と、
前記認識器を用いて、前記第２の選択手段により選択された第３の特徴情報に基づいて、前記認識用入力画像における認識対象の有無を認識する認識手段と
を含む
ことを特徴とする画像処理システム。
認識対象を含む画像のみからなる学習用モデル画像より複数の第１の特徴点を抽出する第１の特徴点抽出手段と、
前記第１の特徴点抽出手段により抽出された前記複数の第１の特徴点より、それぞれ第１の特徴量を抽出する第１の特徴量抽出手段と、
所定の位置関係を有する、少なくとも２個以上の第１の特徴点の第１の特徴量を合わせて、複数の第１の特徴情報を生成する第１の特徴情報生成手段と、
前記認識対象を含む画像と含まない画像とからなる学習用入力画像より複数の第２の特徴点を抽出する第２の特徴点抽出手段と、
前記第２の特徴点抽出手段により抽出された前記複数の第２の特徴点より、それぞれ第２の特徴量を抽出する第２の特徴量抽出手段と、
前記所定の位置関係を有する、少なくとも２個以上の第２の特徴点の第２の特徴量を合わせて、複数の第２の特徴情報を生成する第２の特徴情報生成手段と、
前記複数の第１の特徴情報のそれぞれについて、前記複数の第２の特徴情報のうち、最も相関の高い第２の特徴情報を選択する選択手段と、
前記選択手段により選択された第２の特徴情報を用いた統計学習により前記認識対象を認識する認識器を生成する認識器生成手段と
を含むことを特徴とする学習装置。
前記第１および第２の特徴量は、回転不変な局所画像情報である
ことを特徴とする請求項２に記載の学習装置。
前記第１および第２の特徴量は、ステアラブルフィルタにより得られる回転不変な局所画像情報である
ことを特徴とする請求項３に記載の学習装置。
前記第１および第２の特徴情報生成手段は、前記第１または第２の特徴点間の所定の幾何学的な位置関係を有する、前記少なくとも２個以上の第１または第２の特徴点の第１または第２の特徴量を合わせて、複数の第１または第２の特徴情報を生成する
ことを特徴とする請求項２に記載の学習装置。
前記第１および第２の特徴情報生成手段は、前記第１または第２の特徴量に含まれる主方向に基づいて設定される、前記第１または第２の特徴点間の所定の幾何学的な位置関係を有する、少なくとも２個以上の第１または第２の特徴点の第１または第２の特徴量を合わせて、複数の第１または第２の特徴情報を生成する
ことを特徴とする請求項２に記載の学習装置。
前記第１および第２の特徴情報生成手段は、前記第１または第２の特徴点間のランダムに設定される幾何学的な位置関係を有する、少なくとも２個以上の第１または第２の特徴点の第１または第２の特徴量を合わせて、複数の第１または第２の特徴情報を生成する
ことを特徴とする請求項２に記載の学習装置。
前記統計学習は、ブースティング学習である
ことを特徴とする請求項２に記載の学習装置。
認識対象を含む画像のみからなる学習用モデル画像より複数の第１の特徴点を抽出する第１の特徴点抽出ステップと、
前記第１の特徴点抽出ステップの処理により抽出された前記複数の第１の特徴点より、それぞれ第１の特徴量を抽出する第１の特徴量抽出ステップと、
所定の位置関係を有する、少なくとも２個以上の第１の特徴点の第１の特徴量を合わせて、複数の第１の特徴情報を生成する第１の特徴情報生成ステップと、
前記認識対象を含む画像と含まない画像とからなる学習用入力画像より複数の第２の特徴点を抽出する第２の特徴点抽出ステップと、
前記第２の特徴点抽出ステップの処理により抽出された前記複数の第２の特徴点より、それぞれ第２の特徴量を抽出する第２の特徴量抽出ステップと、
前記所定の位置関係を有する、少なくとも２個以上の第２の特徴点の第２の特徴量を合わせて、複数の第２の特徴情報を生成する第２の特徴情報生成ステップと、
前記複数の第１の特徴情報のそれぞれについて、前記複数の第２の特徴情報のうち、最も相関の高い第２の特徴情報を選択する選択ステップと、
前記選択ステップの処理により選択された第２の特徴情報を用いた統計学習により前記認識対象を認識する認識器を生成する認識器生成ステップと
を含むことを特徴とする学習方法。
認識対象を含む画像のみからなる学習用モデル画像より複数の第１の特徴点を抽出する第１の特徴点抽出ステップと、
前記第１の特徴点抽出ステップの処理により抽出された前記複数の第１の特徴点より、それぞれ第１の特徴量を抽出する第１の特徴量抽出ステップと、
所定の位置関係を有する、少なくとも２個以上の第１の特徴点の第１の特徴量を合わせて、複数の第１の特徴情報を生成する第１の特徴情報生成ステップと、
前記認識対象を含む画像と含まない画像とからなる学習用入力画像より複数の第２の特徴点を抽出する第２の特徴点抽出ステップと、
前記第２の特徴点抽出ステップの処理により抽出された前記複数の第２の特徴点より、それぞれ第２の特徴量を抽出する第２の特徴量抽出ステップと、
前記所定の位置関係を有する、少なくとも２個以上の第２の特徴点の第２の特徴量を合わせて、複数の第２の特徴情報を生成する第２の特徴情報生成ステップと、
前記複数の第１の特徴情報のそれぞれについて、前記複数の第２の特徴情報のうち、最も相関の高い第２の特徴情報を選択する選択ステップと、
前記選択ステップの処理により選択された第２の特徴情報を用いた統計学習により前記認識対象を認識する認識器を生成する認識器生成ステップと
を含むことを特徴とするコンピュータが読み取り可能なプログラムが記録されている記録媒体。
認識対象を含む画像のみからなる学習用モデル画像より複数の第１の特徴点を抽出する第１の特徴点抽出ステップと、
前記第１の特徴点抽出ステップの処理により抽出された前記複数の第１の特徴点より、それぞれ第１の特徴量を抽出する第１の特徴量抽出ステップと、
所定の位置関係を有する、少なくとも２個以上の第１の特徴点の第１の特徴量を合わせて、複数の第１の特徴情報を生成する第１の特徴情報生成ステップと、
前記認識対象を含む画像と含まない画像とからなる学習用入力画像より複数の第２の特徴点を抽出する第２の特徴点抽出ステップと、
前記第２の特徴点抽出ステップの処理により抽出された前記複数の第２の特徴点より、それぞれ第２の特徴量を抽出する第２の特徴量抽出ステップと、
前記所定の位置関係を有する、少なくとも２個以上の第２の特徴点の第２の特徴量を合わせて、複数の第２の特徴情報を生成する第２の特徴情報生成ステップと、
前記複数の第１の特徴情報のそれぞれについて、前記複数の第２の特徴情報のうち、最も相関の高い第２の特徴情報を選択する選択ステップと、
前記選択ステップの処理により選択された第２の特徴情報を用いた統計学習により前記認識対象を認識する認識器を生成する認識器生成ステップと
を含む処理をコンピュータに実行させることを特徴とするプログラム。
認識用入力画像より複数の第１の特徴点を抽出する第１の特徴点抽出手段と、
前記第１の特徴点抽出手段により抽出された前記複数の第１の特徴点より、それぞれ第１の特徴量を抽出する第１の特徴量抽出手段と、
所定の位置関係を有する、少なくとも２個以上の第１の特徴点の第１の特徴量を合わせて、複数の第１の特徴情報を生成する第１の特徴情報生成手段と、
認識対象を含む画像のみからなる学習用モデル画像より抽出された、所定の位置関係を有する、少なくとも２個以上の第２の特徴点の第２の特徴量を合わせた複数の第２の特徴情報のそれぞれについて、最も相関の高い第１の特徴情報を選択する選択手段と、
前記複数の第２の特徴情報のそれぞれについて、最も相関の高い、前記認識対象を含む画像と含まない画像からなる学習用入力画像より抽出された、前記所定の位置関係を有する、少なくとも２個以上の第３の特徴点の第３の特徴量を合わせた複数の第３の特徴情報を用いた統計学習により生成される認識器を用いて、前記選択手段により選択された第１の特徴情報に基づいて、前記認識用入力画像における認識対象の有無を認識する認識手段と
を含むことを特徴とする画像認識装置。
認識用入力画像より複数の第１の特徴点を抽出する第１の特徴点抽出ステップと、
前記第１の特徴点抽出ステップの処理により抽出された前記複数の第１の特徴点より、それぞれ第１の特徴量を抽出する第１の特徴量抽出ステップと、
所定の位置関係を有する、少なくとも２個以上の第１の特徴点の第１の特徴量を合わせて、複数の第１の特徴情報を生成する第１の特徴情報生成ステップと、
認識対象を含む画像のみからなる学習用モデル画像より抽出された、所定の位置関係を有する、少なくとも２個以上の第２の特徴点の第２の特徴量を合わせた複数の第２の特徴情報のそれぞれについて、最も相関の高い第１の特徴情報を選択する選択ステップと、
前記複数の第２の特徴情報のそれぞれについて、最も相関の高い、前記認識対象を含む画像と含まない画像からなる学習用入力画像より抽出された、前記所定の位置関係を有する、少なくとも２個以上の第３の特徴点の第３の特徴量を合わせた複数の第３の特徴情報を用いた統計学習により生成される認識器を用いて、前記選択ステップの処理により選択された第１の特徴情報に基づいて、前記認識用入力画像における認識対象の有無を認識する認識ステップと
を含むことを特徴とする認識方法。
認識用入力画像より複数の第１の特徴点を抽出する第１の特徴点抽出ステップと、
前記第１の特徴点抽出ステップの処理により抽出された前記複数の第１の特徴点より、それぞれ第１の特徴量を抽出する第１の特徴量抽出ステップと、
所定の位置関係を有する、少なくとも２個以上の第１の特徴点の第１の特徴量を合わせて、複数の第１の特徴情報を生成する第１の特徴情報生成ステップと、
認識対象を含む画像のみからなる学習用モデル画像より抽出された、所定の位置関係を有する、少なくとも２個以上の第２の特徴点の第２の特徴量を合わせた複数の第２の特徴情報のそれぞれについて、最も相関の高い第１の特徴情報を選択する選択ステップと、
前記複数の第２の特徴情報のそれぞれについて、最も相関の高い、前記認識対象を含む画像と含まない画像からなる学習用入力画像より抽出された、前記所定の位置関係を有する、少なくとも２個以上の第３の特徴点の第３の特徴量を合わせた複数の第３の特徴情報を用いた統計学習により生成される認識器を用いて、前記選択ステップの処理により選択された第１の特徴情報に基づいて、前記認識用入力画像における認識対象の有無を認識する認識ステップと
を含むことを特徴とするコンピュータが読み取り可能なプログラムが記録されている記録媒体。
認識用入力画像より複数の第１の特徴点を抽出する第１の特徴点抽出ステップと、
前記第１の特徴点抽出ステップの処理により抽出された前記複数の第１の特徴点より、それぞれ第１の特徴量を抽出する第１の特徴量抽出ステップと、
所定の位置関係を有する、少なくとも２個以上の第１の特徴点の第１の特徴量を合わせて、複数の第１の特徴情報を生成する第１の特徴情報生成ステップと、
認識対象を含む画像のみからなる学習用モデル画像より抽出された、所定の位置関係を有する、少なくとも２個以上の第２の特徴点の第２の特徴量を合わせた複数の第２の特徴情報のそれぞれについて、最も相関の高い第１の特徴情報を選択する選択ステップと、
前記複数の第２の特徴情報のそれぞれについて、最も相関の高い、前記認識対象を含む画像と含まない画像からなる学習用入力画像より抽出された、前記所定の位置関係を有する、少なくとも２個以上の第３の特徴点の第３の特徴量を合わせた複数の第３の特徴情報を用いた統計学習により生成される認識器を用いて、前記選択ステップの処理により選択された第１の特徴情報に基づいて、前記認識用入力画像における認識対象の有無を認識する認識ステップと
を含む処理をコンピュータに実行させることを特徴とするプログラム。