JP4618098B2

JP4618098B2 - 画像処理システム

Info

Publication number: JP4618098B2
Application number: JP2005319018A
Authority: JP
Inventors: 順横野
Original assignee: Sony Corp
Current assignee: Sony Corp
Priority date: 2005-11-02
Filing date: 2005-11-02
Publication date: 2011-01-26
Anticipated expiration: 2025-11-02
Also published as: JP2007128195A; US7801354B2; US20070098255A1

Description

本発明は、画像処理システムに関し、特に認識対象を認識するための認識器を生成する学習装置、認識器を用いて認識画像に認識対象が含まれているか否かの認識を行う認識装置、および、これらにおける処理方法ならびに当該方法をコンピュータに実行させるプログラムに関する。

画像処理による物体認識（Object Recognition）の手法は、近年様々なものが提案されており、最近１０年で飛躍的に向上している。近年の手法では、全体の画像を局所領域（local region）と呼ばれるいくつかの小さい領域に分割し、その局所領域から得られる特徴点や特徴量といった局所情報に基づいて物体認識を行うことが主流になりつつある。なお、この局所領域という表現は、局所記述子（local descriptor）、コンポーネント（component）、パーツ（parts）、フラグメント（fragments）等、様々な呼称を有する。

このような局所情報に基づいて物体認識を実現する方法として、エラスティック・バンチ・グラフ・マッチング（Elastic Bunch Graph Matching：ＥＢＧＭ）法が提案されている（例えば、非特許文献１参照。）。このＥＢＧＭ法では、局所情報としてガボアジェッツ（Gabor Jet）が用いられる。このガボアジェッツは、様々な方向と周波数に対する反応を集めたベクトルを一つの特徴量として扱うものであり、人間の第一次視覚野に存在すると言われる方向選択性細胞（oriented filter）の出力として得られるものである。このＥＢＧＭ法では、人間によって与えられた各特徴点において特徴量をガボアジェッツとして集めて、所定の評価関数によってマッチングが行われる。ここでは、評価関数として、特徴点近傍における最も相関の高い点に至る距離およびその相関値が用いられる。

また、このような近傍で最も相関の高いものを特徴量として用いるという考え方は、ＨＭＡＸモデルにおいても用いられている（例えば、非特許文献２参照。）。このＨＭＡＸモデルでは、人間の視覚処理システムをモデル化した物体認識の方法であり、スケール方向と空間方向の両方向をサーチして反応が最も大きいニューロンの値を特徴量とするものである。このＨＭＡＸモデルでは、位置に依存しない認識が行われるため、パターンの歪みや位置ずれに対して柔軟に対応することができる。
Martin Lades, Jan C. Vorbruggen, Joachim M. Buhmann, Jorg Lange, Christoph von der Malsburg, Rolf P. Wurtz, Wolfgang Konen : "Distortion Invariant Object Recognition in the Dynamic Link Architecture", IEEE Trans. on Computers, Vol.42, No.3, pp.300-311, 1993. Riesenhuber, M. and T. Poggio : "Hierarchical Models of Object Recognition in Cortex", Nature Neuroscience, 2, pp.1019-1025, 1999.

しかしながら、これら従来技術においては、局所情報として得られる特徴量がその種類によって内容が異なり、相互に互換性が担保されない。例えば、色に関する特徴量と形に関する特徴量とでは、一般にベクトルの次元やスケールが異なるため、互いに比較対象とはなり得ない。従って、異なる種類の特徴量を利用して物体の認識に役立てることは困難である。

そこで、本発明は、異なる種類の特徴量を利用した物体認識の手法を実現することを目的とする。

本発明は、上記課題を解決するためになされたものであり、その第１の側面は、「認識対象を認識するための認識器を予め生成する学習装置と、上記認識器を用いて認識画像に上記認識対象が含まれているか否かの認識を行う認識装置と」を具備する画像処理システムであって、上記学習装置は、「上記認識対象を含むモデル画像から複数の特徴点をモデル特徴点として生成するモデル特徴点生成手段と、上記モデル特徴点の各々における特徴量をモデル特徴量として生成するモデル特徴量生成手段と、上記認識対象を含む画像および含まない画像の何れかから成る学習画像から複数の特徴点を学習特徴点として生成する学習特徴点生成手段と、上記学習特徴点の各々における特徴量を学習特徴量として生成する学習特徴量生成手段と、上記モデル特徴量の各々について上記学習特徴量のうち最も相関の高いものを選択してその選択された学習特徴量との間の相関の程度を学習相関特徴量として生成する学習相関特徴量生成手段と、上記学習画像が上記認識対象を含むか否かを示す正誤情報および上記学習相関特徴量に基づいて認識器を生成する認識器生成手段と」を備え、上記認識装置は、「上記認識画像から複数の特徴点を認識特徴点として生成する認識特徴点生成手段と、上記認識特徴点の各々における特徴量を認識特徴量として生成する認識特徴量生成手段と、上記モデル特徴量の各々について上記認識特徴量のうち最も相関の高いものを選択してその選択された認識特徴量との間の相関の程度を認識相関特徴量として生成する認識相関特徴量生成手段と、上記認識相関特徴量を上記認識器に代入することによって上記認識画像に上記認識対象が含まれているか否かを判断する認識処理手段と」を備えることを特徴とする画像処理システムである。これにより、学習特徴量を学習相関特徴量に変換して認識器の学習を行い、認識特徴量を認識相関特徴量に変換して認識処理を行うため、種類の異なる特徴量を同じスケールの下で相互に比較して認識対象の存否を判断させるという作用をもたらす。

また、本発明の第２の側面は、認識対象を含むモデル画像から複数の特徴点をモデル特徴点として生成するモデル特徴点生成手段と、上記モデル特徴点の各々における特徴量をモデル特徴量として生成するモデル特徴量生成手段と、上記認識対象を含む画像および含まない画像の何れかから成る学習画像から複数の特徴点を学習特徴点として生成する学習特徴点生成手段と、上記学習特徴点の各々における特徴量を学習特徴量として生成する学習特徴量生成手段と、上記モデル特徴量の各々について上記学習特徴量のうち最も相関の高いものを選択してその選択された学習特徴量との間の相関の程度を学習相関特徴量として生成する学習相関特徴量生成手段と、上記学習画像が上記認識対象を含むか否かを示す正誤情報および上記学習相関特徴量に基づいて認識器を生成する認識器生成手段とを具備することを特徴とする学習装置である。これにより、学習特徴量を学習相関特徴量に変換して認識器の学習を行うため、種類の異なる特徴量を同じスケールの下で扱い、統計学習させるという作用をもたらす。

また、この第２の側面において、上記モデル特徴点および上記学習特徴点は当該特徴点における特徴量の種類に応じて選択されるようにしてもよい。これにより、特徴量の種類に適した特徴点が適宜利用される。これらモデル特徴点および学習特徴点は、例えば、コーナー点や認識対象における領域内に設けることができる。

また、この第２の側面において、上記モデル特徴量および上記学習特徴量は当該特徴量の種類に応じて選択されるようにしてもよい。これにより、特徴量の種類に適した特徴量が適宜利用される。これらモデル特徴量および学習特徴量は、例えば、モデル特徴点および学習特徴点における二次微分や色の分布により取得することができる。

また、この第２の側面において、上記認識器生成手段が上記学習相関特徴量について閾値を設けて当該閾値を基準として上記学習相関特徴量の選別を行うようにしてもよい。これにより、認識に適した学習相関特徴量を認識器に反映させるという作用をもたらす。このような認識器の生成および学習相関特徴量の選別は、ブースティングアルゴリズムにより実現することができる。このブースティングアルゴリズムは、重み付き投票に基づくものであり、例えば、"Discrete AdaBoost Algorithm"や"Gentle AdaBoost Algorithm"等を利用することができる。

また、本発明の第３の側面は、入力された認識画像から複数の特徴点を認識特徴点として生成する認識特徴点生成手段と、上記認識特徴点の各々における特徴量を認識特徴量として生成する認識特徴量生成手段と、認識対象を含むモデル画像から生成されたモデル特徴点におけるモデル特徴量の各々について上記認識特徴量のうち最も相関の高いものを選択してその選択された認識特徴量との間の相関の程度を認識相関特徴量として生成する認識相関特徴量生成手段と、上記認識対象を含む画像および含まない画像の何れかから成る学習画像について上記認識対象を含むか否かを示す正誤情報と上記モデル特徴量の各々について上記学習特徴量のうち最も相関の高いものとの間の相関の程度を示す学習相関特徴量とから生成された認識器に上記認識相関特徴量を代入することによって上記認識画像に上記認識対象が含まれているか否かを判断する認識処理手段とを具備することを特徴とする認識装置である。これにより、認識特徴量を認識相関特徴量に変換して、学習相関特徴量に基づいて統計学習された認識器を用いて認識処理を行うため、種類の異なる特徴量を同じスケールの下で相互に比較して認識対象の存否を判断させるという作用をもたらす。

また、本発明の第４の側面は、認識対象を含むモデル画像から複数の特徴点をモデル特徴点として生成する手順と、上記モデル特徴点の各々における特徴量をモデル特徴量として生成する手順と、上記認識対象を含む画像および含まない画像の何れかから成る学習画像から複数の特徴点を学習特徴点として生成する手順と、上記学習特徴点の各々における特徴量を学習特徴量として生成する手順と、上記モデル特徴量の各々について上記学習特徴量のうち最も相関の高いものを選択してその選択された学習特徴量との間の相関の程度を学習相関特徴量として生成する手順と、上記学習画像が上記認識対象を含むか否かを示す正誤情報および上記学習相関特徴量に基づいて認識器を生成する手順とを具備することを特徴とする学習方法またはこれら手順をコンピュータに実行させることを特徴とするプログラムである。これにより、学習特徴量を学習相関特徴量に変換して認識器の学習を行うため、種類の異なる特徴量を同じスケールの下で扱い、統計学習させるという作用をもたらす。

本発明によれば、異なる種類の特徴量を利用した物体認識の手法を実現することができるという優れた効果を奏し得る。

次に本発明の実施の形態について図面を参照して詳細に説明する。

図１は、本発明の実施の形態による画像処理システムにおける学習フェーズの概要を示す図である。ここでは、Ｘ個（Ｘは２以上の整数）のモデル画像１０１（ＰＭ_１乃至ＰＭ_Ｘ）から生成されたＮ個（Ｎは２以上の整数）の特徴点（モデル特徴点）における特徴量（モデル特徴量）がモデル特徴量記憶部１３０（特徴量プール）に蓄積される。モデル画像１０１は、全て認識対象を含むものである。すなわち、モデル特徴量記憶部１３０には、認識対象を含む画像全般の特徴点における特徴量が蓄積されることになる。なお、この例では、帽子を被った熊のぬいぐるみが認識対象として含まれている。

一方、Ｍ個（Ｍは２以上の整数）の学習画像１０２（ＰＩ_１乃至ＰＩ_Ｍ）には、認識対象を含むものと含まないものとが混在する。認識対象を含むか否かは、正誤情報１０３によって示される。この例では、認識対象を含む場合には「＋１」を、認識対象を含まない場合には「−１」をそれぞれ示している。すなわち、学習画像１０２として、認識対象を含む画像全般の特徴点における特徴量または認識対象を含まない画像全般の特徴点における特徴量が、認識対象を含むか否かの正誤情報１０３とともに供給される。

Ｍ個の学習画像１０２の各々について生成された複数の特徴点（学習特徴点）における特徴量（学習特徴量）は、モデル特徴量記憶部１３０に記憶されたＮ個のモデル特徴量との間の相関値が生成され、Ｎ個のモデル特徴量のそれぞれに対して最も相関の高い学習特徴量が選択されて、その際に生成されたＮ個の相関値が相関特徴量となる。この相関特徴量は、Ｍ個の学習画像１０２の各々について生成され、Ｍ個の学習相関特徴量１６９を構成する。

このようにして得られた学習相関特徴量１６９および正誤情報１０３によって認識器の学習が行われる。この認識器は、学習フェーズに続く認識フェーズにおいて、入力された認識画像に認識対象が含まれているか否かを判断するためのものである。

図２は、本発明の実施の形態における画像処理システムの一構成例を示す図である。この画像処理システムは、学習フェーズに用いられる学習装置１００と、認識フェーズに用いられる認識装置２００とを備え、これら学習装置１００と認識装置２００との間に選択特徴量記憶部３１０および認識器記憶部３２０を備えている。

学習装置１００は、モデル特徴点生成部１１０と、モデル特徴量生成部１２０と、モデル特徴量記憶部１３０と、学習特徴点生成部１４０と、学習特徴量生成部１５０と、学習相関特徴量生成部１６０と、認識器生成部１７０とを備えている。

モデル特徴点生成部１１０は、モデル画像１０１からモデル特徴点を生成するものである。モデル特徴量生成部１２０は、モデル特徴点生成部１１０によって生成されたモデル特徴点におけるモデル特徴量を生成するものである。モデル特徴量記憶部１３０は、モデル特徴量生成部１２０によって生成されたモデル特徴点におけるモデル特徴量を記憶するものである。

学習特徴点生成部１４０は、学習画像１０２から学習特徴点を生成するものである。学習特徴量生成部１５０は、学習特徴点生成部１４０によって生成された学習特徴点における学習特徴量を生成するものである。

学習相関特徴量生成部１６０は、モデル特徴量のそれぞれに対して各学習特徴量との間の相関を求めて、学習相関特徴量１６９を生成するものである。認識器生成部１７０は、学習相関特徴量生成部１６０によって生成された学習相関特徴量１６９および正誤情報１０３に基づいて認識器の統計学習を行い、その過程で選択されたモデル特徴量を選択特徴量記憶部３１０に記憶させるとともに、認識器を認識器記憶部３２０に記憶させる。

認識装置２００は、認識特徴点生成部２４０と、認識特徴量生成部２５０と、認識相関特徴量生成部２６０と、認識処理部２７０とを備えている。

認識特徴点生成部２４０は、認識画像２０２から特徴点（認識特徴点）を生成するものである。認識特徴量生成部２５０は、認識特徴点生成部２４０によって生成された認識特徴点における特徴量（認識特徴量）を生成するものである。

認識相関特徴量生成部２６０は、選択特徴量記憶部３１０に記憶されたモデル特徴量のそれぞれに対して各認識特徴量との間の相関を求めて、認識相関特徴量を生成するものである。認識処理部２７０は、認識相関特徴量生成部２６０によって生成された認識相関特徴量を、認識器記憶部３２０に記憶された認識器へ代入することによって、認識画像２０２の各々に認識対象が含まれるか否かの認識を行って、その結果を認識結果２７９として出力するものである。

この画像処理システムにおいて利用される特徴量は、局所特徴量（local features）および大域特徴量（global features）の何れでもよく、その種類も、形、色、動き、テクスチャ、素材、歩行パターンなどに関する種々のものを定義することができる。例えば、形に関する局所特徴量としては、部分領域の輝度情報をそのまま利用してもよく、また、ラプラシアン（二次微分）、ガウシアン微分関数（Gaussian Derivatives）、ステアラブルフィルタ（Steerable Filters）、ガボアフィルタ（Gabor Filters）、ＳＩＦＴ（Scale-Invariant Features Transform）などによる変換を施したものを採用してもよい。また、色に関する局所特徴量としては、部分領域の色情報（ＲＧＢやＨＳＶ等）をそのまま利用してもよく、また、ヒストグラムとしてまとめた情報を採用してもよい。さらに、動きに関する局所特徴量としては、動きベクトル（optical flow）を利用することができる。

また、特徴点については、画像における任意の点を利用することができるが、一般にはエッジやコーナー点が用いられることが多い。この特徴点は、特徴量の種類によって定義することができる。例えば、形に関する特徴量についてはエッジやコーナー点に特徴が現れ易いため、エッジやコーナー点を特徴点として採用することが望ましい。一方、色に関する特徴量については、物体の領域内に特徴が現れ易いため、特定の点に限定せずにランダムな点を特徴点として採用することが望ましい。

形に関する特徴点としてエッジやコーナー点を求めるためには、ハリス・コーナー点検出器（Harris corner detector）を用いることができる。このハリス・コーナー点検出器では、まず、画像データにおける各画素点Ｉ（ｘ，ｙ）において、その輝度勾配を求め、局所領域での２次モーメントマトリックスＭを次式のように算出する。

この２次モーメントマトリックスＭの２つの固有値をαおよびβとすると、固有値αおよびβのうち、両者が所定の閾値より大きければコーナー点、片方が所定の閾値より大きければエッジ、両方が所定の閾値より小さければ何もない点となる。そこで、この判定を行うために、この２次モーメントマトリックスＭの行列式ｄｅｔ（Ｍ）およびトレース（対角成分の和）ｔｒａｃｅ（Ｍ）を算出して、次式のコーナー応答関数ＣＲを求める。ここで、ｋ＝０．０４である。
ＣＲ＝ｄｅｔ（Ｍ）−ｋ（ｔｒａｃｅ（Ｍ））^２

このコーナー応答関数ＣＲが正の数であればコーナー点であることを意味し、負の数であればエッジであることを意味する。但し、コーナー応答関数ＣＲが一定値よりも小さい場合には何もない点となる。このような手順によりコーナー点またはエッジを抽出することができる。

なお、ここではコーナー点またはエッジを判定するために減算によるコーナー応答関数ＣＲを用いたが、次式のように除算を用いてもよい。
ＣＲ＝ｄｅｔ（Ｍ）／（ｋ（ｔｒａｃｅ（Ｍ））^２）

また、形に関する特徴量としてラプラシアンを用いる場合、以下のガウシアン微分関数Ｇをｘ方向およびｙ方向にそれぞれ二次微分することにより求めることができる。

ｘ方向およびｙ方向の一次微分は、それぞれ次式のようになる。
Ｇｘ＝−（ｘ／σ^２）Ｇ
Ｇｙ＝−（ｙ／σ^２）Ｇ

また、ｘ方向およびｙ方向の二次微分は、それぞれ次式のようになる。
Ｇｘｘ＝（ｘ^２／σ^４−１／σ^２）Ｇ
Ｇｙｙ＝（ｙ^２／σ^４−１／σ^２）Ｇ

したがって、ラプラシアンＬは、次式により得られる。
Ｌ＝Ｇｘｘ＋Ｇｙｙ＝（（ｘ^２＋ｙ^２）／σ^４−２／σ^２）Ｇ

一方、色に関する特徴点として色のヒストグラムを利用する場合、色空間を所定の色領域に区切って、各色領域における分布を求める。図３は、ＨＳＶ空間におけるヒストグラムの例である。なお、このＨＳＶ表現では、Ｈ（Hue）が色相を表し、Ｓ（Saturation）が彩度を表し、Ｖ（Value）が明度を表す。

図３（ａ）では簡単な例として、ＨＳＶ各成分についてそれぞれ２区間に区分して、合計８つ（＝２^３）の色領域を設けている。ある特徴点についてその近傍（例えば、１０ピクセル程度）を含む画像領域における色の分布から、各色領域における出現頻度を求めたものが図３（ｂ）のヒストグラムである。

このように、特徴点や特徴量は、特徴量の種類に応じてそれぞれ適したものを定義することができる。そして、このようにして求められた特徴量は、学習相関特徴量生成部１６０および認識相関特徴量生成部２６０において相関特徴量に変換される。この学習相関特徴量生成部１６０および認識相関特徴量生成部２６０では、学習特徴量および認識特徴量のそれぞれについてモデル特徴量との相関を求めることにより、様々な特徴量を同じ次元で比較し、認識器の学習に供する。

一般に、特徴量を表す２つのベクトルｖ_１およびｖ_２の相関値Ｃは、次式により算出される。なお、ベクトルの上線は当該ベクトルの平均を表す。
この相関値Ｃは、０．０から１．０までの範囲の値となり、相関が高いほど１．０に近く、相関が低いほど０．０に近い値を示す。

また、相関値を求める際には、背景技術の項で説明したエラスティック・バンチ・グラフ・マッチング（ＥＢＧＭ）法を利用してもよい。このＥＢＧＭ法では、モデル特徴量記憶部１３０に記憶されたモデル特徴量に対応する特徴点の近傍で最も相関の高い点（相関最大点）を求め、その相関最大点における相関値を相関特徴量として利用する。

図４は、ＥＢＧＭ法による相関最大点の探索例を示す図である。モデル画像において特徴点４１１が生成されると、特徴点４１１に対応する学習画像上の点４２１が定まる。学習相関特徴量生成部１６０は、学習画像上の点４２１の近傍で特徴点４１１との間の相関値を算出して、相関最大点４２２を求める。この相関最大点４２２における相関値が学習相関特徴量となる。

このように、相関特徴量を求める際にＥＢＧＭ法を利用することにより、物体の歪みや視点の変化に対してロバストになり、これら外乱に対してより柔軟に対応することができるようになる。

なお、ここでは、学習相関特徴量生成部１６０において学習相関特徴量を求める際にＥＢＧＭ法を利用する場合について説明したが、認識相関特徴量生成部２６０において認識相関特徴量を求める際にも同様にＥＢＧＭ法を適用することができる。

図５は、本発明の実施の形態における相関特徴量算出例の概要を示す図である。ここでは、モデル特徴量記憶部１３０に記憶されたモデル特徴量１３９の種類として、色に関するモデル特徴量１３１、形に関するモデル特徴量１３２、および、動きに関するモデル特徴量１３３を想定している。

学習相関特徴量生成部１６０における色に関する相関算出部１６１は、色に関するモデル特徴量１３１について、学習特徴量１５９の中で対応する学習特徴量１５１との間の相関値を算出する。同様に、形に関する相関算出部１６２は、形に関するモデル特徴量１３２について、対応する学習特徴量１５２との間の相関値を算出する。また、動きに関する相関算出部１６３は、動きに関するモデル特徴量１３３について、対応する学習特徴量１５３との間の相関値を算出する。

このように、相関算出部１６１乃至１６３は、それぞれ異なる種類の特徴量について相関値を算出する。元々の特徴量自体は、特徴量の種類によってベクトルの次元が異なるため、互いにそのままの形で比較することは難しい。しかし、本発明の実施の形態においては、相関の度合いに応じて一定の範囲の値（０．０から１．０）を示す相関特徴量に正規化するため、異なる種類の特徴量であっても互換性を有する。このような相関特徴量を用いて認識器の学習を行い、認識を行うことによって、様々な種類の特徴量を用いた統計学習による物体認識を実現することができる。

なお、ここでは、学習相関特徴量生成部１６０において学習特徴量から学習相関特徴量に変換する際の処理について説明したが、認識相関特徴量生成部２６０において認識特徴量から認識相関特徴量に変換する際の処理もこれと同様である。

図６は、本発明の実施の形態における認識器生成部１７０による学習例の概要を示す図である。ここで、Ｍ個の学習画像１０２（ＰＩ₁乃至ＰＩ_Ｍ）の相関特徴量の各々は、モデル特徴量記憶部１３０に記憶されたモデル特徴量の特徴点の数Ｎに対応するＮ次元のベクトルとして表される。すなわち、１個目の学習画像ＰＩ₁の相関特徴量は（Ａ₁，Ａ₂，・・・，Ａ_N）、２個目の学習画像ＰＩ_２の相関特徴量は（Ｂ₁，Ｂ₂，・・・，Ｂ_N）、３個目の学習画像ＰＩ_３の相関特徴量は（Ｃ₁，Ｃ₂，・・・，Ｃ_N）と表され、同様の要領でＭ個目の学習画像ＰＩ_Ｍの相関特徴量は（Ｍ₁，Ｍ₂，・・・，Ｍ_N）と表される。

このとき、モデル特徴量の特徴点ｋに対してグループＧｒ_ｋを想定すると、特徴点ｋ＝１の相関特徴量はグループＧｒ₁によって示される（Ａ₁，Ｂ₁，Ｃ₁，・・・，Ｍ₁）であり、同様に、特徴点ｋ＝２の相関特徴量はグループＧｒ₂によって示される（Ａ₂，Ｂ₂，Ｃ₂，・・・，Ｍ₂）であり、同様の要領で、特徴点ｋ＝Ｎの相関特徴量はグループＧｒ_Nによって示される（Ａ_N，Ｂ_N，Ｃ_N，・・・，Ｍ_N）となる。すなわち、各特徴点ｋについて、Ｍ個の学習画像ＰＩ₁乃至ＰＩ_Ｍに対応して計Ｍ個の相関特徴量のグループＧｒ_kが定義されることになる。

なお、左端の「＋１」もしくは「−１」の値は、正誤情報１０３であり、対応する学習画像１０２が認識対象を含むか否かを示している。

特徴点ｋ毎に、各学習画像１０２（ＰＩ_ｉ）に設定された重みｗ_ｉに応じて相関特徴量がＭ個抽選で抽出される。最初の処理においては、いずれの重みｗ_ｉも等しく、Ｍ個が抽選されると確率的には全ての相関特徴量が選択されることになるため、最初の処理では各特徴点ｋにおいて全ての相関特徴量が選択されたものとする。これ以降の繰り返しにおいては、同一の相関特徴量が重複して選択されることもあり得る。

Ｎ個の特徴点ｋのそれぞれについて、グループＧｒ_k内で昇順（もしくは降順）になるように予め並び替えておく。そして、閾値を変化させながら特徴点ｋ毎のグループＧｒ_kの誤り率ｅ_ｊｋを次式により計算して、この誤り率ｅ_ｊｋが最小となるように閾値を設定する。但し、ｊは特徴点ｋにおける相関特徴量ベクトルｘに対するＬ個（Ｌは１以上の整数）の弱認識器ｆ_ｊｋ（ｘ）の番号をカウントするカウンタであり、１からＬの範囲を示す整数である。
ｅ_ｊｋ＝Ｅ_Ｗ［１（ｙ≠ｆ_ｊｋ（ｘ））］

ここで、教師ラベルｙ（すなわち、正誤情報１０３）および弱認識器ｆ_ｊｋ（ｘ）は認識対象の有無によって「＋１」もしくは「−１」の値を示し、両者が一致した場合には予想が的中したことを示す。そして、Ｅ_ｗは、予想が外れた場合に、誤りが生じたものとして誤り回数の累算を行う。

図７は、本発明の実施の形態における閾値の設定例を示す図である。誤り率ｅ_ｊｋを計算する際の閾値ｔｈ_ｊｋは、グループＧｒ_ｋにおける特徴量を２つに分けるように設定される。この例では、Ｊ＝１として、１つ目の特徴点ｋ＝１における閾値ｔｈ_１１の設定例を示している。グループＧｒ_１において相関特徴量を昇順に並び替えた結果、小さい方から「Ｌ₁，Ａ₁，Ｃ₁，Ｂ₁，・・・，Ｍ₁」となったものとする。ここでは、閾値ｔｈ_１１はＡ₁とＣ₁との間に設定され、閾値ｔｈ_１１より小さい範囲では認識対象が存在せず、閾値ｔｈ_１１より大きい範囲では認識対象が存在するものと想定されている。なお、この例では、相関特徴量Ａ₁およびＢ₁に対応する学習画像が認識対象を含み、これ以外は認識対象を含まないものとする。

このとき、図中の点線で囲まれた相関特徴量Ａ₁は、認識対象を含む学習相関特徴量であるにもかかわらず、閾値ｔｈ_１１よりも低くなっているため、誤りが生じたことになる。一方、相関特徴量Ｃ₁およびＭ₁は、認識対象を含まない学習相関特徴量であるにもかかわらず、閾値ｔｈ_１１よりも高くなっているため、これも誤りが生じたことになる。

このようにして誤り率ｅ_ｊｋが計算されると、次に、Ｎ個の誤り率ｅ_ｊｋのうち最小となる弱認識器ｆ_ｊｋ（ｘ）が選択され、その誤り率ｅ_ｊｋによって信頼度ｃ_ｊが次式によって計算される。
ｃ_ｊ＝log（（１−ｅ_ｊｋ）／ｅ_ｊｋ）

そして、さらにこのようにして得られた信頼度ｃ_ｊによって学習画像１０２の重みｗ_ｉ（ｉは１からＮの範囲を示す整数）が次式のように更新される。但し、ｗ_ｉの合計が１となるようにさらに正規化される。
ｗ_ｉ＝ｗ_ｉ・ｅｘｐ［−ｃ_ｊ・１（ｙ≠ｆ_ｊｋ（ｘ））］
これにより、誤りの発生した相関特徴量を含む学習画像の重みが大きくなり、再度学習を要する学習画像が明確に区別されることになる。

このようにして選択された弱認識器ｆ_ｊｋ（ｘ）が信頼度ｃ_ｊによって重み付けされて、相関特徴量ベクトルｘに対する認識器Ｒ（ｘ）が次式のように更新される。
Ｒ（ｘ）＝Ｒ（ｘ）＋ｃ_ｊ×ｆ_ｊｋ（ｘ）

その結果、認識器は、Ｒ（ｘ）が正の数であれば認識対象を含むことを示し、負の数であれば認識対象を含まないことを示すようになる。

また、誤り率ｅ_ｊｋが最小となる特徴点ｋのモデル特徴量が選択されて、選択特徴量記憶部３１０に記憶される。

このように弱認識器を学習処理により重み付けしながら付加することを繰り返して認識器を生成する学習処理は、ブースティング（重み付き投票）アルゴリズムの一種であり、"Discrete AdaBoost Algorithm"と呼ばれる。この学習処理において、誤り率の高い学習特徴量の重みが順次大きくなり、誤り率の低い学習特徴量の重みが小さくなるように、モデル特徴量ごとに認識器と誤り率が計算される処理が繰り返されることになる。したがって、繰り返し処理の中で、認識器を設定する際に選択される学習相関特徴量は、徐々に誤り率の高いものが選択され易くなり、認識し難い学習相関特徴量が繰り返されるほどに選択されて学習が繰り返されることになるため、認識し難い学習画像の相関特徴量がより多く選択されることになり、最終的に高い認識率にすることが可能となる。

また、このブースティングアルゴリズムによれば、Ｎ個の誤り率ｅ_ｊｋのうち最小となる特徴点ｋのモデル特徴量が選択されて、選択特徴量記憶部３１０に記憶されていくため、認識器の学習と特徴量の選択を同時に行うことができ、認識フェーズにおいてモデル特徴量記憶部１３０に記憶されている全ての特徴量を使用することなく、認識に適した特徴量を効率良く利用することができる。

次に本発明の実施の形態における画像処理システムの動作について図面を参照して説明する。

図８は、本発明の実施の形態による学習フェーズにおける学習処理の手順例を示す流れ図である。まず、Ｘ個のモデル画像１０１についてモデル特徴点生成部１１０によってＮ個のモデル特徴点が生成され（ステップＳ８１０）、そのモデル特徴点におけるＮ個のモデル特徴量がモデル特徴量生成部１２０によって生成される（ステップＳ８２０）。この生成されたモデル特徴量は、モデル特徴量記憶部１３０に記憶される。

続いて、Ｍ個の学習画像１０２の各々について学習特徴点生成部１４０によって学習特徴点が生成され（ステップＳ８３０）、その学習特徴点における学習特徴量が学習特徴量生成部１５０によって生成される（ステップＳ８４０）。

そして、モデル特徴量記憶部１３０に記憶されたＮ個のモデル特徴量のそれぞれに対して、学習画像１０２の各々における学習特徴点の学習特徴量との間の相関値が学習相関特徴量生成部１６０によって生成され、最も相関の高いものが学習相関特徴量とされる（ステップＳ８５０）。

また、この学習相関特徴量に基づいて認識器生成部１７０によって統計学習が行われ、その過程で選択されたモデル特徴量が選択特徴量記憶部３１０に記憶され、認識器が認識器記憶部３２０に記憶される（ステップＳ８６０）。

図９は、本発明の実施の形態による学習相関特徴量生成処理（ステップＳ８５０）の手順例を示す流れ図である。まず、Ｎ個の特徴点に関する処理を一つずつ行うために、特徴点を示すｋが「１」に初期化される（ステップＳ８５１）。

各特徴点ｋに関する処理として、モデル画像１０１の特徴点ｋにおけるモデル特徴量について、学習画像１０２の対応する特徴点における学習特徴量との間の相関値が生成される（ステップＳ８５２）。そして、この特徴点ｋについて生成された相関値の中で最も相関の高い学習特徴量が選択される（ステップＳ８５３）。また、この選択された学習特徴量の相関値が学習相関特徴量とされる（ステップＳ８５４）。

この各特徴点ｋに関する処理は、ｋが「１」からＮになるまで（ステップＳ８５５）、「１」ずつ加算されながら繰り返される（ステップＳ８５６）。

図１０は、本発明の実施の形態による認識器生成処理（ステップＳ８６０）の手順例を示す流れ図である。まず、Ｍ個の学習画像１０２（ＰＩ_ｉ）に対する重みｗ_ｉが全て「１／Ｍ」に正規化され、Ｌ個の弱認識器ｆ_ｊｋ（ｘ）の番号をカウントするカウンタｊが「１」に初期化され、また、認識器Ｒ（ｘ）が「０」に初期化される（ステップＳ８６１）。

第ｊ番目の弱認識器ｆ_ｊｋ（ｘ）に関する処理として、特徴点ｋ毎に重みｗ_ｉに応じて学習相関特徴量がＭ個選択される（ステップＳ８６２）。そして、この選択された学習相関特徴量は、図６において説明したようにグループＧｒ_k内で昇順（もしくは降順）になるように並び替えられる（ステップＳ８６３）。

このように並び替えられた学習相関特徴量について、図７において説明したように、誤り率ｅ_ｊｋが最小となるような閾値ｔｈ_ｊｋが設定され、これを満たす弱認識器ｆ_ｊｋ（ｘ）が設定される（ステップＳ８６４）。なお、その際、誤り率ｅ_ｊｋの計算には正誤情報１０３が参照される。また、誤り率ｅ_ｊｋが最小となる特徴点ｋが選択される（ステップＳ８６５）。そして、その場合の誤り率ｅ_ｊｋによって弱認識器ｆ_ｊｋ（ｘ）の信頼度ｃ_ｊが計算される（ステップＳ８６６）。なお、このようにして得られた信頼度ｃ_ｊによって学習画像１０２の重みｗ_ｉが更新され、さらに、ｗ_ｉの合計が１となるように正規化される（ステップＳ８６７）。

そして、これら弱認識器ｆ_ｊｋ（ｘ）および信頼度ｃ_ｊによって認識器Ｒ（ｘ）が更新されて、認識器記憶部３２０に記憶される（ステップＳ８６８）。また、誤り率ｅ_ｊｋが最小となる特徴点ｋのモデル特徴量が選択されて、選択特徴量記憶部３１０に記憶される（ステップＳ８６９）。

この第ｊ番目の弱認識器ｆ_ｊｋ（ｘ）に関する処理は、ｊが「１」からＬになるまで（ステップＳ８７１）、「１」ずつ加算されながら繰り返される（ステップＳ８７２）。

図１１は、本発明の実施の形態による認識フェーズにおける認識処理の手順例を示す流れ図である。まず、認識画像２０２のそれぞれについて認識特徴点生成部２４０によって認識特徴点が生成され（ステップＳ９１０）、その認識特徴点における認識特徴量が認識特徴量生成部２５０によって生成される（ステップＳ９２０）。

そして、選択特徴量記憶部３１０に記憶されたモデル特徴量のそれぞれに対して、認識画像２０２の各々における認識特徴点の認識特徴量との間の相関値が認識相関特徴量生成部２６０によって生成され、最も相関の高いものが認識相関特徴量とされる（ステップＳ９３０）。

このようにして生成された認識相関特徴量は、認識処理部２７０によって認識器記憶部３２０に記憶された認識器に代入され（ステップＳ９４０）、その結果として、認識画像に認識対象が含まれているか否かの認識結果２７９が出力される（ステップＳ９５０）。すなわち、認識器Ｒ（ｘ）が正の数であれば認識対象を含むことを示し、負の数であれば認識対象を含まないことを示す。

このように、本発明の実施の形態によれば、学習相関特徴量生成部１６０によって生成された学習相関特徴量を用いて認識器の学習を行い、認識相関特徴量生成部２６０によって生成された認識相関特徴量を用いて認識処理を行うため、種類の異なる特徴量を同じスケールの下で相互に比較して認識対象の存否を判断することができる。すなわち、物体認識を行うに際して様々な特徴量を適宜用いることができる。そのため、予め用意された様々な種類の特徴量の中から認識に適した特徴量の種類を自動的に選択して用いることができ、また、予め用意された様々な特徴量の中から認識に適した特徴量を自動的に選択して用いることができる。さらに、認識に適した特徴点を自動的に統計学習することができる。

なお、本発明の実施の形態では、ブースティングアルゴリズムの一例として"Discrete AdaBoost Algorithm"の適用例について説明したが、他のブースティングアルゴリズムを適用してもよく、例えば、"Gentle AdaBoost Algorithm"を用いるようにしてもよい。この"Gentle AdaBoost Algorithm"によれば、弱認識器がそれぞれ信頼度を含んだ連続変量の値を出力することになるため、対応した重み付けがなされて、信頼度の計算を省くことができる。

また、本発明の実施の形態は本発明を具現化するための一例を示したものであり、以下に示すように特許請求の範囲における発明特定事項とそれぞれ対応関係を有するが、これに限定されるものではなく本発明の要旨を逸脱しない範囲において種々の変形を施すことができる。

すなわち、請求項１において、学習装置は例えば学習装置１００に対応する。また、認識装置は例えば認識装置２００に対応する。また、モデル特徴点生成手段は例えばモデル特徴点生成部１１０に対応する。また、モデル特徴量生成手段は例えばモデル特徴量生成部１２０に対応する。また、学習特徴点生成手段は例えば学習特徴点生成部１４０に対応する。また、学習特徴量生成手段は例えば学習特徴量生成部１５０に対応する。また、学習相関特徴量生成手段は例えば学習相関特徴量生成部１６０に対応する。また、認識器生成手段は例えば認識器生成部１７０に対応する。また、認識特徴点生成手段は例えば認識特徴点生成部２４０に対応する。また、認識特徴量生成手段は例えば認識特徴量生成部２５０に対応する。また、認識相関特徴量生成手段は例えば認識相関特徴量生成部２６０に対応する。また、認識処理手段は例えば認識処理部２７０に対応する。

また、請求項２において、モデル特徴点生成手段は例えばモデル特徴点生成部１１０に対応する。また、モデル特徴量生成手段は例えばモデル特徴量生成部１２０に対応する。また、学習特徴点生成手段は例えば学習特徴点生成部１４０に対応する。また、学習特徴量生成手段は例えば学習特徴量生成部１５０に対応する。また、学習相関特徴量生成手段は例えば学習相関特徴量生成部１６０に対応する。また、認識器生成手段は例えば認識器生成部１７０に対応する。

また、請求項１１において、認識特徴点生成手段は例えば認識特徴点生成部２４０に対応する。また、認識特徴量生成手段は例えば認識特徴量生成部２５０に対応する。また、認識相関特徴量生成手段は例えば認識相関特徴量生成部２６０に対応する。また、認識処理手段は例えば認識処理部２７０に対応する。

また、請求項１２または１３において、認識対象を含むモデル画像から複数の特徴点をモデル特徴点として生成する手順は例えばステップＳ８１０に対応する。また、モデル特徴点の各々における特徴量をモデル特徴量として生成する手順は例えばステップＳ８２０に対応する。また、認識対象を含む画像および含まない画像の何れかから成る学習画像から複数の特徴点を学習特徴点として生成する手順は例えばステップＳ８３０に対応する。また、学習特徴点の各々における特徴量を学習特徴量として生成する手順は例えばステップＳ８４０に対応する。また、モデル特徴量の各々について学習特徴量のうち最も相関の高いものを選択してその選択された学習特徴量との間の相関の程度を学習相関特徴量として生成する手順は例えばステップＳ８５０に対応する。また、学習画像が前記認識対象を含むか否かを示す正誤情報および学習相関特徴量に基づいて認識器を生成する手順は例えばステップＳ８６０に対応する。

なお、本発明の実施の形態において説明した処理手順は、これら一連の手順を有する方法として捉えてもよく、また、これら一連の手順をコンピュータに実行させるためのプログラム乃至そのプログラムを記憶する記録媒体として捉えてもよい。

本発明の実施の形態による画像処理システムにおける学習フェーズの概要を示す図である。本発明の実施の形態における画像処理システムの一構成例を示す図である。ＨＳＶ空間におけるヒストグラムの一例を示す図である。ＥＢＧＭ法による相関最大点の探索例を示す図である。本発明の実施の形態における相関特徴量算出例の概要を示す図である。本発明の実施の形態における認識器生成部１７０による学習例の概要を示す図である。本発明の実施の形態における閾値の設定例を示す図である。本発明の実施の形態による学習フェーズにおける学習処理の手順例を示す流れ図である。本発明の実施の形態による学習相関特徴量生成処理の手順例を示す流れ図である。本発明の実施の形態による認識器生成処理の手順例を示す流れ図である。本発明の実施の形態による認識フェーズにおける認識処理の手順例を示す流れ図である。

符号の説明

１００学習装置
１０１モデル画像
１０２学習画像
１０３正誤情報
１１０モデル特徴点生成部
１２０モデル特徴量生成部
１３０モデル特徴量記憶部
１４０学習特徴点生成部
１５０学習特徴量生成部
１６０学習相関特徴量生成部
１６１〜１６３相関算出部
１６９学習相関特徴量
１７０認識器生成部
２００認識装置
２０２認識画像
２４０認識特徴点生成部
２５０認識特徴量生成部
２６０認識相関特徴量生成部
２７０認識処理部
３１０選択特徴量記憶部
３２０認識器記憶部

Claims

認識対象を認識するための認識器を予め生成する学習装置と、前記認識器を用いて認識画像に前記認識対象が含まれているか否かの認識を行う認識装置とを具備する画像処理システムであって、
前記学習装置は、
前記認識対象を含むモデル画像から複数の特徴点をモデル特徴点として生成するモデル特徴点生成手段と、
前記モデル特徴点の各々における特徴量をモデル特徴量として生成するモデル特徴量生成手段と、
前記認識対象を含む画像および含まない画像の何れかから成る学習画像から複数の特徴点を学習特徴点として生成する学習特徴点生成手段と、
前記学習特徴点の各々における特徴量を学習特徴量として生成する学習特徴量生成手段と、
前記モデル特徴量の各々について前記学習画像の対応する特徴点の近傍において前記学習特徴量のうち最も相関の高いものを前記学習画像毎に選択してその選択された学習特徴量との間の相関の程度を学習相関特徴量として生成する学習相関特徴量生成手段と、
前記学習画像が前記認識対象を含むか否かを示す正誤情報および前記学習相関特徴量に基づいて認識器を生成する認識器生成手段と
を備え、
前記認識装置は、
前記認識画像から複数の特徴点を認識特徴点として生成する認識特徴点生成手段と、
前記認識特徴点の各々における特徴量を認識特徴量として生成する認識特徴量生成手段と、
前記モデル特徴量の各々について前記認識画像の対応する特徴点の近傍において前記認識特徴量のうち最も相関の高いものを前記認識画像毎に選択してその選択された認識特徴量との間の相関の程度を認識相関特徴量として生成する認識相関特徴量生成手段と、
前記認識相関特徴量を前記認識器に代入することによって前記認識画像に前記認識対象が含まれているか否かを判断する認識処理手段と
を備える
ことを特徴とする画像処理システム。
認識対象を含むモデル画像から複数の特徴点をモデル特徴点として生成するモデル特徴点生成手段と、
前記モデル特徴点の各々における特徴量をモデル特徴量として生成するモデル特徴量生成手段と、
前記認識対象を含む画像および含まない画像の何れかから成る学習画像から複数の特徴点を学習特徴点として生成する学習特徴点生成手段と、
前記学習特徴点の各々における特徴量を学習特徴量として生成する学習特徴量生成手段と、
前記モデル特徴量の各々について前記学習画像の対応する特徴点の近傍において前記学習特徴量のうち最も相関の高いものを前記学習画像毎に選択してその選択された学習特徴量との間の相関の程度を学習相関特徴量として生成する学習相関特徴量生成手段と、
前記学習画像が前記認識対象を含むか否かを示す正誤情報および前記学習相関特徴量に基づいて認識器を生成する認識器生成手段と
を具備することを特徴とする学習装置。
前記モデル特徴点および前記学習特徴点は当該特徴点における特徴量の種類に応じて選択されることを特徴とする請求項２記載の学習装置。
前記モデル特徴点および前記学習特徴点はコーナー点に該当することを特徴とする請求項３記載の学習装置。
前記モデル特徴点および前記学習特徴点は前記認識対象における領域内に存在することを特徴とする請求項３記載の学習装置。
前記モデル特徴量および前記学習特徴量は当該特徴量の種類に応じて選択されることを特徴とする請求項２記載の学習装置。
前記モデル特徴量および前記学習特徴量は前記モデル特徴点および前記学習特徴点における二次微分により取得されることを特徴とする請求項６記載の学習装置。
前記モデル特徴量および前記学習特徴量は前記モデル特徴点および前記学習特徴点における色の分布により取得されることを特徴とする請求項６記載の学習装置。
前記認識器生成手段は、前記学習相関特徴量について閾値を設けて当該閾値を基準として前記学習相関特徴量の選別を行うことを特徴とする請求項２記載の学習装置。
前記認識器生成手段は、ブースティングアルゴリズムにより前記認識器の生成および前記学習相関特徴量の選別を行うことを特徴とする請求項９記載の学習装置。
入力された認識画像から複数の特徴点を認識特徴点として生成する認識特徴点生成手段と、
前記認識特徴点の各々における特徴量を認識特徴量として生成する認識特徴量生成手段と、
認識対象を含むモデル画像から生成されたモデル特徴点におけるモデル特徴量の各々について前記認識画像の対応する特徴点の近傍において前記認識特徴量のうち最も相関の高いものを前記認識画像毎に選択してその選択された認識特徴量との間の相関の程度を認識相関特徴量として生成する認識相関特徴量生成手段と、
前記認識対象を含む画像および含まない画像の何れかから成る学習画像について前記認識対象を含むか否かを示す正誤情報と前記モデル特徴量の各々について前記学習特徴量のうち最も相関の高いものとの間の相関の程度を示す学習相関特徴量とから生成された認識器に前記認識相関特徴量を代入することによって前記認識画像に前記認識対象が含まれているか否かを判断する認識処理手段と
を具備することを特徴とする認識装置。
認識対象を含むモデル画像から複数の特徴点をモデル特徴点として生成する手順と、
前記モデル特徴点の各々における特徴量をモデル特徴量として生成する手順と、
前記認識対象を含む画像および含まない画像の何れかから成る学習画像から複数の特徴点を学習特徴点として生成する手順と、
前記学習特徴点の各々における特徴量を学習特徴量として生成する手順と、
前記モデル特徴量の各々について前記学習画像の対応する特徴点の近傍において前記学習特徴量のうち最も相関の高いものを前記学習画像毎に選択してその選択された学習特徴量との間の相関の程度を学習相関特徴量として生成する手順と、
前記学習画像が前記認識対象を含むか否かを示す正誤情報および前記学習相関特徴量に基づいて認識器を生成する手順と
を具備することを特徴とする学習方法。
認識対象を含むモデル画像から複数の特徴点をモデル特徴点として生成する手順と、
前記モデル特徴点の各々における特徴量をモデル特徴量として生成する手順と、
前記認識対象を含む画像および含まない画像の何れかから成る学習画像から複数の特徴点を学習特徴点として生成する手順と、
前記学習特徴点の各々における特徴量を学習特徴量として生成する手順と、
前記モデル特徴量の各々について前記学習画像の対応する特徴点の近傍において前記学習特徴量のうち最も相関の高いものを前記学習画像毎に選択してその選択された学習特徴量との間の相関の程度を学習相関特徴量として生成する手順と、
前記学習画像が前記認識対象を含むか否かを示す正誤情報および前記学習相関特徴量に基づいて認識器を生成する手順と
をコンピュータに実行させることを特徴とするプログラム。