JP2007334795A

JP2007334795A - 情報処理装置および方法、並びにプログラム

Info

Publication number: JP2007334795A
Application number: JP2006168636A
Authority: JP
Inventors: Akira Nakamura; 章中村; Takayuki Ashigahara; 隆之芦ヶ原; Yoshiaki Iwai; 嘉昭岩井
Original assignee: Sony Corp
Current assignee: Sony Corp
Priority date: 2006-06-19
Filing date: 2006-06-19
Publication date: 2007-12-27
Anticipated expiration: 2026-06-19
Also published as: JP4196302B2; US8401308B2; US20080013836A1

Abstract

【課題】マッチング精度を高めるようにする。
【解決手段】入力画像８２のマッチング対象は、モデル画像８１のみならず、モデル画像８１からＮ個の変換係数のそれぞれを用いて変換された結果得られるＮ枚の自己変調画像９１−１乃至９１−Ｎも対象となる。このマッチングンにより、類似局所特徴量を有する入力画像８２上のオブジェクト特徴点と、モデル画像８１および自己変調画像９１−１乃至９１−Ｎのうちの何れかの上のモデル特徴点とのマッチペアが１以上得られる。これらのうち、自己変調画像９１−１乃至９１−Ｎのモデル特徴点についてのマッチペアについては、そのモデル特徴点の位置情報は、自己変調画像９１−１乃至９１−Ｎ上のモデル特徴点に対応する元のモデル画像８１の対応点の位置が、入力画像８２のマッチしたオブジェクト特徴点の位置と結合される。本発明は、画像認識装置に適用可能である。
【選択図】図５

Description

本発明は、情報処理装置および方法並びにプログラムに関し、特に、入力画像とモデル画像とのマッチング精度をより一段と高めることができる情報処理装置および方法並びにプログラムに関する。

従来、画像認識手法として、画像から特徴点を抽出し、特徴点とその局所近傍の画像情報から得られる特徴量を用いたマッチング手法も存在する。

例えば、Ｃ．シュミット及びＲ．ムーアは、非特許文献１において、Ｈａｒｒｉｓコーナー検出器を用いて検出されたコーナーを特徴点とし、その特徴点付近の回転不変特徴量を用いたマッチング手法を提案している。このような特徴点の部分的画像変形に対して不変な局所特徴量を用いるマッチング手法では、上述の手法と比較して画像の変形に対しても検出対象が部分的に隠されるような場合にも安定した検出が可能となる。しかしながら、この非特許文献１で用いられている特徴量は、画像の拡大縮小変換に対して不変性を持たないものであるため、拡大縮小変換のある場合には認識が困難となる。

これに対して、Ｄ．ロウは、下記非特許文献２において、画像の拡大縮小変換に対しても不変であるような特徴点及び特徴量を用いたマッチング手法を提案している。このＤ．ロウの提案した画像認識装置について、図１を用いて説明する。

図１に示す画像認識装置において、特徴点抽出部１ａ，１ｂは、特徴点抽出対象画像（モデル画像又は入力画像）から得られた画像の多重解像度表現（スケールスペース表現。文献「ＬｉｎｄｅｂｅｒｇＴ．，“Ｓｃａｌｅ−ｓｐａｃｅ：Ａｆｒａｍｅｗｏｒｋｆｏｒｈａｎｄｌｉｎｇｉｍａｇｅｓｔｒｕｃｔｕｒｅｓａｔｍｕｌｔｉｐｌｅｓｃａｌｅｓ．”，ＪｏｕｒｎａｌｏｆＡｐｐｌｉｅｄＳｔａｔｉｓｔｉｃｓ，ｖｏｌ．２１，ｎｏ．２，ｐｐ．２２４−２７０，１９９４」参照）の各解像度画像に対してＤｏＧ（ＤｉｆｆｅｒｅｎｃｅｏｆＧａｕｓｓｉａｎ）フィルタを適用し、ＤｏＧフィルタ出力画像の局所点（局所極大点及び局所極小点）のうち、所定の範囲内の解像度変化によって位置の変化がないような点を特徴点として検出する。ここで、解像度の階層数は予め設定しておく。

続いて特徴量保持部２ａ，２ｂは、特徴点抽出部１ａ，１ｂにて抽出された各特徴点について特徴量を抽出し、保持する。この際、特徴点抽出部１ａ，１ｂは、特徴点近傍領域のカノニカル・オリエンテーション（ｃａｎｏｎｉｃａｌｏｒｉｅｎｔａｔｉｏｎ；支配的方向）と、オリエンテーション・プレーン（ｏｒｉｅｎｔａｔｉｏｎｐｌａｎｅ）とを用いる。ここで、カノニカル・オリエンテーションは、ガウス重み付き勾配強度を累積した方向ヒストグラムのピーク値を与える方向であり、特徴量保持部２ａ，２ｂは、このカノニカル・オリエンテーションを特徴量として保持する。また、特徴量保持部２ａ，２ｂは、特徴点近傍領域の勾配強度情報をカノニカル・オリエンテーションで正規化、即ちカノニカル・オリエンテーションを０ｄｅｇとして方向補正し、近傍領域内各点の勾配強度情報を位置情報と共に勾配方向で分類する。例えば、４５ｄｅｇ毎の全部で８つのオリエンテーション・プレーンに近傍領域内各点の勾配強度情報を分類する場合、近傍領域の局所座標系上の点（ｘ、ｙ）における方向９３ｄｅｇ、強度ｍの勾配情報は、９０ｄｅｇのラベルを持つと共に近傍領域と同一の局所座標系を持つオリエンテーション・プレーンの位置（ｘ、ｙ）に強度ｍの情報としてマッピングされる。その後、各オリエンテーション・プレーンは、解像度のスケールに応じたぼかし及びリサンプリングが施される。特徴量保持部２ａ，２ｂは、このようにして求めた（解像度数）×（オリエンテーション・プレーン数）×（各オリエンテーション・プレーンのサイズ）次元の特徴量ベクトルを保持する。

続いて、特徴量マッチング部３は、各オブジェクト特徴点の特徴量と最も特徴量の類似するモデル特徴点をｋ−ｄｔｒｅｅ法（検索効率のよい特徴空間上のＮｅａｒｅｓｔＮｅｉｇｈｂｏｒ探索法）を用いて検索し、得られたマッチペアをマッチペア群として保持する。

一方で、認識判定部４のモデル姿勢粗推定部１１は、一般化ハフ変換により、モデル特徴点とオブジェクト特徴点との空間的位置関係からモデルの入力画像上での姿勢（回転角度，拡大縮小率，平行移動量の画像変換パラメータ）を推定する。この際、一般化ハフ変換のパラメータ参照テーブル（Ｒテーブル）のインデックスとして、上述した各特徴点のカノニカル・オリエンテーションが用いられると予想される。このモデル姿勢粗推定部１１の出力は、画像変換パラメータ空間上への投票結果であり、最多投票数を獲得したパラメータがモデル姿勢の粗い推定を与える。

そこで、認識判定部４の候補対応特徴点ペア選択部１２は、そのパラメータに投票を行ったオブジェクト特徴点をメンバに持つマッチペアのみを選択することにより、マッチペア群の絞り込みを行う。

最後に、認識判定部４のモデル姿勢推定部１３は、「検出されるモデルは入力画像上へのアフィン変換による画像変形が施されている」という拘束条件の下、対応特徴点ペア群の空間的配置から最小自乗推定によりアフィン変換パラメータを推定する。そして、モデル姿勢推定部１３は、マッチペア群の各モデル特徴点をこのアフィン変換パラメータにより入力画像上に変換し、対応するオブジェクト特徴点との位置のずれ（空間的距離）を求め、このずれが著しいマッチペアを排除し、マッチペア群を更新する。この際、モデル姿勢推定部１３は、マッチペア群が２組以下の場合には「モデル検出不可」と出力して終了し、そうでなければ所定の終了条件が満たされるまでこの操作を繰り返し、終了条件を満たした際のアフィン変換パラメータで決定されるモデル姿勢をモデル認識結果として出力する。

Ｃ．シュミット（Ｃ．Ｓｃｈｍｉｄ）、Ｒ．ムーア（Ｒ．Ｍｏｈｒ），「画像検索のための局所グレイバリュー不変量（Ｌｏｃａｌｇｒａｙｖａｌｕｅｉｎｖａｒｉａｎｔｓｆｏｒｉｍａｇｅｒｅｔｒｉｅｖａｌ）」，（米国），電気・電子通信学会報，（ＩＥＥＥＰＡＭＩ），１９９７年，第１９巻，第５号，ｐ．５３０−５３４Ｄ．ロウ（Ｄ．Ｌｏｗｅ），「スケール不変な局所特徴量を用いた物体認識（Ｏｂｊｅｃｔｒｅｃｏｇｎｉｔｉｏｎｆｒｏｍｌｏｃａｌｓｃａｌｅ−ｉｎｖａｒｉａｎｔｆｅａｔｕｒｅｓ）」，（ギリシャ），コンピュータ画像に関する国際会議録（Ｐｒｏｃ．ｏｆｔｈｅＩｎｔｅｒｎａｔｉｏｎａｌＣｏｎｆｅｒｅｎｃｅｏｎＣｏｍｐｕｔｅｒＶｉｓｉｏｎ），１９９９年９月，第２巻，ｐ．１１５０−１１５７

しかしながら、この非特許文献２に記載されたＤ．ロウの手法には幾つかの問題点がある。

先ず第１に、特徴点におけるカノニカル・オリエンテーションの抽出に問題がある。上述したように、カノニカル・オリエンテーションは、特徴点近傍領域の局所勾配情報から求めた、ガウス重み付き勾配強度を累積した方向ヒストグラムのピーク値を与える方向により求まる。ここで、非特許文献２の手法では、物体のコーナーの若干内側に特徴点が検出される傾向があるが、このような特徴点の近傍の方向ヒストグラムには、２つのピークがそれぞれエッジに直交する方向に出現するため、複数の競合するカノニカル・オリエンテーションが検出されうるが、後段の特徴量マッチング部３およびモデル姿勢推定部１３ではこのような場合を想定しておらず、対処できない。また、ガウス重み関数のパラメータに依存して方向ヒストグラムの形状が変化し、カノニカル・オリエンテーションの安定した抽出ができないという問題点もある。その一方で、このカノニカル・オリエンテーションは、後段の特徴量マッチング部３およびモデル姿勢推定部１３で用いられるため、不適切なカノニカル・オリエンテーションの抽出は特徴量マッチングの結果に重大な影響を与えてしまう。

第２に、オリエンテーション・プレーンによる特徴量比較において、局所領域内各点の濃度勾配強度情報による特徴量マッチングを行っているが、一般に勾配強度は明度の変化に対して不変な特徴量ではないため、モデル画像と入力画像との間に明度差がある場合には、安定なマッチングが保証されないという問題がある。

第３に、各オブジェクト特徴点に対して、特徴空間上での距離が最短ではないが十分小さい、即ち特徴量が十分類似するモデル特徴点が複数存在し、その中に真の特徴点ペア（インライヤ）が含まれている場合が想定されるが、特徴量マッチング部３においては、各オブジェクト特徴点は特徴空間上で最短距離を与えるモデル特徴点のみとペアが組まれるため、先のようなインライヤが候補対応ペアとして考慮されていない点も問題として挙げられる。

第４に、認識判定部７４におけるアフィン変換パラメータ推定の際に問題が起こり得る。ここで、候補対応特徴点ペア選択部１２で絞り込みを受けた対応特徴点ペア群の中には偽の特徴点ペア（アウトライヤ）が含まれているが、マッチペア群中のアウトライヤが多い場合や真のアフィン変換パラメータから極端に逸脱したアウトライヤが存在する場合には、アフィン変換パラメータ推定はアウトライヤに影響を受け、場合によっては繰り返し操作によってインライヤが次第に排除されてアウトライヤが残り、誤ったモデル姿勢を出力してしまうという問題も起こり得る。

本発明は、このような状況に鑑みてなされたものであり、複数の物体を含み、物体同士が部分的に重なり合っているような入力画像からも対象物を検出可能であり、さらに視点の変化（平行移動，拡大縮小，回転，ストレッチを含む画像変化）、明度変化、ノイズによる画像情報の変形がある場合であっても安定に対象物を検出できることを目的のひとつとして、入力画像とモデル画像とのマッチング精度を高めることができるようにするものである。

なお、本発明の上述した目的を同様に達成できる発明が、本出願人により出願され、特開２００４−３２６６９３号に開示されている。本発明は、この特開２００４−３２６６９３号に開示された発明に対してさらに、マッチング精度をより一段と向上できる、という効果を奏するようにするものである。特に、モデル画像と入力画像の撮影角度の差が大きい場合に、本発明の効果はより一段と顕著になる。

本発明の一側面の情報処理装置は、入力画像とモデル画像とを比較する情報処理装置であって、前記モデル画像上の１以上のモデル特徴点の各特徴量を保持し、前記モデル画像からＮ個（Ｎは１以上の整数値）の変換係数のそれぞれで変換できるＮ枚の変換画像のそれぞれについての、自身の画像上の１以上のモデル特徴点の各特徴量をそれぞれ保持する保持手段と、前記入力画像上の特徴点をオブジェクト特徴点として１以上抽出するオブジェクト特徴点抽出手段と、前記特徴点抽出手段により抽出された１以上の前記オブジェクト特徴点のそれぞれについての特徴量を抽出するオブジェクト特徴量抽出手段と、前記オブジェクト特徴量抽出手段により前記特徴量がそれぞれ抽出された１以上の前記オブジェクト特徴点のそれぞれと、前記保持手段により保持されている前記モデル画像および前記Ｎ枚の変換画像のそれぞれについての１以上の前記モデル特徴点のそれぞれとを比較し、類似すると比較判断された前記特徴量をそれぞれ有するオブジェクト特徴点とモデル特徴点とのマッチペアを１以上生成する特徴量比較手段とを備える。

前記保持手段は、前記モデル画像および前記Ｎ枚の変換画像のそれぞれについての１以上の前記モデル特徴点のそれぞれに関して、その位置を前記特徴量と対応付けて保持しており、前記特徴量比較手段により生成された１以上の前記マッチペアには、前記オブジェクト特徴点の位置と、前記保持手段により保持されている前記モデル特徴点の位置とが含まれ、前記変換画像についての前記モデル特徴点の位置は、そのモデル特徴点の前記変換画像上の第１の位置に対応する前記モデル画像上の第２の位置である。

既知の前記Ｎ個の変換係数のそれぞれを利用して、前記モデル画像から前記Ｎ枚の変換画像をそれぞれ生成する変換画像生成手段と、前記モデル画像上、および前記変換画像生成手段により生成された前記Ｎ枚の変換画像上の各特徴点を前記モデル特徴点としてそれぞれ１以上抽出するモデル特徴点抽出手段と、前記モデル特徴点抽出手段により抽出された１以上の前記モデル特徴点のそれぞれについての前記特徴量を抽出するモデル特徴量抽出手段と、前記モデル特徴点抽出手段により抽出された１以上の前記モデル特徴点のうちの、前記Ｎ枚の変換画像上の1以上の前記モデル特徴点のそれぞれについて、前記Ｎ個の変換係数のうちの対応する１つを利用して、前記第１の位置から前記第２の位置に変換する位置変換手段とをさらに備える。

前記モデル画像における視点の周辺に別の視点をＮ個定めて、そのＮ個の別の視点からそれぞれ撮影されたＮ枚の画像が、前記Ｎ枚の変換画像として入力され、前記モデル画像上、および入力された前記Ｎ枚の変換画像上の各特徴点を前記モデル特徴点としてそれぞれ１以上抽出するモデル特徴点抽出手段と、前記モデル特徴点抽出手段により抽出された１以上の前記モデル特徴点のそれぞれについての前記特徴量を抽出するモデル特徴量抽出手段と、前記モデル画像と、入力された前記Ｎ枚の変換画像のそれぞれとに基づいて、前記Ｎ個の変換係数のそれぞれを推定する推定手段と、前記モデル特徴点抽出手段により抽出された１以上の前記モデル特徴点のうちの、入力された前記Ｎ枚の変換画像上の1以上の前記モデル特徴点のそれぞれについて、前記推定手段により推定された前記Ｎ個の変換係数のうちの対応する１つを利用して、前記第１の位置から前記第２の位置に変換する位置変換手段とをさらに備える。

所定の手法を1以上利用して、前記特徴量比較手段により生成された１以上の前記マッチペアの中からミスマッチペアを除外し、残存した前記マッチペアに基づいて、前記モデル画像に含まれるオブジェクトと同一のオブジェクトが前記入力画像の中に存在するか否かを認識する認識手段をさらに備える。

本発明の一側面の情報処理方法は、入力画像とモデル画像とを比較する情報処理装置の情報処理方法であって、前記モデル画像上の１以上のモデル特徴点の各特徴量を保持し、前記モデル画像からＮ個（Ｎは１以上の整数値）の変換係数のそれぞれで変換できるＮ枚の変換画像のそれぞれについての、自身の画像上の１以上のモデル特徴点の各特徴量をそれぞれ保持し、前記入力画像上の特徴点をオブジェクト特徴点として１以上抽出し、抽出された１以上の前記オブジェクト特徴点のそれぞれについての前記特徴量を抽出し、前記特徴量がそれぞれ抽出された１以上の前記オブジェクト特徴点のそれぞれと、保持されている前記モデル画像および前記Ｎ枚の変換画像のそれぞれについての１以上の前記モデル特徴点のそれぞれとを比較し、類似すると比較判断された前記特徴量をそれぞれ有するオブジェクト特徴点とモデル特徴点とのマッチペアを１以上生成するステップを含む。

本発明の一側面のプログラムは、上述した本発明の一側面の情報処理方法に対応するプログラムである。

本発明の一側面の情報処理装置および方法並びにプログラムにおいては、入力画像とモデル画像との比較が次のようにして行われる。即ち、前記モデル画像上の１以上のモデル特徴点の各特徴量が保持され、前記モデル画像からＮ個（Ｎは１以上の整数値）の変換係数のそれぞれで変換できるＮ枚の変換画像のそれぞれについての、自身の画像上の１以上のモデル特徴点の各特徴量がそれぞれ保持され、前記入力画像上の特徴点がオブジェクト特徴点として１以上抽出され、抽出された１以上の前記オブジェクト特徴点のそれぞれについての前記特徴量が抽出され、前記特徴量がそれぞれ抽出された１以上の前記オブジェクト特徴点のそれぞれと、保持されている前記モデル画像および前記Ｎ枚の変換画像のそれぞれについての１以上の前記モデル特徴点のそれぞれとが比較され、類似すると比較判断された前記特徴量をそれぞれ有するオブジェクト特徴点とモデル特徴点とのマッチペアが１以上生成される。

以上のごとく、本発明によれば、複数の物体を含み、物体同士が部分的に重なり合っているような入力画像からも対象物を検出可能であり、さらに視点の変化（平行移動，拡大縮小，回転，ストレッチを含む画像変化）、明度変化、ノイズによる画像情報の変形がある場合であっても安定に対象物を検出できるという目的を達成できる。特に、モデル画像と入力画像の撮影角度の差が大きい場合等において、入力画像とモデル画像とのマッチング精度を高めることができる。

以下に本発明の実施の形態を説明するが、請求項に記載の構成要件と、明細書又は図面における具体例との対応関係を例示すると、次のようになる。この記載は、請求項に記載されている発明をサポートする具体例が、明細書又は図面に記載されていることを確認するためのものである。従って、明細書又は図面中には記載されているが、構成要件に対応するものとして、ここには記載されていない具体例があったとしても、そのことは、その具体例が、その構成要件に対応するものではないことを意味するものではない。逆に、具体例が構成要件に対応するものとしてここに記載されていたとしても、そのことは、その具体例が、その構成要件以外の構成要件には対応しないものであることを意味するものでもない。

さらに、この記載は、明細書又は図面に記載されている具体例に対応する発明が、請求項に全て記載されていることを意味するものではない。換言すれば、この記載は、明細書又は図面に記載されている具体例に対応する発明であって、この出願の請求項には記載されていない発明の存在、すなわち、将来、分割出願されたり、補正により追加される発明の存在を否定するものではない。

本発明の一側面の情報処理装置（例えば図６や図２３の画像認識装置）は、
入力画像（例えば図６や図２３の入力画像８２）とモデル画像（例えば図６や図２３のモデル画像８１）とを比較する情報処理装置において、
前記モデル画像上の１以上のモデル特徴点の各特徴量を保持し、前記モデル画像からＮ個（Ｎは１以上の整数値）の変換係数のそれぞれで変換できるＮ枚の変換画像（例えば図６の例では自己変調画像９１−１乃至９１−Ｎであり、図２３の例ではモデル周辺画像１５１−１乃至１５１−Ｎ）のそれぞれについての、自身の画像上の１以上のモデル特徴点の各特徴量をそれぞれ保持する保持手段（例えば図６の特徴量データベース５２）と、
前記入力画像上の特徴点をオブジェクト特徴点として１以上抽出するオブジェクト特徴点抽出手段（例えば図６や図２３の特徴点抽出部７１）と、
前記特徴点抽出手段により抽出された１以上の前記オブジェクト特徴点のそれぞれについての特徴量を抽出するオブジェクト特徴量抽出手段（例えば図６や図２３の特徴量抽出部７２）と、
前記オブジェクト特徴量抽出手段により前記特徴量がそれぞれ抽出された１以上の前記オブジェクト特徴点のそれぞれと、前記保持手段により保持されている前記モデル画像および前記Ｎ枚の変換画像のそれぞれについての１以上の前記モデル特徴点のそれぞれとを比較し、類似すると比較判断された前記特徴量をそれぞれ有するオブジェクト特徴点とモデル特徴点とのマッチペアを１以上生成する特徴量比較手段（例えば図２３の特徴量マッチング部７３）と
を備える。

前記保持手段は、前記モデル画像および前記Ｎ枚の変換画像のそれぞれについての１以上の前記モデル特徴点のそれぞれに関して、その位置を前記特徴量と対応付けて保持しており、
前記特徴量比較手段により生成された１以上の前記マッチペアには、前記オブジェクト特徴点の位置と、前記保持手段により保持されている前記モデル特徴点の位置とが含まれ、
前記変換画像についての前記モデル特徴点の位置は、そのモデル特徴点の前記変換画像上の第１の位置に対応する前記モデル画像上の第２の位置である。

情報処理装置が例えば図６の画像認識装置で構成される場合には、
既知の前記Ｎ個の変換係数のそれぞれを利用して、前記モデル画像から前記Ｎ枚の変換画像（例えば図６の自己変調画像９１−１乃至９１−Ｎ）をそれぞれ生成する変換画像生成手段（例えば図６の自己変調画像生成部１１１）と、
前記モデル画像上、および前記変換画像生成手段により生成された前記Ｎ枚の変換画像上の各特徴点を前記モデル特徴点としてそれぞれ１以上抽出するモデル特徴点抽出手段（例えば図６の特徴点抽出部６１，１１２）と、
前記モデル特徴点抽出手段により抽出された１以上の前記モデル特徴点のそれぞれについての前記特徴量を抽出するモデル特徴量抽出手段（例えば図６の特徴量抽出部６２，１１４）と、
前記モデル特徴点抽出手段により抽出された１以上の前記モデル特徴点のうちの、前記Ｎ枚の変換画像上の1以上の前記モデル特徴点のそれぞれについて、前記Ｎ個の変換係数のうちの対応する１つを利用して、前記第１の位置から前記第２の位置に変換する位置変換手段（例えば図６の特徴点位置変換部１１３）と
をさらに備える。

一方、情報処理装置が例えば図２３の画像認識装置で構成される場合には
前記モデル画像における視点の周辺に別の視点をＮ個定めて、そのＮ個の別の視点からそれぞれ撮影されたＮ枚の画像が、前記Ｎ枚の変換画像（例えば図２３のモデル周辺画像１５１−１乃至１５１−Ｎ）として入力され、
前記モデル画像上、および入力された前記Ｎ枚の変換画像上の各特徴点を前記モデル特徴点としてそれぞれ１以上抽出するモデル特徴点抽出手段（例えば図２３の特徴点抽出部６１，１１２）と、
前記モデル特徴点抽出手段により抽出された１以上の前記モデル特徴点のそれぞれについての前記特徴量を抽出するモデル特徴量抽出手段（例えば図２３の特徴量抽出部６２，１１４）と、
前記モデル画像と、入力された前記Ｎ枚の変換画像のそれぞれとに基づいて、前記Ｎ個の変換係数のそれぞれを推定する推定手段（例えば図２３の変換係数推定部２１１）と、
前記モデル特徴点抽出手段により抽出された１以上の前記モデル特徴点のうちの、入力された前記Ｎ枚の変換画像上の1以上の前記モデル特徴点のそれぞれについて、前記推定手段により推定された前記Ｎ個の変換係数のうちの対応する１つを利用して、前記第１の位置から前記第２の位置に変換する位置変換手段（例えば図２３の特徴点位置変換部１１３）と
をさらに備える。

所定の手法を1以上利用して、前記特徴量比較手段により生成された１以上の前記マッチペアの中からミスマッチペアを除外し、残存した前記マッチペアに基づいて、前記モデル画像に含まれるオブジェクトと同一のオブジェクト前記入力画像の中に存在するか否かを認識する認識手段（例えば図６や図２３の認識判定部７４）

入力画像とモデル画像とを比較する情報処理装置（例えば図６や図２３の画像認識装置）の情報処理方法において、
前記モデル画像上の１以上のモデル特徴点の各特徴量を保持し、前記モデル画像からＮ個（Ｎは１以上の整数値）の変換係数のそれぞれで変換できるＮ枚の変換画像のそれぞれについての、自身の画像上の１以上のモデル特徴点の各特徴量をそれぞれ保持し（例えば図７の学習処理であって、特にステップＳ８）、
前記入力画像上の特徴点をオブジェクト特徴点として１以上抽出し（例えば図１３のステップＳ４１）、
抽出された１以上の前記オブジェクト特徴点のそれぞれについての特徴量を抽出し（例えば図１３のステップＳ４２）、
前記特徴量がそれぞれ抽出された１以上の前記オブジェクト特徴点のそれぞれと、保持されている前記モデル画像および前記Ｎ枚の変換画像のそれぞれについての１以上の前記モデル特徴点のそれぞれとを比較し、類似すると比較判断された前記特徴量をそれぞれ有するオブジェクト特徴点とモデル特徴点とのマッチペアを１以上生成する（例えば図１３のステップＳ４４）
ステップを含む。

さらに、本発明によれば、上述した本発明の一側面の情報処理方法に対応するプログラムや、そのプログラムを記録した記録媒体も提供されるという一側面を有する。このプログラムは、後述するように、例えば図２５のコンピュータにより実行される。

次に、本発明の実施の形態を説明する前に、本発明の原理について説明する。

はじめに、本発明の原理の理解を容易なものとするために、上述した特開２００４−３２６６９３号公報に開示された画像認識装置（以下、単に従来の画像認識装置と称する）の概略について説明する。

図２は、従来の画像認識装置の構成例を示している。

なお、図２において、実線で囲まれた四角は、装置またはその構成要素としてのブロックを示し、点線で囲まれた四角は、所定の情報、例えば画像情報を示している。このような実線と点線の四角の使い分けは、後述する他の図においても同様とされる。

従来の画像認識装置は、学習部５１、特徴量データベース５２、および認識部５３を含むように構成されている。

学習部５１は、特徴点抽出部６１および特徴量抽出部６２を含むように構成されている。

特徴点抽出部６１は、モデル画像８１から特徴点を抽出し、特徴量抽出部６２に提供する。

なお、以下、モデル画像８１等のモデル画像から抽出された特徴点と、後述する入力画像８２から抽出された特徴点とを区別する必要がある場合適宜、前者をモデル特徴点と称し、後者をオブジェクト特徴点と称する。

特徴量抽出部６２は、特徴点抽出部６１により抽出された各モデル特徴点について後述する特徴量を抽出し、モデル特徴点の位置情報とともに特徴量データベース５２に記憶させる。

なお、図２の例では１枚のモデル画像８１しか描画されていないが、実際には、複数のモデル画像が学習部５１に与えられる。即ち、特徴量データベース５２には、実際には、複数のモデル画像のそれぞれについての各特徴量が、対応するモデル特徴点の位置情報とともにそれぞれ記憶されている。

認識部５３は、特徴点抽出部７１乃至認識判定部７４から構成されている。

特徴点抽出部７１は、入力画像８２からオブジェクト特徴点を抽出し、特徴量抽出部７２に提供する。特徴量抽出部７２は、特徴点抽出部７１により抽出されたオブジェクト特徴点について後述する特徴量を抽出し、オブジェクト特徴点の位置情報とともに特徴量マッチング部７３に提供する。

特徴量マッチング部７３は、特徴量データベース５２に記憶されているモデル画像８１についての各モデル特徴点の特徴量と、特徴量抽出部７２により抽出された各オブジェクト特徴点の特徴量とを比較して類似度や相違度を計算し、その計算結果としての類似尺度を用いて特徴量が類似する特徴点のペア、即ち対応する可能性の高いモデル特徴点とオブジェクト特徴点とのペアを1以上生成する。以下、かかるペアを、マッチペアと称し、１以上のマッチペアの集合をマッチペア群と称する。

特徴量マッチング部７３により生成されたマッチペア群は、認識判定部７４に提供される。認識判定部７４は、このマッチペア群を用いて入力画像８２上のモデルの有無を検出し、「モデル有」の判定結果の場合には、「検出されるモデルは入力画像上へのアフィン変換による画像変形が施されている」という拘束条件の下、マッチペア群からランダムに選択した３ペアにより決定されるアフィン変換パラメータをパラメータ空間に投射する操作を繰り返し、パラメータ空間上で形成されたクラスタのうち最多メンバ数を持つクラスタの各メンバを真のマッチペア（インライヤ）とし、このインライヤを用いた最小自乗推定によりアフィン変換パラメータを求める。そして、認識判定部７４は、例えばこのアフィン変換パラメータで決定されるモデル姿勢を認識結果８３として出力することができる。

以上説明したように、従来の特徴量マッチング部７３においては、例えば図３に示されるようなモデル画像８１と入力画像８２とのそれぞれについての局所特徴量同士のマッチングが行われることになる。

この場合、例えばモデル画像８１と入力画像８２との撮影角度が違う場合、換言すると、例えばモデル画像８１と視点が大きく異なるような入力画像８２が入力された場合、一般的に局所特徴量同士のマッチング精度は悪くなってしまう。また、立体物が撮影された画像であって、その立体物のうちのとある面は拡大され、別の面は縮小されるような画像が入力画像８２として入力された場合にも、同様に、局所特徴量同士のマッチング精度は悪くなってしまう。

そこで、このような場合でもマッチング精度を向上すべく、本発明人は、図４と図５に示される手法を発明した。

即ち、本発明人により発明された手法とは、次の第１乃至第６の工程からなる手法をいう。

即ち、第１の工程とは、図４に示されるように、モデル画像８１から、Ｎ個（Ｎは１以上の整数値）の変換係数のそれぞれを利用して、Ｎ枚の自己変調画像９１−１乃至９１−Ｎのそれぞれを作成する、という工程である。

第２の工程とは、これらのモデル画像８１および自己変調画像９１−１乃至９１−Ｎのそれぞれについて、モデル特徴点の抽出を行い、その周辺から局所特徴量を抽出する、という工程である。

第３の工程とは、特徴量と、対応するモデル特徴点の位置情報とを保持する、という工程である。ここで注意すべき点は、自己変調画像９１−１乃至９１−Ｎの各特徴量については、第１の工程において自画像が作成されたときに利用された変換係数を利用して、自画像上から抽出された特徴点の元のモデル画像８１の対応点の位置を求め、その対応点の位置をモデル特徴点の位置情報として保持しておく、という点である。

以上の第１の工程乃至第３の工程までが学習工程である。即ち、従来の学習工程とは図２の学習部５１の処理工程をいうが、かかる従来の学習工程では、単にモデル画像８１についてのみの特徴量が抽出されて保持されていた。これに対して、本発明人が発明した手法の一部の第１の工程乃至第３の工程では、モデル画像８１のみならず、Ｎ枚の自己変調画像９１−１乃至９１−Ｎのそれぞれについても、特徴量が抽出されて保持される。

このような学習工程に対して、認識時に行われる入力画像８２との局所特徴量のマッチング処理工程が次の第４乃至第６の工程である。

第４の工程とは、入力画像８２の局所特徴量と、第３の工程で保持された各局所特徴量とのマッチングを行う、という工程である。ここで注目すべき点は、第３の工程で保持された各局所特徴量とは、上述したように、モデル画像８１についてのみならず、Ｎ枚の自己変調画像９１−１乃至９１−Ｎのそれぞれについての各局所特徴量も含んでいる点である。即ち、第４の工程とは、図５に示されるように、入力画像８２に対して、モデル画像８１のみならず、自己変調画像９１−１乃至９１−Ｆのそれぞれとの局所特徴量のマッチングを行う工程であるといえる。

第５の工程とは、第４の工程の結果からマッチペア群を得る工程である。この場合、マッチペア群に含まれるマッチペアのうちの、自己変調画像９１−１乃至９１−Ｎにおけるモデル特徴点についてのマッチペアについては、そのモデル特徴点の位置情報は、自己変調画像９１−１乃至９１−Ｎ上のモデル特徴点の位置ではなく、上述した第３の工程で保持された位置、即ち、元のモデル画像８１の対応点の位置が、入力画像８２のマッチしたオブジェクト特徴点の位置と結合されることになる。即ち、図５に示されるように、入力画像８２のオブジェクト特徴点と、自己変調画像９１−１乃至９１−Ｎ上に存在する各特徴点自身とのマッチペアが生成されるのではなく、入力画像８２のオブジェクト特徴点と、自己変調画像９１−１乃至９１−Ｎの各特徴点に対する元のモデル画像８１上の対応点とのマッチペアが生成される。

第６の工程とは、第５の工程で得られたマッチペア群は、入力画像８２とモデル画像８１のマッチペア候補の集合として、認識工程の後段、即ち、後述する図６の認識判定部７４に送られる、という工程である。

以上の第１乃至第６の工程からなる手法を、以下、自己変調画像マッチング手法と称する。

このように、モデル画像８１と入力画像８２との視点が大きく異なる場合等でも、自己変調画像９１−１乃至９１−Ｎの中には、視点が入力画像８２とより類似した画像が含まれていると考えられるので、このような画像と入力画像８２との局所特徴量のマッチング結果も利用できるようにので、従来と比較してマッチング精度が向上することになる。

換言すると、入力画像８２との局所特徴量のマッチング対象の画像として、モデル画像８１のみならず、そのモデル画像８１から所定の変換係数で変換できる画像を１枚以上用意しておけば、モデル画像８１と入力画像８２との視点が大きく異なる場合等であっても、その入力画像８２とのマッチ度合いがモデル画像８１よりも一段と高い変換画像が含まれることになり、即ち、視点が入力画像８２とより類似するであろう返還画像も含まれることになり、従来と比較してマッチング精度が向上することになる。

以上の内容をまとめると、本発明の手法とは、結局、モデル画像８１上の各モデル特徴点の各特徴量の他さらに、そのモデル画像８１からＮ個（Ｎは1以上の整数値）の変換係数のそれぞれで変換できるＮ枚の変換画像のそれぞれについて、自画像上の各モデル特徴点の各特徴量をそれぞれ保持しておき、入力画像８２上の各オブジェクト特徴点のそれぞれに対して、モデル画像８１と複数の変換画像のそれぞれについての各モデル特徴点のそれぞれと比較をし、類似すると比較判断された特徴量をそれぞれ有するオブジェクト特徴点とモデル特徴点とのペアを１以上生成する、という手法をいう。

この本発明の手法のうち、複数の変換画像として自己変調画像９１−１乃至９１−Ｎが採用された手法が、上述した自己変調画像マッチング手法である。即ち、自己変調画像マッチング手法とは、本発明の手法の一実施の形態である。換言すると、本発明の手法で利用される複数の変換画像は、自己変調画像９１−１乃至９１−Ｎに特に限定されず、所定の変換係数を利用してモデル画像８１から生成できる画像であれば足りる。なお、複数の変換画像の別の具体例については、図２２を参照して後述する。

次に、図面を参照して、本発明の実施の形態について説明する。

図６は、上述した本発明の手法のうちの自己変調画像マッチング手法が適用される画像認識装置の機能的構成例を表している。

なお、図６において、図２と対応する箇所には対応する符号が付してあり、かかる箇所については適宜説明を省略する。

図６の例では、画像認識装置は、学習部１０１、特徴量データベース５２、および認識部５３を含むように構成されている。

図２の従来の画像認識装置と同様に、特徴点抽出部６１は、モデル画像８１からモデル特徴点を抽出し、特徴量抽出部６２に提供する。特徴量抽出部６２は、特徴点抽出部６１により抽出された各モデル特徴点について特徴量を抽出し、モデル特徴点の位置情報とともに特徴量データベース５２に記憶させる。

自己変調画像生成部１１１は、Ｎ個の変換係数のそれぞれを利用してモデル画像８１からＮ枚の自己変調画像９１−１乃至９１−Ｎをそれぞれ生成し、特徴点抽出部１１２に提供する。また、自己変調画像生成部１１１は、Ｎ個の変換係数のそれぞれを特徴点位置変換部１２３に通知する。

なお、以下、自己変調画像９１−１乃至９１−Ｎを個々に区別する必要が無い場合、単に自己変調画像９１と称する。

特徴点抽出部１１２は、自己変調画像９１からモデル特徴点を抽出し、その自己変調画像９１上の位置を特徴点位置変換部１１３に通知する。特徴点位置変換部１１３は、自己変調画像生成部１１１から通知された変換係数を用いて、そのモデル特徴点の自己変調画像９１上の位置を、モデル画像８１上の対応位置に変換して、変換後の対応位置を特徴点抽出部１１２に通知する。換言すると、特徴点位置変換部１１３は、自己変調画像生成部１１１の変換処理に対する逆変換処理を実行することで、モデル特徴点の位置情報を、自己変調画像９１上の位置からモデル画像８１上の対応位置に変換する。特徴点抽出部１１２は、モデル特徴点と、その特徴点のモデル画像８１上の対応位置とを対応付けて、特徴量抽出部１１４に提供する。

特徴量抽出部１１４は、特徴点抽出部１１２により抽出された各モデル特徴点について特徴量を抽出し、抽出した特徴量と、対応する特徴点のモデル画像８１上の対応位置とを対応付けて、特徴量データベース５２に記憶させる。即ち、自己変調画像９１上のモデル特徴点の位置そのものではなく、そのモデル画像８１上の対応点の位置が、自己変調画像９１のモデル特徴点の位置情報として特徴量データベース５２に記憶される。

なお、図６の例では、図２の例と同様に、１枚のモデル画像８１しか描画されていないが、実際には、複数のモデル画像が学習部１０１に与えられる。即ち、特徴量データベース５２には、実際には、複数のモデル画像のそれぞれについて、自画像とＮ枚の自己変調画像９１−１乃至９１−Ｎの各特徴量と各モデル特徴点の位置情報（自己変調画像９１の場合にはモデル画像８１の対応位置）とがそれぞれ記憶されている。

認識部５３は、基本的に図２の例と同様の構成を有しているので、その構成の説明は省略する。

ただし、特徴量マッチング部７３の入力画像８２の特徴点とのマッチング対象は、図２の例では、モデル画像８１の特徴点のみであったが、図６の例では、自己変調画像９１−１乃至９１−Ｎの各特徴点もさらに含まれる。なお、このことについては、後述する図１３のステップＳ４４の処理の説明の際に詳しく説明する。

また、認識判定部７４は、従来と同様の処理（図１６参照）を実行してもよいが、本発明の特徴を生かした別の処理、例えば後述する図２１の処理を実行するとより好適である。

以下、かかる図６の構成の画像認識装置の各種処理例について、図７乃至図２１を参照して説明していく。

図７は、学習部１０１が実行する処理（以下、学習処理と称する）の一例を説明するフローチャートである。

上述したように、学習部１０１には、１枚のモデル画像８１のみならず複数のモデル画像が与えられるが、この図６の学習処理は、複数のモデル画像１枚１枚についてその都度実行される。以下においては、図面の記載に併せて、モデル画像８１が学習部１０１に与えられたとして説明する。

ステップＳ１において、自己変調画像生成部１１１は、モデル画像８１からＮ枚の自己変調画像９１−１乃至９１−Ｎを生成する。

ステップＳ２において、学習部１０１は、モデル画像８１とＮ枚の自己変調画像９１−１乃至９１−Ｎのうちの、後述するステップＳ３乃至Ｓ６の処理が未実行の画像の中から所定の１枚を選択し、その所定の１枚を処理対象画像に設定する。

ステップＳ３において、特徴点抽出部６１または特徴点抽出部１１２は、処理対象画像に対して特徴点処理を実行し、各各特徴点を抽出する。即ち、モデル画像８１が処理対象画像に設定されている場合には、特徴点抽出部６１によりステップＳ３の処理が実行される。一方、Ｎ枚の自己変調画像９１−１乃至９１−Ｎのうちの１枚が処理対象画像に設定されている場合には、特徴点抽出部１１２によりステップＳ３の処理が実行される。なお、特徴点抽出処理の詳細については、図８乃至図１０を参照して後述する。

ステップＳ４において、学習部１０１は、処理対象画像は自己変調画像９１であるか否かを判定する。

モデル画像８１が処理対象画像に設定されている場合には、ステップＳ４の処理でＮＯであると判定されて、処理はステップＳ６に進む。

これに対して、自己変調画像９１が処理対象画像に設定されている場合には、ステップＳ４の処理でＹＥＳであると判定されて、処理はステップＳ５に進む。ステップＳ５において、特徴点位置変換部１１３は、処理対象画像としての自己変調画像９１から抽出された各特徴点のそれぞれの特徴点位置を、自己変調画像９１上の位置からモデル画像８１上の対応位置に変換する。

このようなステップＳ５の処理が実行された場合には特徴量抽出部１１４が、また、ステップＳ４の処理でＮＯであると判定された場合には特徴量抽出部６２が、ステップＳ６において、ステップＳ３の処理で処理対象画像から抽出された各特徴点のそれぞれについて、各特徴量を抽出する。なお、ステップＳ６の詳細については図１１や図１２を用いて後述する。

ステップＳ７において、学習部１０１は、モデル画像８１とＮ枚の自己変調画像９１−１乃至９１−Ｎとの全てが処理対象画像に設定されたか否かを判定する。

ステップＳ７の処理でＮＯであると判定された場合、処理はステップＳ２に戻されて、それ以降の処理が繰り返される。

そして、モデル画像８１とＮ枚の自己変調画像９１−１乃至９１−Ｎとのそれぞれが処理対象画像となってステップＳ２乃至Ｓ７のループ処理が繰り返し実行されると、ステップＳ７の処理でＹＥＳであると判定されて、処理はステップＳ８に進む。

ステップＳ８において、学習部１０１は、モデル画像８１のマッチング用データとして、
そのモデル画像８１の各特徴点の各特徴量および各特徴点位置、並びに、Ｎ枚の自己変調画像９１−１乃至９１−Ｎのそれぞれについての各特徴点および各特徴点位置（モデル画像８１上の各対応位置）を記憶する。

これにより、モデル画像８１についての学習処理は終了となる。

ここで、ステップＳ３の特徴点抽出処理の詳細例について説明する。なお、ここでは、説明の簡略上、動作主体は特徴点抽出部６１であるとする。また、以下、画像の水平方向をＸ軸、垂直方向をＹ軸として説明する。

特徴点抽出部６１は、モデル画像８１を特徴点抽出対象画像とし、特徴点抽出対象画像に対し、先ず平滑化フィルタリング、例えば以下の式（１）で示す２次元ガウス関数による畳み込み積（ガウスフィルタリング）と、双２次線形補間リサンプリングによる画像縮小とを繰り返し交互に適用することで、画像の多重解像度ピラミッド構造を構築する。ここで、リサンプリングファクタとしては、式（１）のガウスフィルタで用いたσを用いる。

即ち、図８に示すように、例えば入力画像Ｉにσ＝√２であるガウスフィルタｇ（ｘ、ｙ）を施すことにより第１レベル（最高解像度）の画像Ｉ１を生成し、さらにガウスフィルタを施すことにより画像ｇ＊Ｉ１を生成する。そして、この画像ｇ＊Ｉ１をリサンプリングしてガウスフィルタを施すことにより第２レベルの画像Ｉ２，ｇ＊Ｉ２を生成し、同様にして画像ｇ＊Ｉ２から第３レベルの画像Ｉ３，ｇ＊Ｉ３を生成する。

続いて、特徴点抽出部６１は、各レベル（各解像度）の画像に対して、ＤｏＧ（ＤｉｆｆｅｒｅｎｃｅｏｆＧａｕｓｓｉａｎ）フィルタを適用する。このＤｏＧフィルタは、画像の輪郭強調のために用いられる２次微分フィルタの一種であり、人間の視覚系で網膜からの情報が外側膝状体で中継されるまでに行われている処理の近似モデルとして、ＬｏＧ（ＬａｐｌａｃｉａｎｏｆＧａｕｓｓｉａｎ）フィルタと共によく用いられるものである。ＤｏＧフィルタの出力は、２つのガウスフィルタ出力画像の差分を取ることにより容易に得られる。即ち、図８に示すように、第１レベルの画像について画像ＤＩ１（＝Ｉ１−ｇ＊Ｉ１）が得られ、第２レベル，第３レベルの画像について画像ＤＩ２（＝Ｉ２−ｇ＊Ｉ２），画像ＤＩ３（＝Ｉ３−ｇ＊Ｉ３）が得られる。

そして、特徴点抽出部６１は、各レベルにおけるＤｏＧフィルタ出力画像ＤＩ１，ＤＩ２，ＤＩ３・・・の局所点（局所極大点及び局所極小点）のうち、所定の範囲内の解像度変化によって位置の変化がないような点を特徴点として検出する。これにより、画像の拡大縮小操作に対してロバストな特徴点間のマッチングが実現できる。

ここで、多重解像度ピラミッド構造の第Ｌレベル、即ちσの（Ｌ−１）乗ファクタまでの解像度変化によって位置の変化がないような特徴点を検出する際の特徴点抽出処理の一例について、図９のフローチャートを用いて説明する。

ステップＳ２１において、特徴点抽出部６１は、第１レベル（最高解像度）におけるＤｏＧフィルタ出力画像ＤＩ１の局所点（局所極大点及び局所極小点）を検出する。なお、局所近傍としては、例えば３×３直接近傍を用いることができる。

ステップＳ２２において、特徴点抽出部６１は、検出された各局所点について、その１つ上位レベル（解像度の１つ低い層）における対応点を解像度減少に伴う画像縮小を考慮して求め、この１つ上位レベルの対応点が局所点か否かを判定する。

局所点でない場合には、ステップＳ２２の処理でＮＯであると判定されて、特徴点抽出処理は終了となる。

これに対して、局所点である場合には、ステップＳ２２の処理でＹＥＳであると判定されて、処理はステップＳ２３に進む。

ステップＳ２３において、特徴点抽出部６１は、第Ｌレベルまで探索が成功したか否かを判定する。

第Ｌレベルまで探索を行っていない場合にはステップＳ２３の処理でＮＯであると判定されて、処理はステップＳ２２に戻され、さらに上位レベルの探索が行われる。

そして、第Ｌレベルまで探索が成功した場合には、特徴点抽出部６１は、その局所点が特徴点であるとして、ステップＳ２３の処理でＹＥＳであると判定して、ステップＳ２４において、特徴点としてその位置情報を保持する。

これにより、特徴点抽出処理が終了する。

例えば第３レベルまでの解像度変化によって位置の変化がないような特徴点を検出する場合、図１０に示されるように、第１レベルの画像ＤＩ１において検出された局所点ＦＰ１，ＦＰ２のうち、ＦＰ１は第３レベルの画像ＤＩ３まで対応点が存在するため特徴点とされ、ＦＰ２は第２レベルまでしか対応点が存在しないため特徴点でないとされる。

なお、特徴点抽出部６１等では、ＤｏＧフィルタの代わりにＬｏＧフィルタを用いるようにしても構わない。また、文献「ＨａｒｒｉｓＣ．ａｎｄＳｔｅｐｈｅｎｓＭ．，“Ａｃｏｍｂｉｎｅｄｃｏｒｎｅｒａｎｄｅｄｇｅｄｅｔｅｃｔｏｒ．”，ｉｎＰｒｏｃ．ＡｌｖｅｙＶｉｓｉｏｎＣｏｎｆ．，ｐｐ．１４７−１５１，１９８８」で物体のコーナー検出に用いられているｃｏｒｎｅｒ−ｎｅｓｓ関数の出力値をＤｏＧフィルタ出力の代わりに用いるようにしても構わない。

ここで、このような特徴点抽出部６１の特徴点抽出処理に引き続いて行われる特徴量抽出部６２の処理、即ち、図７のステップＳ６の処理の詳細例について説明していく。

上述したように、特徴量抽出部６２は、特徴点抽出部６１にて抽出された各特徴点について特徴量を抽出して、特徴量データベース５２に記憶させる。特徴量としては、多重解像度ピラミッド構造の各レベルの画像（Ｉｌ，ｌ＝１，…，Ｌ）の画像情報から導出される特徴点の近傍領域各点の濃度勾配情報（勾配強度及び勾配方向）を用いる。点（ｘ、ｙ）における勾配強度Ｍｘ，ｙ及び勾配方向Ｒｘ，ｙは以下の式（２），（３）により与えられる。

ここで、特徴量を算出する特徴点近傍領域としては、回転変化に対して構造の変わらないような、特徴点に関して対称なものを選択することが好ましい。これにより、回転変化に対するロバスト性を実現することができる。例えば、（ｉ）特徴点から半径ｒピクセルの範囲内を特徴点近傍領域とする手法や、（ｉｉ）特徴点を中心に幅σの特徴点に関して対称な２次元ガウス重みを濃度勾配に掛ける手法を採用することができる。

特徴点から半径３．５ピクセルの範囲内を近傍領域とした場合における特徴点近傍領域の濃度勾配情報の例が図１１に示されている。ここで、図１１において矢印の長さは勾配強度を表し、矢印の方向は勾配方向を表している。

また、特徴量抽出部６２は、特徴点近傍の勾配方向に関するヒストグラム（方向ヒストグラム）も特徴量として特徴量データベース５２に記憶させる。図１１の濃度勾配情報から得られる勾配方向ヒストグラムの例が図１２に示されている。ここで、図１２における階級幅Δθは１０ｄｅｇとされ、階級数Ｎは３６（＝３６０ｄｅｇ／１０ｄｅｇ）とされている。

ところで、以上説明した学習処理が実行されて、モデル画像８１等の各モデル画像のマッチング用データが特徴量データベース５２にそれぞれ記憶された後、入力画像８２が図６の認識部５３に与えられると、認識部５３は、例えば図１３のフローチャートに従った認識処理を実行する。

即ち、図１３のステップＳ４１において、特徴点抽出部７１は、入力画像８２に対して特徴点処理を実行し、各各特徴点を抽出する。なお、特徴点抽出処理の詳細については、図８乃至図１０を参照して上述した通りである。

ステップＳ４２において、特徴量抽出部７２は、入力画像８２から抽出された各特徴点のそれぞれについて、各特徴量を抽出する。なお、ステップＳ４２の詳細については、図１１や図１２を用いて上述した通りである。

ステップＳ４３において、特徴量マッチング部７３は、比較対象のモデル画像を設定する。

即ち、上述したように、図６の例では１枚のモデル画像８１のみが学習部１０１に与えられているが、実際には複数のモデル画像が学習部１０１に与えられ、複数のモデル画像のそれぞれについての各マッチング用データが特徴量データベース５２に個別に記憶される。そこで、これらの複数のモデル画像のうちの所定の１枚が、ステップＳ４３の処理で比較対象として設定されるのである。なお、ここでは、説明の簡略上、モデル画像８１が比較対象として設定されたとする。

ステップＳ４４において、特徴量マッチング部７３は、入力画像８２の各オブジェクト特徴点と、比較対象のモデル画像８１のマッチング用データに含まれる各モデル特徴点とを用いたマッチング処理を行い、マッチペア群を出力する。

なお、マッチング処理の詳細については、図１４と図１５とを用いて後述する。ただし、ここで注目すべき点は、各オブジェクト特徴点と比較されるモデル特徴点とは、モデル画像８１のマッチング用データに含まれる各モデル特徴点である点、即ち、従来のようにモデル画像８１についてのモデル特徴点のみならず、Ｎ枚の自己変調画像９１−１乃至９１−Ｎのそれぞれについての各モデル特徴点も含む点である。

ステップＳ４５において、認識判定部７４は、マッチペア群を用いた認識判定処理を実行する。なお、認識判定処理の詳細については、図１６乃至図２１を用いて後述する。

ステップＳ４６において、認識部５３は、終了条件が満たされたか否かを判定する。

終了条件がまだ満たされていない場合、ステップＳ４６の処理でＮＯであると判定されて、処理はステップＳ４３に戻され、それ以降の処理が繰り返される。

これに対して、終了条件が満たされた場合、ステップＳ４６の処理でＹＥＳであると判定されて、認識処理が終了となる。

なお、ステップＳ４６における終了条件は特に限定されず、例えば、モデル画像の全てが比較対象となったことを終了条件としてもよいし、或いは、これまで比較対象に設定されていたモデル画像に含まれるモデルオブジェクトと同一オブジェクトが入力画像８２の中から検出されたことを終了条件としてもよい。

次に、図１４のフローチャートを参照して、図１３のステップＳ４４におけるマッチング処理の詳細例について説明する。

ステップＳ６１において、特徴量マッチング部７３は、各モデル特徴点の方向ヒストグラムと各オブジェクト特徴点の方向ヒストグラムとを比較してヒストグラム間相違度を計算し、モデル−オブジェクト間の推定回転角度を演算する。

ここで注目すべき点は、ステップＳ６１で利用される各モデル特徴点の方向ヒストグラムとは、従来のようにモデル画像８１についてのモデル特徴点の方向ヒストグラムのみならず、Ｎ枚の自己変調画像９１−１乃至９１−Ｎのそれぞれについての各モデル特徴点の方向ヒストグラムも含む点である。

ここで、階級幅Δθと階級数Ｎとが同一である２つの方向ヒストグラムＨ１＝｛ｈ１（ｎ），ｎ＝１，…，Ｎ｝及びＨ２＝｛ｈ２（ｎ），ｎ＝１，…，Ｎ｝を想定し、ｈ１（ｎ），ｈ２（ｎ）が階級ｎにおける度数を示すものとすると、ヒストグラムＨ１とヒストグラムＨ２との間の距離ｄ（Ｈ１，Ｈ２）は、例えば以下の式（４）で与えられる。ここで、式（４）におけるｒとしては、ｒ＝１，２，∞が一般的に用いられる。

この式（４）を用いて各モデル特徴点及び各オブジェクト特徴点の方向ヒストグラム間相違度を計算するが、（ｉ）モデル−オブジェクト間のスケール比がマッチング段階で未知であるため、モデル特徴点の各レベルとオブジェクト特徴点の各レベル間で方向ヒストグラム間のマッチングを行う必要がある。また、（ｉｉ）方向ヒストグラム間のマッチングに関しては、モデル−オブジェクト間の回転変換量を考慮する必要がある。

モデル特徴点ｍのレベルＬＶにおける方向ヒストグラムＨｍＬＶ＝｛ｈｍＬＶ（ｎ），ｎ＝１，…，Ｎ｝と、オブジェクト特徴点ｏのレベルｌｖにおける方向ヒストグラムＨｏｌｖ＝｛ｈｏｌｖ（ｎ），ｎ＝１，…，Ｎ｝との相違度を求める場合を考える。方向ヒストグラムは回転変換に対して巡回的に変化するため、Ｈｏｌｖを巡回的に階級を１つずつシフトさせながら式（４）の計算を行い、その最小値をＨｍＬＶとＨｏｌｖとの間の相違度とする。このとき、相違度の最小値を与えた時のシフト量（ずらした階級数）からオブジェクト特徴点の回転角度を推定することができる。なお、この手法は方向ヒストグラム交差法として知られている。

Ｈｏｌｖをｋ階級分シフトさせた方向ヒストグラムをＨｏｌｖ（ｋ）とすると、方向ヒストグラム交差法による方向ヒストグラム間相違度ｄｉｓｓｉｍｉｌａｒｉｔｙ（ＨｍＬＶ，Ｈｏｌｖ（ｋ））は、以下の式（５）で与えられる。

また、最小のｄ（ＨｍＬＶ，Ｈｏｌｖ（ｋ））を与えるｋをｋ'とすると、オブジェクト特徴点ｏの近傍領域における推定回転角度θ（ｍ，ＬＶ，ｏ，ｌｖ）は以下の式（６）で与えられる。

上述の（ｉ）を考慮すると、モデル特徴点ｍとオブジェクト特徴点ｏとの方向ヒストグラム間相違度ｄｉｓｓｉｍｉｌａｒｉｔｙ（Ｈｍ，Ｈｏ）は、以下の式（７）のようになる。

特徴量マッチング部７３は、モデル特徴点ｍとオブジェクト特徴点ｏとの各ペア（ｍ、ｎ）に対し、最小の方向ヒストグラム間相違度ｄｉｓｓｉｍｉｌａｒｉｔｙ（Ｈｍ，Ｈｏ）を与えるレベルＬＶ，ｌｖ（以下、それぞれＬＶｍ＊，ｌｖｏ＊と表記する。）と、その推定回転角度θ（ｍ，ＬＶｍ＊，ｏ，ｌｖｏ＊）とを、方向ヒストグラム間相違度ｄｉｓｓｉｍｉｌａｒｉｔｙ（Ｈｍ，Ｈｏ）と共に保持する。

次に、ステップＳ６２において、特徴量マッチング部７３は、各モデル特徴点ｍに対して、方向ヒストグラム間相違度の小さい順にＫ個のオブジェク特徴点ｏｍ１，…，ｏｍＫを選択してそれぞれマッチペアを組ませることで、マッチペア群を生成する。即ち、各モデル特徴点ｍに対してＫ個のマッチペア（ｍ、ｏｍ１），…，（ｍ、ｏｍｋ），…，（ｍ、ｏｍＫ）が組まれる。また、各マッチペア（ｍ、ｏｍｋ）には対応するレベルＬＶｍ＊，ｌｖｏｍｋ＊と推定回転角度θ（ｍ，ＬＶｍ＊，ｏ，ｌｖｏｍｋ＊）との情報が保持される。

このように、特徴量マッチング部７３では、ヒストグラム度数に勾配強度を累積しておらず、単に勾配方向のみに注目しているため、明度変化に対してロバストな特徴量マッチングが可能になる。また、前述した非特許文献２の手法では、カノニカル・オリエンテーションのように抽出が不安定な特徴量を元にマッチングを行っているのに対して、本実施の形態では方向ヒストグラムの形状を考慮したより安定なマッチングを行うことができる。また、二次的に安定した特徴量（推定回転角度）を得ることができる。

なお、上述したステップＳ６２の処理では、各モデル特徴点ｍに対してＫ個のマッチペアを選択するものとして説明したが、これに限定されるものではなく、方向ヒストグラム間相違度が閾値を下回るペア全てを選択するようにしても構わない。

ここで、上述したステップＳ６２の処理で生成されたマッチペア群は、方向ヒストグラムが類似するものの濃度勾配の空間的特徴が異なっているようなマッチペアも含んでいる。そこで、ステップＳ６３において、特徴量マッチング部７３は、濃度勾配ベクトル間類似度によるマッチペアの絞り込みを行うことで、マッチペア群の更新を行う。

具体的には、モデル特徴点ｍの近傍のレベルＬＶｍ＊における濃度勾配ベクトルをＵｍとし、このモデル特徴点ｍと対応点ペアを組むオブジェクト特徴点ｏの近傍のレベルｌｖｏｍｋ＊における濃度勾配ベクトルをＵｏとしたとき、ＵｍとＵｏとの類似度が閾値を下回るマッチペアを排除することで、マッチペア群を更新する。

ここで、図１５を参照して、濃度勾配ベクトルＵｍ，Ｕｏ間の類似度の計算手法について説明する。先ず、特徴量マッチング部７３は、Ｕｍを空間的に４領域Ｒｉ（ｉ＝１，…，４）に分割し、各領域の平均濃度勾配ベクトルＶｉ（ｉ＝１，…，４）を求める。このＶｉをまとめた８次元ベクトルＶでＵｍが表現される。一方、特徴量マッチング部７３は、回転変換を考慮した濃度勾配情報のマッチングを行うために、Ｕｏの勾配方向を先に求めた推定回転角度θ（ｍ，ＬＶｍ＊，ｏ，ｌｖｏｍｋ＊）で補正し、Ｕｏ＊を得る。この際、特徴量マッチング部７３は、中間位置の値については、双２次線形補間により求める。先と同様に、特徴量マッチング部７３は、Ｕｏ＊を４領域Ｒｉ（ｉ＝１，…，４）に分割し、各領域の平均濃度勾配ベクトルＷｉ（ｉ＝１，…，４）を求める。このＷｉをまとめた８次元ベクトルＷでＵｏが表現される。このとき、ＵｍとＵｏとの類似度ｓｉｍｉｌａｒｉｔｙ（Ｕｍ、Ｕｏ）∈［０，１］は、平均濃度勾配ベクトルＶとＷとの類似度として解釈され、例えばコサイン相関値を用いて以下の式（８）により求められる。即ち、特徴量マッチング部７３は、以下の式（８）を演算する。ここで、式（８）において（Ｖ・Ｗ）はＶとＷとの内積を表す。

特徴量マッチング部７３は、各マッチペアに対して上記式（８）で得られる平均濃度勾配ベクトル間の類似度を求め、類似度が閾値δを下回るマッチペアをマッチペア群から排除し、マッチペア群を更新する。

このように、特徴量マッチング部７３では、部分領域の平均濃度勾配ベクトルを用いて特徴量の比較を行っているため、特徴点位置や推定回転角度の微妙なずれや、明度の変化による濃度勾配情報の変化に対してロバストなマッチングを実現することができ、計算量の削減にもなる。

以上のマッチング処理により、特徴点近傍の局所的な濃度勾配情報が類似する（モデル特徴点−オジェクト特徴点）マッチペア群が特徴量マッチング部７３により抽出されて、図６の認識判定部７４に提供される。即ち、上述した図１３の認識処理のステップＳ４４の処理が終了する。

すると、上述したように、それに続くステップＳ４４において、認識判定処理が認識判定部７４により実行される。

この認識判定処理自体は、マッチペア群を利用するものであれば、そのアルゴリズムは特に限定されない。そこで、ここでは、アルゴリズムの一例として、従来の図２の認識判定部７４に適用されていたい認識判定処理と、本発明人により新たに発明された認識判定処理との両者のアルゴリズムについて説明する。なお、前者と後者の認識判定処理とを個々に区別する必要がある場合、前者を旧認識判定処理と称し、後者を新認識判定処理と称する。

図１６は、旧認識判定処理を説明するフローチャートである。

ステップＳ８１において、認識判定部７４は、マッチペア群からミスマッチペアを除去する。なお、このステップＳ８１の処理の意義については、後述する。

ステップＳ８２において、認識判定部７４は、マッチペア群に含まれるマッチペアを対象にしてRANSAC処理を実行し、アフィン変換パラメータを決定する。RANSAC処理については後述する。

ステップＳ８３において、認識判定部７４は、アフィン変換パラメータからの誤差閾値以内のマッチペアの個数に基づいて、認識判定を行う。

これにより、認識判定処理は終了となる。

以下、ステップＳ８２におけるRANSAC処理の詳細について説明する。

特徴量マッチン部７３から認識判定部７４に提供された段階のマッチペア群は、巨視的に見ると、対応特徴点間の空間的位置関係がモデルの入力画像８２上での姿勢（モデル姿勢）と矛盾するような「偽のマッチペア（アウトライヤ）」を含んでしまっている。

ここで、マッチペアが３組以上ある場合には、最小自乗推定により近似アフィン変換パラメータの推定が可能であり、推定モデル姿勢と空間的位置関係の矛盾するマッチペアを排除し、残ったマッチペアで再びモデル姿勢推定を行うという操作を繰り返すことで、モデル姿勢を認識することができる。

しかしながら、マッチペア群中のアウトライヤが多い場合や真のアフィン変換パラメータから極端に逸脱したアウトライヤが存在する場合には、最小自乗推定による推定結果は一般的に満足のいくものではないことが知られている（ＨａｒｔｌｅｙＲ．，ＺｉｓｓｅｒｍａｎＡ．，“ＭｕｌｔｉｐｌｅＶｉｅｗＧｅｏｍｅｔｒｙｉｎＣｏｍｐｕｔｅｒＶｉｓｉｏｎ．”，Ｃｈａｐｔｅｒ３，ｐｐ．６９−１１６，ＣａｍｂｒｉｄｇｅＵｎｉｖｅｒｓｉｔｙＰｒｅｓｓ，２０００）ため、本実施の形態における認識判定部７４は、アフィン変換拘束の下、マッチペア群の空間的位置関係から「真のマッチペア（インライヤ）」を抽出し、抽出されたインライヤを用いてモデル姿勢としてのアフィン変換パラメータ、即ち、平行移動量，回転，拡大縮小，ストレッチを決定するアフィン変換パラメータを決定するための一連の処理を実行する。かかる一連の処理をここではRANSAC処理と称している。

即ち、上述したように、マッチペアが３組以上なければアフィン変換パラメータを決定できないため、マッチペアが２組以下の場合、認識判定部７４は、入力画像８２中にモデルが存在しない、又はモデル姿勢検出に失敗したとして、例えば認識結果８３として「認識不可」を出力してRANSAC処理を終了する。一方、マッチペアが３組以上ある場合、認識判定部７４は、モデル姿勢を検出可能であるとし、アフィン変換パラメータの推定を行う。なお、認識判定部７４は、モデル画像８１および入力画像８２の例えば第１レベル（最高解像度）における特徴点の空間的位置を元にモデル姿勢を推定するものとする。

ここで、モデル特徴点［ｘｙ］Ｔのオブジェクト特徴点［ｕｖ］Ｔへのアフィン変換は、以下の式（９）で与えられる。

この式（９）において、ａｉ（ｉ＝１，…，４）は回転，拡大縮小，ストレッチを決定するパラメータを表し、［ｂ１ｂ２］Ｔは平行移動パラメータを表す。決定すべきアフィン変換パラメータはａ１，…，ａ４及びｂ１，ｂ２の６つであるため、マッチペアが３組あればアフィン変換パラメータを決定することができる。

３組のマッチペアで構成されるペア群Ｐを（［ｘ１ｙ１］Ｔ，［ｕ１ｖ１］Ｔ），（［ｘ２ｙ２］Ｔ，［ｕ２ｖ２］Ｔ），（［ｘ３ｙ３］Ｔ，［ｕ３ｖ３］Ｔ）とすると、ペア群Ｐとアフィン変換パラメータとの関係は、以下の式（１０）に示す線形システムで表現することができる。

この式（１０）をＡｘ＝ｂのように書き直すと、アフィン変換パラメータｘの最小自乗解は以下の式（１１）で与えられる。

さて、マッチペア群からアウトライヤが１つ以上混入するように繰り返しランダムにペア群Ｐを選択した場合、そのアフィン変換パラメータはパラメータ空間上に散らばって投射される。一方、インライヤのみから構成されるペア群Ｐを繰り返しランダムに選択した場合、そのアフィン変換パラメータは、何れもモデル姿勢の真のアフィン変換パラメータに極めて類似した、すなわちパラメータ空間上で距離の近いものとなる。したがって、マッチペア群からランダムにペア群Ｐを選択し、そのアフィン変換パラメータをパラメータ空間上に投射していく操作を繰り返すと、インライヤはパラメータ空間上で密度の高い（メンバ数の多い）クラスタを形成し、アウトライヤは散らばって出現することになる。このことから、パラメータ空間上でクラスタリングを行い、最多メンバ数を持つクラスタの要素がインライヤとなる。

図１７は、このようなRANSAC処理の一例を説明するフローチャートである。

なお、図１７の例では、認識判定部７４におけるクラスタリング手法としては、ＮＮ（ＮｅａｒｅｓｔＮｅｉｇｈｂｏｒ）法を用いるものとする。この際、上述したｂ１，ｂ２は、認識対象画像により様々な値を取り得るため、ｘ空間でもクラスタリングにおいてクラスタリング閾値の選択が認識対象に依存してしまう。そこで、認識判定部７４では、「真のパラメータとａ１，…，ａ４は類似するがｂ１，ｂ２が異なるようなアフィン変換パラメータを与えるペア群Ｐは殆ど存在しない」という仮定の下、パラメータａ１，…，ａ４（以下、ａと表記する。）で張られるパラメータ空間上のみでクラスタリングを行う。なお、上記仮定が成り立たない状況が生じたとしても、ａ空間とは独立にｂ１，ｂ２で張られるパラメータ空間でクラスタリングを行いその結果を考慮することで、容易に問題を回避することができる。

ステップＳ１０１において、認識判定部７４は、初期化を行う。具体的には、認識判定部７４は、繰り返し数のカウント値ｃｎｔをｃｎｔ＝１とし、マッチペア群からランダムにペア群Ｐ１を選択し、アフィン変換パラメータａ１を求める。また、認識判定部７４は、クラスタ数ＮをＮ＝１とし、アフィン変換パラメータ空間ａ上でａ１を中心とするクラスタＣ１を作る。そして、認識判定部７４は、このクラスタＣ１のセントロイドｃ１をｃ１＝ａ１とし、メンバ数ｎｃ１をｎｃ１＝１とする。

ステップＳ１０２において、認識判定部７４は、マッチペア群からランダムに３つのマッチペアからなるペア群Ｐｃｎｔを選択し、アフィン変換パラメータａｃｎｔを計算する。

ステップＳ１０３において、認識判定部７４は、ＮＮ法を用いてアフィン変換パラメータ空間のクラスタリングを行う。具体的には、認識判定部７４は、先ず以下の式（１２）に従ってアフィン変換パラメータａｃｎｔと各クラスタＣｉのセントロイドｃｉ（ｉ＝１，…，Ｎ）との距離ｄ（ａｃｎｔ、ｃｉ）のうち、最初の距離ｄｍｉｎを求める。

そして、認識判定部７４は、所定の閾値τ（例えばτ＝０．１）に対してｄｍｉｎ＜τであればｄｍｉｎを与えるクラスタＣｉにａｃｎｔを属させ、ａｃｎｔを含めた全メンバでクラスタＣｉのセントロイドｃｉを更新する。また、認識判定部７４は、クラスタＣｉのメンバ数ｎｃｉをｎｃｉ＝ｎｃｉ＋１とする。一方、認識判定部７４は、ｄｍｉｎ≧τであればクラスタ数ＮをＮ＝Ｎ＋１とし、アフィン変換パラメータ空間ａ上でａｃｎｔをセントロイドｃＮ＋１とする新しいクラスタＣＮ＋１を作り、メンバ数ｎｃＮ＋１をｎｃＮ＋１＝１とする。

ステップＳ１０４において、認識判定部７４は、繰り返し終了条件を満たすか否かを判定する。

ステップＳ１０４における繰り返し終了条件は、特に限定されず、例えば次のような条件を採用することができる。即ち、例えば最多メンバ数が所定の閾値（例えば１５）を超え、且つ最多メンバ数と２番目に多いメンバ数との差が所定の閾値（例えば３）を超える場合、或いは繰り返し数カウンタのカウント値ｃｎｔが所定の閾値（例えば５０００回）を超える場合に終了するように設定する、といった条件を繰り返し終了条件として採用することができる。

ステップＳ１０４において、繰り返し条件を満たさないと判定した場合、認識判定部７４は、ステップＳ１０５において、繰り返し数のカウント値ｃｎｔをｃｎｔ＝ｃｎｔ＋１とした後、処理をステップＳ１０２に戻し、それ以降の処理を繰り返す。

これに対して、ステップＳ１０４において、繰り返し条件を満たすと判定された場合、処理はステップＳ１０６に進む。

ステップＳ１０６において、認識判定部７４は、以上で得られたインライヤを用いて、最小自乗法によりモデル姿勢を決定するアフィン変換パラメータを計算する。

ここで、インライヤを（［ｘＩＮ１ｙＩＮ１］Ｔ，［ｕＩＮ１ｖＩＮ１］Ｔ），（［ｘＩＮ２ｙＩＮ２］Ｔ，［ｕＩＮ２ｖＩＮ２］Ｔ），…とすると、インライヤとアフィン変換パラメータとの関係は、以下の式（１３）に示す線形システムで表現することができる。

この式（１３）をＡＩＮｘＩＮ＝ｂＩＮのように書き直すと、アフィン変換パラメータｘＩＮの最小自乗解は以下の式（１４）で与えられる。

このようにして計算されたアフィン変換パラメータｘＩＮを用いて、上述した図１６のステップＳ８３の認識判定が行われ、その認識判定結果が認識結果８３（図６）として出力される。

なお、以上の説明では、閾値τが定数値であるものとしたが、ステップＳ１０２乃至ステップＳ１０５のループ処理の実行の際に、始めは比較的大きな閾値τを用いて大雑把なインライヤ抽出を行い、繰り返し回数が増える毎に次第に小さい閾値τを用いる、いわゆる「焼きなまし法」のような手法を適用してもよい。これにより、精度よくインライヤを抽出することができる。

また、以上の説明では、マッチペア群からランダムに３つのマッチペアからなるペア群Ｐを選択し、そのアフィン変換パラメータをパラメータ空間上に投射していく操作を繰り返し、パラメータ空間上で最多メンバ数を持つクラスタの要素をインライヤとして、最小自乗法によりモデル姿勢を決定するアフィン変換パラメータを推定したが、これに限定されるものではなく、例えば最多メンバ数を持つクラスタのセントロイドを、モデル姿勢を決定するアフィン変換パラメータとしても構わない。

ところで、図６の特徴量マッチング部７３で生成されたマッチペア群中のアウトライヤの比率が大きくなるほど認識判定部７４におけるインライヤの選択確率が低下し、モデル姿勢を推定する際に多くの繰り返し回数が必要となるため、計算時間が増大してしまう。従って、この特徴量マッチング部７３から認識判定部７４に提供された段階のマッチペア群から、できる限りアウトライヤを排除しておくことが望ましい。このため、図１６の旧認識判定処理では、ステップＳ８２の処理の前のステップＳ８１の処理として、アウトライヤであるミスマッチペアが除去されるのである。これが、ステップＳ８１の処理の意義である。なお、同様の趣旨で、後述する図２１の新認識判定処理にもステップＳ１２１が設けられている。

この場合のミスマッチペア（アウトライヤ）を除去する除去手法は、特に限定されず、例えば次の第１の除去手法や第２の除去手法を採用することができる。

第１の除去手法とは、認識判定部７４が次のような一連の処理を実現可能な手法をいう。

即ち、認識判定部７４は、推定回転角度ヒストグラムを作成することによりマッチペアを選択する。具体的に、図１８に示すようなモデルｍｄを含むモデル画像８１およびオブジェクトｏｂ１，ｏｂ２を含む入力画像８２を想定して説明する。特徴量マッチング部７３により、モデル特徴点ｍとオブジェクト特徴点ｏとの間で、図１８に示されるようなマッチペア群Ｐ１，…，Ｐ６が生成され、これらのうち、Ｐ１，Ｐ２，Ｐ５，Ｐ６はインライヤであり、Ｐ３，Ｐ４はアウトライヤであるとする。

ここで、特徴量マッチング部７３により生成された各マッチペアには、モデルの入力画像８２上での推定回転角度情報が保持されているが、図１９に示されるように、インライヤの推定回転角度が何れも近い値（例えば４０ｄｅｇ）を有するのに対し、アウトライヤの推定回転角度は様々な値（例えば１１０ｄｅｇ、２６０ｄｅｇ）を有する。従って、図２０に示されるような推定回転角度ヒストグラムを作成すると、そのピークを与える推定回転角度を有するマッチペアは、インライヤ（及び推定回転角度がインライヤと一致する極少数のアウトライヤ）となる。

そこで、認識判定部７４は、特徴量マッチング部７３で生成されたマッチペア群のうち、推定回転角度ヒストグラムのピークを与える推定回転角度を有するマッチペアを選択する。換言すると、認識判定部７４は、選択した以外のマッチペアをミスマッチペアとして除去する。

以上の一連の処理を実現させる手法が、第１の除去手法である。

このような第１の除去手法により、安定且つ精密にモデル姿勢のアフィン変換パラメータを推定することが可能となる。ただし、モデルに対するストレッチ変換が著しい場合、画像中の各点における回転角度は一定ではなくなるため、この第１の除去手法は、著しいストレッチ変換を想定していない場合にのみ有効である。

このような第１の除去手法に対して、第２の除去手法とは、認識判定部７４が次のような一連の処理を実現可能な手法をいう。

即ち、認識判定部７４は、一般化ハフ変換を用いてモデル姿勢の粗推定を行う。具体的には、特徴量マッチング部７３により生成されたマッチペア群について、認識判定部７４は、回転，拡大縮小率，平行移動（ｘ、ｙ方向）の４つの画像変換パラメータを特徴空間（投票空間）とした一般化ハフ変換を行う。最も投票の多かった画像変換パラメータ（最多投票パラメータ）によりモデルの入力画像８２上での粗い推定モデル姿勢が決定されるが、一方で最多投票パラメータに投票したマッチペア群が、この粗い推定モデル姿勢をサポートするインライヤ（及び極少数のアウトライヤ）となっている。

そこで、認識判定部７４は、最多投票パラメータに投票したマッチペア群を選択する。換言すると、認識判定部７４は、選択した以外のマッチペアをミスマッチペアとして除去する。

以上の一連の処理を実現させる手法が、第２の除去手法である。

このような第２の除去手法により、安定且つ精密にモデル姿勢のアフィン変換パラメータを推定することが可能となる。

なお、上述した第１，第２の除去手法を併用して適用することも可能である。

以上説明したような図１６の旧認識判定処理を実行することで、複数の物体を含み、物体同士が部分的に重なり合っているような入力画像８２からもモデルを検出可能であり、さらに視点の変化（平行移動，拡大縮小，回転，ストレッチを含む画像変化）、明度変化、ノイズによる画像情報の変形に対してもロバストである、という効果を奏することが可能になる。

さらに、モデル画像８１のみならずＮ枚の自己変調画像９１−１乃至９１−Ｎの情報を利用するといった本発明の特徴を生かした新認識判定処理、即ち、図２１に示される新認識判定処理を実行することで、かかる効果はより顕著なものとなる。以下、この図２１の新認識判定処理について説明していく。

なお、図２１の例では、図６の自己変調画像生成部１１１におけるＮ個の変換係数として、既知のＮ個のアフィン変換パラメータが採用されていることが前提とされる。即ち、既知のＮ個のアフィン変換パラメータをそれぞれ利用したアフィン変換が、自己変調画像生成部１１１によりモデル画像８１に対して施され、その結果、Ｎ枚の自己変調画像９１−１乃至９１−Ｎが得られたことが、図２１の例の前提事項となっている。

図２１のステップＳ１２１とＳ１２２とのそれぞれの処理は、上述した図１６のステップＳ８１とＳ８２とのそれぞれと基本的に同様の処理である。そこで、以下、ステップＳ１２３以降の処理について説明する。

即ち、ステップＳ１２３において、認識判定部７４は、所定の自己変調画像９１を処理対象に設定する。ここでいう所定の自己変調画像９１とは、Ｎ枚の自己変調画像９１−１乃至９１−Ｎのうちの未処理の１枚の画像をいう。

ステップＳ１２４において、認識判定部７４は、処理対象の自己変調画像９４とのマッチペアを対象にして、RANSAC処理を実行し、アフィン変換パラメータを決定する。処理対象の自己変調画像９４とのマッチペアとは、処理対象の自己変調画像９４から抽出されたモデル特徴点を含むマッチペアをいう。

ステップＳ１２５において、認識判定部７４は、決定されたアフィン変換パラメータについての、モデル画像８１から処理対象の自己変調画像９１を生成する際に使用されたアフィン変換パラメータに対する誤差は閾値以内であるか否かを判定する。モデル画像８１から処理対象の自己変調画像９１を生成する際に使用されたアフィン変換パラメータとは、上述した既知のＮ個のアフィン変換パラメータのうちの所定の１つをいう。

ステップＳ１２５において、その誤差は閾値を超えていると判定した場合、認識判定部７４は、ステップＳ１２９において、認識判定処理を禁止する。即ち、認識判定処理は終了となる。

これに対して、ステップＳ１２５において、その誤差は閾以下であると判定された場合、処理はステップＳ１２６に進む。

ステップＳ１２６において、認識判定部７４は、自己変調画像９１−１乃至９１−Ｎの全てが処理対象に設定されたか否かを判定する。

自己変調画像９１−１乃至９１−Ｎの中にまだ処理対象に設定されていない画像がある場合、ステップＳ１２６の処理でＮＯであると判定されて、処理はステップＳ１２３に戻され、それ以降の処理が繰り返される。

即ち、自己変調画像９１−１乃至９１−Ｎのそれぞれに対して、ステップＳ１２３乃至Ｓ１２６のループ処理が繰り返し実行されると、ステップＳ１２６の処理でＹＥＳであると判定されて、処理はステップＳ１２７に進む。

ステップＳ１２７において、認識判定部７４は、全マッチペアを対象にして決定されたアフィン変換パラメータに対する、各自己変調画像９１−１乃至９１−Ｎとのマッチペアをそれぞれ対象にして決定された各アフィン変換パラメータの平均からの距離が、閾値以内であるか否かを判定する。

ステップＳ１２７において、その誤差は閾値を超えていると判定した場合、認識判定部７４は、ステップＳ１２９において、認識判定処理を禁止する。即ち、認識判定処理は終了となる。

これに対して、ステップＳ１２７において、その誤差は閾以下であると判定された場合、処理はステップＳ１２８に進む。

ステップＳ１２８において、認識判定部７４は、全マッチペアを対象にして決定されたアフィン変換パラメータからの誤差閾値以内のマッチペアの個数に基づいて、認識判定を行う。

これにより、図２１の新認識判定処理は終了となる。

以上、本発明が適用される自己変調画像マッチング手法について説明してきた。

ただし、上述したように、自己変調画像マッチング手法とは本発明の手法の一実施の形態に過ぎない。即ち、本発明の手法では、入力画像８２との局所特徴量のマッチング対象は、モデル画像８１の他としては、所定の変換係数を利用してモデル画像８１から生成可能な画像（以下、変換画像と称する）であれば足りる。この変換画像として自己変調画像９１が採用された場合の本発明の手法が、自己変調画像マッチング手法である。

従って、例えば図２２に示されるように、モデル画像８１の他に、そのモデル画像８１における視点の周辺の別の視点をＮ個定めて、そのＮ個の別の視点からそれぞれ撮影されたＮ枚の画像１５１−１乃至１５１−Ｎ（以下、モデル周辺画像１５１−１乃至１５１−Ｎと称する）を用意しておけば、そのＮ枚のモデル周辺画像１５１−１乃至１５１−Ｎを変換画像として採用することもできる。ただし、この場合、モデル画像８１と、Ｎ枚のモデル周辺画像１５１−１乃至１５１−Ｎのそれぞれとの関係から、変換係数を推定する必要がある。

なお、以下、本発明の手法のうちの、このようなモデル周辺画像１５１−１乃至１５１−Ｎを変換画像として採用した場合の手法を、モデル周辺画像マッチング手法と称する。

図２３は、このモデル周辺画像マッチング手法が適用される画像認識装置の機能的構成例を表している。

なお、図２３において、図６と対応する箇所には対応する符号が付してあり、かかる箇所については適宜説明を省略する。

図２３の例では、画像認識装置は、学習部２０１、特徴量データベース５２、および認識部５３を含むように構成されている。

学習部２０１は、特徴点抽出部６１および特徴量抽出部６２、特徴点抽出部１１２乃至特徴量抽出部１１４、並びに、変換係数推定部２１１を含むように構成されている。

特徴点抽出部６１は、モデル画像８１からモデル特徴点を抽出し、特徴量抽出部６２に提供する。特徴量抽出部６２は、特徴点抽出部６１により抽出された各モデル特徴点について特徴量を抽出し、モデル特徴点の位置情報とともに特徴量データベース５２に記憶させる。

変換係数推定部２１１は、モデル画像８１と、Ｎ枚のモデル周辺画像１５１−１乃至１５１−Ｎのそれぞれとの画像認識結果に基づいて、モデル画像８１からＮ枚のモデル周辺画像１５１−１乃至１５１−Ｎのそれぞれを仮に生成したならば使用されるであろうＮ個の変換係数２２１−１乃至２１−Ｎのそれぞれを推定する。変換係数推定部２１１により推定されたＮ個の変換係数２２１−１乃至２２１−Ｎは、特徴点位置変換部１１３に通知される。変換係数推定部２１１の具体例については図２４を参照して後述する。

なお、以下、モデル周辺画像１５１−１乃至１５１−Ｎを個々に区別する必要が無い場合、単にモデル周辺画像１５１と称する。この場合、変換係数２２１−１乃至２２１−Ｎを、単に変換係数２２１と称する。

特徴点抽出部１１２は、モデル周辺画像１５１からモデル特徴点を抽出し、そのモデル周辺画像１５１上の位置を特徴点位置変換部１１３に通知する。特徴点位置変換部１１３は、自己変調画像生成部１１１から通知された変換係数２２１を用いて、そのモデル特徴点のモデル周辺画像１５１上の位置を、モデル画像８１上の対応位置に変換して、変換後の対応位置を特徴点抽出部１１２に通知する。特徴点抽出部１１２は、モデル特徴点と、その特徴点のモデル画像８１上の対応位置とを対応付けて、特徴量抽出部１１４に提供する。

特徴量抽出部１１４は、特徴点抽出部１１２により抽出された各モデル特徴点について特徴量を抽出し、抽出した特徴量と、その特徴点のモデル画像８１上の対応位置とを対応付けて、特徴量データベース５２に記憶させる。即ち、モデル周辺画像１５１上のモデル特徴点の位置そのものではなく、モデル画像８１上の対応位置が、モデル周辺画像１５１のモデル特徴点の位置情報として特徴量データベース５２に記憶される。

なお、図２３の例では、図６の例と同様に、１枚のモデル画像８１しか描画されていないが、実際には、複数のモデル画像が学習部２０１に与えられる。即ち、特徴量データベース５２には、実際には、複数のモデル画像のそれぞれについて、自画像とＮ枚のモデル周辺画像１５１−１乃至１５１−Ｎの各特徴量とそのモデル特徴点の位置情報（モデル周辺画像１５１の場合にはモデル画像８１の対応位置）とがそれぞれ記憶されている。

認識部５３は、基本的に図６の例と同様の構成を有しているので、その説明は省略する。

図２４は、上述した変換係数推定部２１１の詳細な構成例を示している。

図２４の例の変換係数推定部２１１は、モデル画像８１に対してアフィン変換を施した結果得られる画像がモデル周辺画像１５１であるという拘束条件の下、変化係数２２１としてアフィン変換パラメータを推定して出力する。

このため、図２４の例の変換係数推定部２１１は、特徴点抽出部２５１乃至認識判定部２５７を含むように構成されている。即ち、図２４の例の変換係数推定部２１１は、従来の図２の画像認識装置と基本的に同様の構成を有しており、図２でいう入力画像８２としてモデル周辺画像１５１−１乃至１５１−Ｎのそれぞれが入力されることになる。

具体的には、特徴点抽出部２５１は、モデル画像８１からモデル特徴点を抽出し、特徴量抽出部２５２に提供する。特徴量抽出部２５２は、特徴点抽出部２５１により抽出された各モデル特徴点について特徴量を抽出し、モデル特徴点の位置情報とともに特徴量データベース２５３に記憶させる。

一方、特徴点抽出部２５４は、モデル周辺画像１５１からオブジェクト特徴点を抽出し、特徴量抽出部２５５に提供する。特徴量抽出部２５５は、特徴点抽出部２５４により抽出されたオブジェクト特徴点について特徴量を抽出し、オブジェクト特徴点の位置情報とともに特徴量マッチング部２５６に提供する。

特徴量マッチング部２５６は、上述した図１４等のマッチング処理を実行することでマッチペア群を生成して、それを認識判定部２５７に提供する。

認識判定部２５７は、上述した図１７等のRANSAC処理を実行することでアフィン変換パラメータを算出して、それを変換係数２２１として出力する。

ところで、上述した一連の処理は、ハードウエアにより実行させることもできるが、ソフトウエアにより実行させることができる。

この場合、図６や図２３の画像認識装置の全部または一部分は、例えば、図２５に示されるパーソナルコンピュータで構成することができる。

図２５において、CPU（Central Processing Unit）３０１は、ROM（Read Only Memory）３０２に記録されているプログラム、または記憶部３０８からRAM（Random Access Memory）３０３にロードされたプログラムに従って各種の処理を実行する。RAM３０３にはまた、CPU３０１が各種の処理を実行する上において必要なデータなども適宜記憶される。

CPU３０１、ROM３０２、およびRAM３０３は、バス３０４を介して相互に接続されている。このバス３０４にはまた、入出力インタフェース３０５も接続されている。

入出力インタフェース３０５には、キーボード、マウスなどよりなる入力部３０６、ディスプレイなどよりなる出力部３０７、ハードディスクなどより構成される記憶部３０８、および、モデム、ターミナルアダプタなどより構成される通信部３０９が接続されている。通信部３０９は、インターネットを含むネットワークを介して他の装置（図示せず）との間で行う通信を制御する。

入出力インタフェース３０５にはまた、必要に応じてドライブ３１０が接続され、磁気ディスク、光ディスク、光磁気ディスク、或いは半導体メモリなどよりなるリムーバブル記録媒体３１１が適宜装着され、それらから読み出されたコンピュータプログラムが、必要に応じて記憶部３０８にインストールされる。

一連の処理をソフトウエアにより実行させる場合には、そのソフトウエアを構成するプログラムが、専用のハードウエアに組み込まれているコンピュータ、または、各種のプログラムをインストールすることで、各種の機能を実行することが可能な、例えば汎用のパーソナルコンピュータなどに、ネットワークや記録媒体からインストールされる。

このようなプログラムを含む記録媒体は、図２５に示されるように、装置本体とは別に、ユーザにプログラムを提供するために配布される、プログラムが記録されている磁気ディスク（フロッピディスクを含む）、光ディスク（CD-ROM(Compact Disk-Read Only Memory),DVD(Digital Versatile Disk)を含む）、光磁気ディスク（ＭＤ（Mini-Disk）を含む）、もしくは半導体メモリなどよりなるリムーバブル記録媒体（パッケージメディア）３１１により構成されるだけでなく、装置本体に予め組み込まれた状態でユーザに提供される、プログラムが記録されているROM３０２や、記憶部３０８に含まれるハードディスクなどで構成される。

なお、本明細書において、記録媒体に記録されるプログラムを記述するステップは、その順序に沿って時系列的に行われる処理はもちろん、必ずしも時系列的に処理されなくとも、並列的あるいは個別に実行される処理をも含むものである。

また、本明細書において、システムとは、複数の装置や処理部により構成される装置全体を表すものである。

従来の画像処理装置の構成例を示すブロック図である。従来の画像処理装置の別の構成例を示すブロック図である。図２の従来の画像処理装置の特徴量マッチングの概略を説明する図である。本発明の手法のうちの自己変調画像マッチング手法を説明する図である。本発明の手法のうちの自己変調画像マッチング手法を説明する図である。本発明が適用される画像認識装置であって、自己変調画像マッチング手法が適用された画像認識装置の構成例を示すブロック図である。図６の画像認識装置が実行する学習処理例を説明するフローチャートである。図７の学習処理における特徴点抽出処理例を説明する図である。図７の学習処理における特徴点抽出処理例を説明するフローチャートである。図７の学習処理における特徴点抽出処理例を説明する図である。図７の学習処理における特徴量抽出処理例を説明する図である。図７の学習処理における特徴量抽出処理例を説明する図である。図６の画像認識装置が実行する認識処理例を説明するフローチャートである。図１３の認識処理におけるマッチング処理例を説明するフローチャートである。図１３の認識処理におけるマッチング処理例を説明する図である。図１３の認識処理における認識判定処理の一例を説明するフローチャートである。図１３の認識処理におけるRANSAC処理の一例を説明するフローチャートである。図１３の認識処理におけるミスマッチペア除去処理の一手法を説明する図である。図１３の認識処理におけるミスマッチペア除去処理の一手法を説明する図である。図１３の認識処理におけるミスマッチペア除去処理の一手法を説明する図である。図１３の認識処理における認識判定処理の一例であって、図１６とは異なる例を説明するフローチャートである。本発明の手法のうちのモデル周辺画像マッチング手法を説明する図である。本発明が適用される画像認識装置であって、モデル周辺画像画像マッチング手法が適用された画像認識装置の構成例を示すブロック図である。図２３の画像認識装置の変換係数推定部の詳細な構成例を示すブロック図である。本発明が適用される情報処理装置をパーソナルコンピュータで構成した場合の構成例を示す図である。

符号の説明

５２特徴量データベース，５３認識部，６１特徴点抽出部，６２特徴量抽出部，７１特徴点抽出部，７２特徴量抽出部，７３特徴量マッチング部，７４認識判定部，８１モデル画像，８２入力画像，８３認識結果，９１−１乃至９１−Ｎ自己変調画像，１０１学習部，１１１自己変調，１１２特徴点抽出部，１１３特徴点位置変換部，１１４特徴量抽出部，１５１−１乃至１５１−Ｎモデル周辺画像，２０１学習部，２１１変換係数推定部，２２１−１乃至２２１−Ｎ変換係数，２５１特徴点抽出部，２５２特徴量抽出部，２５３特徴量データベース，２５４特徴点抽出部，２５５特徴量抽出部，２５６特徴量マッチング部，２５７認識判定部，３０１ CPU，３０２ ROM，３０３ RAM，３０８記憶部，３１１リムーバブル記録媒体

Claims

入力画像とモデル画像とを比較する情報処理装置において、
前記モデル画像上の１以上のモデル特徴点の各特徴量を保持し、前記モデル画像からＮ個（Ｎは１以上の整数値）の変換係数のそれぞれで変換できるＮ枚の変換画像のそれぞれについての、自身の画像上の１以上のモデル特徴点の各特徴量をそれぞれ保持する保持手段と、
前記入力画像上の特徴点をオブジェクト特徴点として１以上抽出するオブジェクト特徴点抽出手段と、
前記特徴点抽出手段により抽出された１以上の前記オブジェクト特徴点のそれぞれについての特徴量を抽出するオブジェクト特徴量抽出手段と、
前記オブジェクト特徴量抽出手段により前記特徴量がそれぞれ抽出された１以上の前記オブジェクト特徴点のそれぞれと、前記保持手段により保持されている前記モデル画像および前記Ｎ枚の変換画像のそれぞれについての１以上の前記モデル特徴点のそれぞれとを比較し、類似すると比較判断された前記特徴量をそれぞれ有するオブジェクト特徴点とモデル特徴点とのマッチペアを１以上生成する特徴量比較手段と
を備える情報処理装置。
前記保持手段は、前記モデル画像および前記Ｎ枚の変換画像のそれぞれについての１以上の前記モデル特徴点のそれぞれに関して、その位置を前記特徴量と対応付けて保持しており、
前記特徴量比較手段により生成された１以上の前記マッチペアには、前記オブジェクト特徴点の位置と、前記保持手段により保持されている前記モデル特徴点の位置とが含まれ、
前記変換画像についての前記モデル特徴点の位置は、そのモデル特徴点の前記変換画像上の第１の位置に対応する前記モデル画像上の第２の位置である
請求項１に記載の情報処理装置。
既知の前記Ｎ個の変換係数のそれぞれを利用して、前記モデル画像から前記Ｎ枚の変換画像をそれぞれ生成する変換画像生成手段と、
前記モデル画像上、および前記変換画像生成手段により生成された前記Ｎ枚の変換画像上の各特徴点を前記モデル特徴点としてそれぞれ１以上抽出するモデル特徴点抽出手段と、
前記モデル特徴点抽出手段により抽出された１以上の前記モデル特徴点のそれぞれについての前記特徴量を抽出するモデル特徴量抽出手段と、
前記モデル特徴点抽出手段により抽出された１以上の前記モデル特徴点のうちの、前記Ｎ枚の変換画像上の1以上の前記モデル特徴点のそれぞれについて、前記Ｎ個の変換係数のうちの対応する１つを利用して、前記第１の位置から前記第２の位置に変換する位置変換手段と
をさらに備える請求項２に記載の情報処理装置。
前記モデル画像における視点の周辺に別の視点をＮ個定めて、そのＮ個の別の視点からそれぞれ撮影されたＮ枚の画像が、前記Ｎ枚の変換画像として入力され、
前記モデル画像上、および入力された前記Ｎ枚の変換画像上の各特徴点を前記モデル特徴点としてそれぞれ１以上抽出するモデル特徴点抽出手段と、
前記モデル特徴点抽出手段により抽出された１以上の前記モデル特徴点のそれぞれについての前記特徴量を抽出するモデル特徴量抽出手段と、
前記モデル画像と、入力された前記Ｎ枚の変換画像のそれぞれとに基づいて、前記Ｎ個の変換係数のそれぞれを推定する推定手段と、
前記モデル特徴点抽出手段により抽出された１以上の前記モデル特徴点のうちの、入力された前記Ｎ枚の変換画像上の1以上の前記モデル特徴点のそれぞれについて、前記推定手段により推定された前記Ｎ個の変換係数のうちの対応する１つを利用して、前記第１の位置から前記第２の位置に変換する位置変換手段と
をさらに備える請求項２に記載の情報処理装置。
所定の手法を1以上利用して、前記特徴量比較手段により生成された１以上の前記マッチペアの中からミスマッチペアを除外し、残存した前記マッチペアに基づいて、前記モデル画像に含まれるオブジェクトと同一のオブジェクト前記入力画像の中に存在するか否かを認識する認識手段
をさらに備える請求項２の情報処理装置。
入力画像とモデル画像とを比較する情報処理装置の情報処理方法において、
前記モデル画像上の１以上のモデル特徴点の各特徴量を保持し、前記モデル画像からＮ個（Ｎは１以上の整数値）の変換係数のそれぞれで変換できるＮ枚の変換画像のそれぞれについての、自身の画像上の１以上のモデル特徴点の各特徴量をそれぞれ保持し、
前記入力画像上の特徴点をオブジェクト特徴点として１以上抽出し、
抽出された１以上の前記オブジェクト特徴点のそれぞれについての特徴量を抽出し、
前記特徴量がそれぞれ抽出された１以上の前記オブジェクト特徴点のそれぞれと、保持されている前記モデル画像および前記Ｎ枚の変換画像のそれぞれについての１以上の前記モデル特徴点のそれぞれとを比較し、類似すると比較判断された前記特徴量をそれぞれ有するオブジェクト特徴点とモデル特徴点とのマッチペアを１以上生成する
ステップを含む情報処理方法。
入力画像とモデル画像とを比較する処理を制御するコンピュータが実行するプログラムであって、
前記モデル画像上の１以上のモデル特徴点の各特徴量を保持し、前記モデル画像からＮ個（Ｎは１以上の整数値）の変換係数のそれぞれで変換できるＮ枚の変換画像のそれぞれについての、自身の画像上の１以上のモデル特徴点の各特徴量をそれぞれ保持として１以上抽出し、
抽出された１以上の前記オブジェクト特徴点のそれぞれについての特徴量を抽出し、
前記特徴量がそれぞれ抽出された１以上の前記オブジェクト特徴点のそれぞれと、保持されている前記モデル画像および前記Ｎ枚の変換画像のそれぞれについての１以上の前記モデル特徴点のそれぞれとを比較し、類似すると比較判断された前記特徴量をそれぞれ有するオブジェクト特徴点とモデル特徴点とのマッチペアを１以上生成する
ステップを含むプログラム。