JP2004326693A

JP2004326693A - 画像認識装置及び方法、並びにロボット装置

Info

Publication number: JP2004326693A
Application number: JP2003124225A
Authority: JP
Inventors: Hirotaka Suzuki; 洋貴鈴木; Kotaro Sabe; 浩太郎佐部; Masahiro Fujita; 雅博藤田
Original assignee: Sony Corp
Current assignee: Sony Corp
Priority date: 2003-04-28
Filing date: 2003-04-28
Publication date: 2004-11-18
Anticipated expiration: 2023-04-28
Also published as: CN1698067A; US7627178B2; US20050213818A1; CN100573558C; JP4492036B2; WO2004097742A1; CN101159020A; EP1515277A4; EP1515277A1; CN100365662C

Abstract

【課題】複数のオブジェクトを含むオブジェクト画像から検出対象となるモデルを精度よく抽出する。
【解決手段】画像認識装置１において、特徴点抽出部１０ａ，１０ｂは、モデル画像及びオブジェクト画像から特徴点を抽出し、特徴量保持部１１ａ，１１ｂは、各特徴点について特徴量を抽出し、特徴点の位置情報と共に保持する。特徴量比較部１２は、特徴量同士を比較して類似度又は相違度を計算し、対応する可能性の高い候補対応特徴点ペアを生成する。モデル姿勢推定部１３は、候補対応特徴点ペア群からランダムに選択した３ペアから決定されるアフィン変換パラメータをパラメータ空間に投射する操作を繰り返し、パラメータ空間上で形成された最多メンバ数を持つクラスタの各メンバをインライヤとし、インライヤを用いた最小自乗推定によりアフィン変換パラメータを求め、このアフィン変換パラメータで決定されるモデル姿勢を出力する。
【選択図】図１

Description

【０００１】
【発明の属する技術分野】
本発明は、複数のオブジェクトを含むオブジェクト画像から検出対象となるモデルを抽出する画像認識装置及びその方法、並びにそのような画像認識機能を搭載したロボット装置に関する。
【０００２】
【従来の技術】
現在、実用化されている対象物認識技術の多くは、残差逐次検定法や相互相関係数によるテンプレートマッチング手法を用いている。しかしながら、このテンプレートマッチング手法は、検出対象物体が入力画像中に変形なく出現すると仮定できる特殊な場合には有効であるが、視点や照明状態の一定でない一般的な画像からの対象物認識環境においては有効でない。
【０００３】
また、検出対象物体の形状特徴と画像分割手法によって切り出された入力画像中の各領域の形状特徴とをマッチングする形状マッチング手法も提案されているが、上述のような一般的な対象物認識環境においては領域分割の結果が安定せず、入力画像中の物体の良質な形状記述が難しくなる。特に、検出対象物体が他の物体に部分的に隠されている場合などは認識が非常に困難になる。
【０００４】
さらに、以上のような入力画像或いはその部分領域の全体的な特徴を用いたマッチング手法に対し、入力画像から特徴的な点（特徴点）やエッジを抽出し、それらが構成する線分集合やエッジ集合の空間的位置関係を線図形やグラフとして表現し、線図形間或いはグラフ間の構造類似性に基づいてマッチングを行う方法も提案されている。しかしながら、この手法はある特化した対象物に対しては上手く作用するが、画像の変形により安定した特徴点間構造が抽出されない場合があり、特に上述したような部分的に隠される場合などにおける認識は困難となる。
【０００５】
一方で、画像から特徴点を抽出し、特徴点とその局所近傍の画像情報から得られる特徴量を用いたマッチング手法も存在する。例えば、Ｃ．シュミット及びＲ．ムーアは、下記非特許文献１において、Ｈａｒｒｉｓコーナー検出器を用いて検出されたコーナーを特徴点とし、その特徴点付近の回転不変特徴量を用いたマッチング手法を提案している。このような特徴点の部分的画像変形に対して不変な局所特徴量を用いるマッチング手法では、上述の手法と比較して画像の変形に対しても検出対象が部分的に隠されるような場合にも安定した検出が可能となる。しかしながら、この非特許文献１で用いられている特徴量は、画像の拡大縮小変換に対して不変性を持たないものであるため、拡大縮小変換のある場合には認識が困難となる。
【０００６】
これに対して、Ｄ．ロウは、下記非特許文献２において、画像の拡大縮小変換に対しても不変であるような特徴点及び特徴量を用いたマッチング手法を提案している。このＤ．ロウの提案した画像認識装置について、図１４を用いて説明する。
【０００７】
図１４に示す画像認識装置４００において、特徴点抽出部４０１ａ，４０１ｂは、特徴点抽出対象画像（モデル画像又はオブジェクト画像）から得られた画像の多重解像度表現（スケールスペース表現。文献「ＬｉｎｄｅｂｅｒｇＴ．，“Ｓｃａｌｅ−ｓｐａｃｅ：Ａｆｒａｍｅｗｏｒｋｆｏｒｈａｎｄｌｉｎｇｉｍａｇｅｓｔｒｕｃｔｕｒｅｓａｔｍｕｌｔｉｐｌｅｓｃａｌｅｓ．”，ＪｏｕｒｎａｌｏｆＡｐｐｌｉｅｄＳｔａｔｉｓｔｉｃｓ，ｖｏｌ．２１，ｎｏ．２，ｐｐ．２２４−２７０，１９９４」参照）の各解像度画像に対してＤｏＧ（ＤｉｆｆｅｒｅｎｃｅｏｆＧａｕｓｓｉａｎ）フィルタを適用し、ＤｏＧフィルタ出力画像の局所点（局所極大点及び局所極小点）のうち、所定の範囲内の解像度変化によって位置の変化がないような点を特徴点として検出する。ここで、解像度の階層数は予め設定しておく。
【０００８】
続いて特徴量保持部４０２ａ，４０２ｂは、特徴点抽出部４０１ａ，４０１ｂにて抽出された各特徴点について特徴量を抽出し、保持する。この際、特徴点抽出部４０１ａ，４０１ｂは、特徴点近傍領域のカノニカル・オリエンテーション（ｃａｎｏｎｉｃａｌｏｒｉｅｎｔａｔｉｏｎ；支配的方向）と、オリエンテーション・プレーン（ｏｒｉｅｎｔａｔｉｏｎｐｌａｎｅ）とを用いる。ここで、カノニカル・オリエンテーションは、ガウス重み付き勾配強度を累積した方向ヒストグラムのピーク値を与える方向であり、特徴量保持部４０２ａ，４０２ｂは、このカノニカル・オリエンテーションを特徴量として保持する。また、特徴量保持部４０２ａ，４０２ｂは、特徴点近傍領域の勾配強度情報をカノニカル・オリエンテーションで正規化、すなわちカノニカル・オリエンテーションを０ｄｅｇとして方向補正し、近傍領域内各点の勾配強度情報を位置情報と共に勾配方向で分類する。例えば、４５ｄｅｇ毎の全部で８つのオリエンテーション・プレーンに近傍領域内各点の勾配強度情報を分類する場合、近傍領域の局所座標系上の点（ｘ、ｙ）における方向９３ｄｅｇ、強度ｍの勾配情報は、９０ｄｅｇのラベルを持つと共に近傍領域と同一の局所座標系を持つオリエンテーション・プレーンの位置（ｘ、ｙ）に強度ｍの情報としてマッピングされる。その後、各オリエンテーション・プレーンは、解像度のスケールに応じたぼかし及びリサンプリングが施される。特徴量保持部４０２ａ，４０２ｂは、このようにして求めた（解像度数）×（オリエンテーション・プレーン数）×（各オリエンテーション・プレーンのサイズ）次元の特徴量ベクトルを保持する。
【０００９】
続いて、特徴量比較部４０３は、各オブジェクト特徴点の特徴量と最も特徴量の類似するモデル特徴点をｋ−ｄｔｒｅｅ法（検索効率のよい特徴空間上のＮｅａｒｅｓｔＮｅｉｇｈｂｏｒ探索法）を用いて検索し、得られた候補対応特徴点ペアを候補対応特徴点ペア群として保持する。
【００１０】
一方で、モデル姿勢粗推定部４０４は、一般化ハフ変換により、モデル特徴点とオブジェクト特徴点との空間的位置関係からモデルのオブジェクト画像上での姿勢（回転角度，拡大縮小率，平行移動量の画像変換パラメータ）を推定する。この際、一般化ハフ変換のパラメータ参照テーブル（Ｒテーブル）のインデックスとして、上述した各特徴点のカノニカル・オリエンテーションが用いられると予想される。このモデル姿勢粗推定部４０４の出力は、画像変換パラメータ空間上への投票結果であり、最多投票数を獲得したパラメータがモデル姿勢の粗い推定を与える。
【００１１】
そこで、候補対応特徴点ペア選択部４０５は、そのパラメータに投票を行ったオブジェクト特徴点をメンバに持つ候補対応特徴点ペアのみを選択することにより、候補対応特徴点ペア群の絞り込みを行う。
【００１２】
最後に、モデル姿勢推定部４０６は、「検出されるモデルはオブジェクト画像上へのアフィン変換による画像変形が施されている」という拘束条件の下、対応特徴点ペア群の空間的配置から最小自乗推定によりアフィン変換パラメータを推定する。そして、モデル姿勢推定部４０６は、候補対応特徴点ペア群の各モデル特徴点をこのアフィン変換パラメータによりオブジェクト画像上に変換し、対応するオブジェクト特徴点との位置のずれ（空間的距離）を求め、このずれが著しいペアを排除し、候補対応特徴点ペア群を更新する。この際、モデル姿勢推定部４０６は、候補対応特徴点ペア群が２組以下の場合には「モデル検出不可」と出力して終了し、そうでなければ所定の終了条件が満たされるまでこの操作を繰り返し、終了条件を満たした際のアフィン変換パラメータで決定されるモデル姿勢をモデル認識結果として出力する。
【００１３】
【非特許文献１】
Ｃ．シュミット（Ｃ．Ｓｃｈｍｉｄ）、Ｒ．ムーア（Ｒ．Ｍｏｈｒ），「画像検索のための局所グレイバリュー不変量（Ｌｏｃａｌｇｒａｙｖａｌｕｅｉｎｖａｒｉａｎｔｓｆｏｒｉｍａｇｅｒｅｔｒｉｅｖａｌ）」，（米国），電気・電子通信学会報，（ＩＥＥＥＰＡＭＩ），１９９７年，第１９巻，第５号，ｐ．５３０−５３４
【非特許文献２】
Ｄ．ロウ（Ｄ．Ｌｏｗｅ），「スケール不変な局所特徴量を用いた物体認識（Ｏｂｊｅｃｔｒｅｃｏｇｎｉｔｉｏｎｆｒｏｍｌｏｃａｌｓｃａｌｅ−ｉｎｖａｒｉａｎｔｆｅａｔｕｒｅｓ）」，（ギリシャ），コンピュータ画像に関する国際会議録（Ｐｒｏｃ．ｏｆｔｈｅＩｎｔｅｒｎａｔｉｏｎａｌＣｏｎｆｅｒｅｎｃｅｏｎＣｏｍｐｕｔｅｒＶｉｓｉｏｎ），１９９９年９月，第２巻，ｐ．１１５０−１１５７
【００１４】
【発明が解決しようとする課題】
しかしながら、この非特許文献２に記載されたＤ．ロウの手法には幾つかの問題点がある。
【００１５】
先ず第１に、特徴点におけるカノニカル・オリエンテーションの抽出に問題がある。上述したように、カノニカル・オリエンテーションは、特徴点近傍領域の局所勾配情報から求めた、ガウス重み付き勾配強度を累積した方向ヒストグラムのピーク値を与える方向により求まる。ここで、非特許文献２の手法では、物体のコーナーの若干内側に特徴点が検出される傾向があるが、このような特徴点の近傍の方向ヒストグラムには、２つのピークがそれぞれエッジに直交する方向に出現するため、複数の競合するカノニカル・オリエンテーションが検出されうるが、後段の特徴量比較部４０３及びモデル姿勢粗推定部４０４ではこのような場合を想定しておらず、対処できない。また、ガウス重み関数のパラメータに依存して方向ヒストグラムの形状が変化し、カノニカル・オリエンテーションの安定した抽出ができないという問題点もある。その一方で、このカノニカル・オリエンテーションは、後段の特徴量比較部４０３及びモデル姿勢粗推定部４０４で用いられるため、不適切なカノニカル・オリエンテーションの抽出は特徴量マッチングの結果に重大な影響を与えてしまう。
【００１６】
第２に、オリエンテーション・プレーンによる特徴量比較において、局所領域内各点の濃度勾配強度情報による特徴量マッチングを行っているが、一般に勾配強度は明度の変化に対して不変な特徴量ではないため、モデル画像とオブジェクト画像との間に明度差がある場合には、安定なマッチングが保証されないという問題がある。
【００１７】
第３に、各オブジェクト特徴点に対して、特徴空間上での距離が最短ではないが十分小さい、すなわち特徴量が十分類似するモデル特徴点が複数存在し、その中に真の特徴点ペア（インライヤ）が含まれている場合が想定されるが、特徴量比較部４０３においては、各オブジェクト特徴点は特徴空間上で最短距離を与えるモデル特徴点のみとペアが組まれるため、先のようなインライヤが候補対応ペアとして考慮されていない点も問題として挙げられる。
【００１８】
第４に、モデル姿勢推定部４０６におけるアフィン変換パラメータ推定の際に問題が起こり得る。ここで、候補対応特徴点ペア選択部４０５で絞り込みを受けた対応特徴点ペア群の中には偽の特徴点ペア（アウトライヤ）が含まれているが、候補対応特徴点ペア群中のアウトライヤが多い場合や真のアフィン変換パラメータから極端に逸脱したアウトライヤが存在する場合には、アフィン変換パラメータ推定はアウトライヤに影響を受け、場合によっては繰り返し操作によってインライヤが次第に排除されてアウトライヤが残り、誤ったモデル姿勢を出力してしまうという問題も起こり得る。
【００１９】
本発明は、このような従来の実情に鑑みて提案されたものであり、複数の物体を含み、物体同士が部分的に重なり合っているような画像からも対象物を検出可能であり、さらに視点の変化（平行移動，拡大縮小，回転，ストレッチを含む画像変化）、明度変化、ノイズによる画像情報の変形がある場合であっても安定に対象物を検出可能である画像認識装置及びその方法、並びにそのような画像認識機能を搭載したロボット装置を提供することを目的とする。
【００２０】
【課題を解決するための手段】
上述した目的を達成するために、本発明に係る画像認識装置及びその方法は、複数のオブジェクトを含むオブジェクト画像と検出対象となるモデルを含むモデル画像とを比較し、上記オブジェクト画像から上記モデルを抽出するものであり、上記オブジェクト画像及び上記モデル画像の各々から特徴点を抽出する特徴点抽出手段（工程）と、上記オブジェクト画像及び上記モデル画像の各々について、少なくとも上記特徴点の近傍領域における濃度勾配情報から得られる濃度勾配方向ヒストグラムを特徴量として抽出して保持する特徴量保持手段（工程）と、上記オブジェクト画像の各特徴点と上記モデル画像の各特徴点とを比較し、類似する特徴量を有する候補対応特徴点ペアを生成する特徴量比較手段（工程）と、上記候補対応特徴点ペアを用いて上記オブジェクト画像上の上記モデルの有無を検出し、上記モデルが存在する場合に該モデルの位置及び姿勢を推定するモデル姿勢推定手段（工程）とを有し、上記特徴量比較手段（工程）は、比較対象となる特徴点同士の上記濃度勾配方向ヒストグラムの一方を濃度勾配方向に巡回的にシフトさせながら該濃度勾配方向ヒストグラム間の距離を求め、最小の距離を該濃度勾配方向ヒストグラム間の距離として、上記候補対応特徴点ペアを生成するものである。
【００２１】
このような画像認識装置及びその方法では、特徴点の近傍領域における濃度勾配情報から得られる濃度勾配方向ヒストグラムを特徴量として特徴量マッチングを行う際に、比較対象となる特徴点同士の濃度勾配方向ヒストグラムの一方を濃度勾配方向に巡回的にシフトさせながら該濃度勾配方向ヒストグラム間の距離を求め、最小の距離を該濃度勾配方向ヒストグラム間の距離として、距離の類似する特徴点同士で候補対応特徴点ペアを生成する。
【００２２】
また、上述した目的を達成するために、本発明に係る画像認識装置及びその方法は、複数のオブジェクトを含むオブジェクト画像と検出対象となるモデルを含むモデル画像とを比較し、上記オブジェクト画像から上記モデルを抽出するものであり、上記オブジェクト画像及び上記モデル画像の各々から特徴点を抽出する特徴点抽出手段（工程）と、上記オブジェクト画像及び上記モデル画像の各々について、上記特徴点の近傍領域における特徴量を抽出して保持する特徴量保持手段（工程）と、上記オブジェクト画像の各特徴点と上記モデル画像の各特徴量とを比較し、類似する特徴量を有する候補対応特徴点ペアを生成する特徴量比較手段（工程）と、上記候補対応特徴点ペアを用いて上記オブジェクト画像上の上記モデルの有無を検出し、上記モデルが存在する場合に該モデルの位置及び姿勢を推定するモデル姿勢推定手段（工程）とを有し、上記モデル姿勢推定手段（工程）は、ランダムに選択した３組の候補対応特徴点ペアから決定されるアフィン変換パラメータをパラメータ空間に投射する操作を繰り返し、パラメータ空間上で形成されたクラスタのうち最多メンバ数を持つクラスタに属するアフィン変換パラメータに基づいて上記モデルの位置及び姿勢を決定するアフィン変換パラメータを求めるものである。
【００２３】
このような画像認識装置及びその方法では、特徴量が類似するとして生成された候補対応特徴点ペアを用いて上記オブジェクト画像上のモデルの有無を検出し、モデルが存在する場合に該モデルの位置及び姿勢を推定する際に、ランダムに選択した３組の候補対応特徴点ペアから決定されるアフィン変換パラメータをパラメータ空間に投射する操作を繰り返し、パラメータ空間上で形成されたクラスタのうち最多メンバ数を持つクラスタに属するアフィン変換パラメータに基づいて上記モデルの位置及び姿勢を決定するアフィン変換パラメータを求める。
【００２４】
また、本発明に係るロボット装置は、上述したような画像認識機能を搭載したものである。
【００２５】
【発明の実施の形態】
以下、本発明を適用した具体的な実施の形態について、図面を参照しながら詳細に説明する。この実施の形態は、本発明を、複数のオブジェクトを含む入力画像であるオブジェクト画像と検出対象となるモデルを含むモデル画像とを比較し、オブジェクト画像からモデルを抽出する画像認識装置に適用したものである。
【００２６】
先ず、本実施の形態における画像認識装置の概略構成を図１に示す。図１に示す画像認識装置１において、特徴点抽出部１０ａ，１０ｂは、モデル画像及びオブジェクト画像からそれぞれモデル特徴点及びオブジェクト特徴点を抽出し、特徴量保持部１１ａ，１１ｂは、抽出された各特徴点について後述する特徴量を抽出し、特徴点の位置情報と共に保持する。そして特徴量比較部１２は、各モデル特徴点の特徴量と各オブジェクト特徴点の特徴量とを比較して類似度又は相違度を計算し、この類似尺度を用いて特徴量が類似する、すなわち対応する可能性の高いモデル特徴点及びオブジェクト特徴点のペア（候補対応特徴点ペア）を生成する。
【００２７】
モデル姿勢推定部１３は、生成された候補対応特徴点ペア群を用いてオブジェクト画像上のモデルの有無を検出し、「モデル有」の判定結果の場合には、「検出されるモデルはオブジェクト画像上へのアフィン変換による画像変形が施されている」という拘束条件の下、候補対応特徴点ペア群からランダムに選択した３ペアにより決定されるアフィン変換パラメータをパラメータ空間に投射する操作を繰り返し、パラメータ空間上で形成されたクラスタのうち最多メンバ数を持つクラスタの各メンバを真の特徴点ペア（インライヤ）とし、このインライヤを用いた最小自乗推定によりアフィン変換パラメータを求める。そして、モデル姿勢推定部１３は、このアフィン変換パラメータで決定されるモデル姿勢をモデル認識結果として出力する。
【００２８】
以下、上記画像認識装置１の各ブロックについて詳細に説明する。なお、以下では、画像の水平方向をＸ軸、垂直方向をＹ軸として説明する。
【００２９】
特徴点抽出部１０ａ，１０ｂは、特徴点抽出対象画像（モデル画像又はオブジェクト画像）に対し、先ず平滑化フィルタリング、例えば以下の式（１）で示す２次元ガウス関数による畳み込み積（ガウスフィルタリング）と、双２次線形補間リサンプリングによる画像縮小とを繰り返し交互に適用することで、画像の多重解像度ピラミッド構造を構築する。ここで、リサンプリングファクタとしては、式（１）のガウスフィルタで用いたσを用いる。
【００３０】
【数１】

【００３１】
すなわち、図２に示すように、例えば入力画像Ｉにσ＝√２であるガウスフィルタｇ（ｘ、ｙ）を施すことにより第１レベル（最高解像度）の画像Ｉ_１を生成し、さらにガウスフィルタを施すことにより画像ｇ＊Ｉ_１を生成する。そして、この画像ｇ＊Ｉ_１をリサンプリングしてガウスフィルタを施すことにより第２レベルの画像Ｉ_２，ｇ＊Ｉ_２を生成し、同様にして画像ｇ＊Ｉ_２から第３レベルの画像Ｉ_３，ｇ＊Ｉ_３を生成する。
【００３２】
続いて、特徴点抽出部１０ａ，１０ｂは、各レベル（各解像度）の画像に対して、ＤｏＧ（ＤｉｆｆｅｒｅｎｃｅｏｆＧａｕｓｓｉａｎ）フィルタを適用する。このＤｏＧフィルタは、画像の輪郭強調のために用いられる２次微分フィルタの一種であり、人間の視覚系で網膜からの情報が外側膝状体で中継されるまでに行われている処理の近似モデルとして、ＬｏＧ（ＬａｐｌａｃｉａｎｏｆＧａｕｓｓｉａｎ）フィルタと共によく用いられるものである。ＤｏＧフィルタの出力は、２つのガウスフィルタ出力画像の差分を取ることにより容易に得られる。すなわち、図２に示すように、第１レベルの画像について画像ＤＩ_１（＝Ｉ_１−ｇ＊Ｉ_１）が得られ、第２レベル，第３レベルの画像について画像ＤＩ_２（＝Ｉ_２−ｇ＊Ｉ_２），画像ＤＩ_３（＝Ｉ_３−ｇ＊Ｉ_３）が得られる。
【００３３】
そして、特徴点抽出部１０ａ，１０ｂは、各レベルにおけるＤｏＧフィルタ出力画像ＤＩ_１，ＤＩ_２，ＤＩ_３・・・の局所点（局所極大点及び局所極小点）のうち、所定の範囲内の解像度変化によって位置の変化がないような点を特徴点として検出する。これにより、画像の拡大縮小操作に対してロバストな特徴点間のマッチングが実現できる。
【００３４】
ここで、多重解像度ピラミッド構造の第Ｌレベル、すなわちσの（Ｌ−１）乗ファクタまでの解像度変化によって位置の変化がないような特徴点を検出する際の処理について図３のフローチャートを用いて説明する。
【００３５】
先ずステップＳ１において、第１レベル（最高解像度）におけるＤｏＧフィルタ出力画像ＤＩ_１の局所点（局所極大点及び局所極小点）を検出する。なお、局所近傍としては、例えば３×３直接近傍を用いることができる。
【００３６】
次にステップＳ２において、検出された各局所点について、その１つ上位レベル（解像度の１つ低い層）における対応点を解像度減少に伴う画像縮小を考慮して求め、この対応点が局所点か否かを判別する。局所点である場合（Ｙｅｓ）にはステップＳ３に進み、局所点でない場合（Ｎｏ）には探索を終了する。
【００３７】
続いてステップＳ３では、第Ｌレベルまで探索が成功したか否かを判別する。第Ｌレベルまで探索を行っていない場合（Ｎｏ）にはステップＳ２に戻ってさらに上位レベルの探索を行い、第Ｌレベルまで探索が成功した場合（Ｙｅｓ）には特徴点であるとして、ステップＳ４においてその位置情報を保持する。
【００３８】
例えば第３レベルまでの解像度変化によって位置の変化がないような特徴点を検出する場合、図４に示すように、第１レベルの画像ＤＩ_１において検出された局所点ＦＰ_１，ＦＰ_２のうち、ＦＰ_１は第３レベルの画像ＤＩ_３まで対応点が存在するため特徴点とされ、ＦＰ_２は第２レベルまでしか対応点が存在しないため特徴点でないとされる。
【００３９】
なお、この特徴点抽出部１０ａ，１０ｂでは、ＤｏＧフィルタの代わりにＬｏＧフィルタを用いるようにしても構わない。また、文献「ＨａｒｒｉｓＣ．ａｎｄＳｔｅｐｈｅｎｓＭ．，“Ａｃｏｍｂｉｎｅｄｃｏｒｎｅｒａｎｄｅｄｇｅｄｅｔｅｃｔｏｒ．”，ｉｎＰｒｏｃ．ＡｌｖｅｙＶｉｓｉｏｎＣｏｎｆ．，ｐｐ．１４７−１５１，１９８８」で物体のコーナー検出に用いられているｃｏｒｎｅｒ−ｎｅｓｓ関数の出力値をＤｏＧフィルタ出力の代わりに用いるようにしても構わない。
【００４０】
次に、特徴量保持部１１ａ，１１ｂ（図１）は、特徴点抽出部１０ａ，１０ｂにて抽出された各特徴点について特徴量を抽出し、保持する。特徴量としては、多重解像度ピラミッド構造の各レベルの画像（Ｉ_ｌ，ｌ＝１，…，Ｌ）の画像情報から導出される特徴点の近傍領域各点の濃度勾配情報（勾配強度及び勾配方向）を用いる。点（ｘ、ｙ）における勾配強度Ｍ_ｘ，ｙ及び勾配方向Ｒ_ｘ，ｙは以下の式（２），（３）により与えられる。
【００４１】
【数２】

【００４２】
ここで、特徴量を算出する特徴点近傍領域としては、回転変化に対して構造の変わらないような、特徴点に関して対称なものを選択することが好ましい。これにより、回転変化に対するロバスト性を実現することができる。例えば、（ｉ）特徴点から半径ｒピクセルの範囲内を特徴点近傍領域とする手法や、（ｉｉ）特徴点を中心に幅σの特徴点に関して対称な２次元ガウス重みを濃度勾配に掛ける手法を用いることができる。
【００４３】
特徴点から半径３．５ピクセルの範囲内を近傍領域とした場合における特徴点近傍領域の濃度勾配情報の例を図５（Ａ）に示す。ここで、図５（Ａ）において矢印の長さは勾配強度を表し、矢印の方向は勾配方向を表す。
【００４４】
また、特徴量保持部１１ａ，１１ｂは、特徴点近傍の勾配方向に関するヒストグラム（方向ヒストグラム）も特徴量として保持する。図５（Ａ）の濃度勾配情報から得られる勾配方向ヒストグラムの例を図５（Ｂ）に示す。ここで、図５（Ｂ）における階級幅Δθは１０ｄｅｇであり、階級数Ｎは３６（＝３６０ｄｅｇ／１０ｄｅｇ）である。
【００４５】
続いて、特徴量比較部１２（図１）は、各モデル特徴点の特徴量と各オブジェクト特徴点の特徴量とを比較し、類似する特徴量を有するモデル特徴点及びオブジェクト特徴点のペア（候補対応特徴点ペア）を生成する。
【００４６】
この特徴量比較部１２における処理の詳細について、図６のフローチャートを用いて説明する。先ず、ステップＳ１０において、特徴量比較部１２は、各モデル特徴点の方向ヒストグラムと各オブジェクト特徴点の方向ヒストグラムとを比較してヒストグラム間の距離（相違度）を計算すると共に、モデル−オブジェクト間の推定回転角度を求める。
【００４７】
ここで、階級幅Δθと階級数Ｎとが同一である２つの方向ヒストグラムＨ_１＝｛ｈ_１（ｎ），ｎ＝１，…，Ｎ｝及びＨ_２＝｛ｈ_２（ｎ），ｎ＝１，…，Ｎ｝を想定し、ｈ_１（ｎ），ｈ_２（ｎ）が階級ｎにおける度数を示すものとすると、ヒストグラムＨ_１とヒストグラムＨ_２との間の距離ｄ（Ｈ_１，Ｈ_２）は、例えば以下の式（４）で与えられる。ここで、式（４）におけるｒとしては、ｒ＝１，２，∞が一般的に用いられる。
【００４８】
【数３】

【００４９】
この式（４）を用いて各モデル特徴点及び各オブジェクト特徴点の方向ヒストグラム間の相違度を計算するが、（ｉ）モデル−オブジェクト間のスケール比がマッチング段階で未知であるため、モデル特徴点の各レベルとオブジェクト特徴点の各レベル間で方向ヒストグラム間のマッチングを行う必要がある。また、（ｉｉ）方向ヒストグラム間のマッチングに関しては、モデル−オブジェクト間の回転変換量を考慮する必要がある。
【００５０】
モデル特徴点ｍのレベルＬＶにおける方向ヒストグラムＨ_ｍ ^ＬＶ＝｛ｈ_ｍ ^ＬＶ（ｎ），ｎ＝１，…，Ｎ｝と、オブジェクト特徴点ｏのレベルｌｖにおける方向ヒストグラムＨ_ｏ ^ｌｖ＝｛ｈ_ｏ ^ｌｖ（ｎ），ｎ＝１，…，Ｎ｝との相違度を求める場合を考える。方向ヒストグラムは回転変換に対して巡回的に変化するため、Ｈ_ｏ ^ｌｖを巡回的に階級を１つずつシフトさせながら式（４）の計算を行い、その最小値をＨ_ｍ ^ＬＶとＨ_ｏ ^ｌｖとの間の相違度とする。このとき、相違度の最小値を与えた時のシフト量（ずらした階級数）からオブジェクト特徴点の回転角度を推定することができる。なお、この手法は方向ヒストグラム交差法として知られている。
【００５１】
Ｈ_ｏ ^ｌｖをｋ階級分シフトさせた方向ヒストグラムをＨ_ｏ ^{ｌｖ（ｋ）}とすると、方向ヒストグラム交差法による方向ヒストグラム間相違度ｄｉｓｓｉｍｉｌａｒｉｔｙ（Ｈ_ｍ ^ＬＶ，Ｈ_ｏ ^{ｌｖ（ｋ）}）は、以下の式（５）で与えられる。
【００５２】
【数４】

【００５３】
また、最小のｄ（Ｈ_ｍ ^ＬＶ，Ｈ_ｏ ^{ｌｖ（ｋ）}）を与えるｋをｋ’とすると、オブジェクト特徴点ｏの近傍領域における推定回転角度θ（ｍ，ＬＶ，ｏ，ｌｖ）は以下の式（６）で与えられる。
【００５４】
【数５】

【００５５】
上述の（ｉ）を考慮すると、モデル特徴点ｍとオブジェクト特徴点ｏとの方向ヒストグラム間相違度ｄｉｓｓｉｍｉｌａｒｉｔｙ（Ｈ_ｍ，Ｈ_ｏ）は、以下の式（７）のようになる。
【００５６】
【数６】

【００５７】
特徴量比較部１２は、モデル特徴点ｍとオブジェクト特徴点ｏとの各ペア（ｍ、ｎ）に対し、最小の方向ヒストグラム間相違度ｄｉｓｓｉｍｉｌａｒｉｔｙ（Ｈ_ｍ，Ｈ_ｏ）を与えるレベルＬＶ，ｌｖ（以下、それぞれＬＶ_ｍ ^＊，ｌｖ_ｏ ^＊と表記する。）と、その推定回転角度θ（ｍ，ＬＶ_ｍ ^＊，ｏ，ｌｖ_ｏ ^＊）とを、方向ヒストグラム間相違度ｄｉｓｓｉｍｉｌａｒｉｔｙ（Ｈ_ｍ，Ｈ_ｏ）と共に保持する。
【００５８】
次にステップＳ１１（図６）において、特徴量比較部１２は、各モデル特徴点ｍに対し方向ヒストグラム間相違度の小さい順にＫ個のオブジェク特徴点ｏ_ｍ１，…，ｏ_ｍＫを選択し、候補対応特徴点ペアを組ませる。すなわち、各モデル特徴点ｍに対してＫ個の候補対応特徴点ペア（ｍ、ｏ_ｍ１），…，（ｍ、ｏ_ｍｋ），…，（ｍ、ｏ_ｍＫ）が組まれる。また、各候補対応特徴点ペア（ｍ、ｏ_ｍｋ）には対応するレベルＬＶ_ｍ ^＊，ｌｖ_ｏｍｋ ^＊と推定回転角度θ（ｍ，ＬＶ_ｍ
^＊，ｏ，ｌｖ_ｏｍｋ ^＊）との情報が保持される。
【００５９】
以上のようにして、全モデル特徴点に対し候補対応特徴点ペアを組ませることで得られたペア群が、候補対応特徴点ペア群となる。
【００６０】
このように、特徴量比較部１２では、ヒストグラム度数に勾配強度を累積しておらず、単に勾配方向のみに注目しているため、明度変化に対してロバストな特徴量マッチングが可能になる。また、前述した非特許文献２の手法では、カノニカル・オリエンテーションのように抽出が不安定な特徴量を元にマッチングを行っているのに対して、本実施の形態では方向ヒストグラムの形状を考慮したより安定なマッチングを行うことができる。また、二次的に安定した特徴量（推定回転角度）を得ることができる。
【００６１】
なお、上述のステップＳ１１では、各モデル特徴点ｍに対してＫ個の候補対応特徴点ペアを選択するものとして説明したが、これに限定されるものではなく、方向ヒストグラム間相違度が閾値を下回るペア全てを選択するようにしても構わない。
【００６２】
ここで、上述の操作で生成された候補対応特徴点ペア群は、方向ヒストグラムが類似するものの濃度勾配の空間的特徴が異なっているような対応点ペアも含んでいる。そこで、続くステップＳ１２（図６）では、濃度勾配ベクトル間類似度によるペアの選択、候補対応特徴点ペア群の更新を行う。
【００６３】
具体的には、モデル特徴点ｍの近傍のレベルＬＶ_ｍ ^＊における濃度勾配ベクトルをＵ_ｍとし、このモデル特徴点ｍと対応点ペアを組むオブジェクト特徴点ｏの近傍のレベルｌｖ_ｏｍｋ ^＊における濃度勾配ベクトルをＵ_ｏとしたとき、Ｕ_ｍとＵ_ｏとの類似度が閾値を下回るペアを排除し、候補対応特徴点ペア群を更新する。
【００６４】
濃度勾配ベクトルＵ_ｍ，Ｕ_ｏ間の類似度の計算手法を図７に示す。先ず、Ｕ_ｍを空間的に４領域Ｒ_ｉ（ｉ＝１，…，４）に分割し、各領域の平均濃度勾配ベクトルＶ _ｉ（ｉ＝１，…，４）を求める。このＶ _ｉをまとめた８次元ベクトル
ＶでＵ_ｍが表現される。一方、回転変換を考慮した濃度勾配情報のマッチング
を行うために、Ｕ_ｏの勾配方向を先に求めた推定回転角度θ（ｍ，ＬＶ_ｍ ^＊，ｏ，ｌｖ_ｏｍｋ ^＊）で補正し、Ｕ_ｏ ^＊を得る。この際、中間位置の値は、双２次線形補間により求める。先と同様にＵ_ｏ ^＊を４領域Ｒ_ｉ（ｉ＝１，…，４）に分割し、各領域の平均濃度勾配ベクトルＷ _ｉ（ｉ＝１，…，４）を求める
。このＷ _ｉをまとめた８次元ベクトルＷでＵ_ｏが表現される。このとき、Ｕ
_ｍとＵ_ｏとの類似度ｓｉｍｉｌａｒｉｔｙ（Ｕ_ｍ、Ｕ_ｏ）∈［０，１］は、平均濃度勾配ベクトルＶとＷとの類似度として解釈され、例えばコサイン相関値を用いて以
下の式（８）により求められる。ここで、式（８）において（Ｖ・Ｗ）は
ＶとＷとの内積を表す。
【００６５】
【数７】

【００６６】
特徴量比較部１２は、各候補対応特徴点ペアに対して上記式（８）で得られる平均濃度勾配ベクトル間の類似度を求め、類似度が閾値δを下回るペアを候補対応特徴点ペア群から排除し、候補対応特徴点ペア群を更新する。
【００６７】
このように、特徴量比較部１２では、部分領域の平均濃度勾配ベクトルを用いて特徴量の比較を行っているため、特徴点位置や推定回転角度の微妙なずれや、明度の変化による濃度勾配情報の変化に対してロバストなマッチングを実現することができ、計算量の削減にもなる。
【００６８】
以上の操作により、特徴点近傍の局所的な濃度勾配情報が類似する（モデル特徴点−オジェクト特徴点）ペア群を抽出することができるが、巨視的に見ると、このように得られたペア群は、対応特徴点間の空間的位置関係がモデルのオブジェクト画像上での姿勢（モデル姿勢）と矛盾するような「偽の特徴点ペア（アウトライヤ）」を含んでしまっている。
【００６９】
ここで、候補対応特徴点ペアが３組以上ある場合には、最小自乗推定により近似アフィン変換パラメータの推定が可能であり、推定モデル姿勢と空間的位置関係の矛盾する対応ペアを排除し、残ったペアで再びモデル姿勢推定を行うという操作を繰り返すことで、モデル姿勢を認識することができる。
【００７０】
しかしながら、候補対応特徴点ペア群中のアウトライヤが多い場合や真のアフィン変換パラメータから極端に逸脱したアウトライヤが存在する場合には、最小自乗推定による推定結果は一般的に満足のいくものではないことが知られている（ＨａｒｔｌｅｙＲ．，ＺｉｓｓｅｒｍａｎＡ．，“ＭｕｌｔｉｐｌｅＶｉｅｗＧｅｏｍｅｔｒｙｉｎＣｏｍｐｕｔｅｒＶｉｓｉｏｎ．”，Ｃｈａｐｔｅｒ３，ｐｐ．６９−１１６，ＣａｍｂｒｉｄｇｅＵｎｉｖｅｒｓｉｔｙＰｒｅｓｓ，２０００）ため、本実施の形態におけるモデル姿勢推定部１３（図１）では、アフィン変換拘束の下、候補対応特徴点ペア群の空間的位置関係から「真の特徴点ペア（インライヤ）」を抽出し、抽出されたインライヤを用いてモデル姿勢（平行移動量，回転，拡大縮小，ストレッチを決定するアフィン変換パラメータ）を推定する。
【００７１】
以下、このモデル姿勢推定部１３における処理について説明する。上述したように、候補対応特徴点ペアが３組以上なければアフィン変換パラメータを決定できないため、候補対応特徴点ペアが２組以下の場合、モデル姿勢推定部１３は、オブジェクト画像中にモデルが存在しない、又はモデル姿勢検出に失敗したとして、「認識不可」と出力し処理を終了する。一方、候補対応特徴点ペアが３組以上ある場合、モデル姿勢推定部１３は、モデル姿勢を検出可能であるとし、アフィン変換パラメータの推定を行う。なお、モデル姿勢推定部１３は、モデル画像及びオブジェクト画像の例えば第１レベル（最高解像度）における特徴点の空間的位置を元にモデル姿勢を推定するものとする。
【００７２】
ここで、モデル特徴点［ｘｙ］^Ｔのオブジェクト特徴点［ｕｖ］^Ｔへのアフィン変換は、以下の式（９）で与えられる。
【００７３】
【数８】

【００７４】
この式（９）において、ａ_ｉ（ｉ＝１，…，４）は回転，拡大縮小，ストレッチを決定するパラメータを表し、［ｂ_１ｂ_２］^Ｔは平行移動パラメータを表す。決定すべきアフィン変換パラメータはａ_１，…，ａ_４及びｂ_１，ｂ_２の６つであるため、候補対応特徴点ペアが３組あればアフィン変換パラメータを決定することができる。
【００７５】
３組の候補対応特徴点ペアで構成されるペア群Ｐを（［ｘ_１ｙ_１］^Ｔ，［ｕ_１ｖ_１］^Ｔ），（［ｘ_２ｙ_２］^Ｔ，［ｕ_２ｖ_２］^Ｔ），（［ｘ_３ｙ_３］^Ｔ，［ｕ_３ｖ_３］^Ｔ）とすると、ペア群Ｐとアフィン変換パラメータとの関係は、以下の式（１０）に示す線形システムで表現することができる。
【００７６】
【数９】

【００７７】
この式（１０）をＡｘ＝ｂのように書き直すと、アフィン変換パラメータｘの最小自乗解は以下の式（１１）で与えられる。
【００７８】
【数１０】

【００７９】
さて、候補対応特徴点ペア群からアウトライヤが１つ以上混入するように繰り返しランダムにペア群Ｐを選択した場合、そのアフィン変換パラメータはパラメータ空間上に散らばって投射される。一方、インライヤのみから構成されるペア群Ｐを繰り返しランダムに選択した場合、そのアフィン変換パラメータは、何れもモデル姿勢の真のアフィン変換パラメータに極めて類似した、すなわちパラメータ空間上で距離の近いものとなる。したがって、候補対応特徴点ペア群からランダムにペア群Ｐを選択し、そのアフィン変換パラメータをパラメータ空間上に投射していく操作を繰り返すと、インライヤはパラメータ空間上で密度の高い（メンバ数の多い）クラスタを形成し、アウトライヤは散らばって出現することになる。このことから、パラメータ空間上でクラスタリングを行い、最多メンバ数を持つクラスタの要素がインライヤとなる。
【００８０】
モデル姿勢推定部１３における処理の詳細を図８のフローチャートを用いて説明する。なお、このモデル姿勢推定部１３におけるクラスタリング手法としては、ＮＮ（ＮｅａｒｅｓｔＮｅｉｇｈｂｏｒ）法を用いるものとする。この際、上述したｂ_１，ｂ_２は、認識対象画像により様々な値を取り得るため、ｘ空間でもクラスタリングにおいてクラスタリング閾値の選択が認識対象に依存してしまう。そこで、モデル姿勢推定部１３では、「真のパラメータとａ_１，…，ａ_４は類似するがｂ_１，ｂ_２が異なるようなアフィン変換パラメータを与えるペア群Ｐは殆ど存在しない」という仮定の下、パラメータａ_１，…，ａ_４（以下、ａと表記する。）で張られるパラメータ空間上のみでクラスタリングを行う。なお、上記仮定が成り立たない状況が生じたとしても、ａ空間とは独立にｂ_１，ｂ_２で張られるパラメータ空間でクラスタリングを行いその結果を考慮することで、容易に問題を回避することができる。
【００８１】
先ず図８のステップＳ２０において初期化を行う。具体的には、繰り返し数のカウント値ｃｎｔをｃｎｔ＝１とし、候補対応特徴点ペア群からランダムにペア群Ｐ _１を選択し、アフィン変換パラメータａ _１を求める。また、クラスタ数ＮをＮ＝１とし、アフィン変換パラメータ空間ａ上でａ _１を中心とするクラスタＣ_１を作る。このクラスタＣ_１のセントロイドｃ _１をｃ _１＝ａ _１とし、メンバ数ｎｃ_１をｎｃ_１＝１とする。
【００８２】
次にステップＳ２１において、モデル姿勢推定部１３は、候補対応特徴点ペア群からランダムにペア群Ｐ _ｃｎｔを選択し、アフィン変換パラメータａ _ｃｎｔを求める。
【００８３】
続いてステップＳ２２において、モデル姿勢推定部１３は、ＮＮ法を用いてアフィン変換パラメータ空間のクラスタリングを行う。具体的には、先ず以下の式（１２）に従ってアフィン変換パラメータａ _ｃｎｔと各クラスタＣ_ｉのセントロイドｃ _ｉ（ｉ＝１，…，Ｎ）との距離ｄ（ａ _ｃｎｔ、ｃ _ｉ）のうち、最初の距離ｄ_ｍｉｎを求める。
【００８４】
【数１１】

【００８５】
そして、所定の閾値τ（例えばτ＝０．１）に対してｄ_ｍｉｎ＜τであればｄ_ｍｉｎを与えるクラスタＣ_ｉにａ _ｃｎｔを属させ、ａ _ｃｎｔを含めた全メンバでクラスタＣ_ｉのセントロイドｃ _ｉを更新する。また、クラスタＣ_ｉのメンバ数ｎｃ_ｉをｎｃ_ｉ＝ｎｃ_ｉ＋１とする。一方、ｄ_ｍｉｎ≧τであればクラスタ数ＮをＮ＝Ｎ＋１とし、アフィン変換パラメータ空間ａ上でａ _ｃｎｔをセントロイドｃ _Ｎ＋１とする新しいクラスタＣ_Ｎ＋１を作り、メンバ数ｎｃ_Ｎ＋１をｎｃ_Ｎ＋１＝１とする。
【００８６】
続いてステップＳ２３では、繰り返し終了条件を満たすか否かが判別される。ここで、繰り返し終了条件としては、例えば最多メンバ数が所定の閾値（例えば１５）を超え、且つ最多メンバ数と２番目に多いメンバ数との差が所定の閾値（例えば３）を超える場合、或いは繰り返し数カウンタのカウント値ｃｎｔが所定の閾値（例えば５０００回）を超える場合に終了するように設定することができる。ステップＳ２３において、繰り返し終了条件を満たさない場合（Ｎｏ）には、ステップＳ２４で繰り返し数のカウント値ｃｎｔをｃｎｔ＝ｃｎｔ＋１とした後、ステップＳ２１に戻る。一方、繰り返し終了条件を満たす場合（Ｙｅｓ）にはステップＳ２５に進む。
【００８７】
最後にステップＳ２５において、モデル姿勢推定部１３は、以上で得られたインライヤを用いて、最小自乗法によりモデル姿勢を決定するアフィン変換パラメータを推定する。
【００８８】
ここで、インライヤを（［ｘ_ＩＮ１ｙ_ＩＮ１］^Ｔ，［ｕ_ＩＮ１ｖ_ＩＮ１］^Ｔ），（［ｘ_ＩＮ２ｙ_ＩＮ２］^Ｔ，［ｕ_ＩＮ２ｖ_ＩＮ２］^Ｔ），…とすると、インライヤとアフィン変換パラメータとの関係は、以下の式（１３）に示す線形システムで表現することができる。
【００８９】
【数１２】

【００９０】
この式（１３）をＡ _ＩＮｘ _ＩＮ＝ｂ _ＩＮのように書き直すと、アフィン変換パラメータｘ _ＩＮの最小自乗解は以下の式（１４）で与えられる。
【００９１】
【数１３】

【００９２】
そしてステップＳ２５では、このアフィン変換パラメータｘ _ＩＮで決定されるモデル姿勢をモデル認識結果として出力する。
【００９３】
なお、以上の説明では、閾値τが定数値であるものとしたが、ステップＳ２１乃至ステップＳ２４の繰り返し処理を行う際に、始めは比較的大きな閾値τを用いて大雑把なインライヤ抽出を行い、繰り返し回数が増える毎に次第に小さい閾値τを用いる、いわゆる「焼きなまし法」のような手法を適用してもよい。これにより、精度よくインライヤを抽出することができる。
【００９４】
また、以上の説明では、候補対応特徴点ペア群からランダムにペア群Ｐを選択し、そのアフィン変換パラメータをパラメータ空間上に投射していく操作を繰り返し、パラメータ空間上で最多メンバ数を持つクラスタの要素をインライヤとして、最小自乗法によりモデル姿勢を決定するアフィン変換パラメータを推定したが、これに限定されるものではなく、例えば最多メンバ数を持つクラスタのセントロイドを、モデル姿勢を決定するアフィン変換パラメータとしても構わない。
【００９５】
ところで、特徴量比較部１２で生成された候補対応特徴点ペア群中のアウトライヤの比率が大きくなるほどモデル姿勢推定部１３におけるインライヤの選択確率が低下し、モデル姿勢を推定する際に多くの繰り返し回数が必要となるため、計算時間が増大してしまう。したがって、この検出可能判定部１３に入力される候補対応特徴点ペア群からできる限りアウトライヤを排除しておくことが望ましい。そこで、本実施の形態における画像認識装置１では、図９に示すように、特徴量比較部１２とモデル姿勢推定部１３との間に以下に説明するような候補対応特徴点ペア選択部１４を追加することができる。
【００９６】
この候補対応特徴点ペア選択部１４は、第１の手法として、推定回転角度ヒストグラムを作成することにより候補対応特徴点ペアを選択する。具体的に、図１０（Ａ）に示すようなモデルｍｄを含むモデル画像及びオブジェクトｏｂ_１，ｏｂ_２を含むオブジェクト画像を想定して説明する。特徴量比較部１２では、モデル特徴点ｍとオブジェクト特徴点ｏとの間で、図１０（Ａ）に示すような候補対応特徴点ペア群Ｐ_１，…，Ｐ_６が生成される。このうち、Ｐ_１，Ｐ_２，Ｐ_５，Ｐ_６はインライヤであり、Ｐ_３，Ｐ_４はアウトライヤであるものとする。
【００９７】
ここで、特徴量比較部１２で生成された各候補対応特徴点ペアには、モデルのオブジェクト画像上での推定回転角度情報が保持されているが、図１０（Ｂ）に示すように、インライヤの推定回転角度が何れも近い値（例えば４０ｄｅｇ）を有するのに対し、アウトライヤの推定回転角度は様々な値（例えば１１０ｄｅｇ、２６０ｄｅｇ）を有する。したがって、図１０（Ｃ）に示すような推定回転角度ヒストグラムを作成すると、そのピークを与える推定回転角度を有するペアは、インライヤ（及び推定回転角度がインライヤと一致する極少数のアウトライヤ）となる。
【００９８】
そこで、候補対応特徴点ペア選択部１４は、特徴量比較部１２で生成された候補対応特徴点ペア群のうち、推定回転角度ヒストグラムのピークを与える推定回転角度を有するペアを選択し、モデル姿勢推定部１３に供給する。これにより、安定且つ精密にモデル姿勢のアフィン変換パラメータを推定することが可能となる。但し、モデルに対するストレッチ変換が著しい場合、画像中の各点における回転角度は一定ではなくなるため、この第１の手法は、著しいストレッチ変換を想定していない場合にのみ有効である。
【００９９】
また、候補対応特徴点ペア選択部１４は、第２の手法として、一般化ハフ変換を用いてモデル姿勢の粗推定を行う。具体的には、特徴量比較部１２で生成された候補対応特徴点ペア群について、回転，拡大縮小率，平行移動（ｘ、ｙ方向）の４つの画像変換パラメータを特徴空間（投票空間）とした一般化ハフ変換を行う。最も投票の多かった画像変換パラメータ（最多投票パラメータ）によりモデルのオブジェクト画像上での粗い推定モデル姿勢が決定されるが、一方で最多投票パラメータに投票した候補対応特徴点ペア群が、この粗い推定モデル姿勢をサポートするインライヤ（及び極少数のアウトライヤ）となっている。
【０１００】
そこで、候補対応特徴点ペア選択部１４は、最多投票パラメータに投票した候補対応特徴点ペア群をモデル姿勢推定部１３に供給する。これにより、安定且つ精密にモデル姿勢のアフィン変換パラメータを推定することが可能となる。
【０１０１】
なお、候補対応特徴点ペア選択部１４は、上述した第１，第２の手法を併用するようにしても構わない。
【０１０２】
以上説明したように、本実施の形態における画像認識装置１によれば、複数の物体を含み、物体同士が部分的に重なり合っているようなオブジェクト画像からもモデルを検出可能であり、さらに視点の変化（平行移動，拡大縮小，回転，ストレッチを含む画像変化）、明度変化、ノイズによる画像情報の変形に対してもロバストである。
【０１０３】
ここで、この画像認識装置１は、例えば図１１に示すようなロボット装置に搭載することができる。この図１１に示す２足歩行タイプのロボット装置３０は、住環境その他の日常生活上の様々な場面における人的活動を支援する実用ロボットであり、内部状態（怒り、悲しみ、喜び、楽しみ等）に応じて行動できるほか、人間が行う基本的な動作を表出できるエンターテインメントロボットである。
【０１０４】
図１１に示すように、ロボット装置３０は、体幹部ユニット３１の所定の位置に頭部ユニット３２が連結されると共に、左右２つの腕部ユニット３３Ｒ／Ｌと、左右２つの脚部ユニット３４Ｒ／Ｌが連結されて構成されている（但し、Ｒ及びＬの各々は、右及び左の各々を示す接尾辞である。以下において同じ。）。
【０１０５】
このロボット装置３０が具備する関節自由度構成を図１２に模式的に示す。頭部ユニット１０２を支持する首関節は、首関節ヨー軸１０１と、首関節ピッチ軸１０２と、首関節ロール軸１０３という３自由度を有している。
【０１０６】
また、上肢を構成する各々の腕部ユニット３３Ｒ／Ｌは、、肩関節ピッチ軸１０７と、肩関節ロール軸１０８と、上腕ヨー軸１０９と、肘関節ピッチ軸１１０と、前腕ヨー軸１１１と、手首関節ピッチ軸１１２と、手首関節ロール軸１１３と、手部１１４とで構成される。手部１１４は、実際には、複数本の指を含む多関節・多自由度構造体である。ただし、手部１１４の動作は、ロボット装置１の姿勢制御や歩行制御に対する寄与や影響が少ないので、本明細書ではゼロ自由度と仮定する。したがって、各腕部は７自由度を有するとする。
【０１０７】
また、体幹部ユニット２は、体幹ピッチ軸１０４と、体幹ロール軸１０５と、体幹ヨー軸１０６という３自由度を有する。
【０１０８】
また、下肢を構成する各々の脚部ユニット３４Ｒ／Ｌは、股関節ヨー軸１１５と、股関節ピッチ軸１１６と、股関節ロール軸１１７と、膝関節ピッチ軸１１８と、足首関節ピッチ軸１１９と、足首関節ロール軸１２０と、足部１２１とで構成される。本明細書中では、股関節ピッチ軸１１６と股関節ロール軸１１７の交点は、ロボット装置３０の股関節位置を定義する。人体の足部１２１は、実際には多関節・多自由度の足底を含んだ構造体であるが、ロボット装置３０の足底は、ゼロ自由度とする。したがって、各脚部は、６自由度で構成される。
【０１０９】
以上を総括すれば、ロボット装置３０全体としては、合計で３＋７×２＋３＋６×２＝３２自由度を有することになる。ただし、エンターテインメント向けのロボット装置３０が必ずしも３２自由度に限定されるわけではない。設計・制作上の制約条件や要求仕様等に応じて、自由度すなわち関節数を適宜増減することができることはいうまでもない。
【０１１０】
上述したようなロボット装置３０がもつ各自由度は、実際にはアクチュエータを用いて実装される。外観上で余分な膨らみを排してヒトの自然体形状に近似させること、２足歩行という不安定構造体に対して姿勢制御を行うことなどの要請から、アクチュエータは小型且つ軽量であることが好ましい。また、アクチュエータは、ギア直結型で且つサーボ制御系をワンチップ化してモータユニット内に搭載したタイプの小型ＡＣサーボ・アクチュエータで構成することがより好ましい。
【０１１１】
図１３には、ロボット装置３０の制御システム構成を模式的に示している。図１３に示すように、制御システムは、ユーザ入力などに動的に反応して情緒判断や感情表現を司る思考制御モジュール２００と、アクチュエータ３５０の駆動などロボット装置１の全身協調運動を制御する運動制御モジュール３００とで構成される。
【０１１２】
思考制御モジュール２００は、情緒判断や感情表現に関する演算処理を実行するＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）２１１や、ＲＡＭ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）２１２、ＲＯＭ（ＲｅａｄＯｎｌｙＭｅｍｏｒｙ）２１３、及び、外部記憶装置（ハード・ディスク・ドライブなど）２１４で構成される、モジュール内で自己完結した処理を行うことができる、独立駆動型の情報処理装置である。
【０１１３】
この思考制御モジュール２００は、画像入力装置２５１から入力される画像データや音声入力装置２５２から入力される音声データなど、外界からの刺激などに従って、ロボット装置３０の現在の感情や意思を決定する。ここで、画像入力装置２５１は、例えばＣＣＤ（ＣｈａｒｇｅＣｏｕｐｌｅｄＤｅｖｉｃｅ）カメラを複数備えており、また、音声入力装置２５２は、例えばマイクロホンを複数備えている。
【０１１４】
また、思考制御モジュール２００は、意思決定に基づいた動作又は行動シーケンス、すなわち四肢の運動を実行するように、運動制御モジュール３００に対して指令を発行する。
【０１１５】
一方の運動制御モジュール３００は、ロボット装置３０の全身協調運動を制御するＣＰＵ３１１や、ＲＡＭ３１２、ＲＯＭ３１３、及び外部記憶装置（ハード・ディスク・ドライブなど）３１４で構成される、モジュール内で自己完結した処理を行うことができる、独立駆動型の情報処理装置である。外部記憶装置３１４には、例えば、オフラインで算出された歩行パターンや目標とするＺＭＰ軌道、その他の行動計画を蓄積することができる。ここで、ＺＭＰとは、歩行中の床反力によるモーメントがゼロとなる床面上の点のことであり、また、ＺＭＰ軌道とは、例えばロボット装置３０の歩行動作期間中にＺＭＰが動く軌跡を意味する。なお、ＺＭＰの概念並びにＺＭＰを歩行ロボットの安定度判別規範に適用する点については、ＭｉｏｍｉｒＶｕｋｏｂｒａｔｏｖｉｃ著“ＬＥＧＧＥＤＬＯＣＯＭＯＴＩＯＮＲＯＢＯＴＳ”（加藤一郎外著『歩行ロボットと人工の足』（日刊工業新聞社））に記載されている。
【０１１６】
運動制御モジュール３００には、図１２に示したロボット装置３０の全身に分散するそれぞれの関節自由度を実現するアクチュエータ３５０、体幹部ユニット２の姿勢や傾斜を計測する姿勢センサ３５１、左右の足底の離床又は着床を検出する接地確認センサ３５２，３５３、バッテリなどの電源を管理する電源制御装置３５４などの各種の装置が、バス・インターフェース（Ｉ／Ｆ）３０１経由で接続されている。ここで、姿勢センサ３５１は、例えば加速度センサとジャイロ・センサの組み合わせによって構成され、接地確認センサ３５２，３５３は、近接センサ又はマイクロ・スイッチなどで構成される。
【０１１７】
思考制御モジュール２００と運動制御モジュール３００は、共通のプラットフォーム上で構築され、両者間はバス・インターフェース２０１，３０１を介して相互接続されている。
【０１１８】
運動制御モジュール３００では、思考制御モジュール２００から指示された行動を体現すべく、各アクチュエータ３５０による全身協調運動を制御する。すなわち、ＣＰＵ３１１は、思考制御モジュール２００から指示された行動に応じた動作パターンを外部記憶装置３１４から取り出し、又は、内部的に動作パターンを生成する。そして、ＣＰＵ３１１は、指定された動作パターンに従って、足部運動、ＺＭＰ軌道、体幹運動、上肢運動、腰部水平位置及び高さなどを設定するとともに、これらの設定内容に従った動作を指示する指令値を各アクチュエータ３５０に転送する。
【０１１９】
また、ＣＰＵ３１１は、姿勢センサ３５１の出力信号によりロボット装置３０の体幹部ユニット３１の姿勢や傾きを検出するとともに、各接地確認センサ３５２，３５３の出力信号により各脚部ユニット５Ｒ／Ｌが遊脚又は立脚のいずれの状態であるかを検出することによって、ロボット装置３０の全身協調運動を適応的に制御することができる。
【０１２０】
また、ＣＰＵ３１１は、ＺＭＰ位置が常にＺＭＰ安定領域の中心に向かうように、ロボット装置１の姿勢や動作を制御する。
【０１２１】
さらに、運動制御モジュール３００は、思考制御モジュール２００において決定された意思通りの行動がどの程度発現されたか、すなわち処理の状況を、思考制御モジュール２００に返すようになっている。
【０１２２】
このようにしてロボット装置３０は、制御プログラムに基づいて自己及び周囲の状況を判断し、自律的に行動することができる。
【０１２３】
このロボット装置３０において、上述した画像認識機能をインプリメントしたプログラム（データを含む）は、例えば思考制御モジュール２００のＲＯＭ２１３に格納される。この場合、思考制御モジュール２００のＣＰＵ２１１によって画像認識プログラムが実行される。
【０１２４】
このようなロボット装置３０に上述した画像認識機能を組み込むことにより、ロボット装置３０は、画像入力装置２５１を介して入力される画像データから予め記憶しているモデルを精度よく抽出することができる。特に、ロボット装置３０が自律的に歩行している際に画像入力装置２５１のＣＣＤカメラで撮像した周囲の画像から所望のモデルを検出するような場合、他の障害物によってそのモデルが部分的に隠れていることが多々あり、視点や明度も一定ではないが、上述した画像認識手法によれば、このような場合においてもモデルを精度よく抽出することができる。
【０１２５】
なお、本発明は上述した実施の形態のみに限定されるものではなく、本発明の要旨を逸脱しない範囲において種々の変更が可能であることは勿論である。
【０１２６】
【発明の効果】
以上詳細に説明したように、本発明に係る画像認識装置及びその方法は、複数のオブジェクトを含むオブジェクト画像と検出対象となるモデルを含むモデル画像とを比較し、上記オブジェクト画像から上記モデルを抽出するものであり、上記オブジェクト画像及び上記モデル画像の各々から特徴点を抽出する特徴点抽出手段（工程）と、上記オブジェクト画像及び上記モデル画像の各々について、少なくとも上記特徴点の近傍領域における濃度勾配情報から得られる濃度勾配方向ヒストグラムを特徴量として抽出して保持する特徴量保持手段（工程）と、上記オブジェクト画像の各特徴点と上記モデル画像の各特徴点とを比較し、類似する特徴量を有する候補対応特徴点ペアを生成する特徴量比較手段（工程）と、上記候補対応特徴点ペアを用いて上記オブジェクト画像上の上記モデルの有無を検出し、上記モデルが存在する場合に該モデルの位置及び姿勢を推定するモデル姿勢推定手段（工程）とを有し、上記特徴量比較手段（工程）は、比較対象となる特徴点同士の上記濃度勾配方向ヒストグラムの一方を濃度勾配方向に巡回的にシフトさせながら該濃度勾配方向ヒストグラム間の距離を求め、最小の距離を該濃度勾配方向ヒストグラム間の距離として、上記候補対応特徴点ペアを生成するものである。
【０１２７】
このような画像認識装置及びその方法によれば、特徴点の近傍領域における濃度勾配情報から得られる濃度勾配方向ヒストグラムを特徴量として特徴量マッチングを行う際に、比較対象となる特徴点同士の濃度勾配方向ヒストグラムの一方を濃度勾配方向に巡回的にシフトさせながら該濃度勾配方向ヒストグラム間の距離を求め、最小の距離を該濃度勾配方向ヒストグラム間の距離として、距離の類似する特徴点同士で候補対応特徴点ペアを生成する。このように、ヒストグラム度数に勾配強度を累積せず、単に勾配方向のみに注目しているため、明度変化に対してロバストな特徴量マッチングが可能になる。また、方向ヒストグラムの形状を考慮したより安定なマッチングを行うことができると共に、二次的に安定した特徴量（推定回転角度）を得ることができる。
【０１２８】
また、本発明に係る画像認識装置及びその方法は、複数のオブジェクトを含むオブジェクト画像と検出対象となるモデルを含むモデル画像とを比較し、上記オブジェクト画像から上記モデルを抽出するものであり、上記オブジェクト画像及び上記モデル画像の各々から特徴点を抽出する特徴点抽出手段（工程）と、上記オブジェクト画像及び上記モデル画像の各々について、上記特徴点の近傍領域における特徴量を抽出して保持する特徴量保持手段（工程）と、上記オブジェクト画像の各特徴点と上記モデル画像の各特徴量とを比較し、類似する特徴量を有する候補対応特徴点ペアを生成する特徴量比較手段（工程）と、上記候補対応特徴点ペアを用いて上記オブジェクト画像上の上記モデルの有無を検出し、上記モデルが存在する場合に該モデルの位置及び姿勢を推定するモデル姿勢推定手段（工程）とを有し、上記モデル姿勢推定手段（工程）は、ランダムに選択した３組の候補対応特徴点ペアから決定されるアフィン変換パラメータをパラメータ空間に投射する操作を繰り返し、パラメータ空間上で形成されたクラスタのうち最多メンバ数を持つクラスタに属するアフィン変換パラメータに基づいて上記モデルの位置及び姿勢を決定するアフィン変換パラメータを求めるものである。
【０１２９】
このような画像認識装置及びその方法によれば、特徴量が類似するとして生成された候補対応特徴点ペアを用いて上記オブジェクト画像上のモデルの有無を検出し、モデルが存在する場合に該モデルの位置及び姿勢を推定する際に、ランダムに選択した３組の候補対応特徴点ペアから決定されるアフィン変換パラメータをパラメータ空間に投射する操作を繰り返し、パラメータ空間上で形成されたクラスタのうち最多メンバ数を持つクラスタに属するアフィン変換パラメータに基づいて上記モデルの位置及び姿勢を決定するアフィン変換パラメータを求める。このように、最小自乗推定を用いてモデルの位置及び姿勢を決定するアフィン変換パラメータを求めるのではなく、アフィン変換パラメータを投射したパラメータ空間上で最多メンバ数を持つクラスタに属するアフィン変換パラメータに基づいてアフィン変換パラメータを求めることにより、候補対応特徴点ペアに偽の対応点ペア含まれている場合であっても、安定してモデルの位置及び姿勢を推定することができる。
【０１３０】
また、本発明に係るロボット装置は、上述したような画像認識機能を搭載したものであり、入力される画像データから予め記憶しているモデルを精度よく抽出することができる。
【図面の簡単な説明】
【図１】本実施の形態における画像認識装置の概略構成を示す図である。
【図２】同画像認識装置の特徴点抽出部における画像の多重解像度ピラミッド構造の構築方法を説明する図である。
【図３】第Ｌレベルまでの解像度変化によって位置の変化がないような特徴点の検出処理を説明するフローチャートである。
【図４】第３レベルまでの解像度変化によって位置の変化がないような特徴点を検出する場合の例を示す図である。
【図５】同画像認識装置の特徴量保持部における処理を説明する図であり、同図（Ａ）は、特徴点から半径３．５ピクセルの範囲内を近傍構造とした場合における特徴点近傍の濃度勾配情報の例を示し、同図（Ｂ）は、同図（Ａ）の濃度勾配情報から得られる勾配方向ヒストグラムの例を示す。
【図６】同画像認識装置の特徴量比較部における処理の詳細を説明するフローチャートである。
【図７】濃度勾配ベクトルＵ_ｍ，Ｕ_ｏ間の類似度の計算手法を説明する図である。
【図８】同画像認識装置のモデル姿勢推定部における処理の詳細を説明するフローチャートである。
【図９】候補対応特徴点ペア選択部を有する画像認識装置の概略構成を示す図である。
【図１０】同画像認識装置の候補対応特徴点ペア選択部における第１の手法を説明する図であり、同図（Ａ）は、候補対応特徴点ペア群の例を示し、同図（Ｂ）は、各候補対応特徴点ペアに保持されている推定回転角度を示し、同図（Ｃ）は、推定回転角度ヒストグラムを示す。
【図１１】本実施の形態におけるロボット装置の外観構成を示す斜視図である。
【図１２】同ロボット装置の自由度構成モデルを模式的に示す図である。
【図１３】同ロボット装置のシステム構成を示す図である。
【図１４】従来の画像認識装置の概略構成を示す図である。
【符号の説明】
１画像認識装置、１０ａ，１０ｂ特徴点抽出部、１１ａ，１１ｂ特徴量保持部、１２特徴量比較部、１３モデル姿勢推定部、１４候補対応特徴点ペア選択部、３０ロボット装置、２５１画像入力装置

Claims

複数のオブジェクトを含むオブジェクト画像と検出対象となるモデルを含むモデル画像とを比較し、上記オブジェクト画像から上記モデルを抽出する画像認識装置であって、
上記オブジェクト画像及び上記モデル画像の各々から特徴点を抽出する特徴点抽出手段と、
上記オブジェクト画像及び上記モデル画像の各々について、少なくとも上記特徴点の近傍領域における濃度勾配情報から得られる濃度勾配方向ヒストグラムを特徴量として抽出して保持する特徴量保持手段と、
上記オブジェクト画像の各特徴点と上記モデル画像の各特徴点とを比較し、類似する特徴量を有する候補対応特徴点ペアを生成する特徴量比較手段と、
上記候補対応特徴点ペアを用いて上記オブジェクト画像上の上記モデルの有無を検出し、上記モデルが存在する場合に該モデルの位置及び姿勢を推定するモデル姿勢推定手段とを備え、
上記特徴量比較手段は、比較対象となる特徴点同士の上記濃度勾配方向ヒストグラムの一方を濃度勾配方向に巡回的にシフトさせながら該濃度勾配方向ヒストグラム間の距離を求め、最小の距離を該濃度勾配方向ヒストグラム間の距離として、上記候補対応特徴点ペアを生成する
ことを特徴とする画像認識装置。
上記特徴量保持手段は、さらに上記近傍領域を複数の部分領域に分割した各部分領域毎の平均濃度勾配ベクトルを上記特徴量として抽出して保持し、
上記特徴量比較手段は、上記比較対象となる特徴点同士の上記濃度勾配方向ヒストグラム間の距離と、上記部分領域毎の平均濃度勾配ベクトルを上記近傍領域でまとめた特徴ベクトル間の類似度とに基づいて、上記候補対応特徴点ペアを生成する
ことを特徴とする請求項１記載の画像認識装置。
上記特徴量比較手段は、上記比較対象となる特徴点同士の上記濃度勾配方向ヒストグラム間の距離に基づき暫定的な候補対応特徴点ペアを生成し、上記特徴ベクトル間の類似度に基づき該暫定的な候補対応特徴点ペアから上記候補対応特徴点ペアを選択することを特徴とする請求項２記載の画像認識装置。
上記特徴量比較手段は、上記最小の距離を与えるシフト量に相当する回転角度で上記近傍領域における濃度勾配ベクトルの濃度勾配方向を補正し、補正後の近傍領域における上記特徴ベクトル間の類似度に基づき上記暫定的な候補対応特徴点ペアから上記候補対応特徴点ペアを選択することを特徴とする請求項３記載の画像認識装置。
上記モデル姿勢推定手段は、ランダムに選択した３組の候補対応特徴点ペアから決定されるアフィン変換パラメータをパラメータ空間に投射する操作を繰り返し、パラメータ空間上で形成されたクラスタのうち最多メンバ数を持つクラスタに属するアフィン変換パラメータに基づいて上記モデルの位置及び姿勢を決定するアフィン変換パラメータを求めることを特徴とする請求項１記載の画像認識装置。
上記モデル姿勢推定手段は、上記最多メンバ数を持つクラスタのセントロイドを上記モデルの位置及び姿勢を決定するアフィン変換パラメータとすることを特徴とする請求項５記載の画像認識装置。
上記モデル姿勢推定手段は、上記最多メンバ数を持つクラスタに属するアフィン変換パラメータを与えた候補対応特徴点ペアを真の候補対応特徴点ペアとし、該真の候補対応特徴点ペアを用いて最小自乗推定により上記モデルの位置及び姿勢を決定するアフィン変換パラメータを求めることを特徴とする請求項５記載の画像認識装置。
上記最小の距離を与えるシフト量に相当する回転角度に関する回転角度ヒストグラムを作成し、上記特徴量比較手段によって生成された上記候補対応特徴点ペアから上記回転角度ヒストグラムのピークにおける回転角度を与えた候補対応特徴点ペアを選択する候補対応特徴点ペア選択手段をさらに備え、
上記モデル姿勢推定手段は、上記候補対応特徴点ペア選択手段によって選択された候補対応特徴点ペアを用いて上記オブジェクト画像上の上記モデルの有無を検出し、上記モデルが存在する場合に該モデルの位置及び姿勢を推定する
ことを特徴とする請求項１記載の画像認識装置。
上記特徴量比較手段によって生成された候補対応特徴点ペアに対して、回転角度、拡大縮小率並びに水平及び垂直方向の平行移動量をパラメータ空間とした一般化ハフ変換を行い、上記特徴量比較手段によって生成された候補対応特徴点ペアから最多投票パラメータに投票した候補対応特徴点ペアを選択する候補対応特徴点ペア選択手段をさらに備え、
上記モデル姿勢推定手段は、上記候補対応特徴点ペア選択手段によって選択された候補対応特徴点ペアを用いて上記オブジェクト画像上の上記モデルの有無を検出し、上記モデルが存在する場合に該モデルの位置及び姿勢を推定する
ことを特徴とする請求項１記載の画像認識装置。
上記特徴点抽出手段は、上記オブジェクト画像又は上記モデル画像に対して平滑化フィルリングと縮小リサンプリングとを繰り返し適用して得られる多重解像度ピラミッド構造において、各解像度における２次微分系フィルタ出力画像の局所極大点又は局所極小点のうち、所定の範囲内の解像度変化によって位置の変化がない点を上記特徴点として抽出することを特徴とする請求項１記載の画像認識装置。
複数のオブジェクトを含むオブジェクト画像と検出対象となるモデルを含むモデル画像とを比較し、上記オブジェクト画像から上記モデルを抽出する画像認識装置であって、
上記オブジェクト画像及び上記モデル画像の各々から特徴点を抽出する特徴点抽出手段と、
上記オブジェクト画像及び上記モデル画像の各々について、上記特徴点の近傍領域における特徴量を抽出して保持する特徴量保持手段と、
上記オブジェクト画像の各特徴点と上記モデル画像の各特徴点とを比較し、類似する特徴量を有する候補対応特徴点ペアを生成する特徴量比較手段と、
上記候補対応特徴点ペアを用いて上記オブジェクト画像上の上記モデルの有無を検出し、上記モデルが存在する場合に該モデルの位置及び姿勢を推定するモデル姿勢推定手段とを備え、
上記モデル姿勢推定手段は、ランダムに選択した３組の候補対応特徴点ペアから決定されるアフィン変換パラメータをパラメータ空間に投射する操作を繰り返し、パラメータ空間上で形成されたクラスタのうち最多メンバ数を持つクラスタに属するアフィン変換パラメータに基づいて上記モデルの位置及び姿勢を決定するアフィン変換パラメータを求める
ことを特徴とする画像認識装置。
上記モデル姿勢推定手段は、上記最多メンバ数を持つクラスタのセントロイドを上記モデルの位置及び姿勢を決定するアフィン変換パラメータとすることを特徴とする請求項１１記載の画像認識装置。
上記モデル姿勢推定手段は、上記最多メンバ数を持つクラスタに属するアフィン変換パラメータを与えた候補対応特徴点ペアを真の候補対応特徴点ペアとし、該真の候補対応特徴点ペアを用いて最小自乗推定により上記モデルの位置及び姿勢を決定するアフィン変換パラメータを求めることを特徴とする請求項１１記載の画像認識装置。
上記特徴量比較手段によって生成された候補対応特徴点ペアに対して、回転角度、拡大縮小率並びに水平及び垂直方向の平行移動量をパラメータ空間とした一般化ハフ変換を行い、上記特徴量比較手段によって生成された候補対応特徴点ペアから最多投票パラメータに投票した候補対応特徴点ペアを選択する候補対応特徴点ペア選択手段をさらに備え、
上記モデル姿勢推定手段は、上記候補対応特徴点ペア選択手段によって選択された候補対応特徴点ペアを用いて上記オブジェクト画像上の上記モデルの有無を検出し、上記モデルが存在する場合に該モデルの位置及び姿勢を推定する
ことを特徴とする請求項１１記載の画像認識装置。
上記特徴点抽出手段は、上記オブジェクト画像又は上記モデル画像に対して平滑化フィルリングと縮小リサンプリングとを繰り返し適用して得られる多重解像度ピラミッド構造において、各解像度における２次微分系フィルタ出力画像の局所極大点又は局所極小点のうち、所定の範囲内の解像度変化によって位置の変化がない点を上記特徴点として抽出することを特徴とする請求項１１記載の画像認識装置。
複数のオブジェクトを含むオブジェクト画像と検出対象となるモデルを含むモデル画像とを比較し、上記オブジェクト画像から上記モデルを抽出する画像認識方法であって、
上記オブジェクト画像及び上記モデル画像の各々から特徴点を抽出する特徴点抽出工程と、
上記オブジェクト画像及び上記モデル画像の各々について、少なくとも上記特徴点の近傍領域における濃度勾配情報から得られる濃度勾配方向ヒストグラムを特徴量として抽出して保持する特徴量保持工程と、
上記オブジェクト画像の各特徴点と上記モデル画像の各特徴点とを比較し、類似する特徴量を有する候補対応特徴点ペアを生成する特徴量比較工程と、
上記候補対応特徴点ペアを用いて上記オブジェクト画像上の上記モデルの有無を検出し、上記モデルが存在する場合に該モデルの位置及び姿勢を推定するモデル姿勢推定工程とを有し、
上記特徴量比較工程では、比較対象となる特徴点同士の上記濃度勾配方向ヒストグラムの一方を濃度勾配方向に巡回的にシフトさせながら該濃度勾配方向ヒストグラム間の距離を求め、最小の距離を該濃度勾配方向ヒストグラム間の距離として、上記候補対応特徴点ペアを生成する
ことを特徴とする画像認識方法。
複数のオブジェクトを含むオブジェクト画像と検出対象となるモデルを含むモデル画像とを比較し、上記オブジェクト画像から上記モデルを抽出する画像認識方法であって、
上記オブジェクト画像及び上記モデル画像の各々から特徴点を抽出する特徴点抽出工程と、
上記オブジェクト画像及び上記モデル画像の各々について、上記特徴点の近傍領域における特徴量を抽出して保持する特徴量保持工程と、
上記オブジェクト画像の各特徴点と上記モデル画像の各特徴点とを比較し、類似する特徴量を有する候補対応特徴点ペアを生成する特徴量比較工程と、
上記候補対応特徴点ペアを用いて上記オブジェクト画像上の上記モデルの有無を検出し、上記モデルが存在する場合に該モデルの位置及び姿勢を推定するモデル姿勢推定工程とを有し、
上記モデル姿勢推定工程では、ランダムに選択した３組の候補対応特徴点ペアから決定されるアフィン変換パラメータをパラメータ空間に投射する操作を繰り返し、パラメータ空間上で形成されたクラスタのうち最多メンバ数を持つクラスタに属するアフィン変換パラメータに基づいて上記モデルの位置及び姿勢を決定するアフィン変換パラメータを求める
ことを特徴とする画像認識方法。
入力画像と検出対象となるモデルを含むモデル画像とを比較し、上記入力画像から上記モデルを抽出することが可能な自律型のロボット装置であって、
外部環境を撮像し、上記入力画像とする画像入力手段と、
上記入力画像及び上記モデル画像の各々から特徴点を抽出する特徴点抽出手段と、
上記入力画像及び上記モデル画像の各々について、少なくとも上記特徴点の近傍領域における濃度勾配情報から得られる濃度勾配方向ヒストグラムを特徴量として抽出して保持する特徴量保持手段と、
上記入力画像の各特徴点と上記モデル画像の各特徴点とを比較し、類似する特徴量を有する候補対応特徴点ペアを生成する特徴量比較手段と、
上記候補対応特徴点ペアを用いて上記入力画像上の上記モデルの有無を検出し、上記モデルが存在する場合に該モデルの位置及び姿勢を推定するモデル姿勢推定手段とを備え、
上記特徴量比較手段は、比較対象となる特徴点同士の上記濃度勾配方向ヒストグラムの一方を濃度勾配方向に巡回的にシフトさせながら該濃度勾配方向ヒストグラム間の距離を求め、最小の距離を該濃度勾配方向ヒストグラム間の距離として、上記候補対応特徴点ペアを生成する
ことを特徴とするロボット装置。
入力画像と検出対象となるモデルを含むモデル画像とを比較し、上記入力画像から上記モデルを抽出することが可能な自律型のロボット装置であって、
外部環境を撮像し、上記入力画像とする画像入力手段と、
上記入力画像及び上記モデル画像の各々から特徴点を抽出する特徴点抽出手段と、
上記入力画像及び上記モデル画像の各々について、上記特徴点の近傍領域における特徴量を抽出して保持する特徴量保持手段と、
上記入力画像の各特徴点と上記モデル画像の各特徴点とを比較し、類似する特徴量を有する候補対応特徴点ペアを生成する特徴量比較手段と、
上記候補対応特徴点ペアを用いて上記入力画像上の上記モデルの有無を検出し、上記モデルが存在する場合に該モデルの位置及び姿勢を推定するモデル姿勢推定手段とを備え、
上記モデル姿勢推定手段は、ランダムに選択した３組の候補対応特徴点ペアから決定されるアフィン変換パラメータをパラメータ空間に投射する操作を繰り返し、パラメータ空間上で形成されたクラスタのうち最多メンバ数を持つクラスタに属するアフィン変換パラメータに基づいて上記モデルの位置及び姿勢を決定するアフィン変換パラメータを求める
ことを特徴とするロボット装置。