JP6544482B2

JP6544482B2 - 物体認識装置、物体認識方法及び記憶媒体

Info

Publication number: JP6544482B2
Application number: JP2018512345A
Authority: JP
Inventors: 蕊寒包
Original assignee: NEC Corp
Current assignee: NEC Corp
Priority date: 2015-09-11
Filing date: 2015-09-11
Publication date: 2019-07-17
Anticipated expiration: 2035-09-11
Also published as: WO2017042852A1; JP2018526753A

Description

本発明は、画像中の物体を認識する技術に関する。

画像から物体を認識することは、コンピュータビジョンにおいて重要な課題である。

特許文献１は、クエリ画像中に表された物体を検出する物体認識方法を開示している。特許文献１の物体認識方法では、クエリ画像中に表された物体は、クエリ画像から抽出されたクエリ特徴ベクトルと、それぞれが物体に関連し、画像データベースに記憶された画像から抽出された参照ベクトルとを基に算出された、類似度スコアを使って検出される。

特許文献２は、３次元（３Ｄ）物体の入力画像の見え方を推定する物体認識装置を開示している。特許文献２は、データベースに記憶された画像から入力画像の類似領域として抽出された領域を使用して、入力画像から抽出された特徴点及び記憶された画像から抽出された特徴点のうちの対応する特徴点の局所特徴量に基づく投票の結果に基づいて、入力画像に類似する見え方画像を、認識結果として生成する。

国際出願公開第２０１１／０２１６０５号特開２０１２−８３８５５号公報

特許文献１に係る方法では、各物体に対して画像が１枚のみ画像データベースに記憶されている。したがって、クエリ画像が、そのクエリ画像のものと同じ物体の、画像データベースに記憶されている画像であるデータベース画像とは異なる方向から撮られている場合、特許文献１の技術により物体を正確に検出することは困難である。

見え方画像を生成する際、特許文献２に係る物体認識装置は、抽出された領域の物体が入力画像の物体に対応するかどうかに関わらず、入力画像に類似する領域を抽出する。例えば、物体認識装置は、外観画像の生成に使用される領域の一つとして、物体の領域を含む画像が撮られた方向とは異なる方向から見た、全く異なる見え方の、物体の領域を抽出することがある。特許文献２に係る物体認識装置は、入力画像の物体に対応する物体を特定しない。そのため、特許文献２の技術により物体を正確に検出することは困難である。

本発明の目的の一つは、物体認識の精度を改善する物体認識装置等を提供することである。

本発明の一態様に係る物体認識装置は、画像から特徴量を抽出する抽出手段と、前記画像から抽出された前記特徴量である第１特徴量を、物体を表す画像であるモデル画像から抽出された特徴量である複数の第２特徴量と照合する照合手段と、前記モデル画像に基づいて、前記モデル画像の間の幾何学的関係を表す相対的なカメラ姿勢を計算する関係算出手段と、前記照合の結果と前記相対的なカメラ姿勢とに基づいて、前記第１特徴量と前記複数の第２特徴量との間の、前記相対的なカメラ姿勢による影響が除かれた幾何学的関係である、校正された幾何学的関係を表す校正済み投票を計算する投票手段と、前記校正済み投票に対してクラスタリングを行うクラスタリング手段と、前記画像が前記物体を表しているか否かを、前記クラスタリングの結果に基づいて判定する判定手段と、を備える。

本発明の一態様に係る物体認識方法は、画像から特徴量を抽出し、前記画像から抽出された前記特徴量である第１特徴量を、物体を表す画像であるモデル画像から抽出された特徴量である複数の第２特徴量と照合し、前記モデル画像に基づいて、前記モデル画像の間の幾何学的関係を表す相対的なカメラ姿勢を計算し、前記照合の結果と前記相対的なカメラ姿勢とに基づいて、前記第１特徴量と前記複数の第２特徴量との間の、前記相対的なカメラ姿勢による影響が除かれた幾何学的関係である、校正された幾何学的関係を表す校正済み投票を計算し、前記校正済み投票に対してクラスタリングを行い、前記画像が前記物体を表しているか否かを、前記クラスタリングの結果に基づいて判定する。

本発明の一態様に係るコンピュータ可読媒体は、コンピュータを、画像から特徴量を抽出する抽出手段と、前記画像から抽出された前記特徴量である第１特徴量を、物体を表す画像であるモデル画像から抽出された特徴量である複数の第２特徴量と照合する照合手段と、前記モデル画像に基づいて、前記モデル画像の間の幾何学的関係を表す相対的なカメラ姿勢を計算する関係算出手段と、前記照合の結果と前記相対的なカメラ姿勢とに基づいて、前記第１特徴量と前記複数の第２特徴量との間の、前記相対的なカメラ姿勢による影響が除かれた幾何学的関係である、校正された幾何学的関係を表す校正済み投票を計算する投票手段と、前記校正済み投票に対してクラスタリングを行うクラスタリング手段と、及び前記画像が前記物体を表しているか否かを、前記クラスタリングの結果に基づいて判定する判定手段と、して動作させるプログラムを記憶する。

本発明によれば、物体認識の精度を改善することが可能である。

本発明の第１の関連技術に係る物体認識装置の構造の第１の例を示すブロック図である。本発明の第１の関連技術に係る物体認識装置の構造の第２の例を示すブロック図である。本発明の第２の関連技術に係る物体認識装置の構造の第１の例を示すブロック図である。本発明の第１の実施形態に係る物体認識装置の構造の第１の例を示すブロック図である。本発明の第１の実施形態に係る物体認識装置の構造の第２の例を示すブロック図である。本発明の第１の実施形態に係る物体認識装置の構造の第の３例を示すブロック図である。本発明の第１の実施形態に係る投票部の構成の例を示すブロック図である。本発明の第１の実施形態に係る投票部の構成の例を示すブロック図である。本発明の第１の実施形態に係る物体認識装置の動作の例を示すフローチャートである。本発明の第２の実施形態に係る物体認識装置の構造の第１の例を示すブロック図である。本発明の第２の実施形態に係る物体認識装置の構造の第２の例を示すブロック図である。本発明の第２の実施形態に係る物体認識装置の構造の第３の例を示すブロック図である。本発明の第２の実施形態に係る投票部の構成の例を示すブロック図である。本発明の第２の実施形態に係る投票部の代替構成の例を示すブロック図である。本発明の第２の実施形態に係る物体認識装置の動作を示すフローチャートである。本発明の第３の実施形態に係る物体認識装置の構造の例を示すブロック図である。本発明の実施形態に係る物体認識装置のそれぞれとして動作が可能なコンピュータの構造の例を示すブロック図である。本発明の第１の実施形態に係る物体認識装置の構造の例を示すブロック図である。本発明の第２の実施形態に係る物体認識装置の構造の例を示すブロック図である。本発明の第３の実施形態に係る物体認識装置の構造の例を示すブロック図である。

以下に本発明の実施形態を詳細に説明する。

＜関連技術＞
まず、本発明の関連技術を説明する。
物体認識方法の一つである２次元（２Ｄ）物体認識方法では、画像（「クエリ画像」と呼ぶ）で表される物体は、例えば、認識対象の物体の画像を含むモデル画像（「参照画像」とも呼ぶ）の中からクエリ画像に類似する画像を特定することで認識される。より詳細には、２次元物体認識は、クエリ画像及びモデル画像から局所特徴量を抽出すること、及び、クエリ画像から抽出された局所特徴量とモデル画像のそれぞれから抽出された局所特徴量との照合を行うことを含んでいてよい。

局所特徴量の一例は、「スケール不変特徴変換」（ＳＩＦＴ）と呼ばれる局所特徴量である。ＳＩＦＴは、「David G. Lowe, ”Distinctive Image Features from Scale-Invariant Keypoints”, International Journal of Computer Vision, Volume 60 Issue 2, November 2004, pp. 91-110」（以降では”Lowe”と呼ぶ）によって開示されている。

照合により、特徴対応が見つかる。特徴対応のそれぞれは、例えば、クエリ画像から抽出された局所特徴量と、複数のモデル画像のうちの一つから抽出された局所特徴量との組である。特徴対応が見つかった後、幾何学的検証が、例えば、特徴の位置、方向及びスケールを使った、クエリ画像と複数のモデル画像のうち一つのモデル画像との間の、相対的な、平行移動、回転及びスケーリング変化に対する投票を行う、２つの画像の間のハフ投票などの方法を使用して行われる。ハフ投票は、「Iryna Gordon and David G. Lowe, "What and where: 3D object recognition with accurate pose", Toward Category-Level Object Recognition, Springer-Verlag, 2006, pp. 67-82」（以降では「Ｇｏｒｄｏｎ他」と呼ぶ）によって開示されている。

２次元物体認識では、複数のモデル画像のそれぞれが、異なる物体の画像であり得る。物体認識結果は、例えば、クエリ画像の一部に類似する領域を含む画像である。

上述した２次元物体認識とは異なり、３次元物体認識方法では、物体認識は、物体の周囲の複数の画像（モデル画像）を使って行われる。言い換えると、複数のモデル画像が、物体を表す。

３次元物体認識を扱う方法の一つの種類が、「Gordon et al. and Qiang Hao et al., "Efficient 2D-to-3D Correspondence Filtering for Scalable 3D Object Recognition", Computer Vision and Pattern Recognition (CVPR), 2013 IEEE Conference on, pp. 899-906」により開示されている。
３次元物体認識方法の概要を以下で説明する。まず、ｓｔｒｕｃｔｕｒｅ−ｆｒｏｍ−ｍｏｔｉｏｎ（ＳｆＭ）をモデル画像に適用することによって、３次元モデルが生成される。ＳｆＭの出力は、モデル画像内の局所特徴量から復元された、３次元空間内の点（すなわち３次元点、「点群」と呼ぶ）の座標と、モデル画像のカメラ姿勢との組である。カメラ姿勢は、３次元物体に関するモデル画像の相対位置を表す。同時に、モデル画像から抽出された局所特徴量が点群内の３次元点に割り当てられる。クエリ画像が提示されると、局所特徴量がクエリ画像から抽出され、抽出された特徴量が点群に割り当てられた局所特徴量と照合される。照合により特徴対応が見つかると、ＲＡＮｄｏｍＳＡｍｐｌｅＣｏｎｓｅｎｓｕｓ（ＲＡＮＳＡＣ）などの方法を使って幾何学的検証が行われる。しかし、ＲＡＮＳＡＣベースの方法は、大抵の場合、実行が比較的遅く、クエリ画像がノイズの多い背景を含む場合にうまく機能しないことがある。

上述のように、ＲＡＮＳＡＣベースの３次元物体認識方法は、クエリ画像がノイズの多い背景を含む場合に、処理速度が遅く、精度が低い。ハフ投票に基づく方法は、より高速であり、ノイズ及び背景に対して比較的ロバストであるが、多視点（すなわち、様々な角度から撮られた同じ物体の画像）を扱場合、モデル画像間での校正を必要とし、さもないと推定物体の中心がクエリ画像内で異なるクラスタを形成して、クエリ画像内に現れる物体を検出することが困難になる。

次に、上記関連技術の実装を説明する。

＜第１の関連例＞
図１Ａは、３次元物体認識の関連技術の実施態様（すなわち第１の関連例）である物体認識装置１１００の構造の例を示すブロック図である。

図１Ａを参照すると、物体認識装置１１００は、抽出部１１０１、照合部１１０２、投票部１１０３、クラスタリング部１１０４、判定部１１０５、モデル画像記憶部１１０６、受付部１１０７、出力部１１０８及びモデル記憶部１１１０を含む。

受付部１１０７は、認識対象である画像（「クエリ画像」と呼ぶ）と、物体を表す複数の画像（「モデル画像」と呼ぶ）とを受信する。クエリ画像は識別対象の物体の画像を含んでいても、含まなくてもよい。モデル画像は、物体の周囲の様々な角度から撮られており、それらの画像は、認識の目的のために参照される。

受付部１１０７は、クエリ画像及びモデル画像を抽出部１１０１へ送信する。受付部１１０７は、モデル画像をモデル画像記憶部１１０６に格納してもよい。

受付部１１０７は、さらに、それぞれのモデル画像の物体中心の座標を受信してもよい。この場合、物体認識装置１１００のオペレータは、モデル画像のそれぞれの物体中心の座標を、マウスやタッチパネルなどの入力装置（図示せず）によって示してもよい。受付部１１０７は、さらに、それぞれのモデル画像の物体中心の座標を、抽出部１１０１へ送信してもよい。受付部１１０７は、さらに、それぞれのモデル画像の物体中心の座標を、モデル画像記憶部１１０６に格納してもよい。

モデル画像記憶部１１０６はモデル画像を記憶する。モデル画像記憶部１１０６は、さらに、それぞれのモデル画像の物体中心の座標を記憶してもよい。

抽出部１１０１は、クエリ画像を受信し、クエリ画像から局所特徴量を抽出し、抽出された局所特徴量を出力する。抽出部１１０１は、モデル画像を受信し、モデル画像から局所特徴量を抽出し、抽出された局所特徴量を出力する。抽出部１１０１は、モデル画像記憶部１１０６からモデル画像を読み出してもよい。抽出部１１０１は、モデル画像から抽出された局所特徴量を、モデル記憶部１１１０に格納してもよい。

局所特徴量のそれぞれは、画像からの局所的な量であり、画像の、ある位置およびその周囲の画素の表現（「局所記述子」と呼ぶ）と、その位置における回転不変量（「方向」と呼ぶ）と、その場所におけるスケール不変量（「スケール」と呼ぶ）とをなすベクトル含むが、これらに限られない。局所記述子、方向及びスケールを含む局所特徴量の一実装は、Ｌｏｗｅにより開示されたＳＩＦＴである。

抽出部１１０１は、さらに、それぞれのモデル画像の物体中心の座標を、モデル画像記憶部１１０６から読み出してもよい。抽出部１１０１は、さらに、複数のモデル画像、及び／又は、複数のモデル画像のそれぞれから抽出された、抽出された局所特徴量に基づいて、物体中心の座標を計算する。例えば、抽出部１１０１は、複数のモデル画像のうち一つのモデル画像の物体中心の座標として、そのモデル画像の中心点の座標を計算してもよい。抽出部１１０１は、複数のモデル画像のうち一つのモデル画像の物体中心の座標として、そのモデル画像から抽出された複数の局所特徴量に含まれる位置の座標の平均値を計算してもよい。抽出部１１０１は、複数のモデル画像のうち一つのモデル画像の物体中心の座標を、別の方法で計算してもよい。

抽出部１１０１は、さらに、それぞれのモデル画像の物体中心の座標を、局所特徴量の一部として、照合部１１０２へ送信してもよい。抽出部１１０１は、それぞれのモデル画像の物体中心の座標を、モデル記憶部１１１０に格納してもよい。抽出部１１０１は、さらに、それぞれのモデル画像の物体中心の座標を、局所特徴量の一部として、投票部１１０３へ送信してもよい。

モデル記憶部１１１０は、モデル画像から抽出された局所特徴量を記憶する。モデル記憶部１１１０は、さらに、それぞれのモデル画像の物体中心の座標を記憶する。

照合部１１０２は、クエリ画像から抽出された局所特徴量と、複数のモデル画像のうち一つの画像から抽出された局所特徴量とを受信する。照合部１１０２は、クエリ画像と複数のモデル画像のうちの一つの画像との間の、局所特徴量の類似度を計算することによって、クエリ画像から抽出された局所特徴量と複数のモデル画像のうちのその画像とから抽出された局所特徴量を比較し、算出された類似度に基づき、特徴対応を生成する。局所特徴量がベクトルによって表される場合、局所特徴量間の類似度は、局所特徴量の間のベクトル間距離であってよい。類似度は、局所特徴量に応じて定義されていればよい。

特徴対応のそれぞれは、高い類似度を有する２つの局所特徴量を示す（言い換えると、それらの２つの局所特徴量の間の類似度の大きさは、所定の類似度閾値と比較して高い類似度を示す）。２つの局所特徴量のうちの一方は、クエリ画像から抽出された複数の局所特徴量のうち一つの局所特徴量である。２つの局所特徴量のうちの他方は、複数のモデル画像のうちの画像から抽出された複数の局所特徴量のうち一つの局所特徴量である。
照合部１１０２は、２つの局所特徴量の間の類似度の大きさとして、２つの局所特徴量に含まれる局所記述子の間のベクトル距離を計算してもよい。特徴対応のそれぞれは、２つの局所特徴量の識別子によって表され、これにより２つの局所特徴量を容易に識別し、取り出すことができる。

照合部１１０２は特徴対応の組を出力する。照合部１１０２から出力された、結果として得られる特徴対応は、投票部１１０３へ送信される。

投票部１１０３は、クエリ画像と複数のモデル画像のうちの一つの画像との特徴対応の組、及び、複数のモデル画像のうちのその画像の物体中心の座標を受信する。投票部１１０３は、物体中心の予測される位置、スケーリング変化及び回転を含む、ハフ投票を計算する。投票部１１０３は、結果として得られたハフ投票を、クラスタリング部１１０４へ送信する。ハフ投票の計算を行う方法の一つは、特許文献２で説明されている。

クラスタリング部１１０４は、投票部１１０３からハフ投票を受信する。クラスタリング部１１０４は、互いに類似するハフ投票が同じグループに分類されるように、類似度（例えば、ハフ投票のうちの２つの間のベクトル距離）に基づいて、ハフ投票に対してクラスタリングを行う。クラスタリング部１１０４は、クラスタリング結果を判定部１１０５へ送信する。投票部１１０３により使われるクラスタリング方法は、平均値シフト（ｍｅａｎ−ｓｈｉｆｔ）法、ビン投票、又は任意の他の教師なしクラスタリング方法のいずれか一つであってよい。クラスタリング部１１０４は、特徴対応から、ある条件を満たすクラスタ、言い換えると、例えば、所定の閾値を超える個数の要素（すなわちハフ投票）をそれぞれ含むクラスタ、に属する特徴対応の部分集合を抽出することができる。クラスタリング部１１０４は、抽出された特徴対応（すなわち、特徴対応の部分集合）を判定部１１０５へ送信する。

判定部１１０５は、抽出された特徴対応（すなわち特徴対応の部分集合）を受信する。判定部１１０５は、モデル画像により表される物体がクエリ画像内に存在するかを、部分集合内の特徴対応の個数に基づいて判定してもよい。判定部１１０５は、認識結果として判定結果を出力する。判定部１１０５は、さらに、特徴対応から導出された、物体の位置、回転、及びスケーリング変化を含む、物体姿勢を出力してもよい。判定部１１０５は、モデル画像の物体がクエリ画像内に存在するかを判定するために、特徴対応の絶対数を使用してもよい。代わりに、判定部１１０５は、ある正規化因子（例えば、照合部１１０２により算出された特徴対応の総数）に対する特徴対応の絶対数の比率を計算することによる、正規化スコアを使用してもよい。判定部１１０５は、認識結果として、物体がクエリ画像内に存在するか否かを示す二値の結果を出力してもよい。判定部１１０５は、認識結果の信頼度を示す確率を計算して出力してもよい。

出力部１１０８は物体認識装置１１００からの認識の結果を出力する。出力部１１０８は、認識の結果を表示装置（図示せず）へ送信してもよい。表示装置は、認識の結果を表示してもよい。出力部１１０８は、物体認識装置１１００のオペレータによって使用される端末装置（図示せず）に、認識の結果を送信してもよい。

関連技術の実施態様である物体認識装置１１００は、モデル画像から生成されたハフ投票がパラメトリック空間においてクラスタを形成しうるため、ＲＡＮＳＡＣベースの方法と比べて、高速で正確に動作する。しかし、モデル画像に見え方の大きなばらつきがある場合、それらのモデル画像から生成されたハフ投票が、遠く離れた複数のクラスタを生成することがある。したがって、ハフ投票に対してさらに校正が必要となり、さもければ物体認識は失敗する。

図１Ｂは、３次元物体認識の関連技術の別の実施態様である物体認識装置１１００Ｂの構造の例を示すブロック図である。物体認識装置１１００Ｂは、以下の相違点を除き、図１Ａの物体認識装置１１００と同じである。

図１Ｂに示す物体認識装置１１００Ｂは、それぞれが図１Ａの抽出部１１０１に対応する複数の抽出部１１０１、それぞれが図１Ａの照合部１１０２に対応する複数の照合部１１０２、それぞれが図１Ａの投票部１１０３に対応する複数の投票部１１０３、クラスタリング部１１０４、判定部１１０５、受付部１１０７、及び出力部１１０８を備える。抽出部１１０１は、並列に動作することができる。照合部１１０２は、並列に動作することができる。投票部１１０３は、並列に動作することができる。

抽出部１１０１のうちの１つが、クエリ画像を受信し、クエリ画像から局所特徴量を抽出し、局所特徴量を照合部１１０２のそれぞれへ送信する。他の抽出部のそれぞれが、複数のモデル画像のうち一つのモデル画像を受信し、受信したモデル画像から局所特徴量を抽出し、抽出された局所特徴量を照合部１１０２のうちの１つへ送信する。

照合部１１０２のそれぞれは、クエリ画像から抽出された局所特徴量と複数のモデル画像のうちの一つから抽出された局所特徴量とを受信し、特徴量のマッチングを行って（すなわち、クエリ画像から抽出された局所特徴量と複数のモデル画像のうちの一つから抽出された局所特徴量とを比較して）特徴対応を生成し、生成された局所対応を、投票部１１０３のうちの一つへ送信する。

投票部１１０３のそれぞれは、照合部１１０２のうちの一つから特徴対応を受信し、ハフ投票を計算する。投票部１１０３のそれぞれは、結果をクラスタリング部１１０４へ送信する。

＜第２関連例＞
図２は、Ｇｏｒｄｏｎ他の技術を使用する３次元物体認識の関連技術の他の実施態様（すなわち第２関連例）である、物体認識装置１２００の構造の例を示すブロック図である。図２を参照すると、物体認識装置１２００は、抽出部１１０１、再構成部１２０１、照合部１２０２、検証部１２０３、判定部１１０５、受付部１１０７、及び出力部１１０８を備える。物体認識装置１２００は、さらに、モデル画像記憶部１１０６及びモデル記憶部１１１０を備えていてもよい。図１Ａに示される部へ割り当てられた符号が割り当てられた部のそれぞれは、以下に説明する相違点を除き、その符号が割り当てられている部と同様である。

抽出部１１０１は、モデル画像から抽出された局所特徴量を再構成部１２０１へ送信する。

再構成部１２０１は、モデル画像から抽出された局所特徴量を受信し、モデル画像の物体の３次元再構成を行って物体の３次元モデルを生成し、再構成された３次元モデルを照合部１２０２へ送信する。モデル画像に示される物体の３次元モデルを再構成する３次元再構成技術の例として、ｓｔｒｕｃｔｕｒｅ−ｆｒｏｍ−ｍｏｔｉｏｎ（ＳｆＭ）が広く使用されている。結果として得られる物体の３次元モデルは、モデル画像の２次元点から再構成された３次元点の組と、モデル画像の２次元点の位置において抽出された、局所記述子、スケール及び方向を含む局所特徴量とを含む。

照合部１２０２は、クエリ画像から抽出された局所特徴量と、モデル画像から再構成された３次元モデルとを受信する。上述したように、３次元モデルは、モデル画像の２次元点から再構成された３次元点の組と、モデル画像の２次元点の位置において抽出された、局所記述子、スケール及び方向を含む局所特徴量とを含む。照合部１２０２は、特徴量の照合を行って特徴対応を生成する。それぞれの特徴対応は、例えば、クエリ画像の局所特徴量の識別子と、局所特徴量の類似度の大きさに基づいてマッチした３次元モデルの局所特徴量の識別子とを含む。照合部１２０２は、類似度の大きさとして、局所特徴量に含まれる局所記述子のベクトル距離を計算してもよい。照合部１２０２は、生成された特徴対応を検証部１２０３へ送信する。

検証部１２０３は、特徴対応を受信する。検証部１２０３は、幾何学的検証を行って、正しい特徴対応の部分集合、すなわち、幾何学モデルにおいて整合性のある特徴対応の部分集合を抽出する。検証部１２０３は、幾何学モデルとして、３次元点と２次元点の間の幾何学的な関係形状を示す投影モデルを使用してもよく、それはＧｏｒｄｏｎ他によって開示されている。正しい特徴対応の部分集合を抽出するために、検証部１２０３は、投影モデルに加えてＲＡＮＳＡＣの技術を使用してもよい。検証部１２０３は、抽出された特徴対応の部分集合を、判定部１１０５へ送信する。

物体認識装置１２００は、校正の問題の影響を受けることなく動作するが、ＲＡＮＳＡＣに必要な反復回数は、特徴対応の総数に対する正常値（すなわｃｈ、正しい特徴対応）の個数の比率に反比例するので、時間がかかる。物体がＳｆＭモデルによって表される場合、上述の比率は、通常は非常に小い。

＜第１の実施形態＞
次に、図面を参照して本発明に係る第１の実施形態を説明する。

図３Ａは本発明の第１の実施形態に係る物体認識装置の構造の第１の例を示すブロック図である。図３Ａを参照すると、物体認識装置１００Ａは抽出部１０１、照合部１０２、関係算出部１０６、投票部１０３、クラスタリング部１０４、判定部１０５、受付部１０７、及び出力部１０８を含む。

図３Ｂは本発明の第１の実施形態に係る物体認識装置の構造の第２の例を示すブロック図である。図３Ｂの物体認識装置１００Ｂは、物体認識装置１００Ａに含まれる上記の部に加え、モデル画像記憶部１０９、モデル記憶部１１０及び関係記憶部１１１を含む。物体認識装置１００Ｂでは、受付部１０７は、モデル画像をモデル画像記憶部１０９に格納する。モデル画像記憶部１０９は、受付部１０７によって受信され、格納されたモデル画像を記憶する。モデル記憶部１１０は、抽出部１０１によってモデル画像から抽出された局所特徴量を記憶する。関係算出部１０６は、算出された相対的なカメラ姿勢を、関係記憶部１１１に格納する。関係記憶部１１１は、関係算出部１０６によって算出され、格納された相対的なカメラ姿勢を記憶する。

図３Ｃは、本発明の第１の実施形態に係る物体認識装置の構造の第３の例を示すブロック図である。図３Ｃの物体認識装置１００Ｃは、図３Ａ及び図３Ｂの抽出部１０１にそれぞれ対応する複数の抽出部１０１、及び、図３Ａ及び図３Ｂの照合部１０２にそれぞれ対応する複数の照合部１０２を含む。物体認識装置１００Ｃでは、抽出部１０１の一つがクエリ画像を受信し、クエリ画像から局所特徴量を抽出する。他の抽出部１０１のそれぞれが、複数のモデル画像のうち一つのモデル画像を受信し、受信したモデル画像から局所特徴量を抽出する。抽出部１０１のそれぞれは、並列に動作することができる。照合部１０２のそれぞれは、クエリ画像から抽出された局所特徴量と、複数のモデル画像のうち一つのモデル画像から抽出された局所特徴量とを受信する。照合部のそれぞれは、クエリ画像から抽出された、受信した局所特徴量と、モデル画像から抽出された、受信した局所特徴量とを照合する。照合部１０２のそれぞれは、並列に動作することができる。

物体認識装置１００Ａ、物体認識装置１００Ｂ及び物体認識装置１００Ｃは、上述の相違点を除き、同じである。主に図３Ｂの本実施形態の物体認識装置１００Ｂを詳細に説明する。以下の説明では、物体認識装置１００Ｂの、物体認識装置１１００のものと同じ機能及び同じ動作についての詳細な説明は省略する。

受付部１０７は、クエリ画像を受信し、クエリ画像を抽出部１０１へ送信する。受付部１０７は、モデル画像を受信し、モデル画像をモデル画像記憶部１０９に格納する。受付部１０７は、モデル画像を抽出部１０１へ送信してもよい。受付部１０７は、また、モデル画像を関係算出部１０６へ送信してもよい。クエリ画像及びモデル画像は、第１及び第２の関連例のものと同じである。

モデル画像記憶部１０９は、モデル画像を記憶する。モデル画像記憶部１０９は、第１の関連例に係るモデル画像記憶部１１０６と同様に動作する。

抽出部１０１は、クエリ画像を受信し、クエリ画像から局所特徴量を抽出する。抽出部１０１は、クエリ画像から抽出された局所特徴量を、照合部１０２へ送信する。抽出部１０１は、また、モデル画像を受信し、モデル画像のそれぞれから局所特徴量を抽出する。抽出部１０１は、モデル画像記憶部１０９からモデル画像を読み出してもよい。抽出部１０１は、モデル画像から抽出された局所特徴量を、照合部１０２へ送信する。抽出部１０１は、モデル画像から抽出された局所特徴量を、モデル記憶部１１０に格納する。抽出部１０１は、第１の関連例に係る抽出部１１０１と同様に動作する。

モデル記憶部１１０は、モデル画像から抽出された局所特徴量を記憶する。モデル記憶部１１０は、第１の関連例に係るモデル記憶部１１１０と同様に動作する。

照合部１０２は、クエリ画像から抽出された局所特徴量と、モデル画像のそれぞれから抽出された局所特徴量とを受信する。照合部１０２は、モデル画像から抽出された局所特徴量を読み出してもよい。照合部１０２は、クエリ画像から抽出された局所特徴量と、モデル画像のそれぞれから抽出された局所特徴量とを照合し、クエリ画像と複数のモデル画像のうちの一つとの組のそれぞれに対して、特徴対応を生成する。照合部１０２は、特徴対応を投票部１０３へ送信する。照合部１０２は、第１の関連例に係る照合部１１０２と同様に動作する。

関係算出部１０６は、モデル画像を受信する。関係算出部１０６は、モデル画像の相対的なカメラ姿勢を計算する。関係算出部１０６は、算出された相対的なカメラ姿勢を、関係記憶部１１０に格納してもよい。関係算出部１０６は、投票部１０３と直接接続されていてもよく、算出された相対的なカメラ姿勢を、投票部１０３へ送信してもよい。

相対的なカメラ姿勢には、平面射影変換（ホモグラフィ）、アフィン変換若しくは類似関係（ｓｉｍｉｌａｒｉｔｙｒｅｌａｔｉｏｎ）によってモデル化された変換、又は、エピポーラ幾何に基づくカメラ姿勢などの、モデル画像内の相対的な幾何学的関係が含まれる。相対的な幾何学的関係は、モデル画像の相対的な幾何学的変換のそれぞれによって表されていてもよい。相対的な幾何学的変換において、複数のモデル画像のうち一つのモデル画像に対する相対的な幾何学的変換が、モデル画像の各画素の座標を参照画像の画素の座標へ変換する変換であってもよい。

関係算出部１０６は、モデル画像から参照画像を選択してもよい。相対的なカメラ姿勢を算出するために、関係算出部１０６は、参照画像として、複数のモデル画像から一つの画像を選択してもよく、続いて、参照画像以外の複数のモデル画像のうちの一つを参照画像へそれぞれ変換する、相対的な幾何学的変換のそれぞれを、最小二乗法又はＲＡＮＳＡＣ法を使って計算してもよい。

関係算出部１０６は、ｓｔｒｕｃｔｕｒｅ−ｆｒｏｍ−ｍｏｔｉｏｎを行うことによって、相対的なカメラ姿勢を計算してもよい。関係算出部１０６は、座標系をモデル画像の画像座標系へそれぞれ変換する変換を計算してもよく、算出された変換を使って相対的なカメラ姿勢を計算してもよい。

関係算出部１０６は、相対的なカメラ姿勢として、モデル画像のそれぞれを撮影した時刻における、局所特徴量に含まれる、カメラの位置、回転及びスケールを使用してもよい。

画像の画素の座標が、射影幾何学の分野におけるような３次元ベクトルで表される場合、相対的なカメラ姿勢のそれぞれは、３ｘ３行列によって表される。関係算出部１０６は、参照画像以外のモデル画像のそれぞれに対して、相対的なカメラ姿勢を表す行列を計算してもよい。参照画像に対する相対的なカメラ姿勢は、単位行列によって表される。

関係算出部１０６は、相対的なカメラ姿勢を、関係記憶部１１１に格納してもよい。この場合、投票部１０３は、相対的なカメラ姿勢を、関係記憶部１１１から読み出せばよい。

関係記憶部１１１は、関係算出部１０６によって格納された、相対的なカメラ姿勢を記憶する。

投票部１０３は、特徴対応及び相対的なカメラ姿勢を、照合部１０２から受信する。投票部１０３は、相対的なカメラ姿勢の下で投票空間において整合性のある、特徴対応の部分集合を抽出する。投票部１０３は、抽出された、特徴対応の部分集合を、クラスタリング部１０４へ送信する。投票部１０３の目的は、異なる画像からのハフ投票が幾何学的に校正されるように、モデル画像の間の幾何学的関係を考慮に入れることによる、幾何学的な検証の機能をさらに果たす、ハフ投票を行うことである。

図４は、本実施形態に係る投票部１０３の構成の例を示すブロック図である。
図４を参照すると、投票部１０３は、投票算出部１０３１及び投票校正部１０３２を含む。投票部１０３の詳細の説明を以下に記す。

投票部１０３の投票算出部１０３１は、特徴対応を受信する。投票算出部１０３１は、局所特徴量のスケール、方向及び座標を使って、特徴対応のそれぞれに対して、相対的な投票を計算する。投票算出部１０３１は、２つの画像（すなわちクエリ画像と複数のモデル画像のうち一つと）の間のスケーリング変化（ｓ_１２）、回転（ｑ_１２）並びに平行移動（ｘ_１２及びｙ_１２）を使って相対的な投票を、以下の式に従って計算してもよい。

ここで、ｓ_１及びｓ_２は、２つの画像の局所特徴量のスケールであり、ｑ_１及び_ｑ２は、２つの画像の局所特徴量の方向であり、［ｘ_１，ｙ_１］及び［ｘ_２，ｙ_２］は、２つの画像の局所特徴量の２次元座標である。Ｒ（ｑ_１２）は、ｑ_１２に対する回転行列である。Ｃは、平行移動をオフセットするために前もって定められた定数ベクトルである。投票算出部１０３１は、特徴対応のそれぞれに対して、４つの要素（ｓ_１２、ｑ_１２、ｘ_１２及びｙ_１２）を含む相対的な投票を計算する。投票算出部１０３１は、相対的な投票及び相対的なカメラ姿勢を、投票校正部１０３２へ送信する。

投票部１０３の投票校正部１０３２は、特徴対応の相対的な投票と、モデル画像の相対的なカメラ姿勢とを受信する。投票校正部１０３２は、モデル画像の間の幾何学的関係を取り入れることによって、特徴対応のそれぞれに対する校正済み投票を計算し、校正済み投票をクラスタリング部１０４へ送信する。投票校正部１０３２は、モデル画像のそれぞれに対して、以下のステップに従って校正投票を計算してもよい。

ステップ０：複数のモデル画像から一つのモデル画像を選択する。

ステップ１：選択したモデル画像の相対的な投票の中から一つの相対的な投票を選択し、計算の便宜のため、選択した相対的な投票を類似度変換行列へ変換する。類似度変換行列Ｓは、以下の式によって表される。

ここで、スケーリング変化（ｓ_１２）、回転（ｑ_１２）及び平行移動（ｘ_１２及びｙ_１２）は、投票算出部１０３１によって計算される。

ステップ２：選択したモデル画像の選択した相対的な投票に対する校正済み投票を表す行列Ｈを、以下の式に従って行列の積によって計算する。

ここで、モデル画像の相対的なカメラ姿勢は、Ｐと表記される。校正済み投票は、相対的なカメラ姿勢のばらつきによる影響を、相対的な投票から除外することによって生成される。

ステップ３：校正済み投票が、選択されたモデル画像の相対的な投票のそれぞれに対して算出されるまで、ステップ１からステップ２の処理を反復する。

ステップ４：モデル画像のそれぞれが選択されるまで、ステップ０からステップ３の処理を反復する。

ステップ５：ステップ０からステップ４の処理において算出された校正済み投票を、クラスタリング部１０４へ送信する。

投票校正部１０３２は、また、さらに、校正済み投票を、等価な表現へ変換してもよい。例えば、投票校正部１０３２は、校正済み投票のそれぞれを、［Ｒ｜ｔ］の形式に変換してもよい。ここで、Ｒは３ｘ３の回転行列であり、ｔは平行移動を表す３ｘ１のベクトルであり、［Ｒ｜ｔ］は３ｘ４の行列である。投票校正部１０３２は、９つの要素を含む回転行列を、４つの要素を含む四元数形式へ変換してもよい。さらに、投票校正部１０３２は、校正済み投票（又は、等価な四元数表現）の中の１つ以上の要素を、既定のルールに従って単に除くことによって、校正済み投票を変換してもよい。例えば、元の校正済み投票が１２個の要素を含む場合、投票校正部１０３２は、元の校正済み投票の要素の部分集合のみを使うことによって、クラスタリング部１０４によるクラスタリングのための校正済み投票を生成してもよい。

クラスタリング部１０４は、投票部１０３から校正済み投票を受信する。クラスタリング部１０４は、受信した校正済み投票に対してクラスタリングを行い、校正済み投票のグループ（すなわちクラスタ）を、グループのそれぞれに含まれる校正済み投票が互いに類似するように生成する。校正済み投票のそれぞれは、上述の相対的な投票と同様に４つの要素を持ち、４つの要素を持つベクトルによって表されていてもよい。校正済み投票を表す行列は、上述の相対的な投票と同様に、４つの要素を持つベクトルの形式であってもよい。この場合、２つの校正済み投票の類似度は、２つの校正済み投票を表すベクトルの間のベクトル距離であってもよい。２つの校正済み投票の類似度は、同じベクトル（例えば、［１，０，０］^Ｔ）を２つの校正済み投票を表す行列によって変換することにより生成された、ベクトルの間の距離であってもよい。

クラスタリング部１０４は、一定の条件を満たすクラスタ、すなわち、例えば所定の閾値を超える個数の要素（すなわち校正済み投票）をそれぞれ含むクラスタ、に属する校正済み投票の部分集合を、校正済み投票から抽出してもよい。クラスタリング部１０４は抽出された校正済み投票（すなわち、校正済み投票の部分集合）を判定部１０５へ送信する。

判定部１０５は、抽出された校正済み投票（すなわち、校正済み投票の部分集合）を受信する。判定部１０５は、モデル画像により表される物体がクエリ画像内に存在するかどうかを、部分集合内の校正済み投票の個数に基づいて判定してもよい。判定部１０５は、認識結果として、判定結果を出力する。判定部１０５は、抽出された校正済み投票に関連する特徴対応から導出された、物体位置、回転、及びスケーリング変化を含む物体姿勢を出力してもよい。判定部１０５は、モデル画像の物体がクエリ画像内に存在するかを判定するために校正済み投票の絶対数を使用してもよい。代わりに、判定部１０５は、ある正規化因子（例えば、投票部１０３によって算出された校正済み投票の総数）に対する校正済み投票の絶対数の比率を計算することによる、正規化スコアを使用してもよい。判定部１０５は、認識結果として、物体がクエリ画像内に存在するか否かを示す、２値の結果を出力してもよい。判定部１０５は、認識結果の信頼度を示す確率を計算して出力してもよい。

出力部１０８は、物体認識装置１００Ｂからの認識の結果を出力する。出力部１０８は、認識の結果を表示装置（図示せず）へ送信してもよい。表示装置は、認識の結果を表示してもよい。出力部１０８は、認識の結果を、物体認識装置１００Ｂの操作者により使われている端末装置（図示せず）へ送信してもよい。

図５は、本実施形態の投票部１０３の変形例である、投票部１０３Ａの構成の例を示すブロック図である。投票部１０３Ａは、投票算出部１０３１、第２クラスタリング部１０３３、及び投票校正部１０３２を含む。第２クラスタリング部１０３３は、投票算出部１０３１と投票校正部１０３２との間に接続されている。第２クラスタリング部１０３３は、投票算出部１０３１によって算出された、相対的な投票に対してクラスタリングを行って、相対的な投票のクラスタを生成する。第２クラスタリング部１０３３は、誤った特徴対応を含むクラスタが選択されないようにあらかじめ実験的に定められた閾値以上の個数の相対的な投票を含むクラスタを、生成されたクラスタの中から選択する。換言すれば、第２クラスタリング部１０３３は外れ値クラスタ（すなわち、閾値より少ない個数の相対的な投票を含むクラスタ）を特定し、投票算出部１０３１によって算出された相対的な投票から、外れ値（すなわち、外れ値クラスタに含まれる相対的な投票のそれぞれ）を取り除く。第２クラスタリング部１０３３は、相対的な投票の部分集合（すなわち、選択したクラスタに含まれる相対的な投票）を、投票校正部１０３２へ送信する。投票校正部１０３２は、第２クラスタリング部１０３３から相対的な投票を受信し、図４の投票校正部１０３２と同じように動作する。図５に示される構成によれば、正しくない特徴対応が効果的に取り除かれる。

第２クラスタリング部１０３３は、相対的な投票に対してクラスタリングを行うことによって誤った特徴対応を取り除くことができるように、モデル画像のそれぞれに対する視点の制約を利用するのに使用される。これにより、精度と速度が同時に改善される。

図６は、物体認識装置１００Ｂの動作の例を示すフローチャートである。図６に示される動作の前に、受付部１０７は、モデル画像を受信する。図６に示される動作は、受付部１０７がクエリ画像を受信すると開始される。

抽出部１０１は、クエリ画像から局所特徴量を抽出する（ステップＳ１０１）。局所特徴量は、予めモデル画像から抽出されていてもよい。抽出部１０１は、ステップＳ１０１において、モデル画像から局所特徴量を抽出してもよい。照合部１０２は、例えば一致した局所特徴量に含まれる局所記述子の間のベクトル距離を比較することによって、クエリ画像から抽出された局所特徴量とモデル画像のそれぞれから抽出された局所特徴量を照合する（ステップＳ１０２）。投票部１０３（より詳細には、投票部１０３の投票算出部１０３１）は、特徴対応に基づく相対的な投票を計算する（ステップＳ１０３）。投票部１０３（より詳細には、投票部１０３の投票校正部１０３２）は、相対的な投票と相対的なカメラ姿勢とを使って、校正済み投票を計算する（ステップＳ１０４）。クラスタリング部１０４は、校正済み投票に対してクラスタリングを行って画像内における物体の想定される位置を検出する（ステップＳ１０５）。判定部１０５は、クエリ画像がモデル画像により表される物体の像を含むかどうかを、クラスタリング結果に基づいて判定する（ステップＳ１０６）。その後、出力部１０８は判定部１０５による判定の結果を出力する。

本実施形態では、投票部１０３（より詳細には投票校正部１０３２）は、相対的な投票を校正し（すなわち、校正済み投票を計算し）、その結果、正しい特徴対応が、パラメトリック空間において単一のクラスタを形成する。したがって、本実施形態によれば、物体認識の精度が改善される。

＜第２の実施形態＞
次に、本発明の第２実施形態に係る物体認識装置を、図面を参照して説明する。

図７Ａは、本発明の第２の実施形態に係る物体認識装置の構造の第１の例を示すブロック図である。図７Ａを参照すると、物体認識装置２００Ａは、抽出部１０１、再構成部２０１、照合部２０２、関係算出部１０６、投票部２０３、クラスタリング部１０４、判定部１０５、受付部１０７、及び出力部１０８を含む。

図７Ａの抽出部１０１は、モデル画像を再構成部２０１へ送信する。

図７Ｂは、本発明の第２の実施形態に係る物体認識装置の構造の第２の例を示すブロック図である。図７Ｂの物体認識装置２００Ｂは、さらに、モデル画像記憶部１０９、モデル記憶部１１０及び関係記憶部１１１を含む。図７Ｂのモデル画像記憶部１０９、モデル記憶部１１０、及び関係記憶部１１１は、図３Ｂのものと同じである。

物体認識装置２００Ｂの受付部１０７は、モデル画像を、モデル画像記憶部１０９に格納する。物体認識装置２００Ｂの抽出部１０１は、モデル画像記憶部１０９から、モデル画像を読み出す。物体認識装置２００Ｂの抽出部１０１は、モデル画像から抽出された局所特徴量を、モデル記憶部１１０に格納する。物体認識装置２００Ｂの関係算出部１０６は、モデル画像記憶部１０９から、モデル画像を読み出す。物体認識装置２００Ｂの関係算出部１０６は、相対的なカメラ姿勢を関係記憶部１１１に格納する。

図７Ｃは、本発明の第２の実施形態に係る物体認識装置の構造の第３の例を示すブロック図である。図７Ｃの物体認識装置２００Ｃは、複数の抽出部１０１を含む。受付部１０７は、クエリ画像を、複数の抽出部１０１のうちの１つへ送信する。受付部１０７は、モデル画像のそれぞれを、他の抽出部１０１のうちの１つへ送信する。物体認識装置２００Ｃの抽出部１０１は、並列に動作することができる。

物体認識装置２００Ａ、物体認識装置２００Ｂ及び物体認識装置２００Ｃは、上記の相違点を除き、同じである。以下では、主に物体認識装置２００Ｂを説明する。

抽出部１０１、クラスタリング部１０４、判定部１０５、関係算出部１０６、及び出力部１０８は、以下の相違点を除き、本発明の第１実施形態に係る物体認識装置のものと同じである。以下では、上述の部の詳細な説明は省略する。

再構成部２０１は、モデル画像から抽出された、局所特徴量を受信する。再構成部２０１は、モデル記憶部１１０から、局所特徴量を読み出してもよい。再構成部２０１は、モデル画像の物体の３次元再構成を行って物体の３次元モデルを生成し、再構成された３次元モデルを、照合部２０２へ送信する。再構成部２０１は、上述の第２の関連例の再構成部１２０１と同様に動作する。第２の関連例の再構成部１２０１と同様に、再構成部２０１はモデル画像の２次元点から再構成された３次元点の組と、モデル画像の２次元点の位置において抽出された、局所記述子、スケール及び方向を含む局所特徴量とを含む３次元モデルを生成する。

照合部２０２は、クエリ画像から抽出された局所特徴量と、モデル画像から再構成された３次元モデルとを受信する。上述したように、３次元モデルは、モデル画像の２次元点から再構成された３次元点の組と、局所記述子、スケール及び方向を含む局所特徴量とを含む。本実施形態に係る照合部２０２は、第２の関連例の照合部１２０２と同様に動作する。照合部２０２は、生成された特徴対応を、投票部２０３へ送信する。

投票部２０３は、特徴対応を、照合部２０２から受信する。投票部２０３は、相対的なカメラ姿勢を、関係算出部１０６から受信する。投票部２０３は、物体の平行移動と、回転と、スケーリング変化との組のそれぞれに対して、相対的な投票を生成する。投票部２０３は、相対的なカメラ姿勢を使って、相対的な投票を校正する。投票部２０３は、校正済み投票を、クラスタリング部１０４へ送信する。

図８は、本実施形態に係る投票部２０３の構成の例を示すブロック図である。図８を参照すると、共通投票部２０３は、投票算出部２０３１及び投票校正部２０３２を含む。

投票算出部２０３１は、特徴対応を、照合部２０２から受信する。投票算出部２０３１は、クエリ画像から抽出された局所特徴量とモデル画像から抽出された局所特徴量とを使うことによって、平行移動と、スケール変化と、回転との組のそれぞれに対して、相対的な投票を計算する。投票算出部２０３１は、数１、数２、及び数３に従って、平行移動、スケール変更、及び回転を計算する。上述のように、再構成された３次元モデルは、３次元点を含む。３次元モデルの複数の３次元点のうち一つの３次元点に対して、局所特徴量は、モデル画像の２つ以上から抽出されてもよい。

３次元点に対する局所特徴量がモデル画像の２つ以上から抽出されている場合、投票算出部２０３１は、その３次元点に対する局所特徴量として、その３次元点に対して局所特徴量が抽出されたモデル画像の一つから抽出された局所特徴量を選択してもよい。局所特徴量を選択する方法は、限定されない。投票算出部２０３１は、３次元点に対する局所特徴量として、複数のモデル画像から抽出されたその３次元点に対する局所特徴量を使用して、局所特徴量を作成してもよい。作成される局所特徴量は、複数のモデル画像から、３次元点に対して抽出された、局所特徴量の平均値であってもよい。作成される局所特徴量は、複数のモデル画像から当該３次元点に対して抽出された局所特徴量の、正規化された結合値であってもよい。

投票校正部２０３２は、第１実施形態に係る投票校正部１０３２と同様に動作する。

図９は、本実施形態に係る投票部の代替構成の例を示すブロック図である。図９の投票部２０３Ａは、図８の投票部２０３の変形の例である。図９の投票部２０３Ａは、投票算出部２０３１、第２クラスタリング部２０３３、及び投票校正部２０３２を含む。第２クラスタリング部２０３３は、投票算出部２０３１と投票校正部２０３２との間に接続されている。第２クラスタリング部２０３３は、投票算出部２０３１によって算出された相対的な投票に対してクラスタリングを行って、相対的な投票のクラスタを生成し、誤った特徴対応を含むクラスタが選択されないように予め実験的に定められた閾値よりも多い個数の相対的な投票を含むクラスタを、生成されたクラスタの中から選択する。第２クラスタリング部２０３３は、相対的な投票の部分集合（すなわち、選択したクラスタに含まれる相対的な投票）を、投票校正部２０３２へ送信する。投票校正部２０３２は、相対的な投票を、第２クラスタリング部２０３３から受信し、第１実施形態に係る投票校正部１０３２と同様に動作する。図９に示される構成によれば、誤っている特徴対応が効果的に取り除かれる。

第２クラスタリング部２０３３は、相対的な投票に対してクラスタリングを行うことで正しくない特徴対応を取り除くことができるように、モデル画像のそれぞれに対する視点の制約を利用するのに使用される。これにより、精度と速度が同時に改善される。

クラスタリング部１０４、判定部１０５、及び出力部１０８は、それぞれ、第１実施形態に係るクラスタリング部１０４、判定部１０５、及び出力部１０８と同様に動作する。クラスタリング部１０４、判定部１０５、及び出力部１０８の詳細な説明は省略する。

図１０は、本発明の第２実施形態に係る物体認識装置２００Ｂの動作を示すフローチャートである。図１０に示される動作の前に、受付部１０７は、モデル画像を受信する。図１０に示される動作は、受付部１０７がクエリ画像を受信すると開始される。

図１０によると、抽出部１０１は、クエリ画像から局所特徴量を抽出する（ステップＳ１０１）。局所特徴量は、予めモデル画像から抽出されていてもよい。抽出部１０１は、ステップＳ１０１において、モデル画像から局所特徴量を抽出してもよい。再構成部２０１は、モデル画像から抽出された局所特徴量に基づいて、３次元モデルを再構成する（ステップＳ２０１）。再構成部２０１は、予め３次元モデルを抽出していてもよい。この場合、再構成部２０１は、図１０のステップＳ２０１を実行しない。照合部２０２は、クエリ画像から抽出された局所特徴量と、複数のモデル画像のうち一つのモデル画像から抽出された局所特徴量とを照合する（すなわち、マッチングを行う）（ステップＳ１０２）。複数のモデル画像のうちのそのモデル画像から抽出された局所特徴量は、３次元モデルに含まれる。照合部２０２は、モデル画像のそれぞれの局所特徴量が、クエリ画像から抽出された局所特徴量と照合されるまで、照合を繰り返す。投票部２０３（より詳細には、投票部２０３の投票算出部２０３１）は、照合の結果である特徴対応に基づく、相対的な投票を計算する（ステップＳ１０３）。投票部２０３（より詳細には、投票部２０３の投票校正部２０３２）は、相対的な投票を校正して校正済み投票を生成する（すなわち、相対的な投票に基づく校正済み投票を計算する）（ステップＳ１０４）。クラスタリング部１０４は、校正済み投票に対してクラスタリングを行う（ステップＳ１０５）。判定部１０５は、クエリ画像が、モデル画像により表される物体の像を含むか否かを、クラスタリングの結果に基づいて判定する（ステップＳ１０６）。その後、出力部１０８は判定部１０５による判定の結果を出力する。

本実施形態では、投票部２０３（より詳細には投票校正部２０３２）は、相対的な投票を校正し（すなわち、校正済み投票を計算し）、その結果、正しい特徴対応が、パラメトリック空間において単一のクラスタを形成する。したがって、本実施形態によれば、物体認識の精度が改善される。投票部２０３は、２Ｄ−３ＤＲＡＮＳＡＣに基づく方法による処理と比較して、はるかに高速に動作する。これは投票部２０３が使う非反復の一般の投票方法が、２Ｄ−３ＤＲＡＮＳＡＣに基づく方法と比較して、はるかに高速に動作するからである。本実施形態によれば、クエリ画像からの２次元点と、３次元モデルからの３次元点との間の特徴対応の結果を使って、カメラ姿勢を復元することが可能である。これは、再構成部２０１が、３次元モデルを再構成し、照合部２０２が、クエリ画像から抽出された局所特徴量とモデル画像から抽出された局所特徴量との照合を行うからである。

＜第３実施形態＞
次に、本発明の第３実施形態を詳細に説明する。

図１１は、本発明の第３実施形態に係る物体認識装置の構造の例を示すブロック図である。図１１によれば、本発明の物体認識装置３００は、抽出部１０１、照合部１０２、投票部１０３、クラスタリング部１０４、判定部１０５、及び関係算出部１０６を含む。

抽出部１０１は、画像（すなわち、上記のクエリ画像）から特徴量（すなわち、上記の局所特徴量）である第１特徴量を抽出する。照合部１０２は、画像から抽出された特徴量を、物体を表す画像であるモデル画像から抽出された特徴量（それぞれ、上述の局所特徴量に対応する）である第２特徴量と照合する。関係算出部１０６は、モデル画像に基づいて、モデル画像の間の幾何学的関係を表す相対的なカメラ姿勢を計算する。投票部１０３は、照合の結果と相対的なカメラ姿勢とに基づいて、校正済み投票を計算する。校正済み投票は、それぞれ、第１特徴量と複数の第２特徴量のうち一つの第２特徴量との間の、校正された幾何学的関係を表す。校正された幾何学的関係とは、相対的なカメラ姿勢による影響が除かれた幾何学的関係である。クラスタリング部１０４は、校正済み投票に対してクラスタリングを行う。判定部１０５は、画像が物体を表しているかどうかを、クラスタリング結果に基づいて判定する。

本実施形態は、第１実施形態と同じ効果を有する。本実施形態の効果の理由は、第１実施形態と同じである。

＜他の実施形態＞
本発明の実施形態に係る物体認識装置のそれぞれは、専用ハードウェア（例えば、１つの回路又は複数の回路）などの電気回路、プロセッサ及びメモリを備えるコンピュータ、又は、専用ハードウェアとコンピュータとの組み合わせにより実現できる。

図１２は、本発明の実施形態に係る物体認識装置のそれぞれとして動作できるコンピュータの構造の例を示すブロック図である。

図１２によれば、図１２のコンピュータ１０００は、プロセッサ１００１、メモリ１００２、記憶装置１００３、及び、Ｉ／Ｏ（Ｉｎｐｕｔ／Ｏｕｔｐｕｔ）インタフェース１００４を含む。コンピュータ１０００は、記憶媒体１００５をアクセスできる。メモリ１００２及び記憶装置１００３は、例えばＲＡＭ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）又はハードディスクドライブなどによって実現できる。記憶媒体１００５は、例えば、ＲＡＭ、ハードディスクドライブなどの記憶装置、ＲＯＭ（ＲｅａｄＯｎｌｙＭｅｍｏｒｙ）、又は、可搬記録媒体などであってもよい。記憶装置１００３が、記憶媒体１００５として機能してもよい。プロセッサ１００１は、メモリ１００２及び記憶装置１００３からデータ及びプログラムを読み出すことができ、メモリ１００２及び記憶装置１００３にデータ及びプログラムを書き込むことができる。プロセッサ１００１は、入力装置（図示せず）、クエリ画像及びモデル画像を供給する装置、及び、Ｉ／Ｏインタフェース１００４を介して判定結果を表示する装置にアクセスできる。プロセッサ１００１は、記憶媒体１００５へアクセスできる。記憶媒体１００５は、コンピュータ１０００を、本発明の実施形態のいずれか一つに係る物体認識装置として動作させるプログラムを記憶する。

プロセッサ１００１は、記憶媒体１００５に格納されたプログラムを、メモリ１００２にロードする。プロセッサ１００１は、メモリ１００２に格納されたプログラムを実行することによって、本発明の実施形態のいずれか一つに係る物体認識装置として動作する。

抽出部１０１、照合部１０２、投票部１０３、クラスタリング部１０４、判定部１０５、関係算出部１０６、受付部１０７、出力部１０８、再構成部２０１、照合部２０２、及び投票部２０３は、記憶媒体１００５から読み出され、メモリ１００２にロードされた上述のプログラムによって制御されているプロセッサ１００１によって実現できる。

モデル画像記憶部１０９、モデル記憶部１１０、及び関係記憶部１１１は、メモリ１００２、及び／又は、ハードディスクドライブなどの記憶装置１００３によって実現できる。

上述のように、抽出部１０１、照合部１０２、投票部１０３、クラスタリング部１０４、判定部１０５、関係算出部１０６、受付部１０７、出力部１０８、再構成部２０１、照合部２０２、投票部２０３、モデル画像記憶部１０９、モデル記憶部１１０、及び関係記憶部１１１の少なくとも１つは、専用ハードウェアによって実現できる。

本発明の実施形態のいずれかに含まれるいずれか１つ又は複数の部は、専用ハードウェア（例えば電気回路）として実装されていてもよい。本発明の実施形態のいずれかに含まれるいずれか１つ又は複数の部は、プログラムがロードされるメモリと、メモリにロードされたプログラムにより制御されるプロセッサとを含むコンピュータを使って実装されていてもよい。

図１３は、本発明の第１の実施形態に係る物体認識装置の構造の例を示すブロック図である。図１３によれば、物体認識装置１００Ｂは、抽出回路２１０１、照合回路２１０２、投票回路２１０３、クラスタリング回路２１０４、判定回路２１０５、関係算出回路２１０６、受付回路２１０７、出力回路２１０８、モデル画像記憶装置２１０９、モデル記憶装置２１１０、及び関係記憶装置２１１１を含むことによって実装される。

抽出回路２１０１、照合回路２１０２、投票回路２１０３、クラスタリング回路２１０４、判定回路２１０５、関係算出回路２１０６、受付回路２１０７、出力回路２１０８、モデル画像記憶装置２１０９、モデル記憶装置２１１０、及び関係記憶装置２１１１は、１つの回路又は複数の回路として実装されていてもよい。抽出回路２１０１、照合回路２１０２、投票回路２１０３、クラスタリング回路２１０４、判定回路２１０５、関係算出回路２１０６、受付回路２１０７、出力回路２１０８、モデル画像記憶装置２１０９、モデル記憶装置２１１０、及び関係記憶装置２１１１は、１つの装置又は複数の装置において実装されていればよい。

抽出回路２１０１は、抽出部１０１として動作する。照合回路２１０２は、照合部１０２として動作する。投票部２１０３は、投票部１０３として動作する。クラスタリング部２１０４は、クラスタリング部１０４として動作する。判定回路２１０５は、判定部１０５として動作する。関係算出回路２１０６は、関係算出部１０６として動作する。受付回路２１０７は、受付部１０７として動作する。出力回路２１０８は、出力部１０８として動作する。モデル画像記憶装置２１０９は、モデル画像記憶部１０９として動作する。モデル記憶装置２１１０は、モデル記憶部１１０として動作する。関係記憶装置２１１１は、関係記憶部１１１として動作する。モデル画像記憶装置２１０９、モデル記憶装置２１１０、及び関係記憶装置２１１１は、ハードディスク装置などの記憶装置を使って実装されていてもよい。モデル画像記憶装置２１０９、モデル記憶装置２１１０、及び関係記憶装置２１１１は、メモリ回路を使って実装されていてもよい。

図１４は、本発明の第２の実施形態に係る物体認識装置の構造の例を示すブロック図である。図１４によれば、物体認識装置２００Ｂは、抽出回路２１０１、再構成回路２２０１、照合回路２２０２、投票回路２２０３、クラスタリング回路２１０４、判定回路２１０５、関係算出回路２１０６、受付回路２１０７、出力回路２１０８、モデル画像記憶装置２１０９、モデル記憶装置２１１０、及び関係記憶装置２１１１を含むことにって実装されている。

抽出回路２１０１、再構成回路２２０１、照合回路２２０２、投票回路２２０３、クラスタリング回路２１０４、判定回路２１０５、関係算出回路２１０６、受付回路２１０７、出力回路２１０８、モデル画像記憶装置２１０９、モデル記憶装置２１１０、及び関係記憶装置２１１１は、１つの回路又は複数の回路として実装されていてもよい。抽出回路２１０１、再構成回路２２０１、照合回路２２０２、投票回路２２０３、クラスタリング回路２１０４、判定回路２１０５、関係算出回路２１０６、受付回路２１０７、出力回路２１０８、モデル画像記憶装置２１０９、モデル記憶装置２１１０、及び関係記憶装置２１１１は、１つの装置又は複数の装置において実装されていてもよい。

抽出回路２１０１は、抽出部１０１として動作する。再構成回路２２０１は、再構成部２０１として動作する。照合回路２２０２は、照合部２０２として動作する。投票回路２２０３は、投票部２０３として動作する。クラスタリング回路２１０４は、クラスタリング部１０４として動作する。判定回路２１０５は、判定部１０５として動作する。関係算出回路２１０６は、関係算出部１０６として動作する。受付回路２１０７は、受付部１０７として動作する。出力回路２１０８は、出力部１０８として動作する。モデル画像記憶装置２１０９は、モデル画像記憶部１０９として動作する。モデル記憶装置２１１０は、モデル記憶部１１０として動作する。関係記憶装置２１１１は、関係記憶部１１１として動作する。モデル画像記憶装置２１０９、モデル記憶装置２１１０、及び関係記憶装置２１１１は、ハードディスク装置などの記憶装置を使って実装されていてもよい。モデル画像記憶装置２１０９、モデル記憶装置２１１０、及び関係記憶装置２１１１は、メモリ回路を使って実装されていてもよい。

図１５は、本発明の第３の実施形態に係る物体認識装置の構造の例を示すブロック図である。図１５によれば、物体認識装置３００は、抽出回路２１０１、照合回路２１０２、投票回路２１０３、クラスタリング回路２１０４、判定回路２１０５、及び関係算出回路２１０６を含むことにより実装される。

抽出回路２１０１、照合回路２１０２、投票回路２１０３、クラスタリング回路２１０４、判定回路２１０５、及び関係算出回路２１０６は、１つの回路又は複数の回路として実装されていてもよい。抽出回路２１０１、照合回路２１０２、投票回路２１０３、クラスタリング回路２１０４、判定回路２１０５、及び関係算出回路２１０６は、１つの装置又は複数の装置において実装されていてもよい。

抽出回路２１０１は、抽出部１０１として動作する。照合回路２１０２は、照合部１０２として動作する。投票部２１０３は、投票部１０３として動作する。クラスタリング部２１０４は、クラスタリング部１０４として動作する。判定回路２１０５は、判定部１０５として動作する。関係算出回路２１０６は、関係算出部１０６として動作する。

本発明は特にその実施形態を参照して示され、説明されたが、本発明はそれらの実施形態に限定されるものではない。実施形態及び詳細には、請求項により規定される本発明の趣旨及び範囲から逸脱することなく、様々な変更がなされうるということを、当業者は理解するであろう。

１００Ａ物体認識装置
１００Ｂ物体認識装置
１００Ｃ物体認識装置
１０１抽出部
１０２照合部
１０３投票部
１０３Ａ投票部
１０４クラスタリング部
１０５判定部
１０６関係算出部
１０７受付部
１０８出力部
１０９モデル画像記憶部
１１０モデル記憶部
１１１関係記憶部
２００Ａ物体認識装置
２００Ｂ物体認識装置
２００Ｃ物体認識装置
２０１再構成部
２０２照合部
２０３投票部
２０３Ａ投票部
３００物体認識装置
１０００コンピュータ
１００１プロセッサ
１００２メモリ
１００３記憶装置
１００４Ｉ／Ｏインタフェース
１００５記憶媒体
１０３１投票算出部
１０３２投票校正部
１０３３第２クラスタリング部
１１００物体認識装置
１１０１抽出部
１１０２照合部
１１０３投票部
１１０４クラスタリング部
１１０５判定部
１１０６モデル画像記憶部
１１０７受付部
１１０８出力部
１１１０モデル記憶部
１２００物体認識装置
１２０１再構成部
１２０２照合部
１２０３投票部
２０３１投票算出回路
２０３２投票校正回路
２０３３第２クラスタリング回路
２１０１抽出回路
２１０２照合回路
２１０３投票回路
２１０４クラスタリング回路
２１０５判定回路
２１０６関係算出回路
２１０７受付回路
２１０８出力回路
２１０９モデル画像記憶装置
２１１０モデル記憶装置
２１１１関係記憶装置
２２０１再構成回路
２２０２照合回路
２２０３投票回路

Claims

画像から特徴量を抽出する抽出手段と、
前記画像から抽出された前記特徴量である第１特徴量を、物体を表す画像であるモデル画像から抽出された特徴量である複数の第２特徴量と照合する照合手段と、
前記モデル画像に基づいて、前記モデル画像の間の幾何学的関係を表す相対的なカメラ姿勢を計算する関係算出手段と、
前記照合の結果と前記相対的なカメラ姿勢とに基づいて、前記第１特徴量と前記複数の第２特徴量との間の、前記相対的なカメラ姿勢による影響が除かれた幾何学的関係である、校正された幾何学的関係を表す校正済み投票を計算する投票手段と、
前記校正済み投票に対してクラスタリングを行うクラスタリング手段と、
前記画像が前記物体を表しているか否かを、前記クラスタリングの結果に基づいて判定する判定手段と、
を備える物体認識装置。
前記モデル画像の中の、３次元座標が再構成される３次元点に関連する複数の点における、前記複数の第２特徴量を含む３次元モデルを、前記モデル画像に基づいて再構成する再構成手段をさらに備え、
前記照合手段は、前記第１特徴量を、前記３次元モデルの中の前記複数の第２特徴量と照合する、
請求項１に記載の物体認識装置。
前記投票手段は、前記第１特徴量と前記複数の第２特徴量の各々との間の幾何学的関係を表す相対的な投票を計算し、前記相対的な投票及び前記相対的なカメラ姿勢に基づいて前記校正済み投票を計算する、
請求項１又は２に記載の物体認識装置。
前記投票手段は、さらに、前記相対的な投票に対してクラスタリングを行って前記相対的な投票の外れ値を除外し、前記外れ値が除外された前記相対的な投票に基づいて前記校正済み投票を計算する、
請求項３に記載の物体認識装置。
画像から特徴量を抽出し、
前記画像から抽出された前記特徴量である第１特徴量を、物体を表す画像であるモデル画像から抽出された特徴量である複数の第２特徴量と照合し、
前記モデル画像に基づいて、前記モデル画像の間の幾何学的関係を表す相対的なカメラ姿勢を計算し、
前記照合の結果と前記相対的なカメラ姿勢とに基づいて、前記第１特徴量と前記複数の第２特徴量との間の、前記相対的なカメラ姿勢による影響が除かれた幾何学的関係である、校正された幾何学的関係を表す校正済み投票を計算し、
前記校正済み投票に対してクラスタリングを行い、
前記画像が前記物体を表しているか否かを、前記クラスタリングの結果に基づいて判定する、
物体認識方法。
前記モデル画像の中の、３次元座標が再構成される３次元点に関連する複数の点における、前記複数の第２特徴量を含む３次元モデルを、前記モデル画像に基づいて再構成し、
前記第１特徴量を、前記３次元モデルの中の前記複数の第２特徴量と照合する、
請求項５に記載の物体認識方法。
前記第１特徴量と前記複数の第２特徴量の各々との間の幾何学的関係を表す相対的な投票を計算し、前記相対的な投票及び前記相対的なカメラ姿勢に基づいて前記校正済み投票を計算する、
請求項５又は６に記載の物体認識方法。
コンピュータに、
画像から特徴量を抽出する抽出処理と、
前記画像から抽出された前記特徴量である第１特徴量を、物体を表す画像であるモデル画像から抽出された特徴量である複数の第２特徴量と照合する照合処理と、
前記モデル画像に基づいて、前記モデル画像の間の幾何学的関係を表す相対的なカメラ姿勢を計算する関係算出処理と、
前記照合の結果と前記相対的なカメラ姿勢とに基づいて、前記第１特徴量と前記複数の第２特徴量との間の、前記相対的なカメラ姿勢による影響が除かれた幾何学的関係である、校正された幾何学的関係を表す校正済み投票を計算する投票処理と、
前記校正済み投票に対してクラスタリングを行うクラスタリング処理と、
及び前記画像が前記物体を表しているか否かを、前記クラスタリングの結果に基づいて判定する判定処理と、
を実行させるプログラム。
コンピュータに、
前記モデル画像の中の、３次元座標が再構成される３次元点に関連する複数の点における、前記複数の第２特徴量を含む３次元モデルを、前記モデル画像に基づいて再構成する再構成処理を実行させ、
前記照合処理は、前記第１特徴量を、前記３次元モデルの中の前記複数の第２特徴量と照合する、
請求項８に記載のプログラム。
前記投票処理は、前記第１特徴量と前記複数の第２特徴量の各々との間の幾何学的関係を表す相対的な投票を計算し、前記相対的な投票及び前記相対的なカメラ姿勢に基づいて前記校正済み投票を計算する、
請求項８又は９に記載のプログラム。