JP6544482B2 - 物体認識装置、物体認識方法及び記憶媒体 - Google Patents

物体認識装置、物体認識方法及び記憶媒体 Download PDF

Info

Publication number
JP6544482B2
JP6544482B2 JP2018512345A JP2018512345A JP6544482B2 JP 6544482 B2 JP6544482 B2 JP 6544482B2 JP 2018512345 A JP2018512345 A JP 2018512345A JP 2018512345 A JP2018512345 A JP 2018512345A JP 6544482 B2 JP6544482 B2 JP 6544482B2
Authority
JP
Japan
Prior art keywords
unit
image
model
feature
relative
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2018512345A
Other languages
English (en)
Other versions
JP2018526753A (ja
Inventor
蕊寒 包
蕊寒 包
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Publication of JP2018526753A publication Critical patent/JP2018526753A/ja
Application granted granted Critical
Publication of JP6544482B2 publication Critical patent/JP6544482B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/74Image or video pattern matching; Proximity measures in feature spaces
    • G06V10/75Organisation of the matching processes, e.g. simultaneous or sequential comparisons of image or video features; Coarse-fine approaches, e.g. multi-scale approaches; using context analysis; Selection of dictionaries
    • G06V10/76Organisation of the matching processes, e.g. simultaneous or sequential comparisons of image or video features; Coarse-fine approaches, e.g. multi-scale approaches; using context analysis; Selection of dictionaries based on eigen-space representations, e.g. from pose or different illumination conditions; Shape manifolds

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Theoretical Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • Databases & Information Systems (AREA)
  • Artificial Intelligence (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)

Description

本発明は、画像中の物体を認識する技術に関する。
画像から物体を認識することは、コンピュータビジョンにおいて重要な課題である。
特許文献1は、クエリ画像中に表された物体を検出する物体認識方法を開示している。特許文献1の物体認識方法では、クエリ画像中に表された物体は、クエリ画像から抽出されたクエリ特徴ベクトルと、それぞれが物体に関連し、画像データベースに記憶された画像から抽出された参照ベクトルとを基に算出された、類似度スコアを使って検出される。
特許文献2は、3次元(3D)物体の入力画像の見え方を推定する物体認識装置を開示している。特許文献2は、データベースに記憶された画像から入力画像の類似領域として抽出された領域を使用して、入力画像から抽出された特徴点及び記憶された画像から抽出された特徴点のうちの対応する特徴点の局所特徴量に基づく投票の結果に基づいて、入力画像に類似する見え方画像を、認識結果として生成する。
国際出願公開第2011/021605号 特開2012−83855号公報
特許文献1に係る方法では、各物体に対して画像が1枚のみ画像データベースに記憶されている。したがって、クエリ画像が、そのクエリ画像のものと同じ物体の、画像データベースに記憶されている画像であるデータベース画像とは異なる方向から撮られている場合、特許文献1の技術により物体を正確に検出することは困難である。
見え方画像を生成する際、特許文献2に係る物体認識装置は、抽出された領域の物体が入力画像の物体に対応するかどうかに関わらず、入力画像に類似する領域を抽出する。例えば、物体認識装置は、外観画像の生成に使用される領域の一つとして、物体の領域を含む画像が撮られた方向とは異なる方向から見た、全く異なる見え方の、物体の領域を抽出することがある。特許文献2に係る物体認識装置は、入力画像の物体に対応する物体を特定しない。そのため、特許文献2の技術により物体を正確に検出することは困難である。
本発明の目的の一つは、物体認識の精度を改善する物体認識装置等を提供することである。
本発明の一態様に係る物体認識装置は、画像から特徴量を抽出する抽出手段と、前記画像から抽出された前記特徴量である第1特徴量を、物体を表す画像であるモデル画像から抽出された特徴量である複数の第2特徴量と照合する照合手段と、前記モデル画像に基づいて、前記モデル画像の間の幾何学的関係を表す相対的なカメラ姿勢を計算する関係算出手段と、前記照合の結果と前記相対的なカメラ姿勢とに基づいて、前記第1特徴量と前記複数の第2特徴量との間の、前記相対的なカメラ姿勢による影響が除かれた幾何学的関係である、校正された幾何学的関係を表す校正済み投票を計算する投票手段と、前記校正済み投票に対してクラスタリングを行うクラスタリング手段と、前記画像が前記物体を表しているか否かを、前記クラスタリングの結果に基づいて判定する判定手段と、を備える。
本発明の一態様に係る物体認識方法は、画像から特徴量を抽出し、前記画像から抽出された前記特徴量である第1特徴量を、物体を表す画像であるモデル画像から抽出された特徴量である複数の第2特徴量と照合し、前記モデル画像に基づいて、前記モデル画像の間の幾何学的関係を表す相対的なカメラ姿勢を計算し、前記照合の結果と前記相対的なカメラ姿勢とに基づいて、前記第1特徴量と前記複数の第2特徴量との間の、前記相対的なカメラ姿勢による影響が除かれた幾何学的関係である、校正された幾何学的関係を表す校正済み投票を計算し、前記校正済み投票に対してクラスタリングを行い、前記画像が前記物体を表しているか否かを、前記クラスタリングの結果に基づいて判定する。
本発明の一態様に係るコンピュータ可読媒体は、コンピュータを、画像から特徴量を抽出する抽出手段と、前記画像から抽出された前記特徴量である第1特徴量を、物体を表す画像であるモデル画像から抽出された特徴量である複数の第2特徴量と照合する照合手段と、前記モデル画像に基づいて、前記モデル画像の間の幾何学的関係を表す相対的なカメラ姿勢を計算する関係算出手段と、前記照合の結果と前記相対的なカメラ姿勢とに基づいて、前記第1特徴量と前記複数の第2特徴量との間の、前記相対的なカメラ姿勢による影響が除かれた幾何学的関係である、校正された幾何学的関係を表す校正済み投票を計算する投票手段と、前記校正済み投票に対してクラスタリングを行うクラスタリング手段と、及び前記画像が前記物体を表しているか否かを、前記クラスタリングの結果に基づいて判定する判定手段と、して動作させるプログラムを記憶する。
本発明によれば、物体認識の精度を改善することが可能である。
本発明の第1の関連技術に係る物体認識装置の構造の第1の例を示すブロック図である。 本発明の第1の関連技術に係る物体認識装置の構造の第2の例を示すブロック図である。 本発明の第2の関連技術に係る物体認識装置の構造の第1の例を示すブロック図である。 本発明の第1の実施形態に係る物体認識装置の構造の第1の例を示すブロック図である。 本発明の第1の実施形態に係る物体認識装置の構造の第2の例を示すブロック図である。 本発明の第1の実施形態に係る物体認識装置の構造の第の3例を示すブロック図である。 本発明の第1の実施形態に係る投票部の構成の例を示すブロック図である。 本発明の第1の実施形態に係る投票部の構成の例を示すブロック図である。 本発明の第1の実施形態に係る物体認識装置の動作の例を示すフローチャートである。 本発明の第2の実施形態に係る物体認識装置の構造の第1の例を示すブロック図である。 本発明の第2の実施形態に係る物体認識装置の構造の第2の例を示すブロック図である。 本発明の第2の実施形態に係る物体認識装置の構造の第3の例を示すブロック図である。 本発明の第2の実施形態に係る投票部の構成の例を示すブロック図である。 本発明の第2の実施形態に係る投票部の代替構成の例を示すブロック図である。 本発明の第2の実施形態に係る物体認識装置の動作を示すフローチャートである。 本発明の第3の実施形態に係る物体認識装置の構造の例を示すブロック図である。 本発明の実施形態に係る物体認識装置のそれぞれとして動作が可能なコンピュータの構造の例を示すブロック図である。 本発明の第1の実施形態に係る物体認識装置の構造の例を示すブロック図である。 本発明の第2の実施形態に係る物体認識装置の構造の例を示すブロック図である。 本発明の第3の実施形態に係る物体認識装置の構造の例を示すブロック図である。
以下に本発明の実施形態を詳細に説明する。
<関連技術>
まず、本発明の関連技術を説明する。
物体認識方法の一つである2次元(2D)物体認識方法では、画像(「クエリ画像」と呼ぶ)で表される物体は、例えば、認識対象の物体の画像を含むモデル画像(「参照画像」とも呼ぶ)の中からクエリ画像に類似する画像を特定することで認識される。より詳細には、2次元物体認識は、クエリ画像及びモデル画像から局所特徴量を抽出すること、及び、クエリ画像から抽出された局所特徴量とモデル画像のそれぞれから抽出された局所特徴量との照合を行うことを含んでいてよい。
局所特徴量の一例は、「スケール不変特徴変換」(SIFT)と呼ばれる局所特徴量である。SIFTは、「David G. Lowe, ”Distinctive Image Features from Scale-Invariant Keypoints”, International Journal of Computer Vision, Volume 60 Issue 2, November 2004, pp. 91-110」(以降では”Lowe”と呼ぶ)によって開示されている。
照合により、特徴対応が見つかる。特徴対応のそれぞれは、例えば、クエリ画像から抽出された局所特徴量と、複数のモデル画像のうちの一つから抽出された局所特徴量との組である。特徴対応が見つかった後、幾何学的検証が、例えば、特徴の位置、方向及びスケールを使った、クエリ画像と複数のモデル画像のうち一つのモデル画像との間の、相対的な、平行移動、回転及びスケーリング変化に対する投票を行う、2つの画像の間のハフ投票などの方法を使用して行われる。ハフ投票は、「Iryna Gordon and David G. Lowe, "What and where: 3D object recognition with accurate pose", Toward Category-Level Object Recognition, Springer-Verlag, 2006, pp. 67-82」(以降では「Gordon他」と呼ぶ)によって開示されている。
2次元物体認識では、複数のモデル画像のそれぞれが、異なる物体の画像であり得る。物体認識結果は、例えば、クエリ画像の一部に類似する領域を含む画像である。
上述した2次元物体認識とは異なり、3次元物体認識方法では、物体認識は、物体の周囲の複数の画像(モデル画像)を使って行われる。言い換えると、複数のモデル画像が、物体を表す。
3次元物体認識を扱う方法の一つの種類が、「Gordon et al. and Qiang Hao et al., "Efficient 2D-to-3D Correspondence Filtering for Scalable 3D Object Recognition", Computer Vision and Pattern Recognition (CVPR), 2013 IEEE Conference on, pp. 899-906」により開示されている。
3次元物体認識方法の概要を以下で説明する。まず、structure−from−motion(SfM)をモデル画像に適用することによって、3次元モデルが生成される。SfMの出力は、モデル画像内の局所特徴量から復元された、3次元空間内の点(すなわち3次元点、「点群」と呼ぶ)の座標と、モデル画像のカメラ姿勢との組である。カメラ姿勢は、3次元物体に関するモデル画像の相対位置を表す。同時に、モデル画像から抽出された局所特徴量が点群内の3次元点に割り当てられる。クエリ画像が提示されると、局所特徴量がクエリ画像から抽出され、抽出された特徴量が点群に割り当てられた局所特徴量と照合される。照合により特徴対応が見つかると、RANdom SAmple Consensus(RANSAC)などの方法を使って幾何学的検証が行われる。しかし、RANSACベースの方法は、大抵の場合、実行が比較的遅く、クエリ画像がノイズの多い背景を含む場合にうまく機能しないことがある。
上述のように、RANSACベースの3次元物体認識方法は、クエリ画像がノイズの多い背景を含む場合に、処理速度が遅く、精度が低い。ハフ投票に基づく方法は、より高速であり、ノイズ及び背景に対して比較的ロバストであるが、多視点(すなわち、様々な角度から撮られた同じ物体の画像)を扱場合、モデル画像間での校正を必要とし、さもないと推定物体の中心がクエリ画像内で異なるクラスタを形成して、クエリ画像内に現れる物体を検出することが困難になる。
次に、上記関連技術の実装を説明する。
<第1の関連例>
図1Aは、3次元物体認識の関連技術の実施態様(すなわち第1の関連例)である物体認識装置1100の構造の例を示すブロック図である。
図1Aを参照すると、物体認識装置1100は、抽出部1101、照合部1102、投票部1103、クラスタリング部1104、判定部1105、モデル画像記憶部1106、受付部1107、出力部1108及びモデル記憶部1110を含む。
受付部1107は、認識対象である画像(「クエリ画像」と呼ぶ)と、物体を表す複数の画像(「モデル画像」と呼ぶ)とを受信する。クエリ画像は識別対象の物体の画像を含んでいても、含まなくてもよい。モデル画像は、物体の周囲の様々な角度から撮られており、それらの画像は、認識の目的のために参照される。
受付部1107は、クエリ画像及びモデル画像を抽出部1101へ送信する。受付部1107は、モデル画像をモデル画像記憶部1106に格納してもよい。
受付部1107は、さらに、それぞれのモデル画像の物体中心の座標を受信してもよい。この場合、物体認識装置1100のオペレータは、モデル画像のそれぞれの物体中心の座標を、マウスやタッチパネルなどの入力装置(図示せず)によって示してもよい。受付部1107は、さらに、それぞれのモデル画像の物体中心の座標を、抽出部1101へ送信してもよい。受付部1107は、さらに、それぞれのモデル画像の物体中心の座標を、モデル画像記憶部1106に格納してもよい。
モデル画像記憶部1106はモデル画像を記憶する。モデル画像記憶部1106は、さらに、それぞれのモデル画像の物体中心の座標を記憶してもよい。
抽出部1101は、クエリ画像を受信し、クエリ画像から局所特徴量を抽出し、抽出された局所特徴量を出力する。抽出部1101は、モデル画像を受信し、モデル画像から局所特徴量を抽出し、抽出された局所特徴量を出力する。抽出部1101は、モデル画像記憶部1106からモデル画像を読み出してもよい。抽出部1101は、モデル画像から抽出された局所特徴量を、モデル記憶部1110に格納してもよい。
局所特徴量のそれぞれは、画像からの局所的な量であり、画像の、ある位置およびその周囲の画素の表現(「局所記述子」と呼ぶ)と、その位置における回転不変量(「方向」と呼ぶ)と、その場所におけるスケール不変量(「スケール」と呼ぶ)とをなすベクトル含むが、これらに限られない。局所記述子、方向及びスケールを含む局所特徴量の一実装は、Loweにより開示されたSIFTである。
抽出部1101は、さらに、それぞれのモデル画像の物体中心の座標を、モデル画像記憶部1106から読み出してもよい。抽出部1101は、さらに、複数のモデル画像、及び/又は、複数のモデル画像のそれぞれから抽出された、抽出された局所特徴量に基づいて、物体中心の座標を計算する。例えば、抽出部1101は、複数のモデル画像のうち一つのモデル画像の物体中心の座標として、そのモデル画像の中心点の座標を計算してもよい。抽出部1101は、複数のモデル画像のうち一つのモデル画像の物体中心の座標として、そのモデル画像から抽出された複数の局所特徴量に含まれる位置の座標の平均値を計算してもよい。抽出部1101は、複数のモデル画像のうち一つのモデル画像の物体中心の座標を、別の方法で計算してもよい。
抽出部1101は、さらに、それぞれのモデル画像の物体中心の座標を、局所特徴量の一部として、照合部1102へ送信してもよい。抽出部1101は、それぞれのモデル画像の物体中心の座標を、モデル記憶部1110に格納してもよい。抽出部1101は、さらに、それぞれのモデル画像の物体中心の座標を、局所特徴量の一部として、投票部1103へ送信してもよい。
モデル記憶部1110は、モデル画像から抽出された局所特徴量を記憶する。モデル記憶部1110は、さらに、それぞれのモデル画像の物体中心の座標を記憶する。
照合部1102は、クエリ画像から抽出された局所特徴量と、複数のモデル画像のうち一つの画像から抽出された局所特徴量とを受信する。照合部1102は、クエリ画像と複数のモデル画像のうちの一つの画像との間の、局所特徴量の類似度を計算することによって、クエリ画像から抽出された局所特徴量と複数のモデル画像のうちのその画像とから抽出された局所特徴量を比較し、算出された類似度に基づき、特徴対応を生成する。局所特徴量がベクトルによって表される場合、局所特徴量間の類似度は、局所特徴量の間のベクトル間距離であってよい。類似度は、局所特徴量に応じて定義されていればよい。
特徴対応のそれぞれは、高い類似度を有する2つの局所特徴量を示す(言い換えると、それらの2つの局所特徴量の間の類似度の大きさは、所定の類似度閾値と比較して高い類似度を示す)。2つの局所特徴量のうちの一方は、クエリ画像から抽出された複数の局所特徴量のうち一つの局所特徴量である。2つの局所特徴量のうちの他方は、複数のモデル画像のうちの画像から抽出された複数の局所特徴量のうち一つの局所特徴量である。
照合部1102は、2つの局所特徴量の間の類似度の大きさとして、2つの局所特徴量に含まれる局所記述子の間のベクトル距離を計算してもよい。特徴対応のそれぞれは、2つの局所特徴量の識別子によって表され、これにより2つの局所特徴量を容易に識別し、取り出すことができる。
照合部1102は特徴対応の組を出力する。照合部1102から出力された、結果として得られる特徴対応は、投票部1103へ送信される。
投票部1103は、クエリ画像と複数のモデル画像のうちの一つの画像との特徴対応の組、及び、複数のモデル画像のうちのその画像の物体中心の座標を受信する。投票部1103は、物体中心の予測される位置、スケーリング変化及び回転を含む、ハフ投票を計算する。投票部1103は、結果として得られたハフ投票を、クラスタリング部1104へ送信する。ハフ投票の計算を行う方法の一つは、特許文献2で説明されている。
クラスタリング部1104は、投票部1103からハフ投票を受信する。クラスタリング部1104は、互いに類似するハフ投票が同じグループに分類されるように、類似度(例えば、ハフ投票のうちの2つの間のベクトル距離)に基づいて、ハフ投票に対してクラスタリングを行う。クラスタリング部1104は、クラスタリング結果を判定部1105へ送信する。投票部1103により使われるクラスタリング方法は、平均値シフト(mean−shift)法、ビン投票、又は任意の他の教師なしクラスタリング方法のいずれか一つであってよい。クラスタリング部1104は、特徴対応から、ある条件を満たすクラスタ、言い換えると、例えば、所定の閾値を超える個数の要素(すなわちハフ投票)をそれぞれ含むクラスタ、に属する特徴対応の部分集合を抽出することができる。クラスタリング部1104は、抽出された特徴対応(すなわち、特徴対応の部分集合)を判定部1105へ送信する。
判定部1105は、抽出された特徴対応(すなわち特徴対応の部分集合)を受信する。判定部1105は、モデル画像により表される物体がクエリ画像内に存在するかを、部分集合内の特徴対応の個数に基づいて判定してもよい。判定部1105は、認識結果として判定結果を出力する。判定部1105は、さらに、特徴対応から導出された、物体の位置、回転、及びスケーリング変化を含む、物体姿勢を出力してもよい。判定部1105は、モデル画像の物体がクエリ画像内に存在するかを判定するために、特徴対応の絶対数を使用してもよい。代わりに、判定部1105は、ある正規化因子(例えば、照合部1102により算出された特徴対応の総数)に対する特徴対応の絶対数の比率を計算することによる、正規化スコアを使用してもよい。判定部1105は、認識結果として、物体がクエリ画像内に存在するか否かを示す二値の結果を出力してもよい。判定部1105は、認識結果の信頼度を示す確率を計算して出力してもよい。
出力部1108は物体認識装置1100からの認識の結果を出力する。出力部1108は、認識の結果を表示装置(図示せず)へ送信してもよい。表示装置は、認識の結果を表示してもよい。出力部1108は、物体認識装置1100のオペレータによって使用される端末装置(図示せず)に、認識の結果を送信してもよい。
関連技術の実施態様である物体認識装置1100は、モデル画像から生成されたハフ投票がパラメトリック空間においてクラスタを形成しうるため、RANSACベースの方法と比べて、高速で正確に動作する。しかし、モデル画像に見え方の大きなばらつきがある場合、それらのモデル画像から生成されたハフ投票が、遠く離れた複数のクラスタを生成することがある。したがって、ハフ投票に対してさらに校正が必要となり、さもければ物体認識は失敗する。
図1Bは、3次元物体認識の関連技術の別の実施態様である物体認識装置1100Bの構造の例を示すブロック図である。物体認識装置1100Bは、以下の相違点を除き、図1Aの物体認識装置1100と同じである。
図1Bに示す物体認識装置1100Bは、それぞれが図1Aの抽出部1101に対応する複数の抽出部1101、それぞれが図1Aの照合部1102に対応する複数の照合部1102、それぞれが図1Aの投票部1103に対応する複数の投票部1103、クラスタリング部1104、判定部1105、受付部1107、及び出力部1108を備える。抽出部1101は、並列に動作することができる。照合部1102は、並列に動作することができる。投票部1103は、並列に動作することができる。
抽出部1101のうちの1つが、クエリ画像を受信し、クエリ画像から局所特徴量を抽出し、局所特徴量を照合部1102のそれぞれへ送信する。他の抽出部のそれぞれが、複数のモデル画像のうち一つのモデル画像を受信し、受信したモデル画像から局所特徴量を抽出し、抽出された局所特徴量を照合部1102のうちの1つへ送信する。
照合部1102のそれぞれは、クエリ画像から抽出された局所特徴量と複数のモデル画像のうちの一つから抽出された局所特徴量とを受信し、特徴量のマッチングを行って(すなわち、クエリ画像から抽出された局所特徴量と複数のモデル画像のうちの一つから抽出された局所特徴量とを比較して)特徴対応を生成し、生成された局所対応を、投票部1103のうちの一つへ送信する。
投票部1103のそれぞれは、照合部1102のうちの一つから特徴対応を受信し、ハフ投票を計算する。投票部1103のそれぞれは、結果をクラスタリング部1104へ送信する。
<第2関連例>
図2は、Gordon他の技術を使用する3次元物体認識の関連技術の他の実施態様(すなわち第2関連例)である、物体認識装置1200の構造の例を示すブロック図である。図2を参照すると、物体認識装置1200は、抽出部1101、再構成部1201、照合部1202、検証部1203、判定部1105、受付部1107、及び出力部1108を備える。物体認識装置1200は、さらに、モデル画像記憶部1106及びモデル記憶部1110を備えていてもよい。図1Aに示される部へ割り当てられた符号が割り当てられた部のそれぞれは、以下に説明する相違点を除き、その符号が割り当てられている部と同様である。
抽出部1101は、モデル画像から抽出された局所特徴量を再構成部1201へ送信する。
再構成部1201は、モデル画像から抽出された局所特徴量を受信し、モデル画像の物体の3次元再構成を行って物体の3次元モデルを生成し、再構成された3次元モデルを照合部1202へ送信する。モデル画像に示される物体の3次元モデルを再構成する3次元再構成技術の例として、structure−from−motion(SfM)が広く使用されている。結果として得られる物体の3次元モデルは、モデル画像の2次元点から再構成された3次元点の組と、モデル画像の2次元点の位置において抽出された、局所記述子、スケール及び方向を含む局所特徴量とを含む。
照合部1202は、クエリ画像から抽出された局所特徴量と、モデル画像から再構成された3次元モデルとを受信する。上述したように、3次元モデルは、モデル画像の2次元点から再構成された3次元点の組と、モデル画像の2次元点の位置において抽出された、局所記述子、スケール及び方向を含む局所特徴量とを含む。照合部1202は、特徴量の照合を行って特徴対応を生成する。それぞれの特徴対応は、例えば、クエリ画像の局所特徴量の識別子と、局所特徴量の類似度の大きさに基づいてマッチした3次元モデルの局所特徴量の識別子とを含む。照合部1202は、類似度の大きさとして、局所特徴量に含まれる局所記述子のベクトル距離を計算してもよい。照合部1202は、生成された特徴対応を検証部1203へ送信する。
検証部1203は、特徴対応を受信する。検証部1203は、幾何学的検証を行って、正しい特徴対応の部分集合、すなわち、幾何学モデルにおいて整合性のある特徴対応の部分集合を抽出する。検証部1203は、幾何学モデルとして、3次元点と2次元点の間の幾何学的な関係形状を示す投影モデルを使用してもよく、それはGordon他によって開示されている。正しい特徴対応の部分集合を抽出するために、検証部1203は、投影モデルに加えてRANSACの技術を使用してもよい。検証部1203は、抽出された特徴対応の部分集合を、判定部1105へ送信する。
物体認識装置1200は、校正の問題の影響を受けることなく動作するが、RANSACに必要な反復回数は、特徴対応の総数に対する正常値(すなわch、正しい特徴対応)の個数の比率に反比例するので、時間がかかる。物体がSfMモデルによって表される場合、上述の比率は、通常は非常に小い。
<第1の実施形態>
次に、図面を参照して本発明に係る第1の実施形態を説明する。
図3Aは本発明の第1の実施形態に係る物体認識装置の構造の第1の例を示すブロック図である。図3Aを参照すると、物体認識装置100Aは抽出部101、照合部102、関係算出部106、投票部103、クラスタリング部104、判定部105、受付部107、及び出力部108を含む。
図3Bは本発明の第1の実施形態に係る物体認識装置の構造の第2の例を示すブロック図である。図3Bの物体認識装置100Bは、物体認識装置100Aに含まれる上記の部に加え、モデル画像記憶部109、モデル記憶部110及び関係記憶部111を含む。物体認識装置100Bでは、受付部107は、モデル画像をモデル画像記憶部109に格納する。モデル画像記憶部109は、受付部107によって受信され、格納されたモデル画像を記憶する。モデル記憶部110は、抽出部101によってモデル画像から抽出された局所特徴量を記憶する。関係算出部106は、算出された相対的なカメラ姿勢を、関係記憶部111に格納する。関係記憶部111は、関係算出部106によって算出され、格納された相対的なカメラ姿勢を記憶する。
図3Cは、本発明の第1の実施形態に係る物体認識装置の構造の第3の例を示すブロック図である。図3Cの物体認識装置100Cは、図3A及び図3Bの抽出部101にそれぞれ対応する複数の抽出部101、及び、図3A及び図3Bの照合部102にそれぞれ対応する複数の照合部102を含む。物体認識装置100Cでは、抽出部101の一つがクエリ画像を受信し、クエリ画像から局所特徴量を抽出する。他の抽出部101のそれぞれが、複数のモデル画像のうち一つのモデル画像を受信し、受信したモデル画像から局所特徴量を抽出する。抽出部101のそれぞれは、並列に動作することができる。照合部102のそれぞれは、クエリ画像から抽出された局所特徴量と、複数のモデル画像のうち一つのモデル画像から抽出された局所特徴量とを受信する。照合部のそれぞれは、クエリ画像から抽出された、受信した局所特徴量と、モデル画像から抽出された、受信した局所特徴量とを照合する。照合部102のそれぞれは、並列に動作することができる。
物体認識装置100A、物体認識装置100B及び物体認識装置100Cは、上述の相違点を除き、同じである。主に図3Bの本実施形態の物体認識装置100Bを詳細に説明する。以下の説明では、物体認識装置100Bの、物体認識装置1100のものと同じ機能及び同じ動作についての詳細な説明は省略する。
受付部107は、クエリ画像を受信し、クエリ画像を抽出部101へ送信する。受付部107は、モデル画像を受信し、モデル画像をモデル画像記憶部109に格納する。受付部107は、モデル画像を抽出部101へ送信してもよい。受付部107は、また、モデル画像を関係算出部106へ送信してもよい。クエリ画像及びモデル画像は、第1及び第2の関連例のものと同じである。
モデル画像記憶部109は、モデル画像を記憶する。モデル画像記憶部109は、第1の関連例に係るモデル画像記憶部1106と同様に動作する。
抽出部101は、クエリ画像を受信し、クエリ画像から局所特徴量を抽出する。抽出部101は、クエリ画像から抽出された局所特徴量を、照合部102へ送信する。抽出部101は、また、モデル画像を受信し、モデル画像のそれぞれから局所特徴量を抽出する。抽出部101は、モデル画像記憶部109からモデル画像を読み出してもよい。抽出部101は、モデル画像から抽出された局所特徴量を、照合部102へ送信する。抽出部101は、モデル画像から抽出された局所特徴量を、モデル記憶部110に格納する。抽出部101は、第1の関連例に係る抽出部1101と同様に動作する。
モデル記憶部110は、モデル画像から抽出された局所特徴量を記憶する。モデル記憶部110は、第1の関連例に係るモデル記憶部1110と同様に動作する。
照合部102は、クエリ画像から抽出された局所特徴量と、モデル画像のそれぞれから抽出された局所特徴量とを受信する。照合部102は、モデル画像から抽出された局所特徴量を読み出してもよい。照合部102は、クエリ画像から抽出された局所特徴量と、モデル画像のそれぞれから抽出された局所特徴量とを照合し、クエリ画像と複数のモデル画像のうちの一つとの組のそれぞれに対して、特徴対応を生成する。照合部102は、特徴対応を投票部103へ送信する。照合部102は、第1の関連例に係る照合部1102と同様に動作する。
関係算出部106は、モデル画像を受信する。関係算出部106は、モデル画像の相対的なカメラ姿勢を計算する。関係算出部106は、算出された相対的なカメラ姿勢を、関係記憶部110に格納してもよい。関係算出部106は、投票部103と直接接続されていてもよく、算出された相対的なカメラ姿勢を、投票部103へ送信してもよい。
相対的なカメラ姿勢には、平面射影変換(ホモグラフィ)、アフィン変換若しくは類似関係(similarity relation)によってモデル化された変換、又は、エピポーラ幾何に基づくカメラ姿勢などの、モデル画像内の相対的な幾何学的関係が含まれる。相対的な幾何学的関係は、モデル画像の相対的な幾何学的変換のそれぞれによって表されていてもよい。相対的な幾何学的変換において、複数のモデル画像のうち一つのモデル画像に対する相対的な幾何学的変換が、モデル画像の各画素の座標を参照画像の画素の座標へ変換する変換であってもよい。
関係算出部106は、モデル画像から参照画像を選択してもよい。相対的なカメラ姿勢を算出するために、関係算出部106は、参照画像として、複数のモデル画像から一つの画像を選択してもよく、続いて、参照画像以外の複数のモデル画像のうちの一つを参照画像へそれぞれ変換する、相対的な幾何学的変換のそれぞれを、最小二乗法又はRANSAC法を使って計算してもよい。
関係算出部106は、structure−from−motionを行うことによって、相対的なカメラ姿勢を計算してもよい。関係算出部106は、座標系をモデル画像の画像座標系へそれぞれ変換する変換を計算してもよく、算出された変換を使って相対的なカメラ姿勢を計算してもよい。
関係算出部106は、相対的なカメラ姿勢として、モデル画像のそれぞれを撮影した時刻における、局所特徴量に含まれる、カメラの位置、回転及びスケールを使用してもよい。
画像の画素の座標が、射影幾何学の分野におけるような3次元ベクトルで表される場合、相対的なカメラ姿勢のそれぞれは、3x3行列によって表される。関係算出部106は、参照画像以外のモデル画像のそれぞれに対して、相対的なカメラ姿勢を表す行列を計算してもよい。参照画像に対する相対的なカメラ姿勢は、単位行列によって表される。
関係算出部106は、相対的なカメラ姿勢を、関係記憶部111に格納してもよい。この場合、投票部103は、相対的なカメラ姿勢を、関係記憶部111から読み出せばよい。
関係記憶部111は、関係算出部106によって格納された、相対的なカメラ姿勢を記憶する。
投票部103は、特徴対応及び相対的なカメラ姿勢を、照合部102から受信する。投票部103は、相対的なカメラ姿勢の下で投票空間において整合性のある、特徴対応の部分集合を抽出する。投票部103は、抽出された、特徴対応の部分集合を、クラスタリング部104へ送信する。投票部103の目的は、異なる画像からのハフ投票が幾何学的に校正されるように、モデル画像の間の幾何学的関係を考慮に入れることによる、幾何学的な検証の機能をさらに果たす、ハフ投票を行うことである。
図4は、本実施形態に係る投票部103の構成の例を示すブロック図である。
図4を参照すると、投票部103は、投票算出部1031及び投票校正部1032を含む。投票部103の詳細の説明を以下に記す。
投票部103の投票算出部1031は、特徴対応を受信する。投票算出部1031は、局所特徴量のスケール、方向及び座標を使って、特徴対応のそれぞれに対して、相対的な投票を計算する。投票算出部1031は、2つの画像(すなわちクエリ画像と複数のモデル画像のうち一つと)の間のスケーリング変化(s12)、回転(q12)並びに平行移動(x12及びy12)を使って相対的な投票を、以下の式に従って計算してもよい。
Figure 0006544482
Figure 0006544482
Figure 0006544482
ここで、s及びsは、2つの画像の局所特徴量のスケールであり、q及び2は、2つの画像の局所特徴量の方向であり、[x,y]及び[x,y]は、2つの画像の局所特徴量の2次元座標である。R(q12)は、q12に対する回転行列である。Cは、平行移動をオフセットするために前もって定められた定数ベクトルである。投票算出部1031は、特徴対応のそれぞれに対して、4つの要素(s12、q12、x12及びy12)を含む相対的な投票を計算する。投票算出部1031は、相対的な投票及び相対的なカメラ姿勢を、投票校正部1032へ送信する。
投票部103の投票校正部1032は、特徴対応の相対的な投票と、モデル画像の相対的なカメラ姿勢とを受信する。投票校正部1032は、モデル画像の間の幾何学的関係を取り入れることによって、特徴対応のそれぞれに対する校正済み投票を計算し、校正済み投票をクラスタリング部104へ送信する。投票校正部1032は、モデル画像のそれぞれに対して、以下のステップに従って校正投票を計算してもよい。
ステップ0: 複数のモデル画像から一つのモデル画像を選択する。
ステップ1: 選択したモデル画像の相対的な投票の中から一つの相対的な投票を選択し、計算の便宜のため、選択した相対的な投票を類似度変換行列へ変換する。類似度変換行列Sは、以下の式によって表される。
Figure 0006544482
ここで、スケーリング変化(s12)、回転(q12)及び平行移動(x12及びy12)は、投票算出部1031によって計算される。
ステップ2: 選択したモデル画像の選択した相対的な投票に対する校正済み投票を表す行列Hを、以下の式に従って行列の積によって計算する。
Figure 0006544482
ここで、モデル画像の相対的なカメラ姿勢は、Pと表記される。校正済み投票は、相対的なカメラ姿勢のばらつきによる影響を、相対的な投票から除外することによって生成される。
ステップ3: 校正済み投票が、選択されたモデル画像の相対的な投票のそれぞれに対して算出されるまで、ステップ1からステップ2の処理を反復する。
ステップ4: モデル画像のそれぞれが選択されるまで、ステップ0からステップ3の処理を反復する。
ステップ5: ステップ0からステップ4の処理において算出された校正済み投票を、クラスタリング部104へ送信する。
投票校正部1032は、また、さらに、校正済み投票を、等価な表現へ変換してもよい。例えば、投票校正部1032は、校正済み投票のそれぞれを、[R|t]の形式に変換してもよい。ここで、Rは3x3の回転行列であり、tは平行移動を表す3x1のベクトルであり、[R|t]は3x4の行列である。投票校正部1032は、9つの要素を含む回転行列を、4つの要素を含む四元数形式へ変換してもよい。さらに、投票校正部1032は、校正済み投票(又は、等価な四元数表現)の中の1つ以上の要素を、既定のルールに従って単に除くことによって、校正済み投票を変換してもよい。例えば、元の校正済み投票が12個の要素を含む場合、投票校正部1032は、元の校正済み投票の要素の部分集合のみを使うことによって、クラスタリング部104によるクラスタリングのための校正済み投票を生成してもよい。
クラスタリング部104は、投票部103から校正済み投票を受信する。クラスタリング部104は、受信した校正済み投票に対してクラスタリングを行い、校正済み投票のグループ(すなわちクラスタ)を、グループのそれぞれに含まれる校正済み投票が互いに類似するように生成する。校正済み投票のそれぞれは、上述の相対的な投票と同様に4つの要素を持ち、4つの要素を持つベクトルによって表されていてもよい。校正済み投票を表す行列は、上述の相対的な投票と同様に、4つの要素を持つベクトルの形式であってもよい。この場合、2つの校正済み投票の類似度は、2つの校正済み投票を表すベクトルの間のベクトル距離であってもよい。2つの校正済み投票の類似度は、同じベクトル(例えば、[1,0,0])を2つの校正済み投票を表す行列によって変換することにより生成された、ベクトルの間の距離であってもよい。
クラスタリング部104は、一定の条件を満たすクラスタ、すなわち、例えば所定の閾値を超える個数の要素(すなわち校正済み投票)をそれぞれ含むクラスタ、に属する校正済み投票の部分集合を、校正済み投票から抽出してもよい。クラスタリング部104は抽出された校正済み投票(すなわち、校正済み投票の部分集合)を判定部105へ送信する。
判定部105は、抽出された校正済み投票(すなわち、校正済み投票の部分集合)を受信する。判定部105は、モデル画像により表される物体がクエリ画像内に存在するかどうかを、部分集合内の校正済み投票の個数に基づいて判定してもよい。判定部105は、認識結果として、判定結果を出力する。判定部105は、抽出された校正済み投票に関連する特徴対応から導出された、物体位置、回転、及びスケーリング変化を含む物体姿勢を出力してもよい。判定部105は、モデル画像の物体がクエリ画像内に存在するかを判定するために校正済み投票の絶対数を使用してもよい。代わりに、判定部105は、ある正規化因子(例えば、投票部103によって算出された校正済み投票の総数)に対する校正済み投票の絶対数の比率を計算することによる、正規化スコアを使用してもよい。判定部105は、認識結果として、物体がクエリ画像内に存在するか否かを示す、2値の結果を出力してもよい。判定部105は、認識結果の信頼度を示す確率を計算して出力してもよい。
出力部108は、物体認識装置100Bからの認識の結果を出力する。出力部108は、認識の結果を表示装置(図示せず)へ送信してもよい。表示装置は、認識の結果を表示してもよい。出力部108は、認識の結果を、物体認識装置100Bの操作者により使われている端末装置(図示せず)へ送信してもよい。
図5は、本実施形態の投票部103の変形例である、投票部103Aの構成の例を示すブロック図である。投票部103Aは、投票算出部1031、第2クラスタリング部1033、及び投票校正部1032を含む。第2クラスタリング部1033は、投票算出部1031と投票校正部1032との間に接続されている。第2クラスタリング部1033は、投票算出部1031によって算出された、相対的な投票に対してクラスタリングを行って、相対的な投票のクラスタを生成する。第2クラスタリング部1033は、誤った特徴対応を含むクラスタが選択されないようにあらかじめ実験的に定められた閾値以上の個数の相対的な投票を含むクラスタを、生成されたクラスタの中から選択する。換言すれば、第2クラスタリング部1033は外れ値クラスタ(すなわち、閾値より少ない個数の相対的な投票を含むクラスタ)を特定し、投票算出部1031によって算出された相対的な投票から、外れ値(すなわち、外れ値クラスタに含まれる相対的な投票のそれぞれ)を取り除く。第2クラスタリング部1033は、相対的な投票の部分集合(すなわち、選択したクラスタに含まれる相対的な投票)を、投票校正部1032へ送信する。投票校正部1032は、第2クラスタリング部1033から相対的な投票を受信し、図4の投票校正部1032と同じように動作する。図5に示される構成によれば、正しくない特徴対応が効果的に取り除かれる。
第2クラスタリング部1033は、相対的な投票に対してクラスタリングを行うことによって誤った特徴対応を取り除くことができるように、モデル画像のそれぞれに対する視点の制約を利用するのに使用される。これにより、精度と速度が同時に改善される。
図6は、物体認識装置100Bの動作の例を示すフローチャートである。図6に示される動作の前に、受付部107は、モデル画像を受信する。図6に示される動作は、受付部107がクエリ画像を受信すると開始される。
抽出部101は、クエリ画像から局所特徴量を抽出する(ステップS101)。局所特徴量は、予めモデル画像から抽出されていてもよい。抽出部101は、ステップS101において、モデル画像から局所特徴量を抽出してもよい。照合部102は、例えば一致した局所特徴量に含まれる局所記述子の間のベクトル距離を比較することによって、クエリ画像から抽出された局所特徴量とモデル画像のそれぞれから抽出された局所特徴量を照合する(ステップS102)。投票部103(より詳細には、投票部103の投票算出部1031)は、特徴対応に基づく相対的な投票を計算する(ステップS103)。投票部103(より詳細には、投票部103の投票校正部1032)は、相対的な投票と相対的なカメラ姿勢とを使って、校正済み投票を計算する(ステップS104)。クラスタリング部104は、校正済み投票に対してクラスタリングを行って画像内における物体の想定される位置を検出する(ステップS105)。判定部105は、クエリ画像がモデル画像により表される物体の像を含むかどうかを、クラスタリング結果に基づいて判定する(ステップS106)。その後、出力部108は判定部105による判定の結果を出力する。
本実施形態では、投票部103(より詳細には投票校正部1032)は、相対的な投票を校正し(すなわち、校正済み投票を計算し)、その結果、正しい特徴対応が、パラメトリック空間において単一のクラスタを形成する。したがって、本実施形態によれば、物体認識の精度が改善される。
<第2の実施形態>
次に、本発明の第2実施形態に係る物体認識装置を、図面を参照して説明する。
図7Aは、本発明の第2の実施形態に係る物体認識装置の構造の第1の例を示すブロック図である。図7Aを参照すると、物体認識装置200Aは、抽出部101、再構成部201、照合部202、関係算出部106、投票部203、クラスタリング部104、判定部105、受付部107、及び出力部108を含む。
図7Aの抽出部101は、モデル画像を再構成部201へ送信する。
図7Bは、本発明の第2の実施形態に係る物体認識装置の構造の第2の例を示すブロック図である。図7Bの物体認識装置200Bは、さらに、モデル画像記憶部109、モデル記憶部110及び関係記憶部111を含む。図7Bのモデル画像記憶部109、モデル記憶部110、及び関係記憶部111は、図3Bのものと同じである。
物体認識装置200Bの受付部107は、モデル画像を、モデル画像記憶部109に格納する。物体認識装置200Bの抽出部101は、モデル画像記憶部109から、モデル画像を読み出す。物体認識装置200Bの抽出部101は、モデル画像から抽出された局所特徴量を、モデル記憶部110に格納する。物体認識装置200Bの関係算出部106は、モデル画像記憶部109から、モデル画像を読み出す。物体認識装置200Bの関係算出部106は、相対的なカメラ姿勢を関係記憶部111に格納する。
図7Cは、本発明の第2の実施形態に係る物体認識装置の構造の第3の例を示すブロック図である。図7Cの物体認識装置200Cは、複数の抽出部101を含む。受付部107は、クエリ画像を、複数の抽出部101のうちの1つへ送信する。受付部107は、モデル画像のそれぞれを、他の抽出部101のうちの1つへ送信する。物体認識装置200Cの抽出部101は、並列に動作することができる。
物体認識装置200A、物体認識装置200B及び物体認識装置200Cは、上記の相違点を除き、同じである。以下では、主に物体認識装置200Bを説明する。
抽出部101、クラスタリング部104、判定部105、関係算出部106、及び出力部108は、以下の相違点を除き、本発明の第1実施形態に係る物体認識装置のものと同じである。以下では、上述の部の詳細な説明は省略する。
再構成部201は、モデル画像から抽出された、局所特徴量を受信する。再構成部201は、モデル記憶部110から、局所特徴量を読み出してもよい。再構成部201は、モデル画像の物体の3次元再構成を行って物体の3次元モデルを生成し、再構成された3次元モデルを、照合部202へ送信する。再構成部201は、上述の第2の関連例の再構成部1201と同様に動作する。第2の関連例の再構成部1201と同様に、再構成部201はモデル画像の2次元点から再構成された3次元点の組と、モデル画像の2次元点の位置において抽出された、局所記述子、スケール及び方向を含む局所特徴量とを含む3次元モデルを生成する。
照合部202は、クエリ画像から抽出された局所特徴量と、モデル画像から再構成された3次元モデルとを受信する。上述したように、3次元モデルは、モデル画像の2次元点から再構成された3次元点の組と、局所記述子、スケール及び方向を含む局所特徴量とを含む。本実施形態に係る照合部202は、第2の関連例の照合部1202と同様に動作する。照合部202は、生成された特徴対応を、投票部203へ送信する。
投票部203は、特徴対応を、照合部202から受信する。投票部203は、相対的なカメラ姿勢を、関係算出部106から受信する。投票部203は、物体の平行移動と、回転と、スケーリング変化との組のそれぞれに対して、相対的な投票を生成する。投票部203は、相対的なカメラ姿勢を使って、相対的な投票を校正する。投票部203は、校正済み投票を、クラスタリング部104へ送信する。
図8は、本実施形態に係る投票部203の構成の例を示すブロック図である。図8を参照すると、共通投票部203は、投票算出部2031及び投票校正部2032を含む。
投票算出部2031は、特徴対応を、照合部202から受信する。投票算出部2031は、クエリ画像から抽出された局所特徴量とモデル画像から抽出された局所特徴量とを使うことによって、平行移動と、スケール変化と、回転との組のそれぞれに対して、相対的な投票を計算する。投票算出部2031は、数1、数2、及び数3に従って、平行移動、スケール変更、及び回転を計算する。上述のように、再構成された3次元モデルは、3次元点を含む。3次元モデルの複数の3次元点のうち一つの3次元点に対して、局所特徴量は、モデル画像の2つ以上から抽出されてもよい。
3次元点に対する局所特徴量がモデル画像の2つ以上から抽出されている場合、投票算出部2031は、その3次元点に対する局所特徴量として、その3次元点に対して局所特徴量が抽出されたモデル画像の一つから抽出された局所特徴量を選択してもよい。局所特徴量を選択する方法は、限定されない。投票算出部2031は、3次元点に対する局所特徴量として、複数のモデル画像から抽出されたその3次元点に対する局所特徴量を使用して、局所特徴量を作成してもよい。作成される局所特徴量は、複数のモデル画像から、3次元点に対して抽出された、局所特徴量の平均値であってもよい。作成される局所特徴量は、複数のモデル画像から当該3次元点に対して抽出された局所特徴量の、正規化された結合値であってもよい。
投票校正部2032は、第1実施形態に係る投票校正部1032と同様に動作する。
図9は、本実施形態に係る投票部の代替構成の例を示すブロック図である。図9の投票部203Aは、図8の投票部203の変形の例である。図9の投票部203Aは、投票算出部2031、第2クラスタリング部2033、及び投票校正部2032を含む。第2クラスタリング部2033は、投票算出部2031と投票校正部2032との間に接続されている。第2クラスタリング部2033は、投票算出部2031によって算出された相対的な投票に対してクラスタリングを行って、相対的な投票のクラスタを生成し、誤った特徴対応を含むクラスタが選択されないように予め実験的に定められた閾値よりも多い個数の相対的な投票を含むクラスタを、生成されたクラスタの中から選択する。第2クラスタリング部2033は、相対的な投票の部分集合(すなわち、選択したクラスタに含まれる相対的な投票)を、投票校正部2032へ送信する。投票校正部2032は、相対的な投票を、第2クラスタリング部2033から受信し、第1実施形態に係る投票校正部1032と同様に動作する。図9に示される構成によれば、誤っている特徴対応が効果的に取り除かれる。
第2クラスタリング部2033は、相対的な投票に対してクラスタリングを行うことで正しくない特徴対応を取り除くことができるように、モデル画像のそれぞれに対する視点の制約を利用するのに使用される。これにより、精度と速度が同時に改善される。
クラスタリング部104、判定部105、及び出力部108は、それぞれ、第1実施形態に係るクラスタリング部104、判定部105、及び出力部108と同様に動作する。クラスタリング部104、判定部105、及び出力部108の詳細な説明は省略する。
図10は、本発明の第2実施形態に係る物体認識装置200Bの動作を示すフローチャートである。図10に示される動作の前に、受付部107は、モデル画像を受信する。図10に示される動作は、受付部107がクエリ画像を受信すると開始される。
図10によると、抽出部101は、クエリ画像から局所特徴量を抽出する(ステップS101)。局所特徴量は、予めモデル画像から抽出されていてもよい。抽出部101は、ステップS101において、モデル画像から局所特徴量を抽出してもよい。再構成部201は、モデル画像から抽出された局所特徴量に基づいて、3次元モデルを再構成する(ステップS201)。再構成部201は、予め3次元モデルを抽出していてもよい。この場合、再構成部201は、図10のステップS201を実行しない。照合部202は、クエリ画像から抽出された局所特徴量と、複数のモデル画像のうち一つのモデル画像から抽出された局所特徴量とを照合する(すなわち、マッチングを行う)(ステップS102)。複数のモデル画像のうちのそのモデル画像から抽出された局所特徴量は、3次元モデルに含まれる。照合部202は、モデル画像のそれぞれの局所特徴量が、クエリ画像から抽出された局所特徴量と照合されるまで、照合を繰り返す。投票部203(より詳細には、投票部203の投票算出部2031)は、照合の結果である特徴対応に基づく、相対的な投票を計算する(ステップS103)。投票部203(より詳細には、投票部203の投票校正部2032)は、相対的な投票を校正して校正済み投票を生成する(すなわち、相対的な投票に基づく校正済み投票を計算する)(ステップS104)。クラスタリング部104は、校正済み投票に対してクラスタリングを行う(ステップS105)。判定部105は、クエリ画像が、モデル画像により表される物体の像を含むか否かを、クラスタリングの結果に基づいて判定する(ステップS106)。その後、出力部108は判定部105による判定の結果を出力する。
本実施形態では、投票部203(より詳細には投票校正部2032)は、相対的な投票を校正し(すなわち、校正済み投票を計算し)、その結果、正しい特徴対応が、パラメトリック空間において単一のクラスタを形成する。したがって、本実施形態によれば、物体認識の精度が改善される。投票部203は、2D−3D RANSACに基づく方法による処理と比較して、はるかに高速に動作する。これは投票部203が使う非反復の一般の投票方法が、2D−3D RANSACに基づく方法と比較して、はるかに高速に動作するからである。本実施形態によれば、クエリ画像からの2次元点と、3次元モデルからの3次元点との間の特徴対応の結果を使って、カメラ姿勢を復元することが可能である。これは、再構成部201が、3次元モデルを再構成し、照合部202が、クエリ画像から抽出された局所特徴量とモデル画像から抽出された局所特徴量との照合を行うからである。
<第3実施形態>
次に、本発明の第3実施形態を詳細に説明する。
図11は、本発明の第3実施形態に係る物体認識装置の構造の例を示すブロック図である。図11によれば、本発明の物体認識装置300は、抽出部101、照合部102、投票部103、クラスタリング部104、判定部105、及び関係算出部106を含む。
抽出部101は、画像(すなわち、上記のクエリ画像)から特徴量(すなわち、上記の局所特徴量)である第1特徴量を抽出する。照合部102は、画像から抽出された特徴量を、物体を表す画像であるモデル画像から抽出された特徴量(それぞれ、上述の局所特徴量に対応する)である第2特徴量と照合する。関係算出部106は、モデル画像に基づいて、モデル画像の間の幾何学的関係を表す相対的なカメラ姿勢を計算する。投票部103は、照合の結果と相対的なカメラ姿勢とに基づいて、校正済み投票を計算する。校正済み投票は、それぞれ、第1特徴量と複数の第2特徴量のうち一つの第2特徴量との間の、校正された幾何学的関係を表す。校正された幾何学的関係とは、相対的なカメラ姿勢による影響が除かれた幾何学的関係である。クラスタリング部104は、校正済み投票に対してクラスタリングを行う。判定部105は、画像が物体を表しているかどうかを、クラスタリング結果に基づいて判定する。
本実施形態は、第1実施形態と同じ効果を有する。本実施形態の効果の理由は、第1実施形態と同じである。
<他の実施形態>
本発明の実施形態に係る物体認識装置のそれぞれは、専用ハードウェア(例えば、1つの回路又は複数の回路)などの電気回路、プロセッサ及びメモリを備えるコンピュータ、又は、専用ハードウェアとコンピュータとの組み合わせにより実現できる。
図12は、本発明の実施形態に係る物体認識装置のそれぞれとして動作できるコンピュータの構造の例を示すブロック図である。
図12によれば、図12のコンピュータ1000は、プロセッサ1001、メモリ1002、記憶装置1003、及び、I/O(Input/Output)インタフェース1004を含む。コンピュータ1000は、記憶媒体1005をアクセスできる。メモリ1002及び記憶装置1003は、例えばRAM(Random Access Memory)又はハードディスクドライブなどによって実現できる。記憶媒体1005は、例えば、RAM、ハードディスクドライブなどの記憶装置、ROM(Read Only Memory)、又は、可搬記録媒体などであってもよい。記憶装置1003が、記憶媒体1005として機能してもよい。プロセッサ1001は、メモリ1002及び記憶装置1003からデータ及びプログラムを読み出すことができ、メモリ1002及び記憶装置1003にデータ及びプログラムを書き込むことができる。プロセッサ1001は、入力装置(図示せず)、クエリ画像及びモデル画像を供給する装置、及び、I/Oインタフェース1004を介して判定結果を表示する装置にアクセスできる。プロセッサ1001は、記憶媒体1005へアクセスできる。記憶媒体1005は、コンピュータ1000を、本発明の実施形態のいずれか一つに係る物体認識装置として動作させるプログラムを記憶する。
プロセッサ1001は、記憶媒体1005に格納されたプログラムを、メモリ1002にロードする。プロセッサ1001は、メモリ1002に格納されたプログラムを実行することによって、本発明の実施形態のいずれか一つに係る物体認識装置として動作する。
抽出部101、照合部102、投票部103、クラスタリング部104、判定部105、関係算出部106、受付部107、出力部108、再構成部201、照合部202、及び投票部203は、記憶媒体1005から読み出され、メモリ1002にロードされた上述のプログラムによって制御されているプロセッサ1001によって実現できる。
モデル画像記憶部109、モデル記憶部110、及び関係記憶部111は、メモリ1002、及び/又は、ハードディスクドライブなどの記憶装置1003によって実現できる。
上述のように、抽出部101、照合部102、投票部103、クラスタリング部104、判定部105、関係算出部106、受付部107、出力部108、再構成部201、照合部202、投票部203、モデル画像記憶部109、モデル記憶部110、及び関係記憶部111の少なくとも1つは、専用ハードウェアによって実現できる。
本発明の実施形態のいずれかに含まれるいずれか1つ又は複数の部は、専用ハードウェア(例えば電気回路)として実装されていてもよい。本発明の実施形態のいずれかに含まれるいずれか1つ又は複数の部は、プログラムがロードされるメモリと、メモリにロードされたプログラムにより制御されるプロセッサとを含むコンピュータを使って実装されていてもよい。
図13は、本発明の第1の実施形態に係る物体認識装置の構造の例を示すブロック図である。図13によれば、物体認識装置100Bは、抽出回路2101、照合回路2102、投票回路2103、クラスタリング回路2104、判定回路2105、関係算出回路2106、受付回路2107、出力回路2108、モデル画像記憶装置2109、モデル記憶装置2110、及び関係記憶装置2111を含むことによって実装される。
抽出回路2101、照合回路2102、投票回路2103、クラスタリング回路2104、判定回路2105、関係算出回路2106、受付回路2107、出力回路2108、モデル画像記憶装置2109、モデル記憶装置2110、及び関係記憶装置2111は、1つの回路又は複数の回路として実装されていてもよい。抽出回路2101、照合回路2102、投票回路2103、クラスタリング回路2104、判定回路2105、関係算出回路2106、受付回路2107、出力回路2108、モデル画像記憶装置2109、モデル記憶装置2110、及び関係記憶装置2111は、1つの装置又は複数の装置において実装されていればよい。
抽出回路2101は、抽出部101として動作する。照合回路2102は、照合部102として動作する。投票部2103は、投票部103として動作する。クラスタリング部2104は、クラスタリング部104として動作する。判定回路2105は、判定部105として動作する。関係算出回路2106は、関係算出部106として動作する。受付回路2107は、受付部107として動作する。出力回路2108は、出力部108として動作する。モデル画像記憶装置2109は、モデル画像記憶部109として動作する。モデル記憶装置2110は、モデル記憶部110として動作する。関係記憶装置2111は、関係記憶部111として動作する。モデル画像記憶装置2109、モデル記憶装置2110、及び関係記憶装置2111は、ハードディスク装置などの記憶装置を使って実装されていてもよい。モデル画像記憶装置2109、モデル記憶装置2110、及び関係記憶装置2111は、メモリ回路を使って実装されていてもよい。
図14は、本発明の第2の実施形態に係る物体認識装置の構造の例を示すブロック図である。図14によれば、物体認識装置200Bは、抽出回路2101、再構成回路2201、照合回路2202、投票回路2203、クラスタリング回路2104、判定回路2105、関係算出回路2106、受付回路2107、出力回路2108、モデル画像記憶装置2109、モデル記憶装置2110、及び関係記憶装置2111を含むことにって実装されている。
抽出回路2101、再構成回路2201、照合回路2202、投票回路2203、クラスタリング回路2104、判定回路2105、関係算出回路2106、受付回路2107、出力回路2108、モデル画像記憶装置2109、モデル記憶装置2110、及び関係記憶装置2111は、1つの回路又は複数の回路として実装されていてもよい。抽出回路2101、再構成回路2201、照合回路2202、投票回路2203、クラスタリング回路2104、判定回路2105、関係算出回路2106、受付回路2107、出力回路2108、モデル画像記憶装置2109、モデル記憶装置2110、及び関係記憶装置2111は、1つの装置又は複数の装置において実装されていてもよい。
抽出回路2101は、抽出部101として動作する。再構成回路2201は、再構成部201として動作する。照合回路2202は、照合部202として動作する。投票回路2203は、投票部203として動作する。クラスタリング回路2104は、クラスタリング部104として動作する。判定回路2105は、判定部105として動作する。関係算出回路2106は、関係算出部106として動作する。受付回路2107は、受付部107として動作する。出力回路2108は、出力部108として動作する。モデル画像記憶装置2109は、モデル画像記憶部109として動作する。モデル記憶装置2110は、モデル記憶部110として動作する。関係記憶装置2111は、関係記憶部111として動作する。モデル画像記憶装置2109、モデル記憶装置2110、及び関係記憶装置2111は、ハードディスク装置などの記憶装置を使って実装されていてもよい。モデル画像記憶装置2109、モデル記憶装置2110、及び関係記憶装置2111は、メモリ回路を使って実装されていてもよい。
図15は、本発明の第3の実施形態に係る物体認識装置の構造の例を示すブロック図である。図15によれば、物体認識装置300は、抽出回路2101、照合回路2102、投票回路2103、クラスタリング回路2104、判定回路2105、及び関係算出回路2106を含むことにより実装される。
抽出回路2101、照合回路2102、投票回路2103、クラスタリング回路2104、判定回路2105、及び関係算出回路2106は、1つの回路又は複数の回路として実装されていてもよい。抽出回路2101、照合回路2102、投票回路2103、クラスタリング回路2104、判定回路2105、及び関係算出回路2106は、1つの装置又は複数の装置において実装されていてもよい。
抽出回路2101は、抽出部101として動作する。照合回路2102は、照合部102として動作する。投票部2103は、投票部103として動作する。クラスタリング部2104は、クラスタリング部104として動作する。判定回路2105は、判定部105として動作する。関係算出回路2106は、関係算出部106として動作する。
本発明は特にその実施形態を参照して示され、説明されたが、本発明はそれらの実施形態に限定されるものではない。実施形態及び詳細には、請求項により規定される本発明の趣旨及び範囲から逸脱することなく、様々な変更がなされうるということを、当業者は理解するであろう。
100A 物体認識装置
100B 物体認識装置
100C 物体認識装置
101 抽出部
102 照合部
103 投票部
103A 投票部
104 クラスタリング部
105 判定部
106 関係算出部
107 受付部
108 出力部
109 モデル画像記憶部
110 モデル記憶部
111 関係記憶部
200A 物体認識装置
200B 物体認識装置
200C 物体認識装置
201 再構成部
202 照合部
203 投票部
203A 投票部
300 物体認識装置
1000 コンピュータ
1001 プロセッサ
1002 メモリ
1003 記憶装置
1004 I/Oインタフェース
1005 記憶媒体
1031 投票算出部
1032 投票校正部
1033 第2クラスタリング部
1100 物体認識装置
1101 抽出部
1102 照合部
1103 投票部
1104 クラスタリング部
1105 判定部
1106 モデル画像記憶部
1107 受付部
1108 出力部
1110 モデル記憶部
1200 物体認識装置
1201 再構成部
1202 照合部
1203 投票部
2031 投票算出回路
2032 投票校正回路
2033 第2クラスタリング回路
2101 抽出回路
2102 照合回路
2103 投票回路
2104 クラスタリング回路
2105 判定回路
2106 関係算出回路
2107 受付回路
2108 出力回路
2109 モデル画像記憶装置
2110 モデル記憶装置
2111 関係記憶装置
2201 再構成回路
2202 照合回路
2203 投票回路

Claims (10)

  1. 画像から特徴量を抽出する抽出手段と、
    前記画像から抽出された前記特徴量である第1特徴量を、物体を表す画像であるモデル画像から抽出された特徴量である複数の第2特徴量と照合する照合手段と、
    前記モデル画像に基づいて、前記モデル画像の間の幾何学的関係を表す相対的なカメラ姿勢を計算する関係算出手段と、
    前記照合の結果と前記相対的なカメラ姿勢とに基づいて、前記第1特徴量と前記複数の第2特徴量との間の、前記相対的なカメラ姿勢による影響が除かれた幾何学的関係である、校正された幾何学的関係を表す校正済み投票を計算する投票手段と、
    前記校正済み投票に対してクラスタリングを行うクラスタリング手段と、
    前記画像が前記物体を表しているか否かを、前記クラスタリングの結果に基づいて判定する判定手段と、
    を備える物体認識装置。
  2. 前記モデル画像の中の、3次元座標が再構成される3次元点に関連する複数の点における、前記複数の第2特徴量を含む3次元モデルを、前記モデル画像に基づいて再構成する再構成手段をさらに備え、
    前記照合手段は、前記第1特徴量を、前記3次元モデルの中の前記複数の第2特徴量と照合する、
    請求項1に記載の物体認識装置。
  3. 前記投票手段は、前記第1特徴量と前記複数の第2特徴量の各々との間の幾何学的関係を表す相対的な投票を計算し、前記相対的な投票及び前記相対的なカメラ姿勢に基づいて前記校正済み投票を計算する、
    請求項1又は2に記載の物体認識装置。
  4. 前記投票手段は、さらに、前記相対的な投票に対してクラスタリングを行って前記相対的な投票の外れ値を除外し、前記外れ値が除外された前記相対的な投票に基づいて前記校正済み投票を計算する、
    請求項3に記載の物体認識装置。
  5. 画像から特徴量を抽出し、
    前記画像から抽出された前記特徴量である第1特徴量を、物体を表す画像であるモデル画像から抽出された特徴量である複数の第2特徴量と照合し、
    前記モデル画像に基づいて、前記モデル画像の間の幾何学的関係を表す相対的なカメラ姿勢を計算し、
    前記照合の結果と前記相対的なカメラ姿勢とに基づいて、前記第1特徴量と前記複数の第2特徴量との間の、前記相対的なカメラ姿勢による影響が除かれた幾何学的関係である、校正された幾何学的関係を表す校正済み投票を計算し、
    前記校正済み投票に対してクラスタリングを行い、
    前記画像が前記物体を表しているか否かを、前記クラスタリングの結果に基づいて判定する、
    物体認識方法。
  6. 前記モデル画像の中の、3次元座標が再構成される3次元点に関連する複数の点における、前記複数の第2特徴量を含む3次元モデルを、前記モデル画像に基づいて再構成し、
    前記第1特徴量を、前記3次元モデルの中の前記複数の第2特徴量と照合する、
    請求項5に記載の物体認識方法。
  7. 前記第1特徴量と前記複数の第2特徴量の各々との間の幾何学的関係を表す相対的な投票を計算し、前記相対的な投票及び前記相対的なカメラ姿勢に基づいて前記校正済み投票を計算する、
    請求項5又は6に記載の物体認識方法。
  8. コンピュータ
    画像から特徴量を抽出する抽出処理と、
    前記画像から抽出された前記特徴量である第1特徴量を、物体を表す画像であるモデル画像から抽出された特徴量である複数の第2特徴量と照合する照合処理と、
    前記モデル画像に基づいて、前記モデル画像の間の幾何学的関係を表す相対的なカメラ姿勢を計算する関係算出処理と、
    前記照合の結果と前記相対的なカメラ姿勢とに基づいて、前記第1特徴量と前記複数の第2特徴量との間の、前記相対的なカメラ姿勢による影響が除かれた幾何学的関係である、校正された幾何学的関係を表す校正済み投票を計算する投票処理と、
    前記校正済み投票に対してクラスタリングを行うクラスタリング処理と、
    及び前記画像が前記物体を表しているか否かを、前記クラスタリングの結果に基づいて判定する判定処理と、
    を実行させるプログラム
  9. コンピュータ
    前記モデル画像の中の、3次元座標が再構成される3次元点に関連する複数の点における、前記複数の第2特徴量を含む3次元モデルを、前記モデル画像に基づいて再構成する再構成処理を実行させ
    前記照合処理は、前記第1特徴量を、前記3次元モデルの中の前記複数の第2特徴量と照合する、
    請求項8に記載のプログラム
  10. 前記投票処理は、前記第1特徴量と前記複数の第2特徴量の各々との間の幾何学的関係を表す相対的な投票を計算し、前記相対的な投票及び前記相対的なカメラ姿勢に基づいて前記校正済み投票を計算する、
    請求項8又は9に記載のプログラム
JP2018512345A 2015-09-11 2015-09-11 物体認識装置、物体認識方法及び記憶媒体 Active JP6544482B2 (ja)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2015/004628 WO2017042852A1 (en) 2015-09-11 2015-09-11 Object recognition appratus, object recognition method and storage medium

Publications (2)

Publication Number Publication Date
JP2018526753A JP2018526753A (ja) 2018-09-13
JP6544482B2 true JP6544482B2 (ja) 2019-07-17

Family

ID=58239254

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2018512345A Active JP6544482B2 (ja) 2015-09-11 2015-09-11 物体認識装置、物体認識方法及び記憶媒体

Country Status (2)

Country Link
JP (1) JP6544482B2 (ja)
WO (1) WO2017042852A1 (ja)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110175546B (zh) * 2019-05-15 2022-02-25 深圳市商汤科技有限公司 图像处理方法及装置、电子设备和存储介质
CN110619282B (zh) * 2019-08-26 2023-01-10 海南撰云空间信息技术有限公司 一种无人机正射影像建筑物自动提取方法

Also Published As

Publication number Publication date
WO2017042852A1 (en) 2017-03-16
JP2018526753A (ja) 2018-09-13

Similar Documents

Publication Publication Date Title
CN110411441B (zh) 用于多模态映射和定位的系统和方法
JP6430064B2 (ja) データを位置合わせする方法及びシステム
Aldoma et al. Multimodal cue integration through hypotheses verification for rgb-d object recognition and 6dof pose estimation
US10255492B2 (en) Image processing method providing information for identifying a function of an object, the function being identified based on a pose of a person with respect to the object
Drost et al. Model globally, match locally: Efficient and robust 3D object recognition
Mohamad et al. Generalized 4-points congruent sets for 3d registration
JP4709668B2 (ja) 3次元物体認識システム
EP2201495B1 (en) Computer vision cad models
JP5328979B2 (ja) 物体認識方法、物体認識装置、自律移動ロボット
Sadeghi et al. A weighted KNN epipolar geometry-based approach for vision-based indoor localization using smartphone cameras
US9418313B2 (en) Method for searching for a similar image in an image database based on a reference image
WO2017199141A1 (en) Point cloud matching method
Vretos et al. 3D facial expression recognition using Zernike moments on depth images
CN108961164A (zh) 基于几何不变量的图像配准拼接方法和装置及计算机设备
CN115393519A (zh) 一种基于红外可见光融合图像的三维重构方法
Sahin et al. A learning-based variable size part extraction architecture for 6D object pose recovery in depth images
JP6544482B2 (ja) 物体認識装置、物体認識方法及び記憶媒体
JP5734000B2 (ja) 物体識別システムおよび方法、並びに、特徴点位置抽出システムおよび方法
JP6086491B2 (ja) 画像処理装置およびそのデータベース構築装置
Ramisa et al. Mobile robot localization using panoramic vision and combinations of feature region detectors
Kordelas et al. Viewpoint independent object recognition in cluttered scenes exploiting ray-triangle intersection and SIFT algorithms
Ma et al. A Novel Sketch-Based Framework Utilizing Contour Cues for Efficient Point Cloud Registration
CN111783497B (zh) 视频中目标的特征确定方法、装置和计算机可读存储介质
Bagchi et al. Reg3DFacePtCd: registration of 3D point clouds using a common set of landmarks for alignment of human face images
JP6393495B2 (ja) 画像処理装置および物体認識方法

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20180306

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20180306

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20190521

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20190603

R150 Certificate of patent or registration of utility model

Ref document number: 6544482

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150