JP2015170363A - 3Dオブジェクトの認識および位置合わせ(registration)の方法 - Google Patents

3Dオブジェクトの認識および位置合わせ(registration)の方法 Download PDF

Info

Publication number
JP2015170363A
JP2015170363A JP2015041618A JP2015041618A JP2015170363A JP 2015170363 A JP2015170363 A JP 2015170363A JP 2015041618 A JP2015041618 A JP 2015041618A JP 2015041618 A JP2015041618 A JP 2015041618A JP 2015170363 A JP2015170363 A JP 2015170363A
Authority
JP
Japan
Prior art keywords
feature
scale
comparing
sphere
objects
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2015041618A
Other languages
English (en)
Inventor
ミン−トリ ファム
Pham Minh-Tri
ミン−トリ ファム
フランク パーベット
Perbet Frank
フランク パーベット
ビョルン ステンガー
Stenger Bjorn
ビョルン ステンガー
リカルド ゲラルディ
Gherardi Riccardo
リカルド ゲラルディ
オリバー ウッドフォード
Woodford Oliver
オリバー ウッドフォード
サム ジョンソン
Johnson Sam
サム ジョンソン
ロベルト シポラ
Cipolla Robert
ロベルト シポラ
スティーブン リウィッキ
Liwicki Stephan
スティーブン リウィッキ
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Original Assignee
Toshiba Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp filed Critical Toshiba Corp
Publication of JP2015170363A publication Critical patent/JP2015170363A/ja
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/60Type of objects
    • G06V20/64Three-dimensional objects
    • G06V20/653Three-dimensional objects by matching three-dimensional models, e.g. conformal mapping of Riemann surfaces
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/30Determination of transform parameters for the alignment of images, i.e. image registration
    • G06T7/33Determination of transform parameters for the alignment of images, i.e. image registration using feature-based methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/74Image or video pattern matching; Proximity measures in feature spaces
    • G06V10/75Organisation of the matching processes, e.g. simultaneous or sequential comparisons of image or video features; Coarse-fine approaches, e.g. multi-scale approaches; using context analysis; Selection of dictionaries
    • G06V10/751Comparing pixel values or logical combinations thereof, or feature values having positional relevance, e.g. template matching
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/74Image or video pattern matching; Proximity measures in feature spaces
    • G06V10/75Organisation of the matching processes, e.g. simultaneous or sequential comparisons of image or video features; Coarse-fine approaches, e.g. multi-scale approaches; using context analysis; Selection of dictionaries
    • G06V10/757Matching configurations of points or features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/97Determining parameters from multiple pictures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Databases & Information Systems (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Computing Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Image Analysis (AREA)

Abstract

【課題】オブジェクトの認識及び位置合わせの新しい方法を提供する
【解決手段】複数のオブジェクトを比較する方法であって、各オブジェクトの少なくとも1つの特徴を3D球体表現で表現することを具備する。各球体の半径は、オブジェクトのフレームに対する特徴のスケールを表し、各球体の位置は、オブジェクトのフレームにおける特徴の並進を表す。方法は、複数のオブジェクト間及び複数のオブジェクトの姿勢間の類似性を判定するために3D球体によって表わされるスケール及び並進を比較することにより、オブジェクトを比較することを更に具備する。
【選択図】図4

Description

ここに記述されるように本発明の実施形態は、オブジェクトの位置合わせおよび認識の分野に一般的に関係する。
多くのコンピュータ・ビジョンおよび画像処理のアプリケーションが、3D画像からオブジェクトを認識および位置合わせする能力を必要とする。
係るアプリケーションは、多くの場合、画像内の主な特徴を認識し、これらの特徴を数学的な形式で表現する。それから、投票(vote)と名付けられた、オブジェクトとその姿勢の予測を生成することができる。異なる投票間で選択がなされる。
(関連出願の相互参照)
この出願は、2014年3月4日に提出された英国特許出願No.1403826.9に基づいていて、かつ、その優先権の利益を主張するものであって、その全内容が参照によってここに組込まれる。
図1は、3D画像をキャプチャするために使用される装置の概略図である。 図2は、特徴を例示する画像である 図3(a)は、キャプチャされたオブジェクトの3D画像から生成される点群であり、図3(b)は、抽出された特徴を用いた場合の図3(a)の画像を示す。 図4は、投票がどのように生成されるかを示すフローチャートである。 図5は、訓練データからのハッシュテーブルの構築を示すフローチャートである。 図6は、ハッシュテーブルを使用して、投票を選択するためのステップを示すフローチャートである。 図7は、姿勢の回転も考慮される場合における図6のフローチャートのバリエーションを示すフローチャートである。 図8は、点間距離を比較するための2Dの方法を示すプロットである。 図9は、点間距離を比較するための3Dの方法の結果を示すプロットである。 図10(a)〜10(d)は、回転の様々な分布について、回転の配列を比較するための様々な尺度の性能を示すプロットである。 図11は、訓練データからのバンテージポイント探索木の構築を示すフローチャートである。 図12は、図11の探索木を使用して投票を選択するためのステップを示すフローチャートである。 図13は、図11および図12で使用されるタイプの探索木の概略図である。
実施形態によれば、オブジェクトに関連する複数の画像データを比較する方法が提供される。方法は、各オブジェクトの少なくとも1つの特徴を3D球体表現で表現することを具備する。各球体の半径は、オブジェクトのフレームに対する特徴のスケールを表す。各球体の位置は、オブジェクトのフレームにおける特徴の並進を表す。方法は、複数のオブジェクト間および当該複数のオブジェクトの姿勢間の類似性を判定するために3D球体によって表わされるスケールおよび並進を比較することにより、オブジェクトを比較することを更に具備する。
オブジェクトのフレームはオブジェクトのローカル座標系として定義される。一例では、ローカル座標系の原点はオブジェクトの中心にあり、3軸は予め定義されたオブジェクトの3D方向へと向きを調整され、軸の一単位長がオブジェクトのサイズに対応する。
さらなる実施形態において、3D球体表現は、オブジェクトのフレームに対する特徴の回転に関する情報をさらに含む。オブジェクトを比較することは、3D球体表現によって定義されるスケール、並進および回転を比較することを含む。3D方向が、3D方向を備える3D球体または3D有向球体として参照されることになる3D球体に割り当てられる。技術的には、3D球体は直接的な膨脹によって表現され、3D有向球体は直接的な類似点によって表現される。
実施形態において、スケールおよび並進を比較することは、ハッシュテーブルを使用して、第1のオブジェクトの特徴を当該第1のオブジェクトと比較されることになる第2のオブジェクトの特徴と比較することを含む。ハッシュテーブルは、スケールおよび並進の成分に関するハッシュ関数を使用してハッシングされた第2のオブジェクトの特徴のスケールおよび並進に関するエントリを含む。方法は、第2のオブジェクトの特徴に対して第1のオブジェクトからの特徴のマッチングを得るためにハッシュテーブルを探索することをさらに具備する。
上記実施形態において、ハッシュ関数は次式で記述されてもよい。
ここで、h(X)は、直接的な類似点Xのハッシュ関数であり、
は、直接的な類似点の膨脹部分であり、Xは、直接的な類似点Xのスケール部分であり、Xは、直接的な類似点Xの並進部分であり、
ηは、量子化器である。
この実施形態において、ハッシュテーブルは、スケールおよび並進の成分毎に全ての回転のエントリを含む。
ハッシュテーブルは、回転情報を含まない3D球体表現およびオブジェクトのフレームに対する特徴の回転に関する情報を含む3D球体表現を使用して、特徴を比較するために用いられてもよい。オブジェクトを比較することは、前記3D球体表現によって定義されるスケール、並進および回転を比較することをさらに含む。方法は、第1のオブジェクトの特徴の回転を第2のオブジェクトの特徴の回転と比較するために、スケールおよび並進の成分についてマッチングが達成された場合に各ハッシュテーブルエントリに格納された回転を比較することをさらに具備する。
様々な尺度が、3Dの回転を比較するために使用することができる。実施形態において、回転は3Dのコサインベース距離を使用して比較される。例えば、コサインベース距離は、次のように表現されてもよい。
ここで、r=(v,α)およびr=(v,α)は、軸角表現(アクシス−アングル表現(axis-angle representation))で表される3D回転の配列である。va,jおよびαa,jは、配列rの第j番目の成分の回転軸および回転角をそれぞれ表示する。vb,jおよびαb,jは、配列rの第j番目の成分の回転軸および回転角をそれぞれ表示する。
上記実施形態は、比較対象の2つのオブジェクトの間の最も近い特徴を探索するためのハッシュテーブルの使用を示唆した。しかしながら、実施形態では、これは、探索木を使用して、第1のオブジェクトの特徴を当該第1のオブジェクトと比較されることになる第2のオブジェクトの特徴と比較することによって達成されてもよい。この探索木は、第2のオブジェクトの特徴のスケールおよび並進の成分を表すエントリを含む。スケールおよび並進の成分は、閉形式の式を使用して比較される。
ここで、探索木は、第1のオブジェクトおよび第2のオブジェクトの特徴間の最近傍を見つけるために使用される。スケールおよび並進の成分は、2つの特徴の間のポアンカレ距離を測定することにより比較される。例えば、距離尺度は、次のように表現されてもよい。
ここで、d(x,y)が、x=(r;c)およびy=(r;c)によって表現される2つの球体xおよびyの間の距離を表す。ここで、r;r>0は、半径を表示し、c,c∈Rは、3Dの球体の中心を表示し、cosh()は、双曲線余弦関数である。
探索木は、3D球体表現がオブジェクトのフレームに対する特徴の回転に関する情報をさらに含む場合にも使用されてもよい。オブジェクトを比較することは、下記数式を使用して3D球体表現によって定義されるスケール、並進および回転を比較することをさらに含む。
ここで、d(x,y)は上に定義される2つの球体xおよびyの間の距離を表し、2つの球体xおよびyは、2つの3×3の回転行列R,R∈SO(3)として表現される2つの3D方向に関連付けられる。
の項は、フロベニウスノルムを介した2つの3D方向の間の距離関数を表す。係数a;a>0である。さらなる実施形態において、2つの3D方向の間の距離関数は、上記のコサインベース距離d(r,r)である。
実施形態において、オブジェクト認識の方法が提供される。方法は、複数の投票を受け取ることを具備する。各投票は、オブジェクトの姿勢および位置の予測に相当する。方法は、投票毎に、オブジェクトの特徴に3D球体表現を割り当てることをさらに具備する。各球体の半径は、オブジェクトのフレームに対する特徴のスケールを表す。各球体の位置は、オブジェクトのフレームにおける特徴の並進を表す。方法は、投票毎に3D球体表現によって表される特徴を、複数のオブジェクトおよび姿勢についての特徴の3D表現のデータベースと比較することによって、最高のマッチングを提供する投票を判定することとをさらに具備する。特徴を比較することは、3D球体によって表現されるスケールおよび並進を比較することを含む。方法は、データベースにおけるオブジェクトおよび姿勢とマッチする特徴の数が最多である投票を選択することをさらに具備する。
上記実施形態において、3D球体表現は投票に割り当てられ、データベース内のオブジェクトおよび姿勢はオブジェクトのフレームに対する特徴の回転に関する情報をさらに含む。投票を判定することは、3D球体表現によって定義されるスケール、並進および回転を比較することを含む。
上記方法において、複数の投票を受け取ることは、オブジェクトの3D画像データを得ることと、オブジェクトの特徴を識別することと、各特徴に記述を割り当てることとを含んでもよい。各記述は、特徴が関係をもつ当該特徴の特性の表示を含む。複数の投票を受け取ることは、特徴をオブジェクトのデータベースと比較することをさらに含む。オブジェクトのデータベースは、既知のオブジェクトの特徴の記述を含む。複数の投票を受け取ることは、3D画像データから識別された少なくとも1つの特徴にマッチする特徴を持つオブジェクトを選択することによって投票を生成することをさらに含む。
さらなる実施形態において、シーン内のオブジェクトを位置合わせする方法が提供されてよい。方法は、位置合わせ対象のオブジェクトの3Dデータを得ることと、シーンの3Dデータを得ることと、複数の投票を判定するために、位置合わせ対象のオブジェクトから特徴を抽出し、シーンから特徴を抽出することとを具備する。各投票は、シーン内のオブジェクトの姿勢および位置の予測に相当する。方法は、位置合わせ対象のオブジェクトの存在および姿勢を識別するために、上述の方法を使用して、位置合わせ対象のオブジェクトを投票と比較することをさらに具備する。
さらなる実施形態において、複数のオブジェクトを比較する装置が提供される。装置は、3D球体表現として各オブジェクトの少なくとも1つの特徴を含んでいるオブジェクトの3Dデータを保存するように構成されたメモリを具備する。各球体表現の半径は、オブジェクトのフレームに対する特徴のスケールを表す。各球体表現の位置は、オブジェクトのフレームにおける特徴の並進を表す。装置は、複数のオブジェクト間および当該複数のオブジェクトの姿勢間の類似性を判定するために3D球体によって表わされるスケールおよび並進を比較することにより、オブジェクトを比較するように構成されたプロセッサをさらに具備する。
本発明の実施形態はソフトウェアによって実装することができるので、本発明の実施形態は任意の適切な搬送媒体で汎用コンピュータに提供されるコンピュータコードを包含する。
搬送媒体は、フロッピー(登録商標)ディスク、CD−ROM、磁気デバイス若しくはプログラム可能メモリデバイスなどの任意の記録媒体、または、任意の信号(例えば、電気信号、光信号、若しくは、マイクロ波信号)などの任意の一時的な媒体も含むことができる。
第1の実施形態に従うシステムおよび方法が記述されるだろう。
図1は、3Dデータをキャプチャするために使用できる適切なシステムを示す。システムは、カメラ35、分析装置21およびディスプレイ(図示せず)を基本的に含む。
実施形態において、カメラ35は、標準的なビデオカメラであって、ユーザによって移動させることができる。動作時に、カメラ35は、画像化されることになるオブジェクトのまわりで自由に移動させられる。カメラは単に携帯型であってよい。しかしながら、さらなる実施形態において、カメラは三脚または他の機械的な支持器具上に取り付けられる。それから、様々なカメラ姿勢で収集された2D画像を使用して、3D点群が構築されるかもしれない。他の実施形態において、例えば、離れて据えられた複数の開口を備えるステレオカメラ、または、オブジェクト上にパターンを投影できるカメラ、LIDARセンサおよびTOF(Time Of Flight)センサといった、3Dカメラまたは他のデプスセンサが使用されてもよい。CATスキャナおよびMRIスキャナなどの医療スキャナがデータを提供するために使用されてもよい。これらのタイプのカメラおよびスキャナから3D点群を生成する方法は、既知であり、ここではこれ以上論じられない。
分析装置21は、カメラ35からカメラデータを受信するためのセクションを含む。分析装置21は、プログラム25を実行するプロセッサ23を含む。分析装置21は、ストレージ27をさらに含む。ストレージ27は、カメラ35から受信されたデータを分析するためにプログラム25によって使用されるデータを格納する。分析装置21は、入力モジュール31および出力モジュール33をさらに備える。入力モジュール31は、カメラ35に接続される。入力モジュール31は単にカメラ35から直接的にデータを受信するかもしれないし、或いは、入力モジュール31は外部記録媒体またはネットワークからカメラデータを受信するかもしれない。
使用時に、分析装置21は、入力モジュール31を通じてカメラデータを受信する。プロセッサ23で実行されるプログラム25は、ストレージ27に保存されたデータを使用してカメラデータを分析し、3Dデータを生成してオブジェクトとそれらの姿勢を認識する。ディスプレイ(図示せず)またはローカルの若しくはネットワーク化された他の出力デバイスに接続され得る出力モジュール35を介して、データが出力される。
図4では、ステップS101において、シーンの3D点群が得られる。3D点群に基づいて、ステップS103において、3D球体形式の局所的特徴と一緒にそれらの記述が入力シーンの点群から抽出される。これは、SURF−3DまたはISSのような既知のマルチスケールのキーポイント検出器を使用して達成されるかもしれない。図2は、そのような抽出された特徴の例を示す。特徴は、オブジェクトのコーナーに相当し、ディスクリプタベクトル、または、例えばスピン画像ディスクリプタ若しくは特徴の原点に近い点のセット番号をサンプリングするディスクリプタなどを使用して記述することができる。
図3(a)は、オブジェクト61の点群を示し、図3(b)は、特徴抽出後のオブジェクト61の点群を示しており、特徴は円(63)として示されている。
テスト時に、ステップS105において、特徴の記述を比較して投票の初期セットを生成することにより、シーンから抽出された特徴は訓練データ(トレイニングデータ(training data))から過去に抽出された特徴とマッチングされる。投票は、オブジェクト同一性をその姿勢と共に予測する仮説であって、位置、方向、および、スケールが未知の場合にはさらにスケールからなる。それから、ステップS109において、最高の投票が最終予測として選択されて返される。
実施形態では、特徴位置をアライメントするステップS107がハッシュテーブルを用いて実行される。
図5は、訓練データからハッシュテーブルを構築のためのステップを示すフロー図である。
この実施形態では、オブジェクトのスケールが変化するという3D認識のより一般的な事例が考慮されるだろう。オブジェクトの姿勢および特徴位置は、直接的な類似点として扱われる。記法上の便宜のために、X、XおよびXは、直接的な類似点Xのスケール、回転および並進部分をそれぞれ表示することになる。
図5のフロー図のステップは、一般的にはオフラインで行なわれるだろう。
オフラインフェーズ時に、認識対象のオブジェクトタイプ毎に訓練データが収集される。ステップS151において、訓練データに生じる全ての特徴位置が収集される。特徴は、訓練データから抽出され、オブジェクト(i)毎および当該オブジェクトの訓練事例(j)毎に処理される。ステップS153において、オブジェクトカウント(i)は1に設定され、第i番目のオブジェクトの処理がステップS155で開始する。次に、上記オブジェクトの訓練事例カウント(j)が1に設定され、第j番目の訓練事例の処理がステップS159で開始する。
次に、選択された特徴が、それらの対応するオブジェクト姿勢の逆(inverse)の左乗法を介して正規化される。これは、ステップS161において、特徴をオブジェクト空間に正規化させる。
次に、ハッシュキーがスケールおよび並進の成分に基づいて計算される単一のハッシュテーブルHに、オブジェクトiの全ての正規化された位置が格納されるように、ハッシュテーブルが作成される。ハッシュ関数h(・)の設計が以下に詳述される。ハッシュエントリの値は、当該値へとハッシングされる全ての正規化された位置の回転のセットである。
直接的な類似点のスケールおよび並進の部分は、空間において、(直接)膨張と呼ばれる変形を形成する。
ここで、Xは、直接的な類似点Xの膨脹部分である。
直接的な類似点Xのクエリが与えられると、XDはマッピングφ:DT(3)→Rを介して4D点へと変換される。
4D点は、量子化器η:R→Zを介して4D整数ベクトル(すなわち、ハッシュキー)へと量子化される。
ここで、σとσはスケールと並進との間にトレードオフを作ることを可能にするパラメータであり、次の演算子は実数の整数値を見つけ出す。
故に、ハッシュ関数h(・)は次のように定義される。
効率的なハッシュテーブルは、全てのハッシュエントリがおよそ同じ確率でアクセスされることを保証するべきであり、その結果、衝突は最小化される。これを達成するために、φ(・)は以下の補題が当てはまるように作成される。
[補題1] Rのユークリッド体積要素は、φ(・)を介してDT(3)上の左不変の4形式(4-form)に引き戻される。
[証明] D(x):=dxdxdxdxとする。Xでのユークリッド体積要素をφ−1(x)と定義する。補題を証明するためには、全てのY∈DT(3)およびx∈Rについて示せば十分である。
y:=φ(Y)とする。(2)を(4)に代入することで次の数式がもたらされる。
(7)から(5)のヤコビ行列式は1に等しいことがわかる。故に、D(φ(Yφ−1(x)))=|1|dxdxdxdx=D(x)。
DT(3)において膨脹が一様に分布する(すなわち、(左)ハール測度によって分布する)ならば、それらのφ(・)を介した座標がR4に一様に分布すること、そしてその逆も同様であることを補題1は暗示する。この事実を、量子化器ηがRを相等しい体積を持つセルへと分割するという事実と組み合わせると、膨脹が一様に分布するならば、それらのハッシュキーが一様に分布することを演繹できる。
以下のアルゴリズム1は、図5を参照して上述されたオフライン訓練フェーズを示す。
ここで、FおよびCは、Fi,j,kが第i番目のオブジェクトの訓練事例の第k番目の特徴位置を表示し、Ci,jが第i番目のオブジェクトの第j番目の訓練事例の姿勢を表示するような、マルチインデックスリストである。
図6は、図5を参照して説明されたハッシュテーブルを使用してシーンの特徴をマッチングするステップを示すフロー図である。オフライン訓練フェーズとオンラインフェーズとで、同じ特徴検出器が使用されるべきである。
ステップS201において、探索空間はシーンから選択された3D球体特徴に制限される。各球体特徴は、オブジェクト同一性および姿勢の予測である投票に割り当てられる。ステップS203において、投票カウンタvが1に割り当てられる。ステップS205において、投票vからの特徴が選択される。
ステップS207において、Sで表示される、投票のシーン特徴位置は、オブジェクトに関する投票からの特徴を正規化するために、当該投票の予測姿勢の逆を左掛けされている。
次に、各特徴は、図5を参照して説明されたように構築されたハッシュテーブルHを使用して訓練データと比較される。
特定の投票についての特徴マッチ数が計算される。それから、処理は、ステップS211において利用可能なさらなる投票があるかどうかを判定する。さらなる投票が利用可能である場合に、次の投票がステップS213において選択され、処理はステップS205から繰り返される。全ての投票が一旦分析されれば、ステップS215において、最大の特徴マッチ数を持つ投票が予測された姿勢およびオブジェクトとして選択される。
上記実施形態の方法において、投票は、特徴記述ではなく特徴位置の比較により選択される。これは、全体としてオブジェクトのジオメトリを利用する。
上記2つの方法は、特徴位置を使用するだけである。しかしながら、さらなる実施形態では、特徴の回転も考慮される。図5を参照して説明された訓練データの収集に戻ると、ステップS163ではハッシュテーブルが作成される。各ハッシュエントリは、当該ハッシュエントリにハッシングされた、すべての正常化された位置の回転のセットである。
回転を比較する場合に、ハッシュテーブルは先に説明されたのと同じやり方で機能させられるであろうが、各ハッシュエントリは回転のセットを含むだろう。
上述のように回転が比較される場合に、オンラインフェーズは、図6を参照して説明されたオンラインフェーズと同様である。不要な反復を回避するために、同様の参照符号が同様の特徴を表示するために使用されるであろう。
処理は、ステップS209までは図6を参照して説明されたのと同じやり方で進行するであろう。しかしながら、図7では、シーンの特徴の回転がハッシュエントリの回転のセットと比較される場合に行われるステップS210がさらにある。それから、シーンの特徴の回転がハッシュエントリの回転のセットと比較される。ハッシュエントリがスケールについて選択された特徴とマッチするとしても、回転でのマッチがなければそのマッチは考慮に入れられないであろう。
それから、処理は、最後の投票に達したかどうかを確かめるために処理がチェックをするステップS211へと進む。最後の投票に達していないならば、処理は次の投票を選択してステップS205へとループバックする。
全ての投票が一旦処理されると、マッチする投票の数の最も多い投票が選択される。
上記処理は、以下のアルゴリズムを用いて達成することができる。
このように、シーン特徴の配列、そして特にそれらの回転が、訓練データと比較される。上で説明されたように、方法は姿勢だけを必要とするのでいかなる特徴記述も伴わないことに留意されたい。故に、局所的特徴のジオメトリではなくオブジェクトのジオメトリが全体として利用される。
回転は多くの様々な方法を使用して比較することができる。実施形態では、2Dコサイン距離の3D汎化が使用される。
勾配方向の間のロバストなコサインベース距離は、回転特徴の配列のマッチングをするために使用することができる。画像Iが与えられると、各画素値の強度勾配の方向が回転角ri、j(j=1,・・・,N)、すなわち、第i番目の画像の第j番目の角度値、として記録される。2つの画像IおよびIの間の二乗距離は次式で与えられる。
距離関数およびそのロバストな特性は図8に示されるように視覚化することができる。この種の距離関数の利点はコサインの合計により生じる。特に、ランダムな角度方向を備える相関のないエリアPについて、距離値はほぼ一様に分布し、Σj∈Pcos(ra,j−rb,j)がほぼ0と等しく、かつ、距離は1になりがちである。一方、大いに相関のある回転の配列について、距離は約0である。このように、正対応(inlier)が比較的大きな影響を持ち距離を0へと引き寄せる一方で、誤対応(outlier)は比較的小さな影響を持ち距離を2ではなく1へと移す。
2Dでは、回転ri,jは、単に角度αi,jによって与えられた。3Dでは、回転は角/軸対(angle-axis pair)ri,j=(αi,j,vi,j)∈SO(3)として記述されると仮定することができる。実施形態では、3D回転の配列を比較するために次の距離関数を使用することができる。
次式、すなわち、両項は重み付けとして機能する点に留意されたい。
重みは、回転の単位軸の間の角度に依存するように慎重に選択される。
重みの特別な性質が図9に示される。2つの回転ra,jおよびrb,jが考慮される。両者が同じ軸va,j=vb,jを共有するならば、内積va,j・vb,j=1であり、距離は(1)でその2Dカウンタパートに変わる。反対軸va,j=−vb,jの場合には、va,j・vb,j=−1であってαb,jの符号は反転する。(αb,j,―vb,j)=(αb,j、va,j)に注目されたい。故に、問題は再び1にされる。−1<va,j・vb,j<1の場合に両方の部分の組み合わせが使用される。
3Dにおける、提案されたコサインベース距離は、回転の強度の比較とみなすことができる。回転がそれらの角度によって「大きい」および「小さい」と考えられるならば、同様の角度を好むことが実際的であると思われる。上記3D距離関数のロバストな特性は、相当に均等に分布したランダムな回転の距離カウントから生ずる。誤対応の平均は距離値の中心に近く、その一方で同様の回転は0に近い。これが、2Dにおけるコサイン距離のロバストな特性に対応する。
上述の3D距離は3D回転の新たな表現をもたらし、これは効率的かつロバストな比較を可能にする。これは以下に周角四元数(FAQ)表現と名付けられる。
二乗距離は以下のように書き換えることができる。
ここで、qi,jは次式で与えられる単位四元数である。
上記数式はFAQ表現を定義する。ここで、三角関数cos(・)およびsin(・)は、半角αi,j/2の代わりに周角αi,jに適用される。このように、各3D回転は、FAQではちょうど1単位の四元数に対応する。さらに、上記数式は、上で提案された新たな距離が新たなFAQ表現を用いるユークリッド距離の形式を持つことを示す。
FAQでの3D回転の平均は、大域的であり計算するのが容易である。単位四元数のセットが与えられると、平均は四元数を合計して結果をその四元数ノルムで割ることで単純に計算される。FAQ表現は、同じ単位四元数:q=(−1;0;0;0)への180°マッピングによる3D回転毎の縮退の場合(degenerate case)に付随する。
上記の新たなFAQ表現は、シーン特徴の回転を各ハッシュエントリでの回転のセットと比較するために使用することができる。両方の入力が損なわれる可能性がある、3D回転のロバストなマッチングの一般的な事例とは異なり、訓練データは多くの場合にクリーンなので、訓練特徴の回転は通常は正対応であると仮定することができる。したがって、方法は、たいていはシーン由来の回転を正対応と比較する。この事実を利用するために、使用(数式9)とは別に、左不変のバージョンが使用される。
ここで、Iは3×3の単位行列であり、Rは訓練特徴の回転であり、Xはシーン由来の回転である。
ここで、αおよびvはそれぞれR−1の角度および軸であり、faq(・)は回転行列のFAQ表現を表示する。
上記実施形態は、上述の新たなFAQ表現を使用して、回転を比較した。しかしながら、他の実施形態は回転を比較するために代替方法を使用することができる。これらのほとんどは、3D回転の様々な表現の下でユークリッド(および変形)である。オイラー角距離はオイラー角の間のユークリッド距離である。半角四元数(HAQ)表現の下の単位四元数の差のL2ノルムは、ベクトルの/外部の四元数距離および逆コサイン四元数距離につながる。SO(3)上の測地線の分析は、回転ベクトル(RV)のL2ノルム(すなわち、軸角度表現)である固有距離につながる。SO(3)の埋め込み空間Rのユークリッド距離は、回転行列(RM)の間の弦の/外部の距離をもたらす
実施形態において、HAQおよびRM表現の効率的な閉形式および効率的な回転手段とのそれらのつながりのために、当該HAQおよびRM表現に基づいて、外部距離尺度(例えば、埋め込み空間のユークリッド距離)が使用される。
図10は、上述の新たな3D距離尺度をHAQ、RMおよびRV距離と比較する。同様の回転が比較される場合(図10(a))に、RV表現は180°に近い角度での回転に敏感であり、ここでは、正規化された距離が約0から約1へとジャンプするかもしれない。他の全ての方法は、接近した角度をうまく識別することができる。ランダムな回転を比較する場合(図10(b))、RMおよびRVは、小さな距離または大きな距離へと、結果に強くバイアスをかける。他方では、HAQの下での距離および3Dコサインベース距離は、より均一に分布する。3Dコサインベース距離は、同様の回転軸を持つ回転について利用される場合(図10(c))には、RMの下での距離と同様の特性を示す。ここで、HAQは全体的なより小さな距離を生成する。実際のトレンドを見ることができないので、RVの下の距離はこの状況に対して全く不安定である。しかしながら、同様の回転角にさらされた場合(図10(d))に、RVは3Dコサインベース距離と同様に機能する。RMは大きな距離へのバイアスを示す一方で、HAQは距離の均一な分布を持つ。
3Dの新たなコサインベース距離は、回転の強度の比較とみなすことができる。回転がそれらの角度によって「大きい」、「小さい」と考えられるならば、同様の角度を好むことが実際的であると思われる。3Dコサインベース距離関数のロバストな特性は、相当に均一に分布したランダムな回転の距離カウントから生じる。実施形態では、3Dコサインベース距離について、単一のビンに20%の最大分布がある。
誤対応の平均は距離値の中心に近い一方で、同様の回転は0に近い。これは、2Dのコサイン距離のロバストな特性に対応する。
上記実施形態は、シーンと訓練データとの間の特徴のマッチングを行うためにハッシュテーブルを使用した。しかしながら、さらなる実施形態では、異なる方法が使用される。
ここで、図11に示されるように、バンテージポイント探索木が使用される。オフラインフェーズにおいて、認識対象のオブジェクトタイプ毎に訓練データが収集される。ステップS351において、訓練データに生じる全ての特徴位置が収集される。特徴は、訓練データから抽出され、オブジェクト(i)毎および当該オブジェクトの訓練事例(j)毎に処理される。ステップS353ではオブジェクトカウント(i)が1に設定され、ステップS355では第i番目のオブジェクトの処理が開始する。次に、オブジェクトの訓練事例カウント(j)が1に設定され、第j番目の訓練事例の処理がステップS359に始まる。
次に、選択された特徴は、それらの対応するオブジェクト姿勢の逆の左掛けを介して正規化される。これは、ステップS361において、特徴をオブジェクト空間に正規化させる。
ステップS363において、処理は、オブジェクトの全ての事例が処理されたかどうかを確かめるためにチェックをする。オブジェクトの全ての事例が処理されていないならば、ステップS365において訓練事例カウントはインクリメントされ、次の訓練事例からの特徴が処理される。訓練事例の全てが一旦処理されれば、探索木が構築される。実施形態において、探索木は、図13を参照して説明されるタイプのバンテージポイント探索木である。
ステップS367において、バンテージポイントが選択され、しきい値はCである。それから、オブジェクトの木が、このバンテージポイントに関して構築される。実施形態において、バンテージポイントおよびしきい値は、訓練データからの特徴の集合を2つのグループに大まかに分割するために選ばれる。しかしながら、他の実施形態では、バンテージポイントはランダムで選択される。バンテージポイントは、しきい値Cを持つ。バンテージポイントからの各訓練特徴の距離が判定される。
実施形態において、閉形式解は、(特徴と同じ項で表現されている)バンテージポイントからの特徴の距離を比較するために使用される。実施形態において、特徴は、当該特徴のスケールおよび並進を表わす3D球体として表現される。2つの球体xおよびyがx=(r;c)およびy=(r;c)(ここで、r;r>0は半径を表示し、c,c∈Rは3Dの球体の中心を表示する)によって与えられるならば、次の式がxおよびyを距離関数として比較する。
ここで、関数cosh()は、双曲線余弦関数である。距離は、ポアンカレ距離として文献で知られている。
さらなる実施形態において、特徴も回転によって表現されて比較される。2つの球体xおよびyが、2つの3×3の回転行列R,R∈SO(3)として表現される2つの3D方向に関連付けられるならば、それらは以下の距離関数を使用して比較することができる。
ここで、第2項a||Rx−Ry|| は、フロベニウスノルムを介した2つの3D方向の間の距離関数を表し、係数a;a>0はユーザによって予め定義されていて2つの距離関数の間にトレードオフを作ることを可能にする。実際には、良好な性能を得るためにa1=a2=1を設定できるが、他の値も可能である。様々な距離尺度が数式(19)において使用可能であり、例えば、フロベニウスノルムを介した2つの3D方向の間の距離関数は数式(9)の距離によって代用可能である。
スケールおよび推移、または、スケール、並進および回転を使用して特徴が比較されることになっているかどうかによって、数式(18)または数式(19)が距離を計算するために使用されるだろう。木は訓練データから構築され、木は二分探索木として構築される。バンテージポイントおよびしきい値の選択により訓練データが一旦2グループに分割されると、グループ毎の適切なポイントおよびしきい値の選択により2グループの各々はさらなる2グループにさらに分割される。探索木は、訓練データがそれ以上分割できなくなるまで構築される。
探索木が1つのオブジェクトのために一旦確立されたならば、さらなるオブジェクトについて利用可能な訓練データがあるかどうかを確かめるためにチェックが行われるステップS371に処理は移る。さらなる訓練データが利用可能であるならば、ステップS373で処理は次のオブジェクトを選択し、訓練データにおけるオブジェクト毎に探索木が構築されるまでステップS359からの処理を繰り返す。
図12は、オンラインフェーズを示すフロー図である。ステップS501では、図6を参照して説明されたのと同じやり方で、探索空間がシーンから選択された3D球体特徴に制限される。各球体特徴は、オブジェクト同一性および姿勢の予測である投票に割り当てられる。ステップS503において、投票カウンタvが1に割り当てられる。ステップS505において、投票vからの特徴が選択される。
ステップS507において、Sで表示される、投票のシーン特徴位置は、オブジェクトに関する投票からの特徴を正規化するために、当該投票の予測姿勢の逆を左掛けされている。
ステップS509では、探索木が、投票内のシーン特徴の各々について最近傍を見つけるために使用される。探索は、図13に示されるように行われる。ここでは、シーン特徴は「A」で表される。各内部木ノードiは特徴Bおよびしきい値Cを持つ。各葉ノードiはアイテムDを持つ。所与の特徴Aについて最近傍を見つけることは、上の数式(18)または(19)のどちらかを使用してAとBとの間の距離を比較することによってなされる。最後には、葉ノードDが最近傍として選択されるであろう。
ステップS511において、シーン特徴と選択された最近傍との間の距離が、しきい値と比較される。距離がしきい値より大きいならば、最近傍がマッチするとはみなされない。距離がしきい値未満であるならば、マッチが判定される。投票毎にオブジェクトのマッチ数が判定され、最多のマッチ数を備える投票が正しい投票であると判定される。
上記方法は、オブジェクトの認識および位置合わせに使用可能である。
第1の例では、複数の訓練オブジェクトが用意される。これらは、3DCADモデルとして表現されたオブジェクトであってもよいし、3D再構成法によりスキャンされたオブジェクトであってもよい。目標はシーン内でこれらのオブジェクトを検出することであり、当該シーンは3D再構成またはレーザスキャナ(若しくは任意の他の3Dセンサ)によって得られる。
この例では、テストオブジェクトは、ベアリング、ブロック、腕木、自動車、歯車の歯、フランジ、ノブ、パイプおよび2種類のピストンである。ここでは、オブジェクトの点群の形式の訓練データが提供された。オブジェクトが3DCADモデルの形式で提供されていたならば、点群は単にCADモデルの頂点の集合となる。
それから、それぞれ10個のテストオブジェクトのうちの1つである単一の厳密なオブジェクトを包含する点群から計算された、1000組の投票のテストセットからなるデータセットの形式で、点群はシステムに提供された。
図5および図7を参照して説明された処理が使用された。この方法についての図7および図5の変形の方法が使用された。これらの方法は、テーブル1に示されるように異なる距離に対応する異なる重み付け戦略が採用されるアルゴリズム2の行6において異なる。ハッシングCNTが、σおよびσを見つけるためのベースライン法として使用された。ハッシングCNTは、比較が回転と一致せずに、膨張と一致することに純粋に基づく場合には、図6に関して記述された方法に与えられた名前である。ハッシングCNTは、比較が回転のマッチングなしで純粋に膨脹のマッチングに基づいている、図6を参照して説明された方法に与えられた名称である。テーブル1は様々な方法についての重み付け戦略を示す。関数HAQ(・)、RV(・)、FAQ(・)は、3D回転行列の表現である。
σおよびσについて最良の値を見つけるために、グリッド探索方法論が一個抜き交差検証を使用して採用された。認識率が最大化され、その後に位置合わせ率が最大化された。認識率が100%で位置合わせ率が86.7%の場合(テーブル2の行2)に、ハッシングCNTについて最良の結果が(σ;σ)=(0:111;0:92)で見つけられた。
他の5つの変形の交差検証が、(σ;σ)について同一の値を使用して実行された。そのため、それらの結果は比較可能である(テーブル2参照)。全ての事例において、100%の認識率が得られた。ハッシング−LI−FAQは、最高の位置合わせ率を与え、続いて、ハッシングHAQ、ハッシング−LI−RVおよびハッシングFAQ、その次にハッシングRVであった。RVおよびFAQの左不変の距離は、それらの非不変のカウンタパートよりもそれぞれ性能が優れていた。
結果がテーブル2に示される。
さらなる例では、上記処理が点群位置合わせのために使用される。ここでは、シーン(例えば、部屋)を表す点群と、関心オブジェクト(例えば、椅子)を表わす別の点とが存在する。両方の点群は、レーザースキャナまたは他の3Dセンサから得ることができる。
タスクは、シーン点群のオブジェクト点群を位置合わせすること(例えば、部屋のどこに椅子があるかを見つけること)である。このタスクの解法は両方の点群に特徴検出器を適用することであり、それから、上述の認識および位置合わせが、オブジェクト(椅子)の姿勢を確かめるために使用される。
いくつかの実施形態が記述されているが、これらの実施形態は例示のために提示されているに過ぎず、発明の範囲を制限するようには意図されない。確かに、ここに記述された新しい方法およびシステムは、様々な他の形式で具体化されるかもしれない。さらに、様々な省略、置換および変更が、発明の趣旨から外れることなく、ここに記述された方法およびシステムの形態になされてよい。添付するクレームおよびそれらの均等物は、そのような変形の形態が発明の範囲および趣旨の内にあるようにカバーすることを意図される。

Claims (20)

  1. 複数のオブジェクトを比較する方法であって、
    前記方法は、各オブジェクトの少なくとも1つの特徴を3D球体表現で表現することを具備し、
    各球体の半径は、前記オブジェクトのフレームに対する前記特徴のスケールを表し、
    各球体の位置は、前記オブジェクトのフレームにおける前記特徴の並進を表し、
    前記方法は、複数のオブジェクト間および当該複数のオブジェクトの姿勢間の類似性を判定するために3D球体によって表わされるスケールおよび並進を比較することにより、オブジェクトを比較することを更に具備する、
    方法。
  2. 前記3D球体表現は、前記オブジェクトのフレームに対する前記特徴の回転に関する情報をさらに含み、
    前記オブジェクトを比較することは、前記3D球体表現によって定義されるスケール、並進および回転を比較することを含む、
    請求項1に記載の方法。
  3. 前記スケールおよび並進を比較することは、ハッシュテーブルを使用して、第1のオブジェクトの特徴を当該第1のオブジェクトと比較されることになる第2のオブジェクトの特徴と比較することを含み、
    前記ハッシュテーブルは、スケールおよび並進の成分に関するハッシュ関数を使用してハッシングされた第2のオブジェクトの特徴のスケールおよび並進に関するエントリを含み、
    前記方法は、前記第2のオブジェクトの特徴に対して前記第1のオブジェクトからの特徴のマッチングを得るために前記ハッシュテーブルを探索することをさらに具備する、
    請求項1に記載の方法。
  4. 前記ハッシュ関数が、
    で記述され、
    h(X)は、直接的な類似点Xのハッシュ関数であり、
    は、直接的な類似点Xの膨脹部分であり、
    は、直接的な類似点Xのスケール部分であり、
    は、直接的な類似点Xの並進部分であり、
    ηは、量子化器である、
    請求項3に記載の方法。
  5. 前記ハッシュテーブルは、スケールおよび並進の成分毎に全ての回転のエントリを含む、請求項3に記載の方法。
  6. 前記3D球体表現は、前記オブジェクトのフレームに対する前記特徴の回転に関する情報をさらに含み、
    前記オブジェクトを比較することは、前記3D球体表現によって定義されるスケール、並進および回転を比較することを含み、
    前記方法は、前記第1のオブジェクトの特徴の回転を前記第2のオブジェクトの特徴の回転と比較するために、スケールおよび並進の成分についてマッチングが達成された場合に各ハッシュテーブルエントリに格納された回転を比較することをさらに具備する、
    請求項5に記載の方法。
  7. 前記回転は、3Dのコサインベース距離を使用して比較される、請求項6に記載の方法。
  8. 前記コサインベース距離が、
    で表現され、
    =(v,α)およびr=(v,α)は、軸角表現で表される3D回転の配列であり、
    a,jおよびαa,jは、配列rの第j番目の成分の回転軸および回転角をそれぞれ表示し、
    b,jおよびαb,jは、配列rの第j番目の成分の回転軸および回転角をそれぞれ表示する、
    請求項7に記載の方法。
  9. 前記スケールおよび並進を比較することは、探索木を使用して、第1のオブジェクトの特徴を当該第1のオブジェクトと比較されることになる第2のオブジェクトの特徴と比較することを含み、
    前記探索木は、前記第2のオブジェクトの特徴のスケールおよび並進の成分を表すエントリを含み、
    前記スケールおよび並進の成分は、閉形式の式を使用して比較される、
    請求項1に記載の方法。
  10. 前記探索木は、前記第1のオブジェクトおよび前記第2のオブジェクトの特徴間の最近傍を見つけるために使用される、請求項9に記載の方法。
  11. 前記スケールおよび並進の成分は、2つの特徴の間のポアンカレ距離を測定することにより比較される、請求項9に記載の方法。
  12. 距離尺度が、
    で表現され、
    (x,y)が、x=(r;c)およびy=(r;c)によって表現される2つの球体xおよびyの間の距離を表し、
    ;r>0は、半径を表示し、
    ,c∈Rは、3Dの球体の中心を表示し、
    cosh()は、双曲線余弦関数である、
    請求項11に記載の方法。
  13. 3D球体表現は、前記オブジェクトのフレームに対する前記特徴の回転に関する情報をさらに含み、
    前記オブジェクトを比較することは、
    を使用して、前記3D球体表現によって定義されるスケール、並進および回転を比較することをさらに含み、
    (x,y)が、x=(r;c)およびy=(r;c)によって表現される2つの球体xおよびyの間の距離を表し、
    ;r>0は、半径を表示し、
    ,c∈Rは、3Dの球体の中心を表示し、
    cosh()は、双曲線余弦関数であり、
    2つの球体xおよびyは、2つの3×3の回転行列R,R∈SO(3)として表現される2つの3D方向に関連付けられ、
    の項は、フロベニウスノルムを介した2つの3D方向の間の距離関数を表し、
    係数a;a>0である、
    請求項9に記載の方法。
  14. 前記3D球体表現は、前記オブジェクトのフレームに対する前記特徴の回転に関する情報をさらに含み、
    前記オブジェクトを比較することは、
    を使用して、前記3D球体表現によって定義されるスケール、並進および回転を比較することをさらに含み、
    (x,y)が、x=(r;c)およびy=(r;c)によって表現される2つの球体xおよびyの間の距離を表し、
    ;r>0は、半径を表示し、
    ,c∈Rは、3Dの球体の中心を表示し、
    cosh()は、双曲線余弦関数であり、
    2つの球体xおよびyは、3×3の回転行列R,R∈SO(3)として表現される2つの3D方向に関連付けられ、
    d(x,y)の項は、コサインベース距離を介した2つの3D方向の間の距離関数を表し、
    係数a;a>0である、
    請求項9に記載の方法。
  15. オブジェクト認識の方法であって、
    前記方法は、複数の投票を受け取ることを具備し、
    各投票は、オブジェクトの姿勢および位置の予測に相当し、
    前記方法は、投票毎に、オブジェクトの特徴に3D球体表現を割り当てることをさらに具備し、
    各球体の半径は、前記オブジェクトのフレームに対する前記特徴のスケールを表し、
    各球体の位置は、前記オブジェクトのフレームにおける前記特徴の並進を表し、
    前記方法は、投票毎に3D球体表現によって表される特徴を、複数のオブジェクトおよび姿勢についての特徴の3D表現のデータベースと比較することによって、最高のマッチングを提供する投票を判定することをさらに具備し、
    前記特徴を比較することは、3D球体によって表現されるスケールおよび並進を比較することを含み、
    前記方法は、前記データベースにおけるオブジェクトおよび姿勢とマッチする特徴の数が最多である投票を選択することをさらに具備する、
    方法。
  16. 前記投票および前記データベース内のオブジェクトおよび姿勢に割り当てられる3D球体表現は、前記オブジェクトのフレームに対する前記特徴の回転に関する情報をさらに含み、
    前記投票を判定することは、前記3D球体表現によって定義されるスケール、並進および回転を比較することを含む、
    請求項15に記載の方法。
  17. 前記複数の投票を受け取ることは、
    オブジェクトの3D画像データを得ることと、
    前記オブジェクトの特徴を識別して各特徴に記述を割り当てることと
    を含み、
    各記述は、特徴が関係をもつ当該特徴の特性の表示を含み、
    前記複数の投票を受け取ることは、前記特徴をオブジェクトのデータベースと比較することをさらに含み、
    前記オブジェクトのデータベースは、既知のオブジェクトの特徴の記述を含み、
    前記複数の投票を受け取ることは、前記3D画像データから識別された少なくとも1つの特徴にマッチする特徴を持つオブジェクトを選択することによって投票を生成することをさらに含む、
    請求項15に記載の方法。
  18. シーン内のオブジェクトを位置合わせする方法であって、前記方法は、
    位置合わせ対象のオブジェクトの3Dデータを得ることと、
    前記シーンの3Dデータを得ることと、
    複数の投票を判定するために、前記位置合わせ対象のオブジェクトから特徴を抽出し、前記シーンから特徴を抽出することと
    を具備し、
    各投票は、シーン内のオブジェクトの姿勢および位置の予測に相当し、
    前記方法は、前記位置合わせ対象のオブジェクトの存在および姿勢を識別するために、請求項1に記載の方法を使用して、前記位置合わせ対象のオブジェクトを前記投票と比較することをさらに具備する、
    方法。
  19. プロセッサでの実行時に当該プロセッサに請求項1に記載の方法を実行させるプロセッサ実行可能命令を保持するするコンピュータ可読記録媒体。
  20. 複数のオブジェクトを比較する装置であって、
    前記装置は、3D球体表現として各オブジェクトの少なくとも1つの特徴を含んでいるオブジェクトの3Dデータを保存するように構成されたメモリを具備し、
    各球体表現の半径は、前記オブジェクトのフレームに対する前記特徴のスケールを表し、
    各球体表現の位置は、前記オブジェクトのフレームにおける前記特徴の並進を表し、
    前記装置は、複数のオブジェクト間および当該複数のオブジェクトの姿勢間の類似性を判定するために3D球体によって表わされるスケールおよび並進を比較することにより、オブジェクトを比較するように構成されたプロセッサをさらに具備する、
    装置。
JP2015041618A 2014-03-04 2015-03-03 3Dオブジェクトの認識および位置合わせ(registration)の方法 Pending JP2015170363A (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
GB1403826.9 2014-03-04
GB1403826.9A GB2523776B (en) 2014-03-04 2014-03-04 Methods for 3D object recognition and pose determination

Publications (1)

Publication Number Publication Date
JP2015170363A true JP2015170363A (ja) 2015-09-28

Family

ID=50490790

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2015041618A Pending JP2015170363A (ja) 2014-03-04 2015-03-03 3Dオブジェクトの認識および位置合わせ(registration)の方法

Country Status (3)

Country Link
US (1) US20150254527A1 (ja)
JP (1) JP2015170363A (ja)
GB (1) GB2523776B (ja)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9969514B2 (en) * 2015-06-11 2018-05-15 Empire Technology Development Llc Orientation-based hashing for fast item orientation sensing
CN110569387B (zh) * 2019-08-20 2020-12-11 清华大学 基于深度哈希算法的雷达-图像跨模态检索方法
CN113021333A (zh) * 2019-12-25 2021-06-25 沈阳新松机器人自动化股份有限公司 一种物体的抓取方法、系统及终端设备
CN111639623B (zh) * 2020-06-09 2022-04-26 中国地质大学(武汉) 结合空间距离约束的多尺度船企场景识别与提取方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH08129649A (ja) * 1994-09-14 1996-05-21 Xerox Corp ノードリンク構造レイアウト方法及びマシン動作方法
JP2007054636A (ja) * 2005-08-24 2007-03-08 Siemens Corporate Res Inc イメージの対を位置合わせする方法およびコンピュータによって実行される命令からなるプログラムを具現化して該方法を実施するプログラム記憶装置
JP2013033468A (ja) * 2011-07-11 2013-02-14 Toshiba Corp 画像処理方法およびシステム
JP2013045468A (ja) * 2011-08-23 2013-03-04 Toshiba Corp 被写体位置判定方法およびシステム

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7831090B1 (en) * 2006-06-30 2010-11-09 AT&T Intellecutal Property II, L.P. Global registration of multiple 3D point sets via optimization on a manifold

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH08129649A (ja) * 1994-09-14 1996-05-21 Xerox Corp ノードリンク構造レイアウト方法及びマシン動作方法
JP2007054636A (ja) * 2005-08-24 2007-03-08 Siemens Corporate Res Inc イメージの対を位置合わせする方法およびコンピュータによって実行される命令からなるプログラムを具現化して該方法を実施するプログラム記憶装置
JP2013033468A (ja) * 2011-07-11 2013-02-14 Toshiba Corp 画像処理方法およびシステム
JP2013045468A (ja) * 2011-08-23 2013-03-04 Toshiba Corp 被写体位置判定方法およびシステム

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
JPN6016013319; 河野 優香: 'スケールの違いに対応したレンジデータの位置角度推定法' 情報処理学会 シンポジウム 画像の認識・理解シンポジウム(MIRU) 2011 pp.1311-1317, 20110720, 情報処理学会 *
JPN6016013320; 渡辺 弥壽夫: '3次元画像のSIFT特徴量とその応用' 電子情報通信学会技術研究報告 第109巻 第306号, 20091119, pp.201-206, 社団法人電子情報通信学会 *

Also Published As

Publication number Publication date
GB2523776A (en) 2015-09-09
GB201403826D0 (en) 2014-04-16
GB2523776B (en) 2018-08-01
US20150254527A1 (en) 2015-09-10

Similar Documents

Publication Publication Date Title
US10013612B2 (en) Object recognition trait analysis systems and methods
Huang et al. A systematic approach for cross-source point cloud registration by preserving macro and micro structures
US8712156B2 (en) Comparison of visual information
Chen et al. City-scale landmark identification on mobile devices
Li et al. GESAC: Robust graph enhanced sample consensus for point cloud registration
JP2018113080A (ja) エッジベクトルを利用した画像特徴検出
JP6571225B2 (ja) カメラ姿勢推定方法およびシステム
JP2015170363A (ja) 3Dオブジェクトの認識および位置合わせ(registration)の方法
Lu et al. A novel image registration approach via combining local features and geometric invariants
CN109086690B (zh) 图像特征提取方法、目标识别方法及对应装置
Byrne et al. Maximizing feature detection in aerial unmanned aerial vehicle datasets
Gupta et al. Augmented reality system using lidar point cloud data for displaying dimensional information of objects on mobile phones
US20130129229A1 (en) Systems and methods for tracking with discrete texture traces
TWI233571B (en) Apparatus and methods for pattern recognition based on transform aggregation
CN112258647A (zh) 地图重建方法及装置、计算机可读介质和电子设备
CN113643328B (zh) 标定物的重建方法、装置、电子设备及计算机可读介质
Tal et al. An accurate method for line detection and manhattan frame estimation
Nguyen et al. Focustune: Tuning visual localization through focus-guided sampling
WO2017042852A1 (en) Object recognition appratus, object recognition method and storage medium
Yang et al. Robust image registration using adaptive coherent point drift method
CN112613383A (zh) 关节点检测方法、姿态识别方法及装置
Liu et al. New anti-blur and illumination-robust combined invariant for stereo vision in human belly reconstruction
CN114519729A (zh) 图像配准质量评估模型训练方法、装置和计算机设备
Xiao et al. Sequential Cycle Consistency Inference for Eliminating Incorrect Relative Orientations in Structure from Motion
Villarini et al. Photometric Stereo for 3D face reconstruction using non linear illumination models

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20160219

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20160405

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20161115