JP2015170363A

JP2015170363A - ３Ｄオブジェクトの認識および位置合わせ（ｒｅｇｉｓｔｒａｔｉｏｎ）の方法

Info

Publication number: JP2015170363A
Application number: JP2015041618A
Authority: JP
Inventors: ミン−トリファム; Pham Minh-Tri; フランクパーベット; Perbet Frank; ビョルンステンガー; Stenger Bjorn; リカルドゲラルディ; Gherardi Riccardo; オリバーウッドフォード; Woodford Oliver; サムジョンソン; Johnson Sam; ロベルトシポラ; Cipolla Robert; スティーブンリウィッキ; Liwicki Stephan
Original assignee: Toshiba Corp
Current assignee: Toshiba Corp
Priority date: 2014-03-04
Filing date: 2015-03-03
Publication date: 2015-09-28
Also published as: GB2523776A; GB201403826D0; GB2523776B; US20150254527A1

Abstract

【課題】オブジェクトの認識及び位置合わせの新しい方法を提供する
【解決手段】複数のオブジェクトを比較する方法であって、各オブジェクトの少なくとも１つの特徴を３Ｄ球体表現で表現することを具備する。各球体の半径は、オブジェクトのフレームに対する特徴のスケールを表し、各球体の位置は、オブジェクトのフレームにおける特徴の並進を表す。方法は、複数のオブジェクト間及び複数のオブジェクトの姿勢間の類似性を判定するために３Ｄ球体によって表わされるスケール及び並進を比較することにより、オブジェクトを比較することを更に具備する。
【選択図】図４

Description

ここに記述されるように本発明の実施形態は、オブジェクトの位置合わせおよび認識の分野に一般的に関係する。

多くのコンピュータ・ビジョンおよび画像処理のアプリケーションが、３Ｄ画像からオブジェクトを認識および位置合わせする能力を必要とする。

係るアプリケーションは、多くの場合、画像内の主な特徴を認識し、これらの特徴を数学的な形式で表現する。それから、投票(vote)と名付けられた、オブジェクトとその姿勢の予測を生成することができる。異なる投票間で選択がなされる。

（関連出願の相互参照）
この出願は、２０１４年３月４日に提出された英国特許出願Ｎｏ．１４０３８２６．９に基づいていて、かつ、その優先権の利益を主張するものであって、その全内容が参照によってここに組込まれる。

図１は、３Ｄ画像をキャプチャするために使用される装置の概略図である。図２は、特徴を例示する画像である図３（ａ）は、キャプチャされたオブジェクトの３Ｄ画像から生成される点群であり、図３（ｂ）は、抽出された特徴を用いた場合の図３（ａ）の画像を示す。図４は、投票がどのように生成されるかを示すフローチャートである。図５は、訓練データからのハッシュテーブルの構築を示すフローチャートである。図６は、ハッシュテーブルを使用して、投票を選択するためのステップを示すフローチャートである。図７は、姿勢の回転も考慮される場合における図６のフローチャートのバリエーションを示すフローチャートである。図８は、点間距離を比較するための２Ｄの方法を示すプロットである。図９は、点間距離を比較するための３Ｄの方法の結果を示すプロットである。図１０（ａ）〜１０（ｄ）は、回転の様々な分布について、回転の配列を比較するための様々な尺度の性能を示すプロットである。図１１は、訓練データからのバンテージポイント探索木の構築を示すフローチャートである。図１２は、図１１の探索木を使用して投票を選択するためのステップを示すフローチャートである。図１３は、図１１および図１２で使用されるタイプの探索木の概略図である。

実施形態によれば、オブジェクトに関連する複数の画像データを比較する方法が提供される。方法は、各オブジェクトの少なくとも１つの特徴を３Ｄ球体表現で表現することを具備する。各球体の半径は、オブジェクトのフレームに対する特徴のスケールを表す。各球体の位置は、オブジェクトのフレームにおける特徴の並進を表す。方法は、複数のオブジェクト間および当該複数のオブジェクトの姿勢間の類似性を判定するために３Ｄ球体によって表わされるスケールおよび並進を比較することにより、オブジェクトを比較することを更に具備する。

オブジェクトのフレームはオブジェクトのローカル座標系として定義される。一例では、ローカル座標系の原点はオブジェクトの中心にあり、３軸は予め定義されたオブジェクトの３Ｄ方向へと向きを調整され、軸の一単位長がオブジェクトのサイズに対応する。

さらなる実施形態において、３Ｄ球体表現は、オブジェクトのフレームに対する特徴の回転に関する情報をさらに含む。オブジェクトを比較することは、３Ｄ球体表現によって定義されるスケール、並進および回転を比較することを含む。３Ｄ方向が、３Ｄ方向を備える３Ｄ球体または３Ｄ有向球体として参照されることになる３Ｄ球体に割り当てられる。技術的には、３Ｄ球体は直接的な膨脹によって表現され、３Ｄ有向球体は直接的な類似点によって表現される。

実施形態において、スケールおよび並進を比較することは、ハッシュテーブルを使用して、第１のオブジェクトの特徴を当該第１のオブジェクトと比較されることになる第２のオブジェクトの特徴と比較することを含む。ハッシュテーブルは、スケールおよび並進の成分に関するハッシュ関数を使用してハッシングされた第２のオブジェクトの特徴のスケールおよび並進に関するエントリを含む。方法は、第２のオブジェクトの特徴に対して第１のオブジェクトからの特徴のマッチングを得るためにハッシュテーブルを探索することをさらに具備する。

上記実施形態において、ハッシュ関数は次式で記述されてもよい。

ここで、ｈ（Ｘ）は、直接的な類似点Ｘのハッシュ関数であり、

は、直接的な類似点の膨脹部分であり、Ｘ_ｓは、直接的な類似点Ｘのスケール部分であり、Ｘ_ｔは、直接的な類似点Ｘの並進部分であり、

ηは、量子化器である。

この実施形態において、ハッシュテーブルは、スケールおよび並進の成分毎に全ての回転のエントリを含む。

ハッシュテーブルは、回転情報を含まない３Ｄ球体表現およびオブジェクトのフレームに対する特徴の回転に関する情報を含む３Ｄ球体表現を使用して、特徴を比較するために用いられてもよい。オブジェクトを比較することは、前記３Ｄ球体表現によって定義されるスケール、並進および回転を比較することをさらに含む。方法は、第１のオブジェクトの特徴の回転を第２のオブジェクトの特徴の回転と比較するために、スケールおよび並進の成分についてマッチングが達成された場合に各ハッシュテーブルエントリに格納された回転を比較することをさらに具備する。

様々な尺度が、３Ｄの回転を比較するために使用することができる。実施形態において、回転は３Ｄのコサインベース距離を使用して比較される。例えば、コサインベース距離は、次のように表現されてもよい。

ここで、ｒ_ａ＝（ｖ_ａ，α_ａ）およびｒ_ｂ＝（ｖ_ｂ，α_ｂ）は、軸角表現（アクシス−アングル表現(axis-angle representation)）で表される３Ｄ回転の配列である。ｖ_ａ，ｊおよびα_ａ，ｊは、配列ｒ_ａの第ｊ番目の成分の回転軸および回転角をそれぞれ表示する。ｖ_ｂ，ｊおよびα_ｂ，ｊは、配列ｒ_ｂの第ｊ番目の成分の回転軸および回転角をそれぞれ表示する。

上記実施形態は、比較対象の２つのオブジェクトの間の最も近い特徴を探索するためのハッシュテーブルの使用を示唆した。しかしながら、実施形態では、これは、探索木を使用して、第１のオブジェクトの特徴を当該第１のオブジェクトと比較されることになる第２のオブジェクトの特徴と比較することによって達成されてもよい。この探索木は、第２のオブジェクトの特徴のスケールおよび並進の成分を表すエントリを含む。スケールおよび並進の成分は、閉形式の式を使用して比較される。

ここで、探索木は、第１のオブジェクトおよび第２のオブジェクトの特徴間の最近傍を見つけるために使用される。スケールおよび並進の成分は、２つの特徴の間のポアンカレ距離を測定することにより比較される。例えば、距離尺度は、次のように表現されてもよい。

ここで、ｄ_１（ｘ，ｙ）が、ｘ＝（ｒ_ｘ；ｃ_ｘ）およびｙ＝（ｒ_ｙ；ｃ_ｙ）によって表現される２つの球体ｘおよびｙの間の距離を表す。ここで、ｒ_ｘ；ｒ_ｙ＞０は、半径を表示し、ｃ_ｘ，ｃ_ｙ∈Ｒ^３は、３Ｄの球体の中心を表示し、ｃｏｓｈ（）は、双曲線余弦関数である。

探索木は、３Ｄ球体表現がオブジェクトのフレームに対する特徴の回転に関する情報をさらに含む場合にも使用されてもよい。オブジェクトを比較することは、下記数式を使用して３Ｄ球体表現によって定義されるスケール、並進および回転を比較することをさらに含む。

ここで、ｄ_２（ｘ，ｙ）は上に定義される２つの球体ｘおよびｙの間の距離を表し、２つの球体ｘおよびｙは、２つの３×３の回転行列Ｒ_ｘ，Ｒ_ｙ∈ＳＯ（３）として表現される２つの３Ｄ方向に関連付けられる。

の項は、フロベニウスノルムを介した２つの３Ｄ方向の間の距離関数を表す。係数ａ_１；ａ_２＞０である。さらなる実施形態において、２つの３Ｄ方向の間の距離関数は、上記のコサインベース距離ｄ（ｒ_ａ，ｒ_ｂ）である。

実施形態において、オブジェクト認識の方法が提供される。方法は、複数の投票を受け取ることを具備する。各投票は、オブジェクトの姿勢および位置の予測に相当する。方法は、投票毎に、オブジェクトの特徴に３Ｄ球体表現を割り当てることをさらに具備する。各球体の半径は、オブジェクトのフレームに対する特徴のスケールを表す。各球体の位置は、オブジェクトのフレームにおける特徴の並進を表す。方法は、投票毎に３Ｄ球体表現によって表される特徴を、複数のオブジェクトおよび姿勢についての特徴の３Ｄ表現のデータベースと比較することによって、最高のマッチングを提供する投票を判定することとをさらに具備する。特徴を比較することは、３Ｄ球体によって表現されるスケールおよび並進を比較することを含む。方法は、データベースにおけるオブジェクトおよび姿勢とマッチする特徴の数が最多である投票を選択することをさらに具備する。

上記実施形態において、３Ｄ球体表現は投票に割り当てられ、データベース内のオブジェクトおよび姿勢はオブジェクトのフレームに対する特徴の回転に関する情報をさらに含む。投票を判定することは、３Ｄ球体表現によって定義されるスケール、並進および回転を比較することを含む。

上記方法において、複数の投票を受け取ることは、オブジェクトの３Ｄ画像データを得ることと、オブジェクトの特徴を識別することと、各特徴に記述を割り当てることとを含んでもよい。各記述は、特徴が関係をもつ当該特徴の特性の表示を含む。複数の投票を受け取ることは、特徴をオブジェクトのデータベースと比較することをさらに含む。オブジェクトのデータベースは、既知のオブジェクトの特徴の記述を含む。複数の投票を受け取ることは、３Ｄ画像データから識別された少なくとも１つの特徴にマッチする特徴を持つオブジェクトを選択することによって投票を生成することをさらに含む。

さらなる実施形態において、シーン内のオブジェクトを位置合わせする方法が提供されてよい。方法は、位置合わせ対象のオブジェクトの３Ｄデータを得ることと、シーンの３Ｄデータを得ることと、複数の投票を判定するために、位置合わせ対象のオブジェクトから特徴を抽出し、シーンから特徴を抽出することとを具備する。各投票は、シーン内のオブジェクトの姿勢および位置の予測に相当する。方法は、位置合わせ対象のオブジェクトの存在および姿勢を識別するために、上述の方法を使用して、位置合わせ対象のオブジェクトを投票と比較することをさらに具備する。

さらなる実施形態において、複数のオブジェクトを比較する装置が提供される。装置は、３Ｄ球体表現として各オブジェクトの少なくとも１つの特徴を含んでいるオブジェクトの３Ｄデータを保存するように構成されたメモリを具備する。各球体表現の半径は、オブジェクトのフレームに対する特徴のスケールを表す。各球体表現の位置は、オブジェクトのフレームにおける特徴の並進を表す。装置は、複数のオブジェクト間および当該複数のオブジェクトの姿勢間の類似性を判定するために３Ｄ球体によって表わされるスケールおよび並進を比較することにより、オブジェクトを比較するように構成されたプロセッサをさらに具備する。

本発明の実施形態はソフトウェアによって実装することができるので、本発明の実施形態は任意の適切な搬送媒体で汎用コンピュータに提供されるコンピュータコードを包含する。

搬送媒体は、フロッピー（登録商標）ディスク、ＣＤ−ＲＯＭ、磁気デバイス若しくはプログラム可能メモリデバイスなどの任意の記録媒体、または、任意の信号（例えば、電気信号、光信号、若しくは、マイクロ波信号）などの任意の一時的な媒体も含むことができる。

第１の実施形態に従うシステムおよび方法が記述されるだろう。

図１は、３Ｄデータをキャプチャするために使用できる適切なシステムを示す。システムは、カメラ３５、分析装置２１およびディスプレイ（図示せず）を基本的に含む。

実施形態において、カメラ３５は、標準的なビデオカメラであって、ユーザによって移動させることができる。動作時に、カメラ３５は、画像化されることになるオブジェクトのまわりで自由に移動させられる。カメラは単に携帯型であってよい。しかしながら、さらなる実施形態において、カメラは三脚または他の機械的な支持器具上に取り付けられる。それから、様々なカメラ姿勢で収集された２Ｄ画像を使用して、３Ｄ点群が構築されるかもしれない。他の実施形態において、例えば、離れて据えられた複数の開口を備えるステレオカメラ、または、オブジェクト上にパターンを投影できるカメラ、ＬＩＤＡＲセンサおよびＴＯＦ（Time Of Flight）センサといった、３Ｄカメラまたは他のデプスセンサが使用されてもよい。ＣＡＴスキャナおよびＭＲＩスキャナなどの医療スキャナがデータを提供するために使用されてもよい。これらのタイプのカメラおよびスキャナから３Ｄ点群を生成する方法は、既知であり、ここではこれ以上論じられない。

分析装置２１は、カメラ３５からカメラデータを受信するためのセクションを含む。分析装置２１は、プログラム２５を実行するプロセッサ２３を含む。分析装置２１は、ストレージ２７をさらに含む。ストレージ２７は、カメラ３５から受信されたデータを分析するためにプログラム２５によって使用されるデータを格納する。分析装置２１は、入力モジュール３１および出力モジュール３３をさらに備える。入力モジュール３１は、カメラ３５に接続される。入力モジュール３１は単にカメラ３５から直接的にデータを受信するかもしれないし、或いは、入力モジュール３１は外部記録媒体またはネットワークからカメラデータを受信するかもしれない。

使用時に、分析装置２１は、入力モジュール３１を通じてカメラデータを受信する。プロセッサ２３で実行されるプログラム２５は、ストレージ２７に保存されたデータを使用してカメラデータを分析し、３Ｄデータを生成してオブジェクトとそれらの姿勢を認識する。ディスプレイ（図示せず）またはローカルの若しくはネットワーク化された他の出力デバイスに接続され得る出力モジュール３５を介して、データが出力される。

図４では、ステップＳ１０１において、シーンの３Ｄ点群が得られる。３Ｄ点群に基づいて、ステップＳ１０３において、３Ｄ球体形式の局所的特徴と一緒にそれらの記述が入力シーンの点群から抽出される。これは、ＳＵＲＦ−３ＤまたはＩＳＳのような既知のマルチスケールのキーポイント検出器を使用して達成されるかもしれない。図２は、そのような抽出された特徴の例を示す。特徴は、オブジェクトのコーナーに相当し、ディスクリプタベクトル、または、例えばスピン画像ディスクリプタ若しくは特徴の原点に近い点のセット番号をサンプリングするディスクリプタなどを使用して記述することができる。

図３（ａ）は、オブジェクト６１の点群を示し、図３（ｂ）は、特徴抽出後のオブジェクト６１の点群を示しており、特徴は円（６３）として示されている。

テスト時に、ステップＳ１０５において、特徴の記述を比較して投票の初期セットを生成することにより、シーンから抽出された特徴は訓練データ（トレイニングデータ(training data)）から過去に抽出された特徴とマッチングされる。投票は、オブジェクト同一性をその姿勢と共に予測する仮説であって、位置、方向、および、スケールが未知の場合にはさらにスケールからなる。それから、ステップＳ１０９において、最高の投票が最終予測として選択されて返される。

実施形態では、特徴位置をアライメントするステップＳ１０７がハッシュテーブルを用いて実行される。

図５は、訓練データからハッシュテーブルを構築のためのステップを示すフロー図である。

この実施形態では、オブジェクトのスケールが変化するという３Ｄ認識のより一般的な事例が考慮されるだろう。オブジェクトの姿勢および特徴位置は、直接的な類似点として扱われる。記法上の便宜のために、Ｘ_ｓ、Ｘ_ＲおよびＸ_ｔは、直接的な類似点Ｘのスケール、回転および並進部分をそれぞれ表示することになる。

図５のフロー図のステップは、一般的にはオフラインで行なわれるだろう。

オフラインフェーズ時に、認識対象のオブジェクトタイプ毎に訓練データが収集される。ステップＳ１５１において、訓練データに生じる全ての特徴位置が収集される。特徴は、訓練データから抽出され、オブジェクト（ｉ）毎および当該オブジェクトの訓練事例（ｊ）毎に処理される。ステップＳ１５３において、オブジェクトカウント（ｉ）は１に設定され、第ｉ番目のオブジェクトの処理がステップＳ１５５で開始する。次に、上記オブジェクトの訓練事例カウント（ｊ）が１に設定され、第ｊ番目の訓練事例の処理がステップＳ１５９で開始する。

次に、選択された特徴が、それらの対応するオブジェクト姿勢の逆(inverse)の左乗法を介して正規化される。これは、ステップＳ１６１において、特徴をオブジェクト空間に正規化させる。

次に、ハッシュキーがスケールおよび並進の成分に基づいて計算される単一のハッシュテーブルＨ_ｉに、オブジェクトｉの全ての正規化された位置が格納されるように、ハッシュテーブルが作成される。ハッシュ関数ｈ（・）の設計が以下に詳述される。ハッシュエントリの値は、当該値へとハッシングされる全ての正規化された位置の回転のセットである。

直接的な類似点のスケールおよび並進の部分は、空間において、（直接）膨張と呼ばれる変形を形成する。

ここで、Ｘ_Ｄは、直接的な類似点Ｘの膨脹部分である。

直接的な類似点Ｘのクエリが与えられると、ＸＤはマッピングφ：ＤＴ（３）→Ｒ^４を介して４Ｄ点へと変換される。

４Ｄ点は、量子化器η：Ｒ^４→Ｚ^４を介して４Ｄ整数ベクトル（すなわち、ハッシュキー）へと量子化される。

ここで、σ_ｓとσ_ｔはスケールと並進との間にトレードオフを作ることを可能にするパラメータであり、次の演算子は実数の整数値を見つけ出す。

故に、ハッシュ関数ｈ（・）は次のように定義される。

効率的なハッシュテーブルは、全てのハッシュエントリがおよそ同じ確率でアクセスされることを保証するべきであり、その結果、衝突は最小化される。これを達成するために、φ（・）は以下の補題が当てはまるように作成される。

［補題１］Ｒ^４のユークリッド体積要素は、φ（・）を介してＤＴ（３）上の左不変の４形式(4-form)に引き戻される。

［証明］Ｄ（ｘ）：＝ｄｘ_１ｄｘ_２ｄｘ_３ｄｘ_４とする。Ｘでのユークリッド体積要素をφ^−１（ｘ）と定義する。補題を証明するためには、全てのＹ∈ＤＴ（３）およびｘ∈Ｒ^４について示せば十分である。

ｙ：＝φ（Ｙ）とする。（２）を（４）に代入することで次の数式がもたらされる。

（７）から（５）のヤコビ行列式は１に等しいことがわかる。故に、Ｄ（φ（Ｙφ^−１（ｘ）））＝｜１｜ｄｘ_１ｄｘ_２ｄｘ_３ｄｘ_４＝Ｄ（ｘ）。

ＤＴ（３）において膨脹が一様に分布する（すなわち、（左）ハール測度によって分布する）ならば、それらのφ（・）を介した座標がＲ４に一様に分布すること、そしてその逆も同様であることを補題１は暗示する。この事実を、量子化器ηがＲ^４を相等しい体積を持つセルへと分割するという事実と組み合わせると、膨脹が一様に分布するならば、それらのハッシュキーが一様に分布することを演繹できる。

以下のアルゴリズム１は、図５を参照して上述されたオフライン訓練フェーズを示す。

ここで、ＦおよびＣは、Ｆ_{ｉ，ｊ，ｋ}が第ｉ番目のオブジェクトの訓練事例の第ｋ番目の特徴位置を表示し、Ｃｉ，ｊが第ｉ番目のオブジェクトの第ｊ番目の訓練事例の姿勢を表示するような、マルチインデックスリストである。

図６は、図５を参照して説明されたハッシュテーブルを使用してシーンの特徴をマッチングするステップを示すフロー図である。オフライン訓練フェーズとオンラインフェーズとで、同じ特徴検出器が使用されるべきである。

ステップＳ２０１において、探索空間はシーンから選択された３Ｄ球体特徴に制限される。各球体特徴は、オブジェクト同一性および姿勢の予測である投票に割り当てられる。ステップＳ２０３において、投票カウンタｖが１に割り当てられる。ステップＳ２０５において、投票ｖからの特徴が選択される。

ステップＳ２０７において、Ｓで表示される、投票のシーン特徴位置は、オブジェクトに関する投票からの特徴を正規化するために、当該投票の予測姿勢の逆を左掛けされている。

次に、各特徴は、図５を参照して説明されたように構築されたハッシュテーブルＨ_ｉを使用して訓練データと比較される。

特定の投票についての特徴マッチ数が計算される。それから、処理は、ステップＳ２１１において利用可能なさらなる投票があるかどうかを判定する。さらなる投票が利用可能である場合に、次の投票がステップＳ２１３において選択され、処理はステップＳ２０５から繰り返される。全ての投票が一旦分析されれば、ステップＳ２１５において、最大の特徴マッチ数を持つ投票が予測された姿勢およびオブジェクトとして選択される。

上記実施形態の方法において、投票は、特徴記述ではなく特徴位置の比較により選択される。これは、全体としてオブジェクトのジオメトリを利用する。

上記２つの方法は、特徴位置を使用するだけである。しかしながら、さらなる実施形態では、特徴の回転も考慮される。図５を参照して説明された訓練データの収集に戻ると、ステップＳ１６３ではハッシュテーブルが作成される。各ハッシュエントリは、当該ハッシュエントリにハッシングされた、すべての正常化された位置の回転のセットである。

回転を比較する場合に、ハッシュテーブルは先に説明されたのと同じやり方で機能させられるであろうが、各ハッシュエントリは回転のセットを含むだろう。

上述のように回転が比較される場合に、オンラインフェーズは、図６を参照して説明されたオンラインフェーズと同様である。不要な反復を回避するために、同様の参照符号が同様の特徴を表示するために使用されるであろう。

処理は、ステップＳ２０９までは図６を参照して説明されたのと同じやり方で進行するであろう。しかしながら、図７では、シーンの特徴の回転がハッシュエントリの回転のセットと比較される場合に行われるステップＳ２１０がさらにある。それから、シーンの特徴の回転がハッシュエントリの回転のセットと比較される。ハッシュエントリがスケールについて選択された特徴とマッチするとしても、回転でのマッチがなければそのマッチは考慮に入れられないであろう。

それから、処理は、最後の投票に達したかどうかを確かめるために処理がチェックをするステップＳ２１１へと進む。最後の投票に達していないならば、処理は次の投票を選択してステップＳ２０５へとループバックする。

全ての投票が一旦処理されると、マッチする投票の数の最も多い投票が選択される。

上記処理は、以下のアルゴリズムを用いて達成することができる。

このように、シーン特徴の配列、そして特にそれらの回転が、訓練データと比較される。上で説明されたように、方法は姿勢だけを必要とするのでいかなる特徴記述も伴わないことに留意されたい。故に、局所的特徴のジオメトリではなくオブジェクトのジオメトリが全体として利用される。

回転は多くの様々な方法を使用して比較することができる。実施形態では、２Ｄコサイン距離の３Ｄ汎化が使用される。

勾配方向の間のロバストなコサインベース距離は、回転特徴の配列のマッチングをするために使用することができる。画像Ｉ_ｉが与えられると、各画素値の強度勾配の方向が回転角ｒ_ｉ、ｊ（ｊ＝１，・・・，Ｎ）、すなわち、第ｉ番目の画像の第ｊ番目の角度値、として記録される。２つの画像Ｉ_ａおよびＩ_ｂの間の二乗距離は次式で与えられる。

距離関数およびそのロバストな特性は図８に示されるように視覚化することができる。この種の距離関数の利点はコサインの合計により生じる。特に、ランダムな角度方向を備える相関のないエリアＰについて、距離値はほぼ一様に分布し、Σ_ｊ∈Ｐｃｏｓ（ｒ_ａ，ｊ−ｒ_ｂ，ｊ）がほぼ０と等しく、かつ、距離は１になりがちである。一方、大いに相関のある回転の配列について、距離は約０である。このように、正対応(inlier)が比較的大きな影響を持ち距離を０へと引き寄せる一方で、誤対応(outlier)は比較的小さな影響を持ち距離を２ではなく１へと移す。

２Ｄでは、回転ｒ_ｉ，ｊは、単に角度α_ｉ，ｊによって与えられた。３Ｄでは、回転は角／軸対(angle-axis pair)ｒ_ｉ，ｊ＝（α_ｉ，ｊ，ｖ_ｉ，ｊ）∈ＳＯ（３）として記述されると仮定することができる。実施形態では、３Ｄ回転の配列を比較するために次の距離関数を使用することができる。

次式、すなわち、両項は重み付けとして機能する点に留意されたい。

重みは、回転の単位軸の間の角度に依存するように慎重に選択される。

重みの特別な性質が図９に示される。２つの回転ｒ_ａ，ｊおよびｒ_ｂ，ｊが考慮される。両者が同じ軸ｖ_ａ，ｊ＝ｖ_ｂ，ｊを共有するならば、内積ｖ_ａ，ｊ・ｖ_ｂ，ｊ＝１であり、距離は（１）でその２Ｄカウンタパートに変わる。反対軸ｖ_ａ，ｊ＝−ｖ_ｂ，ｊの場合には、ｖ_ａ，ｊ・ｖ_ｂ，ｊ＝−１であってα_ｂ，ｊの符号は反転する。（α_ｂ，ｊ，―ｖ_ｂ，ｊ）＝（α_ｂ，ｊ、ｖ_ａ，ｊ）に注目されたい。故に、問題は再び１にされる。−１＜ｖ_ａ，ｊ・ｖ_ｂ，ｊ＜１の場合に両方の部分の組み合わせが使用される。

３Ｄにおける、提案されたコサインベース距離は、回転の強度の比較とみなすことができる。回転がそれらの角度によって「大きい」および「小さい」と考えられるならば、同様の角度を好むことが実際的であると思われる。上記３Ｄ距離関数のロバストな特性は、相当に均等に分布したランダムな回転の距離カウントから生ずる。誤対応の平均は距離値の中心に近く、その一方で同様の回転は０に近い。これが、２Ｄにおけるコサイン距離のロバストな特性に対応する。

上述の３Ｄ距離は３Ｄ回転の新たな表現をもたらし、これは効率的かつロバストな比較を可能にする。これは以下に周角四元数（ＦＡＱ）表現と名付けられる。

二乗距離は以下のように書き換えることができる。

ここで、ｑ_ｉ，ｊは次式で与えられる単位四元数である。

上記数式はＦＡＱ表現を定義する。ここで、三角関数ｃｏｓ（・）およびｓｉｎ（・）は、半角α_ｉ，ｊ／２の代わりに周角α_ｉ，ｊに適用される。このように、各３Ｄ回転は、ＦＡＱではちょうど１単位の四元数に対応する。さらに、上記数式は、上で提案された新たな距離が新たなＦＡＱ表現を用いるユークリッド距離の形式を持つことを示す。

ＦＡＱでの３Ｄ回転の平均は、大域的であり計算するのが容易である。単位四元数のセットが与えられると、平均は四元数を合計して結果をその四元数ノルムで割ることで単純に計算される。ＦＡＱ表現は、同じ単位四元数：ｑ＝（−１；０；０；０）への１８０°マッピングによる３Ｄ回転毎の縮退の場合(degenerate case)に付随する。

上記の新たなＦＡＱ表現は、シーン特徴の回転を各ハッシュエントリでの回転のセットと比較するために使用することができる。両方の入力が損なわれる可能性がある、３Ｄ回転のロバストなマッチングの一般的な事例とは異なり、訓練データは多くの場合にクリーンなので、訓練特徴の回転は通常は正対応であると仮定することができる。したがって、方法は、たいていはシーン由来の回転を正対応と比較する。この事実を利用するために、使用（数式９）とは別に、左不変のバージョンが使用される。

ここで、Ｉは３×３の単位行列であり、Ｒは訓練特徴の回転であり、Ｘ_Ｒはシーン由来の回転である。

ここで、αおよびｖはそれぞれＲ^−１Ｘ_Ｒの角度および軸であり、ｆａｑ（・）は回転行列のＦＡＱ表現を表示する。

上記実施形態は、上述の新たなＦＡＱ表現を使用して、回転を比較した。しかしながら、他の実施形態は回転を比較するために代替方法を使用することができる。これらのほとんどは、３Ｄ回転の様々な表現の下でユークリッド（および変形）である。オイラー角距離はオイラー角の間のユークリッド距離である。半角四元数（ＨＡＱ）表現の下の単位四元数の差のＬ２ノルムは、ベクトルの／外部の四元数距離および逆コサイン四元数距離につながる。ＳＯ（３）上の測地線の分析は、回転ベクトル（ＲＶ）のＬ２ノルム（すなわち、軸角度表現）である固有距離につながる。ＳＯ（３）の埋め込み空間Ｒ^９のユークリッド距離は、回転行列（ＲＭ）の間の弦の／外部の距離をもたらす
実施形態において、ＨＡＱおよびＲＭ表現の効率的な閉形式および効率的な回転手段とのそれらのつながりのために、当該ＨＡＱおよびＲＭ表現に基づいて、外部距離尺度（例えば、埋め込み空間のユークリッド距離）が使用される。

図１０は、上述の新たな３Ｄ距離尺度をＨＡＱ、ＲＭおよびＲＶ距離と比較する。同様の回転が比較される場合（図１０（ａ））に、ＲＶ表現は１８０°に近い角度での回転に敏感であり、ここでは、正規化された距離が約０から約１へとジャンプするかもしれない。他の全ての方法は、接近した角度をうまく識別することができる。ランダムな回転を比較する場合（図１０（ｂ））、ＲＭおよびＲＶは、小さな距離または大きな距離へと、結果に強くバイアスをかける。他方では、ＨＡＱの下での距離および３Ｄコサインベース距離は、より均一に分布する。３Ｄコサインベース距離は、同様の回転軸を持つ回転について利用される場合（図１０（ｃ））には、ＲＭの下での距離と同様の特性を示す。ここで、ＨＡＱは全体的なより小さな距離を生成する。実際のトレンドを見ることができないので、ＲＶの下の距離はこの状況に対して全く不安定である。しかしながら、同様の回転角にさらされた場合（図１０（ｄ））に、ＲＶは３Ｄコサインベース距離と同様に機能する。ＲＭは大きな距離へのバイアスを示す一方で、ＨＡＱは距離の均一な分布を持つ。

３Ｄの新たなコサインベース距離は、回転の強度の比較とみなすことができる。回転がそれらの角度によって「大きい」、「小さい」と考えられるならば、同様の角度を好むことが実際的であると思われる。３Ｄコサインベース距離関数のロバストな特性は、相当に均一に分布したランダムな回転の距離カウントから生じる。実施形態では、３Ｄコサインベース距離について、単一のビンに２０％の最大分布がある。

誤対応の平均は距離値の中心に近い一方で、同様の回転は０に近い。これは、２Ｄのコサイン距離のロバストな特性に対応する。

上記実施形態は、シーンと訓練データとの間の特徴のマッチングを行うためにハッシュテーブルを使用した。しかしながら、さらなる実施形態では、異なる方法が使用される。

ここで、図１１に示されるように、バンテージポイント探索木が使用される。オフラインフェーズにおいて、認識対象のオブジェクトタイプ毎に訓練データが収集される。ステップＳ３５１において、訓練データに生じる全ての特徴位置が収集される。特徴は、訓練データから抽出され、オブジェクト（ｉ）毎および当該オブジェクトの訓練事例（ｊ）毎に処理される。ステップＳ３５３ではオブジェクトカウント（ｉ）が１に設定され、ステップＳ３５５では第ｉ番目のオブジェクトの処理が開始する。次に、オブジェクトの訓練事例カウント（ｊ）が１に設定され、第ｊ番目の訓練事例の処理がステップＳ３５９に始まる。

次に、選択された特徴は、それらの対応するオブジェクト姿勢の逆の左掛けを介して正規化される。これは、ステップＳ３６１において、特徴をオブジェクト空間に正規化させる。

ステップＳ３６３において、処理は、オブジェクトの全ての事例が処理されたかどうかを確かめるためにチェックをする。オブジェクトの全ての事例が処理されていないならば、ステップＳ３６５において訓練事例カウントはインクリメントされ、次の訓練事例からの特徴が処理される。訓練事例の全てが一旦処理されれば、探索木が構築される。実施形態において、探索木は、図１３を参照して説明されるタイプのバンテージポイント探索木である。

ステップＳ３６７において、バンテージポイントが選択され、しきい値はＣである。それから、オブジェクトの木が、このバンテージポイントに関して構築される。実施形態において、バンテージポイントおよびしきい値は、訓練データからの特徴の集合を２つのグループに大まかに分割するために選ばれる。しかしながら、他の実施形態では、バンテージポイントはランダムで選択される。バンテージポイントは、しきい値Ｃを持つ。バンテージポイントからの各訓練特徴の距離が判定される。

実施形態において、閉形式解は、（特徴と同じ項で表現されている）バンテージポイントからの特徴の距離を比較するために使用される。実施形態において、特徴は、当該特徴のスケールおよび並進を表わす３Ｄ球体として表現される。２つの球体ｘおよびｙがｘ＝（ｒ_ｘ；ｃ_ｘ）およびｙ＝（ｒ_ｙ；ｃ_ｙ）（ここで、ｒ_ｘ；ｒ_ｙ＞０は半径を表示し、ｃ_ｘ，ｃ_ｙ∈Ｒ^３は３Ｄの球体の中心を表示する）によって与えられるならば、次の式がｘおよびｙを距離関数として比較する。

ここで、関数ｃｏｓｈ（）は、双曲線余弦関数である。距離は、ポアンカレ距離として文献で知られている。

さらなる実施形態において、特徴も回転によって表現されて比較される。２つの球体ｘおよびｙが、２つの３×３の回転行列Ｒ_ｘ，Ｒ_ｙ∈ＳＯ（３）として表現される２つの３Ｄ方向に関連付けられるならば、それらは以下の距離関数を使用して比較することができる。

ここで、第２項ａ_２｜｜Ｒｘ−Ｒｙ｜｜^２ _Ｆは、フロベニウスノルムを介した２つの３Ｄ方向の間の距離関数を表し、係数ａ_１；ａ_２＞０はユーザによって予め定義されていて２つの距離関数の間にトレードオフを作ることを可能にする。実際には、良好な性能を得るためにａ１＝ａ２＝１を設定できるが、他の値も可能である。様々な距離尺度が数式（１９）において使用可能であり、例えば、フロベニウスノルムを介した２つの３Ｄ方向の間の距離関数は数式（９）の距離によって代用可能である。

スケールおよび推移、または、スケール、並進および回転を使用して特徴が比較されることになっているかどうかによって、数式（１８）または数式（１９）が距離を計算するために使用されるだろう。木は訓練データから構築され、木は二分探索木として構築される。バンテージポイントおよびしきい値の選択により訓練データが一旦２グループに分割されると、グループ毎の適切なポイントおよびしきい値の選択により２グループの各々はさらなる２グループにさらに分割される。探索木は、訓練データがそれ以上分割できなくなるまで構築される。

探索木が１つのオブジェクトのために一旦確立されたならば、さらなるオブジェクトについて利用可能な訓練データがあるかどうかを確かめるためにチェックが行われるステップＳ３７１に処理は移る。さらなる訓練データが利用可能であるならば、ステップＳ３７３で処理は次のオブジェクトを選択し、訓練データにおけるオブジェクト毎に探索木が構築されるまでステップＳ３５９からの処理を繰り返す。

図１２は、オンラインフェーズを示すフロー図である。ステップＳ５０１では、図６を参照して説明されたのと同じやり方で、探索空間がシーンから選択された３Ｄ球体特徴に制限される。各球体特徴は、オブジェクト同一性および姿勢の予測である投票に割り当てられる。ステップＳ５０３において、投票カウンタｖが１に割り当てられる。ステップＳ５０５において、投票ｖからの特徴が選択される。

ステップＳ５０７において、Ｓで表示される、投票のシーン特徴位置は、オブジェクトに関する投票からの特徴を正規化するために、当該投票の予測姿勢の逆を左掛けされている。

ステップＳ５０９では、探索木が、投票内のシーン特徴の各々について最近傍を見つけるために使用される。探索は、図１３に示されるように行われる。ここでは、シーン特徴は「Ａ」で表される。各内部木ノードｉは特徴Ｂ_ｉおよびしきい値Ｃ_ｉを持つ。各葉ノードｉはアイテムＤ_ｉを持つ。所与の特徴Ａについて最近傍を見つけることは、上の数式（１８）または（１９）のどちらかを使用してＡとＢ_ｉとの間の距離を比較することによってなされる。最後には、葉ノードＤ_ｉが最近傍として選択されるであろう。

ステップＳ５１１において、シーン特徴と選択された最近傍との間の距離が、しきい値と比較される。距離がしきい値より大きいならば、最近傍がマッチするとはみなされない。距離がしきい値未満であるならば、マッチが判定される。投票毎にオブジェクトのマッチ数が判定され、最多のマッチ数を備える投票が正しい投票であると判定される。

上記方法は、オブジェクトの認識および位置合わせに使用可能である。

第１の例では、複数の訓練オブジェクトが用意される。これらは、３ＤＣＡＤモデルとして表現されたオブジェクトであってもよいし、３Ｄ再構成法によりスキャンされたオブジェクトであってもよい。目標はシーン内でこれらのオブジェクトを検出することであり、当該シーンは３Ｄ再構成またはレーザスキャナ（若しくは任意の他の３Ｄセンサ）によって得られる。

この例では、テストオブジェクトは、ベアリング、ブロック、腕木、自動車、歯車の歯、フランジ、ノブ、パイプおよび２種類のピストンである。ここでは、オブジェクトの点群の形式の訓練データが提供された。オブジェクトが３ＤＣＡＤモデルの形式で提供されていたならば、点群は単にＣＡＤモデルの頂点の集合となる。

それから、それぞれ１０個のテストオブジェクトのうちの１つである単一の厳密なオブジェクトを包含する点群から計算された、１０００組の投票のテストセットからなるデータセットの形式で、点群はシステムに提供された。

図５および図７を参照して説明された処理が使用された。この方法についての図７および図５の変形の方法が使用された。これらの方法は、テーブル１に示されるように異なる距離に対応する異なる重み付け戦略が採用されるアルゴリズム２の行６において異なる。ハッシングＣＮＴが、σ_ｓおよびσ_ｔを見つけるためのベースライン法として使用された。ハッシングＣＮＴは、比較が回転と一致せずに、膨張と一致することに純粋に基づく場合には、図６に関して記述された方法に与えられた名前である。ハッシングＣＮＴは、比較が回転のマッチングなしで純粋に膨脹のマッチングに基づいている、図６を参照して説明された方法に与えられた名称である。テーブル１は様々な方法についての重み付け戦略を示す。関数ＨＡＱ（・）、ＲＶ（・）、ＦＡＱ（・）は、３Ｄ回転行列の表現である。

σ_ｓおよびσ_ｔについて最良の値を見つけるために、グリッド探索方法論が一個抜き交差検証を使用して採用された。認識率が最大化され、その後に位置合わせ率が最大化された。認識率が１００％で位置合わせ率が８６．７％の場合（テーブル２の行２）に、ハッシングＣＮＴについて最良の結果が（σ_ｓ；σ_ｔ）＝（０：１１１；０：９２）で見つけられた。

他の５つの変形の交差検証が、（σ_ｓ；σ_ｔ）について同一の値を使用して実行された。そのため、それらの結果は比較可能である（テーブル２参照）。全ての事例において、１００％の認識率が得られた。ハッシング−ＬＩ−ＦＡＱは、最高の位置合わせ率を与え、続いて、ハッシングＨＡＱ、ハッシング−ＬＩ−ＲＶおよびハッシングＦＡＱ、その次にハッシングＲＶであった。ＲＶおよびＦＡＱの左不変の距離は、それらの非不変のカウンタパートよりもそれぞれ性能が優れていた。

結果がテーブル２に示される。

さらなる例では、上記処理が点群位置合わせのために使用される。ここでは、シーン（例えば、部屋）を表す点群と、関心オブジェクト（例えば、椅子）を表わす別の点とが存在する。両方の点群は、レーザースキャナまたは他の３Ｄセンサから得ることができる。

タスクは、シーン点群のオブジェクト点群を位置合わせすること（例えば、部屋のどこに椅子があるかを見つけること）である。このタスクの解法は両方の点群に特徴検出器を適用することであり、それから、上述の認識および位置合わせが、オブジェクト（椅子）の姿勢を確かめるために使用される。

いくつかの実施形態が記述されているが、これらの実施形態は例示のために提示されているに過ぎず、発明の範囲を制限するようには意図されない。確かに、ここに記述された新しい方法およびシステムは、様々な他の形式で具体化されるかもしれない。さらに、様々な省略、置換および変更が、発明の趣旨から外れることなく、ここに記述された方法およびシステムの形態になされてよい。添付するクレームおよびそれらの均等物は、そのような変形の形態が発明の範囲および趣旨の内にあるようにカバーすることを意図される。

Claims

複数のオブジェクトを比較する方法であって、
前記方法は、各オブジェクトの少なくとも１つの特徴を３Ｄ球体表現で表現することを具備し、
各球体の半径は、前記オブジェクトのフレームに対する前記特徴のスケールを表し、
各球体の位置は、前記オブジェクトのフレームにおける前記特徴の並進を表し、
前記方法は、複数のオブジェクト間および当該複数のオブジェクトの姿勢間の類似性を判定するために３Ｄ球体によって表わされるスケールおよび並進を比較することにより、オブジェクトを比較することを更に具備する、
方法。
前記３Ｄ球体表現は、前記オブジェクトのフレームに対する前記特徴の回転に関する情報をさらに含み、
前記オブジェクトを比較することは、前記３Ｄ球体表現によって定義されるスケール、並進および回転を比較することを含む、
請求項１に記載の方法。
前記スケールおよび並進を比較することは、ハッシュテーブルを使用して、第１のオブジェクトの特徴を当該第１のオブジェクトと比較されることになる第２のオブジェクトの特徴と比較することを含み、
前記ハッシュテーブルは、スケールおよび並進の成分に関するハッシュ関数を使用してハッシングされた第２のオブジェクトの特徴のスケールおよび並進に関するエントリを含み、
前記方法は、前記第２のオブジェクトの特徴に対して前記第１のオブジェクトからの特徴のマッチングを得るために前記ハッシュテーブルを探索することをさらに具備する、
請求項１に記載の方法。
前記ハッシュ関数が、
で記述され、
ｈ（Ｘ）は、直接的な類似点Ｘのハッシュ関数であり、
は、直接的な類似点Ｘの膨脹部分であり、
Ｘ_ｓは、直接的な類似点Ｘのスケール部分であり、
Ｘ_ｔは、直接的な類似点Ｘの並進部分であり、
ηは、量子化器である、
請求項３に記載の方法。
前記ハッシュテーブルは、スケールおよび並進の成分毎に全ての回転のエントリを含む、請求項３に記載の方法。
前記３Ｄ球体表現は、前記オブジェクトのフレームに対する前記特徴の回転に関する情報をさらに含み、
前記オブジェクトを比較することは、前記３Ｄ球体表現によって定義されるスケール、並進および回転を比較することを含み、
前記方法は、前記第１のオブジェクトの特徴の回転を前記第２のオブジェクトの特徴の回転と比較するために、スケールおよび並進の成分についてマッチングが達成された場合に各ハッシュテーブルエントリに格納された回転を比較することをさらに具備する、
請求項５に記載の方法。
前記回転は、３Ｄのコサインベース距離を使用して比較される、請求項６に記載の方法。
前記コサインベース距離が、
で表現され、
ｒ_ａ＝（ｖ_ａ，α_ａ）およびｒ_ｂ＝（ｖ_ｂ，α_ｂ）は、軸角表現で表される３Ｄ回転の配列であり、
ｖ_ａ，ｊおよびα_ａ，ｊは、配列ｒ_ａの第ｊ番目の成分の回転軸および回転角をそれぞれ表示し、
ｖ_ｂ，ｊおよびα_ｂ，ｊは、配列ｒ_ｂの第ｊ番目の成分の回転軸および回転角をそれぞれ表示する、
請求項７に記載の方法。
前記スケールおよび並進を比較することは、探索木を使用して、第１のオブジェクトの特徴を当該第１のオブジェクトと比較されることになる第２のオブジェクトの特徴と比較することを含み、
前記探索木は、前記第２のオブジェクトの特徴のスケールおよび並進の成分を表すエントリを含み、
前記スケールおよび並進の成分は、閉形式の式を使用して比較される、
請求項１に記載の方法。
前記探索木は、前記第１のオブジェクトおよび前記第２のオブジェクトの特徴間の最近傍を見つけるために使用される、請求項９に記載の方法。
前記スケールおよび並進の成分は、２つの特徴の間のポアンカレ距離を測定することにより比較される、請求項９に記載の方法。
距離尺度が、
で表現され、
ｄ_１（ｘ，ｙ）が、ｘ＝（ｒ_ｘ；ｃ_ｘ）およびｙ＝（ｒ_ｙ；ｃ_ｙ）によって表現される２つの球体ｘおよびｙの間の距離を表し、
ｒ_ｘ；ｒ_ｙ＞０は、半径を表示し、
ｃ_ｘ，ｃ_ｙ∈Ｒ^３は、３Ｄの球体の中心を表示し、
ｃｏｓｈ（）は、双曲線余弦関数である、
請求項１１に記載の方法。
３Ｄ球体表現は、前記オブジェクトのフレームに対する前記特徴の回転に関する情報をさらに含み、
前記オブジェクトを比較することは、
を使用して、前記３Ｄ球体表現によって定義されるスケール、並進および回転を比較することをさらに含み、
ｄ_１（ｘ，ｙ）が、ｘ＝（ｒ_ｘ；ｃ_ｘ）およびｙ＝（ｒ_ｙ；ｃ_ｙ）によって表現される２つの球体ｘおよびｙの間の距離を表し、
ｒ_ｘ；ｒ_ｙ＞０は、半径を表示し、
ｃ_ｘ，ｃ_ｙ∈Ｒ^３は、３Ｄの球体の中心を表示し、
ｃｏｓｈ（）は、双曲線余弦関数であり、
２つの球体ｘおよびｙは、２つの３×３の回転行列Ｒ_ｘ，Ｒ_ｙ∈ＳＯ（３）として表現される２つの３Ｄ方向に関連付けられ、
の項は、フロベニウスノルムを介した２つの３Ｄ方向の間の距離関数を表し、
係数ａ_１；ａ_２＞０である、
請求項９に記載の方法。
前記３Ｄ球体表現は、前記オブジェクトのフレームに対する前記特徴の回転に関する情報をさらに含み、
前記オブジェクトを比較することは、
を使用して、前記３Ｄ球体表現によって定義されるスケール、並進および回転を比較することをさらに含み、
ｄ_１（ｘ，ｙ）が、ｘ＝（ｒ_ｘ；ｃ_ｘ）およびｙ＝（ｒ_ｙ；ｃ_ｙ）によって表現される２つの球体ｘおよびｙの間の距離を表し、
ｒ_ｘ；ｒ_ｙ＞０は、半径を表示し、
ｃ_ｘ，ｃ_ｙ∈Ｒ^３は、３Ｄの球体の中心を表示し、
ｃｏｓｈ（）は、双曲線余弦関数であり、
２つの球体ｘおよびｙは、３×３の回転行列Ｒ_ｘ，Ｒ_ｙ∈ＳＯ（３）として表現される２つの３Ｄ方向に関連付けられ、
ｄ（ｘ，ｙ）^２の項は、コサインベース距離を介した２つの３Ｄ方向の間の距離関数を表し、
係数ａ_１；ａ_２＞０である、
請求項９に記載の方法。
オブジェクト認識の方法であって、
前記方法は、複数の投票を受け取ることを具備し、
各投票は、オブジェクトの姿勢および位置の予測に相当し、
前記方法は、投票毎に、オブジェクトの特徴に３Ｄ球体表現を割り当てることをさらに具備し、
各球体の半径は、前記オブジェクトのフレームに対する前記特徴のスケールを表し、
各球体の位置は、前記オブジェクトのフレームにおける前記特徴の並進を表し、
前記方法は、投票毎に３Ｄ球体表現によって表される特徴を、複数のオブジェクトおよび姿勢についての特徴の３Ｄ表現のデータベースと比較することによって、最高のマッチングを提供する投票を判定することをさらに具備し、
前記特徴を比較することは、３Ｄ球体によって表現されるスケールおよび並進を比較することを含み、
前記方法は、前記データベースにおけるオブジェクトおよび姿勢とマッチする特徴の数が最多である投票を選択することをさらに具備する、
方法。
前記投票および前記データベース内のオブジェクトおよび姿勢に割り当てられる３Ｄ球体表現は、前記オブジェクトのフレームに対する前記特徴の回転に関する情報をさらに含み、
前記投票を判定することは、前記３Ｄ球体表現によって定義されるスケール、並進および回転を比較することを含む、
請求項１５に記載の方法。
前記複数の投票を受け取ることは、
オブジェクトの３Ｄ画像データを得ることと、
前記オブジェクトの特徴を識別して各特徴に記述を割り当てることと
を含み、
各記述は、特徴が関係をもつ当該特徴の特性の表示を含み、
前記複数の投票を受け取ることは、前記特徴をオブジェクトのデータベースと比較することをさらに含み、
前記オブジェクトのデータベースは、既知のオブジェクトの特徴の記述を含み、
前記複数の投票を受け取ることは、前記３Ｄ画像データから識別された少なくとも１つの特徴にマッチする特徴を持つオブジェクトを選択することによって投票を生成することをさらに含む、
請求項１５に記載の方法。
シーン内のオブジェクトを位置合わせする方法であって、前記方法は、
位置合わせ対象のオブジェクトの３Ｄデータを得ることと、
前記シーンの３Ｄデータを得ることと、
複数の投票を判定するために、前記位置合わせ対象のオブジェクトから特徴を抽出し、前記シーンから特徴を抽出することと
を具備し、
各投票は、シーン内のオブジェクトの姿勢および位置の予測に相当し、
前記方法は、前記位置合わせ対象のオブジェクトの存在および姿勢を識別するために、請求項１に記載の方法を使用して、前記位置合わせ対象のオブジェクトを前記投票と比較することをさらに具備する、
方法。
プロセッサでの実行時に当該プロセッサに請求項１に記載の方法を実行させるプロセッサ実行可能命令を保持するするコンピュータ可読記録媒体。
複数のオブジェクトを比較する装置であって、
前記装置は、３Ｄ球体表現として各オブジェクトの少なくとも１つの特徴を含んでいるオブジェクトの３Ｄデータを保存するように構成されたメモリを具備し、
各球体表現の半径は、前記オブジェクトのフレームに対する前記特徴のスケールを表し、
各球体表現の位置は、前記オブジェクトのフレームにおける前記特徴の並進を表し、
前記装置は、複数のオブジェクト間および当該複数のオブジェクトの姿勢間の類似性を判定するために３Ｄ球体によって表わされるスケールおよび並進を比較することにより、オブジェクトを比較するように構成されたプロセッサをさらに具備する、
装置。