JP6200989B2

JP6200989B2 - 物体姿勢認識

Info

Publication number: JP6200989B2
Application number: JP2016055730A
Authority: JP
Inventors: ザッチクリストファー
Original assignee: Toshiba Corp
Current assignee: Toshiba Corp
Priority date: 2015-03-20
Filing date: 2016-03-18
Publication date: 2017-09-20
Anticipated expiration: 2036-03-18
Also published as: US9818195B2; GB2536493B; GB2536493A; US20160275686A1; JP2016177804A; GB201504750D0

Description

この開示は、画像化された物体の姿勢推定に使用される方法に関する。特に、この開示は、デプス画像に基づく、画像化された物体の姿勢推定に使用される方法に関するが、それに限定されない。

物体認識のタスクは、画像またはビデオの中の物体を見つけ出し識別することを含む。その一方で、姿勢推定のタスクは、認識された物体の姿勢を推定することを含む。特に物体が部分的に閉塞される場合には、物体認識および姿勢推定は、コンピューター・ビジョン・アルゴリズムにとって難しい問題である。物体認識および姿勢推定は、カラー画像を用いて試みられるかもしれないし、代わりに、カラー・キューが得られないか信頼性が低い状況ではデプス情報のみを用いて試みられるかもしれない。

発明の態様および特徴は、添付の特許請求の範囲において提示される。

（関連出願の相互参照）
この出願は、２０１５年３月２０日に提出された英国特許出願第１５０４７５０．９号に基づいていて、かつ、この優先権の利益を主張するものであって、その全内容が参照によってここに組み込まれる。

本開示の例が、以下の添付図面を参照して説明されることになる。
図１は、物体の画像を得るために使用されるシステムを示す。図２は、ここで記述される方法のステップを実装するために使用される処理装置の典型的なブロック図を示す。図３は、画像とアトラスとの間の潜在的な対応の実例を示す。図４は、ここで記述される方法のステップのフローチャートを図５と連続で示す。図５は、ここで記述される方法のステップのフローチャートを図４と連続で示す。図６は、ここで記述される方法の典型的な結果を示す。図７は、ここで記述される方法のさらなる典型的な結果を示す。図８は、ここで記述される方法の性能結果を示す。

説明および図面の全体に亘って、同様の符号は同様の部分を指示する。

図１は、物体１０２（今後は「画像化された物体」）の画像を取得するために使用されるシステムを例示する。画像化される物体の例は、ジェスチャ認識アプリケーションでは手若しくはその一部を含み、インフラ検査アプリケーションではビルディングブロック若しくはその一部、または、建築物若しくはその一部を含み、障害物回避アプリケーションではハザードまたは障害物を含む。

画像取得装置１０１は、画像化された物体１０２を含むシーンを３つの空間次元で表す画像を取得するようにされている。画像取得装置１０１は、画像取得装置１０１に対する像点のデプスについてのデータを含む画像を取得することのできる任意の種類のデバイスであってよい。画像取得装置１０１の例は、ＴＯＦ（ｔｉｍｅ−ｏｆ−ｆｌｉｇｈｔ）カメラ、ストラクチャーライト３Ｄスキャナー（マイクロソフトＫｉｎｅｃｔデバイスなど）、超音波距離測定器、レーザー距離計、ＬｉＤＡＲデバイス、ならびに、シェープフロム（パッシブ）ステレオ（ｓｈａｐｅｆｒｏｍ（ｐａｓｓｉｖｅ）ｓｔｅｒｅｏ）装置および／またはシェープフロムシェーディング（ｓｈａｐｅｆｒｏｍｓｈａｄｉｎｇ）装置などのシェープフロムＸ装置を含む。さらに、ここに記述されるアプローチは、３つの空間次元でシーンを表す任意の画像に適用されてよい。画像取得装置１０１は、処理装置１０３に物理的におよび／または無線で結び付けられる。処理装置１０３は、画像化された物体１０２の姿勢を推定するために画像取得装置１０１によって取得された画像を処理するようにされている。

図２は、処理装置１０３の典型的なブロック図を示す。処理装置１０３は、マイクロプロセッサ２２０にインターネットなどの通信ネットワークとの通信をできるようにするようにされたネットワークインターフェース２２８と、フロッピー（登録商標）ディスク、コンパクトディスク、ＵＳＢスティック、１つ以上のキーボード、および／または、１つ以上のコンピュータマウス（に限られないが）とインターフェースで接続する入出力手段２２２と、メモリ２２４に格納されている命令およびデータを検索し、格納し、マイクロプロセッサ２２０に提供することのできるようにされたメモリ２２４（例えば、ランダムアクセスメモリ）とのうち１つ以上を経由して処理装置１０３へ提供されるかもしれないコンピュータ可読命令を実行するようにされたマイクロプロセッサ２２０を含む。マイクロプロセッサ２２０は、ユーザインターフェースが表示されてよく、処理演算の結果がさらに提示されてよいモニタ２２６にさらに結び付けられる。マイクロプロセッサ２２０は、さらに若しくは代わりに、それらの結果をネットワークインターフェース２２８経由で他の装置へと伝達してもよい。加えて、マイクロプロセッサ２２０は、モニタでの表示向けの画像を処理するようにされた図示されないＧＰＵ（ＧｒａｐｈｉｃａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）を含んでいてもよい。ＧＰＵは、マイクロプロセッサ２２０よりも高速に並列命令を実行するために使用されてもよい。

画像化された物体１０２の姿勢を推定するために使用される方法が図３、図４および図５を参照して説明される。図３は、画像とアトラスとの間の潜在的な対応の実例を示す。図４および図５は、方法のステップのフローチャートを連続した第１部および第２部で示す。

ステップＳ１００において、画像３０１（またはデプスマップ）が受信される。画像は、３つの空間次元で、画像化された物体１０２（これは、画像化される物体と画像取得装置１０１との間にある別の１つまたは複数の物体により部分的に閉塞されているかもしれない）を表す。画像３０１は、例えばこのケースでは画素である３０５、３０６、３０７および３０８などの画像要素から成り、これらのそれぞれの強度は、画像３０１の取得時における画像取得装置１０１とシーンの種々のコンポーネントとの間の距離を表す。

ステップＳ２００において、少なくとも画像要素のサブセット毎に、１つ以上の対応する候補位置が１つ以上の候補物体のアトラス３１５の中で識別される。

１つ以上の候補物体のアトラス３１５は、各候補物体の表現を含む。各候補物体の表現は、物体の３次元表現を提供する２Ｄ画像（例えば、デプスマップまたはレーザスキャンなど）、物体のボリューム３Ｄ表現（例えば、その要素が物体および／または物体の表面の有無を示す値を持つ、３Ｄアレイまたはボリューム画像など）、または、（例えば、ＣＡＤ（Ｃｏｍｐｕｔｅｒ−ＡｉｄｅｄＤｅｓｉｇｎ）ソフトウェアを用いて数学的に定義または定められた）幾何（ｇｅｏｍｅｔｒｉｃ）モデルであってよい。

候補位置は、それぞれの画像要素に関連付けられ、当該画像要素の近くの局所幾何を表す記述子を導出することにより、画像要素毎に識別される。画像要素に関連付けられた記述子は、アトラスにおいて潜在的な候補位置に関連付けられた１つ以上の記述子とマッチする。候補位置に関連付けられた記述子と画像要素に関連付けられた記述子をマッチングする場合には、マッチングスコアが割り当てられ、当該スコアは２つの記述子の間の類似度を定量化する。

１つの可能性として、画像要素のまわりの多数の予め定められた空間位置に対して、当該位置を列挙し、列（例えば、バイナリ占有列）を作成することによって、記述子が形成される。列の各要素は、列挙された位置のうち１つに対応し、画像の画像要素がその空間位置が画像化されたシーンの後方にあることを示すならば第１の値（すなわち、１）を持ち、画像の画像要素がその空間位置が画像化されたシーンの前方にあることを示すならば第２の値（すなわち、０）を持つ。実際には、近隣の画像要素の値に基づいて所与の画像要素における法線を解き、それから、当該法線に関する位置を（例えば、面点を中心に、設定された距離をおいて、かつ、２０度ずつ相隔てて）定義することにより、これは達成される。潜在的な候補デスクリプタも、対応する方法で、アトラスに対して定められる。

他の可能性として、局所的な形状幾何を記述するために高次モーメントを使用する記述子、および／または、強度画像（例えば、ＳＵＲＦおよび形状コンテキスト）向けに設計された記述子を用いることができる。これらの記述子は、局所的な勾配統計量をモデル化する。一般的に、記述子は、Ｒ^ｎのベクトルとして記述することができる。２つの記述子のマッチングは、２つの列の間のハミング距離を定めて、当該ハミング距離が閾値を下回ることを確認することで行われる。ハミング距離は、マッチングスコアとして直接的に使用されてよい。他の可能性として、（正規化）相互相関、および／または、二乗または非二乗のユークリッド距離が、記述子を比較するために使用されてよい。

図３の例では、画像要素３０６に対して、候補物体３１３上の２つの候補位置３１０、３１１が画像要素３０６に対応すると識別され、画像要素３０７に対して、候補物体３１３上の２つの候補位置３１０、３１２が画像要素３０７に対応すると識別され、画像要素３０８に対して、候補物体３１３上の候補位置３１１が画像要素３０８に対応すると識別される。

ステップＳ３００において、ステップＳ２００が行われた画像要素から、少なくとも１つの画像要素（３０６，３０７）のペアが形成／選択される。ステップＳ２００が行われた画像要素の各々について少なくとも１つの対応する候補位置が識別されているので、画像要素のペア毎に、少なくとも２つ（１ペア）の対応する候補位置がステップＳ２００で識別されることになる。例えば、画像要素（３０６，３０７）のペアに対して、対応する候補位置（３１０，３１２）のペアおよび対応する候補位置（３１１，３１２）のペアが識別されることになる。

ステップＳ４００において、画像要素のペアの各々について、当該ペアを形成する画像要素の間の距離が定められる。例えば、第１の画像要素３０６と第２の画像要素３０７との間の距離ｄ_ｉが定められる。画像がデプスマップである場合には、画像要素のペアの間の（画像空間における）距離は、画像３０１に含まれるデプス情報を用いて画像要素を逆投影することによって定められる。

ステップＳ５００において、候補位置のペアの各々の間の（アトラス空間における）距離が計算される。例えば、候補位置（３１０，３１２）のペアは画像要素（３０６，３０７）のペアに対応するので、第１の候補位置３１０と第２の候補位置３１２との間の距離ｄ_ａが定められ、候補位置（３１１，３１２）（これらも画像要素（３０６，３０７）のペアに対応する）のペアの間の距離ｄ_ａ’が定められる。

ステップＳ６００において、画像空間における画像要素のペアの間の距離と、アトラス空間における対応する候補位置のペアの間の距離とが比較される。例えば、画像要素３０６と３０７との間の距離ｄ_ｉは、対応する候補位置３１０と３１２との間の距離ｄ_ａと比較され、当該距離ｄ_ｉは、対応する候補位置３１１と３１２との間の距離ｄ_ａ’とも比較される。

画像要素のペアの間の距離と対応する候補位置のペアの間の距離とが非類似であるならば、当該候補位置のペアは当該画像要素のペアと実際には対応していなさそうであり、低い一致性（ｃｏｍｐａｔｉｂｉｌｉｔｙ）スコアが当該対応する候補位置のペアに割り当てられるかもしれない。例えば、距離ｄ_ａ’はｄ_ａに比べてｄ_ｉからかけ離れているので、候補位置３１１および３１２は、候補位置３１０および３１２に比べて、画像要素３０６および３０７と対応する可能性が低い。

ステップＳ６００の比較の結果、ペアの一致性スコアが、対応する候補位置のペアの各々に割り当てられる。１つの可能性として、ペアの一致性スコアは、画像空間距離とアトラス空間距離との間の差分であってもよいし、そこから導出されてもよい。

上述の方法のステップＳ３００乃至Ｓ６００は、少なくとも２つの異なる画像要素のペアに対して行われ、それらのうち任意のペアに対するステップＳ３００−Ｓ６００は、任意の他の画像要素のペアに対するステップＳ３００−Ｓ６００と、並列的に、逐次的に、または、並列的および逐次的の混合で、行われてよい。この効果は、アプローチが、並列的に行われ、それ故に素早く行われることを容易に可能とすることである。

図４のフローチャートは、ステップＳ６００から図５のステップＳ７００に継続する。図５に略述されるオプションのステップは、姿勢推定がステップＳ６００の一致性スコアから定められることを可能にする。

ステップＳ７００において、共通の候補位置を持つ候補位置のペアを２つ選択することにより、候補位置の三つ組が少なくとも１つ形成される。例えば、候補位置（３１０，３１１，３１２）の三つ組が、画像要素（３０６，３０７）のペアに対応する第１の候補位置（３１０，３１２）のペアと画像要素（３０６，３０８）のペアに対応する第２の候補位置（３１０，３１１）のペアとから形成されるかもしれない。好ましくは、三つ組を構成する３つの候補位置が直線上にある（すなわち、同一直線上にある）ならば、そのような三つ組は信頼性の高い姿勢決定を可能としないので、当該三つ組は選択されないことになる。

ステップＳ８００において、各三つ組のうちの候補位置のペアの一致性スコアに基づいて、ならびに、オプションとして各三つ組を形成する個別の候補位置のマッチングスコアにも基づいて、少なくとも１つの候補位置の三つ組から、候補位置の三つ組のサブセットが選択される。例えば、所与の三つ組を構成する２つの候補位置のペアの一致性スコアを、当該三つ組に対する全体の一致性を与えるために追加することができる。それから、三つ組は、それらの一致性スコアおよび／またはマッチングスコアに従ってランク付けされ、三つ組のサブセットはランキングに基づいて選択される。一例として、予測されるマッチの全体構成を部分に対するスコア（マッチングスコアおよび一致性スコア）に基づいてスコア付けするために確率伝播アプローチが用いられる。

ステップＳ９００において、三つ組のサブセットのうちの三つ組毎に、ステップＳ９００ａ乃至Ｓ９００ｄが行われる。同一直線上にない点の三つ組は候補物体の空間的姿勢を一意に定めるのに十分であるから、ステップＳ９００ａにおいて、画像化された物体１０２に対する初期姿勢推定（例えば、剛性変換行列）が三つ組に基づいて計算される。ステップＳ９００ｂにおいて、候補物体３１３（アトラス３１５によって定義される）は初期姿勢推定によって変換され、変換された候補物体は、候補物体が初期姿勢推定に等しい姿勢をしていれば画像取得装置１０１によって取得されるであろう、画像化された物体の画像を代表する推定画像を作成するために用いられる。

ステップＳ９００ｃにおいて、推定画像のスコアを作り出すために、推定画像は、画像化された物体１０２を含むシーンを表す画像３０１と比較される。比較は、二乗誤差和、相互相関、正規化相互情報量などの類似性尺度の評価を介してもよい。

ステップＳ９００ｄにおいて、ステップＳ９００ｃの比較に基づいた、洗練された姿勢推定が定められる。一例として、初期姿勢推定を繰り返し変更し、変更した姿勢推定に従って作成される推定画像の評価が当該三つ組に対する以前の評価に比べて良いか悪いかを定めることにより、探索アプローチが使用される。

ステップＳ１０００において、洗練された姿勢推定のスコアに基づいて、洗練された姿勢推定の１つが物体の真の姿勢を表すものとして選択される。それから、選択された洗練された姿勢推定は、様々なアプリケーションで使用することができる。

記述されたアプローチの例が、以下の番号付けされた条項のリストに提示される。

１．物体を描写するシーンの単一のデプス画像を考慮して当該物体の姿勢を認識および推定する方法。

２．予測間のペアの一致性およびデプスデータを用いることにより、物体の間違った検出を素早く破棄する方法。

３．局所的なメッセージパッシング（確率伝播）を介した推定を用いて物体および姿勢の予測をランク付けする方法。

４．推定上の対応のうち見込みのあるセットを効率的にサンプリングする方法。

５．閉塞を扱うために、物体の部分を検出することにより物体の姿勢を推定する方法。

ここでは、画像化された物体の姿勢を推定するために使用される方法が記述される。方法は、物体の画像の画素に対応する、アトラスの候補要素を識別することと、候補要素のペアを形成することと、各ペアの要素間の距離を対応する画素間の距離とを比較することとを含む。

１つの可能性として、図４および図５を参照して記述されたアプローチは、画像要素のペアの第１および第２の画像要素に対する距離比較に基づいて候補位置の適合性を定める事を可能とするために、単一の画像要素のペアのみについてステップＳ３００乃至Ｓ６００を行うかもしれない。

姿勢推定を定めるためには画像要素と候補位置との間で３つの対応が必要となるに過ぎないが、ここで記述されるアプローチを候補位置の三つ組に限定する必要はない。例えば、候補位置の三つ組は、２よりも多いペアの候補位置を含む候補位置のセット（好ましくは、１つの候補位置を共通に持つ）に置き換えられてもよい。

画像３０１は画像取得装置１０１から直接的に受信されてよいが、解像度を低下させ、それによって、ここで開示されるアプローチの計算量を低下させるために、画像３０１は画像取得装置１０１から得られた画像をダウンサンプリングすることによって得られてもよい。

ここに記述されたアプローチは、画像化された物体１０２に関するカラー情報（例えば、ＲＧＢ情報）を用いることなく実装されてよく、アトラスと共に、画像化された物体の画像３０１のみに基づいて行われてもよい。

ここで記述されるアプローチの潜在的なアプリケーションは、ロボットアームおよび自律ロボット（例えば、純粋に３Ｄ幾何に基づく物体の認識、物体の自律的な把握、および／または、自律組立）と、デプス画像からの自己位置同定（例えば、シーン内の特定の物体を認識することによる）と、自動インフラ検査（例えば、検出した物体を３Ｄデータベース内に格納された幾何と比較することによる）と、閉塞／ハザード物体回避（例えば、危険な物体を認識することによる）と、３Ｄジェスチャ認識（例えば、様々な姿勢での手のテンプレートを認識することによる）と、高速な３Ｄモデリング（例えば、３Ｄビルディングブロック（パイプ、キューブ、ボックス）を認識し、それらの間の幾何的な関係（これは、後に仮想物体を修正するために使用することができる）を格納することによる）とを含む。

ここで記述されるアプローチは、メッセージパッシングを介して誤対応（ｏｕｔｌｉｅｒ）により汚染されたランダムサンプル（すなわち、画像要素）を高速にフィルタリングする。アプローチは、物体が画像中の連続的な領域を構成する画像に投影され、それ故にデプス画像において空間的に近接する画素からのマッチを用いることは有益である、ということを考慮に入れる。仮説として取り上げられたマッチ（対応する候補位置）の中の多数の誤対応により、物体の姿勢を定めるために必要な３つの正しいマッチのランダムサンプリングは効果的でなないだろう。それ故に、アプローチは、３つの推定上の対応を含む見込みのあるサンプルセットの生成を、いくつかのステップに分解する。

・画素毎に、物体上の面点（「物体座標」）に対応する推定上の対応（対応する候補位置）のセットが格納され、これらは局所的なデプス外観に基づいて定められる。

・局所近傍にある２つの画素毎に、予測の間のペアの一致性が計算される。このエッジからの予測を含む任意のサンプルセットについて、このサンプルが誤対応によって汚染されている尤度が、メッセージ計算により計算可能であり、次のステップで得られる。

・デプス画像における３つの近くの画素の三つ組は全て、サンプルセットとして見なされ、計算されたメッセージに基づいて初めにランク付けされ破棄される。最高位のサンプルセットは、より高価な幾何学的フィッティングエネルギーを用いて評価される。

ここに記述されるアプローチは、弁別力のない（ｎｏｎ−ｄｉｓｃｒｉｍｉｎａｔｉｖｅ）３ｄ形状を持つ物体を扱うことを見出した。さらに、このアプローチは、デプスデータに加えてＲＧＢ画像を必要とせず、このため、データ並列アーキテクチャ（マルチコアＣＰＵ、ＧＰＵ）で容易に実装することができ、リアルタイム物体認識および姿勢推定を可能にする。

ここで記述されたアプローチは、任意のコンピュータ上で実装されてよいし、ハードウェア、ファームウェア、および／または、ソフトウェアを含む任意の適切な形式で、例えばコンピュータ可読媒体上で、実施されてよい。コンピュータ可読媒体は、非一時的なコンピュータ可読媒体であってよい。コンピュータ可読媒体は、ここで記述される方法のいずれかまたは全てをプロセッサに実行させるためにプロセッサでの実行が取り決められたコンピュータ可読命令を記憶する。

ここで使用される用語「コンピュータ可読媒体」は、プロセッサを特定の方法で動作させるためのデータおよび／または命令を格納する任意の媒体を指す。そのような記録媒体は、不揮発性媒体および／または揮発性媒体を含むかもしれない。不揮発性媒体は、例えば、光学または磁気ディスクを含むかもしれない。揮発性媒体は、動的メモリを含むかもしれない。記録媒体の典型的な形式は、フロッピーディスク、フレキシブルディスク、ハードディスク、ソリッド・ステート・ドライブ、磁気テープ、任意の他の磁気データ記録媒体、ＣＤ−ＲＯＭ、任意の他の光学データ記録媒体、１つ以上の穴または突起のパターンを持つ任意の物理的記録媒体、ＲＡＭ、ＰＲＯＭ、ＥＰＲＯＭ、フラッシュメモリ、ＮＶＲＡＭ、ならびに、任意の他のメモリチップまたはカートリッジを含む。

ここに記述されるアプローチの詳細例が以下に提示される。

（物体姿勢認識）
距離画像のみからの関節物体認識および姿勢推定は、例えば、ロボティクスアプリケーションおよび自動生産環境において重要なタスクである。カラー情報の不足および現在の商品デプスセンサの制約は、このタスクを難しいコンピュータビジョン問題にするし、標準的なランダムサンプリングベースのアプローチは時間がかかる。この難問は、局所的な確率伝播（または動的計画法）の助けを借りた、明らかな誤対応の早期排除により姿勢推定のための見込みのある正対応（ｉｎｌｉｅｒ）セットを生成することで、取り組まれるかもしれない。データ並列を利用することによりアプローチは高速となり、計算上高価なトレーニングフェーズは必要ない。最新技術の性能は、標準的なデータセットで実証される。

カラー画像とは対照的に、デプスマップは（特に、局所的なデプス画像パッチについては）大抵は外観上はるかに特徴が少ない。デプス画像を知覚可能かつシンプルなプライア（ｐｒｉｏｒ）は、区分的に滑らかな正則化項によって与えられる。従って、デプス画像における特徴点検出は必要なく、特徴はクエリ画像において密に（またはサブサンプリングによって準密に）評価される。さらに、実際のデプスセンサは、三角測量ベースのセンサ（パッシブステレオまたはＫｉｎｅｃｔタイプのアクティブステレオ）では部分的閉塞（ｈａｌｆｏｃｃｌｕｓｉｏｎ）および前景肥大化（ｆｏｒｅｇｒｏｕｎｄｆａｔｔｅｎｉｎｇ）、ＴＯＦセンサでは混合画素など、デプス不連続においていくつかの欠点を示す。全般に、多くのデプスセンシング技術が、真のシーン幾何の滑らかな領域においてのみ、信頼性が高くかつ正確なデプス値を伝える。そのうえ、距離画像の区分的に滑らかな外観は、完全な３Ｄ局所座標フレームを抽出することは反復可能ではないが、少なくとも面法線を推定することがどちらかといえば信頼度が高いことを暗示する。従って、特徴抽出を、２自由度（すなわち、面法線）に対しては容易に不変でなすことができるが、局所的な接平面における残りの２Ｄ回転に対しては高い信頼度で不変でなすことではできない。同じ理由で、特徴対応に直接的に基づいて姿勢を予測することは、推定における大きな不確実性につながるかもしれず、それ故に、ここで記述されるアプローチは、「物体座標」（すなわち、興味のある物体上の３Ｄ頂点）を予測し、多数の対応からより確かで正確な姿勢を計算する。

最終的に、興味のある物体は、閉塞されて部分的にしか見えない可能性がある。閉塞に対して頑強性を加える賢明な（ｓｅｎｓｉｂｌｅ）原理は、合成的な方法、すなわち、より小さな部分を検出およびアライメントすることによって物体を検出してその姿勢を推定する方法を使用することである。クエリ画像にて抽出された特徴をトレーニングデータベースにおける特徴とマッチングする場合には、デプス画像の局所的に曖昧な外観により、カラー画像と比べてはるかに高い偽陽性率が予想されるかもしれず、偽陽性のマッチングの総数に取り組むためには、画素毎の物体座標のいくつかの予測を維持することが有用であろう。要約すると、デプスデータのみからの物体検出は、次の難題に直面する：（ｉ）距離画像には目立つ領域はほとんどない、（ｉｉ）信頼度の低いデプス不連続、ならびに、（ｉｉｉ）情報を与えない特徴および記述子。

デプスカメラは３Ｄ幾何を伝え、ここで記述されるアプローチは距離画像における画素の３Ｄ物体座標を予測することに基づくので、２つの観察された３Ｄ点（デプスマップから逆投影された）間の距離および２つの予測される物体座標間の距離を比較することによって、推定上の物体座標の内部整合性（ｃｏｎｓｉｓｔｅｎｃｙ）を評価することができる。大いに離れた距離は、予測された物体座標の少なくとも１つが誤対応であるかもしれないことを示す。従って、予測および観察されたデータの間のこの（ペアの）整合性をスコア付けすることによって、誤対応で汚染された最小のサンプルセットから姿勢仮説をサンプリングおよび評価することを容易に回避することができる。

画素毎の物体座標仮説を未知（または潜在的な）状態と解釈するならば予測された物体座標のペアの整合性はグラフィカルモデルにおけるペアの潜在性の役割を果たすということ、ならびに、それ故に、個別の最小限界（ｍｉｎ−ｍａｒｇｉｎａｌ）を計算することで推定上の物体座標のセットをランク付けするためにグラフィカルモデルにおける推定の方法論がこの設定において使用され得る、という洞察に発明者は達した。画像に対するグラフィカルモデルの他の用途とは対照的に、ランダムな領域が画像全体に亘って定められる場合には、ここで記述されるアプローチは、その基礎をなすグラフがちょうど必要とされる最小サンプルセットのサイズを持つ、多数だが非常にシンプルなグラフィカルモデルを利用する。

ロバストな幾何的推定は、典型的は、コンピュータビジョンにおけるデータドリブンランダムサンプリングによって取り組まれる。剛性物体姿勢推定のための標準的なトップダウンのＲＡＮＳＡＣタイプのアプローチは、３つの物体座標仮説をランダムに引き出し（必ずしも一様分布を用いずに）、導かれる姿勢を所与のデータに対して評価するであろう。高レベルな概観では、ＲＡＮＳＡＣは、多くの姿勢仮説を生成し、続いてこれらをランク付ける。ここで記述されるアプローチは、ボトムアップ式で（すなわち、整合性基準を利用することによって多数の重複する最小サンプルセットを考慮して明らかに誤対応で汚染されているものを除去するために、計算の方向を逆転することにより）、使用することができる。最小セットが重複しているので、推定上の対応のペアに整合性基準を適用することは、いくつかの最小サンプルセットを直ちに破棄することを可能にする。これは、非常に少数の正対応（ｉｎｌｉｅｒｃｏｒｒｅｓｐｏｎｄｅｎｃｅ）を示す画像においてロバストな（姿勢）推定のための見込みのあるサンプルセットを生成する、見事な解決策である。

図６は、ここで記述される方法のステップの典型的な結果を示す。画像６０１は、入力ＲＧＢ画像（例示目的のみ）である。画像６０２は、入力デプス画像である。画像６０３は、グレイスケール符号化された物体座標を持つ、トレーニングされたＣＡＤモデル（アトラス）の図である。画像６０４は、偽陽性のレベルを図示するために、入力に対して最もマッチする物体座標を示す。画像６０５は、対応する最小の特徴距離を示し、これは数式（４）における単項ポテンシャル（マッチングスコア）としての役割も果たす。画像６０６は、画素毎に数式６における最も小さな最小限界を示している。画像６０７は、姿勢洗練（ｒｅｆｉｎｅｍｅｎｔ）後の幾何姿勢スコア（数式（１１））を示す。画像６０８は、最高の姿勢推定に従って重ね合わせられたモデルの点を示す。

以下では、ここで記述されるアプローチが、数フレーム／秒で行う間にノイズの入ったセンサデータを扱えることができることが示される。別の難しい態様は、高度に自己相似な局所形状外観（例えば、回転面、または、多重対称性を持つ物体）を持つ物体を扱うことである。

方法が詳細に記述される前に、高レベルな概観が提供される。テスト時に、アルゴリズムは、テスト画像（画像３０１）における画素（画像要素）毎に推定上のマッチング物体座標（対応する候補位置）のセットを維持する。（剛性の）姿勢計算に必要な対応の最小セットをサンプリングする代わりに、観察されたデプスデータとの整合性を用いて、対応のペア（候補位置のペア）の有用性（ｕｔｉｌｉｔｙ）が評価される。対応の三つ組（候補位置の三つ組）はランク付けられ、最高のスコアを取る物体姿勢を定めるために、標準的な幾何基準を用いて、最終的に見込みのある三つ組が評価される。

（記述子計算）
デプスマップの性質ならびに画像の小片のみを占める物体を検出する問題を考慮して、不安定な目立つ特徴点に依存しないために、記述子の密（または、準密）な計算が使用されてよい。

幾何を表す（局所的な）記述子は、距離画像（デプスマップ）および３Ｄ面メッシュの暗黙的な立体表現に基づいている。１つの可能性として、バイナリ占有格子が記述子を計算するために使用される。他のオプションは、ＴＳＤＦ（（ｔｒｕｎｃａｔｅｄ）ｓｉｇｎｅｄｄｉｓｔａｎｃｅｆｕｎｃｔｉｏｎ）および３Ｄ−ＳＵＲＦを含む。ここで記述される方法における記述子は、面点の付近の占有のビット列である。

視点に対するある程度の不変量を得るために、面点における局所的な座標フレームのｚ軸は（局所的な）面法線にアライメントされる。距離画像の区分的に滑らかな特徴を考慮すると、（三角測量ベースのデプスセンサにおいて観察される量子化アーチファクトを低下させるウィナーフィルタの実行後に）ほとんどの画素に対して比較的高い信頼度で法線は推定可能である。同じ理由で、第２の主方向の計算は、非常に信頼性が低く反復可能でない。故に、接平面における２Ｄ回転をサンプリングする（一例として、サンプルは２０度ステップで取られ、面点毎に１８個の記述子をもたらす）ことによって、それぞれの面点ではいくつかの記述子が計算される。

完全に局所的な（面点を中心とする）占有格子の代わりに、ボクセルのサブセットが使用される（後述される実装では５１２個、すなわち、記述子は５１２ビット長である）。例となるトレーニングデータに特徴選択を実行すると、接平面近くのボクセル位置のみが選択されることが観察された。従って、幅および奥行きの半分の高さを持つ、接平面に揃えられたボックス（８ｃｍ×８ｃｍ×４ｃｍのボックスが使用された）内で、ボクセル位置はランダムにサンプリングされた。これは、所与のデプス画像またはトレーニングメッシュからの記述子の構築が非常に速いことを意味する。

（マッチング）
テスト時には、記述子は、（サブサンプルされた）デプス画像における有効なデプスおよび推定された面法線を用いて画素毎に計算され、タスクは、類似の局所的な形状外観を持つ物体座標のセットを効率的に定めることである。バイナリ列の類似性を定量化するために、ハミング距離が使用される。ＦＬＡＮＮにおけるバイナリデータのための近似最近傍実装が使用された。

（ペアの一致性）
マッチングステップは、画素（画像要素）毎の物体座標候補（候補位置）のリストを記述子付きで返す。姿勢仮説を生成することすらせず、距離画像に含まれる情報を利用することで、推定上の対応のペア（候補位置のペア）の品質を評価することが可能である。ｐおよびｑがクエリ距離画像における２つの画素（画像要素）であるならば、Ｘ＾_ｐおよびＸ＾_ｑは、観測されたデプスによってもたらされる、それぞれの逆投影３Ｄ点であり、Ｘ_ｐおよびＸ_ｑはｐおよびｑにおいて伝えられる推定上の対応であり、Ｘ＾_ｐ＜−＞Ｘ_ｐ、Ｘ＾_ｑ＜−＞Ｘ_ｑが正対応であることの必要条件は、次の通りである。

Ｘ＾_ｐおよびＸ＾_ｑの間のユークリッド距離が、Ｘ_ｐおよびＸ_ｑの間のユークリッド距離から大幅に離れているならば、Ｘ_ｐおよびＸ_ｑは正対応セットの一部とはなり得ない。

「十分に大きな」逸脱の正確な定量化は、デプスセンサの特性に依存する。この基準は任意の仮説として取り上げられた姿勢に対して不変量であることに注意されたい。法線推定の一致性を加えることで、それはより強く（より弁別的に）なり得る。距離および法線一致性の項をどのように重み付けするかの追加の調整パラメータを導入しないようにするために、ここで記述される方法は、予測される物体座標の距離ベースの一致性に焦点を当てる。最終的な一致性スコアは後述されるように対応の三つ組（候補位置の三つ組）に基づいているから、法線一致性を除外することによる弁別力の損失が結果に与える影響は極小である。従って、対応Ｘ＾_ｐ＜−＞Ｘ_ｐおよびＸ＾_ｑ＜−＞Ｘ_ｑの間の一致性（これは、以下ではペアの潜在性の役割を果たすことになる）を評価するスコアリング関数（一致性スコア）は、次式で与えられる。

σは、デプスセンサおよびマッチング手続から予想される最大のノイズまたは不確実性レベルである。トレーニングデータは密にサンプリングされているので、σの値はトレーニングメッシュの面サンプリング密度（ｓｕｒｆａｃｅｓａｍｐｌｉｎｇｄｅｎｓｉｔｙ）を反映する必要はない。σは、以下の実験ではに設定された。

（最小サンプルセット生成）
剛性の姿勢推定は、少なくとも３つの（非縮退の）点間対応を必要とする。例えば、｛Ｘ＾_ｐ＜−＞Ｘ_ｐ，Ｘ＾_ｑ＜−＞Ｘ_ｑ，Ｘ＾_ｒ＜−＞Ｘ_ｒ｝という、３つのそのような対応があれば、ユークリッド変換、そして姿勢推定はＫａｂｓｃｈのアルゴリズムまたはＨｏｒｎの方法を介して計算することができる。当面のタスクは、画素毎に定められた候補物体座標から３つの対応の有望なセットを生成することである。

以下の例で説明されるように正対応比率は非常に小さいので、３つの推定上の対応をランダムにサンプリングすることは非効率となるだろう。興味のある物体（画像化された物体１０２）は画像がその約５％で見られ、かつ、画素毎に１０個の推定上の対応が維持される（物体によって包含される画素毎に真性陽性を含む）ならば、正対応比率は０．５％であり、９５％の信頼水準での素朴なＲＡＮＳＡＣサンプリングは２０００万回を超える反復を必要とすることになる。この値は、（例えば、より洗練されたサンプリング戦略の代わりに全画像に亘る素朴なサンプリングを仮定することにより）悲観的過ぎると同時に（物体が見える画素が常に真性陽性の対応を持つと仮定することにより）楽天的過ぎるから、粗い推定に過ぎない。それにも関わらず、ランダムな最小サンプルセットはほぼ全て少なくとも１つの誤対応を含むであろうし、後述されるペアの一致性基準は見込みのあるサンプルセットを効率的に定める。

この目的のために、誤対応で汚染されたサンプルセットを速く破棄するために、木の最大積（ｍａｘ−ｐｒｏｄｕｃｔ）確率伝播（ＢＰ）（負の対数ポテンシャル（ｌｏｇｐｏｔｅｎｔｉａｌ）が用いられるので、これは実際には最小和（ｍｉｎ−ｓｕｍ）ＢＰである）を介して最小限界が計算される。｛ｐ，ｑ，ｒ｝をクエリ画像における（同一直線上にない）画素のセットであるとし、Ｘ_ｓ（ｓ∈｛ｐ，ｑ，ｒ｝）を推定上の物体座標に広がるとし、φ_ｓ（Ｘ_ｓ）を単項ポテンシャル（通常は記述子の類似性に基づいている）であるとし、グラフィカルモデルに従う、状態（Ｘ_ｐ，Ｘ_ｑ，Ｘ_ｒ）の負の対数尤度（エネルギー）は次式となる。

画素ｓにおいて抽出された記述子と、Ｘ_ｓの（近似）最近傍探索によって返されるものとの間のハミング距離が、単項ポテンシャルφ_ｓ（Ｘ_ｓ）として使用される。

最小限界、すなわち、Ｘ_ｐ毎に次式の値が、ｐに根ざした木の確率伝播のボトムアップパスを介して計算することができる。

この場合には、姿勢推定を定めるために３つの対応だけが必要となり、それ故に、木はチェーンへと縮退する。最小サンプルサイズがより大きければ、例えば、低パラメトリックかつ（略）等長な変形を受けた物体の姿勢を計算する場合には、基礎をなすグラフの一般化はスターグラフである。

ＢＰ中に計算される関連のある値は、葉ｑから根ｐへ送られる上向きメッセージである。

最小限界は次式で表されることに注意されたい。

さらに、次式のメッセージベクトルが（有向の）エッジｑ→ｐを含む全ての木において再使用可能であり、相当な計算上の節約につながることに注意されたい。

あるペアの潜在性Ψについて、メッセージベクトル計算は、状態数の点で部分平方（ｓｕｂ−ｑｕａｄｒａｔｉｃ）であり、これはさらなる計算上の利益につながる。残念ながら、数式（３）に与えられるペアの潜在性の選択が、メッセージ計算に対する明白なより速いアルゴリズムを許さない。メッセージ計算は、メッセージの値ｍ_ｑ→ｐ（Ｘ_ｐ）を生じるだけではなく、以下の状態を最小化する。

これは、画素ｐにおける予測Ｘ_ｐが与えられた場合の画素ｑおよびｒにおける最適な物体座標予測を速く定めるために使用される。

最小限界μ_ｐｑｒ（Ｘ_ｒ）の計算は、画素ｑおよびｒの間の第３のエッジの潜在性、φ（Ｘ_ｑ，Ｘ_ｒ；Ｘ＾_ｑ，Ｘ＾_ｒ）を考慮に入れない。このエッジを数式（４）のエネルギーに加えることは、３倍の派閥でのメッセージパッシングを必要とし、計算上のコストがかかる。［メッセージパッシングは、係る設定では状態数の点で立方となるだろう。］
最小限界は、クエリ画像において画素毎に密に計算され（すなわち、全画素が根となる）、ｐからオフセットδ_ｋ（ｋ∈｛１，．．．，Ｋ｝）に位置する画素よりメッセージｍ_{ｐ＋δｋ→ｐ}が計算される。セット｛δ_ｋ｝の選択は、軸に揃えられた１６個のオフセットと、８個および１６個の画素距離にある対角オフセット（これは、予測場所と姿勢推定の数的安定性とを交換することを目的とする）を含む。ｐ→ｑおよびｒ→ｐの２つのエッジについて、（Ｘ_ｐ，Ｘ^＊ _ｑ→ｐ（Ｘ_ｐ），Ｘ^＊ _ｒ→ｐ（Ｘ_ｐ））は剛性の姿勢を推定するための最小サンプルセットを形成し、最小限界は全て、これらの最小サンプルセットをランク付けするために用いられるＫ（Ｋ−１）／２個の係る三つ組のためのものである。方法は、後述されるように、最高位のもの（ここでは、２０００個が使用される）に対する推定および評価に進む。

（姿勢仮説評価）
３Ｄモデルを距離画像に揃えることによって姿勢仮説の品質を評価することは、姿勢がノイズによって影響されないか殆ど影響されないならば、簡単なように見える。姿勢仮説において予想され得る実質的なノイズレベル、ならびに、姿勢をランク付けするための賢明なスコアリング関数は、これを考慮に入れる必要がある。この目的のために、スコアリング関数は、姿勢の不確実性に対して不変量である必要がある。真の姿勢は事実上は潜在的な変量であるから、１つのオプションは近くの姿勢を重要視しない（ｍａｒｇｉｎａｌｉｚｅ）（すなわち、平均化）することであり［これは、本質的には、入力を平滑化することに相当する］、別のオプションは潜在的な姿勢を最大化することである。以降では、後者のオプションが選択される。多数の姿勢仮説が真の姿勢の近くで得られないと予想または仮定されるので、姿勢クラスタリングまたは平均化アプローチは全く使用されない。「古典的な」幾何アプローチが、所与の３Ｄモデル点とデプスマップとの間の最適なアライメントを定めることにより使用される。

仮説として取り上げられた姿勢（または任意の潜在的な変量全般）の品質を評価する方法は、センサノイズについての仮定を与えられたデータを「説明する」こと、すなわち、画像ドメインで合計する（積分する）個別のコスト関数を公式化する（ｆｏｒｍｕｌａｔｅ）ことである。残念ながら、この原理により裏付けられた公式を最適化することは高価である。従って、計算上の理由で、モデルを「説明すること」の逆方向が用いられる（最大２０００個の姿勢仮説がこの段階で考慮されることを思い出そう）。デプスマップに関して点セットの姿勢をロバストに洗練するためのいくつかの方法（（ロバストな）非線形最小二乗を介した姿勢洗練を含む）が実装された。以下のシンプルな循環（ａｌｔｅｒｎａｔｉｏｎ）アルゴリズムが効率的かつ効果的である。

１．「投影データ関連付け」を行う（すなわち、モデル点Ｘ_ｊと逆投影デプスＸ＾_ｊ（Ｘ＾_ｊおよびＲＸ_ｊ＋Ｔの両方が同一視線上にある）との間の対応を確立する）。

２．Ｋａｂｓｃｈアルゴリズムの重み付け拡張を用いてＲおよびＴを更新する。重みｗｊは、ロバストな、切り詰められた（ｔｒｕｎｃａｔｅｄ）二次カーネルの平滑化近似から導出される。

そして、ｗ_ｊは次式で与えられる。

数式（１０）において与えられる重みは、変換されたモデル点とデプスマップにおける対応値との間のデプス偏差に基づいている。投影されたモデル点のためのデプス値が見つからないならば、対応は誤対応とみなされ０重みを持つ。は、正対応のノイズレベルであり、同値はについて使用される（これは３ｍｍである）。このアルゴリズムは単一のエネルギー（投影データ関連付けを用いるほとんどのＩＣＰ変量と共有される特性）を最適化しない点に注意されたい。これら２つのステップは、１０００個のモデル点の（ランダムな）サブセットについて１０回繰り返される。次式のロバストなフィッティングコストを用いることによって、１００００個のモデル点の、より大きなサブセットについて、姿勢仮説の最終スコアが評価される。

コストが最低の姿勢が報告および視覚化される。

（実装メモ）
トレーニングフェーズ：トレーニング段階において用いられるコアデータは、興味のある１以上の物体（画像化された物体）のデプス画像と共にそれぞれの姿勢データである。これらのデプスマップは、例えばＣＡＤモデルから合成的に生成され得るし、デプスセンサによってキャプチャされ得る。ＣＡＤモデルがレンダリングされるならば、物体の重心に向けてランダムにカメラ姿勢が生成される。実装では、実際のデプスセンサの特性（例えば、ノイズまたは量子化の影響）はシミュレートされないが、これらが物体の部分において対応が見つからないことにつながる場合もある（例えば、図６におけるパイプの上部は、レンダリングされた実際のデプスマップでは大幅に異なる概観を持つ）。これらのデプスマップから、デプスマップにおける（有効な）画素のランダムサブセットを選択することによって、目標数の記述子（この実験では典型的には３２ｋ個）が抽出される。ランダムサンプリングは、前額平行面パッチに近い画素の方へわずかに偏らせられる。従って、約６００ｋ個の記述子（サンプリングされた接平面回転に対して３２ｋ×１８）が生成されて格納される。トレーニング時にはそれ以上の処理は関与しない。従って、トレーニングフェーズは数秒以内に完了する。

並列実装：ここで記述されるアプローチにおけるほとんどのステップ（記述子抽出、データベースに対するマッチング、メッセージパッシング、および、姿勢推定を含む）は、並列化することができる。アルゴリズムの一部もＧＰＵで実装されなかったが、ＯｐｅｎＭＰベースのマルチプロセッシングを可能ならばいつでも使用した。入力デプスマップ（画像３０１）は６４０×４８０画素であるが、予測物体座標は、３２０×２４０または１６０×１２０画像のどちらか（後者はインタラクティブなフレームレートを達成するためのもの）で計算される。デュアルＸｅｏｎＥ５−２６９０システムでは、２フレーム／秒（３２０×２４０解像度）または１０Ｈｚ（１６０×１２０）までの間のフレームレートが達成された。最近傍記述子マッチングは、通常は最も時間のかかる部分である。ＧＰＵ実装は、リアルタイム性能を持つと予想される。

（実験）
Ｍｉａｎデータセットは３Ｄ物体検出アルゴリズムのためのデファクトベースラインベンチマークデータセットであるから、結果はＭｉａｎデータセットについて示される。ここに記述されるアルゴリズムがノイズの入った入力を処理する能力を実証するために、ＡＳＵＳＸｔｉｏｎカメラを用いて記録された発明者独自のデータセットも示される。上述のアルゴリズムはデプスマップを入力として取るので、（レンジスキャナの較正パラメータが利用できないので）カメラの内部用の近似パラメータを用いて６４０×４８０デプスマップにレンダリングすることにより、所与のメッシュは距離画像へと変換された。従って、デプスマップにおける閉塞の量は、提供されるメッシュに比べてわずかに高いかもしれない。我々は、ベースライン法として以下のアプローチを示す：スピンイメージ、テンソルマッチング、Ｄｒｏｓｔ、ＳＶＳおよびＴｕｚｅｌ。

図７は、ＡＳＵＳＸｔｉｏｎシーケンスからのサンプルフレームを示す。それぞれのモデル点群は、法線マップレンダリング入力に重ね合わせられる。大きな閉塞、デプスデータの見失い、ならびに、激しい視点変化にも関わらず、正確な検出および姿勢を見ることができる。

図８は、Ｍｉａｎデータセットで得られる結果を示す。ここで記述される方法が、８１％までの閉塞を扱い、それでも１００％の検出率を与えることができることがわかる。同等以上の検出率を得られる他のアプローチのみと比較した、単一の物体を検出するのに必要な時間が、ここに記述されるアプローチはＴｕｚｅｌアプローチと比較した場合には最大３０倍少なく、Ｄｒｏｓｔアプローチと比較して最大１７０倍少ないことも重要である。

実験準備：Ｍｉａｎデータセットは、検出を行う４つのモデルを持つ５０個のシーンを含む。

グラウンドトルス（ｇｒｏｕｎｄｔｒｕｔｈ）姿勢が、全ての物体の全てのインスタンスに提供される。それら４つのモデル以外に、Ｍｉａｎの実験では除外された別のモデルが存在する。故に、ここで記述されるアプローチおよび全てのベースラインは、この物体を含めない。結果は、３２０×２４０（ダウンサンプリング率θ＝２）および１６０×１２０（θ＝４）という、予測画像の２つの異なる解像度に対して提供される。予測物体座標画像の解像度が小さいほど、計算が速いことを意味するが、正対応のサンプルセットを見つける（その結果、成功検出を返す）確率が低いことも意味する。

実験結果：図８に見られるように、ここで記述されるアプローチは、８１％の閉塞まで１００％検出を達成することができ、より高い閉塞レベルでは最高のベースラインと同様に働く。ここに記述されるアプローチの結果を（認識率およびおそらく実行時間の点で）高めるために、学習技術が使用可能であるかもしれない。

Ｍｉａｎデータセットについての結果は、ここで記述されるアプローチがどのように機能するかの明確な理解を与えるが、同時に、データは現在の商品センサによって得られるデプスマップに比べてずっとはっきりとしている。従って、発明者は、ＡＳＵＳＸｔｉｏｎデプスセンサを用いて独自のデータを記録し、利用可能なＣＡＤモデル（おもちゃの車または腕木などの３Ｄモデルデータベースから、または、パイプ状の構造の近似マニュアル３Ｄモデリングにより、得られる）を持つ物体に対して、ここで記述される方法を実行した。興味のある物体のための記述子を作成する際に、デプスセンサの特性（境界肥大化およびデプス量子化など）はシミュレートされなかった。従って、検出する３Ｄモデルおよび実際の距離画像は、それらのデプス外観において大幅に異なるかもしれない。図７は、モデル点群が入力デプス（その法線マップを介してレンダリングされた）に重ね合わせられたサンプルフレームを描く。

計算時間：アルゴリズムのほとんどのステップのＧＰＵ実装は素直であるしリアルタイム性能（２０Ｈｚ）をもたらすことが期待されるものの、ここで記述されるアプローチのＣＰＵ実装の結果が提示される。ここで記述される方法の種々の段階の個別の時間負担部分（ｔｉｍｅｃｏｎｔｒｉｂｕｔｉｏｎ）は次の通りである。

・記述子（記述子計算）：９％。
・マッチング（ＦＬＡＮＮを用いたハミング距離ベースの記述子マッチング）：４５％。
・メッセージパッシング（最小限界計算のための）：２４％。
・ランキング（数式（６）に従うランキング／ソート）：６％。
・姿勢評価（ＩＣＰを含む）：１６％。

圧倒的に最も高価なステップは、特徴マッチングステップである。正確な値は、入力フレームおよび興味のある物体に依存して変わるが、一般的に特徴マッチング（すなわち、最近傍探索）は、全体のフレーム時間の主な部分を消費する。マッチング時間は、典型的には、重複した（ｒｅｄｕｎｄａｎｔ）面構造を持つ物体に比べて、非常に弁別的な局所形状外観を持つ物体に対してはかからない。前者の場合には、探索木がより均整が取れる傾向にあるからである。

Claims

画像化された物体の姿勢を推定するために使用されるコンピュータ実装方法であって、
（ａ）画像要素から構成されていて、前記画像化された物体を含むシーンを３つの空間次元で表す画像を受信するステップと、
（ｂ）複数の画像要素の各々について、１つ以上の候補物体のアトラスにおける１つ以上の対応する候補位置を識別するステップと、
（ｃ）前記複数の画像要素から、第１の画像要素および第２の画像要素を含む画像要素ペアを形成するステップと、
（ｄ）前記第１の画像要素と前記第２の画像要素との間の第１の距離を定めるステップ
と、
（ｅ）前記第１の画像要素に対応する第１の候補位置と前記第２の画像要素に対応する第２の候補位置との間の第２の距離を定めるステップと、
（ｆ）前記第１の距離および前記第２の距離を比較するステップと、
ステップ（ｃ）乃至ステップ（ｆ）を、前記複数の画像要素からの１つ以上のさらなる画像要素ペアに対して実行するステップと、
（ｉ）第１の画像要素ペアの第１の画像要素および第２の画像要素に対応する第１の候補位置および第２の候補位置を持つ第１の候補位置ペアを選択するステップと、（ｉｉ）第２の画像要素ペアの第１の画像要素および第２の画像要素に対応する第１の候補位置および第２の候補位置を持つ第２の候補位置ペアを選択するステップと、（ｉｉｉ）前記第１の候補位置ペアと前記第２の候補位置ペアの第２の候補位置とを含む候補位置の三つ組を形成するステップとを含むステップ（ｇ）と、
さらなる候補位置の三つ組を形成するために、さらなる候補位置ペアに対してステップ（ｇ）を実行するステップと、
各三つ組のうちの第１の候補位置ペアおよび第２の候補位置ペアに対して一致性スコアを定めるステップと、
定められた一致性スコアに基づいて三つ組のサブセットを選択するステップと、
前記三つ組のサブセットにおける三つ組毎に、それぞれの候補位置の三つ組に基づいて前記画像化された物体の初期姿勢推定を計算するステップと、
前記三つ組のサブセットにおける三つ組毎に、前記三つ組の初期姿勢推定に基づいて前記画像化された物体の推定画像を作成し、前記画像化された物体を含むシーンを表す画像と前記推定画像を比較し、前記比較に基づいて、前記三つ組に対する洗練された姿勢推定を決定およびスコアリングするステップと
を具備し、
前記１つ以上の候補物体のアトラスは、物体の３次元表現を提供する２Ｄ画像、物体のボリューム３Ｄ表現、または、ＣＡＤ（Ｃｏｍｐｕｔｅｒ−ＡｉｄｅｄＤｅｓｉｇｎ）ソフトウェアを用いて数学的に定められた幾何モデルであり、
前記三つ組に対する洗練された姿勢推定は、当該三つ組の初期姿勢推定を繰り返し変更し、変更後の姿勢推定に基づいて作成される推定画像が当該三つ組に対する以前の推定画像の評価に比べて良いか悪いかを定めることにより探索される、
方法。
ステップ（ｉ）およびステップ（ｉｉ）のうち少なくとも一方が、
ステップ（ｆ）の結果に基づいて、それぞれの候補位置ペアの一致性スコアを決定するステップと、
前記決定に基づいてそれぞれの選択をなすステップと
を含む、
請求項１記載の方法。
前記三つ組のサブセットを選択するステップが、
前記三つ組を当該三つ組の対応する一致性スコアに従ってランク付けするステップと、
ランキングに基づいて前記三つ組のサブセットを選択するステップと
を含む、請求項１記載の方法。
前記定められた一致性スコアに基づく前記三つ組のサブセットの選択は、グラフ探索を用いて行われる、請求項１または請求項３記載の方法。
前記洗練された姿勢推定のスコアに基づいて、当該洗練された姿勢推定のうち１つを選択するステップをさらに具備する、請求項１記載の方法。
ステップ（ｂ）が、前記複数の画像要素の各々について、
前記画像要素に関連付けられる記述子を導出するステップと、
前記記述子を前記アトラスにおける１つ以上の候補位置とマッチングするステップと
を含む、請求項１記載の方法。
前記画像はデプスマップであり、
各画像要素は、デプスを表す強度値を持ち、
ステップ（ｄ）は、画像要素強度値を用いて前記第１の距離を定めることを含む、
請求項１乃至請求項６のいずれか１項記載の方法。
請求項１乃至請求項７のいずれか１項記載の方法を実行するようにされた装置またはシステム。
前記画像を受け取るようにされた入出力手段と、
請求項１乃至請求項７のいずれか１項記載の方法のステップをプロセッサに実行させるための命令を格納するメモリと、
請求項１乃至請求項７のいずれか１項記載の方法のステップを実行するためのプロセッサと
を具備する、装置またはシステム。
１つ以上のプロセッサによる実行時に、当該１つ以上のプロセッサに請求項１乃至請求項７のいずれか１項記載の方法を実行させるようにされた機械可読命令を具備する非一時的なコンピュータ可読記録媒体。