JP6200989B2 - 物体姿勢認識 - Google Patents

物体姿勢認識 Download PDF

Info

Publication number
JP6200989B2
JP6200989B2 JP2016055730A JP2016055730A JP6200989B2 JP 6200989 B2 JP6200989 B2 JP 6200989B2 JP 2016055730 A JP2016055730 A JP 2016055730A JP 2016055730 A JP2016055730 A JP 2016055730A JP 6200989 B2 JP6200989 B2 JP 6200989B2
Authority
JP
Japan
Prior art keywords
image
candidate position
image element
candidate
pair
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2016055730A
Other languages
English (en)
Other versions
JP2016177804A (ja
Inventor
ザッチ クリストファー
ザッチ クリストファー
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Original Assignee
Toshiba Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp filed Critical Toshiba Corp
Publication of JP2016177804A publication Critical patent/JP2016177804A/ja
Application granted granted Critical
Publication of JP6200989B2 publication Critical patent/JP6200989B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/70Determining position or orientation of objects or cameras
    • G06T7/73Determining position or orientation of objects or cameras using feature-based methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/70Determining position or orientation of objects or cameras
    • G06T7/73Determining position or orientation of objects or cameras using feature-based methods
    • G06T7/74Determining position or orientation of objects or cameras using feature-based methods involving reference images or patches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/60Analysis of geometric attributes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/70Determining position or orientation of objects or cameras
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/74Image or video pattern matching; Proximity measures in feature spaces
    • G06V10/75Organisation of the matching processes, e.g. simultaneous or sequential comparisons of image or video features; Coarse-fine approaches, e.g. multi-scale approaches; using context analysis; Selection of dictionaries
    • G06V10/757Matching configurations of points or features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/74Image or video pattern matching; Proximity measures in feature spaces
    • G06V10/761Proximity, similarity or dissimilarity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/60Type of objects
    • G06V20/64Three-dimensional objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10028Range image; Depth image; 3D point clouds

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Multimedia (AREA)
  • Computing Systems (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • General Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Geometry (AREA)
  • Image Analysis (AREA)
  • Length Measuring Devices By Optical Means (AREA)
  • Length Measuring Devices With Unspecified Measuring Means (AREA)

Description

この開示は、画像化された物体の姿勢推定に使用される方法に関する。特に、この開示は、デプス画像に基づく、画像化された物体の姿勢推定に使用される方法に関するが、それに限定されない。
物体認識のタスクは、画像またはビデオの中の物体を見つけ出し識別することを含む。その一方で、姿勢推定のタスクは、認識された物体の姿勢を推定することを含む。特に物体が部分的に閉塞される場合には、物体認識および姿勢推定は、コンピューター・ビジョン・アルゴリズムにとって難しい問題である。物体認識および姿勢推定は、カラー画像を用いて試みられるかもしれないし、代わりに、カラー・キューが得られないか信頼性が低い状況ではデプス情報のみを用いて試みられるかもしれない。
発明の態様および特徴は、添付の特許請求の範囲において提示される。
(関連出願の相互参照)
この出願は、2015年3月20日に提出された英国特許出願第1504750.9号に基づいていて、かつ、この優先権の利益を主張するものであって、その全内容が参照によってここに組み込まれる。
本開示の例が、以下の添付図面を参照して説明されることになる。
図1は、物体の画像を得るために使用されるシステムを示す。 図2は、ここで記述される方法のステップを実装するために使用される処理装置の典型的なブロック図を示す。 図3は、画像とアトラスとの間の潜在的な対応の実例を示す。 図4は、ここで記述される方法のステップのフローチャートを図5と連続で示す。 図5は、ここで記述される方法のステップのフローチャートを図4と連続で示す。 図6は、ここで記述される方法の典型的な結果を示す。 図7は、ここで記述される方法のさらなる典型的な結果を示す。 図8は、ここで記述される方法の性能結果を示す。
説明および図面の全体に亘って、同様の符号は同様の部分を指示する。
図1は、物体102(今後は「画像化された物体」)の画像を取得するために使用されるシステムを例示する。画像化される物体の例は、ジェスチャ認識アプリケーションでは手若しくはその一部を含み、インフラ検査アプリケーションではビルディングブロック若しくはその一部、または、建築物若しくはその一部を含み、障害物回避アプリケーションではハザードまたは障害物を含む。
画像取得装置101は、画像化された物体102を含むシーンを3つの空間次元で表す画像を取得するようにされている。画像取得装置101は、画像取得装置101に対する像点のデプスについてのデータを含む画像を取得することのできる任意の種類のデバイスであってよい。画像取得装置101の例は、TOF(time−of−flight)カメラ、ストラクチャーライト3Dスキャナー(マイクロソフトKinectデバイスなど)、超音波距離測定器、レーザー距離計、LiDARデバイス、ならびに、シェープフロム(パッシブ)ステレオ(shape from (passive) stereo)装置および/またはシェープフロムシェーディング(shape from shading)装置などのシェープフロムX装置を含む。さらに、ここに記述されるアプローチは、3つの空間次元でシーンを表す任意の画像に適用されてよい。画像取得装置101は、処理装置103に物理的におよび/または無線で結び付けられる。処理装置103は、画像化された物体102の姿勢を推定するために画像取得装置101によって取得された画像を処理するようにされている。
図2は、処理装置103の典型的なブロック図を示す。処理装置103は、マイクロプロセッサ220にインターネットなどの通信ネットワークとの通信をできるようにするようにされたネットワークインターフェース228と、フロッピー(登録商標)ディスク、コンパクトディスク、USBスティック、1つ以上のキーボード、および/または、1つ以上のコンピュータマウス(に限られないが)とインターフェースで接続する入出力手段222と、メモリ224に格納されている命令およびデータを検索し、格納し、マイクロプロセッサ220に提供することのできるようにされたメモリ224(例えば、ランダムアクセスメモリ)とのうち1つ以上を経由して処理装置103へ提供されるかもしれないコンピュータ可読命令を実行するようにされたマイクロプロセッサ220を含む。マイクロプロセッサ220は、ユーザインターフェースが表示されてよく、処理演算の結果がさらに提示されてよいモニタ226にさらに結び付けられる。マイクロプロセッサ220は、さらに若しくは代わりに、それらの結果をネットワークインターフェース228経由で他の装置へと伝達してもよい。加えて、マイクロプロセッサ220は、モニタでの表示向けの画像を処理するようにされた図示されないGPU(Graphical Processing Unit)を含んでいてもよい。GPUは、マイクロプロセッサ220よりも高速に並列命令を実行するために使用されてもよい。
画像化された物体102の姿勢を推定するために使用される方法が図3、図4および図5を参照して説明される。図3は、画像とアトラスとの間の潜在的な対応の実例を示す。図4および図5は、方法のステップのフローチャートを連続した第1部および第2部で示す。
ステップS100において、画像301(またはデプスマップ)が受信される。画像は、3つの空間次元で、画像化された物体102(これは、画像化される物体と画像取得装置101との間にある別の1つまたは複数の物体により部分的に閉塞されているかもしれない)を表す。画像301は、例えばこのケースでは画素である305、306、307および308などの画像要素から成り、これらのそれぞれの強度は、画像301の取得時における画像取得装置101とシーンの種々のコンポーネントとの間の距離を表す。
ステップS200において、少なくとも画像要素のサブセット毎に、1つ以上の対応する候補位置が1つ以上の候補物体のアトラス315の中で識別される。
1つ以上の候補物体のアトラス315は、各候補物体の表現を含む。各候補物体の表現は、物体の3次元表現を提供する2D画像(例えば、デプスマップまたはレーザスキャンなど)、物体のボリューム3D表現(例えば、その要素が物体および/または物体の表面の有無を示す値を持つ、3Dアレイまたはボリューム画像など)、または、(例えば、CAD(Computer−Aided Design)ソフトウェアを用いて数学的に定義または定められた)幾何(geometric)モデルであってよい。
候補位置は、それぞれの画像要素に関連付けられ、当該画像要素の近くの局所幾何を表す記述子を導出することにより、画像要素毎に識別される。画像要素に関連付けられた記述子は、アトラスにおいて潜在的な候補位置に関連付けられた1つ以上の記述子とマッチする。候補位置に関連付けられた記述子と画像要素に関連付けられた記述子をマッチングする場合には、マッチングスコアが割り当てられ、当該スコアは2つの記述子の間の類似度を定量化する。
1つの可能性として、画像要素のまわりの多数の予め定められた空間位置に対して、当該位置を列挙し、列(例えば、バイナリ占有列)を作成することによって、記述子が形成される。列の各要素は、列挙された位置のうち1つに対応し、画像の画像要素がその空間位置が画像化されたシーンの後方にあることを示すならば第1の値(すなわち、1)を持ち、画像の画像要素がその空間位置が画像化されたシーンの前方にあることを示すならば第2の値(すなわち、0)を持つ。実際には、近隣の画像要素の値に基づいて所与の画像要素における法線を解き、それから、当該法線に関する位置を(例えば、面点を中心に、設定された距離をおいて、かつ、20度ずつ相隔てて)定義することにより、これは達成される。潜在的な候補デスクリプタも、対応する方法で、アトラスに対して定められる。
他の可能性として、局所的な形状幾何を記述するために高次モーメントを使用する記述子、および/または、強度画像(例えば、SURFおよび形状コンテキスト)向けに設計された記述子を用いることができる。これらの記述子は、局所的な勾配統計量をモデル化する。一般的に、記述子は、Rのベクトルとして記述することができる。2つの記述子のマッチングは、2つの列の間のハミング距離を定めて、当該ハミング距離が閾値を下回ることを確認することで行われる。ハミング距離は、マッチングスコアとして直接的に使用されてよい。他の可能性として、(正規化)相互相関、および/または、二乗または非二乗のユークリッド距離が、記述子を比較するために使用されてよい。
図3の例では、画像要素306に対して、候補物体313上の2つの候補位置310、311が画像要素306に対応すると識別され、画像要素307に対して、候補物体313上の2つの候補位置310、312が画像要素307に対応すると識別され、画像要素308に対して、候補物体313上の候補位置311が画像要素308に対応すると識別される。
ステップS300において、ステップS200が行われた画像要素から、少なくとも1つの画像要素(306,307)のペアが形成/選択される。ステップS200が行われた画像要素の各々について少なくとも1つの対応する候補位置が識別されているので、画像要素のペア毎に、少なくとも2つ(1ペア)の対応する候補位置がステップS200で識別されることになる。例えば、画像要素(306,307)のペアに対して、対応する候補位置(310,312)のペアおよび対応する候補位置(311,312)のペアが識別されることになる。
ステップS400において、画像要素のペアの各々について、当該ペアを形成する画像要素の間の距離が定められる。例えば、第1の画像要素306と第2の画像要素307との間の距離dが定められる。画像がデプスマップである場合には、画像要素のペアの間の(画像空間における)距離は、画像301に含まれるデプス情報を用いて画像要素を逆投影することによって定められる。
ステップS500において、候補位置のペアの各々の間の(アトラス空間における)距離が計算される。例えば、候補位置(310,312)のペアは画像要素(306,307)のペアに対応するので、第1の候補位置310と第2の候補位置312との間の距離dが定められ、候補位置(311,312)(これらも画像要素(306,307)のペアに対応する)のペアの間の距離d’が定められる。
ステップS600において、画像空間における画像要素のペアの間の距離と、アトラス空間における対応する候補位置のペアの間の距離とが比較される。例えば、画像要素306と307との間の距離dは、対応する候補位置310と312との間の距離dと比較され、当該距離dは、対応する候補位置311と312との間の距離d’とも比較される。
画像要素のペアの間の距離と対応する候補位置のペアの間の距離とが非類似であるならば、当該候補位置のペアは当該画像要素のペアと実際には対応していなさそうであり、低い一致性(compatibility)スコアが当該対応する候補位置のペアに割り当てられるかもしれない。例えば、距離d’はdに比べてdからかけ離れているので、候補位置311および312は、候補位置310および312に比べて、画像要素306および307と対応する可能性が低い。
ステップS600の比較の結果、ペアの一致性スコアが、対応する候補位置のペアの各々に割り当てられる。1つの可能性として、ペアの一致性スコアは、画像空間距離とアトラス空間距離との間の差分であってもよいし、そこから導出されてもよい。
上述の方法のステップS300乃至S600は、少なくとも2つの異なる画像要素のペアに対して行われ、それらのうち任意のペアに対するステップS300−S600は、任意の他の画像要素のペアに対するステップS300−S600と、並列的に、逐次的に、または、並列的および逐次的の混合で、行われてよい。この効果は、アプローチが、並列的に行われ、それ故に素早く行われることを容易に可能とすることである。
図4のフローチャートは、ステップS600から図5のステップS700に継続する。図5に略述されるオプションのステップは、姿勢推定がステップS600の一致性スコアから定められることを可能にする。
ステップS700において、共通の候補位置を持つ候補位置のペアを2つ選択することにより、候補位置の三つ組が少なくとも1つ形成される。例えば、候補位置(310,311,312)の三つ組が、画像要素(306,307)のペアに対応する第1の候補位置(310,312)のペアと画像要素(306,308)のペアに対応する第2の候補位置(310,311)のペアとから形成されるかもしれない。好ましくは、三つ組を構成する3つの候補位置が直線上にある(すなわち、同一直線上にある)ならば、そのような三つ組は信頼性の高い姿勢決定を可能としないので、当該三つ組は選択されないことになる。
ステップS800において、各三つ組のうちの候補位置のペアの一致性スコアに基づいて、ならびに、オプションとして各三つ組を形成する個別の候補位置のマッチングスコアにも基づいて、少なくとも1つの候補位置の三つ組から、候補位置の三つ組のサブセットが選択される。例えば、所与の三つ組を構成する2つの候補位置のペアの一致性スコアを、当該三つ組に対する全体の一致性を与えるために追加することができる。それから、三つ組は、それらの一致性スコアおよび/またはマッチングスコアに従ってランク付けされ、三つ組のサブセットはランキングに基づいて選択される。一例として、予測されるマッチの全体構成を部分に対するスコア(マッチングスコアおよび一致性スコア)に基づいてスコア付けするために確率伝播アプローチが用いられる。
ステップS900において、三つ組のサブセットのうちの三つ組毎に、ステップS900a乃至S900dが行われる。同一直線上にない点の三つ組は候補物体の空間的姿勢を一意に定めるのに十分であるから、ステップS900aにおいて、画像化された物体102に対する初期姿勢推定(例えば、剛性変換行列)が三つ組に基づいて計算される。ステップS900bにおいて、候補物体313(アトラス315によって定義される)は初期姿勢推定によって変換され、変換された候補物体は、候補物体が初期姿勢推定に等しい姿勢をしていれば画像取得装置101によって取得されるであろう、画像化された物体の画像を代表する推定画像を作成するために用いられる。
ステップS900cにおいて、推定画像のスコアを作り出すために、推定画像は、画像化された物体102を含むシーンを表す画像301と比較される。比較は、二乗誤差和、相互相関、正規化相互情報量などの類似性尺度の評価を介してもよい。
ステップS900dにおいて、ステップS900cの比較に基づいた、洗練された姿勢推定が定められる。一例として、初期姿勢推定を繰り返し変更し、変更した姿勢推定に従って作成される推定画像の評価が当該三つ組に対する以前の評価に比べて良いか悪いかを定めることにより、探索アプローチが使用される。
ステップS1000において、洗練された姿勢推定のスコアに基づいて、洗練された姿勢推定の1つが物体の真の姿勢を表すものとして選択される。それから、選択された洗練された姿勢推定は、様々なアプリケーションで使用することができる。
記述されたアプローチの例が、以下の番号付けされた条項のリストに提示される。
1. 物体を描写するシーンの単一のデプス画像を考慮して当該物体の姿勢を認識および推定する方法。
2. 予測間のペアの一致性およびデプスデータを用いることにより、物体の間違った検出を素早く破棄する方法。
3. 局所的なメッセージパッシング(確率伝播)を介した推定を用いて物体および姿勢の予測をランク付けする方法。
4. 推定上の対応のうち見込みのあるセットを効率的にサンプリングする方法。
5. 閉塞を扱うために、物体の部分を検出することにより物体の姿勢を推定する方法。
ここでは、画像化された物体の姿勢を推定するために使用される方法が記述される。方法は、物体の画像の画素に対応する、アトラスの候補要素を識別することと、候補要素のペアを形成することと、各ペアの要素間の距離を対応する画素間の距離とを比較することとを含む。
1つの可能性として、図4および図5を参照して記述されたアプローチは、画像要素のペアの第1および第2の画像要素に対する距離比較に基づいて候補位置の適合性を定める事を可能とするために、単一の画像要素のペアのみについてステップS300乃至S600を行うかもしれない。
姿勢推定を定めるためには画像要素と候補位置との間で3つの対応が必要となるに過ぎないが、ここで記述されるアプローチを候補位置の三つ組に限定する必要はない。例えば、候補位置の三つ組は、2よりも多いペアの候補位置を含む候補位置のセット(好ましくは、1つの候補位置を共通に持つ)に置き換えられてもよい。
画像301は画像取得装置101から直接的に受信されてよいが、解像度を低下させ、それによって、ここで開示されるアプローチの計算量を低下させるために、画像301は画像取得装置101から得られた画像をダウンサンプリングすることによって得られてもよい。
ここに記述されたアプローチは、画像化された物体102に関するカラー情報(例えば、RGB情報)を用いることなく実装されてよく、アトラスと共に、画像化された物体の画像301のみに基づいて行われてもよい。
ここで記述されるアプローチの潜在的なアプリケーションは、ロボットアームおよび自律ロボット(例えば、純粋に3D幾何に基づく物体の認識、物体の自律的な把握、および/または、自律組立)と、デプス画像からの自己位置同定(例えば、シーン内の特定の物体を認識することによる)と、自動インフラ検査(例えば、検出した物体を3Dデータベース内に格納された幾何と比較することによる)と、閉塞/ハザード物体回避(例えば、危険な物体を認識することによる)と、3Dジェスチャ認識(例えば、様々な姿勢での手のテンプレートを認識することによる)と、高速な3Dモデリング(例えば、3Dビルディングブロック(パイプ、キューブ、ボックス)を認識し、それらの間の幾何的な関係(これは、後に仮想物体を修正するために使用することができる)を格納することによる)とを含む。
ここで記述されるアプローチは、メッセージパッシングを介して誤対応(outlier)により汚染されたランダムサンプル(すなわち、画像要素)を高速にフィルタリングする。アプローチは、物体が画像中の連続的な領域を構成する画像に投影され、それ故にデプス画像において空間的に近接する画素からのマッチを用いることは有益である、ということを考慮に入れる。仮説として取り上げられたマッチ(対応する候補位置)の中の多数の誤対応により、物体の姿勢を定めるために必要な3つの正しいマッチのランダムサンプリングは効果的でなないだろう。それ故に、アプローチは、3つの推定上の対応を含む見込みのあるサンプルセットの生成を、いくつかのステップに分解する。
・画素毎に、物体上の面点(「物体座標」)に対応する推定上の対応(対応する候補位置)のセットが格納され、これらは局所的なデプス外観に基づいて定められる。
・局所近傍にある2つの画素毎に、予測の間のペアの一致性が計算される。このエッジからの予測を含む任意のサンプルセットについて、このサンプルが誤対応によって汚染されている尤度が、メッセージ計算により計算可能であり、次のステップで得られる。
・デプス画像における3つの近くの画素の三つ組は全て、サンプルセットとして見なされ、計算されたメッセージに基づいて初めにランク付けされ破棄される。最高位のサンプルセットは、より高価な幾何学的フィッティングエネルギーを用いて評価される。
ここに記述されるアプローチは、弁別力のない(non−discriminative)3d形状を持つ物体を扱うことを見出した。さらに、このアプローチは、デプスデータに加えてRGB画像を必要とせず、このため、データ並列アーキテクチャ(マルチコアCPU、GPU)で容易に実装することができ、リアルタイム物体認識および姿勢推定を可能にする。
ここで記述されたアプローチは、任意のコンピュータ上で実装されてよいし、ハードウェア、ファームウェア、および/または、ソフトウェアを含む任意の適切な形式で、例えばコンピュータ可読媒体上で、実施されてよい。コンピュータ可読媒体は、非一時的なコンピュータ可読媒体であってよい。コンピュータ可読媒体は、ここで記述される方法のいずれかまたは全てをプロセッサに実行させるためにプロセッサでの実行が取り決められたコンピュータ可読命令を記憶する。
ここで使用される用語「コンピュータ可読媒体」は、プロセッサを特定の方法で動作させるためのデータおよび/または命令を格納する任意の媒体を指す。そのような記録媒体は、不揮発性媒体および/または揮発性媒体を含むかもしれない。不揮発性媒体は、例えば、光学または磁気ディスクを含むかもしれない。揮発性媒体は、動的メモリを含むかもしれない。記録媒体の典型的な形式は、フロッピーディスク、フレキシブルディスク、ハードディスク、ソリッド・ステート・ドライブ、磁気テープ、任意の他の磁気データ記録媒体、CD−ROM、任意の他の光学データ記録媒体、1つ以上の穴または突起のパターンを持つ任意の物理的記録媒体、RAM、PROM、EPROM、フラッシュメモリ、NVRAM、ならびに、任意の他のメモリチップまたはカートリッジを含む。
ここに記述されるアプローチの詳細例が以下に提示される。
(物体姿勢認識)
距離画像のみからの関節物体認識および姿勢推定は、例えば、ロボティクスアプリケーションおよび自動生産環境において重要なタスクである。カラー情報の不足および現在の商品デプスセンサの制約は、このタスクを難しいコンピュータビジョン問題にするし、標準的なランダムサンプリングベースのアプローチは時間がかかる。この難問は、局所的な確率伝播(または動的計画法)の助けを借りた、明らかな誤対応の早期排除により姿勢推定のための見込みのある正対応(inlier)セットを生成することで、取り組まれるかもしれない。データ並列を利用することによりアプローチは高速となり、計算上高価なトレーニングフェーズは必要ない。最新技術の性能は、標準的なデータセットで実証される。
カラー画像とは対照的に、デプスマップは(特に、局所的なデプス画像パッチについては)大抵は外観上はるかに特徴が少ない。デプス画像を知覚可能かつシンプルなプライア(prior)は、区分的に滑らかな正則化項によって与えられる。従って、デプス画像における特徴点検出は必要なく、特徴はクエリ画像において密に(またはサブサンプリングによって準密に)評価される。さらに、実際のデプスセンサは、三角測量ベースのセンサ(パッシブステレオまたはKinectタイプのアクティブステレオ)では部分的閉塞(half occlusion)および前景肥大化(foreground fattening)、TOFセンサでは混合画素など、デプス不連続においていくつかの欠点を示す。全般に、多くのデプスセンシング技術が、真のシーン幾何の滑らかな領域においてのみ、信頼性が高くかつ正確なデプス値を伝える。そのうえ、距離画像の区分的に滑らかな外観は、完全な3D局所座標フレームを抽出することは反復可能ではないが、少なくとも面法線を推定することがどちらかといえば信頼度が高いことを暗示する。従って、特徴抽出を、2自由度(すなわち、面法線)に対しては容易に不変でなすことができるが、局所的な接平面における残りの2D回転に対しては高い信頼度で不変でなすことではできない。同じ理由で、特徴対応に直接的に基づいて姿勢を予測することは、推定における大きな不確実性につながるかもしれず、それ故に、ここで記述されるアプローチは、「物体座標」(すなわち、興味のある物体上の3D頂点)を予測し、多数の対応からより確かで正確な姿勢を計算する。
最終的に、興味のある物体は、閉塞されて部分的にしか見えない可能性がある。閉塞に対して頑強性を加える賢明な(sensible)原理は、合成的な方法、すなわち、より小さな部分を検出およびアライメントすることによって物体を検出してその姿勢を推定する方法を使用することである。クエリ画像にて抽出された特徴をトレーニングデータベースにおける特徴とマッチングする場合には、デプス画像の局所的に曖昧な外観により、カラー画像と比べてはるかに高い偽陽性率が予想されるかもしれず、偽陽性のマッチングの総数に取り組むためには、画素毎の物体座標のいくつかの予測を維持することが有用であろう。要約すると、デプスデータのみからの物体検出は、次の難題に直面する:(i)距離画像には目立つ領域はほとんどない、(ii)信頼度の低いデプス不連続、ならびに、(iii)情報を与えない特徴および記述子。
デプスカメラは3D幾何を伝え、ここで記述されるアプローチは距離画像における画素の3D物体座標を予測することに基づくので、2つの観察された3D点(デプスマップから逆投影された)間の距離および2つの予測される物体座標間の距離を比較することによって、推定上の物体座標の内部整合性(consistency)を評価することができる。大いに離れた距離は、予測された物体座標の少なくとも1つが誤対応であるかもしれないことを示す。従って、予測および観察されたデータの間のこの(ペアの)整合性をスコア付けすることによって、誤対応で汚染された最小のサンプルセットから姿勢仮説をサンプリングおよび評価することを容易に回避することができる。
画素毎の物体座標仮説を未知(または潜在的な)状態と解釈するならば予測された物体座標のペアの整合性はグラフィカルモデルにおけるペアの潜在性の役割を果たすということ、ならびに、それ故に、個別の最小限界(min−marginal)を計算することで推定上の物体座標のセットをランク付けするためにグラフィカルモデルにおける推定の方法論がこの設定において使用され得る、という洞察に発明者は達した。画像に対するグラフィカルモデルの他の用途とは対照的に、ランダムな領域が画像全体に亘って定められる場合には、ここで記述されるアプローチは、その基礎をなすグラフがちょうど必要とされる最小サンプルセットのサイズを持つ、多数だが非常にシンプルなグラフィカルモデルを利用する。
ロバストな幾何的推定は、典型的は、コンピュータビジョンにおけるデータドリブンランダムサンプリングによって取り組まれる。剛性物体姿勢推定のための標準的なトップダウンのRANSACタイプのアプローチは、3つの物体座標仮説をランダムに引き出し(必ずしも一様分布を用いずに)、導かれる姿勢を所与のデータに対して評価するであろう。高レベルな概観では、RANSACは、多くの姿勢仮説を生成し、続いてこれらをランク付ける。ここで記述されるアプローチは、ボトムアップ式で(すなわち、整合性基準を利用することによって多数の重複する最小サンプルセットを考慮して明らかに誤対応で汚染されているものを除去するために、計算の方向を逆転することにより)、使用することができる。最小セットが重複しているので、推定上の対応のペアに整合性基準を適用することは、いくつかの最小サンプルセットを直ちに破棄することを可能にする。これは、非常に少数の正対応(inlier correspondence)を示す画像においてロバストな(姿勢)推定のための見込みのあるサンプルセットを生成する、見事な解決策である。
図6は、ここで記述される方法のステップの典型的な結果を示す。画像601は、入力RGB画像(例示目的のみ)である。画像602は、入力デプス画像である。画像603は、グレイスケール符号化された物体座標を持つ、トレーニングされたCADモデル(アトラス)の図である。画像604は、偽陽性のレベルを図示するために、入力に対して最もマッチする物体座標を示す。画像605は、対応する最小の特徴距離を示し、これは数式(4)における単項ポテンシャル(マッチングスコア)としての役割も果たす。画像606は、画素毎に数式6における最も小さな最小限界を示している。画像607は、姿勢洗練(refinement)後の幾何姿勢スコア(数式(11))を示す。画像608は、最高の姿勢推定に従って重ね合わせられたモデルの点を示す。
以下では、ここで記述されるアプローチが、数フレーム/秒で行う間にノイズの入ったセンサデータを扱えることができることが示される。別の難しい態様は、高度に自己相似な局所形状外観(例えば、回転面、または、多重対称性を持つ物体)を持つ物体を扱うことである。
方法が詳細に記述される前に、高レベルな概観が提供される。テスト時に、アルゴリズムは、テスト画像(画像301)における画素(画像要素)毎に推定上のマッチング物体座標(対応する候補位置)のセットを維持する。(剛性の)姿勢計算に必要な対応の最小セットをサンプリングする代わりに、観察されたデプスデータとの整合性を用いて、対応のペア(候補位置のペア)の有用性(utility)が評価される。対応の三つ組(候補位置の三つ組)はランク付けられ、最高のスコアを取る物体姿勢を定めるために、標準的な幾何基準を用いて、最終的に見込みのある三つ組が評価される。
(記述子計算)
デプスマップの性質ならびに画像の小片のみを占める物体を検出する問題を考慮して、不安定な目立つ特徴点に依存しないために、記述子の密(または、準密)な計算が使用されてよい。
幾何を表す(局所的な)記述子は、距離画像(デプスマップ)および3D面メッシュの暗黙的な立体表現に基づいている。1つの可能性として、バイナリ占有格子が記述子を計算するために使用される。他のオプションは、TSDF((truncated) signed distance function)および3D−SURFを含む。ここで記述される方法における記述子は、面点の付近の占有のビット列である。
視点に対するある程度の不変量を得るために、面点における局所的な座標フレームのz軸は(局所的な)面法線にアライメントされる。距離画像の区分的に滑らかな特徴を考慮すると、(三角測量ベースのデプスセンサにおいて観察される量子化アーチファクトを低下させるウィナーフィルタの実行後に)ほとんどの画素に対して比較的高い信頼度で法線は推定可能である。同じ理由で、第2の主方向の計算は、非常に信頼性が低く反復可能でない。故に、接平面における2D回転をサンプリングする(一例として、サンプルは20度ステップで取られ、面点毎に18個の記述子をもたらす)ことによって、それぞれの面点ではいくつかの記述子が計算される。
完全に局所的な(面点を中心とする)占有格子の代わりに、ボクセルのサブセットが使用される(後述される実装では512個、すなわち、記述子は512ビット長である)。例となるトレーニングデータに特徴選択を実行すると、接平面近くのボクセル位置のみが選択されることが観察された。従って、幅および奥行きの半分の高さを持つ、接平面に揃えられたボックス(8cm×8cm×4cmのボックスが使用された)内で、ボクセル位置はランダムにサンプリングされた。これは、所与のデプス画像またはトレーニングメッシュからの記述子の構築が非常に速いことを意味する。
(マッチング)
テスト時には、記述子は、(サブサンプルされた)デプス画像における有効なデプスおよび推定された面法線を用いて画素毎に計算され、タスクは、類似の局所的な形状外観を持つ物体座標のセットを効率的に定めることである。バイナリ列の類似性を定量化するために、ハミング距離が使用される。FLANNにおけるバイナリデータのための近似最近傍実装が使用された。
(ペアの一致性)
マッチングステップは、画素(画像要素)毎の物体座標候補(候補位置)のリストを記述子付きで返す。姿勢仮説を生成することすらせず、距離画像に含まれる情報を利用することで、推定上の対応のペア(候補位置のペア)の品質を評価することが可能である。pおよびqがクエリ距離画像における2つの画素(画像要素)であるならば、X^およびX^は、観測されたデプスによってもたらされる、それぞれの逆投影3D点であり、XおよびXはpおよびqにおいて伝えられる推定上の対応であり、X^<−>X、X^<−>Xが正対応であることの必要条件は、次の通りである。
X^およびX^の間のユークリッド距離が、XおよびXの間のユークリッド距離から大幅に離れているならば、XおよびXは正対応セットの一部とはなり得ない。
「十分に大きな」逸脱の正確な定量化は、デプスセンサの特性に依存する。この基準は任意の仮説として取り上げられた姿勢に対して不変量であることに注意されたい。法線推定の一致性を加えることで、それはより強く(より弁別的に)なり得る。距離および法線一致性の項をどのように重み付けするかの追加の調整パラメータを導入しないようにするために、ここで記述される方法は、予測される物体座標の距離ベースの一致性に焦点を当てる。最終的な一致性スコアは後述されるように対応の三つ組(候補位置の三つ組)に基づいているから、法線一致性を除外することによる弁別力の損失が結果に与える影響は極小である。従って、対応X^<−>XおよびX^<−>Xの間の一致性(これは、以下ではペアの潜在性の役割を果たすことになる)を評価するスコアリング関数(一致性スコア)は、次式で与えられる。
σは、デプスセンサおよびマッチング手続から予想される最大のノイズまたは不確実性レベルである。トレーニングデータは密にサンプリングされているので、σの値はトレーニングメッシュの面サンプリング密度(surface sampling density)を反映する必要はない。σは、以下の実験では に設定された。
(最小サンプルセット生成)
剛性の姿勢推定は、少なくとも3つの(非縮退の)点間対応を必要とする。例えば、{X^<−>X,X^<−>X,X^<−>X}という、3つのそのような対応があれば、ユークリッド変換、そして姿勢推定はKabschのアルゴリズムまたはHornの方法を介して計算することができる。当面のタスクは、画素毎に定められた候補物体座標から3つの対応の有望なセットを生成することである。
以下の例で説明されるように正対応比率は非常に小さいので、3つの推定上の対応をランダムにサンプリングすることは非効率となるだろう。興味のある物体(画像化された物体102)は画像がその約5%で見られ、かつ、画素毎に10個の推定上の対応が維持される(物体によって包含される画素毎に真性陽性を含む)ならば、正対応比率は0.5%であり、95%の信頼水準での素朴なRANSACサンプリングは2000万回を超える反復を必要とすることになる。この値は、(例えば、より洗練されたサンプリング戦略の代わりに全画像に亘る素朴なサンプリングを仮定することにより)悲観的過ぎると同時に(物体が見える画素が常に真性陽性の対応を持つと仮定することにより)楽天的過ぎるから、粗い推定に過ぎない。それにも関わらず、ランダムな最小サンプルセットはほぼ全て少なくとも1つの誤対応を含むであろうし、後述されるペアの一致性基準は見込みのあるサンプルセットを効率的に定める。
この目的のために、誤対応で汚染されたサンプルセットを速く破棄するために、木の最大積(max−product)確率伝播(BP)(負の対数ポテンシャル(logpotential)が用いられるので、これは実際には最小和(min−sum)BPである)を介して最小限界が計算される。{p,q,r}をクエリ画像における(同一直線上にない)画素のセットであるとし、X(s∈{p,q,r})を推定上の物体座標に広がるとし、φ(X)を単項ポテンシャル(通常は記述子の類似性に基づいている)であるとし、グラフィカルモデルに従う、状態(X,X,X)の負の対数尤度(エネルギー)は次式となる。
画素sにおいて抽出された記述子と、Xの(近似)最近傍探索によって返されるものとの間のハミング距離が、単項ポテンシャルφ(X)として使用される。
最小限界、すなわち、X毎に次式の値が、pに根ざした木の確率伝播のボトムアップパスを介して計算することができる。
この場合には、姿勢推定を定めるために3つの対応だけが必要となり、それ故に、木はチェーンへと縮退する。最小サンプルサイズがより大きければ、例えば、低パラメトリックかつ(略)等長な変形を受けた物体の姿勢を計算する場合には、基礎をなすグラフの一般化はスターグラフである。
BP中に計算される関連のある値は、葉qから根pへ送られる上向きメッセージである。
最小限界は次式で表されることに注意されたい。
さらに、次式のメッセージベクトルが(有向の)エッジq→pを含む全ての木において再使用可能であり、相当な計算上の節約につながることに注意されたい。
あるペアの潜在性Ψについて、メッセージベクトル計算は、状態数の点で部分平方(sub−quadratic)であり、これはさらなる計算上の利益につながる。残念ながら、数式(3)に与えられるペアの潜在性の選択が、メッセージ計算に対する明白なより速いアルゴリズムを許さない。メッセージ計算は、メッセージの値mq→p(X)を生じるだけではなく、以下の状態を最小化する。
これは、画素pにおける予測Xが与えられた場合の画素qおよびrにおける最適な物体座標予測を速く定めるために使用される。
最小限界μpqr(X)の計算は、画素qおよびrの間の第3のエッジの潜在性、φ(X,X;X^,X^)を考慮に入れない。このエッジを数式(4)のエネルギーに加えることは、3倍の派閥でのメッセージパッシングを必要とし、計算上のコストがかかる。[メッセージパッシングは、係る設定では状態数の点で立方となるだろう。]
最小限界は、クエリ画像において画素毎に密に計算され(すなわち、全画素が根となる)、pからオフセットδ(k∈{1,...,K})に位置する画素よりメッセージmp+δk→pが計算される。セット{δ}の選択は、軸に揃えられた16個のオフセットと、8個および16個の画素距離にある対角オフセット(これは、予測場所と姿勢推定の数的安定性とを交換することを目的とする)を含む。p→qおよびr→pの2つのエッジについて、(X,X q→p(X),X r→p(X))は剛性の姿勢を推定するための最小サンプルセットを形成し、最小限界は全て、これらの最小サンプルセットをランク付けするために用いられるK(K−1)/2個の係る三つ組のためのものである。方法は、後述されるように、最高位のもの(ここでは、2000個が使用される)に対する推定および評価に進む。
(姿勢仮説評価)
3Dモデルを距離画像に揃えることによって姿勢仮説の品質を評価することは、姿勢がノイズによって影響されないか殆ど影響されないならば、簡単なように見える。姿勢仮説において予想され得る実質的なノイズレベル、ならびに、姿勢をランク付けするための賢明なスコアリング関数は、これを考慮に入れる必要がある。この目的のために、スコアリング関数は、姿勢の不確実性に対して不変量である必要がある。真の姿勢は事実上は潜在的な変量であるから、1つのオプションは近くの姿勢を重要視しない(marginalize)(すなわち、平均化)することであり[これは、本質的には、入力を平滑化することに相当する]、別のオプションは潜在的な姿勢を最大化することである。以降では、後者のオプションが選択される。多数の姿勢仮説が真の姿勢の近くで得られないと予想または仮定されるので、姿勢クラスタリングまたは平均化アプローチは全く使用されない。「古典的な」幾何アプローチが、所与の3Dモデル点とデプスマップとの間の最適なアライメントを定めることにより使用される。
仮説として取り上げられた姿勢(または任意の潜在的な変量全般)の品質を評価する方法は、センサノイズについての仮定を与えられたデータを「説明する」こと、すなわち、画像ドメインで合計する(積分する)個別のコスト関数を公式化する(formulate)ことである。残念ながら、この原理により裏付けられた公式を最適化することは高価である。従って、計算上の理由で、モデルを「説明すること」の逆方向が用いられる(最大2000個の姿勢仮説がこの段階で考慮されることを思い出そう)。デプスマップに関して点セットの姿勢をロバストに洗練するためのいくつかの方法((ロバストな)非線形最小二乗を介した姿勢洗練を含む)が実装された。以下のシンプルな循環(alternation)アルゴリズムが効率的かつ効果的である。
1. 「投影データ関連付け」を行う(すなわち、モデル点Xと逆投影デプスX^(X^およびRX+Tの両方が同一視線上にある)との間の対応を確立する)。
2. Kabschアルゴリズムの重み付け拡張を用いてRおよびTを更新する。重みwjは、ロバストな、切り詰められた(truncated)二次カーネルの平滑化近似から導出される。
そして、wは次式で与えられる。
数式(10)において与えられる重みは、変換されたモデル点とデプスマップにおける対応値との間のデプス偏差に基づいている。投影されたモデル点のためのデプス値が見つからないならば、対応は誤対応とみなされ0重みを持つ。 は、正対応のノイズレベルであり、同値は について使用される(これは3mmである)。このアルゴリズムは単一のエネルギー(投影データ関連付けを用いるほとんどのICP変量と共有される特性)を最適化しない点に注意されたい。これら2つのステップは、1000個のモデル点の(ランダムな)サブセットについて10回繰り返される。次式のロバストなフィッティングコストを用いることによって、10000個のモデル点の、より大きなサブセットについて、姿勢仮説の最終スコアが評価される。
コストが最低の姿勢が報告および視覚化される。
(実装メモ)
トレーニングフェーズ:トレーニング段階において用いられるコアデータは、興味のある1以上の物体(画像化された物体)のデプス画像と共にそれぞれの姿勢データである。これらのデプスマップは、例えばCADモデルから合成的に生成され得るし、デプスセンサによってキャプチャされ得る。CADモデルがレンダリングされるならば、物体の重心に向けてランダムにカメラ姿勢が生成される。実装では、実際のデプスセンサの特性(例えば、ノイズまたは量子化の影響)はシミュレートされないが、これらが物体の部分において対応が見つからないことにつながる場合もある(例えば、図6におけるパイプの上部は、レンダリングされた実際のデプスマップでは大幅に異なる概観を持つ)。これらのデプスマップから、デプスマップにおける(有効な)画素のランダムサブセットを選択することによって、目標数の記述子(この実験では典型的には32k個)が抽出される。ランダムサンプリングは、前額平行面パッチに近い画素の方へわずかに偏らせられる。従って、約600k個の記述子(サンプリングされた接平面回転に対して32k×18)が生成されて格納される。トレーニング時にはそれ以上の処理は関与しない。従って、トレーニングフェーズは数秒以内に完了する。
並列実装:ここで記述されるアプローチにおけるほとんどのステップ(記述子抽出、データベースに対するマッチング、メッセージパッシング、および、姿勢推定を含む)は、並列化することができる。アルゴリズムの一部もGPUで実装されなかったが、OpenMPベースのマルチプロセッシングを可能ならばいつでも使用した。入力デプスマップ(画像301)は640×480画素であるが、予測物体座標は、320×240または160×120画像のどちらか(後者はインタラクティブなフレームレートを達成するためのもの)で計算される。デュアルXeon E5−2690システムでは、2フレーム/秒(320×240解像度)または10Hz(160×120)までの間のフレームレートが達成された。最近傍記述子マッチングは、通常は最も時間のかかる部分である。GPU実装は、リアルタイム性能を持つと予想される。
(実験)
Mianデータセットは3D物体検出アルゴリズムのためのデファクトベースラインベンチマークデータセットであるから、結果はMianデータセットについて示される。ここに記述されるアルゴリズムがノイズの入った入力を処理する能力を実証するために、ASUS Xtionカメラを用いて記録された発明者独自のデータセットも示される。上述のアルゴリズムはデプスマップを入力として取るので、(レンジスキャナの較正パラメータが利用できないので)カメラの内部用の近似パラメータを用いて640×480デプスマップにレンダリングすることにより、所与のメッシュは距離画像へと変換された。従って、デプスマップにおける閉塞の量は、提供されるメッシュに比べてわずかに高いかもしれない。我々は、ベースライン法として以下のアプローチを示す:スピンイメージ、テンソルマッチング、Drost、SVSおよびTuzel。
図7は、ASUS Xtionシーケンスからのサンプルフレームを示す。それぞれのモデル点群は、法線マップレンダリング入力に重ね合わせられる。大きな閉塞、デプスデータの見失い、ならびに、激しい視点変化にも関わらず、正確な検出および姿勢を見ることができる。
図8は、Mianデータセットで得られる結果を示す。ここで記述される方法が、81%までの閉塞を扱い、それでも100%の検出率を与えることができることがわかる。同等以上の検出率を得られる他のアプローチのみと比較した、単一の物体を検出するのに必要な時間が、ここに記述されるアプローチはTuzelアプローチと比較した場合には最大30倍少なく、Drostアプローチと比較して最大170倍少ないことも重要である。
実験準備:Mianデータセットは、検出を行う4つのモデルを持つ50個のシーンを含む。
グラウンドトルス(ground truth)姿勢が、全ての物体の全てのインスタンスに提供される。それら4つのモデル以外に、Mianの実験では除外された別のモデルが存在する。故に、ここで記述されるアプローチおよび全てのベースラインは、この物体を含めない。結果は、320×240(ダウンサンプリング率θ=2)および160×120(θ=4)という、予測画像の2つの異なる解像度に対して提供される。予測物体座標画像の解像度が小さいほど、計算が速いことを意味するが、正対応のサンプルセットを見つける(その結果、成功検出を返す)確率が低いことも意味する。
実験結果:図8に見られるように、ここで記述されるアプローチは、81%の閉塞まで100%検出を達成することができ、より高い閉塞レベルでは最高のベースラインと同様に働く。ここに記述されるアプローチの結果を(認識率およびおそらく実行時間の点で)高めるために、学習技術が使用可能であるかもしれない。
Mianデータセットについての結果は、ここで記述されるアプローチがどのように機能するかの明確な理解を与えるが、同時に、データは現在の商品センサによって得られるデプスマップに比べてずっとはっきりとしている。従って、発明者は、ASUS Xtionデプスセンサを用いて独自のデータを記録し、利用可能なCADモデル(おもちゃの車または腕木などの3Dモデルデータベースから、または、パイプ状の構造の近似マニュアル3Dモデリングにより、得られる)を持つ物体に対して、ここで記述される方法を実行した。興味のある物体のための記述子を作成する際に、デプスセンサの特性(境界肥大化およびデプス量子化など)はシミュレートされなかった。従って、検出する3Dモデルおよび実際の距離画像は、それらのデプス外観において大幅に異なるかもしれない。図7は、モデル点群が入力デプス(その法線マップを介してレンダリングされた)に重ね合わせられたサンプルフレームを描く。
計算時間:アルゴリズムのほとんどのステップのGPU実装は素直であるしリアルタイム性能(20Hz)をもたらすことが期待されるものの、ここで記述されるアプローチのCPU実装の結果が提示される。ここで記述される方法の種々の段階の個別の時間負担部分(time contribution)は次の通りである。
・記述子(記述子計算):9%。
・マッチング(FLANNを用いたハミング距離ベースの記述子マッチング):45%。
・メッセージパッシング(最小限界計算のための):24%。
・ランキング(数式(6)に従うランキング/ソート):6%。
・姿勢評価(ICPを含む):16%。
圧倒的に最も高価なステップは、特徴マッチングステップである。正確な値は、入力フレームおよび興味のある物体に依存して変わるが、一般的に特徴マッチング(すなわち、最近傍探索)は、全体のフレーム時間の主な部分を消費する。マッチング時間は、典型的には、重複した(redundant)面構造を持つ物体に比べて、非常に弁別的な局所形状外観を持つ物体に対してはかからない。前者の場合には、探索木がより均整が取れる傾向にあるからである。

Claims (10)

  1. 画像化された物体の姿勢を推定するために使用されるコンピュータ実装方法であって、
    (a)画像要素から構成されていて、前記画像化された物体を含むシーンを3つの空間次元で表す画像を受信するステップと、
    (b)複数の画像要素の各々について、1つ以上の候補物体のアトラスにおける1つ以上の対応する候補位置を識別するステップと、
    (c)前記複数の画像要素から、第1の画像要素および第2の画像要素を含む画像要素ペアを形成するステップと、
    (d)前記第1の画像要素と前記第2の画像要素との間の第1の距離を定めるステップ
    と、
    (e)前記第1の画像要素に対応する第1の候補位置と前記第2の画像要素に対応する第2の候補位置との間の第2の距離を定めるステップと、
    (f)前記第1の距離および前記第2の距離を比較するステップと
    ステップ(c)乃至ステップ(f)を、前記複数の画像要素からの1つ以上のさらなる画像要素ペアに対して実行するステップと、
    (i)第1の画像要素ペアの第1の画像要素および第2の画像要素に対応する第1の候補位置および第2の候補位置を持つ第1の候補位置ペアを選択するステップと、(ii)第2の画像要素ペアの第1の画像要素および第2の画像要素に対応する第1の候補位置および第2の候補位置を持つ第2の候補位置ペアを選択するステップと、(iii)前記第1の候補位置ペアと前記第2の候補位置ペアの第2の候補位置とを含む候補位置の三つ組を形成するステップとを含むステップ(g)と、
    さらなる候補位置の三つ組を形成するために、さらなる候補位置ペアに対してステップ(g)を実行するステップと、
    各三つ組のうちの第1の候補位置ペアおよび第2の候補位置ペアに対して一致性スコアを定めるステップと、
    定められた一致性スコアに基づいて三つ組のサブセットを選択するステップと、
    前記三つ組のサブセットにおける三つ組毎に、それぞれの候補位置の三つ組に基づいて前記画像化された物体の初期姿勢推定を計算するステップと、
    前記三つ組のサブセットにおける三つ組毎に、前記三つ組の初期姿勢推定に基づいて前記画像化された物体の推定画像を作成し、前記画像化された物体を含むシーンを表す画像と前記推定画像を比較し、前記比較に基づいて、前記三つ組に対する洗練された姿勢推定を決定およびスコアリングするステップと
    を具備し、
    前記1つ以上の候補物体のアトラスは、物体の3次元表現を提供する2D画像、物体のボリューム3D表現、または、CAD(Computer−Aided Design)ソフトウェアを用いて数学的に定められた幾何モデルであり、
    前記三つ組に対する洗練された姿勢推定は、当該三つ組の初期姿勢推定を繰り返し変更し、変更後の姿勢推定に基づいて作成される推定画像が当該三つ組に対する以前の推定画像の評価に比べて良いか悪いかを定めることにより探索される
    方法。
  2. ステップ(i)およびステップ(ii)のうち少なくとも一方が、
    ステップ(f)の結果に基づいて、それぞれの候補位置ペアの一致性スコアを決定するステップと、
    前記決定に基づいてそれぞれの選択をなすステップと
    を含む、
    請求項1記載の方法。
  3. 前記三つ組のサブセットを選択するステップが、
    前記三つ組を当該三つ組の対応する一致性スコアに従ってランク付けするステップと、
    ランキングに基づいて前記三つ組のサブセットを選択するステップと
    を含む、請求項1記載の方法。
  4. 前記定められた一致性スコアに基づく前記三つ組のサブセットの選択は、グラフ探索を用いて行われる、請求項1または請求項3記載の方法。
  5. 前記洗練された姿勢推定のスコアに基づいて、当該洗練された姿勢推定のうち1つを選択するステップをさらに具備する、請求項1記載の方法。
  6. ステップ(b)が、前記複数の画像要素の各々について、
    前記画像要素に関連付けられる記述子を導出するステップと、
    前記記述子を前記アトラスにおける1つ以上の候補位置とマッチングするステップと
    を含む、請求項1記載の方法。
  7. 前記画像はデプスマップであり、
    各画像要素は、デプスを表す強度値を持ち、
    ステップ(d)は、画像要素強度値を用いて前記第1の距離を定めることを含む、
    請求項1乃至請求項6のいずれか1項記載の方法。
  8. 請求項1乃至請求項7のいずれか1項記載の方法を実行するようにされた装置またはシステム。
  9. 前記画像を受け取るようにされた入出力手段と、
    請求項1乃至請求項7のいずれか1項記載の方法のステップをプロセッサに実行させるための命令を格納するメモリと、
    請求項1乃至請求項7のいずれか1項記載の方法のステップを実行するためのプロセッサと
    を具備する、装置またはシステム。
  10. 1つ以上のプロセッサによる実行時に、当該1つ以上のプロセッサに請求項1乃至請求項7のいずれか1項記載の方法を実行させるようにされた機械可読命令を具備する非一時的なコンピュータ可読記録媒体。
JP2016055730A 2015-03-20 2016-03-18 物体姿勢認識 Expired - Fee Related JP6200989B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
GB1504750.9A GB2536493B (en) 2015-03-20 2015-03-20 Object pose recognition
GB1504750.9 2015-03-20

Publications (2)

Publication Number Publication Date
JP2016177804A JP2016177804A (ja) 2016-10-06
JP6200989B2 true JP6200989B2 (ja) 2017-09-20

Family

ID=53052141

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2016055730A Expired - Fee Related JP6200989B2 (ja) 2015-03-20 2016-03-18 物体姿勢認識

Country Status (3)

Country Link
US (1) US9818195B2 (ja)
JP (1) JP6200989B2 (ja)
GB (1) GB2536493B (ja)

Families Citing this family (27)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10181091B2 (en) * 2014-06-20 2019-01-15 Google Llc Fine-grained image similarity
GB2536493B (en) * 2015-03-20 2020-11-18 Toshiba Europe Ltd Object pose recognition
KR101740329B1 (ko) * 2015-08-04 2017-05-29 한국전자통신연구원 팝업 북 기반 영상 콘텐츠 표시 장치 및 방법
WO2017145356A1 (ja) 2016-02-26 2017-08-31 株式会社ニコン 検出装置、検出システム、検出方法、情報処理装置、及び処理プログラム
WO2017154705A1 (ja) * 2016-03-09 2017-09-14 株式会社ニコン 撮像装置、画像処理装置、画像処理プログラム、データ構造、及び撮像システム
US10198818B2 (en) 2016-10-12 2019-02-05 Intel Corporation Complexity reduction of human interacted object recognition
US10140675B2 (en) * 2016-11-28 2018-11-27 Google Llc Image grid with selectively prominent images
CN110506191A (zh) 2017-02-15 2019-11-26 3形状股份有限公司 监测3d扫描仪的扫描体积
EP3586311A1 (en) * 2017-02-23 2020-01-01 Siemens Mobility GmbH Image indexing and retrieval using local image patches for object three-dimensional pose estimation
JP6827875B2 (ja) * 2017-04-19 2021-02-10 株式会社日立製作所 姿勢推定システム、距離画像カメラ、及び姿勢推定装置
US10402448B2 (en) * 2017-06-28 2019-09-03 Google Llc Image retrieval with deep local feature descriptors and attention-based keypoint descriptors
US10909369B2 (en) * 2017-07-14 2021-02-02 Mitsubishi Electric Research Laboratories, Inc Imaging system and method for object detection and localization
US10755142B2 (en) * 2017-09-05 2020-08-25 Cognizant Technology Solutions U.S. Corporation Automated and unsupervised generation of real-world training data
CN116721203A (zh) * 2017-09-27 2023-09-08 虹软科技股份有限公司 一种用于测量三维模型的方法、装置和存储介质
WO2019065298A1 (ja) * 2017-09-29 2019-04-04 ソニー株式会社 情報処理装置および方法
US10803546B2 (en) * 2017-11-03 2020-10-13 Baidu Usa Llc Systems and methods for unsupervised learning of geometry from images using depth-normal consistency
WO2019175629A1 (en) * 2018-03-14 2019-09-19 Nokia Technologies Oy Camera calibration and/or use of a calibrated camera
US10452947B1 (en) 2018-06-08 2019-10-22 Microsoft Technology Licensing, Llc Object recognition using depth and multi-spectral camera
KR102324001B1 (ko) * 2018-08-20 2021-11-09 베이징 센스타임 테크놀로지 디벨롭먼트 컴퍼니 리미티드 위치자세 검출 방법 및 장치, 전자 기기 및 저장 매체
CN109242892B (zh) * 2018-09-12 2019-11-12 北京字节跳动网络技术有限公司 用于确定图像间的几何变换关系的方法和装置
US11245875B2 (en) 2019-01-15 2022-02-08 Microsoft Technology Licensing, Llc Monitoring activity with depth and multi-spectral camera
CN109555543B (zh) * 2019-02-01 2024-03-29 中国铁建重工集团股份有限公司 一种管片自动输送及识别系统
WO2020208976A1 (ja) * 2019-04-08 2020-10-15 ソニー株式会社 画像処理装置、および画像処理方法、並びにプログラム
US11153603B2 (en) * 2019-06-10 2021-10-19 Intel Corporation Volumetric video visibility encoding mechanism
CN114402364A (zh) * 2019-09-13 2022-04-26 谷歌有限责任公司 使用随机森林的3d对象检测
CN111368934B (zh) * 2020-03-17 2023-09-19 腾讯科技(深圳)有限公司 图像识别模型训练方法、图像识别方法以及相关装置
US20220035003A1 (en) * 2020-07-29 2022-02-03 The Johns Hopkins University Method and apparatus for high-confidence people classification, change detection, and nuisance alarm rejection based on shape classifier using 3d point cloud data

Family Cites Families (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6944319B1 (en) * 1999-09-13 2005-09-13 Microsoft Corporation Pose-invariant face recognition system and process
JP4573085B2 (ja) * 2001-08-10 2010-11-04 日本電気株式会社 位置姿勢認識装置とその位置姿勢認識方法、及び位置姿勢認識プログラム
AU2004282790A1 (en) * 2003-10-21 2005-04-28 Nec Corporation Image collation system and image collation method
WO2008111452A1 (ja) 2007-03-09 2008-09-18 Omron Corporation 認識処理方法およびこの方法を用いた画像処理装置
US7844105B2 (en) * 2007-04-23 2010-11-30 Mitsubishi Electric Research Laboratories, Inc. Method and system for determining objects poses from range images
JP5181704B2 (ja) * 2008-02-07 2013-04-10 日本電気株式会社 データ処理装置、姿勢推定システム、姿勢推定方法およびプログラム
WO2010099035A1 (en) * 2009-02-25 2010-09-02 Honda Motor Co., Ltd. Body feature detection and human pose estimation using inner distance shape contexts
JP5297403B2 (ja) * 2010-02-26 2013-09-25 キヤノン株式会社 位置姿勢計測装置、位置姿勢計測方法、プログラムおよび記憶媒体
JP5548482B2 (ja) * 2010-02-26 2014-07-16 キヤノン株式会社 位置姿勢計測装置、位置姿勢計測方法、プログラム及び記憶媒体
JP5800494B2 (ja) 2010-11-19 2015-10-28 キヤノン株式会社 特定領域選択装置、特定領域選択方法及びプログラム
US9342888B2 (en) * 2014-02-08 2016-05-17 Honda Motor Co., Ltd. System and method for mapping, localization and pose correction of a vehicle based on images
US9607388B2 (en) * 2014-09-19 2017-03-28 Qualcomm Incorporated System and method of pose estimation
GB2536493B (en) * 2015-03-20 2020-11-18 Toshiba Europe Ltd Object pose recognition

Also Published As

Publication number Publication date
US9818195B2 (en) 2017-11-14
GB2536493B (en) 2020-11-18
GB2536493A (en) 2016-09-21
US20160275686A1 (en) 2016-09-22
JP2016177804A (ja) 2016-10-06
GB201504750D0 (en) 2015-05-06

Similar Documents

Publication Publication Date Title
JP6200989B2 (ja) 物体姿勢認識
Menze et al. Object scene flow
Park et al. Pix2pose: Pixel-wise coordinate regression of objects for 6d pose estimation
Yang et al. Monocular object and plane slam in structured environments
Walch et al. Image-based localization using lstms for structured feature correlation
Huang et al. Indoor depth completion with boundary consistency and self-attention
JP6430064B2 (ja) データを位置合わせする方法及びシステム
Menze et al. Object scene flow for autonomous vehicles
US8971612B2 (en) Learning image processing tasks from scene reconstructions
Zach et al. A dynamic programming approach for fast and robust object pose recognition from range images
Alvarez et al. Providing guidance for maintenance operations using automatic markerless augmented reality system
Azad et al. 6-DoF model-based tracking of arbitrarily shaped 3D objects
WO2017132636A1 (en) Systems and methods for extracting information about objects from scene information
Tippetts et al. Dense disparity real-time stereo vision algorithm for resource-limited systems
WO2012106068A2 (en) Mobile camera localization using depth maps
CN114782499A (zh) 一种基于光流和视图几何约束的图像静态区域提取方法及装置
CN115362478A (zh) 用于标记图像之间的空间关系的强化学习模型
EP3639192A1 (en) Computer vision-based thin object detection
Li et al. RGBD relocalisation using pairwise geometry and concise key point sets
Li et al. High-precision motion detection and tracking based on point cloud registration and radius search
Moon et al. Genflow: Generalizable recurrent flow for 6d pose refinement of novel objects
Liu Automatic range image registration in the markov chain
Figueroa et al. A combined approach toward consistent reconstructions of indoor spaces based on 6D RGB-D odometry and KinectFusion
CN109146969B (zh) 行人定位方法、装置及处理设备及其存储介质
Vishnyakov et al. Real-time semantic slam with dcnn-based feature point detection, matching and dense point cloud aggregation

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20170421

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20170509

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20170710

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20170801

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20170828

R150 Certificate of patent or registration of utility model

Ref document number: 6200989

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

LAPS Cancellation because of no payment of annual fees