JP4999717B2 - レンジ画像から物体の姿勢を求める方法及びシステム - Google Patents

レンジ画像から物体の姿勢を求める方法及びシステム Download PDF

Info

Publication number
JP4999717B2
JP4999717B2 JP2008017797A JP2008017797A JP4999717B2 JP 4999717 B2 JP4999717 B2 JP 4999717B2 JP 2008017797 A JP2008017797 A JP 2008017797A JP 2008017797 A JP2008017797 A JP 2008017797A JP 4999717 B2 JP4999717 B2 JP 4999717B2
Authority
JP
Japan
Prior art keywords
range image
input
image
range
error
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2008017797A
Other languages
English (en)
Other versions
JP2008269572A (ja
Inventor
ハンスピーター・フィスター
マルセル・ゲルマン
ミヒャエル・デー・ブライテンスタイン
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Mitsubishi Electric Research Laboratories Inc
Original Assignee
Mitsubishi Electric Research Laboratories Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Mitsubishi Electric Research Laboratories Inc filed Critical Mitsubishi Electric Research Laboratories Inc
Publication of JP2008269572A publication Critical patent/JP2008269572A/ja
Application granted granted Critical
Publication of JP4999717B2 publication Critical patent/JP4999717B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/70Determining position or orientation of objects or cameras
    • G06T7/73Determining position or orientation of objects or cameras using feature-based methods
    • G06T7/74Determining position or orientation of objects or cameras using feature-based methods involving reference images or patches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/60Type of objects
    • G06V20/64Three-dimensional objects
    • G06V20/647Three-dimensional objects by matching two-dimensional images to three-dimensional objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10028Range image; Depth image; 3D point clouds

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Image Processing (AREA)
  • Image Analysis (AREA)
  • Length Measuring Devices By Optical Means (AREA)
  • Image Generation (AREA)

Description

本発明は、包括的にはコンピュータビジョンに関し、特に物体に関して取得される画像から物体の姿勢を求めることに関する。
コンピュータビジョン用途の共通のタスクは、シーンに関して取得される画像から物体の姿勢を推定することである。本明細書中において、姿勢は物体の6DOFの位置及び向きとして定義される。クラッタ(例えば、望ましくない物体及びノイズ、並びに例えば複数の重なった物体による遮蔽)を含むシーン中の姿勢の推定は、極めて困難であり得る。さらに、2Dの画像及びビデオにおける姿勢推定は、照明、影、及び特徴の欠如(例えばテクスチャのない物体)の影響を受けやすい。
各画素が物体までの距離の推定値を含むレンジ画像からの姿勢の推定には、これらの制限がない。レンジ画像は、レーザレンジスキャナ等のアクティブライトシステム、又はアクティブライトステレオ法により取得することができる。レンジ画像はレンジマップと呼ばれることが多い。以下、これら2つの用語は同義である。
物体の3Dモデルが利用可能である場合、物体の3Dモデルをシーンの画像又はレンジ画像とマッチングするモデルベースの技法を用いることができる。モデルベースの姿勢推定は、物体認識、物体追跡、ロボットナビゲーション、及び動き検出等の多くの用途で用いられている。
姿勢推定における主な課題は、部分遮蔽、雑然としたシーン、及び大きな姿勢変化に対して不変であることである。2Dの画像及びビデオのための方法は一般に、外観に依存すると共に、照明、影、及びスケールの影響を受けやすいため、これらの課題を克服しない。最も成功を収めた試みとして、全体的な外観に基づく方法、及び局所的な2D特徴に基づく方法がある。残念ながら、これらの方法は通常、物体構造の局所的な変化を明示的にモデル化しないため、多数の訓練例を必要とする。
3Dスキャナのコストの低下のために、3Dモデルを用いるモデルベースの面マッチング技法が一般的になった。一方法は、視点の一貫性制約を用いて、視点独立画像特徴群と物体モデルとの間の対応関係を確立する(D. Lowe著「視点の一貫性制約(The viewpoint consistency constraint)」(International Journal of Computer Vision, volume 1, pages 57-72, 1987))。幾何学形状のみに基づいて3Dモデルを位置合わせする最も一般的な方法は、幾何学的記述子を用いることにより最近改良された逐次最近点(ICP)法である(N. Gelfand、N. Mitra、L. Guibas、及びH. Pottmann著「ロバストな大域的整合(Robust global registration)」(Proceeding Eurographics Symposium on Geometry Processing, 2005))。しかし、これらの方法は、初期の姿勢推定値が必要な細かい整合の問題にしか対処しない。
幾何学的ハッシングは、マッチング時間がビュー数に影響を受けないため、多視点対応及び物体姿勢を確立する効率的な方法である。しかし、ハッシュテーブルの構築には時間がかかり、マッチングプロセスは画像解像度及び表面サンプリングの影響を受けやすい。
別の方法は、主曲率を計算することによって、曲率特徴を用いて3D特徴すなわち形状記述子をレンジ画像にマッチングする(Dorai他著「Cosmos−3D自由形物体の表現法(Cosmos - a representation scheme for 3d free-form objects)」(PAMI, 19(10):1115-1130, 1997))。この方法は、表面が平滑且つ2階微分可能であり、よってノイズに敏感である必要がある。さらに、遮蔽された物体は処理することができない。
別の方法は、「スピンイメージ」表面シグネチャを用いて、表面をヒストグラムにイメージングする(A. Johnson及びM. Hebert著「雑然とした3Dシーンにおける効率的な物体認識のためのスピンイメージの使用(Using spin images for efficient object recognition in cluttered 3d scenes)」(PAMI, 21(5):433-449, 1999))。この方法は、雑然としたシーン及び遮蔽された物体に良好な結果をもたらす。しかし、Johnson他の方法は時間がかかり、画像解像度に影響を受けやすく、曖昧な一致を生じる場合がある。
別の方法は、複数の不規則なレンジ画像からテンソルと呼ばれる多次元テーブル表現を構築し、ハッシュテーブルベースの投票法を用いてテンソルをシーン中の物体にマッチングする。この方法は、物体認識及び画像の分割に用いられている(A. Mian、M. Bennamoun、及びR. Owens著「雑然としたシーンにおける3次元モデルベースの物体の認識及び分割(Three-dimensional model-based object recognition and segmentation in cluttered scenes)」(PAMI, 28(12):1584-1601, 2006))。しかし、この方法は、精密な幾何形状を必要とし、数分のランタイムがあるため、リアルタイム用途には不適である。
物体の姿勢(位置及び向き)の推定は、多くのコンピュータビジョン用途における共通のタスクである。多くの方法が知られているが、ほとんどの方法は、手動での初期化を必要とし、照明の変化、外観の変化、及び部分遮蔽に対するロバスト性に欠ける。
本発明の実施の形態は、シーンのレンジ画像に対する3Dモデルの形状マッチングに基づく、手動での初期化を用いない自動姿勢推定の方法及びシステムを提供する。本方法は誤差関数を含み、入力レンジ画像を様々な姿勢の物体の3Dモデルの所定の参照レンジ画像と比較する。本方法は、グラフィックスハードウェアのデータ並列処理機能を用いて、多くのレンジ画像の誤差関数を並列で評価及び最小化する。
本発明の方法は、GPUの並列性を利用したレンジ画像から物体の姿勢を求める。本発明では、複雑なシーン中の物体を見付け、初期推定値を用いずに物体の姿勢を正確に推定することができる。本発明の方法は、全ての参照レンジ画像の誤差を計算してから姿勢判定に最良のものを選択するため、極小値に影響されない。
方法及びシステムの概要
図1は、本発明の一実施の形態による、対象の関心のある入力物体110の姿勢をレンジ画像141から求める方法及びシステム100を示す。本方法は完全にグラフィック処理装置(GPU)104上で動作する。GPUでの大量データ並列処理は、本方法を、より複雑なCPUベースの方法よりも遥かに単純に、より効率的にする。本方法は全自動であり、初期の姿勢推定値を一切必要としない。数千の参照画像を比較しても、姿勢の判定にかかる時間は約1秒である。したがって、本方法はリアルタイム用途に適している。
姿勢は、他の用途、例えば、物体を機械操作するロボット用途に用いることができる。
前処理
前処理中に、対象の関心のある参照物体101をスキャンして(110a)、参照物体の詳細な3Dモデル111を構築する(115a)。参照物体101は入力物体110に類似している。モデル111は他の手段、例えばCADシステムでも構築することができる。モデルは、頂点のポリゴンメッシュの形式とすることができる。モデル111をいくつかの異なる姿勢でレンダリングし(120)、一組の参照レンジ画像121を作成する。実際には、数千の参照画像を用いることができる。各画像は64×64画素である。一組の参照レンジ画像121はGPU104のメモリ106に記憶することができる。これらのステップを1度だけ行う。
エッジ検出及びユークリッド距離変換(EDT)も参照レンジ画像121に適用することができる。EDTは以下でより詳細に説明する。この結果、本発明のレンジ画像は符号付距離場として表現される。
オンライン処理
オンラインでの姿勢推定中に、入力物体110及びおそらくは他の既知又は未知の物体を含むシーン102をスキャンして(130)、3Dスキャン131を生成する。本発明では、アクティブライト法、例えばレーザレンジスキャナ115を用いる。次に、メディアンフィルタを3Dスキャンに適用すると共に、エッジ検出を平滑化画像に適用し、距離場を求めて、入力レンジ画像141を作成する。なお、スキャンデータは略平滑であるため、詳細スキャンに対して平滑化を行う必要はない。
入力レンジ画像141を一組の参照レンジ画像121と比較して(140)、シーン102中の物体110の姿勢103を求める。一実施の形態では、GPU104での滑降シンプレックス法の並列実施を用いる。
タスクは、対毎の比較の誤差最小化を用いて、参照レンジ画像121と入力レンジ画像141との間の最良一致を見付けることである。最も良く一致する参照レンジ画像及びこの参照レンジ画像を入力レンジ画像141に対して平行移動したものにより、入力物体110の姿勢
Figure 0004999717
103の本発明の6DOF推定が得られる。
レンジ値及びユークリッド距離画像を用いる新規の誤差関数を説明すると、グレイスケール値又はカラー値が利用可能であれば、輝度勾配又は色勾配も誤差関数において考慮することができる。誤差関数は画素毎に評価することができるため、GPU104のシェーダプロセッサ105における効率的な処理に適している。
従来、シェーダは多くの場合、コンピュータグラフィックス用途及びコンピュータゲームにおいて、ポリゴンモデル、例えば頂点の三角形メッシュ、テクスチャ、及び照明構成からグラフィック画像を作成するために用いられてきた。フラグメントシェーダは通常、ユーザプログラマブルなGPUコードを複数の画素に対して並列実行する。
対照的に、本発明のパラレルシェーダ105は、レンジ画像141から物体の姿勢を求める。姿勢の誤差を効率的に最小化するため、本発明は、完全にGPU104上で実行される新規のデータ並列版の滑降シンプレックス法を提供する。従来のシンプレックス法は、J. A. Nelder及びR. Mead著「関数の最小化のためのシンプレックス法(A simplex procedure for function minimization)」(The Computer Journal, 7(4):308-313, 1965)(参照により本明細書中に援用される)に記載されている。本発明では、この手順を適合させて、GPUのシェーダプロセッサにおいて複数の画素に対して並列実行する。
本発明の実施の形態は、入力レンジ画像に対する2つの参照レンジ画像の位置合わせをGPUで比較するための単純な画素メトリックと、画像の符号付ユークリッド距離変換をGPUで求める方法と、GPUでの滑降シンプレックス法のデータ並列実施と、初期推定値を必要とせず、完全にGPU104上で実行されるレンジ画像のモデルベースの姿勢推定の効率的な実施とを提供する。
レンジ画像処理
以下に説明するレンジ画像処理ステップは、参照レンジ画像の作成中に行うこともできる。シーンの入力3Dスキャン131及び参照物体101の3Dモデル111から始める。レンジスキャナ115を用いる。シーン102のスキャンに用いられるスキャナは、詳細スキャンの取得に用いられるスキャナよりも分解能が遥かに低くてもよいことに留意すべきである。
両スキャンを、入力レンジ画像141及び参照レンジ画像121内にそれぞれ直交投影する。これらの直交投影の視点に同じものを選択し、視錐台及び画像解像度を同一にする。
スキャナの物理単位(例えばmm)間のスケールファクタは3Dモデル111の単位距離まで分かっている。この情報は、スキャナ製造業者から容易に入手可能である。その結果、参照物体101のサイズは入力レンジ画像141の物体110のサイズと同じになる。この方法はスケール差を気にしない。
図2は3Dスキャン131を示す。スキャンは、フラグメントシェーダとして実装される3×3マスクを有するメディアンフィルタを適用することによって平滑化される。フラグメントシェーダは、複数の画素に対してGPU104上で並列実行されるユーザプログラマブルなGPUコードである。図3は平滑化画像を示す。
2回目のGPUレンダリングパスでは、ヒューリスティックを用いて、平滑化画像の隣接画素のレンジ値を比較することにより物体エッジを検出する。レンジ差が画像幅の4%を超える場合、画素はエッジとしてマーキングされる。考え得るエッジとして検出された画素は、連続処理のためにバイナリビットによりマーキングされる。エッジ画像を図4に示す。
ユークリッド距離変換(EDT)
次に、符号付ユークリッド距離変換(EDT)150をエッジ画像に適用する。この変換は各画素に、その画素から最も近いエッジ画素までの符号付距離を割り当てる。本発明の一実施の形態において、この距離はユークリッド距離である。EDTは、探索を参照物体及び入力物体の輪郭(エッジ)に制約することにより、最良一致の参照画像を探索する助けとなる。
これにより、図5に示すような距離場画像が作成される。距離場画像において、物体内部の画素は正の距離を有し、物体外の画素は負の距離を有し、エッジ画素はゼロの距離を有する。上述のように、参照レンジ画像121は距離場の形式でもある。すなわち、距離場は、画像の平面(x,y)の範囲(z)を示す。
2つのRGBAのカラーテクスチャを用いてレンダリング元及びレンダリング先としての役割をそれぞれ連続的に切り替える従来の「ピンポン」レンダリングを用いてEDTを行う。本発明のGPU実装では、各カラーチャネルに32ビットの浮動小数点形式を用いる。最初の2つのチャネルの値は、それまでに見付かった最も近いエッジ画素のユークリッド座標を表し、3番目のチャネルはその符号付距離を記憶し、4番目のチャネルはエッジ画素が既に見付かったかどうかを示す。
次に、距離場をスキャンのレンジ値と結合して、入力レンジ画像141を作成する。
図6は、本発明のEDT法の疑似コードを示す。パラメータmは繰り返し数を決める。距離値は、背景(b)画素、すなわち、レンジ値=0である画素に関して−(m+1)に初期化され、前景(f)画素、すなわち、レンジ値no=0)である画素に関してm+1に初期化され、全てのエッジ(e)画素に関して0に初期化される。最初の2つのカラーチャネルは、画素(p)の(x,y)座標に初期化される。繰り返し毎に、各画素の距離値をその8連結の近傍画素の値と比較する。
近傍画素nに記憶されている現画素pからエッジ画素eまでの距離が画素pに保存されている値よりも小さい場合、画素pの距離値及び座標を更新する。この情報をステップ毎に画像全体に繰り返し伝搬する。図7は初期化ステップを示し、図8〜図10は次の3回の繰り返しを示す。繰り返し数mは任意の画素から最も近いエッジまでの最大距離に対応する。完全な収束のためには、mに画像幅の半分を選択する。しかし、処理時間を低減するために、各画素から物体エッジまでの距離は通常遥かに小さいという事実を利用する。本発明の方法は、正確な距離場を必要とせず、近似で十分である。経験的に、本発明で使用する64×64の画像にはm=7で十分であることが分かる。
誤差関数
参照レンジ画像R121のうちの1つと入力レンジ画像I141とを比較するために使用する誤差関数は
Figure 0004999717
であり、ここで、カバー誤差はεcover(u,v,x,y)であり、レンジ誤差はrange(u,v,x,y,z)である(詳細は以下を参照)。これらの誤差項は、入力レンジ画像の座標(u,v)にある画素毎に評価される(以下を参照)。参照レンジ画像R121の画素の平行移動値(x,y,z)は、入力レンジ画像I141に対するその位置を決める。関数は、重みλを用い、全ての画像画素(u,v)にわたって総和される(例えばλ=10)。標準化係数Ncover及びNrangeは、誤差を物体及び画像サイズから独立させる。誤差は、画像Rが入力画像I中のおそらく部分遮蔽された物体と位置合わせされる場合に最小となる。
カバー誤差
入力レンジ画像EDT141の画素(u,v)と、参照レンジ画像EDT121の画素とのカバー誤差を(x,y)だけ平行移動すると次のようになる。
Figure 0004999717
このカバー誤差は、画像I及び画像R中の物体の輪郭が一致する場合に最小となる。なお、正のレンジ値を有する参照レンジ画像R中の非背景画素のみを検討する。
カバー誤差正規化係数は次式のように書き表される。
Figure 0004999717
レンジ誤差項
レンジ誤差は、レンジ画像EDT及びEDT中の重なる全ての画素のレンジ値を比較するため、次式のようになる。
Figure 0004999717
なお、参照レンジ画像EDTは(x,y)だけ平行移動され、zが参照レンジ画像Rの全てのレンジ値に加算される。
レンジ誤差の正規化係数は次式のように表される。
Figure 0004999717
GPUでの実装
式(1)の誤算関数は完全にGPU104上で計算される。フラグメントシェーダ105を用いると、画素毎の比較は特に低解像度画像の場合に非常に高速である。第1のステップにおいて、入力レンジ画像I及び参照レンジ画像RをGPUのメモリ106に記憶する。フラグメントシェーダ105は画素毎に誤差項εcover(u,v,x,y)及びεrange(u,v,x,y,z)を求める。
式(3)及び式(5)の正規化係数にそれぞれ用いられる2つのバイナリビットncover及びnrangeは、誤差値が計算されたことを示す。全ての値をGPUのテクスチャマップSの32ビットカラーチャネルに記憶する。
第2のステップにおいて、誤差値をテクスチャマップSの全ての画素にわたって総和し、最終誤差を計算する。この総計は、最適化の繰り返し毎に行われる。本発明では、この手順をGPU上で、テクスチャマップSと一時テクスチャTとの間のピンポンレンダリングを用いて実施した。
ステップサイズs=1から始めて、テクスチャSをテクスチャTにレンダリングすることによって、画素(u,v)の1つのカラーチャネルは画素(u,v)、(u+s,v)、(u+s,v+s)、(u,v+s)の値の総和を記憶する。次に、図11の(a)〜(c)に示すように、sを繰り返し毎に2倍し、SとTとを入れ替える。繰り返しk毎に、現画素(点描)204の情報を、距離s=2kにある左上(縦線)201、右上(横線)202、及び右(斜め線)203の近傍画素から収集する。誤差関数の最終結果をs=log(l)ステップ210後に画素(0,0)204に記憶する。ここで、lは画素数で表される画像幅である。この手順は、本発明の正方形画像に関して非常に効率的である。
並列最適化フレームワーク
誤差最適化の目標は、入力レンジ画像と参照レンジ画像との間の誤差を大域的に最小化する姿勢パラメータ
Figure 0004999717
を求めることである。したがって、以下の6DOF最適化問題を解いている。
Figure 0004999717
ここで、Rは、回転角(θ,φ,σ)でレンダリングされる3Dモデルの参照レンジ画像である。ステップ1(step1)は、平行移動値(x,y,z)に対して滑降シンプレックス法を用いて各参照レンジ画像と入力レンジ画像との間の誤差を求める(Nelder他を参照)。ステップ2(step2)は、大域誤差の最も低い参照レンジ画像Rの関連する姿勢を選択する。その結果、シーン102中の入力物体110の推定姿勢
Figure 0004999717
103が得られる。
図12に示すように、前処理中に、1つの大きなテクスチャである参照テクスチャ行列1400を求めて、全ての参照レンジ画像を記憶する。参照レンジ画像の数は、本発明の姿勢推定方法の精度及び速度に影響を与える。記憶する参照レンジ画像の数が多くなるほど、本発明の角度姿勢推定値は正確になり、方法は遅くなる。記憶できる参照画像の数は、テクスチャメモリのサイズにも依存する。
この問題に対処するために、貪欲なシンプレックス法を用いる。正規直交投影を用いて物体をレンダリングし、zバッファを参照レンジ画像として記憶する。次に、物体を少しずつ、例えば5度ずつ、(θ,φ,σ)だけ回転させる。新たな参照レンジ画像毎に、全ての以前に記憶された参照レンジ画像に対して、式(1)に従って誤差を計算する。誤差がユーザ定義の閾値よりも大きい場合、このレンジ画像を参照テクスチャ行列に追加する。参照レンジ画像を置き換えるのではなく追加するだけなので、シンプレックス法を閾値を徐々に大きくしながら、全てのレンジ画像を参照テクスチャ行列に当てはめられるまで数回実行するだけでよい。動的計画法を用いることにより性能を高めることもできる。
初期パラメータ
滑降シンプレックス法を収束させるための滑降ステップの繰り返し数は、適切な初期パラメータを選択することによって劇的に低減することができる。シンプレックス法は結果的に極小値となることがあるため、図13及び図14に示すように、物体の重心に対応する画像R及び画像I中の画素1501及び画素1601をそれぞれ見付けることによって初期パラメータ(x,y,z)を推定する。
入力画像Iが複数の物体を含む場合、スキャナに最も近い物体、すなわち、z値の最も大きい画像を選択する。以下のヒューリスティック法を用いる。レンジ画像毎に、重心(u,v)を最初の画素に初期化し、全ての画素(r,s)にわたって繰り返す。次式が成り立つ場合、(u,v)を新たな画素位置(r,s)に更新する。
Figure 0004999717
EDT項は結果を通常、物体の中心にし、z項は結果をスキャナの最も近くにする。すると、初期平行移動パラメータは次のようになる。
Figure 0004999717
レンジ画像を位置合わせすることによってパラメータの初期推定値を求める場合、滑降シンプレックス法は約30回〜40回の繰り返しで収束する。重心を見付けた場合、繰り返し数は2分の1に減る。
GPUでのデータ並列滑降シンプレックス
滑降シンプレックス法をGPU104に並列化するために、付加的なスキャンライン1401を参照テクスチャ行列1400の各参照レンジ画像に追加する(図12を参照)。これらのスキャンラインを用いて、滑降シンプレックスアルゴリズムのパラメータ及び誤差値を異なるカラーチャネルに記憶する。
シンプレックスの頂点を(x,y,z)、(x+d,y,z)、(x,y+d,z)及び(x,y,z+d)に初期化する。ここで、x、y及びzは上述した初期パラメータである。本発明では、最適なステップサイズdの値は画素数で表される画像幅の5%であると経験的に判断する。
最適化法は、64×64の画像上の96個のシェーダプロセッサにおいて並列動作する3つのフラグメントシェーダプログラムを用いて実施される。Nelder他に記載されるように、第1のシェーダは実際の滑降シンプレックスアルゴリズムを実施する。第2のシェーダは式(3)及び式(4)の誤差項を計算し、第3のシェーダは最終的な誤差値を計算する。このループを滑降シンプレックスアルゴリズムの新たな繰り返し毎に実行する。最後に、全ての参照レンジ画像の一番上のスキャンラインをCPUにより読み出す。誤差の最も少ない参照レンジ画像の姿勢パラメータ
Figure 0004999717
が物体の姿勢103となる。
本発明を好ましい実施の形態の例として説明してきたが、本発明の精神及び範囲内で様々な他の適応形態及び修正形態を実施できることが理解される。したがって、添付の特許請求の範囲の目的は、本発明の真の精神及び範囲に入るような変形形態及び修正形態を全て網羅することである。
本発明の一実施の形態による、レンジ画像から物体の姿勢を求める方法のフロー図である。 本発明の一実施の形態による3Dスキャン画像である。 本発明の一実施の形態による平滑化したスキャン画像である。 本発明の一実施の形態によるエッジ画像である。 本発明の一実施の形態による距離場画像である。 本発明の一実施の形態による拡張距離変換の疑似コードのブロック図である。 本発明の一実施の形態による1回目の繰り返しの距離場のブロック図である。 本発明の一実施の形態による2回目の繰り返しの距離場のブロック図である。 本発明の一実施の形態による3回目の繰り返しの距離場のブロック図である。 本発明の一実施の形態による4回目の繰り返しの距離場のブロック図である。 本発明の一実施の形態による誤差値を求める繰り返し毎のブロック図である。 本発明の一実施の形態による、参照レンジ画像を記憶する行列のブロック図である。 本発明の一実施の形態による参照レンジ画像である。 本発明の一実施の形態による入力レンジ画像である。

Claims (19)

  1. レンジ画像から物体の姿勢を求める方法であって、
    入力物体を含むシーンに関して取得される入力レンジ画像を参照物体の複数の参照レンジ画像の各々と比較するステップであって、各参照レンジ画像が関連する異なる姿勢を有し、前記参照物体は前記入力物体に類似するものと、
    前記入力レンジ画像に最も良く一致する前記参照レンジ画像の関連する前記姿勢を前記シーン中の前記入力物体の前記姿勢として選択するステップと、
    を含み
    参照レンジ画像Rと入力レンジ画像Iとの間の比較に、誤差関数:
    Figure 0004999717
    但し、カバー誤差はε cover (u,v,x,y)、レンジ誤差はε range (u,v,x,y,z)、(u,v)は入力レンジ画像の画素の座標、(x,y,z)は一組の参照レンジ画像の画素の座標、λは重み、N cover 及びN range は正規化係数、
    を用いる、
    レンジ画像から物体の姿勢を求める方法。
  2. ユークリッド距離変換(EDT)のための入力レンジ画像の画素(u,v)と参照レンジ画像の画素(x,y,z)とのカバー誤差が、
    Figure 0004999717
    である請求項1に記載の方法。
  3. カバー誤差は、入力レンジ画像中の入力物体と参照画像中の参照物体の輪郭が一致した場合に最小となる請求項1に記載の方法。
  4. カバー誤差の正規化係数が
    Figure 0004999717
    である請求項1に記載の方法。
  5. レンジ誤差が
    Figure 0004999717
    である請求項1に記載の方法。
  6. レンジ誤差は、参照レンジ画像R及び入力レンジ画像I中の重なる全ての画素の値を比較したものである請求項5に記載の方法。
  7. レンジ誤差の正規化係数が
    Figure 0004999717
    である請求項1に記載の方法。
  8. 最良の一致は誤差関数
    Figure 0004999717
    但し、Rは回転角(θ,φ,σ)でレンダリングされる前記3Dモデルの前記参照レンジ画像、
    を最小化し、Step1は平行移動値(x,y,z)に対して滑降シンプレックス法を用いて各参照レンジ画像と入力レンジ画像との間の誤差を求め、Step2は大域誤差の最も低い参照レンジ画像Rの関連する姿勢を選択する請求項1に記載の方法。
  9. 誤差関数のパラメータは、参照物体及び入力物体の重心にそれぞれ対応する参照レンジ画像R及び入力レンジ画像I中の画素を見付けることによって最小化される請求項8に記載の方法。
  10. 参照物体をスキャンして、該参照物体の3Dモデルを構築するステップと、
    前記3Dモデルを複数の異なる姿勢に関してレンダリングして、一組の参照レンジ画像を作成するステップと、
    をさらに含む請求項1に記載の方法。
  11. 最も良く一致する参照レンジ画像が滑降シンプレックス法を用いて選択される請求項1に記載の方法。
  12. シーンは複数の物体を含み、
    シーン中の最も近い物体を入力物体として選択するステップをさらに含む請求項1に記載の方法。
  13. ユークリッド距離変換が各入力レンジ画像に適用される請求項1に記載の方法。
  14. 比較するステップはグラフィック処理装置において行われる請求項1に記載の方法。
  15. 複数の参照レンジ画像がグラフィック処理装置の複数のシェーダプロセッサにおいて並列で入力レンジ画像と比較される請求項1に記載の方法。
  16. レンジ画像から物体の姿勢を求めるシステムであって、
    入力物体を含むシーンの入力レンジ画像を取得する手段と、
    前記取得する手段に接続され、前記入力レンジ画像を参照物体の複数の参照レンジ画像の各々と比較する手段であって、各参照レンジ画像が関連する異なる姿勢を有し、前記参照物体は前記入力物体に類似し、
    前記入力レンジ画像に最も良く一致する前記参照レンジ画像の関連する姿勢をシーン中の前記入力物体の姿勢として選択する手段と、
    を備え
    前記比較する手段において、参照レンジ画像Rと入力レンジ画像Iとの間の比較に、誤差関数:
    Figure 0004999717
    但し、カバー誤差はε cover (u,v,x,y)、レンジ誤差はε range (u,v,x,y,z)、(u,v)は入力レンジ画像の画素の座標、(x,y,z)は一組の参照レンジ画像の画素の座標、λは重み、N cover 及びN range は正規化係数、
    を用いる、
    レンジ画像から物体の姿勢を求めるシステム。
  17. 入力レンジ画像及び複数の参照レンジ画像に対して並列動作するように構成されるグラフィック処理装置の複数のシェーダプロセッサをさらに備える請求項16に記載のシステム。
  18. ユークリッド距離変換(EDT)のための入力レンジ画像の画素(u,v)と参照レンジ画像の画素(x,y,z)とのカバー誤差が、
    Figure 0004999717
    である請求項16に記載のシステム
  19. カバー誤差は、入力レンジ画像中の入力物体と参照画像中の参照物体の輪郭が一致した場合に最小となる請求項16に記載のシステム
JP2008017797A 2007-04-23 2008-01-29 レンジ画像から物体の姿勢を求める方法及びシステム Expired - Fee Related JP4999717B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US11/738,642 US7844105B2 (en) 2007-04-23 2007-04-23 Method and system for determining objects poses from range images
US11/738,642 2007-04-23

Publications (2)

Publication Number Publication Date
JP2008269572A JP2008269572A (ja) 2008-11-06
JP4999717B2 true JP4999717B2 (ja) 2012-08-15

Family

ID=39651015

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2008017797A Expired - Fee Related JP4999717B2 (ja) 2007-04-23 2008-01-29 レンジ画像から物体の姿勢を求める方法及びシステム

Country Status (5)

Country Link
US (1) US7844105B2 (ja)
EP (1) EP1986153B1 (ja)
JP (1) JP4999717B2 (ja)
CN (1) CN101295363B (ja)
DE (1) DE602008003709D1 (ja)

Families Citing this family (35)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8107721B2 (en) * 2008-05-29 2012-01-31 Mitsubishi Electric Research Laboratories, Inc. Method and system for determining poses of semi-specular objects
US8600193B2 (en) * 2008-07-16 2013-12-03 Varian Medical Systems, Inc. Image stitching and related method therefor
US8217961B2 (en) * 2009-03-27 2012-07-10 Mitsubishi Electric Research Laboratories, Inc. Method for estimating 3D pose of specular objects
JP5441752B2 (ja) * 2009-03-31 2014-03-12 ミツビシ・エレクトリック・リサーチ・ラボラトリーズ・インコーポレイテッド 環境内の3d物体の3d姿勢を推定する方法及び装置
CN101872476A (zh) * 2009-04-24 2010-10-27 索尼株式会社 估计图像中对象姿势视角的方法、设备
JP5393318B2 (ja) 2009-07-28 2014-01-22 キヤノン株式会社 位置姿勢計測方法及び装置
US8472698B2 (en) * 2009-11-24 2013-06-25 Mitsubishi Electric Research Laboratories, Inc. System and method for determining poses of objects
JP2011175477A (ja) * 2010-02-24 2011-09-08 Canon Inc 3次元計測装置、処理方法及びプログラム
JP5388921B2 (ja) * 2010-03-25 2014-01-15 株式会社東芝 3次元距離計測装置及びその方法
EP2385483B1 (en) 2010-05-07 2012-11-21 MVTec Software GmbH Recognition and pose determination of 3D objects in 3D scenes using geometric point pair descriptors and the generalized Hough Transform
JP5496008B2 (ja) * 2010-08-06 2014-05-21 キヤノン株式会社 位置姿勢計測装置、位置姿勢計測方法、およびプログラム
CN102647542B (zh) * 2011-02-22 2014-07-09 株式会社理光 图像处理设备和图像处理方法
WO2013002099A1 (ja) * 2011-06-29 2013-01-03 三菱電機株式会社 部品供給装置
US9195501B2 (en) * 2011-07-12 2015-11-24 Qualcomm Incorporated Instruction culling in graphics processing unit
CN103186896B (zh) * 2011-12-27 2018-06-01 联想(北京)有限公司 用于空间地图构建的空间不变量二次检测方法和设备
CN102592119B (zh) * 2011-12-31 2013-10-30 华中科技大学 四维可计算激光成像目标探测、识别及辨识性能预测方法
JP6092530B2 (ja) 2012-06-18 2017-03-08 キヤノン株式会社 画像処理装置、画像処理方法
EP2720171B1 (en) 2012-10-12 2015-04-08 MVTec Software GmbH Recognition and pose determination of 3D objects in multimodal scenes
US20160210829A1 (en) 2013-09-06 2016-07-21 Nec Corporation Security system, security method, and non-transitory computer readable medium
JP5698815B2 (ja) * 2013-09-30 2015-04-08 キヤノン株式会社 情報処理装置、情報処理装置の制御方法及びプログラム
US20150300962A1 (en) * 2014-04-16 2015-10-22 Texas Instruments Incorporated Assembly For Inspecting Machine Parts Used In The Production Of Semiconductor Components
TWI543117B (zh) * 2014-06-18 2016-07-21 台達電子工業股份有限公司 物件辨識與定位方法
JP6040264B2 (ja) * 2015-02-13 2016-12-07 キヤノン株式会社 情報処理装置、情報処理装置の制御方法、およびプログラム
US10515259B2 (en) 2015-02-26 2019-12-24 Mitsubishi Electric Research Laboratories, Inc. Method and system for determining 3D object poses and landmark points using surface patches
GB2536493B (en) * 2015-03-20 2020-11-18 Toshiba Europe Ltd Object pose recognition
CN105865451B (zh) * 2016-04-19 2019-10-01 深圳市神州云海智能科技有限公司 用于移动机器人室内定位的方法和设备
US9990535B2 (en) * 2016-04-27 2018-06-05 Crown Equipment Corporation Pallet detection using units of physical length
EP3264286B1 (en) 2016-06-28 2020-11-18 Dassault Systèmes Querying a database with morphology criterion
WO2018075053A1 (en) * 2016-10-21 2018-04-26 Siemens Aktiengesellschaft Object pose based on matching 2.5d depth information to 3d information
EP3321817A1 (en) * 2016-11-14 2018-05-16 Dassault Systèmes Querying a database based on a parametric view function
CN107179534B (zh) * 2017-06-29 2020-05-01 北京北科天绘科技有限公司 一种激光雷达参数自动标定的方法、装置及激光雷达
CN109282750B (zh) * 2017-07-21 2020-10-16 镱钛科技股份有限公司 光学量测系统、光学量测装置及其量测方法
US11281824B2 (en) 2017-12-13 2022-03-22 Dassault Systemes Simulia Corp. Authoring loading and boundary conditions for simulation scenarios
CN112419687B (zh) * 2020-11-16 2022-02-22 珠海格力电器股份有限公司 能够纠正书本在书桌上摆放角度的方法和读书设备
CN116309883B (zh) * 2023-05-16 2023-08-18 上海仙工智能科技有限公司 一种3D目标6DoF精确定位方法及系统

Family Cites Families (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH05165968A (ja) * 1991-12-18 1993-07-02 Komatsu Ltd 物体の位置・姿勢認識装置
JPH05342414A (ja) * 1992-06-08 1993-12-24 Omron Corp テンプレート作成装置及びパターン認識装置
JP2000132580A (ja) * 1998-10-23 2000-05-12 Mitsubishi Heavy Ind Ltd 幾何パラメータ演算装置
EP1039417B1 (en) * 1999-03-19 2006-12-20 Max-Planck-Gesellschaft zur Förderung der Wissenschaften e.V. Method and device for the processing of images based on morphable models
JP2001216470A (ja) * 2000-01-31 2001-08-10 Keyence Corp パターンマッチング方法及び装置
JP4341135B2 (ja) * 2000-03-10 2009-10-07 コニカミノルタホールディングス株式会社 物体認識装置
US7221809B2 (en) * 2001-12-17 2007-05-22 Genex Technologies, Inc. Face recognition system and method
CN1308897C (zh) * 2002-09-15 2007-04-04 深圳市泛友科技有限公司 利用一组二维照片与三维模型库生成新的三维模型的方法
JP4564233B2 (ja) * 2003-01-31 2010-10-20 株式会社東芝 画像処理装置、画像データ処理方法、及びプログラム
US7263209B2 (en) * 2003-06-13 2007-08-28 Sarnoff Corporation Vehicular vision system
US20050025383A1 (en) * 2003-07-02 2005-02-03 Celartem Technology, Inc. Image sharpening with region edge sharpness correction
JP4865557B2 (ja) * 2003-08-15 2012-02-01 スカーペ テクノロジーズ アクティーゼルスカブ 有界三次元対象物の分類と空間ローカライゼーションのためのコンピュータ視覚システム
EP1524622A1 (en) * 2003-10-17 2005-04-20 Koninklijke Philips Electronics N.V. Method and image processing device for analyzing an object contour image, method and image processing device for detecting an object, industrial vision apparatus, smart camera, image display, security system, and computer program product
JP4133996B2 (ja) * 2004-10-08 2008-08-13 株式会社ソニー・コンピュータエンタテインメント テクスチャ作成方法
US7876328B2 (en) * 2007-02-08 2011-01-25 Via Technologies, Inc. Managing multiple contexts in a decentralized graphics processing unit

Also Published As

Publication number Publication date
CN101295363B (zh) 2012-04-25
US20080260238A1 (en) 2008-10-23
EP1986153B1 (en) 2010-12-01
EP1986153A8 (en) 2008-12-24
DE602008003709D1 (de) 2011-01-13
EP1986153A3 (en) 2009-08-12
JP2008269572A (ja) 2008-11-06
CN101295363A (zh) 2008-10-29
EP1986153A2 (en) 2008-10-29
US7844105B2 (en) 2010-11-30

Similar Documents

Publication Publication Date Title
JP4999717B2 (ja) レンジ画像から物体の姿勢を求める方法及びシステム
Park et al. Pix2pose: Pixel-wise coordinate regression of objects for 6d pose estimation
US7844106B2 (en) Method and system for determining poses of objects from range images using adaptive sampling of pose spaces
US9053571B2 (en) Generating computer models of 3D objects
RU2642167C2 (ru) Устройство, способ и система для реконструкции 3d-модели объекта
EP2430588B1 (en) Object recognition method, object recognition apparatus, and autonomous mobile robot
CN111986307A (zh) 使用光度网格表示的3d对象重建
Boulch et al. Piecewise‐planar 3D reconstruction with edge and corner regularization
US8363926B2 (en) Systems and methods for modeling three-dimensional objects from two-dimensional images
Habbecke et al. Iterative multi-view plane fitting
Takimoto et al. 3D reconstruction and multiple point cloud registration using a low precision RGB-D sensor
IL266060A (en) Strong merging of three-dimensional texture grids
WO2015017941A1 (en) Systems and methods for generating data indicative of a three-dimensional representation of a scene
Wang et al. Robust 3D reconstruction with an RGB-D camera
EP2671384A2 (en) Mobile camera localization using depth maps
US20190188871A1 (en) Alignment of captured images by fusing colour and geometrical information
Xu et al. Survey of 3D modeling using depth cameras
Li et al. 3d reconstruction and texture optimization using a sparse set of rgb-d cameras
JP5178538B2 (ja) 深度マップを画像から決定する方法、深度マップを決定する装置
Hu et al. IMGTR: Image-triangle based multi-view 3D reconstruction for urban scenes
US7586494B2 (en) Surface detail rendering using leap textures
JP2009530701A5 (ja)
CN113706431A (zh) 模型优化方法及相关装置、电子设备和存储介质
Germann et al. Automatic pose estimation for range images on the GPU
Kumara et al. Real-time 3D human objects rendering based on multiple camera details

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20101224

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20120126

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20120214

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20120326

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20120417

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20120515

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20150525

Year of fee payment: 3

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees