JP5455873B2 - シーンにおける物体の姿勢を求めるための方法 - Google Patents
シーンにおける物体の姿勢を求めるための方法 Download PDFInfo
- Publication number
- JP5455873B2 JP5455873B2 JP2010257956A JP2010257956A JP5455873B2 JP 5455873 B2 JP5455873 B2 JP 5455873B2 JP 2010257956 A JP2010257956 A JP 2010257956A JP 2010257956 A JP2010257956 A JP 2010257956A JP 5455873 B2 JP5455873 B2 JP 5455873B2
- Authority
- JP
- Japan
- Prior art keywords
- image
- virtual
- real
- pose
- matching
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 methods Methods 0.000 claims description 22
- 238000009877 rendering Methods 0.000 claims description 6
- 238000004422 calculation algorithm Methods 0.000 claims description 4
- 230000004807 localization Effects 0.000 claims description 4
- 230000000875 corresponding Effects 0.000 claims description 3
- 238000003708 edge detection Methods 0.000 claims description 2
- 230000036544 posture Effects 0.000 description 28
- 238000005286 illumination Methods 0.000 description 8
- 230000001131 transforming Effects 0.000 description 7
- 239000011159 matrix materials Substances 0.000 description 6
- 238000005457 optimization Methods 0.000 description 6
- 230000004438 eyesight Effects 0.000 description 4
- 238000004364 calculation methods Methods 0.000 description 3
- 238000006243 chemical reactions Methods 0.000 description 3
- 230000003287 optical Effects 0.000 description 3
- 239000007787 solids Substances 0.000 description 3
- 238000003860 storage Methods 0.000 description 3
- 238000007796 conventional methods Methods 0.000 description 2
- 238000010586 diagrams Methods 0.000 description 2
- 239000000203 mixtures Substances 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000006011 modification reactions Methods 0.000 description 2
- 239000002131 composite materials Substances 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000009472 formulation Methods 0.000 description 1
- 230000004301 light adaptation Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 238000007670 refining Methods 0.000 description 1
- 230000000717 retained Effects 0.000 description 1
- 238000004088 simulation Methods 0.000 description 1
- 238000000844 transformation Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING; COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T1/00—General purpose image data processing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING; COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T15/00—3D [Three Dimensional] image rendering
- G06T15/10—Geometric effects
- G06T15/20—Perspective computation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING; COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/50—Depth or shape recovery
- G06T7/55—Depth or shape recovery from multiple images
- G06T7/586—Depth or shape recovery from multiple images from multiple light sources, e.g. photometric stereo
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING; COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/70—Determining position or orientation of objects or cameras
- G06T7/73—Determining position or orientation of objects or cameras using feature-based methods
- G06T7/74—Determining position or orientation of objects or cameras using feature-based methods involving reference images or patches
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING; COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10141—Special mode during image acquisition
- G06T2207/10152—Varying illumination
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING; COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/30—Subject of image; Context of image processing
- G06T2207/30108—Industrial image inspection
- G06T2207/30164—Workpiece; Machine component
Description
本発明は、包括的には、物体の姿勢を求めることに関し、特に、通常のカメラ又はマルチフラッシュカメラのいずれかによって取得される画像内のエッジに基づいて姿勢を求めることに関する。
コンピュータビジョンシステムは、ロボットを用いた自動製造等の多くの用途で使用されている。ほとんどのロボットは、制限及び制約のある環境でしか動作することができない。例えば、組立ラインの部品は、ロボットが把持及び操作できるように、決まった姿勢で置かれなければならない。本明細書中で使用されるように、物体の姿勢は、平行移動及び回転による3D位置及び3D配向として定義される。
3Dモデルと2D画像との対応を用いて物体の姿勢を求める方法が既知である。残念ながら、これらの方法は、光沢のある表面又はテクスチャのない表面を有する物体には上手く機能しない。雑然としたシーン、例えば複数の物体が積み重なった置き場に複数の同一物体が置かれている場合は、特に厳しい状況となる。
面取りマッチングを使用すると、物体の輪郭を用いて姿勢を特定し求めることができる。しかしながら、撮像された輪郭が部分的に遮蔽されていたり、雑然とした背景の中にある場合、従来の方法では失敗してしまう。エッジ配向を用いて、雑然とした背景における面取りマッチングを改善することができる。既存の面取りマッチングアルゴリズムにおいて計算複雑性が最良のものは、輪郭点の数の一次式である。
アクティブ照明パターンは、雑然としたシーンの中の特徴を正確に抽出することによって、コンピュータビジョンの方法にとって大きな力になることができる。このような方法の例として、構造化照明パターンを投影することによる奥行き推定がある。
本発明の実施の形態は、物体の2D又は3D姿勢を求めるための方法及びシステムを提供する。
オフライン段階中に、本方法は、コンピュータ支援設計(CAD)モデルであってもよいモデルから得た物体の方向性特徴の集合を用いて物体をモデリングする。仮想カメラ及びレンダリングエンジンを用いて、物体の取り得る姿勢毎に仮想画像の集合を生成する。仮想画像及び関連する姿勢は、後のオンライン段階中の比較のためにデータベースに格納される。
オンライン段階中に、さまざまな任意の姿勢の1つ又は複数の物体を含むシーンの実画像の集合を実カメラによって取得する。この実カメラは、通常のカメラ又はマルチフラッシュカメラとすることができる。例えば、シーンは、物体を含む部品置き場を含む。その場合、例示的な用途において、物体は、それらの姿勢に応じて置き場からロボットアームによって、さらなる組み立てのためにピッキングされることができる。本方法は、取得画像からのエッジをデータベースに格納されたエッジと照合する必要のある多くの他のコンピュータビジョンアプリケーションにも用いることができることが理解される。このような用途の例として、エッジを用いた物体の検出及び位置特定がある。
画像は、通常のカメラ又はマルチフラッシュカメラのいずれかから取得することができる。画像が通常のカメラにより取得される場合、Cannyエッジのような輝度エッジ検出器が用いられる。検出されたCannyエッジ及びその配向を用いて、さまざまな姿勢の物体の実画像及び仮想画像の照合を行う。マルチフラッシュカメラの場合、シーンは、実カメラのレンズの周囲に円形に配置された点光源及び環境照明によって照明される。照明毎に画像を取得する。光源の変化によってシーンに投じられる影は、シーンにおける奥行きの不連続性に関する情報を符号化する。検出された奥行きエッジとそれらの配向を用いて、仮想画像と実画像との照合を行い、物体の姿勢を求める。
本方法は、複数の物体が置き場内に置かれ、各物体を置き場から1つずつピッキングする必要があるロボットアプリケーションで特に有用である。本方法は、あまりテクスチャがなく雑然としたシーンに埋没した鏡面反射する物体に用いることができる。
本方法は、各エッジ画素の位置及び局所的配向の両方を尊重する新規のコスト関数を用いる。このコスト関数は、従来の面取りコスト関数よりも遥かに優れており、従来の方法では信頼性がないひどく雑然としたシーンでも正確な照合ができる。本発明は、部分線形時間手順を提供し、3D距離変換及び積分画像からの技法を用いてコスト関数を計算する。
本発明者らはまた、マルチビューに基づく姿勢の精緻化手順を提供し、推定した姿勢を改良する。本発明者らは、産業用ロボットアーム用の手順を実行し、最小限のテクスチャを有するさまざまな部品に関してそれぞれ、約1mmの位置推定精度及び約2度の角度推定精度を得た。
コスト関数及び部分線形時間マッチングアルゴリズムは、(追加光源のない)通常のカメラ設定でも、画像内の物体を検出及び位置特定するために用いることができる。画像内のエッジは、Cannyエッジ検出器等の標準的なエッジ検出アルゴリズムを用いて検出することができる。入力は、画像内で位置特定される物体のギャラリーである。このアルゴリズムは、ギャラリー物体のエッジを新たな観測画像と照合することによって、シーンにおける物体を位置特定する。マッチングコストが所与の位置についてユーザの定めた閾値よりも小さければ物体が検出される。
本発明は、通常のカメラ及び輝度エッジ又はマルチフラッシュカメラ(MFC)及び奥行きエッジを用いた物体の検出、位置特定及び姿勢推定のための方法及びシステムを提供する。本発明ではこの問題を、物体の3D CADモデルを用いてオフラインで計算されるレンダリングされた輝度/奥行きエッジに対して1つ又は複数の通常/MFC画像内で得られた輝度/奥行きエッジ間の一致を見つける問題として定式化し直す。
本発明では、従来の面取りコストよりも遥かに優れた新規のコスト関数を導入し、部分線形時間マルチビューに基づく姿勢推定及び精緻化手順を開発した。
概観
図1及び図2に示すように、本発明の実施形態は、3D物体の姿勢を求めるためのシステム及び方法を提供する。用途の一例では、マルチフラッシュカメラ(MFC)110をロボットアーム120上に配置する(参照により本明細書中に援用される米国特許第7,206,449号「Detecting silhouette edges in images」を参照)。カメラは、複数の物体140を含むシーン130の画像を取得することができる。カメラ及びロボットアームは、姿勢を求めるための方法150のステップを行うプロセッサ160の入出力インターフェースに接続することができる。
別の例では、通常のカメラがロボットアーム上に配置される。カメラは、複数の物体を含むシーンの画像を取得する。カメラ及びロボットアームは、姿勢を求めるための方法150のステップを行うプロセッサ160の入出力インターフェースに接続することができる。
さらに別の例では、画像内の検出する必要がある物体のエッジのデータベースを格納する。テスト画像が得られると、テスト画像内のエッジがまずCannyエッジ検出器を用いて計算される。次に、画像内の物体を検出し位置特定するために、本明細書中に記載される方法を用いて、このエッジ画像を物体のエッジのデータベースと照合する。
以下では最初の用途を詳細に説明するが、他の例もカバーするものとする。
オフライン処理
図2に示すように、オフラインの前処理段階210中に、コンピュータ支援設計(CAD)モデル212を用いて、シーンにおける物体の取り得る姿勢毎に仮想奥行きエッジマップをレンダリングし(211)、データベース内に仮想姿勢テンプレート画像213を作成する。
オンライン処理
システムのオンライン動作中に、MFCは、8個の異なるフラッシュを用いて、シーンの実画像の集合、および、シーンが環境照明によって照明されているときの画像を、取得する(220)。
それらの画像から奥行きエッジマップが求められる(230)。面取りマッチングを用いて仮想姿勢テンプレート画像213が実エッジマップと照合され(240)、大まかな姿勢が求められる。
大まかな姿勢が、オンラインレンダリング(255)を用いて繰り返し精緻化される(250)。姿勢が求められると、ロボットアーム120は、何らかの動作を実行する(260)、例えば、物体140のうちの1つを操作することができる。
MFCは、アクティブ照明をベースとした、例えば、レンズの周囲に配置された8個の点光源を含むカメラである。MFCは、照明源の位置の変化により生じる影の変化を利用して、テクスチャのない物体又は鏡面反射する物体のような難しい物体に対しても奥行きエッジを与える。カメラの周囲の異なるLEDが発光すると、物体が投じる影の位置は変化する。1つのフラッシュの影になっているが、他のフラッシュの影にはなっていない物体の画素は、輝度を大きく変化させる。この影の画素の輝度の変化を用いて、ビューに依存する奥行きエッジを検出し抽出することができる。
比画像
まず、MFC画像によって取得された画像の集合から、環境照明のみで取得された画像を差し引き、画像Iiを得る。これらの画像Iiの中から、各画素位置における最大輝度値を見つけ出し、この最大輝度値を用いて最大照明画像を作成する。
Imax(x,y)=maxiIi(x,y)
次に、比画像をRIi=Ii/Imaxとして計算する。理想的には、影の領域の画素の比の値は、環境光源からの照明の寄与が除かれているため、ゼロとなるはずである。これに対し、影でない領域の画素の比の値は、該領域がすべてのフラッシュによって照明されているため、1に近くなるはずである。影の領域の画素と影の領域にない画素との間の遷移点が常に奥行きエッジとなる。各比画像に対し、この影の画素から影でない画素への遷移、すなわち0から1への遷移を検出するように設計されたSobelフィルタを適用する。
物体検出
次に、本発明によるMFCによって取得された奥行きエッジを用いて雑然としたシーンにおける物体を検出し位置特定するための方法を詳細に説明する。一般性を失うことなく、本方法を単一の物体に適用した場合を説明する。しかしながら、この仮定は説明を簡略化するためのものに過ぎない。実際には、本方法は複数の物体の姿勢を同時に位置特定し推定することができる。同様に、本方法は、MFCから取得された奥行きエッジに適用した場合について説明されるが、一般性を失うことなく、同方法は、従来のカメラから得られたテクスチャエッジにも適用されてもよい。
データベースの生成
物体のCADモデル212が与えられると、ソフトウェアでMFCをシミュレートすることによって、奥行きエッジテンプレート213のデータベースを生成する(210)。シミュレーションでは、実MFCの内部パラメータを有する仮想カメラを原点に置き、光軸をワールド座標系のz軸に合わせる。8個の仮想フラッシュを、xy平面上の、原点を中心とし、カメラとLED照明源との間の実基線に等しい半径を有する円上に等間隔に置く。
次に、物体のCADモデルを、z軸上の、仮想カメラから距離tzだけ離れた位置に置く。仮想フラッシュを1つずつ点灯し、投じた影を含む物体の8個のレンダリングを取得する。シーンの中の奥行きエッジを上述のように検出する(211)。
図3に示すように、さまざまな姿勢について、3D空間に埋め込まれた球体301の2D表面上の回転角θx及びθyを均等にサンプリングする。テンプレートデータベースは、物体302のサンプリングされた回転に対して物体のCADモデルをレンダリングすることによって生成される。
任意の3D回転は、3つの直交軸を中心とする一連の3つの要素回転に分解することができる。これらの軸のうちの1つ目をカメラの光軸に合わせ、この軸を中心とする回転を面内回転θzと呼ぶ。他の2つの軸はカメラの光軸に垂直な平面上にあり、これらの2つの軸を中心とする回転を面外回転θx及びθyと呼ぶ。面内回転は観測画像を面内回転させるのに対し、面外回転の効果は物体の3D構造に依存する。この区別のため、物体の面外回転のみをデータベースに含める。図3に示すように2球面S2上で均等にk個の面外回転(θx及びθy)303をサンプリングし、これらの回転のそれぞれについて奥行きエッジテンプレート213を生成する。
方向性面取りマッチング
テンプレートマッチング240中に、データベース、及び仮想テンプレート213の奥行きエッジを実MFC画像から得られた奥行きエッジに合わせる最適な2Dユークリッド変換s∈SE(2)を探索する。2Dユークリッド変換は3つのパラメータで
として表され、ここで、
はx軸に沿った画像平面の平行移動であり
はy軸に沿った画像平面の平行移動であり、θzは面内回転角である。
画素に与えられる回転は次のように表される。
面取りマッチングは、2つのエッジマップ間の最良の位置合わせを見つけるための技法である。U={ui}を仮想画像エッジマップの集合とし、V={vj}を実画像エッジマップの集合とする。U及びVの間の面取り距離は、各画素uiと、Vにおける該画素に最も近いエッジ画素との間の距離の平均により、次のように与えられる。
ここで、n=|U|である。
すると、2つのエッジマップ間の最良の位置合わせパラメータ
は次式によって与えられる。
面取りマッチングは、背景が雑然としていると信頼性が低くなる。精度を高めるために、面取りマッチングは、エッジ配向情報をマッチングコストに含めることができる。仮想画像エッジ及び実画像エッジは、離散的な配向チャネル(orientation channel)に量子化され、チャネル全体で個々のマッチングスコアが合計される。
これにより雑然としたシーンの問題は軽減されるが、コスト関数は依然として、配向チャネルの数に対して非常に敏感であり、チャネル境界において不連続になる。面取り距離には、仮想エッジと、実画像における該仮想エッジに最も近いエッジ画素との間の配向の平均差によって与えられる配向の不一致に関する追加コストを付加することができる。
配向の不一致の明示的な定式化の代わりに、方向性エッジ画素をマッチングするためにR3における画素までの面取り距離を一般化する。各エッジ画素xに方向項φ(x)を付加すると、方向性面取りマッチング(DCM)スコアは次のように表される。
ここで、λは重み係数である。
方向φ(x)はπを法として計算され、配向誤差は、2方向間の最小円形差(circular difference)を次のように与える。
Vにおける最も近い画素がまず所与の仮想画素uについて位置特定され、コスト関数にそれらの配向の差が付加される。したがって、本発明のコスト関数は、位置誤差項及び配向誤差項の和を共に最小化する。
本発明のマッチングコストが、仮想テンプレートのエッジの両平行移動
及び回転θzの区分的に滑らかな関数であることは容易に検証することができる。したがって、本発明のマッチングは、エッジの欠落と小さな位置ずれのある雑然としたシーンにおける精度が、従来技術のマッチングよりも高い。
本発明者らの知る限りにおいて、従来の面取りマッチング手順の計算複雑性は、方向性項がない場合でも仮想テンプレートのエッジ画素数の一次式である。本発明は利点として、3D面取りマッチングスコアの正確な計算のために部分線形時間の手順を提供する。
探索の最適化
式(3)における探索は、データベースに格納されたk個のテンプレートのそれぞれについて平面ユークリッド変換
の3つのパラメータにわたる最適化を必要とする。640×480の実画像及びk=300個のエッジテンプレートのデータベースの場合、総当たり探索は、式(4)のコスト関数の1010回を超える評価を必要とする。
したがって、本発明では探索の最適化を2段階で行う。すなわち、まず、部分線形時間の手順を用いてマッチングスコアを計算する。次に、仮想画像及び実画像の主な直線を位置合わせすることにより、3次元の探索問題を1次元のクエリ(queries)に変更する。
線形表現
シーンのエッジマップは非構造化バイナリパターンになっていない。その代わり、物体の輪郭は一定の連続性の制約に従い、さまざまな長さ、配向及び平行移動の線分をつなぐことによって保持される。エッジ画像(図4Aを参照)内の画素をm個の線分の集まり(図4Bを参照)として表現する。位数がnである画素の集合と比較して、この線形表現はより簡潔である。エッジマップを格納するにはO(m)のメモリがあればよく、ここで、m<<nである。
ランダムサンプルコンセンサス(RANSAC)手順の変形を用いて、エッジマップの線形表現を計算する。この手順はまず、画素及びそれらの方向の小部分集合を選択することによってさまざまな直線を仮定する。直線のサポートは、小さな残差内で直線の式を満たし連続的な構造を形成する画素の集合によって与えられる。
サポートの最も大きな線分を保持し、サポートが数画素よりも小さくなるまで縮小集合を用いて手順を繰り返す。この手順は、一定の構造及びサポートを有する画素のみを保持するため、ノイズはフィルタリングされる。また、直線当てはめ手順により復元された方向は、画像勾配等の局所演算子と比べてより正確である。上述したRANSACに基づく方法に代えて、任意の適切な直線当てはめ技法を用いることもできる。
図4Aは、図4Bに示すような300個の線分を用いてモデリングされた11542画素の集合を示す。
3次元距離変換
式(4)で与えられるマッチングスコアは、仮想テンプレートのエッジ画素毎に、位置項及び配向項全体で最小コストの一致を見つけることを必要とする。したがって、総当たり手順の計算複雑性はテンプレート画素数及び実画像のエッジ画素数の二次式である。
図5に要約して示すように、本発明は、3次元距離変換表現(DT3)を与えて線形時間におけるマッチングコストを計算する。この表現は、1番目の次元及び2番目の次元が画像平面上の位置であり、3番目の次元が量子化されたエッジ配向である3次元画像テンソルである。
本発明では、エッジ配向を3番目の次元として用いる。エッジ配向510は、N個の離散値520、x軸、y軸、及びエッジ配向
に量子化される。これが2次元の画素座標と共に3D格子画素集合530を形成する。量子化によりエッジ配向の精度がいくらか低下する。しかし、姿勢マッチングの部分は最初の大まかな姿勢推定値を得る手段に過ぎないため、深刻なものではない。線分の正確な配向は、姿勢の精緻化の際に用いられる。
詳細には、エッジ配向は、[0 π]の範囲内でq個の離散的な配向チャネル
に均等に量子化される。テンソルの各要素は、位置及び配向の結合空間におけるエッジ画素までの最小距離を次のように符号化する。
ここで、
は配向空間において
のφ(x)に最も近い量子化レベルである。
DT3テンソルは、画像全体のO(q)回のパスで計算することができる。式(6)は次のように書き直すことができる。
ここで、
はVにおいて配向が
であるエッジ画素の2次元距離変換である。初めに、従来の手順540を用いてq個の2次元距離変換を計算する。次に、位置毎に別々に、配向コストに関して2番目の動的問題を解く(550)ことによって、式(7)のDT3vテンソルを計算する。
3D距離変換表現DT3Vを用いて、任意のテンプレートUの方向性面取りマッチングスコアを次のように計算することができる。
距離変換の積分
LU={l[sj,ej]}j=1...mをテンプレートのエッジ画素Uの線形表現とする。ここで、sjは第jの直線の開始位置であり、ejは第jの直線の終了位置である。表記を簡略化するために、直線をインデックスljのみで呼ぶ場合がある。線分はq個の離散的なチャネル
においてのみ方向を有するものと仮定し、線形表現を計算する際はこれを徹底する。線分上のすべての画素を、直線
の方向である同一の配向と関連付ける。したがって、方向性面取りマッチングスコアは次のようになる。
この式では、方向が
560である線分の画素を合計するために、DT3Vテンソルの第iの配向チャネルのみを評価する。
積分画像は、画素の領域合計の高速計算のために用いられる中間画像表現である(参照により本明細書中に援用される米国特許第7,454,058号「Method of extracting and searching integral histograms of data samples」を参照)。本発明では、積分距離変換表現(IDT3v)のテンソルを与えて、O(1)回の演算における任意の線分全体のコストの合計を評価する。配向チャネルi毎に、
560に沿って1方向性積分を計算する。
x0を、画像境界と、xを通り方向が
である直線との交点とする。IDT3Vテンソルの各成分は次式によって与えられる。
IDT3Vテンソルは、DT3Vテンソル全体の1回のパスで求めることができる。この表現を用いて、任意のテンプレートUの方向性面取りマッチングスコアを、
によりO(m)回の演算で計算することができる。
m<<nであるため、マッチングの計算複雑性はテンプレート画素数nの一次式以下である。
O(m)の複雑性は計算回数の上限である。姿勢の推定のために、最良の仮説のみを保持したい。テンプレートの直線をそのサポートに対して順序付け、サポートが最大である直線から合計を開始する。コストが現在の最良の仮説よりも高い場合、この仮説は合計中に排除される。線分のサポートは指数関数的減衰を示すため、大部分の仮説では、数回の算術演算しか行われない。
1次元探索
平面ユークリッド変換の3つのパラメータにわたる最適な姿勢の探索は計算集約的であり、リアルタイムアプリケーションでの実用には向かない。線形表現は、探索空間の大きさを縮小する効率的な方法を提供する。観測によると、テンプレート画像及び実画像の線分は、テンプレートの姿勢の実際の推定値とほぼ完璧に合わせられる。また、この手順はサポートの大きい線分ほど有利であるため、直線当てはめ中、テンプレート画像及び実画像の主な直線が非常に高い信頼度で検出される。
本発明では、テンプレート線分及び実線分をそれらのサポートに基づいて順序付け、数本の主な直線のみを保持して探索を導く。テンプレートを初めに回転及び平行移動して、テンプレートの仮想線分を実画像の線分の方向に合わせ、該仮想線分の終了画素が実線分の開始画素に一致するようにする。
次に、テンプレートを実線分の方向に沿って平行移動し、2つの線分が重なる位置のみにおいてコスト関数を評価する。この手順は、3次元探索を数方向のみに沿った1次元探索に変える。探索時間は、画像の大きさに対して不変であり、仮想画像及び実画像の直線数とそれらの長さの関数に過ぎない。
姿勢の精緻化
姿勢の精緻化は任意の(optional)ステップであり、姿勢の推定以外の用途には適用されないことを明示しておかねばならない。上述したコンピュータビジョン用途では、姿勢の精緻化ステップはない。
最小コストテンプレート及びその面内変換パラメータ
は、物体の3D姿勢の大まかな推定値を与える。θx,θyを面外回転角とし、tzをカメラからの距離として、仮想画像のレンダリングに用いる。カメラ較正行列Kを用いて面内平行移動パラメータを3Dに逆射影し、3つのオイラー角(θx,θy,θz)及び3D平行移動ベクトル(tx,ty,tz)Tにより物体の最初の3D姿勢p0を得る。
3D姿勢pは次のように行列として書き表すこともできる。
ここで、Rpはx−y−z軸を中心とする一連の3回の回転
によって計算される3×3直交行列であり、tpは3次元平行移動ベクトルである。
最初の姿勢推定値の精度は、データベース内に含められる面外回転の離散集合によって制限される。この姿勢推定値を精緻化する連続的な最適化方法を説明する。提案する方法は、反復最近点(ICP)及びガウス・ニュートン最適化の組み合わせである。
単一ビューからの3次元姿勢推定は不良設定問題である。姿勢推定における不確定性を最小化するために、2つのビューによる手法を用いる。この手法では、ロボットアームを第2の位置へ移動させて、シーンをMFCで再び撮像する。2つのビューにおいて検出されたエッジ画素は2つの集合により次のように与えられる。
M(j)∈SE(3),j∈{1,2}を、ワールド座標系における2つのカメラの位置を決める3D剛体運動行列とし、P=(K 0)を3×4射影行列とする。最適化手順は、検出された画素v(j) iと3D CADモデルの対応する3D画素
との間の射影誤差の2乗和を両方のビューにおいて同時に最小化する。
3D画素
の射影は同次座標で表され、この式において、それらの画素が2D座標に変換されているものと仮定する。本発明では、画像平面上の最も近い画素の割り当てにより3D−2D画素の対応を見つける。この2つのカメラの設定をシミュレートし、現在の姿勢推定値pに対して3D CADモデルをレンダリングする。U(j)={u(j) i}、j∈{1,2}を2つの合成ビュー内の検出されたエッジ画素の集合とし、
を3D CADモデルの対応する画素集合とする。U(j)の画素毎に、方向性マッチングスコア
に関してV(j)において最も近い画素を探索し、画素の対応
を確立する。
式(13)で与えられる最小2乗誤差の非線形関数は、ガウス・ニュートン法を用いて最小化される。最初の姿勢推定値p0から始めて、反復pt+1=pt+Δpにより推定値を改良する。更新ベクトルΔpは、標準方程式(JT eJe)Δp=JT eεの解によって与えられ、ここで、εは式(13)において合計された誤差項の各々のN次元ベクトルであり、Jeはptにおいて評価したpに対するεのN×6ヤコビアン行列である。
対応問題及び最小化問題を収束するまで反復して解く。マッチング手順により与えられる最初の姿勢推定値は通常、真の解に近いため、一般的に収束には5回〜10回の反復で十分である。
本発明を、好ましい実施形態の例として説明してきたが、本発明の精神及び範囲内で他のさまざまな適合及び変更を行えることが理解されるべきである。したがって、本発明の真の精神及び範囲内に入るすべての変形及び変更を包含することが、添付の特許請求の範囲の目的である。
Claims (20)
- シーンにおける物体の姿勢を求めるための方法であって、プロセッサによって実行され、
仮想カメラを用いて前記物体のモデルの仮想画像の集合をレンダリングするステップであって、各前記仮想画像の集合は、前記モデルの異なる既知の姿勢についてのものであり、前記モデルは、仮想光源の集合によって照明され、特定の既知の姿勢について特定の集合における仮想光源毎に1つの仮想画像がある、レンダリングするステップと、
各前記仮想画像から仮想奥行きエッジマップを作成するステップと、
各奥行きエッジマップの集合をデータベースに格納すると共に、各該奥行きエッジマップの集合を対応する既知の姿勢と関連付けるステップと、
実カメラを用いて前記シーンにおける前記物体の実画像の集合を取得するステップであって、前記物体は、未知の姿勢を有し、前記物体は、実光源の集合によって照明され、実光源毎に1つの実画像がある、取得するステップと、
前記実画像毎に実奥行きエッジマップを作成するステップと、
コスト関数を用いて前記実奥行きエッジマップを各前記仮想画像の集合の前記仮想奥行きエッジマップと照合するステップであって、前記未知の姿勢に最も一致する前記既知の姿勢を求め、該照合は、前記奥行きエッジマップにおける画素の位置及び配向に基づく、照合するステップと
を含み、
環境光を用いて前記シーンの環境画像を取得するステップ、及び
各前記実画像から前記環境画像を差し引くステップ、
をさらに含む、方法。 - 前記実カメラ及び前記仮想カメラは従来のものであり、前記実画像及び前記仮想画像の前記エッジは、姿勢の推定に用いられる、請求項1に記載の方法。
- さまざまな物体のための格納されたクエリエッジテンプレートのデータベースからの画像における物体の検出及び位置特定に用いられる、請求項2に記載の方法。
- 前記カメラは、前記物体を操作するためのロボットアーム上に配置される、請求項1に記載の方法。
- 前記モデルは、コンピュータ支援設計モデルである、請求項1に記載の方法。
- 前記モデルは、前記物体の取り得る姿勢のエッジの集合である、請求項1に記載の方法。
- 異なる物体の複数のモデルが同時に格納される、請求項1に記載の方法。
- 前記照合は、方向性面取りマッチングを用いて大まかな姿勢を求めると共に、該大まかな姿勢を精緻化するためのオプションの手順を用いる、請求項1に記載の方法。
- 比画像を求めるために、各前記実画像を最大輝度画像で割ることであって、前記照合は、該比画像に基づく、割ること、
をさらに含む、請求項1に記載の方法。 - 各前記仮想画像及び各前記実画像を離散的な配向チャネルに量子化することであって、前記コスト関数は、該配向チャネル全体でマッチングスコアを合計する、量子化すること、
をさらに含む、請求項1に記載の方法。 - 前記実画像及び前記仮想画像から得られるエッジは、離散的な配向チャネルに分割され、前記コスト関数は、該配向チャネル全体でマッチングスコアを合計する、請求項2に記載の方法。
- 前記コスト関数は、
- 前記方向φは、πを法として計算され、配向誤差が、2つの方向間の最小円形差を与える、請求項12に記載の方法。
- 前記仮想画像及び前記実画像内の画素を線分で表現すること、及び
前記仮想画像及び前記実画像の前記線分を位置合わせすること
をさらに含む、請求項1に記載の方法。 - 所与の位置の前記コスト関数は、3D距離変換及び方向性積分画像を用いてエッジ点の数の部分線形時間において計算される、請求項12又は14に記載の方法。
- 前記エッジは、従来のカメラ及びCannyエッジ検出を用いて計算することができる、請求項1に記載の方法。
- 手書きの物体又は典型的な物体のギャラリーが、画像において、前記コスト関数及び高速マッチングアルゴリズムを用いて検出及び位置特定される、請求項1に記載の方法。
- 剛体物体又は変形可能な物体の姿勢が例示画像又は例示形状のギャラリーを用いて推定される、請求項17に記載の方法。
- 人体の姿勢の推定に適用される、請求項1に記載の方法。
- 画像における物体の検出及び位置特定に適用される、請求項1に記載の方法。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US12/648,190 | 2009-12-28 | ||
US12/648,190 US8306314B2 (en) | 2009-12-28 | 2009-12-28 | Method and system for determining poses of objects |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2011138490A JP2011138490A (ja) | 2011-07-14 |
JP5455873B2 true JP5455873B2 (ja) | 2014-03-26 |
Family
ID=44186947
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2010257956A Active JP5455873B2 (ja) | 2009-12-28 | 2010-11-18 | シーンにおける物体の姿勢を求めるための方法 |
Country Status (2)
Country | Link |
---|---|
US (1) | US8306314B2 (ja) |
JP (1) | JP5455873B2 (ja) |
Families Citing this family (32)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7365856B2 (en) | 2005-01-21 | 2008-04-29 | Carl Zeiss Meditec, Inc. | Method of motion correction in optical coherence tomography imaging |
US7571027B2 (en) * | 2005-05-31 | 2009-08-04 | The Boeing Company | Kinematic singular point compensation systems and methods |
JP5567908B2 (ja) * | 2009-06-24 | 2014-08-06 | キヤノン株式会社 | 3次元計測装置、その計測方法及びプログラム |
US8428342B2 (en) * | 2010-08-12 | 2013-04-23 | At&T Intellectual Property I, L.P. | Apparatus and method for providing three dimensional media content |
US8824554B2 (en) | 2010-09-02 | 2014-09-02 | Intersil Americas LLC | Systems and methods for video content analysis |
US9033510B2 (en) | 2011-03-30 | 2015-05-19 | Carl Zeiss Meditec, Inc. | Systems and methods for efficiently obtaining measurements of the human eye using tracking |
US8467596B2 (en) * | 2011-08-30 | 2013-06-18 | Seiko Epson Corporation | Method and apparatus for object pose estimation |
JP5447483B2 (ja) * | 2011-10-04 | 2014-03-19 | 株式会社安川電機 | ロボットシステムおよび被加工物の製造方法 |
US9618327B2 (en) * | 2012-04-16 | 2017-04-11 | Digimarc Corporation | Methods and arrangements for object pose estimation |
US9593982B2 (en) | 2012-05-21 | 2017-03-14 | Digimarc Corporation | Sensor-synchronized spectrally-structured-light imaging |
US9621760B2 (en) | 2013-06-07 | 2017-04-11 | Digimarc Corporation | Information coding and decoding in spectral differences |
US9036907B2 (en) * | 2012-07-16 | 2015-05-19 | Mitsubishi Electric Research Laboratories, Inc. | Method and apparatus for extracting depth edges from images acquired of scenes by cameras with ring flashes forming hue circles |
US8913825B2 (en) * | 2012-07-16 | 2014-12-16 | Mitsubishi Electric Research Laboratories, Inc. | Specular edge extraction using multi-flash imaging |
KR102056664B1 (ko) * | 2012-10-04 | 2019-12-17 | 한국전자통신연구원 | 센서를 이용한 작업 방법 및 이를 수행하는 작업 시스템 |
US9393686B1 (en) | 2013-03-15 | 2016-07-19 | Industrial Perception, Inc. | Moveable apparatuses having robotic manipulators and conveyors to facilitate object movement |
CN103198302B (zh) * | 2013-04-10 | 2015-12-02 | 浙江大学 | 一种基于双模态数据融合的道路检测方法 |
JP2015024453A (ja) * | 2013-07-25 | 2015-02-05 | トヨタ自動車株式会社 | 載置判断方法、載置方法、載置判断装置及びロボット |
CN105095849B (zh) * | 2014-05-23 | 2019-05-10 | 财团法人工业技术研究院 | 对象识别方法与装置 |
US9400924B2 (en) | 2014-05-23 | 2016-07-26 | Industrial Technology Research Institute | Object recognition method and object recognition apparatus using the same |
US9327406B1 (en) | 2014-08-19 | 2016-05-03 | Google Inc. | Object segmentation based on detected object-specific visual cues |
US10113910B2 (en) | 2014-08-26 | 2018-10-30 | Digimarc Corporation | Sensor-synchronized spectrally-structured-light imaging |
JP6624794B2 (ja) * | 2015-03-11 | 2019-12-25 | キヤノン株式会社 | 画像処理装置、画像処理方法及びプログラム |
US9990535B2 (en) | 2016-04-27 | 2018-06-05 | Crown Equipment Corporation | Pallet detection using units of physical length |
KR101817756B1 (ko) * | 2016-12-28 | 2018-01-11 | (주)앤미디어 | 인터랙티브한 시점 제어가 가능한 3차원 모델 기반의 ptm 생성 시스템 및 이를 이용한 ptm 생성 방법 |
KR101817753B1 (ko) * | 2016-12-28 | 2018-01-11 | (주)앤미디어 | 3차원 모델의 형상이 개선된 ptm 생성 시스템 및 이를 이용한 ptm 생성 방법 |
CN107300100B (zh) * | 2017-05-22 | 2019-05-14 | 浙江大学 | 一种在线cad模型驱动的级联式机械臂视觉引导逼近方法 |
JP2019003407A (ja) | 2017-06-15 | 2019-01-10 | オムロン株式会社 | テンプレート作成装置、物体認識処理装置、テンプレート作成方法及びプログラム |
CA3030734A1 (en) * | 2017-06-16 | 2017-11-27 | Robotiq Inc. | Robotic arm camera system and method |
US10388029B1 (en) * | 2017-09-07 | 2019-08-20 | Northrop Grumman Systems Corporation | Multi-sensor pose-estimate system |
JP6822929B2 (ja) | 2017-09-19 | 2021-01-27 | 株式会社東芝 | 情報処理装置、画像認識方法および画像認識プログラム |
US10671835B2 (en) | 2018-03-05 | 2020-06-02 | Hong Kong Applied Science And Technology Research Institute Co., Ltd. | Object recognition |
JP2019159470A (ja) * | 2018-03-08 | 2019-09-19 | 富士通株式会社 | 推定装置、推定方法、及び推定プログラム |
Family Cites Families (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2861014B2 (ja) * | 1989-01-18 | 1999-02-24 | 株式会社デンソー | 物体認識装置 |
JP3212777B2 (ja) * | 1993-10-28 | 2001-09-25 | 三菱電機株式会社 | 画像処理装置 |
JP2002197472A (ja) * | 2000-12-26 | 2002-07-12 | Masahiro Tomono | 物体認識方法 |
JP4573085B2 (ja) * | 2001-08-10 | 2010-11-04 | 日本電気株式会社 | 位置姿勢認識装置とその位置姿勢認識方法、及び位置姿勢認識プログラム |
US7206449B2 (en) | 2003-03-19 | 2007-04-17 | Mitsubishi Electric Research Laboratories, Inc. | Detecting silhouette edges in images |
JP4709723B2 (ja) * | 2006-10-27 | 2011-06-22 | 株式会社東芝 | 姿勢推定装置及びその方法 |
AT452379T (de) * | 2007-10-11 | 2010-01-15 | Mvtec Software Gmbh | SYSTEM AND METHOD FOR 3D OBJECT DETECTION |
JP4205760B1 (ja) * | 2007-12-27 | 2009-01-07 | 株式会社ファースト | 画像マッチング方法、プログラムおよび応用装置 |
-
2009
- 2009-12-28 US US12/648,190 patent/US8306314B2/en active Active
-
2010
- 2010-11-18 JP JP2010257956A patent/JP5455873B2/ja active Active
Also Published As
Publication number | Publication date |
---|---|
US20110157178A1 (en) | 2011-06-30 |
US8306314B2 (en) | 2012-11-06 |
JP2011138490A (ja) | 2011-07-14 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Sattler et al. | Are large-scale 3d models really necessary for accurate visual localization? | |
Rothermel et al. | SURE: Photogrammetric surface reconstruction from imagery | |
US9875424B2 (en) | Method for determining correspondences between a first and a second image, and method for determining the pose of a camera | |
US9420265B2 (en) | Tracking poses of 3D camera using points and planes | |
Svärm et al. | City-scale localization for cameras with known vertical direction | |
US9183631B2 (en) | Method for registering points and planes of 3D data in multiple coordinate systems | |
US10189162B2 (en) | Model generation apparatus, information processing apparatus, model generation method, and information processing method | |
US10217234B2 (en) | Modeling method and apparatus using three-dimensional (3D) point cloud | |
EP2751777B1 (en) | Method for estimating a camera motion and for determining a three-dimensional model of a real environment | |
Taguchi et al. | Point-plane SLAM for hand-held 3D sensors | |
JP6681729B2 (ja) | オブジェクトの3d姿勢およびオブジェクトのランドマーク点の3dロケーションを求める方法、およびオブジェクトの3d姿勢およびオブジェクトのランドマークの3dロケーションを求めるシステム | |
Jin et al. | Real-time feature tracking and outlier rejection with changes in illumination | |
Drummond et al. | Real-time visual tracking of complex structures | |
Kutulakos et al. | A theory of shape by space carving | |
US9124873B2 (en) | System and method for finding correspondence between cameras in a three-dimensional vision system | |
CN104040590B (zh) | 用于估计物体的姿态的方法 | |
Gordon et al. | What and where: 3D object recognition with accurate pose | |
Wöhler | 3D computer vision: efficient methods and applications | |
Mendonca et al. | Epipolar geometry from profiles under circular motion | |
Choi et al. | Voting-based pose estimation for robotic assembly using a 3D sensor | |
EP2153409B1 (en) | Camera pose estimation apparatus and method for augmented reality imaging | |
KR101364874B1 (ko) | 제 1 이미징 장치 및 제 2 이미징 장치의 상대적인 위치 및 상대적인 방향을 결정하기 위한 방법 및 관련 장치 | |
Trucco et al. | Model-based planning of optimal sensor placements for inspection | |
JP4785880B2 (ja) | 三次元オブジェクト認識のためのシステムおよび方法 | |
Thompson et al. | Three-dimensional model matching from an unconstrained viewpoint |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20121004 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20130910 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20130917 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20131118 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20131210 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20140107 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5455873 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |