JP5455873B2 - シーンにおける物体の姿勢を求めるための方法 - Google Patents

シーンにおける物体の姿勢を求めるための方法 Download PDF

Info

Publication number
JP5455873B2
JP5455873B2 JP2010257956A JP2010257956A JP5455873B2 JP 5455873 B2 JP5455873 B2 JP 5455873B2 JP 2010257956 A JP2010257956 A JP 2010257956A JP 2010257956 A JP2010257956 A JP 2010257956A JP 5455873 B2 JP5455873 B2 JP 5455873B2
Authority
JP
Japan
Prior art keywords
image
virtual
real
pose
matching
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2010257956A
Other languages
English (en)
Other versions
JP2011138490A (ja
Inventor
ジュネイト・オンジェル・トゥゼル
アショク・ヴェーララグハヴァン
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Mitsubishi Electric Research Laboratories Inc
Original Assignee
Mitsubishi Electric Research Laboratories Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Mitsubishi Electric Research Laboratories Inc filed Critical Mitsubishi Electric Research Laboratories Inc
Publication of JP2011138490A publication Critical patent/JP2011138490A/ja
Application granted granted Critical
Publication of JP5455873B2 publication Critical patent/JP5455873B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T1/00General purpose image data processing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T15/003D [Three Dimensional] image rendering
    • G06T15/10Geometric effects
    • G06T15/20Perspective computation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/50Depth or shape recovery
    • G06T7/55Depth or shape recovery from multiple images
    • G06T7/586Depth or shape recovery from multiple images from multiple light sources, e.g. photometric stereo
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/70Determining position or orientation of objects or cameras
    • G06T7/73Determining position or orientation of objects or cameras using feature-based methods
    • G06T7/74Determining position or orientation of objects or cameras using feature-based methods involving reference images or patches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10141Special mode during image acquisition
    • G06T2207/10152Varying illumination
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30108Industrial image inspection
    • G06T2207/30164Workpiece; Machine component

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computing Systems (AREA)
  • Geometry (AREA)
  • Computer Graphics (AREA)
  • Image Processing (AREA)
  • Image Analysis (AREA)
  • Manipulator (AREA)
  • Processing Or Creating Images (AREA)

Description

本発明は、包括的には、物体の姿勢を求めることに関し、特に、通常のカメラ又はマルチフラッシュカメラのいずれかによって取得される画像内のエッジに基づいて姿勢を求めることに関する。
コンピュータビジョンシステムは、ロボットを用いた自動製造等の多くの用途で使用されている。ほとんどのロボットは、制限及び制約のある環境でしか動作することができない。例えば、組立ラインの部品は、ロボットが把持及び操作できるように、決まった姿勢で置かれなければならない。本明細書中で使用されるように、物体の姿勢は、平行移動及び回転による3D位置及び3D配向として定義される。
3Dモデルと2D画像との対応を用いて物体の姿勢を求める方法が既知である。残念ながら、これらの方法は、光沢のある表面又はテクスチャのない表面を有する物体には上手く機能しない。雑然としたシーン、例えば複数の物体が積み重なった置き場に複数の同一物体が置かれている場合は、特に厳しい状況となる。
面取りマッチングを使用すると、物体の輪郭を用いて姿勢を特定し求めることができる。しかしながら、撮像された輪郭が部分的に遮蔽されていたり、雑然とした背景の中にある場合、従来の方法では失敗してしまう。エッジ配向を用いて、雑然とした背景における面取りマッチングを改善することができる。既存の面取りマッチングアルゴリズムにおいて計算複雑性が最良のものは、輪郭点の数の一次式である。
アクティブ照明パターンは、雑然としたシーンの中の特徴を正確に抽出することによって、コンピュータビジョンの方法にとって大きな力になることができる。このような方法の例として、構造化照明パターンを投影することによる奥行き推定がある。
本発明の実施の形態は、物体の2D又は3D姿勢を求めるための方法及びシステムを提供する。
オフライン段階中に、本方法は、コンピュータ支援設計(CAD)モデルであってもよいモデルから得た物体の方向性特徴の集合を用いて物体をモデリングする。仮想カメラ及びレンダリングエンジンを用いて、物体の取り得る姿勢毎に仮想画像の集合を生成する。仮想画像及び関連する姿勢は、後のオンライン段階中の比較のためにデータベースに格納される。
オンライン段階中に、さまざまな任意の姿勢の1つ又は複数の物体を含むシーンの実画像の集合を実カメラによって取得する。この実カメラは、通常のカメラ又はマルチフラッシュカメラとすることができる。例えば、シーンは、物体を含む部品置き場を含む。その場合、例示的な用途において、物体は、それらの姿勢に応じて置き場からロボットアームによって、さらなる組み立てのためにピッキングされることができる。本方法は、取得画像からのエッジをデータベースに格納されたエッジと照合する必要のある多くの他のコンピュータビジョンアプリケーションにも用いることができることが理解される。このような用途の例として、エッジを用いた物体の検出及び位置特定がある。
画像は、通常のカメラ又はマルチフラッシュカメラのいずれかから取得することができる。画像が通常のカメラにより取得される場合、Cannyエッジのような輝度エッジ検出器が用いられる。検出されたCannyエッジ及びその配向を用いて、さまざまな姿勢の物体の実画像及び仮想画像の照合を行う。マルチフラッシュカメラの場合、シーンは、実カメラのレンズの周囲に円形に配置された点光源及び環境照明によって照明される。照明毎に画像を取得する。光源の変化によってシーンに投じられる影は、シーンにおける奥行きの不連続性に関する情報を符号化する。検出された奥行きエッジとそれらの配向を用いて、仮想画像と実画像との照合を行い、物体の姿勢を求める。
本方法は、複数の物体が置き場内に置かれ、各物体を置き場から1つずつピッキングする必要があるロボットアプリケーションで特に有用である。本方法は、あまりテクスチャがなく雑然としたシーンに埋没した鏡面反射する物体に用いることができる。
本方法は、各エッジ画素の位置及び局所的配向の両方を尊重する新規のコスト関数を用いる。このコスト関数は、従来の面取りコスト関数よりも遥かに優れており、従来の方法では信頼性がないひどく雑然としたシーンでも正確な照合ができる。本発明は、部分線形時間手順を提供し、3D距離変換及び積分画像からの技法を用いてコスト関数を計算する。
本発明者らはまた、マルチビューに基づく姿勢の精緻化手順を提供し、推定した姿勢を改良する。本発明者らは、産業用ロボットアーム用の手順を実行し、最小限のテクスチャを有するさまざまな部品に関してそれぞれ、約1mmの位置推定精度及び約2度の角度推定精度を得た。
コスト関数及び部分線形時間マッチングアルゴリズムは、(追加光源のない)通常のカメラ設定でも、画像内の物体を検出及び位置特定するために用いることができる。画像内のエッジは、Cannyエッジ検出器等の標準的なエッジ検出アルゴリズムを用いて検出することができる。入力は、画像内で位置特定される物体のギャラリーである。このアルゴリズムは、ギャラリー物体のエッジを新たな観測画像と照合することによって、シーンにおける物体を位置特定する。マッチングコストが所与の位置についてユーザの定めた閾値よりも小さければ物体が検出される。
本発明は、通常のカメラ及び輝度エッジ又はマルチフラッシュカメラ(MFC)及び奥行きエッジを用いた物体の検出、位置特定及び姿勢推定のための方法及びシステムを提供する。本発明ではこの問題を、物体の3D CADモデルを用いてオフラインで計算されるレンダリングされた輝度/奥行きエッジに対して1つ又は複数の通常/MFC画像内で得られた輝度/奥行きエッジ間の一致を見つける問題として定式化し直す。
本発明では、従来の面取りコストよりも遥かに優れた新規のコスト関数を導入し、部分線形時間マルチビューに基づく姿勢推定及び精緻化手順を開発した。
本発明の実施形態による物体の姿勢を求めるためのシステムの概略図である。 本発明の実施形態による物体の姿勢を求めるための方法の流れ図である。 本発明の実施形態による物体のCADモデルをレンダリングするための2球面上のサンプル回転角の概略図である。 線分としてモデリングされた画素の概略図である。 本発明によるマッチングコストを計算するための3次元距離変換及び積分画像表現の概略図である。
概観
図1及び図2に示すように、本発明の実施形態は、3D物体の姿勢を求めるためのシステム及び方法を提供する。用途の一例では、マルチフラッシュカメラ(MFC)110をロボットアーム120上に配置する(参照により本明細書中に援用される米国特許第7,206,449号「Detecting silhouette edges in images」を参照)。カメラは、複数の物体140を含むシーン130の画像を取得することができる。カメラ及びロボットアームは、姿勢を求めるための方法150のステップを行うプロセッサ160の入出力インターフェースに接続することができる。
別の例では、通常のカメラがロボットアーム上に配置される。カメラは、複数の物体を含むシーンの画像を取得する。カメラ及びロボットアームは、姿勢を求めるための方法150のステップを行うプロセッサ160の入出力インターフェースに接続することができる。
さらに別の例では、画像内の検出する必要がある物体のエッジのデータベースを格納する。テスト画像が得られると、テスト画像内のエッジがまずCannyエッジ検出器を用いて計算される。次に、画像内の物体を検出し位置特定するために、本明細書中に記載される方法を用いて、このエッジ画像を物体のエッジのデータベースと照合する。
以下では最初の用途を詳細に説明するが、他の例もカバーするものとする。
オフライン処理
図2に示すように、オフラインの前処理段階210中に、コンピュータ支援設計(CAD)モデル212を用いて、シーンにおける物体の取り得る姿勢毎に仮想奥行きエッジマップをレンダリングし(211)、データベース内に仮想姿勢テンプレート画像213を作成する。
オンライン処理
システムのオンライン動作中に、MFCは、8個の異なるフラッシュを用いて、シーンの実画像の集合、および、シーンが環境照明によって照明されているときの画像を、取得する(220)。
それらの画像から奥行きエッジマップが求められる(230)。面取りマッチングを用いて仮想姿勢テンプレート画像213が実エッジマップと照合され(240)、大まかな姿勢が求められる。
大まかな姿勢が、オンラインレンダリング(255)を用いて繰り返し精緻化される(250)。姿勢が求められると、ロボットアーム120は、何らかの動作を実行する(260)、例えば、物体140のうちの1つを操作することができる。
MFCは、アクティブ照明をベースとした、例えば、レンズの周囲に配置された8個の点光源を含むカメラである。MFCは、照明源の位置の変化により生じる影の変化を利用して、テクスチャのない物体又は鏡面反射する物体のような難しい物体に対しても奥行きエッジを与える。カメラの周囲の異なるLEDが発光すると、物体が投じる影の位置は変化する。1つのフラッシュの影になっているが、他のフラッシュの影にはなっていない物体の画素は、輝度を大きく変化させる。この影の画素の輝度の変化を用いて、ビューに依存する奥行きエッジを検出し抽出することができる。
比画像
まず、MFC画像によって取得された画像の集合から、環境照明のみで取得された画像を差し引き、画像Iを得る。これらの画像Iの中から、各画素位置における最大輝度値を見つけ出し、この最大輝度値を用いて最大照明画像を作成する。
max(x,y)=max(x,y)
次に、比画像をRI=I/Imaxとして計算する。理想的には、影の領域の画素の比の値は、環境光源からの照明の寄与が除かれているため、ゼロとなるはずである。これに対し、影でない領域の画素の比の値は、該領域がすべてのフラッシュによって照明されているため、1に近くなるはずである。影の領域の画素と影の領域にない画素との間の遷移点が常に奥行きエッジとなる。各比画像に対し、この影の画素から影でない画素への遷移、すなわち0から1への遷移を検出するように設計されたSobelフィルタを適用する。
物体検出
次に、本発明によるMFCによって取得された奥行きエッジを用いて雑然としたシーンにおける物体を検出し位置特定するための方法を詳細に説明する。一般性を失うことなく、本方法を単一の物体に適用した場合を説明する。しかしながら、この仮定は説明を簡略化するためのものに過ぎない。実際には、本方法は複数の物体の姿勢を同時に位置特定し推定することができる。同様に、本方法は、MFCから取得された奥行きエッジに適用した場合について説明されるが、一般性を失うことなく、同方法は、従来のカメラから得られたテクスチャエッジにも適用されてもよい。
データベースの生成
物体のCADモデル212が与えられると、ソフトウェアでMFCをシミュレートすることによって、奥行きエッジテンプレート213のデータベースを生成する(210)。シミュレーションでは、実MFCの内部パラメータを有する仮想カメラを原点に置き、光軸をワールド座標系のz軸に合わせる。8個の仮想フラッシュを、xy平面上の、原点を中心とし、カメラとLED照明源との間の実基線に等しい半径を有する円上に等間隔に置く。
次に、物体のCADモデルを、z軸上の、仮想カメラから距離tだけ離れた位置に置く。仮想フラッシュを1つずつ点灯し、投じた影を含む物体の8個のレンダリングを取得する。シーンの中の奥行きエッジを上述のように検出する(211)。
図3に示すように、さまざまな姿勢について、3D空間に埋め込まれた球体301の2D表面上の回転角θ及びθを均等にサンプリングする。テンプレートデータベースは、物体302のサンプリングされた回転に対して物体のCADモデルをレンダリングすることによって生成される。
任意の3D回転は、3つの直交軸を中心とする一連の3つの要素回転に分解することができる。これらの軸のうちの1つ目をカメラの光軸に合わせ、この軸を中心とする回転を面内回転θと呼ぶ。他の2つの軸はカメラの光軸に垂直な平面上にあり、これらの2つの軸を中心とする回転を面外回転θ及びθと呼ぶ。面内回転は観測画像を面内回転させるのに対し、面外回転の効果は物体の3D構造に依存する。この区別のため、物体の面外回転のみをデータベースに含める。図3に示すように2球面S上で均等にk個の面外回転(θ及びθ)303をサンプリングし、これらの回転のそれぞれについて奥行きエッジテンプレート213を生成する。
方向性面取りマッチング
テンプレートマッチング240中に、データベース、及び仮想テンプレート213の奥行きエッジを実MFC画像から得られた奥行きエッジに合わせる最適な2Dユークリッド変換s∈SE(2)を探索する。2Dユークリッド変換は3つのパラメータで
Figure 0005455873
として表され、ここで、
Figure 0005455873
はx軸に沿った画像平面の平行移動であり
Figure 0005455873
はy軸に沿った画像平面の平行移動であり、θは面内回転角である。
画素に与えられる回転は次のように表される。
Figure 0005455873
面取りマッチングは、2つのエッジマップ間の最良の位置合わせを見つけるための技法である。U={u}を仮想画像エッジマップの集合とし、V={v}を実画像エッジマップの集合とする。U及びVの間の面取り距離は、各画素uと、Vにおける該画素に最も近いエッジ画素との間の距離の平均により、次のように与えられる。
Figure 0005455873
ここで、n=|U|である。
すると、2つのエッジマップ間の最良の位置合わせパラメータ
Figure 0005455873
は次式によって与えられる。
Figure 0005455873
面取りマッチングは、背景が雑然としていると信頼性が低くなる。精度を高めるために、面取りマッチングは、エッジ配向情報をマッチングコストに含めることができる。仮想画像エッジ及び実画像エッジは、離散的な配向チャネル(orientation channel)に量子化され、チャネル全体で個々のマッチングスコアが合計される。
これにより雑然としたシーンの問題は軽減されるが、コスト関数は依然として、配向チャネルの数に対して非常に敏感であり、チャネル境界において不連続になる。面取り距離には、仮想エッジと、実画像における該仮想エッジに最も近いエッジ画素との間の配向の平均差によって与えられる配向の不一致に関する追加コストを付加することができる。
配向の不一致の明示的な定式化の代わりに、方向性エッジ画素をマッチングするためにRにおける画素までの面取り距離を一般化する。各エッジ画素xに方向項φ(x)を付加すると、方向性面取りマッチング(DCM)スコアは次のように表される。
Figure 0005455873
ここで、λは重み係数である。
方向φ(x)はπを法として計算され、配向誤差は、2方向間の最小円形差(circular difference)を次のように与える。
Figure 0005455873
Vにおける最も近い画素がまず所与の仮想画素uについて位置特定され、コスト関数にそれらの配向の差が付加される。したがって、本発明のコスト関数は、位置誤差項及び配向誤差項の和を共に最小化する。
本発明のマッチングコストが、仮想テンプレートのエッジの両平行移動
Figure 0005455873
及び回転θの区分的に滑らかな関数であることは容易に検証することができる。したがって、本発明のマッチングは、エッジの欠落と小さな位置ずれのある雑然としたシーンにおける精度が、従来技術のマッチングよりも高い。
本発明者らの知る限りにおいて、従来の面取りマッチング手順の計算複雑性は、方向性項がない場合でも仮想テンプレートのエッジ画素数の一次式である。本発明は利点として、3D面取りマッチングスコアの正確な計算のために部分線形時間の手順を提供する。
探索の最適化
式(3)における探索は、データベースに格納されたk個のテンプレートのそれぞれについて平面ユークリッド変換
Figure 0005455873
の3つのパラメータにわたる最適化を必要とする。640×480の実画像及びk=300個のエッジテンプレートのデータベースの場合、総当たり探索は、式(4)のコスト関数の1010回を超える評価を必要とする。
したがって、本発明では探索の最適化を2段階で行う。すなわち、まず、部分線形時間の手順を用いてマッチングスコアを計算する。次に、仮想画像及び実画像の主な直線を位置合わせすることにより、3次元の探索問題を1次元のクエリ(queries)に変更する。
線形表現
シーンのエッジマップは非構造化バイナリパターンになっていない。その代わり、物体の輪郭は一定の連続性の制約に従い、さまざまな長さ、配向及び平行移動の線分をつなぐことによって保持される。エッジ画像(図4Aを参照)内の画素をm個の線分の集まり(図4Bを参照)として表現する。位数がnである画素の集合と比較して、この線形表現はより簡潔である。エッジマップを格納するにはO(m)のメモリがあればよく、ここで、m<<nである。
ランダムサンプルコンセンサス(RANSAC)手順の変形を用いて、エッジマップの線形表現を計算する。この手順はまず、画素及びそれらの方向の小部分集合を選択することによってさまざまな直線を仮定する。直線のサポートは、小さな残差内で直線の式を満たし連続的な構造を形成する画素の集合によって与えられる。
サポートの最も大きな線分を保持し、サポートが数画素よりも小さくなるまで縮小集合を用いて手順を繰り返す。この手順は、一定の構造及びサポートを有する画素のみを保持するため、ノイズはフィルタリングされる。また、直線当てはめ手順により復元された方向は、画像勾配等の局所演算子と比べてより正確である。上述したRANSACに基づく方法に代えて、任意の適切な直線当てはめ技法を用いることもできる。
図4Aは、図4Bに示すような300個の線分を用いてモデリングされた11542画素の集合を示す。
3次元距離変換
式(4)で与えられるマッチングスコアは、仮想テンプレートのエッジ画素毎に、位置項及び配向項全体で最小コストの一致を見つけることを必要とする。したがって、総当たり手順の計算複雑性はテンプレート画素数及び実画像のエッジ画素数の二次式である。
図5に要約して示すように、本発明は、3次元距離変換表現(DT3)を与えて線形時間におけるマッチングコストを計算する。この表現は、1番目の次元及び2番目の次元が画像平面上の位置であり、3番目の次元が量子化されたエッジ配向である3次元画像テンソルである。
本発明では、エッジ配向を3番目の次元として用いる。エッジ配向510は、N個の離散値520、x軸、y軸、及びエッジ配向
Figure 0005455873
に量子化される。これが2次元の画素座標と共に3D格子画素集合530を形成する。量子化によりエッジ配向の精度がいくらか低下する。しかし、姿勢マッチングの部分は最初の大まかな姿勢推定値を得る手段に過ぎないため、深刻なものではない。線分の正確な配向は、姿勢の精緻化の際に用いられる。
詳細には、エッジ配向は、[0 π]の範囲内でq個の離散的な配向チャネル
Figure 0005455873
に均等に量子化される。テンソルの各要素は、位置及び配向の結合空間におけるエッジ画素までの最小距離を次のように符号化する。
Figure 0005455873
ここで、
Figure 0005455873
は配向空間において
Figure 0005455873
のφ(x)に最も近い量子化レベルである。
DT3テンソルは、画像全体のO(q)回のパスで計算することができる。式(6)は次のように書き直すことができる。
Figure 0005455873
ここで、
Figure 0005455873
はVにおいて配向が
Figure 0005455873
であるエッジ画素の2次元距離変換である。初めに、従来の手順540を用いてq個の2次元距離変換を計算する。次に、位置毎に別々に、配向コストに関して2番目の動的問題を解く(550)ことによって、式(7)のDT3テンソルを計算する。
3D距離変換表現DT3を用いて、任意のテンプレートUの方向性面取りマッチングスコアを次のように計算することができる。
Figure 0005455873
距離変換の積分
={l[sj,ej]j=1...mをテンプレートのエッジ画素Uの線形表現とする。ここで、sは第jの直線の開始位置であり、eは第jの直線の終了位置である。表記を簡略化するために、直線をインデックスlのみで呼ぶ場合がある。線分はq個の離散的なチャネル
Figure 0005455873
においてのみ方向を有するものと仮定し、線形表現を計算する際はこれを徹底する。線分上のすべての画素を、直線
Figure 0005455873
の方向である同一の配向と関連付ける。したがって、方向性面取りマッチングスコアは次のようになる。
Figure 0005455873
この式では、方向が
Figure 0005455873
560である線分の画素を合計するために、DT3テンソルの第iの配向チャネルのみを評価する。
積分画像は、画素の領域合計の高速計算のために用いられる中間画像表現である(参照により本明細書中に援用される米国特許第7,454,058号「Method of extracting and searching integral histograms of data samples」を参照)。本発明では、積分距離変換表現(IDT3)のテンソルを与えて、O(1)回の演算における任意の線分全体のコストの合計を評価する。配向チャネルi毎に、
Figure 0005455873
560に沿って1方向性積分を計算する。
を、画像境界と、xを通り方向が
Figure 0005455873
である直線との交点とする。IDT3テンソルの各成分は次式によって与えられる。
Figure 0005455873
IDT3テンソルは、DT3テンソル全体の1回のパスで求めることができる。この表現を用いて、任意のテンプレートUの方向性面取りマッチングスコアを、
Figure 0005455873
によりO(m)回の演算で計算することができる。
m<<nであるため、マッチングの計算複雑性はテンプレート画素数nの一次式以下である。
O(m)の複雑性は計算回数の上限である。姿勢の推定のために、最良の仮説のみを保持したい。テンプレートの直線をそのサポートに対して順序付け、サポートが最大である直線から合計を開始する。コストが現在の最良の仮説よりも高い場合、この仮説は合計中に排除される。線分のサポートは指数関数的減衰を示すため、大部分の仮説では、数回の算術演算しか行われない。
1次元探索
平面ユークリッド変換の3つのパラメータにわたる最適な姿勢の探索は計算集約的であり、リアルタイムアプリケーションでの実用には向かない。線形表現は、探索空間の大きさを縮小する効率的な方法を提供する。観測によると、テンプレート画像及び実画像の線分は、テンプレートの姿勢の実際の推定値とほぼ完璧に合わせられる。また、この手順はサポートの大きい線分ほど有利であるため、直線当てはめ中、テンプレート画像及び実画像の主な直線が非常に高い信頼度で検出される。
本発明では、テンプレート線分及び実線分をそれらのサポートに基づいて順序付け、数本の主な直線のみを保持して探索を導く。テンプレートを初めに回転及び平行移動して、テンプレートの仮想線分を実画像の線分の方向に合わせ、該仮想線分の終了画素が実線分の開始画素に一致するようにする。
次に、テンプレートを実線分の方向に沿って平行移動し、2つの線分が重なる位置のみにおいてコスト関数を評価する。この手順は、3次元探索を数方向のみに沿った1次元探索に変える。探索時間は、画像の大きさに対して不変であり、仮想画像及び実画像の直線数とそれらの長さの関数に過ぎない。
姿勢の精緻化
姿勢の精緻化は任意の(optional)ステップであり、姿勢の推定以外の用途には適用されないことを明示しておかねばならない。上述したコンピュータビジョン用途では、姿勢の精緻化ステップはない。
最小コストテンプレート及びその面内変換パラメータ
Figure 0005455873
は、物体の3D姿勢の大まかな推定値を与える。θ,θを面外回転角とし、tをカメラからの距離として、仮想画像のレンダリングに用いる。カメラ較正行列Kを用いて面内平行移動パラメータを3Dに逆射影し、3つのオイラー角(θ,θ,θ)及び3D平行移動ベクトル(t,t,tにより物体の最初の3D姿勢pを得る。
3D姿勢pは次のように行列として書き表すこともできる。
Figure 0005455873
ここで、Rはx−y−z軸を中心とする一連の3回の回転
Figure 0005455873
によって計算される3×3直交行列であり、tは3次元平行移動ベクトルである。
最初の姿勢推定値の精度は、データベース内に含められる面外回転の離散集合によって制限される。この姿勢推定値を精緻化する連続的な最適化方法を説明する。提案する方法は、反復最近点(ICP)及びガウス・ニュートン最適化の組み合わせである。
単一ビューからの3次元姿勢推定は不良設定問題である。姿勢推定における不確定性を最小化するために、2つのビューによる手法を用いる。この手法では、ロボットアームを第2の位置へ移動させて、シーンをMFCで再び撮像する。2つのビューにおいて検出されたエッジ画素は2つの集合により次のように与えられる。
Figure 0005455873
(j)∈SE(3),j∈{1,2}を、ワールド座標系における2つのカメラの位置を決める3D剛体運動行列とし、P=(K 0)を3×4射影行列とする。最適化手順は、検出された画素v(j) と3D CADモデルの対応する3D画素
Figure 0005455873
との間の射影誤差の2乗和を両方のビューにおいて同時に最小化する。
Figure 0005455873
3D画素
Figure 0005455873
の射影は同次座標で表され、この式において、それらの画素が2D座標に変換されているものと仮定する。本発明では、画像平面上の最も近い画素の割り当てにより3D−2D画素の対応を見つける。この2つのカメラの設定をシミュレートし、現在の姿勢推定値pに対して3D CADモデルをレンダリングする。U(j)={u(j) }、j∈{1,2}を2つの合成ビュー内の検出されたエッジ画素の集合とし、
Figure 0005455873
を3D CADモデルの対応する画素集合とする。U(j)の画素毎に、方向性マッチングスコア
Figure 0005455873
に関してV(j)において最も近い画素を探索し、画素の対応
Figure 0005455873
を確立する。
式(13)で与えられる最小2乗誤差の非線形関数は、ガウス・ニュートン法を用いて最小化される。最初の姿勢推定値pから始めて、反復pt+1=p+Δpにより推定値を改良する。更新ベクトルΔpは、標準方程式(J )Δp=J εの解によって与えられ、ここで、εは式(13)において合計された誤差項の各々のN次元ベクトルであり、Jはpにおいて評価したpに対するεのN×6ヤコビアン行列である。
対応問題及び最小化問題を収束するまで反復して解く。マッチング手順により与えられる最初の姿勢推定値は通常、真の解に近いため、一般的に収束には5回〜10回の反復で十分である。
本発明を、好ましい実施形態の例として説明してきたが、本発明の精神及び範囲内で他のさまざまな適合及び変更を行えることが理解されるべきである。したがって、本発明の真の精神及び範囲内に入るすべての変形及び変更を包含することが、添付の特許請求の範囲の目的である。

Claims (20)

  1. シーンにおける物体の姿勢を求めるための方法であって、プロセッサによって実行され、
    仮想カメラを用いて前記物体のモデルの仮想画像の集合をレンダリングするステップであって、各前記仮想画像の集合は、前記モデルの異なる既知の姿勢についてのものであり、前記モデルは、仮想光源の集合によって照明され、特定の既知の姿勢について特定の集合における仮想光源毎に1つの仮想画像がある、レンダリングするステップと、
    各前記仮想画像から仮想奥行きエッジマップを作成するステップと、
    各奥行きエッジマップの集合をデータベースに格納すると共に、各該奥行きエッジマップの集合を対応する既知の姿勢と関連付けるステップと、
    実カメラを用いて前記シーンにおける前記物体の実画像の集合を取得するステップであって、前記物体は、未知の姿勢を有し、前記物体は、実光源の集合によって照明され、実光源毎に1つの実画像がある、取得するステップと、
    前記実画像毎に実奥行きエッジマップを作成するステップと、
    コスト関数を用いて前記実奥行きエッジマップを各前記仮想画像の集合の前記仮想奥行きエッジマップと照合するステップであって、前記未知の姿勢に最も一致する前記既知の姿勢を求め、該照合は、前記奥行きエッジマップにおける画素の位置及び配向に基づく、照合するステップと
    を含み、
    環境光を用いて前記シーンの環境画像を取得するステップ、及び
    各前記実画像から前記環境画像を差し引くステップ、
    をさらに含む、方法。
  2. 前記実カメラ及び前記仮想カメラは従来のものであり、前記実画像及び前記仮想画像の前記エッジは、姿勢の推定に用いられる、請求項1に記載の方法。
  3. さまざまな物体のための格納されたクエリエッジテンプレートのデータベースからの画像における物体の検出及び位置特定に用いられる、請求項2に記載の方法。
  4. 前記カメラは、前記物体を操作するためのロボットアーム上に配置される、請求項1に記載の方法。
  5. 前記モデルは、コンピュータ支援設計モデルである、請求項1に記載の方法。
  6. 前記モデルは、前記物体の取り得る姿勢のエッジの集合である、請求項1に記載の方法。
  7. 異なる物体の複数のモデルが同時に格納される、請求項1に記載の方法。
  8. 前記照合は、方向性面取りマッチングを用いて大まかな姿勢を求めると共に、該大まかな姿勢を精緻化するためのオプションの手順を用いる、請求項1に記載の方法。
  9. 比画像を求めるために、各前記実画像を最大輝度画像で割ることであって、前記照合は、該比画像に基づく、割ること、
    をさらに含む、請求項1に記載の方法。
  10. 各前記仮想画像及び各前記実画像を離散的な配向チャネルに量子化することであって、前記コスト関数は、該配向チャネル全体でマッチングスコアを合計する、量子化すること、
    をさらに含む、請求項1に記載の方法。
  11. 前記実画像及び前記仮想画像から得られるエッジは、離散的な配向チャネルに分割され、前記コスト関数は、該配向チャネル全体でマッチングスコアを合計する、請求項2に記載の方法。
  12. 前記コスト関数は、
    Figure 0005455873
    であり、U={ui}は、前記仮想エッジマップにおける仮想画素であり、V={vj}は、前記実画像エッジマップにおける実画素であり、φは、各前記画素の配向であり、λは、重み係数であり、n=|U|である、請求項11に記載の方法。
  13. 前記方向φは、πを法として計算され、配向誤差が、2つの方向間の最小円形差を与える、請求項12に記載の方法。
  14. 前記仮想画像及び前記実画像内の画素を線分で表現すること、及び
    前記仮想画像及び前記実画像の前記線分を位置合わせすること
    をさらに含む、請求項1に記載の方法。
  15. 所与の位置の前記コスト関数は、3D距離変換及び方向性積分画像を用いてエッジ点の数の部分線形時間において計算される、請求項12又は14に記載の方法。
  16. 前記エッジは、従来のカメラ及びCannyエッジ検出を用いて計算することができる、請求項1に記載の方法。
  17. 手書きの物体又は典型的な物体のギャラリーが、画像において、前記コスト関数及び高速マッチングアルゴリズムを用いて検出及び位置特定される、請求項1に記載の方法。
  18. 剛体物体又は変形可能な物体の姿勢が例示画像又は例示形状のギャラリーを用いて推定される、請求項17に記載の方法。
  19. 人体の姿勢の推定に適用される、請求項1に記載の方法。
  20. 画像における物体の検出及び位置特定に適用される、請求項1に記載の方法。
JP2010257956A 2009-12-28 2010-11-18 シーンにおける物体の姿勢を求めるための方法 Active JP5455873B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US12/648,190 US8306314B2 (en) 2009-12-28 2009-12-28 Method and system for determining poses of objects
US12/648,190 2009-12-28

Publications (2)

Publication Number Publication Date
JP2011138490A JP2011138490A (ja) 2011-07-14
JP5455873B2 true JP5455873B2 (ja) 2014-03-26

Family

ID=44186947

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2010257956A Active JP5455873B2 (ja) 2009-12-28 2010-11-18 シーンにおける物体の姿勢を求めるための方法

Country Status (2)

Country Link
US (1) US8306314B2 (ja)
JP (1) JP5455873B2 (ja)

Families Citing this family (50)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7365856B2 (en) 2005-01-21 2008-04-29 Carl Zeiss Meditec, Inc. Method of motion correction in optical coherence tomography imaging
US7571027B2 (en) * 2005-05-31 2009-08-04 The Boeing Company Kinematic singular point compensation systems and methods
JP5567908B2 (ja) * 2009-06-24 2014-08-06 キヤノン株式会社 3次元計測装置、その計測方法及びプログラム
US8428342B2 (en) 2010-08-12 2013-04-23 At&T Intellectual Property I, L.P. Apparatus and method for providing three dimensional media content
US20120057633A1 (en) 2010-09-02 2012-03-08 Fang Shi Video Classification Systems and Methods
US9033510B2 (en) 2011-03-30 2015-05-19 Carl Zeiss Meditec, Inc. Systems and methods for efficiently obtaining measurements of the human eye using tracking
US8467596B2 (en) * 2011-08-30 2013-06-18 Seiko Epson Corporation Method and apparatus for object pose estimation
JP5447483B2 (ja) * 2011-10-04 2014-03-19 株式会社安川電機 ロボットシステムおよび被加工物の製造方法
US9618327B2 (en) * 2012-04-16 2017-04-11 Digimarc Corporation Methods and arrangements for object pose estimation
US9593982B2 (en) 2012-05-21 2017-03-14 Digimarc Corporation Sensor-synchronized spectrally-structured-light imaging
US9036907B2 (en) * 2012-07-16 2015-05-19 Mitsubishi Electric Research Laboratories, Inc. Method and apparatus for extracting depth edges from images acquired of scenes by cameras with ring flashes forming hue circles
US8913825B2 (en) * 2012-07-16 2014-12-16 Mitsubishi Electric Research Laboratories, Inc. Specular edge extraction using multi-flash imaging
KR102056664B1 (ko) * 2012-10-04 2019-12-17 한국전자통신연구원 센서를 이용한 작업 방법 및 이를 수행하는 작업 시스템
CN110909825B (zh) * 2012-10-11 2024-05-28 开文公司 使用概率模型在视觉数据中检测对象
US9238304B1 (en) 2013-03-15 2016-01-19 Industrial Perception, Inc. Continuous updating of plan for robotic object manipulation based on received sensor data
CN103198302B (zh) * 2013-04-10 2015-12-02 浙江大学 一种基于双模态数据融合的道路检测方法
US9621760B2 (en) 2013-06-07 2017-04-11 Digimarc Corporation Information coding and decoding in spectral differences
JP2015024453A (ja) * 2013-07-25 2015-02-05 トヨタ自動車株式会社 載置判断方法、載置方法、載置判断装置及びロボット
CN105095849B (zh) * 2014-05-23 2019-05-10 财团法人工业技术研究院 对象识别方法与装置
US9400924B2 (en) 2014-05-23 2016-07-26 Industrial Technology Research Institute Object recognition method and object recognition apparatus using the same
US9327406B1 (en) 2014-08-19 2016-05-03 Google Inc. Object segmentation based on detected object-specific visual cues
US10113910B2 (en) 2014-08-26 2018-10-30 Digimarc Corporation Sensor-synchronized spectrally-structured-light imaging
JP6624794B2 (ja) * 2015-03-11 2019-12-25 キヤノン株式会社 画像処理装置、画像処理方法及びプログラム
US9990535B2 (en) 2016-04-27 2018-06-05 Crown Equipment Corporation Pallet detection using units of physical length
KR101817756B1 (ko) * 2016-12-28 2018-01-11 (주)앤미디어 인터랙티브한 시점 제어가 가능한 3차원 모델 기반의 ptm 생성 시스템 및 이를 이용한 ptm 생성 방법
KR101817753B1 (ko) * 2016-12-28 2018-01-11 (주)앤미디어 3차원 모델의 형상이 개선된 ptm 생성 시스템 및 이를 이용한 ptm 생성 방법
CN107300100B (zh) * 2017-05-22 2019-05-14 浙江大学 一种在线cad模型驱动的级联式机械臂视觉引导逼近方法
JP7003455B2 (ja) 2017-06-15 2022-01-20 オムロン株式会社 テンプレート作成装置、物体認識処理装置、テンプレート作成方法及びプログラム
CA3030734C (en) * 2017-06-16 2023-01-10 Robotiq Inc. Robotic arm camera system and method
US10388029B1 (en) * 2017-09-07 2019-08-20 Northrop Grumman Systems Corporation Multi-sensor pose-estimate system
JP6822929B2 (ja) 2017-09-19 2021-01-27 株式会社東芝 情報処理装置、画像認識方法および画像認識プログラム
PL3495202T3 (pl) * 2017-12-05 2021-02-08 Guima Palfinger S.A.S. System detekcji montowany na ciężarówce
US10671835B2 (en) 2018-03-05 2020-06-02 Hong Kong Applied Science And Technology Research Institute Co., Ltd. Object recognition
JP7059701B2 (ja) * 2018-03-08 2022-04-26 富士通株式会社 推定装置、推定方法、及び推定プログラム
JP6879238B2 (ja) * 2018-03-13 2021-06-02 オムロン株式会社 ワークピッキング装置及びワークピッキング方法
US10967507B2 (en) * 2018-05-02 2021-04-06 X Development Llc Positioning a robot sensor for object classification
CN110388919B (zh) * 2019-07-30 2023-05-23 上海云扩信息科技有限公司 增强现实中基于特征图和惯性测量的三维模型定位方法
CN110706285A (zh) * 2019-10-08 2020-01-17 中国人民解放军陆军工程大学 基于cad模型的物体位姿预测方法
EP3846136A1 (en) * 2019-12-31 2021-07-07 Dassault Systèmes Augmenting a video flux of a real scene
US11209573B2 (en) 2020-01-07 2021-12-28 Northrop Grumman Systems Corporation Radio occultation aircraft navigation aid system
CN111524115B (zh) * 2020-04-17 2023-10-13 湖南视比特机器人有限公司 钢板切割件的定位方法和分拣系统
CN113643356B (zh) * 2020-04-27 2024-05-28 北京达佳互联信息技术有限公司 相机位姿确定、虚拟物体显示方法、装置及电子设备
WO2022040983A1 (zh) * 2020-08-26 2022-03-03 南京翱翔智能制造科技有限公司 基于cad模型的投影标记和机器视觉的实时注册方法
CN112215890B (zh) * 2020-09-30 2022-07-05 华中科技大学 一种基于单目视觉的盾构机滚刀刀座位姿的测量方法
US11514799B2 (en) 2020-11-11 2022-11-29 Northrop Grumman Systems Corporation Systems and methods for maneuvering an aerial vehicle during adverse weather conditions
CN112589806B (zh) * 2020-12-29 2022-04-01 上海擎朗智能科技有限公司 机器人位姿信息确定方法、装置、设备及存储介质
CN113179376A (zh) * 2021-04-29 2021-07-27 山东数字人科技股份有限公司 基于三维动画的视频对照方法、装置、设备及存储介质
CN113658242A (zh) * 2021-08-23 2021-11-16 深圳市慧鲤科技有限公司 深度估计方法、装置、计算机设备及存储介质
CN113836722B (zh) * 2021-09-24 2022-04-08 北京航空航天大学 基于可穿戴设备、场景与数模配准的装配状态感知方法
CN114155518A (zh) * 2021-11-08 2022-03-08 西安西光产业发展有限公司 基于深度语义分割网络和图像矫正的高速路遮光板倾斜识别方法

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2861014B2 (ja) * 1989-01-18 1999-02-24 株式会社デンソー 物体認識装置
JP3212777B2 (ja) * 1993-10-28 2001-09-25 三菱電機株式会社 画像処理装置
JP2002197472A (ja) * 2000-12-26 2002-07-12 Masahiro Tomono 物体認識方法
JP4573085B2 (ja) * 2001-08-10 2010-11-04 日本電気株式会社 位置姿勢認識装置とその位置姿勢認識方法、及び位置姿勢認識プログラム
US7206449B2 (en) * 2003-03-19 2007-04-17 Mitsubishi Electric Research Laboratories, Inc. Detecting silhouette edges in images
JP4709723B2 (ja) * 2006-10-27 2011-06-22 株式会社東芝 姿勢推定装置及びその方法
DE602007003849D1 (de) * 2007-10-11 2010-01-28 Mvtec Software Gmbh System und Verfahren zur 3D-Objekterkennung
JP4205760B1 (ja) * 2007-12-27 2009-01-07 株式会社ファースト 画像マッチング方法、プログラムおよび応用装置

Also Published As

Publication number Publication date
JP2011138490A (ja) 2011-07-14
US20110157178A1 (en) 2011-06-30
US8306314B2 (en) 2012-11-06

Similar Documents

Publication Publication Date Title
JP5455873B2 (ja) シーンにおける物体の姿勢を求めるための方法
WO2020206903A1 (zh) 影像匹配方法、装置及计算机可读存储介质
JP5726378B2 (ja) 物体の姿勢を推定するための方法
JP6216508B2 (ja) 3dシーンにおける3d物体の認識および姿勢決定のための方法
KR20220132617A (ko) 포즈 검출 및 측정을 위한 시스템들 및 방법들
CN110880185A (zh) 基于条纹投影的高精度动态实时360度全方位点云获取方法
US8217961B2 (en) Method for estimating 3D pose of specular objects
Liu et al. Pose estimation in heavy clutter using a multi-flash camera
Irschara et al. Towards wiki-based dense city modeling
WO2008153721A1 (en) System and method for locating a three-dimensional object using machine vison
WO2014003081A1 (en) Method for registering data
CN115345822A (zh) 一种面向航空复杂零件的面结构光自动化三维检测方法
WO2015154008A1 (en) System and method for extracting dominant orientations from a scene
Tomono 3-d object map building using dense object models with sift-based recognition features
Tomono 3-D localization and mapping using a single camera based on structure-from-motion with automatic baseline selection
CN116662600B (zh) 一种基于轻量结构化线地图的视觉定位方法
Sun et al. A fast underwater calibration method based on vanishing point optimization of two orthogonal parallel lines
Stockman et al. Sensing and recognition of rigid objects using structured light
Gaschler Real-time marker-based motion tracking: Application to kinematic model estimation of a humanoid robot
Wan et al. A performance comparison of feature detectors for planetary rover mapping and localization
Sarkar et al. Feature-augmented Trained Models for 6DOF Object Recognition and Camera Calibration.
Kähler et al. Tracking and reconstruction in a combined optimization approach
Pears et al. Mobile robot visual navigation using multiple features
Kim et al. Pose initialization method of mixed reality system for inspection using convolutional neural network
Noris Multi-view light source estimation for automated industrial quality control

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20121004

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20130910

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20130917

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20131118

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20131210

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20140107

R150 Certificate of patent or registration of utility model

Ref document number: 5455873

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250