JP2021163502A

JP2021163502A - 複数の２次元カメラによる３次元の姿勢推定

Info

Publication number: JP2021163502A
Application number: JP2021062641A
Authority: JP
Inventors: タントー; Te Tang; 哲朗加藤; Tetsuro Kato
Original assignee: Fanuc Corp
Current assignee: Fanuc Corp
Priority date: 2020-04-03
Filing date: 2021-04-01
Publication date: 2021-10-11
Also published as: CN113496526A; US20210314551A1; DE102021107479A1; US11350078B2

Abstract

【課題】複数の２Ｄカメラからの２Ｄ画像を用いて、対象物の３Ｄポーズを取得するシステム及び方法の提供をする。
【解決手段】対象物の３Ｄポーズを推定するためのシステム１４０による方法であって、第１の２Ｄカメラを第１の光軸に沿って対象物に向けて方向付けられるように配置することと、第１の２Ｄカメラによって対象物の２Ｄ画像１４２を取得することと、第１の２Ｄカメラからの２Ｄ画像から、第１の特徴抽出プロセスを用いて特徴点を抽出することと、を含む。また方法は、第２の２Ｄカメラを第２の光軸に沿って対象物に向けて方向付けられるように配置することと、第２の２Ｄカメラによって対象物の２Ｄ画像１４４を取得することと、第２の２Ｄカメラからの２Ｄ画像から、第２の特徴抽出プロセスを用いて特徴点を抽出することと、第１及び第２の特徴抽出プロセスから抽出された特徴点を用いて、対象物の３Ｄポーズ１５６を推定する。
【選択図】図７

Description

本開示は、広くは、２次元カメラを使用して対象物の３次元の姿勢（３Ｄポーズ）を取得するためのシステム及び方法に関し、特には、複数の２次元カメラ及び学習ベースのニューラルネットワークを使用して対象物の３次元の姿勢を取得するための、特定のロボット制御用アプリケーションを含むシステム及び方法に関する。

ロボットは、ピックアンドプレース操作を含む多数のタスクを実行し、この操作では、ロボットが複数の対象物をピックアップして、コンベヤベルト等のある場所から、収集ビン等の他の場所に搬送するが、対象物の３Ｄポーズとして知られる位置及び向きは、僅かに異なる。そこで、ロボットが対象物を効率的にピックアップするために、多くの場合、ロボットが対象物の３Ｄポーズを知る必要がある。この目的のために、対象物の３Ｄポーズを決定するための種々の技術では、対象物の３Ｄ画像をリアルタイムで取得する３Ｄカメラが使用される。この場合、３Ｄ画像は、カメラの視野内の多くのポイントまでの距離測定値を識別し、これらの測定値はロボット制御装置に送信される。これらの技術では、構造化光を使用してシーンの３Ｄマップを作成し、対象物の３Ｄ特徴を識別して該マップ内の対象物を検索することができる。ロボットアプリケーションのために、対象物の３Ｄポーズを決定すべく３Ｄカメラを使用することは、効果的であることが証明されている。しかしながら、３Ｄカメラは高価なデバイスであり、多くの場合、必要とされるものよりも動作が遅い。

ロボットアプリケーションのために対象物の３Ｄポーズを取得するための当技術分野で知られている技術の一つでは、代わりに２次元（２Ｄ）カメラを使用する。この技術は、シーンの単一の２Ｄカラー画像を取得し、完全畳み込み（fully-convolutional）アーキテクチャを使用して画像を処理する。アルゴリズムが、画像をＳＸＳセルを含む２Ｄグリッドに分割し、セル内の対象物を識別する。アルゴリズムは、画像内の各対象物の周囲に境界ボックスを投影し、該ボックスの８つのコーナの２Ｄ位置を予測する。しかしながら、境界ボックスのコーナを予測するこの技術では、精度に制限があり、オクルージョンに対するロバスト性（robustness to occlusion）が低い。

対象物の３Ｄポーズを決定するための上記プロセスのいくつかは、人工知能（ＡＩ）を使用する。これは、アルゴリズムを使用するコンピュータサイエンスの一部であり、該アリゴリズムによって、ソフトウェアアプリケーションが環境から学習し、そこから決定を下して、特定の結果を達成することができる。機械学習は、ソフトウェアアプリケーションを使用するＡＩの一部であり、該ソフトウェアアプリケーションは、大量の生の入力データを繰り返し分析することで独自の知識を取得し、該データからパターンを抽出して、該ソフトウェアアプリケーションがあるタスクを実行するために特別にプログラムされていなくても、該タスクの実行を学習できる。深層学習（ディープラーニング）は、特定の現実世界の環境を、増加する複雑な概念の階層として表すことにより、より優れた学習パフォーマンスを提供する特定のタイプの機械学習である。

深層学習は典型的には、非線形処理を実行するニューラルネットワークの複数の層（レイヤ）を含むソフトウェア構造を使用し、この場合、前の層からの出力を次の層の各々が受け取る。一般に層は、センサから生データを受信する入力層と、該データから抽象的な特徴を抽出する複数の隠れ層と、該隠れ層からの特徴抽出に基づいて特定のものを識別する出力層とを含む。ニューラルネットワークは、各々が「重み」を有するニューロン又はノードを含み、この重みにノードへの入力を乗算することで、あることが正しいか否かの確率を取得することができる。より具体的には、各ノードは浮動小数点数である重みを有し、この重みはノードへの入力と乗算され、該入力の割合である、そのノードの出力が生成される。この重みは最初に、監視された処理の下でニューラルネットワークに既知のデータのセットを分析させることと、コスト関数を最小化してネットワークが正しい出力を最高の確率で取得できるようにすることとにより、「トレーニングされ（trained）」又は設定されている。

深層学習ニューラルネットワークは、画像内の対象物の視覚的な検出及び分類のための、画像特徴抽出及び変換を行うために、頻繁に使用される。画像のビデオ又はストリームは、該ネットワークによって分析可能であり、それにより対象物の識別・分類と、プロセスを通じて対象物をよりよく認識するための学習が可能となる。従って、これらのタイプのネットワークでは、システムは同じ処理構成を使用して特定の対象物を検出し、アルゴリズムが対象物を認識するためにどのように学習したかに基づいて、対象物を異なる方法で分類することができる。

以下の説明は、複数の２次元カメラからの２次元画像を使用して対象物の３次元の姿勢（ポーズ）を取得するためのシステム及び方法を開示・説明する。該方法は、第１の２次元カメラを、第１の光軸に沿って対象物に向けて方向付けられるように配置することと、第１の２次元カメラによって対象物の２次元画像を取得することと、第１の２次元カメラからの２次元画像から、第１の特徴抽出プロセスを用いて特徴点を抽出することとを含む。またこの方法は、第２の２次元カメラを、第１の光軸に対して有角をなす第２の光軸に沿って対象物に向けて方向付けられるように配置することと、第２の２次元カメラによって対象物の２次元画像を取得することと、第２の２次元カメラからの２次元画像から、第２の特徴抽出プロセスを用いて特徴点を抽出することとを含む。次にこの方法は、第１及び第２の特徴抽出プロセスから抽出された特徴点を用いて、対象物の３次元ポーズを推定する。第１及び第２の特徴抽出プロセスは、学習ベースのニューラルネットワーク又はベクトル場推定プロセスを使用できる。また第１及び第２の特徴抽出プロセスから抽出された特徴点を用いて対象物の３次元ポーズを推定することは、パースペクティブｎポイントアルゴリズムを使用することができ、該パースペクティブｎポイントアルゴリズムは、対象物の３次元仮想モデルの２次元投影を、第１及び第２の特徴抽出プロセスのための特徴位置を有する対象物の２次元投影と比較し、次に２つの３次元ポーズを平均化する。

本開示の追加の特徴は、添付の図面と併せて、以下の説明及び特許請求の範囲から明らかになるであろう。

対象物をコンベヤベルトからピックアップしてビン内に配置するロボットを含むロボットシステムの図であり、該システムは対象物の２Ｄ画像を取得する２Ｄカメラと、２Ｄ画像を用いて対象物の３Ｄポーズを計算する制御装置とを使用する。ニューラルネットワークをトレーニングするために、２Ｄカメラを使用して対象物からデータセットを取得するプロセスを示すフロータイプの図である。調整可能な重みを各々が有する複数のノードを含むニューラルネットワークの図である。対象物の２Ｄ画像及びニューラルネットワークを使用して対象物の３Ｄポーズを推定するために、トレーニングされたニューラルネットワークを使用する学習ベースのニューラルネットワークプロセスを示すフロータイプの図である。図４に示すプロセスにおいて、対象物の３Ｄポーズ推定を決定するためのパースペクティブｎポイント（ＰｎＰ）プロセスを示す図である。対象物を撮像する複数のカメラを使用するカメラシステムの図である。複数の２Ｄカメラを使用して対象物の３Ｄポーズを推定するシステムのブロック図である。図７に示すシステムにおいて、対象物の３Ｄポーズを推定するためのＰｎＰプロセスを示す図である。対象物上の特徴点を予測するためのベクトル場推定プロセスを示すフロータイプの図である。

複数の２Ｄカメラを使用して対象物の３Ｄポーズを取得するために学習ベースのニューラルネットワークを使用するシステム及び方法を対象とする本開示の実施形態の以下の説明は、本質的に単なる例示であり、本発明又はそのアプリケーション若しくは使用を限定することを意図するものではない。例えば、システム及び方法は、ロボットに把持された対象物の位置及び向きを求めるアプリケーションを有する。しかしシステム及び方法は、他のアプリケーションを有してもよい。

図１は、対象物１４をコンベヤベルト１６からピックアップして収集ビン１８内に配置するロボット１２を含むロボットシステム１０の図である。システム１０は、本明細書の記載から利益を享受できる任意のタイプのロボットシステムを表すことを意図しており、ロボット１２は、その目的に適した任意のロボットであり得る。各対象物１４は、コンベヤベルト１６上を下流側に移動するときに、他の対象物１４に対して、コンベヤベルト１６上での向き及び位置が異なる。ロボット１２が対象物１４を効果的に把持及びピックアップするためには、ロボット１２のエンドエフェクタ２０が物体１４を把持する前に、エンドエフェクタ２０を適切な位置及び姿勢に配置できる必要がある。これを達成するために、システム１０は、対象物１４に対して所望の位置に設けられる２Ｄカメラ２２を含み、２Ｄカメラ２２は、エンドエフェクタ２０を動かすべくロボット１２を制御するロボット制御装置２４に２Ｄ画像を提供する。以下で詳述するように、ロボット制御装置２４は、エンドエフェクタ２０が適切な向きになるように、アルゴリズムを使用して、カメラ２２からの２Ｄ画像を対象物１４の３Ｄポーズに変換する。

後述するように、制御装置２４が対象物１４の３Ｄポーズを正確に決定するために、一実施形態では、学習ベースのニューラルネットワークが、制御装置２４で実行されて対象物の特徴を抽出するアルゴリズム及びソフトウェアにおいて使用される。ニューラルネットワークは、代表対象物から取得したデータでトレーニングする必要がある。図２は、ニューラルネットワークをトレーニングするために使用される２Ｄカメラ４０を使用して、システム１０内の対象物１４と同一の対象物３２から画像データを取得するためのプロセスを示すフロータイプのダイアグラム３０である。対象物３２は、適切な数のマーカ３６を有するマーカボード３４上に配置され、マーカ３６は、対象物３２のグラウンドトゥルース又は実際の位置を識別するために使用される特別な検出可能なデザインを備える。ボード３４上のマーカ３６のうちの１つのみが図示されており、マーカ３４と対象物３２との間の線３８によって表されるオフセット距離が測定される。

カメラ４０は、マーカボード３４の１つ又は複数の２Ｄ画像４２、ここでは４つの画像を、互いに異なる角度で提供する。次にプロセスは、画像４２上での投影を実行して、座標フレーム４４によって識別されるマーカ３６のうちの１つの、回転及び位置を求める。次にアルゴリズムは、マーカ３６と対象物３２との間の、以前に測定されたオフセットをマーカ３６の回転及び位置に付加し、対象物３２の回転及び位置を求める。対象物３２の真の位置が決定されれば、対象物３２のコーナ等の特徴点４６の位置は、既知の特徴点抽出プロセスを使用して計算することができるが、ここでは少なくとも４つの特徴点が必要である。例えばガウス分布プロセスを使用可能なアルゴリズムは、画像４２の識別された各特徴点４６を見て、その点４６の「ヒートマップ」４８を生成し、ここでは、各ヒートマップ４８は、色の強度によって、対象物３２の特徴点の１つが特定の場所に存在する可能性を求める。例えば、領域５０等の、特徴点があると考えられる画像４２内の場所には、赤等の特定の色が割り当てられる。また特徴点が領域５０から離れた場所に存在する可能性は低いので、色は、例えば領域５２のように青に変化する。

次に、２Ｄ画像４２と、ダイアグラム３０で示すプロセスによって生成された対応するヒートマップ４８とによって提供されるデータは、既知のＡＩトレーニングスキームを使用してニューラルネットワークをトレーニングするために使用され、そして対象物１４の３Ｄポーズを識別するためにシステム１０で使用される。図３は、各々が調整可能な重みＷを有する複数のノード６２を含むニューラルネットワーク６０の図であり、ネットワーク６０は、本明細書で論じられるニューラルネットワークを概略的に表すことを意図している。ニューラルネットワーク６０は、２Ｄ画像から個々のピクセルデータを受信する入力層６４と、２Ｄ画像のピクセルデータ内の特徴を識別する複数の残差ブロック層６６及び６８と、複数の畳み込み層７０とを有し、畳み込み層７０の各ノード６２はヒートマップを提供する。畳み込み層７０並びに残差ブロック層６６及び６８は、深層学習の領域で利用される標準モジュールであることに留意されたい。これらのタイプの畳み込み層は、画像の入力又は前の畳み込み層に対して畳み込み操作を実行する複数のフィルタカーネルで構成されているため、エッジ、テクスチャ又は輪郭情報が入力から抽出可能である。残差ブロック層は、スキップ接続を持つ２つの畳み込み層を含む構造であり、第２の畳み込み層の出力が第１の畳み込み層の入力に付加されて、ブロック出力として機能する。

図４は、制御装置２４で動作するアルゴリズムを示すフロータイプのダイアグラム８０であり、該アルゴリズムが採用する学習ベースのニューラルネットワーク７８は、トレーニングされたニューラルネットワークを使用して、カメラ２２で撮像された対象物１４の２Ｄ画像８２から、対象物１４の３Ｄポーズを推定する。画像８２は、入力層８４と、制御装置２４のＡＩソフトウェアで動作するニューラルネットワーク７８内のフィードフォワードループを含む複数の連続する残差ブロック層８６及び８８とに提供され、フィルタリングプロセスを使用した、画像８２内の対象物１４の可能な特徴点の勾配、エッジ、輪郭等の特徴抽出が行われる。抽出された特徴を含む画像は、ニューラルネットワーク７８内の複数の連続する畳み込み層９０に提供され、抽出された特徴から得られる可能な特徴点は、特徴点ごとに１つずつ、一連のヒートマップ９２として定義される。ヒートマップ９２は、ヒートマップ９２の色に基づいて、特徴点が対象物１４上に存在する可能性を表している。画像９４は、全てのヒートマップ９２からの全ての特徴点のための特徴点９６を含む、対象物１４の画像８２を使用して生成される。各特徴点９６には、その特徴点のヒートマップ９２の色に基づく信頼値が割り当てられ、特定の閾値を超える信頼値を持たない特徴点９６は使用されない。

次に画像９４は、ポーズ推定プロセッサ９８内に同じ特徴点を有する、対象物１４の公称又は仮想の３ＤＣＡＤモデルと比較されて、対象物１４の推定３Ｄポーズ１００を提供する。画像９４をＣＡＤモデルと比較するための適切なアルゴリズムの１つは、当技術分野ではパースペクティブｎポイント（ＰｎＰ）として周知である。一般に、ＰｎＰプロセスは、ワールド座標フレーム内の対象物のｎ個の３Ｄポイントのセットと、カメラからの画像内の対応する２Ｄ投影とが与えられてキャリブレーションされたカメラに対する対象物のポーズを推定する。ポーズには、カメラの座標フレームに対する対象物の回転（ロール、ピッチ、ヨー）と３Ｄ平行移動とで構成される６自由度（ＤＯＦ）が含まれる。

図５は、対象物１４の３Ｄポーズを取得するために、本実施例ではＰｎＰプロセスがどのように実行され得るかを示すイラスト１０４である。イラスト１０４は、グラウンドトゥルース又は現実位置にある対象物１４を表す３Ｄ対象物１０６を示す。対象物１０６は、カメラ２２を表すカメラ１１２によって観測され、２Ｄ画像平面１１０上に２Ｄ対象物画像１０８として投影される。ここでは、対象物画像１０８は画像９４を表し、画像１０８上の点１０２はニューラルネットワーク７８によって予測され、点９６を表す特徴点である。またイラスト１０４は、特徴点９６と同じ位置に特徴点１３２を有する対象物１４の仮想３ＤＣＡＤモデル１１４を示しており、モデル１１４は、カメラ１１２の前にランダムに配置されるとともに、投影された特徴点１１８も含む２Ｄモデル画像１１６として画像平面１１０上に投影される。ＣＡＤモデル１１４は、カメラ１１２の前で回転及び並進させられ、それによりモデル画像１１６は、モデル画像１１６の各特徴点１１８と対象物画像１０８の対応する特徴点１０２との間の距離が最小化するように、すなわち画像１１６と画像１０８とが位置合わせするように、回転及び並進させられる。モデル画像１１６が対象物画像１０８に可能な限り位置合わせされると、カメラ１１２に対するＣＡＤモデル１１４のポーズは、対象物１４の推定された３Ｄポーズ１００となる。

この分析は、画像１０８と画像１１６との間の対応する特徴点の１つについて式（１）で表され、式（１）は、画像１０８及び１１６の全ての特徴点について使用される。式（１）において、Ｖ_ｉはＣＡＤモデル１１４の特徴点１３２の１つであり、ｖ_ｉはモデル画像１１６の対応する投影された特徴点１０２であり、ａ_ｉは対象物画像１０８の特徴点１０２の１つであり、Ｒ及びＴはそれぞれ、カメラ１１２に対するＣＡＤモデル１１４の回転及び並進であり、記号「′」はベクトル転置であり、∀はインデックスｉを有する任意の特徴点を指す。式（１）を最適化ソルバで解くことにより、最適な回転及び並進を計算することができ、故に対象物１４の３Ｄポーズ１００が推定される。

対象物１４の３Ｄポーズを推定するために学習ベースのニューラルネットワークを使用する上記のプロセスは、高レベルの精度を提供するが、改善可能である。例えば、カメラ１１２の光学的ｚ軸に直交するｘ軸又はｙ軸における画像平面１１０上の対象物１４の２Ｄ投影の小さなピクセル誤差は、ｚ軸において比較的大きな誤差を生じさせ、このことは、対象物の位置を著しく不確実にし、３Ｄポーズ推定のパフォーマンスを低下させる。故に本開示は、複数のカメラを用いることでｚ軸の不確実性を低減する３Ｄポーズ推定プロセスも提案する。

図６は、ｘ、ｙ及びｚ座標フレームに対して方向付けられた第１のカメラ１２２及び第２のカメラ１２４を含むカメラシステム１２０の図であり、ここでは、ｚ軸はカメラ１２２及び１２４の光軸に沿う。図示される不確実領域１２６は、カメラ１２２からの画像が対象物１４の位置を推定できる精度の限界を示し、図示される不確実領域１２８は、カメラ１２４からの画像が対象物１４の位置を推定できる精度の限界を示す。図示されるように、カメラ１２２及び１２４はいずれも、ｘ軸及びｙ軸においては高精度であるが、ｚ軸においては精度が制限されており、全ての軸における精度は、カメラ１２２又は１２４と画像化された対象物１４との間の距離に依存する。しかしながら、カメラ１２２及び１２４の双方によって提供される３Ｄポーズ推定を融合することにより、ｚ軸における対象物１４の３Ｄ姿勢の推定精度は、不確実領域１３０で示すように大幅に改善される。換言すれば、この図では、カメラ１２２及び１２４の一方のｚ軸はカメラ１２２及び１２４の他方のｘ軸であるため、推定プロセスの全般的な不確実性はｘ軸方向の不確実性である。

この非限定的な実施形態では、カメラ１２２及び１２４の光軸が互いに直交し、カメラ１２２又は１２４から対象物１４までの距離が最適となって最小の不確実領域１３０が提供されるように、カメラ１２２及び１２４が方向付けられる。しかしながら実際のシステムは、ｚ軸を備えたカメラ１２２及び１２４が互いに対して配置可能な場所、カメラ１２２又は１２４と対象物１４との間の距離、照明や使用されるカメラの種類等の他の制限要因に関して、制限され得る。このことは、光軸が互いに直交しないことや、その他の制限につながる可能性がある。それらのシステムでは、不確実領域のサイズを最小不確実領域１３０に近づけるために、２つ以上のカメラを使用することが望ましい場合がある。

図７は、２Ｄカメラ１２２及び１２４と、上述したタイプの学習ベースのニューラルネットワークとを使用して、対象物１４の３Ｄポーズを推定するためのシステム１４０のブロック図である。対象物１４のそれぞれの角度について、カメラ１２２は２Ｄ画像１４２を提供し、カメラ１２４は２Ｄ画像１４４を提供する。画像１４２はプロセッサ１４６に提供され、画像１４４はプロセッサ１４８に提供される。プロセッサ１４６及び１４８はそれぞれ、それらのパースペクティブからの画像９４と同様に、特徴点画像１５０及び１５２を生成する。プロセッサ１４６及び１４８は例えば、入力層８４、複数の連続する残差ブロック層８６及び８８、並びに複数の連続する畳み込み層９０を使用してヒートマップを生成し、次にヒートマップは、上述した方法で画像１５０及び１５２を生成するために使用される。画像１５０及び１５２は、単一のカメラ２２が提供できるものよりも正確に推定された対象物１４の３Ｄポーズ１５６を生成するポーズ推定ブロック１５４で融合され、ポーズ推定プロセスもまた、上述のようにＰｎＰアルゴリズムを使用する。

図８は、イラスト１０４と同様のイラスト１６０であり、同様の要素は同じ参照番号によって示され、上述のブロック１５４における画像融合のためのＰｎＰプロセスを示す。イラスト１６０において、カメラ１６２はカメラ１２２を表し、カメラ１６４はカメラ１２４を表す。イラスト１６０は、カメラ１６４に関する２Ｄ画像平面１７０上へのＣＡＤモデル１１４の投影である特徴点１７２を有する２Ｄモデル画像１６６と、カメラ１６４に関する画像平面１７０上への３Ｄ対象物１０６の投影である特徴点１７４を有する２Ｄ対象物画像１６８とを示す。ＣＡＤモデル１１４は、カメラ１６２及び１６４の双方の前で回転及び並進させられて、カメラ１６２及び１６４の双方のための最適なモデルポーズが同時に取得され、画像平面１１０上のモデル画像１１６の特徴点１１８が、対象物画像１０８の特徴点１０２に可能な限り接近し、画像平面１７０上のモデル画像１６６の特徴点１７２は、対象物画像１６８の特徴点１７４に可能な限り接近する。このことが達成されると、３Ｄモデル１１４の最適な向きが得られ、これは対象物１４の３Ｄポーズを表す。

この分析は、画像１０８、１１６と画像１６６、１６８との間の対応する特徴点の１つについて式（２）によって表され、式（２）は、画像１０８、１１６及び画像１６６、１６８の全ての特徴点に対して使用される。式（２）において、ｕ_ｉはモデル画像１６６の特徴点１７２の１つであり、ｂ_ｉは対象物画像１６８の対応する特徴点１７４である。

学習ベースのニューラルネットワークを使用して対象物１４の３Ｄポーズを推定するために２Ｄ画像から特徴を抽出する上述の技術は、適切な特徴抽出技術の１つであり、他の技術もある。以下の説明では、学習ベースの技術を満足な結果に置換可能な深層学習及びベクトル場推定を使用する特徴抽出技術について説明する。以下で詳述するように、ベクトル場推定プロセスは、入力層８４、複数の連続する残差ブロック層８６及び８８、並びにヒートマップ９２を生成する複数の連続する畳み込み層９０を含むニューラルネットワーク７８を、ベクトル場推定要素に置換する。ここでは、対象物の３Ｄポーズを取得するためのベクトル場推定プロセスについて説明するが、該プロセスは、画像からの特徴抽出を必要とする他のいかなる適切なプロセスに適用できることを強調しておく。

図９は、カメラ２２によって撮像された対象物１４の２Ｄ画像８２を使用して対象物１４の３Ｄポーズを生成する制御装置２４で動作するベクトル場推定プロセスを示すフロータイプのダイアグラム１８０であり、同様の要素は同じ参照符号で示される。画像入力は、３次元行列Ｎ×Ｎ×３によって定義される３チャネルＲＧＢ（赤−緑−青）画像であり、ここでＮは、画像８２の高さ及び幅である。画像８２は、エンコーダ／デコーダニューラルネットワーク１８２に提供され、このネットワーク１８２は、画像８２内の可能な主要特徴を抽出するエンコーダネットワーク１８４と、抽出された特徴から画像を生成して、以下で説明する対象物１４の可能な特徴点を識別するデコーダネットワーク１８６とを含む。ここでネットワーク１８４及び１８６は、上述したタイプの複数のニューラルネットワーク層を含む。特に、ある非限定的な実施形態では、エンコーダネットワーク１８４のニューラルネットワーク層は、畳み込み層１８８、バッチ正規化（ＢＮ）層１９０及び正規化線形ユニット（ＲｅＬｕ）層１９２を含み、デコーダネットワーク１８６のニューラルネットワーク層は、プーリング層１９４、アップサンプリング層１９６及びソフトマックス層１９８を含む。

ネットワーク１８２は、画像８２の３次元行列を処理し、３つのチャネルから、１次元（Ｎ×Ｎ×１）マスク画像２００と、識別された各特徴点について２次元（Ｎ×Ｎ×２）ベクトル場画像２０２とを生成する。マスク画像２００を生成するために、ネットワーク１８２は、対象物１４の一部が特定のピクセルに存在するか否かに基づいて、画像８２内の各ピクセルにデジタル１又は０を割り当てる。ここでマスク画像２００の明るい領域のピクセルはデジタル１を有し、マスク画像２００の暗い領域のピクセルはデジタル０を有する。各ベクトル場画像２０２は、画像８２内の各ピクセルに与えられるｘ方向ベクトル値及びｙ方向ベクトル値によってそれぞれ定義される複数の矢印を含み、矢印の方向は、画像８２の特徴点の１つに向かっている。故に画像８２内の各ピクセルは、その特徴への方向を予測する能力を有する。マスク画像２００内のピクセルの値は、ベクトル場画像２０２内の対応するピクセルの値で乗算されるので、対象物１４の一部を含むピクセルに関連付けられておらず、かつ特徴点に対して有用な方向を提供しない矢印は、ベクトル場抽出画像２０４に示されるように、破棄される。

ベクトル場抽出画像２０４内の各矢印は、特徴点の１つへの方向を表すが、その特徴点までの距離は示さない。そこで、ベクトル場抽出画像２０４内の、値を有する２つの対象物ピクセルｐ_ｉ及びｐ_ｊの全ての組み合わせについて、プロセスは点ｘ_ｉｊを識別する。点ｘ_ｉｊのベクトルｖ_ｉ及びｖ_ｊは、ベクトル交差画像２０６に示すように、互いに交差する。各点ｘ_ｉｊには、ピクセルｐ_ｉと点ｘ_ｉｊとの間の距離、ピクセルｐ_ｊと点ｘ_ｉｊとの間の距離、並びにピクセルｐ_ｉ及びｐ_ｊでの勾配の大きさに応じて、スコアが割り当てられる。例えば、ピクセルｐ_ｉと点ｘ_ｉｊとの間の距離、及びピクセルｐ_ｊと点ｘ_ｉｊとの間の距離が小さいほどスコアは高くなり、ピクセルｐ_ｉ及びｐ_ｊでの勾配の大きさが大きいほどスコアは高くなる。その結果、各々がスコアを有する多くの点ｘ_ｉｊを含むグリッドが得られ、殆どの点ｘ_ｉｊを含む画像内の領域は、点投票画像２０８に示されるように、可能性のある特徴点の位置を識別する。

ベクトル場画像２０２は、ネットワーク１８２によって識別された可能な１つの特徴点のベクトル矢印を示す。ネットワーク１８２はまた、マスク２００によって乗算された可能な特徴点ごとに別個のベクトル場画像２０２を生成する。全ての点投票画像２０８の全ての特徴点は、特徴点９６を含む画像９４のように、単一の画像内で結合され、個別の特徴点９６の各々は、点投票画像２０８の１つによって提供される。次に画像９４は、ポーズ推定プロセッサ９８内でＰｎＰプロセスによって処理されて、上述のやり方で３Ｄポーズ１００を生成することができる。さらに、上述したような単一のカメラの光軸に沿った不確実性のために、複数のカメラを使用することができ、それらのカメラからの画像の各々が、ベクトル場推定プロセスによって処理される。

前述のように、ベクトル場推定プロセスは、特徴点の抽出を必要とする他のプロセスに適用され得る。例えば、ロボット工学のアプリケーションの１つでは、ロボットによってピックアップされている対象物の中心を探索するが、そこでは対象物の向きは必要ない。別のアプリケーションは、品質保証の目的で対象物の測定値を決定することであり得る。

当業者によってよく理解されるように、本発明を説明するために本明細書で論じられるいくつかの様々なステップ及びプロセスは、電気的現象を使用してデータを操作及び／又は変換するコンピュータ、プロセッサ又は他の電子計算デバイスによって実行される操作を意味し得る。それらのコンピュータ及び電子デバイスは、コンピュータ又はプロセッサによって実行可能な種々のコード又は実行可能命令を有する実行可能プログラムが格納された非一時的なコンピュータ可読媒体を含む、様々な揮発性及び／又は不揮発性メモリを使用することができる。メモリ及び／又はコンピュータ可読媒体は、あらゆる形態及びタイプの、メモリ及び他のコンピュータ可読媒体を含み得る。

上述の説明は、本開示の単なる例示的な実施形態を開示及び記載している。当業者は、そのような説明、並びに添付の図面及び特許請求の範囲から、以下の特許請求の範囲で規定される本開示の精神及び範囲から逸脱することなく、様々な変更、修正及び変形を行うことができることを容易に認識するであろう。

Claims

対象物の３次元ポーズを推定する方法であって、
第１の２次元カメラを、第１の光軸に沿って前記対象物に向けて方向付けられるように配置することと、
前記第１の２次元カメラによって前記対象物の２次元画像を取得することと、
前記第１の２次元カメラからの前記２次元画像から、第１の特徴抽出プロセスを用いて特徴点を抽出することと、
第２の２次元カメラを、前記第１の光軸に対して有角をなす第２の光軸に沿って前記対象物に向けて方向付けられるように配置することと、
前記第２の２次元カメラによって前記対象物の２次元画像を取得することと、
前記第２の２次元カメラからの前記２次元画像から、第２の特徴抽出プロセスを用いて特徴点を抽出することと、
前記第１及び第２の特徴抽出プロセスから抽出された前記特徴点を用いて、前記対象物の３次元ポーズを推定することと、
を含む方法。
前記第１の光軸及び前記第２の光軸は互いに直交する、請求項１に記載の方法。
前記第１及び第２の特徴抽出プロセスから抽出された前記特徴点を用いて前記対象物の３次元ポーズを推定することは、パースペクティブｎポイントアルゴリズムを使用することを含み、前記パースペクティブｎポイントアルゴリズムは、前記対象物の３次元仮想モデルの２次元投影を、前記第１及び第２の特徴抽出プロセスのための特徴配置を有する前記対象物の２次元投影と比較し、次に２つの３次元ポーズを平均化する、請求項１に記載の方法。
前記第１及び第２の特徴抽出プロセスは、学習ベースのニューラルネットワークを使用し、前記ニューラルネットワークのノードの重みは、収集されたトレーニングセットから、前記対象物の代表対象物を用いてトレーニングされる、請求項１に記載の方法。
前記第１及び第２の特徴抽出プロセスは、前記ニューラルネットワークを用いて前記２次元画像から前記対象物の複数の特徴点を抽出し、抽出された前記特徴点ごとに、前記対象物の特徴点の位置の確率を識別するヒートマップを生成し、各ヒートマップを前記対象物の特徴点の位置に変換する、請求項４に記載の方法。
前記ヒートマップにおける前記特徴点の位置の確率は、前記ヒートマップの色彩として表される、請求項５に記載の方法。
前記対象物の特徴点の位置の確率には、それが特徴であるという信頼値が割り当てられる、請求項５に記載の方法。
前記第１及び第２の特徴抽出プロセスは、ベクトル場推定プロセスを使用する、請求項１に記載の方法。
前記第１及び第２の特徴抽出プロセスは、深層学習ニューラルネットワークも使用する、請求項８に記載の方法。
前記方法はロボットシステムにおいて実行され、前記対象物はロボットにピックアップされる、請求項１に記載の方法。
対象物の３次元ポーズを推定する方法であって、
第１の２次元カメラを、第１の光軸に沿って前記対象物に向けて方向付けられるように配置することと、
前記第１の２次元カメラによって前記対象物の２次元画像を取得することと、
収集されたトレーニングセットから、前記対象物の代表対象物を用いてトレーニングされた重みを備えたノードを含む学習ベースのニューラルネットワークを使用する第１の特徴抽出プロセスを用いて、前記第１の２次元カメラからの前記２次元画像から特徴点を抽出することと、
第２の２次元カメラを、前記第１の光軸に対して有角をなす第２の光軸に沿って前記対象物に向けて方向付けられるように配置することと、
前記第２の２次元カメラによって前記対象物の２次元画像を取得することと、
収集されたトレーニングセットから、前記対象物の代表対象物を用いてトレーニングされた重みを備えたノードを含む学習ベースのニューラルネットワークを使用する第２の特徴抽出プロセスを用いて、前記第２の２次元カメラからの前記２次元画像から特徴点を抽出することと、
前記第１及び第２の特徴抽出プロセスから抽出された前記特徴点を用いて、前記対象物の３次元ポーズを推定することと、
を含み、
前記第１及び第２の特徴抽出プロセスから抽出された前記特徴点を用いて前記対象物の３次元ポーズを推定することは、パースペクティブｎポイントアルゴリズムを使用することを含み、前記パースペクティブｎポイントアルゴリズムは、前記対象物の３次元仮想モデルの２次元投影を、前記第１及び第２の特徴抽出プロセスのための特徴配置を有する前記対象物の２次元投影と比較し、次に２つの３次元ポーズを平均化する、方法。
前記第１の光軸及び前記第２の光軸は互いに直交する、請求項１１に記載の方法。
前記第１及び第２の特徴抽出プロセスは、前記ニューラルネットワークを用いて前記２次元画像から前記対象物の複数の特徴点を抽出し、抽出された前記特徴点ごとに、前記対象物の特徴点の位置の確率を識別するヒートマップを生成し、各ヒートマップを前記対象物の特徴の位置に変換する、請求項１１に記載の方法。
前記ヒートマップにおける前記特徴点の位置の確率は、前記ヒートマップの色彩として表される、請求項１３に記載の方法。
前記対象物の特徴点の位置の確率には、それが特徴であるという信頼値が割り当てられる、請求項１１に記載の方法。
対象物の３次元ポーズを推定するシステムであって、
第１の２次元カメラを、第１の光軸に沿って前記対象物に向けて方向付けられるように配置する手段と、
前記第１の２次元カメラによって前記対象物の２次元画像を取得する手段と、
前記第１の２次元カメラからの前記２次元画像から、第１の特徴抽出プロセスを用いて特徴点を抽出する手段と、
第２の２次元カメラを、前記第１の光軸に対して有角をなす第２の光軸に沿って前記対象物に向けて方向付けられるように配置する手段と、
前記第２の２次元カメラによって前記対象物の２次元画像を取得する手段と、
前記第２の２次元カメラからの前記２次元画像から、第２の特徴抽出プロセスを用いて特徴点を抽出する手段と、
前記第１及び第２の特徴抽出プロセスから抽出された前記特徴点を用いて、前記対象物の３次元ポーズを推定する手段と、
を有するシステム。
前記第１の光軸及び前記第２の光軸は互いに直交する、請求項１６に記載のシステム。
前記第１及び第２の特徴抽出プロセスから抽出された前記特徴点を用いて前記対象物の３次元ポーズを推定する手段は、パースペクティブｎポイントアルゴリズムを使用し、前記パースペクティブｎポイントアルゴリズムは、前記対象物の３次元仮想モデルの２次元投影を、前記第１及び第２の特徴抽出プロセスのための特徴配置を有する前記対象物の２次元投影と比較し、次に２つの３次元ポーズを平均化する、請求項１６に記載のシステム。
前記第１及び第２の特徴抽出プロセスは、学習ベースのニューラルネットワークを使用し、前記ニューラルネットワークのノードの重みは、収集されたトレーニングセットから、前記対象物の代表対象物を用いてトレーニングされる、請求項１６に記載のシステム。
前記第１及び第２の特徴抽出プロセスは、ベクトル場推定プロセスを使用する、請求項１６に記載のシステム。