JP2022181174A

JP2022181174A - 回転補正付きの物体ビンピッキング

Info

Publication number: JP2022181174A
Application number: JP2022068119A
Authority: JP
Inventors: トータン; Te Tang; 哲朗加藤; Tetsuro Kato
Original assignee: Fanuc Corp
Current assignee: Fanuc Corp
Priority date: 2021-05-25
Filing date: 2022-04-18
Publication date: 2022-12-07
Also published as: CN115393696A; DE102022107228A1; US11875528B2; US20220383538A1

Abstract

【課題】正確な深度マップ画像に依存することなく、ロボットによってピックアップされる物体を識別できるシステム及び方法の提供を図る。【解決手段】方法は、３Ｄカメラを使用して物体の２Ｄ赤緑青（ＲＧＢ）カラー画像及び２Ｄ深度マップ画像を取得することを含み、深度マップ画像の中のピクセルにカメラから物体までの距離を識別する値が割り当てられる。方法は、ＲＧＢ画像から特徴を抽出してセグメント化画像の中の物体が同じラベルを持つようにピクセルにラベルを割り当て、セグメント化画像の中の物体の方向を使用して物体を回転する画像セグメント化プロセスを実施するディープラーニングニュートラルネットワークを使用して、物体のセグメント化画像を生成する。方法は、その後、セグメント化画像及び深度マップ画像を使用して物体をピックアップするための場所を識別し、物体がピックアップされるとき物体を回転する。【選択図】図５

Description

本開示は、概略的にロボットによってピックアップされる物体を識別するためのシステム及び方法、特に物体の貯蔵容器からロボットによってピックアップされる透明物体などの物体を識別するためのシステム及び方法に関する。方法は、抽出特徴画像を与えるためにニュートラルネットワークを使用してカメラによって捕捉された画像から特徴を抽出する画像セグメント化プロセスを採用して、抽出特徴画像の中のピクセルのｘ及びｙ座標を識別し、セグメント化画像の中の物体の方向を識別する。

ロボットは、ピックアンドプレース作業を含む多数のタスクを実施する。ロボットは貯蔵容器など１つの場所から物体をピックアップし、ここからコンベアベルトなど別の場所へ物体を移動する。貯蔵容器からピックアップされる物体を識別するために、いくつかのロボットシステムは、貯蔵容器の２Ｄ赤緑青（ＲＧＢ）カラー画像及び貯蔵容器の２Ｄグレースケール深度マップ画像を生成する３Ｄカメラを採用し、深度マップ画像の各ピクセルは、カメラから特定の物体までの距離を画定する値を持つ。即ち、ピクセルが物体に近いほど、その値は低くなる。深度マップ画像は、カメラの視野の中で点群の点までの距離測定値を識別する。点群は、特定の座標系によって画定されるデータ点の集合であり、各点はｘ、ｙ及びｚ値を有する。

このために２タイプの点群分析がある。即ち、モデルフリー点群分析と、モデルベース点群分析である。モデルフリー点群分析は、カメラから直角方向に点群の中の点クラスタを識別し、クラスタを相互に対してセグメント化することを含み、各点群セグメントが物体として識別される。モデルベース点群分析は、物体のＣＡＤモデルからテンプレートを生成し、その後点群においてテンプレートを検索することを含む。但し、ロボットによってピックアップされる物体が透明である場合、光は物体を通過して伝播し、物体の表面から効果的に反射されない。したがって、カメラによって生成された点群は、物体の効果的な表現ではなく、深度マップ画像は信頼できず、ピックアップされる物体を適切に識別できない。

以下の考察では、物体の貯蔵容器からロボットによってピックアップされる物体を識別するためのシステム及び方法を開示し、説明する。方法は、３Ｄカメラを使用して物体の２Ｄ赤緑青（ＲＧＢ）カラー画像及び２Ｄ深度マップ画像を取得することを含み、深度マップ画像の中のピクセルには、カメラから物体までの距離を識別する値が割り当てられる。方法は、ＲＧＢ画像から特徴を抽出してセグメント化画像の中の物体が同じラベルを持つようにピクセルにラベルを割り当てて物体の方向を測定する画像セグメント化プロセスを実施する畳み込みニュートラルネットワークを使用して、物体のセグメント化画像を生成する。セグメント化画像を生成することは、様々なサイズを持ち様々な方向を向く複数のバウンディングボックスを与えることと、スライドウィンドウテンプレートを使用して抽出された特徴にバウンディングボックスを整列させることと、物体を取り囲みバウンディングボックスを含むバウンディングボックス画像を与えることと、１つの物体が各バウンディングボックスの中に存在する確率を測定することと、バウンディングボックスの中の各物体の中心ピクセルを識別することと、を含む。方法は、その後、セグメント化画像及び深度マップ画像を使用して物体をピックアップするための場所を識別して、セグメント化画像の中の物体の方向を使用して物体を回転する。カラー画像の取得、深度マップ画像の取得、セグメント化画像の生成及び物体をピックアップするための場所の識別は、ロボットによって物体群から物体がピックアップされるたびに実施される。

本開示の付加的特徴は、添付図面と一緒に下記の説明及び請求項から明らかになる。

図１は、貯蔵容器から物体をピックアップしているロボットを含むロボットシステムの図である。図２は、図１のロボットシステムにおいて貯蔵容器から物体をピックアップするためのビンピッキング（bin picking：バラ積み取出し）システムの概略的ブロック図である。図３は、画像セグメント化を与える、図２に示すシステムから分離されたセグメント化モジュールの概略的ブロック図である。図４は、物体回転補正も採用する、図３のタイプのセグメント化モジュールの概略的ブロック図である。図５は、図４に示すセグメント化モジュールを採用して物体回転補正を与える、図２に示すタイプのビンピッキングシステムの概略的ブロック図である。

本開示の実施形態についての以下の考察は、物体の貯蔵容器からロボットによってピックアップされる物体を識別するためのシステム及び方法に関するものであり、方法は、抽出特徴画像を与えるためにニュートラルネットワークを使用してＲＧＢ画像から特徴を抽出する画像セグメント化プロセスを採用して、抽出特徴画像の中のピクセルのｘ及びｙ座標を識別し、セグメント化画像の中の物体の方向を識別する。以下の考察は、単に例示的であり、本発明又はその応用又は使用を限定することを意図しない。例えば、システム及び方法は、ロボットによってピックアップされる透明物体を識別するための用途を有する。但し、システム及び方法は、他の用途を持つことができる。

図１は、図において物体１６例えば透明ボトルを貯蔵容器１８からピックアップしているエンドエフェクタ吸引カップ１４を有するロボット１２を含むロボットシステム１０の図である。システム１０は、本明細書の考察を利用できる任意のタイプのロボットシステムを表すことを意図し、ロボット１２は、前記目的に適する任意のロボットとすることができる。３Ｄカメラ２０は、貯蔵容器１８の上から下までの画像を撮って、これをロボット１２の動きを制御するロボットコントローラ２２へ提供するように位置付けらる。物体１６は透明である可能性があるので、コントローラ２２は、貯蔵容器１８の中の物体１６の場所を識別するためにカメラ２０によって提供された深度マップ画像を信頼できない可能性がある。この非限定的実施形態において、ロボット１２は、多分特定の方向例えば真上にあるコンベア２４の上に物体１６を置く。

下でさらに詳しく論じるように、ロボットコントローラ２２は、ロボット１２が正確な深度マップ画像に依存する必要なく物体１６をピックアップすることができるようにするアルゴリズムを採用する。より具体的には、アルゴリズムは、３Ｄカメラ２０からのＲＧＢ画像の中のピクセルの様々な色を使用して画像セグメント化プロセスを実施する。画像セグメント化は、同じラベルを持つピクセルが特定の特性を共有するように画像の中のあらゆるピクセルにラベルを割り当てるプロセスである。したがって、セグメント化プロセスは、どのピクセルがどの物体１６に属するかを予測する。

現代の画像セグメント化法は、ディープラーニングテクノロジーを採用できる。ディープラーニングは、特定の現実世界環境を増加する複合概念の階層として表すことによって、より大きな学習性能を与える特殊なタイプの機械学習である。ディープラーニングは、典型的に、非線形処理を実施する数層のニュートラルネットワークを含むソフトウェア構造を採用し、各連続層は、その前の層から出力を受け取る。概略的に、層は、センサから生データを受け取る入力層、データから抽象的特徴を抽出する多数の隠れた層、及び隠れた層からの特徴抽出に基づいて特定のものを識別する出力層、を含む。ニュートラルネットワークは、各々「重み」を持つニューロン又はノードを含み、「重み」に、あるものが正確か否かの確率を得るためにノードへの入力が掛けられる。より具体的には、ノードの各々は、浮動小数点数である重みを有し、これにノードへの入力が掛けられて、そのノードに関する出力（入力のある程度の割合である）を生成する。重みは、ネットワークが最高確率の正確な出力を取得できるようにするために、まず、監視された処理の下でコスト関数を最小限に抑えて既知のデータセットをニュートラルネットワークに分析させることによって、「トレーニングされる」又は設定される。

図２は、貯蔵容器１８から物体１６をピックアップをするために作動するロボットシステム１０の中のコントローラ２２の一部であるビンピッキングシステム３０の概略的ブロック図である。システム３０は、貯蔵容器１８の上面からの２Ｄ（二次元）ＲＧＢ画像３２及び貯蔵容器１８の上面からの２Ｄ深度マップ画像３４を、カメラ２０から受け取るが、深度マップ画像３４は、物体１６が透明である可能性があるので、信頼できない可能性がある。画像３２は、画像セグメント化プロセスを実施するセグメント化モジュール３６へ与えられ、ここで、画像３２の中の各ピクセルに特定のラベルが割り当てられ、同じ物体１６に関連付けられるピクセルは同じラベルを有する。

図３は、システム３０から分離されたモジュール３６の概略的ブロック図である。ＲＧＢ画像３２は、背景及びノイズを除去し画像３２から重要な特徴を抽出するフィルタリングプロセスを実施する特徴抽出モジュール４２へ与えられる。例えば、モジュール４２は、画像３２からグラディエント、エッジ、輪郭、基本形状などを抽出する学習ベースのニュートラルネットワークを含むことができ、モジュール４２は、ＲＧＢ画像３２の抽出特徴画像４４を既知の様式で与える。特徴画像４４は、領域提案モジュール５０へ与えられ、領域提案モジュールは、ニュートラルネットワークを使用して画像４４の中の識別された特徴を分析し、画像４４の中の物体１６の場所を測定する。特に、モジュール５０は、画像４４の中の特定の場所に物体１６が存在する確率を識別するために使用される、異なるサイズの即ち様々な長さ及び幅を有する５０～１００個のボックスなど多数のバウンディングボックスを与える訓練されたニュートラルネットワークを含む。この実施形態において、バウンディングボックスは、全て垂直ボックスであり、モジュール５０の複雑さを減じるのに役立つ。領域提案モジュール５０は、当事者には周知のスライドサーチウィンドウテンプレートを採用し、バウンディングボックスの全てを含むサーチウィンドウは、例えば画像４４の上左から画像４４の下右まで特徴画像４４全体を移動して、物体１６の１つの存在の可能性を識別する特徴を探す。

スライドウィンドウサーチは、各々が画像４４の中の予測される物体を取り囲む多数のバウンディングボックス５４を含むバウンディングボックス画像５２を生成し、画像５２の中のバウンディングボックス５４の数は、ロボット１２が貯蔵容器１８から物体１６を１つ取り除くごとに減少する。モジュール５０は、各ボックス５４の中心場所（ｘ、ｙ）幅（ｗ）及び高さ（ｈ）をパラメータ化して、物体１６がボックス５４の中に存在する０％～１００％の予測確実度を示す。画像５２は、ニュートラルネットワークを使用してピクセルがバウンディングボックス５４の各々の中の物体１６に属するか否かを推定して、物体１６の一部ではないボックス５４の中の背景ピクセルを推定するバイナリセグメント化モジュール５６に与えられる。ボックス５４の各々の画像５２の中の残りのピクセルには、色などの様々な印によって物体１６を識別する２Ｄセグメント化画像５８が生成されるように、特定の物体１６に関する値が割り当てられる。上述のような画像セグメント化プロセスは、ディープラーニングマスクＲ-ＣＮＮ（畳み込みニュートラルネットワーク）の修正形である。

２Ｄセグメント化画像５８は、その後、画像５８の中のどのセグメント化物体が物体であると言う最高確実度を持つかを測定して、選択された物体１６に関して中心ピクセルのｘ-ｙ座標を提示する中心ピクセルモジュール６０へ与えられる。選択された物体１６の識別された中心ピクセルは、深度マップ画像３４と一緒に、物体１６の中心ピクセルのｘ-ｙ-ｚデカルト座標を計算するデカルト座標モジュール６２へ与えられる。深度マップ画像３４は、ｚ深度予測は非常に信頼できるものではないが、現実世界における各ピクセルの場所を推定又は予測する。前記物体１６の中心ピクセルのｘ-ｙ-ｚ座標は、その後、吸引カップ１４を位置付けるための把持位置モジュール６４においてｘ-ｙ-ｚ把持位置を識別するために使用される。選択された物体１６の中心ピクセルのｘ-ｙ座標は、把持方向モジュール６６へも送られ、把持方向モジュールは、例えば当業者には周知のピンホールカメラモデルを使用してカメラ２０から物体１６の中心ピクセルまでの光線方向に基づいて吸引カップ１４の把持方向即ちロール、ピッチ及びヨーを測定する。物体１６をピックアップするときの吸引カップ１４の動きは、光線方向に沿って移動し、これと整列する。深度マップ画像３４は、カメラ２０と物体１６との間の正確な距離を示すことができないので、カメラ２０からの光線方向を測定する必要がある。

吸引カップ１４の把持位置及び吸引カップ１４の把持方向は、把持ポーズモジュール６８において結合されて、吸引カップ１４の把持ポーズを与える。把持ポーズは、光線方向に沿って物体１６までの吸引カップ１４のアプローチ方向を与えるために、吸引カップ１４のｘ-ｙ-ｚ座標及びヨー、ピッチ及びロール位置を含む。衝突チェックモジュール７０は、把持ポーズが、算定された光線方向に沿って貯蔵容器１８の底部と吸引カップ１４を衝突させるか否かを測定する。貯蔵容器１８の底までの距離は既知である。把持ポーズが光線方向に沿って貯蔵容器１８との衝突を生じる場合、安全バッファモジュール７２において安全バッファが生成されて、光線方向に沿ったロボット１２の移動を制限する。

吸引カップ１４が光線方向に沿って移動するとき、吸引カップは、最終的にピックアップされる物体１６に接触する。接触検出モジュール７４は、真空における圧力差を検出することによって、真空カップ１４が物体１６と接触したことを検出する。ロボット１２は、その動きを停止し、ピックアップモジュール７６において物体１６をピックアップするか、又はバッファ距離に到達し、この場合物体１６をピックアップしない。物体１６がピックアップされロボット１２によって移動されると、カメラ２０は、次の物体１６をピックアップするために貯蔵容器１８の次の画像を撮る。次の画像は、すでにピックアップされた物体１６を含まない。このプロセスは、貯蔵容器１８から物体１６の全てがピックアップされるまで継続される。

上で論じる貯蔵容器１８から物体１６をピックアップするための技法は、単に、吸引カップ１４が物体１６を把持する場所として画像５８の中の物体１６の中心ピクセルを測定するだけであり、ロボット１２は、物体１６をピックアップするために物体１６の中心点までの線に沿って移動する又は物体１６に接近する。但し、ロボット１２は、中心点の周りの物体１６の方向を知らないので、物体がピックアップされたら、ランダムな方向でしか物体１６を置くことができない。言い換えると、セグメント化モジュール３６は、物体１６を構成するピクセルの群を識別するだけであり、物体１６の方向又は回転を識別しない。但し、例えばコンベア２４上で物体１６を同じ方向に整列するなど特定の様式で物体１６の方向を定めることが好ましい用途の場合があり、この場合、ロボット１２は物体１６をピックアップした後にその方向を変える又は回転する必要がある。このタイプのロボットシステムの場合、ピックアップされる物体１６の中心を測定する必要があるだけでなく、ロボット１２がコンベア２４上に物体１６を置くときにロボット１２が物体１６を回転して所望の方向にこれを整列できるように、ピックアップされる物体１６の方向を測定する必要もある。このようにして、物体１６の全ては、コンベア２４上で同じ方向に整列できるか、又は直立して置くことさえできる。物体１６の方向を測定することは、物体１６の中心だけを測定するだけより複雑さを要するので、さらに多くのニュートラルネットワークトレーニングを必要とする。

図４は、セグメント化モジュール３６と同様であるが、ピックアップされる物体１６の方向も識別するセグメント化モジュール８０の概略的ブロック図であり、モジュール３６と同様の要素は同じ参照番号で識別される。画像３２は、２Ｄカメラから得ることができ、この場合深度画像３４は必要とされず、物体１６の距離は事前に分かっている可能性がある。モジュール８０は、上述のように画像３２から重要な特徴を抽出して特徴画像４４を提供するフィルタリングプロセスを実施する特徴抽出モジュール４２を含む。但し、この実施形態において、特徴画像４４は、モジュール５０のニュートラルネットワークよりもっとずっと複雑な複合的ディープラーニングマスクＲ-ＣＮＮなどのニュートラルネットワークであり、ずっと多くのニュートラルネットワークトレーニングを必要とする、領域提案モジュール８２へ与えられる。特に、画像４４の中の物体１６の場所を識別するために様々なサイズの数個の垂直バウンディングボックスを使用する代わりに、モジュール８２は、異なるサイズ即ち幅及び長さを有する多数のバウンディングボックスを使用し、各サイズのボックスについて、数個の方向を持つ即ち０°、３０°、４５°、９０°、１２０°、１５０°及び１８０°など多様な角度に回転されかつ様々な仰角を持つバウンディングボックスが与えられる。したがって、各サイズのバウンディングボックスについて、このサイズで様々な方向を有する数個のバウンディングボックスがある可能性がある。上述のように、領域提案モジュール８０は、バウンディングボックスの１つを特徴画像４４の中の物体１６と整列させるために例えば画像４４の左上から画像４４の右下まで特徴画像４４全体でバウンディングボックスを含むサーチウィンドウテンプレートを移動またはスライドすることによって、スライドウィンドウサーチを実施するが、様々な方向を持つ更に多くのボックスが存在するので、領域提案モジュール８２は、モジュールが画像４４の中で識別する物体１６の方向を予測することができる。モジュール８２の出力は、物体１６の方向を示すバウンディングボックス８６を持つバウンディングボックス画像８４である。したがって、モジュール８２は、各ボックス８６の中心場所（ｘ、ｙ）、幅（ｗ）及び高さ（ｈ）に加えて方向（θ）をパラメータ化して、物体１６がボックス８６の中に存在する予測確実値を０％～１００％で示す。このプロセスにおいて、バウンディングボックス８６は、長方形であるが、ボックス８６の角度によってボックスは物体１６の周りにぴったりと嵌るので、バイナリセグメント化モジュール５６によって実施される背景ピクセルを除去するためのプロセスは必要ない。

図５は、物体１６がピックアップされた後に特定の方向になるようにロボット１２が物体１６を回転できるようにするために回転補正を採用する、図２に示すタイプのビンピッキングシステム９０の概略的ブロック図であり、システム３０と同様の要素は、同じ参照番号で識別される。この実施形態において、モジュール３６は、モジュール８０と置き換えられる。更に、システム９０は、セグメント化モジュール８０から回転パラメータθを受け取る物体回転モジュール９２を含み、ロボット１２が貯蔵容器１８から選択された物体を１６をピックアップし、他の物体１６から離して特定の高さまでこれを持上げたら、ｘ-ｙ-ｚの全方向において回転パラメータθで測定された所望の量だけ物体１６を回転する。

当業者には分かるように、本開示を説明するために本明細書において論じられるいくつかの様々なステップ及びプロセスは、電気現象を使用してデータを操作及び／又は変換するコンピュータ、プロセッサ又はその他の電子計算デバイスによって実施される作業を意味することができる。これらのコンピュータ及び電子デバイスは、各種コード又はコンピュータ又はプロセッサによって実施できる実行可能命令を含む実行可能なプログラムが記憶された非一時的コンピュータ可読媒体を含む様々な揮発性及び／又は非揮発性メモリを採用できる。メモリ及び／又はコンピュータ可読媒体は、あらゆる形式及びタイプのメモリ及び他のコンピュータ可読媒体を含むことができる。

前述の考察は、本開示の単なる例示的な実施形態を開示し説明される。当業者は、そのような考察及び添付の図面及び特許請求の範囲から、以下の特許請求の範囲で規定される開示の精神及び範囲から逸脱することなく、種々の変更、修正及び変形を施すことができることを容易に認識するであろう。

Claims

物体群から１つの物体をピックアップする方法であって、前記方法が、
カメラを使用して前記物体の画像を取得することと、
前記画像から特徴を抽出して抽出特徴画像を与えるためにニュートラルベットワークを使用することと、前記抽出特徴画面の中のピクセルのｘ及びｙ座標を識別することと、前記抽出特徴画面の中の前記物体の方向を識別することと、を含む画像セグメント化プロセスを実行することによって、前記物体のセグメント化画像を生成することと、
前記セグメント化画像を使用して前記物体をピックアップするための場所を識別することと、
前記セグメント化画像の中の前記物体の前記方向を使用して前記物体を回転することと、
を含む方法。
前記ニュートラルネットワークが、ディープラーニングマスクＲ-畳み込みニュートラルネットワーク（ＣＮＮ）である、請求項１に記載の方法。
セグメント化画像を生成することが、複数のバウンディングボックスを与えることと、前記バウンディングボックスを前記抽出特徴に整列することと、前記物体を取り囲むバウンディングボックスを含むバウンディングボックス画像を与えることと、を含む、請求項１に記載の方法。
前記バウンディングボックスが様々なサイズを有し、各サイズの複数のバウンディングボックスが様々な方向を向く、請求項３に記載の方法。
様々な方向を向く同じサイズの前記バウンディングボックスが、相互に対して０°、３０°、４５°、９０°、１２０°、１５０°及び１８０°を向く、請求項４に記載の方法。
前記バウンディングボックスを整列することが、スライドウィンドウテンプレートを使用することを含む、請求項３に記載の方法。
セグメント化画像を生成することが、１つの物体が各バウンディングボックスの中に存在する確率を測定することを含む、請求項３に記載の方法。
セグメント化画像を生成することが、前記セグメント化画像の中の各物体が同じラベルを持つように前記セグメント化画像のピクセルにラベルを割り当てることを含む、請求項１に記載の方法。
セグメント化画像を生成することが、前記バウンディングボックスの中の各物体の中心ピクセルを識別することを含み、前記物体をピックアップするための場所を識別することが、前記セグメント化画像の中の前記物体の１つの中心ピクセルを識別することと、前記中心ピクセルの前記場所及び深度マップ画像を使用して前記中心ピクセルのｘ-ｙ-ｚ座標を計算することを含む、請求項１に記載の方法。
前記物体をピックアップするための場所を特定することが、前記物体をピックするためのｘ-ｙ-ｚ把持位置を測定することを含む、請求項９に記載の方法。
前記物体をピックアップするための場所を識別することが、前記カメラから前記中心ピクセルまでの光線方向によって画定される前記物体をピックアップするための把持方向を識別することを含む、請求項９に記載の方法。
前記光線方向が、ピンホールカメラモデルによって測定される、請求項１１に記載の方法。
前記物体をピックアップするための場所を識別することが、前記把持位置及び前記把持方向を使用して前記物体をピックアップするための把持ポーズを測定することを含む、請求項１１に記載の方法。
前記物体がロボットによってピックアップされ、前記把持ポーズがロボットエンドエフェクタのポーズを決定する、請求項１３に記載の方法。
前記物体が透明である、請求項１に記載の方法。
ロボットを使用して透明物体群から１つの透明物体をピックアップする方法であって、前記方法が、
３Ｄカメラを使用して前記物体の２Ｄ赤緑青（ＲＧＢ）カラー画像を取得することと、
前記３Ｄカメラを使用して前記物体の２Ｄ深度マップ画像を取得することであって、前記深度マップ画像の中のピクセルに、前記カメラから前記物体までの距離を識別する値が割り当てられる、取得することと、
前記ＲＧＢ画像から特徴を抽出して前記セグメント化画像の中の各物体が同じラベルを持つように前記セグメント化画像の中のピクセルにラベルを割り当てて前記物体の方向を測定するディープラーニングを使用する画像セグメント化プロセスを実施することによって、前記物体のセグメント化画像を生成することと、
前記セグメント化画像及び前記深度マップ画像を使用して前記物体をピックアップするための場所を識別することと、
前記セグメント化画像の中の前記物体の方向を使用して前記物体を回転することであって、カラー画像の取得、深度マップ画像の取得、セグメント化画像の生成、前記物体をピックアップするための場所の識別及び前記物体の回転が、前記ロボットによって前記物体群から１つの物体がピックアップされるごとに実施される、回転することと、
を含む、方法。
セグメント化画像を生成することが、同じサイズを有する複数のバウンディングボックス及び様々な方向の同じサイズの複数のバウンディングボックスを与えることと、スライドウィンドウテンプレートを使用して前記バウンディングボックスを前記抽出された特徴に整列することと、前記物体を取り囲むバウンディングボックスを含むバウンディングボックス画像を与えることと、１つの物体が各バウンディングボックスの中に存在する確率を測定することと、前記バウンディングボックスの中の各物体の中心ピクセルを識別することと、を含む、請求項１６に記載の方法。
前記物体をピックアップするための場所を識別することが、前記物体が存在する最高確率を有する前記セグメント化画像の中の前記物体の１つの中心ピクセルを識別することと、前記中心ピクセル及び前記深度マップ画像を使用して前記中心ピクセルのｘ-ｙ-ｚ座標を計算することと、前記物体をピックアップするための前記ロボットのｘ-ｙ-ｚ把持位置を測定することと、ピンホールカメラモデルを使用して前記カメラから前記中心ピクセルまでの光線方向によって画定される前記物体をピックアップするための前記ロボットの把持方向を識別することと、前記把持位置及び前記把持方向を使用して前記物体のピックアップするための前記ロボットの把持ポーズを測定することと、を含む、請求項１６に記載の方法。
ロボットを使用して物体群から１つの物体をピックアップするためのロボットシステムであって、前記システムが、
前記物体の画像を与えるカメラと、
前記ＲＧＢ画像から特徴を抽出して前記セグメント化画像の中の各物体が同じラベルを持つように前記セグメント化画像の中のピクセルにラベルを割り当てる画像セグメント化プロセスを実施することによって、前記物体のセグメント化画像を生成するディープラーニングニュートラルネットワークと、
前記セグメント化画像を使用して前記物体をピックアップするための場所を識別するための手段と、
前記セグメント化画像の中の前記物体の方向を使用して前記物体を回転するための手段であって、画像の取得、セグメント化画像の生成、前記物体をピックアップするための場所の識別及び前記物体の回転が、前記ロボットによって前記物体群から１つの物体がピックアップされるごとに実施される、手段と、
を備える、システム。
前記ディープラーニングニュートラルネットワークが、同じ方向を有する複数のバウンディングボックスを与え、スライドウィンドウテンプレートを使用して前記バウンディングボックスを前記抽出された特徴に整列し、前記物体を取り囲むバウンディングボックスを含むバウンディングボックス画像を与え、１つの物体が各バウンディングボックスの中に存在する確率を測定し、前記バウンディングボックスの中の各物体の中心ピクセルを識別する、請求項１９に記載のシステム。