JP2022181173A

JP2022181173A - 透明物体のビンピッキング

Info

Publication number: JP2022181173A
Application number: JP2022068052A
Authority: JP
Inventors: トータン; Te Tang; 哲朗加藤; Tetsuro Kato
Original assignee: Fanuc Corp
Current assignee: Fanuc Corp
Priority date: 2021-05-25
Filing date: 2022-04-18
Publication date: 2022-12-07
Also published as: CN115384971A; US20220379475A1; DE102022107311A1

Abstract

【課題】正確な深度マップ画像に依存することなく、物体の貯蔵容器からロボットによってピックアップされる透明物体などの物体を識別できるシステム及び方法の提供を図る。【解決手段】方法は、３Ｄカメラを使用して物体の２Ｄ赤緑青（ＲＧＢ）カラー画像及び２Ｄ深度マップ画像を取得することを含み、深度マップ画像の中のピクセルにカメラから物体までの距離を識別する値が割り当てられる。方法は、ＲＧＢ画像から特徴を抽出してセグメント化画像の中の物体が同じラベルを持つようにピクセルにラベルを割り当てる画像セグメント化プロセスを実施するディープラーニングマスクＲ-ＣＮＮ（畳み込みニュートラルネットワーク）を使用して、物体のセグメント化画像を生成する。方法は、その後、セグメント化画像及び深度マップ画像を使用して物体をピックアップするための場所を識別する。【選択図】図２

Description

本開示は、概略的にロボットによって物体の貯蔵容器（bin）からピックアップされる物体を識別するためのシステム及び方法、特にロボットによって物体の貯蔵容器からピックアップされる透明物体などの物体を識別するためのシステム及び方法に関する。方法は、貯蔵容器の画像の中のあらゆるピクセルにラベルを割り当てる画像セグメント化プロセスを採用する。

ロボットは、ピックアンドプレース作業を含む多数のタスクを実施する。ロボットは貯蔵容器など１つの場所から物体をピックアップし、ここからコンベアベルトなど別の場所へ物体を移動する。貯蔵容器からピックアップされる物体を識別するために、いくつかのロボットシステムは、貯蔵容器の２Ｄ赤緑青（ＲＧＢ）カラー画像及び貯蔵容器の２Ｄグレースケール深度マップ画像を生成する３Ｄカメラを採用し、深度マップ画像の各ピクセルは、カメラから特定の物体までの距離を画定する値を持つ。即ち、ピクセルが物体に近いほど、その値は低くなる。深度マップ画像は、カメラの視野の中で点群の点までの距離測定値を識別する。点群は、特定の座標系によって画定されるデータ点の集合であり、各点はｘ、ｙ及びｚ値を有する。

このために２タイプの点群分析がある。即ち、モデルフリー点群分析と、モデルベース点群分析である。モデルフリー点群分析は、カメラから直角方向に点群の中の点クラスタを識別し、クラスタを相互に対してセグメント化することを含み、各点群セグメントが物体として識別される。モデルベース点群分析は、物体のＣＡＤモデルからテンプレートを生成し、その後点群においてテンプレートを検索することを含む。但し、ロボットによってピックアップされる物体が透明である場合、光は物体を通過して伝播し、物体の表面から効果的に反射されない。したがって、カメラによって生成された点群は、物体の効果的な表現ではなく、深度マップ画像は信頼できず、ピックアップされる物体を適切に識別できない。

以下の考察では、物体の貯蔵容器からロボットによってピックアップされる物体を識別するためのシステム及び方法を開示し、説明する。方法は、３Ｄカメラを使用して物体の２Ｄ赤緑青（ＲＧＢ）カラー画像及び２Ｄ深度マップ画像を取得することを含み、深度マップ画像の中のピクセルには、カメラから物体までの距離を識別する値が割り当てられる。方法は、ＲＧＢ画像から特徴を抽出するセグメント化画像の中の物体が同じラベルを持つようにピクセルにラベルを割り当てる画像セグメント化プロセスを実施するディープラーニングマスクＲ-ＣＮＮ（畳み込みニュートラルネットワーク）を使用して、物体のセグメント化画像を生成する。方法は、その後、セグメント化画像及び深度マップ画像を使用して物体をピックアップするための場所を識別する。カラー画像の取得、深度マップ画像の取得、セグメント化画像の生成及び物体をピックアップするための場所の識別は、ロボットによって物体群から物体がピックアップされるたびに実施される。

本開示の付加的特徴は、添付図面と一緒に下記の説明及び請求項から明らかになる。

図１は、貯蔵容器から物体をピックアップしているロボットを含むロボットシステムの図である。図２は、図１のロボットシステムにおいて貯蔵容器から物体をピックアップするためのビンピッキング（bin picking：バラ積み取出し）システムの概略的ブロック図である。図３は、図２に示すシステムから分離されたセグメント化モジュールの概略的ブロック図である。

本開示の実施形態についての以下の考察は、物体の貯蔵容器からロボットによってピックアップされる物体を識別するためのシステム及び方法に関するものであり、方法は、貯蔵容器の画像の中のあらゆるピクセルにラベルを割り当てる画像セグメント化プロセスを採用する。以下の考察は、単に例示的であり、本発明又はその応用又は使用を限定することを意図しない。例えば、システム及び方法は、ロボットによってピックアップされる透明物体を識別するための用途を有する。但し、システム及び方法は、他の用途を持つことができる。

図１は、図において物体１６例えば透明ボトルを貯蔵容器１８からピックアップしているエンドエフェクタ１４を有するロボット１２を含むロボットシステム１０の図である。システム１０は、本明細書の考察を利用できる任意のタイプのロボットシステムを表すことを意図し、ロボット１２は、前記目的に適する任意のロボットとすることができる。３Ｄカメラ２０は、貯蔵容器１８の上から下までの画像を撮って、ロボット１２の動きを制御するロボットコントローラ２２へ画像を与えるように位置付けられる。物体１６は透明である可能性があるので、コントローラ２２は、貯蔵容器１８の中の物体１６の場所を識別するためにカメラ２０によって提供された深度マップ画像を信頼できない可能性がある。

下でさらに詳しく論じるように、ロボットコントローラ２２は、ロボット１２が正確な深度マップ画像に依存する必要なく物体１６をピックアップすることができるようにするアルゴリズムを採用する。より具体的には、アルゴリズムは、３Ｄカメラ２０からのＲＧＢ画像の中のピクセルの様々な色を使用して画像セグメント化プロセスを実施する。画像セグメント化は、同じラベルを持つピクセルが特定の特性を共有するように画像の中のあらゆるピクセルにラベルを割り当てるプロセスである。したがって、セグメント化プロセスは、どのピクセルがどの物体１６に属するかを予測する。

現代の画像セグメント化法は、ディープラーニングテクノロジーを採用できる。ディープラーニングは、特定の現実世界環境を増加する複合概念の階層として表すことによって、より大きな学習性能を与える特殊なタイプの機械学習である。ディープラーニングは、典型的に、非線形処理を実施する数層のニュートラルネットワークを含むソフトウェア構造を採用し、各連続層は、その前の層から出力を受け取る。概略的に、層は、センサから生データを受け取る入力層、データから抽象的特徴を抽出する多数の隠れた層、及び隠れた層からの特徴抽出に基づいて特定のものを識別する出力層、を含む。ニュートラルネットワークは、各々「重み」を持つニューロン又はノードを含み、「重み」に、あるものが正確か否かの確率を得るためにノードへの入力が掛けられる。より具体的には、ノードの各々は、浮動小数点数である重みを有し、これにノードへの入力が掛けられて、そのノードに関する出力（入力のある程度の割合である）を生成する。重みは、ネットワークが最高確率の正確な出力を取得できるようにするために、まず、監視された処理の下でコスト関数を最小限に抑えて既知のデータセットをニュートラルネットワークに分析させることによって、「トレーニングされる」又は設定される。

図２は、貯蔵容器１８から物体１６をピックアップするために作動するロボットシステム１０の中のコントローラ２２の一部であるビンピッキングシステム３０の概略的ブロック図である。システム３０は、貯蔵容器１８の上面からの２Ｄ（二次元）ＲＧＢ画像３２及び貯蔵容器１８の上面からの２Ｄ深度マップ画像３４を、カメラ２０から受け取るが、深度マップ画像３４は、物体１６が透明である可能性があるので、信頼できない可能性がある。画像３２は、画像セグメント化プロセスを実施するセグメント化モジュール３６へ与えられ、ここで、画像３２の中の各ピクセルに特定のラベルが割り当てられ、同じ物体１６に関連付けられるピクセルは同じラベルを有する。

図３は、システム３０から分離されたモジュール３６の概略的ブロック図である。ＲＧＢ画像３２は、画像３２から特徴を抽出するフィルタリングプロセスを実施する特徴抽出モジュール４２へ与えられる。例えば、モジュール４２は、画像３２からグラディエント、エッジ、輪郭、基本形状などを抽出する学習ベースのニュートラルネットワークを含むことができ、ＲＧＢ画像３２の抽出特徴画像４４を既知の様式で与える。特徴画像４４は、領域提案モジュール５０へ与えられ、領域提案モジュールは、ニュートラルネットワークを使用してＲＧＢ画像３２の識別された特徴を分析し、物体１６の１つが画像５４の中のバウンディングボックス５２の場所に存在する確率を識別するバウンディングボックス画像５４の中の多数のバウンディングボックス５２を提案又は識別する。バウンディングボックス画像５４は、ニュートラルネットワークを使用してあるピクセルがバウンディングボックス５４の１つに属するか否かを推定するバイナリセグメント化モジュール５６へ与えられる。ピクセルには、特定の物体１６について、色など様々な印（indicia）によって物体１６を識別する２Ｄセグメント化画像５８が生成されるように、値が割り当てられる。上述のような画像セグメント化プロセスは、したがって、ディープラーニングマスクＲ-ＣＮＮ（畳み込みニュートラルネットワーク）の修正形である。

ｘ-ｙピクセル座標を有する２Ｄセグメント化画像５８は、その後、画像５８の中の物体１６の１つの中心ピクセルのｘ-ｙ座標を測定する中心ピクセルモジュール６０へ与えられ、ここで、物体１６がピックアップされる順番の予設定されたプロセスがまず与えられる。選択された物体１６の識別された中心ピクセルは、深度マップ画像３４と一緒に、物体１６の中心ピクセルのｘ-ｙ-ｚデカルト座標を計算するデカルト座標モジュール６２へ与えられる。深度マップ画像３４は、予測は非常に信頼できるものではないが、現実世界における各ピクセルの場所を推定又は予測する。前記物体１６の中心ピクセルのｘ-ｙ-ｚ座標は、その後、エンドエフェクタ１４を位置付けるための把持位置モジュール６４のｘ-ｙ-ｚ把持位置を識別するために使用される。選択された物体１６の中心ピクセルのｘ-ｙ座標は、例えば当業者には周知のピンホールカメラモデルを使用してカメラ２４から物体１６の中心ピクセルまでの光線方向に基づいてロボット１２の把持方向即ちロール、ピッチ及びヨーを測定する把持方向モジュール６６へ送られる。物体１６をピックアップするときのエンドエフェクタ１４の動きは、光線方向に沿って移動し、これと整列する。深度マップ画像３４は、カメラ２４と物体１６との間の正確な距離を示すことができないので、カメラ２４からの光線方向を測定する必要がある。

エンドエフェクタ１４の把持位置及びエンドエフェクタ１４の把持方向は、把持ポーズモジュール６８において結合されて、エンドエフェクタ１４の把持ポーズを与え、把持ポーズは、光線方向に沿って物体１６までのエンドエフェクタ１４のアプローチ方向を与えるために、エンドエフェクタ１４のｘ-ｙ-ｚ座標及びヨー、ピッチ及びロール位置を含む。衝突チェックモジュール７０は、把持ポーズが、算定された光線方向に沿って貯蔵容器１８の底部とエンドエフェクタ１４を衝突させるか否かを、測定する。貯蔵容器１８の底までの距離は既知である。把持ポーズが光線方向に沿って貯蔵容器１８との衝突を生じる場合、安全バッファモジュール７２において安全バッファが生成されて、光線方向に沿ったロボット１２の移動を制限する。

エンドエフェクタ１４が光線方向に沿って移動するとき、エンドエフェクタは、最終的にピックアップされる物体１６に接触し、この実施形態において、エンドエフェクタ１４は、物体１６をピックアップするために真空カップ（図示せず）を使用する。接触検出モジュール７４は、真空における圧力差を検出することによって、真空カップが物体１６と接触したことを検出する。ロボット１２は、その動きを停止し、ピックアップモジュール７６において物体１６をピックアップするか、又はバッファ距離に到達し、この場合物体１６をピックアップしない。物体１６がピックアップされロボット１２によって移動されると、カメラ２０は、次の物体１６をピックアップするために貯蔵容器１８の新たな画像を撮る。このプロセスは、物体１６の全てがピックアップされるまで継続される。

当業者には分かるように、本開示を説明するために本明細書において論じられる様々なステップ及びプロセスは、電気現象を使用してデータを操作及び／又は変換するコンピュータ、プロセッサ又はその他の電子計算デバイスによって実施される作業を意味することができる。これらのコンピュータ及び電子デバイスは、各種コード又はコンピュータ又はプロセッサによって実施できる実行可能命令を含む実行可能なプログラムが記憶された非一時的コンピュータ可読媒体を含む様々な揮発性及び／又は非揮発性メモリを採用できる。メモリ及び／又はコンピュータ可読媒体は、あらゆる形式及びタイプのメモリ及び他のコンピュータ可読媒体を含むことができる。

前述の考察は、本開示の単なる例示的な実施形態を開示し説明される。当業者は、そのような考察及び添付の図面及び特許請求の範囲から、以下の特許請求の範囲で規定される開示の精神及び範囲から逸脱することなく、種々の変更、修正及び変形を施すことができることを容易に認識するであろう。

Claims

物体群から１つの物体をピックアップする方法であって、前記方法が、
３Ｄカメラを使用して前記物体の２Ｄ赤緑青（ＲＧＢ）カラー画像を取得することと、
前記３Ｄカメラを使用して前記物体の２Ｄ深度マップ画像を取得することであって、前記深度マップ画像の中のピクセルに、前記カメラから前記物体までの距離を識別する値が割り当てられる、取得することと、
前記ＲＧＢ画像から特徴を抽出して前記セグメント化画像の中の各物体が同じラベルを持つように前記セグメント化画像の中のピクセルにラベルを割り当てる画像セグメント化プロセスを実施することによって、前記物体のセグメント化画像を生成することと、
前記セグメント化画像及び前記深度マップ画像を使用して前記物体をピックアップするための場所を識別することと、
を含む、方法。
セグメント化画像を生成することが、ディープラーニングマスクＲ-ＣＮＮ（畳み込みニュートラルネットワーク）を使用することを含む、請求項１に記載の方法。
セグメント化画像を生成することが、前記物体の１つが特定の場所に存在する確率を識別するバウンディングボックスを前記抽出された特徴から生成することを含む、請求項１に記載の方法。
バウンディングボックスを生成することが、領域提案プロセスを使用することを含む、請求項３に記載の方法。
セグメント化画像を生成することが、どのような画像ピクセルがどのようなバウンディングボックスに属するかを測定するバイナリセグメント化を与えることを含む、請求項３に記載の方法。
前記物体をピックアップするための場所を識別することが、前記セグメント化画像の中の前記物体の中心ピクセルを識別することと、前記セグメント化画像及び前記深度マップ画像を使用して前記中心ピクセルのｘ-ｙ-ｚ座標を計算することと、を含む、請求項１に記載の方法。
前記物体をピックアップするための場所を識別することが、前記物体をピックアップするためのｘ-ｙ-ｚ把持位置を測定することを含む、請求項６に記載の方法。
前記物体をピックアップするための場所を識別することが、前記カメラから前記中央ピクセルまでの光線方向によって画定される前記物体をピックアップするための把持方向を識別することを含む、請求項７に記載の方法。
前記光線方向がピンホールカメラモデルによって測定される、請求項８に記載の方法。
前記物体をピックアップするための場所を識別することが、前記把持位置及び前記把持方向を使用して前記物体をピックアップするための把持ポーズを測定することを含む、請求項８に記載の方法。
前記物体がロボットによってピックアップされ、前記把持ポーズがロボットエンドエフェクタのポーズを決定する、請求項１０に記載の方法。
更に、前記エンドエフェクタに関して衝突制限を与える、請求項１１に記載の方法。
カラー画像の取得、深度マップ画像の取得及びセグメント化画像の生成が、前記物体群から１つの物体がピックアップされるたびに実施される、請求項１に記載の方法。
前記物体が透明である、請求項１に記載の方法。
前記物体が複数の形状を有する、請求項１に記載の方法。
ロボットを使用して透明物体群から１つの透明物体をピックアップする方法であって、前記方法が、
３Ｄカメラを使用して前記物体の２Ｄ赤緑青（ＲＧＢ）カラー画像を取得することと、
前記３Ｄカメラを使用して前記物体の２Ｄ深度マップ画像を取得することであって、前記深度マップ画像の中のピクセルに、前記カメラから前記物体までの距離を識別する値が割り当てられる、取得することと、
前記ＲＧＢ画像から特徴を抽出して前記セグメント化画像の中の各物体が同じラベルを持つように前記セグメント化画像の中のピクセルにラベルを割り当てるディープラーニングマスクＲ-ＣＮＮ（畳み込みニュートラルネットワーク）を使用する画像セグメント化プロセスを実施することによって、前記物体のセグメント化画像を生成することと、
前記セグメント化画像及び前記深度マップ画像を使用して前記物体をピックアップするための場所を識別することであって、カラー画像の取得、深度マップ画像の取得、セグメント化画像の生成及び前記物体をピックアップするための場所の識別が、前記ロボットによって前記物体群から１つの物体がピックアップされるごとに実施される、識別することと、
を含む、方法。
セグメント化画像を生成することが、領域提案プロセスを使用して前記物体の１つが特定の場所に存在する確率を識別するバウンディングボックスを前記抽出された特徴から生成することと、どのような画像ピクセルがどのようなボンディングボックスに属するかを測定するバイナリセグメント化を与えることと、を含む、請求項１６に記載の方法。
前記物体をピックアップするための場所を識別することが、前記セグメント化画像の中の前記物体の中心ピクセルを識別することと、前記セグメント化画像及び前記深度マップ画像を使用して前記中心ピクセルのｘ-ｙ-ｚ座標を計算することと、前記物体をピックアップするための前記ロボットのｘ-ｙ-ｚ把持位置を測定すること、ピンホールカメラモデルを使用して前記カメラから前記中心ピクセルまでの光線方向によって画定される前記物体をピックアップするための前記ロボットの把持方向を識別することと、前記把持位置及び前記把持方向を使用して前記物体をピックアップするための前記ロボットの把持ポーズを測定することと、を含む、請求項１６に記載の方法。
ロボットを使用して物体群から１つの物体をピックアップするためのロボットシステムであって、前記システムが、
前記物体の２Ｄ赤緑青（ＲＧＢ）カラー画像及び２Ｄ深度マップ画像を与える３Ｄカメラと、
前記ＲＧＢ画像から特徴を抽出して前記セグメント化画像の中の各物体が同じラベルを持つように前記セグメント化画像の中のピクセルにラベルを割り当てる画像セグメント化プロセスを実施することによって、前記物体のセグメント化画像を生成するディープラーニングマスクＲ-ＣＮＮ（畳み込みニュートラルネットワーク）と、
前記セグメント化画像及び前記深度マップ画像を使用して前記物体をピックアップするための場所を識別するための手段であって、カラー画像の取得、深度マップ画像の取得、セグメント化画像の生成及び前記物体をピックアップするための場所の識別が、前記ロボットによって前記物体群から１つの物体がピックアップされるごとに実施される、手段と、
を備える、システム。
前記物体をピックアップするための場所を識別するための前記手段が、前記セグメント化画像の中の前記物体の中心ピクセルを識別し、前記セグメント化画像及び前記深度マップ画像を使用して前記中心ピクセルのｘ-ｙ-ｚ座標を計算し、前記物体をピックアップするための前記ロボットのｘ-ｙ-ｚ把持位置を測定し、ピンホールカメラモデルを使用して前記カメラから前記中心ピクセルまでの光線方向によって画定される前記物体をピックアップするための前記ロボットの把持方向を識別し、前記把持位置及び前記把持方向を使用して前記物体をピックアップするための前記ロボットの把持ポーズを測定する、請求項１９に記載のシステム。