JP2023081310A

JP2023081310A - サイズが混在する対象物をパレットから取り出すためのアルゴリズム

Info

Publication number: JP2023081310A
Application number: JP2022183815A
Authority: JP
Inventors: トータン; Te Tang; 哲朗加藤; Tetsuro Kato
Original assignee: Fanuc Corp
Current assignee: Fanuc Corp
Priority date: 2021-11-30
Filing date: 2022-11-17
Publication date: 2023-06-09
Also published as: CN116206101A; US20230169675A1; DE102022129021A1

Abstract

【課題】ロボットによって取り上げるべき箱を、一群の箱の中から特定するためのシステム及び方法を提供する。【解決手段】本方法は、３次元カメラを用いて、箱の２次元三原色（ＲＧＢ）画像と、２次元深度マップ画像とを取得する。本方法は、画像区分プロセスを用いる。画像区分プロセスは、ＣＰＵによって実行可能な、簡単化されたマスクＲ－ＣＮＮを用いて、ＲＧＢ画像中のいずれの画素が各箱と関連付けられているかを予測する。各箱と関連付けられている画素には、該箱のためのマスクを定義するように結び付ける固有のラベルが付与される。そして、本方法は、区分画像を用いて、箱を取り上げるための位置を特定する。【選択図】図２

Description

本開示は、概して、ロボットによって取り上げるべき対象物を一群の対象物の中から特定するためのシステム及び方法に関し、特に、ロボットによって取り上げるべき箱を、積み重ねられた箱の中から特定するためのシステム及び方法に関する。この方法では、画像区分プロセスが用いられ、該画像区分プロセスは、箱の中心領域を予測し、該中心領域の周囲の箱のエッジを識別するための従来動作を予測するために、簡単化されたマスクＲ－ＣＮＮ、又は、中央演算処理装置（ＣＰＵ）によって実現可能な他のニューラルネットワークを用いる。

ロボットは、多くの商用タスクを実行する。この商用タスクとしては、対象物を取り出して置く動作がある。この動作では、ロボットは、対象物を取り上げて、ある場所から別の場所まで移動させる。例えば、ロボットは、パレットから箱を取り上げてコンベアベルト上に置く。このとき、ロボットは、箱を保持するための吸着カップを有するエンドエフェクタを用い得る。ロボットが箱を効果的に取り上げるために、ロボットは、取り上げる箱の幅、長さ及び高さを既知とする必要があり、該幅、該長さ及び該高さは、対象物を取り上げて置く動作を実行する前に、ロボット制御部に入力される。しかしながら、同じパレット上に異なるサイズの対象物が存在する場合がしばしば在り、これにより、対象物を取り上げて置く動作の間、箱のサイズをロボットに入力することが非効率的になる。また、箱が同じ高さで隣り合って置かれる場合があり、この場合はこれらの箱が別々であるのか、又は１つの大きな箱であるのか、区別するのが困難となる。

対象物を取り上げて置く公知のロボットの１つにおいて、ロボットが取り上げる箱の幅、長さ及び高さが、最初にシステムに入力される。３次元カメラが、積み重ねられた箱を上から下へ撮像し、箱の２次元グレー画像と、箱の２次元グレースケール深度マップ画像とを生成する。深度マップ画像においては、各画素は、カメラから箱までの距離を規定する値を有し、この値は、画素が対象物に近い程、小さくなる。ロボット制御部は、箱の幅及び長さに基づいて一連の投影テンプレートを生成し、各々のテンプレートは、カメラと箱との間の所定の距離に関して所定のサイズを有する。深度マップ画像に示される箱の距離に関するテンプレートは、検索プロセスにおいて２次元グレー画像の周りに移動され、テンプレートがグレー画像内の箱と一致又は整列したときに、ロボット制御部は、箱の位置を認識し、該位置を箱の中心を定義するために使用して、ロボットを制御して箱を取り上げる。

本願の出願人による米国特許出願Ｎｏ．１７／０１５８１７（２０２０年９月９日出願発明の名称「サイズが混在する対象物のパレットからの取り出し」この言及を以って本稿に組み入れられるものとする）は、積み重ねられた箱から、ロボットによって取り上げるべき箱を特定するシステム及び方法を開示している。この方法では、３次元カメラを用いて、箱の２次元三原色（ＲＧＢ）画像と、箱の深度マップ画像とを取得する。この深度マップ画像においては、画素に対し、カメラから箱までの距離を特定する値が付与される。この方法では、深層学習マスクＲ－ＣＮＮ（畳み込みニューラルネットワーク）が用いられ、該マスクＲ－ＣＮＮは、画像区分プロセスを実行することによって、箱の区分画像を生成する。該画像区分プロセスにおいては、ＲＧＢ画像及び深度マップ画像から特徴を抽出し、画像から抽出した特徴を組み合わせ、区分画像における各箱が同じラベルを有するように、特徴画像の画素にラベルを付与する。そして、この方法では、区分画像を用いて、箱を取り上げるための位置を特定する。

米国特許出願Ｎｏ．１７／０１５８１７に開示されている方法は、ロボットによる取り上げのために、積み重ねられた箱から１つの箱を特定するのには効果的である。しかしながら、この方法では、画像のフィルタリングステップ、２値区分ステップのために、深層学習ニューラルネットワークを用いている。このような深層学習ニューラルネットワークは、顕著な処理を要し、現実的且つ実用的なロボットの取り上げ時間とするべく、深層学習ニューラルネットワークの演算のためにグラフィックス演算処理装置（ＧＰＵ）を用いることが必要となる。このＧＰＵは、並行処理により、ＣＰＵよりも遥かに高速である。例えば、米国特許出願Ｎｏ．１７／０１５８１７の方法において、ニューラルネットワーク処理にＣＰＵを使用することで、取り上げ対象の箱を特定するのに、約２．２７２秒を要する。一方、ニューラルネットワーク処理にＧＰＵを用いると、このプロセスに僅か約０．１１８５秒を要する。しかしながら、ロボットシステムのような産業用途では、現在使用されている標準プロトコル、及び、システムが曝される厳しい環境に起因して、ＧＰＵの使用は、現在のところ進んでいない。

以下の説明において、ロボットによって取り上げるべき箱を、積み重ねられた箱の中から特定するためのシステム及び方法を開示する。この方法は、３次元カメラを用いて、箱の２次元三原色（ＲＧＢ）画像と、２次元深度マップ画像とを取得し、該深度マップ画像における画素に対し、カメラから箱までの距離を特定する値を付与する。また、この方法は、ＣＰＵによって実現可能な、簡単化されたマスクＲ－ＣＮＮ（畳み込みニューラルネットワーク）において画像区分プロセスを実行することにより、箱の区分マスク画像を生成する。画像区分プロセスは、ＲＧＢ画像から特徴を抽出し、抽出した特徴を用いて、ＲＧＢ画像中のどの画素が各箱と関連付けられているか、予測する。各箱と関連付けられている画素には、箱のためのマスクを定義するように結び付ける固有のラベルを付与する。この方法は、区分マスク画像におけるマスクのうちの1つを選択し、マスクと関連付けられた箱よりも下側の箱に関連付けられ得る、選択されたマスクの画素を特定して除去して、改良マスクを設ける。この方法は、次いで、形態学的プロセスを用いて、改良マスクから下側境界マスクと上側境界マスクを生成し、改良プロセスを用いて、下側境界マスク及び上側境界マスクから拡張マスクを生成する。この方法は、次いで、拡張マスクを用いて、箱を取り上げるための位置を特定する。

本開示のさらなる特徴は、以下の図面を参照した説明及び特許請求の範囲から明らかとなるであろう。

パレットから箱を取り上げてコンベアベルト上に置くロボットを備えるロボットシステムの図である。図１のロボットシステムの一部である、サイズが混在する対象物をパレットから取り出すシステムのブロック図である。図２のシステムから分離された区分モジュールのブロック図である。図３に示すシステムから分離された、簡単化されたマスクＲ－ＣＮＮのブロック図である。図４に示すマスクＲ－ＣＮＮによって生成された区分マスク画像を示す。深度を横軸に、カウントを縦軸に示すヒストグラムのグラフを示し、積み重ねられた箱のカウントのピークを表す。下側の画素が除去された状態の改良マスクを含むマスク画像を示す。上側境界マスク及び下側境界マスクを含むマスク画像を示す。上側境界マスクの初期画像を示し、該初期画像における各画素の値が低密度である状態を示す。図９の初期画像の傾き画像を示す。傾きピークを囲む領域を図示した傾き画像を示す。傾きピークを囲む領域を図示した傾き画像を示す。傾きピークを囲む領域を図示した傾き画像を示す。傾きピークを囲む領域を図示した傾き画像を示す。傾きピークを囲む領域を図示した傾き画像を示す。拡張マスクを含む拡張マスク画像を示す。拡張マスク画像から生成される境界ボックス画像を示し、最小境界ボックスを示す。深層学習ニューラルネットワークを用いて、一群の対象物の中の対象物の中心領域を検出するための区分システムのブロック図である。従来の区分プロセスを用いて、一群の対象物の中の対象物のエッジを検出するための区分システムのブロック図である。

以下に説明する本開示の実施形態は、ロボットによって取り上げるべき箱を、積み重ねられた箱の中から特定するためのシステム及び方法に関する。この方法では、ＣＰＵによって実現可能な、簡単化されたマスクＲ－ＣＮＮを用いる画像区分プロセスを用いて、ＲＧＢ画像中のどの画素が各箱と関連付けられているかを予測する。しかしながら、この実施形態は、単なる一例であって、本発明、又は、アプリケーション若しくは使用を限定するものではない。例えば、システム及び方法は、ロボットによって取り上げるべき箱を特定するためのアプリケーションを有してもよい。しかしながら、システム及び方法は、他のアプリケーションを有してもよい。

図１は、ロボット１２を備えるロボットシステム１０の図を示している。ロボット１２は、パレット２０上に積み重ねられた箱１６の山１８から該箱１６を取り上げて、コンベアベルト２２上に置くエンドエフェクタ１４を有する。システム１０は、本説明から利益を得る如何なるタイプのロボットシステムを意図している。また、ロボット１２は、本開示の目的に適した如何なるロボットであってもよい。３次元カメラ２４は、箱１６の山１８の２次元ＲＧＢ画像及び深度マップ画像を、上から下へ撮像するように配置され、撮像した画像を、ロボット１２の移動を制御するロボット制御部２６に供給する。箱１６は、パレットから２０上で異なる姿勢を有していてもよく、パレット２０上で複数の層に積み重ねられてもよく、また、異なるサイズを有してもよい。

以下に詳述するように、ロボット制御部２６は、所定のアルゴリズムを用いる。このアルゴリズムは、箱１６の幅、長さ及び高さを予めロボット制御部２６に入力することなく、また、箱１６の投影テンプレートを生成する必要もなく、ロボット１２が取り上げる箱１６の各々のサイズを決定する。より具体的には、このアルゴリズムは、画像区分プロセスを実行し、該画像区分プロセスは、画像中の全ての画素にラベルを付与し、同じラベルを有するピクセルは、所定の特性を共有する。よって、画像区分プロセスは、どの画素がどの箱１６に属しているかを予測し、異なる印は、異なる箱１６を表す。

昨今の画像区分技術は、深層学習テクノロジーを用いる。深層学習は、特定のタイプの機械学習のであって、増加する複合概念の階層として現実世界を表すことで、より優れた学習性能を提供する。深層学習は、典型的には、複数層のニューラルネットワークを有するソフトウェア構造を用いており、該複数層のニューラルネットワークは、非線形の処理を実行し、連続する層の各々は、その前の層からの出力を受け付ける。一般的には、複数の層は、センサからの生データを受け付ける入力層と、データから抽象的な特徴を抽出する複数の隠れ層と、該隠れ層から抽出された特徴に基づいて、ある事柄を特定する出力層とを含む。ニューラルネットワークは、ニューロン又はノードを有し、各々のニューロン又はノードは、「重み」を有する。この「重み」は、ノードへの入力によって乗算され、ある事柄が正しいか否かの可能性を取得する。より具体的には、各々のノードは、浮動小数点数である重みを有し、該重みは、ノードへの入力で乗算され、該ノードの出力を生成する。この出力は、入力の何らかの比率となる。重みは、最初は「教育され」、又は、教師あり処理の下、ニューラルネットワークに既知のデータセットを分析させて、ニューラルネットワークに高い確率で正しい出力を取得可能とするように項費用関数を最小化することで、設定される。深層学習ニューラルネットワークは、画像特徴の抽出と、画像中の対象物の視覚的検知及び分類のための変換とのために、しばしば用いられる。このとき、画像のビデオ又はストリームは、対象物を特定して分類し、対象物をより良好に認識するためのプロセスを通して学習するために、ネットワークによって分析される。このように、このタイプのネットワークにおいて、システムは、アルゴリズムが対象物を認識するためにどのように学習してきたのかに基づいて、複数の対象物を別々に検知して分類するための、同じ処理構成を有し得る。

ニューラルネットワークにおける複数の層の数、及び層内のノードの個数は、ネットワークの複雑性、計算時間、及び性能の正確性を決定する。ニューラルネットワークの複雑性は、該ネットワーク内の層の数、層内のノードの数、又はその双方を減らすことで、減少させることができる。しかしながら、ネットワークの複雑性を減少させると、学習の正確性が減少することになる。また、層内のノードの個数を減少させることは、ネットワーク内の層の数を減少させることに対し、正確性において有利となることが知られている。米国特許出願Ｎｏ．１７／０１５８１７は、深層学習マスクＲ－ＣＮＮの修正形態である区分を設けるために、深層学習ニューラルネットワークを用いている。本開示は、米国特許出願Ｎｏ．１７／０１５８１７と同様に取り上げるべき箱の位置を、米国特許出願Ｎｏ．１７／０１５８１７と同様に特定するための区分プロセスを実行する、より小型の圧縮された深層学習ニューラルネットワークを用いることを提案する。本稿では、これを簡単化されたマスクＲ－ＣＮＮとして言及する。この構成によると、ＣＰＵは、演算を実行し、ロボット１２のための適切な計算時間（例えば、０．５２８秒）を有するように、用いられ得る。非限定的な一実施形態において、層内のノードの個数を半分に減らすことによって、ニューラルネットワークのサイズを達成する。しかしながら、ニューラルネットワーク内のノードの個数を減らすことで、箱１６の位置及び姿勢を正確に予測するためのニューラルネットワークの能力が、顕著に減退し、箱１６のエッジを予測することが困難となる。例えば、区分プロセスは、画像中で箱１６の全体を特定するのを確実にするために、より大きな境界ボックスを使用することを必要とし得る。したがって、ロボット１２によって取り上げられる箱１６の位置をより正確に特定するために、追加の処理ステップが実行される。

図２は、サイズが混在する対象物をパレットから取り出すシステム３０のブロック図であって、該システム３０は、パレット２０から箱１６を取り上げるように動作するロボットシステム１０の制御部２６の一部である。このシステム３０は、演算を実行するＣＰＵ２８を有する。システム３０は、パット２０上に配置された箱１６を上から見た２次元ＲＧＢ画像３２及び２次元深度マップ画像３４を、カメラ２４から受け付ける。画像３２及び３４は、簡単化されたマスクＲ－ＣＮＮを用いて画像区分プロセスを実行する区分モジュール３６に供給される。区分されたマスクにおける各々の画素は、所定のラベルを付与され、同じ箱１６と関連付けられた画素は、同じラベルを有する。

図３は、システム３０から分離されたモジュール３６のブロック図である。ＲＧＢ画像３２及び深度画像３４は、簡単化されたマスクＲ－ＣＮＮ３８へ供給され、該マスクＲ－ＣＮＮ３８は、米国特許出願Ｎｏ．１７／０１５８１７の深層学習マスクＲ－ＣＮＮと、同じ又は同様に動作する。図４は、モジュール３６から分離されたマスクＲ－ＣＮＮ３８のブロック図である。ＲＧＢ画像３２は、抽出モジュール４０に供給され、該抽出モジュール４０は、該画像３２から特徴を抽出するフィルタリングプロセスを実行する。例えば、モジュール４０は、傾き、エッジ、輪郭、基本形状等を画像３２から抽出し、抽出したＲＧＢ画像３２の特徴の画像４４を生成する。特徴画像４４は、領域提案モジュール５０に供給され、該領域提案モジュール５０は、マスクＲ－ＣＮＮ３８を用いて、特徴画像４４において特定された特徴を分析し、箱１６の位置を予測する。具体的には、モジュール５０は、サイズの異なる（すなわち、様々な長さ及び幅を有する）、複数（例えば、５０～１００）の境界ボックスを設ける。これら境界ボックスは、画像４４における所定の位置に箱１６が存在する可能性を特定するめに用いられる。領域提案モジュール５０は、当業者に公知であるスライド検索ウィンドウのテンプレートを使用し、全ての境界ボックスを含む検索ウィンドウが、特徴画像４４で移動される。例えば、この検索ウィンドウは、画像４４の左上から右下まで移動され、該画像４４における箱１６のうちの1つが存在する可能性を特定する特徴を検索する。

スライドウィンドウの検索は、複数の境界ボックス５２を含む境界ボックスマスク画像５４を生成する。各々の境界ボックス５２は、画像４４にて予測された箱を取り囲む。マスク画像５４における境界ボックス５２の数は、ロボット１２が山１８から箱１６を取り除く毎に減らされてもよい。モジュール５０は、各箱５２の中心位置（ｘ，ｙ）、幅（ｗ）及び高さ（ｈ）をパラメータ化し、画像３２において各々の境界ボックス５２が箱１６を覆っていることを示す０％～１００％の間の予測信頼値を提供する。マスク画像５４は、２値区分モジュール５６に提供される。２値区分モジュール５６は、マスクＲ－ＣＮＮ３８を用いて、各々の画素が、各々の境界ボックス５２の箱１６に属しているか否かを推定し、画像３２で箱１６を覆っていない境界ボックス５２の画素を除去する。各々の境界ボックス５２においてマスク画像５４に残った画素に対し、ある特定の箱１６に係る値が付与され、２次元区分マスク画像５８（図５を参照）が生成される。該区分マスク画像５８は、画像３２における箱１６の位置を予測する複数のマスク６０を含む。そして、アルゴリズムは、マスク画像５８において複数のマスク６０の中から、箱１６を覆っていることについて高い信頼値又は可能性を有する１つマスク６０を選択する。

簡単化されたマスクＲ－ＣＮＮ３８は、米国特許出願Ｎｏ．１７／０１５８１７で採用されている深層学習マスクＲ－ＣＮＮよりも複雑性が低いので、マスク画像５８における異色のマスクは、ロボット１２が箱１６を最適な位置及び姿勢で取り上げるのに十分な程度で、箱１６のサイズに正確に従うものではない。換言すれば、箱１６のエッジを検出するマスクＲ－ＣＮＮ３８の正確性は減少されるが、箱１６の中心領域を検出するマスクＲ－ＣＮＮの能力は、十分である。よって、選択されたマスク６０のサイズをさらに改良することが、該選択されたマスク６０がマスキングしている箱１６のサイズに該マスク６０を一致させるのに必要となる。第１の改良ステップとして、アルゴリズムは、深度マップ画像３４を用いて、選択されたマスク６０が、例えばマスク６０の最上層で箱の画素を有し、より下側の層で箱の一部の画素を有するか否かを判定し、該画素を有する場合は、該選択されたマスク６０から、より下側の層の画素を除去する。選択されたマスク６０は、深度ヒストグラムモジュール６２へ送られ、該深度ヒストグラムモジュール６２は、画像３２の最上層に無いマスク６０の画素を除去する。

図６は、深度ヒストグラムの図であって、横軸に深度を、縦軸にカウントを示しており、別々の「バー」（“ｂａｒ”）が、例えばカメラ２４からの深さのセンチメートル毎に定義される。深度マップ画像３４の各画素には、カメラ２４からの距離に依存する値が付与されており、該各画素は、カウントであって、各カウントには、その値に依存するバーが割り当てられている。よって、特定の層における箱１６の画素は、同じバー、又は周囲のバーに割り当てられる。ヒストグラムは、７０ｃｍの最上層の深度でカウントのピーク７０を示し、９０ｃｍの中間層の深度でカウントのピーク７２を示し、１０５ｃｍの最下層の深度でカウントのピーク７４を示している。カメラ２４から０ｃｍのピーク７６は、測定不能で却下された画素からのカウントを含み、カメラ２４から１２０ｃｍのピーク７８は、地面であって、これも却下される。よって、ピーク７０ではないマスク６０の画素は除去され、図７の改良マスク画像６６内に示すように、改良マスク６４が提供される。

改良マスク６４は、未だに、最上層における選択された箱１６の境界を十分正確に予測するものではない。したがって、改良マスク６４は、形態学的動作モジュール８０に送られ、該形態学的動作モジュール８０は、マスク６４の上側及び下側の境界を計算する。マスク６４が覆っている箱１６の境界は、上側の境界と下側の境界との間に在ると解される。より具体的には、アルゴリズムは、拡張プロセス、及び浸食プロセスを実行する。拡張プロセスにおいて、予め定めた数の画素が、改良マスク６４の外側境界に追加される。
浸食プロセスにおいて、予め定めた数の画素が、改良マスク６４の外側境界から除去される。図８は、マスク６４が、下側境界改良マスク８４と上側境界改良マスク８６とに変換された画像８２を示す。

改良マスク８４及び８６は、改良モジュール８８に供給され、該改良モジュール８８は改良プロセスを用いて、マスク６４が覆っている箱１６の実際の境界を定める。このプロセスは、まず、図９に示すように初期画像を生成することを含む。この初期画像は、ＲＧＢ画像３２のクロップ画像であって、上側境界改良マスク８６によって定義された画像３２の領域のみを含む。この初期画像においては、各画素の値は、光強度である。次いで、傾きプロセスが初期画像に実行され、図１０に示すように傾き画像を取得する。この傾き画像は、初期画像と同じ形状を有するが、各画素の強度は、傾き強度に置換されている。より具体的には、このプロセスは、初期画像の各画素についてその近辺（すなわち、上下左右）の画素の強度を特定する。画素の横方向の傾きＧｘが、その右側の画素の強度からその左側の画素の強度を引くことによって定められ、画素の縦方向の傾きＧｙが、その上側の画素の強度からその下側の画素の強度を引くことによって定められる。そして、画素の傾きが、Ｇｘ^２＋Ｇｙ^２の平方根：（Ｇｘ^２＋Ｇｙ^２）^１／２として計算される。したがって、ＲＧＢ画像３２において大きな色調及び強度を有するこれら領域は、より大きな傾きを有し、マスク６４に覆われた箱１６の境界である可能性が高いものと解される。

次いで、1つの水源が、下側境界改良マスク８４に水を導入し、他の水源が上側境界改良マスク８６の外側に水を導入するプロセスをシミュレートするために、傾き画像の画素に対して値を付与する。マスク６４が覆う箱１６の境界を定義していると予測されるピーク傾き画素の両側における下側領域に水が満たされるにつれて、２つの水源からの水は、傾きピークに接触し、該傾きピークは、境界画素としてマークされる。例えば、上側境界改良マスク８６の外側の画素には、ゼロの画素値が付与され、次いで、拡張プロセスが実行される。この拡張プロセスにおいて、画素値の強度が、マスク８６に画素値を拡張するように、増大される。同様に、下側境界改良マスク８４の画素には、１の画素値が付与され、次いで、拡張プロセスが実行される。この拡張プロセスにおいては、画素値の強度が、上側境界マスク８６に画素値を拡張するように、増大される。このプロセスを、図１１Ａ～図１１Ｅに示す。図１１Ａ～図１１Ｅの各々は、傾き画像を示しており、満たされた傾きピークを取り囲む領域を示す。一旦、境界画素が特定されると、図１２の拡張マスク画像９２に示すように拡張マスク９０が生成される。

次いで、拡張マスク９０は、最小境界ボックスモジュール９４に送られる。最小境界ボックスモジュール９４は、拡張マスク９０の姿勢角度（θ）を決定し、以って、該拡張マスク９０が覆う箱１６の姿勢角度を決定する。これにより、ロボット１２が、角度に基づいて、箱１６を取り上げた後に所望の量だけ回転するのを可能とする。モジュール９４は、拡張マスク９０の周りに境界ボックスを回転し、反復最小長方形検索（ｉｔｅｒａｔｉｖｅｍｉｎｉｍｕｍｒｅｃｔａｎｇｌｅｓｅａｒｃｈ）を用いて、そのサイズを減少させて、図１３の境界ボックス画像９８に示す最小境界ボックス９６のような、最小サイズの境界ボックスを取得する。

再度、図２を参照して、最小境界ボックス９６内の画素のｘ－ｙ座標が、次いで、中心画素モジュール１００に提供される。中心画素モジュール１００は、最小境界ボックス９６の中心を定める。中心画素のｘ－ｙ座標は、深度マップ画像３４とともに、直交座標系モジュール１０２に提供される。直交座標系モジュール１０２は、最小境界ボックス９６の中心画素の、直交座標系のｘ－ｙ－ｚ座標を計算する。深度マップ画像３４は、実空間での各画素の位置を既知とする。次いで、最小境界ボックス９６の中心画素のｘ－ｙ－ｚ座標は、エンドエフェクタ１４を位置決めするために、把持位置モジュール１０４においてｘ－ｙ－ｚ把持位置を特定すべく用いられる。エンドエフェクタ１４の把持位置と、縦姿勢モジュール１０６から既知である箱１６の縦の姿勢は、把持姿勢モジュール１０８において、エンドエフェクタ１４の把持姿勢を決定する。この把持姿勢は、ｘ－ｙ－ｚ座標と、エンドエフェクタ１２のヨー、ピッチ、及びロールを含み、エンドエフェクタ１４を箱１６に対して接近させる姿勢を提供する。また、縦の姿勢の代わりに、箱表面の標準姿勢のような、箱１６の他の姿勢が提供され得る。取り上げモジュール１１０で、箱１６を取り上げるためにロボットの移動が行われる。一旦、箱１６が取り上げられると、区分モジュール３６から回転パラメータθを受け付ける対象物回転モジュール１１２が、例えばコンベアベルト２２上に箱１６を適切に整列させるように、ロボット１２に箱１６を、回転パラメータθによって決定される所望の角度だけ、ｘ方向、ｙ方向及びｚ方向の全てにおいて回転させる。次いで、ロボット１２は、その前に取り上げた箱１６を山１８から取り除いたところで、新たなＲＧＢ画像及び深度マップ画像を供給するようにカメラ２４に信号を送る。以上のプロセスが、全ての箱１６がロボット１２によって取り上げられてコンベアベルト２２上に置かれるまで、継続される。

上述したように、簡単化されたマスクＲ－ＣＮＮ３８は、箱１６のエッジを正確に予測することはできないが、箱１６の中心領域を正確に予測することができる。図１４に、画像区分システム１２０のブロック図を示す。システム１２０は、深層学習ニューラルネットワーク１２２を備え、該深層学習ニューラルネットワーク１２２は、ノード１２６を含む複数の層１２４を有し、箱１３２の群１３０のＲＧＢ画像１２８を受け付ける。ニューラルネットワーク１２２は、マスクＲ－ＣＮＮ、又は他のタイプの深層学習ニューラルネットワークであり得る。ニューラルネットワーク１２２は、上述した方法で、又は、箱１３２の中心領域１３６の正確な描写を含む、区分画像１３４を生成する。区分画像１３４は、区分画像５８と同様であってもよい。上述した動作は、全般的に、箱の位置を予測するのに限らず、如何なる適切な対象物の群から、該対象物の位置を予測するのに用いることもできる。

以上の説明では、簡単化されたマスクＲ－ＣＮＮ３８によって提供される箱１６の中心領域の正確な予測を用いて、区分画像５８において箱１６のエッジを正確に決定するモジュール６２、８０、８８及び９０を用いた、「従来の」技術を採用した。しかしながら、箱１６のエッジを予測するために、従来の他の技術を採用してもよい。図１５に、ＲＧＢ画像１２８において箱１３２のエッジを特定可能な従来のシステム１４０のブロック図を示す。この非限定的な実施形態においては、ピクセル同士の乗算プロセスが、９個のボックス１４４のスライドマトリクス１４２を用いて実行され、マトリクス１４２の中心のボックスの強度値（図４の例では、４の強度値）を定める。該中心のボックスは、画像１２８の画素のうちの１つである。横方向の中心ボックスの値は、平均値を得るために、左側と右側のボックスの値を減算することによって、決定される。同様に、縦方向の中心ボックスの値は、平均値を得るために、上側と下側のカーネルの値を減算することによって、決定される。マトリクス１４２は、画像１２８中の各画素の強度値をこのように決定するように、画像１２８上でスライドされ、高い強度の画素は、箱１３２のエッジであると解される。これにより、エッジ画像１４６が生成され、推測される箱１３２のエッジは、高強度の線１４８によって示される。したがって、区分画像１３４がシステム１４０への入力である場合、中心領域１３６の周囲の高強度線は、特定の中心領域１３６と関連付けられた箱１３２のエッジとして特定可能となる。

当業者であれば理解できるように、本開示で説明した様々なステップ及びプロセスは、電子現象を用いてデータを操作及び／又は変換するコンピュータ、プロセッサ、又は他の電子演算装置によって実行される動作を言及している。これらコンピュータ及び電子装置は、コンピュータ読取可能な非一時的記録媒体を含む、揮発性及び／又は不揮発性のメモリを使用するとともに、該メモリに記憶された、コンピュータ又はプロセッサによって実行可能な種々のコード又は実行可能な命令を含む、実行可能なコンピュータプログラムを使用する。このメモリ及び／又はコンピュータ読取可能な媒体は、如何なる形態及びタイプのメモリ及び／又はコンピュータ読取可能な媒体を含んでもよい。

上述の説明では、本開示の例示的実施形態を開示しているだけである。当業者であれば、このような説明、添付の図面、及びクレームから、クレームに規定されているような本開示の概念及び範囲から逸脱することなく、実施形態に種々の変更、修正及び変形例を加えることができることを、容易に理解されよう。

Claims

一群の対象箱から対象箱を取り上げる方法であって、
３次元カメラを用いて、前記箱の２次元三原色（ＲＧＢ）画像を取得し、
前記３次元カメラを用いて、前記箱の２次元深度マップ画像を取得し、該深度マップ画像の画素には、前記カメラから前記箱までの距離を特定する値が付与され、
ニューラルネットワークにおいて画像区分プロセスを実行することで、前記箱の区分マスク画像を生成し、該画像区分プロセスにおいて、前記ＲＧＢ画像から特徴を抽出し、抽出した該特徴を用いて、前記ＲＧＢ画像中のいずれの画素が各箱と関連付けられているかを予測し、該各箱と関連付けられている該画素には、前記箱のためのマスクを定義するように結び付ける固有のラベルが付与され、
前記区分マスク画像において、前記マスクのうちの１つを選択し、
選択した前記マスクと関連付けられた前記対称箱よりも下側の対象箱に関連付けられ得る、該選択したマスクの画素を特定して除去して、改良マスクを設け、
形態学的プロセスを用いて、前記改良マスクから下側境界マスク及び上側境界マスクを生成し、
改良プロセスを用いて、前記下側境界マスク及び前記上側境界マスクから拡張マスクを生成し、
前記拡張マスクを用いて、前記箱を取り上げるための位置を特定する、方法。
前記ニューラルネットワークは、簡単化されたマスクＲ－ＣＮＮ（畳み込みニューラルネットワーク）である、請求項１に記載の方法。
前記区分マスク画像を生成するときに、
複数の境界ボックスを設け、
前記境界ボックスを前記抽出した特徴と並べ、
前記対称箱を取り囲む前記境界ボックスを含む境界ボックス画像を設ける、請求項１に記載の方法。
前記区分マスク画像を生成するときに、各境界ボックスに対称箱が存在する可能性を決定する、請求項３に記載の方法。
前記区分マスク画像を生成するときに、前記境界ボックス画像中の各境界ボックスから、対象箱と関連付けられていない画素を除去する、請求項３に記載の方法。
前記選択したマスクの画素を特定して除去するときに、前記深度マップ画像を用いる、請求項１に記載の方法。
前記下側境界マスク及び前記上側境界マスクを生成するときに、
予め定めた数の画素を、前記改良マスクの外側境界に追加する拡張プロセスと、
予め定めた数の画素を、前記改良マスクの外側境界から除去する浸食プロセスと、
を実行する、請求項１に記載の方法。
前記拡張マスクを生成するときに、
前記上側境界マスクによって定義された前記ＲＧＢ画像の領域のみを含む初期画像を生成し、該初期画像における各画素の値は、光強度であり、
前記初期画像から傾き画像を生成し、該傾き画像において、各画素の強度は、その近辺の画素に基づいて傾き強度に置換され、
前記傾き画像においてピークを特定するために、前記画素の強度を拡張する、請求項１に記載の方法。
前記拡張マスクの周りに最小サイズの境界ボックスを当て嵌めることによって、前記拡張マスクの姿勢角度（θ）を決定する、請求項１に記載の方法。
前記拡張マスクの周りに最小サイズの境界ボックスを当て嵌めるときに、反復最小長方形検索を用いて、前記拡張マスクを取り囲む最小サイズの境界ボックスを取得する、請求項１に記載の方法。
前記対称箱を取り上げるための位置を特定するときに、
最終的な境界ボックスの中心画素を特定し、
前記中心画素の位置と前記深度マップ画像とを用いて、該中心画素のｘ－ｙ－ｚ座標を計算する、請求項１に記載の方法。
前記対称箱を取り上げるための位置を特定するときに、前記ｘ－ｙ－ｚ座標と、ピッチ、ヨー、及びロールの位置とを用いて、前記対象箱を取り上げるための把持姿勢を決定する、請求項１１に記載の方法。
前記対象物をロボットによって取り上げ、
前記把持姿勢は、前記ロボットのエンドエフェクタの姿勢を定める、請求項１２に記載の方法。
一群の対象物から対象物を選択する方法であって、
３次元カメラを用いて、前記対象物の２次元三原色（ＲＧＢ）画像を取得し、
ニューラルネットワークにおいて画像区分プロセスを実行することで、前記対象物の区分マスク画像を生成し、該画像区分プロセスにおいて、前記ＲＧＢ画像から特徴を抽出し、抽出した該特徴を用いて、前記ＲＧＢ画像中のいずれの画素が各対象物と関連付けられているかを予測し、該各対象物と関連付けられている該画素には、前記対象物のためのマスクを定義するように結び付ける固有のラベルが付与され、
前記区分マスク画像において、前記マスクのうちの１つを選択し、
選択した前記マスクと関連付けられた前記対象物よりも下側の対象物に関連付けられ得る、該選択したマスクの画素を特定して除去して、改良マスクを設け、
形態学的プロセスを用いて、前記改良マスクから下側境界マスク及び上側境界マスクを生成し、
改良プロセスを用いて、前記下側境界マスク及び前記上側境界マスクから拡張マスクを生成し、
前記拡張マスクを用いて、前記対象物の位置を特定する、方法。
前記ニューラルネットワークは、簡単化されたマスクＲ－ＣＮＮ（畳み込みニューラルネットワーク）である、請求項１４に記載の方法。
前記区分マスク画像を生成するときに、
複数の境界ボックスを設け、
前記境界ボックスを前記抽出した特徴と並べ、
前記対象物を取り囲む前記境界ボックスを含む境界ボックス画像を設ける、請求項１４に記載の方法。
前記区分マスク画像を生成するときに、各境界ボックスに対称物が存在する可能性を決定する、請求項１６に記載の方法。
前記区分マスク画像を生成するときに、前記境界ボックス画像中の各境界ボックスから、対象物と関連付けられていない画素を除去する、請求項１６に記載の方法。
前記選択したマスクの画素を特定して除去するときに、前記深度マップ画像を用いる、請求項１４に記載の方法。
前記下側境界マスク及び前記上側境界マスクを生成するときに、
予め定めた数の画素を、前記改良マスクの外側境界に追加する拡張プロセスと、
予め定めた数の画素を、前記改良マスクの外側境界から除去する浸食プロセスと、
を実行する、請求項１に記載の方法。
前記拡張マスクを生成するときに、
前記上側境界マスクによって定義された前記ＲＧＢ画像の領域のみを含む初期画像を生成し、該初期画像における各画素の値は、光強度であり、
前記初期画像から傾き画像を生成し、該傾き画像において、各画素の強度は、その近辺の画素に基づいて傾き強度に置換され、
前記傾き画像においてピークを特定するために、前記画素の強度を拡張する、請求項１４に記載の方法。
前記拡張マスクの周りに最小サイズの境界ボックスを当て嵌めることによって、前記拡張マスクの姿勢角度（θ）を決定する、請求項１４に記載の方法。
前記拡張マスクの周りに最小サイズの境界ボックスを当て嵌めるときに、反復最小長方形検索を用いて、前記拡張マスクを取り囲む最小サイズの境界ボックスを取得する、請求項１に記載の方法。
一群の対象箱から対象箱を取り上げるシステムであって、
３次元カメラを用いて、前記箱の２次元三原色（ＲＧＢ）画像を取得する手段と、
前記３次元カメラを用いて、前記箱の２次元深度マップ画像を取得し、該深度マップ画像の画素には、前記カメラから前記箱までの距離を特定する値が付与され、
ニューラルネットワークにおいて画像区分プロセスを実行することで、前記箱の区分マスク画像を生成する手段であって、該画像区分プロセスにおいて、前記ＲＧＢ画像から特徴を抽出し、抽出した該特徴を用いて、前記ＲＧＢ画像中のいずれの画素が各箱と関連付けられているかを予測し、該各箱と関連付けられている該画素には、前記箱のためのマスクを定義するように結び付ける固有のラベルが付与されている、手段と、
前記区分マスク画像において、前記マスクのうちの１つを選択する手段と、
選択した前記マスクと関連付けられた前記対称箱よりも下側の対象箱に関連付けられ得る、該選択したマスクの画素を特定して除去して、改良マスクを設ける手段と、
形態学的プロセスを用いて、前記改良マスクから下側境界マスク及び上側境界マスクを生成する手段と、
改良プロセスを用いて、前記下側境界マスク及び前記上側境界マスクから拡張マスクを生成する手段と、
前記拡張マスクを用いて、前記箱を取り上げるための位置を特定する手段と、を備える、システム。
一群の対象物から対象物を選択する方法であって、
３次元カメラを用いて、前記対象物の２次元三原色（ＲＧＢ）画像を取得し、
ニューラルネットワークにおいて画像区分プロセスを実行することで、前記対象物の区分マスク画像を生成し、該画像区分プロセスにおいて、前記ＲＧＢ画像から特徴を抽出し、抽出した該特徴を用いて、前記ＲＧＢ画像中のいずれの画素が各対象物の中心領域と関連付けられているかを予測し、
前記区分マスク画像を用いて、前記対象物のエッジ画像を生成し、該エッジ画像は、前記中心領域の周りに線を有し、該線は、該区分マスク画像の画素の強度変化によって設けられる、方法。
前記ニューラルネットワークは、マスクＲ－ＣＮＮである、請求項２５に記載の方法。