JP2023081310A - サイズが混在する対象物をパレットから取り出すためのアルゴリズム - Google Patents

サイズが混在する対象物をパレットから取り出すためのアルゴリズム Download PDF

Info

Publication number
JP2023081310A
JP2023081310A JP2022183815A JP2022183815A JP2023081310A JP 2023081310 A JP2023081310 A JP 2023081310A JP 2022183815 A JP2022183815 A JP 2022183815A JP 2022183815 A JP2022183815 A JP 2022183815A JP 2023081310 A JP2023081310 A JP 2023081310A
Authority
JP
Japan
Prior art keywords
mask
image
box
pixels
generating
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2022183815A
Other languages
English (en)
Inventor
トー タン
Te Tang
哲朗 加藤
Tetsuro Kato
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fanuc Corp
Original Assignee
Fanuc Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fanuc Corp filed Critical Fanuc Corp
Publication of JP2023081310A publication Critical patent/JP2023081310A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/26Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/70Determining position or orientation of objects or cameras
    • G06T7/73Determining position or orientation of objects or cameras using feature-based methods
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B25HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
    • B25JMANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
    • B25J9/00Programme-controlled manipulators
    • B25J9/16Programme controls
    • B25J9/1679Programme controls characterised by the tasks executed
    • B25J9/1687Assembly, peg and hole, palletising, straight line, weaving pattern movement
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B25HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
    • B25JMANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
    • B25J9/00Programme-controlled manipulators
    • B25J9/16Programme controls
    • B25J9/1694Programme controls characterised by use of sensors other than normal servo-feedback from position, speed or acceleration sensors, perception control, multi-sensor controlled systems, sensor fusion
    • B25J9/1697Vision controlled systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/11Region-based segmentation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/12Edge-based segmentation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/155Segmentation; Edge detection involving morphological operators
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/187Segmentation; Edge detection involving region growing; involving region merging; involving connected component labelling
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/194Segmentation; Edge detection involving foreground-background segmentation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/30Determination of transform parameters for the alignment of images, i.e. image registration
    • G06T7/33Determination of transform parameters for the alignment of images, i.e. image registration using feature-based methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/50Depth or shape recovery
    • G06T7/55Depth or shape recovery from multiple images
    • G06T7/593Depth or shape recovery from multiple images from stereo images
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/34Smoothing or thinning of the pattern; Morphological operations; Skeletonisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/60Type of objects
    • G06V20/64Three-dimensional objects
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05BCONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
    • G05B2219/00Program-control systems
    • G05B2219/30Nc systems
    • G05B2219/40Robotics, robotics mapping to robotics vision
    • G05B2219/40006Placing, palletize, un palletize, paper roll placing, box stacking
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05BCONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
    • G05B2219/00Program-control systems
    • G05B2219/30Nc systems
    • G05B2219/40Robotics, robotics mapping to robotics vision
    • G05B2219/40607Fixed camera to observe workspace, object, workpiece, global
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10004Still image; Photographic image
    • G06T2207/10012Stereo images
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10024Color image
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10028Range image; Depth image; 3D point clouds
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20036Morphological image processing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Multimedia (AREA)
  • Evolutionary Computation (AREA)
  • Robotics (AREA)
  • Mechanical Engineering (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Molecular Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Image Analysis (AREA)
  • Manipulator (AREA)

Abstract

【課題】ロボットによって取り上げるべき箱を、一群の箱の中から特定するためのシステム及び方法を提供する。【解決手段】本方法は、3次元カメラを用いて、箱の2次元三原色(RGB)画像と、2次元深度マップ画像とを取得する。本方法は、画像区分プロセスを用いる。画像区分プロセスは、CPUによって実行可能な、簡単化されたマスクR-CNNを用いて、RGB画像中のいずれの画素が各箱と関連付けられているかを予測する。各箱と関連付けられている画素には、該箱のためのマスクを定義するように結び付ける固有のラベルが付与される。そして、本方法は、区分画像を用いて、箱を取り上げるための位置を特定する。【選択図】図2

Description

本開示は、概して、ロボットによって取り上げるべき対象物を一群の対象物の中から特定するためのシステム及び方法に関し、特に、ロボットによって取り上げるべき箱を、積み重ねられた箱の中から特定するためのシステム及び方法に関する。この方法では、画像区分プロセスが用いられ、該画像区分プロセスは、箱の中心領域を予測し、該中心領域の周囲の箱のエッジを識別するための従来動作を予測するために、簡単化されたマスクR-CNN、又は、中央演算処理装置(CPU)によって実現可能な他のニューラルネットワークを用いる。
ロボットは、多くの商用タスクを実行する。この商用タスクとしては、対象物を取り出して置く動作がある。この動作では、ロボットは、対象物を取り上げて、ある場所から別の場所まで移動させる。例えば、ロボットは、パレットから箱を取り上げてコンベアベルト上に置く。このとき、ロボットは、箱を保持するための吸着カップを有するエンドエフェクタを用い得る。ロボットが箱を効果的に取り上げるために、ロボットは、取り上げる箱の幅、長さ及び高さを既知とする必要があり、該幅、該長さ及び該高さは、対象物を取り上げて置く動作を実行する前に、ロボット制御部に入力される。しかしながら、同じパレット上に異なるサイズの対象物が存在する場合がしばしば在り、これにより、対象物を取り上げて置く動作の間、箱のサイズをロボットに入力することが非効率的になる。また、箱が同じ高さで隣り合って置かれる場合があり、この場合はこれらの箱が別々であるのか、又は1つの大きな箱であるのか、区別するのが困難となる。
対象物を取り上げて置く公知のロボットの1つにおいて、ロボットが取り上げる箱の幅、長さ及び高さが、最初にシステムに入力される。3次元カメラが、積み重ねられた箱を上から下へ撮像し、箱の2次元グレー画像と、箱の2次元グレースケール深度マップ画像とを生成する。深度マップ画像においては、各画素は、カメラから箱までの距離を規定する値を有し、この値は、画素が対象物に近い程、小さくなる。ロボット制御部は、箱の幅及び長さに基づいて一連の投影テンプレートを生成し、各々のテンプレートは、カメラと箱との間の所定の距離に関して所定のサイズを有する。深度マップ画像に示される箱の距離に関するテンプレートは、検索プロセスにおいて2次元グレー画像の周りに移動され、テンプレートがグレー画像内の箱と一致又は整列したときに、ロボット制御部は、箱の位置を認識し、該位置を箱の中心を定義するために使用して、ロボットを制御して箱を取り上げる。
本願の出願人による米国特許出願No.17/015817(2020年9月9日出願 発明の名称「サイズが混在する対象物のパレットからの取り出し」 この言及を以って本稿に組み入れられるものとする)は、積み重ねられた箱から、ロボットによって取り上げるべき箱を特定するシステム及び方法を開示している。この方法では、3次元カメラを用いて、箱の2次元三原色(RGB)画像と、箱の深度マップ画像とを取得する。この深度マップ画像においては、画素に対し、カメラから箱までの距離を特定する値が付与される。この方法では、深層学習マスクR-CNN(畳み込みニューラルネットワーク)が用いられ、該マスクR-CNNは、画像区分プロセスを実行することによって、箱の区分画像を生成する。該画像区分プロセスにおいては、RGB画像及び深度マップ画像から特徴を抽出し、画像から抽出した特徴を組み合わせ、区分画像における各箱が同じラベルを有するように、特徴画像の画素にラベルを付与する。そして、この方法では、区分画像を用いて、箱を取り上げるための位置を特定する。
米国特許出願No.17/015817に開示されている方法は、ロボットによる取り上げのために、積み重ねられた箱から1つの箱を特定するのには効果的である。しかしながら、この方法では、画像のフィルタリングステップ、2値区分ステップのために、深層学習ニューラルネットワークを用いている。このような深層学習ニューラルネットワークは、顕著な処理を要し、現実的且つ実用的なロボットの取り上げ時間とするべく、深層学習ニューラルネットワークの演算のためにグラフィックス演算処理装置(GPU)を用いることが必要となる。このGPUは、並行処理により、CPUよりも遥かに高速である。例えば、米国特許出願No.17/015817の方法において、ニューラルネットワーク処理にCPUを使用することで、取り上げ対象の箱を特定するのに、約2.272秒を要する。一方、ニューラルネットワーク処理にGPUを用いると、このプロセスに僅か約0.1185秒を要する。しかしながら、ロボットシステムのような産業用途では、現在使用されている標準プロトコル、及び、システムが曝される厳しい環境に起因して、GPUの使用は、現在のところ進んでいない。
以下の説明において、ロボットによって取り上げるべき箱を、積み重ねられた箱の中から特定するためのシステム及び方法を開示する。この方法は、3次元カメラを用いて、箱の2次元三原色(RGB)画像と、2次元深度マップ画像とを取得し、該深度マップ画像における画素に対し、カメラから箱までの距離を特定する値を付与する。また、この方法は、CPUによって実現可能な、簡単化されたマスクR-CNN(畳み込みニューラルネットワーク)において画像区分プロセスを実行することにより、箱の区分マスク画像を生成する。画像区分プロセスは、RGB画像から特徴を抽出し、抽出した特徴を用いて、RGB画像中のどの画素が各箱と関連付けられているか、予測する。各箱と関連付けられている画素には、箱のためのマスクを定義するように結び付ける固有のラベルを付与する。この方法は、区分マスク画像におけるマスクのうちの1つを選択し、マスクと関連付けられた箱よりも下側の箱に関連付けられ得る、選択されたマスクの画素を特定して除去して、改良マスクを設ける。この方法は、次いで、形態学的プロセスを用いて、改良マスクから下側境界マスクと上側境界マスクを生成し、改良プロセスを用いて、下側境界マスク及び上側境界マスクから拡張マスクを生成する。この方法は、次いで、拡張マスクを用いて、箱を取り上げるための位置を特定する。
本開示のさらなる特徴は、以下の図面を参照した説明及び特許請求の範囲から明らかとなるであろう。
パレットから箱を取り上げてコンベアベルト上に置くロボットを備えるロボットシステムの図である。 図1のロボットシステムの一部である、サイズが混在する対象物をパレットから取り出すシステムのブロック図である。 図2のシステムから分離された区分モジュールのブロック図である。 図3に示すシステムから分離された、簡単化されたマスクR-CNNのブロック図である。 図4に示すマスクR-CNNによって生成された区分マスク画像を示す。 深度を横軸に、カウントを縦軸に示すヒストグラムのグラフを示し、積み重ねられた箱のカウントのピークを表す。 下側の画素が除去された状態の改良マスクを含むマスク画像を示す。 上側境界マスク及び下側境界マスクを含むマスク画像を示す。 上側境界マスクの初期画像を示し、該初期画像における各画素の値が低密度である状態を示す。 図9の初期画像の傾き画像を示す。 傾きピークを囲む領域を図示した傾き画像を示す。 傾きピークを囲む領域を図示した傾き画像を示す。 傾きピークを囲む領域を図示した傾き画像を示す。 傾きピークを囲む領域を図示した傾き画像を示す。 傾きピークを囲む領域を図示した傾き画像を示す。 拡張マスクを含む拡張マスク画像を示す。 拡張マスク画像から生成される境界ボックス画像を示し、最小境界ボックスを示す。 深層学習ニューラルネットワークを用いて、一群の対象物の中の対象物の中心領域を検出するための区分システムのブロック図である。 従来の区分プロセスを用いて、一群の対象物の中の対象物のエッジを検出するための区分システムのブロック図である。
以下に説明する本開示の実施形態は、ロボットによって取り上げるべき箱を、積み重ねられた箱の中から特定するためのシステム及び方法に関する。この方法では、CPUによって実現可能な、簡単化されたマスクR-CNNを用いる画像区分プロセスを用いて、RGB画像中のどの画素が各箱と関連付けられているかを予測する。しかしながら、この実施形態は、単なる一例であって、本発明、又は、アプリケーション若しくは使用を限定するものではない。例えば、システム及び方法は、ロボットによって取り上げるべき箱を特定するためのアプリケーションを有してもよい。しかしながら、システム及び方法は、他のアプリケーションを有してもよい。
図1は、ロボット12を備えるロボットシステム10の図を示している。ロボット12は、パレット20上に積み重ねられた箱16の山18から該箱16を取り上げて、コンベアベルト22上に置くエンドエフェクタ14を有する。システム10は、本説明から利益を得る如何なるタイプのロボットシステムを意図している。また、ロボット12は、本開示の目的に適した如何なるロボットであってもよい。3次元カメラ24は、箱16の山18の2次元RGB画像及び深度マップ画像を、上から下へ撮像するように配置され、撮像した画像を、ロボット12の移動を制御するロボット制御部26に供給する。箱16は、パレットから20上で異なる姿勢を有していてもよく、パレット20上で複数の層に積み重ねられてもよく、また、異なるサイズを有してもよい。
以下に詳述するように、ロボット制御部26は、所定のアルゴリズムを用いる。このアルゴリズムは、箱16の幅、長さ及び高さを予めロボット制御部26に入力することなく、また、箱16の投影テンプレートを生成する必要もなく、ロボット12が取り上げる箱16の各々のサイズを決定する。より具体的には、このアルゴリズムは、画像区分プロセスを実行し、該画像区分プロセスは、画像中の全ての画素にラベルを付与し、同じラベルを有するピクセルは、所定の特性を共有する。よって、画像区分プロセスは、どの画素がどの箱16に属しているかを予測し、異なる印は、異なる箱16を表す。
昨今の画像区分技術は、深層学習テクノロジーを用いる。深層学習は、特定のタイプの機械学習のであって、増加する複合概念の階層として現実世界を表すことで、より優れた学習性能を提供する。深層学習は、典型的には、複数層のニューラルネットワークを有するソフトウェア構造を用いており、該複数層のニューラルネットワークは、非線形の処理を実行し、連続する層の各々は、その前の層からの出力を受け付ける。一般的には、複数の層は、センサからの生データを受け付ける入力層と、データから抽象的な特徴を抽出する複数の隠れ層と、該隠れ層から抽出された特徴に基づいて、ある事柄を特定する出力層とを含む。ニューラルネットワークは、ニューロン又はノードを有し、各々のニューロン又はノードは、「重み」を有する。この「重み」は、ノードへの入力によって乗算され、ある事柄が正しいか否かの可能性を取得する。より具体的には、各々のノードは、浮動小数点数である重みを有し、該重みは、ノードへの入力で乗算され、該ノードの出力を生成する。この出力は、入力の何らかの比率となる。重みは、最初は「教育され」、又は、教師あり処理の下、ニューラルネットワークに既知のデータセットを分析させて、ニューラルネットワークに高い確率で正しい出力を取得可能とするように項費用関数を最小化することで、設定される。深層学習ニューラルネットワークは、画像特徴の抽出と、画像中の対象物の視覚的検知及び分類のための変換とのために、しばしば用いられる。このとき、画像のビデオ又はストリームは、対象物を特定して分類し、対象物をより良好に認識するためのプロセスを通して学習するために、ネットワークによって分析される。このように、このタイプのネットワークにおいて、システムは、アルゴリズムが対象物を認識するためにどのように学習してきたのかに基づいて、複数の対象物を別々に検知して分類するための、同じ処理構成を有し得る。
ニューラルネットワークにおける複数の層の数、及び層内のノードの個数は、ネットワークの複雑性、計算時間、及び性能の正確性を決定する。ニューラルネットワークの複雑性は、該ネットワーク内の層の数、層内のノードの数、又はその双方を減らすことで、減少させることができる。しかしながら、ネットワークの複雑性を減少させると、学習の正確性が減少することになる。また、層内のノードの個数を減少させることは、ネットワーク内の層の数を減少させることに対し、正確性において有利となることが知られている。米国特許出願No.17/015817は、深層学習マスクR-CNNの修正形態である区分を設けるために、深層学習ニューラルネットワークを用いている。本開示は、米国特許出願No.17/015817と同様に取り上げるべき箱の位置を、米国特許出願No.17/015817と同様に特定するための区分プロセスを実行する、より小型の圧縮された深層学習ニューラルネットワークを用いることを提案する。本稿では、これを簡単化されたマスクR-CNNとして言及する。この構成によると、CPUは、演算を実行し、ロボット12のための適切な計算時間(例えば、0.528秒)を有するように、用いられ得る。非限定的な一実施形態において、層内のノードの個数を半分に減らすことによって、ニューラルネットワークのサイズを達成する。しかしながら、ニューラルネットワーク内のノードの個数を減らすことで、箱16の位置及び姿勢を正確に予測するためのニューラルネットワークの能力が、顕著に減退し、箱16のエッジを予測することが困難となる。例えば、区分プロセスは、画像中で箱16の全体を特定するのを確実にするために、より大きな境界ボックスを使用することを必要とし得る。したがって、ロボット12によって取り上げられる箱16の位置をより正確に特定するために、追加の処理ステップが実行される。
図2は、サイズが混在する対象物をパレットから取り出すシステム30のブロック図であって、該システム30は、パレット20から箱16を取り上げるように動作するロボットシステム10の制御部26の一部である。このシステム30は、演算を実行するCPU28を有する。システム30は、パット20上に配置された箱16を上から見た2次元RGB画像32及び2次元深度マップ画像34を、カメラ24から受け付ける。画像32及び34は、簡単化されたマスクR-CNNを用いて画像区分プロセスを実行する区分モジュール36に供給される。区分されたマスクにおける各々の画素は、所定のラベルを付与され、同じ箱16と関連付けられた画素は、同じラベルを有する。
図3は、システム30から分離されたモジュール36のブロック図である。RGB画像32及び深度画像34は、簡単化されたマスクR-CNN38へ供給され、該マスクR-CNN38は、米国特許出願No.17/015817の深層学習マスクR-CNNと、同じ又は同様に動作する。図4は、モジュール36から分離されたマスクR-CNN38のブロック図である。RGB画像32は、抽出モジュール40に供給され、該抽出モジュール40は、該画像32から特徴を抽出するフィルタリングプロセスを実行する。例えば、モジュール40は、傾き、エッジ、輪郭、基本形状等を画像32から抽出し、抽出したRGB画像32の特徴の画像44を生成する。特徴画像44は、領域提案モジュール50に供給され、該領域提案モジュール50は、マスクR-CNN38を用いて、特徴画像44において特定された特徴を分析し、箱16の位置を予測する。具体的には、モジュール50は、サイズの異なる(すなわち、様々な長さ及び幅を有する)、複数(例えば、50~100)の境界ボックスを設ける。これら境界ボックスは、画像44における所定の位置に箱16が存在する可能性を特定するめに用いられる。領域提案モジュール50は、当業者に公知であるスライド検索ウィンドウのテンプレートを使用し、全ての境界ボックスを含む検索ウィンドウが、特徴画像44で移動される。例えば、この検索ウィンドウは、画像44の左上から右下まで移動され、該画像44における箱16のうちの1つが存在する可能性を特定する特徴を検索する。
スライドウィンドウの検索は、複数の境界ボックス52を含む境界ボックスマスク画像54を生成する。各々の境界ボックス52は、画像44にて予測された箱を取り囲む。マスク画像54における境界ボックス52の数は、ロボット12が山18から箱16を取り除く毎に減らされてもよい。モジュール50は、各箱52の中心位置(x,y)、幅(w)及び高さ(h)をパラメータ化し、画像32において各々の境界ボックス52が箱16を覆っていることを示す0%~100%の間の予測信頼値を提供する。マスク画像54は、2値区分モジュール56に提供される。2値区分モジュール56は、マスクR-CNN38を用いて、各々の画素が、各々の境界ボックス52の箱16に属しているか否かを推定し、画像32で箱16を覆っていない境界ボックス52の画素を除去する。各々の境界ボックス52においてマスク画像54に残った画素に対し、ある特定の箱16に係る値が付与され、2次元区分マスク画像58(図5を参照)が生成される。該区分マスク画像58は、画像32における箱16の位置を予測する複数のマスク60を含む。そして、アルゴリズムは、マスク画像58において複数のマスク60の中から、箱16を覆っていることについて高い信頼値又は可能性を有する1つマスク60を選択する。
簡単化されたマスクR-CNN38は、米国特許出願No.17/015817で採用されている深層学習マスクR-CNNよりも複雑性が低いので、マスク画像58における異色のマスクは、ロボット12が箱16を最適な位置及び姿勢で取り上げるのに十分な程度で、箱16のサイズに正確に従うものではない。換言すれば、箱16のエッジを検出するマスクR-CNN38の正確性は減少されるが、箱16の中心領域を検出するマスクR-CNNの能力は、十分である。よって、選択されたマスク60のサイズをさらに改良することが、該選択されたマスク60がマスキングしている箱16のサイズに該マスク60を一致させるのに必要となる。第1の改良ステップとして、アルゴリズムは、深度マップ画像34を用いて、選択されたマスク60が、例えばマスク60の最上層で箱の画素を有し、より下側の層で箱の一部の画素を有するか否かを判定し、該画素を有する場合は、該選択されたマスク60から、より下側の層の画素を除去する。選択されたマスク60は、深度ヒストグラムモジュール62へ送られ、該深度ヒストグラムモジュール62は、画像32の最上層に無いマスク60の画素を除去する。
図6は、深度ヒストグラムの図であって、横軸に深度を、縦軸にカウントを示しており、別々の「バー」(“bar”)が、例えばカメラ24からの深さのセンチメートル毎に定義される。深度マップ画像34の各画素には、カメラ24からの距離に依存する値が付与されており、該各画素は、カウントであって、各カウントには、その値に依存するバーが割り当てられている。よって、特定の層における箱16の画素は、同じバー、又は周囲のバーに割り当てられる。ヒストグラムは、70cmの最上層の深度でカウントのピーク70を示し、90cmの中間層の深度でカウントのピーク72を示し、105cmの最下層の深度でカウントのピーク74を示している。カメラ24から0cmのピーク76は、測定不能で却下された画素からのカウントを含み、カメラ24から120cmのピーク78は、地面であって、これも却下される。よって、ピーク70ではないマスク60の画素は除去され、図7の改良マスク画像66内に示すように、改良マスク64が提供される。
改良マスク64は、未だに、最上層における選択された箱16の境界を十分正確に予測するものではない。したがって、改良マスク64は、形態学的動作モジュール80に送られ、該形態学的動作モジュール80は、マスク64の上側及び下側の境界を計算する。マスク64が覆っている箱16の境界は、上側の境界と下側の境界との間に在ると解される。より具体的には、アルゴリズムは、拡張プロセス、及び浸食プロセスを実行する。拡張プロセスにおいて、予め定めた数の画素が、改良マスク64の外側境界に追加される。
浸食プロセスにおいて、予め定めた数の画素が、改良マスク64の外側境界から除去される。図8は、マスク64が、下側境界改良マスク84と上側境界改良マスク86とに変換された画像82を示す。
改良マスク84及び86は、改良モジュール88に供給され、該改良モジュール88は改良プロセスを用いて、マスク64が覆っている箱16の実際の境界を定める。このプロセスは、まず、図9に示すように初期画像を生成することを含む。この初期画像は、RGB画像32のクロップ画像であって、上側境界改良マスク86によって定義された画像32の領域のみを含む。この初期画像においては、各画素の値は、光強度である。次いで、傾きプロセスが初期画像に実行され、図10に示すように傾き画像を取得する。この傾き画像は、初期画像と同じ形状を有するが、各画素の強度は、傾き強度に置換されている。より具体的には、このプロセスは、初期画像の各画素についてその近辺(すなわち、上下左右)の画素の強度を特定する。画素の横方向の傾きGxが、その右側の画素の強度からその左側の画素の強度を引くことによって定められ、画素の縦方向の傾きGyが、その上側の画素の強度からその下側の画素の強度を引くことによって定められる。そして、画素の傾きが、Gx+Gyの平方根:(Gx+Gy1/2として計算される。したがって、RGB画像32において大きな色調及び強度を有するこれら領域は、より大きな傾きを有し、マスク64に覆われた箱16の境界である可能性が高いものと解される。
次いで、1つの水源が、下側境界改良マスク84に水を導入し、他の水源が上側境界改良マスク86の外側に水を導入するプロセスをシミュレートするために、傾き画像の画素に対して値を付与する。マスク64が覆う箱16の境界を定義していると予測されるピーク傾き画素の両側における下側領域に水が満たされるにつれて、2つの水源からの水は、傾きピークに接触し、該傾きピークは、境界画素としてマークされる。例えば、上側境界改良マスク86の外側の画素には、ゼロの画素値が付与され、次いで、拡張プロセスが実行される。この拡張プロセスにおいて、画素値の強度が、マスク86に画素値を拡張するように、増大される。同様に、下側境界改良マスク84の画素には、1の画素値が付与され、次いで、拡張プロセスが実行される。この拡張プロセスにおいては、画素値の強度が、上側境界マスク86に画素値を拡張するように、増大される。このプロセスを、図11A~図11Eに示す。図11A~図11Eの各々は、傾き画像を示しており、満たされた傾きピークを取り囲む領域を示す。一旦、境界画素が特定されると、図12の拡張マスク画像92に示すように拡張マスク90が生成される。
次いで、拡張マスク90は、最小境界ボックスモジュール94に送られる。最小境界ボックスモジュール94は、拡張マスク90の姿勢角度(θ)を決定し、以って、該拡張マスク90が覆う箱16の姿勢角度を決定する。これにより、ロボット12が、角度に基づいて、箱16を取り上げた後に所望の量だけ回転するのを可能とする。モジュール94は、拡張マスク90の周りに境界ボックスを回転し、反復最小長方形検索(iterative minimum rectangle search)を用いて、そのサイズを減少させて、図13の境界ボックス画像98に示す最小境界ボックス96のような、最小サイズの境界ボックスを取得する。
再度、図2を参照して、最小境界ボックス96内の画素のx-y座標が、次いで、中心画素モジュール100に提供される。中心画素モジュール100は、最小境界ボックス96の中心を定める。中心画素のx-y座標は、深度マップ画像34とともに、直交座標系モジュール102に提供される。直交座標系モジュール102は、最小境界ボックス96の中心画素の、直交座標系のx-y-z座標を計算する。深度マップ画像34は、実空間での各画素の位置を既知とする。次いで、最小境界ボックス96の中心画素のx-y-z座標は、エンドエフェクタ14を位置決めするために、把持位置モジュール104においてx-y-z把持位置を特定すべく用いられる。エンドエフェクタ14の把持位置と、縦姿勢モジュール106から既知である箱16の縦の姿勢は、把持姿勢モジュール108において、エンドエフェクタ14の把持姿勢を決定する。この把持姿勢は、x-y-z座標と、エンドエフェクタ12のヨー、ピッチ、及びロールを含み、エンドエフェクタ14を箱16に対して接近させる姿勢を提供する。また、縦の姿勢の代わりに、箱表面の標準姿勢のような、箱16の他の姿勢が提供され得る。取り上げモジュール110で、箱16を取り上げるためにロボットの移動が行われる。一旦、箱16が取り上げられると、区分モジュール36から回転パラメータθを受け付ける対象物回転モジュール112が、例えばコンベアベルト22上に箱16を適切に整列させるように、ロボット12に箱16を、回転パラメータθによって決定される所望の角度だけ、x方向、y方向及びz方向の全てにおいて回転させる。次いで、ロボット12は、その前に取り上げた箱16を山18から取り除いたところで、新たなRGB画像及び深度マップ画像を供給するようにカメラ24に信号を送る。以上のプロセスが、全ての箱16がロボット12によって取り上げられてコンベアベルト22上に置かれるまで、継続される。
上述したように、簡単化されたマスクR-CNN38は、箱16のエッジを正確に予測することはできないが、箱16の中心領域を正確に予測することができる。図14に、画像区分システム120のブロック図を示す。システム120は、深層学習ニューラルネットワーク122を備え、該深層学習ニューラルネットワーク122は、ノード126を含む複数の層124を有し、箱132の群130のRGB画像128を受け付ける。ニューラルネットワーク122は、マスクR-CNN、又は他のタイプの深層学習ニューラルネットワークであり得る。ニューラルネットワーク122は、上述した方法で、又は、箱132の中心領域136の正確な描写を含む、区分画像134を生成する。区分画像134は、区分画像58と同様であってもよい。上述した動作は、全般的に、箱の位置を予測するのに限らず、如何なる適切な対象物の群から、該対象物の位置を予測するのに用いることもできる。
以上の説明では、簡単化されたマスクR-CNN38によって提供される箱16の中心領域の正確な予測を用いて、区分画像58において箱16のエッジを正確に決定するモジュール62、80、88及び90を用いた、「従来の」技術を採用した。しかしながら、箱16のエッジを予測するために、従来の他の技術を採用してもよい。図15に、RGB画像128において箱132のエッジを特定可能な従来のシステム140のブロック図を示す。この非限定的な実施形態においては、ピクセル同士の乗算プロセスが、9個のボックス144のスライドマトリクス142を用いて実行され、マトリクス142の中心のボックスの強度値(図4の例では、4の強度値)を定める。該中心のボックスは、画像128の画素のうちの1つである。横方向の中心ボックスの値は、平均値を得るために、左側と右側のボックスの値を減算することによって、決定される。同様に、縦方向の中心ボックスの値は、平均値を得るために、上側と下側のカーネルの値を減算することによって、決定される。マトリクス142は、画像128中の各画素の強度値をこのように決定するように、画像128上でスライドされ、高い強度の画素は、箱132のエッジであると解される。これにより、エッジ画像146が生成され、推測される箱132のエッジは、高強度の線148によって示される。したがって、区分画像134がシステム140への入力である場合、中心領域136の周囲の高強度線は、特定の中心領域136と関連付けられた箱132のエッジとして特定可能となる。
当業者であれば理解できるように、本開示で説明した様々なステップ及びプロセスは、電子現象を用いてデータを操作及び/又は変換するコンピュータ、プロセッサ、又は他の電子演算装置によって実行される動作を言及している。これらコンピュータ及び電子装置は、コンピュータ読取可能な非一時的記録媒体を含む、揮発性及び/又は不揮発性のメモリを使用するとともに、該メモリに記憶された、コンピュータ又はプロセッサによって実行可能な種々のコード又は実行可能な命令を含む、実行可能なコンピュータプログラムを使用する。このメモリ及び/又はコンピュータ読取可能な媒体は、如何なる形態及びタイプのメモリ及び/又はコンピュータ読取可能な媒体を含んでもよい。
上述の説明では、本開示の例示的実施形態を開示しているだけである。当業者であれば、このような説明、添付の図面、及びクレームから、クレームに規定されているような本開示の概念及び範囲から逸脱することなく、実施形態に種々の変更、修正及び変形例を加えることができることを、容易に理解されよう。

Claims (26)

  1. 一群の対象箱から対象箱を取り上げる方法であって、
    3次元カメラを用いて、前記箱の2次元三原色(RGB)画像を取得し、
    前記3次元カメラを用いて、前記箱の2次元深度マップ画像を取得し、該深度マップ画像の画素には、前記カメラから前記箱までの距離を特定する値が付与され、
    ニューラルネットワークにおいて画像区分プロセスを実行することで、前記箱の区分マスク画像を生成し、該画像区分プロセスにおいて、前記RGB画像から特徴を抽出し、抽出した該特徴を用いて、前記RGB画像中のいずれの画素が各箱と関連付けられているかを予測し、該各箱と関連付けられている該画素には、前記箱のためのマスクを定義するように結び付ける固有のラベルが付与され、
    前記区分マスク画像において、前記マスクのうちの1つを選択し、
    選択した前記マスクと関連付けられた前記対称箱よりも下側の対象箱に関連付けられ得る、該選択したマスクの画素を特定して除去して、改良マスクを設け、
    形態学的プロセスを用いて、前記改良マスクから下側境界マスク及び上側境界マスクを生成し、
    改良プロセスを用いて、前記下側境界マスク及び前記上側境界マスクから拡張マスクを生成し、
    前記拡張マスクを用いて、前記箱を取り上げるための位置を特定する、方法。
  2. 前記ニューラルネットワークは、簡単化されたマスクR-CNN(畳み込みニューラルネットワーク)である、請求項1に記載の方法。
  3. 前記区分マスク画像を生成するときに、
    複数の境界ボックスを設け、
    前記境界ボックスを前記抽出した特徴と並べ、
    前記対称箱を取り囲む前記境界ボックスを含む境界ボックス画像を設ける、請求項1に記載の方法。
  4. 前記区分マスク画像を生成するときに、各境界ボックスに対称箱が存在する可能性を決定する、請求項3に記載の方法。
  5. 前記区分マスク画像を生成するときに、前記境界ボックス画像中の各境界ボックスから、対象箱と関連付けられていない画素を除去する、請求項3に記載の方法。
  6. 前記選択したマスクの画素を特定して除去するときに、前記深度マップ画像を用いる、請求項1に記載の方法。
  7. 前記下側境界マスク及び前記上側境界マスクを生成するときに、
    予め定めた数の画素を、前記改良マスクの外側境界に追加する拡張プロセスと、
    予め定めた数の画素を、前記改良マスクの外側境界から除去する浸食プロセスと、
    を実行する、請求項1に記載の方法。
  8. 前記拡張マスクを生成するときに、
    前記上側境界マスクによって定義された前記RGB画像の領域のみを含む初期画像を生成し、該初期画像における各画素の値は、光強度であり、
    前記初期画像から傾き画像を生成し、該傾き画像において、各画素の強度は、その近辺の画素に基づいて傾き強度に置換され、
    前記傾き画像においてピークを特定するために、前記画素の強度を拡張する、請求項1に記載の方法。
  9. 前記拡張マスクの周りに最小サイズの境界ボックスを当て嵌めることによって、前記拡張マスクの姿勢角度(θ)を決定する、請求項1に記載の方法。
  10. 前記拡張マスクの周りに最小サイズの境界ボックスを当て嵌めるときに、反復最小長方形検索を用いて、前記拡張マスクを取り囲む最小サイズの境界ボックスを取得する、請求項1に記載の方法。
  11. 前記対称箱を取り上げるための位置を特定するときに、
    最終的な境界ボックスの中心画素を特定し、
    前記中心画素の位置と前記深度マップ画像とを用いて、該中心画素のx-y-z座標を計算する、請求項1に記載の方法。
  12. 前記対称箱を取り上げるための位置を特定するときに、前記x-y-z座標と、ピッチ、ヨー、及びロールの位置とを用いて、前記対象箱を取り上げるための把持姿勢を決定する、請求項11に記載の方法。
  13. 前記対象物をロボットによって取り上げ、
    前記把持姿勢は、前記ロボットのエンドエフェクタの姿勢を定める、請求項12に記載の方法。
  14. 一群の対象物から対象物を選択する方法であって、
    3次元カメラを用いて、前記対象物の2次元三原色(RGB)画像を取得し、
    ニューラルネットワークにおいて画像区分プロセスを実行することで、前記対象物の区分マスク画像を生成し、該画像区分プロセスにおいて、前記RGB画像から特徴を抽出し、抽出した該特徴を用いて、前記RGB画像中のいずれの画素が各対象物と関連付けられているかを予測し、該各対象物と関連付けられている該画素には、前記対象物のためのマスクを定義するように結び付ける固有のラベルが付与され、
    前記区分マスク画像において、前記マスクのうちの1つを選択し、
    選択した前記マスクと関連付けられた前記対象物よりも下側の対象物に関連付けられ得る、該選択したマスクの画素を特定して除去して、改良マスクを設け、
    形態学的プロセスを用いて、前記改良マスクから下側境界マスク及び上側境界マスクを生成し、
    改良プロセスを用いて、前記下側境界マスク及び前記上側境界マスクから拡張マスクを生成し、
    前記拡張マスクを用いて、前記対象物の位置を特定する、方法。
  15. 前記ニューラルネットワークは、簡単化されたマスクR-CNN(畳み込みニューラルネットワーク)である、請求項14に記載の方法。
  16. 前記区分マスク画像を生成するときに、
    複数の境界ボックスを設け、
    前記境界ボックスを前記抽出した特徴と並べ、
    前記対象物を取り囲む前記境界ボックスを含む境界ボックス画像を設ける、請求項14に記載の方法。
  17. 前記区分マスク画像を生成するときに、各境界ボックスに対称物が存在する可能性を決定する、請求項16に記載の方法。
  18. 前記区分マスク画像を生成するときに、前記境界ボックス画像中の各境界ボックスから、対象物と関連付けられていない画素を除去する、請求項16に記載の方法。
  19. 前記選択したマスクの画素を特定して除去するときに、前記深度マップ画像を用いる、請求項14に記載の方法。
  20. 前記下側境界マスク及び前記上側境界マスクを生成するときに、
    予め定めた数の画素を、前記改良マスクの外側境界に追加する拡張プロセスと、
    予め定めた数の画素を、前記改良マスクの外側境界から除去する浸食プロセスと、
    を実行する、請求項1に記載の方法。
  21. 前記拡張マスクを生成するときに、
    前記上側境界マスクによって定義された前記RGB画像の領域のみを含む初期画像を生成し、該初期画像における各画素の値は、光強度であり、
    前記初期画像から傾き画像を生成し、該傾き画像において、各画素の強度は、その近辺の画素に基づいて傾き強度に置換され、
    前記傾き画像においてピークを特定するために、前記画素の強度を拡張する、請求項14に記載の方法。
  22. 前記拡張マスクの周りに最小サイズの境界ボックスを当て嵌めることによって、前記拡張マスクの姿勢角度(θ)を決定する、請求項14に記載の方法。
  23. 前記拡張マスクの周りに最小サイズの境界ボックスを当て嵌めるときに、反復最小長方形検索を用いて、前記拡張マスクを取り囲む最小サイズの境界ボックスを取得する、請求項1に記載の方法。
  24. 一群の対象箱から対象箱を取り上げるシステムであって、
    3次元カメラを用いて、前記箱の2次元三原色(RGB)画像を取得する手段と、
    前記3次元カメラを用いて、前記箱の2次元深度マップ画像を取得し、該深度マップ画像の画素には、前記カメラから前記箱までの距離を特定する値が付与され、
    ニューラルネットワークにおいて画像区分プロセスを実行することで、前記箱の区分マスク画像を生成する手段であって、該画像区分プロセスにおいて、前記RGB画像から特徴を抽出し、抽出した該特徴を用いて、前記RGB画像中のいずれの画素が各箱と関連付けられているかを予測し、該各箱と関連付けられている該画素には、前記箱のためのマスクを定義するように結び付ける固有のラベルが付与されている、手段と、
    前記区分マスク画像において、前記マスクのうちの1つを選択する手段と、
    選択した前記マスクと関連付けられた前記対称箱よりも下側の対象箱に関連付けられ得る、該選択したマスクの画素を特定して除去して、改良マスクを設ける手段と、
    形態学的プロセスを用いて、前記改良マスクから下側境界マスク及び上側境界マスクを生成する手段と、
    改良プロセスを用いて、前記下側境界マスク及び前記上側境界マスクから拡張マスクを生成する手段と、
    前記拡張マスクを用いて、前記箱を取り上げるための位置を特定する手段と、を備える、システム。
  25. 一群の対象物から対象物を選択する方法であって、
    3次元カメラを用いて、前記対象物の2次元三原色(RGB)画像を取得し、
    ニューラルネットワークにおいて画像区分プロセスを実行することで、前記対象物の区分マスク画像を生成し、該画像区分プロセスにおいて、前記RGB画像から特徴を抽出し、抽出した該特徴を用いて、前記RGB画像中のいずれの画素が各対象物の中心領域と関連付けられているかを予測し、
    前記区分マスク画像を用いて、前記対象物のエッジ画像を生成し、該エッジ画像は、前記中心領域の周りに線を有し、該線は、該区分マスク画像の画素の強度変化によって設けられる、方法。
  26. 前記ニューラルネットワークは、マスクR-CNNである、請求項25に記載の方法。
JP2022183815A 2021-11-30 2022-11-17 サイズが混在する対象物をパレットから取り出すためのアルゴリズム Pending JP2023081310A (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US17/456,977 2021-11-30
US17/456,977 US20230169675A1 (en) 2021-11-30 2021-11-30 Algorithm for mix-size depalletizing

Publications (1)

Publication Number Publication Date
JP2023081310A true JP2023081310A (ja) 2023-06-09

Family

ID=86317126

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2022183815A Pending JP2023081310A (ja) 2021-11-30 2022-11-17 サイズが混在する対象物をパレットから取り出すためのアルゴリズム

Country Status (4)

Country Link
US (1) US20230169675A1 (ja)
JP (1) JP2023081310A (ja)
CN (1) CN116206101A (ja)
DE (1) DE102022129021A1 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20230245293A1 (en) * 2022-02-03 2023-08-03 Fanuc Corporation Failure detection and failure recovery for ai depalletizing

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6456899B1 (en) * 1999-12-07 2002-09-24 Ut-Battelle, Llc Context-based automated defect classification system using multiple morphological masks
US11321864B1 (en) * 2017-10-31 2022-05-03 Edge 3 Technologies User guided mode for measurement purposes
US10878566B2 (en) * 2019-04-23 2020-12-29 Adobe Inc. Automatic teeth whitening using teeth region detection and individual tooth location
FR3098328B1 (fr) * 2019-07-01 2022-02-04 Amadeus Sas Procédé pour extraire automatiquement d’un document des informations d’un type prédéfini
US10950034B1 (en) * 2020-01-27 2021-03-16 Facebook Technologies, Llc Systems, methods, and media for generating visualization of physical environment in artificial reality
US20220410381A1 (en) * 2021-06-29 2022-12-29 Intrinsic Innovation Llc Systems and methods for picking objects using 3-d geometry and segmentation
US20230104262A1 (en) * 2021-10-06 2023-04-06 Adobe Inc. Panoptic segmentation refinement network

Also Published As

Publication number Publication date
CN116206101A (zh) 2023-06-02
US20230169675A1 (en) 2023-06-01
DE102022129021A1 (de) 2023-06-01

Similar Documents

Publication Publication Date Title
CN110738101A (zh) 行为识别方法、装置及计算机可读存储介质
US12017368B2 (en) Mix-size depalletizing
CN114952809B (zh) 工件识别和位姿检测方法、系统及机械臂的抓取控制方法
US11475589B2 (en) 3D pose estimation by a 2D camera
US20220084238A1 (en) Multiple transparent objects 3d detection
JP2019192022A (ja) 画像処理装置、画像処理方法及びプログラム
CN113191174A (zh) 物品定位方法和装置、机器人及计算机可读存储介质
JP2023081310A (ja) サイズが混在する対象物をパレットから取り出すためのアルゴリズム
CN115147488B (zh) 一种基于密集预测的工件位姿估计方法与抓取系统
WO2023092519A1 (zh) 抓取控制方法、装置、电子设备和存储介质
US11554496B2 (en) Feature detection by deep learning and vector field estimation
US11350078B2 (en) 3D pose detection by multiple 2D cameras
CN116228854B (zh) 一种基于深度学习的包裹自动分拣方法
US11875528B2 (en) Object bin picking with rotation compensation
Fontana et al. A comparative assessment of parcel box detection algorithms for industrial applications
JP2022181173A (ja) 透明物体のビンピッキング
KR102436943B1 (ko) Rgb-d 영상에서의 기계학습 기반 물류박스 자동인식 방법
Bhuyan et al. Structure‐aware multiple salient region detection and localization for autonomous robotic manipulation
CN114571467A (zh) 一种机械臂控制方法及系统
CN114820681A (zh) 一种基于rgb相机的库位检测方法及系统
Yoon et al. Logistics box recognition in robotic industrial de-palletising procedure with systematic RGB-D image processing supported by multiple deep learning methods
US20230169324A1 (en) Use synthetic dataset to train robotic depalletizing
Yano et al. Surface-Graph-Based 6DoF Object-Pose Estimation for Shrink-Wrapped Items Applicable to Mixed Depalletizing Robots.
CN117351213B (zh) 基于3d视觉的箱体分割定位方法及系统
US20230245293A1 (en) Failure detection and failure recovery for ai depalletizing