DE102022107311A1 - Aufheben von transparenten Objekten aus Behältern - Google Patents

Aufheben von transparenten Objekten aus Behältern Download PDF

Info

Publication number
DE102022107311A1
DE102022107311A1 DE102022107311.4A DE102022107311A DE102022107311A1 DE 102022107311 A1 DE102022107311 A1 DE 102022107311A1 DE 102022107311 A DE102022107311 A DE 102022107311A DE 102022107311 A1 DE102022107311 A1 DE 102022107311A1
Authority
DE
Germany
Prior art keywords
image
objects
segmentation
depth map
robot
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
DE102022107311.4A
Other languages
English (en)
Inventor
Te Tang
Tetsuaki Kato
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fanuc Corp
Original Assignee
Fanuc Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fanuc Corp filed Critical Fanuc Corp
Publication of DE102022107311A1 publication Critical patent/DE102022107311A1/de
Pending legal-status Critical Current

Links

Images

Classifications

    • BPERFORMING OPERATIONS; TRANSPORTING
    • B25HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
    • B25JMANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
    • B25J9/00Programme-controlled manipulators
    • B25J9/16Programme controls
    • B25J9/1656Programme controls characterised by programming, planning systems for manipulators
    • B25J9/1669Programme controls characterised by programming, planning systems for manipulators characterised by special application, e.g. multi-arm co-operation, assembly, grasping
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B25HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
    • B25JMANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
    • B25J9/00Programme-controlled manipulators
    • B25J9/16Programme controls
    • B25J9/1694Programme controls characterised by use of sensors other than normal servo-feedback from position, speed or acceleration sensors, perception control, multi-sensor controlled systems, sensor fusion
    • B25J9/1697Vision controlled systems
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B65CONVEYING; PACKING; STORING; HANDLING THIN OR FILAMENTARY MATERIAL
    • B65FGATHERING OR REMOVAL OF DOMESTIC OR LIKE REFUSE
    • B65F1/00Refuse receptacles; Accessories therefor
    • B65F1/14Other constructional features; Accessories
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B25HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
    • B25JMANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
    • B25J9/00Programme-controlled manipulators
    • B25J9/16Programme controls
    • B25J9/1602Programme controls characterised by the control system, structure, architecture
    • B25J9/161Hardware, e.g. neural networks, fuzzy logic, interfaces, processor
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B65CONVEYING; PACKING; STORING; HANDLING THIN OR FILAMENTARY MATERIAL
    • B65FGATHERING OR REMOVAL OF DOMESTIC OR LIKE REFUSE
    • B65F1/00Refuse receptacles; Accessories therefor
    • B65F1/10Refuse receptacles; Accessories therefor with refuse filling means, e.g. air-locks
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B65CONVEYING; PACKING; STORING; HANDLING THIN OR FILAMENTARY MATERIAL
    • B65FGATHERING OR REMOVAL OF DOMESTIC OR LIKE REFUSE
    • B65F1/00Refuse receptacles; Accessories therefor
    • B65F1/14Other constructional features; Accessories
    • B65F1/1484Other constructional features; Accessories relating to the adaptation of receptacles to carry identification means
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B65CONVEYING; PACKING; STORING; HANDLING THIN OR FILAMENTARY MATERIAL
    • B65GTRANSPORT OR STORAGE DEVICES, e.g. CONVEYORS FOR LOADING OR TIPPING, SHOP CONVEYOR SYSTEMS OR PNEUMATIC TUBE CONVEYORS
    • B65G47/00Article or material-handling devices associated with conveyors; Methods employing such devices
    • B65G47/74Feeding, transfer, or discharging devices of particular kinds or types
    • B65G47/90Devices for picking-up and depositing articles or materials
    • B65G47/902Devices for picking-up and depositing articles or materials provided with drive systems incorporating rotary and rectilinear movements
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/11Region-based segmentation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/70Determining position or orientation of objects or cameras
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/70Determining position or orientation of objects or cameras
    • G06T7/73Determining position or orientation of objects or cameras using feature-based methods
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N13/20Image signal generators
    • H04N13/204Image signal generators using stereoscopic image cameras
    • H04N13/239Image signal generators using stereoscopic image cameras using two 2D image sensors having a relative position equal to or related to the interocular distance
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B65CONVEYING; PACKING; STORING; HANDLING THIN OR FILAMENTARY MATERIAL
    • B65FGATHERING OR REMOVAL OF DOMESTIC OR LIKE REFUSE
    • B65F2210/00Equipment of refuse receptacles
    • B65F2210/138Identification means
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B65CONVEYING; PACKING; STORING; HANDLING THIN OR FILAMENTARY MATERIAL
    • B65FGATHERING OR REMOVAL OF DOMESTIC OR LIKE REFUSE
    • B65F2240/00Types of refuse collected
    • B65F2240/112Bottles
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05BCONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
    • G05B2219/00Program-control systems
    • G05B2219/30Nc systems
    • G05B2219/35Nc in input of data, input till input file format
    • G05B2219/35084Geometric feature extraction, concave and convex regions, object recognition
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05BCONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
    • G05B2219/00Program-control systems
    • G05B2219/30Nc systems
    • G05B2219/40Robotics, robotics mapping to robotics vision
    • G05B2219/40053Pick 3-D object from pile of objects
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05BCONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
    • G05B2219/00Program-control systems
    • G05B2219/30Nc systems
    • G05B2219/45Nc applications
    • G05B2219/45063Pick and place manipulator
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/0464Convolutional networks [CNN, ConvNet]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10004Still image; Photographic image
    • G06T2207/10012Stereo images
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10024Color image
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10028Range image; Depth image; 3D point clouds
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30108Industrial image inspection

Landscapes

  • Engineering & Computer Science (AREA)
  • Mechanical Engineering (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Robotics (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Software Systems (AREA)
  • Mathematical Physics (AREA)
  • Automation & Control Theory (AREA)
  • Biophysics (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Signal Processing (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Fuzzy Systems (AREA)
  • Image Analysis (AREA)
  • Manipulator (AREA)

Abstract

System und Verfahren, die ein durch einen Roboter aus einem Objektbehälter aufzuhebendes Objekt, zum Beispiel ein transparentes Objekt, erkennen. Das Verfahren umfasst das Erzielen eines zweidimensionalen rot, grün, blauen Farbbildes (RGB) und eines zweidimensionalen Tiefenkartenbildes der Objekte unter Verwendung einer 3D-Kamera, wobei Pixel im Tiefenkartenbild einem Wert zugeordnet sind, der den Abstand von der Kamera zu den Objekten bezeichnet. Das Verfahren erzeugt ein Segmentierungsbild der Objekte mittels eines Deep-Learning Mask R-CNN (gefaltetes neuronales Netzwerk), das einen Bildsegmentierungsvorgang durchführt, der Merkmale aus dem RGB-Bild extrahiert und den Pixeln eine Kennzeichnung zuordnet, sodass Objekte im Segmentierungsbild die gleiche Kennzeichnung aufweisen. Das Verfahren erkennt anschließend einen Ort zum Aufheben des Objekts unter Verwendung des Segmentierungsbildes und des Tiefenkartenbildes.

Description

  • HINTERGRUND
  • Gebiet
  • Diese Offenlegung betrifft allgemein ein System und Verfahren zur Erkennung eines von einem Roboter aus einem Objektbehälter aufzuhebenden Objekts, und spezieller ein System und ein Verfahren zur Erkennung eines von einem Roboter aus einem Objektbehälter aufzuhebenden Objekts, zum Beispiel eines transparenten Objekts, wobei das Verfahren einen Bildsegmentierungsvorgang nutzt, der jedem Pixel in einem Bild des Behälters eine Kennzeichnung zuordnet.
  • Erörterung des Standes der Technik
  • Roboter führen eine Vielzahl von Aufgaben durch, die Bestückungsvorgänge einschließen, bei denen der Roboter Objekte aufhebt und von einem Ort, wie zum Beispiel einem Behälter, zu einem anderen Ort, zum Beispiel einem Transportband, bewegt. Um ein aus einem Behälter aufzuhebendes Objekt zu erkennen, nutzen einige Robotersysteme eine 3D-Kamera, die zweidimensionale rot, grün, blaue Farbbilder (RGB) des Behälters und zweidimensionale Tiefenkartenbilder des Behälters in Graustufen erzeugen, wobei jedes Pixel im Tiefenkartenbild einen Wert besitzt, der den Abstand von der Kamera zu einem speziellen Objekt definiert, d. h., je näher sich das Pixel zu dem Objekt befindet, desto niedriger ist sein Wert. Die Tiefenkartenbilder kennzeichnen Abstandsmessungen zu Punkten in einer Punktwolke im Bildfeld der Kamera, wobei eine Punktwolke eine Sammlung von Datenpunkten ist, die durch ein bestimmtes Koordinatensystem definiert sind, und jeder Punkt einen x-, y-, z-Wert aufweist.
  • Zu diesem Zweck gibt es zwei allgemeine Typen einer Punktwolkenanalyse, nämlich modellfreie Punktwolkenanalyse und modellbasierte Punktwolkenanalyse. Die modellfreie Punktwolkenanalyse umfasst das Erkennen von Punktclustern in der Punktwolke in einer Normalrichtung von der Kamera und das Segmentieren der Cluster relativ zueinander, wobei jedes Punktwolkensegment als ein Objekt erkannt wird. Die modellbasierte Punktwolkenanalyse umfasst das Erzeugen von Schablonen aus einem CAD-Modell der Objekte und das anschließende Suchen nach der Schablone in der Punktwolke. Falls das Objekt, das durch den Roboter aufzuheben ist, jedoch transparent ist, breitet sich Licht durch das Objekt aus und wird nicht wirksam von einer Oberfläche des Objekts reflektiert. Deshalb ist die durch die Kamera erzeugte Punktwolke keine effektive Darstellung des Objekts, und das Tiefenkartenbild ist nicht zuverlässig, und somit kann das aufzuhebende Objekt nicht zuverlässig erkannt werden.
  • ZUSAMMENFASSUNG
  • Die folgende Erörterung offenlegt und beschreibt ein System und Verfahren zur Erkennung eines durch einen Roboter aus einem Objektbehälter aufzuhebenden Objekts. Das Verfahren umfasst das Erzielen eines zweidimensionalen rot, grün, blauen Farbbildes (RGB) und eines zweidimensionalen Tiefenkartenbildes mittels einer 3D-Kamera, wobei Pixel im Tiefenkartenbild einem Wert zugeordnet sind, der den Abstand von der Kamera zu den Objekten kennzeichnet. Das Verfahren erzeugt ein Segmentierungsbild der Objekte mittels Deep-Learning Mask R-CNN (gefaltetes neuronales Netzwerk), das einen Vorgang der Bildsegmentierung durchführt, der Merkmale aus dem RGB-Bild extrahiert und den Pixeln eine Kennzeichnung zuordnet, sodass Objekte im Segmentierungsbild die gleiche Kennzeichnung besitzen. Das Verfahren erkennt anschließend einen Ort zum Aufheben des Objekts unter Verwendung des Segmentierungsbildes und des Tiefenkartenbildes, wobei das Erzielen eines Farbbildes, das Erzielen eines Tiefenkartenbildes, das Erzeugen eines Segmentierungsbildes und das Erkennen eines Ortes zum Aufheben des Objekts jedes Mal durchgeführt werden, wenn durch den Roboter ein Objekt aus der Gruppe von Objekten aufgehoben wird.
  • Zusätzliche Merkmale der Offenlegung erschließen sich aus der folgenden Beschreibung und den angefügten Ansprüchen, wenn sie in Verbindung mit den begleitenden Zeichnungen betrachtet werden.
  • Figurenliste
    • 1 ist die Darstellung eines Robotersystems, das einen Objekte aus einem Behälter aufhebenden Roboter einschließt;
    • 2 ist ein Blockschaltbild eines Behälterentnahmesystems zum Aufheben der Objekte aus dem Behälter in dem in 1 gezeigten Robotersystem; und
    • 3 ist ein Blockschaltbild eines Segmentierungsmoduls, das von dem in 2 dargestellten System getrennt ist.
  • AUSFÜHRLICHE BESCHREIBUNG DER AUSFÜHRUNGSFORMEN
  • Die folgende Erörterung der Ausführungsformen der Offenlegung, die auf ein System und Verfahren zur Erkennung eines durch einen Roboter aus einem Behälter der Objekte aufzuhebenden Objekts gerichtet ist, wobei das Verfahren einen Bildsegmentierungsvorgang verwendet, der jedem Pixel in einem Bild des Behälters eine Kennzeichnung zuordnet, ist dem Wesen nach nur beispielhaft und soll keineswegs die Erfindung oder ihre Anwendungen oder Einsätze beschränken. Zum Beispiel bieten System und Verfahren eine Anwendung zur Erkennung eines durch einen Roboter aufzuhebenden, transparenten Objekts. Jedoch können System und Verfahren andere Anwendungen bieten.
  • 1 ist die Darstellung eines Robotersystems 10 einschließlich eines Roboters 12 mit einem Roboter-Endeffektor 14, der Objekte 16, zum Beispiel durchsichtige Flaschen, aus einem Behälter 18 aufhebend dargestellt ist. Das System 10 soll jeden Typ eines Robotersystems darstellen, das aus der Erörterung hier Nutzen ziehen kann, wobei der Roboter 12 ein beliebiger, für diesen Zweck geeigneter Roboter sein kann. Eine 3D-Kamera 20 wird positioniert, um Bilder des Behälters 18 von oben nach unten aufzunehmen und diese einer Steuereinheit 22 des Roboters zur Verfügung zu stellen, die die Bewegung des Roboters 12 steuert. Weil die Objekte 16 durchsichtig sein können, kann sich die Steuereinheit 22 nicht auf ein durch die Kamera 20 bereitgestelltes Tiefenkartenbild verlassen, um den Ort der Objekte 16 im Behälter 18 zu erkennen.
  • Wie es nachstehend ausführlich erörtert wird, nutzt die Robotersteuereinheit 22 einen Algorithmus, der es dem Roboter 12 erlaubt, die Objekte 16 aufzuheben, ohne sich auf ein genaues Tiefenkartenbild verlassen zu müssen. Spezieller führt der Algorithmus einen Bildsegmentierungsvorgang unter Verwendung der verschiedenen Farben der Pixel im RGB-Bild von der 3D-Kamera 20 durch. Bildsegmentierung ist ein Vorgang, jedem Pixel in einem Bild eine Kennzeichnung zuzuordnen, sodass Pixel mit der gleichen Kennzeichnung bestimmte Eigenschaften gemeinsam benutzen. So gibt der Segmentierungsvorgang vor, welches Pixel zu welchem der Objekte 16 gehört.
  • Moderne Bildsegmentierungsverfahren können die Deep-Learning-Technik anwenden. Deep-Learning ist ein besonderer Typ des Maschinenlernens, der eine größere Lernleistung bereitstellt, indem eine bestimmte reale Umgebung als eine Hierarchie von zunehmenden komplexen Konzepten dargestellt wird. Deep-Learning nutzt typischerweise eine Softwarestruktur, die aus mehreren Schichten neuronaler Netze besteht, die nichtlineares Verarbeiten durchführen, wobei jede nachfolgende Schicht eine Ausgabe von der vorherigen Schicht empfängt. Allgemein umfassen die Schichten eine Eingabeschicht, die Ausgangsdaten von einem Sensor empfängt, eine Anzahl von verdeckten Schichten, die aus den Daten abstrakte Merkmale extrahieren und eine Ausgabeschicht, die eine bestimmte Sache basierend auf der Extraktion von Merkmalen aus den verdeckten Schichten erkennt. Die neuronalen Netze enthalten Neuronen oder Knoten, die jeweils eine „Gewichtung““ haben, die mit der Eingabe an den Knoten multipliziert wird, um Wahrscheinlichkeit darüber zu erzielen, ob etwas korrekt ist. Spezieller besitzt jeder der Knoten eine Gewichtung, die eine Gleitkommazahl ist, die mit der Eingabe an den Knoten multipliziert wird, um eine Ausgabe für denjenigen Knoten zu erzeugen, der ein gewisses Verhältnis der Eingabe ist. Die Gewichtungen werden anfänglich „trainiert“ oder eingestellt, indem bewirkt wird, dass die neuronalen Netze eine Menge von bekannten Daten unter überwachtem Verarbeiten und durch Minimierung einer Kostenfunktion analysieren, um dem Netz zu ermöglichen, die höchste Wahrscheinlichkeit einer korrekten Ausgabe zu erzielen.
  • 2 ist ein Blockschaltbild eines Behälterentnahmesystems 30, das Teil der Steuereinheit 22 im Robotersystem 10 ist, welches funktioniert, um die Objekte 16 aus dem Behälter 18 aufzuheben. Das System 30 empfängt ein zweidimensionales RGB-Bild 32 einer Draufsicht des Behälters 18 und ein zweidimensionales Tiefenkartenbild 34 der Draufsicht des Behälters 18 von der Kamera 20, wobei das Tiefenkartenbild 34 nicht zuverlässig sein kann, weil die Objekte 16 durchsichtig sein können. Das Bild 32 wird einem Segmentierungsmodul 36 bereitgestellt, das einen Bildsegmentierungsvorgang durchführt, wobei jedes Pixel in dem Bild 32 einer bestimmten Kennzeichnung zugeordnet wird und wobei die zum gleichen Objekt 16 zugehörigen Pixel die gleiche Kennzeichnung besitzen.
  • 3 ist ein Blockschaltbild des Moduls 36, das vom System 30 getrennt ist. Das RGB-Bild 32 wird einem Merkmalsextraktionsmodul 42 zur Verfügung gestellt, das einen Filtervorgang durchführt, der Merkmale aus dem Bild 32 extrahiert. Zum Beispiel kann das Modul 42 auf dem Lernen basierende, neuronale Netze einschließen, die Neigungen, Kanten, Konturen, elementare Formen, usw. aus dem Bild 32 extrahieren, und stellt in einer bekannten Art und Weise ein Bild 44 von extrahierten Merkmalen des RGB-Bildes 32 bereit. Das Merkmalsbild 44 wird einem Bereichsvorschlagsmodul 50 zur Verfügung gestellt, das mittels neuronaler Netze die erkannten Merkmale im RGB-Bild 32 analysiert und eine Anzahl von Begrenzungsrechtecken 52 in einem Begrenzungsrechteckbild 54 vorschlägt oder erkennt, die die Wahrscheinlichkeit erkennen, dass am Ort des Begrenzungsrechtecks 52 im Bild 54 eins der Objekte 16 existiert. Das Begrenzungsrechteckbild 54 wird einem Modul 56 binärer Segmentierung zur Verfügung gestellt, das mittels eines neuronalen Netzes bewertet, ob ein Pixel zu einem der Begrenzungsrechtecke 54 gehört. Die Pixel werden einem Wert für ein spezielles Objekt 16 zugeordnet, sodass ein zweidimensionales Segmentierungsbild 58 erzeugt wird, welches die Objekte 16 durch unterschiedliche Angaben, wie zum Beispiel Farbe, erkennt. Der Vorgang der Bildsegmentierung ist so, wie beschrieben, eine modifizierte Form eines Deep-Learning-Mask R-CNN (gefaltetes neuronales Netzwerk).
  • Das zweidimensionale Segmentierungsbild 58 mit den Pixelkoordinaten x, y wird anschließend einem Mittenpixel-Modul 60 bereitgestellt, das die x-y-Koordinate des Mittenpixels eines der Objekte 16 im Bild 58 bestimmt, wobei zu Anfang ein voreingestellter Vorgang in der Reihenfolge vorgesehen ist, wie die Objekte 16 aufgehoben werden. Das erkannte Mittenpixel des ausgewählten Objekts 16 wird einem Kartesischen-Koordinaten-Modul 62 zusammen mit dem Tiefenkartenbild 34 zur Verfügung gestellt, welches die Kartesische Koordinate x, y, z des Mittenpixels desjenigen Objekts 16 berechnet, wo das Tiefenkartenbild 34 jeden realen Ort der Pixel abschätzt oder vorhersagt, obwohl die Vorhersage nicht sehr zuverlässig ist. Die Koordinate x, y, z des Mittenpixels für dieses Objekt 16 wird dann genutzt, um die Zugriffsposition x, y, z in einem Zugriffpositionsmodul 64 zur Positionierung des Endeffektors 14 zu ermitteln. Die x-y-Koordinate des Mittenpixels des ausgewählten Objekts 16 wird außerdem an ein Zugriffausrichtungsmodul 66 gesendet, das die Zugriffsausrichtung bestimmt, d. h., die Roll-, Neige- und Gierbewegung des Roboters 12 basierend auf einer Richtung des Lichtstrahls aus der Kamera 24 zum Mittenpixel des Objekts 16, zum Beispiel mittels eines dem Fachmann gut bekannten Modells einer Lochkamera, wobei die Bewegung des Endeffektors 14, wenn er das Objekt 16 aufhebt, entlang der Richtung des Lichtstrahls und damit ausgerichtet verlaufen wird. Es ist notwendig, die Richtung des Lichtstrahls aus der Kamera 24 zu bestimmen, weil das Tiefenkartenbild 34 nicht imstande ist, einen genauen Abstand zwischen der Kamera 24 und dem Objekt 16 bereitzustellen.
  • Die Zugriffsposition des Endeffektors 14 und die Zugriffsausrichtung des Endeffektors 14 werden in einem Zugriffsposen-Modul 68 kombiniert, um die Zugriffspose des Endeffektors 14 bereitzustellen, wobei die Zugriffspose die x-y-z-Koordinaten und die Roll-, Neige- und Gierposition des Endeffektors 14 umfasst, um die Annäherungsausrichtung des Endeffektors 14 zusammen mit der Richtung des Lichtstrahls zum Objekt 16 zur Verfügung zu stellen. Ein Kollisionsprüfmodul 70 bestimmt, ob die Zugriffspose bewirken wird, dass der Endeffektor 14 mit dem Boden des Behälters 18 entlang der berechneten Lichtstrahlrichtung kollidiert, wobei der Abstand zum Boden des Behälters 18 bekannt ist. Wenn die Zugriffspose eine Kollision mit dem Behälter 18 entlang der Lichtstrahlrichtung verursachen wird, dann wird ein Sicherheitspuffer in einem Sicherheitspuffermodul 72 erzeugt, um die Bewegung des Roboters 12 entlang der Lichtstrahlrichtung zu begrenzen.
  • Während sich der Endeffektor 14 entlang der Lichtstrahlrichtung bewegt, wird er möglicherweise das aufzuhebende Objekt 16 berühren, wobei der Endeffektor 14 in dieser Ausführungsform einen Saugnapf (nicht gezeigt) zum Aufheben des Objekts 16 verwendet. Ein Kontakterkennungsmodul 74 detektiert, dass der Saugnapf mit dem Objekt 16 Kontakt hergestellt hat, indem im Unterdruck ein Druckunterschied detektiert wird. Der Roboter 12 unterbricht seine Bewegung und hebt das Objekt 16 an einem Modul 76 zum Aufheben auf oder erreicht den Pufferabstand, wo er das Objekt 16 nicht aufheben wird. Sobald das Objekt 16 durch den Roboter 12 aufgehoben und bewegt worden ist, wird die Kamera 20 neue Bilder des Behälters 18 aufnehmen, um das nächste Objekt 16 aufzuheben. Dieser Vorgang wird fortgesetzt, bis alle Objekte 16 aufgehoben worden sind.
  • Wie dem Fachmann verständlich wird, können die hier erörterten mehreren und verschiedenen Schritte und Vorgänge zum Beschreiben der Offenlegung auf Arbeitsgänge bezogen sein, die von einem Computer, einem Prozessor oder einer anderen elektronischen Rechenvorrichtung durchgeführt werden, die eine elektrische Erscheinung nutzende Daten manipulieren und/oder transformieren. Solche Computer und elektronische Vorrichtungen können verschiedene flüchtige und/oder nichtflüchtige Speicher einschließlich eines nicht vergänglichen, computerlesbaren Mediums mit einem darauf gespeicherten ablauffähigen Programm nutzen, das verschiedene Codes oder ausführbare Anweisungen enthält, die durch den Computer oder Prozessor ausgeführt werden können, wobei der Speicher und/oder das computerlesbare Medium alle Formen und Typen von Speichern und anderen computerlesbaren Medien einschließen können.
  • Die vorhergehende Erörterung offenlegt und beschreibt nur beispielhafte Ausführungsformen der vorliegenden Offenlegung. Der Fachmann wird ohne Weiteres aus dieser Erörterung und aus den begleitenden Zeichnungen und Ansprüchen erkennen, dass darin verschiedene Änderungen, Modifizierungen und Abänderungen vorgenommen werden können, ohne vom Geist und Geltungsbereich der Offenlegung, wie in den folgenden Ansprüchen definiert, abzuweichen.

Claims (20)

  1. Verfahren zum Aufheben eines Objekts aus einer Gruppe von Objekten, wobei das Verfahren umfasst: Erzielen eines zweidimensionalen rot, grün, blauen Farbbildes (RGB) der Objekte mittels einer 3D-Kamera; Erzielen eines zweidimensionalen Tiefenkartenbildes der Objekte mittels der 3D-Kamera, wobei Pixel in dem Tiefenkartenbild einem den Abstand von der Kamera zu den Objekten bezeichnenden Wert zugeordnet sind; Erzeugen eines Segmentierungsbildes der Objekte durch Ausführen eines Bildsegmentierungsvorgangs, der Merkmale aus dem RGB-Bild extrahiert und Pixeln im Segmentierungsbild eine Kennzeichnung zuordnet, sodass jedes Objekt im Segmentierungsbild die gleiche Kennzeichnung aufweist; und Erkennen eines Ortes zum Aufheben des Objekts unter Verwendung des Segmentierungsbildes und des Tiefenkartenbildes.
  2. Verfahren nach Anspruch 1, wobei das Erzeugen eines Segmentierungsbildes umfasst, ein Deep-Learning Mask R-CNN (gefaltetes neuronales Netzwerk) zu verwenden.
  3. Verfahren nach Anspruch 1, wobei Erzeugen eines Segmentierungsbildes das Erzeugen von Begrenzungsrechtecken aus den extrahierten Merkmalen, die die Wahrscheinlichkeit erkennen, dass eins der Objekte an einem bestimmten Ort vorhanden ist, umfasst.
  4. Verfahren nach Anspruch 3, wobei das Erzeugen von Begrenzungsrechtecken umfasst, einen Bereichsvorschlagsvorgang zu verwenden.
  5. Verfahren nach Anspruch 3, wobei Erzeugen eines Segmentierungsbildes umfasst, eine binäre Segmentierung vorzusehen, die festlegt, welche Bildpixel zu welchem Begrenzungsrechteck gehören.
  6. Verfahren nach Anspruch 1, wobei Erkennen eines Ortes zum Aufheben des Objekts das Erkennen eines Mittenpixels des Objekts im Segmentierungsbild und das Berechnen von x-y-z-Koordinaten des Mittenpixels unter Verwendung des Segmentierungsbildes und des Tiefenkartenbildes umfasst.
  7. Verfahren nach Anspruch 6, wobei Erkennen eines Ortes zum Aufheben des Objekts das Festlegen einer x-y- z-Zugriffsposition zum Aufheben des Objekts umfasst.
  8. Verfahren nach Anspruch 7, wobei Erkennen eines Ortes zum Aufheben des Objekts das Erkennen einer Zugriffsausrichtung zum Aufheben des Objekts umfasst, die durch eine Richtung des Lichtstrahls von der Kamera auf das Mittenpixel definiert ist.
  9. Verfahren nach Anspruch 8, wobei die Richtung des Lichtstrahls durch ein Lochkamera-Modell bestimmt wird.
  10. Verfahren nach Anspruch 8, wobei Erkennen eines Ortes zum Aufheben des Objekts das Bestimmen einer Zugriffspose zum Aufheben des Objekts unter Verwendung der Zugriffsposition und der Zugriffsausrichtung umfasst.
  11. Verfahren nach Anspruch 10, wobei das Objekt durch einen Roboter aufgehoben wird, und die Zugriffspose die Pose eines Endeffektors des Roboters bestimmt.
  12. Verfahren nach Anspruch 11, des Weiteren umfassend das Bereitstellen einer Kollisionsgrenze für den Endeffektor.
  13. Verfahren nach Anspruch 1, wobei das Erzielen eines Farbbildes, das Erzielen eines Tiefenkartenbildes und das Erzeugen eines Segmentierungsbildes jedes Mal durchgeführt werden, wenn ein Objekt aus der Gruppe von Objekten aufgehoben wird.
  14. Verfahren nach Anspruch 1, wobei die Objekte transparent sind.
  15. Verfahren nach Anspruch 1, wobei die Objekte mehr als eine Form aufweisen.
  16. Verfahren zum Aufheben eines transparenten Objekts aus einer Gruppe von transparenten Objekten mittels eines Roboters, wobei das Verfahren umfasst: Erzielen eines zweidimensionalen rot, grün, blauen Farbbildes (RGB) der Objekte unter Verwendung einer 3D-Kamera; Erzielen eines zweidimensionalen Tiefenkartenbildes der Objekte unter Verwendung der 3D-Kamera, wobei Pixel in dem Tiefenkartenbild einem Wert zugeordnet werden, der den Abstand von der Kamera zu den Objekten bezeichnet; Erzeugen eines Segmentierungsbildes der Objekte, indem ein Deep-Learning Mask R-CNN (gefaltetes neuronales Netzwerk) verwendender Bildsegmentierungsvorgang durchgeführt wird, der Merkmale aus dem RGB-Bild extrahiert und Pixeln im Segmentierungsbild eine Kennzeichnung zuordnet, sodass jedes Objekt in dem Segmentierungsbild die gleiche Kennzeichnung aufweist; und Erkennen eines Ortes zum Aufheben des Objekts unter Verwendung des Segmentierungsbildes und des Tiefenkartenbildes, wobei das Erzielen eines Farbbildes, das Erzielen eines Tiefenkartenbildes, das Erzeugen eines Segmentierungsbildes und das Erkennen eines Ortes zum Aufheben des Objekts jedes Mal durchgeführt werden, wenn durch den Roboter ein Objekt aus der Gruppe von Objekten aufgehoben wird.
  17. Verfahren nach Anspruch 16, wobei Erzeugen eines Segmentierungsbildes das Erzeugen von Begrenzungsrechtecken aus den extrahierten Merkmalen, die die Wahrscheinlichkeit erkennen, dass eins der Objekte an einem bestimmten Ort vorhanden ist, indem ein Bereichsvorschlagsvorgang genutzt wird, und das Bereitstellen einer binären Segmentierung umfasst, die bestimmt, welche Bildpixel zu welchem Begrenzungsrechteck gehören.
  18. Verfahren nach Anspruch 16, wobei Erkennen eines Ortes zum Aufheben des Objekts das Erkennen eines Mittenpixels des Objekts im Segmentierungsbild, das Berechnen von x-y-z-Koordinaten des Mittenpixels unter Verwendung des Segmentierungsbildes und des Tiefenkartenbildes, das Bestimmen einer x-y-z-Zugriffsposition des Roboters zum Aufheben des Objekts, das Erkennen einer Zugriffsausrichtung des Roboters zum Aufheben des Objekts, das Erkennen einer Zugriffsausrichtung des Roboters zum Aufheben des Objekts, die durch eine Lichtstrahlrichtung von der Kamera zum Mittenpixel unter Verwendung eines Lochkamera-Modells definiert ist, und das Bestimmen einer Zugriffspose des Roboters zum Aufheben des Objekts mittels der Zugriffsposition und der Zugriffsausrichtung umfasst.
  19. Robotersystem zum Aufheben eines Objekts aus einer Gruppe von Objekten mittels eines Roboters, wobei das System umfasst: eine 3D-Kamera, die ein zweidimensionales rot, grün, blaues Farbbild (RGB) und ein zweidimensionales Tiefenkartenbild der Objekte bereitstellt; ein Deep-Learning Mask R-CNN (gefaltetes neuronales Netzwerk), das ein Segmentierungsbild der Objekte erzeugt, indem ein Bildsegmentierungsvorgang durchgeführt wird, der Merkmale aus dem RGB-Bild extrahiert und Pixeln im Segmentierungsbild eine Kennzeichnung zuweist, sodass jedes Objekt im Segmentierungsbild die gleiche Kennzeichnung aufweist; und Einrichtung zur Erkennung eines Ortes zum Aufheben des Objekts unter Verwendung des Segmentierungsbildes und des Tiefenkartenbildes, wobei das Erzielen eines Farbbildes, das Erzielen eines Tiefenkartenbildes, das Erzeugen eines Segmentierungsbildes und das Erkennen eines Ortes zum Aufheben des Objekts jedes Mal durchgeführt werden, wenn durch den Roboter ein Objekt aus der Gruppe von Objekten aufgehoben wird.
  20. System nach Anspruch 19, wobei die Einrichtung zum Erkennen eines Ortes zum Aufheben des Objekts ein Mittenpixel des Objekts im Segmentierungsbild erkennt, x-y-z-Koordinaten des Mittenpixels unter Verwendung des Segmentierungsbildes und des Tiefenkartenbildes berechnet, eine x-y-z-Zugriffsposition des Roboters zum Aufheben des Objekts bestimmt, eine Zugriffsausrichtung des Roboters zum Aufheben des Objekts erkennt, die durch eine Lichtstrahlrichtung von der Kamera zum Mittenpixel definiert ist, indem ein Lochkamera-Modell verwendet wird, und eine Zugriffspose des Roboters zum Aufheben des Objekts unter Verwendung der Zugriffsposition und der Zugriffsausrichtung bestimmt.
DE102022107311.4A 2021-05-25 2022-03-29 Aufheben von transparenten Objekten aus Behältern Pending DE102022107311A1 (de)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US17/329,513 2021-05-25
US17/329,513 US20220379475A1 (en) 2021-05-25 2021-05-25 Transparent object bin picking

Publications (1)

Publication Number Publication Date
DE102022107311A1 true DE102022107311A1 (de) 2022-12-01

Family

ID=83997366

Family Applications (1)

Application Number Title Priority Date Filing Date
DE102022107311.4A Pending DE102022107311A1 (de) 2021-05-25 2022-03-29 Aufheben von transparenten Objekten aus Behältern

Country Status (4)

Country Link
US (1) US20220379475A1 (de)
JP (1) JP2022181173A (de)
CN (1) CN115384971A (de)
DE (1) DE102022107311A1 (de)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113240741B (zh) * 2021-05-06 2023-04-07 青岛小鸟看看科技有限公司 基于图像差异的透明物体追踪方法、系统
CN116612357B (zh) * 2023-07-11 2023-11-24 睿尔曼智能科技(北京)有限公司 一种无监督rgbd多模态数据集的构建方法、系统和存储介质

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8073243B2 (en) * 2008-05-30 2011-12-06 General Instrument Corporation Replacing image information in a captured image
US10275892B2 (en) * 2016-06-09 2019-04-30 Google Llc Multi-view scene segmentation and propagation
JP7163115B2 (ja) * 2018-09-12 2022-10-31 キヤノン株式会社 ロボットシステム、ロボットシステムの制御方法、物品の製造方法、制御装置、操作装置、撮像装置、制御プログラム及び記録媒体
US11312020B2 (en) * 2018-11-20 2022-04-26 Beijing Jingdong Shangke Information Technology Co System and method for fast object detection in robot picking
CN109658413B (zh) * 2018-12-12 2022-08-09 达闼机器人股份有限公司 一种机器人目标物体抓取位置检测的方法
GB2581808B (en) * 2019-02-26 2022-08-10 Imperial College Innovations Ltd Scene representation using image processing
US20220152825A1 (en) * 2020-11-13 2022-05-19 Armstrong Robotics, Inc. Automated manipulation of objects using a vision-based method for determining collision-free motion planning

Also Published As

Publication number Publication date
US20220379475A1 (en) 2022-12-01
CN115384971A (zh) 2022-11-25
JP2022181173A (ja) 2022-12-07

Similar Documents

Publication Publication Date Title
DE102014102943B4 (de) Robotersystem mit Funktionalität zur Ortsbestimmung einer 3D- Kiste
DE102022107311A1 (de) Aufheben von transparenten Objekten aus Behältern
DE102014212304B4 (de) Informationsverarbeitungsvorrichtung, Informationsverarbeitungsverfahren und Speichermedium
DE112016004535T5 (de) Universelles Übereinstimmungsnetz
DE112017002154T5 (de) Mobiler Roboter und Steuerverfahren für einen mobilen Roboter
DE102013216902A1 (de) Informationsverarbeitungsvorrichtung, Informationsverarbeitungsverfahren und Programm
DE102021121068A1 (de) 3d-erkennung mehrerer transparenter objekte
DE102017116853A1 (de) System und Verfahren zur automatischen Auswahl von 3D-Ausrichtungsalgorithmen in einem Sehsystem
DE102021103726B4 (de) Messparameter-Optimierungsverfahren und -vorrichtung sowie Computersteuerprogramm
DE102021107333A1 (de) 3d-stellungsabschätzung mit einer 2d-kamera
DE102021121612A1 (de) System und verfahren zum aufnehmen von kisten von einem stapel
DE112021003955T5 (de) Informationsverarbeitungsvorrichtung und Informationsverarbeitungsverfahren
DE102021107479A1 (de) Erfassung einer dreidimensionalen pose durch mehrere 2d-kameras
DE102021107351A1 (de) System zur eigenschaftserkennung durch deep-learning und vektorfeldschätzung
DE102022107228A1 (de) Aufnahme von objekten aus einem behälter (bin picking) mit drehungsausgleich
CN113524172B (zh) 机器人及其物品抓取方法、计算机可读存储介质
DE102018126310B3 (de) Verfahren zum Erstellen eines Objektmodells zum Greifen eines Objekts, computerlesbares Speichermedium und Robotersystem
DE102022129021A1 (de) Algorithmus zum depalettieren bei unterschiedlichen grössen
Jin et al. A framework based on deep learning and mathematical morphology for cabin door detection in an automated aerobridge docking system
Mikrut et al. Detection and recognition of selected class railway signs
DE102021212860B4 (de) Verfahren zum Aufnehmen eines Objekts mittels eines Roboters
DE102022128961A1 (de) Verwendung eines synthetischen datensatzes zum trainieren der robotergestützten depalettierung
DE102021211185B4 (de) Vorrichtung und Verfahren zum Steuern eines Roboters
DE102022134493A1 (de) Fehlschlagdetektion und wiederherstellung zur ai-entpalettierung
DE102009031804A1 (de) Verfahren zur Objekterkennung und Objektverfolgung