DE102022107311A1

DE102022107311A1 - Aufheben von transparenten Objekten aus Behältern

Info

Publication number: DE102022107311A1
Application number: DE102022107311.4A
Authority: DE
Inventors: Te Tang; Tetsuaki Kato
Original assignee: Fanuc Corp
Current assignee: Fanuc Corp
Priority date: 2021-05-25
Filing date: 2022-03-29
Publication date: 2022-12-01
Also published as: US20220379475A1; US12036678B2; JP2022181173A; CN115384971A

Abstract

System und Verfahren, die ein durch einen Roboter aus einem Objektbehälter aufzuhebendes Objekt, zum Beispiel ein transparentes Objekt, erkennen. Das Verfahren umfasst das Erzielen eines zweidimensionalen rot, grün, blauen Farbbildes (RGB) und eines zweidimensionalen Tiefenkartenbildes der Objekte unter Verwendung einer 3D-Kamera, wobei Pixel im Tiefenkartenbild einem Wert zugeordnet sind, der den Abstand von der Kamera zu den Objekten bezeichnet. Das Verfahren erzeugt ein Segmentierungsbild der Objekte mittels eines Deep-Learning Mask R-CNN (gefaltetes neuronales Netzwerk), das einen Bildsegmentierungsvorgang durchführt, der Merkmale aus dem RGB-Bild extrahiert und den Pixeln eine Kennzeichnung zuordnet, sodass Objekte im Segmentierungsbild die gleiche Kennzeichnung aufweisen. Das Verfahren erkennt anschließend einen Ort zum Aufheben des Objekts unter Verwendung des Segmentierungsbildes und des Tiefenkartenbildes.

Description

HINTERGRUND
Gebiet
Diese Offenlegung betrifft allgemein ein System und Verfahren zur Erkennung eines von einem Roboter aus einem Objektbehälter aufzuhebenden Objekts, und spezieller ein System und ein Verfahren zur Erkennung eines von einem Roboter aus einem Objektbehälter aufzuhebenden Objekts, zum Beispiel eines transparenten Objekts, wobei das Verfahren einen Bildsegmentierungsvorgang nutzt, der jedem Pixel in einem Bild des Behälters eine Kennzeichnung zuordnet.
Erörterung des Standes der Technik
Roboter führen eine Vielzahl von Aufgaben durch, die Bestückungsvorgänge einschließen, bei denen der Roboter Objekte aufhebt und von einem Ort, wie zum Beispiel einem Behälter, zu einem anderen Ort, zum Beispiel einem Transportband, bewegt. Um ein aus einem Behälter aufzuhebendes Objekt zu erkennen, nutzen einige Robotersysteme eine 3D-Kamera, die zweidimensionale rot, grün, blaue Farbbilder (RGB) des Behälters und zweidimensionale Tiefenkartenbilder des Behälters in Graustufen erzeugen, wobei jedes Pixel im Tiefenkartenbild einen Wert besitzt, der den Abstand von der Kamera zu einem speziellen Objekt definiert, d. h., je näher sich das Pixel zu dem Objekt befindet, desto niedriger ist sein Wert. Die Tiefenkartenbilder kennzeichnen Abstandsmessungen zu Punkten in einer Punktwolke im Bildfeld der Kamera, wobei eine Punktwolke eine Sammlung von Datenpunkten ist, die durch ein bestimmtes Koordinatensystem definiert sind, und jeder Punkt einen x-, y-, z-Wert aufweist.
Zu diesem Zweck gibt es zwei allgemeine Typen einer Punktwolkenanalyse, nämlich modellfreie Punktwolkenanalyse und modellbasierte Punktwolkenanalyse. Die modellfreie Punktwolkenanalyse umfasst das Erkennen von Punktclustern in der Punktwolke in einer Normalrichtung von der Kamera und das Segmentieren der Cluster relativ zueinander, wobei jedes Punktwolkensegment als ein Objekt erkannt wird. Die modellbasierte Punktwolkenanalyse umfasst das Erzeugen von Schablonen aus einem CAD-Modell der Objekte und das anschließende Suchen nach der Schablone in der Punktwolke. Falls das Objekt, das durch den Roboter aufzuheben ist, jedoch transparent ist, breitet sich Licht durch das Objekt aus und wird nicht wirksam von einer Oberfläche des Objekts reflektiert. Deshalb ist die durch die Kamera erzeugte Punktwolke keine effektive Darstellung des Objekts, und das Tiefenkartenbild ist nicht zuverlässig, und somit kann das aufzuhebende Objekt nicht zuverlässig erkannt werden.
ZUSAMMENFASSUNG
Die folgende Erörterung offenlegt und beschreibt ein System und Verfahren zur Erkennung eines durch einen Roboter aus einem Objektbehälter aufzuhebenden Objekts. Das Verfahren umfasst das Erzielen eines zweidimensionalen rot, grün, blauen Farbbildes (RGB) und eines zweidimensionalen Tiefenkartenbildes mittels einer 3D-Kamera, wobei Pixel im Tiefenkartenbild einem Wert zugeordnet sind, der den Abstand von der Kamera zu den Objekten kennzeichnet. Das Verfahren erzeugt ein Segmentierungsbild der Objekte mittels Deep-Learning Mask R-CNN (gefaltetes neuronales Netzwerk), das einen Vorgang der Bildsegmentierung durchführt, der Merkmale aus dem RGB-Bild extrahiert und den Pixeln eine Kennzeichnung zuordnet, sodass Objekte im Segmentierungsbild die gleiche Kennzeichnung besitzen. Das Verfahren erkennt anschließend einen Ort zum Aufheben des Objekts unter Verwendung des Segmentierungsbildes und des Tiefenkartenbildes, wobei das Erzielen eines Farbbildes, das Erzielen eines Tiefenkartenbildes, das Erzeugen eines Segmentierungsbildes und das Erkennen eines Ortes zum Aufheben des Objekts jedes Mal durchgeführt werden, wenn durch den Roboter ein Objekt aus der Gruppe von Objekten aufgehoben wird.
Zusätzliche Merkmale der Offenlegung erschließen sich aus der folgenden Beschreibung und den angefügten Ansprüchen, wenn sie in Verbindung mit den begleitenden Zeichnungen betrachtet werden.
Figurenliste

1 ist die Darstellung eines Robotersystems, das einen Objekte aus einem Behälter aufhebenden Roboter einschließt;
2 ist ein Blockschaltbild eines Behälterentnahmesystems zum Aufheben der Objekte aus dem Behälter in dem in 1 gezeigten Robotersystem; und
3 ist ein Blockschaltbild eines Segmentierungsmoduls, das von dem in 2 dargestellten System getrennt ist.

AUSFÜHRLICHE BESCHREIBUNG DER AUSFÜHRUNGSFORMEN
Die folgende Erörterung der Ausführungsformen der Offenlegung, die auf ein System und Verfahren zur Erkennung eines durch einen Roboter aus einem Behälter der Objekte aufzuhebenden Objekts gerichtet ist, wobei das Verfahren einen Bildsegmentierungsvorgang verwendet, der jedem Pixel in einem Bild des Behälters eine Kennzeichnung zuordnet, ist dem Wesen nach nur beispielhaft und soll keineswegs die Erfindung oder ihre Anwendungen oder Einsätze beschränken. Zum Beispiel bieten System und Verfahren eine Anwendung zur Erkennung eines durch einen Roboter aufzuhebenden, transparenten Objekts. Jedoch können System und Verfahren andere Anwendungen bieten.
1 ist die Darstellung eines Robotersystems 10 einschließlich eines Roboters 12 mit einem Roboter-Endeffektor 14, der Objekte 16, zum Beispiel durchsichtige Flaschen, aus einem Behälter 18 aufhebend dargestellt ist. Das System 10 soll jeden Typ eines Robotersystems darstellen, das aus der Erörterung hier Nutzen ziehen kann, wobei der Roboter 12 ein beliebiger, für diesen Zweck geeigneter Roboter sein kann. Eine 3D-Kamera 20 wird positioniert, um Bilder des Behälters 18 von oben nach unten aufzunehmen und diese einer Steuereinheit 22 des Roboters zur Verfügung zu stellen, die die Bewegung des Roboters 12 steuert. Weil die Objekte 16 durchsichtig sein können, kann sich die Steuereinheit 22 nicht auf ein durch die Kamera 20 bereitgestelltes Tiefenkartenbild verlassen, um den Ort der Objekte 16 im Behälter 18 zu erkennen.
Wie es nachstehend ausführlich erörtert wird, nutzt die Robotersteuereinheit 22 einen Algorithmus, der es dem Roboter 12 erlaubt, die Objekte 16 aufzuheben, ohne sich auf ein genaues Tiefenkartenbild verlassen zu müssen. Spezieller führt der Algorithmus einen Bildsegmentierungsvorgang unter Verwendung der verschiedenen Farben der Pixel im RGB-Bild von der 3D-Kamera 20 durch. Bildsegmentierung ist ein Vorgang, jedem Pixel in einem Bild eine Kennzeichnung zuzuordnen, sodass Pixel mit der gleichen Kennzeichnung bestimmte Eigenschaften gemeinsam benutzen. So gibt der Segmentierungsvorgang vor, welches Pixel zu welchem der Objekte 16 gehört.
Moderne Bildsegmentierungsverfahren können die Deep-Learning-Technik anwenden. Deep-Learning ist ein besonderer Typ des Maschinenlernens, der eine größere Lernleistung bereitstellt, indem eine bestimmte reale Umgebung als eine Hierarchie von zunehmenden komplexen Konzepten dargestellt wird. Deep-Learning nutzt typischerweise eine Softwarestruktur, die aus mehreren Schichten neuronaler Netze besteht, die nichtlineares Verarbeiten durchführen, wobei jede nachfolgende Schicht eine Ausgabe von der vorherigen Schicht empfängt. Allgemein umfassen die Schichten eine Eingabeschicht, die Ausgangsdaten von einem Sensor empfängt, eine Anzahl von verdeckten Schichten, die aus den Daten abstrakte Merkmale extrahieren und eine Ausgabeschicht, die eine bestimmte Sache basierend auf der Extraktion von Merkmalen aus den verdeckten Schichten erkennt. Die neuronalen Netze enthalten Neuronen oder Knoten, die jeweils eine „Gewichtung““ haben, die mit der Eingabe an den Knoten multipliziert wird, um Wahrscheinlichkeit darüber zu erzielen, ob etwas korrekt ist. Spezieller besitzt jeder der Knoten eine Gewichtung, die eine Gleitkommazahl ist, die mit der Eingabe an den Knoten multipliziert wird, um eine Ausgabe für denjenigen Knoten zu erzeugen, der ein gewisses Verhältnis der Eingabe ist. Die Gewichtungen werden anfänglich „trainiert“ oder eingestellt, indem bewirkt wird, dass die neuronalen Netze eine Menge von bekannten Daten unter überwachtem Verarbeiten und durch Minimierung einer Kostenfunktion analysieren, um dem Netz zu ermöglichen, die höchste Wahrscheinlichkeit einer korrekten Ausgabe zu erzielen.
2 ist ein Blockschaltbild eines Behälterentnahmesystems 30, das Teil der Steuereinheit 22 im Robotersystem 10 ist, welches funktioniert, um die Objekte 16 aus dem Behälter 18 aufzuheben. Das System 30 empfängt ein zweidimensionales RGB-Bild 32 einer Draufsicht des Behälters 18 und ein zweidimensionales Tiefenkartenbild 34 der Draufsicht des Behälters 18 von der Kamera 20, wobei das Tiefenkartenbild 34 nicht zuverlässig sein kann, weil die Objekte 16 durchsichtig sein können. Das Bild 32 wird einem Segmentierungsmodul 36 bereitgestellt, das einen Bildsegmentierungsvorgang durchführt, wobei jedes Pixel in dem Bild 32 einer bestimmten Kennzeichnung zugeordnet wird und wobei die zum gleichen Objekt 16 zugehörigen Pixel die gleiche Kennzeichnung besitzen.
3 ist ein Blockschaltbild des Moduls 36, das vom System 30 getrennt ist. Das RGB-Bild 32 wird einem Merkmalsextraktionsmodul 42 zur Verfügung gestellt, das einen Filtervorgang durchführt, der Merkmale aus dem Bild 32 extrahiert. Zum Beispiel kann das Modul 42 auf dem Lernen basierende, neuronale Netze einschließen, die Neigungen, Kanten, Konturen, elementare Formen, usw. aus dem Bild 32 extrahieren, und stellt in einer bekannten Art und Weise ein Bild 44 von extrahierten Merkmalen des RGB-Bildes 32 bereit. Das Merkmalsbild 44 wird einem Bereichsvorschlagsmodul 50 zur Verfügung gestellt, das mittels neuronaler Netze die erkannten Merkmale im RGB-Bild 32 analysiert und eine Anzahl von Begrenzungsrechtecken 52 in einem Begrenzungsrechteckbild 54 vorschlägt oder erkennt, die die Wahrscheinlichkeit erkennen, dass am Ort des Begrenzungsrechtecks 52 im Bild 54 eins der Objekte 16 existiert. Das Begrenzungsrechteckbild 54 wird einem Modul 56 binärer Segmentierung zur Verfügung gestellt, das mittels eines neuronalen Netzes bewertet, ob ein Pixel zu einem der Begrenzungsrechtecke 54 gehört. Die Pixel werden einem Wert für ein spezielles Objekt 16 zugeordnet, sodass ein zweidimensionales Segmentierungsbild 58 erzeugt wird, welches die Objekte 16 durch unterschiedliche Angaben, wie zum Beispiel Farbe, erkennt. Der Vorgang der Bildsegmentierung ist so, wie beschrieben, eine modifizierte Form eines Deep-Learning-Mask R-CNN (gefaltetes neuronales Netzwerk).
Das zweidimensionale Segmentierungsbild 58 mit den Pixelkoordinaten x, y wird anschließend einem Mittenpixel-Modul 60 bereitgestellt, das die x-y-Koordinate des Mittenpixels eines der Objekte 16 im Bild 58 bestimmt, wobei zu Anfang ein voreingestellter Vorgang in der Reihenfolge vorgesehen ist, wie die Objekte 16 aufgehoben werden. Das erkannte Mittenpixel des ausgewählten Objekts 16 wird einem Kartesischen-Koordinaten-Modul 62 zusammen mit dem Tiefenkartenbild 34 zur Verfügung gestellt, welches die Kartesische Koordinate x, y, z des Mittenpixels desjenigen Objekts 16 berechnet, wo das Tiefenkartenbild 34 jeden realen Ort der Pixel abschätzt oder vorhersagt, obwohl die Vorhersage nicht sehr zuverlässig ist. Die Koordinate x, y, z des Mittenpixels für dieses Objekt 16 wird dann genutzt, um die Zugriffsposition x, y, z in einem Zugriffpositionsmodul 64 zur Positionierung des Endeffektors 14 zu ermitteln. Die x-y-Koordinate des Mittenpixels des ausgewählten Objekts 16 wird außerdem an ein Zugriffausrichtungsmodul 66 gesendet, das die Zugriffsausrichtung bestimmt, d. h., die Roll-, Neige- und Gierbewegung des Roboters 12 basierend auf einer Richtung des Lichtstrahls aus der Kamera 24 zum Mittenpixel des Objekts 16, zum Beispiel mittels eines dem Fachmann gut bekannten Modells einer Lochkamera, wobei die Bewegung des Endeffektors 14, wenn er das Objekt 16 aufhebt, entlang der Richtung des Lichtstrahls und damit ausgerichtet verlaufen wird. Es ist notwendig, die Richtung des Lichtstrahls aus der Kamera 24 zu bestimmen, weil das Tiefenkartenbild 34 nicht imstande ist, einen genauen Abstand zwischen der Kamera 24 und dem Objekt 16 bereitzustellen.
Die Zugriffsposition des Endeffektors 14 und die Zugriffsausrichtung des Endeffektors 14 werden in einem Zugriffsposen-Modul 68 kombiniert, um die Zugriffspose des Endeffektors 14 bereitzustellen, wobei die Zugriffspose die x-y-z-Koordinaten und die Roll-, Neige- und Gierposition des Endeffektors 14 umfasst, um die Annäherungsausrichtung des Endeffektors 14 zusammen mit der Richtung des Lichtstrahls zum Objekt 16 zur Verfügung zu stellen. Ein Kollisionsprüfmodul 70 bestimmt, ob die Zugriffspose bewirken wird, dass der Endeffektor 14 mit dem Boden des Behälters 18 entlang der berechneten Lichtstrahlrichtung kollidiert, wobei der Abstand zum Boden des Behälters 18 bekannt ist. Wenn die Zugriffspose eine Kollision mit dem Behälter 18 entlang der Lichtstrahlrichtung verursachen wird, dann wird ein Sicherheitspuffer in einem Sicherheitspuffermodul 72 erzeugt, um die Bewegung des Roboters 12 entlang der Lichtstrahlrichtung zu begrenzen.
Während sich der Endeffektor 14 entlang der Lichtstrahlrichtung bewegt, wird er möglicherweise das aufzuhebende Objekt 16 berühren, wobei der Endeffektor 14 in dieser Ausführungsform einen Saugnapf (nicht gezeigt) zum Aufheben des Objekts 16 verwendet. Ein Kontakterkennungsmodul 74 detektiert, dass der Saugnapf mit dem Objekt 16 Kontakt hergestellt hat, indem im Unterdruck ein Druckunterschied detektiert wird. Der Roboter 12 unterbricht seine Bewegung und hebt das Objekt 16 an einem Modul 76 zum Aufheben auf oder erreicht den Pufferabstand, wo er das Objekt 16 nicht aufheben wird. Sobald das Objekt 16 durch den Roboter 12 aufgehoben und bewegt worden ist, wird die Kamera 20 neue Bilder des Behälters 18 aufnehmen, um das nächste Objekt 16 aufzuheben. Dieser Vorgang wird fortgesetzt, bis alle Objekte 16 aufgehoben worden sind.
Wie dem Fachmann verständlich wird, können die hier erörterten mehreren und verschiedenen Schritte und Vorgänge zum Beschreiben der Offenlegung auf Arbeitsgänge bezogen sein, die von einem Computer, einem Prozessor oder einer anderen elektronischen Rechenvorrichtung durchgeführt werden, die eine elektrische Erscheinung nutzende Daten manipulieren und/oder transformieren. Solche Computer und elektronische Vorrichtungen können verschiedene flüchtige und/oder nichtflüchtige Speicher einschließlich eines nicht vergänglichen, computerlesbaren Mediums mit einem darauf gespeicherten ablauffähigen Programm nutzen, das verschiedene Codes oder ausführbare Anweisungen enthält, die durch den Computer oder Prozessor ausgeführt werden können, wobei der Speicher und/oder das computerlesbare Medium alle Formen und Typen von Speichern und anderen computerlesbaren Medien einschließen können.
Die vorhergehende Erörterung offenlegt und beschreibt nur beispielhafte Ausführungsformen der vorliegenden Offenlegung. Der Fachmann wird ohne Weiteres aus dieser Erörterung und aus den begleitenden Zeichnungen und Ansprüchen erkennen, dass darin verschiedene Änderungen, Modifizierungen und Abänderungen vorgenommen werden können, ohne vom Geist und Geltungsbereich der Offenlegung, wie in den folgenden Ansprüchen definiert, abzuweichen.

Claims

Verfahren zum Aufheben eines Objekts aus einer Gruppe von Objekten, wobei das Verfahren umfasst: Erzielen eines zweidimensionalen rot, grün, blauen Farbbildes (RGB) der Objekte mittels einer 3D-Kamera; Erzielen eines zweidimensionalen Tiefenkartenbildes der Objekte mittels der 3D-Kamera, wobei Pixel in dem Tiefenkartenbild einem den Abstand von der Kamera zu den Objekten bezeichnenden Wert zugeordnet sind; Erzeugen eines Segmentierungsbildes der Objekte durch Ausführen eines Bildsegmentierungsvorgangs, der Merkmale aus dem RGB-Bild extrahiert und Pixeln im Segmentierungsbild eine Kennzeichnung zuordnet, sodass jedes Objekt im Segmentierungsbild die gleiche Kennzeichnung aufweist; und Erkennen eines Ortes zum Aufheben des Objekts unter Verwendung des Segmentierungsbildes und des Tiefenkartenbildes.
Verfahren nach Anspruch 1, wobei das Erzeugen eines Segmentierungsbildes umfasst, ein Deep-Learning Mask R-CNN (gefaltetes neuronales Netzwerk) zu verwenden.
Verfahren nach Anspruch 1, wobei Erzeugen eines Segmentierungsbildes das Erzeugen von Begrenzungsrechtecken aus den extrahierten Merkmalen, die die Wahrscheinlichkeit erkennen, dass eins der Objekte an einem bestimmten Ort vorhanden ist, umfasst.
Verfahren nach Anspruch 3, wobei das Erzeugen von Begrenzungsrechtecken umfasst, einen Bereichsvorschlagsvorgang zu verwenden.
Verfahren nach Anspruch 3, wobei Erzeugen eines Segmentierungsbildes umfasst, eine binäre Segmentierung vorzusehen, die festlegt, welche Bildpixel zu welchem Begrenzungsrechteck gehören.
Verfahren nach Anspruch 1, wobei Erkennen eines Ortes zum Aufheben des Objekts das Erkennen eines Mittenpixels des Objekts im Segmentierungsbild und das Berechnen von x-y-z-Koordinaten des Mittenpixels unter Verwendung des Segmentierungsbildes und des Tiefenkartenbildes umfasst.
Verfahren nach Anspruch 6, wobei Erkennen eines Ortes zum Aufheben des Objekts das Festlegen einer x-y- z-Zugriffsposition zum Aufheben des Objekts umfasst.
Verfahren nach Anspruch 7, wobei Erkennen eines Ortes zum Aufheben des Objekts das Erkennen einer Zugriffsausrichtung zum Aufheben des Objekts umfasst, die durch eine Richtung des Lichtstrahls von der Kamera auf das Mittenpixel definiert ist.
Verfahren nach Anspruch 8, wobei die Richtung des Lichtstrahls durch ein Lochkamera-Modell bestimmt wird.
Verfahren nach Anspruch 8, wobei Erkennen eines Ortes zum Aufheben des Objekts das Bestimmen einer Zugriffspose zum Aufheben des Objekts unter Verwendung der Zugriffsposition und der Zugriffsausrichtung umfasst.
Verfahren nach Anspruch 10, wobei das Objekt durch einen Roboter aufgehoben wird, und die Zugriffspose die Pose eines Endeffektors des Roboters bestimmt.
Verfahren nach Anspruch 11, des Weiteren umfassend das Bereitstellen einer Kollisionsgrenze für den Endeffektor.
Verfahren nach Anspruch 1, wobei das Erzielen eines Farbbildes, das Erzielen eines Tiefenkartenbildes und das Erzeugen eines Segmentierungsbildes jedes Mal durchgeführt werden, wenn ein Objekt aus der Gruppe von Objekten aufgehoben wird.
Verfahren nach Anspruch 1, wobei die Objekte transparent sind.
Verfahren nach Anspruch 1, wobei die Objekte mehr als eine Form aufweisen.
Verfahren zum Aufheben eines transparenten Objekts aus einer Gruppe von transparenten Objekten mittels eines Roboters, wobei das Verfahren umfasst: Erzielen eines zweidimensionalen rot, grün, blauen Farbbildes (RGB) der Objekte unter Verwendung einer 3D-Kamera; Erzielen eines zweidimensionalen Tiefenkartenbildes der Objekte unter Verwendung der 3D-Kamera, wobei Pixel in dem Tiefenkartenbild einem Wert zugeordnet werden, der den Abstand von der Kamera zu den Objekten bezeichnet; Erzeugen eines Segmentierungsbildes der Objekte, indem ein Deep-Learning Mask R-CNN (gefaltetes neuronales Netzwerk) verwendender Bildsegmentierungsvorgang durchgeführt wird, der Merkmale aus dem RGB-Bild extrahiert und Pixeln im Segmentierungsbild eine Kennzeichnung zuordnet, sodass jedes Objekt in dem Segmentierungsbild die gleiche Kennzeichnung aufweist; und Erkennen eines Ortes zum Aufheben des Objekts unter Verwendung des Segmentierungsbildes und des Tiefenkartenbildes, wobei das Erzielen eines Farbbildes, das Erzielen eines Tiefenkartenbildes, das Erzeugen eines Segmentierungsbildes und das Erkennen eines Ortes zum Aufheben des Objekts jedes Mal durchgeführt werden, wenn durch den Roboter ein Objekt aus der Gruppe von Objekten aufgehoben wird.
Verfahren nach Anspruch 16, wobei Erzeugen eines Segmentierungsbildes das Erzeugen von Begrenzungsrechtecken aus den extrahierten Merkmalen, die die Wahrscheinlichkeit erkennen, dass eins der Objekte an einem bestimmten Ort vorhanden ist, indem ein Bereichsvorschlagsvorgang genutzt wird, und das Bereitstellen einer binären Segmentierung umfasst, die bestimmt, welche Bildpixel zu welchem Begrenzungsrechteck gehören.
Verfahren nach Anspruch 16, wobei Erkennen eines Ortes zum Aufheben des Objekts das Erkennen eines Mittenpixels des Objekts im Segmentierungsbild, das Berechnen von x-y-z-Koordinaten des Mittenpixels unter Verwendung des Segmentierungsbildes und des Tiefenkartenbildes, das Bestimmen einer x-y-z-Zugriffsposition des Roboters zum Aufheben des Objekts, das Erkennen einer Zugriffsausrichtung des Roboters zum Aufheben des Objekts, das Erkennen einer Zugriffsausrichtung des Roboters zum Aufheben des Objekts, die durch eine Lichtstrahlrichtung von der Kamera zum Mittenpixel unter Verwendung eines Lochkamera-Modells definiert ist, und das Bestimmen einer Zugriffspose des Roboters zum Aufheben des Objekts mittels der Zugriffsposition und der Zugriffsausrichtung umfasst.
Robotersystem zum Aufheben eines Objekts aus einer Gruppe von Objekten mittels eines Roboters, wobei das System umfasst: eine 3D-Kamera, die ein zweidimensionales rot, grün, blaues Farbbild (RGB) und ein zweidimensionales Tiefenkartenbild der Objekte bereitstellt; ein Deep-Learning Mask R-CNN (gefaltetes neuronales Netzwerk), das ein Segmentierungsbild der Objekte erzeugt, indem ein Bildsegmentierungsvorgang durchgeführt wird, der Merkmale aus dem RGB-Bild extrahiert und Pixeln im Segmentierungsbild eine Kennzeichnung zuweist, sodass jedes Objekt im Segmentierungsbild die gleiche Kennzeichnung aufweist; und Einrichtung zur Erkennung eines Ortes zum Aufheben des Objekts unter Verwendung des Segmentierungsbildes und des Tiefenkartenbildes, wobei das Erzielen eines Farbbildes, das Erzielen eines Tiefenkartenbildes, das Erzeugen eines Segmentierungsbildes und das Erkennen eines Ortes zum Aufheben des Objekts jedes Mal durchgeführt werden, wenn durch den Roboter ein Objekt aus der Gruppe von Objekten aufgehoben wird.
System nach Anspruch 19, wobei die Einrichtung zum Erkennen eines Ortes zum Aufheben des Objekts ein Mittenpixel des Objekts im Segmentierungsbild erkennt, x-y-z-Koordinaten des Mittenpixels unter Verwendung des Segmentierungsbildes und des Tiefenkartenbildes berechnet, eine x-y-z-Zugriffsposition des Roboters zum Aufheben des Objekts bestimmt, eine Zugriffsausrichtung des Roboters zum Aufheben des Objekts erkennt, die durch eine Lichtstrahlrichtung von der Kamera zum Mittenpixel definiert ist, indem ein Lochkamera-Modell verwendet wird, und eine Zugriffspose des Roboters zum Aufheben des Objekts unter Verwendung der Zugriffsposition und der Zugriffsausrichtung bestimmt.