DE102022201768A1

DE102022201768A1 - Verfahren zum Ermitteln einer 6D-Pose eines Objektes

Info

Publication number: DE102022201768A1
Application number: DE102022201768.4A
Authority: DE
Inventors: Yumeng Li; Gerhard Neumann; Ning Gao; Hanna Ziesche
Original assignee: Robert Bosch GmbH
Current assignee: Robert Bosch GmbH
Priority date: 2022-02-21
Filing date: 2022-02-21
Publication date: 2023-08-24
Also published as: US20230267644A1; CN116630415A

Abstract

Die Erfindung betrifft ein Verfahren zum Ermitteln einer 6D-Pose eines Objektes, wobei das Verfahren (1) folgende Schritte aufweist: Bereitstellen von Bilddaten, wobei die Bilddaten Zielbilddaten, welche das Objekt zeigen, und gelabelte Vergleichsbilddaten bezüglich des Objektes umfassen (2), und Ermitteln der 6D Pose des Objektes basierend auf den bereitgestellten Bilddaten durch einen Meta-Learning Algorithmus (3).

Description

Die Erfindung betrifft ein Verfahren zum Ermitteln einer 6D-Pose eines Objektes, mit welchem die 6D-Pose eines Objektes unabhängig von der entsprechenden Objektkategorie auf einfache Art und Weise ermittelt werden kann.
Unter 6D-Pose wird allgemein die Position und Ausrichtung von Gegenständen beziehungsweise Objekten verstanden. Die Pose beschreibt dabei insbesondere die Transformation, welche nötig ist, um ein Bezugskoordinatensystem in ein objektfestes Koordinatensystem beziehungsweise Koordinaten eines optischen Sensors beziehungsweise Kamerakoordinaten in Objektkoordinaten zu überführen, wobei es sich jeweils um kartesische Koordinatensysteme handelt, und wobei sich die Transformation aus einer Translation und einer Rotation zusammensetzt.
Die Anwendungsmöglichkeiten von Posenschätzung beziehungsweise der 6D-Pose eines Objektes sind dabei vielfältig. Beispielsweise kann Kamera-Relokalisierung die Navigation von autonomen Fahrzeugen unterstützen, beispielsweise wenn ein GPS (Global Positioning System)-System nicht zuverlässig funktioniert oder die Genauigkeit nicht ausreicht. Zur Navigation in geschlossenen Räumen steht GPS außerdem oft nicht zur Verfügung. Soll ein steuerbares System, beispielsweise ein Robotiksystem, mit Objekten interagieren, diese beispielsweise greifen, muss zudem deren Position und Ausrichtung im Raum exakt bestimmt werden.
Bekannte Algorithmen zur Schätzung oder Ermittlung der 6D-Pose eines Objektes basieren dabei auf Modellen, welche für eine bestimmte Objektkategorie trainiert wurden. Als nachteilig erweist sich hierbei, dass diese Modelle bei Objekten aus einer anderen, unterschiedlichen Kategorie zunächst aufwendig neu trainiert werden müssen, bevor auch Objekte aus dieser anderen, unterschiedlichen Kategorie erfasst werden können, was mit einem erhöhten Ressourcenverbrauch verbunden ist. Unter unterschiedlichen Objektkategorien werden dabei unterschiedliche Arten von Objekten beziehungsweise jeweils Mengen von logisch miteinander in Verbindung gebrachten Objekten verstanden.
Aus der Druckschrift US 2019/0304134 A1 ist ein Verfahren bekannt, bei dem ein erstes Bild empfangen wird, eine Klasse eines Objektes in dem ersten Bild erfasst wird, eine Pose des Objektes in dem ersten Bild geschätzt wird, ein zweites Bild des Objektes aus einem andere Blickwinkel empfangen wird, eine Pose des Objektes in dem zweiten Bild geschätzt wird, die Pose des Objektes in dem ersten Bild mit der Pose des Objektes in dem zweiten Bild kombiniert wird, um eine verifizierte Pose zu erzeugen, und die zweite Pose zum Trainieren eines Convolutional Neural Network (CNN) verwendet wird.
Der Erfindung liegt somit die Aufgabe zugrunde, ein verbessertes Verfahren zum Ermitteln einer 6D-Pose eines Objektes anzugeben und insbesondere ein Verfahren zum Ermitteln einer 6D-Pose eines Objektes, welches ohne großen Aufwand auf unterschiedliche Objektkategorien angewendet werden kann.
Die Aufgabe wird mit einem Verfahren zum Ermitteln einer 6D-Pose eines Objektes gemäß den Merkmalen des Patentanspruchs 1 gelöst.
Die Aufgabe wird weiter auch durch ein Steuergerät zum Ermitteln einer 6D-Pose eines Objektes gemäß den Merkmalen des Patentanspruchs 6 gelöst.
Die Aufgabe wird außerdem auch durch ein System zum Ermitteln einer 6D-Pose eines Objektes gemäß den Merkmalen des Patentanspruchs 8 gelöst.
Offenbarung der Erfindung
Gemäß einer Ausführungsform der Erfindung wird diese Aufgabe gelöst durch ein Verfahren zum Ermitteln einer 6D-Pose eines Objektes, wobei Bilddaten bereitgestellt werden, wobei die Bilddaten Zielbilddaten, welche das Objekt zeigen, und gelabelte Vergleichsbilddaten bezüglich des Objektes umfassen, und wobei die 6D Pose des Objektes basierend auf den bereitgestellten Bilddaten durch einen Meta-Learning Algorithmus ermittelt wird.
Unter Bilddaten werden dabei Daten, welche durch Scannen beziehungsweise optisches Aufnehmen einer oder mehrerer Oberflächen durch ein optisches oder elektronisches Gerät beziehungsweise einen optischen Sensor erzeugt werden, verstanden.
Bei den Zielbilddaten, welche das Objekt zeigen, handelt es sich um Bilddaten, insbesondere aktuelle Bilddaten einer Oberfläche, auf welcher das Objekt aktuell platziert beziehungsweise positioniert ist.
Bei den Vergleichsbilddaten bezüglich des Objektes handelt es sich weiter um Vergleichs- beziehungsweise Kontextdaten und insbesondere um digitale Bilder, welche zum Vergleich beziehungsweise als Referenz ebenfalls das entsprechende Objekt darstellen. Unter gelabelten Daten werden ferner bereits bekannte Daten verstanden, welche bereits aufbereitet wurden, beispielsweise aus welchen bereits Merkmale extrahiert wurden oder aus welchen bereits Muster abgeleitet wurden.
Ein Meta-Learning Algorithmus ist zudem ein Algorithmus des maschinellen Lernens, welcher ausgebildet ist, den Algorithmus durch eigenständiges Lernen sowie Zurückgreifen auf Erfahrungen zu optimieren. Derartige Meta-Learning Algorithmen werden dabei insbesondere auf Metadaten angewendet, wobei es sich bei den Metadaten beispielsweise um Eigenschaften des entsprechenden Lernproblems, Algorithmeneigenschaften oder Muster, welche zuvor aus den Daten abgeleitet wurden, handeln kann. Die Anwendung derartiger Meta-Learning Algorithmen hat insbesondere den Vorteil, dass die Leistungsfähigkeit des Algorithmus erhöht und dieser flexibel an verschiedene Problemstellungen angepasst werden kann.
Das erfindungsgemäße Verfahren hat somit den Vorteil, dass dieses flexibel auf unterschiedliche Objektkategorien und insbesondere neue Objekte aus einer bisher unbekannten Kategorie angewendet werden kann, ohne dass der Algorithmus zunächst aufwendig neu trainiert werden muss, bevor auch Objekte aus einer anderen, unterschiedlichen Kategorie erfasst werden können, was mit einem erhöhten Ressourcenverbrauch verbunden wäre. Insgesamt wird somit ein verbessertes Verfahren zum Ermitteln einer 6D-Pose eines Objektes angegeben, welches ohne großen Aufwand auf unterschiedliche Objektkategorien angewendet werden kann.
Dabei kann das Verfahren auch einen Schritt eines Erfassens von aktuellen Bilddaten, welche das Objekt zeigen, aufweisen, wobei die erfassten Bilddaten, welche das Objekt zeigen, als Zielbilddaten bereitgestellt werden. Somit werden aktuelle Gegebenheiten außerhalb der eigentlichen Datenverarbeitungsanlage, auf welcher die Ermittlung der 6D-Pose erfolgt, berücksichtigt und fließen in das Verfahren ein.
In einer Ausführungsform weist der Schritt des Ermittelns der 6D-Pose des Objektes basierend auf den bereitgestellten Bilddaten durch einen Meta-Learning Algorithmus weiter ein Extrahieren von Merkmalen aus den bereitgestellten Bilddaten, ein Bestimmen von Bildpunkten in den Zielbilddaten, welche das Objekt zeigen, basierend auf den extrahierten Merkmalen, ein Bestimmen von Schlüsselpunkten auf dem Objekt basierend auf den extrahierten Merkmalen und Informationen über die gelabelten Vergleichsbilddaten, für jeden Schlüsselpunkt, für jeden der Bildpunkte, welche das Objekt zeigen, jeweils ein Bestimmen eines Versatzes zwischen dem entsprechenden Bildpunkt und dem Schlüsselpunkt, und ein Ermitteln der 6D-Pose basierend auf den bestimmten Versätzen für alle Schlüsselpunkte, auf.
Bei den extrahierten beziehungsweise ausgelesenen Merkmalen kann es sich dabei ein bestimmtes Muster, beispielsweise um eine Struktur beziehungsweise Beschaffenheit des Objektes oder ein äußeres Erscheinungsbild des Objektes handeln.
Unter einem Bildpunkt wird weiter jeweils ein Element beziehungsweise Teil von Bilddaten verstanden, beispielsweise ein Pixel.
Unter Informationen über die gelabelten Vergleichsbilddaten werden weiter Informationen über die in den Vergleichsbilddaten enthaltenen Muster beziehungsweise Label verstanden.
Unter Schlüsselpunkt wird ferner ein virtueller Punkt auf der Oberfläche eines Objektes verstanden, welcher einen Punkt von geometrischer Bedeutung des Objektes wiedergibt, beispielsweise einen der Scheitelpunkte des Objektes.
Unter Versatz wird zudem jeweils eine räumliche Verschiebung beziehungsweise ein räumlicher Abstand zwischen einem Bildpunkt und einem Schlüsselpunkt verstanden.
Insbesondere kann die 6D-Pose somit auf einfache Art und Weise und mit geringem Ressourcenverbrauch, beispielsweise vergleichsweise geringen Speicher- und/oder Prozessorkapazitäten erfolgen, ohne dass der Algorithmus zunächst aufwendig neu trainiert werden muss, bevor auch Objekte aus einer anderen, unterschiedlichen Kategorie erfasst werden können.
Bei den Bilddaten kann es sich zudem um Bilddaten, welche Tiefeninformationen aufweisen, handeln.
Unter Tiefeninformationen werden hierbei Informationen über die räumliche Tiefe beziehungsweise räumliche Wirkung eines in den Bilddaten dargestellten beziehungsweise abgebildeten Objektes verstanden.
Dass die Bilddaten Tiefeninformationen aufweisen, hat den Vorteil, dass die Genauigkeit bei der Ermittlung der 6D-Pose des Objektes noch weiter erhöht werden kann.
Dabei, dass die Bilddaten Tiefeninformationen aufweisen, handelt es sich jedoch nur um eine mögliche Ausführungsform. So kann es sich bei den Bilddaten beispielsweise auch nur um RGB-Daten handeln.
Mit einer weiteren Ausführungsform der Erfindung wird auch ein Verfahren zum Steuern eines steuerbaren Systems angegeben, wobei zunächst eine 6D-Pose eines Objektes durch ein obenstehend beschriebenes Verfahren zum Ermitteln einer 6D-Pose eines Objektes ermittelt wird, und das steuerbare System anschließend basierend auf der ermittelten 6D-Pose des Objektes gesteuert wird.
Bei dem wenigstens steuerbaren System kann es sich dabei beispielsweise um ein Robotiksystem handeln, wobei es sich bei dem Robotiksystem wiederum beispielsweise um einen Greifroboter handeln kann. Ferner kann es sich aber beispielsweise auch um ein System zum Steuern oder Navigieren eines autonom fahrenden Kraftfahrzeuges oder ein System zur Gesichtserkennung handeln.
Ein derartiges Verfahren hat den Vorteil, dass die Steuerung des steuerbaren Systems auf einer durch ein verbessertes Verfahren zum Ermitteln einer 6D-Pose eines Objektes, welches ohne großen Aufwand auf unterschiedliche Objektkategorien und insbesondere neue Objekte aus einer bisher unbekannten Kategorie angewendet werden kann, ermittelten 6D-Pose eines Objektes basiert. Insbesondere basiert die Steuerung des steuerbaren Systems dabei auf einem Verfahren, welches flexibel auf unterschiedliche Objektkategorien angewendet werden kann, ohne dass der entsprechende Algorithmus zunächst aufwendig neu trainiert werden muss, bevor auch Objekte aus einer anderen, unterschiedlichen Kategorie erfasst werden können, was mit einem erhöhten Ressourcenverbrauch verbunden wäre.
Mit einer weiteren Ausführungsform der Erfindung wird weiter auch ein Steuergerät zum Ermitteln einer 6D-Pose eines Objektes angegeben, wobei das Steuergerät eine Bereitstellungseinheit, welche ausgebildet ist, Bilddaten bereitzustellen, wobei die Bilddaten Zielbilddaten, welche das Objekt zeigen, und gelabelte Vergleichsbilddaten bezüglich des Objektes umfassen, und eine erste Ermittlungseinheit, welche ausgebildet ist, die 6D-Pose des Objektes basierend auf den bereitgestellten Bilddaten durch einen Meta-Learning Algorithmus zu ermitteln, aufweist.
Ein derartiges Steuergerät hat den Vorteil, dass mit diesem die 6D-Pose eines Objektes flexibel auch für unterschiedliche Objektkategorien und insbesondere neue Objekte aus einer bisher unbekannten Kategorie ermittelt werden kann, ohne dass der entsprechende, in das Steuergerät implementierte Algorithmus zunächst aufwendig neu trainiert werden muss, bevor auch Objekte aus einer anderen, unterschiedlichen Kategorie erfasst werden können, was mit einem erhöhten Ressourcenverbrauch verbunden wäre. Insgesamt wird somit ein verbessertes Steuergerät zum Ermitteln einer 6D-Pose eines Objektes angegeben, welches ohne großen Aufwand auf unterschiedliche Objektkategorien angewendet werden kann.
Die erste Ermittlungseinheit kann dabei weiter eine Extrahierungseinheit, welche ausgebildet ist, Merkmale aus den bereitgestellten Bilddaten zu extrahieren, eine erste Bestimmungseinheit, welche ausgebildet ist, Bildpunkte in den Zielbilddaten, welche das Objekt zeigen, basierend auf den extrahierten Merkmalen zu bestimmen, eine zweite Bestimmungseinheit, welche ausgebildet ist, Schlüsselpunkte auf dem Objekt basierend auf den extrahierten Merkmalen und Informationen über die gelabelten Vergleichsbilddaten zu bestimmen, eine dritte Bestimmungseinheit, welche ausgebildet ist, für jeden Schlüsselpunkt, für jeden der Bildpunkte, welche das Objekt zeigen, jeweils einen Versatz zwischen dem entsprechenden Bildpunkt und dem Schlüsselpunkt zu bestimmen, und eine zweite Ermittlungseinheit, welche ausgebildet ist, die 6D-Pose basierend auf den bestimmten Versätzen für alle Schlüsselpunkte zu ermitteln, aufweisen.
Insbesondere kann das Steuergerät somit ausgebildet sein, die 6D-Pose auf einfache Art und Weise und mit geringem Ressourcenverbrauch, beispielsweise vergleichsweise geringen Speicher- und/oder Prozessorkapazitäten zu ermitteln, ohne dass der entsprechende, zugrundeliegende Algorithmus zunächst aufwendig neu trainiert werden muss, bevor auch Objekte aus einer anderen, unterschiedlichen Kategorie erfasst werden können.
Mit einer weiteren Ausführungsform der Erfindung wird zudem auch System zum Ermitteln einer 6D-Pose eines Objektes angegeben, wobei das System ein obenstehend beschriebenes Steuergerät zum Ermitteln einer 6D-Pose eines Objektes und einen optischen Sensor, welcher ausgebildet ist, die Zielbilddaten, welche das Objekt zeigen, zu erfassen, aufweist.
Ein Sensor, welcher auch als Detektor oder (Mess-) Fühler bezeichnet wird, ist ein technisches Bauteil, das bestimmte physikalische oder chemische Eigenschaften und/oder die stoffliche Beschaffenheit seiner Umgebung qualitativ oder als Messgröße quantitativ erfassen kann. Optische Sensoren bestehen dabei insbesondere aus einem Lichtsender und einem Lichtempfänger, wobei der Lichtempfänger ausgebildet ist, von dem Lichtsender ausgesendetes Licht beispielsweise hinsichtlich Intensität, Farbe oder Laufzeit auszuwerten.
Ein derartiges System hat den Vorteil, dass mit diesem die 6D-Pose eines Objektes flexibel auch für unterschiedliche Objektkategorien und insbesondere neue Objekte aus einer bisher unbekannten Kategorie ermittelt werden kann, ohne dass der entsprechende implementierte Algorithmus zunächst aufwendig neu trainiert werden muss, bevor auch Objekte aus einer anderen, unterschiedlichen Kategorie erfasst werden können, was mit einem erhöhten Ressourcenverbrauch verbunden wäre. Insgesamt wird somit ein verbessertes System zum Ermitteln einer 6D-Pose eines Objektes angegeben, welches ohne großen Aufwand auf unterschiedliche Objektkategorien angewendet werden kann.
In einer Ausführungsform handelt es sich bei dem optischen Sensor dabei um einen RGB-D Sensor.
Bei einem RGB-D Sensor handelt es sich dabei um einen optischen Sensor, welcher ausgebildet ist, neben RGB-Daten auch zugehörige Tiefeninformationen zu erfassen.
Dass die erfassten Bilddaten Tiefeninformationen aufweisen, hat wiederum den Vorteil, dass die Genauigkeit bei der Ermittlung der 6D-Pose des Objektes noch weiter erhöht werden kann.
Dabei, dass es sich bei dem optischen Sensor um einen RGB-D Sensor handelt, handelt es sich jedoch nur um eine mögliche Ausführungsform. So kann es sich bei dem optischen Sensor beispielsweise auch nur um einen RGB Sensor handeln.
Mit einer weiteren Ausführungsform der Erfindung wird außerdem auch ein Steuergerät zum Steuern eines steuerbaren Systems angegeben, wobei das Steuergerät eine Empfangseinheit zum Empfangen einer durch ein obenstehend beschriebenes Steuergerät zum Ermitteln einer 6D-Pose eines Objektes ermittelten 6D-Pose eines Objektes und eine Steuereinheit, welche ausgebildet ist, das System basierend auf der ermittelten 6D-Pose des Objektes zu steuern, aufweist.
Ein derartiges Steuergerät hat den Vorteil, dass die Steuerung des steuerbaren Systems auf einer durch ein verbessertes Steuergerät zum Ermitteln einer 6D-Pose eines Objektes, welches ohne großen Aufwand auf unterschiedliche Objektkategorien und insbesondere neue Objekte aus einer bisher unbekannten Kategorie angewendet werden kann, ermittelten 6D-Pose eines Objektes basiert. Insbesondere basiert die Steuerung des steuerbaren Systems dabei auf einem Steuergerät, welches ausgebildet ist, die 6D-Pose eines Objektes flexibel auch für unterschiedliche Objektkategorien zu ermitteln, ohne dass der entsprechende implementierte Algorithmus zunächst aufwendig neu trainiert werden muss, bevor auch Objekte aus einer anderen, unterschiedlichen Kategorie erfasst werden können, was mit einem erhöhten Ressourcenverbrauch verbunden wäre.
Mit einer weiteren Ausführungsform der Erfindung wird ferner auch ein System zum Steuern eines steuerbaren Systems angegeben, wobei das System ein steuerbares System und ein obenstehend beschriebenes Steuergerät zum Steuern des steuerbaren Systems aufweist.
Ein derartiges System hat den Vorteil, dass die Steuerung des steuerbaren Systems auf einer durch ein verbessertes Steuergerät zum Ermitteln einer 6D-Pose eines Objektes, welches ohne großen Aufwand auf unterschiedliche Objektkategorien angewendet werden kann, ermittelten 6D-Pose eines Objektes basiert. Insbesondere basiert die Steuerung des steuerbaren Systems dabei auf einem Steuergerät, welches ausgebildet ist, die 6D-Pose eines Objektes flexibel auch für unterschiedliche Objektkategorien und insbesondere neue Objekte aus einer bisher unbekannten Kategorie zu ermitteln, ohne dass der entsprechende implementierte Algorithmus zunächst aufwendig neu trainiert werden muss, bevor auch Objekte aus einer anderen, unterschiedlichen Kategorie erfasst werden können, was mit einem erhöhten Ressourcenverbrauch verbunden wäre.
Zusammenfassend ist festzustellen, dass mit der vorliegenden Erfindung ein Verfahren zum Ermitteln einer 6D-Pose eines Objektes angegeben wird, mit welchem die 6D-Pose eines Objektes unabhängig von der entsprechenden Objektkategorie auf einfache Art und Weise ermittelt werden kann.
Die beschriebenen Ausgestaltungen und Weiterbildungen lassen sich beliebig miteinander kombinieren.
Weitere mögliche Ausgestaltungen, Weiterbildungen und Implementierungen der Erfindung umfassen auch nicht explizit genannte Kombinationen von zuvor oder im Folgenden bezüglich der Ausführungsbeispiele beschriebenen Merkmale der Erfindung.
Figurenliste
Die beiliegenden Zeichnungen sollen ein weiteres Verständnis der Ausführungsformen der Erfindung vermitteln. Sie veranschaulichen Ausführungsformen und dienen im Zusammenhang mit der Beschreibung der Erklärung von Prinzipien und Konzepten der Erfindung.
Andere Ausführungsformen und viele der genannten Vorteile ergeben sich im Hinblick auf die Zeichnungen. Die dargestellten Elemente der Zeichnungen sind nicht notwendigerweise maßstabsgetreu zueinander gezeigt.
Es zeigen:

1 ein Flussdiagramm eines Verfahrens zum Ermitteln einer 6D-Pose eines Objektes gemäß Ausführungsformen der Erfindung; und
2 ein schematisches Blockschaltbild eines Systems zum Ermitteln einer 6D-Pose eines Objektes gemäß Ausführungsformen der Erfindung.

In den Figuren der Zeichnungen bezeichnen gleiche Bezugszeichen gleiche oder funktionsgleiche Elemente, Bauteile oder Komponenten, soweit nichts Gegenteiliges angegeben ist.
1 zeigt ein Flussdiagramm eines Verfahrens zum Ermitteln einer 6D-Pose eines Objektes 1 gemäß Ausführungsformen der Erfindung.
Unter 6D-Pose wird allgemein die Position und Ausrichtung von Gegenständen beziehungsweise Objekten verstanden. Die Pose beschreibt dabei insbesondere die Transformation, welche nötig ist, um ein Bezugskoordinatensystem in ein objektfestes Koordinatensystem beziehungsweise Koordinaten eines optischen Sensors beziehungsweise Kamerakoordinaten in Objektkoordinaten zu überführen, wobei es sich jeweils um kartesische Koordinatensysteme handelt, und wobei sich die Transformation aus einer Translation und einer Rotation zusammensetzt.
Die Anwendungsmöglichkeiten von Posenschätzung beziehungsweise der 6D-Pose eines Objektes sind dabei vielfältig. Beispielsweise kann Kamera-Relokalisierung die Navigation von autonomen Fahrzeugen unterstützen, beispielsweise wenn ein GPS (Global Positioning System)-System nicht zuverlässig funktioniert oder die Genauigkeit nicht ausreicht. Zur Navigation in geschlossenen Räumen steht GPS außerdem oft nicht zur Verfügung. Soll ein steuerbares System, beispielsweise ein Robotiksystem, mit Objekten interagieren, diese beispielsweise greifen, muss zudem deren Position und Ausrichtung im Raum exakt bestimmt werden.
Bekannte Algorithmen zur Schätzung oder Ermittlung der 6D-Pose eines Objektes basieren dabei auf Modellen, welche für eine bestimmte Objektkategorie trainiert wurden. Als nachteilig erweist sich hierbei, dass diese Modelle bei Objekten aus einer anderen, unterschiedlichen Kategorie zunächst aufwendig neu trainiert werden müssen, bevor auch Objekte aus dieser anderen, unterschiedlichen Kategorie erfasst werden können, was mit einem erhöhten Ressourcenverbrauch verbunden ist. Unter unterschiedlichen Objektkategorien werden dabei unterschiedliche Arten von Objekten beziehungsweise jeweils Mengen von logisch miteinander in Verbindung gebrachten Objekten verstanden.
Wie 1 zeigt, weist das Verfahren 1 dabei einen Schritt 2 eines Bereitstellens von Bilddaten, wobei die Bilddaten Zielbilddaten, welche das Objekt zeigen, und gelabelte Vergleichsbilddaten bezüglich des Objektes umfassen, und einen Schritt 3 eines Ermittelns der 6D Pose des Objektes basierend auf den bereitgestellten Bilddaten durch einen Meta-Learning Algorithmus auf.
Das dargestellte Verfahren 1 hat dabei den Vorteil, dass dieses flexibel auf unterschiedliche Objektkategorien und insbesondere neue Objekte aus einer bisher unbekannten Kategorie angewendet werden kann, ohne dass der Algorithmus zunächst aufwendig neu trainiert werden muss, bevor auch Objekte aus einer anderen, unterschiedlichen Kategorie erfasst werden können, was mit einem erhöhten Ressourcenverbrauch verbunden wäre. Insgesamt wird somit ein verbessertes Verfahren 1 zum Ermitteln einer 6D-Pose eines Objektes angegeben, welches ohne großen Aufwand auf unterschiedliche Objektkategorien und insbesondere neue Objekte aus einer bisher unbekannten Kategorie angewendet werden kann.
Wie 1 weiter zeigt, weist das Verfahren 1 zudem einen Schritt 4 eines Erfassens von aktuellen Bilddaten, welche das Objekt zeigen, auf, wobei die Bilddaten, welche das Objekt zeigen, anschließend als Zielbilddaten bereitgestellt werden.
Gemäß den Ausführungsformen der 1 umfasst der Meta-Learning Algorithmus dabei insbesondere die Anwendung eines Conditional Neural Processes (CNP) auf, wobei der Conditional Neural Process eine Segmentierung und eine Detektion von Schlüsselpunkten aufweist.
Insbesondere weist der Schritt 3 des Ermittelns der 6D-Pose des Objektes basierend auf den bereitgestellten Bilddaten durch einen Meta-Learning Algorithmus dabei einen Schritt 5 eines Extrahierens von Merkmalen aus den bereitgestellten Bilddaten, einen Schritt 6 eines Bestimmens von Bildpunkten in den Zielbilddaten, welche das Objekt zeigen, basierend auf den extrahierten Merkmalen, einen Schritt 7 eines Bestimmens von Schlüsselpunkten auf dem Objekt basierend auf den extrahierten Merkmalen und Informationen über die gelabelten Vergleichsbilddaten, für jeden Schlüsselpunkt einen Schritt 8 eines, für jeden der Bildpunkte, welche das Objekt zeigen, jeweiligen Bestimmens eines Versatzes zwischen dem entsprechenden Bildpunkt und dem Schlüsselpunkt, und einen Schritt 9 eines Ermittelns der 6D-Pose basierend auf den bestimmten Versätzen für alle Schlüsselpunkte auf.
Der Schritt 5 eines Extrahierens von Merkmalen aus den bereitgestellten Bilddaten kann dabei insbesondere ein Extrahieren von Erscheinungsformen und/oder anderen geometrischen Informationen von zumindest einem Teil der bereitgestellten Bilddaten beziehungsweise von zumindest einem Teil der in den bereitgestellten Bilddaten enthaltenen Bildpunkte und ein entsprechendes Erlernen dieser Merkmale aufweisen.
Der Schritt 6 eines Bestimmens von Bildpunkten in den Zielbilddaten, welche das Objekt zeigen, basierend auf den extrahierten Merkmalen, umfasst dabei insbesondere ein Identifizieren von neuen Objekten, insbesondere neuen Objekten einer bisher nicht bekannten Objektkategorie in den Bilddaten und ein entsprechendes Unterscheiden zwischen neuen und alten, in den Bilddaten dargestellten Objekten. Das Identifizieren kann dabei insbesondere basierend auf einem Zusammenhang zwischen den Vergleichsbilddaten und Informationen über die Vergleichsbilddaten, insbesondere über die den Vergleichsbilddaten zugeordneten Labels erfolgen und den in Schritt 5 extrahierten Merkmalen erfolgen.
Der Schritt 7 eines Bestimmens von Schlüsselpunkten auf dem Objekt basierend auf den extrahierten Merkmalen und Informationen über die gelabelten Vergleichsbilddaten kann weiter ein Vorhersagen beziehungsweise ein Ableiten von vorbekannten Schlüsselpunkten in Objektkoordinaten basierend auf den Informationen über die gelabelten Vergleichsdaten aufweisen, wobei auch ein die Schlüsselpunkte kennzeichnender Graph erzeugt werden kann.
Der Schritt 8 eines, für jeden Schlüsselpunkt und jeden der Bildpunkte, welche das Objekt zeigen, jeweiligen Bestimmens eines Versatzes zwischen dem entsprechenden Bildpunkt und dem entsprechenden Schlüsselpunkt kann dabei ein jeweiliges Bestimmen der einzelnen Versätze basierend auf einem Multilayer-Perzeptron oder eines neuronalen Graphnetzwerkes, welches jeweils beispielsweise basierend auf historischen Daten bezüglich anderen Objektkategorien trainiert wurde, umfassen.
Der Schritt 9 eines Ermittelns der 6D-Pose basierend auf den bestimmten Versätzen für alle Schlüsselpunkte kann ferner ein Anwenden eines Regressionsalgorithmuses und insbesondere der Methode der kleinsten Quadrate (Least Square Fit) umfassen.
Die ermittelte 6D-Pose des Objektes kann anschließend beispielsweise zum Steuern eines steuerbaren Systems verwendet werden, beispielsweise zum Steuern eines Roboterarms, um das Objekt zu greifen. Ferner kann die ermittelte 6D-Pose aber auch beispielsweise zum Steuern oder Navigieren eines autonomen Fahrzeugs basierend auf einem identifizierten Zielfahrzeug oder zur Gesichtserkennung verwendet werden.
2 zeigt ein schematisches Blockschaltbild eines Systems 10 zum Ermitteln einer 6D-Pose eines Objektes gemäß Ausführungsformen der Erfindung.
Wie 2 zeigt, weist das dargestellte System 10 ein Steuergerät zum Ermitteln einer 6D-Pose eines Objektes 11 und einen optischen Sensor 12, welcher ausgebildet ist, Zielbilddaten, welche das Objekt zeigen, zu erfassen, auf.
Das Steuergerät zum Ermitteln einer 6D-Pose eines Objektes 11 ist dabei ausgebildet, ein obenstehend beschriebenes Verfahren zum Ermitteln einer 6D-Pose eines Objektes auszuführen. Gemäß den Ausführungsformen der 2 weist das Steuergerät zum Ermitteln einer 6D-Pose eines Objektes 11 dabei insbesondere eine Bereitstellungseinheit 13, welche ausgebildet ist, Bilddaten bereitzustellen, wobei die Bilddaten Zielbilddaten, welche das Objekt zeigen, und gelabelte Vergleichsbilddaten bezüglich des Objektes umfassen, und eine erste Ermittlungseinheit 14, welche ausgebildet ist, die 6D-Pose des Objektes basierend auf den bereitgestellten Bilddaten durch einen Meta-Learning Algorithmus zu ermitteln, auf.
Bei der Bereitstellungseinheit kann es sich dabei insbesondere um einen Receiver, welcher ausgebildet ist, Bilddaten zu empfangen, handeln. Die Ermittlungseinheit kann ferner beispielsweise basierend auf einem in einem Speicher hinterlegten und durch einen Prozessor ausführbaren Code realisiert werden.
Wie 2 weiter zeigt, weist die erste Ermittlungseinheit 14 dabei weiter eine Extrahierungseinheit 15, welche ausgebildet ist, Merkmale aus den bereitgestellten Bilddaten zu extrahieren, eine erste Bestimmungseinheit 16, welche ausgebildet ist, Bildpunkte in den Zielbilddaten, welche das Objekt zeigen, basierend auf den extrahierten Merkmalen zu bestimmen, eine zweite Bestimmungseinheit 17, welche ausgebildet ist, Schlüsselpunkte auf dem Objekt basierend auf den extrahierten Merkmalen und Informationen über die gelabelten Vergleichsbilddaten zu bestimmen, eine dritte Bestimmungseinheit 18, welche ausgebildet ist, für jeden Schlüsselpunkt, für jeden der Bildpunkte, welche das Objekt zeigen, jeweils einen Versatz zwischen dem entsprechenden Bildpunkt und dem Schlüsselpunkt zu bestimmen, und eine zweite Ermittlungseinheit 19, welche ausgebildet ist, die 6D-Pose basierend auf den bestimmten Versätzen für alle Schlüsselpunkte zu ermitteln, auf.
Die Extrahierungseinheit, die erste Bestimmungseinheit, die zweite Bestimmungseinheit, die dritte Bestimmungseinheit und die zweite Ermittlungseinheit können dabei wiederum jeweils beispielsweise basierend auf in einem Speicher hinterlegten und durch einen Prozessor ausführbaren Code realisiert werden.
Der optische Sensor 12 ist dabei insbesondere ausgebildet, die durch das Steuergerät 11 verarbeiteten Zielbilddaten bereitzustellen beziehungsweise zu erfassen.
Gemäß den Ausführungsformen der 2 handelt es sich bei dem optischen Sensor 12 dabei insbesondere um einen RGB-D Sensor.
ZITATE ENTHALTEN IN DER BESCHREIBUNG
Diese Liste der vom Anmelder aufgeführten Dokumente wurde automatisiert erzeugt und ist ausschließlich zur besseren Information des Lesers aufgenommen. Die Liste ist nicht Bestandteil der deutschen Patent- bzw. Gebrauchsmusteranmeldung. Das DPMA übernimmt keinerlei Haftung für etwaige Fehler oder Auslassungen.
Zitierte Patentliteratur

US 2019/0304134 A1 [0005]

Claims

Verfahren zum Ermitteln einer 6D-Pose eines Objektes, wobei das Verfahren (1) folgende Schritte aufweist: - Bereitstellen von Bilddaten, wobei die Bilddaten Zielbilddaten, welche das Objekt zeigen, und gelabelte Vergleichsbilddaten bezüglich des Objektes umfassen (2); und - Ermitteln der 6D Pose des Objektes basierend auf den bereitgestellten Bilddaten durch einen Meta-Learning Algorithmus (3).
Verfahren nach Anspruch 1, wobei das Verfahren weiter ein Erfassen von aktuellen Bilddaten, welche das Objekt zeigen (4), aufweist, und wobei die erfassten Bilddaten, welche das Objekt zeigen, als Zielbilddaten bereitgestellt werden.
Verfahren nach Anspruch 1 oder 2, wobei der Schritt des Ermittelns der 6D-Pose des Objektes basierend auf den bereitgestellten Bilddaten durch einen Meta-Learning Algorithmus (3) weiter folgende Schritte aufweist: - Extrahieren von Merkmalen aus den bereitgestellten Bilddaten (5); - Bestimmen von Bildpunkten in den Zielbilddaten, welche das Objekt zeigen, basierend auf den extrahierten Merkmalen (6); - Bestimmen von Schlüsselpunkten auf dem Objekt basierend auf den extrahierten Merkmalen und Informationen über die gelabelten Vergleichsbilddaten (7); - Für jeden Schlüsselpunkt, für jeden der Bildpunkte, welche das Objekt zeigen, jeweils Bestimmen eines Versatzes zwischen dem entsprechenden Bildpunkt und dem Schlüsselpunkt (8); und - Ermitteln der 6D-Pose basierend auf den bestimmten Versätzen für alle Schlüsselpunkte (9).
Verfahren nach einem der Ansprüche 1 bis 3, wobei die Bilddaten Tiefeninformationen aufweisen.
Verfahren zum Steuern eines steuerbaren Systems, wobei das Verfahren folgende Schritte aufweist: - Ermitteln einer 6D-Pose eines Objektes durch ein Verfahren zum Ermitteln einer 6D-Pose eines Objektes nach einem der Ansprüche 1 bis 4; und - Steuern des steuerbaren Systems basierend auf der ermittelten 6D-Pose des Objektes.
Steuergerät zum Ermitteln einer 6D-Pose eines Objektes, wobei das Steuergerät (11) eine Bereitstellungseinheit (13), welche ausgebildet ist, Bilddaten bereitzustellen, wobei die Bilddaten Zielbilddaten, welche das Objekt zeigen, und gelabelte Vergleichsbilddaten bezüglich des Objektes umfassen, und eine erste Ermittlungseinheit (14), welche ausgebildet ist, die 6D-Pose des Objektes basierend auf den bereitgestellten Bilddaten durch einen Meta-Learning Algorithmus zu ermitteln, aufweist.
Steuergerät nach Anspruch 6, wobei die erste Ermittlungseinheit (14) eine Extrahierungseinheit (15), welche ausgebildet ist, Merkmale aus den bereitgestellten Bilddaten zu extrahieren, eine erste Bestimmungseinheit (16), welche ausgebildet ist, Bildpunkte in den Zielbilddaten, welche das Objekt zeigen, basierend auf den extrahierten Merkmalen zu bestimmen, eine zweite Bestimmungseinheit (17), welche ausgebildet ist, Schlüsselpunkte auf dem Objekt basierend auf den extrahierten Merkmalen und Informationen über die gelabelten Vergleichsbilddaten zu bestimmen, eine dritte Bestimmungseinheit (18), welche ausgebildet ist, für jeden Schlüsselpunkt, für jeden der Bildpunkte, welche das Objekt zeigen, jeweils einen Versatz zwischen dem entsprechenden Bildpunkt und dem Schlüsselpunkt zu bestimmen, und eine zweite Ermittlungseinheit (19), welche ausgebildet ist, die 6D-Pose basierend auf den bestimmten Versätzen für alle Schlüsselpunkte zu ermitteln, aufweist.
System zum Ermitteln einer 6D-Pose eines Objektes, wobei das System ein Steuergerät zum Ermitteln einer 6D-Pose eines Objektes (11) nach Anspruch 6 oder 7 und einen optischen Sensor (12), welcher ausgebildet ist, Zielbilddaten, welche das Objekt zeigen, zu erfassen, aufweist.
System nach Anspruch 8, wobei der optische Sensor (11) ein RGB-D Sensor ist.
Steuergerät zum Steuern eines steuerbaren Systems, wobei das Steuergerät eine Empfangseinheit zum Empfangen einer durch ein Steuergerät zum Ermitteln einer 6D-Pose eines Objektes nach Anspruch 6 oder 7 ermittelten 6D-Pose des Objektes und eine Steuereinheit, welche ausgebildet ist, das steuerbare System basierend auf der ermittelten 6D-Pose des Objektes zu steuern, aufweist.
System zum Steuern eines steuerbaren Systems, wobei das System ein steuerbares System und ein Steuergerät zum Steuern des steuerbaren Systems nach Anspruch 10 aufweist.