DE102022202030A1

DE102022202030A1 - Verfahren zum Trainieren eines bedingten neuronalen Prozesses zur Ermittlung einer Position eines Objektes aus Bilddaten

Info

Publication number: DE102022202030A1
Application number: DE102022202030.8A
Authority: DE
Inventors: Michael Volpp; Gerhard Neumann; Ning Gao; Anh Vien Ngo; Hanna Ziesche
Original assignee: Robert Bosch GmbH
Current assignee: Robert Bosch GmbH
Priority date: 2022-02-28
Filing date: 2022-02-28
Publication date: 2023-08-31
Also published as: CN116664814A; US20230274142A1

Abstract

Die Erfindung betrifft ein Verfahren zum Trainieren eines bedingten neuronalen Prozesses zur Ermittlung einer Position eines Objektes aus Bilddaten, wobei das Verfahren (1) folgende Schritte aufweist: Bereitstellen von Trainingsdaten zum Trainieren des bedingten neuronalen Prozesses, wobei die Trainingsdaten gelabelte Bilddaten, welche ein bestimmtes Objekt zeigen, und gelabelte Vergleichsbilddaten bezüglich des bestimmten Objektes aufweisen (2), und Trainieren des bedingten neuronalen Prozesses basierend auf den bereitgestellten Trainingsdaten (3), wobei das Trainieren des bedingten neuronalen Prozesses ein Anwenden eines funktionellen kontrastiven Lernens umfasst, und wobei das Trainieren des bedingten neuronalen Prozesses ein Anwenden eines End-to-End Learning Ansatzes umfasst.

Description

Die Erfindung betrifft ein Verfahren zum Trainieren eines bedingten neuronalen Prozesses zur Ermittlung einer Position eines Objektes aus Bilddaten und insbesondere ein Verfahren zum Trainieren eines bedingten neuronalen Prozesses zur Ermittlung einer Position eines Objektes aus Bilddaten, mit welchem mit vergleichsweise geringem Ressourcenverbrauch ein bedingter neuronaler Prozess zur Ermittlung einer Position eines Objektes beziehungsweise Gegenstandes aus Bilddaten mit optimierter Performance trainiert werden kann.
Unter Meta-Learning Algorithmus wird ein Algorithmus des maschinellen Lernens verstanden, welcher ausgebildet ist, den Algorithmus durch eigenständiges Lernen sowie Zurückgreifen auf Erfahrungen zu optimieren. Derartige Meta-Learning Algorithmen werden dabei insbesondere auf Metadaten angewendet, wobei es sich bei den Metadaten beispielsweise um Eigenschaften des entsprechenden Lernproblems, Algorithmeneigenschaften oder Muster, welche zuvor aus den Daten abgeleitet wurden, handeln kann. Die Anwendung derartiger Meta-Learning Algorithmen hat insbesondere den Vorteil, dass die Leistungsfähigkeit des Algorithmus erhöht und dieser schnell und flexibel an verschiedene Problemstellungen und/oder neue Kategorien von Objekten angepasst werden kann. Derartige Meta-Learning Algorithmen werden dabei beispielsweise zur Ermittlung einer Position und/oder Pose beziehungsweise 6D-Pose eines Objektes basierend auf Bilddaten verwendet.
Zu den Meta-Learning Algorithmen zählen dabei beispielsweise Model-Agnostic Meta-Learning (MAML) oder bedingte neuronale Prozesse. Ziel dieser Algorithmen ist es jeweils, Modelparameter derart zu optimieren, dass ein Trainingserfolg mit vergleichsweise wenigen Gradientenoptimierungen erzielt werden kann. Bedingte neuronale Prozesse basieren dabei insbesondere auf dem Verwenden eines neuronalen Feed-Forward-Netzwerks zum Berechnen der Trainingsdateninformationen, dem Aggregieren dieser Informationen und dem Weiterleiten dieser Informationen an ein anderes Feed-Forward-Netzwerk zur Inferenz.
Als nachteilig bei derartigen Meta-Learning Algorithmen erweist es sich jedoch beispielsweise, dass das Training derartiger Algorithmen vergleichsweise aufwendig ist und es zu einem sogenannten Overfitting beziehungsweise einem Auswendiglernen von Trainingsdaten kommen kann. Insbesondere kann es zu einem Zustand während des Trainings eines derartigen Algorithmus kommen, in dem nur noch aus den Trainingsdaten ermittelte Problemlösungen reproduziert werden, das heißt der Algorithmus nur die Trainingsdaten korrekt verarbeitet und bei der Eingabe neuer Daten keine neuen Ergebnisse erzielt.
Aus der Druckschrift WO 2019/099305 A1 ist ein Verfahren zum Automatisieren des Erlernens mehrerer Tasks durch ein einziges neuronales Netz basierend auf Meta-Learning bekannt, wobei die Reihenfolge, in der Tasks durch das neuronale Netz erlernt werden, die Leistung des Netzwerks beeinflussen kann, und wobei auf Taskebene ein Plan für das Erlernen der mehreren Tasks verwendet werden kann. Der Plan sieht dabei vor, einen Verlauf von Kostenfunktionen während des Trainings zu überwachen, wobei Ausgleichsgewichte für Taskverluste im Laufe des Trainings angepasst werden können.
Der Erfindung liegt somit die Aufgabe zugrunde, ein verbessertes Verfahren zum Trainieren eines Meta-Learning Algorithmus und insbesondere eines bedingten neuronalen Prozesses zur Ermittlung einer Position eines Objektes aus Bilddaten anzugeben.
Die Aufgabe wird mit einem Verfahren zum Trainieren eines bedingten neuronalen Prozesses zur Ermittlung einer Position eines Objektes aus Bilddaten gemäß den Merkmalen des Patentanspruchs 1 gelöst.
Die Aufgabe wird zudem mit einem Steuergerät zum Trainieren eines bedingten neuronalen Prozesses zur Ermittlung einer Position eines Objektes aus Bilddaten gemäß den Merkmalen des Patentanspruchs 7 gelöst.
Offenbarung der Erfindung
Gemäß einer Ausführungsform der Erfindung wird diese Aufgabe gelöst durch ein Verfahren zum Trainieren eines bedingten neuronalen Prozesses zur Ermittlung einer Position eines Objektes aus Bilddaten, wobei das Verfahren ein Bereitstellen von Trainingsdaten zum Trainieren des bedingten neuronalen Prozesses, wobei die Trainingsdaten gelabelte Bilddaten, welche ein bestimmtes Objekt zeigen, und gelabelte Vergleichsbilddaten bezüglich des bestimmten Objektes aufweisen, und ein Trainieren des bedingten neuronalen Prozesses basierend auf den bereitgestellten Trainingsdaten, aufweist, wobei das Trainieren des bedingten neuronalen Prozesses ein Anwenden eines funktionellen kontrastiven Lernens umfasst, und wobei das Trainieren des bedingten neuronalen Prozesses ein Anwenden eines End-to-End Learning Ansatzes umfasst.
Unter Bilddaten werden dabei Daten, welche durch Scannen beziehungsweise optisches Aufnehmen einer oder mehrerer Oberflächen durch ein optisches oder elektronisches Gerät beziehungsweise einen optischen Sensor erzeugt werden, verstanden.
Bei den Bilddaten, welche ein bestimmtes Objekt zeigen, handelt es sich um Bilddaten, welche eine Oberfläche, auf welcher das bestimmte Objekt platziert beziehungsweise positioniert ist, zeigen und zu Trainingszwecken aufgenommen wurden.
Bei den Vergleichsbilddaten bezüglich des bestimmten Objektes handelt es sich weiter um Vergleichs- beziehungsweise Kontextdaten und insbesondere um digitale Bilder, welche zum Vergleich beziehungsweise als Referenz ebenfalls das entsprechende bestimmte Objekt darstellen.
Unter gelabelten Daten werden ferner bereits bekannte Daten verstanden, welche bereits aufbereitet wurden, beispielsweise aus welchen bereits Merkmale wie die Position oder Beschaffenheit einzelner Objekte in den entsprechenden Bilddaten extrahiert wurden oder aus welchen bereits Muster abgeleitet wurden.
Kontrastives Lernen besteht ferner darin, einen metrischen Raum zwischen zwei Abtastwerten zu lernen, in dem der Abstand zwischen zwei positiven Abtastwerten verringert wird, während der Abstand zwischen zwei negativen Abtastwerten vergrößert wird. Unter funktionellem kontrastiven Lernen wird hierbei insbesondere ein Algorithmus verstanden, welcher ausgebildet ist, den Abstand zwischen zwei entsprechenden Darstellungen, insbesondere den Abstand beziehungsweise Unterschied zwischen zwei denselben Task beziehungsweise dasselbe Objekten betreffenden Darstellungen zu verringern und zueinander passende Darstellungen zu finden.
Unter einem End-to-End Learning Ansatz wird weiter ein auf Eingabe- und Ausgabedaten eines neuronalen Netzes basierender Ansatz verstanden, wobei das neuronale Netz anhand bezüglich einer Eingabe beziehungsweise entsprechenden Eingabedaten gewünschter Ausgabedaten trainiert wird.
Die Kombination aus funktionellem kontrastivem Lernen und einem End-to-End Learning Ansatz hat dabei insbesondere den Vorteil, dass die Performance des entsprechend trainierten bedingten neuronalen Prozesses und insbesondere die Genauigkeit bei der Ermittlung der Position eines Objektes optimiert werden kann, was sich insbesondere bei konkreten Aufgabestellungen aus der Praxis als vorteilhaft erweist.
Zudem kann das Trainieren des bedingten neuronalen Prozesses mit vergleichsweise geringem Ressourcenverbrauch, insbesondere mit vergleichsweise geringen Speicher- und Prozessorkapazitäten erfolgen, zumal die einzelnen Darstellungen aufeinander abgestimmt werden.
Insgesamt wird somit ein verbessertes Verfahren zum Trainieren eines Meta-Learning Algorithmus und insbesondere eines bedingten neuronalen Prozesses zur Ermittlung einer Position eines Objektes aus Bilddaten angegeben.
Der Schritt des Trainierens des bedingten neuronalen Prozesses basierend auf den bereitgestellten Trainingsdaten kann dabei ein Erzeugen von ersten latenten Repräsentationen basierend auf den gelabelten Bilddaten und Informationen über die gelabelten Bilddaten, ein Erzeugen von zweiten latenten Repräsentation basierend auf den gelabelten Vergleichsbilddaten und Informationen über die gelabelten Vergleichsbilddaten, ein Ermitteln einer ersten Kostenfunktion basierend auf den ersten latenten Repräsentationen und den zweiten latenten Repräsentationen durch das funktionelle kontrastive Lernen, und ein Trainieren des bedingten neuronalen Prozesses basierend auf der ersten Kostenfunktion aufweisen.
Unter latenten Repräsentationen werden dabei Zwischenzustände der Eingabedaten beziehungsweise Bilddaten während der Verarbeitung der Bilddaten durch den bedingten neuronalen Prozess verstanden, wobei die latenten Repräsentation für gewöhnlich eine geringere Dimension aufweisen als die ursprünglichen Bilddaten.
Unter Informationen über die gelabelten Bilddaten beziehungsweise gelabelten Vergleichsbilddaten werden weiter Informationen über die in den Vergleichsbilddaten enthaltenen Muster beziehungsweise Label verstanden, beispielsweise Informationen über die Position einzelner in den Bilddaten beziehungsweise Vergleichsbilddaten dargestellten Objekte.
Unter Kostenfunktion beziehungsweise Loss wird ferner ein Verlust beziehungsweise ein Fehler zwischen ermittelten Ausgabewerten und entsprechenden tatsächlichen Gegebenheiten beziehungsweise tatsächlich gemessenen Daten verstanden.
Insgesamt kann das Trainieren des bedingten neuronalen Prozesses somit auf einfache Art und Weise bei gleichzeitig vergleichsweise geringem Ressourcenverbrauch erfolgen, wobei gleichzeitig die Performance des trainierten bedingten neuronalen Prozess optimiert werden kann.
Auch kann der Schritt des Trainierens des bedingten neuronalen Prozesses basierend auf den bereitgestellten Trainingsdaten weiter ein Ermitteln einer Position des bestimmten Objektes in den Bilddaten basierend auf den gelabelten Bilddaten, den gelabelten Vergleichsbilddaten und Informationen über die gelabelten Vergleichsbilddaten durch den bedingten neuronalen Prozess, ein Ermitteln einer Vergleichsposition des bestimmten Objektes in den gelabelten Bilddaten basierend auf Informationen über die gelabelten Bilddaten, ein Ermitteln einer zweiten Kostenfunktion basierend auf der ermittelten Position des bestimmten Objektes in den Bilddaten und der Vergleichsposition des bestimmten Objektes, und ein Trainieren des bedingten neuronalen Prozesses basierend auf der zweiten Kostenfunktion aufweisen.
Auch hierdurch kann wiederum das Trainieren des bedingten neuronalen Prozesses auf einfache Art und Weise bei gleichzeitig vergleichsweise geringem Ressourcenverbrauch erfolgen, wobei gleichzeitig die Performance des trainierten bedingten neuronalen Prozess optimiert werden kann.
In einer Ausführungsform handelt es sich bei den Bilddaten und den Vergleichsbilddaten jeweils um vollständige Bilder zeigende Bilddaten.
Unter vollständige Bilder zeigenden Bilddaten beziehungsweise höherdimensionalen Bilddaten werden dabei Bilddaten verstanden, welche nicht lediglich einen Teil, beispielsweise einen zweidimensionalen Ausschnitt eines Bildes oder einzelne Pixel eines Bildes kennzeichnen, sondern das komplette beziehungsweise vollständige Bild kennzeichnen beziehungsweise repräsentieren.
Insbesondere kann durch das erfindungsgemäße Verfahren ein bedingter neuronaler Prozess trainiert werden, welcher ausgebildet ist, auch vollständige Bilder auf einfache Art und Weise zu verarbeiten beziehungsweise auf einfache Art und Weise die Position von Objekten aus vollständigen Bilder zu ermitteln, wobei die Performance eines entsprechend trainierten bedingten neuronalen Prozesses noch weiter optimiert werden kann.
Mit einer weiteren Ausführungsform der Erfindung wird auch ein Verfahren zum Ermitteln einer Position eines Objektes angegeben, wobei das Verfahren ein Bereitstellen von Bilddaten, wobei die Bilddaten Zielbilddaten, welche das Objekt zeigen, und gelabelte Vergleichsbilddaten bezüglich des Objektes umfassen, ein Bereitstellen eines durch ein obenstehend beschriebenes Verfahren zum Trainieren eines bedingten neuronalen Prozesses zur Ermittlung einer Position eines Objektes aus Bilddaten trainierten bedingten neuronalen Prozess zur Ermittlung einer Position eines Objektes aus Bilddaten, und ein Ermitteln der Position des Objektes basierend auf den bereitgestellten Bilddaten durch den bereitgestellten bedingten neuronalen Prozesses zur Ermittlung einer Position eines Objektes aus Bilddaten aufweist.
Ein derartiges Verfahren zum Ermitteln einer Position eines Objektes hat den Vorteil, dass dieses auf einem verbesserten Verfahren zum Trainieren eines Meta-Learning Algorithmus und insbesondere eines bedingten neuronalen Prozesses zur Ermittlung einer Position eines Objektes aus Bilddaten basiert. Insbesondere die Kombination aus funktionellem kontrastivem Lernen und einem End-to-End Learning Ansatz beim Trainieren des bedingten neuronalen Prozesses hat dabei den Vorteil, dass die Performance des entsprechend trainierten bedingten neuronalen Prozesses und insbesondere die Genauigkeit bei der Ermittlung der Position eines Objektes optimiert werden kann, was sich insbesondere bei konkreten Aufgabestellungen aus der Praxis als vorteilhaft erweist. Zudem kann das Trainieren des bedingten neuronalen Prozesses mit vergleichsweise geringem Ressourcenverbrauch, insbesondere mit vergleichsweise geringen Speicher- und Prozessorkapazitäten erfolgen, zumal die einzelnen Darstellungen aufeinander abgestimmt werden.
Mit einer weiteren Ausführungsform der Erfindung wird weiter auch ein Verfahren zum Steuern eines steuerbaren Systems angegeben, welches ein Ermitteln einer Position eines Objektes aus Bilddaten durch ein obenstehend beschriebenes Verfahren zum Ermitteln einer Position eines Objektes und ein Steuern eines steuerbaren Systems basierend auf der ermittelten Position des Objektes aufweist.
Bei dem steuerbaren System kann es sich dabei beispielsweise um ein Robotiksystem handeln, wobei es sich bei dem Robotiksystem wiederum beispielsweise um einen Greifroboter handeln kann. Ferner kann es sich aber beispielsweise auch um ein System zum Steuern oder Navigieren eines autonom fahrenden Kraftfahrzeuges oder ein System zur Gesichtserkennung handeln.
Ein derartiges Verfahren zum Steuern eines steuerbaren Systems hat den Vorteil, dass dieses auf einem verbesserten Verfahren zum Trainieren eines Meta-Learning Algorithmus und insbesondere eines bedingten neuronalen Prozesses zur Ermittlung einer Position eines Objektes aus Bilddaten basiert. Insbesondere die Kombination aus funktionellem kontrastivem Lernen und einem End-to-End Learning Ansatz beim Trainieren des bedingten neuronalen Prozesses hat dabei den Vorteil, dass die Performance des entsprechend trainierten bedingten neuronalen Prozesses und insbesondere die Genauigkeit bei der Ermittlung der Position eines Objektes optimiert werden kann, was sich insbesondere bei konkreten Aufgabestellungen aus der Praxis als vorteilhaft erweist. Zudem kann das Trainieren des bedingten neuronalen Prozesses mit vergleichsweise geringem Ressourcenverbrauch, insbesondere mit vergleichsweise geringen Speicher- und Prozessorkapazitäten erfolgen, zumal die einzelnen Darstellungen aufeinander abgestimmt werden.
Mit einer weiteren Ausführungsform der Erfindung wird zudem auch ein Steuergerät zum Trainieren eines bedingten neuronalen Prozesses zur Ermittlung einer Position eines Objektes aus Bilddaten angegeben, wobei das Steuergerät eine Bereitstellungseinheit, welche ausgebildet ist, Trainingsdaten zum Trainieren des bedingten neuronalen Prozesses bereitzustellen, wobei die Trainingsdaten gelabelte Bilddaten, welche ein bestimmtes Objekt zeigen, und gelabelte Vergleichsbilddaten bezüglich des bestimmten Objektes aufweisen, und eine Trainingseinheit, welche ausgebildet ist, den bedingten neuronalen Prozess basierend auf den bereitgestellten Trainingsdaten zu trainieren, wobei das Trainieren des bedingten neuronalen Prozesses ein Anwenden eines funktionellen kontrastiven Lernens umfasst, und wobei das Trainieren des bedingten neuronalen Prozesses ein Anwenden eines End-to-End Learning Ansatzes umfasst, aufweist.
Somit wird ein verbessertes Steuergerät zum Trainieren eines Meta-Learning Algorithmus und insbesondere eines bedingten neuronalen Prozesses zur Ermittlung einer Position eines Objektes aus Bilddaten angegeben. Insbesondere die Kombination aus funktionellem kontrastivem Lernen und einem End-to-End Learning Ansatz beim Trainieren des bedingten neuronalen Prozesses hat dabei den Vorteil, dass die Performance des entsprechend trainierten bedingten neuronalen Prozesses und insbesondere die Genauigkeit bei der Ermittlung der Position eines Objektes optimiert werden kann, was sich insbesondere bei konkreten Aufgabestellungen aus der Praxis als vorteilhaft erweist. Zudem kann das Trainieren des bedingten neuronalen Prozesses mit vergleichsweise geringem Ressourcenverbrauch, insbesondere mit vergleichsweise geringen Speicher- und Prozessorkapazitäten erfolgen, zumal die einzelnen Darstellungen aufeinander abgestimmt werden.
Dabei kann die Trainingseinheit weiter eine erste Erzeugungseinheit, welche ausgebildet ist, erste latente Repräsentationen basierend auf den gelabelten Bilddaten und Informationen über die gelabelten Bilddaten zu erzeugen, eine zweite Erzeugungseinheit, welche ausgebildet ist, zweite latente Repräsentationen basierend auf den gelabelten Vergleichsbilddaten und Informationen über die gelabelten Vergleichsbilddaten zu erzeugen, und eine erste Ermittlungseinheit, welche ausgebildet ist, eine erste Kostenfunktion basierend auf den ersten latenten Repräsentationen und den zweiten latenten Repräsentationen durch das funktionelle kontrastive Lernen zu ermitteln, aufweisen, wobei die Trainingseinheit ausgebildet sein kann, den bedingten neuronalen Prozess basierend auf der ersten Kostenfunktion zu trainieren. Insgesamt kann die Trainingseinheit somit derart ausgebildet sein, dass das Trainieren des bedingten neuronalen Prozesses auf einfache Art und Weise bei gleichzeitig vergleichsweise geringem Ressourcenverbrauch erfolgen kann, wobei gleichzeitig die Performance des trainierten bedingten neuronalen Prozess optimiert werden kann.
Zudem kann die Trainingseinheit weiter eine zweite Ermittlungseinheit, welche ausgebildet ist, eine Position des bestimmten Objektes in den Bilddaten basierend auf den gelabelten Bilddaten, den gelabelten Vergleichsbilddaten und Informationen über die gelabelten Vergleichsbilddaten durch den bedingten neuronalen Prozess zu ermitteln, eine dritte Ermittlungseinheit, welche ausgebildet ist, eine Vergleichsposition des bestimmten Objektes in den gelabelten Bilddaten basierend auf Informationen über die gelabelten Bilddaten zu ermitteln, und eine vierte Ermittlungseinheit, welche ausgebildet ist, eine zweite Kostenfunktion basierend auf der ermittelten Position des bestimmten Objektes in den Bilddaten und der Vergleichsposition des bestimmten Objektes zu ermitteln, aufweisen, wobei die Trainingseinheit ausgebildet sein kann, den bedingten neuronalen Prozess basierend auf der zweiten Kostenfunktion zu trainieren. Auch hierdurch kann wiederum das Trainieren des bedingten neuronalen Prozesses auf einfache Art und Weise bei gleichzeitig vergleichsweise geringem Ressourcenverbrauch erfolgen, wobei gleichzeitig die Performance des trainierten bedingten neuronalen Prozess optimiert werden kann.
In einer Ausführungsform handelt es sich bei den Bilddaten und den Vergleichsbilddaten jeweils um vollständige Bilder zeigende Bilddaten. Insbesondere kann durch das erfindungsgemäße Steuergerät ein bedingter neuronaler Prozess trainiert werden, welcher ausgebildet ist, auch vollständige Bilder auf einfache Art und Weise zu verarbeiten beziehungsweise auf einfache Art und Weise die Position von Objekten aus vollständigen Bilder zu ermitteln, wobei die Performance eines entsprechend trainierten bedingten neuronalen Prozesses noch weiter optimiert werden kann.
Mit einer weiteren Ausführungsform der Erfindung wird außerdem auch ein Steuergerät zum Ermitteln einer Position eines Objektes angegeben, wobei das Steuergerät eine Bereitstellungseinheit, welche ausgebildet ist, Bilddaten bereitzustellen, wobei die Bilddaten Zielbilddaten, welche das Objekt zeigen, und gelabelte Vergleichsbilddaten bezüglich des Objektes umfassen, eine Empfangseinheit, welche ausgebildet ist, einen durch ein obenstehend beschriebenes Steuergerät zum Trainieren eines bedingten neuronalen Prozess zur Ermittlung eines Objektes aus Bilddaten trainierten bedingten neuronalen Prozess zur Ermittlung einer Position eines Objektes aus Bilddaten zu empfangen, und eine Ermittlungseinheit, welche ausgebildet ist, die Position des Objektes basierend auf den bereitgestellten Bilddaten durch den bereitgestellten bedingten neuronalen Prozess zur Ermittlung einer Position eines Objektes aus Bilddaten zu ermitteln, aufweist.
Ein derartiges Steuergerät zum Ermitteln einer Position eines Objektes hat den Vorteil, dass dieses auf einem durch ein verbessertes Steuergerät zum Trainieren eines Meta-Learning Algorithmus und insbesondere eines bedingten neuronalen Prozesses zur Ermittlung einer Position eines Objektes aus Bilddaten trainierten bedingten neuronalen Prozesses zur Ermittlung einer Position eines Objektes aus Bilddaten basiert. Insbesondere die Kombination aus funktionellem kontrastivem Lernen und einem End-to-End Learning Ansatz beim Trainieren des bedingten neuronalen Prozesses hat dabei den Vorteil, dass die Performance des entsprechend trainierten bedingten neuronalen Prozesses und insbesondere die Genauigkeit bei der Ermittlung der Position eines Objektes optimiert werden kann, was sich insbesondere bei konkreten Aufgabestellungen aus der Praxis als vorteilhaft erweist. Zudem kann das Trainieren des bedingten neuronalen Prozesses mit vergleichsweise geringem Ressourcenverbrauch, insbesondere mit vergleichsweise geringen Speicher- und Prozessorkapazitäten erfolgen, zumal die einzelnen Darstellungen aufeinander abgestimmt werden.
Mit einer weiteren Ausführungsform der Erfindung wird ferner auch ein Steuergerät zum Steuern eines steuerbaren Systems angegeben, wobei das Steuergerät eine Empfangseinheit, welche ausgebildet ist, eine durch ein obenstehend beschriebenes Steuergerät zum Ermitteln einer Position eines Objektes ermittelten Position eines Objektes zu empfangen, und eine Steuereinheit, welche ausgebildet ist, das steuerbare System basierend auf der ermittelten Position des Objektes zu steuern, aufweist.
Ein derartiges Steuergerät zum Steuern eines steuerbaren Systems hat den Vorteil, dass dieses auf einem durch ein verbessertes Steuergerät zum Trainieren eines Meta-Learning Algorithmus und insbesondere eines bedingten neuronalen Prozesses zur Ermittlung einer Position eines Objektes aus Bilddaten trainierten bedingten neuronalen Prozesses zur Ermittlung einer Position eines Objektes aus Bilddaten basiert. Insbesondere die Kombination aus funktionellem kontrastivem Lernen und einem End-to-End Learning Ansatz beim Trainieren des bedingten neuronalen Prozesses hat dabei den Vorteil, dass die Performance des entsprechend trainierten bedingten neuronalen Prozesses und insbesondere die Genauigkeit bei der Ermittlung der Position eines Objektes optimiert werden kann, was sich insbesondere bei konkreten Aufgabestellungen aus der Praxis als vorteilhaft erweist. Zudem kann das Trainieren des bedingten neuronalen Prozesses mit vergleichsweise geringem Ressourcenverbrauch, insbesondere mit vergleichsweise geringen Speicher- und Prozessorkapazitäten erfolgen, zumal die einzelnen Darstellungen aufeinander abgestimmt werden.
Zusammenfassend ist festzustellen, dass mit der vorliegenden Erfindung ein Verfahren zum Trainieren eines bedingten neuronalen Prozesses zur Ermittlung einer Position eines Objektes aus Bilddaten angegeben wird, mit welchem mit vergleichsweise geringem Ressourcenverbrauch ein bedingter neuronaler Prozess zur Ermittlung einer Position eines Objektes aus Bilddaten mit optimierter Performance trainiert werden kann.
Die beschriebenen Ausgestaltungen und Weiterbildungen lassen sich beliebig miteinander kombinieren.
Weitere mögliche Ausgestaltungen, Weiterbildungen und Implementierungen der Erfindung umfassen auch nicht explizit genannte Kombinationen von zuvor oder im Folgenden bezüglich der Ausführungsbeispiele beschriebenen Merkmalen der Erfindung.
Figurenliste
Die beiliegenden Zeichnungen sollen ein weiteres Verständnis der Ausführungsformen der Erfindung vermitteln. Sie veranschaulichen Ausführungsformen und dienen im Zusammenhang mit der Beschreibung der Erklärung von Prinzipien und Konzepten der Erfindung.
Andere Ausführungsformen und viele der genannten Vorteile ergeben sich im Hinblick auf die Zeichnungen. Die dargestellten Elemente der Zeichnungen sind nicht notwendigerweise maßstabsgetreu zueinander gezeigt.
Es zeigen:

1 ein Flussdiagramm eines Verfahrens zum Trainieren eines bedingten neuronalen Prozesses zur Ermittlung einer Position eines Objektes aus Bilddaten gemäß Ausführungsformen der Erfindung; und
2 ein schematisches Blockschaltbild eines Systems zum Ermitteln einer Position eines Objektes gemäß Ausführungsformen der Erfindung.

In den Figuren der Zeichnungen bezeichnen gleiche Bezugszeichen gleiche oder funktionsgleiche Elemente, Bauteile oder Komponenten, soweit nichts Gegenteiliges angegeben ist.
1 zeigt ein Flussdiagramm eines Verfahrens zum Trainieren eines bedingten neuronalen Prozesses zur Ermittlung einer Position eines Objektes aus Bilddaten 1 gemäß Ausführungsformen der Erfindung.
Die Erfindung betrifft ein Verfahren zum Trainieren eines bedingten neuronalen Prozesses zur Ermittlung einer Position eines Objektes aus Bilddaten und insbesondere ein Verfahren zum Trainieren eines bedingten neuronalen Prozesses zur Ermittlung einer Position eines Objektes aus Bilddaten, mit welchem mit vergleichsweise geringem Ressourcenverbrauch ein bedingter neuronaler Prozess zur Ermittlung einer Position eines Objektes aus Bilddaten mit optimierter Performance trainiert werden kann.
Unter Meta-Learning Algorithmus wird ein Algorithmus des maschinellen Lernens verstanden, welcher ausgebildet ist, den Algorithmus durch eigenständiges Lernen sowie Zurückgreifen auf Erfahrungen zu optimieren. Derartige Meta-Learning Algorithmen werden dabei insbesondere auf Metadaten angewendet, wobei es sich bei den Metadaten beispielsweise um Eigenschaften des entsprechenden Lernproblems, Algorithmeneigenschaften oder Muster, welche zuvor aus den Daten abgeleitet wurden, handeln kann. Die Anwendung derartiger Meta-Learning Algorithmen hat insbesondere den Vorteil, dass die Leistungsfähigkeit des Algorithmus erhöht und dieser schnell und flexibel an verschiedene Problemstellungen und/oder neue Kategorien von Objekten angepasst werden kann. Derartige Meta-Learning Algorithmen werden dabei beispielsweise zur Ermittlung einer Position und/oder Pose beziehungsweise 6D-Pose eines Objektes basierend auf Bilddaten verwendet.
Zu den Meta-Learning Algorithmen zählen dabei beispielsweise Model-Agnostic Meta-Learning (MAML) oder bedingte neuronale Prozesse. Ziel dieser Algorithmen ist es jeweils, Modelparameter derart zu optimieren, dass ein Trainingserfolg mit vergleichsweise wenigen Gradientenoptimierungen erzielt werden kann. Bedingte neuronale Prozesse basieren dabei insbesondere auf dem Verwenden eines neuronalen Feed-Forward-Netzwerks zum Berechnen der Trainingsdateninformationen, dem Aggregieren dieser Informationen und dem Weiterleiten dieser Informationen an ein anderes Feed-Forward-Netzwerk zur Inferenz.
Als nachteilig bei derartigen Meta-Learning Algorithmen erweist es sich jedoch beispielsweise, dass das Training derartiger Algorithmen vergleichsweise aufwendig ist und es zu einem sogenannten Overfitting beziehungsweise einem Auswendiglernen von Trainingsdaten kommen kann. Insbesondere kann es zu einem Zustand während des Trainings eines derartigen Algorithmus kommen, in dem nur noch aus den Trainingsdaten ermittelte Problemlösungen reproduziert werden, das heißt der Algorithmus nur die Trainingsdaten korrekt verarbeitet und bei der Eingabe neuer Daten keine neuen Ergebnisse erzielt.
1 zeigt dabei ein Verfahren zum Trainieren eines bedingten neuronalen Prozesses zur Ermittlung einer Position eines Objektes aus Bilddaten, welches einen Schritt 2 eines Bereitstellens von Trainingsdaten zum Trainieren des bedingten neuronalen Prozesses, wobei die Trainingsdaten gelabelte Bilddaten, welche ein bestimmtes Objekt zeigen, und gelabelte Vergleichsbilddaten bezüglich des bestimmten Objektes aufweisen, und einen Schritt 3 eines Trainierens des bedingten neuronalen Prozesses basierend auf den bereitgestellten Trainingsdaten, aufweist, wobei das Trainieren des bedingten neuronalen Prozesses ein Anwenden eines funktionellen kontrastiven Lernens umfasst, und wobei das Trainieren des bedingten neuronalen Prozesses ein Anwenden eines End-to-End Learning Ansatzes umfasst..
Die Kombination aus funktionellem kontrastivem Lernen und einem End-to-End Learning Ansatz hat dabei insbesondere den Vorteil, dass die Performance des entsprechend trainierten bedingten neuronalen Prozesses und insbesondere die Genauigkeit bei der Ermittlung der Position eines Objektes optimiert werden kann, was sich insbesondere bei konkreten Aufgabestellungen aus der Praxis als vorteilhaft erweist.
Zudem kann das Trainieren des bedingten neuronalen Prozesses mit vergleichsweise geringem Ressourcenverbrauch, insbesondere mit vergleichsweise geringen Speicher- und Prozessorkapazitäten erfolgen, zumal die einzelnen Darstellungen aufeinander abgestimmt werden.
Insgesamt wird somit ein verbessertes Verfahren zum Trainieren eines Meta-Learning Algorithmus und insbesondere eines bedingten neuronalen Prozesses zur Ermittlung einer Position eines Objektes aus Bilddaten 1 angegeben.
Dabei hat sich auch gezeigt, dass sich insbesondere mit einem derart trainierten bedingten neuronalen Prozess eine bessere Performance erzielen lässt als mit einem vergleichbaren Model-Agnostic Meta-Learning.
Die Anzahl an Bilddaten, welche ein bestimmtes Objekt zeigen, kann zudem unterschiedlich zu der Anzahl an entsprechenden Vergleichsdaten sein, wobei diese Anzahlen sich auch je nach Anwendungsfall beziehungsweise Task unterscheiden können.
Dabei kann das Verfahren weiter auch einen Schritt eines Erfassens von aktuellen Bilddaten, welche das bestimmte Objekt zeigen, aufweisen, wobei die erfassten Bilddaten entsprechend verarbeitet und anschließend als Bilddaten, welche das bestimmte Objekt zeigen, bereitgestellt werden können.
Gemäß den Ausführungsformen der 1 weist der Schritt 3 des Trainierens des bedingten neuronalen Prozesses basierend auf den bereitgestellten Trainingsdaten dabei einen Schritt 4 eines Erzeugens von ersten latenten Repräsentationen basierend auf den gelabelten Bilddaten und Informationen über die gelabelten Bilddaten, einen Schritt 5 eines Erzeugens von zweiten latenten Repräsentation basierend auf den gelabelten Vergleichsbilddaten und Informationen über die gelabelten Vergleichsbilddaten, einen Schritt 6 eines Ermittelns einer ersten Kostenfunktion basierend auf den ersten latenten Repräsentationen und den zweiten latenten Repräsentationen durch das funktionelle kontrastive Lernen, und einen Schritt eines Trainierens des bedingten neuronalen Prozesses basierend auf der ersten Kostenfunktion auf.
Wie 1 zeigt, weist der Schritt 3 des Trainierens des bedingten neuronalen Prozesses basierend auf den bereitgestellten Trainingsdaten zudem einen Schritt 7 eines Ermittelns einer Position des bestimmten Objektes in den Bilddaten basierend auf den gelabelten Bilddaten, den gelabelten Vergleichsbilddaten und Informationen über die gelabelten Vergleichsbilddaten durch den bedingten neuronalen Prozess, einen Schritt 8 eines Ermittelns einer Vergleichsposition des bestimmten Objektes in den gelabelten Bilddaten basierend auf Informationen über die gelabelten Bilddaten, einen Schritt 9 eines Ermitteln einer zweiten Kostenfunktion basierend auf der bestimmten Position des Objektes in den Bilddaten und der Vergleichsposition des Objektes, und einen Schritt eines Trainierens des bedingten neuronalen Prozesses basierend auf der zweiten Kostenfunktion auf.
Gemäß den Ausführungsbeispielen der 1 werden die erste Kostenfunktion und die zweite Kostenfunktion dabei zu einer gemeinsamen Kostenfunktion zusammengefasst, wobei der Schritt des Trainierens des bedingten neuronalen Prozesses basierend auf der ersten Kostenfunktion und der Schritt des Trainierens des bedingten neuronalen Prozesses basierend auf der zweiten Kostenfunktion zu einem Schritt 10 eines Trainierens des bedingten neuronalen Prozesses basierend auf der gemeinsamen Kostenfunktion zusammengefasst werden. Das Trainieren kann dabei beispielsweise umfassen, dass die gemeinsame Kostenfunktion durch die Netzwerkschichten rückpropagiert und zur Adaption der entsprechenden Netzwerkgewichte genutzt wird.
Bei den Bilddaten und den Vergleichsbilddaten handelt es sich dabei jeweils um vollständige Bilder zeigende Bilddaten, wobei es sich insbesondere um höherdimensionale Bilddaten handeln kann.
Der trainierte bedingte neuronale Prozess kann anschließend beispielsweise zur Ermittlung einer Position und/oder einer Pose eines Objektes in Bilddaten genutzt werden. Ferner kann der trainierte bedingte neuronale Prozess aber beispielsweise auch zur Erkennung von Anomalien in Bilddaten verwendet werden.
Die ermittelte Position und/oder Pose des Objektes kann anschließend beispielsweise zum Steuern eines steuerbaren Systems verwendet werden, beispielsweise zum Steuern eines Roboterarms, um das Objekt zu greifen. Ferner kann die ermittelte Position oder Pose aber auch beispielsweise zum Steuern oder Navigieren eines autonomen Fahrzeugs basierend auf einem identifizierten Zielfahrzeug oder zur Gesichtserkennung verwendet werden.
2 zeigt ein schematisches Blockschaltbild eines Systems zum Ermitteln einer Position eines Objektes 20 gemäß Ausführungsformen der Erfindung.
Wie 2 zeigt, weist das System 20 dabei ein Steuergerät zum Trainieren eines bedingten neuronalen Prozesses zur Bestimmung einer Position eines Objektes aus Bilddaten 21 und ein Steuergerät zum Ermitteln einer Position eines Objektes 22 auf. Zu erkennen ist zudem ein optischer Sensor 23, welcher ausgebildet ist, aktuelle Bilddaten zu erfassen.
Gemäß den Ausführungsformen der 2 weist das Steuergerät zum Trainieren eines bedingten neuronalen Prozesses zur Ermittlung einer Position eines Objektes aus Bilddaten 21 dabei eine Bereitstellungseinheit 24, welche ausgebildet ist, Trainingsdaten zum Trainieren des bedingten neuronalen Prozesses bereitzustellen, wobei die Trainingsdaten gelabelte Bilddaten, welche ein bestimmtes Objekt zeigen, und gelabelte Vergleichsbilddaten bezüglich des bestimmten Objektes aufweisen, und eine Trainingseinheit 25, welche ausgebildet ist, den bedingten neuronalen Prozess basierend auf den bereitgestellten Trainingsdaten zu trainieren, wobei das Trainieren des bedingten neuronalen Prozesses ein Anwenden eines funktionellen kontrastiven Lernens umfasst, und wobei das Trainieren des bedingten neuronalen Prozesses ein Anwenden eines End-to-End Learning Ansatzes umfasst, aufweist.
Bei der Bereitstellungseinheit kann es sich dabei beispielsweise um einen Empfänger handeln, welcher ausgebildet ist, die Bilddaten zu empfangen, beispielsweise von einem oder mehreren optischen Sensoren. Die Trainingseinheit kann ferner beispielsweise basierend auf einem in einem Speicher hinterlegten und durch einen Prozessor ausführbaren Code realisiert werden.
Wie 2 zeigt, weist die Trainingseinheit 25 dabei weiter eine erste Erzeugungseinheit 26, welche ausgebildet ist, erste latente Repräsentationen basierend auf den gelabelten Bilddaten und Informationen über die gelabelten Bilddaten zu erzeugen, eine zweite Erzeugungseinheit 27, welche ausgebildet ist, zweite latente Repräsentationen basierend auf den gelabelten Vergleichsbilddaten und Informationen über die gelabelten Vergleichsbilddaten zu erzeugen, und eine erste Ermittlungseinheit 28, welche ausgebildet ist, eine erste Kostenfunktion basierend auf den ersten latenten Repräsentationen und den zweiten latenten Repräsentationen durch das funktionelle kontrastive Lernen zu ermitteln, auf, wobei die Trainingseinheit 25 ausgebildet ist, den bedingten neuronalen Prozess basierend auf der ersten Kostenfunktion zu trainieren.
Die erste Erzeugungseinheit, die zweite Erzeugungseinheit und die erste Ermittlungseinheit können dabei wiederum jeweils beispielsweise basierend auf in einem Speicher hinterlegten und durch einen Prozessor ausführbaren Code realisiert werden.
Wie 2 weiter zeigt, weist die Trainingseinheit 25 weiter eine zweite Ermittlungseinheit 29, welche ausgebildet ist, eine Position des bestimmten Objektes in den Bilddaten basierend auf den gelabelten Bilddaten, den gelabelten Vergleichsbilddaten und Informationen über die gelabelten Vergleichsbilddaten durch den bedingten neuronalen Prozess zu bestimmen, eine dritte Ermittlungseinheit 30, welche ausgebildet ist, eine Vergleichsposition des bestimmten Objektes in den gelabelten Bilddaten basierend auf Informationen über die gelabelten Bilddaten zu ermitteln, und eine vierte Ermittlungseinheit 31, welche ausgebildet ist, eine zweite Kostenfunktion basierend auf der bestimmten Position des Objektes in den Bilddaten und der Vergleichsposition des Objektes zu ermitteln, auf, wobei die Trainingseinheit 25 ausgebildet ist, den bedingten neuronalen Prozess basierend auf der zweiten Kostenfunktion zu trainieren.
Die zweite Ermittlungseinheit, die dritte Ermittlungseinheit und die vierte Ermittlungseinheit können dabei wiederum jeweils beispielsweise basierend auf in einem Speicher hinterlegten und durch einen Prozessor ausführbaren Code realisiert werden.
Bei den Bilddaten und den Vergleichsbilddaten handelt es sich dabei ferner wiederum jeweils um vollständige Bilder zeigende Bilddaten.
Gemäß den Ausführungsformen der 2 weist das Steuergerät zum Ermitteln einer Position eines Objektes 22 weiter eine weitere Bereitstellungseinheit 32, welche ausgebildet ist, Bilddaten bereitzustellen, wobei die Bilddaten Zielbilddaten, welche das Objekt zeigen, und gelabelte Vergleichsbilddaten bezüglich des Objektes umfassen, eine weitere Empfangseinheit 33, welche ausgebildet ist, einen durch das Steuergerät zum Trainieren eines bedingten neuronalen Prozess zur Ermittlung einer Position eines Objektes aus Bilddaten trainierten bedingten neuronalen Prozess zur Ermittlung einer Position eines Objektes aus Bilddaten zu empfangen, und eine weitere Ermittlungseinheit 34, welche ausgebildet ist, die Position des Objektes basierend auf den bereitgestellten Bilddaten durch den bereitgestellten bedingten neuronalen Prozess zur Ermittlung eines Objektes aus Bilddaten zu ermitteln, auf.
Bei der weiteren Bereitstellungseinheit und der weiteren Empfangseinheit kann es sich dabei jeweils beispielsweise um entsprechend ausgebildete Empfänger handeln. Die weitere Ermittlungseinheit kann ferner wiederum beispielsweise basierend auf in einem Speicher hinterlegten und durch einen Prozessor ausführbaren Code realisiert werden.
Gemäß den Ausführungsformen der 2 handelt es sich bei den Zielbilddaten dabei ferner um durch den optischen Sensor 23 aufgenommene aktuelle Darstellungen einer Oberfläche, auf welcher das Objekt aktuell liegt beziehungsweise positioniert ist.
ZITATE ENTHALTEN IN DER BESCHREIBUNG
Diese Liste der vom Anmelder aufgeführten Dokumente wurde automatisiert erzeugt und ist ausschließlich zur besseren Information des Lesers aufgenommen. Die Liste ist nicht Bestandteil der deutschen Patent- bzw. Gebrauchsmusteranmeldung. Das DPMA übernimmt keinerlei Haftung für etwaige Fehler oder Auslassungen.
Zitierte Patentliteratur

WO 2019099305 A1 [0005]

Claims

Verfahren zum Trainieren eines bedingten neuronalen Prozesses zur Ermittlung einer Position eines Objektes aus Bilddaten, wobei das Verfahren (1) folgende Schritte aufweist: - Bereitstellen von Trainingsdaten zum Trainieren des bedingten neuronalen Prozesses, wobei die Trainingsdaten gelabelte Bilddaten, welche ein bestimmtes Objekt zeigen, und gelabelte Vergleichsbilddaten bezüglich des bestimmten Objektes aufweisen (2) ; und - Trainieren des bedingten neuronalen Prozesses basierend auf den bereitgestellten Trainingsdaten (3), wobei das Trainieren des bedingten neuronalen Prozesses ein Anwenden eines funktionellen kontrastiven Lernens umfasst, und wobei das Trainieren des bedingten neuronalen Prozesses ein Anwenden eines End-to-End Learning Ansatzes umfasst.
Verfahren nach Anspruch 1, wobei der Schritt des Trainierens des bedingten neuronalen Prozesses basierend auf den bereitgestellten Trainingsdaten (3) weiter folgende Schritte aufweist: - Erzeugen von ersten latenten Repräsentationen basierend auf den gelabelten Bilddaten und Informationen über die gelabelten Bilddaten (4); - Erzeugen von zweiten latenten Repräsentation basierend auf den gelabelten Vergleichsbilddaten und Informationen über die gelabelten Vergleichsbilddaten (5); - Ermitteln einer ersten Kostenfunktion basierend auf den ersten latenten Repräsentationen und den zweiten latenten Repräsentationen durch das funktionelle kontrastive Lernen (6); und - Trainieren des bedingten neuronalen Prozesses basierend auf der ersten Kostenfunktion (10).
Verfahren nach Anspruch 1 oder 2, wobei der Schritt des Trainierens des bedingten neuronalen Prozesses basierend auf den bereitgestellten Trainingsdaten (3) weiter folgende Schritte aufweist: - Ermitteln einer Position des bestimmten Objektes in den Bilddaten basierend auf den gelabelten Bilddaten, den gelabelten Vergleichsbilddaten und Informationen über die gelabelten Vergleichsbilddaten durch den bedingten neuronalen Prozess (7); - Ermitteln einer Vergleichsposition des bestimmten Objektes in den gelabelten Bilddaten basierend auf Informationen über die gelabelten Bilddaten (8); - Ermitteln einer zweiten Kostenfunktion basierend auf der ermittelten Position des bestimmten Objektes in den Bilddaten und der Vergleichsposition des bestimmten Objektes (9); und - Trainieren des bedingten neuronalen Prozesses basierend auf der zweiten Kostenfunktion (10).
Verfahren nach einem der Ansprüche 1 bis 3, wobei es sich bei den Bilddaten und den Vergleichsbilddaten jeweils um vollständige Bilder zeigende Bilddaten handelt.
Verfahren zum Ermitteln einer Position eines Objektes, wobei das Verfahren folgende Schritte aufweist: - Bereitstellen von Bilddaten, wobei die Bilddaten Zielbilddaten, welche das Objekt zeigen, und gelabelte Vergleichsbilddaten bezüglich des Objektes umfassen; - Bereitstellen eines durch ein Verfahren zum Trainieren eines bedingten neuronalen Prozesses zur Ermittlung einer Position eines Objektes aus Bilddaten nach einem der Ansprüche 1 bis 4 trainierten bedingten neuronalen Prozess zur Ermittlung einer Position eines Objektes aus Bilddaten; und - Ermitteln der Position des Objektes basierend auf den bereitgestellten Bilddaten durch den bereitgestellten bedingten neuronalen Prozesses zur Ermittlung einer Position eines Objektes aus Bilddaten.
Verfahren zum Steuern eines steuerbaren Systems, wobei das Verfahren folgende Schritte aufweist: - Ermitteln einer Position eines Objektes durch ein Verfahren zum Ermitteln einer Position eines Objektes nach Anspruch 5; und - Steuern des steuerbaren Systems basierend auf der ermittelten Position des Objektes.
Steuergerät zum Trainieren eines bedingten neuronalen Prozesses zur Ermittlung einer Position eines Objektes aus Bilddaten, wobei das Steuergerät (21) eine Bereitstellungseinheit (24), welche ausgebildet ist, Trainingsdaten zum Trainieren des bedingten neuronalen Prozesses bereitzustellen, wobei die Trainingsdaten gelabelte Bilddaten, welche ein bestimmtes Objekt zeigen, und gelabelte Vergleichsbilddaten bezüglich des bestimmten Objektes aufweisen, und eine Trainingseinheit (25), welche ausgebildet ist, den bedingten neuronalen Prozess basierend auf den bereitgestellten Trainingsdaten zu trainieren, wobei das Trainieren des bedingten neuronalen Prozesses ein Anwenden eines funktionellen kontrastiven Lernens umfasst, und wobei das Trainieren des bedingten neuronalen Prozesses ein Anwenden eines End-to-End Learning Ansatzes umfasst, aufweist.
Steuergerät nach Anspruch 7, wobei die Trainingseinheit (25) weiter eine erste Erzeugungseinheit (26), welche ausgebildet ist, erste latente Repräsentationen basierend auf den gelabelten Bilddaten und Informationen über die gelabelten Bilddaten zu erzeugen, eine zweite Erzeugungseinheit (27), welche ausgebildet ist, zweite latente Repräsentationen basierend auf den gelabelten Vergleichsbilddaten und Informationen über die gelabelten Vergleichsbilddaten zu erzeugen, und eine erste Ermittlungseinheit (28), welche ausgebildet ist, eine erste Kostenfunktion basierend auf den ersten latenten Repräsentationen und den zweiten latenten Repräsentationen durch das funktionelle kontrastive Lernen zu ermitteln, aufweist, und wobei die Trainingseinheit (25) ausgebildet ist, den bedingten neuronalen Prozess basierend auf der ersten Kostenfunktion zu trainieren.
Steuergerät nach Anspruch 7 oder 8, wobei die Trainingseinheit (25) weiter eine zweite Ermittlungseinheit (29), welche ausgebildet ist, eine Position des bestimmten Objektes in den Bilddaten basierend auf den gelabelten Bilddaten, den gelabelten Vergleichsbilddaten und Informationen über die gelabelten Vergleichsbilddaten durch den bedingten neuronalen Prozess zu bestimmen, eine dritte Ermittlungseinheit (30), welche ausgebildet ist, eine Vergleichsposition des bestimmten Objektes in den gelabelten Bilddaten basierend auf Informationen über die gelabelten Bilddaten zu ermitteln, und eine vierte Ermittlungseinheit (31), welche ausgebildet ist, eine zweite Kostenfunktion basierend auf der bestimmten Position des Objektes in den Bilddaten und der Vergleichsposition des Objektes zu ermitteln, aufweist, wobei die Trainingseinheit (25) ausgebildet ist, den bedingten neuronalen Prozess basierend auf der zweiten Kostenfunktion zu trainieren.
Steuergerät nach einem der Ansprüche 7 bis 9, wobei es sich bei den Bilddaten und den Vergleichsbilddaten jeweils um vollständige Bilder zeigende Bilddaten handelt.
Steuergerät zum Ermitteln einer Position eines Objektes, wobei das Steuergerät (22) eine Bereitstellungseinheit (32), welche ausgebildet ist, Bilddaten bereitzustellen, wobei die Bilddaten Zielbilddaten, welche das Objekt zeigen, und gelabelte Vergleichsbilddaten bezüglich des Objektes umfassen, eine Empfangseinheit (33), welche ausgebildet ist, einen durch ein Steuergerät zum Trainieren eines bedingten neuronalen Prozess zur Ermittlung einer Position eines Objektes aus Bilddaten (21) nach einem der Ansprüche 7 bis 10 trainierten bedingten neuronalen Prozess zur Ermittlung einer Position eines Objektes aus Bilddaten zu empfangen, und eine Ermittlungseinheit (34), welche ausgebildet ist, die Position des Objektes basierend auf den bereitgestellten Bilddaten durch den bereitgestellten bedingten neuronalen Prozess zur Ermittlung eines Objektes aus Bilddaten zu ermitteln, aufweist.
Steuergerät zum Steuern eines steuerbaren Systems, wobei das Steuergerät eine Empfangseinheit, welche ausgebildet ist, eine durch ein Steuergerät zum Ermitteln einer Position eines Objektes nach Anspruch 11 ermittelten Position eines Objektes zu empfangen, und eine Steuereinheit, welche ausgebildet ist, das steuerbare System basierend auf der ermittelten Position des Objektes zu steuern, aufweist.