DE102019215903A1

DE102019215903A1 - Verfahren und Vorrichtung zum Erzeugen von Trainingsdaten für ein Erkennungsmodell zum Erkennen von Objekten in Sensordaten eines Sensors insbesondere eines Fahrzeugs, Verfahren zum Trainieren und Verfahren zum Ansteuern

Info

Publication number: DE102019215903A1
Application number: DE102019215903.6A
Authority: DE
Inventors: Joscha Liedtke; Heinz Hertlein
Original assignee: Robert Bosch GmbH
Current assignee: Robert Bosch GmbH
Priority date: 2019-10-16
Filing date: 2019-10-16
Publication date: 2021-04-22
Also published as: US11941888B2; CN112668603A; US20210117696A1

Abstract

Die vorliegende Erfindung bezieht sich auf ein Verfahren zum Erzeugen von Trainingsdaten (126) für ein Erkennungsmodell (124) zum Erkennen von Objekten (120) in Sensordaten (108) eines Sensors (104), wobei in zumindest einen Überlappungsbereich (116) abbildenden Zusatzsensordaten (114) eines Zusatzsensors (110) Objekte (120) und Objektattribute (122) unter Verwendung eines trainierten Zusatzerkennungsmodells (118) erkannt werden und die Objektattribute (122) der in dem Überlappungsbereich (116) erkannten Objekte (120) auf die zumindest den Überlappungsbereich (116) abbildenden Sensordaten (108) übertragen werden, um die Trainingsdaten (126) zu erzeugen.

Description

Gebiet der Erfindung
Die Erfindung betrifft ein Verfahren und eine Vorrichtung zum Erzeugen von Trainingsdaten für ein Erkennungsmodell zum Erkennen von Objekten in Sensordaten eines Sensors insbesondere eines Fahrzeugs, ein Verfahren zum Trainieren eines Erkennungsmodells und ein Verfahren zum Ansteuern eines autonomen Roboters.
Stand der Technik
Ein Erkennungsmodell zum automatischen Erkennen von Objekten in Sensordaten kann unter Verwendung von Trainingsdaten trainiert werden. Die Trainingsdaten können manuell erzeugt werden, indem aufgezeichnete Sensordaten von Menschen betrachtet werden und Objekte in den Sensordaten gesucht werden. Einem gefundenen Objekt kann dann ein Label zugeordnet werden. Das Label kann Informationen über das Objekt enthalten. Die Informationen können als Objektattribute bezeichnet werden. Die Trainingsdaten können als gelabelte Stichprobe bezeichnet werden.
Offenbarung der Erfindung
Vor diesem Hintergrund werden mit dem hier vorgestellten Ansatz ein Verfahren zum Erzeugen von Trainingsdaten für ein Erkennungsmodell zum Erkennen von Objekten in Sensordaten eines Sensors und eine entsprechende Vorrichtung, ein Verfahren zum Trainieren eines Erkennungsmodells und ein Verfahren zum Ansteuern eines autonomen Roboters, sowie schließlich ein entsprechendes Computerprogrammprodukt und ein maschinenlesbares Speichermedium gemäß den unabhängigen Ansprüchen vorgestellt. Vorteilhafte Weiterbildungen und Verbesserungen des hier vorgestellten Ansatzes ergeben sich aus der Beschreibung und sind in den abhängigen Ansprüchen beschrieben.
Vorteile der Erfindung
Ausführungsformen der vorliegenden Erfindung können in vorteilhafter Weise ermöglichen, Trainingsdaten zum Trainieren eines Erkennungsmodells automatisch zu erzeugen. Durch die automatische Erzeugung kann eine große Menge an Trainingsdaten erzeugt werden, wodurch das Training des Erkennungsmodells verbessert werden kann. Weiterhin kann ein manueller Arbeitsaufwand reduziert werden. Eine gleichbleibende Qualität der Trainingsdaten kann erreicht werden, da durch die automatische Erzeugung immer die gleichen Erkennungskriterien verwendet werden und Inkonsistenzen vermieden werden können.
Es wird ein Verfahren zum Erzeugen von Trainingsdaten für ein Erkennungsmodell zum Erkennen von Objekten in Sensordaten eines Sensors vorgeschlagen, wobei in zumindest einen Überlappungsbereich abbildenden Zusatzsensordaten eines Zusatzsensors Objekte und Objektattribute unter Verwendung eines trainierten Zusatzerkennungsmodells erkannt werden und die Objektattribute der in dem Überlappungsbereich erkannten Objekte auf die zumindest den Überlappungsbereich abbildenden Sensordaten übertragen werden, um die Trainingsdaten zu erzeugen.
Ideen zu Ausführungsformen der vorliegenden Erfindung können unter anderem als auf den nachfolgend beschriebenen Gedanken und Erkenntnissen beruhend angesehen werden.
Ein Erkennungsmodell kann als Algorithmus zur Mustererkennung bezeichnet werden. Das Erkennungsmodell kann unter Verwendung von Trainingsdaten trainiert werden, Objekte in Sensordaten zu erkennen und ihnen Objektattribute zuzuweisen. Die Trainingsdaten können als gelabelte Stichprobe bezeichnet werden. Trainingsdaten können auf aufgezeichneten Sensordaten eines Sensors basieren. Um Sensordaten zu Trainingsdaten zu machen, können in den Sensordaten abgebildete Objekte als Objekte markiert werden. Den markierten Objekten können Objektattribute zugewiesen werden. Die Objektattribute können als Label bezeichnet werden. Bei dem hier vorgestellten Ansatz werden die Objekte und Objektattribute in anderen Sensordaten durch ein bereits trainiertes Erkennungsmodell automatisch erkannt. Die Objektattribute werden auf die aufgezeichneten Sensordaten übertragen. Die anderen Sensordaten werden durch einen zusätzlichen Zusatzsensor erfasst und werden als Zusatzsensordaten bezeichnet. Dementsprechend wird das bereits trainierte Erkennungsmodell als Zusatzerkennungsmodell bezeichnet. Die Objektattribute können von den Zusatzsensordaten auch auf weitere Sensordaten von weiteren Sensoren übertragen werden, um weitere Trainingsdaten zu erhalten.
Der Sensor und der Zusatzsensor können ein gemeinsames Wirkprinzip aufweisen. Insbesondere können der Sensor und der Zusatzsensor jedoch unterschiedliche Wirkprinzipien aufweisen. Das Wirkprinzip kann als Modus beziehungsweise Modalität bezeichnet werden. Bei unterschiedlichen Wirkprinzipien können der Sensor und der Zusatzsensor als multimodale Sensoren bezeichnet werden. Der Sensor und der Zusatzsensor können reale Objekte in einer realen Umgebung erfassen. In einem Überlappungsbereich können die Objekte von dem Sensor und dem Zusatzsensor im Wesentlichen zeitgleich erfasst werden. Sowohl der Sensor als auch der Zusatzsensor können als Sensorsystem ausgeführt sein und Daten von mehreren gleichartigen Sensoreinheiten fusionieren. Der Sensor und der Zusatzsensor können mechanisch miteinander gekoppelt sein. Beispielsweise können der Sensor und der Zusatzsensor am gleichen Roboter angeordnet sein. Der Roboter kann als autonomer Roboter konzipiert sein. Der Roboter kann ein Fahrzeug insbesondere ein autonomes oder teilautonomes Fahrzeug sein. Der Zusatzsensor kann temporär an dem Roboter angeordnet sein und auf den Überlappungsbereich ausgerichtet sein.
Zum Übertragen der Objektattribute können Datenpunkten der Sensordaten die Objektattribute von innerhalb einer Ortstoleranz entsprechenden Zusatzdatenpunkten der Zusatzsensordaten zugewiesen werden. Ein Datenpunkt kann beispielsweise ein Bildpunkt sein und einen Bildkoordinatenwert und einen Intensitätswert aufweisen. Der Datenpunkt kann auch ein Raumpunkt sein und einen Richtungswert und einen Entfernungswert aufweisen. Mehrere Datenpunkte innerhalb eines Bereichs können ein gemeinsames Objekt repräsentieren. Das trainierte Erkennungsmodell kann die Zugehörigkeit der Datenpunkte zum gleichen Objekt erkennen.
Die Objekte und Objektattribute können mit den Sensordaten synchronisiert werden. Die Zusatzsensordaten und die Sensordaten können mit unterschiedlichen Abtastfrequenzen erfasst werden. Durch die unterschiedlichen Abtastfrequenzen können unterschiedliche Erfassungszeitpunkte am Sensor und Zusatzsensor resultieren. Bei einer Relativbewegung eines Objekts zwischen den Erfassungszeitpunkten kann das Objekt im Überlappungsbereich an unterschiedlichen Positionen erfasst werden. Bei der Synchronisation kann der Aufnahmezeitpunkt der zwei Sensoren synchronisiert werden. Dann erfolgt die Synchronisation vor der Aufnahme. Die Objekte und -attribute sind dann ebenfalls synchronisiert, da sie dem Zusatzsensor-Aufnahmezeitpunkt entsprechen.
Zum Synchronisieren kann eine Sensorbewegung des Sensors zwischen einem Zusatzerfassungszeitpunkt eines Objekts durch den Zusatzsensor und einem Erfassungszeitpunkt des Objekts durch den Sensor unter Verwendung einer Sensorbewegungsinformation kompensiert werden. Eine Sensorbewegungsinformation kann beispielsweise durch ein Steuergerät des Roboters bereitgestellt werden. Ebenso kann die Sensorbewegungsinformation durch einen Bewegungssensor, wie eine Inertialsensorik bereitgestellt werden.
Alternativ oder ergänzend kann zum Synchronisieren eine Objektbewegung eines Objekts zwischen einem Zusatzerfassungszeitpunkt des Objekts durch den Zusatzsensor und einem Erfassungszeitpunkt des Objekts durch den Sensor unter Verwendung eines Objektbewegungsattributs kompensiert werden. Aus zumindest zwei zeitlich versetzten Erfassungszeitpunkten und/oder Zusatzerfassungszeitpunkten kann eine Trajektorie des Objekts ermittelt werden. Die Objektbewegung bis zu dem Erfassungszeitpunkt oder Zusatzerfassungszeitpunkt kann interpoliert werden.
Die Sensordaten und die Zusatzsensordaten können von einer gemeinsamen Sensorplattform erfasst werden. Der Sensor und der Zusatzsensor können mechanisch miteinander gekoppelt sein. Der Sensor und der Zusatzsensor können so im Wesentlichen synchron bewegt werden. Durch die gemeinsame Sensorplattform können der Sensor und der Zusatzsensor einen im Wesentlichen gleichen Blickwinkel auf den Überlappungsbereich aufweisen. So können die Objektattribute einfach übertragen werden.
Die Sensordaten können von einem Sensor einer ersten Modalität eingelesen werden. Die Zusatzsensordaten können von einem Zusatzsensor einer zweiten Modalität eingelesen werden. Der Sensor und der Zusatzsensor können unterschiedliche Wirkprinzipien aufweisen. Beispielsweise kann der Sensor ein Radarsensor sein. Der Zusatzsensor kann beispielsweise ein Lidarsensor sein. Für den Zusatzsensor kann das Zusatzerkennungsmodell einfach trainiert werden.
Das Zusatzerkennungsmodell kann vor dem Erkennen der Objektattribute unter Verwendung von Simulationstrainingsdaten trainiert werden. Simulationstrainingsdaten können künstlich erzeugte Trainingsdaten sein. Die Simulationstrainingsdaten können typische Situationen und Objekte abbilden. Bei den Simulationstrainingsdaten können definierte Randbedingungen gewählt werden.
Die Simulationstrainingsdaten können unter Verwendung eines Erzeugungsmodells erzeugt werden. Das Erzeugungsmodell kann ein Sensormodell des Zusatzsensors, ein Ausbreitungsmodell und ein Objektmodell zumindest eines virtuellen Objekts umfassen. Unter Verwendung des Sensormodells kann eine Wellenemission des Zusatzsensors simuliert werden. Unter Verwendung des Ausbreitungsmodells kann eine Transmission der Wellenemission durch eine virtuelle Umgebung zu dem Objekt als ankommende Wellen simuliert werden. Unter Verwendung des Objektmodells kann eine Reflexion der transmittierten Wellenemission an dem Objekt simuliert werden. Unter Verwendung des Ausbreitungsmodells kann die Transmission der Reflexion durch die virtuelle Umgebung zu dem Zusatzsensor als ankommende Wellen simuliert werden. Unter Verwendung des Sensormodells kann eine Detektion der transmittierten Reflexion durch den Zusatzsensor simuliert werden. Der detektierten Reflexion kann zumindest ein von dem Objektmodell bereitgestelltes Objektattribut des virtuellen Objekts zugewiesen werden, um die Simulationstrainingsdaten zu erzeugen. Ein Erzeugungsmodell kann ein hochrealistisches Abbild der Wirklichkeit sein. Im Erzeugungsmodell können Situationen erzeugt werden, die in der Realität nur zufällig auftreten können. Dadurch können Simulationstrainingsdaten auch für schwierige Situationen erzeugt werden. Eine Erkennungsqualität des Zusatzerkennungsmodells kann so erhöht werden.
Das Verfahren kann beispielsweise in Software oder Hardware oder in einer Mischform aus Software und Hardware beispielsweise in einem Steuergerät implementiert sein.
Der hier vorgestellte Ansatz schafft ferner eine Vorrichtung, die dazu ausgebildet ist, um die Schritte einer Variante des hier vorgestellten Verfahrens in entsprechenden Einrichtungen durchzuführen, anzusteuern bzw. umzusetzen.
Die Vorrichtung kann ein elektrisches Gerät mit zumindest einer Recheneinheit zum Verarbeiten von Signalen oder Daten, zumindest einer Speichereinheit zum Speichern von Signalen oder Daten, und zumindest einer Schnittstelle und/oder einer Kommunikationsschnittstelle zum Einlesen oder Ausgeben von Daten, die in ein Kommunikationsprotokoll eingebettet sind, sein. Die Recheneinheit kann beispielsweise ein Signalprozessor, ein sogenannter System-ASIC oder ein Mikrocontroller zum Verarbeiten von Sensorsignalen und Ausgeben von Datensignalen in Abhängigkeit von den Sensorsignalen sein. Die Speichereinheit kann beispielsweise ein Flash-Speicher, ein EPROM oder eine magnetische Speichereinheit sein. Die Schnittstelle kann als Sensorschnittstelle zum Einlesen der Sensorsignale von einem Sensor und/oder als Aktorschnittstelle zum Ausgeben der Datensignale und/oder Steuersignale an einen Aktor ausgebildet sein. Die Kommunikationsschnittstelle kann dazu ausgebildet sein, die Daten drahtlos und/oder leitungsgebunden einzulesen oder auszugeben. Die Schnittstellen können auch Softwaremodule sein, die beispielsweise auf einem Mikrocontroller neben anderen Softwaremodulen vorhanden sind.
Von Vorteil ist auch ein Computerprogrammprodukt oder Computerprogramm mit Programmcode, der auf einem maschinenlesbaren Träger oder Speichermedium wie einem Halbleiterspeicher, einem Festplattenspeicher oder einem optischen Speicher gespeichert sein kann und zur Durchführung, Umsetzung und/oder Ansteuerung der Schritte des Verfahrens nach einer der vorstehend beschriebenen Ausführungsformen verwendet wird, insbesondere wenn das Programmprodukt oder Programm auf einem Computer oder einer Vorrichtung ausgeführt wird.
Darüber hinaus wird ein Verfahren zum Trainieren eines Erkennungsmodells vorgeschlagen, wobei das Erkennungsmodell basierend auf Trainingsdaten erfolgt, die mittels eines der oben angeführten Verfahren erzeugt wurden.
Zudem wird ein Verfahren zur Ansteuerung eines autonomen Roboters, insbesondere eines zumindest teilautomatisierten Fahrzeugs, vorgeschlagen, wobei der Roboter basierend auf mittels eines derartig trainierten Erkennungsmodells erzeugten Daten angesteuert wird.
Bei der Ansteuerung kann beispielsweise die Längs- und/oder Querdynamik des Roboters angepasst werden. Zum Beispiel kann basierend auf einer Erkennung von Objekten entlang der geplanten Fahrtrajektorie eines Fahrzeugs ein Ausweichmanöver und/oder ein Nothalt des Fahrzeugs eingeleitet werden.
Es wird darauf hingewiesen, dass einige der möglichen Merkmale und Vorteile der Erfindung hierin mit Bezug auf unterschiedliche Ausführungsformen beschrieben sind. Ein Fachmann erkennt, dass die Merkmale der Vorrichtung und des Verfahrens in geeigneter Weise kombiniert, angepasst oder ausgetauscht werden können, um zu weiteren Ausführungsformen der Erfindung zu gelangen.
Figurenliste
Nachfolgend werden Ausführungsformen der Erfindung unter Bezugnahme auf die beigefügten Zeichnungen beschrieben, wobei weder die Zeichnungen noch die Beschreibung als die Erfindung einschränkend auszulegen sind.

1 zeigt eine Darstellung eines Fahrzeugs mit einer Vorrichtung gemäß einem Ausführungsbeispiel;
2 zeigt ein Ablaufdiagramm eines Verfahrens gemäß einem Ausführungsbeispiel;
3a zeigt eine Darstellung eines Erzeugungsmodells für ein Verfahren gemäß einem Ausführungsbeispiel; und
3b zeigt ein Ablaufdiagramm eines Erzeugungsmodells für ein Verfahren gemäß einem Ausführungsbeispiel.

Die Figuren sind lediglich schematisch und nicht maßstabsgetreu. Gleiche Bezugszeichen bezeichnen in den Figuren gleiche oder gleichwirkende Merkmale.
Ausführungsformen der Erfindung
1 zeigt eine Darstellung eines Fahrzeugs 100 mit einer Vorrichtung 102 gemäß einem Ausführungsbeispiel. Das Fahrzeug 100 kann beispielsweise ein autonomes oder teilautonomes Kraftfahrzeug sein. Das Fahrzeug 100 weist einen Sensor 104 auf, der einen Erfassungsbereich 106 vor dem Fahrzeug erfasst und in Sensordaten 108 abbildet. Das Fahrzeug 100 weist ferner einen zusätzlichen Zusatzsensor 110 auf. Der Zusatzsensor 110 erfasst ebenfalls einen Zusatzerfassungsbereich 112 vor dem Fahrzeug 100 und bildet den Zusatzerfassungsbereich 112 in Zusatzsensordaten 114 ab. Der Erfassungsbereich 106 und der Zusatzerfassungsbereich 112 überlappen sich in einem Überlappungsbereich 116. Der Zusatzsensor 110 kann temporär an dem Fahrzeug 100 angeordnet sein. Ebenso kann der Zusatzsensor 110 ein Bestandteil eines Sensorsystems des Fahrzeugs 100 sein.
Ein bereits trainiertes Zusatzerkennungsmodell 118 für den Zusatzsensor 110 erkennt in den Zusatzsensordaten 114 abgebildete Objekte 120 in dem Zusatzerfassungsbereich 112 und weist den Objekten 120 Objektattribute 122 zu. Das Zusatzerkennungsmodell 118 weist dabei einen Algorithmus auf, der durch ein Training dazu trainiert worden ist, die Objekte 120 in den Zusatzsensordaten 114 zu erkennen. Das Training ist dabei unter Verwendung gelabelter Stichproben erfolgt. In den gelabelten Stichproben sind Bereiche mit erkennbaren Objekten gekennzeichnet und zusätzlich die entsprechenden Objektattribute der Objekte hinterlegt. Das Zusatzerkennungsmodell hat anhand der gelabelten Stichproben gelernt, die Objekte 120 zu erkennen.
Dem Sensor 104 ist ein Erkennungsmodell 124 zum Erkennen von Objekten 120 in den Sensordaten 108 des Sensors 104 zugeordnet. Die Vorrichtung 100 ist dazu ausgebildet, Trainingsdaten 126 für das Erkennungsmodell 124 zu erzeugen. Die Trainingsdaten 126 können als gelabelte Stichprobe bezeichnet werden. Nachdem die Trainingsdaten 126 gesammelt worden sind, können sie zum Training des Erkennungsmodells 124 verwendet werden. Zu diesem Zweck können auch mehrere Instanzen der Vorrichtung 100 eingesetzt werden, so dass zunächst mehrere Varianten der Trainingsdaten 126 erzeugt werden, die dann zu einer größeren gelabelten Stichprobe von Trainingsdaten 126 zusammengefügt werden. Dazu weist die Vorrichtung 102 eine Übertragungseinrichtung 128 auf. Die Übertragungseinrichtung 128 überträgt die Objektattribute 122 beziehungsweise Labels der unter Verwendung des Zusatzerkennungsmodells 118 im Überlappungsbereich 116 erkannten Objekte 120 auf die Sensordaten 108, um die Trainingsdaten 126 für das Erkennungsmodell 124 zu erzeugen. Die Trainingsdaten bzw. die gelabelte Stichprobe 126 kann auch für andere Zwecke als das Training des Erkennungsmodells 124 eingesetzt werden, zum Beispiel zur Evaluierung oder Optimierung bzw. Tuning eines nicht trainierten oder mit anderen Mitteln trainierten Erkennungsmodells für die Sensordaten 108.
Der Sensor 104 kann beispielsweise ein Radarsensor sein, während der Zusatzsensor 110 ein Lidarsensor sein kann. Der Sensor 104 und der Zusatzsensor 110 können also unterschiedliche Wirkprinzipien aufweisen.
Typischerweise wird zunächst eine Stichprobe mit einem Fahrzeug oder einer Flotte von Fahrzeugen aufgezeichnet. Das Training erfolgt dann außerhalb des Fahrzeugs, beispielsweise auf Servern. Auch die Erkennung mit dem Zusatzerkennungsmodell 118 und die Übertragung beziehungsweise Interpolation der Labels mittels der Übertragungseinrichtung 128 auf die Stichprobe 126 kann „im Nachhinein“ außerhalb des Fahrzeugs erfolgen.
Das Training des Erkennungsmodells 124 ist zwar die wichtigste, aber nicht die einzige Anwendung für die automatisch erzeugte, gelabelte Stichprobe.
2 zeigt ein Ablaufdiagramm eines Verfahrens gemäß einem Ausführungsbeispiel. Das Verfahren kann beispielsweise auf einer Vorrichtung wie in 1 ausgeführt werden. Das Verfahren weist einen Schritt 200 des Erkennens und einen Schritt 202 des Übertragens auf. Im Schritt 200 des Erkennens werden unter Verwendung eines Zusatzerkennungsmodells 118 in Zusatzsensordaten 114 eines Zusatzsensors Objekte 120 und ihre Objektattribute 122 erkannt. Im Schritt 202 des Übertragens werden die Objektattribute 122 der innerhalb eines Überlappungsbereichs erkannten Objekte automatisiert auf Sensordaten 108 eines Sensors übertragen, um Trainingsdaten 126 für ein Erkennungsmodell 124 des Sensors zu erzeugen.
Im Schritt 202 des Übertragens werden dabei Koordinaten von Datenpunkten der Zusatzsensordaten 114, an denen von dem Zusatzerkennungsmodell 118 Objekte 120 erkannt werden verwendet, um Datenpunkten der Sensordaten 108 mit im Wesentlichen den gleichen Koordinaten Objektattribute 122 der erkannten Objekte 120 zuzuordnen. Mit anderen Worten werden einem im Wesentlichen gleichen Bereich der Sensordaten 108, in dem in den Zusatzsensordaten 114 ein Objekt 120 erkannt wird, die Objektattribute 122 des erkannten Objekts 120 zugeordnet.
In einem Ausführungsbeispiel werden die Zusatzsensordaten 114 mit den Sensordaten 108 synchronisiert, um bei Relativbewegungen zwischen den Objekten und den Sensoren Verschiebungen aufgrund von unterschiedlichen Erfassungszeitpunkten an den verschiedenen Sensoren zu reduzieren.
Die Sensordaten 108 und die Zusatzsensordaten 114 werden in einem vorausgehenden Schritt 204 des Erfassens unter Verwendung des Sensors und des Zusatzsensors erfasst. In einem nachfolgenden Schritt 206 des Trainierens wird das Erkennungsmodell 124 unter Verwendung der Trainingsdaten 126 trainiert.
In einem Ausführungsbeispiel wird das Zusatzerkennungsmodell 118 zuvor in einem zusätzlichen Schritt 208 des Trainierens unter Verwendung von Simulationstrainingsdaten 210 trainiert. Die Simulationstrainingsdaten 210 können unter Verwendung eines Erzeugungsmodells in einem Schritt 212 des Erzeugens synthetisch erzeugt werden.
3a zeigt eine Darstellung eines Erzeugungsmodells 300 für ein Verfahren gemäß einem Ausführungsbeispiel. Das Erzeugungsmodell 300 kann beispielsweise in einem Schritt des Erzeugens zum Erzeugen von Zusatztrainingsdaten verwendet werden. Das Erzeugungsmodell 300 umfasst ein Sensormodell 302, ein Ausbreitungsmodell 304 und ein Objektmodell 306.
Das Sensormodell 302 bildet den Zusatzsensor 110 virtuell ab. Das Ausbreitungsmodell 304 bildet ein Verhalten einer Wellenemission 308 des Sensormodells 302 virtuell ab. Das Objektmodell 306 bildet zumindest ein durch seine Objektattribute gekennzeichnetes Objekt 310 virtuell ab.
Unter Verwendung des Sensormodells 302 wird die Wellenemission 308 am Zusatzsensor 110 simuliert. Dabei werden optische Effekte an optischen Elementen oder allgemein elektromagnetische Effekte an elektromagnetische Wellen beeinflussenden Elementen oder, zum Beispiel bei Ultraschallsensoren, akustische Effekte an akustischen Elementen in einem Sendepfad des Zusatzsensors 110 simuliert. Die optischen oder allgemein elektromagnetischen oder akustischen Effekte sind beispielsweise Abschwächungen, Brechungen, Streuungen und/oder Reflexionen.
Unter Verwendung des Ausbreitungsmodells 304 wird eine Ausbreitung der Wellenemission 308 durch eine virtuelle Umgebung bis zu dem virtuellen Objekt 310 simuliert. Dabei werden zum Beispiel optische Effekte an Luftbestandteilen, wie Partikeln und Aerosolen zwischen dem Zusatzsensor 110 und dem virtuellen Objekt 310 simuliert. Die optischen Effekte sind dabei durch eine Entfernung des Objekts 310 vom Zusatzsensor 110 als eines der Objektattribute definiert.
Unter Verwendung des Objektmodells 306 wird eine Reflexion 312 der ankommenden Wellenemission 308 simuliert. Das virtuelle Objekt 310 ist durch die vorgegebenen Objektattribute definiert. Die Objektattribute sind beispielsweise eine Art des Objekts 310, eine Farbe des Objekts 310, eine Oberflächenstruktur des Objekts 310, eine Ausrichtung des Objekts 310 relativ zum Zusatzsensor 110 und/oder eine Geschwindigkeit des Objekts 310 relativ zum Zusatzsensor 110. Dabei werden zum Beispiel optische Effekte an der Oberfläche des Objekts 310 simuliert.
Auf dem umgekehrten Weg wird unter Verwendung des Ausbreitungsmodells 304 die Ausbreitung der Reflexion 312 durch eine virtuelle Umgebung bis zu dem Zusatzsensor 110 simuliert.
Unter Verwendung des Sensormodells 302 wird dann der Empfang der ankommenden Reflexion 312 durch den Zusatzsensor 110 simuliert. Dabei werden zum Beispiel optische Effekte an optischen Elementen in einem Empfangspfad des Zusatzsensors 110 simuliert. Das Erzeugungsmodell 300 gibt damit Rohdaten aus, die im Wesentlichen real erzeugten Rohdaten entsprechen. Zusätzlich sind in den durch das Erzeugungsmodell 300 erzeugten Zusatztrainingsdaten die Objektattribute des zumindest einen Objekts 310 enthalten.
3b zeigt ein Ablaufdiagramm eines Erzeugungsmodells für ein Verfahren gemäß einem Ausführungsbeispiel. Das Erzeugungsmodell 300 entspricht dabei im Wesentlichen dem Erzeugungsmodell in 3a. Das Sensormodell 302 errechnet vom Zusatzsensor ausgesendete Wellen 308. Das Ausbreitungsmodell 304 berechnet daraus am Objekt ankommende Wellen 309. Das Objektmodell 306 berechnet die von dem Objekt reflektierten Wellen 312. Das Ausbreitungsmodell 304 berechnet die am Zusatzsensor ankommenden Wellen 313 und das Sensormodell 302 berechnet die von dem Sensor ausgegebenen Rohdaten beispielsweise als Punktewolke.
Weitere detaillierte Beschreibung der Erfindung
Mit anderen Worten wird ein Verfahren zum Trainieren eines Erkennungsmodells einer Sensormodalität für einen autonomen Roboter unter Verwendung synthetischer Daten einer anderen Modalität vorgestellt.
Eine wichtige Problemstellung im Bereich der Robotik ist die Umfeldwahrnehmung beziehungsweise Perception. Hierbei geht es darum, die Umgebung einer autonom oder teilautonom agierenden Maschine mit Sensoren zu erfassen und mit Verfahren der Mustererkennung zu erkennen, also die Sensordaten in eine symbolische Beschreibung von relevanten Aspekten der Umgebung zu überführen. Diese symbolische Beschreibung bildet dann die Grundlage für die Ausführung von Aktionen in der Umgebung, die der Anwendung bzw. dem Einsatzzweck der Maschine entsprechen. Bei der Maschine kann es sich zum Beispiel um ein autonomes oder teilautonomes Fahrzeug oder allgemeiner um einen autonom oder teilautonom agierenden Roboter handeln. Ein typisches Beispiel für die symbolische Beschreibung der Umgebung ist, statische und dynamische Objekte mittels Attributen zu beschrieben, die z.B. die Lage, Form, Größe und/oder Geschwindigkeit des jeweiligen Objekts charakterisieren. Bei den Objekten kann es sich z.B. um Hindernisse handeln, mit denen eine Kollision vermieden werden soll.
Häufig basiert diese Umfeldwahrnehmung auf den Daten, die ein einziger Sensor oder eine Kombination mehrerer Sensoren liefert. Zum Beispiel werden die Sensoren Kamera, Radar, Lidar und Ultraschallsensoren zu einem multimodalen Sensorset kombiniert.
Die Verarbeitung dieser Sensordaten zur Generierung der symbolischen Repräsentation der Umgebung stellt ein komplexes Problem der Mustererkennung dar. Die beste Erkennungsleistung, d.h. die kleinste Fehlerwahrscheinlichkeit wird in der Regel mit trainierten Verfahren erreicht, insbesondere mit künstlichen, „tiefen“ neuronalen Netzen, wie Deep Neural Networks / Deep Learning, deren Architektur eine größere Anzahl versteckter Schichten beziehungsweise hidden layers aufweist.
Um solche Verfahren trainieren zu können und eine gute Erkennungsleistung zu erzielen, wird eine gelabelte Stichprobe einer bestimmten Größe benötigt, die aus aufgezeichneten Sensormessungen und den dazugehörigen Labels, also der symbolischen Beschreibung der vom Sensor erfassten Objekte, besteht. Zudem werden gelabelte Stichproben für die Absicherung, Evaluierung und Validierung solcher Umfelderkennungsverfahren benötigt.
Bisher werden üblicherweise manuelle Labelling-Verfahren verwendet, bei denen menschliche Bearbeiter anhand von Bilddaten der Umgebung des Ego-Fahrzeugs und/oder Visualisierungen der nicht-bildbasierten Sensordaten die Referenz-Label der Umgebung erzeugen. Diese manuellen Verfahren sind zeit- und kostenaufwendig. Demzufolge ist die Menge an gelabelten Sensordaten, die auf diese Weise erzeugt werden kann, begrenzt. Weiterhin können die manuell gelabelten Sensordaten Ungenauigkeiten aufgrund von Fehlern der menschlichen Bearbeiter sowie Inkonsistenzen aufgrund von unterschiedlichen Ausführungen des manuellen Labelns durch die unterschiedlichen menschlichen Bearbeiter aufweisen.
Durch den hier vorgestellten Ansatz kann die Erkennungsleistung der trainierten Verfahren verbessert werden.
Dazu werden mittels eines aus zwei Phasen bestehenden Verfahrens automatisch, also ohne menschliche Bearbeiter und ohne manuelles Labeln, die symbolische Repräsentationen beziehungsweise die Label der Umgebung des Roboters erzeugt. Mittels einer Zuordnung der Label zu aufgezeichneten Sensordaten kann so automatisch eine gelabelte Stichprobe von Sensordaten generiert werden.
Das Verfahren basiert darauf, dass in der ersten Phase ein Modell zur Mustererkennung (im Folgenden „Erkennungsmodell der Phase eins“) von Sensordaten einer ersten Modalität mittels Training erzeugt wird. Nach Abschluss des Trainings erlaubt das Erkennungsmodell der Phase eins die automatische Generierung von Labeln zur symbolischen Beschreibung des Umfelds, wenn Sensordaten der ersten Modalität vorliegen. Die Trainingsdaten, also die gelabelte Stichprobe von Sensordaten der ersten Modalität, werden hierbei synthetisch erzeugt, stellen also das Ergebnis einer Simulation dar. Innerhalb der Simulation wird ein Modell der ersten Modalität genutzt, um die Sensordaten dieser Modalität synthetisch aus einer simulierten Umfeldrepräsentation zu generieren. Dieses Modell wird als „Erzeugungsmodell“ bezeichnet. Bei der ersten Sensormodalität kann es sich beispielsweise um Lidar handeln.
In der zweiten Phase des Verfahrens werden reale, also nicht-simulierte Sensordaten mit Hilfe eines mit Sensoren ausgestatteten Fahrzeugs beziehungsweise Roboters aufgezeichnet. Hierbei werden ein Sensor der ersten Modalität sowie ein weiterer Sensor einer zweiten, unterschiedlichen Modalität eingesetzt. Das Sichtfeld der ersten Modalität sollte hierbei mindestens genau so groß sein wie das Sichtfeld der zweiten Modalität. Sichtfelder mehrerer Sensoren der gleichen Modalität können dabei kombiniert werden. Das Erkennungsmodell der Phase eins wird dann dazu verwendet, die Sensordaten der ersten Modalität zu verarbeiten, um die Label des Umfelds zu generieren. Weil das Sichtfeld des zweiten Sensors nicht größer ist als das des ersten, können diese Label auf die Daten des zweiten Sensors übertragen werden. Hierbei kann eine zeitliche Interpolation der Label notwendig sein.
Indem diese Label auf die aufgezeichneten Daten von Sensor zwei übertragen werden, wird eine gelabelte Stichprobe für die zweite Modalität erzeugt. Diese gelabelte Stichprobe wird zum Training eines Modells zur Erkennung der Sensordaten der zweiten Modalität („Erkennungsmodell der Phase zwei“) herangezogen. Für dieses zweite Modell werden also ausschließlich reale beziehungsweise nicht-synthetische Sensordaten und deren Label verwendet.
Bei der zweiten Modalität kann es sich zum Beispiel um Radar handeln, beim Erkennungsmodell der Phase zwei kann es sich wiederum um ein Deep Neural Network handeln.
Die Vorteile des Verfahrens sind, dass gelabelte Trainingsdaten schnell und mit vergleichsweise geringen Kosten erzeugt werden können, dennoch eine hohe Qualität der Labels dieser Trainingsstichprobe erreicht werden kann. Hieraus folgt, dass eine vergleichsweise umfangreiche Trainingsstichprobe generiert werden kann. Hieraus folgt weiterhin, dass ein mit Hilfe dieser gelabelten Stichprobe erzeugtes Erkennungsmodell, zum Beispiel ein Deep Neural Network (DNN), eine hohe Erkennungsgenauigkeit und Zuverlässigkeit erreichen kann.
Der Vorteil, dass gelabelte Trainingsdaten schnell und kostengünstig erzeugt werden können, gilt sowohl für die erste, als auch für die zweite Phase des Verfahrens. Da in der ersten Phase die gelabelten Sensordaten über eine Simulation erzeugt werden, werden weder mit Sensoren und Vorrichtungen zur Aufzeichnung der Sensordaten ausgestattete Fahrzeuge noch menschliche Fahrer benötigt. Auch manuelles Labeln durch menschliche Bearbeiter ist nicht notwendig.
Die Güte der Sensordaten in der ersten Phase basiert darauf, dass hier eine Sensormodalität ausgewählt wird, für die es möglich ist, ein Erzeugungsmodell zu definieren, das die physikalischen Eigenschaften dieser Sensormodalität in guter Näherung simuliert. Dies führt zu einer guten Qualität der synthetischen Sensordaten insofern, dass die synthetischen Daten mit realen Daten bei Verwendung eines realen, physischen Sensors dieser Modalität weitgehend übereinstimmen. Die Qualität der Label ist ebenfalls hoch, da in einer Simulation die tatsächlichen Attribute der simulierten statischen und dynamischen Objekte direkt zur Verfügung stehen. Zusätzlich können, falls für das Training des Erkennungsmodells der Modalität eins notwendig oder hilfreich, die Assoziationen der Sensordaten zu den Objekten bzw. zu deren Attributen ebenfalls benutzt werden, da diese ebenfalls von der Simulation zur Verfügung gestellt werden können.
Auch in der zweiten Phase sind Vorteile des Verfahrens, dass eine gelabelte Stichprobe der zweiten Sensormodalität vergleichsweise schnell und kostengünstig generiert werden kann. In der zweiten Phase ist es zwar notwendig, ein oder mehrere Fahrzeuge beziehungsweise Roboter mit Sensoren beider Modalitäten sowie einer Vorrichtung zur Aufzeichnung dieser Sensordaten auszustatten, aber auch in der zweiten Phase ist aufwendiges manuelles Labeln dieser aufgezeichneten Daten nicht notwendig. Dies liegt daran, dass das Erkennungsmodell, also das Ergebnis der ersten Phase, auf den Sensordaten der ersten Modalität angewendet werden kann, um Label zu erzeugen. Diese Label werden dann auf die zweite Modalität übertragen.
Ein weiterer Vorteil des zweistufigen Verfahrens besteht darin, dass die Wahl der Sensormodalität der zweiten Phase nicht eingeschränkt ist insofern, dass ein in guter Näherung funktionierendes Erzeugungsmodell realisierbar sein soll. Dies ist nur für die Modalität der ersten Phase notwendig. Dies stellt einen wesentlichen Vorteil dar, da für den praktischen Einsatz in Serienfahrzeugen üblicherweise Modalitäten bevorzugt werden, für die genaue Erzeugungsmodelle nicht oder nur mit hohem Aufwand realisierbar sind. Zum Beispiel bietet sich für die erste Phase die Verwendung von Lidar an, da Lidar-Punktewolken relativ einfach synthetisch aus einer simulierten Fahrzeugumgebung berechnet werden können, weil die Laser-Strahlen eines Lidar an der Oberfläche von Objekten reflektiert werden. Im Gegensatz dazu müssten bei der Simulation eines Radar-Sensors vergleichsweise komplizierte physikalische Effekte und die Beschaffenheit von Objekten inklusive deren Materialeigenschaften berücksichtigt werden, weil bei Radar-Wellen keine einfache Reflektion an der Oberfläche stattfindet. Bei einem Einsatz des Verfahrens für Radar in der zweiten Phase stellt dies jedoch kein Problem dar, weil in der zweiten Phase keine Simulation notwendig ist, sondern die gelabelte Stichprobe von (in diesem Beispiel) Radar-Daten über die Erkennung der parallel aufgezeichneten Lidar-Daten gewonnen wird. Andererseits hat Radar für den Einsatz in Serienfahrzeugen im Vergleich zu Lidar den Vorteil, dass in der Praxis bereits erprobte und etablierte Radar-Sensoren zu vergleichsweise günstigen Kosten verfügbar sind.
Darüber hinaus ist ein Vorteil des Verfahrens, dass die zweite Phase auf weitere Sensormodalitäten erweitert werden kann. Dies kann einen wesentlichen Vorteil darstellen, weil sich die automatisch erzeugten Label bei einer Überlappung des Sichtfelds mit dem Sichtfeld der Modalität der ersten Phase auch auf die weiteren Sensormodalitäten übertragen lassen, so dass manuelles Labeln wiederum nicht notwendig ist. Ein multimodales Sensorset ist für Anwendungen des autonomen oder teil-autonomen Fahrens wünschenswert, da die so erreichte Redundanz die Robustheit und Zuverlässigkeit des Systems erhöht, insbesondere, wenn die Bedingungen für eine der Modalitäten schlecht ist und dies durch eine andere Modalität ausgeglichen werden kann.
Der Ablauf des Verfahrens mit den bereits angesprochenen zwei Phasen ist in 2 dargestellt. In der Phase eins wird durch das Simulationstool inkl. Erzeugungsmodell durch Simulation die synthetische, gelabelte Stichprobe von Sensordaten der Modalität eins erzeugt. Nach dem Training des Erkennungsmodells der ersten Modalität kann die Phase zwei ausgeführt werden.
Durch eine Vorrichtung zur Aufnahme einer ungelabelten Stichprobe multimodaler Sensordaten, beispielsweise einem Fahrzeug, das mit Sensoren und einer Vorrichtung zur Aufnahme und Speicherung der Sensordaten ausgestattet ist, werden ungelabelte Stichproben von Sensordaten der Modalitäten eins und zwei aufgezeichnet. Durch das Erkennungsmodell für die Modalität eins erfolgt eine automatische Labelgenerierung mittels des Erkennungsmodells für die Modalität eins und eine gelabelte Stichprobe von Sensordaten beider Modalitäten wird erzeugt.
Durch Training des Erkennungsmodells für die Modalität zwei kann auch das Erkennungsmodell der zweiten Modalität Objekte erkennen.
In der ersten Phase wird eine synthetische, gelabelte Stichprobe von Sensordaten der ersten Modalität erzeugt. Dies erfolgt mit Hilfe eines Simulationstools, das sowohl die Bewegung des Ego-Fahrzeugs als auch die Bewegung von anderen Fahrzeugen in der Umgebung des Ego-Fahrzeugs simuliert. Zusätzlich wird auch die statische Umgebung simuliert, so dass zu jedem Zeitpunkt eine statische und dynamische Umgebung des Ego-Fahrzeugs erzeugt wird, wobei die Objektattribute geeignet gewählt werden können und somit die relevanten Labels der Objekte abgeleitet werden können. Die synthetischen Sensordaten dieser Objekte werden von einem Erzeugungsmodell generiert, welches einen Teil des Simulationstools darstellt.
Das Erzeugungsmodell basiert darauf, die physikalischen Eigenschaften der ersten Sensormodalität mathematisch und algorithmisch genau zu beschreiben und auf dieser Basis ein Software-Modul zu implementieren, welches rechnerisch aus den Attributen der simulierten Objekte, den Eigenschaften der jeweiligen Ausführung des physischen Sensors und der Position des virtuellen Sensors in der Simulation die zu erwartenden Sensormessdaten erzeugt.
Bei der Realisierung des Erzeugungsmodells können unterschiedliche Teilmodelle bzw. entsprechende Software-Komponenten unterschieden werden.
Hier ist als simulierter Sensor ein Lidar beschrieben. Das Sensormodell beschreibt und berechnet erstens die Aussendung der Sensorwellen unter Berücksichtigung von Sensoreigenschaften. Die Sensoreigenschaften sind dabei modalitätsspezifisch und auch abhängig von der jeweiligen Bauart und Variante des Sensors. Das Sensormodell beschreibt und berechnet zweitens den Empfang der von den Objekten reflektierten Sensorwellen.
Als Sensorwellen ist hier Laserlicht beschrieben. Das Sensorwellen-Ausbreitungsmodell berechnet die Ausbreitung der Sensorwelle (z.B. Streuung, Abschwächung) nach dem Aussenden durch den Sensor und bis zum Auftreffen auf relevanten Objekten sowie analog die Ausbreitung der von den Objekten reflektierten Sensorwellen bis zur Detektion durch den Sensor.
Ein simuliertes dynamisches Objekt kann beispielsweise ein Fahrzeug oder Fußgänger sein. Ein Simuliertes statisches Objekt kann beispielsweise ein Hindernis, eine Leitplanke oder ein Verkehrsschild sein. Das Objektmodell berechnet das Verhalten der Sensorwellen und deren Rückstrahlung beim Auftreffen auf die Objekte beispielsweise durch Raytracing von Laserlicht bei Lidar in Abhängigkeit von Objektattributen, wie beispielsweise Oberflächeneigenschaften.
Das Sensor-Modell hängt einerseits von der verwendeten Modalität (zum Beispiel Lidar) ab. Andererseits ist das Sensor-Modell aber im Besonderen spezifisch für die jeweilige Bauart und gegebenenfalls für die jeweilige Hardware- und Software-Version bzw. Konfiguration des in Phase zwei tatsächlich eingesetzten Sensors. Zum Beispiel simuliert ein Lidar-Sensormodell die von der jeweiligen Ausführung des Lidar-Sensors abgestrahlten Laser-Beams unter Berücksichtigung der spezifischen Eigenschaften des physischen Lidar-Sensors, der in Phase zwei des Verfahrens benutzt wird. Zu diesen Eigenschaften gehören zum Beispiel die Anzahl der Layer des Lidars, also die vertikale Auflösung, die Auflösung in horizontaler Richtung, die Geschwindigkeit der Rotation, falls es sich um einen rotierenden Lidar handelt, bzw. die Frequenz, sowie den horizontalen und vertikalen Abstrahlwinkel bzw. den Sichtbereich. Das Sensor-Modell simuliert auch die Detektion der von den Objekten zurückreflektierten Sensorwellen, die letztendlich zu den Sensormessungen führt.
Das Sensorwellen-Ausbreitungs-Modell ist ebenfalls Teil des Erzeugungsmodells. Es beschreibt und berechnet die Veränderung der Sensorwellen, einerseits auf dem Weg vom Sensor zu einem relevanten Objekt und andererseits zurück vom Objekt zur Detektionseinheit des Sensors. Hierbei werden physikalische Effekte wie zum Beispiel Abschwächung in Abhängigkeit des zurückgelegten Wegs oder Streuung in Abhängigkeit von Umgebungseigenschaften berücksichtigt.
Schließlich besteht das Erzeugungsmodell zusätzlich aus mindestens einem Objektmodell, dessen Aufgabe es ist, aus den ein jeweiliges relevantes Objekt erreichenden Sensorwellen die veränderten Sensorwellen zu berechnen, die dadurch entstehen, dass ein Teil der vom Sensor ausgesendeten Wellen vom Objekt zurückgeworfen werden. Das Objektmodell berücksichtigt Attribute des Objekts, die diese Reflektion der Sensorwellen beeinflussen. Beim Beispiel Lidar sind Oberflächeneigenschaften wie die Farbe relevant, oder auch die Form des Objekts, die den Auftreffwinkel des Lasers bestimmt.
Die Beschreibung dieser Komponenten gilt für Sensormodalitäten, die darauf basieren, dass der Sensor aktiv Sensorwellen aussendet, wie zum Beispiel Lidar, Radar oder Ultraschall-Sensoren. Bei passiven Sensormodalitäten (wie zum Beispiel einer Kamera) kann ebenfalls eine Gliederung des Erzeugungsmodells in die beschriebenen Komponenten vorgenommen werden, allerdings unterscheiden sich die Berechnungen dann zum Teil. Beispielsweise entfällt beim Sensormodell die Erzeugung der Wellen und wird stattdessen durch ein Modell zur Erzeugung von Umgebungswellen ersetzt.
Beim Erkennungsmodell der Phase eins kann es sich zum Beispiel um ein Deep Neural Network (DNN) zur Erkennung von Lidar-Punktewolken („point clouds“) handeln. Die zu erkennenden Attribute der dynamischen Objekte sind typischerweise die Position in Abhängigkeit der Zeit, was auch als Objekttrajektorie aufgefasst werden kann. Zusätzlich werden typischerweise Attribute erkannt, welche die Größe der Objekte beschreiben, wobei als vereinfachende Näherung oft von einer bestimmten Form der Objekte („Bounding Box“) ausgegangen wird.
Für die konkrete Realisierung der Erkennung der Daten der ersten Modalität ist eine naheliegende Möglichkeit, ein „single-frame“ basiertes DNN zur Detektion der Objekte einzusetzen, hier also die Information der Sensordaten zunächst nicht über eine bestimmte Zeitspanne zu akkumulieren, sondern jeweils nur die Daten eines einzelnen Frames (z.B. eines Lidar-Sweeps) dem DNN als Eingabe zur Verfügung zu stellen. Die so detektierten Objekte können dann mit bereits früher detektierten Objekten (wenn vorhanden) assoziiert und mit etablierten Methoden der Objektverfolgung („object tracking“) kann der zeitliche Verlauf der Trajektorien bestimmt werden, zum Beispiel mittels Kalman- Filterung.
Alternativ kann das Tracking ebenfalls mit Hilfe gelernter Methoden durchgeführt werden. Zum Beispiel kann ein Single-Frame-DNN mit einem Recurrent Neural Network (RNN) verknüpft werden, so dass für die Bestimmung der Objektzustände zu einem bestimmten Zeitpunkt auch Information aus der Vergangenheit vom Deep Neural Network einbezogen werden kann.
In der zweiten Phase werden multimodale, reale Sensordaten aufgezeichnet. Die Label für diese Daten werden vom Erkennungsmodell der ersten Modalität erzeugt, das in der ersten Phase mit Hilfe der synthetischen, gelabelten Stichprobe trainiert worden ist. Obwohl diese Erkennung für die Daten der ersten Modalität durchgeführt wird, ist eine Übertragung bzw. Anwendung der Label auf die Daten der zweiten Modalität möglich, wenn das Sichtfeld der zweiten Modalität eine Teilmenge des Sichtfelds der ersten Modalität darstellt.
Eine zeitliche Interpolation der Label kann bei dieser Übertragung notwendig sein, wenn die Frequenz der Sensormessungen der unterschiedlichen Modalitäten nicht übereinstimmt oder eine Synchronisation der Sensoren bei der Aufnahme nicht erfolgt.
Eine typische Anwendung für die in Phase zwei erzeugte gelabelte Stichprobe ist das Training eines Erkennungsmodells, zum Beispiel eines Deep Neural Network, das die Sensordaten der zweiten Modalität als Eingabe erhält und die statischen und dynamischen Objekte erkennt, so dass eine Schätzung der relevanten Objekt-Attribute ausgegeben wird. Analog zum oben beschriebenen Erkennungsmodell der Phase eins kann es sich um ein „Single-Frame“-DNN handeln und ein Kalman-Tracking separat durchgeführt werden. Ebenfalls analog zum Erkennungsmodell der Phase eins kann alternativ die gesamte Erkennung inklusive des Tracking mit einem trainierten Verfahren durchgeführt werden.
Eine weitere Anwendung für die gelabelte Stichprobe ist die Evaluierung der Erkennungsgenauigkeit eines Software-Moduls zur Umfeldwahrnehmung anhand der Sensordaten von Modalität zwei, zum Beispiel, falls dieses Modul keine auf einer Stichprobe trainierten Methoden verwendet. Falls das zu evaluierende Modul aus einem Training mit der gelabelten Stichprobe hervorgeht, die mit dem hier vorgeschlagenen Verfahren erzeugt wird, ist eine Evaluierung dennoch sinnvoll, wenn gezeigt werden kann, dass die mit dem Erkennungsmodell aus Phase eins generierten Label in Bezug auf relevante Metriken qualitativ besser sind als das Ergebnis des Erkennungsmodells aus Phase zwei. In diesem Fall kann der Sensor der ersten Modalität und das Erkennungsmodell aus Phase eins als Referenzsystem betrachtet werden.
Zusammenfassend werden ein Verfahren zur Generierung von synthetischen, gelabelten Daten in einer ersten Phase und eine Anwendung des resultierenden Erkennungsmodells in einer zweiten Phase vorgestellt. Das Verfahren kann auf einer Vorrichtung ausgeführt werden, welche zunächst eine gelabelte Stichprobe synthetischer Daten und daraufhin mittels Training ein Erkennungsmodell für eine erste Modalität erzeugt. Mit dieser Vorrichtung oder einer davon getrennten Vorrichtung können im Anschluss reale Daten aufgenommen werden und mittels des Erkennungsmodells für die Modalität eins die Sensordaten der zweiten Modalität gelabelt werden.
Abschließend ist darauf hinzuweisen, dass Begriffe wie „aufweisend“, „umfassend“, etc. keine anderen Elemente oder Schritte ausschließen und Begriffe wie „eine“ oder „ein“ keine Vielzahl ausschließen. Bezugszeichen in den Ansprüchen sind nicht als Einschränkung anzusehen.

Claims

Verfahren zum Erzeugen von Trainingsdaten (126) für ein Erkennungsmodell (124) zum Erkennen von Objekten (120) in Sensordaten (108) eines Sensors (104), wobei in zumindest einen Überlappungsbereich (116) abbildenden Zusatzsensordaten (114) eines Zusatzsensors (110) Objekte (120) und Objektattribute (122) unter Verwendung eines trainierten Zusatzerkennungsmodells (118) erkannt werden und die Objektattribute (122) der in dem Überlappungsbereich (116) erkannten Objekte (120) auf die zumindest den Überlappungsbereich (116) abbildenden Sensordaten (108) übertragen werden, um die Trainingsdaten (126) zu erzeugen.
Verfahren gemäß Anspruch 1, bei dem die Objekte (120) und Objektattribute (122) mit den Sensordaten (108) synchronisiert werden.
Verfahren gemäß Anspruch 2, bei dem zum Synchronisieren eine Sensorbewegung des Sensors (104) zwischen einem Zusatzerfassungszeitpunkt eines Objekts (120) durch den Zusatzsensor (110) und einem Erfassungszeitpunkt des Objekts (120) durch den Sensor (104) unter Verwendung einer Sensorbewegungsinformation kompensiert wird.
Verfahren gemäß einem der Ansprüche 2 bis 3, bei dem zum Synchronisieren eine Objektbewegung eines Objekts (120) zwischen einem Zusatzerfassungszeitpunkt des Objekts (120) durch den Zusatzsensor (110) und einem Erfassungszeitpunkt des Objekts (120) durch den Sensor (104) unter Verwendung eines Objektbewegungsattributs kompensiert wird.
Verfahren gemäß einem der vorhergehenden Ansprüche, bei dem die Sensordaten (108) und die Zusatzsensordaten (114) von einer gemeinsamen Sensorplattform erfasst werden.
Verfahren gemäß einem der vorhergehenden Ansprüche, bei dem die Sensordaten (108) von einem Sensor (104) einer ersten Modalität eingelesen werden und die Zusatzsensordaten (114) von einem Zusatzsensor (110) einer zweiten Modalität eingelesen werden.
Verfahren gemäß einem der vorhergehenden Ansprüche, bei dem das Zusatzerkennungsmodell (118) vor dem Erkennen der Objektattribute (122) unter Verwendung von Simulationstrainingsdaten (210) trainiert wird.
Verfahren gemäß Anspruch 7, bei dem die Simulationstrainingsdaten (210) unter Verwendung eines Erzeugungsmodells (300) erzeugt werden, wobei das Erzeugungsmodell (300) ein Sensormodell (302) des Zusatzsensors (110), ein Ausbreitungsmodell (304) und ein Objektmodell (306) zumindest eines virtuellen Objekts (310) umfasst, wobei unter Verwendung des Sensormodells (302) eine Wellenemission (308) des Zusatzsensors (110) simuliert wird, unter Verwendung des Ausbreitungsmodells (304) eine Transmission der Wellenemission (308) durch eine virtuelle Umgebung zu dem Objekt (310) als ankommende Wellen (309) simuliert wird, unter Verwendung des Objektmodells (306) eine Reflexion (312) der transmittierten Wellenemission (308) an dem Objekt (310) simuliert wird, unter Verwendung des Ausbreitungsmodells (304) die Transmission der Reflexion (312) durch die virtuelle Umgebung zu dem Zusatzsensor (110) als ankommende Wellen (313) simuliert wird und unter Verwendung des Sensormodells (302) eine Detektion der transmittierten Reflexion (312) durch den Zusatzsensor (110) simuliert wird, wobei der detektierten Reflexion (312) zumindest ein von dem Objektmodell (306) bereitgestelltes Objektattribut (122) des virtuellen Objekts (310) zugewiesen wird, um die Simulationstrainingsdaten (210) zu erzeugen.
Verfahren nach einem der vorhergehenden Ansprüche, wobei die Sensordaten (108) und/oder die Zusatzsensordaten (114) mittels einer Kamera, einem Radar, einem Lidar und/oder einem Ultraschallsensor erfasst wurden.
Verfahren zum Trainieren eines Erkennungsmodells (124), dadurch gekennzeichnet, dass das Erkennungsmodell (124) unter Verwendung von mittels eines Verfahrens nach einem der Ansprüche 1 bis 9 erzeugten Trainingsdaten (126) trainiert wird.
Verfahren zum Ansteuern eines autonomen Roboters, insbesondere eines zumindest teilautomatisierten Fahrzeugs (100), dadurch gekennzeichnet, dass der Roboter unter Verwendung einer Ausgabe eines nach Anspruch 10 trainierten Erkennungsmodells (124) angesteuert wird.
Vorrichtung (102), wobei die Vorrichtung (102) dazu ausgebildet ist, das Verfahren gemäß einem der vorhergehenden Ansprüche in entsprechenden Einrichtungen auszuführen, umzusetzen und/oder anzusteuern.
Computerprogrammprodukt, das dazu eingerichtet ist, das Verfahren gemäß einem der Ansprüche 1 bis 11 auszuführen, umzusetzen und/oder anzusteuern.
Maschinenlesbares Speichermedium, auf dem das Computerprogrammprodukt gemäß Anspruch 13 gespeichert ist.