-
Die vorliegende Offenbarung betrifft ein Verfahren zur Ermittlung eines von einem Kraftfahrzeug befahrbaren Pfades oder einer semantischen Segmentierungskarte mit Blick aus einer Vogelperspektive auf das Kraftfahrzeug. Zusätzlich oder alternativ wird jeweils ein Trainingsverfahren für das auf künstlicher Intelligenz beruhende End-to-End System bereitgestellt, um das jeweilige System so zu trainieren, dass dieses nach dem Training in dem Verfahren zur Ermittlung des von dem Kraftfahrzeug befahrbaren Pfades oder der semantischen Segmentierungskarte mit Blick aus der Vogelperspektive auf das Kraftfahrzeug einsetzbar ist. Zusätzlich oder alternativ wird eine Datenverarbeitungsvorrichtung bereitgestellt, die ausgestaltet ist, um das Verfahren und/oder eines der oder beide Trainingsverfahren zumindest teilweise auszuführen. Zusätzlich oder alternativ wird ein automatisiertes Kraftfahrzeug mit der Datenverarbeitungsvorrichtung bereitgestellt. Zusätzlich oder alternativ wird ein Computerprogramm bereitgestellt, das Befehle umfasst, die bei der Ausführung des Programms durch einen Computer diesen veranlassen, das Verfahren und/oder eines der oder beide Trainingsverfahren zumindest teilweise auszuführen. Zusätzlich oder alternativ wird ein computerlesbares Medium bereitgestellt, das Befehle umfasst, die bei der Ausführung der Befehle durch einen Computer diesen veranlassen, das Verfahren und/oder eines der oder beide Trainingsverfahren zumindest teilweise auszuführen.
-
Beim automatisierten, insbesondere autonomen, Fahren ist ein Ziel, dass ein automatisiertes Fahrzeug die Umgebung erfasst und basierend auf der erfassten Umgebung das automatisierte Fahren steuert. Ein Software-Stack für das automatisierte Fahren ist in der Regel in mehrere Teilsysteme unterteilt, z.B. Objekterkennung, Objektverfolgung, Vorhersage und Planung. Jedes Teilsystem kommuniziert dabei durch eine sehr reduzierte Schnittstelle miteinander. Das Teilsystem für die Objekterkennung liefert zum Beispiel nur die Position und Größe der Objekte an das Teilsystem für die Vorhersage. Es gibt jedoch keine detaillierten Informationen über die Form, die Farbe, den Verdeckungsgrad etc. weiter.
-
Dies hat im Wesentlichen zwei Nachteile. Wenn dem Teilsystem für die Objekterkennung ein Fehler unterläuft, kann das Teilsystem für die Vorhersage diesen nicht erkennen und/oder korrigieren, da es keinen Zugriff auf zur Objekterkennung nötige Sensorrohdaten hat. Zudem ist eine Latenzzeit des gesamten Systems relativ hoch, da jedes Teilsystem auf die Informationen reagieren muss, die die vorherigen Teilsysteme entlang der Kette liefern, und dabei das Rauschen (engl. noise) herausfiltern muss.
-
Um diese Nachteile zu überwinden, kann ein End-to-End-System trainiert werden, bei dem die Eingabe die Sensor-Rohdaten und die Ausgabe der zu fahrende Pfad bzw. die zu fahrende Trajektorie ist. Während des Trainings kann die Grundwahrheit (der zu fahrende Weg) aus der zukünftigen Odometrie oder aus Stichproben aus einer Reihe möglicher Wege gewonnen werden.
-
Beispielsweise wird in Zeng (Zeng, Wenyuan, et al. „End-to-end interpretable neural motion planner.“ Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2019. Abrufbar unter: https://openaccess.thecvf.com/content_CVPR 2019/html/Zeng_End-To-End_Interpretable_Neural_Motion_Planner CVPR 2019_paper.html) ein neuronaler Bewegungsplaner für das Erlernen des autonomen Fahrens in komplexen städtischen Szenarien vorgeschlagen, die Ampelschaltungen, Ausweichmanöver und Interaktionen mit mehreren Verkehrsteilnehmern umfassen. Um dieses Ziel zu erreichen, wird ein ganzheitliches Modell vorgeschlagen, das als Input LiDAR- bzw. LIDAR-Rohdaten und eine HD-Karte nimmt und interpretierbare Zwischendarstellungen in Form von 3D-Erkennungen und ihren zukünftigen Trajektorien sowie ein Kostenvolumen erzeugt, das die Güte jeder Position definiert, die das selbstfahrende Auto innerhalb des Planungshorizonts einnehmen kann. Es werden dann eine Reihe verschiedener physikalisch möglicher Trajektorien ausgewählt und diejenige mit den geringsten erlernten Kosten ausgewählt. Dabei ist das Kostenvolumen in der Lage, Multimodalität auf natürliche Weise zu erfassen. Es werden jedoch ausschließlich LIDAR-Rohdaten verwendet. Daher fehlen Farb- und/oder Tiefen- bzw. Ferninformationen.
-
In Philion (Philion, Jonah, und Sanja Fidler. „Lift, splat, shoot: Encoding images from arbitrary camera rigs by implicitly unprojectingto 3d.“ European Conference on Computer Vision. Springer, Cham, 2020. Abrufbar unter: https://github.com/nvtlabs/lift-splat-shoot) wird vorgeschlagen semantische Repräsentationen aus mehreren Sensoren, ausschließlich umfassend Bildsensoren und keine 3D Sensoren, wie Lidar oder Radar, zu extrahieren und diese Repräsentationen zu einem einzigen „Vogelperspektive“-Koordinatensystem für die Bewegungsplanung zu verschmelzen. Es wird vorgeschlagen eine End-to-End-Architektur zu verwenden, die direkt eine Vogelperspektiven-Repräsentation einer Szene aus Bilddaten einer beliebigen Anzahl von Kameras extrahiert. Dabei wird jedes Bild einzeln in einen Kegelstumpf von Merkmalen für jede Kamera „geliftet“ und dann alle Kegelstümpfe in ein gerastertes Vogelperspektivengitter „gespaltet“. Durch das Training mit der gesamten Kameraausrüstung kann das Modell nicht nur lernen, wie man Bilder darstellt, sondern auch, wie man Vorhersagen von allen Kameras zu einer einzigen, zusammenhängenden Darstellung der Szene verschmilzt und dabei robust gegenüber Kalibrierungsfehlern ist. In Verfolgung des Ziels, dichte Repräsentationen für die Bewegungsplanung zu erlernen, wird gezeigt, dass von dem Modell abgeleitete Repräsentationen eine interpretierbare End-to-End-Bewegungsplanung ermöglichen, indem Muster-Trajektorien in eine von dem Netzwerk ausgegebene Kostenkarte aus der Vogelperspektive „geschossen“ werden. Es werden jedoch ausschließlich Bilder bzw. Bilddaten verwendet. Daher kann nur eine geringe räumliche Präzision erreicht werden.
-
Ziel ist es beim automatisierten Fahren zudem, die Umgebungswahrnehmung eines automatisierten Fahrzeugs durch Segmentierung der Welt direkt in der Vogelperspektive (engl. bird's eye view, BEV) zu verbessern. Auf diese Weise ist es möglich, 3D-Informationen darüber bereitzustellen, welche Art von Inhalt (Straße, Gras, Objekte...) in der Umgebung des autonomen Fahrzeugs vorhanden ist. Die semantische Segmentierung wird traditionell auf der 2D-Bildebene durchgeführt. Dies allein ist jedoch für viele Aufgaben des autonomen Fahrens nicht sehr hilfreich, da die Umgebungswahrnehmung in 3D erfolgen muss, um die Umgebung mit der Karte abzugleichen oder zu planen, wohin das Auto als nächstes fahren soll.
-
Um dies abzumildern, verwenden einige Arbeiten die semantische Segmentierung von Bildern, um Lidar-Punktwolken zu segmentieren und 3D-Informationen aus ihnen zu gewinnen. So führt Vora (Vora, Sourabh, et al. „Pointpainting: Sequential fusion for 3d object detection.“ Proceedings of the IEEE/CVF conference on computer vision and pattern recognition. 2020. Abrufbar unter: https://www.sernanticscholar.org/paper/PointPainting%3A-Sequential-Fusion-for-3D-Object-Vora-Lang/8648f59b62dda3900d597e944abe8af51 a18f665) aus, dass Kamera und LIDAR wichtige Sensormodalitäten für die Robotik im Allgemeinen und selbstfahrende Autos im Besonderen sind. Die Sensoren liefern komplementäre Informationen, die eine Möglichkeit für eine (enge) Sensor-Fusion bieten. Reine LIDAR-Methoden übertreffen die Fusionsmethoden bei den wichtigsten Benchmark-Datensätzen. Daher wird sog. PointPainting vorgeschlagen: eine sequentielle Fusionsmethode. PointPainting projiziert Lidar-Punkte in die Ausgabe eines semantischen Bildsegmentierungsnetzes und fügt die Klassenscores zu jedem Punkt hinzu. Die hinzugefügte (gemalte) Punktwolke kann dann in jede LIDAR-Methode eingespeist werden. Experimente zeigen große Verbesserungen gegenüber drei verschiedenen State-of-the-Art-Methoden, Point-RCNN, VoxelNet und PointPillars auf den KITTI- und nuScenes-Datensätzen. Bei der Ablation wird untersucht, wie die Auswirkungen von Painting von der Qualität und dem Format der semantischen Segmentierungsausgabe abhängen, und es wird gezeigt, wie die Latenz durch Pipelining minimiert werden kann.
-
Dies bedeutet jedoch, dass keine Segmentierungsinformationen verfügbar sind, wenn es in einem bestimmten Bereich der Szene keine 3D-Punkte gibt. Zu diesem Zweck segmentieren einige Arbeiten das BEV direkt aus Bildern. Gosala (Gosala, Nikhil, and Abhinav Valada. „Bird's Eye View Panoptic Segmentation Using Monocular Frontal View Images.“ IEEE Robotics and Automation Letters (2022). Abrufbar unter: https://arxiv.org/abs/2108.03227) führt dazu aus, dass Karten aus der Vogelperspektive bzw. BEV sich als eine der leistungsstärksten Darstellungen für das Verstehen von Szenen herauskristallisiert haben, da sie reichhaltigen räumlichen Kontext bieten und gleichzeitig einfach zu interpretieren und zu verarbeiten sind. Solche Karten werden in vielen realen Aufgaben eingesetzt, die sich weitgehend auf eine genaue Segmentierung der Szene sowie auf die Identifizierung von Objektinstanzen im BEV-Raum stützen. Bestehende Segmentierungsalgorithmen sagen jedoch nur die Semantik im BEV-Raum voraus, was ihren Einsatz in Anwendungen einschränkt, bei denen der Begriff der Objektinstanzen ebenfalls entscheidend ist. Deshalb wird ein panoptischer BEV-Segmentierungsansatz vorgeschlagen, der direkt dichte panoptische Segmentierungskarten im BEV vorhersagt, wenn ein einzelnes monokulares Bild in der Frontalansicht (FV) vorliegt. Die Architektur folgt dem Top-Down-Paradigma und beinhaltet ein dichtes Transformationsmodul, das aus zwei verschiedenen Transformatoren besteht, die lernen, vertikale und flache Regionen im Eingangsbild unabhängig voneinander vom FV auf das BEV abzubilden. Darüber hinaus wird eine mathematische Formulierung für die Empfindlichkeit der FV-BEV-Transformation abgeleitet, die es ermöglicht, Pixel im BEV-Raum intelligent zu gewichten, um den unterschiedlichen Beschreibungsgrad im FV-Bild zu berücksichtigen.
-
Wenn jedoch nur Bilder verwendet werden, ist es nicht möglich, von 3D-Sensoren (wie Radar oder Lidar) zu profitieren, falls diese verfügbar sind. Daher werden in anderen Arbeiten Bild-, Lidar- und Radarinformationen zusammengeführt, um Objekte direkt im BEV zu segmentieren. Dazu führt (Hendy, Noureldin, et al. „Fishing net: Future inference of semantic heatmaps in grids.“. 2020. Abrufbar unter https://arxiv.org/abs/2006.09917) aus: Damit autonome Roboter in einer komplexen Umgebung navigieren können, ist es entscheidend, die Umgebung sowohl geometrisch als auch semantisch zu verstehen. Moderne autonome Roboter verwenden mehrere Sensoren, darunter LiDAR-Sensoren, Radar-Sensoren und Kameras. Die Verwaltung der verschiedenen Referenzrahmen und Eigenschaften der Sensoren und die Zusammenführung ihrer Beobachtungen in einer einzigen Darstellung erschwert die Wahrnehmung. Die Wahl einer einzigen, einheitlichen Darstellung für alle Sensoren vereinfacht die Aufgabe der Wahrnehmung und Fusion. Es wird daher eine End-to-End-Pipeline vorgeschlagen, die eine semantische Segmentierung und kurzfristige Vorhersage unter Verwendung einer Top-down-Darstellung durchführt. Der Ansatz besteht aus einem Ensemble neuronaler Netze, die Sensordaten aus verschiedenen Sensormodalitäten aufnehmen und sie in eine einzige gemeinsame semantische Top-Down-Gitterrepräsentation umwandeln. Die Darstellung wird als vorteilhaft beschrieben, da sie unabhängig von sensorspezifischen Referenzrahmen ist und sowohl die semantischen als auch die geometrischen Informationen der umgebenden Szene erfasst. Da die Modalitäten eine gemeinsame Ausgabedarstellung haben, lassen sie sich leicht zu einer fusionierten Ausgabe zusammenfassen. Hier werden jedoch nur bzw. ausschließlich Objekte jedoch keine anderen Klassen segmentiert.
-
Vor dem Hintergrund dieses Standes der Technik besteht die Aufgabe der vorliegenden Offenbarung darin, eine Vorrichtung und ein Verfahren anzugeben, welche jeweils geeignet sind, zumindest die oben genannten Nachteile des Standes der Technik zu überwinden.
-
Gelöst wird die Aufgabe durch die Merkmale der unabhängigen Ansprüche. Die nebengeordneten Ansprüche und die Unteransprüche haben jeweils bevorzugte Weiterbildungen der Erfindung zum Inhalt.
-
Danach wird die Aufgabe durch ein Verfahren zur Ermittlung eines von einem Kraftfahrzeug befahrbaren Pfades im Umfeld des Kraftfahrzeugs mittels einem auf künstlicher Intelligenz beruhenden End-to-End System gelöst. Das Verfahren umfasst ein Eingeben von Daten eines Umfeldrasters, die auf Basis von mit einem 3D-Umfeldsensor erfassten Sensordaten ermittelt wurden, in das End-to-End System, und ein Eingeben von zumindest einem Bild, das auf Basis von mit einem 2D-Umfeldsensor erfassten Sensordaten ermittelt wurde, in das End-to-End System. Ferner umfasst das Verfahren ein Ermitteln des von dem Kraftfahrzeug befahrbaren Pfads auf Basis der Daten des Umfeldrasters und des Bildes mit dem End-to-End System.
-
Die Aufgabe wird ebenso durch ein Verfahren zur Ermittlung einer semantischen Segmentierungskarte mit Blick aus einer Vogelperspektive auf das Kraftfahrzeug im Umfeld des Kraftfahrzeugs mittels einem auf künstlicher Intelligenz beruhenden End-to-End System gelöst. Das Verfahren umfasst ein Eingeben von Daten eines Umfeldrasters, die auf Basis von mit einem 3D-Umfeldsensor erfassten Sensordaten ermittelt wurden, in das End-to-End System, und ein Eingeben von zumindest einem Bild, das auf Basis von mit einem 2D-Umfeldsensor erfassten Sensordaten ermittelt wurde, in das End-to-End System. Ferner umfasst das Verfahren ein Ermitteln der semantischen Segmentierungskarte auf Basis der Daten des Umfeldrasters und des Bildes mit dem End-to-End System.
-
End-to-End-Lernen im Kontext von KI (künstlicher Intelligenz) und ML (maschinelles Lernen, engl. machine learning) ist eine Technik, bei der das Modell bzw. System alle Schritte zwischen der anfänglichen Eingabephase und dem endgültigen Ausgabeergebnis lernt bzw. gelernt. Dabei handelt es sich um einen Deep-Learning-Prozess, bei dem alle verschiedenen Teile gleichzeitig und nicht nacheinander trainiert werden. Das End-to-End System kann folglich auch als End-to-End Modell oder End-To-End trainiertes System bzw. Modell bezeichnet werden.
-
Unter dem Pfad kann ein Weg verstanden werden, entlang welchem sich das Kraftfahrzeug ohne Kollision und/oder ohne Verlassen einer Fahrbahn bzw. Straße, d.h. innerhalb von äußeren Grenzen, fortbewegen kann. Bei dem Pfad kann es sich um eine Trajektorie handeln, d.h. neben räumlichen Informationen kann der Pfad eine zeitliche Komponente (z.B. wann soll das Kraftfahrzeug wo sein) umfassen.
-
Der Begriff Kraftfahrzeug kann vorliegend breit interpretiert werden, sodass darunter nicht nur Fahrzeuge wie Motorräder, Automobile, Personenkraftwagen und/oder Lastkraftwagen fallen, sondern auch beispielsweise auch ein Roboter (z.B. innerhalb eines Gebäudes).
-
Unter einem künstlich intelligenten System kann vorliegend ein System bzw. Modell verstanden werden, welches durch maschinelles Lernen, d.h. durch eine „künstliche“ Generierung von Wissen aus Erfahrung, trainiert wurde. Ein künstliches System lernt dabei aus Beispielen, den sog. Trainingsdaten, und kann die Beispiele nach Beendigung der Lernphase bzw. dem Training verallgemeinern. Dazu bauen Algorithmen beim maschinellen Lernen ein statistisches Modell auf, das auf den Trainingsdaten beruht. Das heißt, es werden nicht einfach die Beispiele auswendig gelernt, sondern Muster und Gesetzmäßigkeiten in den Lerndaten erkannt. So kann das System auch unbekannte Daten beurteilen (Lerntransfer). Beim maschinellen Lernen kann sog. Deep Learning zum Einsatz kommen, welches eine mögliche Lernvariante mittels künstlicher neuronaler Netze darstellt. Deep Learning (deutsch: mehrschichtiges Lernen, tiefes Lernen oder tiefgehendes Lernen) bezeichnet eine Methode des maschinellen Lernens, die künstliche neuronale Netze (KNN) mit zahlreichen Zwischenschichten (englisch hidden layers) zwischen Eingabeschicht und Ausgabeschicht einsetzt und dadurch eine umfangreiche innere Struktur herausbildet.
-
Unter Segmentierung kann vorliegend eine Form der Sensordatenverarbeitung verstanden werden, bei der inhaltlich zusammenhängenden Regionen durch Zusammenfassung benachbarter Pixel oder Voxel entsprechend einem bestimmten Homogenitätskriterium erzeugt werden. Das Ergebnis der Segmentierung ist die sog. Segementierungskarte (engl. segmentation map). Bei der semantischen Segmentierung geht es darum, jeden einzelnen Datenpunkt einer Sensordatenrepräsentation einer Klasse zuzuordnen. Vorliegend erfolgt dies mittels dem End-to-End System so, dass eine Segmentierungskarte resultiert, die auf das Kraftfahrzeug blickt, d.h. das Umfeld bzw. die Umgebung des Kraftfahrzeugs in der Vogelperspektive darstellt, wobei die (insbesondere jede) Zelle des Umfeldrasters einer Klasse (z.B. Auto, Straße, Umgebung, Grünstreifen usw.) zugewiesen ist.
-
Die beiden oben beschriebenen Verfahren weisen die gemeinsame erfinderische Idee auf, sowohl Daten eines 3D-Sensors als auch eines 2D-Sensors in ein End-to-End System einzugeben und eine jeweilige von dem System zu ermittelnde Ausgabe, d.h. die semantische Segmentierungskarte oder den Pfad, basierend auf sowohl den Daten des 3D-Sensors als auch des 2D-Sensors zu bestimmen bzw. zu ermitteln. Weiterhin ermöglichen es beide Verfahren mittels einer Low-Level-Sensorfusion jede Art von Kameras und 3D-Sensoren (wie Lidar und Radar) zu kombinieren, um eine Ende-zu-Ende Bahnplanung auszuführen bzw. eine semantische Segmentierungskarte zu erzeugen. Es wird also vorgeschlagen, ein Low-Level-Sensor-Fusionsverfahren zusammen mit einer Methode zur Erzeugung einer BEV-Groundtruth (Vogelperspektive-Grundwahrheit, BEV engl. bird's eye view) aus annotierten Bildern zu verwenden, um eine BEV-Segmentierung für verschiedene relevante Klassen (nicht nur Objekte) zu liefern und gleichzeitig von 3D-Sensoren zu profitieren, falls diese verfügbar sind. Er wird ferner vorschlagen, die Low-Level-Sensorfusion zu verwenden, um jede Art von Kameras und 3D-Sensoren (z. B. Lidar und Radar) zu kombinieren und damit die End-to-End Bahnplanung durchzuführen.
-
Die nachfolgenden Ausführungen zu den beiden Verfahren sind daher miteinander kombinierbar und gelten, soweit technisch sinnvoll, für beide Verfahren gleichermaßen.
-
Nachfolgend werden mögliche Weiterbildungen der oben beschriebenen Verfahren im Detail erläutert.
-
Das Ermitteln des von dem Kraftfahrzeug befahrbaren Pfads oder der semantischen Segmentierungskarte auf Basis der Daten des Umfeldrasters und des Bildes mit dem End-to-End System kann ein Ermitteln einer ersten Merkmalsmatrix auf Basis der Daten des Umfeldrasters mittels eines ersten neuronalen Encoder-Netzwerks, das Teil des End-to-End Systems ist, umfassen. Ferner kann es ein Ermitteln einer zweiten Merkmalsmatrix auf Basis des Bildes mittels eines zweiten neuronalen Encoder-Netzwerks, das Teil des End-to-End Systems ist, umfassen. Ferner kann es ein Ermitteln einer fusionierten Merkmalsmatrix auf Basis der ersten Merkmalsmatrix und auf Basis der zweiten Merkmalsmatrix, mittels einer Fusioniereinheit, die Teil des End-to-End Systems ist, umfassen. Ferner kann es ein Ermitteln des von dem Kraftfahrzeug befahrbaren Pfads oder der semantischen Segmentierungskarte auf Basis der fusionierten Merkmalsmatrix mittels eines, optional neuronalen, Auswerte-Netzwerks, das Teil des End-to-End Systems ist, umfassen.
-
Ein Sichtfeld des 3D-Umfeldsensors und des 2D-Umfeldsensors, z.B. einer Bild- und/oder Videokamera, können sich zumindest teilweise überschneiden.
-
Das Verfahren kann ein Transformieren und/oder Projizieren der zweiten Merkmalsmatrix von einer Bildebene des Bildes auf eine Rasterebene des Umfeldrasters mittels eines Transformators, der Teil des End-to-End Systems ist, um eine transformierte Merkmalsmatrix zu ermitteln, umfassen. Das Verfahren kann ein Ermitteln der fusionierten Merkmalsmatrix, insbesondere durch Konkatenation und/oder durch Addition, auf Basis der ersten Merkmalsmatrix und auf Basis der transformierten Merkmalsmatrix mittels der Fusioniereinheit umfassen.
-
Das erste neuronale Encoder-Netzwerk und/oder das zweite neuronale Encoder-Netzwerk können jeweils ein Convolutional Neural Network umfassen.
-
Ferner wird ein Trainingsverfahren für das auf künstlicher Intelligenz beruhende End-to-End System bereitgestellt. Das Verfahren umfasst ein Eingeben von Daten eines Umfeldrasters, die auf Basis von mit einem 3D-Umfeldsensor erfassten Sensordaten ermittelt wurden, in das End-to-End System. Das Verfahren umfasst ein Eingeben von zumindest einem Bild, das auf Basis von mit einem 2D-Umfeldsensor erfassten Sensordaten ermittelt wurde, in das End-to-End System. Das Verfahren umfasst ein Ermitteln eines von dem Kraftfahrzeug befahrbaren Pfads im Umfeld des Kraftfahrzeugs auf Basis der Daten des Umfeldrasters und des Bildes mit dem End-to-End System. Das Verfahren umfasst ein Eingeben des ermittelten Pfads und von Odometriedaten als Grundwahrheit in eine Verlustfunktion. Das Verfahren umfasst ein Anpassen von Gewichtungen des End-to-End Systems basierend auf einem Ergebnis der Verlustfunktion, das auf Basis des ermittelten Pfads und den Odometriedaten ermittelt wird.
-
Ferner wird ein weiteres Trainingsverfahren für das auf künstlicher Intelligenz beruhende End-to-End System bereitgestellt. Das Verfahren umfasst ein Eingeben von Daten eines Umfeldrasters, die auf Basis von mit einem 3D-Umfeldsensor erfassten Sensordaten ermittelt wurden, in das End-to-End System. Das Verfahren umfasst ein Eingeben von zumindest einem Bild, das auf Basis von mit einem 2D-Umfeldsensor erfassten Sensordaten ermittelt wurde, in das End-to-End System. Das Verfahren umfasst ein Ermitteln einer semantischen Segmentierungskarte mit Blick aus einer Vogelperspektive auf das Kraftfahrzeug im Umfeld des Kraftfahrzeugs auf Basis der Daten des Umfeldrasters und des Bildes mit dem End-to-End System. Das Verfahren umfasst ein Eingeben der ermittelten semantischen Segmentierungskarte und einer weiteren semantischen Segmentierungskarte mit Blick aus einer Vogelperspektive auf das Kraftfahrzeug als Grundwahrheit in eine Verlustfunktion. Das Verfahren umfasst ein Anpassen von Gewichtungen des End-to-End Systems basierend auf einem Ergebnis der Verlustfunktion, das auf Basis der ermittelten semantischen Segmentierungskarte und der weiteren semantischen Segmentierungskarte ermittelt wird.
-
Das Trainingsverfahren kann ein Ermitteln der weiteren semantischen Segmentierungskarte umfassen. Das Ermitteln der weiteren semantischen Segmentierungskarte kann ein Bereitstellen eines weiteren Bildes, das auf Basis von mit einem 2D-Umfeldsensor erfassten Sensordaten ermittelt wurde, und einer LiDAR-Punktwolke mit einer Vielzahl von Punkten, die auf Basis von mit einem LiDAR-Sensor erfassten Sensordaten ermittelt wurde, umfassen. Das Ermitteln kann ein Bestimmen einer jeweiligen Position der Punkte der LiDAR-Punktwolke in dem weiteren Bild und ein Bereitstellen einer weiteren Segmentierungskarte für das weitere Bild, in der jeder Teil des weiteren Bildes einer Klasse aus einer Vielzahl von Klassen zugeordnet ist, umfassen. Das Ermitteln kann ein Zuordnen der Punkte der LiDAR-Punktwolke zu einer der Vielzahl der Klassen, wobei jedem Punkt die jeweilige Klasse des Teils des Bildes zugeordnet wird, in dem sich die Position des Punktes befindet, und ein Erzeugen der weiteren Segmentierungskarte basierend auf den Punkten der Punktewolke und deren jeweiliger Klasse umfassen.
-
Das oben mit Bezug zum Verfahren Beschriebene gilt analog auch für beide der Trainingsverfahren und umgekehrt.
-
Ein Vorteil des wie oben beschrieben trainierten Systems, das mit Bildern und 3D-Sensordaten trainiert wird, ist, dass während der Inferenz, wenn ein Sensor fehlt bzw. ausfällt, das System in einem sog. Degradation-Mode weiter laufen kann.
-
Das oben Beschriebene lässt sich mit anderen Worten und auf eine konkrete Ausgestaltung bezogen, die als für die vorliegende Offenbarung nicht limitierend beschrieben wird, wie folgt zusammenfassen: Es werden Sensordaten eines 2D-Sensors und eines 3D-Sensors bereitgestellt, die beide in das End-to-End System eingegeben werden. Bezüglich der Eingabemodalitäten der Sensordaten in das End-to-End System und deren gemeinsame Darstellung sei gesagt, dass die 3D-Sensordaten in einer Birds Eye View (BEV) bzw. Vogelperspektivendarstellung (Ansicht von oben bzw. im Wesentlichen parallel zur Vertikalen) der Umgebung des Kraftfahrzeugs vorliegen können. Dabei wird der Raum um das Kraftfahrzeug in Zellen diskretisiert bzw. aufgeteilt. Jede Zelle enthält eine oder mehrere Eigenschaften der Umgebung (z.B. eine Belegungswahrscheinlichkeit, Höhe über dem Boden, usw.). Diese Informationen werden aus 3D-Sensordaten, wie Lidar und/oder Radar, zusammengestellt. Auch verarbeitete Darstellungen wie statische/dynamische Gitter können als Input verwendet werden. Die 2D-Sensordaten repräsentieren die Umgebung aus der Kameraperspektive (d.h. im Wesentlichen parallel zum Untergrund bzw. zur Horizontalen), wobei sich die Sichtfelder der Kamera und des 3D-Sensors überschneiden. Die BEV-Zellen, die im Sichtfeld der Kamera liegen, können in dieses hineinprojiziert werden und die BEV kann somit zur Verknüpfung von Kamera und 3D-Welt mit Hilfe der Projektionsmatrix der Kamera verwendet werden (nachfolgend weiter im Detail erläutert). Die Sensordaten des 3D-Sensors können in ein erstes neuronales Netzwerk (sog. Backbone 1) des End-to-End Systems eingegeben werden, das auf Basis der Sensordaten des 3D-Sensors eine orthografische Merkmalskarte aus der Vogelperspektive ermittelt. Es kann eine Merkmalskarte mit sog. high dimensional BEV deep Learning features erhalten werden. Die Sensordaten des 2D-Sensors können in ein zweites neuronales Netzwerk (sog. Backbone 2) eingegeben werden, dass aus den Sensordaten des 2D-Sensors einen Satz von Merkmalen extrahiert. Es kann damit eine Merkmalsdarstellung mit sog. high dimensional image deep learning features erhalten werden. Anschließend können die aus der kameraperspektive sichtbaren BEV-Zellen in die Merkmalsdarstellung der Kamera projiziert und die image deep learning features können aus jeder Zellposition extrahiert werden, sodass darauffolgend eine Fusion von deep learning features bzw. Merkmalen aus BEV und Bild, insbesondere durch Verkettung bzw. concatenation oder Addition, durchgeführt werden und so eine fusionierte Merkmalskarte erhalten werden kann. Dies ist zum Teil weiter im Detail in Roddick (Roddick, Thomas, Alex Kendall, and Roberto Cipolla. „Orthographie feature transform for monocular 3d object detection.“ Abrufbar unter: https://arxiv.org/abs/1811.08188v1) beschrieben. Hier wird beschrieben, dass in dem End-to-End System folglich ein Faltungsmerkmalsextraktor (engl. convolutional feature extractor) vorgesehen sein kann, der eine Hierarchie von mehrskaligen 2D-Merkmalskarten aus den Sensordaten des 2D-Sensors, d.h. z.B. aus einem Bild einer Kamera, erzeugt. Diese Merkmale kodieren Informationen über Low-Level-Strukturen in den Sensordaten des 2D-Sensors, d.h. z.B. im Bild, die die grundlegenden Komponenten bilden, die von einem Topdown-Netzwerk verwendet werden können, um eine implizite 3D-Darstellung der Umgebung des Kraftfahrzeugs zu konstruieren. Der Faltungsmerkmalsextraktor, der auch als Front-End-Netz bezeichnet werden kann, kann auch für eine Ableitung von Tiefeninformationen auf der Grundlage einer Größe von Bildmerkmalen genutzt werden. Mittels einer orthographischen Merkmalstransformation kann der Satz von Merkmalen, der aus dem Sensordaten des 2D-Sensors extrahiert wurde, auf die orthografische Merkmalskarte aus der Vogelperspektive abgebildet werden. Die wie oben beschrieben erhaltene fusionierte Merkmalskarte kann dann gemäß der Offenbarung von dem End-to-End System genutzt werden, um mittels Regression die semantische Segmentierungskarte bzw. die semantische BEV-Segmentierung und/oder den Pfad zu ermitteln. Genauer gesagt kann die Regression des Fahrweges bzw. des Pfads als pro Zellbelegungswahrscheinlichkeit erfolgen. Zum Trainieren des End-to-End Systems, bzw. des Modells, das als Ganzes end-to-end trainierbar ist, kommen zwei Ansätze in Betracht. Bei beiden können Sensorausfälle während des Trainings simuliert werden (d.h. es kann einer oder mehrere der Sensorpfade zufällig entfernt werden), um robuste Merkmale bzw. Features gegen Sensorausfälle zu erlernen. Zum Training des Pfadvorhersagenetzes, d.h. des End-to-End System zur Ermittlung eines von einem Kraftfahrzeug befahrbaren Pfades, kann ein Bild und eine zugehörige BEV in das multimodale neuronale Netz eingegeben werden, dessen Ausgabe dann in eine Verlustfunktion zusammen mit zukünftigen Odometriedaten als Grundwahrheit einfließt. Als Verlustfunktion kommt focal loss, wie in Lin (Lin, Tsung Yi, et al. „Focal loss for dense object detection.“ Proceedings of the IEEE international conference on computer vision. 2017. Abrufbar unter: https://arxiv.org/pdf/1708.02002.pdf) beschrieben, in Frage. Mittels der Verlustfunktion werden die Gewichte des Netzwerks angepasst. Das Training der semantischen Segmentierungsaufgabe für die semantische Segmentierungskarte als BEV kann grundsätzlich ebenso erfolgen, wobei hier zunächst semantische Segmentierungskarten als BEV als Grundwahrheiten erzeugt werden. Dazu werden Bilder bereitgestellt, in die jeweils zumindest eine LiDAR-Punktwolke projiziert ist, und jeweils zumindest eine zugehörige semantische Segmentierungskarte des Bildes aus der Kameraperspektive. Die semantische Bildbeschriftung bzw. Segmentierungskarte wird verwendet, um die 3D-Sensorpunktwolke bzw. LiDAR-Punktwolke zu zeichnen. Es können mehrere 3D- Punktwolken von verschiedenen Zeitpunkten registriert und akkumuliert werden, um eine dichtere Darstellung zu erhalten. Auch die Verwendung von Hilfsrepräsentationen wie Tiefenergänzung (sog. depth completion) (z.B. aus einem Bild und einem 3D-Sensor), um eine dichtere Darstellung zu erhalten, ist denkbar. Anschließend wird mit der jeweiligen Klasse und den 3D-Informationen eine BEV-Darstellung (dicht oder spärlich) erzeugt, die zum Trainieren des Netzes verwendet werden kann. Im Falle einer spärlichen Darstellung kann das Training überwacht mit den verfügbaren Punkten erfolgen.
-
Ferner wird eine Datenverarbeitungsvorrichtung bereitgestellt. Die Datenverarbeitungsvorrichtung kann ausgestaltet sein, um in und/oder an einem automatisierten Kraftfahrzeug verbaut zu sein. Die Datenverarbeitungsvorrichtung zeichnet sich dadurch aus, dass diese ausgestaltet ist, zumindest eines der oben beschriebenen Verfahren zumindest teilweise auszuführen.
-
Die Datenverarbeitungsvorrichtung kann Teil eines Fahrassistenzsystems sein oder dieses darstellen. Bei der Datenverarbeitungsvorrichtung kann es sich beispielsweise um eine elektronische Steuereinheit (engl. ECU = electronic control unit) handeln. Das elektronische Steuergerät kann eine intelligente prozessor-gesteuerte Einheit sein, die z.B. über ein Central Gateway (CGW) mit anderen Modulen kommunizieren kann und die ggf. über Feldbusse, wie den CAN-Bus, LIN-Bus, MOST-Bus und FlexRay oder über Automotive-Ethernet, z.B. zusammen mit Telematiksteuergeräten das Fahrzeugbordnetz bilden kann. Denkbar ist, dass das Steuergerät für das Fahrverhalten des Kraftfahrzeugs relevante Funktionen, wie die Motorsteuerung, die Kraftübertragung, das Bremssystem und/oder das Reifendruck-Kontrollsystem, steuert. Außerdem können Fahrerassistenzsysteme, wie beispielsweise ein Parkassistent, eine angepasste Geschwindigkeitsregelung (ACC, engl. adaptive cruise control), ein Spurhalteassistent, ein Spurwechselassistent, eine Verkehrszeichenerkennung, eine Lichtsignalerkennung, ein Anfahrassistent, ein Nachtsichtassistent, einen Notbremsassistenten und/oder ein Kreuzungsassistent, von dem Steuergerät gesteuert werden.
-
Denkbar ist, dass die Datenverarbeitungsvorrichtung basierend auf einer Ausgabe des End-to-End System ein automatisiertes Fahren eines automatisierten Kraftfahrzeugs zumindest teilweise und/oder zeitweise steuert.
-
Das oben mit Bezug zu den Verfahren Beschriebene gilt jeweils analog auch für die Datenverarbeitungsvorrichtung und umgekehrt.
-
Ferner wird ein automatisiertes Kraftfahrzeug bereitgestellt. Das automatisierte Kraftfahrzeug zeichnet sich dadurch aus, dass dieses die oben beschriebene Datenverarbeitungsvorrichtung aufweist.
-
Bei dem Kraftfahrzeug kann es sich um einen Personenkraftwagen, insbesondere ein Automobil, handeln. Das automatisierte Kraftfahrzeug kann ausgestaltet sein, um eine Längsführung und/oder eine Querführung bei einem automatisierten Fahren des Kraftfahrzeugs zumindest teilweise und/oder zumindest zeitweise zu übernehmen.
-
Das automatisierte Fahren kann so erfolgen, dass die Fortbewegung des Kraftfahrzeugs (weitgehend) autonom erfolgt. Das automatisierte Fahren kann zumindest teilweise und/oder zeitweise durch die Datenverarbeitungsvorrichtung gesteuert werden.
-
Das Kraftfahrzeug kann ein Kraftfahrzeug der Autonomiestufe 0 sein, d.h. der Fahrer übernimmt die dynamische Fahraufgabe, auch wenn unterstützende Systeme (z. B. ABS oder ESP) vorhanden sind.
-
Das Kraftfahrzeug kann ein Kraftfahrzeug der Autonomiestufe 1 sein, d.h. bestimmte Fahrerassistenzsysteme aufweisen, die den Fahrer bei der Fahrzeugbedienung unterstützen, wie beispielsweise der Abstandsregeltempomat (ACC).
-
Das Kraftfahrzeug kann ein Kraftfahrzeug der Autonomiestufe 2 sein, d.h. so teilautomatisiert sein, dass Funktionen wie automatisches Einparken, Spurhalten bzw. Querführung, allgemeine Längsführung, Beschleunigen und/oder Abbremsen von Fahrerassistenzsystemen übernommen werden.
-
Das Kraftfahrzeug kann ein Kraftfahrzeug der Autonomiestufe 3 sein, d.h. so bedingungsautomatisiert, dass der Fahrer das System Fahrzeug nicht durchgehend überwachen muss. Das Kraftfahrzeug führt selbstständig Funktionen wie das Auslösen des Blinkers, Spurwechsel und/oder Spurhalten durch. Der Fahrer kann sich anderen Dingen zuwenden, wird aber bei Bedarf innerhalb einer Vorwarnzeit vom System aufgefordert die Führung zu übernehmen.
-
Das Kraftfahrzeug kann ein Kraftfahrzeug der Autonomiestufe 4 sein, d.h. so hochautomatisiert, dass die Führung des Fahrzeugs dauerhaft vom System Fahrzeug übernommen wird. Werden die Fahraufgaben vom System nicht mehr bewältigt, kann der Fahrer aufgefordert werden, die Führung zu übernehmen.
-
Das Kraftfahrzeug kann ein Kraftfahrzeug der Autonomiestufe 5 sein, d.h. so vollautomatisiert, dass der Fahrer zum Erfüllen der Fahraufgabe nicht erforderlich ist.
-
Außer dem Festlegen des Ziels und dem Starten des Systems ist kein menschliches Eingreifen erforderlich.
-
Das oben mit Bezug zu den Verfahren und zur Datenverarbeitungsvorrichtung Beschriebene gilt jeweils analog auch für das Kraftfahrzeug und umgekehrt.
-
Ferner wird ein Computerprogramm bereitgestellt. Das Computerprogramm zeichnet sich dadurch aus, dass dieses Befehle umfasst, die bei der Ausführung des Programms durch einen Computer diesen veranlassen, zumindest eines der oben beschriebenen Verfahren zumindest teilweise auszuführen.
-
Ein Programmcode des Computerprogramms kann in einem beliebigen Code vorliegen, insbesondere in einem Code, der für Steuerungen von Kraftfahrzeugen geeignet ist.
-
Ferner wird ein computerlesbares Medium, insbesondere ein computerlesbares Speichermedium, bereitgestellt. Das computerlesbare Medium zeichnet sich dadurch aus, dass diese Befehle umfasst, die bei der Ausführung des Programms durch einen Computer diesen veranlassen, zumindest eines der oben beschriebenen Verfahren zumindest teilweise auszuführen.
-
Das heißt, es kann ein computerlesbares Medium bereitgestellt werden, das ein oben definiertes Computerprogramm umfasst. Bei dem computerlesbaren Medium kann es sich um ein beliebiges digitales Datenspeichergerät handeln, wie zum Beispiel einen USB-Stick, eine Festplatte, eine CD-ROM, eine SD-Karte oder eine SSD-Karte. Das Computerprogramm muss nicht zwingend auf einem solchen computerlesbarem Speichermedium gespeichert sein, um dem Kraftfahrzeug zur Verfügung gestellt zu werden, sondern kann auch über das Internet oder anderweitig extern bezogen werden.
-
Das oben mit Bezug zu den Verfahren, zur Datenverarbeitungsvorrichtung und zum automatisierten Kraftfahrzeug Beschriebene gilt jeweils analog auch für das Computerprogramm sowie das computerlesbare Medium und umgekehrt.
-
Nachfolgend wird eine Ausführungsform mit Bezug zu 1 bis 5 beschrieben.
- 1 zeigt schematisch ein Kraftfahrzeug mit einer Datenverarbeitungsvorrichtung und zwei zu der Datenverarbeitungsvorrichtung verbundenen Sensoren,
- 2 zeigt schematisch ein auf künstlicher Intelligenz beruhendes End-to-End System zur Ermittlung eines von dem Kraftfahrzeug befahrbaren Pfades oder einer semantischen Segmentierungskarte mit Blick aus einer Vogelperspektive auf das Kraftfahrzeug im Umfeld des Kraftfahrzeugs,
- 3 zeigt schematisch ein Ablaufdiagramm des Verfahrens zur Ermittlung des Pfades bzw. der Segmentierungskarte,
- 4 zeigt schematisch ein Ablaufdiagramm eines Trainingsverfahren zum Trainieren bzw. anlerne i.S.v. maschinellem Lernen des End-to-End Systems aus 2, und
- 5 zeigt schematisch ein Ablaufdiagramm eines Verfahrens zum Erzeugen einer Grundwahrheit zum Einsatz in dem Trainingsverfahren von 4.
-
In der nachfolgenden Beschreibung werden in den 1 bis 5 dieselben Bezugszeichen für dieselben Objekte verwendet.
-
1 zeigt schematisch ein automatisiertes Kraftfahrzeug 1 mit zwei Umfeldsensoren zur Erfassung von Sensordaten. Bei einem der Umfeldsensoren handelt es sich vorliegend um einen 3D-Sensor 2, wie z.B. einen Radarsensor und/oder einen LiDAR-Sensor, und bei dem anderen Umfeldsensor handelt es sich vorliegend um einen 2D-Sensor 3, wie z.B. eine Kamera. Ein Sichtfeld des 3D-Sensors 2 und des 2D-Sensors 3 überschneiden sich zumindest teilweise.
-
Das Kraftfahrzeug 1 umfasst eine Datenverarbeitungsvorrichtung (bzw. eine Verarbeitungseinheit) 4, die eingerichtet sein kann, auf Basis der von den Umfeldsensoren 2, 3 erfassten Sensordaten einen Pfad, der vom Kraftfahrzeug 100 ohne Kollision befahren werden kann, im Umfeld des Kraftfahrzeugs 1 zu detektieren. Der detektierte Pfad kann in einer Fahrfunktion (z.B. für das teilautomatisierte oder hochautomatisierte Fahren des Kraftfahrzeugs) berücksichtigt werden. Die Datenverarbeitungsvorrichtung kann ebenso eingerichtet sein, auf Basis der von den Umfeldsensoren 2, 3 erfassten Sensordaten eine semantische Segmentierungskarte mit Blick aus einer Vogelperspektive auf das Kraftfahrzeug 1 im Umfeld des Kraftfahrzeugs 1 zu detektieren. Der detektierte Pfad und/oder die Segmentierungskarte kann bzw. können in einer Fahrfunktion (z.B. für das teilautomatisiertes, hochautomatisiertes und/oder autonomes Fahren des Kraftfahrzeugs 1) berücksichtigt werden. Das Detektieren bzw. Bestimmen des Pfades und der Segmentierungskarte wird nachfolgend im Detail beschrieben.
-
Zum Bestimmen bzw. Ermitteln des Pfads bzw. der Segmentierungskarte wird von der Datenverarbeitungsvorrichtung 4 ein auf künstlicher Intelligenz beruhendes End-to-End System 5 genutzt, welches im Detail in 2 dargestellt ist. Dabei wird das Verfahren zur Ermittlung des von dem Kraftfahrzeug befahrbaren Pfades oder der semantischen Segmentierungskarte mit Blick aus der Vogelperspektive auf das Kraftfahrzeug 1 im Umfeld des Kraftfahrzeugs 1 mittels dem auf künstlicher Intelligenz beruhenden End-to-End System 5 ausgeführt, dessen Ablaufdiagramm in 3 schematisch dargestellt ist.
-
In einem ersten Schritt S1 des Verfahrens erfolgt ein Eingeben von Daten 51 eines Umfeldrasters (BEV), die auf Basis von mit dem 3D-Umfeldsensor 2 erfassten Sensordaten ermittelt wurden, in das End-to-End System 5.
-
In einem zweiten Schritt S2 des Verfahrens erfolgt ein Eingeben von zumindest einem Bild 52 (Kameraperspektive, die die BEV überlappt, wie in 2 mit gestrichelter Linie angedeutet, sodass dieselben Objekte 7 und Umgebungsmerkmale in beiden Ansichten vorhanden sind), das auf Basis von mit einem 2D-Sensor 3 erfassten Sensordaten ermittelt wurde, in das End-to-End System 5.
-
In einem dritten Schritt S3 des Verfahrens erfolgt ein Ermitteln einer ersten Merkmalsmatrix 55 auf Basis der Daten des Umfeldrasters 51 mittels eines ersten neuronalen Encoder-Netzwerks 53, das Teil des End-to-End Systems 5 ist. In einem vierten Schritt S4 des Verfahrens erfolgt ein Ermitteln einer zweiten Merkmalsmatrix 56 auf Basis des Bildes 52 mittels eines zweiten neuronalen Encoder-Netzwerks 54, das Teil des End-to-End Systems ist 5.
-
Das erste neuronale Encoder-Netzwerk 53 und/oder das zweite neuronale Encoder-Netzwerk 54 umfassen jeweils ein Convolutional Neural Network (CNN, auch als faltendes neuronales Netzwerk bezeichnet).
-
In einem fünften Schritt S5 des Verfahrens erfolgt ein Transformieren und/oder Projizieren der zweiten Merkmalsmatrix 56 von einer Bildebene des Bildes (d.h. der Kameraperspektive) auf eine Rasterebene des Umfeldrasters (d.h. in die BEV) mittels eines Transformators 57, der Teil des End-to-End Systems 5 ist, um eine transformierte Merkmalsmatrix zu ermitteln.
-
In einem sechsten Schritt S6 des Verfahrens erfolgt ein Ermitteln einer fusionierten Merkmalsmatrix 59 auf Basis der ersten Merkmalsmatrix 55 und auf Basis der zweiten Merkmalsmatrix 56, mittels einer Fusioniereinheit 58, die Teil des End-to-End Systems ist 5. Genauer gesagt erfolgt ein Ermitteln der fusionierten Merkmalsmatrix 59, insbesondere durch Konkatenation und/oder durch Addition, auf Basis der ersten Merkmalsmatrix 55 und auf Basis der transformierten Merkmalsmatrix mittels der Fusioniereinheit 58.
-
In einem siebten Schritt S7 des Verfahrens erfolgt ein Ermitteln des von dem Kraftfahrzeug 1 befahrbaren Pfads oder der semantischen Segmentierungskarte auf Basis der fusionierten Merkmalsmatrix 59 mittels eines Auswerte-Netzwerks 60, das Teil des End-to-End Systems 5 ist.
-
Nachfolgend wird das Trainingsverfahren für das auf künstlicher Intelligenz beruhende End-to-End System 5 beschrieben.
-
In einem ersten Schritt S8 des Trainingsverfahrens erfolgt ein Eingeben von Daten eines Umfeldrasters 51, die auf Basis von mit einem 3D-Sensor 2 erfassten Sensordaten ermittelt wurden, in das End-to-End System 5.
-
In einem zweiten Schritt S9 des Trainingsverfahrens erfolgt ein Eingeben von zumindest einem Bild 52, das auf Basis von mit einem 2D-Sensor 3 erfassten Sensordaten ermittelt wurde, in das End-to-End System 5.
-
In einem dritten Schritt S10 des Trainingsverfahrens erfolgt ein Ermitteln eines von dem Kraftfahrzeug 1 befahrbaren Pfads im Umfeld des Kraftfahrzeugs 1 oder einer semantischen Segmentierungskarte mit Blick aus einer Vogelperspektive auf das Kraftfahrzeug 1 auf Basis der Daten des Umfeldrasters 51 und des Bildes 52 mit dem End-to-End System 5 (Details dazu s. obige Beschreibung zu 2 und 3).
-
In einem vierten Schritt S11 des Trainingsverfahrens erfolgt ein Eingeben des ermittelten Pfads und von Odometriedaten als Grundwahrheit in eine Verlustfunktion, oder Eingeben der ermittelten semantischen Segmentierungskarte und einer weiteren semantischen Segmentierungskarte mit Blick aus einer Vogelperspektive auf das Kraftfahrzeug als Grundwahrheit in eine Verlustfunktion.
-
In einem fünften Schritt S12 des Trainingsverfahrens erfolgt ein Anpassen von Gewichtungen des End-to-End Systems 5 basierend auf einem Ergebnis der Verlustfunktion, das auf Basis des ermittelten Pfads und den Odometriedaten ermittelt wurde oder das auf Basis der ermittelten semantischen Segmentierungskarte und der weiteren semantischen Segmentierungskarte ermittelt wurde.
-
Wie sich aus 5 ergibt, kann das Trainingsverfahren ein Ermitteln der weiteren semantischen Segmentierungskarte (also der Grundwahrheit) umfassen, wobei das Ermitteln der weiteren semantischen Segmentierungskarte in einem ersten Schritt S13 ein Bereitstellen eines weiteren Bildes, das auf Basis von mit einem 2D-Sensor erfassten Sensordaten ermittelt wurde, und einer LiDAR-Punktwolke mit einer Vielzahl von Punkten, die auf Basis von mit einem LiDAR-Sensor erfassten Sensordaten ermittelt wurde, in einem zweiten Schritt S14 ein Bestimmen einer jeweiligen Position der Punkte der LiDAR-Punktwolke in dem weiteren Bild, in einem dritten Schritt S15 ein Bereitstellen einer weiteren Segmentierungskarte für das weitere Bild, in der jeder Teil des weiteren Bildes einer Klasse aus einer Vielzahl von Klassen zugeordnet ist, in einem vierten Schritt S16 ein Zuordnen der Punkte der LiDAR-Punktwolke zu einer der Vielzahl der Klassen, wobei jedem Punkt die jeweilige Klasse des Teils des Bildes zugeordnet wird, in dem sich die Position des Punktes befindet, und in einem fünften Schritt S17 ein Erzeugen der weiteren Segmentierungskarte basierend auf den Punkten der Punktewolke und deren jeweiliger Klasse.
-
Bezugszeichenliste
-
- 1
- Kraftfahrzeug
- 2
- 3D-Sensor bzw. 3D-Umfeldsensor
- 3
- 2D-Sensor bzw. 2D-Umfeldsensor
- 4
- Datenverarbeitungsvorrichtung
- 5
- End-to-End System
- 51
- Daten des Umfeldrasters
- 52
- Bild bzw. Bilddaten
- 53
- erstes neuronales Encoder-Netzwerks
- 54
- zweites neuronales Encoder-Netzwerks
- 55
- erste Merkmalsmatrix
- 56
- zweite Merkmalsmatrix
- 57
- Transformator
- 58
- Fusioniereinheit
- 59
- fusionierte Merkmalsmatrix
- 60
- Auswerte-Netzwerks
- S1-7
- Schritte des Verfahrens zur Ermittlung des Pfads bzw. der Segmentierungskarte
- S8-S12
- Schritte des Trainingsverfahrens
- S13-S17
- Schritte zur Ermittlung der Grundwahrheit