-
Die Erfindung betrifft ein computerimplementiertes Verfahren, ein Computerprogramm und eine Anordnung zum Vorhersagen und Planen von Trajektorien.
-
Im Rahmen von AD/ADAS-Anwendungen, aber auch im Umfeld von Industrie 4.0 und kollaborativer Mensch-Roboter-Interaktion, reicht eine reine sensorielle Erfassung der Umwelt nicht aus. Vielmehr wird die zeitliche Vorhersage der Weiterentwicklung der dynamischen Szene mit all ihren eigenständigen Interakteuren, zum Beispiel Personen, Fahrzeuge, Radfahrer, immer wichtiger, um intelligente Entscheidungen für beispielsweise automatisierte Fahrzeuge treffen zu können. Hierbei ist nicht nur die Interaktion aller Interakteure, beispielsweise Verkehrsteilnehmer, untereinander wichtig, sondern auch die Interaktion dieser mit ihrer direkten Umwelt, zum Beispiel dem Verkehrsraum und/oder der Infrastruktur.
-
Um eine verlässliche und leistungsstarke Szenen-Vorhersage gewährleisten zu können, müssen alle diese expliziten, impliziten, regional geprägten und ereignisgeprägten Regeln/Informationen in Betracht gezogen werden und zur zeitlichen Vorhersage herangezogen werden. Die deutsche Patentanmeldung mit dem Aktenzeichen
10 2020 210 379.8 offenbart eine hybride Szenen-Repräsentation, die Interaktionen zwischen statischen und dynamischen Objekten und/oder Informationen modelliert.
-
Weiterer Stand der Technik ist in
- • Yibiao Zhao, Yizhou Wang, and Ying Nian Wu: Multi-agent tensor fusion for contextual trajectory prediction, IEEE Conference on Computer Vision and Pattern Recognition (CVPR), June 2019 und
- • Nachiket Deo and Mohan M. Trivedi: Convolutional social pooling for vehicle trajectory prediction, IEEE Conference on Computer Vision and Pattern Recognition (CVPR) Workshops, June 2018
offenbart.
-
Der Erfindung lag die Aufgabe zugrunde, wie eine auf die hybride Szenen-Repräsentation aufbauende Verarbeitung verbessert werden kann, um eine verbesserte Bewegungsplanung für Verkehrsteilnehmer, beispielsweise automatisierte Fahrsysteme, zu ermöglichen, beispielsweise eine zeitliche Vorhersage von allen Verkehrsteilnehmern über mehrere Zeitschritte in die Zukunft.
-
Die Gegenstände der Ansprüche 1, 13 und 14 lösen jeweils diese Aufgabe dadurch, dass die Interaktions-Modellierung von Verkehrsteilnehmern umfassend automatisierte Fahrsysteme über den gesamten Verkehrsraum und über eine vorgegebene Zeit in der Vergangenheit mit der Fusionierung der Historie der Verkehrsteilnehmer mit allen statischen und dynamischen Teilen der Szene die Vorhersage von allen Verkehrsteilnehmern für eine bestimmte Zeit in die Zukunft ermöglicht.
-
Ein Aspekt der Erfindung betrifft ein computerimplementiertes Verfahren zum Vorhersagen und Planen von Trajektorien. Das Verfahren umfasst die Schritte
- • räumliches Zusammenführen von bereitgestellten kodierten statischen und dynamischen Umfeldmerkmalen und Erhalten einer hybriden Szenen-Repräsentation umfassend wenigstens eine erste Schicht umfassend starre statische Umfeldmerkmale, eine zweite Schicht umfassend zustandswechselnde statische Umfeldmerkmale und eine dritte Schicht umfassend die dynamischen Umfeldmerkmale umfassend Trajektorienhistorien von Verkehrseilnehmern umfassend jeweils wenigstens Positionen der Verkehrsteilnehmer in Abhängigkeit der Zeit;
- • Prozessieren eines ersten Maschinenlernmodells, das als Eingabe die hybride Szenen-Repräsentation erhält und trainiert ist oder mittels Referenz-Vorhersagen trainiert wird, Interaktionen zwischen den statischen und dynamischen Umfeldmerkmalen zu bestimmen, wobei eine Funktion des ersten Maschinenlernmodells auf die erste Schicht, die zweite Schicht und die dritte Schicht angewendet wird und eine Einbettung der starren statischen Umfeldmerkmale, der zustandswechselnden statischen Umfeldmerkmale und der dynamischen Umfeldmerkmale erzeugt wird und die Einbettung von dem Maschinenlernmodell ausgegeben wird;
- • Bestimmen von Verkehrsteilnehmer-spezifischen Interaktionen aus der gemeinsamen Einbettung und Fusionieren dieser mit den Verkehrsteilnehmer-spezifischen dynamischen Umfeldmerkmalen für jeden der Verkehrsteilnehmer und Erhalten einer Verkehrsteilnehmer-spezifischen Einbettung für jeden der Verkehrsteilnehmer;
- • Dekodieren der Verkehrsteilnehmer-spezifischen Einbettungen und Erhalten von vorhergesagten Trajektorien für jeden der Verkehrsteilnehmer, wobei einzelne der Trajektorienhistorien jeweils auf mehrere mögliche vorhergesagte Trajektorien abgebildet werden.
-
Ein weiterer Aspekt der Erfindung betrifft ein Computerprogramm zum Vorhersagen und Planen von Trajektorien. Das Computerprogramm umfasst Befehle, die bewirken, dass ein Computer, umfassend einen Computer eines Steuergeräts eines Fahrsystems für automatisierte Fahrfunktionen, die Schritte des erfindungsgemäßen Verfahrens ausführt, wenn das Computerprogramm auf dem Computer läuft.
-
Ein weiterer Aspekt der Erfindung betrifft eine Anordnung zum Vorhersagen und Planen von Trajektorien. Die Anordnung umfasst
- • einen RNN-Kodierer, der dynamische Umfeldmerkmale umfassend Trajektorienhistorien von Verkehrsteilnehmern basierend auf realen Fahrdaten und/oder auf virtuellen Daten kodiert;
- • einen CNN-Kodierer, der Szenen-Informationen umfassend starre statische Umfeldmerkmale und zustandswechselnde statische Umfeldmerkmale kodiert;
- • ein Interaktions-Tensor-Pooling-Modul, das die Kodierungen des RNN- und CNN-Kodierers zusammenführt und eine hybride Szenen-Repräsentation umfassend wenigstens eine erste Schicht umfassend die starren statische Umfeldmerkmale, eine zweite Schicht umfassend die zustandswechselnden statische Umfeldmerkmale und eine dritte Schicht umfassend dynamische Umfeldmerkmale umfassend die Trajektorienhistorien erzeugt;
- • ein CNN-Interaktionsnetzwerk, das basierend auf der hybriden Szenen-Repräsentation Interaktionen zwischen den statischen, dynamischen und zwischen den statischen und dynamischen Umfeldmerkmalen bestimmt, wobei das CNN-Interaktionsnetzwerk eine erste Tensor-Einbettung der starren statischen Umfeldmerkmale, eine zweite Tensor-Einbettung der zustandswechselnden statischen Umfeldmerkmale und eine dritte Tensor-Einbettung der dynamischen Umfeldmerkmale erzeugt und die erste, zweite und dritte Tensor-Einbettung in einen Multi-Agenten-Szenen-Tensor zusammengeführt;
- • ein Interaktions-Vektor-Extraktions-Modul, das pro Verkehrsteilnehmer die Merkmale des Multi-Agenten-Szenen-Tensors an der den Koordinaten des Verkehrsteilnehmers entsprechenden Stelle extrahiert, mit der dritten Tensor-Einbettung des Verkehrsteilnehmers fusioniert und pro Verkehrsteilnehmer und pro Szene eine Multi-Agenten-Szenen-Einbettung erzeugt;
- • einen RNN-Trajektorien-Dekodierer, der die Multi-Agenten-Szenen-Einbettung dekodiert und pro Verkehrsteilnehmer Trajektorien vorhersagt und ausgibt;
- • einen RNN- Wahrscheinlichkeits-Dekodierer, der die Multi-Agenten-Szenen-Einbettung dekodiert und pro Verkehrsteilnehmer Wahrscheinlichkeiten der vorhergesagten Trajektorien gegeneinander bewertet und einen entsprechenden Wert ausgibt.
-
Vorteilhafte Ausgestaltungen der Erfindung ergeben sich aus den Definitionen, den Unteransprüchen, den Zeichnungen und der Beschreibung bevorzugter Ausführungsbeispiele.
-
Verkehrsteilnehmer umfassen Interakteure in Szenen einer Umwelt, beispielsweise in Szenen eines Verkehrsraus. Verkehrsteilnehmer sind beispielsweise Personen, wie etwa Fußgänger, Fahrzeuge, Fahrsysteme, und Fahrradfahrer. Fahrsysteme umfassen automatisierte Fahrsysteme von automatisierte bis autonome Fahrzeuge, Straßenfahrzeuge, People Mover, Shuttles, Roboter und Drohnen. Zu Verkehrsteilnehmern zählen auch intelligente Agenten, beispielsweise selbstfahrende Fahrzeuge oder Roboter.
-
Räumliches Zusammenführen bedeutet beispielsweise, dass räumliche Koordinaten der Verkehrsteilnehmer und/oder der Umfeldmerkmale in Pixeln der hybriden Szenen-Repräsentation dargestellt werden, wobei ein Pixel in jeder der Schichten der hybriden Szenen-Repräsentation einer gleichen Streckenlänge entspricht. Nach einem weiteren Aspekt der Erfindung werden die Umfeldmerkmale in Pixeln der Schichten und/oder über Merkmalsvektoren mit räumlichen Ankerpunkten oder relativ zu einem Referenzpunkt dargestellt. Die Merkmalsvektoren haben einen vorgegebenen räumlichen Ankerpunkt. Nach einem weiteren Aspekt der Erfindung werden die Umfeldmerkmale als Pixelwerte interpretiert. Nach einem weiteren Aspekt der Erfindung wird in jeder Schicht eine räumliche Lage der Umfeldmerkmale über eine korrespondierende Position in einer Karte erfasst. Dies ist vorteilhaft für eine räumlich korrespondierende Anordnung der Umfeldmerkmale.
-
Umfeldmerkmale umfassen Häuser, Straßen, insbesondere Straßengeometrie und/oder -zustand, Schilder, Spurmarkierungen, Vegetation, bewegliche Verkehrsteilnehmer, Fahrzeuge, Fußgänger, Fahrradfahrer.
-
Statische Umfeldmerkmale werden in zwei weitere Kategorien unterteilt. Elemente, die sich quasi nicht oder nur nach längeren Zeiträumen ändern, wechseln ihren Zustand kurzfristig nicht und werden als starr bezeichnet. Die starren statischen Umfeldmerkmale werden in der ersten Schicht angeordnet. Im Gegensatz dazu stehen Elemente, die den Zustand häufig wechseln können und somit zustandswechselnd sind. In die letztere Kategorie werden zum Beispiel Ampeln oder Wechselverkehrszeichen eingeordnet. Die zustandswechselnden starren Umfeldmerkmale werden in der zweiten Schicht angeordnet.
-
Dynamische Umfeldmerkmale betreffen die beweglichen Verkehrsteilnehmer einer Szene. Hierbei werden die Koordinaten der Verkehrsteilnehmer umfassend Positionen und/oder Orientierungen über einen bestimmten Zeitraum genutzt, um Trajektorienhistorien zu generieren. Nach einem Aspekt der Erfindung werden hier Parameter eines Fahrdynamik- oder Bewegungsdynamikmodells verwendet, beispielsweise mittels Kalman-Filter. Die Verkehrsteilnehmer werden basierend auf der letzten Koordinate räumlich angeordnet und bilden die dritte Schicht der dynamischen Umfeldmerkmale.
-
Die hybride Szenen-Repräsentation schichtet ein Szenario in mehrere Schichten. Ein reales Szenario wird als Hybrid von statischen und dynamischen Informationen dargestellt. In diesem Zusammenhang wird die erfindungsgemäße Umfeldszenen-Repräsentation auch hybride Szenen-Repräsentation zur Vorhersage, abgekürzt HSRV, genannt. Das Szenario ist beispielsweise ein Bild mit i Pixeln in x-Richtung und j Pixeln in y-Richtung, in dem die räumlichen Koordinaten der Verkehrsteilnehmer in Pixeln dargestellt werden. Die einzelnen Schichten können ebenfalls als Bilder dargestellt werden und sind deckungsgleich zueinander angeordnet, beispielsweise liegen die Schichten deckungsgleich räumlich übereinander. Die erfindungsgemäße hybride Szenen-Repräsentation ist als ein Stapel übereinander liegender digitaler Fotos, beispielsweise von einer Kreuzungssituation aufgenommen aus der Vogelperspektive, vorstellbar. Andererseits wird dieser Stapel mit Bildern kombiniert mit weiteren Schichten von zum Teil rein semantischen Informationen, die zum Beispiel als reine Merkmalsvektoren repräsentiert sind.
-
Der Vorteil der erfindungsgemäßen hybriden Szenen-Repräsentation besteht darin, dass eine sehr große und sehr flexible Menge an Informationen bereitgestellt wird, auf die das erste Maschinenlernmodell zugreifen kann. Innerhalb der Trainingsphase, in der die variablen Parameter/Gewichte des ersten Maschinenlernmodells eingestellt werden, bildet sich dann die Verwendung der speziellen Informationen heraus, die am besten dazu geeignet ist, die Aufgabe der Vorhersage zu lösen.
-
Nach einem Aspekt der Erfindung umfasst die hybride Szenen-Repräsentation eine erste Schicht umfassend die regionalen Informationen zum Verhalten der Verkehrsteilnehmer und/oder Wetterinformationen, eine zweite Schicht umfassend Karteninformationen zur Bestimmung der Positionen der Verkehrsteilnehmer, eine dritte Schicht umfassend Verkehrsregelinformationen, eine vierte Schicht umfassend die Verkehrsweiser, eine fünfte Schicht umfassend Ankertrajektorien, eine sechste Schicht umfassend semantisch-explizite Informationen, eine siebte Schicht umfassend semantisch-latente Informationen und eine achte Schicht umfassend die Bewegungsinformationen. Damit werden unter anderem explizite, implizite, regional geprägte und Ereignis geprägte Informationen berücksichtigt und damit die Vorhersage und weitere Planung von Trajektorien verbessert, wie beispielsweise in den folgenden drei Absätzen detailliert beschrieben ist.
-
Die erste bis dritte Schicht umfassen die starren statischen Umfeldmerkmale. Regionale Informationen und/oder Wetterinformationen verbessern die Vorhersagegüte. Je nach der Region unterscheidet sich beispielsweise das Verhalten der Verkehrsteilnehmer. Beispielsweise werden in Deutschland Verkehrsregeln relativ stark eingehalten, in Italien eher mild, in Großbritannien wird von rechts überholt, usw. Positionsdaten des Verkehrsteilnehmer und/oder der Umfeldmerkmale werden über Karteninformationen erfasst. Ein Kartenausschnitt wird gebildet, indem jedem Pixel der Karteninformation entsprechenden Schicht der Umfeldszenen-Repräsentation ein Wert zugeordnet wird. Die Werte basieren auf diskreten Labeln der Karte, beispielsweise Zahlencodes für Straße, Fußgängerweg, unterbrochene Linie, Doppellinie, usw. Neben der Karte werden die Vorfahrtsregeln über die Verkehrsregelinformationen abgebildet. Hierzu wird in der Mitte einer jeden Fahrbahn eine Linie gezogen. An Kreuzungen werden zusätzlich Linien gezogen, die alle zulässigen Manöver darstellen. Nach einem Aspekt der Erfindung werden implizit geregelte Information wie beispielsweise „Rechts vor Links“ mit der Beschilderung überlagert. Gegebenenfalls widersprüchliche Regelinformationen werden in dieser Schicht zu einer konsistenten Regel aggregiert, so dass die dann geltenden Regeln als vorrangig behandelt werden.
-
Die vierte bis fünfte Schicht umfassen die zustandswechselnden statischen Umfeldmerkmale. Verkehrsweiser umfassen zustandswechselnde und zustandsbehaftende Verkehrsweiser. Mit zustandswechselnden Verkehrsweisern werden meist optisch an den Fahrer übergebene Signale, die ihren Zustand im Laufe eines Tages mehrmals wechseln können, zusammengefasst. Beispiele dieser Kategorie sind Ampeln, Wechselverkehrszeichen auf Autobahnen und Einfahrtsanzeigen an Mautstellen. Diese Verkehrsweiser werden als den aktuellen Zustand repräsentierender Pixelwert in dem räumlichen Kontext der Umfeldszenen-Repräsentation dargestellt. Aus Gründen der Redundanz werden solche Pixelregionen in der Regel nicht auf ein Pixel beschränkt, sondern auf eine größere Anzahl von Pixel abgebildet. Die genaue Größe der Ausdehnung wird zumeist auch aus Daten auf ein Optimum angelernt. Die Ankertrajektorien kombinieren Information aus den Vorfahrtsregeln und aus den zustandswechselnden Verkehrsweisern. Die so ermittelten Ankertrajektorien werden nach einem Aspekt der Erfindung mit den Regeln der zustandswechselnden Verkehrsweiser in Einklang gebracht und entsprechend priorisiert. Die Schicht der Ankertrajektorien kann nach einem Aspekt der Erfindung je nach zeitlicher Anforderung an den Verkehrsteilnehmer, beispielsweise an das Fahrsystem, die Schichten der Verkehrsweiser und/oder der Verkehrsregelinformationen ergänzen oder ersetzen.
-
Die sechste bis achte Schicht umfassen die dynamischen Umfeldmerkmale. Semantisch-explizite Informationen umfassen Fahrzeugklasse, beispielsweise LKW, PKW, Motorrad, Bus, Shuttle, Fahrrad, Fußgänger, Höhe und/oder Breite der Objekte und/oder Zustände der Blinklichter. Semantisch-latente Informationen sind vom Menschen nicht direkt interpretierbar, sondern in gewisser Weise implizit in den Daten enthalten. Die latenten Informationen sind beispielsweise kontinuierliche Zahlen, mit denen die Robustheit gegenüber Rauschsignalen diskreter Klassen erhöht wird, beispielsweise wenn eine diskrete Klassifizierung zwischen LKW und PKW schwankt. Die Bewegungsinformationen der achten Schicht umfassen die Trajektorienhistorien.
-
Das Bestimmen der Interaktionen umfasst ein Vorhersagen von möglichen zukünftigen Interaktionen, nach einem Aspekt der Erfindung basierend auf den acht Schichten der hybriden Szenen-Repräsentation. Interaktionen betreffen jegliche Wechselwirkungen zwischen statischen und statischen, statischen und dynamischen und dynamischen und dynamischen Umfeldmerkmalen. In einem beispielhaften Szenario mit Interaktionen befindet sich ein PKW an einer Einmündung. An der Einmündung befindet sich ein Fußgänger. Die Vorfahrt wird über eine Ampel geregelt. Eine Interaktion ist die Ampelschaltung. Zeigt die Ampelschaltung beispielsweise dem PKW die grüne Ampelphase an und dem Fußgänger die rote Ampelphase, dann sind die weiteren, gelernten oder in den Trajektorienhistorien vorhandenen, Interaktionen, dass der Fußgänger stehen bleibt und der PKW in die Einmündung einfährt.
-
Das erste Maschinenlernmodell wird beispielsweise mit Datenpaaren der Form (HSRV_1, GT_1), (HSRV_2, GT_2), ..., (HSRV_T, GT_T) trainiert. T gibt die Anzahl der Trainingsdatenpaare an. HSRV ist die jeweilige hybride Szenen-Repräsentation, auf deren Basis die Interaktionen und damit die Trajektorien vorhergesagt werden. GT ist die jeweilige Referenz-Vorhersage, auch ground truth genannt, das heißt die Soll-Vorhersage. Die optimalen Parameter für das erste Maschinenlernmodell umfassend Werte für Gewichte werden dann durch ein Optimierungsverfahren, beispielsweise Gradient Descent, bestimmt. Die Parameter sind optimal, wenn die Abweichung der Ist-Vorhersagen, ausgegeben von dem ersten Maschinenlernmodell, von den Soll-Vorhersagen minimiert ist.
-
Der Vorteil des erfindungsgemäßen Prozessierens der hybriden Szenen-Repräsentation besteht darin, dass sich Informationen in der zweiten Schicht häufiger ändern als in der ersten Schicht. Durch die Erzeugung der ersten und zweiten Einbettung, wobei die erste und zweite Funktion unterschiedliche Aktualisierungsraten zur Laufzeit haben, wird die Inferenzzeit des ersten Maschinenlernmodells reduziert. Damit wird die gemeinsame Einbettung, das heißt eine Art endgültige Szenen Einbettung, schneller erzeugt.
-
Die Einbettung ist beispielsweise eine Einbettung in einen Merkmalsraum, in dem jeder der Verkehrsteilnehmer über Koordinaten identifizierbar ist. Da die Einbettung hinsichtlich der räumlichen Auflösung die gleiche Dimensionalität aufweist wie die hybride Szenen-Repräsentation, können pro Verkehrsteilnehmer die zur Einordnung in die hybride Szenen-Repräsentation verwendeten Koordinaten genutzt werden, um die für den Verkehrsteilnehmer relevanten Informationen aus der gemeinsamen Einbettung zu erhalten. Die Verkehrsteilnehmer-spezifischen Interaktionen werden aus der Einbettung beispielsweise dadurch bestimmt, dass für jeden der Verkehrsteilnehmer Merkmale, auch features genannt, der gemeinsamen Einbettung an der den Koordinaten des jeweiligen Verkehrsteilnehmers entsprechenden Stelle extrahiert werden. Diese Merkmale umfassen alle für den jeweiligen Verkehrsteilnehmer relevanten Interaktionen. Durch Fusionieren dieser Merkmale mit den jeweiligen Verkehrsteilnehmer-spezifischen dynamischen Merkmale wird die Vorhersage von Trajektorien für den jeweiligen Verkehrsteilnehmer basierend auf allen Interaktionen der gemeinsamen Einbettung berechnet.
-
Dadurch, dass einzelne, nach einem Aspekt der Erfindung jede, der Trajektorienhistorien auf mehrere mögliche vorhergesagte Trajektorien dekodiert werden, wird eine Vielzahl von möglichen Zukunftsmodi berechnet, das heißt es entsteht ein one-to-many-mapping. Das erste Maschinenlernmodell lernt Wahrscheinlichkeitsdichtefunktionen der unterschiedlichen Modi. Damit wird das one-to-many-mapping explizit durch Lernen von mehreren Modi abgeschätzt im Gegensatz zu einer impliziten Abschätzung mittels generativen adversariellen Netzwerken. Das ist vorteilhaft für ein Trainingsverfahren des ersten Maschinenlernmodells, da sonst das Mode-Collapse-Problem das Training beeinträchtigen würde.
-
Die Befehle des erfindungsgemäßen Computerprogramms umfassen Maschinenbefehle, Quelltext oder Objektcode geschrieben in Assemblersprache, einer objektorientierten Programmiersprache, beispielsweise C++, oder in einer prozeduralen Programmiersprache, beispielsweise C. Das Computerprogramm ist nach einem Aspekt der Erfindung ein Hardware unabhängiges Anwendungsprogramm, das beispielsweise über einen Datenträger oder ein Datenträgersignal mittels Software Over The Air Technologie bereitgestellt wird.
-
Das Interaktions-Tensor-Pooling-Modul und das Interaktions-Vektor-Extraktions-Modul umfassen Software- und/oder Hardwarekomponenten. Nach einem Aspekt der Erfindung bezieht sich die Anordnung auf Recheneinheiten, die die einzelnen Kodierer, Dekodierer, Netzwerke und Module ausführen. Nach einem weiteren Aspekt der Erfindung umfassen die Dekodierer der Anordnung einen Aufmerksamkeitsmechanismus. Nach einem weiteren Aspekt der Erfindung führt die Anordnung das erfindungsgemäße Verfahren oder das erfindungsgemäße Computerprogramm aus.
-
Nach einem weiteren Aspekt der Erfindung wird eine erste Funktion des ersten Maschinenlernmodells auf die erste Schicht angewendet und eine erste Einbettung der starren statischen Umfeldmerkmale wird erzeugt. Eine zweite Funktion wird auf die zweite Schicht angewendet und eine zweite Einbettung der zustandswechselnden statischen Umfeldmerkmale wird erzeugt. Eine dritte Funktion wird auf die dritte Schicht angewendet wird und eine dritte Einbettung der dynamischen Umfeldmerkmale wird erzeugt. Die erste, zweite und dritte Einbettung werden zusammengeführt werden und als eine gemeinsame Einbettung von dem Maschinenlernmodell ausgegeben. Der Begriff Einbettung bezieht sich sowohl auf die Einbettung, die mit der Funktion erzeugt wird, die auf alle Schichten gemeinsam angewendet wird, als auch auf die gemeinsame Einbettung.
-
Nach einem weiteren Aspekt der Erfindung werden die starren statischen Umfeldmerkmale durch Schichten eines ersten künstlichen neuronalen Netzwerks prozessiert und in einen ersten Tensor eingebettet werden. Die zustandswechselnden statischen Umfeldmerkmale werden durch Schichten eines zweiten künstlichen neuronalen Netzwerks prozessiert und in einen zweiten Tensor eingebettet. Die dynamischen Umfeldmerkmale werden durch Schichten eines dritten künstlichen neuronalen Netzwerks prozessiert und in einen dritten Tensor eingebettet. Die gemeinsame Einbettung ist ein vierter Tensor erhalten aus einer räumlichen Konkatenation des ersten, zweiten und dritten Tensors.
-
Das Prozessieren der Schichten des ersten, zweiten und dritten künstlichen neuronalen Netzwerks ist eine Ausführungsform der ersten, zweiten und dritten Funktion. Aktivierungsfunktionen von Neuronenverbindungen sind beispielsweise nicht-lineare Funktionen. Damit stellen das Prozessieren der Schichten des ersten, zweiten und dritten künstlichen neuronalen Netzwerks nicht-lineare Funktionen dar.
-
Tensoren umfassen beispielsweise Skalare, Vektoren, Kovektoren und Matrizen. Nach einem Aspekt der Erfindung unterscheiden sich der erste, zweite und dritte Tensor in einer semantischen Tiefe. Der vierte Tensor stellt einen Multi-Agenten-Szenen-Tensor dar, wobei die Agenten den Verkehrsteilnehmern entsprechen und die Fahrsysteme umfassen. Der Multi-Agenten-Szenen-Tensor wird also basierend auf der hybriden Szenen-Repräsentation mit dem ersten Maschinenlernmodell berechnet und modelliert die gesamten Interaktionen eines Szenarios. In diesem Zusammenhang wir das erste Maschinenlernmodell auch Interaktionsnetzwerk genannt. Da der Multi-Agenten-Szenen-Tensor hinsichtlich der räumlichen Auflösung die gleiche Dimensionalität aufweist wie die hybride Szenen-Repräsentation, können pro Verkehrsteilnehmer die zur Einordnung der jeweiligen Tensoren in die hybride Szenen-Repräsentation verwendeten Koordinaten genutzt werden, um die für die Verkehrsteilnehmer relevanten Informationen aus der gemeinsamen Einbettung zu erhalten. Hierzu werden die Merkmale oder features des Multi-Agenten-Szenen-Tensors an eben der diesen Koordinaten entsprechenden Stelle genutzt und bilden so pro Verkehrsteilnehmer eine Multi-Agenten-Szenen-Einbettung. Da für jeden Verkehrsteilnehmer alle für den jeweiligen Verkehrsteilnehmer relevanten Interaktionen mittels des Multi-Agenten-Szenen-Tensors betrachtet werden, wird die Multi-Agenten-Szenen-Einbettung auch joint multi agent scene embedding genannt, abgekürzt JoMASE.
-
Erfindungsgemäß wird der Multi-Agenten-Szenen-Tensor genutzt, um pro Verkehrsteilnehmer einer Szene eine Multi-Agenten-Szenen-Einbettung zu generieren. Hierbei werden pro Verkehrsteilnehmer die Merkmale des Multi-Agenten-Szenen-Tensors an der den Koordinaten des Verkehrsteilnehmers entsprechenden Stelle extrahiert und mit der dritten Einbettung des Verkehrsteilnehmers fusioniert. Nach einem Aspekt der Erfindung kann die Fusion früher stattfinden. Dieses Extrahieren wird auch Interaktions-Vektor-Extraktion genannt. Jeder Verkehrsteilnehmer, insbesondere jedes Fahrsystem, entspricht einem Vektor in dem Multi-Agenten-Szenen-Tensor. Damit werden die Verkehrsteilnehmer-, insbesondere die Fahrsystem-spezifischen Einbettungen erhalten.
-
Nach einem Aspekt der Erfindung werden die kodierten dynamischen Umfeldmerkmale aus der Vogelperspektive in einem räumlichen Tensor platziert, der mit 0 initialisiert ist und die gleiche Form, beispielsweise Breite und Höhe, hat wie das Bild der kodierten statischen Umfeldmerkmale. Dabei werden die kodierten dynamischen Umfeldmerkmale umfassend die Trajektorienhistorien in den räumlichen Tensor in Bezug auf ihre Positionen im letzten Zeitschritt ihrer vergangenen Trajektorien platziert. Dieser Tensor wird dann mit dem Bild der kodierten statischen Umfeldmerkmale konkateniert und die hybride Szenen-Repräsentation wird als ein kombinierter Tensor erhalten. Diese Informationskombination ist ein Tensor-Pooling-Verfahren und wird Interaktions-Tensor-Pooling genannt. Dieser kombinierte Tensor wird von dem ersten Maschinenlernmodell prozessiert, das die Interaktionen zwischen den Verkehrsteilnehmern und zwischen den Verkehrsteilnehmern und den statischen Umfeldmerkmalen erfindungsgemäß unter Beibehaltung der Lokalität bestimmt und den Multi-Agenten-Szenen-Tensor ausgibt.
-
Nach einem weiteren Aspekt der Erfindung umfasst das erste Maschinenlernmodell Sprungverbindungen, durch die Schichten beim Prozessieren des Maschinenlernmodells übersprungen werden, beispielsweise zwei- oder dreifacher Schichtensprung. Die Sprungverbindungen werden auch skip-connections genannt. Die Sprungverbindungen machen vorteilhafterweise high-level features der Interaktion zugänglich. Nach einem Aspekt der Erfindung umfassen die Sprungverbindungen residuale Verbindungen, die eine Restfunktion in Bezug auf die Schichteingänge lernt, wie beispielsweise in residualen neuronalen Netzwerken verwendet. Nach einem weiteren Aspekt der Erfindung umfassen die Sprungverbindungen verkettete Sprungverbindung. Eine verkettete Sprungverbindung versucht, Merkmale wiederzuverwenden, indem sie zu neuen Schichten verkettet werden, so dass mehr Informationen aus vorherigen Schichten des Netzwerks erhalten bleiben. Dies steht im Gegensatz zu beispielsweise den residualen Verbindungen, bei denen stattdessen eine elementweise Summierung verwendet wird, um Informationen aus früheren Schichten zu übernehmen.
-
Nach einem weiteren Aspekt der Erfindung wird der vierte Tensor durch Schichten eines vierten künstlichen neuronalen Netzwerks prozessiert. Das vierte künstliche neuronale Netzwerk gibt ein Ausgabevolumen aus, dessen Größe gleich der hybriden Szenen-Repräsentation ist. In dem Ausgabevolumen sind die Verkehrsteilnehmer basierend auf ihrer realen räumlichen Anordnung positioniert. Durch das vierte künstliche neuronale Netzwerk werden die in dem vierten Tensor, beispielsweise in dem Multi-Agenten-Szenen-Tensor, enthaltenen Informationen fusioniert.
-
Nach einem weiteren Aspekt der Erfindung werden die Einbettungen mit Faltungsnetzwerken erzeugt. Nach einem weiteren Aspekt der Erfindung ist das erste Maschinenlernmodell ein Faltungsnetzwerk. Nach einem weiteren Aspekt der Erfindung sind das erste, zweite, dritte und vierte künstliche neuronale Netzwerk separate Faltungsnetzwerke oder einzelne Funktionsblöcke in dem als Faltungsnetzwerk realisiertem ersten Maschinenlernmodell. Faltungsnetzwerke, auch convolutional neural networks genannt, abgekürzt CNN, sind besonders vorteilhaft zum Verarbeiten von großen Datenmengen und von als Bilder darstellbaren Daten.
-
Nach einem weiteren Aspekt der Erfindung werden für jeden der Verkehrsteilnehmer die Verkehrsteilnehmer-spezifischen Einbettungen von vergangen Zeitschritten der Trajektorienhistorien der Verkehrsteilnehmer in einzelnen Zeitschritten des Dekodierens unterschiedlich gewichtet. Damit wird ein Aufmerksamkeitsmechanismus angewendet.
-
Ein Aspekt der Erfindung sieht ein Aufmerksamkeitsmodul oder attention layer vor, in dem Ausgaben des Enkoders akkumuliert werden. Das Aufmerksamkeitsmodul führt einen Aufmerksamkeitsalgorithmus aus, durch den während der Dekodierung der Einfluss jedes vergangenen Zeitschrittes der Trajektorienhistorien auf die aktuellen oder zukünftigen Trajektorien bewertet wird und dem Dekoder die relevantesten der vergangenen Zeitschritte der Trajektorienhistorien bereitgestellt werden.
-
Ein weiterer Aspekt der Erfindung sieht eine Transformer-Architektur mit self-attention vor, die auf sequentiellen Enkoder- und Dekoder-Blöcken mit einer ähnlichen Architektur basiert. Jeder der Enkoder-Blöcke umfasst beispielsweise eine self-attention Schicht und eine feed forward Schicht. Jeder der Dekoder-Blöcke umfasst beispielsweise eine self-attention Schicht, eine feed forward Schicht und eine dazwischen angeordnete Enkoder-Dekoder-self-attention Schicht. Der self-attention Algorithmus ist beispielsweise in D. Gizlyk, Neuronale Netze leicht gemacht (Teil 8): Attention Mechanismen, 8. Februar 2021, https://www.mql5.com/de/articles/8765#para2, beschrieben. Transformer Architekturen basieren beispielsweise auf Bidirectional Encoder Representations from Transformers, abgekürzt BERT, oder auf Generative Pre-trained Transformer, abgekürzt GPT.
-
Die Aufmerksamkeitsmechanismen verbessern die Vorhersagen, insbesondere langfristige Vorhersagen, und löst das Problem des information morphing. Ein Vorteil des Dekodierens mit Aufmerksamkeitsmechanismus ist eine bessere Langzeitvorhersage. Ein weiterer Vorteil des Dekodierens mit Aufmerksamkeitsmechanismus ist eine bessere Erklärbarkeit, da es ermöglicht wird, zu jedem Zeitschritt der Dekodier-Zeit herauszufinden, welche Zeitschritte in der Vergangenheit für die Vorhersage einflussreicher waren.
-
Nach einem weiteren Aspekt der Erfindung werden für jeden der Verkehrsteilnehmer die Verkehrsteilnehmer-spezifischen Einbettungen in einen ersten Datenstrom, der verschiedene plausible Trajektorien vorhersagt, und in einen zweiten Datenstrom, der Wahrscheinlichkeiten der vorhergesagten Trajektorien gegeneinander bewertet und einen entsprechenden Wert ausgibt, dekodiert. Die Wahrscheinlichkeiten basieren auf den Trajektorienhistorien und den berechneten Interaktionen.
-
Nach einem weiteren Aspekt der Erfindung werden die starren statischen Umfeldmerkmale umfassend Karteninformationen und die zustandswechselnden statischen Umfeldmerkmale umfassend Verkehrsweiser und/oder Ankertrajektorien aus realen Daten von Umfelderkennungssensoren und/oder von Karten und/oder aus virtuellen Daten mit einem zweiten Maschinenlernmodell umfassend Schichten eines Faltungsnetzwerks kodiert. Damit wird eine umfangreiche Datenbasis bereitgestellt, die ein Training der Maschinenlernmodelle verbessert. Das zweite Maschinenlernmodell kodiert die genannten statischen Umfeldmerkmale beispielsweise in eine semantische Merkmalskarte, auch feature map, genannt, in der die einzelnen Merkmale entsprechend dem Schichtaufbau der hybriden Szenen-Repräsentation, gestapelt angeordnet sind. Das zweite Maschinenlernmodell ist damit ein Szenen-Informations-Kodierer, insbesondere ein CNN-Kodierer. Hierfür eignen sich Faltungsnetzwerke besonders gut.
-
Daten von Umfelderkennungssensoren umfassen Roh- und/oder beispielsweise mit Filtern, Verstärkern, Serializern, Komprimierungs- und/oder Konvertierungseinheiten vorverarbeitete Daten von an dem Fahrsystem angeordneten Kameras, Radarsensoren, Lidarsensoren, Ultraschallsensoren, Akustiksensoren, Car2X-Einheiten und/oder Echtzeit-/Offlinekarten. Die virtuellen Daten werden beispielsweise mittels Software-, Hardware-, Model- und/oder Vehicle-in-the-Loop Verfahren erzeugt. Nach einem weiteren Aspekt der Erfindung werden die realen Daten virtuell augmentiert und/oder variiert.
-
Nach einem weiteren Aspekt der Erfindung werden die dynamischen Umfeldmerkmale umfassend die Trajektorienhistorien der Verkehrsteilnehmer, basierend auf realen Fahrdaten und/oder auf virtuellen Daten, mit einem dritten Maschinenlernmodell umfassend Schichten eines rekurrenten Netzwerks kodiert. Rekurrente Netzwerke, auch recurrent neural networks genannt, abgekürzt RNN, erkennen die zeitlich kodierten Daten in den Trajektorienhistorien. Nach einem Aspekt der Erfindung ist das rekurrente Netzwerk als ein long short-term memory Netzwerk, abgekürzt LSTM, oder als ein gated recurrent unit Netzwerk umgesetzt. Das dritte Maschinenlernmodell ist damit ein RNN-Kodierer. Nach einem Aspekt der Erfindung wird die Kodierung des dritten Maschinenlernmodells mit der semantischen Merkmalskarte des zweiten Maschinenlernmodells überlagert.
-
Nach einem weiteren Aspekt der Erfindung werden die Verkehrsteilnehmer-spezifischen Einbettungen von einem vierten Maschinenlernmodell umfassend Schichten eines rekurrenten Netzwerks dekodiert. Das vierte Maschinenlernmodell ist damit ein RNN-Dekodierer. Nach einem Aspekt der Erfindung wird der erste Datenstrom, der verschiedene plausible Trajektorien vorhersagt, von einem ersten RNN-Dekodierer dekodiert. Der erste RNN-Dekodierer wird Wahrscheinlichkeits-Dekodierer genannt. Der zweite Datenstrom, der die Wahrscheinlichkeiten der vorhergesagten Trajektorien gegeneinander bewertet und einen entsprechenden Wert ausgibt, wird von einem zweiten RNN-Dekodierer dekodiert. Der zweite RNN-Dekodierer wird Trajektorien-Dekodierer genannt.
-
Nach einem weiteren Aspekt der Erfindung bestimmt ein Steuergerät eines der Fahrsysteme für automatisierte Fahrfunktionen Regel- und/oder Steuersignale basierend auf den vorhergesagten Trajektorien und stellt diese Signale Aktuatoren für Längs- und/oder Querführung des Fahrsystems bereit.
-
Die Erfindung wird in den folgenden Ausführungsbeispielen verdeutlicht. Es zeigen:
- 1 eine Darstellung einer erfindungsgemäßen hybriden Szenen-Repräsentation,
- 2 eine Darstellung des erfindungsgemäßen Verfahrens,
- 3 eine Darstellung der erfindungsgemäßen Netzwerkarchitektur,
- 4 eine Darstellung von erfindungsgemäßen Verkehrsteilnehmer-spezifischen Einbettungen und
- 5 eine Flussdiagramm des erfindungsgemäßen Verfahrens.
-
In den Figuren bezeichnen gleiche Bezugszeichen gleiche oder funktionsähnliche Bezugsteile. Übersichtshalber werden in den einzelnen Figuren nur die jeweils relevanten Bezugsteile hervorgehoben.
-
1 zeigt beispielhaft eine erfindungsgemäße hybride Szenen-Repräsentation HSRV. In der dargestellten Umfeldszene U befindet sich ein PKW als Beispiel eines Verkehrsteilnehmers R an einer Einmündung. Der PKW ist beispielsweise das Ego-Fahrsystem. An der Einmündung befindet sich ein Fußgänger W. Die Vorfahrt wird über eine Ampel L geregelt. Die Ampelschaltung L zeigt dem PKW R die grüne Ampelphase an und dem Fußgänger W die rote. Über der Darstellung dieser Situation aus der Vogelperspektive werden die verschiedenen Schichten, die für die Vorhersage der Trajektorien der Verkehrsteilnehmer wesentlich sind, abgebildet.
-
In Schicht A wird die regionale Information dargestellt. Schicht B bedient sich der Karteninformation, Schicht C der Verkehrsregelinformation. Die zustandsbehafteten Verkehrsweiser und die Ankertrajektorien sind in Schicht D und Schicht E enthalten. In Schicht F werden semantische Merkmale der einzelnen Verkehrsteilnehmer beschrieben. Schicht G und Schicht H enthalten latente Information, wobei diese Information in Schicht G auf Eigenschaften, die den Verkehrsteilnehmer beschrieben, und in Schicht H auf dem dynamischen Bewegungsverhalten basiert.
-
Die Schichten A bis E sind statische Schichten und beschreiben statische Umfeldmerkmale stat der Umfeldszene U. Dabei beschreiben die Schichten A bis C starre statische Umfeldmerkmale stat_1 und die Schichten D und E zustandswechselnde statische Umfeldmerkmale stat_2.
-
Die Schichten F bis H sind dynamische Schichten und beschreiben dynamische Umfeldmerkmale dyn der Umfeldszene U.
-
2 zeigt eine Darstellung des erfindungsgemäßen Verfahrens. Die statischen Umfeldmerkmale stat und die dynamischen Umfeldmerkmale dyn wurden in die hybride Szenen-Repräsentation HSRV zusammengeführt. Die erfindungsgemäßen Maschinenlernmodelle erhalten diese hybride Szenen-Repräsentation HSRV als Eingabe und berechnen für jeden Verkehrsteilnehmer R eine spezifische Einbettung JoMASE. Aus den Verkehrsteilnehmer-spezifischen Einbettungen JoMASE werden zukünftige Trajektorien mit zugehörigen Wahrscheinlichkeiten dekodiert.
-
3 zeigt eine Anordnung einer erfindungsgemäßen Netzwerkarchitektur.
-
4 zeigt eine Darstellung der erfindungsgemäßen Verkehrsteilnehmer-spezifischen Einbettungen JoMASE.
-
Ein drittes Maschinenlernmodell RNN-Kodierer kodiert die Trajektorienhistorien TH von Verkehrsteilnehmern basierend auf realen Fahrdaten und/oder auf virtuellen Daten. Ein zweites Maschinenlernmodell CNN-Kodierer kodiert Szenen-Informationen umfassend die starren statischen Umfeldmerkmale stat_1 und die zustandswechselnden statischen Umfeldmerkmale stat_2. Ein Interaktions-Tensor-Pooling-Modul ITPM führt die Kodierungen des RNN- und CNN-Kodierers zusammen und erzeugt daraus die hybride Szenen-Repräsentation HSRV wie in 1 gezeigt.
-
Ein erstes Maschinenlernmodell IntCNN in Form eines Faltungsnetzwerks CNN bestimmt basierend auf der hybriden Szenen-Repräsentation HSRV die Interaktionen zwischen den statischen stat, dynamischen dyn und zwischen den statischen stat und dynamischen Umfeldmerkmalen dyn und fusioniert diese Interaktionen. Dabei erzeugt das erste Maschinenlernmodell IntCNN eine erste Einbettung der starren statischen Umfeldmerkmale stat_1 in Form einer ersten Tensor-Einbettung, eine zweite Einbettung der zustandswechselnden statischen Umfeldmerkmale stat_2 in Form einer zweiten Tensor-Einbettung und eine dritte Einbettung der dynamischen Umfeldmerkmale dyn in Form einer dritten Tensor-Einbettung. Die erste, zweite und dritte Einbettung werden in eine gemeinsame Einbettung M in Form eines Multi-Agenten-Szenen-Tensors zusammengeführt.
-
Ein Interaktions-Vektor-Extraktions-Modul IVEM extrahiert pro Verkehrsteilnehmer R die Merkmale des Multi-Agenten-Szenen-Tensors M an der den Koordinaten des Verkehrsteilnehmers R entsprechenden Stelle und fusioniert diese mit der dritten Tensor-Einbettung des Verkehrsteilnehmers R. Pro Verkehrsteilnehmer R und pro Szene wird die Multi-Agenten-Szenen-Einbettung JoMASE erzeugt.
-
Ein viertes Maschinenlernmodell RNN-Trajektorien-Dekodierer dekodiert in einem ersten Strang die Multi-Agenten-Szenen-Einbettung JoMASE und gibt pro Verkehrsteilnehmer R vorhergesagte Trajektorien aus. Ein RNN- Wahrscheinlichkeits-Dekodierer des vierten Maschinenlernmodells dekodiert in einem zweiten Strang die Multi-Agenten-Szenen-Einbettung JoMASE und bewertet pro Verkehrsteilnehmer R Wahrscheinlichkeiten der vorhergesagten Trajektorien gegeneinander und gibt jeweils einen entsprechenden Wert aus. Die Dekodierer des vierten Maschinenlernmodells umfassen beispielsweise rekurrente Netzwerke RNN.
-
5 zeigt das erfindungsgemäße Verfahren als Flussdiagramm.
-
In einem Verfahrensschritt V1 werden die bereitgestellten kodierten statischen stat und dynamischen Umfeldmerkmalen dyn von dem Interaktions-Tensor-Pooling-Modul ITPM räumlich zusammengeführt.
-
In einem Verfahrensschritt V2 wird die mittels des Interaktions-Tensor-Pooling-Modul ITPM die hybriden Szenen-Repräsentation HSRV erhalten.
-
In einem Verfahrensschritt V3 wird die hybride Szenen-Repräsentation HSRV von dem ersten Maschinenlernmodell IntCNN prozessiert. Das erste Maschinenlernmodell IntCNN bestimmt dabei die erste Einbettung der starren statischen Umfeldmerkmale stat_1, die zweite Einbettung der zustandswechselnden statischen Umfeldmerkmale stat_2 und die dritte Einbettung der dynamischen Umfeldmerkmale dyn. Die erste, zweite und dritte Einbettung werden zusammengeführt und als eine gemeinsame Einbettung M von dem ersten Maschinenlernmodell IntCNN ausgegeben.
-
In einem Verfahrensschritt V4 werden aus der gemeinsamen Einbettung M die Verkehrsteilnehmer R spezifischen Interaktionen bestimmt und mit den Verkehrsteilnehmer R spezifischen dynamischen Umfeldmerkmalen dyn für jeden der Verkehrsteilnehmer R fusioniert. Aus der Fusion wird die Verkehrsteilnehmer R spezifische Einbettung JoMASE für jeden der Verkehrsteilnehmer R erzeugt.
-
In einem Verfahrensschritt V5 werden die Verkehrsteilnehmer R spezifischen Einbettungen JoMASE dekodiert und die vorhergesagten Trajektorien für jeden der Verkehrsteilnehmer R erhalten, wobei einzelne der Trajektorienhistorien TH jeweils auf mehrere mögliche vorhergesagte Trajektorien abgebildet werden.
-
Bezugszeichenliste
-
- R
- Verkehrsteilnehmer
- L
- Ampel
- W
- Fußgänger
- U
- Umfeldszene
- TH
- Trajektorienhistorie
- dyn
- dynamische Umfeldmerkmale
- stat
- statische Umfeldmerkmale
- stat_1
- starre statische Umfeldmerkmale
- stat_2
- zustandswechselnde statische Umfeldmerkmale
- Map
- Karteninformation
- HSRV
- hybriden Szenen-Repräsentation
- A-H
- Schichten der HSRV
- IntCNN
- erstes Maschinenlernmodell
- CNN
- Faltungsnetzwerk
- M
- gemeinsame Einbettung
- JoMASE
- Verkehrsteilnehmer-spezifische Einbettung
- CNN-Kodierer
- zweites Maschinenlernmodell
- RNN-Kodierer
- drittes Maschinenlernmodell
- RNN
- rekurrentes Netzwerk RNN-Trajektorien-Dekodierer viertes Maschinenlernmodell
- RNN
- Wahrscheinlichkeits-Dekodierer viertes Maschinenlernmodell
- ITPM
- Interaktions-Tensor-Pooling-Modul
- IVEM
- Interaktions-Vektor-Extraktions-Modul
- V1-V5
- Verfahrensschritte
-
ZITATE ENTHALTEN IN DER BESCHREIBUNG
-
Diese Liste der vom Anmelder aufgeführten Dokumente wurde automatisiert erzeugt und ist ausschließlich zur besseren Information des Lesers aufgenommen. Die Liste ist nicht Bestandteil der deutschen Patent- bzw. Gebrauchsmusteranmeldung. Das DPMA übernimmt keinerlei Haftung für etwaige Fehler oder Auslassungen.
-
Zitierte Patentliteratur
-