-
Die Erfindung betrifft ein Verfahren zur Prädiktion von am Straßenverkehr teilnehmenden Agenten in einer Umgebung eines automatisiert fahrenden Fahrzeugs.
-
Eine Prädiktion von am Straßenverkehr teilnehmenden Agenten, beispielsweise Fahrzeugen, Fußgängern und anderen Verkehrsteilnehmern, bildet einen essenziellen Bestandteil zum automatisierten, insbesondere hochautomatisierten oder autonomen Fahrbetrieb eines Fahrzeugs. Eine zuverlässige und sichere Bewegungsplanung der Agenten ist nur dann möglich, wenn auch die Prädiktion von hoher Qualität ist.
-
Aus dem Stand der Technik sind rasterkartenbasierte Belegungsprädiktionsansätze zur Bewegungsvorhersage für automatisiert betriebene Fahrzeuge bekannt. Derartige lernbasierte Methoden zur Belegungsprädiktion (englisch: Occupancy Prediction) beschreiben „Mahjourian, R. et al.: Occupancy Flow Fields for Motion Forecasting in Autonomous Driving; arXiv:2203.03875“ und „Kamenev, A. et al: PredictionNet: Real-Time Joint Probabilistic Traffic Prediction for Planning, Control, and Simulation; arXiv:2109.11094“.
-
Weitere Verfahren zur Vorhersage von zukünftigen Zuständen von in einer Umgebung eines automatisiert fahrenden Fahrzeugs sind aus „Liu, H. et al.: STrajNet - Multi-modal Hierarchical Transformer for Occupancy Flow Field Prediction in Autonomous Driving; arXiv:2208.00394“ und „Hunag, X. et al.: VectorFlow - Combining Images and Vectors for Traffic Occupancy and Flow Prediction; arXiv:2208.04530“ bekannt.
-
Aus der
US 2021 004 611 A1 ist ein Verfahren zum automatisierten Betrieb eines Fahrzeugs mit folgenden Schritten bekannt:
- - Empfangen von Sensordaten einer Umgebung mittels eines Sensors des Fahrzeugs;
- - Empfangen von Aktionsdaten, die mit einer Kandidatenaktion assoziiert sind, die das autonome Fahrzeug in der Umgebung ausführen soll, wobei die Kandidatenaktion eine Aktion zum Bleiben auf der Fahrspur, eine Aktion zum Abbiegen oder eine Aktion zum Spurwechsel umfasst, und wobei die Aktionsdaten indikativ für die Kandidatenaktion sind;
- - Generieren eines Mehrkanalbilds auf Grundlage der Sensordaten und der Aktionsdaten, wobei das Mehrkanalbild eine Draufsicht der Umgebung und einen Begrenzungsrahmen darstellt, der einem Fahrzeug in der Umgebung in der Nähe des automatisiert betriebenen Fahrzeugs, kinematischen Informationen oder semantischen Informationen, die dem Fahrzeug zugeordnet sind, und der Kandidatenaktion, die dem automatisiert betriebenen Fahrzeug zugeordnet ist, zugeordnet ist;
- - Eingeben des Mehrkanalbilds in ein maschinell erlerntes Modell, das darauf trainiert ist, eine Heatmap zu erzeugen, die eine Vorhersagewahrscheinlichkeit eines möglichen Standorts des Fahrzeugs umfasst, wobei die Vorhersagewahrscheinlichkeit als Belegungsraster dargestellt wird, das einer zukünftigen Zeit zugeordnet ist, und wobei eine Zelle des Belegungsrasters eine Wahrscheinlichkeit angibt, dass sich das Fahrzeug zu einem zukünftigen Zeitpunkt in einem Bereich befindet, der der Zelle zugeordnet ist;
- - auf der Heatmap basierendes Bestimmen von Kosten, die mit der Kandidatenaktion verbunden sind; und
- - Bestimmen einer Trajektorie für das automatisiert betriebene Fahrzeug, um in der Umgebung zu fahren auf Grundlage der mit der Kandidatenaktion verbundenen Kosten.
-
Der Erfindung liegt die Aufgabe zu Grunde, ein neuartiges Verfahren zur Prädiktion von am Straßenverkehr teilnehmenden Agenten in einer Umgebung eines automatisiert fahrenden Fahrzeugs anzugeben.
-
Die Aufgabe wird erfindungsgemäß gelöst durch ein Verfahren, welches die im Anspruch 1 angegebenen Merkmale aufweist.
-
Mögliche Ausgestaltungen der Erfindung sind Gegenstand der abhängigen Ansprüche.
-
In dem Verfahren zur Prädiktion von am Straßenverkehr teilnehmenden Agenten in einer Umgebung eines automatisiert fahrenden Fahrzeugs ist erfindungsgemäß vorgesehen, dass
- - eine Verkehrsszene der Umgebung des Fahrzeugs in einer graphbasierten Repräsentation dargestellt wird, wobei
- - für jede Entität der Umgebung ein Knoten in einem Graphen der Repräsentation gebildet wird,
- - jedem Knoten ein diesen beschreibenden Typen und Knotenmerkmale zugeordnet werden, und
- - dem Graphen Kanten zugefügt werden, welche Beziehungen zwischen den Knoten beschreiben,
- - in der Repräsentation mittels eines heterogenen Graph-Neural-Networks und/oder mittels eines homogenen Graph-Neural-Networks Informationen zwischen den Knoten ausgetauscht werden und dabei für jeden Knoten ein latenter Merkmalsvektor gebildet wird, welcher Knotenmerkmale des Knotens selbst und von in Relation mit dem Knoten stehenden weiteren Knoten der Repräsentation umfasst,
- - eine Rasterkarte der Umgebung gebildet wird, wobei vergangene Bewegungen aller Agenten der Verkehrsszene und Informationen einer digitalen Karte unterschiedlichen Kanälen der Rasterkarte hinzugefügt werden,
- - weiteren Kanälen der Rasterkarte für jede Entität in dem zugehörigen Merkmalsvektor enthaltene Merkmale hinzugefügt werden, wobei eine Anzahl der weiteren Kanäle einer Größe der Merkmalsvektoren entspricht und die Merkmale nur an denjenigen Bildpunkten der Rasterkarte hinzugefügt werden, an welchen die zugehörige Entität in der Rasterkarte dargestellt ist, und
- - mittels eines trainierten Belegungs-Prädiktionsmodells in einer Belegungsprädiktion für jeden Bildpunkt der Rasterkarte eine Belegungswahrscheinlichkeit ermittelt wird, welche angibt, mit welcher Wahrscheinlichkeit dieser Bildpunkt zukünftig von einem Agenten belegt ist.
-
Lernbasierte Methoden zur Prädiktion von am Straßenverkehr teilnehmenden Agenten in einer Umgebung eines automatisiert fahrenden Fahrzeugs sind besonders genau. Dies bedeutet, dass auf diversen Benchmarks lernbasierte Methoden dominieren. Arten einer solchen Prädiktion sind die so genannte Trajektorienprädiktion und die Belegungsprädiktion (englisch Occupancy Prediction), wobei beide Arten typischerweise multimodal sein sollten. Das heißt, fährt ein Fahrzeug beispielsweise an eine Straßenkreuzung heran, so ist gewünscht, dass alle möglichen Modalitäten, beispielsweise ein Abbiegen und ein Überqueren der Straßenkreuzung, vom Prädiktionsmodell prädiziert werden.
-
Sowohl die Trajektorienprädiktion als auch die Belegungsprädiktion besitzen unterschiedliche Eigenschaften und Vorteile. Beispielsweise ist die Belegungsprädiktion in der Lage, eine Wahrscheinlichkeitsverteilung mit Unsicherheiten besser abzubilden. Bei der Belegungsprädiktion ist die Ausgabe keine Trajektorie, sondern eine Rasterkarte aus der Vogelperspektive. Diese Rasterkarte, das heißt ein Bild, das beispielsweise eine Auflösung von 500 Pixel x 500 Pixel aufweist, bildet einen Umgebungsbereich des automatisiert betriebenen Fahrzeugs ab. Ein Pixel bzw. Bildpunkt der Rasterkarte wird im Folgenden auch als Zelle bezeichnet.
-
Allgemein zeichnen sich die genannten Prädiktionsmodelle dadurch aus, dass
- - Eingabeinformationen des Prädiktionsmodells eine Repräsentation der Umgebung des Fahrzeugs umfassen, typischerweise bestehend aus einer vergangenen Bewegung umliegender Agenten und Informationen einer hochaufgelösten Karte, beispielsweise Straßengeometrien, Verkehrsampeln etc.;
- - eine Repräsentation dieser Eingabeinformationen vektorisiert ist und/oder bereits in Form einer Rasterkarte vorliegt, wobei in einer solchen Rasterkarte dann ein aktueller Zustand einer Verkehrsszene in einer Draufsicht bzw. aus einer Vogelperspektive dargestellt ist;
- - ein lernbasiertes Prädiktionsmodell, umfassend Encoder und Decoder, die Eingabeinformationen verarbeitet, wobei eine Architektur des Prädiktionsmodells abhängig von der Repräsentation der Eingabeinformationen ist und für Rasterkarten beispielsweise Convolutional Neural Networks oder so genannte Vision Transformer verwendet werden; und
- - das Prädiktionsmodell eine Rasterkarte prädiziert, wobei jede Zelle eine Wahrscheinlichkeit besitzt, die aussagt, wie wahrscheinlich die Zelle in der Zukunft, beispielsweise in 5 s, belegt ist, wobei ein Prädiktionshorizont abhängig von der Aufgabe gewählt ist.
-
Insbesondere aus der Trajektorienprädiktion wird allerdings deutlich, dass es sich nachteilig auf die Prädiktionsgüte auswirkt, wenn die Eingaberepräsentation eine Rasterkarte der Umgebung ist. Dies liegt daran, dass
- - eine Rasterisierung (Erstellung einer Rasterkarte) immer mit einem Informationsverlust verbunden ist,
- - die Rasterkarte keinerlei Möglichkeiten bietet, komplexe Beziehungen zwischen Entitäten explizit zu codieren, wie beispielsweise: „Ein Verkehrszeichen kontrolliert eine Spur“,
- - das folgende lernbasierte Modell, beispielsweise ein Convolutional Neural Network nicht in der Lage ist, komplexe Beziehungen zwischen Entitäten der Verkehrsszene, wie beispielsweise Fahrzeuge, Spuren etc., zu erlernen, da es sich hauptsächlich auf geometrische Merkmale fokussiert.
-
Mittels des vorliegenden Verfahrens wird erreicht, dass eine vektorbasierte bzw. graphbasierte Eingaberepräsentation, das heißt eine vektorisierte Encodierung einer Verkehrsszene, mit einer rasterkartenbasierten Eingaberepräsentation verknüpft wird. Dabei wird die graphbasierte Repräsentation nicht durch Rasterisierung beeinträchtigt. Außerdem können über Kanten im Graphen explizit komplexe Beziehungen zwischen den Entitäten modelliert werden. Hierdurch kann eine Belegungsprädiktion durchgeführt werden und gleichzeitig von den Effekten einer vektorbasierten bzw. graphbasierten Repräsentation, welche keine Rasterisierung umfasst und die Fähigkeit der Modellierung und Ableitung komplexer Beziehungen besitzt, profitiert werden.
-
Somit ermöglicht das vorliegende Verfahren, dass beliebige Entitäten der Verkehrsszene über den Graphen inkludiert werden können, wobei eine Modellierung beliebig komplexer Relationen zwischen Entitäten der Verkehrsszenen über den Graphen möglich ist. Dabei erfolgt keine Rasterisierung, da das Graph-Neural-Network auf einer vektorisierten Repräsentation arbeitet, so dass Informationsverluste vermieden werden. Weiterhin ist eine Verwendung von beliebigen rasterkartenbasierten Belegungsprädiktionsmodellen möglich, so dass auch von zukünftigen Fortschritten in der Belegungsprädiktion profitiert werden kann.
-
Ausführungsbeispiele der Erfindung werden im Folgenden anhand von Zeichnungen näher erläutert: Dabei zeigen:
- 1 schematisch einen Ablauf eines Verfahrens zur Prädiktion von am Straßenverkehr teilnehmenden Agenten in einer Umgebung eines automatisiert fahrenden Fahrzeugs und
- 2 schematisch eine prädizierte Rasterkarte mit Belegungswahrscheinlichkeiten für zwei Agenten zu einem Prädiktionszeitpunkt.
-
Einander entsprechende Teile sind in allen Figuren mit den gleichen Bezugszeichen versehen.
-
In 1 ist ein Ablauf eines möglichen Ausführungsbeispiels eines Verfahrens zur Prädiktion von am Straßenverkehr teilnehmenden Agenten A1, A2 in einer Umgebung eines automatisiert fahrenden Fahrzeugs dargestellt. 2 zeigt eine prädizierte Rasterkarte RK mit Belegungswahrscheinlichkeiten P für zwei Agenten A1, A2 zu einem Prädiktionszeitpunkt, wobei die Agenten A1, A2 jeweils als Fahrzeuge ausgebildet sind.
-
Es sind allgemein lernbasierte Methoden zur Prädiktion bekannt, welche eine Trajektorienprädiktion umfassen. Weiterhin sind allgemein lernbasierte Methoden zur Prädiktion bekannt, welche eine Belegungsprädiktion (englisch: Occupancy Prediction) umfassen. Beide genannten Arten von Methoden zur Prädiktion sollten typischerweise multimodal sein.
-
Fährt ein Fahrzeug beispielsweise an eine Straßenkreuzung heran, so ist gewünscht, dass alle möglichen Modalitäten, beispielsweise ein Abbiegen und ein Überqueren der Straßenkreuzung, vom Prädiktionsmodell prädiziert werden.
-
Sowohl die Trajektorienprädiktion als auch die Belegungsprädiktion besitzen unterschiedliche Eigenschaften und Vorteile. Beispielsweise ist die Belegungsprädiktion in der Lage, eine Wahrscheinlichkeitsverteilung mit Unsicherheiten besser abzubilden. Bei der Belegungsprädiktion ist die Ausgabe keine Trajektorie, sondern eine Rasterkarte RK aus der Vogelperspektive.
-
Während der Belegungsprädiktion wird jeder Zelle eine Belegungswahrscheinlichkeit P zugewiesen. Diese beschreibt, wie wahrscheinlich diese Zelle in der Zukunft, beispielsweise in 5 s, von einem Agenten A1, A2 belegt ist. Das heißt, die Ausgabe bei der Belegungsprädiktion ist ein Layer, der aussagt, wie wahrscheinlich eine entsprechende Zelle der Rasterkarte RK zu einem Zeitpunkt, beispielsweise in 5 s, belegt ist. Dabei ist das System nicht auf zwei Agenten A1, A2 limitiert, sondern kann für eine beliebige Anzahl von Agenten A1, A2 im Umfeld des automatisiert betriebenen Fahrzeugs verwendet werden.
-
Zur Prädiktion von am Straßenverkehr teilnehmenden Agenten A1, A2 in einer Umgebung eines automatisiert fahrenden Fahrzeugs wird in dargestellten Ausführungsbeispiel des Verfahrens in einem ersten Verfahrensschritt S1 initial die Verkehrsszene in eine graphbasierte Repräsentation überführt. Jede Entität der Umgebung, das heißt Agenten A1, A2 und andere Objekte, wie beispielsweise Fahrspuren, Verkehrsschilder, Zebrastreifen, Fahrbahnmarkierungen etc., bilden hierbei einen Knoten im Graphen. Jedem Knoten wird ein Typ, wie beispielswese „Agent“, „Fahrspur“, „Verkehrsschild“, „Zebrastreifen“, „Fahrbahnmarkierung“ etc. zugeordnet.
-
Weiterhin werden Kanten zum Graphen hinzugefügt. Die Kanten beschreiben hierbei, wie die einzelnen Entitäten im Graphen miteinander in Beziehung stehen. Beispiele hierfür sind: „Agent A1 interagiert mit Agent A2“, „Agent A1, A2 befindet sich auf Fahrspur“, „Fahrspur folgt auf Fahrspur“, „Verkehrsschild bezieht sich auf Fahrspur“.
-
Ferner kann jeder Knoten Knotenmerkmale besitzen. Diese sind beispielsweise seine vektorisierte Geometrie, zum Beispiel beim Typ „Fahrspur“, seine vektorisierte vergangene Bewegung, zum Beispiel beim Typ „Agent“, oder auch semantische Attribute, zum Beispiel eine Klasse eines Agenten A1, A2, wie beispielsweise „Fußgänger“, „Personenkraftwagen“, „Bus“, „Lastkraftwagen“, „Fahrradfahrer“, „Motorradfahrer“ etc. Ein Relationstyp, wie zum Beispiel „interagiert“, „befindet sich auf” etc., kann hierbei als der Typ der Beziehung bzw. der entsprechenden Kante zwischen den Entitäten angesehen werden.
-
Die Knotenmerkmale und gegebenenfalls auch Kantenmerkmale der Kanten im Graphen werden nun in einem zweiten Verfahrensschritt S2 typspezifisch in einen latenten Merkmalsvektor überführt. Dies bedeutet, dass eine gelernte, typspezifische Transformation durchgeführt wird. Es resultiert ein latenter Merkmalsvektor pro Entität und gegebenenfalls pro Kante im Graphen.
-
In einem dritten Verfahrensschritt S3 werden nun in der graphbasierten Repräsentation Informationen zwischen den Knoten ausgetauscht. Dies erfolgt beispielsweise mittels eines heterogenen Graph-Neural-Networks, zum Beispiel gemäß „Monninger, T. et al.: SCENE - Reasoning about Traffic Scenes using Heterogeneous Graph Neural Networks, arXiv:2301.03512“, wobei während der Verarbeitung durch das Graph-Neural-Network die verschiedenen Knotentypen und Relationstypen weiterhin beachtet werden. Alternativ erfolgen die Verarbeitung und der Informationsaustausch mittels eines homogenen Graph-Neural-Networks, zum Beispiel gemäß „Gao, J. et al.: VectorNet - Encoding HD Maps and Agent Dynamics from Vectorized Representation, arXiv:2005.04259“, wobei hierbei ausgenutzt wird, dass durch die typspezifische Transformation implizit bereits im latenten Merkmalsvektor auch der Knotentyp, das heißt der Typ einer Entität, codiert ist. In diesem dritten Verfahrensschritt S3 wird mittels des entsprechenden Graph Neural Networks für jeden Knoten ein latenter Merkmalsvektor gebildet, welcher Knotenmerkmale des Knotens selbst und von in Relation mit dem Knoten stehenden weiteren Knoten der graphbasierten Repräsentation umfasst. Mögliche Größen dieses latenten Merkmalsvektors sind beispielsweise 64 oder 128.
-
In einem vierten Verfahrensschritt S4 wird eine Rasterkarte RK der Umgebung gebildet, wobei vergangene Bewegungen aller Agenten A1, A2 der Verkehrsszene und Informationen einer insbesondere hochaufgelösten digitalen Karte unterschiedlichen Kanälen der Rasterkarte RK hinzugefügt werden. Die Informationen der Karte umfassen beispielsweise Straßengeometrien, Verkehrsampeln etc.
-
In einem fünften Verfahrensschritt S5 werden weiteren Kanälen der Rasterkarte RK für jede Entität in dem zugehörigen Merkmalsvektor enthaltene Merkmale hinzugefügt, wobei eine Anzahl der weiteren Kanäle einer Größe der Merkmalsvektoren entspricht. Wird beispielsweise eine Merkmalsvektorgröße von 64 verwendet, so werden der Rasterkarte RK 64 weitere Kanäle hinzugefügt. Weiterhin werden die Merkmale nur an denjenigen Bildpunkten bzw. Zellen der Rasterkarte RK hinzugefügt, an welchen die zugehörige Entität in der Rasterkarte EK dargestellt ist. Befindet sich beispielsweise ein Fahrzeug am oberen rechten Rand der Rasterkarte RK, so werden die aus dem Graphen resultierenden latenten Merkmale dieses Fahrzeugs genau in die Bildpunkte übernommen, wo sich das Fahrzeug am oberen rechten Rand befindet. Das gleiche wird auch für Fahrspuren und alle anderen Entitäten durchgeführt.
-
Überlagern sich mehrere Entitäten auf einem Bildpunkt der Rasterkarte RK, beispielsweise wenn ein Agent A1, A2 auf einer Fahrspur ist, ist es nicht möglich, die 64 Merkmale des Agenten A1, A2 und die 64 Merkmale der Fahrspur gleichzeitig in die 64 Kanäle dieses Bildpunkts zu bringen. Um dieses Problem zu lösen, wird beispielsweise die Entität für den Bildpunkt ausgewählt, welche in einer Max-Pooling-Operation einem maximalen Wert für den Bildpunkt aufweist. Unter einer Max-Pooling-Operation wird im Allgemeinen eine Pooling-Operation verstanden, die ein maximales Element aus einem von einem Filter abgedeckten Bereich einer Merkmalskarte auswählt. Alternativ wird die Entität für den Bildpunkt ausgewählt, welche gemäß einer vorgegebenen Hierarchie den höchsten Rang aufweist. Beispielsweise wird einer als Agent A1, A2 ausgebildeten Entität in der Hierarchie der höchste Rang zugewiesen. Eine solche Hierarchie kann beispielsweise folgende Rangfolge aufweisen: „Agenten“, „Zebrastreifen“, „Verkehrsschilder“, „Verkehrsampeln“, „Fahrspuren“. Das heißt beispielsweise, dass bei einer Überlagerung immer die Merkmale eines Agenten A1, A2 verwendet werden, sofern sich ein Agent A1, A2 auf dem Bildpunkt befindet. Ansonsten werden je nach Rangfolge die Merkmale der anderen Entitäten angewandt.
-
Somit ist das Ergebnis des fünften Verfahrensschritts S5 eine Rasterkarte RK, welche durch die aus dem Graphen resultierenden latenten Merkmale erweitert ist.
-
In einem sechsten Verfahrensschritt S6 wird dann mittels eines trainierten Belegungs-Prädiktionsmodells in einer Belegungsprädiktion für jeden Bildpunkt der Rasterkarte RK eine Belegungswahrscheinlichkeit P ermittelt, welche angibt, mit welcher Wahrscheinlichkeit dieser Bildpunkt zukünftig von einem Agenten A1, A2 belegt ist. Dabei kann in vorteilhafter Weise jedes bekannte Belegungs-Prädiktionsmodell verwendet werden, welches auf Rasterkarten RK operiert, die auch der Repräsentation entsprechen, die aus dem vorgenannten Verfahren resultieren
-
Bei einem Training des entsprechenden Belegungs-Prädiktionsmodells wird ein Fehlermaß berechnet, welches abhängig vom jeweiligen Belegungs-Prädiktionsmodell ist. Typischerweise werden dabei Fehlermaße wie eine so genannte „Binary Cross Entropy“ oder ein „Focal Loss“ berechnet. Dieses Fehlermaß wird über das Belegungs-Prädiktionsmodell zurückpropagiert und es werden die Gewichte mittels maschinellen Lernens angepasst. Da das gesamte Belegungs-Prädiktionsmodells differenzierbar ist, werden auch Gewichte im entsprechenden Graph Neural Network und in den typenspezifischen Encodern angepasst.
-
Bezugszeichenliste
-
- A1
- Agent
- A2
- Agent
- P
- Belegungswahrscheinlichkeit
- RK
- Rasterkarte
- S1 bis S6
- Verfahrensschritt
-
ZITATE ENTHALTEN IN DER BESCHREIBUNG
-
Diese Liste der vom Anmelder aufgeführten Dokumente wurde automatisiert erzeugt und ist ausschließlich zur besseren Information des Lesers aufgenommen. Die Liste ist nicht Bestandteil der deutschen Patent- bzw. Gebrauchsmusteranmeldung. Das DPMA übernimmt keinerlei Haftung für etwaige Fehler oder Auslassungen.
-
Zitierte Patentliteratur
-
-
Zitierte Nicht-Patentliteratur
-
- Mahjourian, R. et al.: Occupancy Flow Fields for Motion Forecasting in Autonomous Driving; arXiv:2203.03875 [0003]
- Kamenev, A. et al: PredictionNet: Real-Time Joint Probabilistic Traffic Prediction for Planning, Control, and Simulation; arXiv:2109.11094 [0003]
- Liu, H. et al.: STrajNet - Multi-modal Hierarchical Transformer for Occupancy Flow Field Prediction in Autonomous Driving; arXiv:2208.00394 [0004]
- Hunag, X. et al.: VectorFlow - Combining Images and Vectors for Traffic Occupancy and Flow Prediction; arXiv:2208.04530 [0004]
- Monninger, T. et al.: SCENE - Reasoning about Traffic Scenes using Heterogeneous Graph Neural Networks, arXiv:2301.03512 [0027]
- Gao, J. et al.: VectorNet - Encoding HD Maps and Agent Dynamics from Vectorized Representation, arXiv:2005.04259 [0027]