-
Die Erfindung betrifft ein Verfahren zu einer szenenkonsistenten Belegungsprädiktion mittels Rasterkarten für ein automatisiert betriebenes Fahrzeug gemäß dem Oberbegriff des Anspruchs 1.
-
Eine Prädiktion von am Straßenverkehr teilnehmenden Agenten, beispielsweise Fahrzeugen, Fußgängern und anderen Verkehrsteilnehmern, bildet einen essenzieller Bestandteil zum automatisierten, insbesondere hochautomatisierten oder autonomen Fahrbetrieb eines Fahrzeugs. Eine zuverlässige und sichere Bewegungsplanung der Agenten ist nur dann möglich, wenn auch die Prädiktion von hoher Qualität ist.
-
Aus dem Stand der Technik sind rasterkartenbasierte Belegungsprädiktionsansätze zur Bewegungsvorhersage für automatisiert betriebene Fahrzeuge bekannt. Derartige Ansätze beschreiben „Mahjourian, R. et al.: Occupancy Flow Fields for Motion Forecasting in Autonomous Driving; arXiv:2203.03875“ und „Kamenev, A. et al: PredictionNet: Real-Time Joint Probabilistic Traffic Prediction for Planning, Control, and Simulation; arXiv:2109.11094“.
-
Weiterhin sind auch so genannte Joint-Prediction-Ansätze, häufig auch als Scene-Consistent-Prediction bezeichnet, bekannt. Derartige Ansätze beschreiben „Chen, Y. et al.: ScePT: Scene-consistent, Policy-based Trajectory Predictions for Planning; arXiv: 2206.13387“, „Girgis, R. et al.: Latent Variable Sequential Set Transformers For Joint Multi-Agent Motion Prediction; arXiv: 2104.00563“ und „He, B. et al.: Multi-future Transformer: Learning diverse interaction modes for behaviour prediction in autonomous driving; https://ietresearch.onlinelibrary.wiley.com/doi/pdfdirect/10.1049/itr2.12207“.
-
Aus der
US 2021 004 611 A1 ist ein Verfahren zum automatisierten Betrieb eines Fahrzeugs mit folgenden Schritten bekannt:
- - Empfangen von Sensordaten einer Umgebung mittels eines Sensors des Fahrzeugs;
- - Empfangen von Aktionsdaten, die mit einer Kandidatenaktion assoziiert sind, die das autonome Fahrzeug in der Umgebung ausführen soll, wobei die Kandidatenaktion eine Aktion zum Bleiben auf der Fahrspur, eine Aktion zum Abbiegen oder eine Aktion zum Spurwechsel umfasst, und wobei die Aktionsdaten indikativ für die Kandidatenaktion sind;
- - Generieren eines Mehrkanalbilds auf Grundlage der Sensordaten und der Aktionsdaten, wobei das Mehrkanalbild eine Draufsicht der Umgebung und einen Begrenzungsrahmen darstellt, der einem Fahrzeug in der Umgebung in der Nähe des automatisiert betriebenen Fahrzeugs, kinematischen Informationen oder semantischen Informationen, die dem Fahrzeug zugeordnet sind, und der Kandidatenaktion, die dem automatisiert betriebenen Fahrzeug zugeordnet ist, zugeordnet ist;
- - Eingeben des Mehrkanalbilds in ein maschinell erlerntes Modell, das darauf trainiert ist, eine Heatmap zu erzeugen, die eine Vorhersagewahrscheinlichkeit eines möglichen Standorts des Fahrzeugs umfasst, wobei die Vorhersagewahrscheinlichkeit als Belegungsraster dargestellt wird, das einer zukünftigen Zeit zugeordnet ist, und wobei eine Zelle des Belegungsrasters eine Wahrscheinlichkeit angibt, dass sich das Fahrzeug zu einem zukünftigen Zeitpunkt in einem Bereich befindet, der der Zelle zugeordnet ist;
- - auf der Heatmap basierendes Bestimmen von Kosten, die mit der Kandidatenaktion verbunden sind; und
- - Bestimmen einer Trajektorie für das automatisiert betriebene Fahrzeug, um in der Umgebung zu fahren auf Grundlage der mit der Kandidatenaktion verbundenen Kosten.
-
Der Erfindung liegt die Aufgabe zu Grunde, ein neuartiges Verfahren zu einer szenenkonsistenten Belegungsprädiktion mittels Rasterkarten anzugeben.
-
Die Aufgabe wird erfindungsgemäß gelöst durch ein Verfahren, welches die im Anspruch 1 angegebenen Merkmale aufweist.
-
Vorteilhafte Ausgestaltungen der Erfindung sind Gegenstand der Unteransprüche.
-
In einem Verfahren zu einer szenenkonsistenten Belegungsprädiktion mittels Rasterkarten für ein automatisiert betriebenes Fahrzeug wird einem trainierten Prädiktionsmodell als Eingabeinformation eine Repräsentation einer Umgebung des Fahrzeugs zugeführt und mittels des Prädiktionsmodells verarbeitet.
-
Erfindungsgemäß werden mittels des Prädiktionsmodells anhand der Eingabeinformation für jeden Prädiktionszeitpunkt mehrere Rasterkarten prädiziert. In einer Belegungsprädiktion wird für jede Rasterkarte jeder Zelle der jeweiligen Rasterkarte eine Belegungswahrscheinlichkeit zugewiesen, welche angibt, mit welcher Wahrscheinlichkeit diese Zelle zukünftig von einem in dem Umgebungsbereich befindlichen Agenten belegt ist. Jede prädizierte Rasterkarte bildet jeweils eine prädizierte geschlossene und konsistente Verkehrsszene in einem Umgebungsbereich des automatisiert betriebenen Fahrzeugs ab.
-
Das Verfahren ermöglicht somit eine Realisierung eines rasterkartenbasierten Ansatzes zur Prädiktion von Belegungswahrscheinlichkeiten, wobei mehrere konsistente Verkehrsszenen parallel zueinander geschätzt werden. Aus der Mehrzahl der Rasterkarten für eine Verkehrsszene resultiert eine deutlicher interpretierbare Ausgaberepräsentation. Hierbei tritt kein Informationsverlust ein, da die Rasterkarten auch wieder zu einer einzelnen Rasterkarte aggregiert werden können.
-
Ein Vorteil entsteht insbesondere dann, wenn die Prädiktionen mit einem Planungsalgorithmus kombiniert werden. Ansätze, die nur eine Rasterkarte mit Belegungswahrscheinlichkeiten vorhersagen, auch als Marginal Probability Distribution bezeichnet, führen zu sehr dichten prädizierten Rasterkarten mit Belegungswahrscheinlichkeiten, da alle möglichen Kombinationen abgedeckt werden müssen. Alle Kombinationen können in der Realität allerdings nicht alle gleichzeitig eintreten. Ein Planungsalgorithmus, der diese dichten Rasterkarten berücksichtigt, wird ein übervorsichtiges Verhalten für das automatisiert betriebene Fahrzeug planen, weil er alle Kombinationen gleichzeitig beachten muss. Mittels des vorliegenden Verfahrens können dagegen deutlich weniger dichte Rasterkarten von konsistenten Verkehrsszenen prädiziert werden. Ein Planungsalgorithmus, der mit diesen Prädiktionen arbeitet, wird nicht übervorsichtig planen, weil ihm für jede mögliche zukünftige Ausprägung einer Verkehrsszene die genau hierfür prädizierte und deutlich weniger dichte Rasterkarte mit Belegungswahrscheinlichkeiten bekannt ist.
-
Ausführungsbeispiele der Erfindung werden im Folgenden anhand von Zeichnungen näher erläutert.
-
Dabei zeigen:
- 1 schematisch eine prädizierte Rasterkarte mit Belegungswahrscheinlichkeiten für zwei Agenten zu einem Prädiktionszeitpunkt,
- 2 schematisch zwei unterschiedliche Rasterkarten mit prädizierten Trajektorien für jeweils eine zu einem Prädiktionszeitpunkt prädizierte Verkehrsszene und
- 3 schematisch mehrere unterschiedliche prädizierte Rasterkarten mit Belegungswahrscheinlichkeiten für jeweils eine zu einem Prädiktionszeitpunkt prädizierte Verkehrsszene.
-
Einander entsprechende Teile sind in allen Figuren mit den gleichen Bezugszeichen versehen.
-
In 1 ist eine prädizierte Rasterkarte RK mit Belegungswahrscheinlichkeiten P für zwei Agenten 1, 2 dargestellt, wobei die Agenten 1, 2 jeweils als Fahrzeuge ausgebildet sind. 2 zeigt zwei unterschiedliche Rasterkarten RK1', RK2' mit möglichen prädizierten Trajektorien T1 für einen Agenten 1 und möglichen prädizierten Trajektorien T2 für einen Agenten 2 für jeweils eine zu einem Prädiktionszeitpunkt prädizierte Verkehrsszene.
-
Es sind allgemein lernbasierte Methoden zur Prädiktion bekannt, welche eine Trajektorienprädiktion umfassen. Solche Methoden sind beispielsweise in „Chen, Y. et al.: ScePT: Scene-consistent, Policy-based Trajectory Predictions for Planning; arXiv: 2206.13387“, „Girgis, R. et al.: Latent Variable Sequential Set Transformers For Joint Multi-Agent Motion Prediction; arXiv: 2104.00563“ und „He, B. et al.: Multi-future Transformer: Learning diverse interaction modes for behaviour prediction in autonomous driving; https://ietresearch.onlinelibrary.wiley.com/doi/pdfdirect/10.1049/itr2.12207“ beschrieben. In einer solchen Trajektorienprädiktion werden - wie dargestellt - als Ausgabeformat direkt Trajektorien T1, T2 für zwei zueinander konsistente Verkehrsszenen prädiziert.
-
Weiterhin sind allgemein lernbasierte Methoden zur Prädiktion bekannt, welche eine Belegungsprädiktion (englisch: Occupancy Prediction) umfassen. Solche Methoden sind beispielsweise in „Mahjourian, R. et al.: Occupancy Flow Fields for Motion Forecasting in Autonomous Driving; arXiv:2203.03875“ und „Kamenev, A. et al: PredictionNet: Real-Time Joint Probabilistic Traffic Prediction for Planning, Control, and Simulation; arXiv:2109.11094“ beschrieben.
-
Beide genannten Arten von Methoden zur Prädiktion sollten typischerweise multimodal sein.
-
Fährt ein Fahrzeug beispielsweise an eine Straßenkreuzung heran, so ist gewünscht, dass alle möglichen Modalitäten, beispielsweise ein Abbiegen und ein Überqueren der Straßenkreuzung, vom Prädiktionsmodell prädiziert werden.
-
Sowohl die Trajektorienprädiktion als auch die Belegungsprädiktion besitzen unterschiedliche Eigenschaften und Vorteile. Beispielsweise ist die Belegungsprädiktion in der Lage, eine Wahrscheinlichkeitsverteilung mit Unsicherheiten besser abzubilden. Bei der Belegungsprädiktion ist die Ausgabe keine Trajektorie T1, T2 (dargestellt in 2), sondern eine Rasterkarte RK aus der Vogelperspektive. Diese Rasterkarte RK, das heißt ein Bild, das beispielsweise eine Auflösung von 500 Pixel x 500 Pixel aufweist, bildet einen Umgebungsbereich des automatisiert betriebenen Fahrzeugs ab. Ein Pixel wird im Folgenden auch als Zelle bezeichnet.
-
Während der Belegungsprädiktion wird jeder Zelle eine Belegungswahrscheinlichkeit P zugewiesen. Diese beschreibt, wie wahrscheinlich diese Zelle in der Zukunft, beispielsweise in 5 s, von einem Agenten 1, 2 belegt ist. Das heißt, die Ausgabe bei der Belegungsprädiktion ist ein Layer, der aussagt, wie wahrscheinlich eine entsprechende Zelle der Rasterkarte RK1', RK2' zu einem Zeitpunkt, beispielsweise in 5 s, belegt ist. Dabei ist das System nicht auf zwei Agenten 1, 2 limitiert, sondern kann für eine beliebige Anzahl von Agenten 1, 2 im Umfeld des automatisiert betriebenen Fahrzeugs verwendet werden.
-
Allgemein zeichnen sich die genannten Prädiktionsmodelle dadurch aus, dass
- - Eingabeinformationen des Prädiktionsmodells eine Repräsentation der Umgebung des Fahrzeugs umfassen, typischerweise bestehend aus einer vergangenen Bewegung umliegender Agenten 1, 2 und Informationen einer hochaufgelösten Karte, beispielsweise Straßengeometrien, Verkehrsampeln etc.;
- - eine Repräsentation dieser Eingabeinformationen vektorisiert ist und/oder bereits in Form einer Rasterkarte RK vorliegt, wobei in einer solchen Rasterkarte RK dann ein aktueller Zustand einer Verkehrsszene in einer Draufsicht bzw. aus einer Vogelperspektive dargestellt ist;
- - ein lernbasiertes Prädiktionsmodell die Eingabeinformationen verarbeitet, wobei eine Architektur des Prädiktionsmodells abhängig von der Repräsentation der Eingabeinformationen ist und für Rasterkarten RK beispielsweise Convolutional Neural Networks oder so genannte Vision Transformer verwendet werden; und
- - das Prädiktionsmodell eine Rasterkarte RK prädiziert, wobei jede Zelle eine Wahrscheinlichkeit besitzt, die aussagt, wie wahrscheinlich die Zelle in der Zukunft, beispielsweise in 5 s, belegt ist, wobei ein Prädiktionshorizont abhängig von der Aufgabe gewählt ist.
-
Dabei wird mittels bekannter Belegungsprädiktionsansätze lediglich eine einzige Rasterkarte RK prädiziert, die die Belegung nach dem Prädiktionshorizont abbildet. Insbesondere dann, wenn sich mehrere Agenten 1, 2 in der Umgebung eines automatisiert betriebenen Fahrzeugs befinden, verliert eine solche Ausgangsrepräsentation an Interpretierbarkeit und Aussagekraft. Dies liegt darin begründet, dass mehrere Agenten 1, 2, beispielsweise Fahrzeuge, miteinander interagieren, wobei ihre möglichen Zukünfte sich aufeinander auswirken. Werden alle diese möglichen Zukünfte mehrerer Agenten 1, 2 in die gleiche Rasterkarte RK abgebildet, ist diese Rasterkarte RK nicht konsistent. Man spricht dabei von einer Marginal Probability Distribution.
-
Eine solche Rasterkarte RK ist die in der vorliegenden 1 dargestellte, wobei ersichtlich ist, dass in der Rasterkarte RK auch Gebiete entstehen, in denen sich beide Agenten 1, 2 nach Ablauf des Prädiktionshorizonts von beispielsweise 5 s befinden können. Ein Beispiel hierfür ist die in der Rasterkarte RK gezeigte linke Seitenstraße. Diese wird in der Rasterkarte RK zwar durch die Prädiktion der Marginal Probability Distribution abgebildet, allerdings fehlt die Interpretierbarkeit, denn in Realität wird nie eine Verkehrsszene zustande kommen, in der beide Agenten 1, 2 gleichzeitig am gleichen Ort sind. Dies zeichnet die Marginal Probability Distribution aus.
-
In 3 sind mehrere unterschiedliche prädizierte Rasterkarten RK1 bis RKn mit Belegungswahrscheinlichkeiten P für jeweils eine zu einem Prädiktionszeitpunkt prädizierte Verkehrsszene, das heißt in Summe für mehrere zu einem Prädiktionszeitpunkt mögliche konsistente Verkehrsszenen, dargestellt.
-
Diese Rasterkarten RK1 bis RKn werden mit einem Verfahren erzeugt, mit dem eine so genannte Joint Probability Distribution prädiziert wird. Dies beinhaltet, dass nicht nur eine Rasterkarte RK mit Belegungswahrscheinlichkeiten P, wie in 1 dargestellt, als Ausgabe dient, sondern mehrere Rasterkarten RK1 bis RKn. Jede dieser Rasterkarten RK1 bis RKn bildet dabei eine geschlossene und konsistente Verkehrsszene ab. Das heißt, es wird in einer szenenkonsistenten Prädiktion eine Belegungsprädiktion durchgeführt.
-
Für das in 1 dargestellte Beispiel würden sich so beispielsweise unter anderem die zwei dargestellten Rasterkarten RK1, RK2 ergeben. Es sind jedoch auch weitere konsistente Verkehrsszenen möglich, so dass auch weitere Rasterkarten RK3 bis RKn mit Belegungswahrscheinlichkeiten P für die Agenten 1, 2 prädiziert werden, welche aus Gründen der Übersichtlichkeit jedoch hier nicht explizit dargestellt sind.
-
Zu der genannten, in der szenenkonsistenten Prädiktion durchgeführte Belegungsprädiktion kann als Grundlage jede beliebige, bereits existierende Methode zur Belegungsprädiktion, wie im Folgenden beschrieben, angepasst werden. Dabei spielt eine Repräsentation von Eingabeinformationen keine Rolle.
-
Typischerweise basieren Methoden zur Belegungsprädiktion auf so genannten Encoder-Decoder-Architekturen. Dies bedeutet, dass initial eine Verkehrsszene in eine für einen Menschen nicht interpretierbare Zwischenrepräsentation codiert wird und diese dann durch einen Decoder in für den Menschen interpretierbare Belegungsprädiktionen umgewandelt wird. Der Encoder und der Decoder werden dabei gleichzeitig trainiert.
-
Im Unterscheid zu 1 und der beschriebenen zugehörigen Methode zur Belegungsprädiktion wird anstatt einer Prädiktion von nur einer Rasterkarte RK mit Belegungswahrscheinlichkeiten P eine Prädiktion durchgeführt, bei welcher gemäß der Darstellung der vorliegenden 3 mehrere Rasterkarten RK1 bis RKn mit Belegungswahrscheinlichkeiten P generiert werden. Hierzu werden nach dem Encoder mehrere Decoder parallel geschaltet.
-
Während des Trainings des Encoders und der Decoder und somit des Prädiktionsmodells wird eine so genannte Scene-Level-Winner-Takes-All-Strategie verwendet, wie beispielsweise in „He, B. et al.: Multi-future Transformer: Learning diverse interaction modes for behaviour prediction in autonomous driving; https://ietresearch.onlinelibrary.wiley.com/doi/pdfdirect/10.1049/itr2.12207“ beschrieben. Konkret bedeutet dies, dass ein Forward-Pass während des Trainings normal durchgeführt wird, wodurch die mehreren Decoder des Prädiktionsmodells mehrere Rasterkarten RK1 bis RKn mit Belegungswahrscheinlichkeiten P prädizieren. Die prädizierten Rasterkarten RK1 bis RKn werden mit einer aus einem Datensatz bekannten wirklichen Zukunft einer Verkehrsszene verglichen und es wird ein Fehlermaß berechnet, beispielsweise ein so genannter „Focal Loss“. Im Anschluss wird dieses Fehlermaß in einer Backpropagation durch das Prädiktionsmodell zurückpropagiert und es werden hierdurch Gewichte im Prädiktionsmodell angepasst. Die Besonderheit ist, dass das Fehlermaß nur über den Decoder zurückpropagiert wird, der die Verkehrsszene während des Forward Passes am besten prädiziert hat, beispielsweise den niedrigsten „Loss“ hatte und somit der „Winner“ ist.
-
In einer möglichen Ausgestaltung kann parallel zur Prädiktion der Belegungswahrscheinlichkeiten P in Form der Rasterkarten RK bis RKn zusätzlich ein Klassifikationskopf nach dem Encoder angebracht werden. Dieser schätzt, wie wahrscheinlich jede der prädizierten Verkehrsszenen in Wirklichkeit auch eintritt. Es entstehen hierdurch also nicht nur konsistente Rasterkarten RK bis RKn mit Belegungswahrscheinlichkeiten P, sondern auch eine Einschätzung, wie wahrscheinlich jede dieser Rasterkarte RK bis RKn eintritt.
-
In einer weiteren möglichen Ausgestaltung können mehreren prädizierten Rasterkarten RK1 bis RKn auch wieder in lediglich eine nicht näher dargestellte Rasterkarte überführt werden. Hierzu können alle Rasterkarten RK bis RKn beispielsweise gemittelt werden oder entsprechend ihrer mittels des Klassifikationskopfes ermittelten Wahrscheinlichkeit aufsummiert werden.
-
In einer weiteren möglichen Ausgestaltung werden zwei Rasterkarten RK1, RK2 mit Belegungswahrscheinlichkeiten P pro konsistenter Verkehrsszene prädiziert. Dabei weist eine der beiden Rasterkarten RK1, RK2 prädizierte Belegungswahrscheinlichkeiten P für in der Umgebung des automatisiert betriebenen Fahrzeugs befindliche Agenten 1, 2 auf und die andere der beiden Rasterkarten RK1, RK2 prädizierte Belegungswahrscheinlichkeiten P für das automatisiert betriebene Fahrzeug selbst.
-
ZITATE ENTHALTEN IN DER BESCHREIBUNG
-
Diese Liste der vom Anmelder aufgeführten Dokumente wurde automatisiert erzeugt und ist ausschließlich zur besseren Information des Lesers aufgenommen. Die Liste ist nicht Bestandteil der deutschen Patent- bzw. Gebrauchsmusteranmeldung. Das DPMA übernimmt keinerlei Haftung für etwaige Fehler oder Auslassungen.
-
Zitierte Patentliteratur
-