DE102021213482A1

DE102021213482A1 - Verfahren, System und Programmprodukt zum Trainieren eines Computerimplementierten Systems zur Prädiktion von zukünftigen Entwicklungen einer Verkehrsszene

Info

Publication number: DE102021213482A1
Application number: DE102021213482.3A
Authority: DE
Inventors: Maxim Dolgov; Faris Janjos
Original assignee: Robert Bosch GmbH
Current assignee: Robert Bosch GmbH
Priority date: 2021-11-30
Filing date: 2021-11-30
Publication date: 2023-06-01
Also published as: CN116206438A; US20230169852A1

Abstract

Es wird Verfahren zum Trainieren eines Computer-implementierten Systems (500) zur Prädiktion von zukünftigen Entwicklungen einer Verkehrsszene vorgeschlagen, wobei das System (500) mindestens umfasst:a. eine Perzeptionsebene zum Aggregieren von Szene-spezifischen Informationen einer Eingangsszene,b. ein Backbone-Netzwerk (120) zum Generieren eines Merkmalsets von latenten Merkmalen auf Basis der Szene-spezifischen Informationen,c. ein Klassifikator-Netzwerk (140), das eine vorgegebene Anzahl von unterschiedlichen Moden für die zukünftigen Entwicklungen der Eingangsszene auf Basis des Merkmalsets bewertet, undd. für jede Mode ein Prädiktionsmodul (560, 580, 571, 572) zum Generieren einer Prädiktion für die zukünftige Entwicklung der Eingangsszene.Erfindungsgemäß wird das Backbone-Netzwerk (120) zusammen mit dem Klassifikator-Netzwerk (140) trainiert, indem die Gewichte des Backbone-Netzwerks (120) und/oder die Gewichte des Klassifikator-Netzwerks (140) so modifiziert werden, dass eine Abweichung zwischen einer Lernphasen-Bewertung (131) des Klassifikator-Netzwerks (140) und einer realistischen Bewertung der unterschiedlichen Moden verringert wird (506).

Description

Stand der Technik
Die Erfindung betrifft ein Verfahren zum Trainieren eines Computer-implementierten Systems zur Prädiktion von zukünftigen Entwicklungen einer Verkehrsszene sowie ein entsprechendes System und ein entsprechendes Programmprodukt.
Die Prädiktion von zukünftigen Entwicklungen einer Verkehrsszene kann im Rahmen von stationären Anwendungen zum Einsatz kommen, wie z.B. in einem festinstallierten Verkehrsleitsystem, das die Verkehrssituation in einem definierten räumlichen Bereich überwacht. Ein solches Verkehrsleitsystem kann dann auf Basis der Prädiktion bereits frühzeitig entsprechende Informationen und ggf. auch Fahrempfehlungen bereitstellen, um den Verkehrsfluss im überwachten Bereich und in dessen Umgebung zu steuern.
Ein weiteres wichtiges Einsatzfeld für das hier in Rede stehenden Computer-implementierte System und Verfahren zur Prädiktion von zukünftigen Entwicklungen einer Verkehrsszene sind mobile Anwendungen, wie beispielsweise Fahrzeuge mit Assistenzfunktionen. So müssen automatisierte Fahrzeuge nicht nur erfassen, in welcher Verkehrssituation sie sich aktuell befinden, sondern auch antizipieren, wie sich diese Verkehrssituation entwickeln wird, um sichere und nachvollziehbare Manöver planen zu können.
Klassische Prädiktionsverfahren führen in der Regel eine auf Kinematik / Dynamik basierende Prädiktion durch. Diese Ansätze liefern eine Prädiktion, die meist nur für eine sehr kurze Zeit sinnvoll ist, z.B. für weniger als 2s. Aus diesem Grund hat sich in den letzten Jahren die Verwendung von Machine Learning, insbesondere Deep Learning (DL), als de facto Standard für Prädiktion etabliert. Zur Repräsentation einer Verkehrsszene werden dabei häufig binäre oder farbkodierte Top-Down Grids, Graph-Repräsentationen und/oder Lidar-Reflexe verwendet. Als Prädiktion von zukünftigen Entwicklungen einer Verkehrsszene werden üblicherweise zukünftige Trajektorien der beteiligten Verkehrsteilnehmer, i.e. Fahrzeuge, Radfahrer, Fußgänger, etc., prädiziert.
Bekannt ist eine multi-modalen Prädiktion, bei der für jeden Verkehrsteilnehmer mehrere modenspezifische Trajektorien prädiziert werden. Dabei stellt jede Trajektorie eine mögliche zukünftige Verhaltensweise des jeweiligen Verkehrsteilnehmers dar, allerdings ohne die Verhaltensweisen der übrigen Verkehrsteilnehmer zu berücksichtigen. Folglich werden hierbei auch keine ggf. auftretenden Interaktionen zwischen den Verkehrsteilnehmern berücksichtigt. Eine solche multi-modale Prädiktion lässt also die Entwicklung der Eingangsszene in ihrer Gesamtheit außer Acht. Dies erweist sich in mehrerlei Hinsicht als problematisch. So ist der Rechenaufwand sehr hoch und teilweise unnötig, weil für jeden Verkehrsteilnehmer in der Regel auch Trajektorien berechnet werden, die nicht mit den Trajektorien anderer Verkehrsteilnehmer kompatibel sind. Außerdem ist eine solche Prädiktion nur bedingt aussagekräftig und beispielsweise für Planungskomponenten eines automatisierten Fahrzeugs allenfalls eingeschränkt verwendbar.
Ausgangspunkt der Erfindung
Eine hohe Signifikanz der Prädiktion bei sinnvoll begrenztem Rechenaufwand kann mit einem Computer-implementierten System zur Prädiktion von zukünftigen Entwicklungen einer Verkehrsszene erzielt werden, welches zumindest die folgenden Komponenten umfasst:

• eine Perzeptionsebene zum Aggregieren von Szene-spezifischen Informationen einer Eingangsszene,
• ein Backbone-Netzwerk zum Generieren eines Merkmalsets von latenten Merkmalen auf Basis der Szene-spezifischen Informationen,
• einen Klassifikator, der eine vorgegebene Anzahl von unterschiedlichen Moden für die zukünftigen Entwicklungen der Eingangsszene auf Basis des Merkmalsets bewertet, und
• für jede Mode ein Prädiktionsmodul zum Generieren einer Prädiktion für die zukünftige Entwicklung der Eingangsszene, wobei mindestens ein Prädiktionsmodul wahlweise aktivierbar ist.

Demnach weist das hier in Rede stehende System eine mehrstufige Architektur auf. In einer ersten Stufe wird die Eingangsszene anhand eines Merkmalsets charakterisiert, das auf Basis von Szene-spezifischen Informationen gewonnen wurde - Perzeptionsebene in Verbindung mit Backbone-Netzwerk. In einer zweiten Stufe wird die Ungewissheit über die zukünftige Entwicklung der Eingangsszene evaluiert, indem unterschiedliche Moden für die zukünftige Entwicklung der Eingangsszene auf Basis des Merkmalsets bewertet werden - Klassifikator. Eine dritte Stufe umfasst die wahlweise aktivierbaren Prädiktionsmodule, die den einzelnen Moden zugeordnet sind. Bei Aktivierung liefert jedes dieser Prädiktionsmodule als Prädiktion jeweils nur eine einzelne Trajektorie oder ein Set von ähnlichen Trajektorien für jeden Verkehrsteilnehmer der Eingangsszene, wobei diesen ähnlichen Trajektorien dann eine gemeinsame Intension für die Entwicklung der Eingangsszene zugrunde liegt. Dabei kann eine Trajektorie in deterministischer oder probabilistischer Form oder in Form von Samples beschrieben werden.
Mit Hilfe dieser mehrstufigen Architektur lassen sich sehr einfach einzelne Moden identifizieren, die eine „sinnvolle“ Entwicklungen der Eingangsszene repräsentieren, d.h. die ein vorgegebenes Auswahlkriterium erfüllen. Wenn dann ausschließlich die entsprechenden Prädiktionsmodule aktiviert werden, werden nur Prädiktionen für sinnvolle Entwicklungen der Eingangsszene generiert. Dies trägt maßgeblich zur Signifikanz der Prädiktion bei. Außerdem kann der Rechenaufwand damit einfach in Grenzen gehalten werden.
Das hier in Rede stehende System liefert demnach eine multi-modale Prädiktion, die sich nicht - wie die aus dem Stand der Technik bekannte multi-modale Prädiktion - auf alle möglichen zukünftigen Verhaltensweisen jedes einzelnen Verkehrsteilnehmers der Eingangsszene bezieht, sondern auf eine Mehrzahl von unterschiedlichen Moden für die Entwicklung der Eingangsszene in ihrer Gesamtheit.
Das voranstehend beschriebene Konzept liegt auch einem Computer-implementierten Verfahren zur Prädiktion von zukünftigen Entwicklungen einer Verkehrsszene zugrunde, welches zumindest die folgenden Schritte umfasst:

• Aggregieren von Szene-spezifischen Informationen einer Eingangsszene,
• Generieren mindestens eines Merkmalsets von latenten Merkmalen auf Basis der Szene-spezifischen Informationen mit Hilfe eines Backbone-Netzwerks,
• Bewerten einer vorgegebenen Anzahl von unterschiedlichen Moden für die zukünftigen Entwicklungen der Eingangsszene auf Basis des Merkmalsets mit Hilfe eines Klassifikators,
• Auswählen mindestens einer Mode auf Basis der Bewertung des Klassifikators und Aktivieren mindestens eines der ausgewählten Mode zugeordneten Prädiktionsmoduls und
• Generieren einer Prädiktion für die zukünftige Entwicklung der Eingangsszene mit Hilfe des mindestens einen aktivierten Prädiktionsmoduls.

Wie bereits erwähnt, werden die wahlweise aktivierbaren Prädiktionsmodule des entsprechenden Systems vorteilhafterweise abhängig von der vom Klassifikator vorgenommenen Bewertung der zugeordneten Mode aktiviert. Der Klassifikator könnte beispielsweise eine binäre Bewertung der einzelnen Moden vornehmen, im Sinne von „plausible Entwicklung“ oder „ausschließbare Entwicklung“. Alternativ könnte der Klassifikator auch für jede Mode einen genormten oder nicht genormten Score vergeben. In diesem Falle könnte die Entscheidung über eine Aktivierung des zugeordneten Prädiktionsmoduls schwellwertabhängig getroffen werden oder auch durch Vergleich bzw. Rating, wenn eine feste Anzahl von zu aktivierenden Prädiktionsmodulen vorgegeben wird.
Grundsätzlich umfasst ein derartiges Computer-implementiertes System mindestens zwei Prädiktionsmodule für mindestens zwei unterschiedliche Moden, d.h. jeweils ein Prädiktionsmodul für jede Mode. Dabei kann es sich um Prädiktionsmodule gleichen oder auch unterschiedlichen Typs handeln, solange jedes Prädiktionsmodul für jeden Verkehrsteilnehmer in der Eingangsszene eine Trajektorienprädiktion für eine bestimmte Kombination von Absichten aller Verkehrsteilnehmer der Eingangsszene liefert. Der Klassifikator bewertet die unterschiedlichen Moden unabhängig vom Typ des zugeordneten Prädiktionsmodul. Auch die Aktivierung der einzelnen Prädiktionsmodule erfolgt typunabhängig.
In einer bevorzugten Variante umfasst das Computer-implementierte System mindestens ein Prädiktionsmodul, das in Form eines Szene-Anker-Netzwerks (SAN) realisiert ist und im Falle der Aktivierung eine Prädiktion für die zukünftige Entwicklung der Eingangsszene auf Basis des vom Backbone-Netzwerk gelieferten Merkmalsets generiert. Vorteilhafterweise wird ein solches SAN zusammen mit weiteren Komponenten des Systems, beispielsweise zusammen mit dem Backbone-Netzwerk und/oder dem Klassifikator, trainiert, um die Prädiktion im Hinblick auf die intendierte Anwendung des Systems zu optimieren.
Von besonderem Vorteil ist, dass die hier in Rede stehende Systemarchitektur auch die Integration von Modell-basierten Prädiktionsmodulen und/oder Prädiktionsmodulen in Form von vortrainierten Prädiktions-Netzwerken ermöglicht. Diese Prädiktionsmodule werden in der Regel nicht das vom Backbone-Netzwerk gelieferte Merkmalset für die Prädiktion verwenden können. Stattdessen können sie auf die Perzeptionsebene zurückgreifen und eine Prädiktion auf Basis der Szene-spezifischen Informationen generieren. Die Verwendung von Modell-basierten Prädiktionsmodulen kann in vorteilhafter Weise zur Begrenzung des Rechenaufwands für die Prädiktion beitragen.
Das hier in Rede stehende System umfasst eine Perzeptionsebene zum Aggregieren von Szene-spezifischen Informationen einer Eingangsszene. Vorteilhafterweise umfassen diese Szene-spezifischen Informationen semantische Informationen über die Eingangsszene, insbesondere Karteninformationen. Diese semantischen Informationen können sowohl lokal zur Verfügung gestellt werden, beispielsweise von einer lokalen Speichereinheit, oder auch zentral abrufbar sein, beispielsweise über eine Cloud. Des Weiteren umfassen die Szene-spezifischen Informationen vorteilhafterweise Informationen über Verkehrsteilnehmer in der Eingangsszene. Von besonderem Interesse sind dabei Informationen über den aktuellen Bewegungszustand und/oder die zurückgelegte Trajektorie der einzelnen Verkehrsteilnehmer. Derartige Informationen können von Sensorsystemen erfasst und zur Verfügung gestellt werden, beispielsweise umfassend Sensoren, wie Video, LIDAR und Radar, oder auch GPS (Global Positioning System) in Verbindung mit klassischen Inertialsensoren.
Die aggregierten Szene-spezifischen Informationen müssen dann in eine vom Backbone-Netzwerk verarbeitbare Datenrepräsentation überführt werden, was bevorzugt ebenfalls in der Perzeptionsebene erfolgt. In einer vorteilhaften Variante der Erfindung werden die Szene-spezifischen Informationen zusätzlich auch noch in eine von einem vortrainierten Prädiktions-Netzwerk verarbeitbare Datenrepräsentation überführt, d.h. die Perzeptionsebene stellt mehrere unterschiedliche Datenrepräsentationen der Szene-spezifischen Informationen zur Verfügung. Wenn das Backbone-Netzwerk und/oder ein vortrainiertes Prädiktions-Netzwerk in Form eines Graph Neural Network (GNN) realisiert ist, werden die Szene-spezifischen Informationen in eine Graph-Repräsentation überführt. Handelt es sich bei dem Backbone-Netzwerk oder dem vortrainierten Prädiktions-Netzwerk um ein Convolutional Neural Network (CNN), dann werden die Szene-Spezifischen Informationen in eine Grid-Repräsentation oder ggf. auch eine Voxel-Grid-Repräsentation überführt.
Die hier in Rede stehende Erfindung geht davon aus, dass der Klassifikator des voranstehend beschriebenen Systems in Form eines neuronalen Netzes realisiert ist, das eine vorgegebene Anzahl von unterschiedlichen Moden für die zukünftigen Entwicklungen der Eingangsszene auf Basis des vom Backbone-Netzwerk gelieferten Merkmalsets bewertet. Dementsprechend muss der Typ des Klassifikator-Netzwerks entsprechend der Datenrepräsentation des Merkmalsets gewählt werden, das vom Backbone-Netzwerk geliefert wird. Generiert das Backbone-Netzwerk ein Merkmalset in Form eines Merkmalvektors, dann wird der Klassifikator vorteilhafterweise in Form eines Feed Forward Neural Network realisiert.
Mit der Erfindung werden Maßnahmen zum Trainieren eines solchen voranstehend beschriebenen Computer-implementierten Systems zur Prädiktion von zukünftigen Entwicklungen einer Verkehrsszene vorgeschlagen.
Kern und Vorteile der Erfindung
Gegenstand der Erfindung ist dementsprechend ein Verfahren zum Trainieren eines Computer-implementierten Systems zur Prädiktion von zukünftigen Entwicklungen einer Verkehrsszene, wobei das System mindestens umfasst:

a. eine Perzeptionsebene zum Aggregieren von Szene-spezifischen Informationen einer Eingangsszene,
b. ein Backbone-Netzwerk zum Generieren eines Merkmalsets von latenten Merkmalen auf Basis der Szene-spezifischen Informationen,
c. ein Klassifikator-Netzwerk, das eine vorgegebene Anzahl von unterschiedlichen Moden für die zukünftigen Entwicklungen der Eingangsszene auf Basis des Merkmalsets bewertet, und
d. für jede Mode ein Prädiktionsmodul zum Generieren einer Prädiktion für die zukünftige Entwicklung der Eingangsszene.

Im Rahmen dieses Verfahrens generiert das Backbone-Netzwerk auf Basis von Szene-spezifischen Trainingsdaten ein Lernphasen-Merkmalset. Das Klassifikator-Netzwerk generiert dann auf Basis des Lernphasen-Merkmalsets eine Lernphasen-Bewertung der unterschiedlichen Moden. Außerdem generiert jedes Prädiktionsmodul eine Prädiktion für die zukünftige Entwicklung der Eingangsszene. Dann wird für jedes Prädiktionsmodul die Abweichung der jeweiligen Prädiktion von der tatsächlichen Entwicklung der Eingangsszene bestimmt, um von dieser Abweichung eine realistische Bewertung der zugeordneten Mode herzuleiten.
Erfindungsgemäß wird das Backbone-Netzwerk zusammen mit dem Klassifikator-Netzwerk trainiert, indem die Gewichte des Backbone-Netzwerks und/oder die Gewichte des Klassifikator-Netzwerks so modifiziert werden, dass eine Abweichung zwischen der Lernphasen-Bewertung und der realistischen Bewertung der unterschiedlichen Moden verringert wird.
In einer vorteilhaften Ausführungsform der Erfindung generiert jedes Prädiktionsmodul für jeden Verkehrsteilnehmer in der Eingangsszene eine deterministische und/oder probabilistische Prädiktions-Trajektorie als Prädiktion für die zukünftige Entwicklung der Eingangsszene. Dann wird für jeden dieser Verkehrsteilnehmer die Abweichung zwischen der Prädiktions-Trajektorie und der tatsächlichen Trajektorie bestimmt, um auf Basis der so bestimmten Abweichungen eine realistische Bewertung der dem jeweiligen Prädiktionsmodul zugeordneten Mode herzuleiten.
Ein besonderer Vorteil des erfindungsgemäßen Trainingsverfahrens besteht darin, dass es für unterschiedlichste Systemkonfigurationen verwendet werden kann, was die Realisierung der Prädiktionsmodule betrifft.
Sind beispielsweise ein oder auch mehrere Prädiktionsmodule in Form eines vortrainierten Prädiktions-Netzwerks oder in Form eines Model-basierten Prädiktionsmoduls realisiert, so können diese Prädiktionsmodule - falls kompatibel - das Lernphasen-Merkmalset oder auch einfach die Trainingsdaten verwenden, um eine Prädiktion für die zukünftige Entwicklung der Eingangsszene zu generieren.
Das erfindungsgemäße Verfahren eignet sich aber auch zum Trainieren des Backbone-Netzwerks und des Klassifikator-Netzwerks zusammen mit mindestens einem vorab untrainierten Prädiktions-Netzwerk. Für diesen Fall ist vorgesehen,

• dass das mindestens ein untrainiertes Prädiktions-Netzwerk eine Lernphasen-Prädiktion für die zukünftige Entwicklung der Eingangsszene auf Basis der Trainingsdaten und/oder des Lernphasen-Merkmalsets generiert,
• dass die Abweichung der Lernphasen-Prädiktion von der tatsächlichen Entwicklung der Eingangsszene bestimmt wird und dass von der Abweichung eine realistische Bewertung der zugeordneten Mode hergeleitet wird, und
• dass die Gewichte des Backbone-Netzwerks und/oder die Gewichte des Klassifikator-Netzwerks und/oder die Gewichte des mindestens einen untrainierten Prädiktions-Netzwerks so modifiziert werden, dass eine Abweichung zwischen der Lernphasen-Bewertung und der realistischen Bewertung der unterschiedlichen Moden verringert wird.

Um zu verhindern, dass die von den zu trainierenden Prädiktions-Netzwerken prädizierten Szenen zu ähnlich untereinander werden, wird empfohlen, bei der Modifikation der Gewichte ein weiteres Kriterium zu berücksichtigen, nämlich eine Entropie der prädizierten Szenen. In einer vorteilhaften Variante des Trainingsverfahrens werden die Gewichte des Backbone-Netzwerks und/oder die Gewichte des Klassifikator-Netzwerks und/oder die Gewichte des mindestens einen untrainierten Prädiktions-Netzwerks also nicht nur so modifiziert, dass eine Abweichung zwischen der Lernphasen-Bewertung und der realistischen Bewertung der unterschiedlichen Moden verringert wird, sondern auch noch so, dass eine Entropie der Prädiktionen der Prädiktionsmodule vergrößert wird. Hierbei werden wiederum alle Prädiktionen berücksichtigt, also sowohl die Prädiktionen der zu trainierenden Prädiktionsnetzwerke als auch der vortrainierten und klassischen Prädiktionsmodule.
Figurenliste
Vorteilhafte Ausführungsformen und Weiterbildungen der Erfindung werden nachfolgend anhand der Figuren erörtert.

1a) bis 1d) veranschaulichen die der Erfindung zugrunde liegende Problemstellung.
2 zeigt eine schematische Darstellung einer ersten Variante eines zu trainierenden Systems zur Prädiktion von zukünftigen Entwicklungen einer Verkehrsszene 10.
3 zeigt eine schematische Darstellung einer zweiten Variante eines zu trainierenden Systems.
4 veranschaulicht das erfindungsgemäße Trainingsverfahren für den Fall eines Systems 400, das ausschließlich klassische Prädiktionsmodule und vortrainierte Prädiktions-Netzwerke umfasst.
5 veranschaulicht das erfindungsgemäße Trainingsverfahren für den Fall eines Systems 500, das neben klassischen Prädiktionsmodulen und einem vortrainierten Prädiktions-Netzwerk auch ein untrainiertes Prädiktions-Netzwerk umfasst.

Beschreibung von Ausführungsbeispielen
Wie bereits voranstehend erläutert, liefert das hier in Rede stehende System eine multi-modale Prädiktion, die sich auf eine Mehrzahl von unterschiedlichen Moden für die möglichen sinnvollen Entwicklungen einer Verkehrs-Eingangsszene bezieht. Dabei werden die möglichen Entwicklungen der Eingangsszene insgesamt - also nicht nur auf Ebene jedes einzelnen Verkehrsteilnehmers - betrachtet, indem beispielsweise auch Interaktionen zwischen den Verkehrsteilnehmern der Eingangsszene und Vorfahrtsregeln berücksichtigt werden.
Dies wird durch die 1a) bis 1d) veranschaulicht. Hier sind vier mögliche sinnvolle Entwicklungen einer Verkehrsszene 10 an einer T-Kreuzung dargestellt, an der zwei Fahrzeuge 11 und 12 beteiligt sind. In den 1b und 1d interagiert Fahrzeug 11 mit Fahrzeug 12, indem es die Vorfahrtsregeln beim Linksabbiegen beachtet. Je nach Abstand der beiden Fahrzeuge 11 und 12 zur Kreuzung wäre eine Prädiktion, bei der Fahrzeug 11 die Vorfahrt missachtet oder Fahrzeug 12 schneidet nicht sinnvoll oder zumindest weniger wahrscheinlich.
Zur Veranschaulichung wird im nachfolgend beschriebenen Ausführungsbeispiel jeder der in den 1a) bis 1d) dargestellten möglichen Entwicklung der Eingangsszene eine Mode und ein Prädiktionsmodul zugeordnet.
Jedoch sei an dieser Stelle ausdrücklich darauf hingewiesen, dass das hier in Rede stehende System von einer vorgegebenen Anzahl von Moden ausgeht und dementsprechend auch nur eine vorgegebene Anzahl von Prädiktionsmodulen umfasst. Deshalb werden meist mehrere, ggf. sehr unterschiedliche, mögliche Entwicklungen der Eingangsszene in einer Mode zusammengefasst und vom Klassifikator bewertet. So könnte ein erfindungsgemäßes System beispielsweise auch nur zwei Moden und entsprechend zwei unterschiedliche Prädiktionsmodule vorsehen, um den Kontext „Autobahnfahrt“ zu erkennen und eine Prädiktion für den Kontext „Autobahnfahrt“ oder alternativ für einen Kontext „Nicht-Autobahnfahrt“ vorzunehmen.
Die Darstellung in 2 veranschaulicht die mehrstufige Architektur sowie die Wirkungsweise eines hier in Rede stehenden Systems 100 zur Prädiktion von zukünftigen Entwicklungen einer Verkehrsszene, hier der Verkehrsszene 10, die die Eingangsszene bildet.
Das System 100 ist mit einer Perzeptionsebene 110 zum Aggregieren von Szene-spezifischen Informationen der Eingangsszene 10 ausgestattet. Die Szene-spezifischen Informationen umfassen Karteninformationen und sogenannte Objektlisten mit Informationen über den aktuellen Zustand der beteiligten Verkehrsteilnehmer, hier der Fahrzeuge 11 und 12. Des Weiteren umfassen die Szene-spezifischen Informationen historische Daten, hier die von den Fahrzeugen 11 und 12 zurückgelegten Trajektorien. Im hier beschriebenen Ausführungsbeispiel werden die aggregierten Szene-spezifischen Informationen auf der Perzeptionsebene 110 in eine Graph-Repräsentation 111 überführt und in diesem Format einem Backbone-Netzwerk 120 zugeführt, das in Form eines Graph Neural Network (GNN) realisiert ist.
Neben der beschriebenen Graph-Repräsentation kann aus einer Objektliste, historischen Daten sowie Karteninformationen auch eine Grid-Repräsentation generiert werden. In diesem Fall sollte das Backbone-Netzwerk vorzugsweise in Form eines Convolutional Neural Netowrk (CNN) ausgelegt werden. Die Szene-spezifischen Informationen können auch in Form von Lidar-Reflexen aus der aktuellen sowie vergangenen Aufnahmen der Eingangsszene vorliegen. In diesem Fall bietet sich eine Datenrepräsentation in Form eines Voxel-Grids an. Prinzipiell können die Szene-spezifischen Informationen in jede Datenrepräsentation überführt werden, die es erlaubt entweder alle oder zumindest die relevanten Objekte in der Eingangsszene sowie die semantischen Szene-Information darzustellen und die mit der Struktur bzw. dem Typ des Backbone-Netzwerks kompatibel ist.
Im vorliegenden Fall generiert das Backbone-Netzwerk 120 auf Basis der Graph-Repräsentation 111 der Szene-spezifischen Informationen einen Merkmalvektor 130 von latenten Merkmalen, die die Eingangsszene charakterisieren.
Der Merkmalvektor 130 wird einem Klassifikator 140 zugeführt, der im vorliegenden Ausführungsbeispiel in Form eines Feed Forward Neural Network realisiert ist. Auf Basis des Merkmalvektors 130 bewertet der Klassifikator 140 eine vorgegebene Anzahl von unterschiedlichen Moden für die möglichen zukünftigen Entwicklungen der Eingangsszene 10. Wie bereits in Verbindung mit den 1a) bis 1d) erläutert, stehen dem hier beschriebenen System 100 vier unterschiedliche Moden entsprechend den vier unterschiedlichen sinnvollen möglichen Entwicklungen der Eingangsszene 10 zur Verfügung. Zur Bewertung der einzelnen Moden generiert der Klassifikator 140 auf Basis des Merkmalvektors 130 einen Vektor, bestehend aus den einzelnen Scores für die unterschiedlichen Moden. Anschließend werden diejenigen Moden als relevant ausgewählt, deren Scores oberhalb oder unterhalb eines Schwellwerts liegen. Anhand der Scores können aber beispielsweise auch die N besten Moden ausgewählt werden, also die N Moden mit den höchsten Scores. Auf diese Weise können bereits auf der Stufe des Klassifikators 140 unwahrscheinlichere Entwicklungen der Eingangsszene von der Prädiktion ausgeschlossen werden, im vorliegenden Fall beispielsweise, dass die Vorfahrtsregeln nicht beachtet werden oder dass Fahrzeug 11 Fahrzeug 12 schneidet.
Das erfindungsgemäße System 100 umfasst für jede Mode ein Prädiktionsmodul 161 bis 164, wobei mindestens eines dieser Prädiktionsmodule 161 bis 164 wahlweise aktivierbar ist. Im Falle der Aktivierung generiert jedes Prädiktionsmodul 161 bis 164 eine Prädiktion für die zukünftige Entwicklung der Eingangsszene. Jede Prädiktion umfasst je eine Trajektorie für jeden Verkehrsteilnehmer der Eingangsszene, hier also für die Fahrzeuge 11 und 12. Diese Trajektorien können deterministisch beschrieben sein, indem für jeden Zeitpunkt der prädizierten Trajektorie je ein Zustandswert - Position, Orientierung, Geschwindigkeit, Beschleunigung, etc. - angegeben wird. Die Trajektorien können aber auch probabilistisch bestimmt sein, z.B. in Form einer Gauß-Dichte für jeden Zeitpunkt der prädizierten Trajektorie, d.h. durch Mittelwert des Zustands sowie die zugehörige Kovarianz. Ebenfalls möglich ist eine nichtparametrische probabilistische Trajektoriedarstellung in Form von Samples aus der prädizierten Verteilung.
Bei dem in 2 dargestellten Ausführungsbeispiel handelt es sich bei allen vier Prädiktionsmodulen um wahlweise aktivierbare Szene-Anker-Netzwerke (SAN), die mit dem Merkmalvektor 130 bedatet werden. Im vorliegenden Fall werden also lediglich diejenigen SANs aktiviert, deren Moden aufgrund der Bewertung des Klassifikators 140 ausgewählt worden sind. Und jedes dieser aktivierten SANs generiert jeweils eine Prädiktion für die zukünftige Entwicklung der Eingangsszene auf der Basis des vom Backbone-Netzwerk 120 gelieferten Merkmalvektors 130.
Das in 3 dargestellte System 200 unterscheidet sich von dem in 2 dargestellten System 100 lediglich in der Konstellation der vier Prädiktionsmodule. Im Fall des Systems 200 sind lediglich drei Prädiktionsmodule 161 bis 163 in Form von SANs realisiert, welche mit dem Merkmalvektor 130 bedatet werden. Für eine der vier Moden ist hier ein klassisches Modell-basiertes Prädiktionsmodul 170 vorgesehen. Das Prädiktionsmodul 170 wird mit den auf Perzeptionsebene 110 aggregierten Szene-spezifischen Informationen bedatet. D.h. das Prädiktionsmodul 170 generiert eine Prädiktion für die zukünftige Entwicklung der Eingangsszene auf Basis der Szene-spezifischen Informationen.
Die voranstehend beschriebenen Ausführungsbeispiele veranschaulichen die wesentlichen Aspekte des Systems und des entsprechenden Verfahrens zur Prädiktion von zukünftigen Entwicklungen einer Verkehrsszene. Die Systemarchitektur basiert auf einer Menge von wahlweise aktivierbaren Prädiktionsmodulen, von denen jedes eine oder mehrere Trajektorieprädiktionen für jeden Verkehrsteilnehmer in der Eingangsszene für eine bestimmte Kombination von Absichten der Verkehrsteilnehmer in der Szene liefert. Vorteilhafterweise werden SANs (Scene Anchor Networks) als Prädiktionsmodule verwendet, es können aber auch klassische Prädiktionsmodule oder separat trainierte DL-basierte Prädiktionsmodule eingebunden werden. Darüber hinaus ist ein Klassifikator in Form eines neuronalen Netzes vorgesehen, der eine Bewertung, beispielsweise einen Score, für jedes Prädiktionsmodul liefert. Dieser Score dient als Maß dafür, wie plausibel die Prädiktion des jeweiligen Prädiktionsmoduls ist. Ohne Beschränkung der Allgemeinheit kann ein solcher Score normiert sein. Zur Laufzeit werden nicht alle Prädiktionsmodule ausgeführt, sondern nur diejenigen, deren Bewertung ein vorgegebenes Auswahlkriterium erfüllt. Dies hat den Vorteil, dass nur für sinnvolle Entwicklungen der Eingangsszene Prädiktionen generiert werden. Von besonderem Vorteil ist, dass die vorgeschlagene Systemarchitektur die Kombination von DL basierter und klassischer Prädiktion erlaubt, indem neben SANs auch andere, beispielsweise planungsbasierte Prädiktionsmodule eingesetzt werden können. Diese können bereits beim Training des Klassifikator-Netzwerks mit einbezogen werden. Auf diese Weise lernt das Klassifikator-Netzwerk, neben DL basierten Prädiktionsmodulen auch klassische Prädiktionsmodule zu bewerten und zur Laufzeit auszuwählen, wenn deren Verwendung sinnvoll ist.
Entsprechend den Variationsmöglichkeiten in der Architektur des erfindungsgemäßen Systems gibt es auch unterschiedliche Ansätze zum Trainieren eines solchen Systems, was anhand der 4 und 5 nachfolgend näher erläutert wird.
Den unterschiedlichen Trainingsansätzen gemein ist, dass das Backbone-Netzwerk 120 auf Basis von Szene-spezifischen Trainingsdaten 401 bzw. 501 ein Lernphasen-Merkmalset 131 generiert. Das Klassifikator-Netzwerk 140 generiert dann auf Basis des Lernphasen-Merkmalsets 131 eine Lernphasen-Bewertung 141 der unterschiedlichen Moden. Außerdem generiert jedes Prädiktionsmodul eine Prädiktion 403 bzw. 503 für die zukünftige Entwicklung der durch die Trainingsdaten 401 bzw. 501 spezifizierten Eingangsszene. Dann wird für jedes Prädiktionsmodul die Abweichung der jeweiligen Prädiktion von der tatsächlichen Entwicklung der Eingangsszene bestimmt und von der Abweichung eine realistische Bewertung der zugeordneten Mode hergeleitet - 404 bzw. 504. Die realistische Bewertung einer Mode kann beispielsweise als Inverse der Abweichung definiert werden.
Außerdem wird bei den unterschiedlichen Trainingsansätzen immer das Backbone-Netzwerk 120 zusammen mit dem Klassifikator-Netzwerk 140 trainiert, indem die Gewichte des Backbone-Netzwerks 120 und/oder die Gewichte des Klassifikator-Netzwerks 140 so modifiziert werden - 406 bzw. 506, dass eine Abweichung zwischen der Lernphasen-Bewertung und der realistischen Bewertung der unterschiedlichen Moden verringert wird, was durch Berechnung und Auswertung einer sogenannten Loss-Funktion - 405 bzw. 505 ermöglicht wird.
Wie bereits in Verbindung mit dem erfindungsgemäßen System ausführlich erläutert, generiert jedes Prädiktionsmodul als Prädiktion für die zukünftige Entwicklung der Eingangsszene für jeden Verkehrsteilnehmer in der Eingangsszene eine oder mehrere deterministische und/oder probabilistische Prädiktions-Trajektorien als zukünftige Entwicklung der Eingangsszene. Diese sind in den 4 und 5 zusammenfassend mit den Bezugszeichen 403 bzw. 503 bezeichnet. Im Rahmen des Trainingsverfahrens wird jeweils die Abweichung zwischen den Prädiktions-Trajektorien und den tatsächlichen Trajektorien, den sogenannten Ground-Truth-Trajektorien 402 bzw. 502, der Verkehrsteilnehmer aus der Eingangsszene bestimmt. Dann wird auf Basis der so bestimmten Abweichungen eine realistische Bewertung der dem jeweiligen Prädiktionsmodul zugeordneten Mode hergeleitet.
Bei Verwendung der folgenden Notation:

$τ_{i}^{k}$
durch Netz/klassisches Modell k prädizierte Trajektorie für das Fahrzeug i
τ̂_i Ground-Truth Trajektorie des Fahrzeugs i (enthalten in Daten)
$τ_{i}^{k} (t)$
Position des Fahrzeugs zum Zeitpunkt t in der prädizierten Trajektorie $τ_{i}^{k}$
T Prädiktionshorizont für Trajektorien
M Anzahl der Fahrzeuge in der Szene
N Anzahl an SANs, die trainiert werden
L Anzahl an klassischen Modellen/vortrainierten Netzen σ^k Klassifikator-Score für Modell/SAN k

d^{k} = {\sum_{i = 1}^{M} \sum_{t = 0}^{T} (τ_{i}^{k} (t) - {\hat{τ}}_{i} (t))}^{2}

In 4 ist der Fall eines zu trainierenden Systems 400 dargestellt, das ausschließlich Prädiktionsmodule in Form von vortrainierten Prädiktions-Netzwerken 481, 482 oder in Form von klassischen, Modell-basierten Prädiktionsmodulen 471, 472 umfasst. Alle vier Prädiktionsmodule 481 ,482, 471, 472 generieren eine Prädiktion für die zukünftige Entwicklung der Eingangsszene auf Basis der Trainingsdaten 401, also unabhängig vom Lernphasen-Merkmalset 131, das das Backbone-Netzwerk 120 zu Verfügung stellt. Im hier dargestellten Ausführungsbeispiel werden die Trainingsdaten 401 zumindest für die vortrainierten Prädiktions-Netzwerken 481, 482 noch in eine geeignete Datenrepräsentation 112 und 113 überführt, wie z.B. in einen Vektor, der gemäß einer bestimmten Anordnung der Elemente einer Szene erstellt wurde, oder Birds Eye view.
Wenn lediglich das Klassifikator-Netzwerk 140 mit Parametern θ in Verbindung mit dem Backbone-Netzwerk 120 trainiert wird, kann als Loss-Funktion $J_{s} (θ) = - {\sum_{k = 1}^{L} (σ^{k} - \frac{1}{d^{k}})}^{2}$
verwendet werden. Demnach besteht das Ziel des Trainingsverfahrens darin, die Scores 141 so festzulegen, dass diese umgekehrt proportional zu den Abständen der prädizierten Trajektorien 403 zur Ground-Truth 402, also den tatsächlichen Trajektorien, sind. Auf diese Weise bekommen die Prädiktionsmodelle, die eine Szene am besten prädizieren können, den besten Score. Index s in J_s steht für Szene s. Die gesamte Loss-Funktion ist die Summe über alle Szenen im Trainingsdatensatz.
In 5 ist der Fall eines zu trainierenden Systems 500 dargestellt, das neben einem vortrainierten Prädiktions-Netzwerk 580 und zwei klassischen Prädiktionsmodulen 571, 572 auch ein zu trainierendes Prädiktions-Netzwerk 560 umfasst. Während die Prädiktionsmodule 580, 571 und 572 eine Prädiktion für die zukünftige Entwicklung der Eingangsszene auf Basis der Trainingsdaten 501, ggf. in geeigneter Datenrepräsentation 114, generieren, nutzt das zu trainierende Prädiktions-Netzwerk 560 das Lernphasen-Merkmalset 131 als Prädiktionsgrundlage. Das vorab untrainierte Prädiktions-Netzwerk 560 wird hier zusammen mit dem Backbone-Netzwerk 120 und dem Klassifikator-Netzwerk 140 trainiert. Dadurch kann für das Merkmalset 131 von latenten Merkmalen eher eine sinnvolle Mannigfaltigkeit gefunden werden, die sowohl für den Klassifikator 140, also die Charakterisierung und Bewertung der unterschiedlichen Moden, als auch für die Prädiktion signifikant ist.
Das Trainingsverfahren sieht für diesen Fall zusätzlich vor, dass das untrainierte Prädiktions-Netzwerk 560 eine Lernphasen-Prädiktion für die zukünftige Entwicklung der Eingangsszene auf Basis des Lernphasen-Merkmalsets 131 generiert. Danach wird die Abweichung der Lernphasen-Prädiktion von der tatsächlichen Entwicklung der Eingangsszene bestimmt. Von der Abweichung wird dann eine realistische Bewertung der zugeordneten Mode hergeleitet - 504. Die Gewichte des Backbone-Netzwerks 120 und/oder die Gewichte des Klassifikator-Netzwerks 140 und/oder die Gewichte des untrainierten Prädiktions-Netzwerks 560 werden dann so modifiziert, dass eine Abweichung zwischen der Lernphasen-Bewertung und der realistischen Bewertung der unterschiedlichen Moden verringert wird - 506.
Die Loss-Funktion kann hier genauso ausgelegt werden, wie im voranstehend beschriebenen Fall, in dem lediglich das Klassifikator-Netzwerk 140 in Verbindung mit dem Backbone-Netzwerk 120 trainiert wird. Allerdings beinhaltet θ nun auch die Parameter des SANs 560, so dass diese Parameter ebenfalls trainiert werden.
Um zu verhindern, dass die von den zu trainierenden SANs prädizierten Szenen zu ähnlich untereinander werden, wird empfohlen, bei der Modifikation der Gewichte ein weiteres Kriterium zu berücksichtigen, nämlich eine Entropie der prädizierten Szenen. In einer vorteilhaften Variante des Trainingsverfahrens werden die Gewichte des Backbone-Netzwerks und/oder die Gewichte des Klassifikator-Netzwerks und/oder die Gewichte des mindestens einen untrainierten Prädiktions-Netzwerks also nicht nur so modifiziert, dass eine Abweichung zwischen der Lernphasen-Bewertung und der realistischen Bewertung der unterschiedlichen Moden verringert wird, sondern auch noch so, dass eine Entropie der Prädiktionen der Prädiktionsmodule vergrößert wird. Hierbei werden wiederum alle Prädiktionen berücksichtigt, also sowohl die Prädiktionen der zu trainierenden SANs als auch der vortrainierten und klassischen Prädiktionsmodule.

Claims

Verfahren zum Trainieren eines Computer-implementierten Systems (500) zur Prädiktion von zukünftigen Entwicklungen einer Verkehrsszene, wobei das System mindestens umfasst: a. eine Perzeptionsebene zum Aggregieren von Szene-spezifischen Informationen einer Eingangsszene, b. ein Backbone-Netzwerk (120) zum Generieren eines Merkmalsets von latenten Merkmalen auf Basis der Szene-spezifischen Informationen, c. ein Klassifikator-Netzwerk (140), das eine vorgegebene Anzahl von unterschiedlichen Moden für die zukünftigen Entwicklungen der Eingangsszene auf Basis des Merkmalsets bewertet, und d. für jede Mode ein Prädiktionsmodul (560, 580, 571,721) zum Generieren einer Prädiktion für die zukünftige Entwicklung der Eingangsszene, wobei im Rahmen des Verfahrens • das Backbone-Netzwerk (120) auf Basis von Szene-spezifischen Trainingsdaten (501) ein Lernphasen-Merkmalset (131) generiert, • das Klassifikator-Netzwerk (140) auf Basis des Lernphasen-Merkmalsets (131) eine Lernphasen-Bewertung (141) der unterschiedlichen Moden generiert, • jedes Prädiktionsmodul (560, 580, 571, 572) eine Prädiktion (503) für die zukünftige Entwicklung der durch die Trainingsdaten (501) bestimmten Eingangsszene generiert, und • für jedes Prädiktionsmodul (560, 580, 571,721) die Abweichung der jeweiligen Prädiktion von der tatsächlichen Entwicklung der Eingangsszene bestimmt wird und von der Abweichung eine realistische Bewertung der zugeordneten Mode hergeleitet wird (504), dadurch gekennzeichnet, dass das Backbone-Netzwerk (120) zusammen mit dem Klassifikator-Netzwerk (140) trainiert wird, indem die Gewichte des Backbone-Netzwerks (120) und/oder die Gewichte des Klassifikator-Netzwerks (140) so modifiziert werden, dass eine Abweichung zwischen der Lernphasen-Bewertung (141) und der realistischen Bewertung der unterschiedlichen Moden verringert wird (506).
Verfahren nach Anspruch 1, dadurch gekennzeichnet, dass jedes Prädiktionsmodul (560, 580, 571, 572) als Prädiktion für die zukünftige Entwicklung der Eingangsszene für jeden Verkehrsteilnehmer in der Eingangsszene eine deterministische und/oder probabilistische Prädiktions-Trajektorie als zukünftige Entwicklung der Eingangsszene generiert, dass jeweils die Abweichung zwischen den Prädiktions-Trajektorien und den tatsächlichen Trajektorien der Verkehrsteilnehmer aus der Eingangsszene bestimmt wird, und dass auf Basis der so bestimmten Abweichungen eine realistische Bewertung der dem jeweiligen Prädiktionsmodul zugeordneten Mode hergeleitet wird.
Verfahren nach Anspruch 1 oder 2, dadurch gekennzeichnet, dass mindestens ein Prädiktionsmodul in Form eines vortrainierten Prädiktions-Netzwerks (580) oder in Form eines Model-basierten Prädiktionsmoduls (571, 572) realisiert ist und eine Prädiktion für die zukünftige Entwicklung der Eingangsszene auf Basis der Trainingsdaten (501) generiert.
Verfahren nach einem der Ansprüche 1 bis 3, bei dem das Backbone-Netzwerk (120) und das Klassifikator-Netzwerk (140) zusammen mit mindestens einem vorab untrainierten Prädiktionsmodul (560) trainiert wird, dadurch gekennzeichnet, a. dass das mindestens ein untrainiertes Prädiktions-Netzwerk (560) eine Lernphasen-Prädiktion für die zukünftige Entwicklung der Eingangsszene auf Basis der Trainingsdaten und/oder des Lernphasen-Merkmalsets (131) generiert, b. dass die Abweichung der Lernphasen-Prädiktion von der tatsächlichen Entwicklung der Eingangsszene (502) bestimmt wird und dass von der Abweichung eine realistische Bewertung der zugeordneten Mode hergeleitet wird (504), und c. dass die Gewichte des Backbone-Netzwerks (120) und/oder die Gewichte des Klassifikator-Netzwerks (140) und/oder die Gewichte des mindestens einen untrainierten Prädiktions-Netzwerks (560) so modifiziert werden, dass eine Abweichung zwischen der Lernphasen-Bewertung und der realistischen Bewertung der unterschiedlichen Moden verringert wird (506).
Verfahren nach Anspruch 4, dadurch gekennzeichnet, dass die Gewichte des Backbone-Netzwerks und/oder die Gewichte des Klassifikator-Netzwerks und/oder die Gewichte des mindestens einen untrainierten Prädiktions-Netzwerks so modifiziert werden, dass eine Entropie der Prädiktionen der Prädiktionsmodule vergrößert wird.
Computer-implementiertes System zur Durchführung eines Trainingsverfahrens gemäß einem der Ansprüche 1 bis 5.
Computer-implementiertes Programmprodukt zur Durchführung eines Trainingsverfahrens gemäß einem der Ansprüche 1 bis 5.