DE102019128223A1

DE102019128223A1 - Verfahren, Vorrichtungen und Computerprogramme

Info

Publication number: DE102019128223A1
Application number: DE102019128223.3A
Authority: DE
Inventors: Fabian Netzler; Felix Klanner; Horst KLOEDEN
Original assignee: Bayerische Motoren Werke AG
Current assignee: Bayerische Motoren Werke AG
Priority date: 2019-10-18
Filing date: 2019-10-18
Publication date: 2021-04-22

Abstract

Ausführungsbeispiele der vorliegenden Erfindung beziehen sich auf ein Verfahren, eine Vorrichtung und ein Computerprogramm zum Bestimmen von Information über einen oder mehrere Einflussfaktoren, ein Verfahren, eine Vorrichtung und ein Computerprogramm zum Trainieren eines Maschinenlern-Modells, und auf ein Verfahren, eine Vorrichtung und ein Computerprogramm für ein Fahrzeug. Das Verfahren zum Bestimmen von Information über einen oder mehrere Einflussfaktoren, die zu einer Bestimmung einer Trajektorie eines Fahrzeugs führen, umfasst ein Trainieren eines Maschinenlern-Modells unter Nutzung eines Reinforcement Learning-Ansatzes. Der Reinforcement Learning-Ansatz basiert auf einer Belohnungsfunktion. Die Belohnungsfunktion basiert auf einer Mehrzahl von Komponenten. Das Maschinenlern-Modell wird trainiert, um die Trajektorie des Fahrzeugs zu bestimmen. Die Trajektorie umfasst eine Mehrzahl von Fahrmanövern. Das Verfahren umfasst ferner ein Bestimmen, für jedes Fahrmanöver der Trajektorie, zumindest einer Komponente der Mehrzahl von Komponenten der Belohnungsfunktion mit einem dominanten Einfluss auf die Belohnungsfunktion. Der dominante Einfluss ist dadurch charakterisiert, dass er zu der Auswahl des Fahrmanövers aus einer Mehrzahl von möglichen Fahrmanövern in dem Training des Maschinenlern-Modells geführt hat. Das Verfahren umfasst ferner ein Auswählen, für jedes Fahrmanöver der Trajektorie, der zumindest einen Komponente als Einflussfaktor für die Auswahl des Fahrmanövers. Das Verfahren umfasst ferner ein Bestimmen der Informationen über die einen oder mehreren Einflussfaktoren basierend auf den Einflussfaktoren der Fahrmanöver der Trajektorie.

Description

Ausführungsbeispiele der vorliegenden Erfindung beziehen sich auf ein Verfahren, eine Vorrichtung und ein Computerprogramm zum Bestimmen von Information über einen oder mehrere Einflussfaktoren, ein Verfahren, eine Vorrichtung und ein Computerprogramm zum Trainieren eines Maschinenlern-Modells, und auf ein Verfahren, eine Vorrichtung und ein Computerprogramm für ein Fahrzeug.
Ein Schwerpunkt in der Automobil-Forschung ist die Steuerung von autonomen Fahrzeugen. Hierfür wird in vielen Fällen ein Maschinenlern-Modell (engl. Machine-Learning-Model) genutzt, das ausgebildet ist, um basierend auf einer aktuellen Fahrsituation ein Fahrmanöver auszuwählen, das einen sicheren und gleichzeitig komfortablen Betrieb des Fahrzeugs gewährleistet. Bei der Entscheidung, welches Fahrmanöver durchgeführt wird, gibt es meist eine Vielzahl von Einflussfaktoren, wie etwa ein Abstand zu anderen Fahrzeugen, ein Zustand der Straße, andere Verkehrsteilnehmer, ein Verkehrsfluss, ein Ziel des Fahrzeugs etc. Basierend auf diesen, und einer Vielzahl weiterer möglicher Einflussfaktoren bestimmt das Maschinenlern-Modell dann im Allgemeinen die auszuführenden Fahrmanöver.
Dabei kann, in vielen Fällen, nur schwerlich nachvollzogen werden, wie das Maschinenlern-Modell zu der Entscheidung gelangt ist. Viele Modelle bieten keine ausreichende Möglichkeit, die eineindeutige Nachvollziehbarkeit und Dokumentation der vom autonomen Fahrzeug durchgeführten Aktionen durchzuführen. Eine solche Information wäre jedoch in vielen Fällen wünschenswert, um die Entscheidungen des jeweiligen Fahrzeugs beurteilen zu können, etwa nach Unfällen. Gerade zur Nachvollziehbarkeit und Fehlerfindung kann es vorteilhaft sein, dass nicht nur ein einfacher Schritt nachvollzogen wird, also beispielsweise vom Aktor-Signal und Umfeldmodell ausgehend, sondern weitergehende Informationen berücksichtigt werden, beispielsweise Sensorsignale, die diese beeinflusst haben, oder die Aktorsignale davor. In manchen Fällen kann auch von autonomen Fahrzeugen verlangt werden, dass jede Entscheidung des autonomen Fahrzeugs - insbesondere, wenn diese sicherheitsrelevant ist - eindeutig nachvollziehbar und dokumentiert wird. Diese Entscheidungen können beispielsweise in Datenbanken dokumentiert werden.
Es besteht daher ein Bedarf, ein verbessertes Konzept zu schaffen, mit dem die Entscheidungsgründe von Entscheidungen von Maschinenlern-Modellen zur Steuerung von Fahrzeugen erkannt und dokumentiert werden können.
Diesem Bedarf tragen das System sowie das Verfahren nach den unabhängigen Ansprüchen Rechnung.
Ausführungsbeispiele basieren auf der Erkenntnis, dass ein Maschinenlern-Modell darauf trainiert werden kann, die Entscheidungen eines anderen Maschinenlern-Modells zu klassifizieren. Um dieses Maschinenlern-Modell nun zu trainieren kann bei dem Training des anderen Maschinenlern-Modells eine Funktionalität eingebaut werden, die dokumentiert, wieso eine Entscheidung getroffen wurde. Dies kann im vorliegenden Fall über eine Belohnungsfunktion (engl. Reward Function) des anderen Maschinenlern-Modells geschehen. So kann das andere Maschinenlern-Modell über einen sogenannten Reinforcement-Learning-Ansatz (Bestärkendes-Lernen-Ansatz) trainiert werden. Dieser basiert im Allgemeinen darauf, dass verschiedene Varianten miteinander verglichen werden und Anhand der Belohnungsfunktion bestimmt wird, welche der Varianten vorzuziehen ist. Dabei basiert die Belohnungsfunktion aus mehreren Komponenten, die jeweils unterschiedliche Zielsetzungen für das Maschinenlern-Modell abbilden. Die Funktionalität zur Dokumentation der Entscheidung kann nun bestimmen, welche Komponente der Belohnungsfunktion den Ausschlag gegeben hat. Diese Information kann dokumentiert werden, und nachfolgend für das Training des Maschinenlern-Modells genutzt werden, das nun genutzt werden kann, um die getroffene Entscheidung auf die jeweilige Komponente der Belohnungsfunktion zurückzuführen. Somit kann dieses Maschinenlern-Modell nun genutzt werden, um auch in realen Fahrsituationen eine Aussage darüber zu treffen, aus welchem Grund das andere Maschinenlern-Modell (oder ein ähnlich implementiertes Modell) ein Fahrmanöver ausgewählt hat. Ausführungsbeispiele schaffen somit eine Methode zur Sicherstellung der Nachvollziehbarkeit von Aktionen autonomer Fahrzeuge, etwa zur Erfüllung von gesetzlichen Dokumentations-Anforderungen. Zumindest manche Ausführungsbeispiele erreichen dies durch eine Erweiterung der Trajektorienplanung um eine Klassifikationskomponente, die den Grund der ausgewählten Entscheidung eineindeutig und nachvollziehbar macht, beispielsweise auf Basis eines Umfeldmodells. Zumindest manche Ausführungsbeispiele schaffen ferner eine Erweiterung des Umfeldmodells, so dass dieses eine nachvollziehbare Abhängigkeit von Sensordaten und vorhergegangenen Aktoraktionen ermöglicht. Ferner schaffen manche Ausführungsbeispiele eine Dokumentation der Entscheidung in einer Datenbank, etwa auf einem Hadoop Cluster (einer Gruppe aus Rechnern, die eine Hadoop-Umgebung ausführen).
Ausführungsbeispiele der vorliegenden Offenbarung schaffen ein Verfahren zum Bestimmen von Information über einen oder mehrere Einflussfaktoren, die zu einer Bestimmung einer Trajektorie eines Fahrzeugs führen. Das Verfahren umfasst ein Trainieren eines Maschinenlern-Modells unter Nutzung eines Reinforcement Learning-Ansatzes. Der Reinforcement Learning-Ansatz basiert auf einer Belohnungsfunktion. Die Belohnungsfunktion basiert auf einer Mehrzahl von Komponenten.
Das Maschinenlern-Modell wird trainiert, um die Trajektorie des Fahrzeugs zu bestimmen. Die Trajektorie umfasst eine Mehrzahl von Fahrmanövern. Das Verfahren umfasst ferner ein Bestimmen, für jedes Fahrmanöver der Trajektorie, zumindest einer Komponente der Mehrzahl von Komponenten der Belohnungsfunktion mit einem dominanten Einfluss auf die Belohnungsfunktion. Der dominante Einfluss ist dadurch charakterisiert, dass er zu der Auswahl des Fahrmanövers aus einer Mehrzahl von möglichen Fahrmanövern in dem Training des Maschinenlern-Modells geführt hat. Das Verfahren umfasst ferner ein Auswählen, für jedes Fahrmanöver der Trajektorie, der zumindest einen Komponente als Einflussfaktor für die Auswahl des Fahrmanövers. Das Verfahren umfasst ferner ein Bestimmen der Informationen über die einen oder mehreren Einflussfaktoren basierend auf den Einflussfaktoren der Fahrmanöver der Trajektorie. Durch Durchführen des Verfahrens kann für jedes Fahrmanöver herausgestellt werden, welche Komponente der Belohnungsfunktion ausschlaggebend für die Auswahl des Fahrmanövers war. Diese Information kann nun genutzt werden, um basierend darauf ein weiteres Maschinenlern-Modell zu generieren, das zur Vorhersage eben dieser Komponente (in echten Fahrsituationen) genutzt werden kann.
Beispielsweise kann die Mehrzahl von Komponenten eine Mehrzahl von Zielsetzungen für die Trajektorie abbilden. Die Belohnungsfunktion kann beispielsweise einen Kompromiss zwischen verschiedenen Zielsetzungen darstellen, wie etwa einem Kompromiss zwischen Fahrmanövern mit möglichst wenigen ruckartigen Geschwindigkeitsänderungen und einer Zeit bis zu einer Reaktion auf ein Verkehrsereignis, oder einem Kompromiss aus Fahrgeschwindigkeit und Komfort. Die Mehrzahl von Komponenten der Belohnungsfunktion können diesen Kompromiss abbilden. Durch Bestimmung der Komponente der Belohnungsfunktion, die einen dominanten Einfluss auf die Auswahl des Fahrmanövers ausgewirkt hat, kann somit herausgefunden werden, welche Zielsetzung für die Auswahl des Fahrmanövers geführt hat.
In zumindest einigen Ausführungsbeispielen kann die Mehrzahl von Komponenten auf mehreren Elementen der Gruppe von einer Geschwindigkeit des Fahrzeugs, einer Sicherheit des Fahrzeugs, eines Verbrauchs des Fahrzeugs, eines Fahrkomforts des Fahrzeugs, einer Anzahl von Spurwechseln des Fahrzeugs, einer Anzahl und/oder Intensität von Bremsmanövern des Fahrzeugs, und einer Anzahl/Intensität von Beschleunigungsmanövern des Fahrzeugs basieren. Diese Elemente stellen beispielsweise quantifizierbare Werte dar anhand derer die Belohnungsfunktion genutzt werden kann, um eines der Fahrmanöver auszuwählen.
Beispielsweise kann für jede Komponente der Mehrzahl Komponenten ein Wert der Komponente berechnet werden, der auf dem gewählten Fahrmanöver basiert. Die zumindest eine Komponente kann basierend darauf ausgewählt werden, wie sehr der Wert der Komponente sich gegenüber einem weiteren Wert der Komponente, der basierend auf einem anderen Fahrmanöver der Mehrzahl von möglichen Fahrmanövern berechnet wird, verändert. Große relative Änderungen sind meist ein Hinweis darauf, dass eine Komponente, und damit auch eine Zielsetzung, einen dominanten Einfluss auf die Auswahl des Fahrmanövers ausgeübt hat.
Die Information über die einen oder mehreren Einflussfaktoren können für jedes Fahrmanöver eine Information über eine Abhängigkeit zwischen dem gewählten Fahrmanöver und der zumindest einen Komponente umfassen. Diese Information kann nun genutzt werden, um ein weiteres Maschinenlern-Modell zu trainieren, um diese Abhängigkeit auch in vorher unbekannten Situationen ableiten zu können.
In zumindest einigen Ausführungsbeispielen können Positionsdaten und/oder Bewegungsdaten einer Mehrzahl von Verkehrsobjekten als Eingabedaten für das Maschinenlern-Modell verwendet werden. Das Verfahren kann ein Bestimmen einer Sensitivität des gewählten Fahrmanövers und/oder der Komponente mit einem dominanten Einfluss auf die Belohnungsfunktion auf eine Änderung der Positionsdaten und/oder Bewegungsdaten der Mehrzahl von Verkehrsobjekten umfassen. So können beispielsweise mehrere Varianten simuliert werden, um nachzuvollziehen, wieso sich das Maschinenlern-Modell für dieses Fahrmanöver (und nicht für ein anderes Fahrmanöver entschieden hat), oder inwiefern die (simulierte) Umwelt hätte anders sein müssen, um zu einem anderen Ergebnis zu gelangen.
Beispielsweise kann die Mehrzahl von Verkehrsobjekten ein oder mehrere Elemente der Gruppe von einem Fahrzeug, einem Fußgänger, einem Verkehrsschild, einer Signalanlage, einer Fahrbahn, und einer Fahrbahnveränderung umfassen. Diese Verkehrsobjekte können einen Einfluss auf die Wahl des Fahrmanövers haben.
Ausführungsbeispiele der vorliegenden Offenbarung schaffen ferner ein (weiteres) Verfahren zum Trainieren eines Maschinenlern-Modells. Dieses Verfahren kann nun beispielsweise die in dem vorherigen Verfahren generierte Information über die ein oder mehreren Einflussfaktoren nutzen, um das Maschinenlern-Modell zu trainieren, so dass dieses dafür geeignet ist, in arbiträren Fahrsituationen (außerhalb der Simulation) eine Vorhersage darüber zu treffen, welche Komponente einer Belohnungsfunktion, und damit welche Zielsetzung, einen dominanten Einfluss auf die Auswahl eines Fahrmanövers ausgeübt hat. In anderen Worten kann die Information über die ein oder mehreren Einflussfaktoren basierend auf dem obigen Verfahren bestimmt worden sein. Das Verfahren umfasst ein Trainieren des Maschinenlern-Modells unter Nutzung eines Supervised-Learning-Ansatzes. Als Eingabedaten verwendet werden Positionsdaten und/oder Bewegungsdaten einer Mehrzahl von Verkehrsobjekten. Als Eingabedaten verwendet wird ferner eine Information über eine Mehrzahl von möglichen Fahrmanövern. Als Eingabedaten verwendet wird ferner eine Information über eine basierend auf der Mehrzahl von möglichen Fahrmanövern bestimmte Trajektorie. Die Trajektorie umfasst eine Mehrzahl von Fahrmanövern. Eine Information über eine oder mehrere Einflussfaktoren, die zu einer Bestimmung der Trajektorie basierend auf der Mehrzahl von möglichen Fahrmanövern führten, wird als gewünschter Ausgabewert für das Training des Maschinenlern-Modells verwendet. Die Trajektorie ist durch ein weiteres Maschinenlern-Modell bestimmt. Das weitere Maschinenlern-Modell ist unter Nutzung eines Reinforcement Learning-Ansatzes trainiert. Eine Belohnungsfunktion des Reinforcement Learning-Ansatzes basiert auf einer Mehrzahl von Komponenten. Die Information über die ein oder mehreren Einflussfaktoren gibt für jedes Fahrmanöver der Trajektorie an, welche zumindest eine Komponente der Mehrzahl von Komponenten der Belohnungsfunktion einen dominanten Einfluss auf die Auswahl des Fahrmanövers für die Bestimmung der Trajektorie ausgeübt hat. Dieses Maschinenlern-Modell kann nun beispielsweise in Fahrzeugen, oder in einer Auswertung außerhalb des Fahrzeugs, genutzt werden, um eine Aussage darüber zu treffen, welche Komponente der Belohnungsfunktion, und damit welche Zielsetzung, dazu geführt hat, dass das jeweilige Fahrmanöver aus einer Mehrzahl von Fahrmanövern ausgewählt wurde.
In anderen Worten kann das Maschinenlern-Modell dazu ausgebildet sein, um für jedes Fahrmanöver einer Mehrzahl von Fahrmanövern einer Trajektorie eines Fahrzeugs zumindest eine Komponente der Belohnungsfunktion zu bestimmen, die einen dominanten Einfluss auf die Auswahl des Fahrmanövers ausgeübt hat. Dies erleichtert eine nachfolgende Analyse der Entscheidungen des weiteren Maschinenlern-Modells.
Das Verfahren kann ferner ein Nutzen des Maschinenlern-Modells, um die zumindest eine Komponente der Belohnungsfunktion zu bestimmen, die einen dominanten Einfluss auf die Auswahl des Fahrmanövers ausgeübt hat, umfassen. Dadurch kann eine Aussage darüber getroffen werden, welche Komponente der Belohnungsfunktion (wahrscheinlich) zu der Auswahl des Fahrmanövers geführt hat.
Ausführungsbeispiele schaffen ein Verfahren für ein Fahrzeug. Das Verfahren umfasst ein Nutzen eines ersten Maschinenlern Modells, um eine Trajektorie des Fahrzeugs zu bestimmen. Die Trajektorie umfasst eine Mehrzahl von Fahrmanövern. Das erste Maschinenlern-Modell ist unter Nutzung eines Reinforcement Learning-Ansatzes trainiert. Eine Belohnungsfunktion des Reinforcement Learning-Ansatzes basiert auf einer Mehrzahl von Komponenten. Das Verfahren umfasst ferner ein Nutzen eines zweiten Maschinenlern-Modells um für jedes Fahrmanöver der Mehrzahl von Fahrmanövern zumindest eine Komponente der Belohnungsfunktion zu bestimmen, die einen dominanten Einfluss auf die Auswahl des Fahrmanövers ausgeübt hat. Das zweite Maschinenlern-Modell ist gemäß dem (weiteren) Verfahren zum Trainieren des Maschinenlern-Modells trainiert. Durch das Bestimmen der zumindest einen Komponente der Belohnungsfunktion kann möglicherweise nachvollzogen werden, wie das erste Maschinenlern-Modell zu seiner Auswahl der Fahrmanöver für die Trajektorie gekommen ist.
Beispielsweise kann das Verfahren ein Bereitstellen, für jedes Fahrmanöver der Mehrzahl von Fahrmanövern, einer Information über die zumindest eine Komponente der Belohnungsfunktion und eine Information über das Fahrmanöver für einen Server umfassen. So kann der Server beispielsweise genutzt werden, um zur Nachvollziehbarkeit der ausgeführten Fahrmanöver des Fahrzeugs die Information über die zumindest eine Komponente der Belohnungsfunktion vorzuhalten, was eine nachfolgende Analyse der getroffenen Entscheidungen an einer zentralen Stelle erleichtert.
Alternativ oder zusätzlich kann das Verfahren ein Bereitstellen einer Information über zumindest eine Komponente der Belohnungsfunktion über ein Ausgabemodul des Fahrzeugs umfassen. So kann beispielsweise einem Besitzer des Fahrzeugs vermittelt werden, wieso das Fahrzeug ein Fahrmanöver ausgewählt hat.
Ausführungsbeispiele schaffen ferner ein Programm mit einem Programmcode zum Durchführen zumindest eines der Verfahren, wenn der Programmcode auf einem Computer, einem Prozessor, einem Kontrollmodul oder einer programmierbaren Hardwarekomponente ausgeführt wird.
Ausführungsbeispiele der vorliegenden Offenbarung schaffen ferner eine Vorrichtung zum Bestimmen von Information über einen oder mehrere Einflussfaktoren, die zu einer Bestimmung einer Trajektorie eines Fahrzeugs führen. Die Vorrichtung umfasst ein oder mehrere Rechenmodule und ein oder mehrere Speichermodule. Die Vorrichtung ist ausgebildet zum Trainieren eines Maschinenlern-Modells unter Nutzung eines Reinforcement Learning-Ansatzes. Der Reinforcement Learning-Ansatz basiert auf einer Belohnungsfunktion. Die Belohnungsfunktion basiert auf einer Mehrzahl von Komponenten. Das Maschinenlern-Modell wird trainiert, um die Trajektorie des Fahrzeugs zu bestimmen. Die Trajektorie umfasst eine Mehrzahl von Fahrmanövern. Die Vorrichtung ist ausgebildet zum Bestimmen, für jedes Fahrmanöver der Trajektorie, zumindest einer Komponente der Mehrzahl von Komponenten der Belohnungsfunktion mit einem dominanten Einfluss auf die Belohnungsfunktion. Der dominante Einfluss ist dadurch charakterisiert, dass er zu der Auswahl des Fahrmanövers aus einer Mehrzahl von möglichen Fahrmanövern in dem Training des Maschinenlern-Modells geführt hat. Die Vorrichtung ist ausgebildet zum Auswählen, für jedes Fahrmanöver der Trajektorie, der zumindest einen Komponente als Einflussfaktor für die Auswahl des Fahrmanövers. Die Vorrichtung ist ausgebildet zum Bestimmen der Informationen über die einen oder mehreren Einflussfaktoren basierend auf den Einflussfaktoren der Fahrmanöver der Trajektorie. Durch die Vorrichtung kann für jedes Fahrmanöver herausgestellt werden, welche Komponente der Belohnungsfunktion ausschlaggebend für die Auswahl des Fahrmanövers war. Diese Information kann nun genutzt werden, um basierend darauf ein weiteres Maschinenlern-Modell zu generieren, das zur Vorhersage eben dieser Komponente (in echten Fahrsituationen) genutzt werden kann.
Ausführungsbeispiele der vorliegenden Offenbarung schaffen ferner eine Vorrichtung zum Trainieren eines Maschinenlern-Modells. Die Vorrichtung umfasst ein oder mehrere Rechenmodule und ein oder mehrere Speichermodule. Die Vorrichtung ist ausgebildet zum Trainieren des Maschinenlern-Modells unter Nutzung eines Supervised-Learning-Ansatzes. Als Eingabedaten verwendet werden Positionsdaten und/oder Bewegungsdaten einer Mehrzahl von Verkehrsobjekten. Als Eingabedaten verwendet wird ferner eine Information über eine Mehrzahl von möglichen Fahrmanövern. Als Eingabedaten verwendet wird ferner eine Information über eine basierend auf der Mehrzahl von möglichen Fahrmanövern bestimmte Trajektorie. Die Trajektorie umfasst eine Mehrzahl von Fahrmanövern. Eine Information über eine oder mehrere Einflussfaktoren, die zu einer Bestimmung der Trajektorie basierend auf der Mehrzahl von möglichen Fahrmanövern führten, wird als gewünschter Ausgabewert für das Training des Maschinenlern-Modells verwendet. Die Trajektorie ist durch ein weiteres Maschinenlern-Modell bestimmt. Das weitere Maschinenlern-Modell ist unter Nutzung eines Reinforcement Learning-Ansatzes trainiert. Eine Belohnungsfunktion des Reinforcement Learning-Ansatzes basiert auf einer Mehrzahl von Komponenten. Die Information über die ein oder mehreren Einflussfaktoren gibt für jedes Fahrmanöver der Trajektorie an, welche zumindest eine Komponente der Mehrzahl von Komponenten der Belohnungsfunktion einen dominanten Einfluss auf die Auswahl des Fahrmanövers für die Bestimmung der Trajektorie ausgeübt hat. Dieses Maschinenlern-Modell kann nun beispielsweise in Fahrzeugen, oder in einer Auswertung außerhalb des Fahrzeugs, genutzt werden, um eine Aussage darüber zu treffen, welche Komponente der Belohnungsfunktion, und damit welche Zielsetzung, dazu geführt hat, dass das jeweilige Fahrmanöver aus einer Mehrzahl von Fahrmanövern ausgewählt wurde.
Ausführungsbeispiele der vorliegenden Offenbarung schaffen ferner eine Vorrichtung für ein Fahrzeug. Die Vorrichtung umfasst ein oder mehrere Rechenmodule und ein oder mehrere Speichermodule. Die Vorrichtung ist ausgebildet ist zum Nutzen eines ersten Maschinenlern Modells, um eine Trajektorie des Fahrzeugs zu bestimmen. Die Trajektorie umfasst eine Mehrzahl von Fahrmanövern. Das erste Maschinenlern-Modell ist unter Nutzung eines Reinforcement Learning-Ansatzes trainiert. Eine Belohnungsfunktion des Reinforcement Learning-Ansatzes basiert auf einer Mehrzahl von Komponenten. Die Vorrichtung ist ausgebildet zum Nutzen eines zweiten Maschinenlern-Modells um für jedes Fahrmanöver der Mehrzahl von Fahrmanövern zumindest eine Komponente der Belohnungsfunktion zu bestimmen, die einen dominanten Einfluss auf die Auswahl des Fahrmanövers ausgeübt hat. Das zweite Maschinenlern-Modell ist gemäß dem (weiteren) Verfahren, oder durch die entsprechende Vorrichtung, zum Trainieren des Maschinenlern-Modells trainiert. Durch das Bestimmen der zumindest einen Komponente der Belohnungsfunktion kann möglicherweise nachvollzogen werden, wie das erste Maschinenlern-Modell zu seiner Auswahl der Fahrmanöver für die Trajektorie gekommen ist.
Ausführungsbeispiele werden nachfolgend bezugnehmend auf die beiliegenden Figuren näher erläutert. Es zeigen:

1a zeigt ein Flussdiagramm eines Ausführungsbeispiels eines Verfahrens zum Bestimmen von Information über einen oder mehrere Einflussfaktoren;
1b zeigt ein Blockdiagramm eines Ausführungsbeispiels einer Vorrichtung zum Bestimmen von Information über einen oder mehrere Einflussfaktoren;
2a zeigt ein Flussdiagramm eines Ausführungsbeispiels eines Verfahrens zum Trainieren eines Maschinenlern-Modells;
2b zeigt ein Blockdiagramm eines Ausführungsbeispiels einer Vorrichtung zum Trainieren eines Maschinenlern-Modells;
3a zeigt ein Flussdiagramm eines Ausführungsbeispiels eines Verfahrens für ein Fahrzeug; und
3b zeigt ein Blockdiagramm eines Ausführungsbeispiels einer Vorrichtung für ein Fahrzeug.

Verschiedene Ausführungsbeispiele werden nun ausführlicher unter Bezugnahme auf die beiliegenden Zeichnungen beschrieben, in denen einige Ausführungsbeispiele dargestellt sind. In den Figuren können die Dickenabmessungen von Linien, Schichten und/oder Regionen um der Deutlichkeit Willen übertrieben dargestellt sein.
1a zeigt ein Flussdiagramm eines Ausführungsbeispiels eines Verfahrens zum Bestimmen von Information über einen oder mehrere Einflussfaktoren, die zu einer Bestimmung einer Trajektorie eines Fahrzeugs führen. Das Verfahren umfasst ein Trainieren 110 eines Maschinenlern-Modells unter Nutzung eines Reinforcement Learning-Ansatzes. Der Reinforcement Learning-Ansatz basiert auf einer Belohnungsfunktion. Die Belohnungsfunktion basiert auf einer Mehrzahl von Komponenten. Das Maschinenlern-Modell wird trainiert, um die Trajektorie des Fahrzeugs zu bestimmen. Die Trajektorie umfasst eine Mehrzahl von Fahrmanövern. Das Verfahren umfasst ferner ein Bestimmen 120, für jedes Fahrmanöver der Trajektorie, zumindest einer Komponente der Mehrzahl von Komponenten der Belohnungsfunktion mit einem dominanten Einfluss auf die Belohnungsfunktion. Der dominante Einfluss ist dadurch charakterisiert, dass er zu der Auswahl des Fahrmanövers aus einer Mehrzahl von möglichen Fahrmanövern in dem Training des Maschinenlern-Modells geführt hat. Das Verfahren umfasst ferner ein Auswählen 130, für jedes Fahrmanöver der Trajektorie, der zumindest einen Komponente als Einflussfaktor für die Auswahl des Fahrmanövers. Das Verfahren umfasst ferner ein Bestimmen 140 der Informationen über die einen oder mehreren Einflussfaktoren basierend auf den Einflussfaktoren der Fahrmanöver der Trajektorie.
1b zeigt ein Blockdiagramm eines Ausführungsbeispiels einer entsprechenden Vorrichtung 10 zum Bestimmen von Information über einen oder mehrere Einflussfaktoren. Die Vorrichtung 10 umfasst ein oder mehrere Rechenmodule 14 und ein oder mehrere Speichermodule 16, die mit den ein oder mehreren Rechenmodulen gekoppelt sind. Die Vorrichtung umfasst ferner optional eine Schnittstelle 12 zur Kommunikation mit anderen Vorrichtungen, insbesondere zur Aufnahme und/oder Ausgabe von Daten. Die Schnittstelle 12 kann ferner mit den ein oder mehreren Rechenmodulen 14 gekoppelt sein. Die Vorrichtung 10 ist ausgebildet zum Ausführen des Verfahrens von 1a. Insbesondere können die ein oder mehreren Rechenmodule 14 ausgebildet sein, um das Verfahren von 1a auszuführen, etwa im Zusammenspiel mit der Schnittstelle 12 und/oder den ein oder mehreren Speichermodule 16.
Die folgende Beschreibung bezieht sich sowohl auf das Verfahren von 1a als auch auf die Vorrichtung von 1b.
Zumindest manche Ausführungsbeispiele beziehen sich auf ein Verfahren, eine Vorrichtung sowie ein Computerprogramm zum Bestimmen der Information über die einen oder mehrere Einflussfaktoren, die zu einer Bestimmung einer Trajektorie eines Fahrzeugs führen. Dieses Verfahren, diese Vorrichtung und dieses Computerprogramm können beispielsweise ausgebildet sein, um eine erste Komponente der vorliegenden Offenbarung zu implementieren - das Trainieren eines Maschinenlern-Modells zum Bereitstellen einer Trajektorie für ein Fahrzeug, bei dem zusätzlich Metadaten über die ermittelte Trajektorie ausgegeben wird, in Form der Information über die einen oder mehreren Einflussfaktoren. Dabei lässt sich eine Trajektorie als eine Kombination von einer Mehrzahl von Fahrmanövern beschreiben, d.h. eine Trajektorie umfasst eine Mehrzahl von Fahrmanövern, wie etwa Spurwechsel, Abbremsen, Beschleunigen, Abbiegen etc.
Ein solches Maschinenlern-Modell ist beispielsweise geeignet für autonom fahrende Fahrzeuge mit Automatisierungsfunktionen der Stufen 3 bis 5. Maschinelles Lernen kann sich dabei auf Algorithmen und statistische Modelle beziehen, die Computersysteme verwenden können, um eine bestimmte Aufgabe ohne Verwendung expliziter Anweisungen auszuführen, anstatt sich auf Modelle und Interferenz zu verlassen. Beim maschinellen Lernen kann beispielsweise anstatt einer auf Regeln basierenden Transformation von Daten, eine Transformation von Daten verwendet werden, die aus einer Analyse von Verlaufs- und/oder Trainings-Daten hergeleitet werden kann. Die Trajektorienplanung des autonomen Fahrzeugs (die durch das Maschinenlern-Modell implementiert ist) wird um einen Klassifikator erweitert, der den Grund der Entscheidung für ein bestimmtes Fahrmanöver ermittelt. Dieser Klassifikator stellt die Information über die einen oder mehrere Einflussfaktoren bereit. Ein solcher Klassifikator kann etwa genutzt werden, um Aussagen darüber zu treffen, wieso des Maschinenlern-Modell (im Training) ein bestimmtes Fahrmanöver für die Trajektorie ausgewählt. So kann etwa ein Spurwechsel (ausgewähltes Fahrmanöver) aufgrund von einem langsamen Vorderfahrzeug (Einflussfaktor) ausgewählt worden sein, ein Abbremsen (ausgewähltes Fahrmanöver) aufgrund von verletzlichen Verkehrsteilnehmern am Fahrbahnrand (Einflussfaktor), etc. Der Klassifikator kann dadurch bestimmt werden, dass ein Maschinenlern-Modell zur Trajektorienplanung durch Reinforcement Learning angelernt wird, beispielsweise ähnlich wie in bekannten Ansätzen zum Training von Maschinenlern-Modellen zur Trajektorienplanung. In anderen Worten umfasst das Verfahren das Trainieren 110 des Maschinenlern-Modells unter Nutzung eines Reinforcement Learning-Ansatzes. Das Maschinenlern-Modell wird trainiert, um die Trajektorie des Fahrzeugs zu bestimmen. Die Grundlage hierzu ist beispielsweise eine Simulation auf einem Server, welche mit künstlichen und/oder realen Daten gespeist wird. In anderen Worten kann das Trainieren 110 des Maschinenlern-Modells ein Simulieren einer Mehrzahl von Verkehrssituationen mittels künstlich generierter und/oder realer Daten umfassen. Dabei kann jede Verkehrssituation auf einer Mehrzahl von Verkehrsobjekten basieren. So können Positionsdaten (also Information über eine relative oder absolute statische Position) und/oder Bewegungsdaten (also Information über eine relative oder absolute Positionsveränderungen) einer Mehrzahl von Verkehrsobjekten als Eingabedaten für das Maschinenlern-Modell verwendet werden. Die Positionsdaten und/oder Bewegungsdaten der Mehrzahl von Verkehrsobjekten können genutzt werden, um im Training des Maschinenlern-Modells die Umgebung eines Fahrzeugs abzubilden. Das Maschinenlern-Modell kann trainiert werden, um unter Berücksichtigung der Mehrzahl von Verkehrsobjekte die Trajektorie des Fahrzeugs zu bestimmen. Dabei können die Mehrzahl von Verkehrsobjekten ein oder mehrere Elemente der Gruppe von einem Fahrzeug, einem Fußgänger, einem Verkehrsschild, einer Signalanlage (etwa einer Ampel oder einem anpassbaren Verkehrsschild), einer Fahrbahn, und einer Fahrbahnveränderung umfassen. In anderen Worten kann die Mehrzahl von Verkehrsobjekten ein oder mehrere Fahrzeuge, ein oder mehrere Fußgänger, ein oder mehrere Verkehrsschilder, ein oder mehrere Signalanlagen, ein oder mehrere Fahrbahnen und/oder Fahrstreifen, und/oder ein oder mehrere Fahrbahnveränderungen umfassen.
In Ausführungsbeispielen wird das Maschinenlern-Modell basierend auf einem Reinforcement-Learning Ansatz (auch „Verstärkendes Lernen“) trainiert. Reinforcement Learning, oder Verstärkendes Lernen, ist eine Gruppe von Maschinenlern-Algorithmen. Beim verstärkenden Lernen werden ein oder mehrere Software-Akteure (sogenannte „Software Agents“) trainiert, um Handlungen in einer Umgebung vorzunehmen (in der simulierten Umgebung des Umfelds). Basierend auf den vorgenommenen Handlungen wird eine Belohnung berechnet, basierend auf einer Belohnungsfunktion. In anderen Worten basiert der Reinforcement Learning-Ansatz auf einer Belohnungsfunktion. Diese Belohnungsfunktion basiert auf einer Mehrzahl von Komponenten. Beispielsweise kann die Belohnungsfunktion derart ausgebildet sein, dass verschiedene Zielsetzungen durch die Belohnungsfunktion bewertet werden. Diese Zielsetzungen können beispielsweise durch die Mehrzahl von Komponenten der Belohnungsfunktion abgebildet werden. In anderen Worten kann die Mehrzahl von Komponenten eine Mehrzahl von Zielsetzungen für die Trajektorie abbilden. Dabei kann die Mehrzahl von Komponenten auf mehreren Elementen der Gruppe von einer Geschwindigkeit des Fahrzeugs, einer Sicherheit des Fahrzeugs, eines Verbrauchs des Fahrzeugs, eines Fahrkomforts des Fahrzeugs, einer Anzahl von Spurwechseln des Fahrzeugs, einer Anzahl und/oder Intensität von Bremsmanövern des Fahrzeugs, und einer Anzahl/Intensität von Beschleunigungsmanövern des Fahrzeugs basieren. Entsprechend können die Zielsetzungen definiert sein. In anderen Worten kann das Reinforcement Learning ein Kostenfunktional nutzen, das unterschiedliche Kriterien bezüglich der Trajektorienplanung berücksichtigen kann, wie etwa eine höhere Geschwindigkeit, eine höhere Sicherheit, eine höhere CO₂ Effizienz, ein Komfort (etwa durch geringere ruckartige Bewegungen). So kann die Belohnungsfunktion beispielsweise ein oder mehrere der folgenden Zielsetzungen abbilden, eine möglichst hohe (durchschnittliche) Geschwindigkeit des Fahrzeugs zu erreichen, eine möglichst hohe Sicherheit des Fahrzeugs zu erreichen, einen möglichst geringen Verbrauch des Fahrzeugs zu erreichen, einen möglichst hohen Fahrkomfort des Fahrzeugs zu erreichen, eine möglichst geringe Anzahl von Spurwechseln des Fahrzeugs zu erreichen, eine möglichst geringe Anzahl von Bremsmanövern zu erreichen, eine möglichst geringe Intensität der Bremsmanöver zu erreichen, eine möglichst geringe Anzahl von Beschleunigungsmanöver zu erreichen und eine möglichst geringe Intensität der Beschleunigungsmanöver zu erreichen. Verstärkendes Lernen basiert auf dem Trainieren des einen oder der mehreren Software Agents, um die Handlungen derart auszuwählen, dass die kumulative Belohnung erhöht wird, was zu Software Agents führt, die in der Aufgabe, die ihnen gegeben wird, besser werden (was durch steigende Belohnungen anhand der Belohnungsfunktion nachgewiesen werden kann).
Im Gegensatz zu anderen Reinforcement-Learning-basierten Ansätzen wird dieses Reinforcement Learning in der Simulation durch Metadaten erweitert, wobei analysiert wird, warum sich das Kostenfunktional durch das vorgeschlagene Manöver verbessert. So können beispielsweise folgende Zusammenhänge festgestellt werden:

- Eine höhere Geschwindigkeit wird erreicht, da kein Vorderfahrzeug.
- Höhere Sicherheit wird erreicht, da ein höherer Sicherheitsabstand zum Vorderfahrzeug gewählt wird.
- Höhere CO2 Effizienz wird erreicht, da eine höhere Beschleunigung gewählt wird um eine Ampel zu erreichen.

Dies kann dadurch erreicht werden, dass für jedes Fahrmanöver der Trajektorie bestimmt wird, aufgrund welcher Komponente der Belohnungsfunktion, und damit auch aufgrund welcher Zielsetzung der Mehrzahl von Zielsetzungen, das jeweilige Fahrmanöver ausgewählt wurde. In anderen Worten umfasst das Verfahren das Bestimmen 120, für jedes Fahrmanöver der Trajektorie, zumindest einer Komponente der Mehrzahl von Komponenten der Belohnungsfunktion mit einem dominanten Einfluss auf die Belohnungsfunktion. Genauer kann das Verfahren ein Bestimmen 120, für jedes Fahrmanöver der Trajektorie, zumindest einer Komponente der Mehrzahl von Komponenten der Belohnungsfunktion, die einen dominanten Einfluss auf die Belohnungsfunktion bei der Auswahl des Fahrmanövers für die Trajektorie geführt hat, umfassen. Der dominante Einfluss ist dadurch charakterisiert, dass er zu der Auswahl des Fahrmanövers aus einer Mehrzahl von möglichen Fahrmanövern in dem Training des Maschinenlern-Modells geführt hat. Dabei können durchaus auch zwei oder mehrere Komponenten einen dominanten Einfluss ausüben, etwa bei Komponenten, die einen linearen Zusammenhang aufweisen, wie etwa zwischen den Bremsvorgängen/Beschleunigungsvorgängen und dem Komfort, oder zwischen dem Abstand und der Sicherheit. Die zumindest eine Komponente der Mehrzahl von Komponenten kann beispielsweise basierend darauf ausgewählt werden, wie sehr sich ihr Wert bei der Auswahl des Fahrmanövers gegenüber anderen Fahrmanövern verändert. So kann beispielsweise für jede Komponente der Mehrzahl Komponenten ein Wert der Komponente berechnet werden, der auf dem gewählten Fahrmanöver basiert. Setzt man diese Komponenten zusammen (zusammen mit einer Gewichtungsfunktion) ergibt sich der Wert der Belohnungsfunktion. Die zumindest eine Komponente kann basierend darauf ausgewählt werden, wie sehr der Wert der Komponente sich gegenüber einem weiteren Wert der Komponente, der basierend auf einem anderen Fahrmanöver der Mehrzahl von möglichen Fahrmanövern berechnet wird, verändert. In anderen Worten kann diejenige zumindest eine Komponente ausgewählt werden, die sich bei dem ausgewählten Fahrmanöver gegenüber ein oder mehreren anderen Fahrmanövern (etwa gegenüber dem zweitbesten Fahrmanöver (beurteilt durch die Belohnungsfunktion) oder gegenüber einer Mehrzahl von anderen Fahrmanövern) am meisten (positiv) verändert. Diese zumindest eine Komponente kann nun als Einflussfaktor für dieses Fahrmanöver ausgewählt 130 werden. Zudem kann das Verfahren ein Bestimmen zumindest eines Verkehrsobjekts umfassen, das von der zumindest einen Komponente der Belohnungsfunktion berücksichtigt wird (also für einen signifikanten Anteil (etwa zumindest 10% des Werts der jeweiligen Komponente der Belohnungsfunktion) an dem Wert der Komponente der Belohnungsfunktion verantwortlich ist).
Das Verfahren umfasst ferner das Bestimmen 140 der Informationen über die einen oder mehreren Einflussfaktoren basierend auf den Einflussfaktoren der Fahrmanöver der Trajektorie. Die Information über die einen oder mehreren Einflussfaktoren entspricht dabei den Metadaten, die zuvor erwähnt wurden. Die bestimmten Abhängigkeiten (Einflussfaktoren) können beispielsweise als Key-Value Pair (Schlüssel-Wert-Paar) gespeichert werden, etwa als Teil der Information über die einen oder mehreren Einflussfaktoren. So kann die Information über die einen oder mehreren Einflussfaktoren für jedes Fahrmanöver eine Information über eine Abhängigkeit zwischen dem gewählten Fahrmanöver und der zumindest einen Komponente umfassen (etwa als Key-Value-Pair). Zudem kann die Information über die einen oder mehreren Einflussfaktoren für jedes Fahrmanöver eine Information über eine Abhängigkeit zwischen dem gewählten Fahrmanöver, der zumindest einen Komponente der Belohnungsfunktion und zumindest einem Verkehrsobjekt umfassen, das von der zumindest einen Komponente der Belohnungsfunktion berücksichtigt wird. Diese Information kann nun in dem Verfahren, der Vorrichtung und dem Computerprogramm der 2a und/oder 2b zum Training des (weiteren) Maschinenlern-Modells genutzt werden.
In manchen Ausführungsbeispielen kann ferner die Sensitivität der Entscheidung bestimmt werden. In anderen Worten kann für jedes ausgewählte Fahrmanöver bestimmt werden, inwiefern die Entscheidung anders ausgefallen wäre, wäre die Situation eine (geringfügig) andere gewesen. Dazu können wiederum Positionsdaten (also Information über eine relative oder absolute statische Position) und/oder Bewegungsdaten (also Information über eine relative oder absolute Positionsveränderungen) einer Mehrzahl von Verkehrsobjekten als Eingabedaten für das Maschinenlern-Modell verwendet werden. Das Verfahren kann ein Bestimmen einer Sensitivität des gewählten Fahrmanövers und/oder der Komponente mit einem dominanten Einfluss auf die Belohnungsfunktion auf eine Änderung der Positionsdaten und/oder Bewegungsdaten der Mehrzahl von Verkehrsobjekten umfassen. Dazu kann jede Auswahl eines Fahrmanövers basierend auf einer Mehrzahl von Varianter der Positionsdaten und/oder Bewegungsdaten nachgestellt werden, um herauszufinden, wie groß die Änderung sein muss, damit ein anderes Fahrmanöver von dem Maschinenlern-Modell ausgewählt wird. Ferner kann die Information über die einen oder mehreren Einflussfaktoren für jedes Fahrmanöver eine Information über die Sensitivität des gewählten Fahrmanövers und/oder der Komponente mit einem dominanten Einfluss auf die Belohnungsfunktion auf eine Änderung der Positionsdaten und/oder Bewegungsdaten der Mehrzahl von Verkehrsobjekten umfassen.
Im Folgenden wird auf Maschinenlern-Modelle im Allgemeinen, speziell jedoch auch auf das Maschinenlern-Modell der 1a/1b und die Maschinenlern-Modelle der 2a bis 3b Bezug genommen. Maschinenlern-Algorithmen basieren normalerweise auf einem Maschinenlern-Modell. Anders ausgedrückt, der Begriff „Maschinenlern-Algorithmus“ kann einen Satz von Anweisungen bezeichnen, die verwendet werden können, um ein Maschinenlern-Modell zu erstellen, zu trainieren oder zu verwenden. Der Begriff „Maschinenlern-Modell“ kann eine Datenstruktur und/oder einen Satz von Regeln bezeichnen, die/der das erlernte Wissen darstellt (z. B. basierend auf dem durch den Maschinenlern-Algorithmus ausgeführten Training). Bei Ausführungsbeispielen kann die Verwendung eines Maschinenlern-Algorithmus die Verwendung eines zugrundeliegenden Maschinenlern-Modells (oder einer Mehrzahl von zugrundeliegenden Maschinenlern-Modellen) implizieren. Die Verwendung eines Maschinenlern-Modells kann implizieren, dass das Maschinenlern-Modell und/oder die Datenstruktur/der Satz von Regeln, welche das Maschinenlern-Modell ist/sind, durch einen Maschinenlern-Algorithmus trainiert wird.
Beispielsweise kann das Maschinenlern-Modell ein künstliches neuronales Netz (ANN; artificial neural network) sein. ANNs sind Systeme, die durch biologische neuronale Netze inspiriert sind, wie sie in einer Netzhaut oder einem Gehirn zu finden sind. ANNs umfassen eine Mehrzahl von zwischenverbundenen Knoten und eine Mehrzahl von Verbindungen, sogenannte Kanten (edges), zwischen den Knoten. Es gibt normalerweise drei Knotentypen, Eingabeknoten, die Eingabewerte empfangen, versteckte Knoten, die (nur) mit anderen Knoten verbunden sind, und Ausgabeknoten, die Ausgabewerte bereitstellen. Jeder Knoten kann ein künstliches Neuron darstellen. Jede Kante kann Information senden, von einem Knoten zum anderen. Die Ausgabe eines Knoten kann als eine (nichtlineare) Funktion der Eingaben definiert sein (z.B. der Summe seiner Eingaben). Die Eingaben eines Knoten können in der Funktion basierend auf einem „Gewicht“ der Kante oder des Knoten, der die Eingabe bereitstellt, verwendet werden. Das Gewicht von Knoten und/oder von Kanten kann in dem Lernprozess angepasst werden. Anders ausgedrückt, das Training eines künstlichen neuronalen Netzes kann ein Anpassen der Gewichte der Knoten und/oder Kanten des künstlichen neuronalen Netzes umfassen, d. h. um eine erwünschte Ausgabe für eine bestimmte Eingabe zu erreichen.
Alternativ kann das Maschinenlern-Modell eine Support-Vector-Machine, ein Random-Forest-Modell oder ein Gradient-Boosting-Modell sein. Support Vector Machines (d. h. Stützvektornetze) sind Supervised Learning-Modelle mit zugeordneten Lernalgorithmen, die verwendet werden können, um Daten zu analysieren (z. B. in einer Klassifizierungs- oder Regressionsanalyse). Support Vector Machines können durch Bereitstellen einer Eingabe mit einer Mehrzahl von Trainingseingabewerten, die zu einer von zwei Kategorien gehören, trainiert werden. Die Support Vector Machine kann trainiert werden, um einer der beiden Kategorien einen neuen Eingabewert zuzuweisen. Alternativ kann das Maschinenlern-Modell ein bayessches Netz sein, das ein probabilistisches gerichtetes azyklisches graphisches Modell ist. Ein bayessches Netz kann einen Satz von Zufallsvariablen und ihre bedingten Abhängigkeiten unter Verwendung eines gerichteten azyklischen Graphen darstellen. Alternativ kann das Maschinenlern-Modell auf einem genetischen Algorithmus basieren, der ein Suchalgorithmus und heuristische Technik ist, die den Prozess der natürlichen Selektion imitiert.
Die Schnittstelle 12 (und/oder entsprechende Schnittstellen 22; 32 der Vorrichtungen 20; 30 der 2b und/oder 3b) kann beispielsweise einem oder mehreren Eingängen und/oder einem oder mehreren Ausgängen zum Empfangen und/oder Übertragen von Informationen entsprechen, etwa in digitalen Bitwerten, basierend auf einem Code, innerhalb eines Moduls, zwischen Modulen, oder zwischen Modulen verschiedener Entitäten.
In Ausführungsbeispielen können die ein oder mehreren Rechenmodule 14 (und/oder entsprechende Rechenmodule 24; 34 der Vorrichtungen 20; 30 der 2b und/oder 3b) einen oder mehreren beliebigen Controllern oder Prozessoren oder einer programmierbaren Hardwarekomponente entsprechen. Beispielsweise können die ein oder mehreren Rechenmodule 14 auch als Software realisiert sein, die für eine entsprechende Hardwarekomponente programmiert ist. können die ein oder mehreren Rechenmodule 14 als programmierbare Hardware mit entsprechend angepasster Software implementiert sein. Dabei können beliebige Prozessoren, wie Digitale Signalprozessoren (DSPs) zum Einsatz kommen. Ausführungsbeispiele sind dabei nicht auf einen bestimmten Typ von Prozessor eingeschränkt. Es sind beliebige Prozessoren oder auch mehrere Prozessoren zur Implementierung der ein oder mehreren Rechenmodule 14 denkbar.
Die ein oder mehreren Speichermodule 16 (und/oder entsprechende Speichermodule 26; 36 der Vorrichtungen 20; 30 der 2b und/oder 3b) können beispielsweise zumindest ein Element der Gruppe von computerlesbares Speichermedium, magnetisches Speichermedium, optisches Speichermedium, Festplatte, Flash-Speicher, Diskette, Zufallszugriffsspeicher (auch engl. Random Access Memory), Programmable Read Only Memory (PROM), Erasable Programmable Read Only Memory (EPROM), Electronically Erasable Programmable Read Only Memory (EEPROM), und Netzwerkspeicher umfassen.
2a zeigt ein Flussdiagramm eines Ausführungsbeispiels eines Verfahrens zum Trainieren eines Maschinenlern-Modells. Bei diesem Maschinenlern-Modell handelt es sich nun um ein Maschinenlern-Modell, das die beispielsweise durch das Verfahren der 1a gewonnene Information über die ein oder mehreren Einflussfaktoren für das Training des Maschinenlern-Modells nutzt, um letztendlich für beliebige Trajektorien, die von einem Maschinenlern-Modell bereitgestellt wurden, die auf der gleichen (oder ähnlichen) Belohnungsfunktion basiert, diejenige Komponente der Belohnungsfunktion zu schätzen, die für die Auswahl eines Fahrmanövers für die Trajektorie einen dominanten Einfluss ausgeübt hat. Das Verfahren umfasst ein Trainieren 210 des Maschinenlern-Modells unter Nutzung eines Supervised-Learning-Ansatzes (wörtliche Übersetzung: Beaufsichtigtes Lernen-Ansatz). Als Eingabedaten für das Training des Maschinenlern-Modells werden:

- Positionsdaten und/oder Bewegungsdaten einer Mehrzahl von Verkehrsobjekten,
- Information über eine Mehrzahl von möglichen Fahrmanövern, und
- Information über eine basierend auf der Mehrzahl von möglichen Fahrmanövern bestimmte Trajektorie verwendet. Die Trajektorie umfasst eine Mehrzahl von Fahrmanövern. Eine Information über eine oder mehrere Einflussfaktoren, die zu einer Bestimmung der Trajektorie basierend auf der Mehrzahl von möglichen Fahrmanövern führten, wird als gewünschter Ausgabewert für das Training des Maschinenlern-Modells verwendet (etwa die Information über die ein oder mehreren Einflussfaktoren, die von dem Verfahren, der Vorrichtung oder dem Computerprogramm von 1a/1b bereitgestellt werden. Die Trajektorie ist durch ein weiteres Maschinenlern-Modell bestimmt. Das weitere Maschinenlern-Modell ist unter Nutzung eines Reinforcement Learning-Ansatzes trainiert. Eine Belohnungsfunktion des Reinforcement Learning-Ansatzes basiert auf einer Mehrzahl von Komponenten. Die Information über die ein oder mehreren Einflussfaktoren gibt für jedes Fahrmanöver der Trajektorie an, welche zumindest eine Komponente der Mehrzahl von Komponenten der Belohnungsfunktion einen dominanten Einfluss auf die Auswahl des Fahrmanövers für die Bestimmung der Trajektorie ausgeübt hat.

2b zeigt ein Blockdiagramm eines Ausführungsbeispiels einer entsprechenden Vorrichtung zum Trainieren des Maschinenlern-Modells. Die Vorrichtung 20 umfasst ein oder mehrere Rechenmodule 24 und ein oder mehrere Speichermodule 26, die mit den ein oder mehreren Rechenmodulen gekoppelt sind. Die Vorrichtung umfasst ferner optional eine Schnittstelle 22 zur Kommunikation mit anderen Vorrichtungen, insbesondere zur Aufnahme und/oder Ausgabe von Daten. Die Schnittstelle 22 kann ferner mit den ein oder mehreren Rechenmodulen 24 gekoppelt sein. Die Vorrichtung 20 ist ausgebildet zum Ausführen des Verfahrens von 2a. Insbesondere können die ein oder mehreren Rechenmodule 24 ausgebildet sein, um das Verfahren von 1a auszuführen, etwa im Zusammenspiel mit der Schnittstelle 22 und/oder den ein oder mehreren Speichermodule 26.
Die folgende Beschreibung bezieht sich sowohl auf das Verfahren von 2a als auch auf die entsprechende Vorrichtung von 2b.
Das Verfahren, die Vorrichtung und das entsprechende Computerprogramm der 2a bis 2c beziehen sich nun auf das Training eines Maschinenlern-Modells, das genutzt werden kann, um basierend auf einer bestimmten Trajektorie, basierend auf den möglichen Fahrmanövern, und basierend auf Positionsdaten und/oder Bewegungsdaten einer Mehrzahl von Verkehrsobjekten zu bestimmen (vorauszusagen), welches Komponente einer Belohnungsfunktion dazu geführt hat, dass die Trajektorie bestimmt wurde. Dabei kann das Maschinelem-Modell beispielsweise ein neuronales Netz sein, das zumindest eine versteckte Schicht (engl. hidden layer) und eine Soft-Max Schicht (eine Softmaxfunktion, oder normalisierte Exponentialfunktion) als Ausgang umfassen kann. Dieses Maschinenlern-Modell kann beispielsweise als Klassifikator trainiert werden. In anderen Worten kann ein (zweiter) Klassifikator auf Grundlage der vorhergehenden Ergebnissen trainiert werden. Dieser ist als Supervised Learning Algorithmus umgesetzt.
Wie bereits zuvor geschrieben kann sich Maschinelles Lernen auf Algorithmen und statistische Modelle beziehen, die Computersysteme verwenden können, um eine bestimmte Aufgabe ohne Verwendung expliziter Anweisungen auszuführen, anstatt sich auf Modelle und Interferenz zu verlassen. Beim maschinellen Lernen kann beispielsweise anstatt einer auf Regeln basierenden Transformation von Daten, eine Transformation von Daten verwendet werden, die aus einer Analyse von Verlaufs- und/oder Trainings-Daten hergeleitet werden kann. Beispielsweise kann der Inhalt von Bildern unter Verwendung eines Maschinenlern-Modells oder unter Verwendung eines Maschinenlern-Algorithmus analysiert werden. Damit das Maschinenlern-Modell den Inhalt eines Bildes analysieren kann, kann das Maschinenlern-Modell unter Verwendung von Trainingsbildern als Eingabe und Trainingsinhaltsinformation als Ausgabe trainiert werden. Durch Trainieren des Maschinenlern-Modells mit einer großen Anzahl von Trainingsbildern und/oder Trainingssequenzen (z. B. Wörtern oder Sätzen) und zugeordneter Trainingsinhaltsinformation (z. B. Kennzeichnungen oder Anmerkungen) „lernt“ das Maschinenlern-Modell, den Inhalt der Bilder zu erkennen, sodass der Inhalt von Bildern, die in den Trainingsdaten nicht umfasst sind, unter Verwendung des Maschinenlern-Modells erkannt werden kann. Das gleiche Prinzip kann für andere Arten von Daten ebenfalls verwendet werden: Durch Trainieren eines Maschinenlern-Modells unter Verwendung von Trainingssensordaten und einer erwünschten Ausgabe „lernt“ das Maschinenlern-Modell eine Umwandlung zwischen den Daten und der Ausgabe, was verwendet werden kann, um eine Ausgabe basierend auf an das Maschinenlern-Modell bereitgestellten Nicht-Trainings-Sensordaten bereitzustellen. Die bereitgestellten Daten (z.B. Sensordaten, Metadaten und/oder Bilddaten) können vorverarbeitet werden, um einen Merkmalsvektor zu erhalten, welcher als Eingang für das Maschinenlern-Modell verwendet wird. Ein solcher Ansatz wird bei dem Training des Maschinenlern-Modells von 2a/2b verfolgt.
Maschinenlern-Modelle können unter Verwendung von Trainingseingabedaten trainiert werden. Die oben angeführten Beispiele verwenden, wie Ausführungsbeispiele der 2a/2b ein Trainingsverfahren, das „Supervised Learning“ genannt wird. Beim Supervised Learning wird das Maschinenlern-Modell unter Verwendung einer Mehrzahl von Trainingsmusterwerten (engl. „training samples“) trainiert, wobei jeder Trainingsmusterwert eine Mehrzahl von Eingabewerten und eine Mehrzahl von erwünschten Ausgabewerten, d. h. jedem Eingabewert ist ein erwünschter Ausgabewert zugeordnet, umfassen kann. Durch Angeben sowohl von Eingabedatenwerten als auch erwünschten Ausgabewerten „lernt“ das Maschinenlern-Modell, welcher Ausgabewert basierend auf einem Eingabewert, der ähnlich zu den während des Trainings bereitgestellten Eingabewerten ist, bereitzustellen ist.. Supervised Learning kann auf einem Supervised Learning-Algorithmus basieren (beispielsweise einem Klassifizierungsalgorithmus, einem Regressionsalgorithmus oder einem Ähnlichkeitslernen-Algorithmus). Klassifizierungsalgorithmen können verwendet werden, wenn die Ausgaben auf eine begrenzte Menge von Werten (kategorische Variablen) beschränkt sind, d. h. die Eingabe ist als einer aus dem begrenzten Satz von Werten klassifiziert. In Ausführungsbeispielen kann das Maschinenlern-Modell unter Verwendung eines Klassifizierungsalgorithmus trainiert werden.
Folgende Eingangsdaten können als Eingangswerte für das Training des Maschinenlern-Modells verwendet werden:

- das simulierte dynamische Fahrzeugumfeld, insbesondere als Position, Geschwindigkeit und Klasse der umliegenden Objekte (etwa die Positionsdaten und/oder Bewegungsdaten der Mehrzahl von Verkehrsobjekten)
- die möglichen Manöver, beispielsweise Spurwechsel, Stopp an Haltelinie (etwa die Information über die Mehrzahl von möglichen Fahrmanövern)
- die klassische Trajektorienplanung als aneinandergereihte Kanten mit Steigungen (etwa die Information über die basierend auf der Mehrzahl von möglichen Fahrmanövern bestimmte Trajektorie).

Dabei können die Trainingsdaten (die Eingabedaten) die gleichen Daten sein, wie sie zum Anlernen des Reinforcement Learning von 1a/1b verwendet wurden. Hieraus kann sich auch die Ground Truth (wörtliche Übersetzung „Bodenwahrheit“) ergeben, da die Szenarien im Voraus bekannt sind.
Als gewünschter Ausgabewert des Trainings wird die Information über die ein oder mehreren Einflussfaktoren, die zu einer Bestimmung der Trajektorie basierend auf der Mehrzahl von möglichen Fahrmanövern führten, verwendet. Die Information über die ein oder mehreren Einflussfaktoren gibt für jedes Fahrmanöver der Trajektorie an, welche zumindest eine Komponente der Mehrzahl von Komponenten der Belohnungsfunktion einen dominanten Einfluss auf die Auswahl des Fahrmanövers für die Bestimmung der Trajektorie ausgeübt hat. In anderen Worten kann die Information über die ein oder mehreren Einflussfaktoren für jedes Fahrmanöver einer Trajektorie eine Abhängigkeit zwischen dem gewählten Fahrmanöver und der zumindest einen Komponente der Belohnungsfunktion spezifizieren. Dies ermöglicht es, das Maschinenlern-Modell zu trainieren, um die Komponente der Belohnungsfunktion zu identifizieren, die einen dominanten Einfluss auf die Belohnungsfunktion ausgeübt hat und somit zur Auswahl des Fahrmanövers geführt hat. Das Maschinenlern-Modell kann folglich dazu ausgebildet sein, um für jedes Fahrmanöver einer Mehrzahl von Fahrmanövern einer Trajektorie eines Fahrzeugs zumindest eine Komponente der Belohnungsfunktion zu bestimmen, die einen dominanten Einfluss auf die Auswahl des Fahrmanövers ausgeübt hat.
Zudem kann die Information über die ein oder mehreren Einflussfaktoren für jedes Fahrmanöver einer Trajektorie eine Abhängigkeit zwischen dem gewählten Fahrmanöver, der zumindest einen Komponente der Belohnungsfunktion und zumindest einem Verkehrsobjekt umfassen, das von der zumindest einen Komponente der Belohnungsfunktion berücksichtigt wird. Dies ermöglicht es, das Maschinenlern-Modell zu trainieren, um das zumindest eine Verkehrsobjekt zu identifizieren, das, im Zusammenhang mit der Komponente der Belohnungsfunktion, zur Auswahl des Fahrmanövers geführt hat. In anderen Worten kann der Klassifikator als Ergebnis das Umfeldobjekt oder die Umfeldobjekte (Verkehrsobjekt(e)) identifizieren, die zu der Verbesserung der jeweiligen Kostenfunktionale geführt hat/haben. Das Maschinenlern-Modell kann folglich dazu ausgebildet sein, um für jedes Fahrmanöver einer Mehrzahl von Fahrmanövern einer Trajektorie eines Fahrzeugs zumindest eine Komponente der Belohnungsfunktion zu bestimmen, die einen dominanten Einfluss auf die Auswahl des Fahrmanövers ausgeübt hat, und um zumindest ein Verkehrsobjekt zu bestimmen, das von der zumindest einen Komponente der Belohnungsfunktion berücksichtigt wird.
In einer vorteilhaften Ausprägung erfolgt eine Analyse des Klassifikators hinsichtlich der Sensitivität der Eingangssignale und des Manövers. Beispielsweise kann dort die Frage untersucht werden, ob das Manöver anders entschieden worden wäre, wäre der Fußgänger 1 m/s schneller gewesen? Dazu kann die Information über die einen oder mehreren Einflussfaktoren für jedes Fahrmanöver eine Information über eine Sensitivität des gewählten Fahrmanövers und/oder der Komponente mit einem dominanten Einfluss auf die Belohnungsfunktion auf eine Änderung der Positionsdaten und/oder Bewegungsdaten der Mehrzahl von Verkehrsobjekten umfassen. Das Maschinenlern-Modell kann trainiert werden, um für jedes Fahrmanöver die Sensitivität des gewählten Fahrmanövers und/oder der Komponente mit einem dominanten Einfluss auf die Belohnungsfunktion auf eine Änderung der Positionsdaten und/oder Bewegungsdaten der Mehrzahl von Verkehrsobjekten zu bestimmen (basierend auf den zuvor spezifizierten Eingangsdaten, und unter Nutzung der Information über die Sensitivität des gewählten Fahrmanövers und/oder der Komponente mit einem dominanten Einfluss auf die Belohnungsfunktion auf eine Änderung der Positionsdaten und/oder Bewegungsdaten der Mehrzahl von Verkehrsobjekten als gewünschten Ausgabewert). So kann das Maschinenlern-Modell folglich dazu ausgebildet sein, um für jedes Fahrmanöver der Mehrzahl von Fahrmanövern der Trajektorie eines Fahrzeugs ferner die Sensitivität des gewählten Fahrmanövers und/oder der Komponente mit einem dominanten Einfluss auf die Belohnungsfunktion auf eine Änderung der Positionsdaten und/oder Bewegungsdaten der Mehrzahl von Verkehrsobjekten zu bestimmen.
Ferner kann das Verfahren, wie weiter in 2a gezeigt ist, ein Nutzen 220 des Maschinenlern-Modells, um die zumindest eine Komponente der Belohnungsfunktion zu bestimmen, die einen dominanten Einfluss auf die Auswahl des Fahrmanövers ausgeübt hat, umfassen. Dazu können anstatt den Trainingseingabedaten „richtige“ Eingabedaten, also Eingabedaten eines Fahrzeugs an den Eingängen des Maschinenlern-Modells angelegt werden, und die Ausgabe des Maschinenlern-Modells kann die zumindest eine Komponente der Belohnungsfunktion, und optional die entsprechenden Verkehrsobjekte und die Sensitivität anzeigen.
3a zeigt ein Flussdiagramm eines Ausführungsbeispiels eines Verfahrens für ein Fahrzeug 300. Das Verfahren umfasst ein Nutzen 310 eines ersten Maschinenlern Modells, um eine Trajektorie des Fahrzeugs zu bestimmen. Dabei kann das Maschinenlern-Modell ähnlich wie das Maschinenlern-Modell von 1a/1b implementiert sein, wobei die Bestimmung der Information über die ein oder mehreren Einflussfaktoren unterlassen werden kann. Insbesondere kann das erste Maschinenlern-Modell auf der gleichen oder einer ähnlichen Belohnungsfunktion basieren wie das Maschinenlern-Modell von 1a/1b. Die Trajektorie umfasst eine Mehrzahl von Fahrmanövern. Das erste Maschinenlern-Modell ist unter Nutzung eines Reinforcement Learning-Ansatzes trainiert. Die Belohnungsfunktion des Reinforcement Learning-Ansatzes auf einer Mehrzahl von Komponenten basiert. Das Verfahren umfasst ferner ein Nutzen 320 eines zweiten Maschinenlern-Modells um für jedes Fahrmanöver der Mehrzahl von Fahrmanövern zumindest eine Komponente der Belohnungsfunktion zu bestimmen, die einen dominanten Einfluss auf die Auswahl des Fahrmanövers ausgeübt hat. Dabei ist das zweite Maschinenlern-Modell gemäß dem Verfahren, der Vorrichtung und/oder dem Computerprogramm der 2a/2b trainiert. In manchen Ausführungsbeispielen kann das Verfahren von dem Fahrzeug ausgeführt werden, etwa von einer Vorrichtung für das Fahrzeug, wie sie in 3b gezeigt ist. Alternativ kann das Verfahren zumindest teilweise außerhalb des Fahrzeugs ausgeführt werden, etwa von einem Server. In diesem Fall kann das Nutzen des ersten Maschinenlern-Modells ein Erhalten einer Information über die Trajektorie umfassen, wobei die Trajektorie von dem ersten Maschinenlern-Modell bestimmt wurde. In diesem Fall kann die Trajektorie durch ein Fahrzeug bestimmt werden und gespeichert werden, und von der Entität außerhalb des Fahrzeugs von dem Fahrzeug erhalten werden.
3b zeigt ein Blockdiagramm eines Ausführungsbeispiels einer entsprechenden Vorrichtung 30 für das Fahrzeug 300. 3b zeigt ferner das Fahrzeug 300 umfassend die Vorrichtung 30. Die Vorrichtung 30 umfasst ein oder mehrere Rechenmodule 34 und ein oder mehrere Speichermodule 36, die mit den ein oder mehreren Rechenmodulen gekoppelt sind. Die Vorrichtung umfasst ferner optional eine Schnittstelle 32 zur Kommunikation mit anderen Vorrichtungen, insbesondere zur Aufnahme und/oder Ausgabe von Daten. Die Schnittstelle 32 kann ferner mit den ein oder mehreren Rechenmodulen 34 gekoppelt sein. Die Vorrichtung 30 ist ausgebildet zum Ausführen des Verfahrens von 3a. Insbesondere können die ein oder mehreren Rechenmodule 34 ausgebildet sein, um das Verfahren von 3a auszuführen, etwa im Zusammenspiel mit der Schnittstelle 32 und/oder den ein oder mehreren Speichermodule 36.
Die folgende Beschreibung bezieht sich sowohl auf das Verfahren der 3a als auch auf die Vorrichtung und das Fahrzeug der 3b.
Das Verfahren, die Vorrichtung und das entsprechende Computerprogramm der 3a/3b beziehen sich nun auf den Einsatz des Maschinenlern-Modells, das durch das Verfahren, die Vorrichtung und/oder das Computerprogramm der 2a/2b generiert wurde. Dabei sind zwei Komponenten vorgesehen: Einerseits wird ein erstes Maschinenlern-Modell genutzt, um die Trajektorie zu bestimmen. Dieses erste Maschinenlern-Modell kann beispielsweise dem Maschinenlern-Modell der 1a/1b entsprechen. Alternativ kann das erste Maschinenlern-Modell einem Maschinenlern-Modell entsprechen, das basierend auf der Belohnungsfunktion des Maschinenlern-Modells von 1a/1b, oder basierend auf einer ähnlichen Belohnungsfunktion, trainiert wurde. Dabei können Positionsdaten (also Information über eine relative oder absolute statische Position) und/oder Bewegungsdaten (also Information über eine relative oder absolute Positionsveränderungen) einer Mehrzahl von Verkehrsobjekten als Eingabedaten für das erste Maschinenlern-Modell verwendet werden. Basierend auf den Positionsdaten und/oder Bewegungsdaten kann das Maschinenlern-Modell ausgebildet sein, um die Trajektorie mit der Mehrzahl von Fahrmanövern zu bestimmen. Dabei ist das Maschinenlern-Modell basierend auf dem Reinforcement-Learning-Ansatz mit Hilfe der Belohnungsfunktion trainiert. Folglich kann Maschinenlern-Modell ausgebildet sein, um die Trajektorie im Einklang mit der Belohnungsfunktion zu bestimmen. Dies kann dadurch gewährleistet sein, dass das Maschinenlern-Modell darauf trainiert wurde, Trajektorien zu bestimmen, die besonders gute Werte in der Bewertung durch die Belohnungsfunktion erreichen.
Ferner wird das zweite Maschinenlern-Modell genutzt, um für jedes Fahrmanöver der Mehrzahl von Fahrmanövern zumindest eine Komponente der Belohnungsfunktion zu bestimmen, die einen dominanten Einfluss auf die Auswahl des Fahrmanövers ausgeübt hat. Dieses zweite Maschinenlern-Modell ist nun gemäß dem Verfahren, der Vorrichtung und/oder dem Computerprogramm der 2a/2b generiert. Durch dieses Maschinenlern-Modell wird beispielsweise das autonome Serienfahrzeug um die Klassifikationskomponente erweitert und kann damit zu jedem Zeitpunkt eineindeutig bestimmen, aus welchem Grund eine Manöverentscheidung getroffen wurde.
Die Manöverentscheidung, inklusive eines Zeitstempels und der Abhängigkeiten, kann über eine Kommunikationseinheit an das Backend des Fahrzeugherstellers oder ODM (On-Demand-Mobility, Bedarfsabhängige Mobilität) Anbieters übermittelt. In anderen Worten kann das Verfahren ein Bereitstellen (etwa ein Übermitteln) der Trajektorie an einen Server umfassen. Ferner kann das Verfahren ein Bereitstellen (etwa ein Übermitteln) 330, für jedes Fahrmanöver der Mehrzahl von Fahrmanövern, einer Information über die zumindest eine Komponente der Belohnungsfunktion und eine Information über das Fahrmanöver für den Server umfassen. Ferner kann das Umfeldmodell übermittelt werden, das zu der Generierung der Trajektorie geführt hat. Dazu kann das Umfeldmodell erweitert werden, so dass dieses eine nachvollziehbare Abhängigkeit von Sensordaten und vorhergegangenen Aktoraktionen abbildet. In Ausführungsbeispielen können die Positionsdaten und/oder Bewegungsdaten der Mehrzahl von Verkehrsobjekten an den Server übermittelt werden. Diese können mit der übermittelten Trajektorie in Beziehung gesetzt sein, so dass ersichtlich ist, welche Positionsdaten / Bewegungsdaten zu der Auswahl eines Fahrmanövers geführt hat. Zudem können die Positionsdaten und/oder Bewegungsdaten über einen Zeitraum, und nicht nur zu einem Zeitpunkt, übermittelt werden, so dass ersichtlich ist, wie sich die Positionen und Bewegungen der Verkehrsteilnehmer entwickelt haben. In einer vorteilhaften Ausprägung wird im Backend die Sensitivität der Entscheidung bestimmt. Dies kann ähnlich implementiert sein, wie im Zusammenhang mit den 1a bis 2b beschrieben wurde.
In manchen Ausführungsbeispielen kann die Entscheidung dem technisch interessierten Fahrer präsentiert werden. Folglich kann das Verfahren ein Bereitstellen 340 einer Information über die zumindest eine Komponente der Belohnungsfunktion über ein Ausgabemodul des Fahrzeugs umfassen. Dabei kann das Ausgabemodul beispielsweise einem Bildschirm des Fahrzeugs entsprechen. Die Information über die zumindest eine Komponente der Belohnungsfunktion kann beispielsweise so dargestellt werden, dass für jedes Fahrmanöver dargestellt wird, welche Zielsetzung die jeweilige Komponente der Belohnungsfunktion darstellt, etwa „das Fahrmanöver wurde ausgeführt, um den Komfort, die Sicherheit, den Verbrauch oder ähnliches zu verbessern“. In manchen Ausführungsbeispielen kann ferner zumindest ein Verkehrsobjekt der Mehrzahl von Verkehrsobjekten dargestellt werden, das einen Einfluss auf die Komponente ausgeübt hat. So kann beispielsweise ausgegeben werden, dass ein Fahrmanöver durchgeführt wurde, da ein vorfahrendes Verkehrsobjekt zu langsam fährt, oder da ein Fußgänger an der Straßenkante erkannt wurde.
Obwohl manche Aspekte im Zusammenhang mit einem System oder einer Vorrichtung beschrieben wurden, versteht es sich, dass diese Aspekte auch eine Beschreibung des entsprechenden Verfahrens darstellen, sodass ein funktionales Merkmal, ein Block oder ein Bauelement einer Vorrichtung auch als ein entsprechender Verfahrensschritt oder als ein Merkmal eines Verfahrensschrittes zu verstehen ist. Analog dazu stellen Aspekte, die im Zusammenhang mit einem oder als ein Verfahrensschritt beschrieben wurden, auch eine Beschreibung eines entsprechenden funktionalen Merkmals, Blocks oder Details oder Merkmals eines entsprechenden Systems dar.
Ein weiteres Ausführungsbeispiel ist ein Computerprogramm zur Durchführung zumindest eines der oben beschriebenen Verfahren, wenn das Computerprogramm auf einem Computer, einem Prozessor oder einer programmierbaren Hardwarekomponente abläuft. Ein weiteres Ausführungsbeispiele ist auch ein digitales Speichermedium, das maschinen- oder computerlesbar ist, und das elektronisch lesbare Steuersignale aufweist, die mit einer programmierbaren Hardwarekomponente so zusammenwirken können, dass eines der oben beschriebenen Verfahren ausgeführt wird.
Je nach bestimmten Implementierungsanforderungen können Ausführungsbeispiele der Erfindung in Hardware oder in Software implementiert sein. Die Implementierung kann unter Verwendung eines digitalen Speichermediums, beispielsweise einer Floppy-Disk, einer DVD, einer Blu-Ray Disc, einer CD, eines ROM, eines PROM, eines EPROM, eines EEPROM oder eines FLASH-Speichers, einer Festplatte oder eines anderen magnetischen oder optischen Speichers durchgeführt werden, auf dem elektronisch lesbare Steuersignale gespeichert sind, die mit einer programmierbaren Hardwarekomponente derart zusammenwirken können oder zusammenwirken, dass das jeweilige Verfahren durchgeführt wird.
Allgemein können Ausführungsbeispiele der vorliegenden Erfindung als Programm, Firmware, Computerprogramm oder Computerprogrammprodukt mit einem Programmcode oder als Daten implementiert sein, wobei der Programmcode oder die Daten dahin gehend wirksam ist bzw. sind, eines der Verfahren durchzuführen, wenn das Programm auf einem Prozessor oder einer programmierbaren Hardwarekomponente abläuft. Der Programmcode oder die Daten kann bzw. können beispielsweise auch auf einem maschinenlesbaren Träger oder Datenträger gespeichert sein. Der Programmcode oder die Daten können unter anderem als Quellcode, Maschinencode oder Bytecode sowie als anderer Zwischencode vorliegen.
Ein Programm gemäß einem Ausführungsbeispiel kann eines der Verfahren während seiner Durchführung beispielsweise dadurch umsetzen, dass dieses Speicherstellen ausliest oder in diese ein Datum oder mehrere Daten hinein schreibt, wodurch gegebenenfalls Schaltvorgänge oder andere Vorgänge in Transistorstrukturen, in Verstärkerstrukturen oder in anderen elektrischen, optischen, magnetischen oder nach einem anderen Funktionsprinzip arbeitenden Bauteile hervorgerufen werden. Entsprechend können durch ein Auslesen einer Speicherstelle Daten, Werte, Sensorwerte oder andere Informationen von einem Programm erfasst, bestimmt oder gemessen werden. Ein Programm kann daher durch ein Auslesen von einer oder mehreren Speicherstellen Größen, Werte, Messgrößen und andere Informationen erfassen, bestimmen oder messen, sowie durch ein Schreiben in eine oder mehrere Speicherstellen eine Aktion bewirken, veranlassen oder durchführen sowie andere Geräte, Maschinen und Komponenten ansteuern.
Bezugszeichenliste

10: Vorrichtung zum Bestimmen von Information über einen oder mehrere Einflussfaktoren
12: Schnittstelle
14: Rechenmodul
16: Speichermodul
20: Vorrichtung zum Trainieren eines Maschinenlern-Modells
22: Schnittstelle
24: Rechenmodul
26: Speichermodul
30: Vorrichtung für ein Fahrzeug
32: Schnittstelle
34: Rechenmodul
36: Speichermodul
110: Trainieren eines Maschinenlern-Modells
120: Bestimmen zumindest einer Komponente einer Belohnungsfunktion
130: Auswählen der zumindest einen Komponente
140: Bestimmen einer Information über ein oder mehrere Einflussfaktoren
210: Trainieren eines Maschinenlern-Modells
220: Nutzen des Maschinenlern-Modells
300: Fahrzeug
310: Nutzen eines ersten Maschinenlern-Modells
320: Nutzen eines zweiten Maschinenlern-Modells
330: Bereitstellen einer Information über zumindest eine Komponente einer Belohnungsfunktion für einen Server
340: Bereitstellen einer Information über zumindest eine Komponente einer Belohnungsfunktion über ein Ausgabemodul

Claims

Ein Verfahren zum Bestimmen von Information über einen oder mehrere Einflussfaktoren, die zu einer Bestimmung einer Trajektorie eines Fahrzeugs führen, das Verfahren umfassend: Trainieren (110) eines Maschinenlern-Modells unter Nutzung eines Reinforcement Learning-Ansatzes, wobei der Reinforcement Learning-Ansatz auf einer Belohnungsfunktion basiert, wobei die Belohnungsfunktion auf einer Mehrzahl von Komponenten basiert, und wobei das Maschinenlern-Modell trainiert wird, um die Trajektorie des Fahrzeugs zu bestimmen, wobei die Trajektorie eine Mehrzahl von Fahrmanövern umfasst; Bestimmen (120), für jedes Fahrmanöver der Trajektorie, zumindest einer Komponente der Mehrzahl von Komponenten der Belohnungsfunktion mit einem dominanten Einfluss auf die Belohnungsfunktion, wobei der dominante Einfluss dadurch charakterisiert ist, dass er zu der Auswahl des Fahrmanövers aus einer Mehrzahl von möglichen Fahrmanövern in dem Training des Maschinenlern-Modells geführt hat; Auswählen (130), für jedes Fahrmanöver der Trajektorie, der zumindest einen Komponente als Einflussfaktor für die Auswahl des Fahrmanövers; und Bestimmen (140) der Informationen über die einen oder mehreren Einflussfaktoren basierend auf den Einflussfaktoren der Fahrmanöver der Trajektorie.
Das Verfahren gemäß Anspruch 1, wobei die Mehrzahl von Komponenten eine Mehrzahl von Zielsetzungen für die Trajektorie abbildet.
Das Verfahren gemäß einem der Ansprüche 1 oder 2, wobei die Mehrzahl von Komponenten auf mehreren Elementen der Gruppe von einer Geschwindigkeit des Fahrzeugs, einer Sicherheit des Fahrzeugs, eines Verbrauchs des Fahrzeugs, eines Fahrkomforts des Fahrzeugs, einer Anzahl von Spurwechseln des Fahrzeugs, einer Anzahl und/oder Intensität von Bremsmanövern des Fahrzeugs, und einer Anzahl/Intensität von Beschleunigungsmanövern des Fahrzeugs basieren.
Das Verfahren gemäß einem der Ansprüche 1 bis 3, wobei für jede Komponente der Mehrzahl Komponenten ein Wert der Komponente berechnet wird, der auf dem gewählten Fahrmanöver basiert, wobei die zumindest eine Komponente basierend darauf ausgewählt wird, wie sehr der Wert der Komponente sich gegenüber einem weiteren Wert der Komponente, der basierend auf einem anderen Fahrmanöver der Mehrzahl von möglichen Fahrmanövern berechnet wird, verändert.
Das Verfahren gemäß einem der Ansprüche 1 bis 4, wobei die Information über die einen oder mehreren Einflussfaktoren für jedes Fahrmanöver eine Information über eine Abhängigkeit zwischen dem gewählten Fahrmanöver und der zumindest einen Komponente umfasst.
Das Verfahren gemäß einem der Ansprüche 1 bis 5, wobei Positionsdaten und/oder Bewegungsdaten einer Mehrzahl von Verkehrsobjekten als Eingabedaten für das Maschinenlern-Modell verwendet werden, wobei das Verfahren ein Bestimmen einer Sensitivität des gewählten Fahrmanövers und/oder der Komponente mit einem dominanten Einfluss auf die Belohnungsfunktion auf eine Änderung der Positionsdaten und/oder Bewegungsdaten der Mehrzahl von Verkehrsobjekten umfasst.
Ein Verfahren zum Trainieren eines Maschinenlern-Modells, das Verfahren umfassend: Trainieren (210) des Maschinenlern-Modells unter Nutzung eines Supervised-Learning-Ansatzes, wobei als Eingabedaten verwendet werden: - Positionsdaten und/oder Bewegungsdaten einer Mehrzahl von Verkehrsobjekten, - Information über eine Mehrzahl von möglichen Fahrmanövern, und - Information über eine basierend auf der Mehrzahl von möglichen Fahrmanövern bestimmte Trajektorie, wobei die Trajektorie eine Mehrzahl von Fahrmanövern umfasst, wobei eine Information über eine oder mehrere Einflussfaktoren, die zu einer Bestimmung der Trajektorie basierend auf der Mehrzahl von möglichen Fahrmanövern führten, als gewünschter Ausgabewert für das Training des Maschinenlern-Modells verwendet wird, wobei die Trajektorie durch ein weiteres Maschinenlern-Modell bestimmt ist, wobei das weitere Maschinenlern-Modell unter Nutzung eines Reinforcement Learning-Ansatzes trainiert ist, wobei eine Belohnungsfunktion des Reinforcement Learning-Ansatzes auf einer Mehrzahl von Komponenten basiert, wobei die Information über die ein oder mehreren Einflussfaktoren für jedes Fahrmanöver der Trajektorie angibt, welche zumindest eine Komponente der Mehrzahl von Komponenten der Belohnungsfunktion einen dominanten Einfluss auf die Auswahl des Fahrmanövers für die Bestimmung der Trajektorie ausgeübt hat.
Das Verfahren gemäß Anspruch 7, wobei das Maschinenlern-Modell dazu ausgebildet ist, um für jedes Fahrmanöver einer Mehrzahl von Fahrmanövern einer Trajektorie eines Fahrzeugs zumindest eine Komponente der Belohnungsfunktion zu bestimmen, die einen dominanten Einfluss auf die Auswahl des Fahrmanövers ausgeübt hat.
Das Verfahren gemäß einem der Ansprüche 7 oder 8, wobei die Information über die ein oder mehreren Einflussfaktoren basierend auf dem Verfahren gemäß einem der Ansprüche 1 bis 7 bestimmt wurde.
Ein Verfahren für ein Fahrzeug, umfassend: Nutzen (310) eines ersten Maschinenlern Modells, um eine Trajektorie des Fahrzeugs zu bestimmen, wobei die Trajektorie eine Mehrzahl von Fahrmanövern umfasst, wobei das erste Maschinenlern-Modell unter Nutzung eines Reinforcement Learning-Ansatzes trainiert ist, wobei eine Belohnungsfunktion des Reinforcement Learning-Ansatzes auf einer Mehrzahl von Komponenten basiert; und Nutzen (320) eines zweiten Maschinenlern-Modells um für jedes Fahrmanöver der Mehrzahl von Fahrmanövern zumindest eine Komponente der Belohnungsfunktion zu bestimmen, die einen dominanten Einfluss auf die Auswahl des Fahrmanövers ausgeübt hat, wobei das zweite Maschinenlern-Modell gemäß einem der Ansprüche 7 bis 9 trainiert ist.
Das Verfahren gemäß Anspruch 10, wobei das Verfahren ein Bereitstellen (330), für jedes Fahrmanöver der Mehrzahl von Fahrmanövern, einer Information über die zumindest eine Komponente der Belohnungsfunktion und eine Information über das Fahrmanöver für einen Server umfasst, und/oder wobei das Verfahren ein Bereitstellen (340) einer Information über zumindest eine Komponente der Belohnungsfunktion über ein Ausgabemodul des Fahrzeugs umfasst.
Ein Programm mit einem Programmcode zum Durchführen zumindest eines der Verfahren gemäß einem der Ansprüche 1 bis 11, wenn der Programmcode auf einem Computer, einem Prozessor, einem Kontrollmodul oder einer programmierbaren Hardwarekomponente ausgeführt wird.
Eine Vorrichtung (10) zum Bestimmen von Information über einen oder mehrere Einflussfaktoren, die zu einer Bestimmung einer Trajektorie eines Fahrzeugs führen, die Vorrichtung umfassend ein oder mehrere Rechenmodule (14) und ein oder mehrere Speichermodule (16), wobei die Vorrichtung ausgebildet ist zum Ausführen des Verfahrens gemäß einem der Ansprüche 1 bis 6.
Eine Vorrichtung (20) zum Trainieren eines Maschinenlern-Modells, die Vorrichtung umfassend ein oder mehrere Rechenmodule (24) und ein oder mehrere Speichermodule (26), wobei die Vorrichtung ausgebildet ist zum Ausführen des Verfahrens gemäß einem der Ansprüche 7 bis 9.
Eine Vorrichtung (30) für ein Fahrzeug (300), die Vorrichtung umfassend ein oder mehrere Rechenmodule (34) und ein oder mehrere Speichermodule (36), wobei die Vorrichtung ausgebildet ist zum Ausführen des Verfahrens gemäß einem der Ansprüche 10 oder 11.