DE102019216232A1

DE102019216232A1 - Verfahren und Vorrichtung zum Bereitstellen einer Fahrstrategie für das automatisierte Fahren eines Fahrzeugs

Info

Publication number: DE102019216232A1
Application number: DE102019216232.0A
Authority: DE
Inventors: Simon Grossjohann; Silviu Homoceanu; Sascha Rosbach; Vinit James
Original assignee: Volkswagen AG
Current assignee: Volkswagen AG
Priority date: 2019-10-22
Filing date: 2019-10-22
Publication date: 2021-04-22

Abstract

Die Erfindung betrifft ein Verfahren zum Bereitstellen einer Fahrstrategie (20) für das automatisierte Fahren eines Fahrzeugs (50), wobei das Verfahren mittels einer Datenverarbeitungseinrichtung (2) durchgeführt wird, wobei ein General-Purpose-Planner (5) für jeden Planungszyklus auf Grundlage eines Umfeldmodells und einer über Belohnungsgewichte (θ) definierten Belohnungsfunktion für einen vorgegebenen Planungshorizont eine Menge (Π) an Planungsstrategien (π) erzeugt und bereitstellt, und die Fahrstrategie (20) aus der Menge (Π) an Planungsstrategien (π) auswählt und bereitstellt, wobei ausgehend von der zumindest für einen Planungszyklus bereitgestellten Menge (Π) an Planungsstrategien (π) die Belohnungsgewichte (θ) der Belohnungsfunktion (R) mittels eines Neuronalen Netzes (7) geschätzt werden, und wobei die geschätzten Belohnungsgewichte (θ) bei einem nachfolgenden Planungszyklus von dem General-Purpose-Planner (5) verwendet werden. Ferner betrifft die Erfindung eine Vorrichtung (1) zum Bereitstellen einer Fahrstrategie (20) für das automatisierte Fahren eines Fahrzeugs (50).

Description

Die Erfindung betrifft ein Verfahren und eine Vorrichtung zum Bereitstellen einer Fahrstrategie für das automatisierte Fahren eines Fahrzeugs.
Beim automatisierten Fahren eines Fahrzeugs spielen eine Verhaltens- und Bewegungsplanung eine herausragende Rolle. Hierbei muss in einem vorgegebenen Umfeld eine Fahrstrategie gefunden werden, mit der das Fahrzeug automatisiert durch das Umfeld gefahren werden kann.
Aus der DE 10 2016 212 292 A1 ist ein Verfahren zum Bereitstellen einer Plantrajektorie für ein Kraftfahrzeug bekannt, umfassend die folgenden Schritte: Empfangen von bereitgestellten Umfelddaten eines Umfelds des Kraftfahrzeugs, Bereitstellen eines Zustandsraumes für einen vorgegebenen Planungshorizont, wobei der Zustandsraum mehrere Zustände des Kraftfahrzeugs in dem durch die Umfelddaten beschriebenen Umfeld umfasst, Auswählen einer Teilmenge der mehreren Zustände aus dem Zustandsraum auf Grundlage mindestens eines Auswahlkriteriums, Erstellen eines Suchgraphens, wobei die ausgewählten Zustände jeweils Knoten des Suchgraphen repräsentieren, Zerlegen des Suchgraphen in mindestens zwei zeitlich oder örtlich aufeinander folgende Teilbereiche, wobei nachfolgend sukzessiv für jeden der mindestens zwei zeitlich oder örtlich aufeinander folgenden Teilbereiche mehrere Trajektorienkandidaten parallel berechnet und anhand mindestens eines Bewertungskriteriums in jedem der Teilbereiche bewertet werden, und im Anschluss: Zusammenstellen einer Plantrajektorie für den vorgegebenen Planungshorizont aus einzelnen berechneten Trajektorienkandidaten, wobei diejenigen über die Teilbereiche hinweg miteinander verbundenen Trajektorienkandidaten ausgewählt werden, deren Bewertungen in der Summe den höchsten Wert ergeben.
Zum Bestimmen einer optimalen Fahrstrategie in einem Umfeld kann beispielsweise ein General-Purpose-Planner eingesetzt werden. Ein solcher General-Purpose-Planner kombiniert eine Verhaltens- und eine Bewegungsplanung miteinander. Ein General-Purpose-Planner erlaubt eine verhaltensbewusste Bewegungsplanung unter Berücksichtigung einer einzigen gegebenen Belohnungsfunktion (engl. reward function). Jedoch gilt es hierbei zwei Herausforderungen zu meistern: Zum einen muss die Belohnungsfunktion den komplexen Merkmalsraum einer Planungsstrategie auf die jeweiligen Belohnungen abbilden. Zum anderen muss die Belohnungsfunktion umständlich von menschlichen Experten bestimmt werden.
Aus S. Rosbach et al., Driving with Style: Inverse Reinforcement Learning in General-Purpose Planning for Automated Driving, arXiv:1905.00229v1 [cs.RO], 1. Mai 2019, ist ein Verfahren bekannt, mit dem eine Belohnungsfunktion automatisiert bestimmt bzw. parametriert werden kann. Das Verfahren verwendet erfasste menschliche Demonstrationsstrategien, das heißt manuell gefahrene Trajektorien, um die Belohnungsfunktion des General-Purpose-Planners zu bestimmen. Hierbei kommt das Verfahren des Maximum Entropy Inverse Reinforcement Learning (IRL) zum Einsatz.
Aus M. Wulfmeier et al., Maximum Entropy Deep Inverse Reinforcement Learning, arXiv:1507.04888v3 [cs.LG], 11. März 2016, ist ein Verfahren zum Schätzen einer Belohnungsfunktion mit Hilfe eines tiefen Neuronalen Netzes bekannt.
Der Erfindung liegt die Aufgabe zu Grunde, ein Verfahren und eine Vorrichtung zum Bereitstellen einer Fahrstrategie für das automatisierte Fahren eines Fahrzeugs zu verbessern.
Die Aufgabe wird erfindungsgemäß durch ein Verfahren mit den Merkmalen des Patentanspruchs 1 und eine Vorrichtung mit den Merkmalen des Patentanspruchs 9 gelöst. Vorteilhafte Ausgestaltungen der Erfindung ergeben sich aus den Unteransprüchen.
Insbesondere wird ein Verfahren zum Bereitstellen einer Fahrstrategie für das automatisierte Fahren eines Fahrzeugs zur Verfügung gestellt, wobei das Verfahren mittels einer Datenverarbeitungseinrichtung durchgeführt wird, wobei ein General-Purpose-Planner für jeden Planungszyklus auf Grundlage eines Umfeldmodells und einer über Belohnungsgewichte definierten Belohnungsfunktion für einen vorgegebenen Planungshorizont eine Menge an Planungsstrategien erzeugt und bereitstellt, und die Fahrstrategie aus der Menge an Planungsstrategien auswählt und bereitstellt, wobei ausgehend von der zumindest für einen Planungszyklus bereitgestellten Menge an Planungsstrategien die Belohnungsgewichte der Belohnungsfunktion mittels eines Neuronalen Netzes geschätzt werden, und wobei die geschätzten Belohnungsgewichte bei einem nachfolgenden Planungszyklus von dem General-Purpose-Planner verwendet werden.
Ferner wird insbesondere eine Vorrichtung zum Bereitstellen einer Fahrstrategie für das automatisierte Fahren eines Fahrzeugs geschaffen, umfassend eine Datenverarbeitungseinrichtung, wobei die Datenverarbeitungseinrichtung dazu eingerichtet ist, einen General-Purpose-Planner bereitzustellen, wobei der General-Purpose-Planner dazu eingerichtet ist, für jeden Planungszyklus auf Grundlage eines Umfeldmodells und einer über Belohnungsgewichte definierten Belohnungsfunktion für einen vorgegebenen Planungshorizont eine Menge an Planungsstrategien zu erzeugen und bereitzustellen, und die Fahrstrategie aus der Menge an Planungsstrategien auszuwählen und bereitzustellen, und wobei die Datenverarbeitungseinrichtung ferner dazu eingerichtet ist, ein Neuronales Netz bereitzustellen, wobei das Neuronale Netz dazu trainiert ist, ausgehend von der zumindest für einen Planungszyklus bereitgestellten Menge an Planungsstrategien die Belohnungsgewichte der Belohnungsfunktion zu schätzen, und wobei die Datenverarbeitungseinrichtung weiter dazu eingerichtet ist, die geschätzten Belohnungsgewichte bei einem nachfolgenden Planungszyklus im bereitgestellten General-Purpose-Planner zu verwenden.
Das Verfahren und die Vorrichtung ermöglichen es, einen großen Merkmalsraum und eine große Menge von Planungsstrategien beim Schätzen und Bereitstellen der Belohnungsgewichte der Belohnungsfunktion zu berücksichtigen. Auf diese Weise kann für eine Vielzahl unterschiedlicher Fahrszenarien eine optimale Belohnungsfunktion bereitgestellt werden. Dies erfolgt, indem ein General-Purpose-Planner mit einem Neuronalen Netz kombiniert wird. Der General-Purpose-Planner erzeugt für jeden Planungszyklus auf Grundlage eines Umfeldmodells und einer Belohnungsfunktion für einen vorgegebenen Planungshorizont eine Menge an Planungsstrategien und stellt diese bereit. Dem General-Purpose-Planner werden hierzu insbesondere aktuell erfasste Umfelddaten bereitgestellt, welche dieser in dem Umfeldmodell verarbeitet. Die aktuellen Umfelddaten können beispielsweise mittels einer Sensorik erfasst werden und der Datenverarbeitungseinrichtung bzw. dem General-Purpose-Planner zugeführt werden. Die Belohnungsfunktion ist hierbei insbesondere linear und wird insbesondere über einzelnen Merkmalen zugeordnete Belohnungsgewichte definiert. Das Neuronale Netz ist darauf trainiert, ausgehend von der bereitgestellten Menge an Planungsstrategien die Belohnungsgewichte zu schätzen. Das heißt, das Neuronale Netz schätzt insbesondere nicht einen Wert der Belohnung selbst, sondern die Belohnungsgewichte der Belohnungsfunktion. Die für einen Planungszyklus vom General-Purpose-Planner bereitgestellte Menge an Planungsstrategien, welche insbesondere jeweils in Form von Merkmalen und Zustandsaktionen der Planungsstrategien bereitgestellt wird, wird daher den Eingängen des Neuronalen Netzes zugeführt und das Neuronale Netz schätzt, das heißt inferiert, an seinen Ausgängen die Belohnungsgewichte. Die von dem Neuronalen Netz geschätzten Belohnungsgewichte werden dann bei einem nachfolgenden Planungszyklus von dem General-Purpose-Planner verwendet. Hierzu aktualisiert der General-Purpose-Planner die Belohnungsfunktion, indem die für den aktuellen Planungszyklus mittels des Neuronalen Netzes geschätzten Belohnungsgewichte in der Belohnungsfunktion berücksichtigt werden. Beispielsweise können die für den aktuellen Planungszyklus geschätzten Belohnungsgewichte die im vorangegangenen Planungszyklus verwendeten Belohnungsgewichte in der Belohnungsfunktion ersetzen. Der General-Purpose-Planner wählt ferner auf Grundlage der Belohnungsfunktion aus der erzeugten Menge von Planungsstrategien eine optimale Fahrstrategie aus und stellt diese bereit, beispielsweise indem zugehörige Fahrstrategiedaten ausgegeben werden. Die ausgegebenen Fahrstrategiedaten können dann einer Fahrzeugsteuerung zugeführt werden. Durch die verbesserte Schätzung der Belohnungsgewichte der Belohnungsfunktion ist auch das Bereitstellen der optimalen Fahrstrategie mittels des General-Purpose-Planners verbessert. Das Verfahren wird insbesondere zyklisch wiederholt.
Ein Vorteil des Verfahrens und der Vorrichtung ist, dass auch für einen großen Merkmalsraum fortlaufend eine auf ein aktuelles Fahrszenario zugeschnittene Belohnungsfunktion bereitgestellt werden kann. Das Bereitstellen und Auswählen einer optimalen Fahrstrategie ist hierdurch verbessert.
Ein General-Purpose-Planner stellt insbesondere eine Menge von Planungsstrategien, das heißt eine Menge an möglichen Trajektorien, für ein gegebenes Umfeld bereit. Der General-Purpose-Planner muss dies in einer Vielzahl unterschiedlicher Verkehrssituationen können und muss insbesondere Kollisionen vermeiden, Verkehrsregeln beachten und ein Risiko unerwarteter Ereignisse minimieren. Dies erreicht der General-Purpose-Planner insbesondere über die Belohnungsfunktion, welche dazu dient, erzeugte Planungsstrategien zu bewerten. Dem General-Purpose-Planner werden hierzu insbesondere aktuell erfasste Umfelddaten zugeführt, die der General-Purpose-Planner in einem Umfeldmodell verarbeitet. Ein General-Purpose-Planner kann beispielsweise wie der in S. Rosbach et al., Driving with Style: Inverse Reinforcement Learning in General-Purpose Planning for Automated Driving, arXiv:1905.00229v1 [cs.RO], 1. Mai 2019, beschriebene General-Purpose-Planner ausgestaltet sein.
Eine Planungsstrategie, welche auch als mögliche Trajektorie des Fahrzeugs in einem Umfeld aufgefasst werden kann, umfasst insbesondere Merkmale und Zustandsaktionen für alle Zustände der Planungsstrategie bzw. der Trajektorie. Die Merkmale berücksichtigen hierbei beispielsweise eine Längsbeschleunigung, eine Änderung der Längsbeschleunigung, eine Geschwindigkeit, eine Querbeschleunigung, eine Änderung der Querbeschleunigung, eine Endausrichtung, Abstände zu einer Mittellinie, zu einem Hindernis oder zu einer Konfliktzone, zu einem Bordstein und/oder eine Richtung etc. Zustandsaktionen umfassen insbesondere die Menge aller möglichen Aktionen (z.B. Lenkwinkel ändern, Beschleunigen etc.) für jeden Zustand. Die Zustandsaktionen sind hierbei insbesondere durch physikalische Gesetze bzw. Fahrzeugeigenschaften begrenzt. Durch das berücksichtigen der Zustandsaktionen kann insbesondere auch eine Kinematik der Planungsstrategie berücksichtigt werden. Hierdurch kann eine optimale Fahrstrategie verbessert bereitgestellt werden.
Die Belohnungsfunktion ist insbesondere linear, das heißt die Belohnungsgewichte und die jeweils zugehörigen bzw. diesen zugeordneten Werte der Merkmale gehen jeweils nur linear in die Belohnungsfunktion ein. Prinzipiell können jedoch auch andere Belohnungsfunktionen verwendet werden.
Das Neuronale Netz ist insbesondere ein tiefes Neuronales Netz, insbesondere ein Faltungsnetz (Convolutional Neural Network, CNN). Das tiefe Neuronale Netz bildet Merkmale, insbesondere Pfadintegralmerkmale, und Zustandsaktionen auf die Belohnungsgewichte ab. Hierbei werden dem Neuronalen Netz die einzelnen Merkmale, insbesondere die einzelnen Pfadintegralmerkmale, und Zustandsaktionen sämtlicher Planungsstrategien in der Menge der Planungsstrategien zugeführt.
Ein Fahrzeug ist insbesondere ein Kraftfahrzeug. Das Fahrzeug kann prinzipiell jedoch auch ein anderes Land-, Luft-, Wasser- oder Raumfahrzeug sein.
Das Verfahren wird mittels einer Datenverarbeitungseinrichtung ausgeführt. Die Datenverarbeitungseinrichtung ist insbesondere als eine Kombination von Hardware und Software ausgebildet, beispielsweise als Programmcode, der auf einem (oder mehreren) Mikrocontroller(n) oder Mikroprozessor(en) ausgeführt wird. Die Datenverarbeitungseinrichtung umfasst insbesondere eine Recheneinrichtung und eine Speichereinrichtung. Die Datenverarbeitungseinrichtung stellt insbesondere den General-Purpose-Planner und das Neuronale Netz bereit.
In einer Ausführungsform ist vorgesehen, dass eine Historie der von dem General-Purpose-Planner erzeugten und bereitgestellten Menge an Planungsstrategien gespeichert wird, wobei das Schätzen der Belohnungsgewichte mittels des Neuronalen Netzes ausgehend von der gespeicherten Historie erfolgt. Hierdurch kann die Menge an Planungsstrategien, die zum Schätzen der Belohnungsgewichte dem Neuronalen Netz zugeführt werden, vergrößert werden. Die Historie wird beispielsweise mittels eines Planungsstrategiepuffers gesammelt und gespeichert. Dieser kann insbesondere eine vorgegebene Anzahl an Planungszyklen berücksichtigen.
In einer Ausführungsform ist vorgesehen, dass eine Historie von geschätzten Belohnungsgewichten gespeichert wird, wobei auf Grundlage der gespeicherten Historie gemittelte Belohnungsgewichte berechnet und von dem General-Purpose-Planner in einem nachfolgenden Planungszyklus verwendet werden. Hierdurch können Schwankungen, die zwischen Planungszyklen in den Belohnungsgewichten auftreten, geglättet werden. Das Schätzen der Belohnungsgewichte ist in Bezug auf einen Zeitverlauf hierdurch insgesamt stabiler. Die Historie wird beispielsweise mittels eines Belohnungsgewichtspuffers gesammelt und gespeichert. Dieser kann insbesondere eine vorgegebene Anzahl an Planungszyklen berücksichtigen.
In einer Ausführungsform ist vorgesehen, dass das Neuronale Netz im Wege des Maximum Entropy Inverse Reinforcement Learning (IRL) trainiert wird oder trainiert wurde, wobei hierzu ein Satz erfasster Demonstrationsstrategien empfangen wird und wobei der General-Purpose-Planner hierzu eine Menge an Planungsstrategien erzeugt und bereitstellt. Hierdurch können die mittels des Neuronalen Netzes geschätzten Belohnungsgewichte derart angepasst werden bzw. das Neuronale Netz kann derart trainiert werden, dass ein Verhalten in dem Satz erfasster Demonstrationsstrategien nachgeahmt wird. Hierdurch kann beispielsweise das Verhalten bzw. ein Fahrstil eines menschlichen Fahrers nachgeahmt bzw. angestrebt werden. Insbesondere führt dies dazu, dass ein Wert der Belohnungsfunktion umso größer ist, je ähnlicher eine Planungsstrategie dem Satz erfasster Demonstrationsstrategien ist. Diese Form des Trainierens des Neuronalen Netzes wird dadurch ermöglicht, dass mittels des Neuronalen Netzes nicht ein Wert der Belohnungsfunktion selbst, sondern die einzelnen Belohnungsgewichte geschätzt werden, denn hierdurch kann der General-Purpose-Planner direkt in das Maximum Entropy Inverse Reinforcement Learning-Verfahren eingebunden werden.
In einer weiterbildenden Ausführungsform ist vorgesehen, dass zum Trainieren des Neuronalen Netzes ausgehend von mittels des Neuronalen Netzes geschätzten Belohnungsgewichten, dem Satz erfasster Demonstrationsstrategien und der bereitgestellten Menge an Planungsstrategien ein maximaler Entropiegradient bestimmt wird, wobei Parameter des Neuronalen Netzes auf Grundlage des bestimmten maximalen Entropiegradienten bestimmt werden. Der maximale Entropiegradient kann hierbei als Fehler des Neuronalen Netzes beim Schätzen der Belohnungsgewichte aufgefasst werden. Dieser Fehler wird dann insbesondere dazu verwendet, um das Neuronale Netz im Wege des Gradientenabstiegsverfahrens zu trainieren bzw. die Parameter des Neuronalen Netzes zu bestimmen. Dies ermöglicht ein effizientes Trainieren des Neuronalen Netzes.
Der beschriebene Formalismus des Maximum Entropy Linear Inverse Reinforcement Learnings kann direkt auf diskrete Zustandsräume angewandt werden. Um den Formalismus auch auf kontinuierliche Zustandsräume anzuwenden, wie diese in einem General-Purpose-Planner üblicherweise verwendet werden, kann insbesondere ein Formalismus für die maximale Entropie für Pfadintegrale zum Einsatz kommen. In einer Ausführungsform sind die Merkmale daher in Form von Pfadintegralmerkmalen ausgebildet. Die Pfadintegralmerkmale umfassen insbesondere (über die Zeit diskontierte) Merkmale aller Zustände einer Planungsstrategie. Hierdurch kann ein schnellerer Lese- und Schreibzugriff erfolgen und es wird ein geringerer Speicherbedarf benötigt, da nur ein Floatwert pro Planungsstrategie verwendet wird anstatt ein Floatwert pro Zustand.
In einer Ausführungsform ist vorgesehen, dass eine Historie der von dem General-Purpose-Planner zum Trainieren erzeugten und bereitgestellten Menge an Planungsstrategien gespeichert wird, wobei das Trainieren des Neuronalen Netzes ausgehend von der gespeicherten Historie erfolgt. Hierdurch kann die Menge an Planungsstrategien, die beim Trainieren verwendet wird, vergrößert werden. Die Historie wird beispielsweise mittels eines Planungsstrategiepuffers gesammelt und gespeichert. Dieser kann insbesondere eine vorgegebene Anzahl an Planungszyklen berücksichtigen.
In einer Ausführungsform ist vorgesehen, dass beim Trainieren eine Historie von geschätzten Belohnungsgewichten gespeichert wird, wobei auf Grundlage der gespeicherten Historie gemittelte Belohnungsgewichte berechnet und von dem General-Purpose-Planner in einem nachfolgenden Trainingszyklus verwendet werden. Hierdurch können Schwankungen zwischen einzelnen Trainingszyklen geglättet werden. Das Schätzen der Belohnungsgewichte ist in Bezug auf einen Zeitverlauf hierdurch insgesamt stabiler. Die Historie wird beispielsweise mittels eines Belohnungsgewichtspuffers gesammelt und gespeichert. Dieser kann insbesondere eine vorgegebene Anzahl an Planungszyklen berücksichtigen.
In einer Ausführungsform ist vorgesehen, dass eine Größe der Historien beim Trainieren und beim Anwenden gleich gewählt ist. Hierbei kann sowohl die Größe der Historien der Mengen der Planungsstrategien als auch alternativ oder zusätzlich die Größe der Historien der Belohnungsgewichte gleich gewählt sein. Hierdurch kann das Schätzen der Belohnungsgewichte bzw. der Belohnungsfunktion weiter verbessert werden. Insbesondere kann hierdurch eine Gewichtung bei der Berücksichtigung vergangener Planungszyklen beim Schätzen der Belohnungsgewichte eingestellt werden.
Weitere Merkmale zur Ausgestaltung der Vorrichtung ergeben sich aus der Beschreibung von Ausgestaltungen des Verfahrens. Die Vorteile der Vorrichtung sind hierbei jeweils die gleichen wie bei den Ausgestaltungen des Verfahrens.
Weiter wird insbesondere auch ein Kraftfahrzeug geschaffen, umfassend mindestens eine Vorrichtung nach einer der beschriebenen Ausführungsformen.
Darüber hinaus wird insbesondere auch ein Verfahren zum Trainieren eines Neuronalen Netzes zur Verfügung gestellt, wobei das Verfahren mittels einer Datenverarbeitungseinrichtung durchgeführt wird, wobei das Neuronale Netz darauf trainiert wird, ausgehend von einer mittels eines General-Purpose-Planners zumindest für einen Planungszyklus bereitgestellten Menge an Planungsstrategien Belohnungsgewichte einer Belohnungsfunktion des General-Purpose-Planners zu schätzen, wobei das Neuronale Netz im Wege des Maximum Entropy Inverse Reinforcement Learning trainiert wird, wobei hierzu ein Satz erfasster Demonstrationsstrategien empfangen wird und wobei der General-Purpose-Planner hierzu eine Menge an Planungsstrategien erzeugt und bereitstellt.
Weitere Merkmale zur Ausgestaltung des Verfahrens zum Trainieren eines Neuronalen Netzes ergeben sich aus der Beschreibung von Ausgestaltungen des Verfahrens zum Bereitstellen einer Fahrstrategie für das automatisierte Fahren eines Fahrzeugs. Die Vorteile des Verfahrens zum Trainieren eines Neuronalen Netzes sind hierbei jeweils die gleichen wie bei den Ausgestaltungen des Verfahrens zum Bereitstellen einer Fahrstrategie für das automatisierte Fahren eines Fahrzeugs.
Nachfolgend wird die Erfindung anhand bevorzugter Ausführungsbeispiele unter Bezugnahme auf die Figuren näher erläutert. Hierbei zeigen:

1 eine schematische Darstellung einer Ausführungsform der Vorrichtung zum Bereitstellen einer Fahrstrategie für das automatisierte Fahren eines Fahrzeugs;
2 ein schematisches Ablaufdiagramm einer Ausführungsform des Verfahrens zum Bereitstellen einer Fahrstrategie für das automatisierte Fahren eines Fahrzeugs;
3 ein schematisches Ablaufdiagramm einer Trainingsphase des Neuronalen Netzes in einer Ausführungsform des Verfahrens zum Bereitstellen einer Fahrstrategie für das automatisierte Fahren eines Fahrzeugs;
4 ein schematisches Ablaufdiagramm zur Verdeutlichung des Bestimmens des Entropiegradienten;
5 eine schematische Darstellung einer Maximum Entropy Linear Inverse Reinforcement Learning Open-Loop-Architektur zum Bereitstellen der Belohnungsfunktion;
6 eine schematische Darstellung einer Ausführungsform des Neuronalen Netzes;
7 eine schematische Darstellung zur Verdeutlichung der Eingänge des Neuronalen Netzes aus 6 in der Eingangsschicht und einer ersten eindimensionale Faltung.

In 1 ist eine schematische Darstellung einer Ausführungsform der Vorrichtung 1 zum Bereitstellen einer Fahrstrategie 20 für das automatisierte Fahren eines Fahrzeugs 50. Die Vorrichtung 1 umfasst eine Datenverarbeitungseinrichtung 2. Die Datenverarbeitungseinrichtung 2 weist eine Recheneinrichtung 3 und eine Speichereinrichtung 4 auf.
Die Datenverarbeitungseinrichtung 2 stellt einen General-Purpose-Planner bereit. Hierzu führt die Recheneinrichtung 3 Rechenoperationen aus und greift zu diesem Zweck auf in der Speichereinrichtung 4 hinterlegte Daten zu. Der General-Purpose-Planner erzeugt für jeden Planungszyklus auf Grundlage eines Umfeldmodells und einer über Belohnungsgewichte definierten Belohnungsfunktion für einen vorgegebenen Planungshorizont eine Menge an Planungsstrategien und stellt diese bereit.
Ferner wählt der General-Purpose-Planner für jeden Planungszyklus eine optimale Fahrstrategie 20 aus der Menge an Planungsstrategien aus und stellt diese bereit. Die bereitgestellte Fahrstrategie 20 wird von der Datenverarbeitungseinrichtung 20 ausgegeben, beispielsweise in Form eines digitalen Datenpakets, und einer Längs- und Quersteuerung 51 des Fahrzeugs 50 zugeführt.
Dem General-Purpose-Planner 5 werden hierzu insbesondere aktuell erfasste Umfelddaten 15 bereitgestellt, welche dieser in dem Umfeldmodell verarbeitet. Die aktuellen Umfelddaten 15 können beispielsweise mittels einer Sensorik (nicht gezeigt) des Fahrzeugs erfasst werden und der Datenverarbeitungseinrichtung 2 bzw. dem General-Purpose-Planner zugeführt werden.
Ferner stellt die Datenverarbeitungseinrichtung 2 ein Neuronales Netz bereit. Hierzu führt die Recheneinrichtung 3 Rechenoperationen aus und greift zu diesem Zweck auf in der Speichereinrichtung 4 hinterlegte Daten zu. Das Neuronale Netz ist dazu trainiert, ausgehend von der zumindest für einen Planungszyklus von dem General-Purpose-Planner bereitgestellten Menge an Planungsstrategien die Belohnungsgewichte der Belohnungsfunktion zu schätzen. Die geschätzten Belohnungsgewichte werden dem General-Purpose-Planner zugeführt und von diesem in einem nachfolgenden Planungszyklus verwendet.
In 2 ist ein schematisches Ablaufdiagramm einer Ausführungsform des Verfahrens zum Bereitstellen einer Fahrstrategie 20 für das automatisierte Fahren eines Fahrzeugs gezeigt. Das Verfahren wird beispielsweise mittels der in der 1 gezeigten Vorrichtung ausgeführt.
In der 2 gezeigt sind ein General-Purpose-Planner 5, ein Planungsstrategiepuffer 6, ein Neuronales Netz 7 und ein Belohnungsgewichtspuffer 8.
Der General-Purpose-Planner 5 erzeugt für einen Planungszyklus eine Menge Π von Planungsstrategien, das heißt eine Menge Π von Trajektorien. Der Planungsstrategiepuffer 6 sammelt die Mengen Π von Planungsstrategien zum Bereitstellen einer Historie über die letzten h Planungszyklen.
Die über die letzten h Planungszyklen gesammelte Mengen Π an Planungsstrategien werden Eingängen des Neuronalen Netzes 7 als Eingangsdaten 10 zugeführt. Eine Planungsstrategie, das heißt eine Trajektorie, umfasst hierbei Merkmale f, insbesondere Pfadintegralmerkmale f^π , und eine Menge an Zustandsaktionen α ∈ A.
Das Neuronale Netz 7 ist insbesondere ein tiefes Neuronales Netz 7, insbesondere ein Faltungsnetz. Das Neuronale Netz 7 inferiert ausgehend von der als Eingangsdaten 10 bereitgestellten über h Planungszyklen gesammelten Mengen Π an Planungsstrategien Belohnungsgewichte θ für die Belohnungsfunktion des General-Purpose-Planners 5 und stellt diese an Ausgängen bereit (vgl. auch 6 und 7).
Der Belohnungsgewichtspuffer 8 sammelt die inferierten Belohnungsgewichte θ und bildet für die letzten h Planungszyklen hieraus gemittelte Belohnungsgewichte θ_mean . Die gemittelten Belohnungsgewichte θ_mean werden dem General-Purpose-Planner 5 zugeführt. Der General-Purpose-Planner 5 verwendet die gemittelten Belohnungsgewichte θ_mean dann im nachfolgenden Planungszyklus in der Belohnungsfunktion.
Es ist vorgesehen, dass das Verfahren zyklisch wiederholt wird, sodass für einen aktuellen Planungszyklus stets aktualisierte gemittelte Belohnungsgewichte θ_mean geschätzt und bereitgestellt werden.
In 3 ist ein schematisches Ablaufdiagramm einer Trainingsphase des Neuronalen Netzes 7 in einer Ausführungsform des Verfahrens zum Bereitstellen einer Fahrstrategie für das automatisierte Fahren eines Fahrzeugs gezeigt. Ein Signalfluss ist teilweise identisch zu dem in der 2 gezeigten Ablaufdiagramm, gleiche Bezugszeichen bezeichnen gleiche Merkmale und Begriffe.
Es ist vorgesehen, dass das Neuronale Netz 7 vor einer Anwendung im Feld, das heißt vor einer Anwendung im Fahrzeug, im Wege des Maximum Entropy Inverse Reinforcement Learning trainiert wird. Hierzu wird für einen Trainings- bzw. Planungszyklus ein Satz von Demonstrationsstrategien Π^D erzeugt. Die Demonstrationsstrategien Π^D basieren beispielsweise auf von einem menschlichen Fahrer manuell gefahrenen (Ideal-)Trajektorien, die odometrisch erfasst werden. Ferner erzeugt der General-Purpose-Planner 5 eine Menge Π an Planungsstrategien und stellt diese bereit. Es gilt hierbei insbesondere π^D ∈ Π^D ∈ Π, wobei π^D eine Demonstrationsstrategie bezeichnet.
Zum Trainieren des Neuronalen Netzes 7 wird in einem Gradientenberechnungsmodul 9 ausgehend von mittels des Neuronalen Netzes 7 geschätzten Belohnungsgewichten θ, dem Satz erzeugter Demonstrationsstrategien Π^D eines Planungszyklus und der bereitgestellten Menge Π an Planungsstrategien eines Planungszyklus ein maximaler Entropiegradient Δθ bestimmt, wobei Parameter des Neuronalen Netzes 7 auf Grundlage des bestimmten maximalen Entropiegradienten Δθ bestimmt werden. Insbesondere werden hierzu ausgehend von der Menge Π der Planungsstrategien und ausgehend von den erzeugten Demonstrationsstrategien Π^D jeweils Pfadintegralmerkmale f^π und f^πD verwendet. Um die Demonstrationsstrategien Π^D zu erzeugen, wird eine erfasste Odometrie von manuellen Fahrten ζ mittels eines Projektionsmoduls 10 in den Zustandsraum des General-Purpose-Planners 5 projiziert. Der jeweils für einen Trainingszyklus bestimmte Entropiegradient Δθ kann als Fehler in der Ausgabe des Neuronalen Netzes 7 aufgefasst werden und wird daher dazu verwendet, Parameter des Neuronalen Netzes 7 anzupassen.
Das Training des Neuronalen Netzes 7 erfolgt hierbei insbesondere derart, dass für jeden Trainingszyklus die von dem Neuronalen Netz 7 nach einem Anpassen der Parameter des Neuronalen Netzes 7 inferierten Belohnungsgewichte θ, gegebenenfalls durch den Belohnungsgewichtspuffer 8 gemittelt, dem General-Purpose-Planner 5 zugeführt werden und der nachfolgende Trainingszyklus unter Berücksichtigung einer für den nachfolgenden Trainingszyklus erzeugten und bereitgestellten Menge Π an Planungsstrategien des General-Purpose-Planners 5 durchgeführt wird. Hierdurch kann eine für den nachfolgenden Trainingszyklus erzeugte und bereitgestellte Menge Π von Planungsstrategien bereits unter Berücksichtigung der vom angepassten Neuronalen Netz 7 inferierten Belohnungsgewichte θ erzeugt und bereitgestellt werden. Hierdurch kann der General-Purpose-Planner 5 direkt in das Trainingsverfahren des Neuronalen Netzes 7 eingebunden werden. Dies ist jedoch nur möglich, da mittels des Neuronalen Netzes 7 die Belohnungsgewichte θ bereitgestellt werden und nicht der Wert einer Belohnungsfunktion selbst. Das Training des Neuronalen Netzes 7 erfolgt ansonsten mit Hilfe an sich bekannter Verfahren.
Mathematisch lässt sich das Vorgehen beim Trainieren beispielhaft wie folgt beschreiben. Es wird ein tiefes Neuronales Netz 7 betrachtet, dass als Eingänge Merkmale f, insbesondere Pfadintegralmerkmale f^π , und Zustandsaktionen a ∈ A (in Form von Listen oder Vektoren) erhält. Das tiefe Neuronale Netz 7 bildet diese Eingänge auf Belohnungsgewichte θ (im Folgenden insbesondere als Vektor θ dargestellt) ab, welche die Belohnungsfunktion des General-Purpose-Planners 5 definieren. Da die Werte an den Ausgängen des tiefen Neuronalen Netzes 7 von den Parametern Θ_1,2,...,n des Neuronalen Netzes 7 bestimmt werden, können die linearen Belohnungsgewichte θ erhalten werden durch: $θ \approx g (f^{Π}, a^{Π}, Θ_{1}, Θ_{2},..., Θ_{n}) = g_{1} (g_{2} (... (g_{n} (f^{Π}, a^{Π}, Θ_{n})) Θ_{2}) Θ_{1})$
Das IRL-Problem kann dann formuliert werden im Kontext einer Bayes'schen Inferenz als Maximum-a-posteriori-(MAP)-Schätzung, welche eine Maximierung der gemeinsamen a-posteriori-Wahrscheinlichkeitsverteilung p(·|·) von erfassten Demonstrationsstrategien π^D ∈ Π^D gegeben eine lineare Belohnungsstruktur bzw. Belohnungsfunktion: $R = - θ^{T} \cdot f$
bzw. $R (s, a) = \sum_{_{i \in K}} - θ_{i} f_{i} (s, a)$
und die Parameter Θ des tiefen Neuronalen Netzes mit sich bringt, wobei s die Zustände und a die Zustandsaktionen in einer Planungsstrategie bezeichnen. Da eine Berechnung der a-posteriori-Wahrscheinlichkeitsverteilung zu unendlich kleinen Werten und zu einem Computation Underflow führen würde, wird der Logarithmus der a-posteriori-Wahrscheinlichkeiten verwendet: $L (θ) = \sum_{π^{D} \in Π^{D}} In p (π^{D} | θ)$
Da die Logarithmusfunktion monoton steigend ist, entspricht das Maximieren einer Funktion dem Maximieren des Logarithmus dieser Funktion. Diese logarithmische Wahrscheinlichkeit (Likelihood) in der voranstehenden Gleichung ist differenzierbar nach den Belohnungsgewichten θ der linearen Belohnungsfunktion. Diese Differenzierbarkeit kann erweitert werden auf die Parameter Θ des Neuronalen Netzes 7, da die Ausgänge des Neuronalen Netzes 7 die Belohnungsgewichte θ der linearen Belohnungsfunktion sind: $θ = g (Θ, f^{Π}, a^{Π})$
$L (g (Θ, f^{Π}, a^{Π})) = \sum_{π^{D} \in Π^{D}} In p (π^{D} | g (Θ, f^{Π}, a^{Π}))$
wobei f^Π die Pfadintegralmerkmale in einem Planungszyklus bzw. Trainingszyklus und a^Π die Menge an Zustandsaktionen über alle Planungsstrategien bezeichnen. Hierüber kann der maximale Entropiegradient für das Neuronale Netz 7 bestimmt werden. Zum Maximieren kann der Gradient der logarithmischen Wahrscheinlichkeit (Likelihood) L(θ) mit Bezug auf Θ berechnet werden zu: $\begin{array}{l} \frac{\partial L}{\partial Θ} = \frac{\partial L}{\partial θ} \cdot \frac{\partial θ}{\partial Θ} \\ = [\sum_{π \in Π} p (π | θ) f^{π} - {\hat{f}}^{Π^{D}}] \frac{\partial}{\partial Θ} g (Θ, f^{Π}, a^{Π}) \end{array}$
Der Gradient ist aufgeteilt in einen Gradienten der Likelihood in Bezug auf die Belohnungsgewichte θ und einen Gradienten von θ mit Bezug auf die Parameter Θ des Neuronalen Netzes 7. Der Gradient der Belohnungsgewichte θ in Bezug auf die Parameter Θ des Neuronalen Netzes 7 kann direkt erhalten werden über eine Backpropagation des tiefen Neuronalen Netzes 7. Hierzu werden an sich bekannte Verfahren eingesetzt.
Das Bestimmen des Gradienten mit Bezug auf die Belohnungsgewichte θ wird nachfolgend beispielhaft erläutert. Das Vorgehen entspricht hierbei dem Maximum Entropy Linear Inverse Reinforcement Learning.
Das Maximum Entropy Linear Inverse Reinforcement Learning ist ein ernergiebasierter Ansatz, bei dem eine Strategieverteilung über verschiedene Verhaltensweisen eingeschränkt wird, um mit einem bestimmten Erwartungswert für Merkmale übereinzustimmen, ohne hierbei eine bestimmte Strategie im Rahmen der Einschränkung zu bevorzugen. Hierbei wird das Prinzip maximaler Entropie eingesetzt, um Mehrdeutigkeiten beim Auswählen einer Strategieverteilung zu lösen. Hierbei wird ein empirischer Mittelwert aller Merkmale von Demonstrationsstrategien π^D ∈ Π^D verwendet, um einen Erwartungswert der Merkmale zur Übereinstimmung zu bringen: ${\hat{f}}^{Π^{D}} = \frac{1}{m} \sum_{π^{D} \in Π^{D}} f^{π^{D}}$
Das Hauptziel dieser Herangehensweise ist es, ein probabilistisches Modell zu finden, das eine Wahrscheinlichkeitsverteilung p(π|θ) über die Planungsstrategien (Trajektorien) hervorbringt, sodass der Erwartungswert der Merkmalswerte mit dem empirisch bestimmten Mittelwert ${\hat{f}}^{Π^{D}}$
der Demonstrationsstrategien π^D ∈ Π^D übereinstimmt: $E_{p (π θ)} [f] = {\hat{f}}^{Π^{D}}$
Die durch die voranstehende Gleichung vorgegebene Eigenschaft wird insbesondere erfüllt durch diejenige Wahrscheinlichkeitsverteilung, die die Entropie der Wahrscheinlichkeitsverteilung maximiert. Gemäß dem Prinzip der maximalen Entropie ist diese Wahrscheinlichkeitsverteilung diejenige, die die Daten am besten beschreibt, weil sie die am wenigsten verzerrte (das heißt diejenige mit dem geringsten Bias) ist. Um die Wahrscheinlichkeitsverteilung mit maximaler Entropie über alle erzeugten Planungsstrategien anzupassen (d.h. zu fitten), wird jeder Planungsstrategie in der Verteilung ein Entropiewert zugeordnet. Dieser wird berechnet, indem jeweils der Exponentialwert eines Belohnungswertes gebildet wird: $e x p (- θ^{T} f^{π})$
Die Wahrscheinlichkeit der Planungsstrategien in der Verteilung kann dann wie folgt berechnet werden: $p (π θ) = \frac{1}{Z (θ)} e x p (- θ^{T} f^{π})$
wobei die Zustandssumme Z(θ) definiert ist als: $Z (θ) = \sum_{π \in Π} e x p (- θ^{T} f^{π})$
Die Entropiefunktion ist parametriert mit der linearen Belohnungsfunktion R = -θ^T · f (sowohl θ als auch f sind hierbei Vektoren) Eine solche Funktion stellt sicher, dass Planungsstrategien (d.h. Trajektorien) mit gleichen Belohnungswerten gleiche Wahrscheinlichkeiten aufweisen und dass Planungsstrategien mit größeren Belohnungswerten eine exponentiell größere Wahrscheinlichkeit zugeordnet ist. Die Zustandssumme konvergiert stets für Problemstellungen mit endlichem Horizont und auch für Problemstellungen mit unendlichen Horizont, sofern die Belohnungsgewichte θ über die Zeit diskontiert werden. Da die Demonstrationsstrategien Π^D in einer endlichen Anzahl von Schritten aufgenommen werden, kann angenommen werden, dass die Belohnungsgewichte, die die Entropie maximieren, konvergieren.
Um die Entropie der Verteilung über die durch Vorgabe der Demonstrationsstrategien Π^D eingeschränkten Menge Π an Planungsstrategien zu maximieren, muss die Likelihood der erfassten Demonstrationsstrategien Π^D unter der maximalen Entropieverteilung maximiert werden. Da das Berechnen der exakten Likelihood zu unendlich kleinen Werten und einem Computation Underflow führen würde, wird die logarithmische Likelihood der Planungsstrategien verwendet. Da die Logarithmusfunktion monoton steigend ist, ist das Maximieren einer Funktion gleichbedeutend mit dem Maximieren des Logarithmus dieser Funktion. Ausgehend hiervon erhält man: $θ * = {arg}_{_{θ}} m a x L (θ) = {arg}_{_{θ}} max \sum_{π^{D} \in Π^{D}} In p (π^{D} g (Θ, f^{Π}, a^{Π})) = {arg}_{_{θ}} max \sum_{π^{D} \in Π^{D}} In \frac{1}{Z (θ)} e x p (- θ^{T} f^{π^{D}})$
Um die logarithmische Likelihood zu maximieren, wird die letzte Gleichung in Bezug auf die Belohnungsgewichte θ der Belohnungsfunktion differenziert. Hierdurch ergibt sich eine Gleichung für den maximalen Entropiegradienten: $\nabla L (θ) = \sum_{π \in Π} p (π θ) f^{π} - {\hat{f}}^{Π^{D}}$
Dieser Gradient kann in an sich bekannten Verfahren des Gradientenabstiegsverfahrens verwendet werden.
Der beschriebene Formalismus des Maximum Entropy Linear Inverse Reinforcement Learnings kann direkt auf diskrete Zustandsräume angewandt werden. Um den Formalismus auch auf kontinuierliche Zustandsräume anzuwenden, wie diese in einem General-Purpose-Planner 5 verwendet werden, kann ein Formalismus für die maximale Entropie für Pfadintegrale zum Einsatz kommen. Um die Planungsstrategien, welche vom General-Purpose-Planner 5 erzeugt und bereitgestellt werden, zu bewerten, werden die Merkmalef für alle Zustände s über die Zeit diskontiert. Da der General-Purpose-Planner 5 stets Planungsstrategien mit einer festen Anzahl an Zuständen s erzeugt, ist ein Merkmalsintegral über die Zustände eine gültige Repräsentation der Planungsstrategien: $f^{π} = \sum_{s \in S} γ f_{S}^{π}$
wobei y ein Diskontfaktor und S ein Satz aller Zustände in der Planungsstrategie ist. Es kann vorgesehen sein, dass der General-Purpose-Planner 5 dieses Merkmalsintegral bereits erzeugt und bereitstellt. Vorteile in der Verwendung dieses Pfadintegrals sind ein schnellerer Lese- und Schreibzugriff und ein geringerer Speicherbedarf, da nur ein Floatwert pro Planungsstrategie verwendet wird anstatt ein Floatwert pro Zustand. Da die Parameter konstant sind über verschiedene Zustände der Planungsstrategie, ist die oben beschriebene Bestimmung des Gradienten auch für die Pfadintegralmerkmale gültig und kann daher zum Trainieren verwendet werden.
Der in der Formulierung verwendete Satz an Demonstrationsstrategien Π^D muss in demselben Zustands-Aktions-Raum definiert sein wie die Menge Π an Planungsstrategien π des General-Purpose-Planners 5. Dies ist notwendig, um die Merkmale zwischen den Demonstrationsstrategien und den Planungsstrategien zur Übereinstimmung zu bringen. Eine Projektion der Demonstrationsstrategien Π^D überträgt die Aktionen der manuellen Fahrt hierzu in einen vom Planungsverfahren des General-Purpose-Planners 5 verwendeten Zustands-Aktions-Raum. Eine Projektionsmetrik d zwischen einer erfassten Odometrie ζ und kontinuierlichen Übergängen T(s,a,s') zwischen jeweils einem Zustand s in jeweils einen Zustand s' durch eine Zustandsaktion a aller Planungsstrategien π in der Menge Π von Planungsstrategien wird über die Zeit t hierzu während des Erstellens des Graphen berechnet: $d (ζ, π) = \int_{t} α_{t} ∥ ζ_{t} - π_{t} ∥ d t$
Die Norm beruht hierbei auf geometrischen Eigenschaften des Zustandsraums, beispielsweise auf einer Euklidischen Distanz in Längs- und Querrichtung sowie einer quadratischen Differenz eines Gierwinkels. Die Projektionsmetrik umfasst weiter einen zeitlichen Diskontfaktor α_t über den Planungshorizont. Die Demonstrationsstrategie π^D hat die geringste diskontierte Distanz zur aufgezeichneten Odometrie. Es gibt mehrere Vorteile dieser Projektionsmetrik. Zum ersten beinhaltet die projizierte Planungsstrategie (d.h. die projizierte Trajektorie) alle Beschränkungen des General-Purpose-Planners 5. Wenn die Projektionsmetrik einen Schwellenwert überschreitet, so entspricht die Demonstrationsstrategie nicht den Beschränkungen des Fahrzeugs und ist ungültig. Zum zweiten erlaubt die Projektionsmetrik eine intuitive Beurteilung eines Fahrstils auf Grundlage einer geometrischen Nähe zur erfassten Odometrie. Zum dritten kann die Anzahl an Demonstrationen gesteigert werden, indem die Beschränkungen der Demonstrationsstrategie π^D gelockert werden, sodass diese die geringste diskontierte Distanz zur Odometrie aufweist. Hierdurch eignen sich eine Vielzahl von erzeugten und bereitgestellten Planungsstrategien für die Demonstration $π^{D} \subseteq Π^{D}$
In 4 ist das Bestimmen des Entropiegradienten schematisch an einem Ablaufdiagramm verdeutlicht. Der Ablauf startet ausgehend von Pfadintegralmerkmalen f^π der Planungsstrategien und Pfadintegralmerkmalen f^π
D der Demonstrationsstrategien. Die Pfadintegralmerkmale f^π
D der Demonstrationsstrategien sind hierbei bereits in den vom General-Purpose-Planner verwendeten Zustandsraum projiziert. In einem Verfahrensschritt 100 werden die Entropiewerte für die Pfadintegralmerkmale f^π über die über die Belohnungsfunktion parametrierte Exponentialfunktion berechnet. Die berechneten Entropiewerte werden dann verwendet, um in Verfahrensschritt 101 die Zustandssumme Z zu berechnen. In Verfahrensschritt 102 wird anschließend die Likelihood p(π |θ) jeder Planungsstrategie (d.h. jeder Trajektorie) berechnet. Die Likelihood wird in Verfahrensschritt 103 dazu verwendet, Erwartungswerte für die Pfadintegralmerkmale f^π zu berechnen. Diese Erwartungswerte werden in Verfahrensschritt 105 von den in Verfahrensschritt 104 berechneten empirischen Mittelwerten der Pfadintegralmerkmale f^π
D der Demonstrationsstrategien Π^D subtrahiert, um hierdurch den maximalen Entropiegradienten Δθ zu erhalten.
In 5 ist eine schematische Darstellung einer Maximum Entropy Linear Inverse Reinforcement Learning Open-Loop-Architektur zum Bereitstellen der Belohnungsgewichte θ (θ ist insbesondere ein Vektor) dargestellt. Begonnen wird in einem Verfahrensschritt 200 mit einer Initialisierung mit zufälligen Belohnungsgewichten θ. In einem Verfahrensschritt 201 werden die initialisierten Belohnungsgewichte θ verwendet, um mittels des General-Purpose-Planners eine Menge Π an Planungsstrategien zu erzeugen und bereitzustellen. Die erzeugte und bereitgestellte Menge Π an Planungsstrategien wird in einem Planungsstrategiepuffer 6 gespeichert und gesammelt. Ausgehend von den im Planungsstrategiepuffer 6 gesammelten Planungsstrategien werden über eine Projektion über eine gewichtete Euklidische Distanz im Verfahrensschritt 202 Demonstrationsstrategien Π^D erzeugt. Diese werden dann verwendet, um - wie in 4 verdeutlicht - den maximalen Entropiegradienten Δθ in Verfahrensschritt 203 zu berechnen. In einem Verfahrensschritt 204 wird überprüft, ob der maximale Entropiegradient Δθ konvergiert ist oder nicht. Ist dies nicht der Fall, wird der berechnete maximale Entropiegradient Δθ zum Anpassen der Belohnungsfunktion verwendet und die Verfahrensschritte 203 und 204 erneut durchgeführt.
Es ist ferner auch möglich, den maximalen Entropiegradienten Δθ in einem Closed-Loop-Verfahren zu berechnen, indem der General-Purpose-Planner direkt mit einbezogen wird. Hierbei wird der in jedem Durchlauf jeweils berechnete maximale Entropiegradient Δθ wieder in Form einer angepassten Belohnungsfunktion (θ+Δθ)f dem General-Purpose-Planer zugeführt und das Verfahren ab Verfahrensschritt 201 bis zur Konvergenz des maximalen Entropiegradienten Δθ wiederholt (angedeutet durch die gestrichelte Linie in 5).
In 6 ist eine schematische Darstellung einer Ausführungsform des Neuronalen Netzes 7 gezeigt. Das Neuronale Netz 7 ist als tiefes Neuronales Netz 7 in Form eines Faltungsnetzes (Convolutional Neural Network) ausgestaltet. Das Neuronale Netz 7 erhält für jeden Planungszyklus an einer Eingangsschicht 7-1 die Pfadintegralmerkmale f^π und die Zustandsaktionen α ∈ A und bildet diese an einer Ausgangsschicht 7-4 auf lineare Belohnungsgewichte θ ab.
Das Neuronale Netz 7 umfasst in einem ersten Teil 7-2 Schichten für eindimensionale Faltungen, eindimensionales Pooling und in einem zweiten Teil 7-3 Fully-Connected-Dense-Schichten. Das Neuronale Netz 7 ist gekennzeichnet durch einen Faltungsblock umfassend zwei Faltungsschichten, gefolgt von einer Poolingschicht. Das Neuronale Netz 7 weist eine Abfolge von fünf solcher Faltungsblöcke auf, gefolgt von fünf Fully-Connected-Dense-Schichten und einer Fully-Connected-Dense-Schicht 7-4 ohne Aktivierungsfunktion, die die linearen Belohnungsgewichte ausgibt.
In 7 sind die Eingänge des Neuronalen Netzes 7 in der Eingangsschicht 7-1 und eine erste eindimensionale Faltung verdeutlicht. Wie schematisch in der 7 gezeigt, bestehen die Eingangsdaten des Neuronalen Netzes 7 aus einem Satz von 21 Pfadintegralmerkmalen f und zehn Zustandsaktionen α (2 Aktionen pro Zustand) für jede Planungsstrategie π, das heißt jede Trajektorie 30, eines Planungszyklus. Für jede der Planungsstrategien π, das heißt für jede der Trajektorien 30, wird eine eindimensionale Faltung über die Merkmalef und mehrere Zustandsaktionen α (aus der Menge A) mittels N Filtern ausgeführt, deren Ausgänge jeweils latente Merkmale F_i sind, die latente Beziehungen zwischen den Eingängen enkodieren.
Jeder Faltungsfilter lernt eine andere Beziehung und nach dem ersten Faltungsfilter lernt jeder weitere (nachfolgende) Faltungsfilter Beziehungen zwischen den latenten Merkmalen, die von den vorangegangenen Schichten erzeugt wurden. Mit Hilfe der Poolingschichten wird eine Reduktion der Dimensionalität der Merkmale bewirkt. Da nur eindimensionale Faltungen verwendet werden, werden keine Beziehungen zwischen den einzelnen Planungsstrategien π, das heißt Trajektorien 30, eines Planungszyklus hergestellt. Beziehungen zwischen den einzelnen Planungsstrategien π werden hingegen durch die Fully-Connected-Dense-Schichten (6) hergestellt. Die Ausgangsschicht 7-4 liefert einen Vektor von der Größe der Anzahl der Pfadintegralmerkmale (= 21). Alle Aktivierungsfunktionen im Neuronalen Netz 7 sind ReLU mit Ausnahme der Ausgangsschicht 7-4, die keine Aktivierungsfunktion aufweist.
Bezugszeichenliste

1: Vorrichtung
2: Datenverarbeitungseinrichtung
3: Recheneinrichtung
4: Speichereinrichtung
5: General-Purpose-Planner
6: Planungsstrategiepuffer
7: Neuronales Netz
7-1: Eingangsschicht
7-2: erster Teil
7-3: zweiter Teil
7-4: Ausgangsschicht
8: Belohnungsgewichtspuffer
10: Eingangsdaten
15: Umfelddaten
20: Fahrstrategie
30: Trajektorie (Planungsstrategie)
50: Fahrzeug
51: Längs- und Quersteuerung
Π: Menge von Planungsstrategien (in einem Planungszyklus)
π: Planungsstrategie in Π
h: Anzahl Planungszyklen (Historie)
f: Merkmal
A: Menge an Zustandsaktionen
α: Zustandsaktion
aπ: Zustandsaktionen über Planungsstrategie
aΠ: Menge an Zustandsaktionen über alle Planungsstrategien in einem Planungszkylus
θ: Belohnungsgewicht(e)
θmean: gemittelt(es) Belohnungsgewicht(e)
ΠD: Satz erfasster Demonstrationsstrategien (in einem Planungszyklus)
πD: Demonstrationsstrategie
Δθ: Gradient der Belohnungsgewichte (maximaler Entropiegradient)
fπ: Pfadintegralmerkmal einer Planungsstrategie
fπ: Pfadintegralmerkmale einer Planungsstrategie
fΠ: Pfadintegralmerkmale in einem Planungszyklus
fπ D: Pfadintegralmerkmal einer Demonstrationsstrategie
fΠ D: Pfadintegralmerkmale aller Demonstrationsstrategien in einem Planungszyklus
Θ: Parameter des Neuronalen Netzes
L(θ): Likelihoodfunktion
-θT · f: Struktur der Belohnungsfunktion
γ: Diskontfaktor
ζ: Odometrie
Fi: latentes Merkmal
R: Belohnungsfunktion
s: Zustand
S: Satz an Zuständen
100-105: Verfahrensschritte
200-204: Verfahrensschritte

ZITATE ENTHALTEN IN DER BESCHREIBUNG
Diese Liste der vom Anmelder aufgeführten Dokumente wurde automatisiert erzeugt und ist ausschließlich zur besseren Information des Lesers aufgenommen. Die Liste ist nicht Bestandteil der deutschen Patent- bzw. Gebrauchsmusteranmeldung. Das DPMA übernimmt keinerlei Haftung für etwaige Fehler oder Auslassungen.
Zitierte Patentliteratur

DE 102016212292 A1 [0003]

Claims

Verfahren zum Bereitstellen einer Fahrstrategie (20) für das automatisierte Fahren eines Fahrzeugs (50), wobei das Verfahren mittels einer Datenverarbeitungseinrichtung (2) durchgeführt wird, wobei ein General-Purpose-Planner (5) für jeden Planungszyklus auf Grundlage eines Umfeldmodells und einer über Belohnungsgewichte (θ) definierten Belohnungsfunktion für einen vorgegebenen Planungshorizont eine Menge (Π) an Planungsstrategien (π) erzeugt und bereitstellt, und die Fahrstrategie (20) aus der Menge (Π) an Planungsstrategien (π) auswählt und bereitstellt, wobei ausgehend von der zumindest für einen Planungszyklus bereitgestellten Menge (Π) an Planungsstrategien (π) die Belohnungsgewichte (θ) der Belohnungsfunktion (R) mittels eines Neuronalen Netzes (7) geschätzt werden, und wobei die geschätzten Belohnungsgewichte (θ) bei einem nachfolgenden Planungszyklus von dem General-Purpose-Planner (5) verwendet werden.
Verfahren nach Anspruch 1, dadurch gekennzeichnet, dass eine Historie der von dem General-Purpose-Planner (5) erzeugten und bereitgestellten Menge (Π) an Planungsstrategien (π) gespeichert wird, wobei das Schätzen der Belohnungsgewichte (θ) mittels des Neuronalen Netzes (7) ausgehend von der gespeicherten Historie erfolgt.
Verfahren nach Anspruch 1 oder 2, dadurch gekennzeichnet, dass eine Historie von geschätzten Belohnungsgewichten (θ) gespeichert wird, wobei auf Grundlage der gespeicherten Historie gemittelte Belohnungsgewichte (θ_mean) berechnet und von dem General-Purpose-Planner (5) in einem nachfolgenden Planungszyklus verwendet werden.
Verfahren nach einem der vorangegangenen Ansprüche, dadurch gekennzeichnet, dass das Neuronale Netz (7) im Wege des Maximum Entropy Inverse Reinforcement Learning trainiert wird oder trainiert wurde, wobei hierzu ein Satz (Π^D) erfasster Demonstrationsstrategien (π^D) empfangen wird und wobei der General-Purpose-Planner (5) hierzu eine Menge (Π) an Planungsstrategien (π) erzeugt und bereitstellt.
Verfahren nach Anspruch 4, dadurch gekennzeichnet, dass zum Trainieren des Neuronalen Netzes (7) ausgehend von mittels des Neuronalen Netzes (7) geschätzten Belohnungsgewichten (θ), dem Satz (Π^D) erfasster Demonstrationsstrategien (π^D) und der bereitgestellten Menge (Π) an Planungsstrategien (π) ein maximaler Entropiegradient (Δθ) bestimmt wird, wobei Parameter (Θ) des Neuronalen Netzes (7) auf Grundlage des bestimmten maximalen Entropiegradienten (Δθ) bestimmt werden.
Verfahren nach einem der Ansprüche 4 oder 5, dadurch gekennzeichnet, dass eine Historie der von dem General-Purpose-Planner (5) zum Trainieren erzeugten und bereitgestellten Menge (Π) an Planungsstrategien (π) gespeichert wird, wobei das Trainieren des Neuronalen Netzes (7) ausgehend von der gespeicherten Historie erfolgt.
Verfahren nach Anspruch 4 bis 6, dadurch gekennzeichnet, dass beim Trainieren eine Historie von geschätzten Belohnungsgewichten (θ) gespeichert wird, wobei auf Grundlage der gespeicherten Historie gemittelte Belohnungsgewichte (θ_mean) berechnet und von dem General-Purpose-Planner (5) in einem nachfolgenden Trainingszyklus verwendet werden.
Verfahren nach einem der vorangegangenen Ansprüche, dadurch gekennzeichnet, dass eine Größe (h) der Historien beim Trainieren und beim Anwenden gleich gewählt ist.
Vorrichtung (1) zum Bereitstellen einer Fahrstrategie (20) für das automatisierte Fahren eines Fahrzeugs (50), umfassend eine Datenverarbeitungseinrichtung (2), wobei die Datenverarbeitungseinrichtung (2) dazu eingerichtet ist, einen General-Purpose-Planner (5) bereitzustellen, wobei der General-Purpose-Planner (5) dazu eingerichtet ist, für jeden Planungszyklus auf Grundlage eines Umfeldmodells und einer über Belohnungsgewichte (θ) definierten Belohnungsfunktion (R) für einen vorgegebenen Planungshorizont eine Menge (Π) an Planungsstrategien (π) zu erzeugen und bereitzustellen, und die Fahrstrategie (20) aus der Menge (Π) an Planungsstrategien (π) auszuwählen und bereitzustellen, und wobei die Datenverarbeitungseinrichtung (2) ferner dazu eingerichtet ist, ein Neuronales Netz (7) bereitzustellen, wobei das Neuronale Netz (7) dazu trainiert ist, ausgehend von der zumindest für einen Planungszyklus bereitgestellten Menge (Π) an Planungsstrategien (π) die Belohnungsgewichte (θ) der Belohnungsfunktion (R) zu schätzen, und wobei die Datenverarbeitungseinrichtung (2) weiter dazu eingerichtet ist, die geschätzten Belohnungsgewichte (θ) bei einem nachfolgenden Planungszyklus im bereitgestellten General-Purpose-Planner (5) zu verwenden.
Kraftfahrzeug (50), umfassend mindestens eine Vorrichtung (1) nach Anspruch 9.
Verfahren zum Trainieren eines Neuronalen Netzes (7), wobei das Verfahren mittels einer Datenverarbeitungseinrichtung durchgeführt wird, wobei das Neuronale Netz (7) darauf trainiert wird, ausgehend von einer mittels eines General-Purpose-Planners (5) zumindest für einen Planungszyklus bereitgestellten Menge (Π) an Planungsstrategien (π) Belohnungsgewichte (θ) einer Belohnungsfunktion (θf) des General-Purpose-Planners (5) zu schätzen, wobei das Neuronale Netz (7) im Wege des Maximum Entropy Inverse Reinforcement Learning trainiert wird, wobei hierzu ein Satz (Π^D) erfasster Demonstrationsstrategien (π^D) empfangen wird und wobei der General-Purpose-Planner (5) hierzu eine Menge (Π) an Planungsstrategien (π) erzeugt und bereitstellt.
Verfahren nach Anspruch 11, dadurch gekennzeichnet, dass zum Trainieren des Neuronalen Netzes (7) ausgehend von mittels des Neuronalen Netzes (7) geschätzten Belohnungsgewichten (θ), dem Satz (Π^D) erfasster Demonstrationsstrategien (π^D) und der bereitgestellten Menge (Π) an Planungsstrategien (π) ein maximaler Entropiegradient (Δθ) bestimmt wird, wobei Parameter (Θ) des Neuronalen Netzes (7) auf Grundlage des bestimmten maximalen Entropiegradienten (Δθ) bestimmt werden.