DE102019216232A1 - Verfahren und Vorrichtung zum Bereitstellen einer Fahrstrategie für das automatisierte Fahren eines Fahrzeugs - Google Patents

Verfahren und Vorrichtung zum Bereitstellen einer Fahrstrategie für das automatisierte Fahren eines Fahrzeugs Download PDF

Info

Publication number
DE102019216232A1
DE102019216232A1 DE102019216232.0A DE102019216232A DE102019216232A1 DE 102019216232 A1 DE102019216232 A1 DE 102019216232A1 DE 102019216232 A DE102019216232 A DE 102019216232A DE 102019216232 A1 DE102019216232 A1 DE 102019216232A1
Authority
DE
Germany
Prior art keywords
planning
neural network
reward
strategies
planner
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
DE102019216232.0A
Other languages
English (en)
Inventor
Simon Grossjohann
Silviu Homoceanu
Sascha Rosbach
Vinit James
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Volkswagen AG
Original Assignee
Volkswagen AG
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Volkswagen AG filed Critical Volkswagen AG
Priority to DE102019216232.0A priority Critical patent/DE102019216232A1/de
Publication of DE102019216232A1 publication Critical patent/DE102019216232A1/de
Pending legal-status Critical Current

Links

Images

Classifications

    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60WCONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
    • B60W60/00Drive control systems specially adapted for autonomous road vehicles
    • B60W60/001Planning or execution of driving tasks
    • B60W60/0011Planning or execution of driving tasks involving control alternatives for a single driving scenario, e.g. planning several paths to avoid obstacles
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60WCONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
    • B60W50/00Details of control systems for road vehicle drive control not related to the control of a particular sub-unit, e.g. process diagnostic or vehicle driver interfaces
    • B60W2050/0001Details of the control system
    • B60W2050/0019Control system elements or transfer functions
    • B60W2050/0022Gains, weighting coefficients or weighting functions
    • B60W2050/0025Transfer function weighting factor

Landscapes

  • Engineering & Computer Science (AREA)
  • Automation & Control Theory (AREA)
  • Human Computer Interaction (AREA)
  • Transportation (AREA)
  • Mechanical Engineering (AREA)
  • Feedback Control In General (AREA)

Abstract

Die Erfindung betrifft ein Verfahren zum Bereitstellen einer Fahrstrategie (20) für das automatisierte Fahren eines Fahrzeugs (50), wobei das Verfahren mittels einer Datenverarbeitungseinrichtung (2) durchgeführt wird, wobei ein General-Purpose-Planner (5) für jeden Planungszyklus auf Grundlage eines Umfeldmodells und einer über Belohnungsgewichte (θ) definierten Belohnungsfunktion für einen vorgegebenen Planungshorizont eine Menge (Π) an Planungsstrategien (π) erzeugt und bereitstellt, und die Fahrstrategie (20) aus der Menge (Π) an Planungsstrategien (π) auswählt und bereitstellt, wobei ausgehend von der zumindest für einen Planungszyklus bereitgestellten Menge (Π) an Planungsstrategien (π) die Belohnungsgewichte (θ) der Belohnungsfunktion (R) mittels eines Neuronalen Netzes (7) geschätzt werden, und wobei die geschätzten Belohnungsgewichte (θ) bei einem nachfolgenden Planungszyklus von dem General-Purpose-Planner (5) verwendet werden. Ferner betrifft die Erfindung eine Vorrichtung (1) zum Bereitstellen einer Fahrstrategie (20) für das automatisierte Fahren eines Fahrzeugs (50).

Description

  • Die Erfindung betrifft ein Verfahren und eine Vorrichtung zum Bereitstellen einer Fahrstrategie für das automatisierte Fahren eines Fahrzeugs.
  • Beim automatisierten Fahren eines Fahrzeugs spielen eine Verhaltens- und Bewegungsplanung eine herausragende Rolle. Hierbei muss in einem vorgegebenen Umfeld eine Fahrstrategie gefunden werden, mit der das Fahrzeug automatisiert durch das Umfeld gefahren werden kann.
  • Aus der DE 10 2016 212 292 A1 ist ein Verfahren zum Bereitstellen einer Plantrajektorie für ein Kraftfahrzeug bekannt, umfassend die folgenden Schritte: Empfangen von bereitgestellten Umfelddaten eines Umfelds des Kraftfahrzeugs, Bereitstellen eines Zustandsraumes für einen vorgegebenen Planungshorizont, wobei der Zustandsraum mehrere Zustände des Kraftfahrzeugs in dem durch die Umfelddaten beschriebenen Umfeld umfasst, Auswählen einer Teilmenge der mehreren Zustände aus dem Zustandsraum auf Grundlage mindestens eines Auswahlkriteriums, Erstellen eines Suchgraphens, wobei die ausgewählten Zustände jeweils Knoten des Suchgraphen repräsentieren, Zerlegen des Suchgraphen in mindestens zwei zeitlich oder örtlich aufeinander folgende Teilbereiche, wobei nachfolgend sukzessiv für jeden der mindestens zwei zeitlich oder örtlich aufeinander folgenden Teilbereiche mehrere Trajektorienkandidaten parallel berechnet und anhand mindestens eines Bewertungskriteriums in jedem der Teilbereiche bewertet werden, und im Anschluss: Zusammenstellen einer Plantrajektorie für den vorgegebenen Planungshorizont aus einzelnen berechneten Trajektorienkandidaten, wobei diejenigen über die Teilbereiche hinweg miteinander verbundenen Trajektorienkandidaten ausgewählt werden, deren Bewertungen in der Summe den höchsten Wert ergeben.
  • Zum Bestimmen einer optimalen Fahrstrategie in einem Umfeld kann beispielsweise ein General-Purpose-Planner eingesetzt werden. Ein solcher General-Purpose-Planner kombiniert eine Verhaltens- und eine Bewegungsplanung miteinander. Ein General-Purpose-Planner erlaubt eine verhaltensbewusste Bewegungsplanung unter Berücksichtigung einer einzigen gegebenen Belohnungsfunktion (engl. reward function). Jedoch gilt es hierbei zwei Herausforderungen zu meistern: Zum einen muss die Belohnungsfunktion den komplexen Merkmalsraum einer Planungsstrategie auf die jeweiligen Belohnungen abbilden. Zum anderen muss die Belohnungsfunktion umständlich von menschlichen Experten bestimmt werden.
  • Aus S. Rosbach et al., Driving with Style: Inverse Reinforcement Learning in General-Purpose Planning for Automated Driving, arXiv:1905.00229v1 [cs.RO], 1. Mai 2019, ist ein Verfahren bekannt, mit dem eine Belohnungsfunktion automatisiert bestimmt bzw. parametriert werden kann. Das Verfahren verwendet erfasste menschliche Demonstrationsstrategien, das heißt manuell gefahrene Trajektorien, um die Belohnungsfunktion des General-Purpose-Planners zu bestimmen. Hierbei kommt das Verfahren des Maximum Entropy Inverse Reinforcement Learning (IRL) zum Einsatz.
  • Aus M. Wulfmeier et al., Maximum Entropy Deep Inverse Reinforcement Learning, arXiv:1507.04888v3 [cs.LG], 11. März 2016, ist ein Verfahren zum Schätzen einer Belohnungsfunktion mit Hilfe eines tiefen Neuronalen Netzes bekannt.
  • Der Erfindung liegt die Aufgabe zu Grunde, ein Verfahren und eine Vorrichtung zum Bereitstellen einer Fahrstrategie für das automatisierte Fahren eines Fahrzeugs zu verbessern.
  • Die Aufgabe wird erfindungsgemäß durch ein Verfahren mit den Merkmalen des Patentanspruchs 1 und eine Vorrichtung mit den Merkmalen des Patentanspruchs 9 gelöst. Vorteilhafte Ausgestaltungen der Erfindung ergeben sich aus den Unteransprüchen.
  • Insbesondere wird ein Verfahren zum Bereitstellen einer Fahrstrategie für das automatisierte Fahren eines Fahrzeugs zur Verfügung gestellt, wobei das Verfahren mittels einer Datenverarbeitungseinrichtung durchgeführt wird, wobei ein General-Purpose-Planner für jeden Planungszyklus auf Grundlage eines Umfeldmodells und einer über Belohnungsgewichte definierten Belohnungsfunktion für einen vorgegebenen Planungshorizont eine Menge an Planungsstrategien erzeugt und bereitstellt, und die Fahrstrategie aus der Menge an Planungsstrategien auswählt und bereitstellt, wobei ausgehend von der zumindest für einen Planungszyklus bereitgestellten Menge an Planungsstrategien die Belohnungsgewichte der Belohnungsfunktion mittels eines Neuronalen Netzes geschätzt werden, und wobei die geschätzten Belohnungsgewichte bei einem nachfolgenden Planungszyklus von dem General-Purpose-Planner verwendet werden.
  • Ferner wird insbesondere eine Vorrichtung zum Bereitstellen einer Fahrstrategie für das automatisierte Fahren eines Fahrzeugs geschaffen, umfassend eine Datenverarbeitungseinrichtung, wobei die Datenverarbeitungseinrichtung dazu eingerichtet ist, einen General-Purpose-Planner bereitzustellen, wobei der General-Purpose-Planner dazu eingerichtet ist, für jeden Planungszyklus auf Grundlage eines Umfeldmodells und einer über Belohnungsgewichte definierten Belohnungsfunktion für einen vorgegebenen Planungshorizont eine Menge an Planungsstrategien zu erzeugen und bereitzustellen, und die Fahrstrategie aus der Menge an Planungsstrategien auszuwählen und bereitzustellen, und wobei die Datenverarbeitungseinrichtung ferner dazu eingerichtet ist, ein Neuronales Netz bereitzustellen, wobei das Neuronale Netz dazu trainiert ist, ausgehend von der zumindest für einen Planungszyklus bereitgestellten Menge an Planungsstrategien die Belohnungsgewichte der Belohnungsfunktion zu schätzen, und wobei die Datenverarbeitungseinrichtung weiter dazu eingerichtet ist, die geschätzten Belohnungsgewichte bei einem nachfolgenden Planungszyklus im bereitgestellten General-Purpose-Planner zu verwenden.
  • Das Verfahren und die Vorrichtung ermöglichen es, einen großen Merkmalsraum und eine große Menge von Planungsstrategien beim Schätzen und Bereitstellen der Belohnungsgewichte der Belohnungsfunktion zu berücksichtigen. Auf diese Weise kann für eine Vielzahl unterschiedlicher Fahrszenarien eine optimale Belohnungsfunktion bereitgestellt werden. Dies erfolgt, indem ein General-Purpose-Planner mit einem Neuronalen Netz kombiniert wird. Der General-Purpose-Planner erzeugt für jeden Planungszyklus auf Grundlage eines Umfeldmodells und einer Belohnungsfunktion für einen vorgegebenen Planungshorizont eine Menge an Planungsstrategien und stellt diese bereit. Dem General-Purpose-Planner werden hierzu insbesondere aktuell erfasste Umfelddaten bereitgestellt, welche dieser in dem Umfeldmodell verarbeitet. Die aktuellen Umfelddaten können beispielsweise mittels einer Sensorik erfasst werden und der Datenverarbeitungseinrichtung bzw. dem General-Purpose-Planner zugeführt werden. Die Belohnungsfunktion ist hierbei insbesondere linear und wird insbesondere über einzelnen Merkmalen zugeordnete Belohnungsgewichte definiert. Das Neuronale Netz ist darauf trainiert, ausgehend von der bereitgestellten Menge an Planungsstrategien die Belohnungsgewichte zu schätzen. Das heißt, das Neuronale Netz schätzt insbesondere nicht einen Wert der Belohnung selbst, sondern die Belohnungsgewichte der Belohnungsfunktion. Die für einen Planungszyklus vom General-Purpose-Planner bereitgestellte Menge an Planungsstrategien, welche insbesondere jeweils in Form von Merkmalen und Zustandsaktionen der Planungsstrategien bereitgestellt wird, wird daher den Eingängen des Neuronalen Netzes zugeführt und das Neuronale Netz schätzt, das heißt inferiert, an seinen Ausgängen die Belohnungsgewichte. Die von dem Neuronalen Netz geschätzten Belohnungsgewichte werden dann bei einem nachfolgenden Planungszyklus von dem General-Purpose-Planner verwendet. Hierzu aktualisiert der General-Purpose-Planner die Belohnungsfunktion, indem die für den aktuellen Planungszyklus mittels des Neuronalen Netzes geschätzten Belohnungsgewichte in der Belohnungsfunktion berücksichtigt werden. Beispielsweise können die für den aktuellen Planungszyklus geschätzten Belohnungsgewichte die im vorangegangenen Planungszyklus verwendeten Belohnungsgewichte in der Belohnungsfunktion ersetzen. Der General-Purpose-Planner wählt ferner auf Grundlage der Belohnungsfunktion aus der erzeugten Menge von Planungsstrategien eine optimale Fahrstrategie aus und stellt diese bereit, beispielsweise indem zugehörige Fahrstrategiedaten ausgegeben werden. Die ausgegebenen Fahrstrategiedaten können dann einer Fahrzeugsteuerung zugeführt werden. Durch die verbesserte Schätzung der Belohnungsgewichte der Belohnungsfunktion ist auch das Bereitstellen der optimalen Fahrstrategie mittels des General-Purpose-Planners verbessert. Das Verfahren wird insbesondere zyklisch wiederholt.
  • Ein Vorteil des Verfahrens und der Vorrichtung ist, dass auch für einen großen Merkmalsraum fortlaufend eine auf ein aktuelles Fahrszenario zugeschnittene Belohnungsfunktion bereitgestellt werden kann. Das Bereitstellen und Auswählen einer optimalen Fahrstrategie ist hierdurch verbessert.
  • Ein General-Purpose-Planner stellt insbesondere eine Menge von Planungsstrategien, das heißt eine Menge an möglichen Trajektorien, für ein gegebenes Umfeld bereit. Der General-Purpose-Planner muss dies in einer Vielzahl unterschiedlicher Verkehrssituationen können und muss insbesondere Kollisionen vermeiden, Verkehrsregeln beachten und ein Risiko unerwarteter Ereignisse minimieren. Dies erreicht der General-Purpose-Planner insbesondere über die Belohnungsfunktion, welche dazu dient, erzeugte Planungsstrategien zu bewerten. Dem General-Purpose-Planner werden hierzu insbesondere aktuell erfasste Umfelddaten zugeführt, die der General-Purpose-Planner in einem Umfeldmodell verarbeitet. Ein General-Purpose-Planner kann beispielsweise wie der in S. Rosbach et al., Driving with Style: Inverse Reinforcement Learning in General-Purpose Planning for Automated Driving, arXiv:1905.00229v1 [cs.RO], 1. Mai 2019, beschriebene General-Purpose-Planner ausgestaltet sein.
  • Eine Planungsstrategie, welche auch als mögliche Trajektorie des Fahrzeugs in einem Umfeld aufgefasst werden kann, umfasst insbesondere Merkmale und Zustandsaktionen für alle Zustände der Planungsstrategie bzw. der Trajektorie. Die Merkmale berücksichtigen hierbei beispielsweise eine Längsbeschleunigung, eine Änderung der Längsbeschleunigung, eine Geschwindigkeit, eine Querbeschleunigung, eine Änderung der Querbeschleunigung, eine Endausrichtung, Abstände zu einer Mittellinie, zu einem Hindernis oder zu einer Konfliktzone, zu einem Bordstein und/oder eine Richtung etc. Zustandsaktionen umfassen insbesondere die Menge aller möglichen Aktionen (z.B. Lenkwinkel ändern, Beschleunigen etc.) für jeden Zustand. Die Zustandsaktionen sind hierbei insbesondere durch physikalische Gesetze bzw. Fahrzeugeigenschaften begrenzt. Durch das berücksichtigen der Zustandsaktionen kann insbesondere auch eine Kinematik der Planungsstrategie berücksichtigt werden. Hierdurch kann eine optimale Fahrstrategie verbessert bereitgestellt werden.
  • Die Belohnungsfunktion ist insbesondere linear, das heißt die Belohnungsgewichte und die jeweils zugehörigen bzw. diesen zugeordneten Werte der Merkmale gehen jeweils nur linear in die Belohnungsfunktion ein. Prinzipiell können jedoch auch andere Belohnungsfunktionen verwendet werden.
  • Das Neuronale Netz ist insbesondere ein tiefes Neuronales Netz, insbesondere ein Faltungsnetz (Convolutional Neural Network, CNN). Das tiefe Neuronale Netz bildet Merkmale, insbesondere Pfadintegralmerkmale, und Zustandsaktionen auf die Belohnungsgewichte ab. Hierbei werden dem Neuronalen Netz die einzelnen Merkmale, insbesondere die einzelnen Pfadintegralmerkmale, und Zustandsaktionen sämtlicher Planungsstrategien in der Menge der Planungsstrategien zugeführt.
  • Ein Fahrzeug ist insbesondere ein Kraftfahrzeug. Das Fahrzeug kann prinzipiell jedoch auch ein anderes Land-, Luft-, Wasser- oder Raumfahrzeug sein.
  • Das Verfahren wird mittels einer Datenverarbeitungseinrichtung ausgeführt. Die Datenverarbeitungseinrichtung ist insbesondere als eine Kombination von Hardware und Software ausgebildet, beispielsweise als Programmcode, der auf einem (oder mehreren) Mikrocontroller(n) oder Mikroprozessor(en) ausgeführt wird. Die Datenverarbeitungseinrichtung umfasst insbesondere eine Recheneinrichtung und eine Speichereinrichtung. Die Datenverarbeitungseinrichtung stellt insbesondere den General-Purpose-Planner und das Neuronale Netz bereit.
  • In einer Ausführungsform ist vorgesehen, dass eine Historie der von dem General-Purpose-Planner erzeugten und bereitgestellten Menge an Planungsstrategien gespeichert wird, wobei das Schätzen der Belohnungsgewichte mittels des Neuronalen Netzes ausgehend von der gespeicherten Historie erfolgt. Hierdurch kann die Menge an Planungsstrategien, die zum Schätzen der Belohnungsgewichte dem Neuronalen Netz zugeführt werden, vergrößert werden. Die Historie wird beispielsweise mittels eines Planungsstrategiepuffers gesammelt und gespeichert. Dieser kann insbesondere eine vorgegebene Anzahl an Planungszyklen berücksichtigen.
  • In einer Ausführungsform ist vorgesehen, dass eine Historie von geschätzten Belohnungsgewichten gespeichert wird, wobei auf Grundlage der gespeicherten Historie gemittelte Belohnungsgewichte berechnet und von dem General-Purpose-Planner in einem nachfolgenden Planungszyklus verwendet werden. Hierdurch können Schwankungen, die zwischen Planungszyklen in den Belohnungsgewichten auftreten, geglättet werden. Das Schätzen der Belohnungsgewichte ist in Bezug auf einen Zeitverlauf hierdurch insgesamt stabiler. Die Historie wird beispielsweise mittels eines Belohnungsgewichtspuffers gesammelt und gespeichert. Dieser kann insbesondere eine vorgegebene Anzahl an Planungszyklen berücksichtigen.
  • In einer Ausführungsform ist vorgesehen, dass das Neuronale Netz im Wege des Maximum Entropy Inverse Reinforcement Learning (IRL) trainiert wird oder trainiert wurde, wobei hierzu ein Satz erfasster Demonstrationsstrategien empfangen wird und wobei der General-Purpose-Planner hierzu eine Menge an Planungsstrategien erzeugt und bereitstellt. Hierdurch können die mittels des Neuronalen Netzes geschätzten Belohnungsgewichte derart angepasst werden bzw. das Neuronale Netz kann derart trainiert werden, dass ein Verhalten in dem Satz erfasster Demonstrationsstrategien nachgeahmt wird. Hierdurch kann beispielsweise das Verhalten bzw. ein Fahrstil eines menschlichen Fahrers nachgeahmt bzw. angestrebt werden. Insbesondere führt dies dazu, dass ein Wert der Belohnungsfunktion umso größer ist, je ähnlicher eine Planungsstrategie dem Satz erfasster Demonstrationsstrategien ist. Diese Form des Trainierens des Neuronalen Netzes wird dadurch ermöglicht, dass mittels des Neuronalen Netzes nicht ein Wert der Belohnungsfunktion selbst, sondern die einzelnen Belohnungsgewichte geschätzt werden, denn hierdurch kann der General-Purpose-Planner direkt in das Maximum Entropy Inverse Reinforcement Learning-Verfahren eingebunden werden.
  • In einer weiterbildenden Ausführungsform ist vorgesehen, dass zum Trainieren des Neuronalen Netzes ausgehend von mittels des Neuronalen Netzes geschätzten Belohnungsgewichten, dem Satz erfasster Demonstrationsstrategien und der bereitgestellten Menge an Planungsstrategien ein maximaler Entropiegradient bestimmt wird, wobei Parameter des Neuronalen Netzes auf Grundlage des bestimmten maximalen Entropiegradienten bestimmt werden. Der maximale Entropiegradient kann hierbei als Fehler des Neuronalen Netzes beim Schätzen der Belohnungsgewichte aufgefasst werden. Dieser Fehler wird dann insbesondere dazu verwendet, um das Neuronale Netz im Wege des Gradientenabstiegsverfahrens zu trainieren bzw. die Parameter des Neuronalen Netzes zu bestimmen. Dies ermöglicht ein effizientes Trainieren des Neuronalen Netzes.
  • Der beschriebene Formalismus des Maximum Entropy Linear Inverse Reinforcement Learnings kann direkt auf diskrete Zustandsräume angewandt werden. Um den Formalismus auch auf kontinuierliche Zustandsräume anzuwenden, wie diese in einem General-Purpose-Planner üblicherweise verwendet werden, kann insbesondere ein Formalismus für die maximale Entropie für Pfadintegrale zum Einsatz kommen. In einer Ausführungsform sind die Merkmale daher in Form von Pfadintegralmerkmalen ausgebildet. Die Pfadintegralmerkmale umfassen insbesondere (über die Zeit diskontierte) Merkmale aller Zustände einer Planungsstrategie. Hierdurch kann ein schnellerer Lese- und Schreibzugriff erfolgen und es wird ein geringerer Speicherbedarf benötigt, da nur ein Floatwert pro Planungsstrategie verwendet wird anstatt ein Floatwert pro Zustand.
  • In einer Ausführungsform ist vorgesehen, dass eine Historie der von dem General-Purpose-Planner zum Trainieren erzeugten und bereitgestellten Menge an Planungsstrategien gespeichert wird, wobei das Trainieren des Neuronalen Netzes ausgehend von der gespeicherten Historie erfolgt. Hierdurch kann die Menge an Planungsstrategien, die beim Trainieren verwendet wird, vergrößert werden. Die Historie wird beispielsweise mittels eines Planungsstrategiepuffers gesammelt und gespeichert. Dieser kann insbesondere eine vorgegebene Anzahl an Planungszyklen berücksichtigen.
  • In einer Ausführungsform ist vorgesehen, dass beim Trainieren eine Historie von geschätzten Belohnungsgewichten gespeichert wird, wobei auf Grundlage der gespeicherten Historie gemittelte Belohnungsgewichte berechnet und von dem General-Purpose-Planner in einem nachfolgenden Trainingszyklus verwendet werden. Hierdurch können Schwankungen zwischen einzelnen Trainingszyklen geglättet werden. Das Schätzen der Belohnungsgewichte ist in Bezug auf einen Zeitverlauf hierdurch insgesamt stabiler. Die Historie wird beispielsweise mittels eines Belohnungsgewichtspuffers gesammelt und gespeichert. Dieser kann insbesondere eine vorgegebene Anzahl an Planungszyklen berücksichtigen.
  • In einer Ausführungsform ist vorgesehen, dass eine Größe der Historien beim Trainieren und beim Anwenden gleich gewählt ist. Hierbei kann sowohl die Größe der Historien der Mengen der Planungsstrategien als auch alternativ oder zusätzlich die Größe der Historien der Belohnungsgewichte gleich gewählt sein. Hierdurch kann das Schätzen der Belohnungsgewichte bzw. der Belohnungsfunktion weiter verbessert werden. Insbesondere kann hierdurch eine Gewichtung bei der Berücksichtigung vergangener Planungszyklen beim Schätzen der Belohnungsgewichte eingestellt werden.
  • Weitere Merkmale zur Ausgestaltung der Vorrichtung ergeben sich aus der Beschreibung von Ausgestaltungen des Verfahrens. Die Vorteile der Vorrichtung sind hierbei jeweils die gleichen wie bei den Ausgestaltungen des Verfahrens.
  • Weiter wird insbesondere auch ein Kraftfahrzeug geschaffen, umfassend mindestens eine Vorrichtung nach einer der beschriebenen Ausführungsformen.
  • Darüber hinaus wird insbesondere auch ein Verfahren zum Trainieren eines Neuronalen Netzes zur Verfügung gestellt, wobei das Verfahren mittels einer Datenverarbeitungseinrichtung durchgeführt wird, wobei das Neuronale Netz darauf trainiert wird, ausgehend von einer mittels eines General-Purpose-Planners zumindest für einen Planungszyklus bereitgestellten Menge an Planungsstrategien Belohnungsgewichte einer Belohnungsfunktion des General-Purpose-Planners zu schätzen, wobei das Neuronale Netz im Wege des Maximum Entropy Inverse Reinforcement Learning trainiert wird, wobei hierzu ein Satz erfasster Demonstrationsstrategien empfangen wird und wobei der General-Purpose-Planner hierzu eine Menge an Planungsstrategien erzeugt und bereitstellt.
  • Weitere Merkmale zur Ausgestaltung des Verfahrens zum Trainieren eines Neuronalen Netzes ergeben sich aus der Beschreibung von Ausgestaltungen des Verfahrens zum Bereitstellen einer Fahrstrategie für das automatisierte Fahren eines Fahrzeugs. Die Vorteile des Verfahrens zum Trainieren eines Neuronalen Netzes sind hierbei jeweils die gleichen wie bei den Ausgestaltungen des Verfahrens zum Bereitstellen einer Fahrstrategie für das automatisierte Fahren eines Fahrzeugs.
  • Nachfolgend wird die Erfindung anhand bevorzugter Ausführungsbeispiele unter Bezugnahme auf die Figuren näher erläutert. Hierbei zeigen:
    • 1 eine schematische Darstellung einer Ausführungsform der Vorrichtung zum Bereitstellen einer Fahrstrategie für das automatisierte Fahren eines Fahrzeugs;
    • 2 ein schematisches Ablaufdiagramm einer Ausführungsform des Verfahrens zum Bereitstellen einer Fahrstrategie für das automatisierte Fahren eines Fahrzeugs;
    • 3 ein schematisches Ablaufdiagramm einer Trainingsphase des Neuronalen Netzes in einer Ausführungsform des Verfahrens zum Bereitstellen einer Fahrstrategie für das automatisierte Fahren eines Fahrzeugs;
    • 4 ein schematisches Ablaufdiagramm zur Verdeutlichung des Bestimmens des Entropiegradienten;
    • 5 eine schematische Darstellung einer Maximum Entropy Linear Inverse Reinforcement Learning Open-Loop-Architektur zum Bereitstellen der Belohnungsfunktion;
    • 6 eine schematische Darstellung einer Ausführungsform des Neuronalen Netzes;
    • 7 eine schematische Darstellung zur Verdeutlichung der Eingänge des Neuronalen Netzes aus 6 in der Eingangsschicht und einer ersten eindimensionale Faltung.
  • In 1 ist eine schematische Darstellung einer Ausführungsform der Vorrichtung 1 zum Bereitstellen einer Fahrstrategie 20 für das automatisierte Fahren eines Fahrzeugs 50. Die Vorrichtung 1 umfasst eine Datenverarbeitungseinrichtung 2. Die Datenverarbeitungseinrichtung 2 weist eine Recheneinrichtung 3 und eine Speichereinrichtung 4 auf.
  • Die Datenverarbeitungseinrichtung 2 stellt einen General-Purpose-Planner bereit. Hierzu führt die Recheneinrichtung 3 Rechenoperationen aus und greift zu diesem Zweck auf in der Speichereinrichtung 4 hinterlegte Daten zu. Der General-Purpose-Planner erzeugt für jeden Planungszyklus auf Grundlage eines Umfeldmodells und einer über Belohnungsgewichte definierten Belohnungsfunktion für einen vorgegebenen Planungshorizont eine Menge an Planungsstrategien und stellt diese bereit.
  • Ferner wählt der General-Purpose-Planner für jeden Planungszyklus eine optimale Fahrstrategie 20 aus der Menge an Planungsstrategien aus und stellt diese bereit. Die bereitgestellte Fahrstrategie 20 wird von der Datenverarbeitungseinrichtung 20 ausgegeben, beispielsweise in Form eines digitalen Datenpakets, und einer Längs- und Quersteuerung 51 des Fahrzeugs 50 zugeführt.
  • Dem General-Purpose-Planner 5 werden hierzu insbesondere aktuell erfasste Umfelddaten 15 bereitgestellt, welche dieser in dem Umfeldmodell verarbeitet. Die aktuellen Umfelddaten 15 können beispielsweise mittels einer Sensorik (nicht gezeigt) des Fahrzeugs erfasst werden und der Datenverarbeitungseinrichtung 2 bzw. dem General-Purpose-Planner zugeführt werden.
  • Ferner stellt die Datenverarbeitungseinrichtung 2 ein Neuronales Netz bereit. Hierzu führt die Recheneinrichtung 3 Rechenoperationen aus und greift zu diesem Zweck auf in der Speichereinrichtung 4 hinterlegte Daten zu. Das Neuronale Netz ist dazu trainiert, ausgehend von der zumindest für einen Planungszyklus von dem General-Purpose-Planner bereitgestellten Menge an Planungsstrategien die Belohnungsgewichte der Belohnungsfunktion zu schätzen. Die geschätzten Belohnungsgewichte werden dem General-Purpose-Planner zugeführt und von diesem in einem nachfolgenden Planungszyklus verwendet.
  • In 2 ist ein schematisches Ablaufdiagramm einer Ausführungsform des Verfahrens zum Bereitstellen einer Fahrstrategie 20 für das automatisierte Fahren eines Fahrzeugs gezeigt. Das Verfahren wird beispielsweise mittels der in der 1 gezeigten Vorrichtung ausgeführt.
  • In der 2 gezeigt sind ein General-Purpose-Planner 5, ein Planungsstrategiepuffer 6, ein Neuronales Netz 7 und ein Belohnungsgewichtspuffer 8.
  • Der General-Purpose-Planner 5 erzeugt für einen Planungszyklus eine Menge Π von Planungsstrategien, das heißt eine Menge Π von Trajektorien. Der Planungsstrategiepuffer 6 sammelt die Mengen Π von Planungsstrategien zum Bereitstellen einer Historie über die letzten h Planungszyklen.
  • Die über die letzten h Planungszyklen gesammelte Mengen Π an Planungsstrategien werden Eingängen des Neuronalen Netzes 7 als Eingangsdaten 10 zugeführt. Eine Planungsstrategie, das heißt eine Trajektorie, umfasst hierbei Merkmale f, insbesondere Pfadintegralmerkmale fπ , und eine Menge an Zustandsaktionen α ∈ A.
  • Das Neuronale Netz 7 ist insbesondere ein tiefes Neuronales Netz 7, insbesondere ein Faltungsnetz. Das Neuronale Netz 7 inferiert ausgehend von der als Eingangsdaten 10 bereitgestellten über h Planungszyklen gesammelten Mengen Π an Planungsstrategien Belohnungsgewichte θ für die Belohnungsfunktion des General-Purpose-Planners 5 und stellt diese an Ausgängen bereit (vgl. auch 6 und 7).
  • Der Belohnungsgewichtspuffer 8 sammelt die inferierten Belohnungsgewichte θ und bildet für die letzten h Planungszyklen hieraus gemittelte Belohnungsgewichte θmean . Die gemittelten Belohnungsgewichte θmean werden dem General-Purpose-Planner 5 zugeführt. Der General-Purpose-Planner 5 verwendet die gemittelten Belohnungsgewichte θmean dann im nachfolgenden Planungszyklus in der Belohnungsfunktion.
  • Es ist vorgesehen, dass das Verfahren zyklisch wiederholt wird, sodass für einen aktuellen Planungszyklus stets aktualisierte gemittelte Belohnungsgewichte θmean geschätzt und bereitgestellt werden.
  • In 3 ist ein schematisches Ablaufdiagramm einer Trainingsphase des Neuronalen Netzes 7 in einer Ausführungsform des Verfahrens zum Bereitstellen einer Fahrstrategie für das automatisierte Fahren eines Fahrzeugs gezeigt. Ein Signalfluss ist teilweise identisch zu dem in der 2 gezeigten Ablaufdiagramm, gleiche Bezugszeichen bezeichnen gleiche Merkmale und Begriffe.
  • Es ist vorgesehen, dass das Neuronale Netz 7 vor einer Anwendung im Feld, das heißt vor einer Anwendung im Fahrzeug, im Wege des Maximum Entropy Inverse Reinforcement Learning trainiert wird. Hierzu wird für einen Trainings- bzw. Planungszyklus ein Satz von Demonstrationsstrategien ΠD erzeugt. Die Demonstrationsstrategien ΠD basieren beispielsweise auf von einem menschlichen Fahrer manuell gefahrenen (Ideal-)Trajektorien, die odometrisch erfasst werden. Ferner erzeugt der General-Purpose-Planner 5 eine Menge Π an Planungsstrategien und stellt diese bereit. Es gilt hierbei insbesondere πD ΠD Π, wobei πD eine Demonstrationsstrategie bezeichnet.
  • Zum Trainieren des Neuronalen Netzes 7 wird in einem Gradientenberechnungsmodul 9 ausgehend von mittels des Neuronalen Netzes 7 geschätzten Belohnungsgewichten θ, dem Satz erzeugter Demonstrationsstrategien ΠD eines Planungszyklus und der bereitgestellten Menge Π an Planungsstrategien eines Planungszyklus ein maximaler Entropiegradient Δθ bestimmt, wobei Parameter des Neuronalen Netzes 7 auf Grundlage des bestimmten maximalen Entropiegradienten Δθ bestimmt werden. Insbesondere werden hierzu ausgehend von der Menge Π der Planungsstrategien und ausgehend von den erzeugten Demonstrationsstrategien ΠD jeweils Pfadintegralmerkmale fπ und fπD verwendet. Um die Demonstrationsstrategien ΠD zu erzeugen, wird eine erfasste Odometrie von manuellen Fahrten ζ mittels eines Projektionsmoduls 10 in den Zustandsraum des General-Purpose-Planners 5 projiziert. Der jeweils für einen Trainingszyklus bestimmte Entropiegradient Δθ kann als Fehler in der Ausgabe des Neuronalen Netzes 7 aufgefasst werden und wird daher dazu verwendet, Parameter des Neuronalen Netzes 7 anzupassen.
  • Das Training des Neuronalen Netzes 7 erfolgt hierbei insbesondere derart, dass für jeden Trainingszyklus die von dem Neuronalen Netz 7 nach einem Anpassen der Parameter des Neuronalen Netzes 7 inferierten Belohnungsgewichte θ, gegebenenfalls durch den Belohnungsgewichtspuffer 8 gemittelt, dem General-Purpose-Planner 5 zugeführt werden und der nachfolgende Trainingszyklus unter Berücksichtigung einer für den nachfolgenden Trainingszyklus erzeugten und bereitgestellten Menge Π an Planungsstrategien des General-Purpose-Planners 5 durchgeführt wird. Hierdurch kann eine für den nachfolgenden Trainingszyklus erzeugte und bereitgestellte Menge Π von Planungsstrategien bereits unter Berücksichtigung der vom angepassten Neuronalen Netz 7 inferierten Belohnungsgewichte θ erzeugt und bereitgestellt werden. Hierdurch kann der General-Purpose-Planner 5 direkt in das Trainingsverfahren des Neuronalen Netzes 7 eingebunden werden. Dies ist jedoch nur möglich, da mittels des Neuronalen Netzes 7 die Belohnungsgewichte θ bereitgestellt werden und nicht der Wert einer Belohnungsfunktion selbst. Das Training des Neuronalen Netzes 7 erfolgt ansonsten mit Hilfe an sich bekannter Verfahren.
  • Mathematisch lässt sich das Vorgehen beim Trainieren beispielhaft wie folgt beschreiben. Es wird ein tiefes Neuronales Netz 7 betrachtet, dass als Eingänge Merkmale f, insbesondere Pfadintegralmerkmale fπ , und Zustandsaktionen a ∈ A (in Form von Listen oder Vektoren) erhält. Das tiefe Neuronale Netz 7 bildet diese Eingänge auf Belohnungsgewichte θ (im Folgenden insbesondere als Vektor θ dargestellt) ab, welche die Belohnungsfunktion des General-Purpose-Planners 5 definieren. Da die Werte an den Ausgängen des tiefen Neuronalen Netzes 7 von den Parametern Θ1,2,...,n des Neuronalen Netzes 7 bestimmt werden, können die linearen Belohnungsgewichte θ erhalten werden durch: θ g ( f Π , a Π , Θ 1 , Θ 2 ,..., Θ n ) = g 1 ( g 2 ( ... ( g n ( f Π , a Π , Θ n ) ) Θ 2 ) Θ 1 )
    Figure DE102019216232A1_0001
  • Das IRL-Problem kann dann formuliert werden im Kontext einer Bayes'schen Inferenz als Maximum-a-posteriori-(MAP)-Schätzung, welche eine Maximierung der gemeinsamen a-posteriori-Wahrscheinlichkeitsverteilung p(·|·) von erfassten Demonstrationsstrategien πD ∈ ΠD gegeben eine lineare Belohnungsstruktur bzw. Belohnungsfunktion: R = θ T f
    Figure DE102019216232A1_0002
    bzw. R ( s , a ) = i K θ i f i ( s , a )
    Figure DE102019216232A1_0003
    und die Parameter Θ des tiefen Neuronalen Netzes mit sich bringt, wobei s die Zustände und a die Zustandsaktionen in einer Planungsstrategie bezeichnen. Da eine Berechnung der a-posteriori-Wahrscheinlichkeitsverteilung zu unendlich kleinen Werten und zu einem Computation Underflow führen würde, wird der Logarithmus der a-posteriori-Wahrscheinlichkeiten verwendet: L ( θ ) = π D Π D In  p ( π D | θ )
    Figure DE102019216232A1_0004
  • Da die Logarithmusfunktion monoton steigend ist, entspricht das Maximieren einer Funktion dem Maximieren des Logarithmus dieser Funktion. Diese logarithmische Wahrscheinlichkeit (Likelihood) in der voranstehenden Gleichung ist differenzierbar nach den Belohnungsgewichten θ der linearen Belohnungsfunktion. Diese Differenzierbarkeit kann erweitert werden auf die Parameter Θ des Neuronalen Netzes 7, da die Ausgänge des Neuronalen Netzes 7 die Belohnungsgewichte θ der linearen Belohnungsfunktion sind: θ = g ( Θ , f Π , a Π )
    Figure DE102019216232A1_0005
    L ( g ( Θ , f Π , a Π ) ) = π D Π D In p ( π D | g ( Θ , f Π , a Π ) )
    Figure DE102019216232A1_0006
    wobei fΠ die Pfadintegralmerkmale in einem Planungszyklus bzw. Trainingszyklus und aΠ die Menge an Zustandsaktionen über alle Planungsstrategien bezeichnen. Hierüber kann der maximale Entropiegradient für das Neuronale Netz 7 bestimmt werden. Zum Maximieren kann der Gradient der logarithmischen Wahrscheinlichkeit (Likelihood) L(θ) mit Bezug auf Θ berechnet werden zu: L Θ = L θ θ Θ    = [ π Π p ( π | θ ) f π f ^ Π D ] Θ g ( Θ , f Π , a Π )
    Figure DE102019216232A1_0007
  • Der Gradient ist aufgeteilt in einen Gradienten der Likelihood in Bezug auf die Belohnungsgewichte θ und einen Gradienten von θ mit Bezug auf die Parameter Θ des Neuronalen Netzes 7. Der Gradient der Belohnungsgewichte θ in Bezug auf die Parameter Θ des Neuronalen Netzes 7 kann direkt erhalten werden über eine Backpropagation des tiefen Neuronalen Netzes 7. Hierzu werden an sich bekannte Verfahren eingesetzt.
  • Das Bestimmen des Gradienten mit Bezug auf die Belohnungsgewichte θ wird nachfolgend beispielhaft erläutert. Das Vorgehen entspricht hierbei dem Maximum Entropy Linear Inverse Reinforcement Learning.
  • Das Maximum Entropy Linear Inverse Reinforcement Learning ist ein ernergiebasierter Ansatz, bei dem eine Strategieverteilung über verschiedene Verhaltensweisen eingeschränkt wird, um mit einem bestimmten Erwartungswert für Merkmale übereinzustimmen, ohne hierbei eine bestimmte Strategie im Rahmen der Einschränkung zu bevorzugen. Hierbei wird das Prinzip maximaler Entropie eingesetzt, um Mehrdeutigkeiten beim Auswählen einer Strategieverteilung zu lösen. Hierbei wird ein empirischer Mittelwert aller Merkmale von Demonstrationsstrategien πD ∈ ΠD verwendet, um einen Erwartungswert der Merkmale zur Übereinstimmung zu bringen: f ^ Π D = 1 m π D Π D f π D
    Figure DE102019216232A1_0008
  • Das Hauptziel dieser Herangehensweise ist es, ein probabilistisches Modell zu finden, das eine Wahrscheinlichkeitsverteilung p(π|θ) über die Planungsstrategien (Trajektorien) hervorbringt, sodass der Erwartungswert der Merkmalswerte mit dem empirisch bestimmten Mittelwert f ^ Π D
    Figure DE102019216232A1_0009
    der Demonstrationsstrategien πD ∈ ΠD übereinstimmt: E p ( π θ ) [ f ] = f ^ Π D
    Figure DE102019216232A1_0010
  • Die durch die voranstehende Gleichung vorgegebene Eigenschaft wird insbesondere erfüllt durch diejenige Wahrscheinlichkeitsverteilung, die die Entropie der Wahrscheinlichkeitsverteilung maximiert. Gemäß dem Prinzip der maximalen Entropie ist diese Wahrscheinlichkeitsverteilung diejenige, die die Daten am besten beschreibt, weil sie die am wenigsten verzerrte (das heißt diejenige mit dem geringsten Bias) ist. Um die Wahrscheinlichkeitsverteilung mit maximaler Entropie über alle erzeugten Planungsstrategien anzupassen (d.h. zu fitten), wird jeder Planungsstrategie in der Verteilung ein Entropiewert zugeordnet. Dieser wird berechnet, indem jeweils der Exponentialwert eines Belohnungswertes gebildet wird: e x p ( θ T f π )
    Figure DE102019216232A1_0011
  • Die Wahrscheinlichkeit der Planungsstrategien in der Verteilung kann dann wie folgt berechnet werden: p ( π θ ) = 1 Z ( θ ) e x p ( θ T f π )
    Figure DE102019216232A1_0012
    wobei die Zustandssumme Z(θ) definiert ist als: Z ( θ ) = π Π e x p ( θ T f π )
    Figure DE102019216232A1_0013
  • Die Entropiefunktion ist parametriert mit der linearen Belohnungsfunktion R = -θT · f (sowohl θ als auch f sind hierbei Vektoren) Eine solche Funktion stellt sicher, dass Planungsstrategien (d.h. Trajektorien) mit gleichen Belohnungswerten gleiche Wahrscheinlichkeiten aufweisen und dass Planungsstrategien mit größeren Belohnungswerten eine exponentiell größere Wahrscheinlichkeit zugeordnet ist. Die Zustandssumme konvergiert stets für Problemstellungen mit endlichem Horizont und auch für Problemstellungen mit unendlichen Horizont, sofern die Belohnungsgewichte θ über die Zeit diskontiert werden. Da die Demonstrationsstrategien ΠD in einer endlichen Anzahl von Schritten aufgenommen werden, kann angenommen werden, dass die Belohnungsgewichte, die die Entropie maximieren, konvergieren.
  • Um die Entropie der Verteilung über die durch Vorgabe der Demonstrationsstrategien ΠD eingeschränkten Menge Π an Planungsstrategien zu maximieren, muss die Likelihood der erfassten Demonstrationsstrategien ΠD unter der maximalen Entropieverteilung maximiert werden. Da das Berechnen der exakten Likelihood zu unendlich kleinen Werten und einem Computation Underflow führen würde, wird die logarithmische Likelihood der Planungsstrategien verwendet. Da die Logarithmusfunktion monoton steigend ist, ist das Maximieren einer Funktion gleichbedeutend mit dem Maximieren des Logarithmus dieser Funktion. Ausgehend hiervon erhält man: θ * =  arg   θ m a x   L ( θ ) = arg  θ max  π D Π D In  p ( π D g ( Θ , f Π , a Π ) ) = arg  θ max  π D Π D In 1 Z ( θ ) e x p ( θ T f π D )
    Figure DE102019216232A1_0014
  • Um die logarithmische Likelihood zu maximieren, wird die letzte Gleichung in Bezug auf die Belohnungsgewichte θ der Belohnungsfunktion differenziert. Hierdurch ergibt sich eine Gleichung für den maximalen Entropiegradienten: L ( θ ) = π Π p ( π θ ) f π f ^ Π D
    Figure DE102019216232A1_0015
  • Dieser Gradient kann in an sich bekannten Verfahren des Gradientenabstiegsverfahrens verwendet werden.
  • Der beschriebene Formalismus des Maximum Entropy Linear Inverse Reinforcement Learnings kann direkt auf diskrete Zustandsräume angewandt werden. Um den Formalismus auch auf kontinuierliche Zustandsräume anzuwenden, wie diese in einem General-Purpose-Planner 5 verwendet werden, kann ein Formalismus für die maximale Entropie für Pfadintegrale zum Einsatz kommen. Um die Planungsstrategien, welche vom General-Purpose-Planner 5 erzeugt und bereitgestellt werden, zu bewerten, werden die Merkmalef für alle Zustände s über die Zeit diskontiert. Da der General-Purpose-Planner 5 stets Planungsstrategien mit einer festen Anzahl an Zuständen s erzeugt, ist ein Merkmalsintegral über die Zustände eine gültige Repräsentation der Planungsstrategien: f π = s S γ f S π
    Figure DE102019216232A1_0016
    wobei y ein Diskontfaktor und S ein Satz aller Zustände in der Planungsstrategie ist. Es kann vorgesehen sein, dass der General-Purpose-Planner 5 dieses Merkmalsintegral bereits erzeugt und bereitstellt. Vorteile in der Verwendung dieses Pfadintegrals sind ein schnellerer Lese- und Schreibzugriff und ein geringerer Speicherbedarf, da nur ein Floatwert pro Planungsstrategie verwendet wird anstatt ein Floatwert pro Zustand. Da die Parameter konstant sind über verschiedene Zustände der Planungsstrategie, ist die oben beschriebene Bestimmung des Gradienten auch für die Pfadintegralmerkmale gültig und kann daher zum Trainieren verwendet werden.
  • Der in der Formulierung verwendete Satz an Demonstrationsstrategien ΠD muss in demselben Zustands-Aktions-Raum definiert sein wie die Menge Π an Planungsstrategien π des General-Purpose-Planners 5. Dies ist notwendig, um die Merkmale zwischen den Demonstrationsstrategien und den Planungsstrategien zur Übereinstimmung zu bringen. Eine Projektion der Demonstrationsstrategien ΠD überträgt die Aktionen der manuellen Fahrt hierzu in einen vom Planungsverfahren des General-Purpose-Planners 5 verwendeten Zustands-Aktions-Raum. Eine Projektionsmetrik d zwischen einer erfassten Odometrie ζ und kontinuierlichen Übergängen T(s,a,s') zwischen jeweils einem Zustand s in jeweils einen Zustand s' durch eine Zustandsaktion a aller Planungsstrategien π in der Menge Π von Planungsstrategien wird über die Zeit t hierzu während des Erstellens des Graphen berechnet: d ( ζ , π ) = t α t ζ t π t d t
    Figure DE102019216232A1_0017
  • Die Norm beruht hierbei auf geometrischen Eigenschaften des Zustandsraums, beispielsweise auf einer Euklidischen Distanz in Längs- und Querrichtung sowie einer quadratischen Differenz eines Gierwinkels. Die Projektionsmetrik umfasst weiter einen zeitlichen Diskontfaktor αt über den Planungshorizont. Die Demonstrationsstrategie πD hat die geringste diskontierte Distanz zur aufgezeichneten Odometrie. Es gibt mehrere Vorteile dieser Projektionsmetrik. Zum ersten beinhaltet die projizierte Planungsstrategie (d.h. die projizierte Trajektorie) alle Beschränkungen des General-Purpose-Planners 5. Wenn die Projektionsmetrik einen Schwellenwert überschreitet, so entspricht die Demonstrationsstrategie nicht den Beschränkungen des Fahrzeugs und ist ungültig. Zum zweiten erlaubt die Projektionsmetrik eine intuitive Beurteilung eines Fahrstils auf Grundlage einer geometrischen Nähe zur erfassten Odometrie. Zum dritten kann die Anzahl an Demonstrationen gesteigert werden, indem die Beschränkungen der Demonstrationsstrategie πD gelockert werden, sodass diese die geringste diskontierte Distanz zur Odometrie aufweist. Hierdurch eignen sich eine Vielzahl von erzeugten und bereitgestellten Planungsstrategien für die Demonstration π D Π D
    Figure DE102019216232A1_0018
  • In 4 ist das Bestimmen des Entropiegradienten schematisch an einem Ablaufdiagramm verdeutlicht. Der Ablauf startet ausgehend von Pfadintegralmerkmalen fπ der Planungsstrategien und Pfadintegralmerkmalen fπ D der Demonstrationsstrategien. Die Pfadintegralmerkmale fπ D der Demonstrationsstrategien sind hierbei bereits in den vom General-Purpose-Planner verwendeten Zustandsraum projiziert. In einem Verfahrensschritt 100 werden die Entropiewerte für die Pfadintegralmerkmale fπ über die über die Belohnungsfunktion parametrierte Exponentialfunktion berechnet. Die berechneten Entropiewerte werden dann verwendet, um in Verfahrensschritt 101 die Zustandssumme Z zu berechnen. In Verfahrensschritt 102 wird anschließend die Likelihood p(π |θ) jeder Planungsstrategie (d.h. jeder Trajektorie) berechnet. Die Likelihood wird in Verfahrensschritt 103 dazu verwendet, Erwartungswerte für die Pfadintegralmerkmale fπ zu berechnen. Diese Erwartungswerte werden in Verfahrensschritt 105 von den in Verfahrensschritt 104 berechneten empirischen Mittelwerten der Pfadintegralmerkmale fπ D der Demonstrationsstrategien ΠD subtrahiert, um hierdurch den maximalen Entropiegradienten Δθ zu erhalten.
  • In 5 ist eine schematische Darstellung einer Maximum Entropy Linear Inverse Reinforcement Learning Open-Loop-Architektur zum Bereitstellen der Belohnungsgewichte θ (θ ist insbesondere ein Vektor) dargestellt. Begonnen wird in einem Verfahrensschritt 200 mit einer Initialisierung mit zufälligen Belohnungsgewichten θ. In einem Verfahrensschritt 201 werden die initialisierten Belohnungsgewichte θ verwendet, um mittels des General-Purpose-Planners eine Menge Π an Planungsstrategien zu erzeugen und bereitzustellen. Die erzeugte und bereitgestellte Menge Π an Planungsstrategien wird in einem Planungsstrategiepuffer 6 gespeichert und gesammelt. Ausgehend von den im Planungsstrategiepuffer 6 gesammelten Planungsstrategien werden über eine Projektion über eine gewichtete Euklidische Distanz im Verfahrensschritt 202 Demonstrationsstrategien ΠD erzeugt. Diese werden dann verwendet, um - wie in 4 verdeutlicht - den maximalen Entropiegradienten Δθ in Verfahrensschritt 203 zu berechnen. In einem Verfahrensschritt 204 wird überprüft, ob der maximale Entropiegradient Δθ konvergiert ist oder nicht. Ist dies nicht der Fall, wird der berechnete maximale Entropiegradient Δθ zum Anpassen der Belohnungsfunktion verwendet und die Verfahrensschritte 203 und 204 erneut durchgeführt.
  • Es ist ferner auch möglich, den maximalen Entropiegradienten Δθ in einem Closed-Loop-Verfahren zu berechnen, indem der General-Purpose-Planner direkt mit einbezogen wird. Hierbei wird der in jedem Durchlauf jeweils berechnete maximale Entropiegradient Δθ wieder in Form einer angepassten Belohnungsfunktion (θ+Δθ)f dem General-Purpose-Planer zugeführt und das Verfahren ab Verfahrensschritt 201 bis zur Konvergenz des maximalen Entropiegradienten Δθ wiederholt (angedeutet durch die gestrichelte Linie in 5).
  • In 6 ist eine schematische Darstellung einer Ausführungsform des Neuronalen Netzes 7 gezeigt. Das Neuronale Netz 7 ist als tiefes Neuronales Netz 7 in Form eines Faltungsnetzes (Convolutional Neural Network) ausgestaltet. Das Neuronale Netz 7 erhält für jeden Planungszyklus an einer Eingangsschicht 7-1 die Pfadintegralmerkmale fπ und die Zustandsaktionen α ∈ A und bildet diese an einer Ausgangsschicht 7-4 auf lineare Belohnungsgewichte θ ab.
  • Das Neuronale Netz 7 umfasst in einem ersten Teil 7-2 Schichten für eindimensionale Faltungen, eindimensionales Pooling und in einem zweiten Teil 7-3 Fully-Connected-Dense-Schichten. Das Neuronale Netz 7 ist gekennzeichnet durch einen Faltungsblock umfassend zwei Faltungsschichten, gefolgt von einer Poolingschicht. Das Neuronale Netz 7 weist eine Abfolge von fünf solcher Faltungsblöcke auf, gefolgt von fünf Fully-Connected-Dense-Schichten und einer Fully-Connected-Dense-Schicht 7-4 ohne Aktivierungsfunktion, die die linearen Belohnungsgewichte ausgibt.
  • In 7 sind die Eingänge des Neuronalen Netzes 7 in der Eingangsschicht 7-1 und eine erste eindimensionale Faltung verdeutlicht. Wie schematisch in der 7 gezeigt, bestehen die Eingangsdaten des Neuronalen Netzes 7 aus einem Satz von 21 Pfadintegralmerkmalen f und zehn Zustandsaktionen α (2 Aktionen pro Zustand) für jede Planungsstrategie π, das heißt jede Trajektorie 30, eines Planungszyklus. Für jede der Planungsstrategien π, das heißt für jede der Trajektorien 30, wird eine eindimensionale Faltung über die Merkmalef und mehrere Zustandsaktionen α (aus der Menge A) mittels N Filtern ausgeführt, deren Ausgänge jeweils latente Merkmale Fi sind, die latente Beziehungen zwischen den Eingängen enkodieren.
  • Jeder Faltungsfilter lernt eine andere Beziehung und nach dem ersten Faltungsfilter lernt jeder weitere (nachfolgende) Faltungsfilter Beziehungen zwischen den latenten Merkmalen, die von den vorangegangenen Schichten erzeugt wurden. Mit Hilfe der Poolingschichten wird eine Reduktion der Dimensionalität der Merkmale bewirkt. Da nur eindimensionale Faltungen verwendet werden, werden keine Beziehungen zwischen den einzelnen Planungsstrategien π, das heißt Trajektorien 30, eines Planungszyklus hergestellt. Beziehungen zwischen den einzelnen Planungsstrategien π werden hingegen durch die Fully-Connected-Dense-Schichten (6) hergestellt. Die Ausgangsschicht 7-4 liefert einen Vektor von der Größe der Anzahl der Pfadintegralmerkmale (= 21). Alle Aktivierungsfunktionen im Neuronalen Netz 7 sind ReLU mit Ausnahme der Ausgangsschicht 7-4, die keine Aktivierungsfunktion aufweist.
  • Bezugszeichenliste
  • 1
    Vorrichtung
    2
    Datenverarbeitungseinrichtung
    3
    Recheneinrichtung
    4
    Speichereinrichtung
    5
    General-Purpose-Planner
    6
    Planungsstrategiepuffer
    7
    Neuronales Netz
    7-1
    Eingangsschicht
    7-2
    erster Teil
    7-3
    zweiter Teil
    7-4
    Ausgangsschicht
    8
    Belohnungsgewichtspuffer
    10
    Eingangsdaten
    15
    Umfelddaten
    20
    Fahrstrategie
    30
    Trajektorie (Planungsstrategie)
    50
    Fahrzeug
    51
    Längs- und Quersteuerung
    Π
    Menge von Planungsstrategien (in einem Planungszyklus)
    π
    Planungsstrategie in Π
    h
    Anzahl Planungszyklen (Historie)
    f
    Merkmal
    A
    Menge an Zustandsaktionen
    α
    Zustandsaktion
    Zustandsaktionen über Planungsstrategie
    Menge an Zustandsaktionen über alle Planungsstrategien in einem Planungszkylus
    θ
    Belohnungsgewicht(e)
    θmean
    gemittelt(es) Belohnungsgewicht(e)
    ΠD
    Satz erfasster Demonstrationsstrategien (in einem Planungszyklus)
    πD
    Demonstrationsstrategie
    Δθ
    Gradient der Belohnungsgewichte (maximaler Entropiegradient)
    Pfadintegralmerkmal einer Planungsstrategie
    Pfadintegralmerkmale einer Planungsstrategie
    Pfadintegralmerkmale in einem Planungszyklus
    fπ D
    Pfadintegralmerkmal einer Demonstrationsstrategie
    fΠ D
    Pfadintegralmerkmale aller Demonstrationsstrategien in einem Planungszyklus
    Θ
    Parameter des Neuronalen Netzes
    L(θ)
    Likelihoodfunktion
    -θT · f
    Struktur der Belohnungsfunktion
    γ
    Diskontfaktor
    ζ
    Odometrie
    Fi
    latentes Merkmal
    R
    Belohnungsfunktion
    s
    Zustand
    S
    Satz an Zuständen
    100-105
    Verfahrensschritte
    200-204
    Verfahrensschritte
  • ZITATE ENTHALTEN IN DER BESCHREIBUNG
  • Diese Liste der vom Anmelder aufgeführten Dokumente wurde automatisiert erzeugt und ist ausschließlich zur besseren Information des Lesers aufgenommen. Die Liste ist nicht Bestandteil der deutschen Patent- bzw. Gebrauchsmusteranmeldung. Das DPMA übernimmt keinerlei Haftung für etwaige Fehler oder Auslassungen.
  • Zitierte Patentliteratur
    • DE 102016212292 A1 [0003]

Claims (12)

  1. Verfahren zum Bereitstellen einer Fahrstrategie (20) für das automatisierte Fahren eines Fahrzeugs (50), wobei das Verfahren mittels einer Datenverarbeitungseinrichtung (2) durchgeführt wird, wobei ein General-Purpose-Planner (5) für jeden Planungszyklus auf Grundlage eines Umfeldmodells und einer über Belohnungsgewichte (θ) definierten Belohnungsfunktion für einen vorgegebenen Planungshorizont eine Menge (Π) an Planungsstrategien (π) erzeugt und bereitstellt, und die Fahrstrategie (20) aus der Menge (Π) an Planungsstrategien (π) auswählt und bereitstellt, wobei ausgehend von der zumindest für einen Planungszyklus bereitgestellten Menge (Π) an Planungsstrategien (π) die Belohnungsgewichte (θ) der Belohnungsfunktion (R) mittels eines Neuronalen Netzes (7) geschätzt werden, und wobei die geschätzten Belohnungsgewichte (θ) bei einem nachfolgenden Planungszyklus von dem General-Purpose-Planner (5) verwendet werden.
  2. Verfahren nach Anspruch 1, dadurch gekennzeichnet, dass eine Historie der von dem General-Purpose-Planner (5) erzeugten und bereitgestellten Menge (Π) an Planungsstrategien (π) gespeichert wird, wobei das Schätzen der Belohnungsgewichte (θ) mittels des Neuronalen Netzes (7) ausgehend von der gespeicherten Historie erfolgt.
  3. Verfahren nach Anspruch 1 oder 2, dadurch gekennzeichnet, dass eine Historie von geschätzten Belohnungsgewichten (θ) gespeichert wird, wobei auf Grundlage der gespeicherten Historie gemittelte Belohnungsgewichte (θmean) berechnet und von dem General-Purpose-Planner (5) in einem nachfolgenden Planungszyklus verwendet werden.
  4. Verfahren nach einem der vorangegangenen Ansprüche, dadurch gekennzeichnet, dass das Neuronale Netz (7) im Wege des Maximum Entropy Inverse Reinforcement Learning trainiert wird oder trainiert wurde, wobei hierzu ein Satz (ΠD) erfasster Demonstrationsstrategien (πD) empfangen wird und wobei der General-Purpose-Planner (5) hierzu eine Menge (Π) an Planungsstrategien (π) erzeugt und bereitstellt.
  5. Verfahren nach Anspruch 4, dadurch gekennzeichnet, dass zum Trainieren des Neuronalen Netzes (7) ausgehend von mittels des Neuronalen Netzes (7) geschätzten Belohnungsgewichten (θ), dem Satz (ΠD) erfasster Demonstrationsstrategien (πD) und der bereitgestellten Menge (Π) an Planungsstrategien (π) ein maximaler Entropiegradient (Δθ) bestimmt wird, wobei Parameter (Θ) des Neuronalen Netzes (7) auf Grundlage des bestimmten maximalen Entropiegradienten (Δθ) bestimmt werden.
  6. Verfahren nach einem der Ansprüche 4 oder 5, dadurch gekennzeichnet, dass eine Historie der von dem General-Purpose-Planner (5) zum Trainieren erzeugten und bereitgestellten Menge (Π) an Planungsstrategien (π) gespeichert wird, wobei das Trainieren des Neuronalen Netzes (7) ausgehend von der gespeicherten Historie erfolgt.
  7. Verfahren nach Anspruch 4 bis 6, dadurch gekennzeichnet, dass beim Trainieren eine Historie von geschätzten Belohnungsgewichten (θ) gespeichert wird, wobei auf Grundlage der gespeicherten Historie gemittelte Belohnungsgewichte (θmean) berechnet und von dem General-Purpose-Planner (5) in einem nachfolgenden Trainingszyklus verwendet werden.
  8. Verfahren nach einem der vorangegangenen Ansprüche, dadurch gekennzeichnet, dass eine Größe (h) der Historien beim Trainieren und beim Anwenden gleich gewählt ist.
  9. Vorrichtung (1) zum Bereitstellen einer Fahrstrategie (20) für das automatisierte Fahren eines Fahrzeugs (50), umfassend eine Datenverarbeitungseinrichtung (2), wobei die Datenverarbeitungseinrichtung (2) dazu eingerichtet ist, einen General-Purpose-Planner (5) bereitzustellen, wobei der General-Purpose-Planner (5) dazu eingerichtet ist, für jeden Planungszyklus auf Grundlage eines Umfeldmodells und einer über Belohnungsgewichte (θ) definierten Belohnungsfunktion (R) für einen vorgegebenen Planungshorizont eine Menge (Π) an Planungsstrategien (π) zu erzeugen und bereitzustellen, und die Fahrstrategie (20) aus der Menge (Π) an Planungsstrategien (π) auszuwählen und bereitzustellen, und wobei die Datenverarbeitungseinrichtung (2) ferner dazu eingerichtet ist, ein Neuronales Netz (7) bereitzustellen, wobei das Neuronale Netz (7) dazu trainiert ist, ausgehend von der zumindest für einen Planungszyklus bereitgestellten Menge (Π) an Planungsstrategien (π) die Belohnungsgewichte (θ) der Belohnungsfunktion (R) zu schätzen, und wobei die Datenverarbeitungseinrichtung (2) weiter dazu eingerichtet ist, die geschätzten Belohnungsgewichte (θ) bei einem nachfolgenden Planungszyklus im bereitgestellten General-Purpose-Planner (5) zu verwenden.
  10. Kraftfahrzeug (50), umfassend mindestens eine Vorrichtung (1) nach Anspruch 9.
  11. Verfahren zum Trainieren eines Neuronalen Netzes (7), wobei das Verfahren mittels einer Datenverarbeitungseinrichtung durchgeführt wird, wobei das Neuronale Netz (7) darauf trainiert wird, ausgehend von einer mittels eines General-Purpose-Planners (5) zumindest für einen Planungszyklus bereitgestellten Menge (Π) an Planungsstrategien (π) Belohnungsgewichte (θ) einer Belohnungsfunktion (θf) des General-Purpose-Planners (5) zu schätzen, wobei das Neuronale Netz (7) im Wege des Maximum Entropy Inverse Reinforcement Learning trainiert wird, wobei hierzu ein Satz (ΠD) erfasster Demonstrationsstrategien (πD) empfangen wird und wobei der General-Purpose-Planner (5) hierzu eine Menge (Π) an Planungsstrategien (π) erzeugt und bereitstellt.
  12. Verfahren nach Anspruch 11, dadurch gekennzeichnet, dass zum Trainieren des Neuronalen Netzes (7) ausgehend von mittels des Neuronalen Netzes (7) geschätzten Belohnungsgewichten (θ), dem Satz (ΠD) erfasster Demonstrationsstrategien (πD) und der bereitgestellten Menge (Π) an Planungsstrategien (π) ein maximaler Entropiegradient (Δθ) bestimmt wird, wobei Parameter (Θ) des Neuronalen Netzes (7) auf Grundlage des bestimmten maximalen Entropiegradienten (Δθ) bestimmt werden.
DE102019216232.0A 2019-10-22 2019-10-22 Verfahren und Vorrichtung zum Bereitstellen einer Fahrstrategie für das automatisierte Fahren eines Fahrzeugs Pending DE102019216232A1 (de)

Priority Applications (1)

Application Number Priority Date Filing Date Title
DE102019216232.0A DE102019216232A1 (de) 2019-10-22 2019-10-22 Verfahren und Vorrichtung zum Bereitstellen einer Fahrstrategie für das automatisierte Fahren eines Fahrzeugs

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
DE102019216232.0A DE102019216232A1 (de) 2019-10-22 2019-10-22 Verfahren und Vorrichtung zum Bereitstellen einer Fahrstrategie für das automatisierte Fahren eines Fahrzeugs

Publications (1)

Publication Number Publication Date
DE102019216232A1 true DE102019216232A1 (de) 2021-04-22

Family

ID=75268525

Family Applications (1)

Application Number Title Priority Date Filing Date
DE102019216232.0A Pending DE102019216232A1 (de) 2019-10-22 2019-10-22 Verfahren und Vorrichtung zum Bereitstellen einer Fahrstrategie für das automatisierte Fahren eines Fahrzeugs

Country Status (1)

Country Link
DE (1) DE102019216232A1 (de)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113561986A (zh) * 2021-08-18 2021-10-29 武汉理工大学 自动驾驶汽车决策方法及装置
CN114194211A (zh) * 2021-11-30 2022-03-18 浪潮(北京)电子信息产业有限公司 一种自动驾驶方法、装置及电子设备和存储介质
US20230227061A1 (en) * 2022-01-14 2023-07-20 Aurora Operations, Inc. Systems and Methods for Pareto Domination-Based Learning
CN116513219A (zh) * 2023-07-04 2023-08-01 江西五十铃汽车有限公司 一种车辆自适应控制方法、系统、存储介质及车辆

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE102016212292A1 (de) * 2016-01-28 2017-08-03 Volkswagen Aktiengesellschaft Verfahren und Vorrichtung zum Bereitstellen einer Plantrajektorie für ein Kraftfahrzeug

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE102016212292A1 (de) * 2016-01-28 2017-08-03 Volkswagen Aktiengesellschaft Verfahren und Vorrichtung zum Bereitstellen einer Plantrajektorie für ein Kraftfahrzeug

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
ROSBACH, Sascha [u.a.]: Driving with style: Inverse reinforcement learning in general-purpose planning for automated driving. 01-05-2019. S. 1-8. URL: https://arxiv.org/pdf/1905.00229v1.pdf [abgerufen am 2019-11-13]. *
WULFMEIER, Markus ; ONDRUSKA, Peter ; POSNER, Ingmar: Maximum entropy deep inverse reinforcement learning. 11-03-2016. S. 1-10. URL: https://arxiv.org/pdf/1507.04888v3.pdf [abgerufen am 2019-11-13]. *

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113561986A (zh) * 2021-08-18 2021-10-29 武汉理工大学 自动驾驶汽车决策方法及装置
CN113561986B (zh) * 2021-08-18 2024-03-15 武汉理工大学 自动驾驶汽车决策方法及装置
CN114194211A (zh) * 2021-11-30 2022-03-18 浪潮(北京)电子信息产业有限公司 一种自动驾驶方法、装置及电子设备和存储介质
CN114194211B (zh) * 2021-11-30 2023-04-25 浪潮(北京)电子信息产业有限公司 一种自动驾驶方法、装置及电子设备和存储介质
US20230227061A1 (en) * 2022-01-14 2023-07-20 Aurora Operations, Inc. Systems and Methods for Pareto Domination-Based Learning
CN116513219A (zh) * 2023-07-04 2023-08-01 江西五十铃汽车有限公司 一种车辆自适应控制方法、系统、存储介质及车辆

Similar Documents

Publication Publication Date Title
DE102019216232A1 (de) Verfahren und Vorrichtung zum Bereitstellen einer Fahrstrategie für das automatisierte Fahren eines Fahrzeugs
DE112017003517T5 (de) Steuergerät und Verfahren zur Steuerung eines Fahrzeugs und nichtflüchtiger computerlesbarer Speicher
EP3785177B1 (de) Verfahren und vorrichtung zum ermitteln einer netzkonfiguration eines neuronalen netzes
DE102019121717A1 (de) Interaktionsbewusste entscheidungsfindung
DE102019209736A1 (de) Verfahren zur Bewertung möglicher Trajektorien
DE102018008685A1 (de) Verfahren zum Trainieren eines künstlichen neuronalen Netzes, künstliches neuronales Netz, Verwendung eines künstlichen neuronalen Netzes sowie entsprechendes Computerprogramm maschinenlesbares Speichermedium und entsprechende Vorrichtung
EP3746850B1 (de) Verfahren zum ermitteln eines zeitlichen verlaufs einer messgrösse, prognosesystem, aktorsteuerungssystem, verfahren zum trainieren des aktorsteuerungssystems, trainingssystem, computerprogramm und maschinenlesbares speichermedium
DE102018132370A1 (de) Verwendung von tiefer videobildvorhersage zum trainieren einer steuerung eines autonomen fahrzeugs und verfahren davon
DE102017218851A1 (de) Verfahren, Vorrichtung und Computerprogramm zur Erstellung eines tiefen neuronalen Netzes
WO2020187591A1 (de) Verfahren und vorrichtung zum ansteuern eines roboters
WO2021008836A1 (de) Vorrichtung und computerimplementiertes verfahren für die verarbeitung digitaler sensordaten und trainingsverfahren dafür
DE102019203214A1 (de) Verfahren zum Betreiben eines Roboters in einem Multiagentensystem, Roboter und Multiagentensystem
WO2021259980A1 (de) Training eines künstlichen neuronalen netzwerkes, künstliches neuronales netzwerk, verwendung, computerprogramm, speichermedium und vorrichtung
DE102019205359B4 (de) Verfahren und Vorrichtung zum Ansteuern einer technischen Einrichtung
DE102020211648A1 (de) Vorrichtung und Verfahren zum Steuern einer Robotervorrichtung
DE102020205532A1 (de) Vorrichtung und Verfahren zum Trainieren einer Steuerungsstrategie für eine Steuereinrichtung über mehrere Iterationen
EP3785178B1 (de) Verfahren und vorrichtung zum ermitteln einer netzkonfiguration eines neuronalen netzes
DE102019207410A1 (de) Verfahren und Vorrichtung für eine automatisierte Beeinflussung eines Aktuators
DE102020213527A1 (de) Verfahren zum Optimieren einer Strategie für einen Roboter
DE102020205962B3 (de) Vorrichtung und Verfahren zum Betreiben eines Prüfstands
DE102022109385A1 (de) Belohnungsfunktion für Fahrzeuge
DE102019216184A1 (de) Verfahren zum Robustifizieren eines Neuronalen Netzes gegen adversariale Störungen
DE202019103924U1 (de) Vorrichtung für die Verarbeitung digitaler Sensordaten
DE102021208472B3 (de) Computerimplementiertes Verfahren zum Trainieren eines Machine-Learning-Modells für ein Fahrzeug oder einen Roboter
DE102019201045A1 (de) Verfahren, Vorrichtung und Computerprogramm zum Ermitteln einer Aktion oder Trajektorie eines Roboters

Legal Events

Date Code Title Description
R012 Request for examination validly filed
R016 Response to examination communication