DE102019121717A1 - Interaktionsbewusste entscheidungsfindung - Google Patents

Interaktionsbewusste entscheidungsfindung Download PDF

Info

Publication number
DE102019121717A1
DE102019121717A1 DE102019121717.2A DE102019121717A DE102019121717A1 DE 102019121717 A1 DE102019121717 A1 DE 102019121717A1 DE 102019121717 A DE102019121717 A DE 102019121717A DE 102019121717 A1 DE102019121717 A1 DE 102019121717A1
Authority
DE
Germany
Prior art keywords
agent
agents
critic
training
interaction
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
DE102019121717.2A
Other languages
English (en)
Inventor
Yeping Hu
Alireza Nakhaei Sarvedani
Masayoshi Tomizuka
Kikuo Fujimura
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Honda Motor Co Ltd
Original Assignee
Honda Motor Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority claimed from US16/103,847 external-priority patent/US10739776B2/en
Priority claimed from US16/193,291 external-priority patent/US11657266B2/en
Priority claimed from US16/397,752 external-priority patent/US11093829B2/en
Application filed by Honda Motor Co Ltd filed Critical Honda Motor Co Ltd
Publication of DE102019121717A1 publication Critical patent/DE102019121717A1/de
Withdrawn legal-status Critical Current

Links

Images

Classifications

    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60WCONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
    • B60W40/00Estimation or calculation of non-directly measurable driving parameters for road vehicle drive control systems not related to the control of a particular sub unit, e.g. by using mathematical models
    • B60W40/12Estimation or calculation of non-directly measurable driving parameters for road vehicle drive control systems not related to the control of a particular sub unit, e.g. by using mathematical models related to parameters of the vehicle itself, e.g. tyre models
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60WCONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
    • B60W30/00Purposes of road vehicle drive control systems not related to the control of a particular sub-unit, e.g. of systems using conjoint control of vehicle sub-units
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05DSYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
    • G05D1/00Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
    • G05D1/0088Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots characterized by the autonomous decision making process, e.g. artificial intelligence, predefined behaviours
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05DSYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
    • G05D1/00Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
    • G05D1/02Control of position or course in two dimensions
    • G05D1/021Control of position or course in two dimensions specially adapted to land vehicles
    • G05D1/0212Control of position or course in two dimensions specially adapted to land vehicles with means for defining a desired trajectory
    • G05D1/0221Control of position or course in two dimensions specially adapted to land vehicles with means for defining a desired trajectory involving a learning process
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/04Inference or reasoning models
    • G06N5/043Distributed expert systems; Blackboards

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Automation & Control Theory (AREA)
  • Artificial Intelligence (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Radar, Positioning & Navigation (AREA)
  • General Health & Medical Sciences (AREA)
  • Remote Sensing (AREA)
  • Aviation & Aerospace Engineering (AREA)
  • Transportation (AREA)
  • Mechanical Engineering (AREA)
  • Business, Economics & Management (AREA)
  • Game Theory and Decision Science (AREA)
  • Medical Informatics (AREA)
  • Traffic Control Systems (AREA)
  • Image Analysis (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

Eine interaktionsbewusste Entscheidungsfindung kann das Trainieren eines ersten Agenten auf der Grundlage eines ersten Richtliniengradienten, das Trainieren eines ersten Kritikers auf der Grundlage einer ersten Verlustfunktion zum Erlernen von Zielen in einer Einzel-Agent-Umgebung mithilfe eines Markov-Entscheidungsprozesses, das Trainieren einer Anzahl N der Agenten auf der Grundlage eines ersten Richtliniengradienten, das Trainieren eines ersten Richtliniengradienten und eines zweiten Kritikers auf der Grundlage der ersten Verlustfunktion und einer zweiten Verlustfunktion zum Erlernen der Ziele in einer Multi-Agent-Umgebung mithilfe eines Markov-Spiels, um ein zweites neuronales Agentennetzwerk zu instanziieren, und das Erzeugen einer Netzwerkrichtlinie zur interaktionsbewussten Entscheidungsfindung auf der Grundlage des ersten neuronalen Agentennetzwerks und des zweiten neuronalen Agentennetzwerks einschließen. Die N Anzahl von Agenten kann mit einem Fahrertyp assoziiert sein, der eine Kooperationsstufe angibt. Wenn eine Kollision auftritt, kann jedem beteiligten Agenten, basierend auf einer Spurprioritätsstufe des jeweiligen Agenten, eine negative Belohnung oder Strafe zugewiesen werden.

Description

  • QUERVERWEIS AUF VERWANDTE ANWENDUNGEN
  • Diese Anmeldung beansprucht den Vorteil der vorläufigen U.S.-Patentanmeldung, Seriennr. 62/731729 , eingereicht am 14. September 2018, einer teilweisen Fortführung der U.S.-Patentanmeldung, Seriennr. 16/103847 (Anwaltsaktenzeichen Nr. HRA 43303.01), eingereicht am 14. August 2018, die den Nutzen der vorläufigen U.S.-Patentanmeldung, Seriennr. 62/571717 (Anwaltsaktenzeichen Nr. HRA 43303), eingereicht am 12. Oktober 2017 beansprucht und eine teilweise Fortführung der U.S.-Patentanmeldung, Seriennr. 16/193291 (Anwaltsaktenzeichen HRA 44391), eingereicht am 16. November 2018 ist; wobei die Gesamtheit der oben erwähnten Anmeldung(en) hierin durch Bezugnahme aufgenommen ist.
  • HINTERGRUND
  • Effiziente Forschungen zum Verstärkungslernen können in einer Multi-Agenten-Umgebung, bei denen der Zustandsraum und der gemeinsame Wirkungsraum exponentiell mit der Anzahl der Agenten ansteigt, schwierig sein. Es kann in hohem Maße ineffizient sein, sich auf zufällige Erkundungen zu verlassen, um sowohl die individuelle Aufgabenerledigung als auch das kooperative Verhalten gleichzeitig zu erlernen. Agenten, die noch nicht gelernt haben, lokale Ziele zu erreichen, werden selten auf den Bereich des Zustandsraums treffen, in dem Kooperation erforderlich ist, wodurch Erkundungsaktionen für das Erlernen kooperativen Verhaltens unbrauchbar werden. Auf der anderen Seite können Erkundungsaktionen, die in Situationen ergriffen werden, die eine Koordinierung erfordern, zum Scheitern führen, und die daraus resultierenden Strafen können dazu führen, dass die Agenten das Koordinierungsproblem vollständig umgehen und ihre individuellen Aufgaben nicht erlernen.
  • KURZE BESCHREIBUNG
  • Gemäß einem Gesichtspunkt kann ein Verfahren zur interaktionsbewussten Entscheidungsfindung das Trainieren eines ersten Agenten basierend auf einem ersten Richtliniengradienten und das Trainieren eines ersten Kritikers basierend auf einer ersten Verlustfunktion einschließen, um ein oder mehrere Ziele in einer Einzel-Agent-Umgebung zu erlernen, wobei der erste Agent der einzige vorhandene Agent ist und eine Markov-Entscheidungsprozesses angewendet wird. Der erste Agent kann einem ersten neuronalen Agentennetzwerk zugeordnet sein und der erste Kritiker kann einem ersten neuronalen Kritikernetzwerk zugeordnet sein. Das Verfahren für eine interaktionsbewusste Entscheidungsfindung kann das Trainieren einer Anzahl N von Agenten auf der Grundlage des ersten Richtliniengradienten und das Trainieren eines zweiten Richtliniengradienten und eines zweiten Kritikers auf der Grundlage der ersten Verlustfunktion und einer zweiten Verlustfunktion einschließen, um eines oder mehrere der Ziele in einer Multi-Agent-Umgebung, die den ersten Agenten und die N Anzahl von Agenten einschließt, unter Verwendung eines Markov-Spiels zu erlernen, um ein zweites neuronales Agentennetzwerk zu instanziieren. Jede der N Anzahl von Agenten kann einem Fahrertyp zugeordnet sein, der einen Grad der Kooperation für den jeweiligen Agenten anzeigt. Das Verfahren zur interaktionsbewussten Entscheidungsfindung kann das Generieren einer Netzwerkrichtlinie zur interaktionsbewussten Entscheidungsfindung mit mehreren Zielen, mehreren Agenten und mehreren Stufen auf der Grundlage des ersten neuronalen Agentennetzwerks und des zweiten neuronalen Agentennetzwerks einschließen.
  • Der Fahrertyp kann kooperativ oder kompetitiv sein. Während des Trainings der N Anzahl von Agenten in der Multi-Agent-Umgebung kann ein Agent der N Anzahl von Agenten den Fahrertyps während des Trainings ändern.
  • Sowohl der erste Agent als auch die N Anzahl von Agenten können einer Spurprioritätsstufe zugeordnet sein, die auf einer Position des jeweiligen Agenten und einem Layout der Multi-Agent-Umgebung basiert. Während des Trainings der Anzahl N von Agenten kann, wenn eine Kollision zwischen zwei oder mehreren Agenten der Multi-Agent-Umgebung auftritt, den jeweiligen Agenten, die an der Kollision beteiligt sind, eine negative Belohnung oder eine Strafe zugewiesen werden, die auf der Spurprioritätsstufe des jeweiligen Agenten basiert.
  • Das Verfahren zur interaktionsbewussten Entscheidungsfindung kann das Bestimmen einer Maske, die auf eine Teilmenge einer Menge möglicher Aktionen für den ersten Agenten anzuwenden ist, für ein Zeitintervall basierend auf einem Layout der Multi-Agent-Umgebung oder das Positionieren des ersten Agenten und der N Anzahl von Agenten und das Trainieren des ersten Agenten auf der Grundlage eines verbleibenden Satzes von Aktionen durch Ausschluss des maskierten Satzes von Aktionen aus dem Satz möglicher Aktionen einschließen. Der Satz von möglichen Aktionen kann eine Nicht-Handlungs-Aktion, eine Beschleunigungs-Aktion, eine Brems-Aktion, eine Brems-Löse-Aktion, eine Aktion zur Linksverschiebung um eine Spur oder eine Aktion zur Rechtsverschiebung um eine Spur einschließen.
  • Der erste Kritiker kann ein dezentraler Kritiker sein und der zweite Kritiker kann ein zentraler Kritiker sein. Das Training des ersten Agenten in der Einzel-Agent-Umgebung kann vor dem Training der N Anzahl von Agenten in der Multi-Agent-Umgebung erfolgen. Das Verfahren zur interaktionsbewussten Entscheidungsfindung kann das Trainieren der N Anzahl von Agenten auf der Grundlage eines kombinierten Richtliniengradienten einschließen, der aus dem ersten Richtliniengradienten und dem zweiten Richtliniengradienten abgeleitet wird.
  • Gemäß einem Gesichtspunkt kann ein System für eine interaktionsbewusste Entscheidungsfindung einen Prozessor, einen Speicher und einen Simulator, der über den Prozessor und Speicher implementiert ist, einschließen. Der Simulator kann das Training eines ersten Agenten basierend auf einem ersten Richtliniengradienten und das Training eines ersten Kritikers basierend auf einer ersten Verlustfunktion durchführen, um eines oder mehrere Ziele in einer Einzel-Agent-Umgebung zu erlernen, wobei der erste Agent der einzige vorhandene Agent ist und ein Markov-Entscheidungsprozess angewendet wird. Der erste Agent kann einem ersten neuronalen Agentennetzwerk zugeordnet sein und der erste Kritiker kann einem ersten neuronalen Kritikernetzwerk zugeordnet sein. Der Simulator kann eine Anzahl N von Agenten auf der Grundlage des ersten Richtliniengradienten trainieren und einen zweiten Richtliniengradienten und einen zweiten Kritiker auf der Grundlage der ersten Verlustfunktion und einer zweiten Verlustfunktion trainieren, um eines oder mehrere der Ziele in einer Multi-Agent-Umgebung, die den ersten Agenten und die N Anzahl von Agenten einschließt, unter Verwendung eines Markov-Spiels zu erlernen, um ein zweites neuronales Agentennetzwerk zu instanziieren. Sowohl der erste Agent als auch die N Anzahl von Agenten können einer Spurprioritätsstufe zugeordnet sein, die auf einer Position des jeweiligen Agenten und einem Layout der Multi-Agent-Umgebung basiert. Während des Trainings der Anzahl N von Agenten kann, wenn eine Kollision zwischen zwei oder mehreren Agenten der Multi-Agent-Umgebung auftritt, den jeweiligen Agenten, die an der Kollision beteiligt sind, durch den Simulator eine negative Belohnung oder eine Strafe zugewiesen werden, die auf der Spurprioritätsstufe des jeweiligen Agenten basiert. Der Simulator kann auf der Grundlage des ersten neuronalen Agentennetzwerks und des zweiten neuronalen Agentennetzwerks eine Netzwerkrichtlinie zur interaktionsbewussten Entscheidungsfindung mit mehreren Zielen, mehreren Agenten und mehreren Stufen generieren.
  • Jede der N Anzahl von Agenten kann einem Fahrertyp zugeordnet sein, der einen Grad der Kooperation für den jeweiligen Agenten anzeigt. Der Fahrertyp kann kooperativ oder kompetitiv sein.
  • Das System für interaktionsbewusste Entscheidungsfindung kann einen Q-Maskierer einschließen, der eine Maske bestimmt, die auf eine Teilmenge eines Satzes möglicher Aktionen für den ersten Agenten für ein Zeitintervall basierend auf einem Layouts der Multi-Agent-Umgebung oder der Positionierung des ersten Agenten und der N Anzahl von Agenten anzuwenden ist. Der Simulator kann den ersten Agenten auf der Grundlage eines verbleibenden Satzes von Aktionen trainieren, indem er den maskierten Satz von Aktionen aus dem Satz möglicher Aktionen ausschließt. Der Satz von möglichen Aktionen kann eine Nicht-Handlungs-Aktion, eine Beschleunigungs-Aktion, eine Brems-Aktion, eine Brems-Löse-Aktion, eine Aktion zur Linksverschiebung um eine Spur oder eine Aktion zur Rechtsverschiebung um eine Spur einschließen.
  • Der erste Kritiker kann ein dezentraler Kritiker sein und der zweite Kritiker kann ein zentraler Kritiker sein. Der Simulator kann den ersten Agenten in der Einzel-Agent-Umgebung vor dem Training der N Anzahl von Agenten in der Multi-Agent-Umgebung trainieren. Der Simulator kann die N Anzahl von Agenten auf der Grundlage eines aus dem ersten Richtliniengradienten und dem zweiten Richtliniengradienten abgeleiteten kombinierten Richtliniengradienten trainieren. Das System zur interaktionsbewussten Entscheidungsfindung kann eine Kommunikationsschnittstelle zum Übertragen der Netzwerkrichtlinie zur interaktionsbewussten Entscheidungsfindung mit mehreren Zielen, mehreren Agenten und mehreren Stufen an einen Server oder ein Fahrzeug einschließen.
  • Gemäß einem Gesichtspunkt kann ein Fahrzeug für interaktionsbewusste Entscheidungsfindung ein Steuergerät, ein oder mehrere Fahrzeugsysteme und eine Fahrzeugkommunikationsschnittstelle einschließen. Das Steuergerät kann einen Prozessor und einen Speicher einschließen. Die Fahrzeugkommunikationsschnittstelle kann eine Netzwerkrichtlinie zur interaktionsbewussten Entscheidungsfindung mit mehreren Zielen, mehreren Agenten und mehreren Stufen empfangen. Das Steuergerät kann eines oder mehrere der Fahrzeugsysteme des Fahrzeugs entsprechend der Netzwerkrichtlinie zur interaktionsbewussten Entscheidungsfindung mit mehreren Zielen, mehreren Agenten und mehreren Stufen betreiben. Die Netzwerkrichtlinie zur interaktionsbewussten Entscheidungsfindung mit mehreren Zielen, mehreren Agenten und mehreren Stufen kann erzeugt werden, indem ein erster Agenten auf der Grundlage eines ersten Richtliniengradienten und ein erster Kritiker auf der Grundlage einer ersten Verlustfunktion trainiert werden, um ein oder mehrere Ziele in einer Single-Agent-Umgebung zu lernen, wobei es sich bei dem ersten Agenten um den einzigen vorhandenen Agenten handeln kann, unter Verwendung eines Markov-Entscheidungsprozess in einer ersten Stufe und trainieren einer Anzahl N von Agenten auf der Grundlage eines ersten Richtliniengradienten und trainieren eines zweiten Richtliniengradienten und eines zweiten Kritikers auf der Grundlage der ersten Verlustfunktion und einer zweiten Verlustfunktion, um eines oder mehrere der Ziele in einer Multi-Agent-Umgebung, die den ersten Agenten und die N Anzahl von Agenten einschließt, unter Verwendung eines Markov-Spiels zu erlernen, um in einer zweiten Stufe ein zweites neuronales Agentennetzwerk zu instanziieren. Der erste Agent kann einem ersten neuronalen Agentennetzwerk zugeordnet sein und der erste Kritiker kann einem ersten neuronalen Kritikernetzwerk zugeordnet sein. Jede der N Anzahl von Agenten kann einem Fahrertyp zugeordnet sein, der einen Grad der Kooperation für den jeweiligen Agenten anzeigt. Die Netzwerkrichtlinie zur interaktionsbewussten Entscheidungsfindung mit mehreren Zielen, mehreren Agenten und mehreren Stufen kann auf Grundlage des ersten neuronalen Agentennetzwerks und des zweiten neuronalen Agentennetzwerks erzeugt werden.
  • Figurenliste
    • 1 ist ein beispielhaftes Komponentendiagramm eines Systems zum kooperativen Verstärkungslernen mit mehreren Zielen, mehreren Agenten und mehreren Stufen (CM3) gemäß einem Gesichtspunkt.
    • 2 ist ein beispielhaftes Komponentendiagramm eines Simulators für das System zum kooperativen Verstärkungslernen mit mehreren Zielen, mehreren Agenten und mehreren Stufen aus 1.
    • 3 ist ein beispielhaftes Flussdiagramm eines Verfahrens zum kooperativen Verstärkungslernen mit mehreren Zielen, mehreren Agenten und mehreren Stufen gemäß einem Gesichtspunkt.
    • 4 ist ein beispielhaftes Datenflussdiagramm in Verbindung mit einem Verfahren zum kooperativen Verstärkungslernen mit mehreren Zielen, mehreren Agenten und mehreren Stufen gemäß einem Gesichtspunkt.
    • 5A-5B zeigen ein beispielhaftes Flussdiagramm eines Verfahrens zum kooperativen Verstärkungslernen mit mehreren Zielen, mehreren Agenten und mehreren Stufen gemäß einem Gesichtspunkt.
    • 6 ist ein beispielhaftes Stimulationsszenario in Verbindung mit kooperativem Verstärkungslemen mit mehreren Zielen, mehreren Agenten und mehreren Stufen gemäß einem Gesichtspunkt.
    • 7-8 sind beispielhafte Leistungsergebnisse in Verbindung mit kooperativem Verstärkungslemen mit mehreren Zielen, mehreren Agenten und mehreren Stufen gemäß einem Gesichtspunkt.
    • 9 ist ein beispielhaftes Stimulationsszenario in Verbindung mit kooperativem Verstärkungslemen mit mehreren Zielen, mehreren Agenten und mehreren Stufen gemäß einem Gesichtspunkt.
    • 10 ist ein beispielhafter Belohnungs-zu-Episoden-Graph in Verbindung mit kooperativem Verstärkungslemen mit mehreren Zielen, mehreren Agenten und mehreren Stufen gemäß einem Gesichtspunkt.
    • 11 ist ein Komponentendiagramm eines autonomen Systems zur Generierung von Fahrzeugrichtlinien gemäß einem Gesichtspunkt.
    • 12 ist ein Flussdiagramm eines autonomen Verfahrens zur Generierung von Fahrzeugrichtlinien gemäß einem Gesichtspunkt.
    • 13A ist ein Ablaufdiagramm eines autonomen Verfahrens zur Generierung von Fahrzeugrichtlinien gemäß einem Gesichtspunkt.
    • 13B ist eine beispielhafte Simulationsschnittstelle, die einer autonomen Generierung von Fahrzeugrichtlinien gemäß einem Gesichtspunkt zugeordnet ist.
    • 14A-14C sind beispielhafte Szenarien, in denen eine autonome Generierung von Fahrzeugrichtlinien gemäß einem Gesichtspunkt implementiert werden kann.
    • 15 ist ein beispielhaftes Komponentendiagramm eines Systems für eine interaktionsbewusste Entscheidungsfindung gemäß einem Gesichtspunkt.
    • 16 ist ein beispielhaftes Flussdiagramm eines Verfahrens für eine interaktionsbewusste Entscheidungsfindung gemäß einem Gesichtspunkt.
    • 17 ist ein exemplarisches Szenario, in dem die Generierung von Richtliniennetzwerken gemäß Systemen oder Verfahren für eine interaktionsbewusste Entscheidungsfindung gemäß einem Gesichtspunkt erfolgt.
    • 18A-18B sind beispielhafte Datenflussdiagramme jeweils in Verbindung mit dem Training der Stufe Eins bzw. der Stufe Zwei für Systeme und Verfahren für eine interaktionsbewusste Entscheidungsfindung gemäß einem Gesichtspunkt.
    • 19A-19D sind beispielhafte Umgebungen, die mit Trainingsagenten gemäß Systemen oder Verfahren für eine interaktionsbewusste Entscheidungsfindung gemäß einem Gesichtspunkt assoziiert sind.
    • 20 ist eine Darstellung eines computerlesbaren Mediums oder einer computerlesbaren Vorrichtung einschließlich prozessorausführbarer Anweisungen, die dazu konfiguriert sind, eine oder mehrere der hier dargelegten Bestimmungen gemäß einem Gesichtspunkt zu verkörpern.
    • 21 ist eine Darstellung einer beispielhaften Computerumgebung in der eine oder mehrere der hierin dargelegt Bestimmungen nach einem Gesichtspunkt der Erfindung implementiert werden.
  • DETAILLIERTE BESCHREIBUNG
  • Das Folgende umfasst Definitionen von ausgewählten Begriffen, die hierin verwendet werden. Die Definitionen umfassen verschiedene Beispiele und/oder Formen von Komponenten, die in den Umfang eines Begriffs fallen und die zur Implementierung verwendet werden können. Die Beispiele sollen nicht einschränkend sein. Ferner werden Durchschnittsfachleute erkennen, dass die hierin diskutierten Komponenten mit anderen Komponenten kombiniert, weggelassen oder organisiert werden können oder in verschiedenen Architekturen organisiert werden können.
  • Ein „Prozessor“, wie hierin verwendet, verarbeitet Signale und führt allgemeine Berechnungen und arithmetische Funktionen aus. Von dem Prozessor verarbeitete Signale können digitale Signale, Datensignale, Computeranweisungen, Prozessorbefehle, Nachrichten, ein Bit, einen Bitstrom oder andere Mittel einschließen, die empfangen, übertragen und/oder erkannt werden können. Im Allgemeinen kann der Prozessor eine Vielzahl verschiedener Prozessoren sein, einschließlich mehrerer Einzel- und Mehrkernprozessoren und Koprozessoren sowie anderer Architekturen mit mehreren Einzel- und Mehrkernprozessoren und Koprozessoren. Der Prozessor kann verschiedene Module einschließen, um verschiedene Funktionen auszuführen.
  • Ein „Speicher“, wie hier verwendet, kann flüchtige Speicher und/oder nichtflüchtige Speicher einschließen. Nichtflüchtige Speicher können beispielsweise ROM (Nur-Lese-Speicher), PROM (programmierbarer Nur-Lese-Speicher), EPROM (löschbares PROM) und EEPROM (elektrisch löschbares PROM) einschließen. Flüchtiger Speicher kann zum Beispiel RAM (Direktzugriffsspeicher), synchrones RAM (SRAM), dynamisches RAM (DRAM), synchrones DRAM (SDRAM), SDRAM mit doppelter Datenrate (DDRSDRAM) und direktes RAM-Bus-RAM (DRRAM) einschließen. Der Speicher kann ein Betriebssystem speichern, das Ressourcen einer Rechenvorrichtung steuert oder zuweist.
  • Eine „Platte“ oder ein „Laufwerk“, wie hierin verwendet, kann ein Magnetplattenlaufwerk, ein Solid-State-Laufwerk, ein Diskettenlaufwerk, ein Bandlaufwerk, ein Zip-Laufwerk, eine Flash-Memory-Card und/oder ein Speicherstick sein. Ferner kann die Platte eine CD-ROM (Compact Disk ROM), ein beschreibbares CD-Laufwerk (CD-R-Laufwerk), ein wiederbeschreibbares CD-Laufwerk (CD-RW-Laufwerk) und/oder ein digitales Video-ROM-Laufwerk (DVD-ROM) sein. Die Platte kann ein Betriebssystem speichern, das Ressourcen einer Rechenvorrichtung steuert oder zuweist.
  • Ein „Bus“, wie hierin verwendet, bezieht sich auf eine verschaltete Architektur, die funktionell mit anderen Computerkomponenten innerhalb eines Computers oder zwischen Computern verbunden ist. Der Bus kann Daten zwischen den Computerkomponenten übertragen. Der Bus kann unter anderem ein Speicherbus, eine Speichersteuerung, ein Peripheriebus, ein externer Bus, ein Kreuzschienenschalter und/oder ein lokaler Bus sein. Der Bus kann auch ein Fahrzeugbus sein, der Komponenten innerhalb eines Fahrzeugs unter Verwendung von Protokollen wie Media Oriented Systems Transport (MOST), Controller Area Network (CAN) und Local Interconnect Network (LIN) miteinander verbindet.
  • Eine „Datenbank“, wie hierin verwendet, kann sich auf eine Tabelle, einen Satz von Tabellen und einen Satz von Datenspeichern (z. B. Platten) und/oder Verfahren zum Zugreifen auf und/oder Manipulieren dieser Datenspeicher beziehen.
  • Eine „betriebsfähige Verbindung“ oder eine Verbindung, über die Einheiten „betriebsfähig verbunden“ sind, ist eine Verbindung in der Signale, physikalische Kommunikationen und/oder logische Kommunikationen gesendet und/oder empfangen werden können. Eine betriebsfähige Verbindung kann eine drahtlose Schnittstelle, eine physikalische Schnittstelle, eine Datenschnittstelle und/oder eine elektrische Schnittstelle einschließen.
  • Eine „Computerkommunikation“, wie sie hier verwendet wird, bezieht sich auf eine Kommunikation zwischen zwei oder mehr Rechenvorrichtungen (z. B. Computer, persönlicher digitaler Assistent, Mobiltelefon, Netzwerkvorrichtung) und kann beispielsweise eine Netzwerkübertragung, eine Dateiübertragung, eine Applet-Übertragung, eine E-Mail, eine Hypertext Transfer Protocol (HTTP)-Übertragung und so weiter sein. Eine Computerkommunikation kann zum Beispiel unter anderen über ein drahtloses System (z. B., IEEE 802.11), ein Ethernetsystem (z. B., IEEE 802.3), ein Token-Ring-System (z. B., IEEE 802.5), ein lokales Netzwerk (LAN), ein Wide Area-Netzwerk (WAN), ein Punkt-zu-Punkt-System, ein System zum Umschalten von Schaltungen, ein Paket-Schaltsystem erfolgen.
  • Ein „Fahrzeug“, wie hierin verwendet, kann sich auf jedes sich bewegende Fahrzeug beziehen, dass in der Lage ist, einen oder mehrere menschliche Insassen zu befördern und das durch eine beliebige Form von Energie angetrieben wird. Der Begriff „Fahrzeug“ schließt Autos, Lastwagen, Lieferwagen, Minivans, SUVs, Motorräder, Roller, Boote, Wassermotorräder und Flugzeuge ein. In einigen Szenarien schließt ein Kraftfahrzeug eine oder mehrere Motoren ein. Ferner kann sich der Begriff „Fahrzeug“ auf ein Elektrofahrzeug (EV) beziehen, das ganz oder teilweise durch einen oder mehrere elektrische Motoren angetrieben wird, die durch eine elektrische Batterie angetrieben werden. Das EV kann batteriebetriebene Elektrofahrzeuge (BEV) und Plugin Hybrid-Elektrofahrzeuge (PHEV) einschließen. Außerdem kann sich der Begriff „Fahrzeug“ auf ein autonomes Fahrzeug und/oder selbstfahrendes Fahrzeug beziehen, das durch eine beliebige Form von Energie angetrieben wird. Das autonome Fahrzeug kann einen oder mehrere menschliche Insassen befördern oder nicht.
  • Ein „Agent“, wie hierin verwendet, kann sich auf eine „Fahrzeug“, wie beispielsweise ein Fahrzeug in einer Simulation oder ein simuliertes Fahrzeug, beziehen. In ähnlicher Weise kann „Aktor“, wie hierin verwendet, austauschbar mit „Agent“ verwendet werden. Zusätzlich kann „Einstellung“, wie hierin verwendet, austauschbar mit „Umgebung“ verwendet werden. Ein „Merkmal“, wie hierin verwendet, kann ein Ziel umfassen.
  • Ein „Fahrzeugsystem“, wie hierin verwendet, kann ein beliebiges automatisches oder manuelles System sein, das verwendet werden kann, um das Fahrzeug, das Fahren, und/oder die Sicherheit zu verbessern. Beispielhafte Fahrzeugsysteme umfassen unter anderem ein autonomes Antriebssystem, ein elektronisches Stabilitätskontrollsystem, ein Antiblockiersystem, ein Bremsassistenzsystem, ein automatisches Bremsvorfüllsystem, ein Niedriggeschwindigkeitsfolgesystem, ein Tempomatsystem, ein Kollisionswarnsystem, ein Kollisionsminderungsbremssystem, ein automatisches Tempomatsystem, ein Spurverlassenswarnsystem, ein Toter-Winkel-Anzeigesystem, ein Spurhalteassistent (LKAS), ein Navigationssystem, ein Getriebesystem, Bremspedalsysteme, ein elektronisches Servolenkungssystem, visuelle Vorrichtungen (z. B. Kamerasysteme, Näherungssensorsysteme), ein Klimasteuersystem, ein elektronisches Vorspannungssystem, ein Überwachungssystem, ein Passagiererkennungssystem, ein Fahrzeugaufhängungssystem, ein Fahrzeugsitzkonfigurationsystem, ein Fahrzeugkabinenbeleuchtungssystem, ein Audiosystem und ein Sensorsystem.
  • Die hierin erörterten Gesichtspunkte können im Kontext eines nichtflüchtigen computerlesbaren Speichermediums beschrieben und implementiert werden, das computerausführbare Anweisungen speichert. Nichtflüchtige computerlesbare Speichermedien umfassen Computerspeichermedien und Kommunikationsmedien. Zum Beispiel Flash-Speicherlaufwerke, DVDs (Digital Versatile Discs), CDs (Compact Discs), Disketten und Bandkassetten. Nichtflüchtige computerlesbare Speichermedien können flüchtige und nichtflüchtige, entfernbare und nicht entfernbare Medien umfassen, die in einem beliebigen Verfahren oder einer beliebigen Technologie zum Speichern von Informationen wie computerlesbaren Anweisungen, Datenstrukturen, Modulen oder anderen Daten implementiert sind.
  • Wie hierin verwendet kann sich „CM3“ auf die Verwendung eines Verfahrens zum kooperativen Verstärkungslernen mit mehreren Zielen, mehreren Agenten und mehreren Stufen oder ein System zum kooperativen Verstärkungslernen mit mehreren Zielen, mehreren Agenten und mehreren Stufen beziehen, einschließlich, aber nicht begrenzt auf das System von 1, das Verfahren von 3, das Verfahren der 5A-5B, usw.
  • Ein Agent kann Aktionen (die simulierte Aktionen sein können) aus einem Satz möglicher Aktionen unternehmen. Der Satz möglicher Aktionen kann als der Aktionssatz (A) bekannt sein.
  • Eine Umgebung kann eine Simulationsumgebung oder die Welt sein, durch die sich der Agent bewegt.
  • Eine Belohnungsfunktion (R) kann eine Funktion sein, die eine ausgeführte (z. B. simulierte) Aktion auswertet.
  • Ein Diskontfaktor (γ) kann mit zukünftigen Belohnungen multipliziert werden, damit Kurzzeitentscheidungen mehr wiegen als langfristige Belohnungen.
  • Ein Wert (V) kann ein erwarteter Langzeitertrag sein, der die Wirkung des Diskontfaktors einschließt.
  • Ein Q-Wert (Q) kann eine Aktionswert sein, der einen langfristigen Ertrag einer Aktion (A) nach der Richtlinie (π) des Zustands (s) angibt.
  • Eine Trajektorie kann eine Sequenz von Zuständen und/oder Aktionen sein, die diese Zustände einschließt.
  • Eine Richtlinie (π) kann eine Strategie sein, die verwendet wird, um die nächste Aktion für den Agenten basierend auf dem aktuellen Zustand zu bestimmen.
  • 1 ist ein beispielhaftes Komponentendiagramm eines Systems 100 für kooperatives Verstärkungslemen mit mehreren Zielen, mehreren Agenten und mehreren Stufen (CM3) gemäß einem Gesichtspunkt. Das System 100 für CM3-Verstärkungslemen kann einen Prozessor 102, einen Speicher 104, einen Bus 106, und einen Simulator 108 einschließen. Der Simulator 108 kann über den Prozessor 102 und den Speicher 104 implementiert werden. Der Simulator 108 kann eine Simulation in Verbindung mit einem oder mehreren Agenten 122 simulieren oder durchführen, wobei er eine oder mehrere Aktionen 124 innerhalb einer Simulationsumgebung 126 ausführt, wobei ein oder mehrere Kritiker 128 eine oder mehrere der Aktion 124 interpretieren oder auswerten, die von einem oder mehreren der Agenten 122 ausgeführt werden, um einen oder mehrere Belohnungen 132 und einen oder mehrere Zustände 134 zu bestimmen, die sich aus den ausgeführten Aktionen ergeben.
  • Der Simulator 108 oder der Prozessor 102 können ein CM3-Richtliniennetzwerk 140 erzeugen, das auf dem Speicher 104 des Systems 100 für das CM3-Verstärkungslemen gespeichert werden kann. Das System kann ferner eine Kommunikationsschnittstelle 150 einschließen, die es dem CM3-Richtliniennetzwerk 140 erlaubt, zu anderen Vorrichtungen übertragen zu werden, wie zum Beispiel einem Server 160, welcher eine CM3-Datenbank 162 einschließen kann. Auf diese Weise kann das von dem System 100 erzeugte CM3-Richtliniennetzwerk 140 für das CM3-Verstärkungslemen in der CM3-Datenbank 162 des Servers 160 gespeichert werden.
  • Der Server 160 kann dann das CM3-Richtliniennetzwerk 140 an ein oder mehrere Fahrzeuge weitergeben, wie beispielsweise ein erstes Fahrzeug 170 und ein zweites Fahrzeug 180. Das erste Fahrzeug kann mit einer Fahrzeugkommunikationsschnittstelle 172, einer Speichervorrichtung 174, einem Steuergerät 176 und einem oder mehreren Fahrzeugsystemen 178 ausgestattet sein. Die Speichervorrichtung kann das CM3-Richtliniennetzwerk 140 von dem Server 160 speichern, und das Steuergerät kann das erste Fahrzeug auf der Grundlage des CM3-Richtliniennetzwerks 140 auf eine autonome Art und Weise betreiben. In ähnlicher Weise kann das zweite Fahrzeug 180 mit einer Fahrzeugkommunikationsschnittstelle 182, einer Speichervorrichtung 184, einem Steuergerät 186 und einem oder mehreren Fahrzeugsystemen 188 ausgerüstet sein und in ähnlicher Weise wie das erste Fahrzeug betrieben werden.
  • In jedem Fall ermöglicht dies dann, wenn das CM3-Richtliniennetzwerk 140 in der Speichervorrichtung des Fahrzeugs gespeichert ist, dass das Steuergerät das Fahrzeug auf der Grundlage des CM3-Richtliniennetzwerks 140 autonom anfahren kann und gemäß dem CM3-Verstärkungslernen, das innerhalb des Simulators 108 stattgefunden hat, autonome Fahrentscheidungen treffen kann, weil das CM3-Richtliniennetzwerk 140 auf ein oder mehrere der Richtlinien oder Entscheidungen hindeuten kann, die basierend auf dem Training oder der Simulation getroffen werden sollten. Beispielsweise kann die CM3-Netzwerkrichtlinie eine Eingabe einer Beobachtung erhalten, die dem ersten autonomen Fahrzeug oder dem zweiten autonomen Fahrzeug zugeordnet ist (z. B. einen Fahrzeugzustand oder einen Umgebungszustand) und eine vorgeschlagene Aktion ausgeben.
  • 2 ist ein beispielhaftes Komponentendiagramm des Simulators 108 für das System 100 zum Verstärkungslernen mit mehreren Zielen, mehreren Agenten und mehreren Stufen aus 1. In 2 kann man den Simulator 108 des Systems 100 für CM3-Verstärkungslernen aus 1 sehen. Hier kann der Agent die Aktion in der Umgebung ausführen. Dies kann durch den Kritiker als die Belohnung oder Strafe und eine Darstellung des Zustands interpretiert werden, der dann in den Agenten zurückgeführt werden kann. Der Agent kann mit der Umgebung interagieren, indem er die Aktion zu einem diskreten Zeitschritt ausführt. In jedem Zeitschritt kann der Agent eine Beobachtung empfangen, die die Belohnung einschließen kann. Der Agent kann eine Aktion aus einem Satz von verfügbaren Aktionen auswählen, was zu einem neuen Zustand und einer neuen Belohnung für einen nachfolgenden Zeitschritt führt. Das Ziel des Agenten besteht im Allgemeinen darin, die größtmögliche Menge an Belohnungen zu sammeln.
  • Stufe Eins / Lokalansicht / Einzel-Agent-Umgebung
  • Gemäß einem Gesichtspunkt kann der Simulator 108 das Training der Stufe Eins einschließlich des Trainings eines ersten Agenten basierend auf einem ersten Richtliniengradienten und einem Training eines ersten Kritikers basierend auf einer ersten Verlustfunktion ausführen, um ein oder mehrere Merkmale in einer Einzel-Agent-Umgebung unter Verwendung eines Markov-Entscheidungsprozesses (MDP) zu erlernen. Während der ersten Stufe oder Stufe Eins kann der Simulator 108 den Agenten trainieren, um eine oder mehrere einzelne Aufgaben zu erreichen oder um unterschiedliche Ziele in einem Einzel-Agent-Umfeld oder einer Einzel-Agent-Umgebung zu erreichen (d. h. dort wo es keine anderen Agenten innerhalb der Umgebung gibt). Dies kann eine statische Umgebung sein. Das durch den Simulator 108 bereitgestellte Einzel-Agent-Umfeld oder die Einzel-Agent-Umgebung in Stufe Eins ermöglicht es dem ersten Agenten, das eine oder die mehreren Merkmale in einer vorteilhaften Weise zu erlernen oder dafür trainiert zu werden. Mit anderen Worten, durch Reduzieren der Anzahl von Agenten in der ersten Stufe kann der erste Agent auf eine schnellere, effizientere Art und Weise trainiert werden. Auf noch eine andere Weise erklärt, können Agenten, die lokale Zielsetzungen in der Abwesenheit von anderen Agenten erreichen, zuverlässiger die gewünschten Zustandskonfigurationen zum Erlernen eines kooperativen Verhaltens produzieren.
  • Der Simulator 108 kann den ersten Agenten trainieren, indem er dem ersten Agenten ermöglicht, eine Aktion aus einem Satz von einer oder mehreren Aktionen auszuwählen, einschließlich einer Nicht-Handlungs-Aktion, einer Beschleunigungs-Aktion, einer Brems-Aktion, einer Aktion zur Linksverschiebung um eine Spur oder eine Aktion zur Rechtsverschiebung um eine Spur.
  • Beispiele eines oder mehrere der Merkmale, die in Stufe Eins von dem ersten Agent erlernt werden können, schließen das Erlernen von Regeln und Vorschriften der Fahrbahn ein, wie man auf einer Fahrbahn innerhalb der Geschwindigkeitsbegrenzung fährt oder die Geschwindigkeit hält, wie das Fahrzeug innerhalb der Fahrspur gehalten wird, wie die Fahrspur oder die Spurposition geändert wird, wie man über eine Ausfahrt abfährt, wie man über eine Beschleunigungsspur auffährt usw.
  • Auf diese Art und Weise verfügt das erste Richtliniennetzwerk über einen dezentralen Kritiker, der unterschiedliche Merkmale des Einzel-Agent-Umfelds oder der Einzel-Agent-Umgebung erlernt. Da der erste Kritiker der dezentrale Kritiker sein kann, kann die erste Stufe oder Stufe Eins mit einer lokalen Ansicht oder individualisierten Belohnungen, individualisiertem Lernen, usw. für den ersten Agent verbunden sein.
  • Stufe Zwei / Globale Ansicht / Multi-Agent-Umgebung
  • Gemäß einem Gesichtspunkt kann der Simulator 108 das Training der Stufe Zwei einschließlich des Trainings einer Anzahl von N Anzahl von Agenten auf der Grundlage des ersten Richtliniengradienten und eines zweiten Richtliniengradienten und des Trainings eines zweiten Kritikers auf der Grundlage der ersten Verlustfunktion und einer zweiten Verlustfunktion durchführen, um einen zweiten Satz von Merkmalen, wie z. B. Kooperation, zwischen der N Anzahl von Agenten in einer Multi-Agent-Umgebung mithilfe eines Markov-Spiels zu lernen, um ein zweites neuronales Netzwerk zu instanziieren. Während des Trainings der zweiten Stufe kann jeder der N Agenten mit dem vorab trainierten ersten neuronalen Agentennetzwerk instanziiert werden. Auf diese Weise kann durch Instanziieren jedes der N Agenten mit Vorkenntnissen aus dem vorab trainierten ersten neuronalen Agentennetzwerk ein curricularer Gewinn über das System 100 für das CM3-Verstärkungslemen implementiert werden. In dieser Hinsicht kann der Simulator 108 den ersten Agenten in der Einzel-Agent-Umgebung vor dem Training der N Anzahl von Agenten der Multi-Agent-Umgebung trainieren. Der Simulator 108 kann die N Anzahl von Agenten auf der Grundlage eines kombinierten Richtliniengradienten trainieren, der aus dem ersten Richtliniengradienten und dem zweiten Richtliniengradienten abgeleitet ist. Die N Anzahl von Agenten kann den ersten Agenten einschließen.
  • Für das Markov-Spiel kann jeder Agent so lernen, eines oder mehrere Ziele oder Merkmale in einem endlichen Satz zu erreichen, mit anderen Agenten zu kooperieren, um einen gemeinsamen Erfolg von Zielen zwischen oder unter der N Anzahl von Agenten zu erreichen und während der Simulation unabhängig voneinander mit begrenzten lokalen Informationen zu agieren. Der Simulator 108 kann die Umgebungen (z. B. die Einzel-Agent- und die Multi-Agent-Umgebungen) als episodische Umgebungen formulieren, wobei jedem Agenten während jeder Trainingsphase zufällig abgetastete Ziele zugewiesen werden können. In jedem Fall kann der Simulator 108 die Umgebungen als ein Markov-Spiel mit mehreren Zielen einrichten und den Aktor-Kritiker-Ansatz für das zentralisierte Training dezentraler Richtlinien überprüfen.
  • Im Hinblick auf das Markov-Spiel kann der Simulator 108 ein Multi-Ziel-Markov-Spiel als ein Tupel〈S, {On}, {An}, P, R, G, N, γ〉, mit einer N Anzahl von Agenten beschriftet mit n = [1...N] definieren. Jeder Agent kann während jeder Episode ein Ziel gn ∈ G aufweisen. Bei jedem Zeitschritt t kann die Konfiguration der Agenten vollständig durch einen Zustand st ∈ S spezifiziert werden, während jeder Agent n eine partielle Beobachtung o t n O n
    Figure DE102019121717A1_0001
    empfängt und eine Aktion a t n A n
    Figure DE102019121717A1_0002
    auswählt. Der Simulator 108 kann die Umgebung gemäß einer Übergangswahrscheinlichkeit P(St+1|st, a): S × A1 × ... × AN×S → [0,1] durch die gemeinsam Aktion a t : = [ a t 1 a t N ]
    Figure DE102019121717A1_0003
    auf einen nächsten Zustand st+1 setzen. Jeder Agent kann eine Belohnung R erhalten:R: S × An× G → ℝ und die Lernaufgabe ist es, stochastische Richtlinien πn(an| on, gn) zu finden: On× Gx An → [0,1], eine Bedingung, die sich nur auf lokale Beobachtungen und Ziele bezieht, zur Maximierung von E s t p π , a t π [ t = 0 T γ t n = 1 N R ( s t , a t n , g n ) ]
    Figure DE102019121717A1_0004
    über den Horizont T, wobei γ ein Diskontfaktor ist. Wie hierin verwendet können a-n und g-n die jeweilige Gesamtheit aller Aktionen und Ziele der Agenten bezeichnen, außer der von Agent n; g kann die Gesamtheit aller Ziele aller Agenten bezeichnen; und (π(a|o, g): = Πn πn(an|on, gn) kann die gemeinsame Richtlinie bezeichnen. E π [ . ]  kann für  E s p π , a π [ . ]
    Figure DE102019121717A1_0005
    stehen, wobei ρπ als die diskontierte stationäre Zustandsverteilung unter π definiert ist.
  • In Stufe Zwei kann der Simulator 108 das Erlernte von anderen untertrainierten Individuen oder Agenten aufnehmen, indem die Anzahl der N Anzahl der Agenten unter Verwendung eines zentralen Kritikers beobachtet wird. Mit anderen Worten kann der zweite Kritiker der zentrale Kritiker sein. Der Simulator 108 kann dem zentralen Kritiker befehlen, lokale und/oder gemeinsame Belohnungen bereitzustellen. Auf diese Weise kann ein zentraler Kritiker für zentrales Lernen von dezentralen Richtlinien bereitgestellt werden. Da der zweite Kritiker der zentrale Kritiker sein kann, kann die zweite Stufe oder Stufe Zwei mit einer globalen Ansicht oder einem Kooperationstyplernen für die gesamte Menge an N Agenten verbunden sein. Die globale Ansicht kann einen Verkehrsfluss für die N Anzahl von Agenten insgesamt angeben, während die lokale Ansicht die Bewegung, den Fluss, oder die Effizienz von lediglich dem ersten Agenten angeben kann. Die globale Ansicht und/oder die lokale Ansicht kann aus der Vogelperspektive oder der Umgebungsperspektive betrachtet werden. Zwei Ansichten der Lernzielsetzung, entsprechend den Agenten, die auf ihr eigenes Ziel hinwirken und entsprechend der Kooperation für den Erfolg von anderen Agenten können somit durch die zwei Stufen der Simulation durch den Simulator 108 bereitgestellt werden. Diese beiden Stufen können in ein zweistufiges (z. B. oder zusätzlichen Stufen, wie beispielsweise drei, vier, usw.) Lehrprogramm eingefügt werden, das durch ein neuronales Netzwerkkonstruktion überbrückt wird.
  • Nochmals erklärt wird Kooperation in Stufe Zwei von der Anzahl von N Anzahl von Agenten während der Simulation erlernt, um verschiedene Merkmale in einem Multi-Agent-Umfeld oder einer Multi-Agent-Umgebung auf der Grundlage einer doppelten Kritikerkonfiguration zu erreichen. Zum Beispiel kann der erste Agent in der ersten Stufe trainiert werden und der erste, dezentrale Kritiker kann das Erlernen von mehreren Merkmalen in dem Einzel-Agent-Umfeld oder der Einzel-Agent-Umgebung erleichtern. In der zweiten Stufe oder Stufe Zwei kann die Anzahl der N Anzahl von Agenten in das Markov-Spiel instanziiert werden und mit den vorab trainierten π1 (z. B. den zuvor trainierten Parametern des ersten Agenten aus Stufe Eins) und Vπ (z. B. den zuvor trainierten Parametern des ersten dezentralen Kritikers aus Stufe Eins) sowie dem neuen zentralen Kritiker Q (z. B. dem zweiten Kritiker) ausgerüstet werden.
  • Während der zweiten Stufe oder Stufe Zwei kann der Simulator 108 die N Anzahl von Agenten trainieren, um eine oder mehrere kooperative Aufgaben zu erreichen oder um verschiedene Ziele in dem Multi-Agent-Umfeld oder der Multi-Agent-Umgebung zu erreichen. Dies kann eine dynamische Umgebung sein. Das durch den Simulator 108 in Stufe Zwei bereitgestellte Multi-Agent-Umfeld oder die Multi-Agent-Umgebung kann die N Anzahl von Agenten in die Lage versetzen, zu lernen, miteinander zu interagieren, während jeder der N Anzahl von Agenten in die Lage versetzt wird, ihre letztendlichen jeweiligen Ziele zum Erreichen ihrer Zielorte zu erreichen.
  • Der Simulator 108 kann die N Anzahl von Agenten trainieren, indem er jedem der N Anzahl von Agenten ermöglicht, eine Aktion aus einem Satz von einer oder mehreren Aktionen auszuwählen, einschließlich einer Nicht-Handlungs-Aktion, einer Beschleunigungs-Aktion, einer Brems-Aktion, einer Aktion zur Linksverschiebung um eine Spur oder eine Aktion zur Rechtsverschiebung um eine Spur, vergleichbar mit dem ersten Agenten.
  • Beispiele eines oder mehrere der Merkmale, die in Stufe Zwei von der N Anzahl von Agenten erlernt werden können, können das Lernen zur Vermeidung von Kollisionen mit anderen Agenten und die Optimierung der Zeiten zu Zielorten einschließen. Da jedoch das in der Stufe Eins erfolgte Lernen (z. B. Lernen, in der statischen Umgebung zu fahren) übernommen wird oder in der Simulation der Stufe Zwei instanziiert wird, kann das Lernen schneller erreicht werden als wenn keine Aufteilung in Stufe Eins und Stufe Zwei durch den Simulator 108 bereitgestellt würde. Gemäß einem Gesichtspunkt können das eine oder die mehreren in der Einzel-Agent-Umgebung von Stufe Eins erlernten Merkmale andere sein als die in der Multi-Agent-Umgebung von Stufe Zwei erlernten Merkmale. Auf diese Weise kann der Simulator 108 die in der ersten Stufe erlernten Merkmale auf die N Anzahl von Agenten der zweiten Stufe instanziieren, um das Erlernen des Lernprogramms zu erleichtern.
  • Wie zuvor erörtert, kann der Simulator 108 in Stufe Zwei das Erlernte anderer untertrainierter Individuen oder Agenten durch Beobachten der Anzahl N der Anzahl der Agenten unter Verwendung des zentralen Kritikers einbeziehen. Da jeder der N Anzahl von Agenten mit den Lehren (z. B. Netzwerkrichtlinien) aus der ersten Stufe oder Stufe Eins instanziiert werden kann, kann jeder der N Anzahl von Agenten vorab darauf trainiert werden, wie man in der statischen Umgebung herumfährt. Da es ferner eine Anzahl von N Anzahl von Agenten geben kann, kann jeder der N Anzahl von Agenten kann in unterschiedlichen Positionen innerhalb der Multi-Agent-Umgebung platziert und unterschiedlichen Szenarien ausgesetzt werden. Dadurch, dass der Simulator 108 und der Kritiker die Anzahl von N Anzahl von Agenten beobachten, kann das Lernen für verschiedene Szenarien parallel erfolgen. Anders gesagt, das Lernen, dass in Stufe Zwei auftreten kann, kann dadurch erreicht werden, dass von einem ersten Agent erlernte Daten mit einem zweiten Agent geteilt werden und umgekehrt (z. B. Teilen von Daten, die von dem zweiten Agent gelernt wurden, mit dem ersten Agent).
  • Wenn zum Beispiel ein erster Agent versucht, einen Spurwechsel nach links durchzuführen und vor einem zweiten Agenten positioniert ist, der einen Spurwechsel nach rechts vornehmen möchte, so ist jeder der Agenten einem anderen Szenario ausgesetzt und die Netzwerkrichtlinien könne für beide aktualisiert werden, wodurch die Effizienz des Lernens verbessert wird und der Umfang der Trainingszeit im Zusammenhang mit dem Training eines CM3-Systems wesentlich reduziert wird. In diesem Beispiel weisen der erste Agent und der zweite Agent unterschiedliche Ziele auf (z. B. ein erstes Ziel des Durchführens des Spurwechsels nach links und ein zweites Ziel des Durchführens eines Spurwechsels nach rechts, vielleicht zum Erreichen einer Ausfahrt). Es sollte beachtet werden, dass das Erlernen der Kooperation durch den Simulator 108 implementiert werden kann. Wenn der erste Agent beispielsweise abgelehnt hat es zuzulassen, dass der zweite Agent den Spurwechsel nach rechts durchführt und wenn der zweite Agent abgelehnt hat, dem ersten Agenten zu erlauben, den Spurwechsel nach links durchzuführen, kann eine Pattsituation auftreten, die keinem der Agenten nützt.
  • Das zweite neuronale Agentennetzwerk kann mit einem oothers Parameter für jeden der N Anzahl von Agenten verbunden sein, der eine lokale Beobachtung jedes der entsprechenden N Anzahl von Agenten angeben kann. Gemäß einem Gesichtspunkt kann der oothers Parameter eine Geschwindigkeit des ersten Agenten, eine Anzahl von Fahrbahnen oder untergeordneten Spuren zwischen dem ersten Agenten und einem der N Anzahl von Agenten, einen Abstand von dem ersten Agent zu einer Zielposition oder einen Fahrzeugtyp, der dem ersten Agent zugeordnet ist, angeben. Der oothers Parameter kann einen Fahrzeugbelegungsstatus, der einem der N Anzahl von Agenten zugeordnet ist, eine relative Geschwindigkeit eines der N Anzahl von Agenten in Bezug auf den ersten Agent oder einen Fahrzeugtyp, der einem der N Anzahl von Agenten zugeordnet ist, angeben.
  • Obwohl eine dritte Stufe oder Stufe drei hierin nicht beschrieben ist, wird in Betracht gezogen, dass in der dritten Stufe jeder der N Agenten durch den Simulator 108 mit dem vorab trainierten ersten neuronalen Agentennetzwerk und dem vorab trainierten zweiten neuronalen Agentennetzwerk instanziiert werden kann und zusätzliches Lernen auftreten kann, wodurch das Erlernen des Lernprogramms ermöglicht wird.
  • Richtliniengenerierung / Zentrales Erlernen dezentraler Richtlinien
  • Der Prozessor 102 oder der Simulator 108 kann auf Grundlage des ersten neuronalen Agentennetzwerks und des zweiten neuronalen Agentennetzwerks eine CM3-Netzwerkrichtlinie erzeugen. Der Simulator 108 kann die zwei Stufen (z. B. Stufe Eins und Stufe Zwei) durch die modulare Erweiterung der neuronalen Netzrichtlinien und der Wertfunktionen überbrücken. Die CM3-Netzwerkstrategie kann Daten anzeigen, die verwendet werden können, um das Steuergerät des autonomen Fahrzeugs/der autonomen Fahrzeuge aus 1 auf eine autonome Art und Weise zu betreiben. Zum Beispiel kann die CM3-Netzwerkrichtlinie eine Eingabe einer Beobachtung erhalten, die dem ersten autonomen Fahrzeug oder dem zweiten autonomen Fahrzeug zugeordnet ist (z. B. ein Fahrzeugzustand oder ein Umgebungszustand) und eine vorgeschlagene Aktion ausgeben, die eine Nicht-Handlungs-Aktion, eine Beschleunigungs-Aktion, eine Brems-Aktion, eine Aktion zur Linksverschiebung um eine Spur oder eine Aktion zur Rechtsverschiebung um eine Spur einschließen kann, entsprechend den Aktionen, die während der Simulation verwendet und durch den Simulator 108 bereitgestellt wurden.
  • Die CM3-Netzwerkrichtlinie kann eine kombinierte Ansicht anzeigen, die für die lokale Ansicht und die globale Ansicht repräsentativ ist, die der ersten Stufe und der zweiten Stufe zugeordnet sind. Gemäß einem Gesichtspunkt kann der Simulator 108 eine CM3-Netzwerkrichtlinie auf der Grundlage der lokalen Ansicht und der globalen Ansicht optimieren. Auf diese Art und Weise kann ein zweistufiges Lernprogramm einschließlich einer Einzel-Agent-Stufe zum Erlernen des Erfüllens einzelner Aufgaben, gefolgt von einer Multi-Agent-Stufe zum Erlernen von Kooperation bei Vorliegen von anderen Agenten bereitgestellt werden. Der Simulator 108 kann diese zwei Stufen (z. B. die erste Stufe und die zweite Stufe) überbrücken, indem er die neuronalen Netzwerkrichtlinien und Wertfunktionen von der ersten Stufe bzw. der zweiten Stufe modular erweitert. Mit anderen Worten kann der Simulator 108 die neuronale Netzwerkrichtlinie, die der ersten Stufe oder Stufe Eins zugeordnet ist, modular um die neuronale Netzwerkrichtlinie erweitern, die der zweiten Stufe oder Stufe Zwei zugeordnet ist. Auf ähnliche Weise kann der Simulator 108 eine oder mehrere Wertfunktionen, die der ersten Stufe oder Stufe Eins zugeordnet sind, mit einer oder mehreren Wertfunktionen, die der zweiten Stufe oder Stufe Zwei zugeordnet sind, modular erweitern.
  • Wie zuvor erörtert, kann CM3 ein Aktor-Kritiker- oder einen Agent-Kritiker-Rahmenwerk für dieses Lehrprogramm implementieren, indem lokale und globale Ansichten des Richtliniengradienten und des Lernens über einen Doppelkritiker formuliert werden, einschließlich einer dezentralen Wertfunktion (z. B. dem ersten, dezentralen Kritiker zugeordnet) und einer zentralen Aktionswertfunktion (z. B. dem zweiten, zentralen Kritiker zugeordnet). Der Simulator 108 kann somit sowohl eine Einzel-Agent-Umgebung als auch eine Multi-Agent-Umgebung simulieren, in der jeder Agent lernt, Ziele oder Merkmale in einem endlichen Satz zu erreichen und mit anderen Agenten mit potentiell anderen Zielen oder Merkmalen zu kooperieren. In dieser Hinsicht ermöglicht es der CM3-Rahmen des Verfahrens für kooperatives Verstärkungslemen mit mehreren Zielen, mehreren Agenten und mehreren Stufen oder das System 100 für kooperatives Verstärkungslemen mit mehreren Zielen, mehreren Agenten und mehreren Stufen dem Multi-Agent-Lehrprogramm einen oder mehrere Vorteile bereitzustellen.
  • Beispielsweise war eine Multi-Agent-Erkundung bisher ein schwer zu lösendes Problem. Indem eine Netzwerkrichtlinie der Stufe Eins trainieren wird, um verschiedene Ziele in einem Einzel-Agent-Umfeld zu erreichen, können Erkundungsaktionen durchgeführt werden, die für die Suche nach kooperativen Lösungen nützlich sind, nachdem Agenten so eingerichtet wurden, dass sie zuverlässig Konflikte erzeugen, indem sie auf einzelne Ziele reagieren, die in dem Einzel-Agent-Umfeld erlernt wurden.
  • Als weiteres Beispiel kann eine neuronale Netzwerkkonstruktion für das Multi-Agent-Verstärkungslemen (MARL) bereitgestellt werden. Insbesondere kann das Training der Stufe Eins für den Agent oder die neuronalen Aktor- und Kritiker-Netzwerke durch die Einstellung des zugeordneten Eingaberaums auf einen Teil (z. B. kann dieser auf einen ersten Satz von Zielen oder Merkmalen vordefiniert, vorprogrammiert, manuell eingestellt, usw. sein) vereinfacht werden, der zur Erzielung einzelner Ziele in der Einzel-Agent-Umgebung ausreichend ist. In der neuronalen Netzwerkkonstruktion der Stufe Zwei kann die Architektur zum weiteren Lernen in der vollen Multi-Agent-Umgebung oder basierend auf dem Training der Stufe Eins (z. B. Variablen, Parameter, neuronale Netzwerke usw. der Stufe Eins) erweitert, angepasst oder modifiziert werden. Dies ermöglicht eine Aufteilung der Beobachtung eines Agenten in eine Darstellung des eigenen Zustands des Agenten (z. B. Abstand zu einem Zielort) und eine Darstellung von anderen Agenten.
  • Außerdem werden Stufe Eins und Stufe Zwei kombiniert. Mit anderen Worten wird eine dezentrale Richtlinie unter Verwendung eines doppelten Kritikers, einschließlich einer dezentralen Wertfunktion zum Erlernen der lokalen Zielsetzung und einer zentralen Aktionswertfunktion zum Erlernen von Kooperation trainiert, wodurch lokale Zielsetzungen oder Ziele berücksichtigt werden, während ebenso die Kooperation der N Anzahl von Agenten berücksichtigt wird, indem zwei gleichwertige Ansichten des Richtliniengradienten gezeigt werden und die neue Aktor-Kritiker- oder Agent-Kritiker-Anpassung implementiert wird.
  • Der CM3-Rahmen (z. B. in Verbindung mit dem CM3-System und dem CM3-Verfahren) kombiniert diese Merkmale innerhalb eines einzigen Lehrprogramms einschließlich eines vereinfachte Richtliniennetzwerks mit einem dezentralen Kritiker, um das Erreichen mehrerer Ziele in der Stufe Eins zu erlernen, während die Stufe Zwei den Beobachtungsraum der Richtlinie verstärkt, um andere Agenten darzustellen und eine Multi-Agent-Kooperation unter Nutzung der doppelten Kritikerimplementierung darzustellen. Gemäß einem Gesichtspunkt kann eine gemeinsame Nutzung von Parametern zwischen einem oder mehreren bis zu allen Agenten durch den Simulator 108 bereitgestellt werden.
  • Ein zentraler Kritiker, der umfassende Status-Aktions-Informationen erhält, kann das Lernen von dezentralen Aktoren oder Agenten (z. B. Richtlinien) beschleunigen, die nur lokale Informationen empfangen und nur die Aktoren können zur Ausführung nach dem Training zurückgehalten werden. Gemäß einem Gesichtspunkt kann die Richtlinie π (mit dem Parameter θ) in einer Einzel-Agent-Umgebung das Ziel maximieren J ( π ) : = E π [ t γ t R ( s t ) ]
    Figure DE102019121717A1_0006
    durch Ansteigen des Gradienten: θ J ( π ) = E π [ θ  log  π ( a | s ) ( Q π ( s , a ) b ( s ) ) ]
    Figure DE102019121717A1_0007
  • In der Gleichung (1) ist Q π ( s , a ) : = E s t p π , a t π [ t γ t R ( s t , a t ) | s o = s ,   a o = a ) ]
    Figure DE102019121717A1_0008
    die Aktionswertfunktion und b(s) eine beliebige zustandsabhängige Basislinie.
  • Gemäß einem Gesichtspunkt kann eine kontrafaktische Basislinie definiert sein als: b ( s , a n ) : = a ^ n π n ( a ^ n | o n ) Q ( s , ( a n , a ^ n ) )
    Figure DE102019121717A1_0009
  • Die kontrafaktische Basislinie kann sich auf das Problem der Multi-Agent-Guthabenzuweisung beziehen: Q (s, (a-n, an)) - b (s, a-n) kann den Beitrag einer von einem Agenten gewählte Aktion und gegen den Durchschnitt aller möglichen kontrafaktische Aktionen ân darstellen, wobei Aktionen anderer Agenten fest bleiben. Der Simulator 108 kann die gemeinsame Nutzung von Parametern für alle Agenten verwenden, was bedeutet, dass alle Agenten dieselbe Richtlinie ausführen, sich jedoch je nach ihren individuellen Beobachtungen unterschiedlich verhalten können.
  • Der Richtliniengradient kann definiert sein als: θ J ( π ) = E π [ n 0  log  π n ( a n | o n ) ( Q ( s , a ) b ( s , a n ]
    Figure DE102019121717A1_0010
  • Das hierin beschriebene CM3-Rahmen kann auf der kontrafaktischen Basislinie basieren (z. B. Gleichung (3)), die die individuellen Zielsetzungen und Mischungen aus lokalen und gemeinsamen Belohnungen berücksichtigt.
  • 3 ist ein beispielhaftes Flussdiagramm eines Verfahrens 300 für ein kooperatives Verstärkungslemen mit mehreren Zielen, mehreren Agenten und mehreren Stufen gemäß einem Gesichtspunkt. Das Verfahren 300 kann das Training 302 eines ersten Agenten und eines ersten Kritikers, um Merkmale in einer Einzel-Agent-Umgebung zu erlernen, das Training 304 einer Anzahl von N Anzahl von Agenten, um die Kooperation zwischen einer N Anzahl von Agenten in einer Multi-Agent-Umgebung zu erlernen, die Instanziierung von N Anzahl von Agenten mit einem vorab trainierten ersten neuronalen Agentennetzwerk und das Erzeugen 306 einer kooperativen Netzwerkrichtlinie mit mehreren Zielen, mehreren Agenten und mehreren Stufen (CM3) auf der Grundlage des ersten neuronalen Agentennetzwerks und des zweiten neuronalen Agentennetzwerks einschließen. Daher schließen die Schritte des Trainings 302 und des Trainings 304 einen schrittweisen, mehrstufigen Lernprozess zum Aufbau der Netzwerkrichtlinie von 306 ein.
  • Gemäß einem Gesichtspunkt kann das Training 302 des ersten Agenten in der Einzel-Agent-Umgebung ein Training des ersten Agenten auf der Grundlage eines ersten Richtliniengradienten und das Training eines ersten Kritikers auf der Grundlage einer ersten Verlustfunktion zum Erlernen eines oder mehrere Merkmale in der Einzel-Agent-Umgebung unter Verwendung eines Markov-Entscheidungsprozesses einschließen. Der erste Agent kann einem ersten neuronalen Agentennetzwerk zugeordnet sein und der erste Kritiker kann einem ersten neuronalen Kritikernetzwerk zugeordnet sein. Der erste Kritiker kann ein dezentraler Kritiker sein.
  • Gemäß einem Gesichtspunkt kann das Training 304 der N Anzahl von Agenten in der Multi-Agent-Umgebung das Trainieren der Anzahl von N Anzahl von Agenten auf der Grundlage eines ersten Richtliniengradienten und eines zweiten Richtliniengradienten und eines zweiten Kritikers, die auf der Grundlage der ersten Verlustfunktion und der zweiten Verlustfunktion trainiert werden, einschließen, um Kooperation zwischen der N Anzahl von Agenten in eine Multi-Agent-Umgebung mithilfe eines Markov-Spiels zu lernen, um ein zweites neuronales Agentennetzwerk zu instanziieren. Jeder der N Anzahl von Agenten kann mit dem ersten neuronalen Agentennetzwerk in einer vorab trainierten Weise instanziiert werden. Der zweite Kritiker kann ein zentraler Kritiker sein. Auf diese Art und Weise kann ein doppeltes Kritikerverfahren bereitgestellt werden. Weiterhin kann das Training des ersten Agenten in der Einzel-Agent-Umgebung vor dem Training der N Anzahl von Agenten in der Multi-Agent-Umgebung stattfinden, wodurch die Effizienz des CM3-Verstärkungslernens, wie es hierin beschrieben wird, verstärkt wird.
  • 4 ist ein beispielhaftes Datenflussdiagramm in Verbindung mit einem Verfahren zum kooperativen Verstärkungslernen mit mehreren Zielen, mehreren Agenten und mehreren Stufen gemäß einem Gesichtspunkt. In Stufe Eins aus 4 kann ein Paar reduzierter Netzwerke V1 und π1 das Erreichen mehrerer Ziele in einer Einzel-Agent-Umgebung mithilfe des Richtliniengradienten ∇Jlocal erlernen. Ein neues Richtliniennetzwerk π kann aus dem trainierten π1 , einem neuen Modul π2 und der Konstruktion für V konstruiert werden. In der umfassenden Multi-Agent-Umgebung in Stufe Zwei aus 4 können diese größeren π und V für jeden der N Anzahl von Agenten (mit vollem Parameter-Sharing) zusammen mit einem neuen zentralen Kritiker Q instanziiert werden und unter Verwendung des interpolierten Richtliniengradienten trainiert werden.
  • Eine gemeinsame Richtlinie π (a|o, g) mit impliziertem Parameter θ, der von allen einzelnen πn (an| on, gn) geteilt wird, kann definiert werden, um die Zielsetzung zu maximieren: J ( π ) : = E π [ t γ t n = 1 N R ( s t , a t n , g n ) ]
    Figure DE102019121717A1_0011
  • Die Zielsetzung kann auf zwei Arten betrachtet werden (z. B. lokal und global), was zu dem Aktor-Kritiker-Paar von dezentralen und zentralen Kritikern führt.
  • Für die lokale Ansicht (z. B. erste Ansicht) kann der Simulator 108 einen dezentralen Kritiker durch diese Belohnungen anlernen, einen Richtliniengradienten für Agenten bereitzustellen, um lokale Ziele ohne explizite Beachtung des gemeinsamen Erfolgs aller Agenten zu erreichen. Die Zielsetzungen J n ( π ) : = E π [ t γ t R ( s t , a t n , g n ) ]
    Figure DE102019121717A1_0012
    können definiert werden, um einzelnen Zielen gn zu entsprechen. Jlocal kann durch Ansteigen des Gradienten maximiert werden: θ J l o c a l ( π ) = n = 1 N θ J n ( π ) = E π [ n = 1 N  log  π ( a | o , g ) Q n π ( s , a ) ] E π [ o n = 1 N  log  π ( a | o , g ) ( R ( s t , a t n , g n ) V π ( o t , g n ) ) ]
    Figure DE102019121717A1_0013
  • Jede Q n π ( s , a ) : = E π [ t γ t R ( s t , a t n , g n ) | s 0 = s , a 0 = a ) ]
    Figure DE102019121717A1_0014
    ist der Zustandsaktionswert, der der einzelnen Belohnung R (s, an, gn) entspricht.
  • In der zweiten Zeile der Gleichung (5) können die folgenden Approximationen vorgenommen werden:
    1. 1) zur Skalierbarkeit, Approximierung aller Q n π ( s , a )
      Figure DE102019121717A1_0015
      durch ein einzelnes Qπ (s, a, gn) mit einem zusätzlichen Eingabeziel gn statt der Verwendung von n verschiedenen Funktionsapproximatoren;
    2. 2) ohne Änderung der Erwartung, Ersetzen von Qπ (s,a, gn) mit der Vorteilsfunktion Aπ (s,a, gn):= Qπ (s,a, gn) -Qπ(s,a, gn) und Verwenden des TD-Fehlers δ t n : = R ( s t , a t n , g n ) + γ V π ( s t + 1 , g n ) V π ( s t , g n )
      Figure DE102019121717A1_0016
      als unverzerrte Schätzung des Vorteilswerts;
    3. 3) Berechnung des dezentralen Kritikers V(ot, gn) durch Vornehmen einer abschließenden Approximierung von st mit ot .
  • Parametrisiert durch θV wird der Kritiker durch Minimierung des Verlustes aktualisiert:
    Figure DE102019121717A1_0017
    wobei θ'V Parameter eines Zielnetzwerks sind, das sich allmählich zum Haupt- θV hin aktualisiert.
  • Für die globale Ansicht (z. B. zweite Ansicht) kann eine gemeinsame Belohnung R g ( s , a , g ) : = n = 1 N R ( s , a n , g n )
    Figure DE102019121717A1_0018
    definiert werden. Die gemeinsame Belohnung kann verwendet werden, um einen zentralen Kritiker anzulernen, der jeden Agenten ermutigt, zum Erfolg anderer Agenten beizutragen. Jglobal kann definiert sein als: θ J g l o b a l ( π ) = E π [ n θ  log  π n ( a n | o n , g n ) ( Q π ( s , a , g ) b ( s , a n , g ) ) ]
    Figure DE102019121717A1_0019
  • Q π ( s , a , g ) = E π [ t γ t R g ( s t , a t , g ) | s 0 = s ,  a 0 = a ) ]
    Figure DE102019121717A1_0020
    ist der zentrale Kritiker und b (s, a-n, g) kann die generalisierte kontrafaktische Basislinie mit mehreren Zielen sein: b ( s , a n , g ) : = a ^ n π n ( a ^ n | o n , g n ) Q π ( s , ( a n , a ^ n ) , g )
    Figure DE102019121717A1_0021
  • Parametrisiert durch θQ wird der zentrale Kritiker durch Minimierung des Verlustes aktualisiert:
    Figure DE102019121717A1_0022
  • In Gleichung (9) repräsentieren θ'Q und π' jeweils langsam aktualisierende Ziel Q und Zielrichtliniennetzwerke.
  • Für die kombinierte Ansicht (z. B. die dritte Ansicht) kann durch den Simulator 108 mithilfe von ∝∈ (0,1) eine Interpolation zwischen beiden Ansichten durchgeführt werden, um das Ausmaß zu bestimmen, in dem die gemeinsame Belohnung die Richtlinie jedes Agenten beeinflusst.
  • Der Gesamtrichtliniengradient ist definiert als: θ J ( π ) : = α θ J l o c a l ( π ) + ( 1 α ) θ J g l o b a l ( π )
    Figure DE102019121717A1_0023
  • Der Richtliniengradient kann als gewichtete Summenskalarisierung eines Zwei-Zielsetzungs-Optimierungsproblems betrachtet werden, dessen Pareto-Optima durch Optimierung entlang der Gleichung (10) unter Verwendung von Konvexitätsannahmen ermittelt werden können.
  • In Stufe Eins können ein Aktor π und ein dezentraler Kritiker Vπ trainiert werden, um mehrere Ziele in einer Einzel-Agent-Umgebung zu erlernen. Diese Stufe kann auf dem Einzel-Agent-Markov-Entscheidungsprozess (MDP) basieren. Der Simulator 108 kann einen Aktor π{an|on, gn) sowie einen Kritiker Vπ(on, gn) jeweils entsprechend der Richtliniengradienten- ∇Jlokal Gleichung (5) und der Verlust-
    Figure DE102019121717A1_0024
    V) Gleichung(6) trainieren. Ein Ziel kann einheitlich in jeder Trainingsepisode von G geprüft werden, da die Agenten im Verlauf des Trainings alle Ziele erlernen. Der Simulator 108 kann tiefe neuronale Netzwerke für die Funktionsapproximierung verwenden und die Eingabe in die Aktor- und Kritikernetzwerke kann den Beobachtungsvektor on des Agenten sowie einen Vektor gn, der das Ziel für eine bestimmte Episode darstellt, einschließen.
  • Der Simulator 108 kann die einfache Beobachtung machen, dass Multi-Agent-Umgebungen üblicherweise eine Zerlegung des Beobachtungsraums des Agenten in O n = O s e l f n O o t h e r s n
    Figure DE102019121717A1_0025
    erlauben, wobei o s e l f O s e l f n
    Figure DE102019121717A1_0026
    Informationen über den eigenen Status des Agenten enthält (z. B. die Position), während o o t h e r s O o t h e r s n
    Figure DE102019121717A1_0027
    die lokale Beobachtung umliegender Agenten ist und dass die Fähigkeit der Verarbeitung von oothers in Stufe Eins nicht notwendig ist. Auf diese Weise kann der Simulator 108 die Größe des Eingangsraums von π verringern und V auf ( O s e l f n , g n )
    Figure DE102019121717A1_0028
    setzen, wodurch die Anzahl der trainierbaren Parameter in Stufe Eins verringert und die Trainingsgeschwindigkeit erhöht wird. Der Simulator 108 kann diese reduzierten Aktor- und Kritikernetzwerke bis zur Konvergenz trainieren und sie jeweils als π1 und V1 bezeichnen.
  • In Stufe Zwei kann der Simulator 108 alle Agenten in das vollständige Markov-Spiel instanziieren, ausgestattet mit dem vorab trainierten π und Vπ sowie einem neuen zentralen Kritiker Q und ein weiteres Training für kooperatives Verhalten durchführen. Das Markov-Spiel kann mit der N Anzahl der Agenten instanziiert werden. Der Simulator 108 kann die zuvor trainierten π1 Parameter beibehalten, ein neues neuronales Netzwerk π2 für Agenten instanziieren, um den oothers Parameter ihrer lokalen Beobachtung zu verarbeiten und versteckte Verbindungen von der Ausgabe von π2 zu einer ausgewählten Schicht von π1 einzuführen. Genauer gesagt kann h i 1 m i
    Figure DE102019121717A1_0029
    die versteckten Aktivierungen der Schicht i ≤ L mit mi Einheiten in einer L-Schicht Darstellung des neuronalen Netzwerks von π1 definieren, die mit der Schicht i - 1 über h i 1 = f ( W i 1 h i 1 1 )  mit W i 1 m i × m i 1
    Figure DE102019121717A1_0030
    verbunden ist und die Aktivierungsfunktion aus Stufe Zwei ein K-Schicht neuronales Netzwerk π2 (oothers ) einführt, wobei die Ausgabeschicht k ∈ ℝm K eine bestimmte Schicht i* von π1 auswählt und die versteckten Aktivierungen h i 1
    Figure DE102019121717A1_0031
    erweitert, um Folgendes zu sein: h i 1 = f ( W i 1 , h i 1 1 + W 1 : 2 h K 2 ) ,  mit  W 1 : 2 m i × m K
    Figure DE102019121717A1_0032
  • Eine gleiche oder ähnliche Erweiterung kann für den Kritiker V1 unter Verwendung eines neuen neuronalen Netzwerks V2 (oothers) vorgenommen werden. Der Simulator 108 kann den zentralen Kritiker Qπ(s; a; g) instanziieren, was nicht erforderlich war und daher während der Stufe Eins nicht vorlag, und π; V; Q jeweils unter Verwendung der kombinierten Gradienten- ∇J Gleichung (10), der Verlust- (θv) Gleichung (6) und der Verlust- (θQ) Gleichung (9) trainieren. Ähnlich wie in Stufe Eins kann der Simulator 108 den Agenten Ziele zuweisen, indem er während jeder Trainingsepisode Stichproben (z. B. zufällig) aus einer Verteilung über G entnimmt. Die Verteilung kann so aufgebaut werden, dass ein ausreichendes Training für schwierige Zielkombinationen, die eine Zusammenarbeit erfordern, sowie für einfachere Kombinationen für die Erhaltung der Fähigkeit der Agenten, auf ihr Ziel hinzuwirken, sichergestellt werden.
  • Dieser zweistufige Aufbau von Aktor-Kritiker-Netzwerken mit Lernen des Lernprogramms verbessert die Lerngeschwindigkeit im Vergleich zu einem direkten Training in der vollen Multi-Agent-Umgebung. Auf diese Weise lernen CM3-Rahmenbasierte Systeme und Verfahren erheblich schneller und finden sogar erfolgreichere Richtlinien als starke Basislinien. Das zweistufige Lernprogramm und der dezentrale Kritiker erleichtern diesen Erfolg, während die globale Ansicht des Richtliniengradienten einen deutlichen Vorteil beim Finden einer kooperativen Lösung ergibt.
  • Weitere verborgene Schichten i < i*, die zur Verarbeitung von ( o s e l f n , g n )
    Figure DE102019121717A1_0033
    in Stufe Eins vortrainiert wurden, erhalten die Fähigkeit zur Verarbeitung von Prozessaufgabeninformationen, während das neue Modul den Effekt über umliegende Agenten erlernt. Höhere Schichten i ≥ i*, die zielgerichtete Aktionen in der Einzel-Agent-Umgebung der Stufe Eins erzeugen können, werden durch die kombinierten Gradienten abgestimmt, um gemeinsame Aktionen zum gemeinsamen Erfolg aller Agenten zu erzeugen.
  • 5A-5B sind ein beispielhaftes Flussdiagramm eines Verfahrens zum kooperativen Verstärkungslernen mit mehreren Zielen, mehreren Agenten und mehreren Stufen gemäß einem Gesichtspunkt. Nach einem Gesichtspunkt der vorliegenden Erfindung veranschaulicht das Verfahren der 5A-5B einen Pseudo-Code zum Implementieren eines CM3-Rahmens.
  • 6 ist ein beispielhaftes Stimulationsszenario in Verbindung mit kooperativem Verstärkungslemen mit mehreren Zielen, mehreren Agenten und mehreren Stufen gemäß einem Gesichtspunkt. In 6 ist ein Segment eines großen Straßennetzes in dem Simulator 108 dargestellt. Der Simulator 108 kann I erste Fahrspuren beginnend an der horizontalen Position xi , von denen zwei auf einen Einfädelpunkt treffen und 1 - 1 Zielspuren an der Endposition xf einschließen. In jeder Episode werden N Anzahl von Agenten bei xi auf zufällig ausgewählten ersten Spuren ausgesendet und jeder Agent n ist einer zufällig ausgewählten Zielfahrspur gn zugeordnet, die er lernen sollte, bei Position xf zu erreichen. Agenten können Beobachtungen mit einem eingeschränkten Sichtfeld empfangen, Aktionen aus einem diskreten Aktionsraum auswählen und Belohnungen gemäß sowohl der Abschluss- als auch der Momentankriterien empfangen (z. B. Erreichen des Ziels, Überschreiten der Geschwindigkeitsbegrenzung). Der Simulator 108 kann die folgenden Umgebungen definieren:
    • E1: Ein einzelner Agent auf einer ansonsten leeren Straße lernt, jede Zielspur von jeder beliebigen Anfangsspur aus zu erreichen. Dies wird für die erste Stufe von CM3 verwendet, die die Anfangsnetzwerke π1 und V1 mit der Zielsetzung Jlocal trainiert.
    • E2: N = 4 Agenten werden zufällig initialisiert: mit einer Wahrscheinlichkeit von 0,8 werden Anfangs- und Zielspuren so festgelegt, so ein doppeltes Einfädeln auftritt; mit einer Wahrscheinlichkeit von 0,2 werden Anfangs- und Zielspuren einheitlich abgetastet. Die vollständige Stufe Zwei-Architektur von CM3 wird in E2 trainiert.
    • E2+: dient zum Testen der Verallgemeinerung, wobei die von dem Verkehrssimulator gesteuerten Fahrzeuge mit einer Wahrscheinlichkeit von 0,5/sek. ausgesendet werden.
  • Gemäß einem Gesichtspunkt kann der Simulator 108 Stufe Eins in E1 trainieren, gefolgt von einem Training der Stufe Zwei bei E2. Gemäß einem anderen Gesichtspunkt können Konkurrenzverfahren direkt in E2 trainiert werden (z. B. in denen Fahrzeuge oder Agenten konkurrieren können statt zu kooperieren).
  • Der Simulator 108 kann eingerichtet sein, um eine gerade Straße mit einer Gesamtlänge zu simulieren, einschließlich einer oder mehreren Spuren und einer Einfädelspur. Fahrzeuge auf der Einfädelspur können in der Lage sein, sich innerhalb eines Einfädelfensters auf den Hauptspuren einzufädeln, und die Einfädelspur kann bei einer vorbestimmten Länge enden. Die Fahrspuren können eine Breite aufweisen, und Fahrzeuge können entlang irgendeiner von vier Unterspuren innerhalb einer Fahrspur mit einem seitlichen Abstand ausgerichtet sein. Die Geschwindigkeitsbegrenzung kann auf eine vorbestimmte Geschwindigkeit eingestellt werden. In E2+ können die Verkehrssimulator-gesteuerten Personenkraftwagen und Lastkraftwagen (z. B. Typ Lastzug), die sich gemäß dem Krauss-Autofolgemodell verhalten, mit einer vorbestimmten Wahrscheinlichkeit pro Sekunde auf Hauptspuren ausgesendet werden. Die Simulationszeitauflösung kann auf eine Simulationsschrittzeit eingestellt werden.
  • Gemäß einem Gesichtspunkt können in E1 die Anfangsspur und die Zielspur des einzelnen Agenten zufällig aus gleichförmigen Verteilungen über die Anzahl von Start- und Endspuren abgetastet werden. In E2 können mit einer Wahrscheinlichkeit von 0:2, alle Anfangs- und Zielspuren der Agenten unabhängig von der einheitlichen Verteilung über die Anzahl von Start- und Endspuren abgetastet werden; mit einer Wahrscheinlichkeit von 0:8 wurden die Agenten [1,2,3,4] mit ersten Spuren [2,2,3,3] und Zielspuren [4,4,0,0] initialisiert. Abfahrtszeiten können aus normalen Verteilungen mit einem Durchschnitt [0; 2; 0; 2] und Standardabweichung 0,2 s bezogen werden.
  • Lokale Beobachtung
  • Gemäß einem Gesichtspunkt kann die lokale Beobachtung jedes Agenten-Fahrzeugs zwei Parameter einschließen. Der erste Parameter bezieht sich auf ihn selbst, wird in allen Trainingsstufen verwendet und kann ein Vektor einschließlich der normalisierten Geschwindigkeit des Agenten, einer normalisierte Anzahl von Unterspuren zwischen der aktuellen Unterspur des Agenten und der mittleren Unterspur der Zielspur, einer normalisierten Längendistanz bis zur Zielposition, einem binären Indikator dafür, dass man sich auf der Einfädelspur befindet und einer normalisierten Distanz zu dem nächsten Segment auf der Straße (mithilfe von vordefinierten Segmentgrenzen) sein.
  • Gemäß einem anderen Aspekt kann der zweite Parameter ein diskretisiertes Beobachtungsgitter sein, das auf den Agenten zentriert ist, einschließlich von vier Kanälen: binäre Anzeige der Fahrzeugbelegung, normalisierte relative Geschwindigkeit zwischen dem anderen Fahrzeug und dem Agenten, binäre Anzeige des Fahrzeugtyps als Personenkraftwagen, binär Anzeige des Fahrzeugtyps als Lastwagen.
  • Globaler Zustand
  • Die globalen Zustandsvektoren können die Verkettung o s e l f 1 , , o s e l f N
    Figure DE102019121717A1_0034
    aller Beobachtungsparameter o s e l f n
    Figure DE102019121717A1_0035
    aller Agenten sein.
  • Ziele
  • Jeder Zielvektor gn kann ein 1-aus-n-Längenvektor sein, der die Zielspur angibt, bei der der Agent n ankommen sollte, nachdem er die vorbestimmte Position x erreicht hat. Ziele können für alle Agenten bei jeder Folge zufällig abgetastet werden.
  • Aktionen
  • Alle Agenten verfügen über den gleichen diskreten Aktionsraum, einschließlich von fünf Optionen: eine Nicht-Handlungs-Aktion (z. B. Beibehalten der aktuellen Geschwindigkeit und Fahrspur), Beschleunigen, Abbremsen, Wechsel der Fahrspur um eine Unterspur nach links, Wechsel der Fahrspur um eine Unterspur nach rechts. Jede Aktion des Agenten an kann als ein 1-aus-n-Vektor einer vorbestimmten Länge dargestellt werden.
  • Individuelle Belohnungen
  • Gemäß einem Gesichtspunkt kann die Belohnung R ( s t , a t n , g n ) ; gn )
    Figure DE102019121717A1_0036
    für Agent n mit Ziel gn entsprechend den folgenden Bedingungen gegeben sein:
    • -10 für eine Kollision (gefolgt von Beendigung der Episode)
    • -10 für Zeitüberschreitung (überschreiten von 120 Simulationsschritten während der Episode) +10(1-Δ) für das Erreichen des Endes der Straße und mit einer normalisierten Unterspurdifferenz von der Mitte der Zielspur
    • -5 für das Einfahren in die Einfädelspur von einer anderen Spur während 200 m < x < 400 m
    • -0,5 für das Befinden in der Einfädelspur während 200 m < x < 400 m
    • -0,1, wenn die aktuelle Geschwindigkeit 35,7 m/s überschreitet
  • Geteilte globale Belohnung
  • Gemäß einem Gesichtspunkt kann eine geteilte globale Belohnung Rg(st; at; g) bestimmt werden durch:
    • -10 wenn eine Kollision aufgetreten ist; und
    dem Durchschnitt aller individueller Belohnungen von Agenten, die das Ende der Straße zum Zeitpunkt t erreicht haben.
  • Architektur
  • Gemäß einem Gesichtspunkt speist das Richtliniennetzwerk π1 während der Stufe Eins jeden der Eingänge oself und gn zu einer vollständig verbundenen Schicht mit 32 Einheiten. Die Verkettung kann vollständig mit einer Schicht h π 1
    Figure DE102019121717A1_0037
    mit 64 Einheiten verbunden sein und vollständig mit einer Softmax-Ausgangsschicht mit 5 Einheiten verbunden sein, die jeweils einer einzelnen Aktion entsprechen. In Stufe Zwei kann das Eingabebeobachtungsgitter oothers durch eine Faltungsschicht mit 4 Filtern der Größe 5x3 und der Schrittweite 1×1 verarbeitet, abgeflacht und vollständig mit einer Schicht mit 64 Einheiten verbunden werden und dann vollständig mit der Schicht h π 1
    Figure DE102019121717A1_0038
    von π1 verbunden werden. Die Nichtlinearität der ReLU kann für alle verborgenen Schichten verwendet werden. Aktionswahrscheinlichkeiten werden durch Niedrigbegrenzen der Softmax-Ausgaben über Pr(an = i) = (1 - ∈)softmax(i) + ∈/|A| berechnet, wobei ε ein abklingender Erkundungsparameter und |A| = 5 ist.
  • Der dezentrale Kritiker V1 kann während der Stufe Eins jede der Eingaben oself und gn in eine vollständig verbundene Schicht mit 32 Einheiten einspeisen. Die Verkettung kann vollständig mit der linearen Ausgangsschicht hV1_ mit einer einzelnen Einheit verbunden sein. In Stufe Zwei kann das Eingabebeobachtungsgitter oothers durch eine Faltungsschicht 13 mit 4 Filtern der Größe 5x3 und der Schrittweite 1×1 verarbeitet, abgeflacht und vollständig mit einer Schicht mit 32 Einheiten verbunden werden und dann vollständig mit der Ausgangsschicht h V 1  von  V 1
    Figure DE102019121717A1_0039
    verbunden werden. Die Nichtlinearität der ReLU kann für alle verborgenen Schichten verwendet werden.
  • Der zentrale Kritiker Q (s, a, g) kann die Eingabe (s, a-n, gn, g-n, n) empfangen, die mit zwei vollständig verbundenen Schichten mit 128 Einheiten und ReLU-Aktivierung verbunden ist sowie vollständig mit einer linearen Ausgangsschicht mit 5 Einheiten verbunden ist. Der Wert jedes Knotens i kann als der Aktionswert Q(s, a-n, an = i, g) für den die Aktion i ergreifenden Agent n und alle übrigen Agenten interpretiert werden, die die Aktion a-n ergreifen. Der Agentbeschriftungsvektor n ist ein 1-aus-n-Indikatorvektor, der als Eingabe zur Unterscheidung zwischen den Bewertungen der Q-Funktion für verschiedene Agenten verwendet wird.
  • Die Doppelwiedergabepuffer B1 und B2 können als Heuristik verwendet werden, um die Trainingsstabilität für alle Algorithmen auf Stufe 2 zu verbessern. Anstelle eines sofortigen Speicherns jedes Umgebungsübergangs kann ein zusätzlicher Episodenpuffer verwendet werden, um alle Übergänge zu speichern, auf die während jeder Episode gestoßen wird. Am Ende jeder Episode kann die kumulative Belohnung aller Agenten mit einem Schwellenwert verglichen werden (z. B. 32), um zu bestimmen, ob die Übergänge in dem Episodenpuffer in B1 oder B2 . Gespeichert werden sollen. Für das Training wird jeweils die Hälfte der Minicharge aus B1 und B2 abgetastet.
  • 7-8 sind beispielhafte Leistungsergebnisse in Verbindung mit kooperativem Verstärkungslemen mit mehreren Zielen, mehreren Agenten und mehreren Stufen gemäß einem Gesichtspunkt. Wie in 7 zu sehen ist, konvergierte CM3 mehr als 45.000 Episoden früher zu einer höheren Leistung als andere Techniken in E2. In 8 ist zu sehen, dass eine Richtlinie, die durch ein auf CM3-Rahmen-basiertes System oder Verfahren gelernt wird, besser zu E2+ verallgemeinert.
  • 9 ist ein beispielhaftes Stimulationsszenario in Verbindung mit kooperativem Verstärkungslemen mit mehreren Zielen, mehreren Agenten und mehreren Stufen gemäß einem Gesichtspunkt. In 9 erfordert eine erste Spurkonfiguration in Zusammenhang mit E2, dass Agenten eine doppelte Einfädelung oder einen doppelten Spurwechsel durchführen, um ihre Zielspur zu erreichen.
  • 10 ist eine beispielhafte Belohnung im Vergleich zum Episodengraph in den Einzel-Agent-Umgebung E1 gemäß einem Gesichtspunkt.
  • Autonome Generierung von Fahrzeugrichtlinien auf der Grundlage von Maskierung
  • 11 ist ein Komponentendiagramm eines autonomen Systems zur Generierung von Fahrzeugrichtlinien 1100 gemäß einem Gesichtspunkt. Das System 100 für CM3-Verstärkungslemen kann eine oder mehrere der Komponenten oder das gesamte autonomen Systems zur Generierung von Fahrzeugrichtlinien 1100 aus 11 einschließen. Das autonome System zur Generierung von Fahrzeugrichtlinien 1100 kann einen Prozessor 1102, einen Speicher 1104, ein Speicherlaufwerk 1106, einen Zustandseingabegenerator 1108, einen Verkehrssimulator 1112, einen Q-Maskierer 1114, und einen Aktionsgenerator 1116 einschließen. Der Zustandseingabegenerator 1108, der Verkehrssimulator 1112, der Q-Maskierer 1114 und der Aktionsgenerator 1116 können durch den Prozessor 1102, den Speicher 1104 und/oder das Speicherlaufwerk 1106 implementiert werden.
  • Das autonome System zur Generierung von Fahrzeugrichtlinien 1100 kann durch Simulation und durch Q-Maskierung eine autonome Fahrzeugrichtlinie für das Fahrzeug 170 erzeugen, die die autonome Fahrzeugrichtlinie beispielsweise unter Verwendung des Steuergeräts 176 des Fahrzeugs 170 implementieren kann.
  • Der Zustandseingabegenerator 1108 kann Zustandsinformationen bestimmen oder erzeugen, die dem autonomen Fahrzeug zugeordnet sind, wie simuliert. Mit anderen Worten ist der Zustandseingabegenerator 1108 dafür verantwortlich, Eingaben für ein Netzwerk zu bestimmen, das mit der Generierung einer autonomen Fahrzeugrichtlinie verbunden ist. Beispiele dieser Eingaben können den Zustand des simulierten autonomen Fahrzeugs einschließen, einschließlich interner Zustandsinformationen des simulierten autonomen Fahrzeugs (z. B. einer Geschwindigkeit oder einer aktuellen Geschwindigkeit, die dem simulierten autonomen Fahrzeug zugeordnet ist) und Statusinformationen außerhalb des simulierten autonomen Fahrzeugs (z. B. eine Spurposition oder eine dem simulierten autonomen Fahrzeug zugeordnete Spurposition, und eine Distanz zu einem Ziel, wie beispielsweise einem gewünschtes Zielort). Das Ziel muss nicht notwendigerweise ein endgültiger Zielort sein, sondern kann beispielsweise ein Wegpunktziel entlang einer Route sein. Der Verkehrssimulator 1112 kann die Simulationsumgebung simulieren, die das simulierte autonome Fahrzeug und ein oder mehrere andere Fahrzeuge (z. B. ein erstes Fahrzeug, ein zweites Fahrzeug, ein drittes Fahrzeug usw.) innerhalb der Simulationsumgebung einschließt. Der Verkehrs simulator 1112 kann dazu konfiguriert sein, die anderen Fahrzeuge zu steuern, um eine Geschwindigkeit innerhalb eines Bereichs aufrechtzuerhalten.
  • Gemäß einem Gesichtspunkt kann der Verkehrssimulator 1112 der Simulator 108 des Systems 100 für die CM3-Verstärkung aus 1 sein. Darüber hinaus können der Prozessor 1102 und der Speicher 1104 die gleichen sein wie der Prozessor 102 und der Speicher 104 aus dem System 100 für die CM3-Verstärkung aus 1.
  • Da der Abstand zu dem Ziel als eine Eingabe für den Verkehrssimulator 1112 betrachtet werden kann, können Schlussfolgerungen über langfristige Entscheidungen auf einer strategischen Ebene in Betracht gezogen werden, wenn sie in einem Fahrszenario vorhanden sind, wie beispielsweise einer mehrspurigen Straße im Verkehr.
  • Gemäß einem Gesichtspunkt steuert der Verkehrssimulator 1112 die anderen Fahrzeuge innerhalb der Simulationsumgebung, um Kollisionen miteinander zu vermeiden, aber nicht mit dem simulierten autonomen Fahrzeug (z. B. dem Agenten). Der Q-Maskierer 1114 kann über ein untergeordnetes Steuergerät implementiert werden und Teil eines tiefen Q-Lernsystems sein, das Richtlinien erlernt, die es dem autonomen Fahrzeug ermöglichen, Entscheidungen auf taktischer Ebene zu treffen. Das tiefe Q-Lernsystem kann eine Abbildung zwischen Zuständen und Q-Werten erlernen, die jeder möglichen Aktion zugeordnet sind. Anders gesagt, würde der Verkehrssimulator 1112 unter Verwendung des tiefen Q-Lernsystems und ohne Anwendung des Q-Maskierers 1114 damit fortfahren, alle möglichen Aktionen für jeden Zeitrahmen zu simulieren, was einen großen Teil der Rechenleistung des Prozessors 1102 und des Speicher 1104 verwenden würde. Daher kann es bei großen Netzwerken schwierig sein, eine umfassende Richtlinie zu erlernen, bei der jede einzelne Aktion erkundet wird.
  • In einem Q-Lernnetzwerk kann eine Zuordnung zwischen Zuständen und Q-Werten, die jeder Aktion zugeordnet sind, erlernt werden. Gemäß einem Aspekt kann die Q-Maskierung in Form einer Maske, die auf die ausgegebenen Q-Werte angewendet wird, angewendet werden, bevor ein Maximal- (oder Softmax-) Operator auf die Ausgabeschicht der Q-Werte angewendet wird, um die „besten“ Aktion auszuwählen. In dieser Hinsicht besteht die direkte Wirkung des Q-Maskierers 1114 darin, dass, wenn die maximale Operation ausgeführt wird, um die „beste“ Aktion auszuwählen, nur die Q-Werte in Betracht gezogen werden, die einer Teilmenge der Aktionen zugeordnet sind, die von einem niedrigeren Modul bestimmt werden.
  • Somit kann der Q-Maskierer 1114 eine Teilmenge von ausgegebenen Q-Werten, die durch den Verkehrssimulator 1112 simuliert werden sollen, maskieren. Daher werden nur die mit einer verbleibenden Teilmenge von Aktionen verknüpften Q-Werte durch den Verkehrssimulator 1112 während der Simulation berücksichtigt, wodurch die Menge an Verarbeitungsleistung und/oder Rechenressourcen, die während der Simulation und des Trainings des autonomen Fahrzeugs bei der autonomen Generierung von Fahrzeugrichtlinien verwendet werden, abgeschwächt wird. Basierend auf der verbleibenden Teilmenge von Aktionen (z. B. einem Satz von möglichen Aktionen, der Teilmenge von Aktionen mit Ausnahme der maskierten Teilmenge), kann der Aktionsgenerator 1116 die übrigen Aktionen untersuchen und die autonome Fahrzeugrichtlinie entsprechend bestimmen. Dies kann über ein oder mehrere Zeitintervalle wiederholt werden. Der Q-Maskierer 1114 kann so das simulierte autonome Fahrzeug dazu „zwingen“, nur die nicht maskierten Zustände zu erkunden und somit nur eine Teilmenge des Raumes von assoziierten Q-Werten zu erlernen (was den langfristigen Ertrag einer Aktion (α) unter der Richtlinie (π) in Zustand (s) angibt).
  • Noch detaillierter kann der Zustandseingabegenerator 1108 einen Satz von Attributen erzeugen, die einem autonomen Fahrzeug zugeordnet sind, das gerade trainiert wird (z. B. das simulierte autonome Fahrzeug). Zum Beispiel kann der Satz von Attributen die aktuelle Geschwindigkeit v, die dem autonomen Fahrzeug zugeordnet ist, einer Spurposition I, die dem autonomen Fahrzeug zugeordnet ist, und eine Distanz d2g von dem autonomen Fahrzeug zu einem Ziel, das ein gewünschter Zielort sein kann, einschließen. Außerdem kann der Satz von Attributen oder die Positionsinformationen, die dem Fahrzeug zugeordnet sind, als ein Belegungsraster dargestellt werden. Der Satz von Attributen kann eine Zustandsinformation sein, die indikativ oder repräsentativ für einen Zustand (S) oder ein Szenario ist, das dem autonomen Fahrzeug zugeordnet ist. Zum Beispiel können Informationen wie beispielsweise eine angezeigte Geschwindigkeitsbegrenzung oder minimale und maximale Geschwindigkeitsbegrenzungen νmin und νmax basierend auf der Position oder dem Standort des autonomen Fahrzeugs bestimmt werden.
  • Der Verkehrssimulator 1112 kann eine Simulationsumgebung simulieren, die das autonome Fahrzeug, eine Fahrbahn, die einer Anzahl von Fahrspuren zugeordnet ist, und ein oder mehrere andere Fahrzeuge innerhalb der Simulationsumgebung einschließt. Der Verkehrssimulator 1112 kann Verkehr mit einer Verkehrsdichte erzeugen und jeder Spur kann eine Wahrscheinlichkeit Plane zum Aussenden eines Fahrzeugs an einer Startposition in einem Zeitspanne zugewiesen sein, wobei dem anderen Fahrzeug eine beliebigen Startgeschwindigkeit, eine beliebige Zielgeschwindigkeit und eine Bereich zugeordnet sein kann, innerhalb dessen es sich von der zufälligen Zielgeschwindigkeit halten soll. Der Verkehrssimulator 1112 kann Modelle verwenden, die die anderen Fahrzeuge steuern, um Kollisionen miteinander zu vermeiden, nicht jedoch das simulierte autonome Fahrzeug. Gemäß einem Gesichtspunkt steuert der Verkehrssimulator 1112 nicht das simulierte autonome Fahrzeug, sondern steuert lediglich die anderen Fahrzeuge innerhalb der Simulationsumgebung, um einzig Kollisionen dieser miteinander (und nicht mit dem simulierten autonomen Fahrzeug) zu vermeiden.
  • Der Verkehrssimulator 1112 kann ein tiefes Q-Lernsystem sein, das Verstärkungslemen basierend auf den erzeugten Zustandseingabeattributen für das simulierte autonome Fahrzeug und die durch den Verkehrssimulator 1112 bereitgestellte Simulationsumgebung realisiert. Innerhalb der durch den Verkehrssimulator 1112 verwalteten Simulationsumgebung kann das simulierte autonome Fahrzeug ein Agent sein, der simulierte Aktionen aus dem Satz von möglichen Aktionen ergreifen kann. Der Satz möglicher Aktionen kann als der Aktionssatz (A) bekannt sein. Zum Beispiel schließt der Satz möglicher Aktionen für das autonome Fahrzeug ein autonomes Fahrmanöver ein, bei dem während eines Zeitintervalls die dem autonomen Fahrzeug zugeordnete aktuelle Geschwindigkeit beibehalten, beschleunigt, abgebremst, ein Spurwechsel nach rechts oder ein Spurwechsel nach links durchgeführt wird.
  • Die Simulationsumgebung kann die Welt oder die Umgebung sein, durch die sich das simulierte autonome Fahrzeug bewegt. Der Verkehrssimulator 1112 simuliert die simulierte Umgebung und verwendet den aktuellen Zustand und die Aktion des simulierten autonomen Fahrzeugs (z. B. für ein vorgegebenes Zeitintervall) als eine Eingabe und gibt die Belohnung des simulierten autonomen Fahrzeug, unten beschrieben, sowie den nächsten Zustand als eine Ausgabe aus. Zum Beispiel kann der Verkehrssimulator 1112 den aktuellen Zustand des Fahrzeugs (z. B. 50 Meilen pro Stunde) und die Aktion (z. B. Verzögerung) nehmen und die Gesetze der Physik anwenden, um den nächsten Zustand des simulierten autonomen Fahrzeugs (z. B. 45 Meilen pro Stunde) zu bestimmen.
  • Der Verkehrssimulator 1112 kann eine Belohnungsfunktion (R) verwenden, die eine Funktion sein kann, die eine ergriffene (z. B. simulierte) Aktion bewertet. Anders ausgedrückt kann die Belohnungsfunktion verwendet werden, um Erfolg oder Misserfolg zu messen. Wenn das simulierte autonome Fahrzeug beispielsweise ein Ziel verfehlt (z. B. den gewünschten Zielort) oder in eine Kollision verwickelt ist, kann die Belohnungsfunktion die simulierte Aktion, die zu dem aktuellen Zustand geführt hat (z. B. dem verpassten Ziel oder der Kollision) bestrafen. Umgekehrt kann die Belohnungsfunktion basierend auf der schnellsten Zeit oder der schnellsten Route zu dem Ziel Belohnungen vergeben. Belohnungen können basierend auf der Belohnungsfunktion sofort bereitgestellt oder verzögert werden. Die Belohnungen, die durch die Belohnungsfunktion bereitgestellt werden, ermöglichen das Verstärkungslemen auf der Grundlage eines vorgegebenen Ziels (z. B. Erreichen einer Ausfahrt).
  • Ein Diskontfaktor (γ) kann mit zukünftigen Belohnungen multipliziert werden, damit Kurzzeitentscheidungen mehr wiegen als langfristige Belohnungen. Mit anderen Worten kann der Diskontfaktor dazu verwendet werden, zu bestimmen, das zukünftige Belohnungen weniger wert sind als sofortige Belohnungen. In dieser Hinsicht kann ein Wert (V) ein erwarteter langfristiger Ertrag sein, der die Auswirkungen des Diskonts einschließt. Ein Q-Wert (Q) kann ein Aktionswert sein, der den langfristigen Ertrag einer Aktion (A) unter der Richtlinie (π) für den Zustand (s) angibt. Eine Trajektorie kann eine Sequenz von Zuständen und/oder Aktionen sein, die diese Zustände einschließt. Eine Richtlinie (n) oder eine autonomen Fahrzeugrichtlinie kann eine Strategie sein, die der Aktionsgenerator 1116 verwendet oder anwendet, um die nächste Aktion für das autonome Fahrzeug basierend auf dem aktuellen Zustand zu bestimmen (z. B. wie durch den Satz von Attributen angegeben, die dem autonomen Fahrzeug zugeordnet sind).
  • Gemäß einem Gesichtspunkt kann die Belohnungsfunktion sein: r T = { + 10 l = 0 ; A u s f a h r t   e r r e i c h t 10 × l l 0 ; A u s f a h r t   v e r p a s s t ,
    Figure DE102019121717A1_0040
    wobei l die Fahrspur ist, in der das simulierte autonome Fahrzeug sich in einer Zieldistanz D von einer Startposition befindet.
  • Somit wird gemäß dieser Belohnungsfunktion eine positive End-Belohnung für den Erfolg (z. B. Erreichen des Ziels) und eine zunehmend negative End-Belohnung gegeben, je weiter das simulierte autonome Fahrzeug am Ende von der dem Ziel zugeordneten Spur entfernt ist. Der Diskontaktor kann das simulierte autonome Fahrzeug dazu anregen, das Ziel in kürzester Zeit oder in der kleinsten Anzahl von Zeitintervallen zu erreichen (d. h. eine höhere Durchschnittsgeschwindigkeit aufrechtzuerhalten). Da Kollisionen ferner während des Trainings niemals erlaubt sind, muss die Belohnungsfunktion Kollisionen nicht berücksichtigen, wodurch die Belohnungsfunktion vereinfacht wird.
  • Zum Beispiel kann der Q-Maskierer 1114 in einem gegebenen Zustand jede Menge von Aktionen, die der Agent oder das simulierte autonome Fahrzeug nicht erkunden müssen oder aus deren Ergebnissen sie nicht lernen müssen, einschränken oder auf andere Weise „maskieren“. Mit anderen Worten, wenn sich das simulierte autonome Fahrzeug auf der äußersten linken Fahrspur befindet, würde eine Aktion wie ein Spurwechsel nach links zum Verlassen der Autobahn führen. Daher kann der Q-Maskierer 1114 eine Maske auf den der Spurwechsel-Aktion nach links zugeordneten Q-Wert legen, so dass die Aktion zum Spurwechsel nach links in einem solchen Zustand niemals ausgewählt wird. Dies ermöglicht, dass Vorkenntnisse über das System (d. h., Autobahnrandstreifen in diesem Beispiel) direkt in den Lernprozess einbezogen werden. Eine negative Belohnung für das Verlassen der Autobahn muss jedoch nicht eingerichtet werden, wodurch die Belohnungsfunktion vereinfacht wird.
  • Da der Aktionsgenerator 1116 diese Zustände nicht untersucht, wird auch das Lernen selbst schneller und effizienter. Was der Aktionsgenerator 1116 schließlich lernt, ist vielmehr eine Teilmenge des tatsächlichen Raums von Q-Werten und nicht die gesamte Menge. Auf eine ähnliche Art und Weise können auch Einschränkungen des Systems berücksichtigt werden. Wenn das autonome Fahrzeug beispielsweise mit der Maximalgeschwindigkeit νmax fährt, kann die Beschleunigungs-Aktion maskiert werden (oder wenn mit der Minimalgeschwindigkeit νmin gefahren wird, kann die Brems-Aktion maskiert werden). Auf diese Weise muss der Aktionsgenerator 1116 keine Zeit dafür aufbringen, die Geschwindigkeitsbegrenzungen der Autobahn oder Fahrbahn zu lernen.
  • Der Q-Maskierer 1114 kann eine Maske bestimmen, die auf eine Teilmenge des Satzes möglicher Aktionen für das autonome Fahrzeug für ein Zeitintervall anzuwenden ist. Diese maskierten Sätze von Aktionen werden vom Aktionsgenerator 1116 nicht untersucht oder berücksichtigt, wodurch die Menge an Rechenressourcen (z. B. Verarbeitungsleistung, Arbeitsspeicher, Massenspeicher usw.), die von einem System zur autonomen Generierung von Fahrzeugrichtlinien verwendet werden, verringert wird.
  • Gemäß einem Gesichtspunkt kann der Q-Maskierer 1114 die anzuwendende Maske auf der Grundlage von Vorwissen, einer oder mehreren Verkehrsregeln, Einschränkungen oder Informationen von der untergeordneten Steuerung oder einer dem autonomen Fahrzeug zugeordneten Fähigkeit bestimmen. Das Vorwissen kann auf vordefinierte zulässige Interaktionen zwischen dem autonomen Fahrzeug und der Simulationsumgebung oder zwischen dem autonomen Fahrzeug und anderen Fahrzeugen innerhalb der Simulationsumgebung hinweisen. Anders ausgedrückt kann der Q-Maskierer 1114 Vorkenntnisse nutzen, um Aktionen zu maskieren, die zu Kollisionen zwischen dem simulierten autonomen Fahrzeug und anderen Fahrzeugen führen können, die Zeit bis zur Kollision (TTC) verlängern, bewirken, dass das simulierte autonome Fahrzeug von der Fahrbahn abweicht oder außerhalb eines gewünschten Betriebsschwellenwerts oder -bereichs fällt.
  • Die Verkehrsregel kann basierend auf dem Standort oder der aktuellen Position des Fahrzeugs zulässige Fahrmanöver anzeigen. Zum Beispiel kann die Verkehrsregel eine maximale Geschwindigkeitsgrenze, eine minimale Geschwindigkeitsgrenze, höfliches Fahrverhalten, wie kein Ausscheren, kein doppelter Spurwechsel ohne Pause dazwischen, das Nicht-Durchführen von Fahrmanövern, die andere Fahrer „schneiden“ würden usw. einschließen. Mit anderen Worten kann der Q-Maskierer 1114 basierend auf der Verkehrsregel die maskierte Teilmenge von Aktionen bestimmen, die das Beschleunigen einschließt, wenn die aktuelle Geschwindigkeit, die dem autonomen Fahrzeug zugeordnet ist, höher ist als eine Geschwindigkeitsbegrenzung, die der Fahrbahn zugeordnet ist, und die das Bremsen einschließt, wenn die dem autonomen Fahrzeug zugeordnete aktuelle Geschwindigkeit unterhalb der Mindestgeschwindigkeit liegt, die einer Fahrbahn zugeordnet ist. Auf diese Art und Weise würden Beschleunigungs- und Brems-Aktionen, die minimale und maximale Geschwindigkeitsbegrenzungen von νmin und νmax verletzen würden, durch den Q-Maskierer 1114 maskiert.
  • Weitere Verkehrsregeln können das Nicht-Weiterleiten einer Doppelspurmarkierung einschließen. Zum Beispiel kann der Q-Maskierer 1114 basierend auf der Verkehrsregel bestimmen, dass die maskierte Teilmenge von Aktionen ein autonomes Fahrmanöver zum Durchführen eines Spurwechsels nach rechts einschließt, wenn das autonome Fahrzeug direkt rechts von Doppelspurmarkierungen der Fahrbahn positioniert ist und ein autonomes Fahrmanöver zum Durchführen eines Spurwechsels nach links einschließt, wenn das autonome Fahrzeug direkt links von Doppelspurmarkierungen der Fahrbahn positioniert ist.
  • Außerdem kann die dem autonomen Fahrzeug zugeordnete Fähigkeit auf physikalisch mögliche Fahrmanöver hinweisen, die dem autonomen Fahrzeug zugeordnet sind. Wenn das autonome Fahrzeug beispielsweise bereits mit Höchstgeschwindigkeit fährt, ist möglicherweise kein Beschleunigen mehr möglich und deswegen kann die Beschleunigungs-Aktion durch den Q-Maskierer 1114 maskiert werden. Als weiteres Beispiel kann es möglicherweise, wenn das Fahrzeug mit einer Betriebsgeschwindigkeit betrieben wird, nicht wünschenswert sein, eine starke Brems-Aktion auszuführen, aufgrund der Auswirkungen, die diese auf den Fahrkomfort hätte. Dies kann von dem Q-Maskierer 1114 als eine Beschleunigungs- oder Bremsschwellenwert angewendet werden, so dass Aktionen, die von dem autonomen Fahrzeug ergriffen werden, diese Beschleunigungs- oder Bremsschwellenwerte in den meisten Szenarien nicht überschreiten.
  • In einigen Szenarien, wie beispielsweise einem Szenario zum Verhindern oder Abschwächen einer Kollision, kann der Q-Maskierer 1114 jedoch zulassen, dass der Beschleunigungs- oder Bremsschwellenwert überschritten wird. Auf diese Art und Weise kann der Q-Maskierer 1114 Schwellenwerte auf eine szenariospezifische Art und Weise implementieren. Anders ausgedrückt kann der Q-Maskierer 1114 eine oder mehrere Kinematikregeln verwenden, um ein Niveau maximaler Beschleunigungen oder Verzögerungen anzuwenden, damit sich die Fahrt komfortabler anfühlt, während die Sicherheit der Passagiere berücksichtigt wird (z. B. kann diese Schwelle überschritten werden, um eine Kollisionen zu vermeiden). Ferner können unterschiedliche Kinematikregeln basierend auf der gegenwärtigen Geschwindigkeit, der gegenwärtigen Position, der aktuellen Beschleunigung usw. des Fahrzeugs implementiert werden. Zum Beispiel kann der Beschleunigungsschwellenwert bei einem fahrenden Fahrzeug größer sein als bei einem stehenden Fahrzeug.
  • Andere Beispiele von Aktionen, die durch den Q-Maskierer 1114 maskiert werden können, schließen Spurwechsel ein, die dazu führen würden, dass das autonome Fahrzeug die Fahrbahn verlässt. Anders ausgedrückt kann der Q-Maskierer 1114 basierend auf den Vorkenntnissen bestimmen, dass die maskierte Teilmenge von Aktionen ein autonomes Fahrmanöver zum Durchführen eines Spurwechsels nach rechts einschließt, wenn sich das autonome Fahrzeug auf der am weitesten rechts befindlichen Spur der Fahrbahn befindet und ein autonomes Fahrmanöver zum Durchführen eines Spurwechsels nach links einschließt, wenn sich das autonome Fahrzeug auf der am weitesten links befindlichen Spur der Fahrbahn befindet.
  • In ähnlicher Weise kann der Q-Maskierer 1114 Aktionen maskieren, die mit dem Beschleunigen oder Abbremsen in ein anderes Fahrzeug verbunden sind. Beispielsweise kann der Q-Maskierer 1114 basierend auf den Vorkenntnissen bestimmen, dass die maskierte Teilmenge von Aktionen ein autonomes Fahrmanöver des Beschleunigens einschließt, wenn das autonome Fahrzeug in einer ersten Schwellendistanz hinter dem anderen Fahrzeug positioniert ist, wenn sich sowohl das autonome Fahrzeug als auch das andere Fahrzeug in derselben Spur befinden und ein autonomes Fahrmanöver des Bremsens einschließt, wenn das autonome Fahrzeug in einer zweiten Schwellendistanz vor dem anderen Fahrzeug positioniert ist, wenn sich sowohl das autonome Fahrzeug als auch das andere Fahrzeug auf derselben Fahrspur befinden.
  • Nach einem anderen Gesichtspunkt kann der Q-Maskierer 1114 Aktionen des simulierten autonomen Fahrzeugs basierend auf anderen Schwellenwerten maskieren (z. B. keine Spurwechsel basierend auf einer Spurwechsel-Schwellenwertdistanz oder keine Aktionen, die mit dem Verringern einer Zeit-bis-zur-Kollision-Schätzung (TTC) in Zusammenhang stehen, in einigen Szenarien). Beispielsweise kann der Q-Maskierer 1114 basierend auf den Vorkenntnissen bestimmen, dass die maskierte Teilmenge von Aktionen ein autonomes Fahrmanöver eines Spurwechsels nach links einschließt, wenn sich das autonome Fahrzeug auf der rechten Seite und innerhalb einer Spurwechsel-Schwellenwertdistanz von dem anderen Fahrzeug befindet und ein autonomes Fahrmanöver eines Spurwechsels nach rechts einschließt, wenn das autonome Fahrzeug sich auf der linken Seite und innerhalb einer Spurwechsel-Schwellenwertdistanz von dem anderen Fahrzeug befindet. Der Q-Maskierer 1114 kann basierend auf den Vorkenntnissen bestimmen, dass die maskierte Teilmenge von Aktionen eine beliebiges Fahrmanöver einschließt, dass einer erwarteten Verringerung mit einer TTC-Schätzung zwischen dem autonomen Fahrzeug und dem anderen Fahrzeug zugeordnet ist, wenn die TTC-Schätzung unter einem Schwellenwert-TTC-Wert liegt.
  • Auf diese Art und Weise bietet der Q-Maskierer 1114 viele Vorteile und/oder Vorzüge. Beispielsweise kann die Belohnungsfunktion unter Verwendung von „Q-Maskieren“ vereinfacht werden, wodurch das Tiefen-Q-Lernen schneller und effizienter gestaltet wird. Anders ausgedrückt kann die Belohnungsfunktion vereinfacht werden, indem Vorkenntnisse direkt in den Lernprozess (z. B. das Trainieren des Netzwerks) einbezogen werden, wie dies durch den Verkehrssimulator 1112 und den Aktionsgenerator 1116 implementiert ist. Da der Q-Maskierer 1114 Aktionen basierend auf Vorkenntnissen maskiert, sind keine negativen Belohnungsfunktionen erforderlich, wodurch die Belohnungsfunktion vereinfacht wird. Durch Verwenden der Q-Maskierung kann der Q-Maskierer 1114 Kollisionen während des Trainings oder Testens abschwächen oder beseitigen, wodurch es möglich wird, ein Training direkt auf realen Systemen und nicht notwendigerweise nur auf den simulierten Systemen durchzuführen. Anders ausgedrückt kann der Q-Maskierer 1114 die Implementierung des Trainings autonomer Fahrzeuge an tatsächlichen autonomen Fahrzeugen ermöglichen. Daher kann der Verkehrssimulator 1112 gemäß einem Gesichtspunkt durch einen Sensor ersetzt werden, der ein oder mehrere andere Fahrzeuge (z. B. ein erstes Fahrzeug, ein zweites Fahrzeug, ein drittes Fahrzeug usw. und ein oder mehrere zugehörige Attribute wie beispielsweise Geschwindigkeit, Position, Spurposition, Blinker usw.) erfasst.
  • Der Aktionsgenerator 1116 kann einen verbleibenden Satz von Aktionen aus dem Satz möglicher Aktionen untersuchen und die autonome Fahrzeugrichtlinie für das Zeitintervall basierend auf dem verbleibenden Satz von Aktionen (z. B. ohne den maskierten Teilsatz von Aktionen) und dem Satz von Attributen, die dem autonomen Fahrzeug zugeordnet sind, bestimmen. Der Aktionsgenerator 1116 kann den verbleibenden Satz von Aktionen aus dem Satz möglicher Aktionen untersuchen und die autonome Fahrzeugrichtlinie für ein oder mehrere zusätzliche Zeitintervalle bestimmen, beispielsweise bis das autonome Fahrzeug einen Endzustand erreicht (z. B. das Ziel oder das gewünschte Ziel). Hier kann der Aktionsgenerator 1116 einen oder mehrere der untersuchten Sätze von Aktionen, die dem einen oder den mehreren zusätzlichen Zeitintervallen zugeordnet sind, als eine oder mehrere entsprechende Trajektorien speichern. Wie zuvor erläutert, kann eine Trajektorie eine Folge von Zuständen und/oder Aktionen sein, die diese Zustände einschließen.
  • Der Aktionsgenerator 1116 kann den verbleibenden Satz von Aktionen aus dem Satz möglicher Aktionen basierend auf der Belohnungsfunktion erkunden und die autonome Fahrzeugstrategie basierend auf der Belohnungsfunktion bestimmen. Die Belohnungsfunktion kann den Diskontfaktor einschließen. Durch Training und/oder Simulation lernt der Aktionsgenerator 1116 die autonome Fahrzeugstrategie, die im Speicherlaufwerk 1106 gespeichert, an das Fahrzeug 170 übermittelt und über die Fahrzeug-ECU 176 implementiert werden kann, um ein autonomes Fahren zu erleichtern.
  • Während des Trainings können Aktionen in einer epsilon-gierigen Art und Weise vorgenommen werden und E kann normalisiert werden. Der Aktionsgenerator 1116 kann vollständige Trajektorien bis zum Endzustand simulieren und die Trajektorien entweder als gut oder schlecht klassifizieren (d. h. der gute Puffer ist dem simulierten autonomen Fahrzeug zugeordnet, das es ohne Kollision, ohne die Geschwindigkeitsbegrenzung zu überschreiten usw. zum Ziel schafft). Anders ausgedrückt werden alle Übergänge (d. h. Zustand, Aktion und Belohnungen von erfolgreichen Trajektorien) im guten Puffer gespeichert, während Übergänge von fehlgeschlagenen Trajektorien (d. h. die das Ziel nicht erreichen) in dem schlechten Puffer gespeichert werden.
  • Für jeden Übergang kann die erwartete Belohnung aus der End-Belohnung zurückgerechnet werden, die wie folgt lautet: y t = { r t t = T ; t e r m i n a l r t + γ y t + 1 o t h e r w i s e ,
    Figure DE102019121717A1_0041
    wobei γ der Diskontfaktor ist.
  • Das Netzwerk kann unter Verwendung der folgenden Verlustfunktion optimiert werden, wobei eine kleine Mini-Charge von Übertragungen verwendet wird, die gleichermaßen aus dem guten und dem schlechten Puffer abgetastet werden: L ( θ ) = ( y t Q ( s t , a t , θ ) ) 2
    Figure DE102019121717A1_0042
  • Die zwei getrennten Puffer tragen dazu bei, eine angemessene Exposition gegenüber erfolgreichen Ausführungen aufrechtzuerhalten, wenn die Erkundung ständig zu fehlerhaften Trajektorien führen kann, wodurch vermieden wird, dass das Netzwerk in einer lokalen Minima stecken bleibt.
  • Auf diese Weise stellt das autonome System zur Generierung von Fahrzeugrichtlinien 1100 ein Rahmenwerk zur Verfügung, das die Stärken des tiefen Verstärkungslernens für eine taktische Entscheidungsfindung auf hohem Niveau nutzt eine strukturiertere und dateneffizientere Alternative zum Ende-zu-Ende-Erlernen vollständiger Richtlinien bei Problemen aufzeigt, bei denen die Formulierung einer übergeordneten Richtlinie mit herkömmlichen Optimierungs- oder regelbasierten Methoden schwierig sein kann, bei denen jedoch gut konzipierte untergeordnete Steuergeräte (z. B. das Steuergerät, das den Q-Maskierer 1114 implementiert) verfügbar sind. Das autonome System zur Generierung von Fahrzeugrichtlinien 1100 verwendet tiefes Verstärkungslemen, um eine Richtlinie auf hoher Ebene für die taktische Entscheidungsfindung zu erhalten, während eine enge Integration mit dem untergeordneten Steuergerät aufrechterhalten wird.
  • Durch Anwenden dieses Rahmens auf die Entscheidungsfindung für einen autonomen Spurwechsel für selbstfahrende Fahrzeuge (z. B. autonome Fahrzeuge) lernt das Netzwerk möglicherweise eine Strategie für eine taktische Entscheidungsfindung auf hoher Ebene. Experimentelle Ergebnisse gegen eine gierige Basislinie und menschliche Fahrer haben bewiesen, dass das autonome System zur Generierung von Fahrzeugrichtlinien 1100 und das hier beschriebene Verfahren in der Lage sind, beide mit einer effizienteren und einer geringeren Kollisionsrate (z. B. durch Eliminieren von Kollisionen) zu übertreffen. Die gierige Basislinie kann eine Richtlinie sein, bei der das autonome Fahrzeug vorrangig einen Spurwechsel nach rechts vornimmt, bis es auf der richtigen Spur ist, dann so schnell wie möglich fährt, während es die Geschwindigkeitsbegrenzungen einhält und nicht mit anderen Fahrzeugen kollidiert.
  • Gemäß einem Gesichtspunkt kann der Zustandseingabegenerator 1108 Engstellen feststellen und der Verkehrssimulator 1112 kann ein Wahrscheinlichkeitsbelegungsraster bereitstellen. Weiterhin kann der Verkehrssimulator 1112 eine Historie der Belegungsraster aus vorhergehenden Zeitintervallen als separate Kanäle empfangen.
  • 12 ist ein Flussdiagramm eines autonomen Verfahrens zur Generierung von Fahrzeugrichtlinien 200 gemäß einem Gesichtspunkt. Bei 1202 wird ein Satz von Attributen für ein autonomes Fahrzeug erzeugt. Der Satz von Attributen kann eine aktuelle Geschwindigkeit, die dem autonomen Fahrzeug zugeordnet ist, eine Spurposition, die dem autonomen Fahrzeug zugeordnet ist, und eine Entfernung von dem autonomen Fahrzeug zu einem Ziel einschließen, wobei das Ziel ein gewünschtes Ziel ist. Bei 1204 wird eine Verkehrssimulation durchgeführt. Zum Beispiel kann die Simulationsumgebung das autonome Fahrzeug, eine Fahrbahn, der eine Anzahl von Fahrspuren zugeordnet sind, und ein anderes Fahrzeug innerhalb der Simulationsumgebung einschließen.
  • Bei 1206 wird eine Maske für eine Teilmenge von Aktionen bestimmt. Die Maske kann basierend auf Vorkenntnissen bestimmt werden, die auf vordefinierte zulässige Interaktionen zwischen dem autonomen Fahrzeug und der Simulationsumgebung oder zwischen dem autonomen Fahrzeug und dem anderen Fahrzeug innerhalb der Simulationsumgebung hinweisen, einer Verkehrsregel, die auf zulässige Fahrmanöver hinweist, oder einer Fähigkeit, die dem autonome Fahrzeug zugeordnet ist und auf physikalisch möglichen Fahrmanöver hinweist, die dem autonomen Fahrzeug zugeordnet sind.
  • Bei 1208 wird eine verbleibende Menge von nicht maskierten Aktionen untersucht. Anders ausgedrückt kann die Simulation alle möglichen Ergebnisse erkunden, die dem verbleibenden Satz von Aktionen zugeordnet sind, und diese in zwei Klassen sortieren: gut und schlecht, wobei gut dem simulierten autonomen Fahrzeug zugeordnet wird, das das Ziel erreicht, und schlecht dem simulierten autonomen Fahrzeug zugeordnet wird, das das Ziel nicht erreicht. Bei 1210 wird eine autonome Fahrzeugrichtlinie bestimmt, beispielsweise basierend auf der Belohnungsfunktion oder dem Diskontfaktor, der die Zeit, die zukünftige Belohnung gegenüber der gegenwärtigen Belohnung usw. berücksichtigt.
  • 13A ist ein Flussdiagramm eines beispielhaften autonomen Verfahrens zur Generierung von Fahrzeugrichtlinien gemäß einem Gesichtspunkt. Das Belegungsraster mit der Historie kann durch eine einzelne Faltungsschicht geleitet werden, abgeschwächt werden und mit der Ausgabe einer vollständig verbundenen Schicht mit den skalaren Eingaben verkettet werden, die durch den Zustandseingabegenerator 1108 erzeugt werden. Die Verkettung wird durch eine vollständig verbundene Schicht geleitet, um die endgültige Ausgabe von 5 Q-Werten zu ergeben, die den 5 taktischen Aktionen zugeordnet sind. Wie in 13A zu sehen ist, wird die Q-Maskierung durch den Q-Maskierer 1114 zwischen den Q-Werten und der Max-Operation injiziert, um die Aktion durch den Aktionsgenerator 1116 zu bestimmen, wodurch vorherige Informationen einbezogen werden, so dass ein von Grund auf neues Lernen durch Erkundung nicht erforderlich ist. Die Max-Operation kann eine Max- oder eine SoftMax-Operation an den Q-Werten sein, um eine Aktion auszuwählen.
  • 13B ist eine beispielhafte Simulationsschnittstelle, die einer autonomen Generierung von Fahrzeugrichtlinien gemäß einem Gesichtspunkt zugeordnet ist. Wie zuvor erläutert, schließt der Satz möglicher Aktionen für das autonome Fahrzeug ein autonomes Fahrmanöver ein, bei dem während eines Zeitintervalls die dem autonomen Fahrzeug zugeordnete aktuelle Geschwindigkeit beibehalten (z.B. ,N‘ oder keine Operation), beschleunigt (A), abgebremst (D), ein Spurwechsel nach rechts (R) oder ein Spurwechsel nach links (L) durchgeführt wird. Zusätzlich zum Bremsen (D) werden auch andere Aktionen, wie beispielsweise eine Brems-Löse-Aktion, in Betracht gezogen. Gemäß einem Gesichtspunkt kann der Beschleunigungsschwellenwert nicht implementiert werden, wenn die Brems-Löse-Aktion durchgeführt wird. Mit anderen Worten kann das Lösen der Bremse immer eine Option sein, so dass der Q-Maskierer 1114 die Brems-Löse-Aktion gemäß diesem Gesichtspunkt niemals maskiert.
  • 14A-14C sind beispielhafte Szenarien, in denen eine autonome Generierung von Fahrzeugrichtlinien gemäß einem Gesichtspunkt implementiert werden kann. Gemäß einem beispielhaften Gesichtspunkt hat das simulierte autonome Fahrzeug die Aufgabe, in einer minimalen Zeitspanne, wie in 14A gezeigt, eine Ausfahrt auf der äußersten rechten Spur zu erreichen, während Geschwindigkeitsbegrenzungen eingehalten und Kollisionen usw. vermieden werden. In 14A befindet sich das autonome Fahrzeug in einer Distanz zum Ziel d2g von dem Ausgang. Wenn das simulierte autonome Fahrzeug die Ausfahrt nicht erreicht (z. B. das Ziel in diesem Szenario), wird dies von dem Aktionsgenerator 1116 oder dem Verkehrssimulator 1112 als ein Fehler betrachtet. Da die Distanz zum Ziel zusammen mit Informationen berücksichtigt wird, wie z. B. Vorkenntnisse über Bedingungsinformationen von der untergeordneten Steuerung, werden sowohl Überlegungen auf hoher Ebene als auch Überlegungen auf niedriger Ebene berücksichtigt.
  • In 14B kann, wenn sich das autonome Fahrzeug oder der Agent in Position 1402 befindet, die Aktion für einen Spurwechsel nach links durch den Q-Maskierer 1114 maskiert werden, da sich das autonome Fahrzeug bereits in der am weitesten links befindlichen Spur der Fahrbahn befindet. Auf ähnliche Weise kann die Beschleunigungs-Aktion durch den Q-Maskierer 1114 maskiert werden, wenn sich das autonome Fahrzeug in Position 1404 befindet, während die Brems-Aktion durch den Q-Maskierer 1114 maskiert werden kann, wenn sich das autonome Fahrzeug in Position 1406 befindet. Diese Beschleunigungs- und Brems-Aktionen können jeweils basierend auf den Schwellenwertdistanzen zu anderen Fahrzeugen maskiert werden.
  • In 14C werden zwei unterschiedliche Trajektorien 1410 und 1420 gezeigt. Der Aktionsgenerator kann die Trajektorie auswählen, die mit einer höheren Belohnung (z. B. einer schnelleren Zeit) verbunden ist, da der Q-Maskierer 1114 den größten Teil des Risikos, das im Zusammenhang mit jeder Entscheidungsfindung der jeweiligen Trajektorien besteht, bereits abgeschwächt hat.
  • 15 ist ein beispielhaftes Komponentendiagramm eines Systems für eine interaktionsbewusste Entscheidungsfindungs 1500 gemäß einem Gesichtspunkt. Das System für eine interaktionsbewusste Entscheidungsfindung 1500 kann Merkmale eines kooperativen Verstärkungslernens mit mehreren Zielen, mehreren Agenten und mehreren Stufen (CM3) verwenden, wie oben unter Bezugnahme auf 1-10 erörtert. Außerdem kann das System zur interaktionsbewussten Entscheidungsfindung 1500 Merkmale der autonomen Generierung von Fahrzeugrichtlinien verwenden, wie oben mit Bezug auf 11-14 erörtert. Das System für die interaktionsbewusste Entscheidungsfindung 1500 kann einen Prozessor 102, einen Speicher 104, einen Simulator 108 und eine Kommunikationsschnittstelle 150 einschließen. Diese Komponenten können über einen Bus 106 kommunikativ gekoppelt sein. Der Simulator 108 des Systems für interaktionsbewusste Entscheidungsfindung 1500 kann ein mehrstufiges Training gemäß einer ersten Stufe und einer zweiten Stufe durchführen.
  • Innerhalb der ersten Stufe kann der Simulator 108 ein Training für einen ersten Agenten basierend auf einem ersten Richtliniengradienten und ein Training eines ersten Kritikers basierend auf einer ersten Verlustfunktion ausführen, um ein oder mehrere Merkmale in einer Einzel-Agent-Umgebung unter Verwendung eines Markov-Entscheidungsprozesses (MDP) zu erlernen. In der Einzel-Agent-Umgebung ist der erste Agent der einzige vorhandene Agent. Merkmale innerhalb der Umgebung können eine oder mehrere Verzweigungen zu einer Fahrbahn, eine oder mehrere Fahrspuren, ein oder mehrere Hindernisse (die z. B. während des Trainings der Stufe Eins statisch sein können) einschließen. In dem Training der Stufe Eins (z. B. der ersten Trainingsphase) kann der Simulator 108 den Agenten trainieren, um eine oder mehrere Aufgaben oder Ziele zu erreichen. Da es innerhalb der Einzel-Agent-Umgebung keine anderen Agenten gibt, ermöglicht das durch den Simulator 108 in Stufe Eins bereitgestellte Einzel-Agent-Umfeld oder -umgebung, dass der erste Agent das eine oder die mehreren Merkmale der Einzel-Agent-Umgebung auf eine zweckmäßige, effiziente Weise lernt oder trainiert, da das Fehlen anderer Agenten zuverlässiger die gewünschten Zustandskonfigurationen für Lernverhalten erzeugen kann, das mit dem Erreichen von Zielen verbunden ist. Auf diese Weise sind möglicherweise weniger Simulationsiterationen erforderlich, um ein Grad der Fahr- oder Betriebskompetenz zu erreichen.
  • Der Simulator 108 kann einen Zustandseingabegenerator 1108, einen Q-Maskierer 1114, einen Aktionsgenerator 1116, einen Fahrertypverwalter 1502 und einen Prioritätsbestimmer 1504 einschließen. Der Zustandseingabegenerator 1108 kann Statusinformationen, die mit dem ersten Agent, der ein simulierter Agent ist, verbunden sind, bestimmen. Auf diese Weise kann der Zustandseingabegenerator 1108 Eingaben für ein Netzwerk bestimmen, das mit einer interaktionsbewussten Entscheidungsfindung mit mehreren Zielen, mehreren Agenten und mehreren Stufen zurGenerierung von Netzwerkrichtlinien verbunden ist. Beispiele von Eingaben, die durch den Zustandseingabegenerator 1108 erzeugt werden, können den Zustand des ersten Agenten, wie beispielsweise eine aktuelle Geschwindigkeit, eine Spurposition, eine Entfernung von einem Ziel oder einem gewünschten Ziel usw., einschließen.
  • Der Q-Maskierer 1114 kann eine Teilmenge von ausgegebenen Q-Werten (z. B. einen Aktionssatz), die durch den Simulator 108 simuliert werden sollen, maskieren. Der Aktionsgenerator 1116 kann den ersten Agenten auf der Grundlage eines verbleibenden Satzes von Aktionen durch ausschließen des maskierten Satzes von Aktionen aus dem Satz möglicher Aktionen trainieren. Daher werden nur die mit einer verbleibenden Teilmenge von Aktionen verknüpften Q-Werte von dem Simulator 108 während der Simulation berücksichtigt, wodurch die Menge an Verarbeitungsleistung und/oder Rechenressourcen, die während der Simulation und des Trainings des autonomen Fahrzeugs bei der autonomen Generierung von Fahrzeugrichtlinien genutzt werden, abgeschwächt wird.
  • Basierend auf der verbleibenden Teilmenge von Aktionen (z. B. einem Satz von möglichen Aktionen, der Teilmenge von Aktionen mit Ausnahme der maskierten Teilmenge), kann der Aktionsgenerator 1116 die übrigen Aktionen untersuchen und die autonome Fahrzeugrichtlinie entsprechend bestimmen. Dies kann über verschiedene Zeitintervalle wiederholt werden. Der Q-Maskierer 1114 kann so das simulierte autonome Fahrzeug dazu „zwingen“, nur die nicht maskierten Zustände zu erkunden und somit nur Aktionen zu lernen, die mit einer Teilmenge des Raumes von assoziierten Q-Werten assoziiert sind (indikativ für den langfristigen Ertrag einer Aktion (α) unter der Richtlinie (π) in Zustand (s)).
  • Während des Trainings des ersten Agenten basierend auf dem ersten Richtliniengradienten und dem Training des ersten Kritikers basierend auf der ersten Verlustfunktion innerhalb der Einzel-Agent-Umgebung gemäß dem MDP kann der Simulator 108 den ersten Agenten trainieren, indem er dem ersten Agenten ermöglicht, eine Aktion aus einem Satz von einer oder mehreren Aktionen auszuwählen. Der Satz von möglichen Aktionen kann eine Nicht-Handlungs-Aktion, eine Beschleunigungs-Aktion, eine Brems-Aktion, eine Brems-Löse-Aktion, eine Aktion zur Linksverschiebung um eine Spur oder eine Aktion zur Rechtsverschiebung um eine Spur einschließen.
  • Beispiele eines oder mehrere der Merkmale, die in Stufe Eins von dem ersten Agent erlernt werden können, schließen das Erlernen von Regeln und Vorschriften der Fahrbahn ein, wie man auf einer Fahrbahn innerhalb der Geschwindigkeitsbegrenzung fährt oder die Geschwindigkeit hält, wie das Fahrzeug innerhalb der Fahrspur gehalten wird, wie die Fahrspur oder die Spurposition geändert wird, wie man über eine Ausfahrt abfährt, wie man über eine Beschleunigungsspur auffährt usw.
  • Auf diese Art und Weise verfügt das erste Richtliniennetzwerk über einen dezentralen Kritiker, der unterschiedliche Merkmale des Einzel-Agent-Umfelds oder der Einzel-Agent-Umgebung erlernt. Da der erste Kritiker der dezentrale Kritiker sein kann, kann die erste Stufe oder Stufe Eins mit einer lokalen Ansicht oder individualisierten Belohnungen, individualisiertem Lernen, usw. für den ersten Agent verbunden sein. Auf diese Weise kann der Simulator 108 den ersten Agenten basierend auf einem ersten Richtliniengradienten trainieren und den ersten Kritiker basierend auf einer ersten Verlustfunktion trainieren, um eines oder mehrere Ziele in der Einzel-Agent-Umgebung zu erlernen, (wobei der erste Agent der einzige vorhandene Agent ist) und ein Entscheidungsprozess angewendet wird. Der erste Agent kann einem ersten neuronalen Agentennetzwerk zugeordnet sein und der erste Kritiker kann einem ersten neuronalen Kritikernetzwerk zugeordnet sein.
  • Der Simulator 108 kann das Training der Stufe Zwei einschließlich des Trainings einer Anzahl von N Agenten auf der Grundlage des ersten Richtliniengradienten und eines zweiten Richtliniengradienten und das Training eines zweiten Kritikers auf der Grundlage der ersten Verlustfunktion und einer zweiten Verlustfunktion durchführen, um einen zweiten Satz von Merkmalen zwischen der N Anzahl von Agenten (die z. B. den ersten Agenten einschließen kann) in einer Multi-Agent-Umgebung mithilfe eines Markov-Spiels zu lernen, um ein zweites neuronales Agentennetzwerk zu instanziieren. Gemäß einem Gesichtspunkt können einer oder mehrere der N Agenten der Multi-Agent-Umgebung einem Fahrertyp zugeordnet sein, der für einen Grad der Kooperation für den jeweiligen Agenten indikativ ist. Mit anderen Worten kann der Simulator 108 im Training der Stufe Zwei dem ersten Agenten beibringen, wie er fahren oder vorgehen soll, wenn weniger kooperative Fahrer anwesend sind, wie dies durch den kompetitiven Fahrertyp simuliert wird.
  • Einer oder mehrere der N Anzahl von Agenten können mit dem vorab trainierten ersten neuronalen Agentennetzwerk aus dem Training der Stufe Eins instanziiert oder initialisiert werden. Somit kann jede der N Anzahl von Agenten Vorkenntnis von dem vorab trainierten ersten neuronalen Agentennetzwerk aufweisen und unter Verwendung des CM3-Verstärkungslernens kann ein curricularer Gewinn implementiert werden. Der Simulator 108 kann die N Anzahl von Agenten auf der Grundlage eines kombinierten Richtliniengradienten trainieren, der von dem ersten Richtliniengradienten und dem zweiten Richtliniengradienten abgeleitet ist. Auf der Grundlage des Fahrertyps (der z. B. den Grad der Zusammenarbeit für den jeweiligen Agenten der Anzahl N von Agenten angibt) müssen jedoch einer oder mehrere der N Anzahl von Agenten während des Trainings der zweiten Stufe nicht unbedingt kooperativ sein, wodurch es dem erste Agenten ermöglicht wird zu lernen, wie in einer Umgebung operiert oder gefahren werden muss, in der andere Agenten (z. B. Fahrzeuge) nicht immer freundlich oder kooperativ sind. Wie zuvor angegeben, kann sich der Fahrertyp ferner von einem oder mehreren der N Agenten während der Simulation oder des Trainings (z. B. während des Trainings) gemäß einem Gesichtspunkt ändern. Gemäß anderen Gesichtspunkten kann der Fahrertyp von einem oder mehreren der N Anzahl von Agenten während der Simulation oder des Trainings der Stufe zwei konstant bleiben. Eine mathematische Rahmenkarte kann verwendet werden, um unterschiedliche Verhaltensweisen für die Agenten mit unterschiedlichen Fahrertypen zu erzeugen. Gemäß einem Gesichtspunkt kann der Fahrertyp kooperativ oder wettbewerbsfähig sein. Gemäß einem weiteren Gesichtspunkt kann der Fahrertyp durch eine Zahl (z. B. auf einer Skala von 1 bis 10 oder auf einer Skala von -2 bis +2 usw.) dargestellt werden.
  • Beispielsweise kann ein wirklich kooperativer Fahrer (z. B. +2) auf der Einfädelspur aus Sicherheitsgründen vor dem Einfädeln in den Verkehr abbremsen, während ein weniger kooperativer Fahrer (z. B. -2) beschleunigen und um Platz für das Einfädeln kämpfen kann. In ähnlicher Weise kann ein kooperativer Fahrer auf der Hauptspur oder der Fahrbahn einem sich einfädelnden Fahrzeug nachgeben, während ein kompetitiver Fahrer beschleunigen kann und versuchen kann, den Einfädelpunkt zuerst zu passieren.
  • Ungeachtet dessen kann der Simulator 108 die N Anzahl von Agenten auf der Grundlage eines ersten Richtliniengradienten trainieren und einen zweiten Richtliniengradienten und einen zweiten Kritiker auf der Grundlage einer ersten Verlustfunktion und einer zweiten Verlustfunktion trainieren, um ein oder mehrere Ziele in dem Multi-Agenten unter Verwendung eines Markov-Spiels zu erlernen, um ein zweites neuronales Agentennetzwerk zu instanziieren. Innerhalb des Trainings der Stufe Zwei kann ein Fehler zugeordnet werden, wenn zwischen zwei Fahrzeugen eine Kollision auftritt. Jedem Agenten der N Anzahl von Agenten kann eine Spurprioritätsstufe zugewiesen werden, die auf der Position des jeweiligen Agenten und eines Layouts der Multi-Agent-Umgebung basiert.
  • Befindet sich beispielsweise ein erstes Fahrzeug auf einer Geraden einer Fahrbahn und ein zweites Fahrzeug befindet sich auf einer Fahrspur, die mit der Geraden zusammen läuft, kann dem ersten Fahrzeug eine höhere Spurprioritätsstufe zugewiesen werden als dem zweiten Fahrzeug. In diesem Szenario kann der Prioritätsbestimmer 1504 im Falle einer Kollision zwischen dem ersten Fahrzeug und dem zweiten Fahrzeug den Fehler dem zweiten Fahrzeug zuweisen, basierend darauf, dass sich das zweite Fahrzeug auf der Einfädelspur befindet. Da der Prioritätsbestimmer 1504 die Spurprioritätsstufe jedoch jedem Fahrzeug basierend auf der Position jeden Fahrzeugs und auch basierend auf dem Layout der Multi-Agent-Umgebung (z. B. der Konfiguration der Fahrbahn) zuweisen kann, kann es Szenarien geben, in denen dem ersten Fahrzeug eine niedrigere Spurprioritätsstufe als dem zweiten Fahrzeug zugewiesen werden kann.
  • Wenn beispielsweise das zweite Fahrzeug, das sich in der Spur befindet, die mit der Geradeauspur zusammengeführt wird, dem ersten Fahrzeug um mindestens eine Schwellenwertdistanz voraus ist, kann der Prioritätsbestimmer 1504 im Falle einer Kollision zwischen dem ersten Fahrzeug und dem zweiten Fahrzeug den Fehler, basierend darauf, dass das zweite Fahrzeug dem ersten Fahrzeug voraus ist (z. B., und das erste Fahrzeug dem zweite Fahrzeug hinten auffährt), dem ersten Fahrzeug zuweisen. Ferner kann ein Prozentsatz eines Fehlers, der auf einer Entfernung zwischen dem ersten Fahrzeug und dem zweiten Fahrzeug basiert, zugewiesen werden. Der Prioritätsbestimmer 1504 kann diesen Fehlerprozentsatz verwenden, um eine negative Belohnung oder eine Strafe zu bestimmen, die jedem der jeweiligen Agenten oder Fahrzeugen zuzuweisen wird, die an der Kollision beteiligt sind.
  • Genauer gesagt, kann der Prioritätsbestimmer 1504 nicht notwendigerweise alle an dem simulierten Unfall oder der simulierten Kollision beteiligten Parteien bestrafen oder ihnen negative Belohnungen zuweisen, da der Fehler ähnlich zu den realen Verkehrsregeln zugewiesen werden kann. Zudem gibt es noch weitere Szenarien, bei denen der Prioritätsbestimmer 1504 bestimmen kann, dass zwei oder mehr Fahrzeuge eine gleiche Spurprioritätsstufe aufweisen, und wenn in diesen Szenarien eine Kollision auftritt, kann den beteiligten Fahrzeugen ein gleicher Fehlerbetrag zugewiesen werden. Auf diese Weise kann der Simulator 108 die Netzwerkrichtlinien dazu trainieren, es den Fahrzeugen oder Agenten zu ermöglichen, in einem Szenario zu operieren, in dem keiner der Agenten irgendeine höhere Priorität als ein anderer aufweist, aber dass manchmal andere Fahrer zuerst fahren können, während andere Male der erste Agent derjenige sein kann, der zuerst fahren darf. Weitere Erörterungen und Beispiele von Gesichtspunkten des Prioritätsbestimmers 1504 erfolgen mit Bezug auf die 19A-19D, untenstehend erörtert.
  • Weiterhin in Bezug auf die Erörterung der Stufe Zwei des Trainings durch den Simulator 108, kann der erste Agent darauf aufmerksam gemacht werden, dass er eine höhere Spurprioritätsstufe als ein anderer der N Anzahl von Agenten aufweisen kann, aber aufgrund der unterschiedlichen Fahrertypen, die durch den Fahrertypverwalter 1502 zugewiesen werden können, gibt der andere Agent notwendigerweise nicht entsprechend seiner niedrigeren Spurprioritätsstufe nach. Anders gesagt, und mit Bezug auf das obenstehende Beispiel, wobei sich das erste Fahrzeug auf der Geradeausspur befindet und sich das zweite Fahrzeug in der Spur befindet, die auf die Geradeausspur führt, können einige Agenten in der Position des zweiten Fahrzeugs während des Trainings der Stufe Zwei dem ersten Fahrzeug nicht notwendigerweise nachgeben (z. B. kann das zweite Fahrzeug sogar beschleunigen oder das erste Fahrzeug ignorieren), während andere Agenten in der Position des zweiten Fahrzeugs nachgeben, wie es durch die unterschiedlichen Spurprioritätsstufen der beiden Fahrzeuge oder Agenten gefordert wird.
  • Nochmals erklärt, da Fahrer im echten Leben anderen Fahrern den Weg abschneiden oder ihre eigenen Fahrzeuge auf eine nicht kooperative oder kompetitive Weise steuern können, nehmen die Systeme und das Verfahren für interaktionsbewusste Entscheidungsfindung wie hierin beschrieben dies auf, indem der erste Agent in einer Multi-Agent-Umgebung trainiert wird, in der simulierte nicht kooperative oder kompetitive Agenten (z. B. einige der N Anzahl von Agenten) existieren, wodurch eine Bandbreite von Unfall- oder Kollisionsszenarien verursacht wird, über die der Simulator 108 die Netzwerkrichtlinien und/oder die N Anzahl von Agenten trainieren kann. Zum Beispiel kann der nicht kooperative Fahrer des Fahrertyps während seines eigenen Einfädelvorgangs oder während des Einfädelvorgangs des anderen Agenten beschleunigen. Umgekehrt kann ein kooperativer Fahrer des Fahrertyps vorab abbremsen, bevor er sich in den Verkehr einfädelt oder einem anderen Agenten während des Einfädelvorgangs des anderen Agenten nachgeben.
  • Außerdem kann der Simulator 108 basierend auf Beobachtungen von Aktionen, die von einer oder mehreren der N Agenten innerhalb der Multi-Agent-Umgebung vorgenommen werden, einen beobachteten Fahrertyp für eine oder mehrere der N Anzahl von Agenten (z. B. aus der Perspektive des ersten Agenten) feststellen. Mit anderen Worten, wenn der erste Agent beobachtet, dass ein zweiter Agent in einer Weise agiert, die nicht mit der Spurprioritätsstufe dieses Agenten übereinstimmt, kann der Fahrertypverwalter 1502 feststellen, dass der zweite Agent vom nicht kooperativen Fahrertyp ist oder basierend auf der Beobachtung einen Fahrertyp schätzen. Auf diese Weise kann der Simulator 108 das Training des ersten Agenten und die Erzeugung einer interaktionsbewussten Entscheidungsfindung mit mehreren Zielen, mehreren Agenten und mehreren Stufen zur Generierung von Netzwerkrichtlinien basierend auf dem ersten neuronalen Agentennetzwerk und dem zweiten neuronalen Agentennetzwerk ermöglichen, wodurch CM3, das Konzept der Straßenpriorität und das Konzept kooperativer und nicht kooperativer Fahrer usw. inkorporiert werden.
  • Weiterhin können die Systeme und Verfahren für eine interaktionsbewusste Entscheidungsfindung adaptive Verhaltensweisen (IDAB) einschließen und auf autonome Fahrzeuge in Einfädelszenarien angewendet werden, während Verstärkungslernen mit mehreren Agenten und der ein Aktor-doppelter-Kritiker-Gesichtspunkt von CM3 verwendet wird. Da Interaktionen zwischen dem ersten Agenten und anderen Agenten der N Anzahl von Agenten unterschiedlich sein können (z. B. abhängig vom Fahrertyp des anderen Agenten), lernt der erste Agent während des Trainings in der Multi-Agent-Umgebung unterschiedliche Reaktionsstrategien. Genauer gesagt sind die erlernten Netzwerkrichtlinien im Allgemeinen adaptiv in Bezug auf das beobachtete Fahrverhalten anderer. Außerdem kann der Q-Maskierer 1114 implementiert werden, um einen Maskierungsmechanismus anzuwenden, der einen schnelleren und effizienteren Lernprozess unterstützt.
  • In Bezug auf die Markov-Spiele kann der Simulator 108 ein Multi-Agent-Markov-Spiel mit einer Anzahl N von Agenten definieren, die mit n ∈ [1, N] bezeichnet werden. Das Markov-Spiel kann durch einen Satz von Zuständen S definiert werden, der mögliche Konfigurationen aller Agenten beschreibt sowie einen Satz von partiellen Beobachtungen On und einen Satz von Aktionen An für jeden Agent. Der Prioritätsbestimmer 1504 und der Fahrertypverwalter 1502 können die Spurprioritäts- bzw. die Fahrertypinformation { b p r i o n , b t y p e n } B n
    Figure DE102019121717A1_0043
    festlegen oder erzeugen, wobei diese zwei vorbestimmte Parameter sind, die das Verhalten eines Agenten beeinflussen können. Jeder Agent n kann über den Simulator 108 seine eigenen Aktionen gemäß einer stochastischen Richtlinie πn: On × Bn × An → [0, 1] auswählen und die gemeinsame Aktion von N Agenten bewegt die Multi-Agent-Umgebung in den nächsten Zustand entsprechend der Übergangsfunktion T:S × A1 × ... × AN → S. Jeder Agent kann eine Belohnung rn: S × Bn × An → ℝ erhalten, die eine Funktion des Zustands, des Verhaltens des Agenten und der Aktionen der Agenten ist, um seinen eigenen erwarteten Gesamtbetrag R n = t = 0 T γ t r t n
    Figure DE102019121717A1_0044
    zu maximieren, wobei γ ∈ [0, 1) ein Diskontfaktor und T der Zeithorizont ist.
  • Aktor-Kritiker-Verfahren können für unterschiedliche Verstärkungslernaufgaben verwendet werden, sowohl innerhalb der Einzel-Agent- als auch in der Multi-Agent-Umgebung. Der Aktor kann eine parametrisierte Richtlinie sein, die definiert, wie Aktionen ausgewählt werden. Der Kritiker kann eine geschätzte Zustandswertfunktion sein, die die Aktionen, die durch den Aktor vorgenommen werden, kritisiert. Der Simulator 108 kann dann die Parameter des Aktors in Bezug auf die Auswertung des Kritikers aktualisieren.
  • Im Allgemeinen wird in einer Einzel-Agent-Umgebung π durch θ parametrisiert, die Zielsetzung J ( θ ) = E π [ R ]
    Figure DE102019121717A1_0045
    durch das Ausführen von Schritten in die Richtung von ∇θJ(θ) maximiert, wobei sich die Erwartung E π
    Figure DE102019121717A1_0046
    auf die von π induzierte Zustands-Aktions-Verteilung bezieht. Der Gradient der Richtlinie kann geschrieben werden als: θ J ( θ ) = E π [ t θ log π ( a t | s t ) ( Q π ( s t , a t ) b ( s t ) ) ]
    Figure DE102019121717A1_0047

    wobei Q π ( s t , a t ) = E π [ t ' = t T γ t ' r ( s t ' , a t ' ) | s t , a t ]
    Figure DE102019121717A1_0048
    die Aktions-Wert-Funktion für die Richtlinie πist, b(st) die einleitende Basislinie ist und ihre Differenz als Vorteilsfunktion Aπ(st, at) bekannt ist.
  • Durch die Auswahl der Wertfunktion Vπ(st) als Basislinie und Verwenden des Zeitdifferenz- (TD) Fehlers als unvoreingenommene Schätzung der Vorteilsfunktion können die Vorteilsfunktionen neu geschrieben werden als Aπ(st, at) ≈ r(st, at) + γVπ(st+1) - Vπ(st).
  • In einer Multi-Agent-Umgebung kann der Kritiker durch den Simulator 108 mit vollständigen Zustandsaktionsinformationen über Richtlinien der anderen Agenten ergänzt werden, wobei der Aktor nur Zugriff auf lokale Informationen oder beobachtete Informationen hat. Gemäß einem Gesichtspunkt wird die Guthabenzuweisung in der Multi-Agent-Umgebung unter Verwendung einer kontrafaktischen Basislinie behandelt: b ( s , a n ) = a ' n π n ( a ' n | o n ) Q ( s , ( a n , a ' n ) )
    Figure DE102019121717A1_0049
    die die Aktionen a des Agenten n marginalisiert und es dem zentralen Kritiker ermöglicht, logisch auf die Kontrafakten zu schließen, bei denen sich lediglich die Aktionen des Agent n ändern.
  • Der Simulator 108 kann einen einzelnen Aktor trainieren, wie beispielsweise den ersten Agenten, um interaktives und adaptives Fahrverhalten zu erzeugen, sowie ein Paar von dezentralen und zentralen Kritikern, die von der Gesamtheit der N Anzahl von Agenten geteilt wird. Zwei Lernzielsetzungen können über die Einzel-Agent-Umgebung und die Multi-Agent-Umgebung bereitgestellt werden, entsprechend einer Fahrt der Agenten durch unterschiedliche Szenarien unter Beachtung von Regeln und eine Interaktion mit anderen Agenten für ein effizienteres Einfädeln unter Beibehaltung eines effizienten Verkehrsflusses.
  • Da jedem Agent unterschiedliche einzelne Belohnungen zugeordnet werden können, um bestimmte Verhaltensweisen zu erlernen, ist es schwierig, verschiedene Lernsignale aus einer gemeinsamen Belohnung zu extrahieren, und daher kann der dezentrale Kritiker von jedem Agent mit geteilten Parametern verwendet werden. Der dezentrale Kritiker kann einen Richtliniengradienten für Agenten bereitstellen, um zu lernen, wie man in verschiedenen Szenarien fährt (z. B. Einfädelszenarien), indem Regeln befolgt werden, während unterschiedliche Verhaltensweisen gezeigt werden. Der Agent (z. B. der erste Agent) reagiert anfänglich nicht notwendigerweise auf andere Agenten und lernt wie rationale Aktionen auszuführen sind, um seine eigene Aufgabe zu beenden, was als die erste Zielsetzung J1 bekannt sein kann. Der zugehörige Richtliniengradient kann angegeben werden durch: θ J 1 ( θ ) E π [ n = 1 N t θ log π ( a t n | o t n , b n ) ( r ( o t n , a t n , b n ) ) + γ V ϕ 1 π ( o t + 1 n , b n ) V ϕ 1 π ( o t n , b n ) ]
    Figure DE102019121717A1_0050
    wobei V ϕ 1 π ( o t n , b n )
    Figure DE102019121717A1_0051
    der dezentrale Kritiker ist, der durch ϕ1 parametrisiert ist und durch Minimalisieren des Verlustes: L ( ϕ 1 ) = 1 2 i r ( s i , t , a i , t n , b i n ) + γ V ϕ ^ 1 π ( o i , t + 1 n , b i n ) V ϕ 1 π ( o i , t n , b i n ) 2
    Figure DE102019121717A1_0052
    aktualisiert wird, wobei i die Anzahl der geprüften Chargen ist und V ϕ ^ 1 π
    Figure DE102019121717A1_0053
    das Zielnetzwerk mit den Parametern ϕ̂1 ist, die langsam zu ϕ1 aktualisiert werden. Das Zielnetzwerk wird verwendet, um den Trainingsprozess zu stabilisieren.
  • In der Multi-Agent-Umgebung sollten makroskopische Faktoren wie die Verkehrsflussrate berücksichtigt werden, auch wenn das strikte Befolgen von Verkehrs- oder Prioritätsregeln für Einfädelszenarien keine Unfälle zur Folge hat. In dieser Hinsicht kann der zentrale Kritiker über den Simulator 108 jeden Agenten dazu ermuntern, miteinander zu interagieren, um den Verkehrsfluss aufrechtzuerhalten und zum gemeinsamen Erfolg zu kommen. Die zweite Zielsetzung kann die Zielsetzung J2 sein. Der zugehörige zweite Richtliniengradient kann gegeben sein durch: θ J 2 ( θ ) = E π [ n = 1 N θ log π ( a n | o n , b n ) ( Q ϕ 2 π ( s , a , b ) ) a ' n π n ( a ' n | o n , b n ) Q ϕ 2 π ( s , ( a n , a ' n ) , b ) ]
    Figure DE102019121717A1_0054
    wobei die kontrafaktische Basislinie wie hierin erläutert verwendet werden kann und der zentrale Kritiker definiert werden kann als: Q ϕ 2 π ( s , a , b ) = E π [ t ' = t T n = 1 N γ t ' r ( s t ' , s t ' n , b n ) | s t , a t n , b n ]
    Figure DE102019121717A1_0055
    durch Betrachten einer gemeinsamen Belohnung für alle Agenten. Parametrisiert durch ϕ2 wird der zentrale Kritiker durch Minimierung des Verlusts aktualisiert: L ( ϕ 2 ) = 1 2 i n = 1 N r ( s i , t , a i , t n , b i n ) + γ Q ϕ ^ 2 π ^ ( s i , a ^ i , t , b ) Q ϕ 2 π ( s i , t , a i , t , b ) 2
    Figure DE102019121717A1_0056
    wobei π̂ das Zielrichtliniennetzwerk bezeichnet und ϕ̂2 Parameter des zentralen Zielkritikernetzwerks darstellt.
  • Der Gesamt- oder kombinierte Richtliniengradient kann definiert sein als: θ J ( θ ) = α θ J 1 ( θ ) + ( 1 α ) θ J 2 ( θ )
    Figure DE102019121717A1_0057
    wobei α ∈ [0, 1] der Gewichtungsfaktor für die beiden Zielsetzungen J1(θ) und J2) ist. Da der Simulator 108 zwei getrennte Zielsetzungen verwendet, kann das Lernen des Lernprogramms verwendet werden. Somit kann der Simulator 108 die N Anzahl von Agenten auf der Grundlage der aus dem ersten Richtliniengradienten und dem zweiten Richtliniengradienten abgeleiteten kombinierten oder gesamten Richtliniengradienten trainieren, welcher eine Netzwerkrichtlinie zur interaktionsbewussten Entscheidungsfindung mit mehreren Zielen, mehreren Agenten und mehreren Stufen sein kann, die auf dem ersten neuronalen Agentennetzwerk und dem zweiten neuronalen Agentennetzwerk basieren kann.
  • Mit Bezug auf den adaptiven Verhaltensgesichtspunkt der interaktionsbewussten Entscheidungsfindung kann der Simulator 108 eine Netzwerkrichtlinie zur interaktionsbewussten Entscheidungsfindung mit mehreren Zielen, mehreren Agenten und mehreren Stufen trainieren, die in der Lage sein kann, unterschiedliches Fahrverhalten entsprechend einem oder mehreren Verhaltensparametern zu erzeugen. Die Netzwerkrichtlinie kann auf einem Zustand, einem Aktionspaar und einer Belohnungsfunktion r(s, a, b) basieren, einschließlich von Variablen, die die Spurprioritätsstufe bprio und den Fahrertyp btype berücksichtigen. Auf diese Art und Weise kann die Belohnungsfunktion nicht kooperativen Fahrern negative Belohnungen zuweisen, wenn deren Spurprioritätsstufe bprio geringer ist als die Spurprioritätsstufe des anderen Agenten, der in eine Kollision verwickelt ist. Darüber hinaus kann die Belohnungsfunktion zwei oder mehr untergeordnete Belohnungsfunktionen einschließen, die mit dem Fahrverhalten rfinish und rcollide zusammenhängen können. Jedem Agenten kann durch den Simulator 108 eine einmalige Belohnung zugewiesen werden, wenn der jeweilige Agent sicher durch die Multi-Agent-Umgebung fährt (z. B. ohne eine Kollision zu verursachen oder in eine Kollision verwickelt zu sein und das Ziel oder den Bestimmungsort erreicht).
  • Der Belohnungswert kann rfinish = f1(btype) sein. Zum Beispiel kann eine kleine abschließende Belohnung zugewiesen werden, um den Agenten dazu zu ermuntern, die Aufgabe zu beenden oder das Ziel schneller zu erreichen als eine große Belohnung auf einen Diskontfaktor γ was zu einem weniger kooperativen Fahrertyp führt.
  • Wenn zwei oder mehr Agenten kollidieren oder in eine Kollision verwickelt sind, kann einem oder mehreren der in die Kollision verwickelten Agenten eine negative Belohnung oder eine Strafe zugewiesen werden, und dies kann basierend auf der Spurprioritätsstufe der jeweiligen beteiligten Agenten geschehen. Mit anderen Worten, rcollide = f2(bprio). Wenn zum Beispiel ein erstes Fahrzeug (z. B. ein Agent) ein links abbiegen durchführt, während ein zweites Fahrzeug (z. B. ein anderer Agent) geradeaus fährt und die beiden Agenten kollidieren, kann dem ersten Fahrzeug eine größere negative Belohnung als dem zweiten Fahrzeug zugewiesen werden, da das zweite Fahrzeug gemäß der Verkehrsregeln, dem Layout der Straße oder der Multi-Agent-Umgebung und basierend auf der Positionierung der jeweiligen Agenten Vorfahrt hat. Auf diese Weise kann der Prioritätsbestimmer 1504 während des Trainings der Anzahl N von Agenten (z. B. Training Stufe Zwei in der Multi-Agent-Umgebung), wenn eine Kollision zwischen zwei oder mehreren der Agenten der Multi-Agent-Umgebung auftritt, den jeweiligen Agenten, die an der Kollision beteiligt sind, eine negative Belohnung oder einen Nachteil zuweisen, der auf der Spurpriorität der jeweiligen Agenten basiert.
  • Wie zuvor angemerkt kann der Q-Maskierer 1114 als Maskierungsmechanismus für das Richtliniennetzwerk implementiert werden, wodurch die Effizienz des Trainings gesteigert wird (z. B. kann dies sowohl in der ersten als auch in der zweiten Lernstufe auftreten). Auf diese Weise kann der Simulator 108, anstelle der Erkundung von Aktionen, die bekannterweise einen Unfall verursachen oder bekannte Verkehrsregeln brechen, damit fortfahren, die Agenten, Kritiker und Richtlinien direkt in Bezug auf die Entscheidungsfindung auf einer taktischen Ebene zu trainieren, wodurch die Trainingszeit und die während des Trainings verwendeten Rechenressourcen reduziert werden und eine Verbesserung des Betriebs des Systems, der Computer und/oder der Prozessoren und des Speichers, der zum Betreiben des Simulators 108 verwendet wird, erfolgt. Drei verschiedene Arten von Masken können verwendet werden, einschließlich Fahrzeugkinematik (Mk ), Verkehrsregeln (Mr ) und Sicherheitsfaktoren (Ms ). Vor der Auswahl einer Aktion kann der Simulator 108 den Maskierungsmechanismus anwenden, der von dem Q-Maskierer 1114 bereitgestellt wird, so dass das Training eines Agenten auf der Basis einer verbleibenden Menge von Aktionen mit Ausnahme des maskierten Satz von Aktionen aus dem Satz von möglichen Aktionen erfolgt. Der maskierte Satz von Aktionen kann die Verbindung von M = (Mk) ∪ (Mr) ∪ (Ms) sein. Auf diese Weise bestimmt der Q-Maskierer 1114 die Maske M, die auf eine Teilmenge des Satzes möglicher Aktionen für den ersten Agenten für ein Zeitintervall anzuwenden ist, der auf dem Layout der Multi-Agent-Umgebung oder der Positionierung des ersten Agenten und der N Agenten basiert. Der Simulator 108 kann somit einen Agenten auf der Grundlage eines verbleibenden Satzes von Aktionen trainieren, indem er den maskierten Satz von Aktionen aus dem Satz möglicher Aktionen ausschließt. Wie oben erörtert, kann der Satz von möglichen Aktionen eine Nicht-Handlungs-Aktion, eine Beschleunigungs-Aktion, eine Brems-Aktion, eine Brems-Löse-Aktion, eine Aktion zur Linksverschiebung um eine Spur oder eine Aktion zur Rechtsverschiebung um eine Spur einschließen.
  • Die Kommunikationsschnittstelle 150 des Systems für interaktionsbewusste Entscheidungsfindung 1500 kann die Netzwerkrichtlinie zur interaktionsbewussten Entscheidungsfindung mit mehreren Zielen, mehreren Agenten und mehreren Stufen an den Server 160 oder eines der Fahrzeuge 170, 180 übertragen, wodurch die Netzwerkrichtlinie verbreitet wird und es den jeweiligen autonomen Fahrzeugen möglich wird, entsprechend zu operieren. Das autonome Fahrzeug kann eine Fahrzeugkommunikationsschnittstelle einschließen, die so angepasst ist, dass sie die Netzwerkstrategie empfängt. Darüber hinaus kann das autonome Fahrzeug ein oder mehrere Systeme einschließen, die, wie oben angemerkt, ein autonomes Fahrsystem, eine Tempomatsystem, ein Kollisionsminderungsbremssystem, ein Getriebesystem, ein Bremspedalsystem, ein elektronisches Servolenkungssystem, usw. einschließen können. Das Steuergerät des Fahrzeugs kann ein oder mehrere Fahrzeugsysteme entsprechend der Netzwerkrichtlinie zur interaktionsbewussten Entscheidungsfindung mit mehreren Zielen, mehreren Agenten und mehreren Stufen betreiben.
  • 16 ist ein beispielhaftes Flussdiagramm eines Verfahrens 1600 für eine interaktionsbewusste Entscheidungsfindung gemäß einem Gesichtspunkt. Gemäß einem Gesichtspunkt kann das Verfahren 1600 zur interaktionsbewussten Entscheidungsfindung das Trainieren eines ersten Agenten in einer Einzel-Agent-Umgebung 1602 basierend auf einem ersten Richtliniengradienten und das Trainieren eines ersten Kritiker basierend auf einer ersten Verlustfunktion einschließen, um eines oder mehrere Ziele zu erlernen, wobei ein Markov-Entscheidungsprozesses angewendet wird. Das Verfahren 1600 zur interaktionsbewusstenEntscheidungsfindung kann das Training einer Anzahl N von Agenten auf der Grundlage des ersten Richtliniengradienten einschließen sowie das Training eines zweiten Richtliniengradienten und eines zweiten Kritikers in einer Multi-Agent-Umgebung mit unterschiedlichen Fahrertypen 1604 basierend auf der ersten Verlustfunktion und einer zweiten Verlustfunktion, um eines oder mehrerer Ziele mithilfe eines Markov-Spiels zu erlernen, um ein zweites neuronales Netzwerk zu instanziieren. Jede der N Anzahl von Agenten kann einem Fahrertyp zugeordnet sein, der einen Grad der Kooperation für den jeweiligen Agenten anzeigt. Das Verfahren 1600 für eine interaktionsbewusste Entscheidungsfindung kann das Zuweisen einer Spurprioritätsstufe 1606 basierend auf einer Position des jeweiligen Agenten und einem Layout der Multi-Agent-Umgebung einschließen. Wenn eine Kollision zwischen zwei oder mehr Agenten der Multi-Agent-Umgebung auftritt, wird eine negativen Belohnung 1608 oder Strafe an die jeweiligen an der Kollision beteiligten Agenten basierend auf der Spurprioritätsstufe der jeweiligen Agenten zugewiesen. Das Verfahren 1600 für eine interaktionsbewusste Entscheidungsfindung kann das Erzeugen einer Netzwerkrichtlinie 1610 basierend auf dem ersten neuronalen Agentennetzwerk und dem zweiten neuronalen Agentennetzwerk einschließen.
  • 17 ist ein exemplarisches Szenario, in dem die Generierung von Richtliniennetzwerken gemäß Systemen oder Verfahren für eine interaktionsbewusste Entscheidungsfindung gemäß einem Gesichtspunkt erfolgt. 17 zeigt ein Richtliniennetzwerk einschließlich Maskierungsmechanismen, die Prioritäts- und Fahrertypen als Eingaben zum Erzeugen des Richtliniennetzwerks verwenden. In diesem Beispiel werden 32 Einheiten in fc1, fc2, fc3, usw. Schichten (z. B. vollständig verbundene Schichten) verwendet. Die offenen und geschlossenen Beobachtungen werden durch eine neuronales Konvolutionsnetzwerk (CNN) verarbeitet, das zwei Filter der Größe 3x30, eine Schrittweite 1×1 einschließen kann; fc3, fc5, fc6 können Neuronen aufweisen und ReLU kann als die nicht lineare Aktivierungsfunktion für die Schichten verwendet werden.
  • 18A-18B sind beispielhafte Datenflussdiagramme jeweils in Verbindung mit dem Training der Stufe Eins bzw. der Stufe Zwei für Systeme und Verfahren für eine interaktionsbewusste Entscheidungsfindung gemäß einem Gesichtspunkt. 18A-18B veranschaulichen eine vorgeschlagene Zwei-Stufen-Lernprogramm-Lernstruktur. V ist der dezentrale Kritiker, der dieselbe Eingabe- und Netzwerkstruktur wie das Richtliniennetzwerk aufweisen kann. Der zentrale Kritiker Q kann volle Information für alle Agenten als eine Eingabe aufweisen und kann mit zwei FC-Schichten mit 128 Einheiten verbunden sein.
  • 19A-19D sind beispielhafte Umgebungen, die mit Trainingsagenten gemäß Systemen oder Verfahren für eine interaktionsbewusste Entscheidungsfindung gemäß einem Gesichtspunkt assoziiert sind. Die Umgebungen der 19A-19D kann als die Einzel-Agent-Umgebung oder als die Multi-Agent-Umgebung implementiert werden. Gesichtspunkte der Umgebungen, die dem Simulator 108 bekannt sein können, können die Straßengeometrie, Geschwindigkeitsbegrenzung, und Straßenprioritätsstufenregeln oder Verkehrsregeln einschließen.
  • In 19A ist eine erste Fahrbahn einer Straße oder Umgebung eine Geradeausspur 1910, und eine zweite Straße ist eine Straße, die eine Einfädelspur 1920 einschließt. Daher kann einem Fahrzeug an der Position 1902 eine höhere Spurprioritätsstufe als einem Fahrzeug bei 1904 oder 1906 zugeordnet werden. Jedoch kann einem Fahrzeug, das sich ausreichend vor einem anderen Fahrzeug befindet, wie beispielsweise einem Fahrzeug bei 1904, eine größere Spurprioritätsstufe als einem Fahrzeug bei 1906 zugewiesen werden. Nach anderen Gesichtspunkten kann das Fahrzeug an der Position 1906 eine höhere Spurprioritätsstufe als das Fahrzeug bei 1904 aufweisen.
  • In 19B ist eine erste Fahrbahn einer Straße oder Umgebung eine Geradeausspur 1930, und eine zweite Straße ist eine Straße, die eine Einfädelspur 1940 einschließt. Daher kann einem Fahrzeug an der Position 1932 eine höhere Spurprioritätsstufe als einem Fahrzeug bei 1934 oder 1936 zugeordnet werden. Ebenso kann das Fahrzeug an der Position 1936 eine höhere Spurprioritätsstufe als das Fahrzeug bei 1934 aufweisen.
  • In 19C schließt eine erste Fahrbahn einer Straße oder Umgebung eine Einfädelspur 1950 ein, und eine zweite Straße ist eine Straße, die auch eine Einfädelspur 1960 einschließt. Den Fahrzeugen an den Positionen 1952 und 1954 können gleiche Spurprioritätsstufen zugewiesen werden, da in diesem Szenario niemand Vorfahrt hat.
  • In 19D schließt eine erste Fahrbahn einer Straße oder Umgebung eine Straße in der vertikalen Richtung 1970 und eine zweite Straße in der horizontalen Richtung 1980 ein. Dem Fahrzeug an 1972 kann eine höhere Spurprioritätsstufe zugewiesen werden als einem Fahrzeug bei 1974, wenn das Fahrzeug bei 1972 nach links abbiegt.
  • Ein weiterer Gesichtspunkt betrifft ein computerlesbares Medium, das prozessorausführbare Anweisungen enthält, die dazu eingerichtet sind, einen Gesichtspunkt der hierin präsentierten Techniken zu implementieren. Ein Gesichtspunkt eines computerlesbaren Mediums oder einer computerlesbaren Vorrichtung, die auf diese Weisen entwickelt sind, ist in 20 veranschaulicht, wobei eine Implementierung 2000 ein computerlesbares Medium 2008 einschließt, wie eine CD-R, eine DVD-R, ein Flash-Laufwerk, eine Platte eines Festplattenlaufwerks usw., auf denen computerlesbaren Daten 2006 kodiert sind. Diese kodierten computerlesbaren Daten 2006, wie beispielsweise Binärdaten, die eine Vielzahl von Nullen und Einsen einschließen, wie in 2006 gezeigt, schließen wiederum einen Satz von prozessorausführbaren Computeranweisungen 2004 ein, die dazu eingerichtet sind, gemäß einem oder mehreren der hierin dargelegten Prinzipien zu operieren. In dieser Implementierung 2000 können die prozessorausführbaren Computeranweisungen 2004 zum Durchführen eines Verfahrens 2002 eingerichtet sein, wie dem Verfahren 300 aus 3, dem Verfahren aus 5A-5B, dem Verfahren 1200 aus 12 oder dem Verfahren 1600 aus 16. In einem anderen Gesichtspunkt können die prozessorausführbaren Computeranweisungen 2004 zum Realisieren eines Systems eingerichtet sein, wie beispielsweise dem Systems 100 aus 1, dem System 1100 aus 11 oder dem System 1500 aus 15. Viele derartige computerlesbare Medien können von Durchschnittsfachleuten entwickelt werden, und so eingerichtet werden, dass sie gemäß den hierin präsentierten Techniken operieren.
  • Wie in dieser Anmeldung verwendet, sollen sich die Begriffe „Komponente“, „Modul“, „System“, „Schnittstelle“ und dergleichen allgemein auf eine computerbezogene Einheit beziehen, entweder Hardware, eine Kombination aus Hardware und Software, Software oder Software in Ausführung. Zum Beispiel kann eine Komponente ein Prozess sein, der auf einem Prozessor, einer Verarbeitungseinheit, einem Objekt, einem ausführbaren Programm, einem Ausführungsthread, einem Programm oder einem Computer läuft, ist aber nicht darauf beschränkt. Zur Veranschaulichung können sowohl eine Anwendung, die auf einem Steuergerät ausgeführt wird, als auch das Steuergerät eine Komponente sein. Ein oder mehrere Komponenten, die sich in einem Prozess oder Ausführungsthread befinden und eine Komponente können auf einem Computer lokalisiert sein oder auf zwei oder mehr Computer verteilt sein.
  • Ferner wird der beanspruchte Gegenstand als ein Verfahren, eine Vorrichtung oder ein Herstellungsgegenstand unter Verwendung von Standardprogrammier- oder Entwicklungstechniken implementiert, um Software, Firmware, Hardware oder eine beliebige Kombination davon zu erzeugen, um einen Computer zum Implementieren des offenbarten Gegenstands zu steuern. Der Begriff „Herstellungsgegenstand“, wie er hierin verwendet wird, soll ein Computerprogramm umfassen, auf das von jeder computerlesbaren Vorrichtung, jedem Träger oder jedem Medium zugegriffen werden kann. Natürlich können viele Modifikationen an dieser Konfiguration vorgenommen werden, ohne vom Schutzumfang oder Geist des beanspruchten Gegenstands abzuweichen.
  • 21 und die folgende Erörterung stellen eine Beschreibung einer geeigneten Computerumgebung bereit, um Gesichtspunkte einer oder mehrerer der hierin dargelegten Maßnahmen zu implementieren. Die Betriebsumgebung von 21 ist lediglich ein Beispiel für eine geeignete Betriebsumgebung und soll keine Einschränkung hinsichtlich des Anwendungsbereichs oder der Funktionalität der Betriebsumgebung nahelegen. Beispielhafte Rechenvorrichtungen umfassen, sind aber nicht begrenzt auf, Personalcomputer, Servercomputer, tragbare Vorrichtungen oder Laptops, mobile Vorrichtungen, wie Mobiltelefone, Personal Digital Assistants (PDA), Mediaplayer, und dergleichen, Multiprozessorsysteme, Unterhaltungselektronik, Minicomputer, Großrechner, verteilte Computerumgebungen, die beliebige der oben genannten Systeme oder Vorrichtungen einschließen usw.
  • Im Allgemeinen werden Gesichtspunkte in dem allgemeinen Kontext von „computerlesbaren Anweisungen“ beschrieben, die durch eine oder mehrere Rechenvorrichtungen ausgeführt werden. Computerlesbare Anweisungen können über computerlesbare Medien verteilt werden, wie nachstehend erörtert wird. Computerlesbare Anweisungen können als Programmmodule wie Funktionen, Objekte, Anwendungsprogrammierschnittstellen (APIs), Datenstrukturen und dergleichen implementiert werden, die eine oder mehrere Aufgaben ausführen oder einen oder mehrere abstrakte Datentypen implementieren. Typischerweise wird die Funktionalität von computerlesbaren Anweisungen nach Wunsch in verschiedenen Umgebungen kombiniert oder verteilt.
  • 21 veranschaulicht ein System 2100, das eine Rechenvorrichtung 2112 einschließt, die konfiguriert ist, um einen hierin bereitgestellten Gesichtspunkt zu implementieren. In einer Konfiguration schließt die Rechenvorrichtung 2112 mindestens eine Verarbeitungseinheit 2116 und einen Arbeitsspeicher 2118 ein. Abhängig von der genauen Konfiguration und dem Typ der Rechenvorrichtung kann der Speicher 2118 flüchtig sein, wie z. B. RAM, nichtflüchtig, wie z. B. ROM, Flash-Speicher usw., oder eine Kombination der beiden. Diese Konfiguration ist in 21 durch die gestrichelte Linie 2114 dargestellt.
  • In anderen Gesichtspunkten schließt die Rechenvorrichtung 2112 zusätzliche Merkmale oder Funktionen ein. Zum Beispiel kann die Rechenvorrichtung 2112 zusätzlichen Speicher wie beispielsweise entfernbare Speicher oder nicht entfernbare Speicher einschließen, einschließlich, aber nicht begrenzt auf, magnetische Speicher, optische Speicher, usw. Solch ein zusätzlicher Speicher wird in 21 durch den Massenspeicher 2120 veranschaulicht. In einem Gesichtspunkt befinden sich computerlesbare Anweisungen zum Implementieren eines hierin bereitgestellten Gesichtspunkts im Massenspeicher 2120. Der Massenspeicher 2120 kann andere computerlesbare Anweisungen zur Implementierung eines Betriebssystems, eines Anwendungsprogramms usw. speichern. Computerlesbare Anweisungen können zum Beispiel zur Ausführung durch die Verarbeitungseinheit 2116 in den Arbeitsspeicher 2118 geladen werden.
  • Der Begriff „computerlesbares Medium“, wie er hierin verwendet wird, schließt Computerspeichermedien ein. Computerspeichermedien schließen flüchtige und nichtflüchtige, entfernbare und nicht entfernbare Medien ein, die in einem beliebigen Verfahren oder einer beliebigen Technologie zur Speicherung von Informationen wie beispielsweise computerlesbaren Anweisungen oder anderen Daten implementiert sind. Der Arbeitsspeicher 2118 und der Massenspeicher 2120 sind Beispiele für Computerspeichermedien. Computerspeichermedien umfassen RAM, ROM, EEPROM, Flash-Speicher oder andere Speichertechnologie, CD-ROM, Digital Versatile Disks (DVDs) oder andere optische Speicher, Magnetkassetten, Magnetband, Magnetplattenspeicher oder andere Magnetspeichervorrichtungen oder irgendein anderes Medium, das verwendet werden kann, um die gewünschten Informationen zu speichern und auf das von der Rechenvorrichtung 2112 zugegriffen werden kann, sind aber nicht darauf beschränkt. Jedes derartige Computerspeichermedium ist Teil der Rechenvorrichtung 2112.
  • Der Begriff „computerlesbares Medium“ schließt Kommunikationsmedien ein. Kommunikationsmedien verkörpern üblicherweise computerlesbare Anweisungen oder andere Daten in einem „modulierten Datensignal“, wie einer Trägerwelle oder einen anderen Transportmechanismus, und schließt beliebige Informationsbereitstellungsmedien ein. Der Begriff „moduliertes Datensignal“ schließt ein Signal ein, bei dem eine oder mehrere seiner Eigenschaften so eingestellt oder geändert sind, dass Informationen in dem Signal codiert werden.
  • Die Rechenvorrichtung 2112 umfasst die Eingabevorrichtung(en) 2124 wie Tastatur, Maus, Stift, Spracheingabevorrichtung, Berührungseingabeeinrichtung, Infrarotkameras, Videoeingangsvorrichtungen, oder eine beliebige andere Eingabevorrichtung. Die Ausgabevorrichtung(en) 2122, wie beispielsweise ein oder mehrere Anzeigen, Lautsprecher, Drucker oder irgendeine andere Ausgabevorrichtung, können in der Rechenvorrichtung 2112 enthalten sein. Die Eingabevorrichtung(en) 2124 und die Ausgabevorrichtung(en) 2122 werden über eine drahtgebundene Verbindung, eine drahtlose Verbindung oder eine Kombination davon mit der Rechenvorrichtung 2112 verbunden. Nach einem Gesichtspunkt kann eine Eingabevorrichtung oder eine Ausgabevorrichtung von einer anderen Rechenvorrichtung als Eingabevorrichtung(en) 2124 oder Ausgabevorrichtung(en) 2122 für die Rechenvorrichtung 2112 verwendet werden. Die Rechenvorrichtung 2112 schließt Kommunikationsverbindung(en) 2126 ein, um Kommunikationen mit einer oder mehreren anderen Vorrichtungen 2130 zu erleichtern, wie zum Beispiel über das Netzwerk 2128.
  • Obwohl der Gegenstand in einer Sprache beschrieben wurde, die spezifisch für strukturelle Merkmale oder methodische Vorgänge ist, versteht es sich, dass der Gegenstand der beigefügten Ansprüche nicht notwendigerweise auf die oben beschriebenen spezifischen Merkmale oder Handlungen beschränkt ist. Vielmehr werden die vorstehend beschriebenen spezifischen Merkmale und Handlungen als beispielhafte Gesichtspunkte offenbart.
  • Verschiedene Operationen von Gesichtspunkten werden hierin bereitgestellt. Die Reihenfolge, in der eine oder mehrere oder alle der Operationen beschrieben werden, sollte nicht so ausgelegt werden, dass sie impliziert, dass diese Operationen notwendigerweise ordnungsabhängig sind. Alternative Reihenfolgen werden basierend auf dieser Beschreibung gewürdigt. Weiterhin werden nicht alle Operationen notwendigerweise in jedem Gesichtspunkt bereitgestellt.
  • Wie in dieser Anmeldung verwendet, soll „oder“ eher ein einschließendes „oder“ als ein ausschließendes „oder“ bedeuten. Ferner kann ein einschließendes „oder“ eine beliebige Kombination davon (z. B. A, B oder irgendeine Kombination davon) einschließen. Darüber hinaus sind „ein“ und „eine“, wie in dieser Anmeldung verwendet, im Allgemeinen so zu verstehen, dass sie „ein(e) oder mehrere“ bedeuten, sofern nicht anders angegeben oder aus dem Kontext deutlich auf eine Singularform bezogen. Außerdem bedeutet mindestens eines von A und B und/oder dergleichen im Allgemeinen A oder B oder sowohl A als auch B. Weiterhin sind dahingehend, dass „schließt ein“, „verfügt über“, „hat“, „mit“ oder Varianten davon in entweder der detaillierten Beschreibung oder in den Ansprüchen verwendet wird, ein solcher Begriff so zu verstehen ist, dass er in einer Weise ähnlich zu dem Begriff „umfassend“ einschließend ist.
  • Weiterhin, sofern nicht anders angegeben, sollen „erster“, „zweiter“ oder dergleichen nicht unter einem zeitlichen Gesichtspunkt, einen räumlichen Gesichtspunkt, einer Reihenfolge usw. verstanden werden. Vielmehr sind solche Begriffe lediglich als Identifikatoren, Bezeichnungen usw. für Merkmale, Elemente, Artikel usw. zu verstehen. Zum Beispiel entsprechen ein erster Kanal und ein zweiter Kanal im Allgemeinen Kanal A und Kanal B oder zwei verschiedenen oder zwei identischen Kanälen oder dem gleichen Kanal. Zusätzlich bedeutet „umfassend“, „umfasst“, „einschließlich“, „einschließen“ oder dergleichen im Allgemeinen umfassend oder einschließlich, ist aber nicht darauf beschränkt.
  • Es versteht sich, dass verschiedene der oben offenbarten und anderen Merkmale und Funktionen, oder Alternativen oder Varianten davon, vorzugsweise in viele andere unterschiedliche Systeme oder Anwendungen kombiniert werden können. Auch dass verschiedene derzeit unvorhergesehene oder unerwartete Alternativen, Modifikationen, Variationen oder Verbesserungen daran nachfolgend von Fachleuten auf diesem Gebiet der Technik vorgenommen werden können, die ebenfalls durch die folgenden Ansprüche erfasst werden.
  • ZITATE ENTHALTEN IN DER BESCHREIBUNG
  • Diese Liste der vom Anmelder aufgeführten Dokumente wurde automatisiert erzeugt und ist ausschließlich zur besseren Information des Lesers aufgenommen. Die Liste ist nicht Bestandteil der deutschen Patent- bzw. Gebrauchsmusteranmeldung. Das DPMA übernimmt keinerlei Haftung für etwaige Fehler oder Auslassungen.
  • Zitierte Patentliteratur
    • US 62/731729 [0001]
    • US 16/103847 [0001]
    • US 62/571717 [0001]
    • US 16/193291 [0001]

Claims (20)

  1. Verfahren zur interaktionsbewussten Entscheidungsfindung, umfassend: Trainieren eines ersten Agenten basierend auf einem ersten Richtliniengradienten und Trainieren eines ersten Kritikers basierend auf einer ersten Verlustfunktion zum Erlernen eines oder mehrere Ziele in einer Einzel-Agent-Umgebung, wobei der erste Agent der einzige vorhandene Agent ist und ein Markov Entscheidungsprozess angewendet wird, wobei der erste Agent einem ersten neuronalen Agentennetzwerk zugeordnet ist und der erste Kritiker einem ersten neuronalen Kritikernetzwerk zugeordnet ist; Trainieren einer Anzahl N von Agenten basierend auf dem ersten Richtliniengradienten und Trainieren eines zweiten Richtliniengradienten und eines zweiten Kritikers basierend auf der ersten Verlustfunktion und einer zweiten Verlustfunktion, um eines oder mehrere der Ziele in einer Multi-Agent-Umgebung, die den ersten Agenten und die N Anzahl von Agenten einschließt, unter Verwendung eines Markov-Spiels zu erlernen, um ein zweites neuronales Agentennetzwerk zu instanziieren, wobei jeder der N Agenten einem Fahrertyp zugeordnet ist, der einen Grad der Kooperation für den jeweiligen Agenten angibt; Generieren einer Netzwerkrichtlinie zur interaktionsbewussten Entscheidungsfindung mit mehreren Zielen, mehreren Agenten und mehreren Stufen auf der Grundlage des ersten neuronalen Agentennetzwerks und des zweiten neuronalen Agentennetzwerks.
  2. Verfahren zur interaktionsbewussten Entscheidungserzeugung nach Anspruch 1, wobei sowohl der erste Agent als auch die N Anzahl von Agenten einer Spurprioritätsstufe zugeordnet sein können, die auf einer Position des jeweiligen Agenten und einem Layout der Multi-Agenten-Umgebung basiert, und wobei während des Trainings der Anzahl N von Agenten dann, wenn eine Kollision zwischen zwei oder mehreren Agenten der Multi-Agent-Umgebung auftritt, den jeweiligen Agenten, die an der Kollision beteiligt sind, eine negative Belohnung oder ein Nachteil zugewiesen wird, die auf der Spurprioritätsstufe des jeweiligen Agenten basiert.
  3. Verfahren zur interaktionsbewussten Entscheidungsfindung nach Anspruch 1, wobei der Fahrertyp kooperative oder kompetitiv ist.
  4. Verfahren zur interaktionsbewussten Entscheidungsfindung nach Anspruch 1, wobei während des Trainings der N Anzahl von Agenten in der Multi-Agent-Umgebung ein Agent der N Anzahl von Agenten den Fahrertyp während des Trainings ändert.
  5. Verfahren für eine interaktionsbewusste Entscheidungsfindung nach Anspruch 1, umfassend die Bestimmung einer Maske, die auf eine Teilmenge eines Satzes möglicher Aktionen für den ersten Agenten für ein Zeitintervall basierend auf einem Layout der Multi-Agent-Umgebung oder der Positionierung des ersten Agenten und der N Anzahl von Agenten anzuwenden ist.
  6. Verfahren zur interaktionsbewussten Entscheidungsfindung nach Anspruch 5, umfassend das Trainieren des ersten Agenten auf der Grundlage eines verbleibenden Satzes von Aktionen, indem der maskierte Satz von Aktionen aus dem Satz möglicher Aktionen ausgeschlossen wird.
  7. Verfahren zur interaktionsbewussten Entscheidungsfindung nach Anspruch 5, wobei der Satz möglicher Aktionen eine Nicht-Handlungs-Aktion, eine Beschleunigungs-Aktion, eine Brems-Aktion, eine Brems-Löse-Aktion, eine Aktion zur Linksverschiebung um eine Spur oder eine Aktion zur Rechtsverschiebung um eine Spur einschließt.
  8. Verfahren zur interaktionsbewussten Entscheidungsfindung nach Anspruch 1, wobei der erste Kritiker ein dezentraler Kritiker ist und der zweite Kritiker ein zentraler Kritiker ist.
  9. Verfahren zur interaktionsbewussten Entscheidungsfindung nach Anspruch 1, wobei das Training des ersten Agenten in der Einzel-Agent-Umgebung vor dem Training der N Anzahl von Agenten in der Multi-Agent-Umgebung erfolgt.
  10. Das Verfahren zur interaktionsbewussten Entscheidungsfindung nach Anspruch 1, umfassend das Training der N Anzahl von Agenten auf der Grundlage eines kombinierten Richtliniengradienten, der aus dem ersten Richtliniengradienten und dem zweiten Richtliniengradienten abgeleitet wird.
  11. Ein System zur interaktionsbewussten Entscheidungsfindung, umfassend: einen Prozessor; einen Speicher; und einen Simulator, der über den Prozessor und den Speicher implementiert wird und Folgendes durchführt: Trainieren eines ersten Agenten basierend auf einem ersten Richtliniengradienten und Trainieren eines ersten Kritikers basierend auf einer ersten Verlustfunktion zum Erlernen eines oder mehrere Ziele in einer Einzel-Agent-Umgebung, wobei der erste Agent der einzige vorhandene Agent ist und ein Markov Entscheidungsprozess angewendet wird, wobei der erste Agent einem ersten neuronalen Agentennetzwerk zugeordnet ist und der erste Kritiker einem ersten neuronalen Kritikernetzwerk zugeordnet ist; Trainieren einer Anzahl N von Agenten basierend auf dem ersten Richtliniengradienten und Trainieren eines zweiten Richtliniengradienten und eines zweiten Kritikers basierend auf der ersten Verlustfunktion und einer zweiten Verlustfunktion, um eines oder mehrere der Ziele in einer Multi-Agent-Umgebung, die den ersten Agenten und die N Anzahl von Agenten einschließt, unter Verwendung eines Markov-Spiels zu erlernen, um ein zweites neuronales Agentennetzwerk zu instanziieren, wobei sowohl der erste Agent als auch die N Anzahl von Agenten einer Spurprioritätsstufe zugeordnet sein können, die auf einer Position des jeweiligen Agenten und einem Layout der Multi-Agenten-Umgebung basiert, wobei während des Trainings der Anzahl N von Agenten dann, wenn eine Kollision zwischen zwei oder mehreren Agenten der Multi-Agent-Umgebung auftritt, den jeweiligen Agenten, die an der Kollision beteiligt sind, durch den Simulator eine negative Belohnung oder ein Strafe zugewiesen wird, die auf auf der Spurprioritätsstufe des jeweiligen Agenten basiert; Generieren einer Netzwerkrichtlinie zur interaktionsbewussten Entscheidungsfindung mit mehreren Zielen, mehreren Agenten und mehreren Stufen auf der Grundlage des ersten neuronalen Agentennetzwerks und des zweiten neuronalen Agentennetzwerks.
  12. System zur interaktionsbewussten Entscheidungsfindung nach Anspruch 11, wobei jeder der N Anzahl von Agenten einem Fahrertyp zugeordnet ist, der den Grad der Kooperation für den jeweiligen Agenten angibt, wobei der Fahrertyp kooperativ oder kompetitiv ist.
  13. System für eine interaktionsbewusste Entscheidungsfindung nach Anspruch 11, umfassend einen Q-Maskierer, der eine Maske bestimmt, die auf eine Teilmenge eines Satzes möglicher Aktionen für den ersten Agenten für ein Zeitintervall basierend auf einem Layout der Multi-Agent-Umgebung oder der Positionierung des ersten Agenten und der N Anzahl von Agenten anzuwenden ist.
  14. System für eine interaktionsbewusste Entscheidungsfindung nach Anspruch 13, wobei der Simulator den ersten Agenten auf der Grundlage eines verbleibenden Satzes von Aktionen durch Ausschließen des maskierten Satzes von Aktionen aus dem Satz möglicher Aktionen trainiert.
  15. System für eine interaktionsbewusste Entscheidungsfindung nach Anspruch 13, wobei der Satz möglicher Aktionen eine Nicht-Handlungs-Aktion, eine Beschleunigungs-Aktion, eine Brems-Aktion, eine Brems-Löse-Aktion, eine Aktion zur Linksverschiebung um eine Spur oder eine Aktion zur Rechtsverschiebung um eine Spur einschließt.
  16. System für eine interaktionsbewusste Entscheidungsfindung nach Anspruch 11, wobei der erste Kritiker ein dezentraler Kritiker ist und der zweite Kritiker ein zentraler Kritiker ist.
  17. System für eine interaktionsbewusste Entscheidungsfindung nach Anspruch 11, wobei das Training des ersten Agenten in der Einzel-Agent-Umgebung durch den Simulator vor dem Training der N Anzahl von Agenten in der Multi-Agent-Umgebung erfolgt.
  18. System für eine interaktionsbewusste Entscheidungsfindung nach Anspruch 11, wobei der Simulator die N Anzahl von Agenten auf der Grundlage eines aus dem ersten Richtliniengradienten und dem zweiten Richtliniengradienten abgeleiteten kombinierten Richtliniengradienten trainiert.
  19. System für eine interaktionsbewusste Entscheidungsfindung nach Anspruch 11, umfassend eine Kommunikationsschnittstelle zum Übertragen der Netzwerkrichtlinie zur interaktionsbewussten Entscheidungsfindung mit mehreren Zielen, mehreren Agenten und mehreren Stufen an einen Server oder ein Fahrzeug.
  20. Ein Fahrzeug für eine interaktionsbewusste Entscheidungsfindung, umfassend: ein Steuergerät mit einem Prozessor und einem Speicher; ein oder mehrere Fahrzeugsysteme; und eine Fahrzeugkommunikationsschnittstelle, die die Netzwerkrichtlinie zur interaktionsbewussten Entscheidungsfindung mit mehreren Zielen, mehreren Agenten und mehreren Stufen empfängt, wobei das Steuergerät eines oder mehrere der Fahrzeugsysteme des Fahrzeugs entsprechend der Netzwerkrichtlinie zur interaktionsbewussten Entscheidungsfindung mit mehreren Zielen, mehreren Agenten und mehreren Stufen betreibt, und wobei die Netzwerkrichtlinie zur interaktionsbewussten Entscheidungsfindung mit mehreren Zielen, mehreren Agenten und mehreren Stufen dadurch erzeugt wird, dass: ein erster Agent auf der Grundlage eines ersten Richtliniengradienten trainiert wird und ein erster Kritiker auf der Grundlage einer ersten Verlustfunktion trainiert wird, um ein oder mehrere Ziele in einer Einzel-Agenten-Umgebung zu erlernen, wobei der erste Agent der einzige vorhandene Agent ist, der in der ersten Stufe einen Markov-Entscheidungsprozess verwendet, wobei der erste Agent einem ersten neuronalen Agentennetzwerk zugeordnet ist und der erste Kritiker einem ersten neuronalen Kritikernetzwerk zugeordnet ist; eine Anzahl N von Agenten auf der Grundlage des ersten Richtliniengradienten trainiert wird und ein zweiter Richtliniengradienten und ein zweiter Kritiker auf der Grundlage der ersten Verlustfunktion und einer zweiten Verlustfunktion trainiert werden, um eines oder mehrere der Ziele in einer Multi-Agent-Umgebung, die den ersten Agenten und die N Anzahl von Agenten einschließt, unter Verwendung eines Markov-Spiels zu erlernen, um in einer zweiten Stufe ein zweites neuronales Agentennetzwerk zu instanziieren, wobei jeder der N Anzahl von Agenten einem Fahrertyp zugeordnet ist, der eine Kooperationsstufe für den jeweiligen Agenten angibt; und Generieren der Netzwerkrichtlinie zur interaktionsbewussten Entscheidungsfindung mit mehreren Zielen, mehreren Agenten und mehreren Stufen auf der Grundlage des ersten neuronalen Agentennetzwerks und des zweiten neuronalen Agentennetzwerks.
DE102019121717.2A 2018-08-14 2019-08-12 Interaktionsbewusste entscheidungsfindung Withdrawn DE102019121717A1 (de)

Applications Claiming Priority (8)

Application Number Priority Date Filing Date Title
US16/103,847 2018-08-14
US16/103,847 US10739776B2 (en) 2017-10-12 2018-08-14 Autonomous vehicle policy generation
US201862731729P 2018-09-14 2018-09-14
US62/731,729 2018-09-14
US16/193,291 US11657266B2 (en) 2018-11-16 2018-11-16 Cooperative multi-goal, multi-agent, multi-stage reinforcement learning
US16/193,291 2018-11-16
US16/397,752 2019-04-29
US16/397,752 US11093829B2 (en) 2017-10-12 2019-04-29 Interaction-aware decision making

Publications (1)

Publication Number Publication Date
DE102019121717A1 true DE102019121717A1 (de) 2020-02-20

Family

ID=69320624

Family Applications (1)

Application Number Title Priority Date Filing Date
DE102019121717.2A Withdrawn DE102019121717A1 (de) 2018-08-14 2019-08-12 Interaktionsbewusste entscheidungsfindung

Country Status (3)

Country Link
JP (1) JP6797254B2 (de)
CN (1) CN110861634B (de)
DE (1) DE102019121717A1 (de)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE102020209685A1 (de) 2020-07-31 2022-02-03 Robert Bosch Gesellschaft mit beschränkter Haftung Verfahren zum steuern einer robotervorrichtung und robotervorrichtungssteuerung

Families Citing this family (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11458983B2 (en) * 2020-07-28 2022-10-04 Huawei Technologies Co., Ltd. System and method for managing flexible control of vehicles by diverse agents in autonomous driving simulation
CN111967199B (zh) * 2020-09-23 2022-08-05 浙江大学 一种强化学习多代理合作任务下的代理贡献分配的方法
CN112529254B (zh) * 2020-11-19 2022-11-25 歌尔股份有限公司 一种路径规划方法、装置和电子设备
CN112766497A (zh) * 2021-01-29 2021-05-07 北京字节跳动网络技术有限公司 深度强化学习模型的训练方法、装置、介质及设备
CN113052312A (zh) * 2021-03-31 2021-06-29 北京字节跳动网络技术有限公司 深度强化学习模型的训练方法、装置、介质及电子设备
CN113264064B (zh) * 2021-03-31 2022-05-10 志行千里(北京)科技有限公司 用于交叉路口场景的自动驾驶方法及相关设备
CN113341960B (zh) * 2021-05-26 2022-06-03 重庆大学 基于监督式dqn算法的自动驾驶汽车转向控制方法
CN113734170B (zh) * 2021-08-19 2023-10-24 崔建勋 一种基于深度q学习的自动驾驶换道决策方法
CN113682312B (zh) * 2021-09-23 2023-07-25 中汽创智科技有限公司 一种融合深度强化学习的自主换道方法及系统
CN116128013B (zh) * 2023-04-07 2023-07-04 中国人民解放军国防科技大学 基于多样性种群训练的临机协同方法、装置和计算机设备
CN117313972B (zh) * 2023-09-28 2024-04-12 烟台大学 一种无人艇集群的攻击方法、系统、装置及存储介质

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
MX344434B (es) * 2011-12-16 2016-12-15 Pragmatek Transp Innovations Inc Aprendizaje por refuerzo de agentes multiples para control de señales de transito adaptable, integrado y conectado en red.
US9189730B1 (en) * 2012-09-20 2015-11-17 Brain Corporation Modulated stochasticity spiking neuron network controller apparatus and methods
US20150339589A1 (en) * 2014-05-21 2015-11-26 Brain Corporation Apparatus and methods for training robots utilizing gaze-based saliency maps
CN105035085B (zh) * 2015-07-31 2017-08-04 奇瑞汽车股份有限公司 自动跟车方法及装置
WO2017163538A1 (ja) * 2016-03-25 2017-09-28 ソニー株式会社 情報処理装置

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE102020209685A1 (de) 2020-07-31 2022-02-03 Robert Bosch Gesellschaft mit beschränkter Haftung Verfahren zum steuern einer robotervorrichtung und robotervorrichtungssteuerung
DE102020209685B4 (de) 2020-07-31 2023-07-06 Robert Bosch Gesellschaft mit beschränkter Haftung Verfahren zum steuern einer robotervorrichtung und robotervorrichtungssteuerung
US11759947B2 (en) 2020-07-31 2023-09-19 Robert Bosch Gmbh Method for controlling a robot device and robot device controller

Also Published As

Publication number Publication date
CN110861634B (zh) 2023-01-17
JP2020027656A (ja) 2020-02-20
CN110861634A (zh) 2020-03-06
JP6797254B2 (ja) 2020-12-09

Similar Documents

Publication Publication Date Title
DE102019121717A1 (de) Interaktionsbewusste entscheidungsfindung
US11093829B2 (en) Interaction-aware decision making
DE102019206092A1 (de) Systeme und verfahren zum erzeugen von instruktionen zum befahren von kreuzungen mit autonomen fahrzeugen
DE112017006530T5 (de) Rückmeldung für ein autonomes fahrzeug
DE102020100078A1 (de) Verbessern des autonomen fahrens mit empfehlung eines entfernten betrachters
DE102014204559A1 (de) Erweiterte-realität-head-up-display (hud) für linkskurvensicherheitshinweise
DE102016205152A1 (de) Fahrerassistenzsystem zum Unterstützen eines Fahrers beim Führen eines Fahrzeugs
DE102013005362A1 (de) Verfahren zur Analyse einer Verkehrssituation
DE102019103106A1 (de) Steuerungssystem und Steuerungsverfahren zur interaktionsbasierten Langzeitbestimmung von Trajektorien für Kraftfahrzeuge
EP3543985A1 (de) Simulieren verschiedener verkehrssituationen für ein testfahrzeug
DE102018217004A1 (de) Autonome Fahrzeugstrategiegenerierung
DE102007053501A1 (de) Verfahren zur Entwicklung und/oder zum Testen wenigstens eines Sicherheits- und/oder Fahrerassistenzsystems für ein Kraftfahrzeug und Simulationsumgebung
AT14433U2 (de) Automatisierter Fahrstreifenwechsel im dynamischen Verkehr, basierend auf fahrdynamisch bedingten Einschränkungen
DE102019118366A1 (de) Verfahren sowie Steuergerät für ein System zum Steuern eines Kraftfahrzeugs
EP4052178A1 (de) Verfahren zum trainieren wenigstens eines algorithmus für ein steuergerät eines kraftfahrzeugs, computerprogrammprodukt sowie kraftfahrzeug
DE102020122357A1 (de) Fahrerbewusstseinserfassungssystem
DE102014003343A1 (de) Verfahren zum Ermitteln eines Spurwechselbedarfs eines Systemfahrzeugs
DE102021109395A1 (de) Verfahren, systeme und vorrichtungen für benutzerverständliche erklärbare lernmodelle
DE102017200580A1 (de) Verfahren zur Optimierung einer Manöverplanung für autonom fahrende Fahrzeuge
DE102018211726A1 (de) Verfahren zum automatischen maschinellen Trainieren eines elektronischen Fahrzeugführungssystems, sowie Kraftfahrzeug
DE102018216719A1 (de) Schlüsselbildbasierter autonomer Fahrzeugbetrieb
DE102022102501B3 (de) Verfahren, System und Computerprogrammprodukt zur Ermittlung einer Bewertung über die Funktionsfähigkeit einer Komponente eines Kraftfahrzeugs
DE102019215141B4 (de) Verfahren zum Prognostizieren einer zukünftigen Verkehrssituation in einer Umgebung eines Kraftfahrzeugs durch Bestimmen mehrerer in sich konsistenter Gesamtszenarios für unterschiedliche Verkehrsteilnehmer; Kraftfahrzeug
DE112022002869T5 (de) Verfahren und System zur Verhaltensprognose von Akteuren in einer Umgebung eines autonomen Fahrzeugs
WO2022251890A1 (de) Verfahren und system zum testen eines fahrerassistenzsystems für ein fahrzeug

Legal Events

Date Code Title Description
R012 Request for examination validly filed
R082 Change of representative

Representative=s name: WEICKMANN & WEICKMANN PATENT- UND RECHTSANWAEL, DE

R119 Application deemed withdrawn, or ip right lapsed, due to non-payment of renewal fee