DE102019121717A1

DE102019121717A1 - Interaktionsbewusste entscheidungsfindung

Info

Publication number: DE102019121717A1
Application number: DE102019121717.2A
Authority: DE
Inventors: Yeping Hu; Alireza Nakhaei Sarvedani; Masayoshi Tomizuka; Kikuo Fujimura
Original assignee: Honda Motor Co Ltd
Current assignee: Honda Motor Co Ltd
Priority date: 2018-08-14
Filing date: 2019-08-12
Publication date: 2020-02-20
Also published as: CN110861634B; JP2020027656A; CN110861634A; JP6797254B2

Abstract

Eine interaktionsbewusste Entscheidungsfindung kann das Trainieren eines ersten Agenten auf der Grundlage eines ersten Richtliniengradienten, das Trainieren eines ersten Kritikers auf der Grundlage einer ersten Verlustfunktion zum Erlernen von Zielen in einer Einzel-Agent-Umgebung mithilfe eines Markov-Entscheidungsprozesses, das Trainieren einer Anzahl N der Agenten auf der Grundlage eines ersten Richtliniengradienten, das Trainieren eines ersten Richtliniengradienten und eines zweiten Kritikers auf der Grundlage der ersten Verlustfunktion und einer zweiten Verlustfunktion zum Erlernen der Ziele in einer Multi-Agent-Umgebung mithilfe eines Markov-Spiels, um ein zweites neuronales Agentennetzwerk zu instanziieren, und das Erzeugen einer Netzwerkrichtlinie zur interaktionsbewussten Entscheidungsfindung auf der Grundlage des ersten neuronalen Agentennetzwerks und des zweiten neuronalen Agentennetzwerks einschließen. Die N Anzahl von Agenten kann mit einem Fahrertyp assoziiert sein, der eine Kooperationsstufe angibt. Wenn eine Kollision auftritt, kann jedem beteiligten Agenten, basierend auf einer Spurprioritätsstufe des jeweiligen Agenten, eine negative Belohnung oder Strafe zugewiesen werden.

Description

QUERVERWEIS AUF VERWANDTE ANWENDUNGEN
Diese Anmeldung beansprucht den Vorteil der vorläufigen U.S.-Patentanmeldung, Seriennr. 62/731729 , eingereicht am 14. September 2018, einer teilweisen Fortführung der U.S.-Patentanmeldung, Seriennr. 16/103847 (Anwaltsaktenzeichen Nr. HRA 43303.01), eingereicht am 14. August 2018, die den Nutzen der vorläufigen U.S.-Patentanmeldung, Seriennr. 62/571717 (Anwaltsaktenzeichen Nr. HRA 43303), eingereicht am 12. Oktober 2017 beansprucht und eine teilweise Fortführung der U.S.-Patentanmeldung, Seriennr. 16/193291 (Anwaltsaktenzeichen HRA 44391), eingereicht am 16. November 2018 ist; wobei die Gesamtheit der oben erwähnten Anmeldung(en) hierin durch Bezugnahme aufgenommen ist.
HINTERGRUND
Effiziente Forschungen zum Verstärkungslernen können in einer Multi-Agenten-Umgebung, bei denen der Zustandsraum und der gemeinsame Wirkungsraum exponentiell mit der Anzahl der Agenten ansteigt, schwierig sein. Es kann in hohem Maße ineffizient sein, sich auf zufällige Erkundungen zu verlassen, um sowohl die individuelle Aufgabenerledigung als auch das kooperative Verhalten gleichzeitig zu erlernen. Agenten, die noch nicht gelernt haben, lokale Ziele zu erreichen, werden selten auf den Bereich des Zustandsraums treffen, in dem Kooperation erforderlich ist, wodurch Erkundungsaktionen für das Erlernen kooperativen Verhaltens unbrauchbar werden. Auf der anderen Seite können Erkundungsaktionen, die in Situationen ergriffen werden, die eine Koordinierung erfordern, zum Scheitern führen, und die daraus resultierenden Strafen können dazu führen, dass die Agenten das Koordinierungsproblem vollständig umgehen und ihre individuellen Aufgaben nicht erlernen.
KURZE BESCHREIBUNG
Gemäß einem Gesichtspunkt kann ein Verfahren zur interaktionsbewussten Entscheidungsfindung das Trainieren eines ersten Agenten basierend auf einem ersten Richtliniengradienten und das Trainieren eines ersten Kritikers basierend auf einer ersten Verlustfunktion einschließen, um ein oder mehrere Ziele in einer Einzel-Agent-Umgebung zu erlernen, wobei der erste Agent der einzige vorhandene Agent ist und eine Markov-Entscheidungsprozesses angewendet wird. Der erste Agent kann einem ersten neuronalen Agentennetzwerk zugeordnet sein und der erste Kritiker kann einem ersten neuronalen Kritikernetzwerk zugeordnet sein. Das Verfahren für eine interaktionsbewusste Entscheidungsfindung kann das Trainieren einer Anzahl N von Agenten auf der Grundlage des ersten Richtliniengradienten und das Trainieren eines zweiten Richtliniengradienten und eines zweiten Kritikers auf der Grundlage der ersten Verlustfunktion und einer zweiten Verlustfunktion einschließen, um eines oder mehrere der Ziele in einer Multi-Agent-Umgebung, die den ersten Agenten und die N Anzahl von Agenten einschließt, unter Verwendung eines Markov-Spiels zu erlernen, um ein zweites neuronales Agentennetzwerk zu instanziieren. Jede der N Anzahl von Agenten kann einem Fahrertyp zugeordnet sein, der einen Grad der Kooperation für den jeweiligen Agenten anzeigt. Das Verfahren zur interaktionsbewussten Entscheidungsfindung kann das Generieren einer Netzwerkrichtlinie zur interaktionsbewussten Entscheidungsfindung mit mehreren Zielen, mehreren Agenten und mehreren Stufen auf der Grundlage des ersten neuronalen Agentennetzwerks und des zweiten neuronalen Agentennetzwerks einschließen.
Der Fahrertyp kann kooperativ oder kompetitiv sein. Während des Trainings der N Anzahl von Agenten in der Multi-Agent-Umgebung kann ein Agent der N Anzahl von Agenten den Fahrertyps während des Trainings ändern.
Sowohl der erste Agent als auch die N Anzahl von Agenten können einer Spurprioritätsstufe zugeordnet sein, die auf einer Position des jeweiligen Agenten und einem Layout der Multi-Agent-Umgebung basiert. Während des Trainings der Anzahl N von Agenten kann, wenn eine Kollision zwischen zwei oder mehreren Agenten der Multi-Agent-Umgebung auftritt, den jeweiligen Agenten, die an der Kollision beteiligt sind, eine negative Belohnung oder eine Strafe zugewiesen werden, die auf der Spurprioritätsstufe des jeweiligen Agenten basiert.
Das Verfahren zur interaktionsbewussten Entscheidungsfindung kann das Bestimmen einer Maske, die auf eine Teilmenge einer Menge möglicher Aktionen für den ersten Agenten anzuwenden ist, für ein Zeitintervall basierend auf einem Layout der Multi-Agent-Umgebung oder das Positionieren des ersten Agenten und der N Anzahl von Agenten und das Trainieren des ersten Agenten auf der Grundlage eines verbleibenden Satzes von Aktionen durch Ausschluss des maskierten Satzes von Aktionen aus dem Satz möglicher Aktionen einschließen. Der Satz von möglichen Aktionen kann eine Nicht-Handlungs-Aktion, eine Beschleunigungs-Aktion, eine Brems-Aktion, eine Brems-Löse-Aktion, eine Aktion zur Linksverschiebung um eine Spur oder eine Aktion zur Rechtsverschiebung um eine Spur einschließen.
Der erste Kritiker kann ein dezentraler Kritiker sein und der zweite Kritiker kann ein zentraler Kritiker sein. Das Training des ersten Agenten in der Einzel-Agent-Umgebung kann vor dem Training der N Anzahl von Agenten in der Multi-Agent-Umgebung erfolgen. Das Verfahren zur interaktionsbewussten Entscheidungsfindung kann das Trainieren der N Anzahl von Agenten auf der Grundlage eines kombinierten Richtliniengradienten einschließen, der aus dem ersten Richtliniengradienten und dem zweiten Richtliniengradienten abgeleitet wird.
Gemäß einem Gesichtspunkt kann ein System für eine interaktionsbewusste Entscheidungsfindung einen Prozessor, einen Speicher und einen Simulator, der über den Prozessor und Speicher implementiert ist, einschließen. Der Simulator kann das Training eines ersten Agenten basierend auf einem ersten Richtliniengradienten und das Training eines ersten Kritikers basierend auf einer ersten Verlustfunktion durchführen, um eines oder mehrere Ziele in einer Einzel-Agent-Umgebung zu erlernen, wobei der erste Agent der einzige vorhandene Agent ist und ein Markov-Entscheidungsprozess angewendet wird. Der erste Agent kann einem ersten neuronalen Agentennetzwerk zugeordnet sein und der erste Kritiker kann einem ersten neuronalen Kritikernetzwerk zugeordnet sein. Der Simulator kann eine Anzahl N von Agenten auf der Grundlage des ersten Richtliniengradienten trainieren und einen zweiten Richtliniengradienten und einen zweiten Kritiker auf der Grundlage der ersten Verlustfunktion und einer zweiten Verlustfunktion trainieren, um eines oder mehrere der Ziele in einer Multi-Agent-Umgebung, die den ersten Agenten und die N Anzahl von Agenten einschließt, unter Verwendung eines Markov-Spiels zu erlernen, um ein zweites neuronales Agentennetzwerk zu instanziieren. Sowohl der erste Agent als auch die N Anzahl von Agenten können einer Spurprioritätsstufe zugeordnet sein, die auf einer Position des jeweiligen Agenten und einem Layout der Multi-Agent-Umgebung basiert. Während des Trainings der Anzahl N von Agenten kann, wenn eine Kollision zwischen zwei oder mehreren Agenten der Multi-Agent-Umgebung auftritt, den jeweiligen Agenten, die an der Kollision beteiligt sind, durch den Simulator eine negative Belohnung oder eine Strafe zugewiesen werden, die auf der Spurprioritätsstufe des jeweiligen Agenten basiert. Der Simulator kann auf der Grundlage des ersten neuronalen Agentennetzwerks und des zweiten neuronalen Agentennetzwerks eine Netzwerkrichtlinie zur interaktionsbewussten Entscheidungsfindung mit mehreren Zielen, mehreren Agenten und mehreren Stufen generieren.
Jede der N Anzahl von Agenten kann einem Fahrertyp zugeordnet sein, der einen Grad der Kooperation für den jeweiligen Agenten anzeigt. Der Fahrertyp kann kooperativ oder kompetitiv sein.
Das System für interaktionsbewusste Entscheidungsfindung kann einen Q-Maskierer einschließen, der eine Maske bestimmt, die auf eine Teilmenge eines Satzes möglicher Aktionen für den ersten Agenten für ein Zeitintervall basierend auf einem Layouts der Multi-Agent-Umgebung oder der Positionierung des ersten Agenten und der N Anzahl von Agenten anzuwenden ist. Der Simulator kann den ersten Agenten auf der Grundlage eines verbleibenden Satzes von Aktionen trainieren, indem er den maskierten Satz von Aktionen aus dem Satz möglicher Aktionen ausschließt. Der Satz von möglichen Aktionen kann eine Nicht-Handlungs-Aktion, eine Beschleunigungs-Aktion, eine Brems-Aktion, eine Brems-Löse-Aktion, eine Aktion zur Linksverschiebung um eine Spur oder eine Aktion zur Rechtsverschiebung um eine Spur einschließen.
Der erste Kritiker kann ein dezentraler Kritiker sein und der zweite Kritiker kann ein zentraler Kritiker sein. Der Simulator kann den ersten Agenten in der Einzel-Agent-Umgebung vor dem Training der N Anzahl von Agenten in der Multi-Agent-Umgebung trainieren. Der Simulator kann die N Anzahl von Agenten auf der Grundlage eines aus dem ersten Richtliniengradienten und dem zweiten Richtliniengradienten abgeleiteten kombinierten Richtliniengradienten trainieren. Das System zur interaktionsbewussten Entscheidungsfindung kann eine Kommunikationsschnittstelle zum Übertragen der Netzwerkrichtlinie zur interaktionsbewussten Entscheidungsfindung mit mehreren Zielen, mehreren Agenten und mehreren Stufen an einen Server oder ein Fahrzeug einschließen.
Gemäß einem Gesichtspunkt kann ein Fahrzeug für interaktionsbewusste Entscheidungsfindung ein Steuergerät, ein oder mehrere Fahrzeugsysteme und eine Fahrzeugkommunikationsschnittstelle einschließen. Das Steuergerät kann einen Prozessor und einen Speicher einschließen. Die Fahrzeugkommunikationsschnittstelle kann eine Netzwerkrichtlinie zur interaktionsbewussten Entscheidungsfindung mit mehreren Zielen, mehreren Agenten und mehreren Stufen empfangen. Das Steuergerät kann eines oder mehrere der Fahrzeugsysteme des Fahrzeugs entsprechend der Netzwerkrichtlinie zur interaktionsbewussten Entscheidungsfindung mit mehreren Zielen, mehreren Agenten und mehreren Stufen betreiben. Die Netzwerkrichtlinie zur interaktionsbewussten Entscheidungsfindung mit mehreren Zielen, mehreren Agenten und mehreren Stufen kann erzeugt werden, indem ein erster Agenten auf der Grundlage eines ersten Richtliniengradienten und ein erster Kritiker auf der Grundlage einer ersten Verlustfunktion trainiert werden, um ein oder mehrere Ziele in einer Single-Agent-Umgebung zu lernen, wobei es sich bei dem ersten Agenten um den einzigen vorhandenen Agenten handeln kann, unter Verwendung eines Markov-Entscheidungsprozess in einer ersten Stufe und trainieren einer Anzahl N von Agenten auf der Grundlage eines ersten Richtliniengradienten und trainieren eines zweiten Richtliniengradienten und eines zweiten Kritikers auf der Grundlage der ersten Verlustfunktion und einer zweiten Verlustfunktion, um eines oder mehrere der Ziele in einer Multi-Agent-Umgebung, die den ersten Agenten und die N Anzahl von Agenten einschließt, unter Verwendung eines Markov-Spiels zu erlernen, um in einer zweiten Stufe ein zweites neuronales Agentennetzwerk zu instanziieren. Der erste Agent kann einem ersten neuronalen Agentennetzwerk zugeordnet sein und der erste Kritiker kann einem ersten neuronalen Kritikernetzwerk zugeordnet sein. Jede der N Anzahl von Agenten kann einem Fahrertyp zugeordnet sein, der einen Grad der Kooperation für den jeweiligen Agenten anzeigt. Die Netzwerkrichtlinie zur interaktionsbewussten Entscheidungsfindung mit mehreren Zielen, mehreren Agenten und mehreren Stufen kann auf Grundlage des ersten neuronalen Agentennetzwerks und des zweiten neuronalen Agentennetzwerks erzeugt werden.
Figurenliste

1 ist ein beispielhaftes Komponentendiagramm eines Systems zum kooperativen Verstärkungslernen mit mehreren Zielen, mehreren Agenten und mehreren Stufen (CM3) gemäß einem Gesichtspunkt.
2 ist ein beispielhaftes Komponentendiagramm eines Simulators für das System zum kooperativen Verstärkungslernen mit mehreren Zielen, mehreren Agenten und mehreren Stufen aus 1.
3 ist ein beispielhaftes Flussdiagramm eines Verfahrens zum kooperativen Verstärkungslernen mit mehreren Zielen, mehreren Agenten und mehreren Stufen gemäß einem Gesichtspunkt.
4 ist ein beispielhaftes Datenflussdiagramm in Verbindung mit einem Verfahren zum kooperativen Verstärkungslernen mit mehreren Zielen, mehreren Agenten und mehreren Stufen gemäß einem Gesichtspunkt.
5A-5B zeigen ein beispielhaftes Flussdiagramm eines Verfahrens zum kooperativen Verstärkungslernen mit mehreren Zielen, mehreren Agenten und mehreren Stufen gemäß einem Gesichtspunkt.
6 ist ein beispielhaftes Stimulationsszenario in Verbindung mit kooperativem Verstärkungslemen mit mehreren Zielen, mehreren Agenten und mehreren Stufen gemäß einem Gesichtspunkt.
7-8 sind beispielhafte Leistungsergebnisse in Verbindung mit kooperativem Verstärkungslemen mit mehreren Zielen, mehreren Agenten und mehreren Stufen gemäß einem Gesichtspunkt.
9 ist ein beispielhaftes Stimulationsszenario in Verbindung mit kooperativem Verstärkungslemen mit mehreren Zielen, mehreren Agenten und mehreren Stufen gemäß einem Gesichtspunkt.
10 ist ein beispielhafter Belohnungs-zu-Episoden-Graph in Verbindung mit kooperativem Verstärkungslemen mit mehreren Zielen, mehreren Agenten und mehreren Stufen gemäß einem Gesichtspunkt.
11 ist ein Komponentendiagramm eines autonomen Systems zur Generierung von Fahrzeugrichtlinien gemäß einem Gesichtspunkt.
12 ist ein Flussdiagramm eines autonomen Verfahrens zur Generierung von Fahrzeugrichtlinien gemäß einem Gesichtspunkt.
13A ist ein Ablaufdiagramm eines autonomen Verfahrens zur Generierung von Fahrzeugrichtlinien gemäß einem Gesichtspunkt.
13B ist eine beispielhafte Simulationsschnittstelle, die einer autonomen Generierung von Fahrzeugrichtlinien gemäß einem Gesichtspunkt zugeordnet ist.
14A-14C sind beispielhafte Szenarien, in denen eine autonome Generierung von Fahrzeugrichtlinien gemäß einem Gesichtspunkt implementiert werden kann.
15 ist ein beispielhaftes Komponentendiagramm eines Systems für eine interaktionsbewusste Entscheidungsfindung gemäß einem Gesichtspunkt.
16 ist ein beispielhaftes Flussdiagramm eines Verfahrens für eine interaktionsbewusste Entscheidungsfindung gemäß einem Gesichtspunkt.
17 ist ein exemplarisches Szenario, in dem die Generierung von Richtliniennetzwerken gemäß Systemen oder Verfahren für eine interaktionsbewusste Entscheidungsfindung gemäß einem Gesichtspunkt erfolgt.
18A-18B sind beispielhafte Datenflussdiagramme jeweils in Verbindung mit dem Training der Stufe Eins bzw. der Stufe Zwei für Systeme und Verfahren für eine interaktionsbewusste Entscheidungsfindung gemäß einem Gesichtspunkt.
19A-19D sind beispielhafte Umgebungen, die mit Trainingsagenten gemäß Systemen oder Verfahren für eine interaktionsbewusste Entscheidungsfindung gemäß einem Gesichtspunkt assoziiert sind.
20 ist eine Darstellung eines computerlesbaren Mediums oder einer computerlesbaren Vorrichtung einschließlich prozessorausführbarer Anweisungen, die dazu konfiguriert sind, eine oder mehrere der hier dargelegten Bestimmungen gemäß einem Gesichtspunkt zu verkörpern.
21 ist eine Darstellung einer beispielhaften Computerumgebung in der eine oder mehrere der hierin dargelegt Bestimmungen nach einem Gesichtspunkt der Erfindung implementiert werden.

DETAILLIERTE BESCHREIBUNG
Das Folgende umfasst Definitionen von ausgewählten Begriffen, die hierin verwendet werden. Die Definitionen umfassen verschiedene Beispiele und/oder Formen von Komponenten, die in den Umfang eines Begriffs fallen und die zur Implementierung verwendet werden können. Die Beispiele sollen nicht einschränkend sein. Ferner werden Durchschnittsfachleute erkennen, dass die hierin diskutierten Komponenten mit anderen Komponenten kombiniert, weggelassen oder organisiert werden können oder in verschiedenen Architekturen organisiert werden können.
Ein „Prozessor“, wie hierin verwendet, verarbeitet Signale und führt allgemeine Berechnungen und arithmetische Funktionen aus. Von dem Prozessor verarbeitete Signale können digitale Signale, Datensignale, Computeranweisungen, Prozessorbefehle, Nachrichten, ein Bit, einen Bitstrom oder andere Mittel einschließen, die empfangen, übertragen und/oder erkannt werden können. Im Allgemeinen kann der Prozessor eine Vielzahl verschiedener Prozessoren sein, einschließlich mehrerer Einzel- und Mehrkernprozessoren und Koprozessoren sowie anderer Architekturen mit mehreren Einzel- und Mehrkernprozessoren und Koprozessoren. Der Prozessor kann verschiedene Module einschließen, um verschiedene Funktionen auszuführen.
Ein „Speicher“, wie hier verwendet, kann flüchtige Speicher und/oder nichtflüchtige Speicher einschließen. Nichtflüchtige Speicher können beispielsweise ROM (Nur-Lese-Speicher), PROM (programmierbarer Nur-Lese-Speicher), EPROM (löschbares PROM) und EEPROM (elektrisch löschbares PROM) einschließen. Flüchtiger Speicher kann zum Beispiel RAM (Direktzugriffsspeicher), synchrones RAM (SRAM), dynamisches RAM (DRAM), synchrones DRAM (SDRAM), SDRAM mit doppelter Datenrate (DDRSDRAM) und direktes RAM-Bus-RAM (DRRAM) einschließen. Der Speicher kann ein Betriebssystem speichern, das Ressourcen einer Rechenvorrichtung steuert oder zuweist.
Eine „Platte“ oder ein „Laufwerk“, wie hierin verwendet, kann ein Magnetplattenlaufwerk, ein Solid-State-Laufwerk, ein Diskettenlaufwerk, ein Bandlaufwerk, ein Zip-Laufwerk, eine Flash-Memory-Card und/oder ein Speicherstick sein. Ferner kann die Platte eine CD-ROM (Compact Disk ROM), ein beschreibbares CD-Laufwerk (CD-R-Laufwerk), ein wiederbeschreibbares CD-Laufwerk (CD-RW-Laufwerk) und/oder ein digitales Video-ROM-Laufwerk (DVD-ROM) sein. Die Platte kann ein Betriebssystem speichern, das Ressourcen einer Rechenvorrichtung steuert oder zuweist.
Ein „Bus“, wie hierin verwendet, bezieht sich auf eine verschaltete Architektur, die funktionell mit anderen Computerkomponenten innerhalb eines Computers oder zwischen Computern verbunden ist. Der Bus kann Daten zwischen den Computerkomponenten übertragen. Der Bus kann unter anderem ein Speicherbus, eine Speichersteuerung, ein Peripheriebus, ein externer Bus, ein Kreuzschienenschalter und/oder ein lokaler Bus sein. Der Bus kann auch ein Fahrzeugbus sein, der Komponenten innerhalb eines Fahrzeugs unter Verwendung von Protokollen wie Media Oriented Systems Transport (MOST), Controller Area Network (CAN) und Local Interconnect Network (LIN) miteinander verbindet.
Eine „Datenbank“, wie hierin verwendet, kann sich auf eine Tabelle, einen Satz von Tabellen und einen Satz von Datenspeichern (z. B. Platten) und/oder Verfahren zum Zugreifen auf und/oder Manipulieren dieser Datenspeicher beziehen.
Eine „betriebsfähige Verbindung“ oder eine Verbindung, über die Einheiten „betriebsfähig verbunden“ sind, ist eine Verbindung in der Signale, physikalische Kommunikationen und/oder logische Kommunikationen gesendet und/oder empfangen werden können. Eine betriebsfähige Verbindung kann eine drahtlose Schnittstelle, eine physikalische Schnittstelle, eine Datenschnittstelle und/oder eine elektrische Schnittstelle einschließen.
Eine „Computerkommunikation“, wie sie hier verwendet wird, bezieht sich auf eine Kommunikation zwischen zwei oder mehr Rechenvorrichtungen (z. B. Computer, persönlicher digitaler Assistent, Mobiltelefon, Netzwerkvorrichtung) und kann beispielsweise eine Netzwerkübertragung, eine Dateiübertragung, eine Applet-Übertragung, eine E-Mail, eine Hypertext Transfer Protocol (HTTP)-Übertragung und so weiter sein. Eine Computerkommunikation kann zum Beispiel unter anderen über ein drahtloses System (z. B., IEEE 802.11), ein Ethernetsystem (z. B., IEEE 802.3), ein Token-Ring-System (z. B., IEEE 802.5), ein lokales Netzwerk (LAN), ein Wide Area-Netzwerk (WAN), ein Punkt-zu-Punkt-System, ein System zum Umschalten von Schaltungen, ein Paket-Schaltsystem erfolgen.
Ein „Fahrzeug“, wie hierin verwendet, kann sich auf jedes sich bewegende Fahrzeug beziehen, dass in der Lage ist, einen oder mehrere menschliche Insassen zu befördern und das durch eine beliebige Form von Energie angetrieben wird. Der Begriff „Fahrzeug“ schließt Autos, Lastwagen, Lieferwagen, Minivans, SUVs, Motorräder, Roller, Boote, Wassermotorräder und Flugzeuge ein. In einigen Szenarien schließt ein Kraftfahrzeug eine oder mehrere Motoren ein. Ferner kann sich der Begriff „Fahrzeug“ auf ein Elektrofahrzeug (EV) beziehen, das ganz oder teilweise durch einen oder mehrere elektrische Motoren angetrieben wird, die durch eine elektrische Batterie angetrieben werden. Das EV kann batteriebetriebene Elektrofahrzeuge (BEV) und Plugin Hybrid-Elektrofahrzeuge (PHEV) einschließen. Außerdem kann sich der Begriff „Fahrzeug“ auf ein autonomes Fahrzeug und/oder selbstfahrendes Fahrzeug beziehen, das durch eine beliebige Form von Energie angetrieben wird. Das autonome Fahrzeug kann einen oder mehrere menschliche Insassen befördern oder nicht.
Ein „Agent“, wie hierin verwendet, kann sich auf eine „Fahrzeug“, wie beispielsweise ein Fahrzeug in einer Simulation oder ein simuliertes Fahrzeug, beziehen. In ähnlicher Weise kann „Aktor“, wie hierin verwendet, austauschbar mit „Agent“ verwendet werden. Zusätzlich kann „Einstellung“, wie hierin verwendet, austauschbar mit „Umgebung“ verwendet werden. Ein „Merkmal“, wie hierin verwendet, kann ein Ziel umfassen.
Ein „Fahrzeugsystem“, wie hierin verwendet, kann ein beliebiges automatisches oder manuelles System sein, das verwendet werden kann, um das Fahrzeug, das Fahren, und/oder die Sicherheit zu verbessern. Beispielhafte Fahrzeugsysteme umfassen unter anderem ein autonomes Antriebssystem, ein elektronisches Stabilitätskontrollsystem, ein Antiblockiersystem, ein Bremsassistenzsystem, ein automatisches Bremsvorfüllsystem, ein Niedriggeschwindigkeitsfolgesystem, ein Tempomatsystem, ein Kollisionswarnsystem, ein Kollisionsminderungsbremssystem, ein automatisches Tempomatsystem, ein Spurverlassenswarnsystem, ein Toter-Winkel-Anzeigesystem, ein Spurhalteassistent (LKAS), ein Navigationssystem, ein Getriebesystem, Bremspedalsysteme, ein elektronisches Servolenkungssystem, visuelle Vorrichtungen (z. B. Kamerasysteme, Näherungssensorsysteme), ein Klimasteuersystem, ein elektronisches Vorspannungssystem, ein Überwachungssystem, ein Passagiererkennungssystem, ein Fahrzeugaufhängungssystem, ein Fahrzeugsitzkonfigurationsystem, ein Fahrzeugkabinenbeleuchtungssystem, ein Audiosystem und ein Sensorsystem.
Die hierin erörterten Gesichtspunkte können im Kontext eines nichtflüchtigen computerlesbaren Speichermediums beschrieben und implementiert werden, das computerausführbare Anweisungen speichert. Nichtflüchtige computerlesbare Speichermedien umfassen Computerspeichermedien und Kommunikationsmedien. Zum Beispiel Flash-Speicherlaufwerke, DVDs (Digital Versatile Discs), CDs (Compact Discs), Disketten und Bandkassetten. Nichtflüchtige computerlesbare Speichermedien können flüchtige und nichtflüchtige, entfernbare und nicht entfernbare Medien umfassen, die in einem beliebigen Verfahren oder einer beliebigen Technologie zum Speichern von Informationen wie computerlesbaren Anweisungen, Datenstrukturen, Modulen oder anderen Daten implementiert sind.
Wie hierin verwendet kann sich „CM3“ auf die Verwendung eines Verfahrens zum kooperativen Verstärkungslernen mit mehreren Zielen, mehreren Agenten und mehreren Stufen oder ein System zum kooperativen Verstärkungslernen mit mehreren Zielen, mehreren Agenten und mehreren Stufen beziehen, einschließlich, aber nicht begrenzt auf das System von 1, das Verfahren von 3, das Verfahren der 5A-5B, usw.
Ein Agent kann Aktionen (die simulierte Aktionen sein können) aus einem Satz möglicher Aktionen unternehmen. Der Satz möglicher Aktionen kann als der Aktionssatz (A) bekannt sein.
Eine Umgebung kann eine Simulationsumgebung oder die Welt sein, durch die sich der Agent bewegt.
Eine Belohnungsfunktion (R) kann eine Funktion sein, die eine ausgeführte (z. B. simulierte) Aktion auswertet.
Ein Diskontfaktor (γ) kann mit zukünftigen Belohnungen multipliziert werden, damit Kurzzeitentscheidungen mehr wiegen als langfristige Belohnungen.
Ein Wert (V) kann ein erwarteter Langzeitertrag sein, der die Wirkung des Diskontfaktors einschließt.
Ein Q-Wert (Q) kann eine Aktionswert sein, der einen langfristigen Ertrag einer Aktion (A) nach der Richtlinie (π) des Zustands (s) angibt.
Eine Trajektorie kann eine Sequenz von Zuständen und/oder Aktionen sein, die diese Zustände einschließt.
Eine Richtlinie (π) kann eine Strategie sein, die verwendet wird, um die nächste Aktion für den Agenten basierend auf dem aktuellen Zustand zu bestimmen.
1 ist ein beispielhaftes Komponentendiagramm eines Systems 100 für kooperatives Verstärkungslemen mit mehreren Zielen, mehreren Agenten und mehreren Stufen (CM3) gemäß einem Gesichtspunkt. Das System 100 für CM3-Verstärkungslemen kann einen Prozessor 102, einen Speicher 104, einen Bus 106, und einen Simulator 108 einschließen. Der Simulator 108 kann über den Prozessor 102 und den Speicher 104 implementiert werden. Der Simulator 108 kann eine Simulation in Verbindung mit einem oder mehreren Agenten 122 simulieren oder durchführen, wobei er eine oder mehrere Aktionen 124 innerhalb einer Simulationsumgebung 126 ausführt, wobei ein oder mehrere Kritiker 128 eine oder mehrere der Aktion 124 interpretieren oder auswerten, die von einem oder mehreren der Agenten 122 ausgeführt werden, um einen oder mehrere Belohnungen 132 und einen oder mehrere Zustände 134 zu bestimmen, die sich aus den ausgeführten Aktionen ergeben.
Der Simulator 108 oder der Prozessor 102 können ein CM3-Richtliniennetzwerk 140 erzeugen, das auf dem Speicher 104 des Systems 100 für das CM3-Verstärkungslemen gespeichert werden kann. Das System kann ferner eine Kommunikationsschnittstelle 150 einschließen, die es dem CM3-Richtliniennetzwerk 140 erlaubt, zu anderen Vorrichtungen übertragen zu werden, wie zum Beispiel einem Server 160, welcher eine CM3-Datenbank 162 einschließen kann. Auf diese Weise kann das von dem System 100 erzeugte CM3-Richtliniennetzwerk 140 für das CM3-Verstärkungslemen in der CM3-Datenbank 162 des Servers 160 gespeichert werden.
Der Server 160 kann dann das CM3-Richtliniennetzwerk 140 an ein oder mehrere Fahrzeuge weitergeben, wie beispielsweise ein erstes Fahrzeug 170 und ein zweites Fahrzeug 180. Das erste Fahrzeug kann mit einer Fahrzeugkommunikationsschnittstelle 172, einer Speichervorrichtung 174, einem Steuergerät 176 und einem oder mehreren Fahrzeugsystemen 178 ausgestattet sein. Die Speichervorrichtung kann das CM3-Richtliniennetzwerk 140 von dem Server 160 speichern, und das Steuergerät kann das erste Fahrzeug auf der Grundlage des CM3-Richtliniennetzwerks 140 auf eine autonome Art und Weise betreiben. In ähnlicher Weise kann das zweite Fahrzeug 180 mit einer Fahrzeugkommunikationsschnittstelle 182, einer Speichervorrichtung 184, einem Steuergerät 186 und einem oder mehreren Fahrzeugsystemen 188 ausgerüstet sein und in ähnlicher Weise wie das erste Fahrzeug betrieben werden.
In jedem Fall ermöglicht dies dann, wenn das CM3-Richtliniennetzwerk 140 in der Speichervorrichtung des Fahrzeugs gespeichert ist, dass das Steuergerät das Fahrzeug auf der Grundlage des CM3-Richtliniennetzwerks 140 autonom anfahren kann und gemäß dem CM3-Verstärkungslernen, das innerhalb des Simulators 108 stattgefunden hat, autonome Fahrentscheidungen treffen kann, weil das CM3-Richtliniennetzwerk 140 auf ein oder mehrere der Richtlinien oder Entscheidungen hindeuten kann, die basierend auf dem Training oder der Simulation getroffen werden sollten. Beispielsweise kann die CM3-Netzwerkrichtlinie eine Eingabe einer Beobachtung erhalten, die dem ersten autonomen Fahrzeug oder dem zweiten autonomen Fahrzeug zugeordnet ist (z. B. einen Fahrzeugzustand oder einen Umgebungszustand) und eine vorgeschlagene Aktion ausgeben.
2 ist ein beispielhaftes Komponentendiagramm des Simulators 108 für das System 100 zum Verstärkungslernen mit mehreren Zielen, mehreren Agenten und mehreren Stufen aus 1. In 2 kann man den Simulator 108 des Systems 100 für CM3-Verstärkungslernen aus 1 sehen. Hier kann der Agent die Aktion in der Umgebung ausführen. Dies kann durch den Kritiker als die Belohnung oder Strafe und eine Darstellung des Zustands interpretiert werden, der dann in den Agenten zurückgeführt werden kann. Der Agent kann mit der Umgebung interagieren, indem er die Aktion zu einem diskreten Zeitschritt ausführt. In jedem Zeitschritt kann der Agent eine Beobachtung empfangen, die die Belohnung einschließen kann. Der Agent kann eine Aktion aus einem Satz von verfügbaren Aktionen auswählen, was zu einem neuen Zustand und einer neuen Belohnung für einen nachfolgenden Zeitschritt führt. Das Ziel des Agenten besteht im Allgemeinen darin, die größtmögliche Menge an Belohnungen zu sammeln.
Stufe Eins / Lokalansicht / Einzel-Agent-Umgebung
Gemäß einem Gesichtspunkt kann der Simulator 108 das Training der Stufe Eins einschließlich des Trainings eines ersten Agenten basierend auf einem ersten Richtliniengradienten und einem Training eines ersten Kritikers basierend auf einer ersten Verlustfunktion ausführen, um ein oder mehrere Merkmale in einer Einzel-Agent-Umgebung unter Verwendung eines Markov-Entscheidungsprozesses (MDP) zu erlernen. Während der ersten Stufe oder Stufe Eins kann der Simulator 108 den Agenten trainieren, um eine oder mehrere einzelne Aufgaben zu erreichen oder um unterschiedliche Ziele in einem Einzel-Agent-Umfeld oder einer Einzel-Agent-Umgebung zu erreichen (d. h. dort wo es keine anderen Agenten innerhalb der Umgebung gibt). Dies kann eine statische Umgebung sein. Das durch den Simulator 108 bereitgestellte Einzel-Agent-Umfeld oder die Einzel-Agent-Umgebung in Stufe Eins ermöglicht es dem ersten Agenten, das eine oder die mehreren Merkmale in einer vorteilhaften Weise zu erlernen oder dafür trainiert zu werden. Mit anderen Worten, durch Reduzieren der Anzahl von Agenten in der ersten Stufe kann der erste Agent auf eine schnellere, effizientere Art und Weise trainiert werden. Auf noch eine andere Weise erklärt, können Agenten, die lokale Zielsetzungen in der Abwesenheit von anderen Agenten erreichen, zuverlässiger die gewünschten Zustandskonfigurationen zum Erlernen eines kooperativen Verhaltens produzieren.
Der Simulator 108 kann den ersten Agenten trainieren, indem er dem ersten Agenten ermöglicht, eine Aktion aus einem Satz von einer oder mehreren Aktionen auszuwählen, einschließlich einer Nicht-Handlungs-Aktion, einer Beschleunigungs-Aktion, einer Brems-Aktion, einer Aktion zur Linksverschiebung um eine Spur oder eine Aktion zur Rechtsverschiebung um eine Spur.
Beispiele eines oder mehrere der Merkmale, die in Stufe Eins von dem ersten Agent erlernt werden können, schließen das Erlernen von Regeln und Vorschriften der Fahrbahn ein, wie man auf einer Fahrbahn innerhalb der Geschwindigkeitsbegrenzung fährt oder die Geschwindigkeit hält, wie das Fahrzeug innerhalb der Fahrspur gehalten wird, wie die Fahrspur oder die Spurposition geändert wird, wie man über eine Ausfahrt abfährt, wie man über eine Beschleunigungsspur auffährt usw.
Auf diese Art und Weise verfügt das erste Richtliniennetzwerk über einen dezentralen Kritiker, der unterschiedliche Merkmale des Einzel-Agent-Umfelds oder der Einzel-Agent-Umgebung erlernt. Da der erste Kritiker der dezentrale Kritiker sein kann, kann die erste Stufe oder Stufe Eins mit einer lokalen Ansicht oder individualisierten Belohnungen, individualisiertem Lernen, usw. für den ersten Agent verbunden sein.
Stufe Zwei / Globale Ansicht / Multi-Agent-Umgebung
Gemäß einem Gesichtspunkt kann der Simulator 108 das Training der Stufe Zwei einschließlich des Trainings einer Anzahl von N Anzahl von Agenten auf der Grundlage des ersten Richtliniengradienten und eines zweiten Richtliniengradienten und des Trainings eines zweiten Kritikers auf der Grundlage der ersten Verlustfunktion und einer zweiten Verlustfunktion durchführen, um einen zweiten Satz von Merkmalen, wie z. B. Kooperation, zwischen der N Anzahl von Agenten in einer Multi-Agent-Umgebung mithilfe eines Markov-Spiels zu lernen, um ein zweites neuronales Netzwerk zu instanziieren. Während des Trainings der zweiten Stufe kann jeder der N Agenten mit dem vorab trainierten ersten neuronalen Agentennetzwerk instanziiert werden. Auf diese Weise kann durch Instanziieren jedes der N Agenten mit Vorkenntnissen aus dem vorab trainierten ersten neuronalen Agentennetzwerk ein curricularer Gewinn über das System 100 für das CM3-Verstärkungslemen implementiert werden. In dieser Hinsicht kann der Simulator 108 den ersten Agenten in der Einzel-Agent-Umgebung vor dem Training der N Anzahl von Agenten der Multi-Agent-Umgebung trainieren. Der Simulator 108 kann die N Anzahl von Agenten auf der Grundlage eines kombinierten Richtliniengradienten trainieren, der aus dem ersten Richtliniengradienten und dem zweiten Richtliniengradienten abgeleitet ist. Die N Anzahl von Agenten kann den ersten Agenten einschließen.
Für das Markov-Spiel kann jeder Agent so lernen, eines oder mehrere Ziele oder Merkmale in einem endlichen Satz zu erreichen, mit anderen Agenten zu kooperieren, um einen gemeinsamen Erfolg von Zielen zwischen oder unter der N Anzahl von Agenten zu erreichen und während der Simulation unabhängig voneinander mit begrenzten lokalen Informationen zu agieren. Der Simulator 108 kann die Umgebungen (z. B. die Einzel-Agent- und die Multi-Agent-Umgebungen) als episodische Umgebungen formulieren, wobei jedem Agenten während jeder Trainingsphase zufällig abgetastete Ziele zugewiesen werden können. In jedem Fall kann der Simulator 108 die Umgebungen als ein Markov-Spiel mit mehreren Zielen einrichten und den Aktor-Kritiker-Ansatz für das zentralisierte Training dezentraler Richtlinien überprüfen.
Im Hinblick auf das Markov-Spiel kann der Simulator 108 ein Multi-Ziel-Markov-Spiel als ein Tupel〈S, {Oⁿ}, {Aⁿ}, P, R, G, N, γ〉, mit einer N Anzahl von Agenten beschriftet mit n = [1...N] definieren. Jeder Agent kann während jeder Episode ein Ziel gⁿ ∈ G aufweisen. Bei jedem Zeitschritt t kann die Konfiguration der Agenten vollständig durch einen Zustand s_t ∈ S spezifiziert werden, während jeder Agent n eine partielle Beobachtung $o_{t}^{n} \in O^{n}$
empfängt und eine Aktion $a_{t}^{n} \in A^{n}$
auswählt. Der Simulator 108 kann die Umgebung gemäß einer Übergangswahrscheinlichkeit P(S_t+1|s_t, a): S × A¹ × ... × A^N×S → [0,1] durch die gemeinsam Aktion $a_{t} : = [a_{t}^{1} \dots a_{t}^{N}]$
auf einen nächsten Zustand s_t+1 setzen. Jeder Agent kann eine Belohnung R erhalten:R: S × Aⁿ× G → ℝ und die Lernaufgabe ist es, stochastische Richtlinien πⁿ(aⁿ| oⁿ, gⁿ) zu finden: Oⁿ× Gx Aⁿ → [0,1], eine Bedingung, die sich nur auf lokale Beobachtungen und Ziele bezieht, zur Maximierung von $E_{s_{t \sim p} π, a_{t \sim π}} [\sum_{t = 0}^{T} γ^{t} \sum_{n = 1}^{N} R (s_{t}, a_{t}^{n}, g^{n})]$
über den Horizont T, wobei γ ein Diskontfaktor ist. Wie hierin verwendet können a^-n und g^-n die jeweilige Gesamtheit aller Aktionen und Ziele der Agenten bezeichnen, außer der von Agent n; g kann die Gesamtheit aller Ziele aller Agenten bezeichnen; und (π(a|o, g): = Π_n πⁿ(aⁿ|oⁿ, gⁿ) kann die gemeinsame Richtlinie bezeichnen. $E_{π} [.] kann für E_{s \sim p^{π}, a \sim π}_{[.]}$
stehen, wobei ρ^π als die diskontierte stationäre Zustandsverteilung unter π definiert ist.
In Stufe Zwei kann der Simulator 108 das Erlernte von anderen untertrainierten Individuen oder Agenten aufnehmen, indem die Anzahl der N Anzahl der Agenten unter Verwendung eines zentralen Kritikers beobachtet wird. Mit anderen Worten kann der zweite Kritiker der zentrale Kritiker sein. Der Simulator 108 kann dem zentralen Kritiker befehlen, lokale und/oder gemeinsame Belohnungen bereitzustellen. Auf diese Weise kann ein zentraler Kritiker für zentrales Lernen von dezentralen Richtlinien bereitgestellt werden. Da der zweite Kritiker der zentrale Kritiker sein kann, kann die zweite Stufe oder Stufe Zwei mit einer globalen Ansicht oder einem Kooperationstyplernen für die gesamte Menge an N Agenten verbunden sein. Die globale Ansicht kann einen Verkehrsfluss für die N Anzahl von Agenten insgesamt angeben, während die lokale Ansicht die Bewegung, den Fluss, oder die Effizienz von lediglich dem ersten Agenten angeben kann. Die globale Ansicht und/oder die lokale Ansicht kann aus der Vogelperspektive oder der Umgebungsperspektive betrachtet werden. Zwei Ansichten der Lernzielsetzung, entsprechend den Agenten, die auf ihr eigenes Ziel hinwirken und entsprechend der Kooperation für den Erfolg von anderen Agenten können somit durch die zwei Stufen der Simulation durch den Simulator 108 bereitgestellt werden. Diese beiden Stufen können in ein zweistufiges (z. B. oder zusätzlichen Stufen, wie beispielsweise drei, vier, usw.) Lehrprogramm eingefügt werden, das durch ein neuronales Netzwerkkonstruktion überbrückt wird.
Nochmals erklärt wird Kooperation in Stufe Zwei von der Anzahl von N Anzahl von Agenten während der Simulation erlernt, um verschiedene Merkmale in einem Multi-Agent-Umfeld oder einer Multi-Agent-Umgebung auf der Grundlage einer doppelten Kritikerkonfiguration zu erreichen. Zum Beispiel kann der erste Agent in der ersten Stufe trainiert werden und der erste, dezentrale Kritiker kann das Erlernen von mehreren Merkmalen in dem Einzel-Agent-Umfeld oder der Einzel-Agent-Umgebung erleichtern. In der zweiten Stufe oder Stufe Zwei kann die Anzahl der N Anzahl von Agenten in das Markov-Spiel instanziiert werden und mit den vorab trainierten π1 (z. B. den zuvor trainierten Parametern des ersten Agenten aus Stufe Eins) und Vπ (z. B. den zuvor trainierten Parametern des ersten dezentralen Kritikers aus Stufe Eins) sowie dem neuen zentralen Kritiker Q (z. B. dem zweiten Kritiker) ausgerüstet werden.
Während der zweiten Stufe oder Stufe Zwei kann der Simulator 108 die N Anzahl von Agenten trainieren, um eine oder mehrere kooperative Aufgaben zu erreichen oder um verschiedene Ziele in dem Multi-Agent-Umfeld oder der Multi-Agent-Umgebung zu erreichen. Dies kann eine dynamische Umgebung sein. Das durch den Simulator 108 in Stufe Zwei bereitgestellte Multi-Agent-Umfeld oder die Multi-Agent-Umgebung kann die N Anzahl von Agenten in die Lage versetzen, zu lernen, miteinander zu interagieren, während jeder der N Anzahl von Agenten in die Lage versetzt wird, ihre letztendlichen jeweiligen Ziele zum Erreichen ihrer Zielorte zu erreichen.
Der Simulator 108 kann die N Anzahl von Agenten trainieren, indem er jedem der N Anzahl von Agenten ermöglicht, eine Aktion aus einem Satz von einer oder mehreren Aktionen auszuwählen, einschließlich einer Nicht-Handlungs-Aktion, einer Beschleunigungs-Aktion, einer Brems-Aktion, einer Aktion zur Linksverschiebung um eine Spur oder eine Aktion zur Rechtsverschiebung um eine Spur, vergleichbar mit dem ersten Agenten.
Beispiele eines oder mehrere der Merkmale, die in Stufe Zwei von der N Anzahl von Agenten erlernt werden können, können das Lernen zur Vermeidung von Kollisionen mit anderen Agenten und die Optimierung der Zeiten zu Zielorten einschließen. Da jedoch das in der Stufe Eins erfolgte Lernen (z. B. Lernen, in der statischen Umgebung zu fahren) übernommen wird oder in der Simulation der Stufe Zwei instanziiert wird, kann das Lernen schneller erreicht werden als wenn keine Aufteilung in Stufe Eins und Stufe Zwei durch den Simulator 108 bereitgestellt würde. Gemäß einem Gesichtspunkt können das eine oder die mehreren in der Einzel-Agent-Umgebung von Stufe Eins erlernten Merkmale andere sein als die in der Multi-Agent-Umgebung von Stufe Zwei erlernten Merkmale. Auf diese Weise kann der Simulator 108 die in der ersten Stufe erlernten Merkmale auf die N Anzahl von Agenten der zweiten Stufe instanziieren, um das Erlernen des Lernprogramms zu erleichtern.
Wie zuvor erörtert, kann der Simulator 108 in Stufe Zwei das Erlernte anderer untertrainierter Individuen oder Agenten durch Beobachten der Anzahl N der Anzahl der Agenten unter Verwendung des zentralen Kritikers einbeziehen. Da jeder der N Anzahl von Agenten mit den Lehren (z. B. Netzwerkrichtlinien) aus der ersten Stufe oder Stufe Eins instanziiert werden kann, kann jeder der N Anzahl von Agenten vorab darauf trainiert werden, wie man in der statischen Umgebung herumfährt. Da es ferner eine Anzahl von N Anzahl von Agenten geben kann, kann jeder der N Anzahl von Agenten kann in unterschiedlichen Positionen innerhalb der Multi-Agent-Umgebung platziert und unterschiedlichen Szenarien ausgesetzt werden. Dadurch, dass der Simulator 108 und der Kritiker die Anzahl von N Anzahl von Agenten beobachten, kann das Lernen für verschiedene Szenarien parallel erfolgen. Anders gesagt, das Lernen, dass in Stufe Zwei auftreten kann, kann dadurch erreicht werden, dass von einem ersten Agent erlernte Daten mit einem zweiten Agent geteilt werden und umgekehrt (z. B. Teilen von Daten, die von dem zweiten Agent gelernt wurden, mit dem ersten Agent).
Wenn zum Beispiel ein erster Agent versucht, einen Spurwechsel nach links durchzuführen und vor einem zweiten Agenten positioniert ist, der einen Spurwechsel nach rechts vornehmen möchte, so ist jeder der Agenten einem anderen Szenario ausgesetzt und die Netzwerkrichtlinien könne für beide aktualisiert werden, wodurch die Effizienz des Lernens verbessert wird und der Umfang der Trainingszeit im Zusammenhang mit dem Training eines CM3-Systems wesentlich reduziert wird. In diesem Beispiel weisen der erste Agent und der zweite Agent unterschiedliche Ziele auf (z. B. ein erstes Ziel des Durchführens des Spurwechsels nach links und ein zweites Ziel des Durchführens eines Spurwechsels nach rechts, vielleicht zum Erreichen einer Ausfahrt). Es sollte beachtet werden, dass das Erlernen der Kooperation durch den Simulator 108 implementiert werden kann. Wenn der erste Agent beispielsweise abgelehnt hat es zuzulassen, dass der zweite Agent den Spurwechsel nach rechts durchführt und wenn der zweite Agent abgelehnt hat, dem ersten Agenten zu erlauben, den Spurwechsel nach links durchzuführen, kann eine Pattsituation auftreten, die keinem der Agenten nützt.
Das zweite neuronale Agentennetzwerk kann mit einem o_others Parameter für jeden der N Anzahl von Agenten verbunden sein, der eine lokale Beobachtung jedes der entsprechenden N Anzahl von Agenten angeben kann. Gemäß einem Gesichtspunkt kann der o_others Parameter eine Geschwindigkeit des ersten Agenten, eine Anzahl von Fahrbahnen oder untergeordneten Spuren zwischen dem ersten Agenten und einem der N Anzahl von Agenten, einen Abstand von dem ersten Agent zu einer Zielposition oder einen Fahrzeugtyp, der dem ersten Agent zugeordnet ist, angeben. Der o_others Parameter kann einen Fahrzeugbelegungsstatus, der einem der N Anzahl von Agenten zugeordnet ist, eine relative Geschwindigkeit eines der N Anzahl von Agenten in Bezug auf den ersten Agent oder einen Fahrzeugtyp, der einem der N Anzahl von Agenten zugeordnet ist, angeben.
Obwohl eine dritte Stufe oder Stufe drei hierin nicht beschrieben ist, wird in Betracht gezogen, dass in der dritten Stufe jeder der N Agenten durch den Simulator 108 mit dem vorab trainierten ersten neuronalen Agentennetzwerk und dem vorab trainierten zweiten neuronalen Agentennetzwerk instanziiert werden kann und zusätzliches Lernen auftreten kann, wodurch das Erlernen des Lernprogramms ermöglicht wird.
Richtliniengenerierung / Zentrales Erlernen dezentraler Richtlinien
Der Prozessor 102 oder der Simulator 108 kann auf Grundlage des ersten neuronalen Agentennetzwerks und des zweiten neuronalen Agentennetzwerks eine CM3-Netzwerkrichtlinie erzeugen. Der Simulator 108 kann die zwei Stufen (z. B. Stufe Eins und Stufe Zwei) durch die modulare Erweiterung der neuronalen Netzrichtlinien und der Wertfunktionen überbrücken. Die CM3-Netzwerkstrategie kann Daten anzeigen, die verwendet werden können, um das Steuergerät des autonomen Fahrzeugs/der autonomen Fahrzeuge aus 1 auf eine autonome Art und Weise zu betreiben. Zum Beispiel kann die CM3-Netzwerkrichtlinie eine Eingabe einer Beobachtung erhalten, die dem ersten autonomen Fahrzeug oder dem zweiten autonomen Fahrzeug zugeordnet ist (z. B. ein Fahrzeugzustand oder ein Umgebungszustand) und eine vorgeschlagene Aktion ausgeben, die eine Nicht-Handlungs-Aktion, eine Beschleunigungs-Aktion, eine Brems-Aktion, eine Aktion zur Linksverschiebung um eine Spur oder eine Aktion zur Rechtsverschiebung um eine Spur einschließen kann, entsprechend den Aktionen, die während der Simulation verwendet und durch den Simulator 108 bereitgestellt wurden.
Die CM3-Netzwerkrichtlinie kann eine kombinierte Ansicht anzeigen, die für die lokale Ansicht und die globale Ansicht repräsentativ ist, die der ersten Stufe und der zweiten Stufe zugeordnet sind. Gemäß einem Gesichtspunkt kann der Simulator 108 eine CM3-Netzwerkrichtlinie auf der Grundlage der lokalen Ansicht und der globalen Ansicht optimieren. Auf diese Art und Weise kann ein zweistufiges Lernprogramm einschließlich einer Einzel-Agent-Stufe zum Erlernen des Erfüllens einzelner Aufgaben, gefolgt von einer Multi-Agent-Stufe zum Erlernen von Kooperation bei Vorliegen von anderen Agenten bereitgestellt werden. Der Simulator 108 kann diese zwei Stufen (z. B. die erste Stufe und die zweite Stufe) überbrücken, indem er die neuronalen Netzwerkrichtlinien und Wertfunktionen von der ersten Stufe bzw. der zweiten Stufe modular erweitert. Mit anderen Worten kann der Simulator 108 die neuronale Netzwerkrichtlinie, die der ersten Stufe oder Stufe Eins zugeordnet ist, modular um die neuronale Netzwerkrichtlinie erweitern, die der zweiten Stufe oder Stufe Zwei zugeordnet ist. Auf ähnliche Weise kann der Simulator 108 eine oder mehrere Wertfunktionen, die der ersten Stufe oder Stufe Eins zugeordnet sind, mit einer oder mehreren Wertfunktionen, die der zweiten Stufe oder Stufe Zwei zugeordnet sind, modular erweitern.
Wie zuvor erörtert, kann CM3 ein Aktor-Kritiker- oder einen Agent-Kritiker-Rahmenwerk für dieses Lehrprogramm implementieren, indem lokale und globale Ansichten des Richtliniengradienten und des Lernens über einen Doppelkritiker formuliert werden, einschließlich einer dezentralen Wertfunktion (z. B. dem ersten, dezentralen Kritiker zugeordnet) und einer zentralen Aktionswertfunktion (z. B. dem zweiten, zentralen Kritiker zugeordnet). Der Simulator 108 kann somit sowohl eine Einzel-Agent-Umgebung als auch eine Multi-Agent-Umgebung simulieren, in der jeder Agent lernt, Ziele oder Merkmale in einem endlichen Satz zu erreichen und mit anderen Agenten mit potentiell anderen Zielen oder Merkmalen zu kooperieren. In dieser Hinsicht ermöglicht es der CM3-Rahmen des Verfahrens für kooperatives Verstärkungslemen mit mehreren Zielen, mehreren Agenten und mehreren Stufen oder das System 100 für kooperatives Verstärkungslemen mit mehreren Zielen, mehreren Agenten und mehreren Stufen dem Multi-Agent-Lehrprogramm einen oder mehrere Vorteile bereitzustellen.
Beispielsweise war eine Multi-Agent-Erkundung bisher ein schwer zu lösendes Problem. Indem eine Netzwerkrichtlinie der Stufe Eins trainieren wird, um verschiedene Ziele in einem Einzel-Agent-Umfeld zu erreichen, können Erkundungsaktionen durchgeführt werden, die für die Suche nach kooperativen Lösungen nützlich sind, nachdem Agenten so eingerichtet wurden, dass sie zuverlässig Konflikte erzeugen, indem sie auf einzelne Ziele reagieren, die in dem Einzel-Agent-Umfeld erlernt wurden.
Als weiteres Beispiel kann eine neuronale Netzwerkkonstruktion für das Multi-Agent-Verstärkungslemen (MARL) bereitgestellt werden. Insbesondere kann das Training der Stufe Eins für den Agent oder die neuronalen Aktor- und Kritiker-Netzwerke durch die Einstellung des zugeordneten Eingaberaums auf einen Teil (z. B. kann dieser auf einen ersten Satz von Zielen oder Merkmalen vordefiniert, vorprogrammiert, manuell eingestellt, usw. sein) vereinfacht werden, der zur Erzielung einzelner Ziele in der Einzel-Agent-Umgebung ausreichend ist. In der neuronalen Netzwerkkonstruktion der Stufe Zwei kann die Architektur zum weiteren Lernen in der vollen Multi-Agent-Umgebung oder basierend auf dem Training der Stufe Eins (z. B. Variablen, Parameter, neuronale Netzwerke usw. der Stufe Eins) erweitert, angepasst oder modifiziert werden. Dies ermöglicht eine Aufteilung der Beobachtung eines Agenten in eine Darstellung des eigenen Zustands des Agenten (z. B. Abstand zu einem Zielort) und eine Darstellung von anderen Agenten.
Außerdem werden Stufe Eins und Stufe Zwei kombiniert. Mit anderen Worten wird eine dezentrale Richtlinie unter Verwendung eines doppelten Kritikers, einschließlich einer dezentralen Wertfunktion zum Erlernen der lokalen Zielsetzung und einer zentralen Aktionswertfunktion zum Erlernen von Kooperation trainiert, wodurch lokale Zielsetzungen oder Ziele berücksichtigt werden, während ebenso die Kooperation der N Anzahl von Agenten berücksichtigt wird, indem zwei gleichwertige Ansichten des Richtliniengradienten gezeigt werden und die neue Aktor-Kritiker- oder Agent-Kritiker-Anpassung implementiert wird.
Der CM3-Rahmen (z. B. in Verbindung mit dem CM3-System und dem CM3-Verfahren) kombiniert diese Merkmale innerhalb eines einzigen Lehrprogramms einschließlich eines vereinfachte Richtliniennetzwerks mit einem dezentralen Kritiker, um das Erreichen mehrerer Ziele in der Stufe Eins zu erlernen, während die Stufe Zwei den Beobachtungsraum der Richtlinie verstärkt, um andere Agenten darzustellen und eine Multi-Agent-Kooperation unter Nutzung der doppelten Kritikerimplementierung darzustellen. Gemäß einem Gesichtspunkt kann eine gemeinsame Nutzung von Parametern zwischen einem oder mehreren bis zu allen Agenten durch den Simulator 108 bereitgestellt werden.
Ein zentraler Kritiker, der umfassende Status-Aktions-Informationen erhält, kann das Lernen von dezentralen Aktoren oder Agenten (z. B. Richtlinien) beschleunigen, die nur lokale Informationen empfangen und nur die Aktoren können zur Ausführung nach dem Training zurückgehalten werden. Gemäß einem Gesichtspunkt kann die Richtlinie π (mit dem Parameter θ) in einer Einzel-Agent-Umgebung das Ziel maximieren $J (π) : = E_{π} [\sum_{t} γ^{t} R (s_{t})]$
durch Ansteigen des Gradienten: $\nabla_{θ} J (π) = E_{π} [\nabla_{θ} log π (a | s) (Q^{π} (s, a) - b (s))]$
In der Gleichung (1) ist $Q^{π} (s, a) : = E_{s_{t \sim p^{π}, a_{t \sim π}}} [\sum_{t} γ^{t} R (s_{t}, a_{t}) | s_{o} = s, a_{o} = a)]$
die Aktionswertfunktion und b(s) eine beliebige zustandsabhängige Basislinie.
Gemäß einem Gesichtspunkt kann eine kontrafaktische Basislinie definiert sein als: $b (s, a^{- n}) : = \sum_{{\hat{a}}^{n}} π^{n} ({\hat{a}}^{n} | o^{n}) Q (s, (a^{- n}, {\hat{a}}^{n}))$
Die kontrafaktische Basislinie kann sich auf das Problem der Multi-Agent-Guthabenzuweisung beziehen: Q (s, (a^-n, aⁿ)) - b (s, a^-n) kann den Beitrag einer von einem Agenten gewählte Aktion und gegen den Durchschnitt aller möglichen kontrafaktische Aktionen âⁿ darstellen, wobei Aktionen anderer Agenten fest bleiben. Der Simulator 108 kann die gemeinsame Nutzung von Parametern für alle Agenten verwenden, was bedeutet, dass alle Agenten dieselbe Richtlinie ausführen, sich jedoch je nach ihren individuellen Beobachtungen unterschiedlich verhalten können.
Der Richtliniengradient kann definiert sein als: $\nabla_{θ} J (π) = E_{π} [\sum_{n} \nabla_{0} log π^{n} (a^{n} | o^{n}) (Q (s, a) - b (s, a^{- n}]$
Das hierin beschriebene CM3-Rahmen kann auf der kontrafaktischen Basislinie basieren (z. B. Gleichung (3)), die die individuellen Zielsetzungen und Mischungen aus lokalen und gemeinsamen Belohnungen berücksichtigt.
3 ist ein beispielhaftes Flussdiagramm eines Verfahrens 300 für ein kooperatives Verstärkungslemen mit mehreren Zielen, mehreren Agenten und mehreren Stufen gemäß einem Gesichtspunkt. Das Verfahren 300 kann das Training 302 eines ersten Agenten und eines ersten Kritikers, um Merkmale in einer Einzel-Agent-Umgebung zu erlernen, das Training 304 einer Anzahl von N Anzahl von Agenten, um die Kooperation zwischen einer N Anzahl von Agenten in einer Multi-Agent-Umgebung zu erlernen, die Instanziierung von N Anzahl von Agenten mit einem vorab trainierten ersten neuronalen Agentennetzwerk und das Erzeugen 306 einer kooperativen Netzwerkrichtlinie mit mehreren Zielen, mehreren Agenten und mehreren Stufen (CM3) auf der Grundlage des ersten neuronalen Agentennetzwerks und des zweiten neuronalen Agentennetzwerks einschließen. Daher schließen die Schritte des Trainings 302 und des Trainings 304 einen schrittweisen, mehrstufigen Lernprozess zum Aufbau der Netzwerkrichtlinie von 306 ein.
Gemäß einem Gesichtspunkt kann das Training 302 des ersten Agenten in der Einzel-Agent-Umgebung ein Training des ersten Agenten auf der Grundlage eines ersten Richtliniengradienten und das Training eines ersten Kritikers auf der Grundlage einer ersten Verlustfunktion zum Erlernen eines oder mehrere Merkmale in der Einzel-Agent-Umgebung unter Verwendung eines Markov-Entscheidungsprozesses einschließen. Der erste Agent kann einem ersten neuronalen Agentennetzwerk zugeordnet sein und der erste Kritiker kann einem ersten neuronalen Kritikernetzwerk zugeordnet sein. Der erste Kritiker kann ein dezentraler Kritiker sein.
Gemäß einem Gesichtspunkt kann das Training 304 der N Anzahl von Agenten in der Multi-Agent-Umgebung das Trainieren der Anzahl von N Anzahl von Agenten auf der Grundlage eines ersten Richtliniengradienten und eines zweiten Richtliniengradienten und eines zweiten Kritikers, die auf der Grundlage der ersten Verlustfunktion und der zweiten Verlustfunktion trainiert werden, einschließen, um Kooperation zwischen der N Anzahl von Agenten in eine Multi-Agent-Umgebung mithilfe eines Markov-Spiels zu lernen, um ein zweites neuronales Agentennetzwerk zu instanziieren. Jeder der N Anzahl von Agenten kann mit dem ersten neuronalen Agentennetzwerk in einer vorab trainierten Weise instanziiert werden. Der zweite Kritiker kann ein zentraler Kritiker sein. Auf diese Art und Weise kann ein doppeltes Kritikerverfahren bereitgestellt werden. Weiterhin kann das Training des ersten Agenten in der Einzel-Agent-Umgebung vor dem Training der N Anzahl von Agenten in der Multi-Agent-Umgebung stattfinden, wodurch die Effizienz des CM3-Verstärkungslernens, wie es hierin beschrieben wird, verstärkt wird.
4 ist ein beispielhaftes Datenflussdiagramm in Verbindung mit einem Verfahren zum kooperativen Verstärkungslernen mit mehreren Zielen, mehreren Agenten und mehreren Stufen gemäß einem Gesichtspunkt. In Stufe Eins aus 4 kann ein Paar reduzierter Netzwerke V₁ und π₁ das Erreichen mehrerer Ziele in einer Einzel-Agent-Umgebung mithilfe des Richtliniengradienten ∇J_local erlernen. Ein neues Richtliniennetzwerk π kann aus dem trainierten π₁ , einem neuen Modul π₂ und der Konstruktion für V konstruiert werden. In der umfassenden Multi-Agent-Umgebung in Stufe Zwei aus 4 können diese größeren π und V für jeden der N Anzahl von Agenten (mit vollem Parameter-Sharing) zusammen mit einem neuen zentralen Kritiker Q instanziiert werden und unter Verwendung des interpolierten Richtliniengradienten trainiert werden.
Eine gemeinsame Richtlinie π (a|o, g) mit impliziertem Parameter θ, der von allen einzelnen πⁿ (aⁿ| oⁿ, gⁿ) geteilt wird, kann definiert werden, um die Zielsetzung zu maximieren: $J (π) : = E_{π} [\sum_{t} γ^{t} \sum_{n = 1}^{N} R (s_{t}, a_{t}^{n}, g^{n})]$
Die Zielsetzung kann auf zwei Arten betrachtet werden (z. B. lokal und global), was zu dem Aktor-Kritiker-Paar von dezentralen und zentralen Kritikern führt.
Für die lokale Ansicht (z. B. erste Ansicht) kann der Simulator 108 einen dezentralen Kritiker durch diese Belohnungen anlernen, einen Richtliniengradienten für Agenten bereitzustellen, um lokale Ziele ohne explizite Beachtung des gemeinsamen Erfolgs aller Agenten zu erreichen. Die Zielsetzungen $J_{n} (π) : = E_{π} [\sum_{t} γ^{t} R (s_{t}, a_{t}^{n}, g^{n})]$
können definiert werden, um einzelnen Zielen gⁿ zu entsprechen. J_local kann durch Ansteigen des Gradienten maximiert werden: $\begin{array}{l} \nabla_{θ} J_{l o c a l} (π) = \sum_{n = 1}^{N} \nabla_{θ} J_{n} (π) = E_{π} [\sum_{n = 1}^{N} log π (a | o, g) Q_{n}^{π} (s, a)] \\ \approx E_{π} [\nabla_{o} \sum_{n = 1}^{N} log π (a | o, g) (R (s_{t}, a_{t}^{n}, g^{n}) - V^{π} (o_{t}, g^{n}))] \end{array}$
Jede $Q_{n}^{π} (s, a) : = E_{π} [\sum_{t} γ^{t} R (s^{t}, a_{t}^{n}, g^{n}) | s_{0} = s, a_{0} = a)]$
ist der Zustandsaktionswert, der der einzelnen Belohnung R (s, aⁿ, gⁿ) entspricht.
In der zweiten Zeile der Gleichung (5) können die folgenden Approximationen vorgenommen werden:

1) zur Skalierbarkeit, Approximierung aller $Q_{n}^{π} (s, a)$
durch ein einzelnes Q^π (s, a, gⁿ) mit einem zusätzlichen Eingabeziel gⁿ statt der Verwendung von n verschiedenen Funktionsapproximatoren;
2) ohne Änderung der Erwartung, Ersetzen von Q^π (s,a, gⁿ) mit der Vorteilsfunktion A^π (s,a, gⁿ):= Q^π (s,a, gⁿ) -Q^π(s,a, gⁿ) und Verwenden des TD-Fehlers $δ_{t}^{n} : = R (s_{t}, a_{t}^{n}, g^{n}) + γ V^{π} (s_{t + 1}, g^{n}) - V^{π} (s_{t}, g^{n})$
als unverzerrte Schätzung des Vorteilswerts;
3) Berechnung des dezentralen Kritikers V(o_t, gⁿ) durch Vornehmen einer abschließenden Approximierung von s_t mit o_t .

Parametrisiert durch θ_V wird der Kritiker durch Minimierung des Verlustes aktualisiert:
wobei θ'_V Parameter eines Zielnetzwerks sind, das sich allmählich zum Haupt- θ_V hin aktualisiert.
Für die globale Ansicht (z. B. zweite Ansicht) kann eine gemeinsame Belohnung $R^{g} (s, a, g) : = \sum_{n = 1}^{N} R (s, a^{n}, g^{n})$
definiert werden. Die gemeinsame Belohnung kann verwendet werden, um einen zentralen Kritiker anzulernen, der jeden Agenten ermutigt, zum Erfolg anderer Agenten beizutragen. J_global kann definiert sein als: $\nabla_{θ} J_{g l o b a l} (π) = E_{π} [\sum_{n} \nabla_{θ} log π^{n} (a^{n} | o^{n}, g^{n}) (Q^{π} (s, a, g) - b (s, a^{- n}, g))]$
$Q^{π} (s, a, g) = E_{π} [\sum_{t} γ^{t} R^{g} (s_{t}, a_{t}, g) | s_{0} = s, a_{0} = a)]$
ist der zentrale Kritiker und b (s, a^-n, g) kann die generalisierte kontrafaktische Basislinie mit mehreren Zielen sein: $b (s, a^{- n}, g) : = \sum_{{\hat{a}}^{n}} π^{n} ({\hat{a}}^{n} | o^{n}, g^{n}) Q^{π} (s, (a^{- n}, {\hat{a}}^{n}), g)$
Parametrisiert durch θ_Q wird der zentrale Kritiker durch Minimierung des Verlustes aktualisiert:
In Gleichung (9) repräsentieren θ'_Q und π' jeweils langsam aktualisierende Ziel Q und Zielrichtliniennetzwerke.
Für die kombinierte Ansicht (z. B. die dritte Ansicht) kann durch den Simulator 108 mithilfe von ∝∈ (0,1) eine Interpolation zwischen beiden Ansichten durchgeführt werden, um das Ausmaß zu bestimmen, in dem die gemeinsame Belohnung die Richtlinie jedes Agenten beeinflusst.
Der Gesamtrichtliniengradient ist definiert als: $\nabla_{θ} J (π) : = α \nabla_{θ} J_{l o c a l} (π) + (1 - α) \nabla_{θ} J_{g l o b a l} (π)$
Der Richtliniengradient kann als gewichtete Summenskalarisierung eines Zwei-Zielsetzungs-Optimierungsproblems betrachtet werden, dessen Pareto-Optima durch Optimierung entlang der Gleichung (10) unter Verwendung von Konvexitätsannahmen ermittelt werden können.
In Stufe Eins können ein Aktor π und ein dezentraler Kritiker V^π trainiert werden, um mehrere Ziele in einer Einzel-Agent-Umgebung zu erlernen. Diese Stufe kann auf dem Einzel-Agent-Markov-Entscheidungsprozess (MDP) basieren. Der Simulator 108 kann einen Aktor π{aⁿ|oⁿ, gⁿ) sowie einen Kritiker V^π(oⁿ, gⁿ) jeweils entsprechend der Richtliniengradienten- ∇J_lokal Gleichung (5) und der Verlust-
(θ_V) Gleichung(6) trainieren. Ein Ziel kann einheitlich in jeder Trainingsepisode von G geprüft werden, da die Agenten im Verlauf des Trainings alle Ziele erlernen. Der Simulator 108 kann tiefe neuronale Netzwerke für die Funktionsapproximierung verwenden und die Eingabe in die Aktor- und Kritikernetzwerke kann den Beobachtungsvektor oⁿ des Agenten sowie einen Vektor gⁿ, der das Ziel für eine bestimmte Episode darstellt, einschließen.
Der Simulator 108 kann die einfache Beobachtung machen, dass Multi-Agent-Umgebungen üblicherweise eine Zerlegung des Beobachtungsraums des Agenten in $O^{n} = O_{s e l f}^{n} \cup O_{o t h e r s}^{n}$
erlauben, wobei $o_{s e l f} \in O_{s e l f}^{n}$
Informationen über den eigenen Status des Agenten enthält (z. B. die Position), während $o_{o t h e r s} \in O_{o t h e r s}^{n}$
die lokale Beobachtung umliegender Agenten ist und dass die Fähigkeit der Verarbeitung von o_others in Stufe Eins nicht notwendig ist. Auf diese Weise kann der Simulator 108 die Größe des Eingangsraums von π verringern und V auf $(O_{s e l f}^{n}, g^{n})$
setzen, wodurch die Anzahl der trainierbaren Parameter in Stufe Eins verringert und die Trainingsgeschwindigkeit erhöht wird. Der Simulator 108 kann diese reduzierten Aktor- und Kritikernetzwerke bis zur Konvergenz trainieren und sie jeweils als π1 und V1 bezeichnen.
In Stufe Zwei kann der Simulator 108 alle Agenten in das vollständige Markov-Spiel instanziieren, ausgestattet mit dem vorab trainierten π und V^π sowie einem neuen zentralen Kritiker Q und ein weiteres Training für kooperatives Verhalten durchführen. Das Markov-Spiel kann mit der N Anzahl der Agenten instanziiert werden. Der Simulator 108 kann die zuvor trainierten π1 Parameter beibehalten, ein neues neuronales Netzwerk π2 für Agenten instanziieren, um den o_others Parameter ihrer lokalen Beobachtung zu verarbeiten und versteckte Verbindungen von der Ausgabe von π2 zu einer ausgewählten Schicht von π1 einzuführen. Genauer gesagt kann $h_{i}^{1} \in ℝ^{m_{i}}$
die versteckten Aktivierungen der Schicht i ≤ L mit m_i Einheiten in einer L-Schicht Darstellung des neuronalen Netzwerks von π1 definieren, die mit der Schicht i - 1 über $h_{i}^{1} = f (W_{i}^{1} h_{i - 1}^{1}) {mit W}_{i}^{1} \in ℝ^{m_{i} \times m_{i - 1}}$
verbunden ist und die Aktivierungsfunktion aus Stufe Zwei ein K-Schicht neuronales Netzwerk π2 (o_others ) einführt, wobei die Ausgabeschicht k ∈ ℝ^m
K eine bestimmte Schicht i* von π₁ auswählt und die versteckten Aktivierungen $h_{i *}^{1}$
erweitert, um Folgendes zu sein: $h_{i *}^{1} = f (W_{i *}^{1}, h_{i * - 1}^{1} + W^{1 : 2} h_{K}^{2}), mit W^{1 : 2} \in ℝ^{m_{i} * \times m_{K}}$
Eine gleiche oder ähnliche Erweiterung kann für den Kritiker V1 unter Verwendung eines neuen neuronalen Netzwerks V2 (o_others) vorgenommen werden. Der Simulator 108 kann den zentralen Kritiker Q^π(s; a; g) instanziieren, was nicht erforderlich war und daher während der Stufe Eins nicht vorlag, und π; V; Q jeweils unter Verwendung der kombinierten Gradienten- ∇J Gleichung (10), der Verlust- (θ_v) Gleichung (6) und der Verlust- (θ_Q) Gleichung (9) trainieren. Ähnlich wie in Stufe Eins kann der Simulator 108 den Agenten Ziele zuweisen, indem er während jeder Trainingsepisode Stichproben (z. B. zufällig) aus einer Verteilung über G entnimmt. Die Verteilung kann so aufgebaut werden, dass ein ausreichendes Training für schwierige Zielkombinationen, die eine Zusammenarbeit erfordern, sowie für einfachere Kombinationen für die Erhaltung der Fähigkeit der Agenten, auf ihr Ziel hinzuwirken, sichergestellt werden.
Dieser zweistufige Aufbau von Aktor-Kritiker-Netzwerken mit Lernen des Lernprogramms verbessert die Lerngeschwindigkeit im Vergleich zu einem direkten Training in der vollen Multi-Agent-Umgebung. Auf diese Weise lernen CM3-Rahmenbasierte Systeme und Verfahren erheblich schneller und finden sogar erfolgreichere Richtlinien als starke Basislinien. Das zweistufige Lernprogramm und der dezentrale Kritiker erleichtern diesen Erfolg, während die globale Ansicht des Richtliniengradienten einen deutlichen Vorteil beim Finden einer kooperativen Lösung ergibt.
Weitere verborgene Schichten i < i*, die zur Verarbeitung von $(o_{s e l f}^{n}, g^{n})$
in Stufe Eins vortrainiert wurden, erhalten die Fähigkeit zur Verarbeitung von Prozessaufgabeninformationen, während das neue Modul den Effekt über umliegende Agenten erlernt. Höhere Schichten i ≥ i*, die zielgerichtete Aktionen in der Einzel-Agent-Umgebung der Stufe Eins erzeugen können, werden durch die kombinierten Gradienten abgestimmt, um gemeinsame Aktionen zum gemeinsamen Erfolg aller Agenten zu erzeugen.
5A-5B sind ein beispielhaftes Flussdiagramm eines Verfahrens zum kooperativen Verstärkungslernen mit mehreren Zielen, mehreren Agenten und mehreren Stufen gemäß einem Gesichtspunkt. Nach einem Gesichtspunkt der vorliegenden Erfindung veranschaulicht das Verfahren der 5A-5B einen Pseudo-Code zum Implementieren eines CM3-Rahmens.
6 ist ein beispielhaftes Stimulationsszenario in Verbindung mit kooperativem Verstärkungslemen mit mehreren Zielen, mehreren Agenten und mehreren Stufen gemäß einem Gesichtspunkt. In 6 ist ein Segment eines großen Straßennetzes in dem Simulator 108 dargestellt. Der Simulator 108 kann I erste Fahrspuren beginnend an der horizontalen Position x_i , von denen zwei auf einen Einfädelpunkt treffen und 1 - 1 Zielspuren an der Endposition x_f einschließen. In jeder Episode werden N Anzahl von Agenten bei x_i auf zufällig ausgewählten ersten Spuren ausgesendet und jeder Agent n ist einer zufällig ausgewählten Zielfahrspur gⁿ zugeordnet, die er lernen sollte, bei Position x_f zu erreichen. Agenten können Beobachtungen mit einem eingeschränkten Sichtfeld empfangen, Aktionen aus einem diskreten Aktionsraum auswählen und Belohnungen gemäß sowohl der Abschluss- als auch der Momentankriterien empfangen (z. B. Erreichen des Ziels, Überschreiten der Geschwindigkeitsbegrenzung). Der Simulator 108 kann die folgenden Umgebungen definieren:

E1: Ein einzelner Agent auf einer ansonsten leeren Straße lernt, jede Zielspur von jeder beliebigen Anfangsspur aus zu erreichen. Dies wird für die erste Stufe von CM3 verwendet, die die Anfangsnetzwerke π1 und V1 mit der Zielsetzung J_local trainiert.
E2: N = 4 Agenten werden zufällig initialisiert: mit einer Wahrscheinlichkeit von 0,8 werden Anfangs- und Zielspuren so festgelegt, so ein doppeltes Einfädeln auftritt; mit einer Wahrscheinlichkeit von 0,2 werden Anfangs- und Zielspuren einheitlich abgetastet. Die vollständige Stufe Zwei-Architektur von CM3 wird in E2 trainiert.
E2+: dient zum Testen der Verallgemeinerung, wobei die von dem Verkehrssimulator gesteuerten Fahrzeuge mit einer Wahrscheinlichkeit von 0,5/sek. ausgesendet werden.

Gemäß einem Gesichtspunkt kann der Simulator 108 Stufe Eins in E1 trainieren, gefolgt von einem Training der Stufe Zwei bei E2. Gemäß einem anderen Gesichtspunkt können Konkurrenzverfahren direkt in E2 trainiert werden (z. B. in denen Fahrzeuge oder Agenten konkurrieren können statt zu kooperieren).
Der Simulator 108 kann eingerichtet sein, um eine gerade Straße mit einer Gesamtlänge zu simulieren, einschließlich einer oder mehreren Spuren und einer Einfädelspur. Fahrzeuge auf der Einfädelspur können in der Lage sein, sich innerhalb eines Einfädelfensters auf den Hauptspuren einzufädeln, und die Einfädelspur kann bei einer vorbestimmten Länge enden. Die Fahrspuren können eine Breite aufweisen, und Fahrzeuge können entlang irgendeiner von vier Unterspuren innerhalb einer Fahrspur mit einem seitlichen Abstand ausgerichtet sein. Die Geschwindigkeitsbegrenzung kann auf eine vorbestimmte Geschwindigkeit eingestellt werden. In E2+ können die Verkehrssimulator-gesteuerten Personenkraftwagen und Lastkraftwagen (z. B. Typ Lastzug), die sich gemäß dem Krauss-Autofolgemodell verhalten, mit einer vorbestimmten Wahrscheinlichkeit pro Sekunde auf Hauptspuren ausgesendet werden. Die Simulationszeitauflösung kann auf eine Simulationsschrittzeit eingestellt werden.
Gemäß einem Gesichtspunkt können in E1 die Anfangsspur und die Zielspur des einzelnen Agenten zufällig aus gleichförmigen Verteilungen über die Anzahl von Start- und Endspuren abgetastet werden. In E2 können mit einer Wahrscheinlichkeit von 0:2, alle Anfangs- und Zielspuren der Agenten unabhängig von der einheitlichen Verteilung über die Anzahl von Start- und Endspuren abgetastet werden; mit einer Wahrscheinlichkeit von 0:8 wurden die Agenten [1,2,3,4] mit ersten Spuren [2,2,3,3] und Zielspuren [4,4,0,0] initialisiert. Abfahrtszeiten können aus normalen Verteilungen mit einem Durchschnitt [0; 2; 0; 2] und Standardabweichung 0,2 s bezogen werden.
Lokale Beobachtung
Gemäß einem Gesichtspunkt kann die lokale Beobachtung jedes Agenten-Fahrzeugs zwei Parameter einschließen. Der erste Parameter bezieht sich auf ihn selbst, wird in allen Trainingsstufen verwendet und kann ein Vektor einschließlich der normalisierten Geschwindigkeit des Agenten, einer normalisierte Anzahl von Unterspuren zwischen der aktuellen Unterspur des Agenten und der mittleren Unterspur der Zielspur, einer normalisierten Längendistanz bis zur Zielposition, einem binären Indikator dafür, dass man sich auf der Einfädelspur befindet und einer normalisierten Distanz zu dem nächsten Segment auf der Straße (mithilfe von vordefinierten Segmentgrenzen) sein.
Gemäß einem anderen Aspekt kann der zweite Parameter ein diskretisiertes Beobachtungsgitter sein, das auf den Agenten zentriert ist, einschließlich von vier Kanälen: binäre Anzeige der Fahrzeugbelegung, normalisierte relative Geschwindigkeit zwischen dem anderen Fahrzeug und dem Agenten, binäre Anzeige des Fahrzeugtyps als Personenkraftwagen, binär Anzeige des Fahrzeugtyps als Lastwagen.
Globaler Zustand
Die globalen Zustandsvektoren können die Verkettung $o_{s e l f}^{1}, \dots, o_{s e l f}^{N}$
aller Beobachtungsparameter $o_{s e l f}^{n}$
aller Agenten sein.
Ziele
Jeder Zielvektor g_n kann ein 1-aus-n-Längenvektor sein, der die Zielspur angibt, bei der der Agent n ankommen sollte, nachdem er die vorbestimmte Position x erreicht hat. Ziele können für alle Agenten bei jeder Folge zufällig abgetastet werden.
Aktionen
Alle Agenten verfügen über den gleichen diskreten Aktionsraum, einschließlich von fünf Optionen: eine Nicht-Handlungs-Aktion (z. B. Beibehalten der aktuellen Geschwindigkeit und Fahrspur), Beschleunigen, Abbremsen, Wechsel der Fahrspur um eine Unterspur nach links, Wechsel der Fahrspur um eine Unterspur nach rechts. Jede Aktion des Agenten a_n kann als ein 1-aus-n-Vektor einer vorbestimmten Länge dargestellt werden.
Individuelle Belohnungen
Gemäß einem Gesichtspunkt kann die Belohnung $R (s_{t}, a_{t}^{n}, g^{n}); gn)$
für Agent n mit Ziel g_n entsprechend den folgenden Bedingungen gegeben sein:

-10 für eine Kollision (gefolgt von Beendigung der Episode)
-10 für Zeitüberschreitung (überschreiten von 120 Simulationsschritten während der Episode) +10(1-Δ) für das Erreichen des Endes der Straße und mit einer normalisierten Unterspurdifferenz von der Mitte der Zielspur
-5 für das Einfahren in die Einfädelspur von einer anderen Spur während 200 m < x < 400 m
-0,5 für das Befinden in der Einfädelspur während 200 m < x < 400 m
-0,1, wenn die aktuelle Geschwindigkeit 35,7 m/s überschreitet

Geteilte globale Belohnung
Gemäß einem Gesichtspunkt kann eine geteilte globale Belohnung Rg(s_t; a_t; g) bestimmt werden durch:

-10 wenn eine Kollision aufgetreten ist; und

Architektur
Gemäß einem Gesichtspunkt speist das Richtliniennetzwerk π₁ während der Stufe Eins jeden der Eingänge o_self und gⁿ zu einer vollständig verbundenen Schicht mit 32 Einheiten. Die Verkettung kann vollständig mit einer Schicht $h_{*}^{π 1}$
mit 64 Einheiten verbunden sein und vollständig mit einer Softmax-Ausgangsschicht mit 5 Einheiten verbunden sein, die jeweils einer einzelnen Aktion entsprechen. In Stufe Zwei kann das Eingabebeobachtungsgitter o_others durch eine Faltungsschicht mit 4 Filtern der Größe 5x3 und der Schrittweite 1×1 verarbeitet, abgeflacht und vollständig mit einer Schicht mit 64 Einheiten verbunden werden und dann vollständig mit der Schicht $h_{*}^{π_{1}}$
von π₁ verbunden werden. Die Nichtlinearität der ReLU kann für alle verborgenen Schichten verwendet werden. Aktionswahrscheinlichkeiten werden durch Niedrigbegrenzen der Softmax-Ausgaben über Pr(aⁿ = i) = (1 - ∈)softmax(i) + ∈/|A| berechnet, wobei ε ein abklingender Erkundungsparameter und |A| = 5 ist.
Der dezentrale Kritiker V1 kann während der Stufe Eins jede der Eingaben o_self und gⁿ in eine vollständig verbundene Schicht mit 32 Einheiten einspeisen. Die Verkettung kann vollständig mit der linearen Ausgangsschicht hV1_ mit einer einzelnen Einheit verbunden sein. In Stufe Zwei kann das Eingabebeobachtungsgitter o_others durch eine Faltungsschicht 13 mit 4 Filtern der Größe 5x3 und der Schrittweite 1×1 verarbeitet, abgeflacht und vollständig mit einer Schicht mit 32 Einheiten verbunden werden und dann vollständig mit der Ausgangsschicht $h_{*}^{V_{1}} von V 1$
verbunden werden. Die Nichtlinearität der ReLU kann für alle verborgenen Schichten verwendet werden.
Der zentrale Kritiker Q (s, a, g) kann die Eingabe (s, a^-n, gⁿ, g^-n, n) empfangen, die mit zwei vollständig verbundenen Schichten mit 128 Einheiten und ReLU-Aktivierung verbunden ist sowie vollständig mit einer linearen Ausgangsschicht mit 5 Einheiten verbunden ist. Der Wert jedes Knotens i kann als der Aktionswert Q(s, a^-n, aⁿ = i, g) für den die Aktion i ergreifenden Agent n und alle übrigen Agenten interpretiert werden, die die Aktion a^-n ergreifen. Der Agentbeschriftungsvektor n ist ein 1-aus-n-Indikatorvektor, der als Eingabe zur Unterscheidung zwischen den Bewertungen der Q-Funktion für verschiedene Agenten verwendet wird.
Die Doppelwiedergabepuffer B₁ und B₂ können als Heuristik verwendet werden, um die Trainingsstabilität für alle Algorithmen auf Stufe 2 zu verbessern. Anstelle eines sofortigen Speicherns jedes Umgebungsübergangs kann ein zusätzlicher Episodenpuffer verwendet werden, um alle Übergänge zu speichern, auf die während jeder Episode gestoßen wird. Am Ende jeder Episode kann die kumulative Belohnung aller Agenten mit einem Schwellenwert verglichen werden (z. B. 32), um zu bestimmen, ob die Übergänge in dem Episodenpuffer in B₁ oder B₂ . Gespeichert werden sollen. Für das Training wird jeweils die Hälfte der Minicharge aus B₁ und B₂ abgetastet.
7-8 sind beispielhafte Leistungsergebnisse in Verbindung mit kooperativem Verstärkungslemen mit mehreren Zielen, mehreren Agenten und mehreren Stufen gemäß einem Gesichtspunkt. Wie in 7 zu sehen ist, konvergierte CM3 mehr als 45.000 Episoden früher zu einer höheren Leistung als andere Techniken in E2. In 8 ist zu sehen, dass eine Richtlinie, die durch ein auf CM3-Rahmen-basiertes System oder Verfahren gelernt wird, besser zu E2+ verallgemeinert.
9 ist ein beispielhaftes Stimulationsszenario in Verbindung mit kooperativem Verstärkungslemen mit mehreren Zielen, mehreren Agenten und mehreren Stufen gemäß einem Gesichtspunkt. In 9 erfordert eine erste Spurkonfiguration in Zusammenhang mit E2, dass Agenten eine doppelte Einfädelung oder einen doppelten Spurwechsel durchführen, um ihre Zielspur zu erreichen.
10 ist eine beispielhafte Belohnung im Vergleich zum Episodengraph in den Einzel-Agent-Umgebung E1 gemäß einem Gesichtspunkt.
Autonome Generierung von Fahrzeugrichtlinien auf der Grundlage von Maskierung
11 ist ein Komponentendiagramm eines autonomen Systems zur Generierung von Fahrzeugrichtlinien 1100 gemäß einem Gesichtspunkt. Das System 100 für CM3-Verstärkungslemen kann eine oder mehrere der Komponenten oder das gesamte autonomen Systems zur Generierung von Fahrzeugrichtlinien 1100 aus 11 einschließen. Das autonome System zur Generierung von Fahrzeugrichtlinien 1100 kann einen Prozessor 1102, einen Speicher 1104, ein Speicherlaufwerk 1106, einen Zustandseingabegenerator 1108, einen Verkehrssimulator 1112, einen Q-Maskierer 1114, und einen Aktionsgenerator 1116 einschließen. Der Zustandseingabegenerator 1108, der Verkehrssimulator 1112, der Q-Maskierer 1114 und der Aktionsgenerator 1116 können durch den Prozessor 1102, den Speicher 1104 und/oder das Speicherlaufwerk 1106 implementiert werden.
Das autonome System zur Generierung von Fahrzeugrichtlinien 1100 kann durch Simulation und durch Q-Maskierung eine autonome Fahrzeugrichtlinie für das Fahrzeug 170 erzeugen, die die autonome Fahrzeugrichtlinie beispielsweise unter Verwendung des Steuergeräts 176 des Fahrzeugs 170 implementieren kann.
Der Zustandseingabegenerator 1108 kann Zustandsinformationen bestimmen oder erzeugen, die dem autonomen Fahrzeug zugeordnet sind, wie simuliert. Mit anderen Worten ist der Zustandseingabegenerator 1108 dafür verantwortlich, Eingaben für ein Netzwerk zu bestimmen, das mit der Generierung einer autonomen Fahrzeugrichtlinie verbunden ist. Beispiele dieser Eingaben können den Zustand des simulierten autonomen Fahrzeugs einschließen, einschließlich interner Zustandsinformationen des simulierten autonomen Fahrzeugs (z. B. einer Geschwindigkeit oder einer aktuellen Geschwindigkeit, die dem simulierten autonomen Fahrzeug zugeordnet ist) und Statusinformationen außerhalb des simulierten autonomen Fahrzeugs (z. B. eine Spurposition oder eine dem simulierten autonomen Fahrzeug zugeordnete Spurposition, und eine Distanz zu einem Ziel, wie beispielsweise einem gewünschtes Zielort). Das Ziel muss nicht notwendigerweise ein endgültiger Zielort sein, sondern kann beispielsweise ein Wegpunktziel entlang einer Route sein. Der Verkehrssimulator 1112 kann die Simulationsumgebung simulieren, die das simulierte autonome Fahrzeug und ein oder mehrere andere Fahrzeuge (z. B. ein erstes Fahrzeug, ein zweites Fahrzeug, ein drittes Fahrzeug usw.) innerhalb der Simulationsumgebung einschließt. Der Verkehrs simulator 1112 kann dazu konfiguriert sein, die anderen Fahrzeuge zu steuern, um eine Geschwindigkeit innerhalb eines Bereichs aufrechtzuerhalten.
Gemäß einem Gesichtspunkt kann der Verkehrssimulator 1112 der Simulator 108 des Systems 100 für die CM3-Verstärkung aus 1 sein. Darüber hinaus können der Prozessor 1102 und der Speicher 1104 die gleichen sein wie der Prozessor 102 und der Speicher 104 aus dem System 100 für die CM3-Verstärkung aus 1.
Da der Abstand zu dem Ziel als eine Eingabe für den Verkehrssimulator 1112 betrachtet werden kann, können Schlussfolgerungen über langfristige Entscheidungen auf einer strategischen Ebene in Betracht gezogen werden, wenn sie in einem Fahrszenario vorhanden sind, wie beispielsweise einer mehrspurigen Straße im Verkehr.
Gemäß einem Gesichtspunkt steuert der Verkehrssimulator 1112 die anderen Fahrzeuge innerhalb der Simulationsumgebung, um Kollisionen miteinander zu vermeiden, aber nicht mit dem simulierten autonomen Fahrzeug (z. B. dem Agenten). Der Q-Maskierer 1114 kann über ein untergeordnetes Steuergerät implementiert werden und Teil eines tiefen Q-Lernsystems sein, das Richtlinien erlernt, die es dem autonomen Fahrzeug ermöglichen, Entscheidungen auf taktischer Ebene zu treffen. Das tiefe Q-Lernsystem kann eine Abbildung zwischen Zuständen und Q-Werten erlernen, die jeder möglichen Aktion zugeordnet sind. Anders gesagt, würde der Verkehrssimulator 1112 unter Verwendung des tiefen Q-Lernsystems und ohne Anwendung des Q-Maskierers 1114 damit fortfahren, alle möglichen Aktionen für jeden Zeitrahmen zu simulieren, was einen großen Teil der Rechenleistung des Prozessors 1102 und des Speicher 1104 verwenden würde. Daher kann es bei großen Netzwerken schwierig sein, eine umfassende Richtlinie zu erlernen, bei der jede einzelne Aktion erkundet wird.
In einem Q-Lernnetzwerk kann eine Zuordnung zwischen Zuständen und Q-Werten, die jeder Aktion zugeordnet sind, erlernt werden. Gemäß einem Aspekt kann die Q-Maskierung in Form einer Maske, die auf die ausgegebenen Q-Werte angewendet wird, angewendet werden, bevor ein Maximal- (oder Softmax-) Operator auf die Ausgabeschicht der Q-Werte angewendet wird, um die „besten“ Aktion auszuwählen. In dieser Hinsicht besteht die direkte Wirkung des Q-Maskierers 1114 darin, dass, wenn die maximale Operation ausgeführt wird, um die „beste“ Aktion auszuwählen, nur die Q-Werte in Betracht gezogen werden, die einer Teilmenge der Aktionen zugeordnet sind, die von einem niedrigeren Modul bestimmt werden.
Somit kann der Q-Maskierer 1114 eine Teilmenge von ausgegebenen Q-Werten, die durch den Verkehrssimulator 1112 simuliert werden sollen, maskieren. Daher werden nur die mit einer verbleibenden Teilmenge von Aktionen verknüpften Q-Werte durch den Verkehrssimulator 1112 während der Simulation berücksichtigt, wodurch die Menge an Verarbeitungsleistung und/oder Rechenressourcen, die während der Simulation und des Trainings des autonomen Fahrzeugs bei der autonomen Generierung von Fahrzeugrichtlinien verwendet werden, abgeschwächt wird. Basierend auf der verbleibenden Teilmenge von Aktionen (z. B. einem Satz von möglichen Aktionen, der Teilmenge von Aktionen mit Ausnahme der maskierten Teilmenge), kann der Aktionsgenerator 1116 die übrigen Aktionen untersuchen und die autonome Fahrzeugrichtlinie entsprechend bestimmen. Dies kann über ein oder mehrere Zeitintervalle wiederholt werden. Der Q-Maskierer 1114 kann so das simulierte autonome Fahrzeug dazu „zwingen“, nur die nicht maskierten Zustände zu erkunden und somit nur eine Teilmenge des Raumes von assoziierten Q-Werten zu erlernen (was den langfristigen Ertrag einer Aktion (α) unter der Richtlinie (π) in Zustand (s) angibt).
Noch detaillierter kann der Zustandseingabegenerator 1108 einen Satz von Attributen erzeugen, die einem autonomen Fahrzeug zugeordnet sind, das gerade trainiert wird (z. B. das simulierte autonome Fahrzeug). Zum Beispiel kann der Satz von Attributen die aktuelle Geschwindigkeit v, die dem autonomen Fahrzeug zugeordnet ist, einer Spurposition I, die dem autonomen Fahrzeug zugeordnet ist, und eine Distanz d2g von dem autonomen Fahrzeug zu einem Ziel, das ein gewünschter Zielort sein kann, einschließen. Außerdem kann der Satz von Attributen oder die Positionsinformationen, die dem Fahrzeug zugeordnet sind, als ein Belegungsraster dargestellt werden. Der Satz von Attributen kann eine Zustandsinformation sein, die indikativ oder repräsentativ für einen Zustand (S) oder ein Szenario ist, das dem autonomen Fahrzeug zugeordnet ist. Zum Beispiel können Informationen wie beispielsweise eine angezeigte Geschwindigkeitsbegrenzung oder minimale und maximale Geschwindigkeitsbegrenzungen ν_min und ν_max basierend auf der Position oder dem Standort des autonomen Fahrzeugs bestimmt werden.
Der Verkehrssimulator 1112 kann eine Simulationsumgebung simulieren, die das autonome Fahrzeug, eine Fahrbahn, die einer Anzahl von Fahrspuren zugeordnet ist, und ein oder mehrere andere Fahrzeuge innerhalb der Simulationsumgebung einschließt. Der Verkehrssimulator 1112 kann Verkehr mit einer Verkehrsdichte erzeugen und jeder Spur kann eine Wahrscheinlichkeit Plane zum Aussenden eines Fahrzeugs an einer Startposition in einem Zeitspanne zugewiesen sein, wobei dem anderen Fahrzeug eine beliebigen Startgeschwindigkeit, eine beliebige Zielgeschwindigkeit und eine Bereich zugeordnet sein kann, innerhalb dessen es sich von der zufälligen Zielgeschwindigkeit halten soll. Der Verkehrssimulator 1112 kann Modelle verwenden, die die anderen Fahrzeuge steuern, um Kollisionen miteinander zu vermeiden, nicht jedoch das simulierte autonome Fahrzeug. Gemäß einem Gesichtspunkt steuert der Verkehrssimulator 1112 nicht das simulierte autonome Fahrzeug, sondern steuert lediglich die anderen Fahrzeuge innerhalb der Simulationsumgebung, um einzig Kollisionen dieser miteinander (und nicht mit dem simulierten autonomen Fahrzeug) zu vermeiden.
Der Verkehrssimulator 1112 kann ein tiefes Q-Lernsystem sein, das Verstärkungslemen basierend auf den erzeugten Zustandseingabeattributen für das simulierte autonome Fahrzeug und die durch den Verkehrssimulator 1112 bereitgestellte Simulationsumgebung realisiert. Innerhalb der durch den Verkehrssimulator 1112 verwalteten Simulationsumgebung kann das simulierte autonome Fahrzeug ein Agent sein, der simulierte Aktionen aus dem Satz von möglichen Aktionen ergreifen kann. Der Satz möglicher Aktionen kann als der Aktionssatz (A) bekannt sein. Zum Beispiel schließt der Satz möglicher Aktionen für das autonome Fahrzeug ein autonomes Fahrmanöver ein, bei dem während eines Zeitintervalls die dem autonomen Fahrzeug zugeordnete aktuelle Geschwindigkeit beibehalten, beschleunigt, abgebremst, ein Spurwechsel nach rechts oder ein Spurwechsel nach links durchgeführt wird.
Die Simulationsumgebung kann die Welt oder die Umgebung sein, durch die sich das simulierte autonome Fahrzeug bewegt. Der Verkehrssimulator 1112 simuliert die simulierte Umgebung und verwendet den aktuellen Zustand und die Aktion des simulierten autonomen Fahrzeugs (z. B. für ein vorgegebenes Zeitintervall) als eine Eingabe und gibt die Belohnung des simulierten autonomen Fahrzeug, unten beschrieben, sowie den nächsten Zustand als eine Ausgabe aus. Zum Beispiel kann der Verkehrssimulator 1112 den aktuellen Zustand des Fahrzeugs (z. B. 50 Meilen pro Stunde) und die Aktion (z. B. Verzögerung) nehmen und die Gesetze der Physik anwenden, um den nächsten Zustand des simulierten autonomen Fahrzeugs (z. B. 45 Meilen pro Stunde) zu bestimmen.
Der Verkehrssimulator 1112 kann eine Belohnungsfunktion (R) verwenden, die eine Funktion sein kann, die eine ergriffene (z. B. simulierte) Aktion bewertet. Anders ausgedrückt kann die Belohnungsfunktion verwendet werden, um Erfolg oder Misserfolg zu messen. Wenn das simulierte autonome Fahrzeug beispielsweise ein Ziel verfehlt (z. B. den gewünschten Zielort) oder in eine Kollision verwickelt ist, kann die Belohnungsfunktion die simulierte Aktion, die zu dem aktuellen Zustand geführt hat (z. B. dem verpassten Ziel oder der Kollision) bestrafen. Umgekehrt kann die Belohnungsfunktion basierend auf der schnellsten Zeit oder der schnellsten Route zu dem Ziel Belohnungen vergeben. Belohnungen können basierend auf der Belohnungsfunktion sofort bereitgestellt oder verzögert werden. Die Belohnungen, die durch die Belohnungsfunktion bereitgestellt werden, ermöglichen das Verstärkungslemen auf der Grundlage eines vorgegebenen Ziels (z. B. Erreichen einer Ausfahrt).
Ein Diskontfaktor (γ) kann mit zukünftigen Belohnungen multipliziert werden, damit Kurzzeitentscheidungen mehr wiegen als langfristige Belohnungen. Mit anderen Worten kann der Diskontfaktor dazu verwendet werden, zu bestimmen, das zukünftige Belohnungen weniger wert sind als sofortige Belohnungen. In dieser Hinsicht kann ein Wert (V) ein erwarteter langfristiger Ertrag sein, der die Auswirkungen des Diskonts einschließt. Ein Q-Wert (Q) kann ein Aktionswert sein, der den langfristigen Ertrag einer Aktion (A) unter der Richtlinie (π) für den Zustand (s) angibt. Eine Trajektorie kann eine Sequenz von Zuständen und/oder Aktionen sein, die diese Zustände einschließt. Eine Richtlinie (n) oder eine autonomen Fahrzeugrichtlinie kann eine Strategie sein, die der Aktionsgenerator 1116 verwendet oder anwendet, um die nächste Aktion für das autonome Fahrzeug basierend auf dem aktuellen Zustand zu bestimmen (z. B. wie durch den Satz von Attributen angegeben, die dem autonomen Fahrzeug zugeordnet sind).
Gemäß einem Gesichtspunkt kann die Belohnungsfunktion sein: $r_{T} = {\begin{matrix} + 10 & l = 0; A u s f a h r t e r r e i c h t \\ - 10 \times l & l \neq 0; A u s f a h r t v e r p a s s t \end{matrix},$
wobei l die Fahrspur ist, in der das simulierte autonome Fahrzeug sich in einer Zieldistanz D von einer Startposition befindet.
Somit wird gemäß dieser Belohnungsfunktion eine positive End-Belohnung für den Erfolg (z. B. Erreichen des Ziels) und eine zunehmend negative End-Belohnung gegeben, je weiter das simulierte autonome Fahrzeug am Ende von der dem Ziel zugeordneten Spur entfernt ist. Der Diskontaktor kann das simulierte autonome Fahrzeug dazu anregen, das Ziel in kürzester Zeit oder in der kleinsten Anzahl von Zeitintervallen zu erreichen (d. h. eine höhere Durchschnittsgeschwindigkeit aufrechtzuerhalten). Da Kollisionen ferner während des Trainings niemals erlaubt sind, muss die Belohnungsfunktion Kollisionen nicht berücksichtigen, wodurch die Belohnungsfunktion vereinfacht wird.
Zum Beispiel kann der Q-Maskierer 1114 in einem gegebenen Zustand jede Menge von Aktionen, die der Agent oder das simulierte autonome Fahrzeug nicht erkunden müssen oder aus deren Ergebnissen sie nicht lernen müssen, einschränken oder auf andere Weise „maskieren“. Mit anderen Worten, wenn sich das simulierte autonome Fahrzeug auf der äußersten linken Fahrspur befindet, würde eine Aktion wie ein Spurwechsel nach links zum Verlassen der Autobahn führen. Daher kann der Q-Maskierer 1114 eine Maske auf den der Spurwechsel-Aktion nach links zugeordneten Q-Wert legen, so dass die Aktion zum Spurwechsel nach links in einem solchen Zustand niemals ausgewählt wird. Dies ermöglicht, dass Vorkenntnisse über das System (d. h., Autobahnrandstreifen in diesem Beispiel) direkt in den Lernprozess einbezogen werden. Eine negative Belohnung für das Verlassen der Autobahn muss jedoch nicht eingerichtet werden, wodurch die Belohnungsfunktion vereinfacht wird.
Da der Aktionsgenerator 1116 diese Zustände nicht untersucht, wird auch das Lernen selbst schneller und effizienter. Was der Aktionsgenerator 1116 schließlich lernt, ist vielmehr eine Teilmenge des tatsächlichen Raums von Q-Werten und nicht die gesamte Menge. Auf eine ähnliche Art und Weise können auch Einschränkungen des Systems berücksichtigt werden. Wenn das autonome Fahrzeug beispielsweise mit der Maximalgeschwindigkeit ν_max fährt, kann die Beschleunigungs-Aktion maskiert werden (oder wenn mit der Minimalgeschwindigkeit ν_min gefahren wird, kann die Brems-Aktion maskiert werden). Auf diese Weise muss der Aktionsgenerator 1116 keine Zeit dafür aufbringen, die Geschwindigkeitsbegrenzungen der Autobahn oder Fahrbahn zu lernen.
Der Q-Maskierer 1114 kann eine Maske bestimmen, die auf eine Teilmenge des Satzes möglicher Aktionen für das autonome Fahrzeug für ein Zeitintervall anzuwenden ist. Diese maskierten Sätze von Aktionen werden vom Aktionsgenerator 1116 nicht untersucht oder berücksichtigt, wodurch die Menge an Rechenressourcen (z. B. Verarbeitungsleistung, Arbeitsspeicher, Massenspeicher usw.), die von einem System zur autonomen Generierung von Fahrzeugrichtlinien verwendet werden, verringert wird.
Gemäß einem Gesichtspunkt kann der Q-Maskierer 1114 die anzuwendende Maske auf der Grundlage von Vorwissen, einer oder mehreren Verkehrsregeln, Einschränkungen oder Informationen von der untergeordneten Steuerung oder einer dem autonomen Fahrzeug zugeordneten Fähigkeit bestimmen. Das Vorwissen kann auf vordefinierte zulässige Interaktionen zwischen dem autonomen Fahrzeug und der Simulationsumgebung oder zwischen dem autonomen Fahrzeug und anderen Fahrzeugen innerhalb der Simulationsumgebung hinweisen. Anders ausgedrückt kann der Q-Maskierer 1114 Vorkenntnisse nutzen, um Aktionen zu maskieren, die zu Kollisionen zwischen dem simulierten autonomen Fahrzeug und anderen Fahrzeugen führen können, die Zeit bis zur Kollision (TTC) verlängern, bewirken, dass das simulierte autonome Fahrzeug von der Fahrbahn abweicht oder außerhalb eines gewünschten Betriebsschwellenwerts oder -bereichs fällt.
Die Verkehrsregel kann basierend auf dem Standort oder der aktuellen Position des Fahrzeugs zulässige Fahrmanöver anzeigen. Zum Beispiel kann die Verkehrsregel eine maximale Geschwindigkeitsgrenze, eine minimale Geschwindigkeitsgrenze, höfliches Fahrverhalten, wie kein Ausscheren, kein doppelter Spurwechsel ohne Pause dazwischen, das Nicht-Durchführen von Fahrmanövern, die andere Fahrer „schneiden“ würden usw. einschließen. Mit anderen Worten kann der Q-Maskierer 1114 basierend auf der Verkehrsregel die maskierte Teilmenge von Aktionen bestimmen, die das Beschleunigen einschließt, wenn die aktuelle Geschwindigkeit, die dem autonomen Fahrzeug zugeordnet ist, höher ist als eine Geschwindigkeitsbegrenzung, die der Fahrbahn zugeordnet ist, und die das Bremsen einschließt, wenn die dem autonomen Fahrzeug zugeordnete aktuelle Geschwindigkeit unterhalb der Mindestgeschwindigkeit liegt, die einer Fahrbahn zugeordnet ist. Auf diese Art und Weise würden Beschleunigungs- und Brems-Aktionen, die minimale und maximale Geschwindigkeitsbegrenzungen von ν_min und ν_max verletzen würden, durch den Q-Maskierer 1114 maskiert.
Weitere Verkehrsregeln können das Nicht-Weiterleiten einer Doppelspurmarkierung einschließen. Zum Beispiel kann der Q-Maskierer 1114 basierend auf der Verkehrsregel bestimmen, dass die maskierte Teilmenge von Aktionen ein autonomes Fahrmanöver zum Durchführen eines Spurwechsels nach rechts einschließt, wenn das autonome Fahrzeug direkt rechts von Doppelspurmarkierungen der Fahrbahn positioniert ist und ein autonomes Fahrmanöver zum Durchführen eines Spurwechsels nach links einschließt, wenn das autonome Fahrzeug direkt links von Doppelspurmarkierungen der Fahrbahn positioniert ist.
Außerdem kann die dem autonomen Fahrzeug zugeordnete Fähigkeit auf physikalisch mögliche Fahrmanöver hinweisen, die dem autonomen Fahrzeug zugeordnet sind. Wenn das autonome Fahrzeug beispielsweise bereits mit Höchstgeschwindigkeit fährt, ist möglicherweise kein Beschleunigen mehr möglich und deswegen kann die Beschleunigungs-Aktion durch den Q-Maskierer 1114 maskiert werden. Als weiteres Beispiel kann es möglicherweise, wenn das Fahrzeug mit einer Betriebsgeschwindigkeit betrieben wird, nicht wünschenswert sein, eine starke Brems-Aktion auszuführen, aufgrund der Auswirkungen, die diese auf den Fahrkomfort hätte. Dies kann von dem Q-Maskierer 1114 als eine Beschleunigungs- oder Bremsschwellenwert angewendet werden, so dass Aktionen, die von dem autonomen Fahrzeug ergriffen werden, diese Beschleunigungs- oder Bremsschwellenwerte in den meisten Szenarien nicht überschreiten.
In einigen Szenarien, wie beispielsweise einem Szenario zum Verhindern oder Abschwächen einer Kollision, kann der Q-Maskierer 1114 jedoch zulassen, dass der Beschleunigungs- oder Bremsschwellenwert überschritten wird. Auf diese Art und Weise kann der Q-Maskierer 1114 Schwellenwerte auf eine szenariospezifische Art und Weise implementieren. Anders ausgedrückt kann der Q-Maskierer 1114 eine oder mehrere Kinematikregeln verwenden, um ein Niveau maximaler Beschleunigungen oder Verzögerungen anzuwenden, damit sich die Fahrt komfortabler anfühlt, während die Sicherheit der Passagiere berücksichtigt wird (z. B. kann diese Schwelle überschritten werden, um eine Kollisionen zu vermeiden). Ferner können unterschiedliche Kinematikregeln basierend auf der gegenwärtigen Geschwindigkeit, der gegenwärtigen Position, der aktuellen Beschleunigung usw. des Fahrzeugs implementiert werden. Zum Beispiel kann der Beschleunigungsschwellenwert bei einem fahrenden Fahrzeug größer sein als bei einem stehenden Fahrzeug.
Andere Beispiele von Aktionen, die durch den Q-Maskierer 1114 maskiert werden können, schließen Spurwechsel ein, die dazu führen würden, dass das autonome Fahrzeug die Fahrbahn verlässt. Anders ausgedrückt kann der Q-Maskierer 1114 basierend auf den Vorkenntnissen bestimmen, dass die maskierte Teilmenge von Aktionen ein autonomes Fahrmanöver zum Durchführen eines Spurwechsels nach rechts einschließt, wenn sich das autonome Fahrzeug auf der am weitesten rechts befindlichen Spur der Fahrbahn befindet und ein autonomes Fahrmanöver zum Durchführen eines Spurwechsels nach links einschließt, wenn sich das autonome Fahrzeug auf der am weitesten links befindlichen Spur der Fahrbahn befindet.
In ähnlicher Weise kann der Q-Maskierer 1114 Aktionen maskieren, die mit dem Beschleunigen oder Abbremsen in ein anderes Fahrzeug verbunden sind. Beispielsweise kann der Q-Maskierer 1114 basierend auf den Vorkenntnissen bestimmen, dass die maskierte Teilmenge von Aktionen ein autonomes Fahrmanöver des Beschleunigens einschließt, wenn das autonome Fahrzeug in einer ersten Schwellendistanz hinter dem anderen Fahrzeug positioniert ist, wenn sich sowohl das autonome Fahrzeug als auch das andere Fahrzeug in derselben Spur befinden und ein autonomes Fahrmanöver des Bremsens einschließt, wenn das autonome Fahrzeug in einer zweiten Schwellendistanz vor dem anderen Fahrzeug positioniert ist, wenn sich sowohl das autonome Fahrzeug als auch das andere Fahrzeug auf derselben Fahrspur befinden.
Nach einem anderen Gesichtspunkt kann der Q-Maskierer 1114 Aktionen des simulierten autonomen Fahrzeugs basierend auf anderen Schwellenwerten maskieren (z. B. keine Spurwechsel basierend auf einer Spurwechsel-Schwellenwertdistanz oder keine Aktionen, die mit dem Verringern einer Zeit-bis-zur-Kollision-Schätzung (TTC) in Zusammenhang stehen, in einigen Szenarien). Beispielsweise kann der Q-Maskierer 1114 basierend auf den Vorkenntnissen bestimmen, dass die maskierte Teilmenge von Aktionen ein autonomes Fahrmanöver eines Spurwechsels nach links einschließt, wenn sich das autonome Fahrzeug auf der rechten Seite und innerhalb einer Spurwechsel-Schwellenwertdistanz von dem anderen Fahrzeug befindet und ein autonomes Fahrmanöver eines Spurwechsels nach rechts einschließt, wenn das autonome Fahrzeug sich auf der linken Seite und innerhalb einer Spurwechsel-Schwellenwertdistanz von dem anderen Fahrzeug befindet. Der Q-Maskierer 1114 kann basierend auf den Vorkenntnissen bestimmen, dass die maskierte Teilmenge von Aktionen eine beliebiges Fahrmanöver einschließt, dass einer erwarteten Verringerung mit einer TTC-Schätzung zwischen dem autonomen Fahrzeug und dem anderen Fahrzeug zugeordnet ist, wenn die TTC-Schätzung unter einem Schwellenwert-TTC-Wert liegt.
Auf diese Art und Weise bietet der Q-Maskierer 1114 viele Vorteile und/oder Vorzüge. Beispielsweise kann die Belohnungsfunktion unter Verwendung von „Q-Maskieren“ vereinfacht werden, wodurch das Tiefen-Q-Lernen schneller und effizienter gestaltet wird. Anders ausgedrückt kann die Belohnungsfunktion vereinfacht werden, indem Vorkenntnisse direkt in den Lernprozess (z. B. das Trainieren des Netzwerks) einbezogen werden, wie dies durch den Verkehrssimulator 1112 und den Aktionsgenerator 1116 implementiert ist. Da der Q-Maskierer 1114 Aktionen basierend auf Vorkenntnissen maskiert, sind keine negativen Belohnungsfunktionen erforderlich, wodurch die Belohnungsfunktion vereinfacht wird. Durch Verwenden der Q-Maskierung kann der Q-Maskierer 1114 Kollisionen während des Trainings oder Testens abschwächen oder beseitigen, wodurch es möglich wird, ein Training direkt auf realen Systemen und nicht notwendigerweise nur auf den simulierten Systemen durchzuführen. Anders ausgedrückt kann der Q-Maskierer 1114 die Implementierung des Trainings autonomer Fahrzeuge an tatsächlichen autonomen Fahrzeugen ermöglichen. Daher kann der Verkehrssimulator 1112 gemäß einem Gesichtspunkt durch einen Sensor ersetzt werden, der ein oder mehrere andere Fahrzeuge (z. B. ein erstes Fahrzeug, ein zweites Fahrzeug, ein drittes Fahrzeug usw. und ein oder mehrere zugehörige Attribute wie beispielsweise Geschwindigkeit, Position, Spurposition, Blinker usw.) erfasst.
Der Aktionsgenerator 1116 kann einen verbleibenden Satz von Aktionen aus dem Satz möglicher Aktionen untersuchen und die autonome Fahrzeugrichtlinie für das Zeitintervall basierend auf dem verbleibenden Satz von Aktionen (z. B. ohne den maskierten Teilsatz von Aktionen) und dem Satz von Attributen, die dem autonomen Fahrzeug zugeordnet sind, bestimmen. Der Aktionsgenerator 1116 kann den verbleibenden Satz von Aktionen aus dem Satz möglicher Aktionen untersuchen und die autonome Fahrzeugrichtlinie für ein oder mehrere zusätzliche Zeitintervalle bestimmen, beispielsweise bis das autonome Fahrzeug einen Endzustand erreicht (z. B. das Ziel oder das gewünschte Ziel). Hier kann der Aktionsgenerator 1116 einen oder mehrere der untersuchten Sätze von Aktionen, die dem einen oder den mehreren zusätzlichen Zeitintervallen zugeordnet sind, als eine oder mehrere entsprechende Trajektorien speichern. Wie zuvor erläutert, kann eine Trajektorie eine Folge von Zuständen und/oder Aktionen sein, die diese Zustände einschließen.
Der Aktionsgenerator 1116 kann den verbleibenden Satz von Aktionen aus dem Satz möglicher Aktionen basierend auf der Belohnungsfunktion erkunden und die autonome Fahrzeugstrategie basierend auf der Belohnungsfunktion bestimmen. Die Belohnungsfunktion kann den Diskontfaktor einschließen. Durch Training und/oder Simulation lernt der Aktionsgenerator 1116 die autonome Fahrzeugstrategie, die im Speicherlaufwerk 1106 gespeichert, an das Fahrzeug 170 übermittelt und über die Fahrzeug-ECU 176 implementiert werden kann, um ein autonomes Fahren zu erleichtern.
Während des Trainings können Aktionen in einer epsilon-gierigen Art und Weise vorgenommen werden und E kann normalisiert werden. Der Aktionsgenerator 1116 kann vollständige Trajektorien bis zum Endzustand simulieren und die Trajektorien entweder als gut oder schlecht klassifizieren (d. h. der gute Puffer ist dem simulierten autonomen Fahrzeug zugeordnet, das es ohne Kollision, ohne die Geschwindigkeitsbegrenzung zu überschreiten usw. zum Ziel schafft). Anders ausgedrückt werden alle Übergänge (d. h. Zustand, Aktion und Belohnungen von erfolgreichen Trajektorien) im guten Puffer gespeichert, während Übergänge von fehlgeschlagenen Trajektorien (d. h. die das Ziel nicht erreichen) in dem schlechten Puffer gespeichert werden.
Für jeden Übergang kann die erwartete Belohnung aus der End-Belohnung zurückgerechnet werden, die wie folgt lautet: $y_{t} = {\begin{matrix} r_{t} & t = T; t e r m i n a l \\ r_{t} + γ y_{t + 1} & o t h e r w i s e \end{matrix},$
wobei γ der Diskontfaktor ist.
Das Netzwerk kann unter Verwendung der folgenden Verlustfunktion optimiert werden, wobei eine kleine Mini-Charge von Übertragungen verwendet wird, die gleichermaßen aus dem guten und dem schlechten Puffer abgetastet werden: $L (θ) = {(y_{t} - Q (s_{t}, a_{t}, θ))}^{2}$
Die zwei getrennten Puffer tragen dazu bei, eine angemessene Exposition gegenüber erfolgreichen Ausführungen aufrechtzuerhalten, wenn die Erkundung ständig zu fehlerhaften Trajektorien führen kann, wodurch vermieden wird, dass das Netzwerk in einer lokalen Minima stecken bleibt.
Auf diese Weise stellt das autonome System zur Generierung von Fahrzeugrichtlinien 1100 ein Rahmenwerk zur Verfügung, das die Stärken des tiefen Verstärkungslernens für eine taktische Entscheidungsfindung auf hohem Niveau nutzt eine strukturiertere und dateneffizientere Alternative zum Ende-zu-Ende-Erlernen vollständiger Richtlinien bei Problemen aufzeigt, bei denen die Formulierung einer übergeordneten Richtlinie mit herkömmlichen Optimierungs- oder regelbasierten Methoden schwierig sein kann, bei denen jedoch gut konzipierte untergeordnete Steuergeräte (z. B. das Steuergerät, das den Q-Maskierer 1114 implementiert) verfügbar sind. Das autonome System zur Generierung von Fahrzeugrichtlinien 1100 verwendet tiefes Verstärkungslemen, um eine Richtlinie auf hoher Ebene für die taktische Entscheidungsfindung zu erhalten, während eine enge Integration mit dem untergeordneten Steuergerät aufrechterhalten wird.
Durch Anwenden dieses Rahmens auf die Entscheidungsfindung für einen autonomen Spurwechsel für selbstfahrende Fahrzeuge (z. B. autonome Fahrzeuge) lernt das Netzwerk möglicherweise eine Strategie für eine taktische Entscheidungsfindung auf hoher Ebene. Experimentelle Ergebnisse gegen eine gierige Basislinie und menschliche Fahrer haben bewiesen, dass das autonome System zur Generierung von Fahrzeugrichtlinien 1100 und das hier beschriebene Verfahren in der Lage sind, beide mit einer effizienteren und einer geringeren Kollisionsrate (z. B. durch Eliminieren von Kollisionen) zu übertreffen. Die gierige Basislinie kann eine Richtlinie sein, bei der das autonome Fahrzeug vorrangig einen Spurwechsel nach rechts vornimmt, bis es auf der richtigen Spur ist, dann so schnell wie möglich fährt, während es die Geschwindigkeitsbegrenzungen einhält und nicht mit anderen Fahrzeugen kollidiert.
Gemäß einem Gesichtspunkt kann der Zustandseingabegenerator 1108 Engstellen feststellen und der Verkehrssimulator 1112 kann ein Wahrscheinlichkeitsbelegungsraster bereitstellen. Weiterhin kann der Verkehrssimulator 1112 eine Historie der Belegungsraster aus vorhergehenden Zeitintervallen als separate Kanäle empfangen.
12 ist ein Flussdiagramm eines autonomen Verfahrens zur Generierung von Fahrzeugrichtlinien 200 gemäß einem Gesichtspunkt. Bei 1202 wird ein Satz von Attributen für ein autonomes Fahrzeug erzeugt. Der Satz von Attributen kann eine aktuelle Geschwindigkeit, die dem autonomen Fahrzeug zugeordnet ist, eine Spurposition, die dem autonomen Fahrzeug zugeordnet ist, und eine Entfernung von dem autonomen Fahrzeug zu einem Ziel einschließen, wobei das Ziel ein gewünschtes Ziel ist. Bei 1204 wird eine Verkehrssimulation durchgeführt. Zum Beispiel kann die Simulationsumgebung das autonome Fahrzeug, eine Fahrbahn, der eine Anzahl von Fahrspuren zugeordnet sind, und ein anderes Fahrzeug innerhalb der Simulationsumgebung einschließen.
Bei 1206 wird eine Maske für eine Teilmenge von Aktionen bestimmt. Die Maske kann basierend auf Vorkenntnissen bestimmt werden, die auf vordefinierte zulässige Interaktionen zwischen dem autonomen Fahrzeug und der Simulationsumgebung oder zwischen dem autonomen Fahrzeug und dem anderen Fahrzeug innerhalb der Simulationsumgebung hinweisen, einer Verkehrsregel, die auf zulässige Fahrmanöver hinweist, oder einer Fähigkeit, die dem autonome Fahrzeug zugeordnet ist und auf physikalisch möglichen Fahrmanöver hinweist, die dem autonomen Fahrzeug zugeordnet sind.
Bei 1208 wird eine verbleibende Menge von nicht maskierten Aktionen untersucht. Anders ausgedrückt kann die Simulation alle möglichen Ergebnisse erkunden, die dem verbleibenden Satz von Aktionen zugeordnet sind, und diese in zwei Klassen sortieren: gut und schlecht, wobei gut dem simulierten autonomen Fahrzeug zugeordnet wird, das das Ziel erreicht, und schlecht dem simulierten autonomen Fahrzeug zugeordnet wird, das das Ziel nicht erreicht. Bei 1210 wird eine autonome Fahrzeugrichtlinie bestimmt, beispielsweise basierend auf der Belohnungsfunktion oder dem Diskontfaktor, der die Zeit, die zukünftige Belohnung gegenüber der gegenwärtigen Belohnung usw. berücksichtigt.
13A ist ein Flussdiagramm eines beispielhaften autonomen Verfahrens zur Generierung von Fahrzeugrichtlinien gemäß einem Gesichtspunkt. Das Belegungsraster mit der Historie kann durch eine einzelne Faltungsschicht geleitet werden, abgeschwächt werden und mit der Ausgabe einer vollständig verbundenen Schicht mit den skalaren Eingaben verkettet werden, die durch den Zustandseingabegenerator 1108 erzeugt werden. Die Verkettung wird durch eine vollständig verbundene Schicht geleitet, um die endgültige Ausgabe von 5 Q-Werten zu ergeben, die den 5 taktischen Aktionen zugeordnet sind. Wie in 13A zu sehen ist, wird die Q-Maskierung durch den Q-Maskierer 1114 zwischen den Q-Werten und der Max-Operation injiziert, um die Aktion durch den Aktionsgenerator 1116 zu bestimmen, wodurch vorherige Informationen einbezogen werden, so dass ein von Grund auf neues Lernen durch Erkundung nicht erforderlich ist. Die Max-Operation kann eine Max- oder eine SoftMax-Operation an den Q-Werten sein, um eine Aktion auszuwählen.
13B ist eine beispielhafte Simulationsschnittstelle, die einer autonomen Generierung von Fahrzeugrichtlinien gemäß einem Gesichtspunkt zugeordnet ist. Wie zuvor erläutert, schließt der Satz möglicher Aktionen für das autonome Fahrzeug ein autonomes Fahrmanöver ein, bei dem während eines Zeitintervalls die dem autonomen Fahrzeug zugeordnete aktuelle Geschwindigkeit beibehalten (z.B. ,N‘ oder keine Operation), beschleunigt (A), abgebremst (D), ein Spurwechsel nach rechts (R) oder ein Spurwechsel nach links (L) durchgeführt wird. Zusätzlich zum Bremsen (D) werden auch andere Aktionen, wie beispielsweise eine Brems-Löse-Aktion, in Betracht gezogen. Gemäß einem Gesichtspunkt kann der Beschleunigungsschwellenwert nicht implementiert werden, wenn die Brems-Löse-Aktion durchgeführt wird. Mit anderen Worten kann das Lösen der Bremse immer eine Option sein, so dass der Q-Maskierer 1114 die Brems-Löse-Aktion gemäß diesem Gesichtspunkt niemals maskiert.
14A-14C sind beispielhafte Szenarien, in denen eine autonome Generierung von Fahrzeugrichtlinien gemäß einem Gesichtspunkt implementiert werden kann. Gemäß einem beispielhaften Gesichtspunkt hat das simulierte autonome Fahrzeug die Aufgabe, in einer minimalen Zeitspanne, wie in 14A gezeigt, eine Ausfahrt auf der äußersten rechten Spur zu erreichen, während Geschwindigkeitsbegrenzungen eingehalten und Kollisionen usw. vermieden werden. In 14A befindet sich das autonome Fahrzeug in einer Distanz zum Ziel d2g von dem Ausgang. Wenn das simulierte autonome Fahrzeug die Ausfahrt nicht erreicht (z. B. das Ziel in diesem Szenario), wird dies von dem Aktionsgenerator 1116 oder dem Verkehrssimulator 1112 als ein Fehler betrachtet. Da die Distanz zum Ziel zusammen mit Informationen berücksichtigt wird, wie z. B. Vorkenntnisse über Bedingungsinformationen von der untergeordneten Steuerung, werden sowohl Überlegungen auf hoher Ebene als auch Überlegungen auf niedriger Ebene berücksichtigt.
In 14B kann, wenn sich das autonome Fahrzeug oder der Agent in Position 1402 befindet, die Aktion für einen Spurwechsel nach links durch den Q-Maskierer 1114 maskiert werden, da sich das autonome Fahrzeug bereits in der am weitesten links befindlichen Spur der Fahrbahn befindet. Auf ähnliche Weise kann die Beschleunigungs-Aktion durch den Q-Maskierer 1114 maskiert werden, wenn sich das autonome Fahrzeug in Position 1404 befindet, während die Brems-Aktion durch den Q-Maskierer 1114 maskiert werden kann, wenn sich das autonome Fahrzeug in Position 1406 befindet. Diese Beschleunigungs- und Brems-Aktionen können jeweils basierend auf den Schwellenwertdistanzen zu anderen Fahrzeugen maskiert werden.
In 14C werden zwei unterschiedliche Trajektorien 1410 und 1420 gezeigt. Der Aktionsgenerator kann die Trajektorie auswählen, die mit einer höheren Belohnung (z. B. einer schnelleren Zeit) verbunden ist, da der Q-Maskierer 1114 den größten Teil des Risikos, das im Zusammenhang mit jeder Entscheidungsfindung der jeweiligen Trajektorien besteht, bereits abgeschwächt hat.
15 ist ein beispielhaftes Komponentendiagramm eines Systems für eine interaktionsbewusste Entscheidungsfindungs 1500 gemäß einem Gesichtspunkt. Das System für eine interaktionsbewusste Entscheidungsfindung 1500 kann Merkmale eines kooperativen Verstärkungslernens mit mehreren Zielen, mehreren Agenten und mehreren Stufen (CM3) verwenden, wie oben unter Bezugnahme auf 1-10 erörtert. Außerdem kann das System zur interaktionsbewussten Entscheidungsfindung 1500 Merkmale der autonomen Generierung von Fahrzeugrichtlinien verwenden, wie oben mit Bezug auf 11-14 erörtert. Das System für die interaktionsbewusste Entscheidungsfindung 1500 kann einen Prozessor 102, einen Speicher 104, einen Simulator 108 und eine Kommunikationsschnittstelle 150 einschließen. Diese Komponenten können über einen Bus 106 kommunikativ gekoppelt sein. Der Simulator 108 des Systems für interaktionsbewusste Entscheidungsfindung 1500 kann ein mehrstufiges Training gemäß einer ersten Stufe und einer zweiten Stufe durchführen.
Innerhalb der ersten Stufe kann der Simulator 108 ein Training für einen ersten Agenten basierend auf einem ersten Richtliniengradienten und ein Training eines ersten Kritikers basierend auf einer ersten Verlustfunktion ausführen, um ein oder mehrere Merkmale in einer Einzel-Agent-Umgebung unter Verwendung eines Markov-Entscheidungsprozesses (MDP) zu erlernen. In der Einzel-Agent-Umgebung ist der erste Agent der einzige vorhandene Agent. Merkmale innerhalb der Umgebung können eine oder mehrere Verzweigungen zu einer Fahrbahn, eine oder mehrere Fahrspuren, ein oder mehrere Hindernisse (die z. B. während des Trainings der Stufe Eins statisch sein können) einschließen. In dem Training der Stufe Eins (z. B. der ersten Trainingsphase) kann der Simulator 108 den Agenten trainieren, um eine oder mehrere Aufgaben oder Ziele zu erreichen. Da es innerhalb der Einzel-Agent-Umgebung keine anderen Agenten gibt, ermöglicht das durch den Simulator 108 in Stufe Eins bereitgestellte Einzel-Agent-Umfeld oder -umgebung, dass der erste Agent das eine oder die mehreren Merkmale der Einzel-Agent-Umgebung auf eine zweckmäßige, effiziente Weise lernt oder trainiert, da das Fehlen anderer Agenten zuverlässiger die gewünschten Zustandskonfigurationen für Lernverhalten erzeugen kann, das mit dem Erreichen von Zielen verbunden ist. Auf diese Weise sind möglicherweise weniger Simulationsiterationen erforderlich, um ein Grad der Fahr- oder Betriebskompetenz zu erreichen.
Der Simulator 108 kann einen Zustandseingabegenerator 1108, einen Q-Maskierer 1114, einen Aktionsgenerator 1116, einen Fahrertypverwalter 1502 und einen Prioritätsbestimmer 1504 einschließen. Der Zustandseingabegenerator 1108 kann Statusinformationen, die mit dem ersten Agent, der ein simulierter Agent ist, verbunden sind, bestimmen. Auf diese Weise kann der Zustandseingabegenerator 1108 Eingaben für ein Netzwerk bestimmen, das mit einer interaktionsbewussten Entscheidungsfindung mit mehreren Zielen, mehreren Agenten und mehreren Stufen zurGenerierung von Netzwerkrichtlinien verbunden ist. Beispiele von Eingaben, die durch den Zustandseingabegenerator 1108 erzeugt werden, können den Zustand des ersten Agenten, wie beispielsweise eine aktuelle Geschwindigkeit, eine Spurposition, eine Entfernung von einem Ziel oder einem gewünschten Ziel usw., einschließen.
Der Q-Maskierer 1114 kann eine Teilmenge von ausgegebenen Q-Werten (z. B. einen Aktionssatz), die durch den Simulator 108 simuliert werden sollen, maskieren. Der Aktionsgenerator 1116 kann den ersten Agenten auf der Grundlage eines verbleibenden Satzes von Aktionen durch ausschließen des maskierten Satzes von Aktionen aus dem Satz möglicher Aktionen trainieren. Daher werden nur die mit einer verbleibenden Teilmenge von Aktionen verknüpften Q-Werte von dem Simulator 108 während der Simulation berücksichtigt, wodurch die Menge an Verarbeitungsleistung und/oder Rechenressourcen, die während der Simulation und des Trainings des autonomen Fahrzeugs bei der autonomen Generierung von Fahrzeugrichtlinien genutzt werden, abgeschwächt wird.
Basierend auf der verbleibenden Teilmenge von Aktionen (z. B. einem Satz von möglichen Aktionen, der Teilmenge von Aktionen mit Ausnahme der maskierten Teilmenge), kann der Aktionsgenerator 1116 die übrigen Aktionen untersuchen und die autonome Fahrzeugrichtlinie entsprechend bestimmen. Dies kann über verschiedene Zeitintervalle wiederholt werden. Der Q-Maskierer 1114 kann so das simulierte autonome Fahrzeug dazu „zwingen“, nur die nicht maskierten Zustände zu erkunden und somit nur Aktionen zu lernen, die mit einer Teilmenge des Raumes von assoziierten Q-Werten assoziiert sind (indikativ für den langfristigen Ertrag einer Aktion (α) unter der Richtlinie (π) in Zustand (s)).
Während des Trainings des ersten Agenten basierend auf dem ersten Richtliniengradienten und dem Training des ersten Kritikers basierend auf der ersten Verlustfunktion innerhalb der Einzel-Agent-Umgebung gemäß dem MDP kann der Simulator 108 den ersten Agenten trainieren, indem er dem ersten Agenten ermöglicht, eine Aktion aus einem Satz von einer oder mehreren Aktionen auszuwählen. Der Satz von möglichen Aktionen kann eine Nicht-Handlungs-Aktion, eine Beschleunigungs-Aktion, eine Brems-Aktion, eine Brems-Löse-Aktion, eine Aktion zur Linksverschiebung um eine Spur oder eine Aktion zur Rechtsverschiebung um eine Spur einschließen.
Beispiele eines oder mehrere der Merkmale, die in Stufe Eins von dem ersten Agent erlernt werden können, schließen das Erlernen von Regeln und Vorschriften der Fahrbahn ein, wie man auf einer Fahrbahn innerhalb der Geschwindigkeitsbegrenzung fährt oder die Geschwindigkeit hält, wie das Fahrzeug innerhalb der Fahrspur gehalten wird, wie die Fahrspur oder die Spurposition geändert wird, wie man über eine Ausfahrt abfährt, wie man über eine Beschleunigungsspur auffährt usw.
Auf diese Art und Weise verfügt das erste Richtliniennetzwerk über einen dezentralen Kritiker, der unterschiedliche Merkmale des Einzel-Agent-Umfelds oder der Einzel-Agent-Umgebung erlernt. Da der erste Kritiker der dezentrale Kritiker sein kann, kann die erste Stufe oder Stufe Eins mit einer lokalen Ansicht oder individualisierten Belohnungen, individualisiertem Lernen, usw. für den ersten Agent verbunden sein. Auf diese Weise kann der Simulator 108 den ersten Agenten basierend auf einem ersten Richtliniengradienten trainieren und den ersten Kritiker basierend auf einer ersten Verlustfunktion trainieren, um eines oder mehrere Ziele in der Einzel-Agent-Umgebung zu erlernen, (wobei der erste Agent der einzige vorhandene Agent ist) und ein Entscheidungsprozess angewendet wird. Der erste Agent kann einem ersten neuronalen Agentennetzwerk zugeordnet sein und der erste Kritiker kann einem ersten neuronalen Kritikernetzwerk zugeordnet sein.
Der Simulator 108 kann das Training der Stufe Zwei einschließlich des Trainings einer Anzahl von N Agenten auf der Grundlage des ersten Richtliniengradienten und eines zweiten Richtliniengradienten und das Training eines zweiten Kritikers auf der Grundlage der ersten Verlustfunktion und einer zweiten Verlustfunktion durchführen, um einen zweiten Satz von Merkmalen zwischen der N Anzahl von Agenten (die z. B. den ersten Agenten einschließen kann) in einer Multi-Agent-Umgebung mithilfe eines Markov-Spiels zu lernen, um ein zweites neuronales Agentennetzwerk zu instanziieren. Gemäß einem Gesichtspunkt können einer oder mehrere der N Agenten der Multi-Agent-Umgebung einem Fahrertyp zugeordnet sein, der für einen Grad der Kooperation für den jeweiligen Agenten indikativ ist. Mit anderen Worten kann der Simulator 108 im Training der Stufe Zwei dem ersten Agenten beibringen, wie er fahren oder vorgehen soll, wenn weniger kooperative Fahrer anwesend sind, wie dies durch den kompetitiven Fahrertyp simuliert wird.
Einer oder mehrere der N Anzahl von Agenten können mit dem vorab trainierten ersten neuronalen Agentennetzwerk aus dem Training der Stufe Eins instanziiert oder initialisiert werden. Somit kann jede der N Anzahl von Agenten Vorkenntnis von dem vorab trainierten ersten neuronalen Agentennetzwerk aufweisen und unter Verwendung des CM3-Verstärkungslernens kann ein curricularer Gewinn implementiert werden. Der Simulator 108 kann die N Anzahl von Agenten auf der Grundlage eines kombinierten Richtliniengradienten trainieren, der von dem ersten Richtliniengradienten und dem zweiten Richtliniengradienten abgeleitet ist. Auf der Grundlage des Fahrertyps (der z. B. den Grad der Zusammenarbeit für den jeweiligen Agenten der Anzahl N von Agenten angibt) müssen jedoch einer oder mehrere der N Anzahl von Agenten während des Trainings der zweiten Stufe nicht unbedingt kooperativ sein, wodurch es dem erste Agenten ermöglicht wird zu lernen, wie in einer Umgebung operiert oder gefahren werden muss, in der andere Agenten (z. B. Fahrzeuge) nicht immer freundlich oder kooperativ sind. Wie zuvor angegeben, kann sich der Fahrertyp ferner von einem oder mehreren der N Agenten während der Simulation oder des Trainings (z. B. während des Trainings) gemäß einem Gesichtspunkt ändern. Gemäß anderen Gesichtspunkten kann der Fahrertyp von einem oder mehreren der N Anzahl von Agenten während der Simulation oder des Trainings der Stufe zwei konstant bleiben. Eine mathematische Rahmenkarte kann verwendet werden, um unterschiedliche Verhaltensweisen für die Agenten mit unterschiedlichen Fahrertypen zu erzeugen. Gemäß einem Gesichtspunkt kann der Fahrertyp kooperativ oder wettbewerbsfähig sein. Gemäß einem weiteren Gesichtspunkt kann der Fahrertyp durch eine Zahl (z. B. auf einer Skala von 1 bis 10 oder auf einer Skala von -2 bis +2 usw.) dargestellt werden.
Beispielsweise kann ein wirklich kooperativer Fahrer (z. B. +2) auf der Einfädelspur aus Sicherheitsgründen vor dem Einfädeln in den Verkehr abbremsen, während ein weniger kooperativer Fahrer (z. B. -2) beschleunigen und um Platz für das Einfädeln kämpfen kann. In ähnlicher Weise kann ein kooperativer Fahrer auf der Hauptspur oder der Fahrbahn einem sich einfädelnden Fahrzeug nachgeben, während ein kompetitiver Fahrer beschleunigen kann und versuchen kann, den Einfädelpunkt zuerst zu passieren.
Ungeachtet dessen kann der Simulator 108 die N Anzahl von Agenten auf der Grundlage eines ersten Richtliniengradienten trainieren und einen zweiten Richtliniengradienten und einen zweiten Kritiker auf der Grundlage einer ersten Verlustfunktion und einer zweiten Verlustfunktion trainieren, um ein oder mehrere Ziele in dem Multi-Agenten unter Verwendung eines Markov-Spiels zu erlernen, um ein zweites neuronales Agentennetzwerk zu instanziieren. Innerhalb des Trainings der Stufe Zwei kann ein Fehler zugeordnet werden, wenn zwischen zwei Fahrzeugen eine Kollision auftritt. Jedem Agenten der N Anzahl von Agenten kann eine Spurprioritätsstufe zugewiesen werden, die auf der Position des jeweiligen Agenten und eines Layouts der Multi-Agent-Umgebung basiert.
Befindet sich beispielsweise ein erstes Fahrzeug auf einer Geraden einer Fahrbahn und ein zweites Fahrzeug befindet sich auf einer Fahrspur, die mit der Geraden zusammen läuft, kann dem ersten Fahrzeug eine höhere Spurprioritätsstufe zugewiesen werden als dem zweiten Fahrzeug. In diesem Szenario kann der Prioritätsbestimmer 1504 im Falle einer Kollision zwischen dem ersten Fahrzeug und dem zweiten Fahrzeug den Fehler dem zweiten Fahrzeug zuweisen, basierend darauf, dass sich das zweite Fahrzeug auf der Einfädelspur befindet. Da der Prioritätsbestimmer 1504 die Spurprioritätsstufe jedoch jedem Fahrzeug basierend auf der Position jeden Fahrzeugs und auch basierend auf dem Layout der Multi-Agent-Umgebung (z. B. der Konfiguration der Fahrbahn) zuweisen kann, kann es Szenarien geben, in denen dem ersten Fahrzeug eine niedrigere Spurprioritätsstufe als dem zweiten Fahrzeug zugewiesen werden kann.
Wenn beispielsweise das zweite Fahrzeug, das sich in der Spur befindet, die mit der Geradeauspur zusammengeführt wird, dem ersten Fahrzeug um mindestens eine Schwellenwertdistanz voraus ist, kann der Prioritätsbestimmer 1504 im Falle einer Kollision zwischen dem ersten Fahrzeug und dem zweiten Fahrzeug den Fehler, basierend darauf, dass das zweite Fahrzeug dem ersten Fahrzeug voraus ist (z. B., und das erste Fahrzeug dem zweite Fahrzeug hinten auffährt), dem ersten Fahrzeug zuweisen. Ferner kann ein Prozentsatz eines Fehlers, der auf einer Entfernung zwischen dem ersten Fahrzeug und dem zweiten Fahrzeug basiert, zugewiesen werden. Der Prioritätsbestimmer 1504 kann diesen Fehlerprozentsatz verwenden, um eine negative Belohnung oder eine Strafe zu bestimmen, die jedem der jeweiligen Agenten oder Fahrzeugen zuzuweisen wird, die an der Kollision beteiligt sind.
Genauer gesagt, kann der Prioritätsbestimmer 1504 nicht notwendigerweise alle an dem simulierten Unfall oder der simulierten Kollision beteiligten Parteien bestrafen oder ihnen negative Belohnungen zuweisen, da der Fehler ähnlich zu den realen Verkehrsregeln zugewiesen werden kann. Zudem gibt es noch weitere Szenarien, bei denen der Prioritätsbestimmer 1504 bestimmen kann, dass zwei oder mehr Fahrzeuge eine gleiche Spurprioritätsstufe aufweisen, und wenn in diesen Szenarien eine Kollision auftritt, kann den beteiligten Fahrzeugen ein gleicher Fehlerbetrag zugewiesen werden. Auf diese Weise kann der Simulator 108 die Netzwerkrichtlinien dazu trainieren, es den Fahrzeugen oder Agenten zu ermöglichen, in einem Szenario zu operieren, in dem keiner der Agenten irgendeine höhere Priorität als ein anderer aufweist, aber dass manchmal andere Fahrer zuerst fahren können, während andere Male der erste Agent derjenige sein kann, der zuerst fahren darf. Weitere Erörterungen und Beispiele von Gesichtspunkten des Prioritätsbestimmers 1504 erfolgen mit Bezug auf die 19A-19D, untenstehend erörtert.
Weiterhin in Bezug auf die Erörterung der Stufe Zwei des Trainings durch den Simulator 108, kann der erste Agent darauf aufmerksam gemacht werden, dass er eine höhere Spurprioritätsstufe als ein anderer der N Anzahl von Agenten aufweisen kann, aber aufgrund der unterschiedlichen Fahrertypen, die durch den Fahrertypverwalter 1502 zugewiesen werden können, gibt der andere Agent notwendigerweise nicht entsprechend seiner niedrigeren Spurprioritätsstufe nach. Anders gesagt, und mit Bezug auf das obenstehende Beispiel, wobei sich das erste Fahrzeug auf der Geradeausspur befindet und sich das zweite Fahrzeug in der Spur befindet, die auf die Geradeausspur führt, können einige Agenten in der Position des zweiten Fahrzeugs während des Trainings der Stufe Zwei dem ersten Fahrzeug nicht notwendigerweise nachgeben (z. B. kann das zweite Fahrzeug sogar beschleunigen oder das erste Fahrzeug ignorieren), während andere Agenten in der Position des zweiten Fahrzeugs nachgeben, wie es durch die unterschiedlichen Spurprioritätsstufen der beiden Fahrzeuge oder Agenten gefordert wird.
Nochmals erklärt, da Fahrer im echten Leben anderen Fahrern den Weg abschneiden oder ihre eigenen Fahrzeuge auf eine nicht kooperative oder kompetitive Weise steuern können, nehmen die Systeme und das Verfahren für interaktionsbewusste Entscheidungsfindung wie hierin beschrieben dies auf, indem der erste Agent in einer Multi-Agent-Umgebung trainiert wird, in der simulierte nicht kooperative oder kompetitive Agenten (z. B. einige der N Anzahl von Agenten) existieren, wodurch eine Bandbreite von Unfall- oder Kollisionsszenarien verursacht wird, über die der Simulator 108 die Netzwerkrichtlinien und/oder die N Anzahl von Agenten trainieren kann. Zum Beispiel kann der nicht kooperative Fahrer des Fahrertyps während seines eigenen Einfädelvorgangs oder während des Einfädelvorgangs des anderen Agenten beschleunigen. Umgekehrt kann ein kooperativer Fahrer des Fahrertyps vorab abbremsen, bevor er sich in den Verkehr einfädelt oder einem anderen Agenten während des Einfädelvorgangs des anderen Agenten nachgeben.
Außerdem kann der Simulator 108 basierend auf Beobachtungen von Aktionen, die von einer oder mehreren der N Agenten innerhalb der Multi-Agent-Umgebung vorgenommen werden, einen beobachteten Fahrertyp für eine oder mehrere der N Anzahl von Agenten (z. B. aus der Perspektive des ersten Agenten) feststellen. Mit anderen Worten, wenn der erste Agent beobachtet, dass ein zweiter Agent in einer Weise agiert, die nicht mit der Spurprioritätsstufe dieses Agenten übereinstimmt, kann der Fahrertypverwalter 1502 feststellen, dass der zweite Agent vom nicht kooperativen Fahrertyp ist oder basierend auf der Beobachtung einen Fahrertyp schätzen. Auf diese Weise kann der Simulator 108 das Training des ersten Agenten und die Erzeugung einer interaktionsbewussten Entscheidungsfindung mit mehreren Zielen, mehreren Agenten und mehreren Stufen zur Generierung von Netzwerkrichtlinien basierend auf dem ersten neuronalen Agentennetzwerk und dem zweiten neuronalen Agentennetzwerk ermöglichen, wodurch CM3, das Konzept der Straßenpriorität und das Konzept kooperativer und nicht kooperativer Fahrer usw. inkorporiert werden.
Weiterhin können die Systeme und Verfahren für eine interaktionsbewusste Entscheidungsfindung adaptive Verhaltensweisen (IDAB) einschließen und auf autonome Fahrzeuge in Einfädelszenarien angewendet werden, während Verstärkungslernen mit mehreren Agenten und der ein Aktor-doppelter-Kritiker-Gesichtspunkt von CM3 verwendet wird. Da Interaktionen zwischen dem ersten Agenten und anderen Agenten der N Anzahl von Agenten unterschiedlich sein können (z. B. abhängig vom Fahrertyp des anderen Agenten), lernt der erste Agent während des Trainings in der Multi-Agent-Umgebung unterschiedliche Reaktionsstrategien. Genauer gesagt sind die erlernten Netzwerkrichtlinien im Allgemeinen adaptiv in Bezug auf das beobachtete Fahrverhalten anderer. Außerdem kann der Q-Maskierer 1114 implementiert werden, um einen Maskierungsmechanismus anzuwenden, der einen schnelleren und effizienteren Lernprozess unterstützt.
In Bezug auf die Markov-Spiele kann der Simulator 108 ein Multi-Agent-Markov-Spiel mit einer Anzahl N von Agenten definieren, die mit n ∈ [1, N] bezeichnet werden. Das Markov-Spiel kann durch einen Satz von Zuständen S definiert werden, der mögliche Konfigurationen aller Agenten beschreibt sowie einen Satz von partiellen Beobachtungen Oⁿ und einen Satz von Aktionen Aⁿ für jeden Agent. Der Prioritätsbestimmer 1504 und der Fahrertypverwalter 1502 können die Spurprioritäts- bzw. die Fahrertypinformation ${b_{p r i o}^{n}, b_{t y p e}^{n}} \in B^{n}$
festlegen oder erzeugen, wobei diese zwei vorbestimmte Parameter sind, die das Verhalten eines Agenten beeinflussen können. Jeder Agent n kann über den Simulator 108 seine eigenen Aktionen gemäß einer stochastischen Richtlinie πⁿ: Oⁿ × Bⁿ × Aⁿ → [0, 1] auswählen und die gemeinsame Aktion von N Agenten bewegt die Multi-Agent-Umgebung in den nächsten Zustand entsprechend der Übergangsfunktion T:S × A¹ × ... × A^N → S. Jeder Agent kann eine Belohnung rⁿ: S × Bⁿ × Aⁿ → ℝ erhalten, die eine Funktion des Zustands, des Verhaltens des Agenten und der Aktionen der Agenten ist, um seinen eigenen erwarteten Gesamtbetrag $R^{n} = \sum_{t = 0}^{T} γ^{t} r_{t}^{n}$
zu maximieren, wobei γ ∈ [0, 1) ein Diskontfaktor und T der Zeithorizont ist.
Aktor-Kritiker-Verfahren können für unterschiedliche Verstärkungslernaufgaben verwendet werden, sowohl innerhalb der Einzel-Agent- als auch in der Multi-Agent-Umgebung. Der Aktor kann eine parametrisierte Richtlinie sein, die definiert, wie Aktionen ausgewählt werden. Der Kritiker kann eine geschätzte Zustandswertfunktion sein, die die Aktionen, die durch den Aktor vorgenommen werden, kritisiert. Der Simulator 108 kann dann die Parameter des Aktors in Bezug auf die Auswertung des Kritikers aktualisieren.
Im Allgemeinen wird in einer Einzel-Agent-Umgebung π durch θ parametrisiert, die Zielsetzung $J (θ) = E_{π} [R]$
durch das Ausführen von Schritten in die Richtung von ∇_θJ(θ) maximiert, wobei sich die Erwartung $E_{π}$
auf die von π induzierte Zustands-Aktions-Verteilung bezieht. Der Gradient der Richtlinie kann geschrieben werden als: $\nabla_{θ} J (θ) = E_{π} [\sum_{t} \nabla_{θ} log π (a_{t} | s_{t}) (Q^{π} (s_{t}, a_{t}) - b (s_{t}))]$

wobei $Q^{π} (s_{t}, a_{t}) = E_{π} [\sum_{t' = t}^{T} γ^{t'} r (s_{t'}, a_{t'}) | s_{t}, a_{t}]$
die Aktions-Wert-Funktion für die Richtlinie πist, b(s_t) die einleitende Basislinie ist und ihre Differenz als Vorteilsfunktion A^π(s_t, a_t) bekannt ist.
Durch die Auswahl der Wertfunktion V^π(s_t) als Basislinie und Verwenden des Zeitdifferenz- (TD) Fehlers als unvoreingenommene Schätzung der Vorteilsfunktion können die Vorteilsfunktionen neu geschrieben werden als A^π(s_t, a_t) ≈ r(s_t, a_t) + γV^π(s_t+1) - V^π(s_t).
In einer Multi-Agent-Umgebung kann der Kritiker durch den Simulator 108 mit vollständigen Zustandsaktionsinformationen über Richtlinien der anderen Agenten ergänzt werden, wobei der Aktor nur Zugriff auf lokale Informationen oder beobachtete Informationen hat. Gemäß einem Gesichtspunkt wird die Guthabenzuweisung in der Multi-Agent-Umgebung unter Verwendung einer kontrafaktischen Basislinie behandelt: $b (s, a^{- n}) = \sum_{a' n} π^{n} (a'^{n} | o^{n}) Q (s, (a^{- n}, a'^{n}))$
die die Aktionen a des Agenten n marginalisiert und es dem zentralen Kritiker ermöglicht, logisch auf die Kontrafakten zu schließen, bei denen sich lediglich die Aktionen des Agent n ändern.
Der Simulator 108 kann einen einzelnen Aktor trainieren, wie beispielsweise den ersten Agenten, um interaktives und adaptives Fahrverhalten zu erzeugen, sowie ein Paar von dezentralen und zentralen Kritikern, die von der Gesamtheit der N Anzahl von Agenten geteilt wird. Zwei Lernzielsetzungen können über die Einzel-Agent-Umgebung und die Multi-Agent-Umgebung bereitgestellt werden, entsprechend einer Fahrt der Agenten durch unterschiedliche Szenarien unter Beachtung von Regeln und eine Interaktion mit anderen Agenten für ein effizienteres Einfädeln unter Beibehaltung eines effizienten Verkehrsflusses.
Da jedem Agent unterschiedliche einzelne Belohnungen zugeordnet werden können, um bestimmte Verhaltensweisen zu erlernen, ist es schwierig, verschiedene Lernsignale aus einer gemeinsamen Belohnung zu extrahieren, und daher kann der dezentrale Kritiker von jedem Agent mit geteilten Parametern verwendet werden. Der dezentrale Kritiker kann einen Richtliniengradienten für Agenten bereitstellen, um zu lernen, wie man in verschiedenen Szenarien fährt (z. B. Einfädelszenarien), indem Regeln befolgt werden, während unterschiedliche Verhaltensweisen gezeigt werden. Der Agent (z. B. der erste Agent) reagiert anfänglich nicht notwendigerweise auf andere Agenten und lernt wie rationale Aktionen auszuführen sind, um seine eigene Aufgabe zu beenden, was als die erste Zielsetzung J₁ bekannt sein kann. Der zugehörige Richtliniengradient kann angegeben werden durch: $\nabla_{θ} J_{1} (θ) \approx E_{π} [\sum_{n = 1}^{N} \sum_{t} \nabla_{θ} log π (a_{t}^{n} | o_{t}^{n}, b^{n}) (r (o_{t}^{n}, a_{t}^{n}, b^{n})) + γ V_{ϕ_{1}}^{π} (o_{t + 1}^{n}, b^{n}) - V_{ϕ_{1}}^{π} (o_{t}^{n}, b^{n})]$
wobei $V_{ϕ_{1}}^{π} (o_{t}^{n}, b^{n})$
der dezentrale Kritiker ist, der durch ϕ₁ parametrisiert ist und durch Minimalisieren des Verlustes: $L (ϕ_{1}) = \frac{1}{2} \sum_{i} ∥ r (s_{i, t}, a_{i, t}^{n}, b_{i}^{n}) + γ V_{{\hat{ϕ}}_{1}}^{π} (o_{i, t + 1}^{n}, b_{i}^{n}) - V_{ϕ_{1}}^{π} (o_{i, t}^{n}, b_{i}^{n}) ∥^{2}$
aktualisiert wird, wobei i die Anzahl der geprüften Chargen ist und $V_{{\hat{ϕ}}_{1}}^{π}$
das Zielnetzwerk mit den Parametern ϕ̂₁ ist, die langsam zu ϕ₁ aktualisiert werden. Das Zielnetzwerk wird verwendet, um den Trainingsprozess zu stabilisieren.
In der Multi-Agent-Umgebung sollten makroskopische Faktoren wie die Verkehrsflussrate berücksichtigt werden, auch wenn das strikte Befolgen von Verkehrs- oder Prioritätsregeln für Einfädelszenarien keine Unfälle zur Folge hat. In dieser Hinsicht kann der zentrale Kritiker über den Simulator 108 jeden Agenten dazu ermuntern, miteinander zu interagieren, um den Verkehrsfluss aufrechtzuerhalten und zum gemeinsamen Erfolg zu kommen. Die zweite Zielsetzung kann die Zielsetzung J₂ sein. Der zugehörige zweite Richtliniengradient kann gegeben sein durch: $\nabla_{θ} J_{2} (θ) = E_{π} [\sum_{n = 1}^{N} \nabla_{θ} log π (a^{n} | o^{n}, b^{n}) (Q_{ϕ_{2}}^{π} (s, a, b)) - \sum_{a'^{n}} π^{n} (a'^{n} | o^{n}, b^{n}) Q_{ϕ_{2}}^{π} (s, (a^{- n}, a'^{n}), b)]$
wobei die kontrafaktische Basislinie wie hierin erläutert verwendet werden kann und der zentrale Kritiker definiert werden kann als: $Q_{ϕ_{2}}^{π} (s, a, b) = E_{π} [\sum_{t' = t}^{T} \sum_{n = 1}^{N} γ^{t'} r (s_{t'}, s_{t'}^{n}, b^{n}) | s_{t}, a_{t}^{n}, b^{n}]$
durch Betrachten einer gemeinsamen Belohnung für alle Agenten. Parametrisiert durch ϕ₂ wird der zentrale Kritiker durch Minimierung des Verlusts aktualisiert: $L (ϕ_{2}) = \frac{1}{2} \sum_{i} ∥ \sum_{n = 1}^{N} r (s_{i, t}, a_{i, t}^{n}, b_{i}^{n}) + γ Q_{{\hat{ϕ}}_{2}}^{\hat{π}} (s_{i}, {\hat{a}}_{i, t}, b) - Q_{ϕ_{2}}^{π} (s_{i, t}, a_{i, t}, b) ∥^{2}$
wobei π̂ das Zielrichtliniennetzwerk bezeichnet und ϕ̂₂ Parameter des zentralen Zielkritikernetzwerks darstellt.
Der Gesamt- oder kombinierte Richtliniengradient kann definiert sein als: $\nabla_{θ} J (θ) = α \nabla_{θ} J_{1} (θ) + (1 - α) \nabla_{θ} J_{2} (θ)$
wobei α ∈ [0, 1] der Gewichtungsfaktor für die beiden Zielsetzungen J₁(θ) und J₂(θ) ist. Da der Simulator 108 zwei getrennte Zielsetzungen verwendet, kann das Lernen des Lernprogramms verwendet werden. Somit kann der Simulator 108 die N Anzahl von Agenten auf der Grundlage der aus dem ersten Richtliniengradienten und dem zweiten Richtliniengradienten abgeleiteten kombinierten oder gesamten Richtliniengradienten trainieren, welcher eine Netzwerkrichtlinie zur interaktionsbewussten Entscheidungsfindung mit mehreren Zielen, mehreren Agenten und mehreren Stufen sein kann, die auf dem ersten neuronalen Agentennetzwerk und dem zweiten neuronalen Agentennetzwerk basieren kann.
Mit Bezug auf den adaptiven Verhaltensgesichtspunkt der interaktionsbewussten Entscheidungsfindung kann der Simulator 108 eine Netzwerkrichtlinie zur interaktionsbewussten Entscheidungsfindung mit mehreren Zielen, mehreren Agenten und mehreren Stufen trainieren, die in der Lage sein kann, unterschiedliches Fahrverhalten entsprechend einem oder mehreren Verhaltensparametern zu erzeugen. Die Netzwerkrichtlinie kann auf einem Zustand, einem Aktionspaar und einer Belohnungsfunktion r(s, a, b) basieren, einschließlich von Variablen, die die Spurprioritätsstufe b_prio und den Fahrertyp b_type berücksichtigen. Auf diese Art und Weise kann die Belohnungsfunktion nicht kooperativen Fahrern negative Belohnungen zuweisen, wenn deren Spurprioritätsstufe b_prio geringer ist als die Spurprioritätsstufe des anderen Agenten, der in eine Kollision verwickelt ist. Darüber hinaus kann die Belohnungsfunktion zwei oder mehr untergeordnete Belohnungsfunktionen einschließen, die mit dem Fahrverhalten r_finish und r_collide zusammenhängen können. Jedem Agenten kann durch den Simulator 108 eine einmalige Belohnung zugewiesen werden, wenn der jeweilige Agent sicher durch die Multi-Agent-Umgebung fährt (z. B. ohne eine Kollision zu verursachen oder in eine Kollision verwickelt zu sein und das Ziel oder den Bestimmungsort erreicht).
Der Belohnungswert kann r_finish = f₁(b_type) sein. Zum Beispiel kann eine kleine abschließende Belohnung zugewiesen werden, um den Agenten dazu zu ermuntern, die Aufgabe zu beenden oder das Ziel schneller zu erreichen als eine große Belohnung auf einen Diskontfaktor γ was zu einem weniger kooperativen Fahrertyp führt.
Wenn zwei oder mehr Agenten kollidieren oder in eine Kollision verwickelt sind, kann einem oder mehreren der in die Kollision verwickelten Agenten eine negative Belohnung oder eine Strafe zugewiesen werden, und dies kann basierend auf der Spurprioritätsstufe der jeweiligen beteiligten Agenten geschehen. Mit anderen Worten, r_collide = f₂(b_prio). Wenn zum Beispiel ein erstes Fahrzeug (z. B. ein Agent) ein links abbiegen durchführt, während ein zweites Fahrzeug (z. B. ein anderer Agent) geradeaus fährt und die beiden Agenten kollidieren, kann dem ersten Fahrzeug eine größere negative Belohnung als dem zweiten Fahrzeug zugewiesen werden, da das zweite Fahrzeug gemäß der Verkehrsregeln, dem Layout der Straße oder der Multi-Agent-Umgebung und basierend auf der Positionierung der jeweiligen Agenten Vorfahrt hat. Auf diese Weise kann der Prioritätsbestimmer 1504 während des Trainings der Anzahl N von Agenten (z. B. Training Stufe Zwei in der Multi-Agent-Umgebung), wenn eine Kollision zwischen zwei oder mehreren der Agenten der Multi-Agent-Umgebung auftritt, den jeweiligen Agenten, die an der Kollision beteiligt sind, eine negative Belohnung oder einen Nachteil zuweisen, der auf der Spurpriorität der jeweiligen Agenten basiert.
Wie zuvor angemerkt kann der Q-Maskierer 1114 als Maskierungsmechanismus für das Richtliniennetzwerk implementiert werden, wodurch die Effizienz des Trainings gesteigert wird (z. B. kann dies sowohl in der ersten als auch in der zweiten Lernstufe auftreten). Auf diese Weise kann der Simulator 108, anstelle der Erkundung von Aktionen, die bekannterweise einen Unfall verursachen oder bekannte Verkehrsregeln brechen, damit fortfahren, die Agenten, Kritiker und Richtlinien direkt in Bezug auf die Entscheidungsfindung auf einer taktischen Ebene zu trainieren, wodurch die Trainingszeit und die während des Trainings verwendeten Rechenressourcen reduziert werden und eine Verbesserung des Betriebs des Systems, der Computer und/oder der Prozessoren und des Speichers, der zum Betreiben des Simulators 108 verwendet wird, erfolgt. Drei verschiedene Arten von Masken können verwendet werden, einschließlich Fahrzeugkinematik (M_k ), Verkehrsregeln (M_r ) und Sicherheitsfaktoren (M_s ). Vor der Auswahl einer Aktion kann der Simulator 108 den Maskierungsmechanismus anwenden, der von dem Q-Maskierer 1114 bereitgestellt wird, so dass das Training eines Agenten auf der Basis einer verbleibenden Menge von Aktionen mit Ausnahme des maskierten Satz von Aktionen aus dem Satz von möglichen Aktionen erfolgt. Der maskierte Satz von Aktionen kann die Verbindung von M = (M_k) ∪ (M_r) ∪ (M_s) sein. Auf diese Weise bestimmt der Q-Maskierer 1114 die Maske M, die auf eine Teilmenge des Satzes möglicher Aktionen für den ersten Agenten für ein Zeitintervall anzuwenden ist, der auf dem Layout der Multi-Agent-Umgebung oder der Positionierung des ersten Agenten und der N Agenten basiert. Der Simulator 108 kann somit einen Agenten auf der Grundlage eines verbleibenden Satzes von Aktionen trainieren, indem er den maskierten Satz von Aktionen aus dem Satz möglicher Aktionen ausschließt. Wie oben erörtert, kann der Satz von möglichen Aktionen eine Nicht-Handlungs-Aktion, eine Beschleunigungs-Aktion, eine Brems-Aktion, eine Brems-Löse-Aktion, eine Aktion zur Linksverschiebung um eine Spur oder eine Aktion zur Rechtsverschiebung um eine Spur einschließen.
Die Kommunikationsschnittstelle 150 des Systems für interaktionsbewusste Entscheidungsfindung 1500 kann die Netzwerkrichtlinie zur interaktionsbewussten Entscheidungsfindung mit mehreren Zielen, mehreren Agenten und mehreren Stufen an den Server 160 oder eines der Fahrzeuge 170, 180 übertragen, wodurch die Netzwerkrichtlinie verbreitet wird und es den jeweiligen autonomen Fahrzeugen möglich wird, entsprechend zu operieren. Das autonome Fahrzeug kann eine Fahrzeugkommunikationsschnittstelle einschließen, die so angepasst ist, dass sie die Netzwerkstrategie empfängt. Darüber hinaus kann das autonome Fahrzeug ein oder mehrere Systeme einschließen, die, wie oben angemerkt, ein autonomes Fahrsystem, eine Tempomatsystem, ein Kollisionsminderungsbremssystem, ein Getriebesystem, ein Bremspedalsystem, ein elektronisches Servolenkungssystem, usw. einschließen können. Das Steuergerät des Fahrzeugs kann ein oder mehrere Fahrzeugsysteme entsprechend der Netzwerkrichtlinie zur interaktionsbewussten Entscheidungsfindung mit mehreren Zielen, mehreren Agenten und mehreren Stufen betreiben.
16 ist ein beispielhaftes Flussdiagramm eines Verfahrens 1600 für eine interaktionsbewusste Entscheidungsfindung gemäß einem Gesichtspunkt. Gemäß einem Gesichtspunkt kann das Verfahren 1600 zur interaktionsbewussten Entscheidungsfindung das Trainieren eines ersten Agenten in einer Einzel-Agent-Umgebung 1602 basierend auf einem ersten Richtliniengradienten und das Trainieren eines ersten Kritiker basierend auf einer ersten Verlustfunktion einschließen, um eines oder mehrere Ziele zu erlernen, wobei ein Markov-Entscheidungsprozesses angewendet wird. Das Verfahren 1600 zur interaktionsbewusstenEntscheidungsfindung kann das Training einer Anzahl N von Agenten auf der Grundlage des ersten Richtliniengradienten einschließen sowie das Training eines zweiten Richtliniengradienten und eines zweiten Kritikers in einer Multi-Agent-Umgebung mit unterschiedlichen Fahrertypen 1604 basierend auf der ersten Verlustfunktion und einer zweiten Verlustfunktion, um eines oder mehrerer Ziele mithilfe eines Markov-Spiels zu erlernen, um ein zweites neuronales Netzwerk zu instanziieren. Jede der N Anzahl von Agenten kann einem Fahrertyp zugeordnet sein, der einen Grad der Kooperation für den jeweiligen Agenten anzeigt. Das Verfahren 1600 für eine interaktionsbewusste Entscheidungsfindung kann das Zuweisen einer Spurprioritätsstufe 1606 basierend auf einer Position des jeweiligen Agenten und einem Layout der Multi-Agent-Umgebung einschließen. Wenn eine Kollision zwischen zwei oder mehr Agenten der Multi-Agent-Umgebung auftritt, wird eine negativen Belohnung 1608 oder Strafe an die jeweiligen an der Kollision beteiligten Agenten basierend auf der Spurprioritätsstufe der jeweiligen Agenten zugewiesen. Das Verfahren 1600 für eine interaktionsbewusste Entscheidungsfindung kann das Erzeugen einer Netzwerkrichtlinie 1610 basierend auf dem ersten neuronalen Agentennetzwerk und dem zweiten neuronalen Agentennetzwerk einschließen.
17 ist ein exemplarisches Szenario, in dem die Generierung von Richtliniennetzwerken gemäß Systemen oder Verfahren für eine interaktionsbewusste Entscheidungsfindung gemäß einem Gesichtspunkt erfolgt. 17 zeigt ein Richtliniennetzwerk einschließlich Maskierungsmechanismen, die Prioritäts- und Fahrertypen als Eingaben zum Erzeugen des Richtliniennetzwerks verwenden. In diesem Beispiel werden 32 Einheiten in fc1, fc2, fc3, usw. Schichten (z. B. vollständig verbundene Schichten) verwendet. Die offenen und geschlossenen Beobachtungen werden durch eine neuronales Konvolutionsnetzwerk (CNN) verarbeitet, das zwei Filter der Größe 3x30, eine Schrittweite 1×1 einschließen kann; fc3, fc5, fc6 können Neuronen aufweisen und ReLU kann als die nicht lineare Aktivierungsfunktion für die Schichten verwendet werden.
18A-18B sind beispielhafte Datenflussdiagramme jeweils in Verbindung mit dem Training der Stufe Eins bzw. der Stufe Zwei für Systeme und Verfahren für eine interaktionsbewusste Entscheidungsfindung gemäß einem Gesichtspunkt. 18A-18B veranschaulichen eine vorgeschlagene Zwei-Stufen-Lernprogramm-Lernstruktur. V ist der dezentrale Kritiker, der dieselbe Eingabe- und Netzwerkstruktur wie das Richtliniennetzwerk aufweisen kann. Der zentrale Kritiker Q kann volle Information für alle Agenten als eine Eingabe aufweisen und kann mit zwei FC-Schichten mit 128 Einheiten verbunden sein.
19A-19D sind beispielhafte Umgebungen, die mit Trainingsagenten gemäß Systemen oder Verfahren für eine interaktionsbewusste Entscheidungsfindung gemäß einem Gesichtspunkt assoziiert sind. Die Umgebungen der 19A-19D kann als die Einzel-Agent-Umgebung oder als die Multi-Agent-Umgebung implementiert werden. Gesichtspunkte der Umgebungen, die dem Simulator 108 bekannt sein können, können die Straßengeometrie, Geschwindigkeitsbegrenzung, und Straßenprioritätsstufenregeln oder Verkehrsregeln einschließen.
In 19A ist eine erste Fahrbahn einer Straße oder Umgebung eine Geradeausspur 1910, und eine zweite Straße ist eine Straße, die eine Einfädelspur 1920 einschließt. Daher kann einem Fahrzeug an der Position 1902 eine höhere Spurprioritätsstufe als einem Fahrzeug bei 1904 oder 1906 zugeordnet werden. Jedoch kann einem Fahrzeug, das sich ausreichend vor einem anderen Fahrzeug befindet, wie beispielsweise einem Fahrzeug bei 1904, eine größere Spurprioritätsstufe als einem Fahrzeug bei 1906 zugewiesen werden. Nach anderen Gesichtspunkten kann das Fahrzeug an der Position 1906 eine höhere Spurprioritätsstufe als das Fahrzeug bei 1904 aufweisen.
In 19B ist eine erste Fahrbahn einer Straße oder Umgebung eine Geradeausspur 1930, und eine zweite Straße ist eine Straße, die eine Einfädelspur 1940 einschließt. Daher kann einem Fahrzeug an der Position 1932 eine höhere Spurprioritätsstufe als einem Fahrzeug bei 1934 oder 1936 zugeordnet werden. Ebenso kann das Fahrzeug an der Position 1936 eine höhere Spurprioritätsstufe als das Fahrzeug bei 1934 aufweisen.
In 19C schließt eine erste Fahrbahn einer Straße oder Umgebung eine Einfädelspur 1950 ein, und eine zweite Straße ist eine Straße, die auch eine Einfädelspur 1960 einschließt. Den Fahrzeugen an den Positionen 1952 und 1954 können gleiche Spurprioritätsstufen zugewiesen werden, da in diesem Szenario niemand Vorfahrt hat.
In 19D schließt eine erste Fahrbahn einer Straße oder Umgebung eine Straße in der vertikalen Richtung 1970 und eine zweite Straße in der horizontalen Richtung 1980 ein. Dem Fahrzeug an 1972 kann eine höhere Spurprioritätsstufe zugewiesen werden als einem Fahrzeug bei 1974, wenn das Fahrzeug bei 1972 nach links abbiegt.
Ein weiterer Gesichtspunkt betrifft ein computerlesbares Medium, das prozessorausführbare Anweisungen enthält, die dazu eingerichtet sind, einen Gesichtspunkt der hierin präsentierten Techniken zu implementieren. Ein Gesichtspunkt eines computerlesbaren Mediums oder einer computerlesbaren Vorrichtung, die auf diese Weisen entwickelt sind, ist in 20 veranschaulicht, wobei eine Implementierung 2000 ein computerlesbares Medium 2008 einschließt, wie eine CD-R, eine DVD-R, ein Flash-Laufwerk, eine Platte eines Festplattenlaufwerks usw., auf denen computerlesbaren Daten 2006 kodiert sind. Diese kodierten computerlesbaren Daten 2006, wie beispielsweise Binärdaten, die eine Vielzahl von Nullen und Einsen einschließen, wie in 2006 gezeigt, schließen wiederum einen Satz von prozessorausführbaren Computeranweisungen 2004 ein, die dazu eingerichtet sind, gemäß einem oder mehreren der hierin dargelegten Prinzipien zu operieren. In dieser Implementierung 2000 können die prozessorausführbaren Computeranweisungen 2004 zum Durchführen eines Verfahrens 2002 eingerichtet sein, wie dem Verfahren 300 aus 3, dem Verfahren aus 5A-5B, dem Verfahren 1200 aus 12 oder dem Verfahren 1600 aus 16. In einem anderen Gesichtspunkt können die prozessorausführbaren Computeranweisungen 2004 zum Realisieren eines Systems eingerichtet sein, wie beispielsweise dem Systems 100 aus 1, dem System 1100 aus 11 oder dem System 1500 aus 15. Viele derartige computerlesbare Medien können von Durchschnittsfachleuten entwickelt werden, und so eingerichtet werden, dass sie gemäß den hierin präsentierten Techniken operieren.
Wie in dieser Anmeldung verwendet, sollen sich die Begriffe „Komponente“, „Modul“, „System“, „Schnittstelle“ und dergleichen allgemein auf eine computerbezogene Einheit beziehen, entweder Hardware, eine Kombination aus Hardware und Software, Software oder Software in Ausführung. Zum Beispiel kann eine Komponente ein Prozess sein, der auf einem Prozessor, einer Verarbeitungseinheit, einem Objekt, einem ausführbaren Programm, einem Ausführungsthread, einem Programm oder einem Computer läuft, ist aber nicht darauf beschränkt. Zur Veranschaulichung können sowohl eine Anwendung, die auf einem Steuergerät ausgeführt wird, als auch das Steuergerät eine Komponente sein. Ein oder mehrere Komponenten, die sich in einem Prozess oder Ausführungsthread befinden und eine Komponente können auf einem Computer lokalisiert sein oder auf zwei oder mehr Computer verteilt sein.
Ferner wird der beanspruchte Gegenstand als ein Verfahren, eine Vorrichtung oder ein Herstellungsgegenstand unter Verwendung von Standardprogrammier- oder Entwicklungstechniken implementiert, um Software, Firmware, Hardware oder eine beliebige Kombination davon zu erzeugen, um einen Computer zum Implementieren des offenbarten Gegenstands zu steuern. Der Begriff „Herstellungsgegenstand“, wie er hierin verwendet wird, soll ein Computerprogramm umfassen, auf das von jeder computerlesbaren Vorrichtung, jedem Träger oder jedem Medium zugegriffen werden kann. Natürlich können viele Modifikationen an dieser Konfiguration vorgenommen werden, ohne vom Schutzumfang oder Geist des beanspruchten Gegenstands abzuweichen.
21 und die folgende Erörterung stellen eine Beschreibung einer geeigneten Computerumgebung bereit, um Gesichtspunkte einer oder mehrerer der hierin dargelegten Maßnahmen zu implementieren. Die Betriebsumgebung von 21 ist lediglich ein Beispiel für eine geeignete Betriebsumgebung und soll keine Einschränkung hinsichtlich des Anwendungsbereichs oder der Funktionalität der Betriebsumgebung nahelegen. Beispielhafte Rechenvorrichtungen umfassen, sind aber nicht begrenzt auf, Personalcomputer, Servercomputer, tragbare Vorrichtungen oder Laptops, mobile Vorrichtungen, wie Mobiltelefone, Personal Digital Assistants (PDA), Mediaplayer, und dergleichen, Multiprozessorsysteme, Unterhaltungselektronik, Minicomputer, Großrechner, verteilte Computerumgebungen, die beliebige der oben genannten Systeme oder Vorrichtungen einschließen usw.
Im Allgemeinen werden Gesichtspunkte in dem allgemeinen Kontext von „computerlesbaren Anweisungen“ beschrieben, die durch eine oder mehrere Rechenvorrichtungen ausgeführt werden. Computerlesbare Anweisungen können über computerlesbare Medien verteilt werden, wie nachstehend erörtert wird. Computerlesbare Anweisungen können als Programmmodule wie Funktionen, Objekte, Anwendungsprogrammierschnittstellen (APIs), Datenstrukturen und dergleichen implementiert werden, die eine oder mehrere Aufgaben ausführen oder einen oder mehrere abstrakte Datentypen implementieren. Typischerweise wird die Funktionalität von computerlesbaren Anweisungen nach Wunsch in verschiedenen Umgebungen kombiniert oder verteilt.
21 veranschaulicht ein System 2100, das eine Rechenvorrichtung 2112 einschließt, die konfiguriert ist, um einen hierin bereitgestellten Gesichtspunkt zu implementieren. In einer Konfiguration schließt die Rechenvorrichtung 2112 mindestens eine Verarbeitungseinheit 2116 und einen Arbeitsspeicher 2118 ein. Abhängig von der genauen Konfiguration und dem Typ der Rechenvorrichtung kann der Speicher 2118 flüchtig sein, wie z. B. RAM, nichtflüchtig, wie z. B. ROM, Flash-Speicher usw., oder eine Kombination der beiden. Diese Konfiguration ist in 21 durch die gestrichelte Linie 2114 dargestellt.
In anderen Gesichtspunkten schließt die Rechenvorrichtung 2112 zusätzliche Merkmale oder Funktionen ein. Zum Beispiel kann die Rechenvorrichtung 2112 zusätzlichen Speicher wie beispielsweise entfernbare Speicher oder nicht entfernbare Speicher einschließen, einschließlich, aber nicht begrenzt auf, magnetische Speicher, optische Speicher, usw. Solch ein zusätzlicher Speicher wird in 21 durch den Massenspeicher 2120 veranschaulicht. In einem Gesichtspunkt befinden sich computerlesbare Anweisungen zum Implementieren eines hierin bereitgestellten Gesichtspunkts im Massenspeicher 2120. Der Massenspeicher 2120 kann andere computerlesbare Anweisungen zur Implementierung eines Betriebssystems, eines Anwendungsprogramms usw. speichern. Computerlesbare Anweisungen können zum Beispiel zur Ausführung durch die Verarbeitungseinheit 2116 in den Arbeitsspeicher 2118 geladen werden.
Der Begriff „computerlesbares Medium“, wie er hierin verwendet wird, schließt Computerspeichermedien ein. Computerspeichermedien schließen flüchtige und nichtflüchtige, entfernbare und nicht entfernbare Medien ein, die in einem beliebigen Verfahren oder einer beliebigen Technologie zur Speicherung von Informationen wie beispielsweise computerlesbaren Anweisungen oder anderen Daten implementiert sind. Der Arbeitsspeicher 2118 und der Massenspeicher 2120 sind Beispiele für Computerspeichermedien. Computerspeichermedien umfassen RAM, ROM, EEPROM, Flash-Speicher oder andere Speichertechnologie, CD-ROM, Digital Versatile Disks (DVDs) oder andere optische Speicher, Magnetkassetten, Magnetband, Magnetplattenspeicher oder andere Magnetspeichervorrichtungen oder irgendein anderes Medium, das verwendet werden kann, um die gewünschten Informationen zu speichern und auf das von der Rechenvorrichtung 2112 zugegriffen werden kann, sind aber nicht darauf beschränkt. Jedes derartige Computerspeichermedium ist Teil der Rechenvorrichtung 2112.
Der Begriff „computerlesbares Medium“ schließt Kommunikationsmedien ein. Kommunikationsmedien verkörpern üblicherweise computerlesbare Anweisungen oder andere Daten in einem „modulierten Datensignal“, wie einer Trägerwelle oder einen anderen Transportmechanismus, und schließt beliebige Informationsbereitstellungsmedien ein. Der Begriff „moduliertes Datensignal“ schließt ein Signal ein, bei dem eine oder mehrere seiner Eigenschaften so eingestellt oder geändert sind, dass Informationen in dem Signal codiert werden.
Die Rechenvorrichtung 2112 umfasst die Eingabevorrichtung(en) 2124 wie Tastatur, Maus, Stift, Spracheingabevorrichtung, Berührungseingabeeinrichtung, Infrarotkameras, Videoeingangsvorrichtungen, oder eine beliebige andere Eingabevorrichtung. Die Ausgabevorrichtung(en) 2122, wie beispielsweise ein oder mehrere Anzeigen, Lautsprecher, Drucker oder irgendeine andere Ausgabevorrichtung, können in der Rechenvorrichtung 2112 enthalten sein. Die Eingabevorrichtung(en) 2124 und die Ausgabevorrichtung(en) 2122 werden über eine drahtgebundene Verbindung, eine drahtlose Verbindung oder eine Kombination davon mit der Rechenvorrichtung 2112 verbunden. Nach einem Gesichtspunkt kann eine Eingabevorrichtung oder eine Ausgabevorrichtung von einer anderen Rechenvorrichtung als Eingabevorrichtung(en) 2124 oder Ausgabevorrichtung(en) 2122 für die Rechenvorrichtung 2112 verwendet werden. Die Rechenvorrichtung 2112 schließt Kommunikationsverbindung(en) 2126 ein, um Kommunikationen mit einer oder mehreren anderen Vorrichtungen 2130 zu erleichtern, wie zum Beispiel über das Netzwerk 2128.
Obwohl der Gegenstand in einer Sprache beschrieben wurde, die spezifisch für strukturelle Merkmale oder methodische Vorgänge ist, versteht es sich, dass der Gegenstand der beigefügten Ansprüche nicht notwendigerweise auf die oben beschriebenen spezifischen Merkmale oder Handlungen beschränkt ist. Vielmehr werden die vorstehend beschriebenen spezifischen Merkmale und Handlungen als beispielhafte Gesichtspunkte offenbart.
Verschiedene Operationen von Gesichtspunkten werden hierin bereitgestellt. Die Reihenfolge, in der eine oder mehrere oder alle der Operationen beschrieben werden, sollte nicht so ausgelegt werden, dass sie impliziert, dass diese Operationen notwendigerweise ordnungsabhängig sind. Alternative Reihenfolgen werden basierend auf dieser Beschreibung gewürdigt. Weiterhin werden nicht alle Operationen notwendigerweise in jedem Gesichtspunkt bereitgestellt.
Wie in dieser Anmeldung verwendet, soll „oder“ eher ein einschließendes „oder“ als ein ausschließendes „oder“ bedeuten. Ferner kann ein einschließendes „oder“ eine beliebige Kombination davon (z. B. A, B oder irgendeine Kombination davon) einschließen. Darüber hinaus sind „ein“ und „eine“, wie in dieser Anmeldung verwendet, im Allgemeinen so zu verstehen, dass sie „ein(e) oder mehrere“ bedeuten, sofern nicht anders angegeben oder aus dem Kontext deutlich auf eine Singularform bezogen. Außerdem bedeutet mindestens eines von A und B und/oder dergleichen im Allgemeinen A oder B oder sowohl A als auch B. Weiterhin sind dahingehend, dass „schließt ein“, „verfügt über“, „hat“, „mit“ oder Varianten davon in entweder der detaillierten Beschreibung oder in den Ansprüchen verwendet wird, ein solcher Begriff so zu verstehen ist, dass er in einer Weise ähnlich zu dem Begriff „umfassend“ einschließend ist.
Weiterhin, sofern nicht anders angegeben, sollen „erster“, „zweiter“ oder dergleichen nicht unter einem zeitlichen Gesichtspunkt, einen räumlichen Gesichtspunkt, einer Reihenfolge usw. verstanden werden. Vielmehr sind solche Begriffe lediglich als Identifikatoren, Bezeichnungen usw. für Merkmale, Elemente, Artikel usw. zu verstehen. Zum Beispiel entsprechen ein erster Kanal und ein zweiter Kanal im Allgemeinen Kanal A und Kanal B oder zwei verschiedenen oder zwei identischen Kanälen oder dem gleichen Kanal. Zusätzlich bedeutet „umfassend“, „umfasst“, „einschließlich“, „einschließen“ oder dergleichen im Allgemeinen umfassend oder einschließlich, ist aber nicht darauf beschränkt.
Es versteht sich, dass verschiedene der oben offenbarten und anderen Merkmale und Funktionen, oder Alternativen oder Varianten davon, vorzugsweise in viele andere unterschiedliche Systeme oder Anwendungen kombiniert werden können. Auch dass verschiedene derzeit unvorhergesehene oder unerwartete Alternativen, Modifikationen, Variationen oder Verbesserungen daran nachfolgend von Fachleuten auf diesem Gebiet der Technik vorgenommen werden können, die ebenfalls durch die folgenden Ansprüche erfasst werden.
ZITATE ENTHALTEN IN DER BESCHREIBUNG
Diese Liste der vom Anmelder aufgeführten Dokumente wurde automatisiert erzeugt und ist ausschließlich zur besseren Information des Lesers aufgenommen. Die Liste ist nicht Bestandteil der deutschen Patent- bzw. Gebrauchsmusteranmeldung. Das DPMA übernimmt keinerlei Haftung für etwaige Fehler oder Auslassungen.
Zitierte Patentliteratur

US 62/731729 [0001]
US 16/103847 [0001]
US 62/571717 [0001]
US 16/193291 [0001]

Claims

Verfahren zur interaktionsbewussten Entscheidungsfindung, umfassend: Trainieren eines ersten Agenten basierend auf einem ersten Richtliniengradienten und Trainieren eines ersten Kritikers basierend auf einer ersten Verlustfunktion zum Erlernen eines oder mehrere Ziele in einer Einzel-Agent-Umgebung, wobei der erste Agent der einzige vorhandene Agent ist und ein Markov Entscheidungsprozess angewendet wird, wobei der erste Agent einem ersten neuronalen Agentennetzwerk zugeordnet ist und der erste Kritiker einem ersten neuronalen Kritikernetzwerk zugeordnet ist; Trainieren einer Anzahl N von Agenten basierend auf dem ersten Richtliniengradienten und Trainieren eines zweiten Richtliniengradienten und eines zweiten Kritikers basierend auf der ersten Verlustfunktion und einer zweiten Verlustfunktion, um eines oder mehrere der Ziele in einer Multi-Agent-Umgebung, die den ersten Agenten und die N Anzahl von Agenten einschließt, unter Verwendung eines Markov-Spiels zu erlernen, um ein zweites neuronales Agentennetzwerk zu instanziieren, wobei jeder der N Agenten einem Fahrertyp zugeordnet ist, der einen Grad der Kooperation für den jeweiligen Agenten angibt; Generieren einer Netzwerkrichtlinie zur interaktionsbewussten Entscheidungsfindung mit mehreren Zielen, mehreren Agenten und mehreren Stufen auf der Grundlage des ersten neuronalen Agentennetzwerks und des zweiten neuronalen Agentennetzwerks.
Verfahren zur interaktionsbewussten Entscheidungserzeugung nach Anspruch 1, wobei sowohl der erste Agent als auch die N Anzahl von Agenten einer Spurprioritätsstufe zugeordnet sein können, die auf einer Position des jeweiligen Agenten und einem Layout der Multi-Agenten-Umgebung basiert, und wobei während des Trainings der Anzahl N von Agenten dann, wenn eine Kollision zwischen zwei oder mehreren Agenten der Multi-Agent-Umgebung auftritt, den jeweiligen Agenten, die an der Kollision beteiligt sind, eine negative Belohnung oder ein Nachteil zugewiesen wird, die auf der Spurprioritätsstufe des jeweiligen Agenten basiert.
Verfahren zur interaktionsbewussten Entscheidungsfindung nach Anspruch 1, wobei der Fahrertyp kooperative oder kompetitiv ist.
Verfahren zur interaktionsbewussten Entscheidungsfindung nach Anspruch 1, wobei während des Trainings der N Anzahl von Agenten in der Multi-Agent-Umgebung ein Agent der N Anzahl von Agenten den Fahrertyp während des Trainings ändert.
Verfahren für eine interaktionsbewusste Entscheidungsfindung nach Anspruch 1, umfassend die Bestimmung einer Maske, die auf eine Teilmenge eines Satzes möglicher Aktionen für den ersten Agenten für ein Zeitintervall basierend auf einem Layout der Multi-Agent-Umgebung oder der Positionierung des ersten Agenten und der N Anzahl von Agenten anzuwenden ist.
Verfahren zur interaktionsbewussten Entscheidungsfindung nach Anspruch 5, umfassend das Trainieren des ersten Agenten auf der Grundlage eines verbleibenden Satzes von Aktionen, indem der maskierte Satz von Aktionen aus dem Satz möglicher Aktionen ausgeschlossen wird.
Verfahren zur interaktionsbewussten Entscheidungsfindung nach Anspruch 5, wobei der Satz möglicher Aktionen eine Nicht-Handlungs-Aktion, eine Beschleunigungs-Aktion, eine Brems-Aktion, eine Brems-Löse-Aktion, eine Aktion zur Linksverschiebung um eine Spur oder eine Aktion zur Rechtsverschiebung um eine Spur einschließt.
Verfahren zur interaktionsbewussten Entscheidungsfindung nach Anspruch 1, wobei der erste Kritiker ein dezentraler Kritiker ist und der zweite Kritiker ein zentraler Kritiker ist.
Verfahren zur interaktionsbewussten Entscheidungsfindung nach Anspruch 1, wobei das Training des ersten Agenten in der Einzel-Agent-Umgebung vor dem Training der N Anzahl von Agenten in der Multi-Agent-Umgebung erfolgt.
Das Verfahren zur interaktionsbewussten Entscheidungsfindung nach Anspruch 1, umfassend das Training der N Anzahl von Agenten auf der Grundlage eines kombinierten Richtliniengradienten, der aus dem ersten Richtliniengradienten und dem zweiten Richtliniengradienten abgeleitet wird.
Ein System zur interaktionsbewussten Entscheidungsfindung, umfassend: einen Prozessor; einen Speicher; und einen Simulator, der über den Prozessor und den Speicher implementiert wird und Folgendes durchführt: Trainieren eines ersten Agenten basierend auf einem ersten Richtliniengradienten und Trainieren eines ersten Kritikers basierend auf einer ersten Verlustfunktion zum Erlernen eines oder mehrere Ziele in einer Einzel-Agent-Umgebung, wobei der erste Agent der einzige vorhandene Agent ist und ein Markov Entscheidungsprozess angewendet wird, wobei der erste Agent einem ersten neuronalen Agentennetzwerk zugeordnet ist und der erste Kritiker einem ersten neuronalen Kritikernetzwerk zugeordnet ist; Trainieren einer Anzahl N von Agenten basierend auf dem ersten Richtliniengradienten und Trainieren eines zweiten Richtliniengradienten und eines zweiten Kritikers basierend auf der ersten Verlustfunktion und einer zweiten Verlustfunktion, um eines oder mehrere der Ziele in einer Multi-Agent-Umgebung, die den ersten Agenten und die N Anzahl von Agenten einschließt, unter Verwendung eines Markov-Spiels zu erlernen, um ein zweites neuronales Agentennetzwerk zu instanziieren, wobei sowohl der erste Agent als auch die N Anzahl von Agenten einer Spurprioritätsstufe zugeordnet sein können, die auf einer Position des jeweiligen Agenten und einem Layout der Multi-Agenten-Umgebung basiert, wobei während des Trainings der Anzahl N von Agenten dann, wenn eine Kollision zwischen zwei oder mehreren Agenten der Multi-Agent-Umgebung auftritt, den jeweiligen Agenten, die an der Kollision beteiligt sind, durch den Simulator eine negative Belohnung oder ein Strafe zugewiesen wird, die auf auf der Spurprioritätsstufe des jeweiligen Agenten basiert; Generieren einer Netzwerkrichtlinie zur interaktionsbewussten Entscheidungsfindung mit mehreren Zielen, mehreren Agenten und mehreren Stufen auf der Grundlage des ersten neuronalen Agentennetzwerks und des zweiten neuronalen Agentennetzwerks.
System zur interaktionsbewussten Entscheidungsfindung nach Anspruch 11, wobei jeder der N Anzahl von Agenten einem Fahrertyp zugeordnet ist, der den Grad der Kooperation für den jeweiligen Agenten angibt, wobei der Fahrertyp kooperativ oder kompetitiv ist.
System für eine interaktionsbewusste Entscheidungsfindung nach Anspruch 11, umfassend einen Q-Maskierer, der eine Maske bestimmt, die auf eine Teilmenge eines Satzes möglicher Aktionen für den ersten Agenten für ein Zeitintervall basierend auf einem Layout der Multi-Agent-Umgebung oder der Positionierung des ersten Agenten und der N Anzahl von Agenten anzuwenden ist.
System für eine interaktionsbewusste Entscheidungsfindung nach Anspruch 13, wobei der Simulator den ersten Agenten auf der Grundlage eines verbleibenden Satzes von Aktionen durch Ausschließen des maskierten Satzes von Aktionen aus dem Satz möglicher Aktionen trainiert.
System für eine interaktionsbewusste Entscheidungsfindung nach Anspruch 13, wobei der Satz möglicher Aktionen eine Nicht-Handlungs-Aktion, eine Beschleunigungs-Aktion, eine Brems-Aktion, eine Brems-Löse-Aktion, eine Aktion zur Linksverschiebung um eine Spur oder eine Aktion zur Rechtsverschiebung um eine Spur einschließt.
System für eine interaktionsbewusste Entscheidungsfindung nach Anspruch 11, wobei der erste Kritiker ein dezentraler Kritiker ist und der zweite Kritiker ein zentraler Kritiker ist.
System für eine interaktionsbewusste Entscheidungsfindung nach Anspruch 11, wobei das Training des ersten Agenten in der Einzel-Agent-Umgebung durch den Simulator vor dem Training der N Anzahl von Agenten in der Multi-Agent-Umgebung erfolgt.
System für eine interaktionsbewusste Entscheidungsfindung nach Anspruch 11, wobei der Simulator die N Anzahl von Agenten auf der Grundlage eines aus dem ersten Richtliniengradienten und dem zweiten Richtliniengradienten abgeleiteten kombinierten Richtliniengradienten trainiert.
System für eine interaktionsbewusste Entscheidungsfindung nach Anspruch 11, umfassend eine Kommunikationsschnittstelle zum Übertragen der Netzwerkrichtlinie zur interaktionsbewussten Entscheidungsfindung mit mehreren Zielen, mehreren Agenten und mehreren Stufen an einen Server oder ein Fahrzeug.
Ein Fahrzeug für eine interaktionsbewusste Entscheidungsfindung, umfassend: ein Steuergerät mit einem Prozessor und einem Speicher; ein oder mehrere Fahrzeugsysteme; und eine Fahrzeugkommunikationsschnittstelle, die die Netzwerkrichtlinie zur interaktionsbewussten Entscheidungsfindung mit mehreren Zielen, mehreren Agenten und mehreren Stufen empfängt, wobei das Steuergerät eines oder mehrere der Fahrzeugsysteme des Fahrzeugs entsprechend der Netzwerkrichtlinie zur interaktionsbewussten Entscheidungsfindung mit mehreren Zielen, mehreren Agenten und mehreren Stufen betreibt, und wobei die Netzwerkrichtlinie zur interaktionsbewussten Entscheidungsfindung mit mehreren Zielen, mehreren Agenten und mehreren Stufen dadurch erzeugt wird, dass: ein erster Agent auf der Grundlage eines ersten Richtliniengradienten trainiert wird und ein erster Kritiker auf der Grundlage einer ersten Verlustfunktion trainiert wird, um ein oder mehrere Ziele in einer Einzel-Agenten-Umgebung zu erlernen, wobei der erste Agent der einzige vorhandene Agent ist, der in der ersten Stufe einen Markov-Entscheidungsprozess verwendet, wobei der erste Agent einem ersten neuronalen Agentennetzwerk zugeordnet ist und der erste Kritiker einem ersten neuronalen Kritikernetzwerk zugeordnet ist; eine Anzahl N von Agenten auf der Grundlage des ersten Richtliniengradienten trainiert wird und ein zweiter Richtliniengradienten und ein zweiter Kritiker auf der Grundlage der ersten Verlustfunktion und einer zweiten Verlustfunktion trainiert werden, um eines oder mehrere der Ziele in einer Multi-Agent-Umgebung, die den ersten Agenten und die N Anzahl von Agenten einschließt, unter Verwendung eines Markov-Spiels zu erlernen, um in einer zweiten Stufe ein zweites neuronales Agentennetzwerk zu instanziieren, wobei jeder der N Anzahl von Agenten einem Fahrertyp zugeordnet ist, der eine Kooperationsstufe für den jeweiligen Agenten angibt; und Generieren der Netzwerkrichtlinie zur interaktionsbewussten Entscheidungsfindung mit mehreren Zielen, mehreren Agenten und mehreren Stufen auf der Grundlage des ersten neuronalen Agentennetzwerks und des zweiten neuronalen Agentennetzwerks.