DE102018121595A1

DE102018121595A1 - Unbeaufsichtigtes anlernen von agenten für autonome fahranwendungen

Info

Publication number: DE102018121595A1
Application number: DE102018121595.9A
Authority: DE
Inventors: Praveen Palanisamy; Upali P. Mudalige
Original assignee: GM Global Technology Operations LLC
Current assignee: GM Global Technology Operations LLC
Priority date: 2017-09-06
Filing date: 2018-09-04
Publication date: 2019-03-07
Anticipated expiration: 2038-09-05
Also published as: CN109460015B; US10678241B2; CN109460015A; DE102018121595B4; US20190072959A1

Abstract

Systeme und Verfahren werden zum Steuern eines Fahrzeugs bereitgestellt. In einer Ausführungsform beinhaltet ein computerimplementiertes Verfahren: die Anlernen eines autonomen Fahragenten, wobei das Verfahren die folgenden Schritte beinhaltet: Extrahieren von Informationen aus Demonstrationen des Fahrverhaltens unter Verwendung eines neuronalen Netzes durch einen Prozessor; Übertragen der extrahierten Informationen an ein Generatormodul; Übertragen eines realen Umgebungszustands, der mit den Demonstrationen des Fahrverhaltens und der wiederhergestellten Prämienkarte verbunden ist, an ein Diskriminatormodul; Erzeugen, durch einen Prozessor, von Umgebungszustandsinterpretationen aus den extrahierten Informationen unter Verwendung des Generatormoduls; Anlernen, durch einen Prozessor, des Diskriminatormoduls, um besser zu bestimmen, ob die erzeugten Umgebungszustandsinterpretationen dem tatsächlichen Umgebungszustand entsprechen, während das Generatormodul durch einen Prozessor geschult wird, um eine verbesserte Umgebungszustandsinterpretation zu erzeugen, die der Diskriminator entsprechend dem tatsächlichen Umgebungszustand bestimmt.

Description

EINLEITUNG
Die vorliegende Offenbarung bezieht sich im Allgemeinen auf autonom fahrende Fahrzeuge und insbesondere auf Systeme und Verfahren für das unbeaufsichtigte Training von Fahragenten in einem autonomen Fahrzeug.
HINTERGRUND
Der folgende Abschnitt bietet Hintergrundinformationen zur vorliegenden Offenbarung, wobei es sich nicht notwendigerweise um den Stand der Technik handelt.
Ein autonomes Fahrzeug ist ein Fahrzeug, das in der Lage ist, seine Umgebung zu erfassen und mit geringfügiger oder gar keiner Benutzereingabe zu navigieren. Ein autonomes Fahrzeug tastet seine Umgebung mithilfe von Erfassungsvorrichtungen, wie beispielsweise Radar, Lidar, Bildsensoren, wie Kameras, und dergleichen ab. Das autonome Fahrzeugsystem nutzt weiterhin Informationen von globalen Positioniersystemen (GPS), Navigationssystemen, Fahrzeug-Fahrzeug-Kommunikationen, Fahrzeug-Infrastruktur-Technologien und/oder drahtgesteuerten Systemen, um das Fahrzeug zu navigieren.
Die Fahrzeugautomatisierung wurde kategorisiert nach nummerischen Ebenen von null, entsprechend keiner Automatisierung mit voller menschlicher Kontrolle, bis Fünf, entsprechend der vollen Automatisierung ohne menschliche Kontrolle. Verschiedene automatisierte Fahrerassistenzsysteme, wie beispielsweise Geschwindigkeitsregelung, adaptive Geschwindigkeitsregelung und Parkassistenzsysteme, entsprechen niedrigeren Automatisierungsebenen, während echte „fahrerlosen“ Fahrzeuge mit autonomen Fahragenten einem höheren Automatisierungsgrad entsprechen.
Das Fahren eines Fahrzeugs erfordert viel Geschick, Erfahrung und Wahrnehmung von einem menschlichen Fahrer. Autonome Fahragenten müssen daher angelernt werden, um die Fahreigenschaften des Menschen zu erreichen oder sogar zu übertreffen.
Dementsprechend ist es wünschenswert, ein Verfahren zum Anlernen eines autonomen Fahragenten zu erhalten, um gleichwertige oder verbesserte Fahrentscheidungen im Vergleich zu einem menschlichen Fahrer zu treffen. Darüber hinaus ist es wünschenswert, ein Verfahren zum Anlernen eines autonomen Fahragenten zu erhalten, das weitgehend unbeaufsichtigt ist und keine umfangreiche Kennzeichnung der Schulungsdaten erfordert. Es ist auch wünschenswert, die Argumentation (latente Motivationen) wiederherzustellen, warum ein autonomer Fahragent eine bestimmte Fahrweise als Reaktion auf einen bestimmten Umgebungszustand gewählt hat. Weitere wünschenswerte Funktionen und Merkmale werden aus der nachfolgenden ausführlichen Beschreibung und den beigefügten Ansprüchen in Verbindung mit den beigefügten Zeichnungen sowie dem vorab erklärten technischen Gebiet und Hintergrund offensichtlich.
KURZDARSTELLUNG
Systeme und Verfahren werden zum Steuern eines Fahrzeugs bereitgestellt.
In einer Ausführungsform wird ein computerimplementiertes Verfahren zum Anlernen eines autonomen Fahragenten bereitgestellt, wobei das Verfahren die folgenden Schritte umfasst: Extrahieren von Informationen aus Demonstrationen des Fahrverhaltens unter Verwendung eines neuronalen Netzwerks durch einen Prozessor; Wiederherstellen einer Belohnungskarte aus den extrahierten Informationen durch einen Prozessor; Übertragen der extrahierten Informationen an ein Generatormodul; Übertragen eines realen Umgebungszustands, der mit den Demonstrationen des Fahrverhaltens und der wiederhergestellten Prämienkarte verbunden ist, an ein Diskriminatormodul; Erzeugen, durch einen Prozessor, von Umgebungszustandsinterpretationen aus den extrahierten Informationen unter Verwendung des Generatormoduls; Anlernen, durch einen Prozessor, des Diskriminatormoduls, um besser zu bestimmen, ob die erzeugten Umgebungszustandsinterpretationen dem tatsächlichen Umgebungszustand entsprechen, während das Generatormodul durch einen Prozessor geschult wird, um eine verbesserte Umgebungszustandsinterpretation zu erzeugen, die der Diskriminator entsprechend dem tatsächlichen Umgebungszustand bestimmt.
In einer Ausführungsform umfasst das Verfahren ferner die Darstellung der verbesserten Umgebungszustandsinterpretation mittels einer Anzeige.
In einer Ausführungsform wird der durch den Generator erzeugte verbesserte Umgebungszustand verwendet, um die Belohnungskarte zu aktualisieren.
In Ausführungsformen, worin die Demonstrationen des Fahrverhaltens aus von Menschen geführten Datenprotokollen (z. B. gespeichert im Computerspeicher), z. B. aus unterschiedlichen Fahrumgebungen und/oder mit unterschiedlichen Fahrzielen, entnommen werden.
In einer Ausführungsform werden die extrahierten Informationen über ein faltungsneuronales Netz extrahiert. In einer Ausführungsform ist das faltungsneuronale Netz ein tiefes faltungsneuronales Netz.
In einer Ausführungsform wird die Entlohnungsfunktion durch tiefes inverses Verstärkungslernen über ein tiefes inverses Verstärkungslernmodul wiederhergestellt.
In einer Ausführungsform wird das Anlernen des Diskriminatormoduls über eine Verlust- oder Kostengradientenfunktion durchgeführt.
In einer Ausführungsform wird das Anlernen des Generatormoduls über eine Verlust- oder Kostengradientenfunktion durchgeführt.
In einer Ausführungsform umfasst das Verfahren ferner den Schritt des Übertragens der extrahierten Informationen an das Diskriminatormodul, wobei das Diskriminatormodul konfiguriert ist, um zu bestimmen, ob die erzeugte Umgebungszustandsinterpretation den extrahierten Informationen entspricht.
In einer Ausführungsform beinhaltet der Sensor eine optische Kamera. In einer Ausführungsform beinhaltet der Sensor ein LIDAR-System. In einer Ausführungsform beinhaltet der Sensor ein RADAR-System.
In einer Ausführungsform ist ein System zum Anlernen eines autonomen Fahragenten vorgesehen, wobei das System ein neuronales Netzwerk umfasst, das konfiguriert ist, um Informationen aus Demonstrationen des Fahrverhaltens zu extrahieren; ein tiefes inverses Verstärkungslernmodul, das konfiguriert ist, um eine Prämienkarte aus den extrahierten Informationen wiederherzustellen; ein Generatormodul, das konfiguriert ist, um basierend auf den extrahierten Informationen eine Interpretation des Umgebungszustands zu erzeugen; und ein Diskriminatormodul, das konfiguriert ist, um die wiederhergestellte Prämienkarte zumindest teilweise zu verwenden, um zu ermitteln, ob die Interpretation des erzeugten Umgebungszustands einem realen, dem der extrahierten Information zugeordneten Umgebungszustand entspricht.
In einer Ausführungsform beinhaltet das System weiterhin eine Anzeige, die konfiguriert ist, um die erzeugte Umgebungszustandsinterpretation anzuzeigen.
In einer Ausführungsform wird das tief-inverse Verstärkungslernmodul konfiguriert, um die Belohnungskarte basierend auf der erzeugten Umgebungszustandsinterpretation zu aktualisieren.
In den Ausführungsformen prognostiziert das System mittels der wiederhergestellten Belohnungskarte und des Diskriminatormoduls eine menschenähnliche Interpretation einer Fahrsituation.
In den Ausführungsformen stellt das tief-inverse Verstärkungslernmodul (DIRL) die Belohnungskarte aus menschlichen Fahrdatenprotokollen (die Umgebungszustände und/oder Handlungen/Demonstrationen enthalten) wieder her. Das Diskriminatormodul verwendet die wiederhergestellte Belohnungskarte zusammen mit einem echten Umgebungszustand, um eine Ausgabe des Generatormoduls zu unterscheiden.
In Ausführungsformen verwendet das DIRL-Modul die wiederhergestellte Belohnungsfunktion (oder Motivationskarten), um eine Richtlinie auszuwählen (die vorschreibt, welche Maßnahmen bei einem erfassten Umgebungszustand zu ergreifen sind), während der Laufzeit/Testzeit/nach dem Einsatz, wenn kein Mensch zu demonstrieren ist. Der autonome Fahragent nutzt die Richtlinie, um Steuerbefehle zu senden und/oder das autonome Fahrzeug zu betätigen.
In einer Ausführungsform umfasst das neuronale Netzwerk ein tiefes faltungsneuronales Netz.
In einer Ausführungsform ist das tief-inverse Verstärkungslernmodul konfiguriert, um die Belohnungskarte über das tief-inverse Verstärkungslernen wiederherzustellen.
In einer Ausführungsform ist das Diskriminatormodul auf eine iterative Verbesserung der Bestimmung, ob die erzeugte Umgebungszustandsinterpretation basierend auf einer Verlust- oder Kostenfunktion einem realen Umgebungszustand entspricht, konfiguriert.
In einer Ausführungsform ist das Generatormodul auf eine iterative Verbesserung der Bestimmung, ob die erzeugte Umgebungszustandsinterpretation basierend auf einer Verlust- oder Kostenfunktion einem realen Umgebungszustand entspricht, konfiguriert.
In einer Ausführungsform ist das Diskriminatormodul weiterhin konfiguriert, um zu ermitteln, ob die erzeugte Umgebungszustandsinterpretation den extrahierten Informationen entspricht.
In einer Ausführungsform ist das Diskriminatormodul auf eine iterative Verbesserung der Bestimmung, ob die erzeugte Umgebungszustandsinterpretation basierend auf einer Verlust- oder Kostenfunktion den extrahierten Informationen entspricht, konfiguriert.
In einer Ausführungsform beinhaltet der Sensor eine optische Kamera. In einer Ausführungsform beinhaltet der Sensor ein LIDAR-System. In einer Ausführungsform beinhaltet der Sensor ein RADAR-System.
In einer Ausführungsform ist ein Fahrzeug vorgesehen, wobei das Fahrzeug folgendes beinhaltet: einen Sensor, der konfiguriert ist, um Informationen über Merkmale des das Fahrzeug umgebenden Umgebungszustands zu erfassen; ein neuronales Netzwerk, das konfiguriert ist, um Informationen aus den Sensorinformationen zu extrahieren; einen angelernten autonomen Fahragenten, der konfiguriert ist, um eine auf den extrahierten Informationen basierende Fahrweise zu bestimmen; und ein Generatormodul, das konfiguriert ist, um eine Interpretation des Umgebungszustands basierend auf den extrahierten Informationen zu erzeugen.
In einer Ausführungsform beinhaltet das Fahrzeug ferner ein Diskriminatormodul, das konfiguriert ist, um zu bestimmen, ob die erzeugte Umgebungszustandsinterpretation dem vom Sensor erfassten realen Umgebungszustand entspricht, worin das Diskriminatormodul ferner konfiguriert ist, um die Bestimmung zu speichern.
In einer Ausführungsform ist das Diskriminatormodul konfiguriert, um die erzeugte Umgebungsinterpretation und den zugehörigen realen Umgebungszustand, auf dem die erzeugte Umgebungsinterpretation basiert, in einem Speicher zu speichern.
In einer Ausführungsform beinhaltet der Sensor eine optische Kamera. In einer Ausführungsform beinhaltet der Sensor ein LIDAR-System, sowie in einer Ausführungsform ein RADAR-System.
In einer Ausführungsform ist das neuronale Netz ein tiefes faltungsneuronales Netz.
Figurenliste
Die exemplarischen Ausführungsformen werden nachfolgend in Verbindung mit den folgenden Zeichnungen beschrieben, worin gleiche Bezugszeichen gleiche Elemente bezeichnen, und worin gilt:

1 ist ein Funktionsblockdiagramm, das ein autonomes Fahrzeug mit einem autonomen Fahragenten gemäß verschiedenen Ausführungsformen veranschaulicht;
2 ist ein Blockdiagramm, das veranschaulicht, wie durch fachkundige Fahrdemonstrationen ein autonomer Fahragent gemäß verschiedenen Ausführungsformen angelernt wird;
3 ist ein Flussdiagramm, das ein Verfahren zum Anlernen eines autonomen Agenten gemäß den verschiedenen Ausführungsformen veranschaulicht;
4 ist ein Schema, das veranschaulicht, wie Umgebungsinterpretationen durch ein Generatormodul im Rahmen eines kontradiktorischen Lernprozesses gemäß den verschiedenen Ausführungsformen erzeugt werden können;
5 ist ein Flussdiagramm, das zeigt, wie ein Generatormodul und ein Diskriminatormodul als Gegner gemäß den verschiedenen Ausführungsformen angelernt werden können;
6 ist ein Blockdiagramm, das veranschaulicht, wie ein gemäß verschiedenen Ausführungsformen angelernter autonomer Agent in ein autonomes Fahrzeug integriert werden kann;
7 ist ein Blockdiagramm, das veranschaulicht, wie ein gemäß verschiedenen Ausführungsformen angelernter autonomer Agent in ein autonomes Fahrzeug integriert werden kann; und
8 ist ein Flussdiagramm, das ein Anlernverfahren für einen autonomen Agenten gemäß verschiedenen Ausführungsformen veranschaulicht.

AUSFÜHRLICHE BESCHREIBUNG
Die folgende ausführliche Beschreibung dient lediglich als Beispiel und soll die Anwendung und Verwendungen der Erfindung nicht einschränken. Weiterhin besteht keine Absicht, im vorstehenden technischen Bereich, Hintergrund, der Kurzzusammenfassung oder der folgenden ausführlichen Beschreibung an eine ausdrücklich oder implizit vorgestellte Theorie gebunden zu sein. Der hierin verwendete Begriff „Modul“ bezieht sich auf alle Hardware-, Software-, Firmwareprodukte, elektronische Steuerkomponenten, Verarbeitungslogik und/oder Prozessorgeräte, einzeln oder in allen Kombinationen, unter anderem beinhaltend, eine anwendungsspezifische integrierte Schaltung (ASIC), eine elektronische Schaltung, einen Prozessor (gemeinsam genutzt, dediziert oder Gruppenprozessor) und einen Speicher, der ein oder mehrere Software- oder Firmwareprogramme, ein neuronales Netz, eine kombinatorische Logikschaltung und/oder andere geeignete Komponenten ausführt, die die beschriebene Funktionalität bieten.
Ausführungsformen der vorliegenden Offenbarung können hierin als funktionale und/oder logische Blockkomponenten und verschiedene Verarbeitungsschritte beschrieben sein. Es ist zu beachten, dass derartige Blockkomponenten aus einer beliebigen Anzahl an Hardware-, Software- und/oder Firmware-Komponenten aufgebaut sein können, die zur Ausführung der erforderlichen Funktionen konfiguriert sind. Zum Beispiel kann eine Ausführungsform der vorliegenden Offenbarung eines Systems oder einer Komponente verschiedene integrierte Schaltungskomponenten, beispielsweise Speicherelemente, digitale Signalverarbeitungselemente, Logikelemente, Wertetabellen oder dergleichen, einsetzen, die mehrere Funktionen unter der Steuerung eines oder mehrerer Mikroprozessoren oder anderer Steuervorrichtungen durchführen können. Zudem werden Fachleute auf dem Gebiet erkennen, dass die exemplarischen Ausführungsformen der vorliegenden Offenbarung in Verbindung mit einer beliebigen Anzahl an Systemen eingesetzt werden können, und dass das hierin beschriebene System lediglich eine exemplarische Ausführungsform der vorliegenden Offenbarung darstellt.
Der Kürze halber sind konventionelle Techniken in Verbindung mit der Signalverarbeitung, Datenübertragung, Signalgebung, Steuerung und weiteren funktionalen Aspekten der Systeme (und den einzelnen Bedienelementen der Systeme) hierin ggf. nicht im Detail beschrieben. Weiterhin sollen die in den verschiedenen Figuren dargestellten Verbindungslinien exemplarische Funktionsbeziehungen und/oder physikalische Verbindungen zwischen den verschiedenen Elementen darstellen. Es sollte beachtet werden, dass viele alternative oder zusätzliche funktionale Beziehungen oder physikalische Verbindungen in einer Ausführungsform der vorliegenden Offenbarung vorhanden sein können.
Wie unter Bezugnahme auf 1 ersichtlich, ist ein bei 100 allgemein dargestelltes autonomes Fahrsystem mit einem Fahrzeug 10 gemäß verschiedenen Ausführungsformen assoziiert. Im Allgemeinen beinhaltet das autonome System 100 ein autonomes Fahragentenmodul 1000, das konfiguriert ist, um eine Fahraktion basierend auf den erfassten Umgebungsbedingungen zu bestimmen. Der autonome Fahragent steuert das Fahrzeug 10 intelligent.
Wie in 1 dargestellt, kann das Fahrzeug 10 ein Fahrgestell 12, eine Karosserie 14, Vorderräder 16 und Hinterräder 18 beinhalten. Die Karosserie 14 ist auf dem Fahrgestell 12 angeordnet und umhüllt im Wesentlichen die anderen Komponenten des Fahrzeugs 10. Die Karosserie 14 und das Fahrgestell 12 können gemeinsam einen Rahmen bilden. Die Räder 16-18 sind jeweils mit dem Fahrgestell 12 in der Nähe einer jeweiligen Ecke der Karosserie 14 drehbar verbunden.
In verschiedenen Ausführungsformen ist das Fahrzeug 10 ein autonomes Fahrzeug und das autonome Fahragentenmodul 1000 ist in das autonome Fahrzeug 10 integriert. Die Funktion des autonomen Fahragentenmoduls 1000 wird im Folgenden näher beschrieben. Das autonome Fahrzeug 10 ist beispielsweise ein Fahrzeug, das automatisch gesteuert wird, um Passagiere von einem Ort zum anderen zu befördern. Das Fahrzeug 10 ist in der veranschaulichten Ausführungsform als Pkw dargestellt, es sollte jedoch beachtet werden, dass auch jedes andere Fahrzeug, einschließlich Motorräder, Lastwagen, Sportfahrzeuge (SUVs), Freizeitfahrzeuge (RVs), Schiffe, Flugzeuge usw. verwendet werden können. In einer exemplarischen Ausführungsform ist das autonome Fahrzeug 10 ein sogenanntes Level-Vier oder Level-Fünf Automatisierungssystem. Ein Level-Vier-System zeigt eine „hohe Automatisierung“ unter Bezugnahme auf die Fahrmodus-spezifische Leistung durch ein automatisiertes Fahrsystem aller Aspekte der dynamischen Fahraufgabe an, selbst wenn ein menschlicher Fahrer nicht angemessen auf eine Anforderung einzugreifen, reagiert. Ein Level-Fünf-System zeigt eine „Vollautomatisierung“ an und verweist auf die Vollzeitleistung eines automatisierten Fahrsystems aller Aspekte der dynamischen Fahraufgabe unter allen Fahrbahn- und Umgebungsbedingungen, die von einem menschlichen Fahrer verwaltet werden können.
Wie dargestellt, beinhaltet das autonome Fahrzeug 10 im Allgemeinen ein Antriebssystem 20, ein Übertragungssystem 22, ein Lenksystem 24, ein Bremssystem 26, ein Sensorsystem 28, ein Stellantriebsystem 30, mindestens einen Datenspeicher 32, mindestens eine Steuerung 34 und ein Kommunikationssystem 36. Das Antriebssystem 20 kann in verschiedenen Ausführungsformen einen Verbrennungsmotor, eine elektrische Maschine, wie beispielsweise einen Traktionsmotor und/oder ein Brennstoffzellenantriebssystem, beinhalten. Das Übertragungssystem 22 ist dazu konfiguriert, Leistung vom Antriebssystem 20 zu den Fahrzeugrädern 16-18 gemäß den wählbaren Übersetzungen zu übertragen. Gemäß verschiedenen Ausführungsformen kann das Getriebesystem 22 ein Stufenverhältnis-Automatikgetriebe, ein stufenlos verstellbares Getriebe oder ein anderes geeignetes Getriebe beinhalten. Das Bremssystem 26 ist dazu konfiguriert, den Fahrzeugrädern 16-18 ein Bremsmoment bereitzustellen. Das Bremssystem 26 kann in verschiedenen Ausführungsformen Reibungsbremsen, Brake-by-Wire, ein regeneratives Bremssystem, wie beispielsweise eine elektrische Maschine und/oder andere geeignete Bremssysteme beinhalten. Das Lenksystem 24 beeinflusst die Position der Fahrzeugräder 16-18. Während in einigen Ausführungsformen innerhalb des Umfangs der vorliegenden Offenbarung zur Veranschaulichung als ein Lenkrad dargestellt, kann das Lenksystem 24 kein Lenkrad beinhalten.
Das Sensorsystem 28 beinhaltet eine oder mehrere Sensorvorrichtungen 40a-40n, die beobachtbare Zustände der äußeren Umgebung und/oder der inneren Umgebung des autonomen Fahrzeugs 10 erfassen. Die Sensoren 40a-40n können Radargeräte, Lidare, globale Positionierungssysteme, optische Kameras, Wärmebildkameras, Ultraschallsensoren, Trägheitsmesseinheiten und/oder andere Sensoren beinhalten, sind aber nicht darauf beschränkt. Das Stellantriebssystem 30 beinhaltet eine oder mehrere Stellantriebs-Vorrichtungen 42a-42n, die ein oder mehrere Fahrzeugmerkmale, wie zum Beispiel das Antriebssystem 20, das Getriebesystem 22, das Lenksystem 24 und das Bremssystem 26, steuern, jedoch nicht darauf beschränkt sind. In verschiedenen Ausführungsformen können die Fahrzeugmerkmale ferner Innen- und/oder Außenfahrzeugmerkmale, wie beispielsweise Türen, einen Kofferraum und Innenraummerkmale, wie z. B. Luft, Musik, Beleuchtung usw., beinhalten, sind jedoch nicht auf diese beschränkt (nicht nummeriert).
Das Kommunikationssystem 36 kann dazu konfiguriert sein, Informationen drahtlos an und von anderen Einheiten 48 zu übermitteln, wie beispielsweise, jedoch nicht beschränkt auf andere Fahrzeuge („V2V“-Kommunikation), Infrastruktur („V2I“-Kommunikation), entfernte Systeme und/oder persönliche Vorrichtungen. In einer exemplarischen Ausführungsform ist das drahtlose Kommunikationssystem 36 dazu konfiguriert, über ein drahtloses lokales Netzwerk (WLAN) unter Verwendung des IEEE 802.11-Standards, über Bluetooth oder mittels einer mobilen Datenkommunikation zu kommunizieren. Im Geltungsbereich der vorliegenden Offenbarung werden jedoch auch zusätzliche oder alternative Kommunikationsverfahren, wie beispielsweise ein dedizierter Nahbereichskommunikations-(DSRC)-Kanal, berücksichtigt. DSRC-Kanäle beziehen sich auf Einweg- oder Zweiwege-Kurzstrecken- bis Mittelklasse-Funkkommunikationskanäle, die speziell für den Automobilbau und einen entsprechenden Satz von Protokollen und Standards entwickelt wurden.
Die Datenspeichervorrichtung 32 speichert Daten zur Verwendung beim automatischen Steuern des autonomen Fahrzeugs 10. In verschiedenen Ausführungsformen speichert die Datenspeichervorrichtung 32 definierte Landkarten der navigierbaren Umgebung. In verschiedenen Ausführungsformen können die definierten Karten vordefiniert und von einem entfernten System abgerufen werden. So können beispielsweise die definierten Landkarten durch das entfernte System zusammengesetzt und dem autonomen Fahrzeug 10 (drahtlos und/oder drahtgebunden) mitgeteilt und in der Datenspeichervorrichtung 32 gespeichert werden. Wie ersichtlich, kann die Datenspeichervorrichtung 32 ein Teil der Steuerung 34, von der Steuerung 34 getrennt, oder ein Teil der Steuerung 34 und Teil eines separaten Systems sein.
Die Steuerung 34 beinhaltet mindestens einen Prozessor 44 und ein computerlesbares Speichermedium 46, die jeweils dem autonomen Fahragentenmodul 1000 zugeordnet werden können. Der Prozessor 44 kann eine Spezialanfertigung oder ein handelsüblicher Prozessor sein, eine Zentraleinheit (CPU), eine Grafikprozessoreinheit (GPU) unter mehreren Prozessoren verbunden mit der Steuerung 34, ein Mikroprozessor auf Halbleiterbasis (in Form eines Mikrochips oder Chip-Satzes), ein Makroprozessor, eine Kombination derselben oder allgemein jede beliebige Vorrichtung zur Ausführung von Anweisungen. Die computerlesbare Speichervorrichtung oder Medien 46 können flüchtige und nicht-flüchtige Speicher in einem Nur-Lese-Speicher (ROM), einem Speicher mit direktem Zugriff (RAM) und einem Keep-Alive-Memory (KAM) beinhalten. KAM ist ein persistenter oder nicht-flüchtiger Speicher, der verwendet werden kann, um verschiedene Betriebsvariablen zu speichern, während der Prozessor 44 ausgeschaltet ist. Die computerlesbare Speichervorrichtung oder Medien 46 können unter Verwendung einer beliebigen einer Anzahl an bekannten Speichervorrichtungen, wie beispielsweise PROMs (programmierbarer Nur-Lese-Speicher), EPROMs (elektrische PROM), EEPROMs (elektrisch löschbarer PROM), Flash-Speicher oder beliebige andere elektrischen, magnetischen, optischen oder kombinierten Speichervorrichtungen implementiert werden, die Daten speichern können, von denen einige ausführbare Anweisungen darstellen, die von der Steuerung 34 beim Steuern des autonomen Fahrzeugs 10 verwendet werden.
Die Anweisungen können ein oder mehrere separate Programme beinhalten, von denen jede eine geordnete Auflistung von ausführbaren Anweisungen zum Implementieren von logischen Funktionen umfasst. Die Anweisungen empfangen und verarbeiten, wenn diese vom Prozessor 44 ausgeführt werden, Signale vom Sensorsystem 28, führen Logik, Berechnungen, Verfahren und/oder Algorithmen zur automatischen Steuerung der Komponenten des autonomen Fahrzeugs 10 durch und erzeugen Steuersignale an das Stellantriebssystem 30, um die Komponenten des autonomen Fahrzeugs 10 basierend auf der Logik, den Berechnungen, den Verfahren und/oder Algorithmen automatisch zu steuern. Die Steuerung der Komponenten des autonomen Fahrzeugs 10 kann basierend auf Fahrentscheidungen bestimmt werden, die über den Prozessor 44 durch das autonome Fahragentenmodul 1000 getroffen werden, wie im Folgenden näher erläutert wird. Obwohl in 1 nur eine Steuerung 34 und ein Prozessor 44 dargestellt sind, können Ausführungsformen des autonomen Fahrzeugs 10 eine beliebige Anzahl von Steuerungen 34 und Prozessoren 44 beinhalten, die über ein geeignetes Kommunikationsmedium oder eine Kombination von Kommunikationsmedien kommunizieren und zusammenwirken, um die Sensorsignale zu verarbeiten, Logiken, Berechnungen, Verfahren und/oder Algorithmen durchzuführen, und Steuersignale zu erzeugen, um die Funktionen des autonomen Fahrzeugs 10 automatisch zu steuern.
In einer Ausführungsform ist der autonome Fahragent 1000 zur Steuerung von Komponenten des autonomen Fahrzeugs 10 in gewünschter Weise (nachfolgend „Fahraktion“ genannt) für einen bestimmten Umgebungszustand um das autonome Fahrzeug 10 herum zuständig.
Um eine Reihe von geeigneten Fahraktionen für die jeweilige Umgebung des autonomen Fahrzeugs 10 zu wählen, sollte der autonome Fahragent 1000 in der Lage sein, eine Reihe von Mehrkörperproblemen zu lösen, für die ein hohes Maß an Unsicherheit besteht. Im Besonderen kann die Anzahl der Fahrzeuge, die das autonome Fahrzeug 10 in einem bestimmten Umgebungszustand umgeben, sehr variabel sein. Die geometrische Konfiguration dieser umgebenden Fahrzeuge und die zukünftige Bewegung dieser umgebenden Fahrzeuge kann ebenfalls sehr variabel sein. Wie hierin verwendet, definiert der Begriff „Umgebungszustand“ eine zeitliche „Momentaufnahme“ der Informationen, die einem autonomen Fahrzeug von seinen Sensoren zur Verfügung stehen.
Um dieses sequentielle Entscheidungsproblem zu lösen, kann ein Markov-Entscheidungsprozess (MDP) verwendet werden.
Ein gewöhnliches MDP definiert eine Anzahl von Variablen, wie beispielsweise S, A, T, D und R. Hier ist S ein Satz von Umgebungszuständen, A ist ein Satz von Aktionen (wie z.B. Fahraktionen), die in jedem Zustand ausgeführt werden können, T ist ein Satz von Zustandsübergangswahrscheinlichkeiten (welche die Zustandsübergangsverteilung bei Ausführung der Aktion a_x im Zustand s_x definieren), D ist die Anfangszustandsverteilung (von der ein anfänglicher Umgebungszustand s₀ definiert wird), und R ist die Belohnungsfunktion. Die Belohnungsfunktion R kann als lineare oder nichtlineare Kombination von gewichteten Merkmalen ausgedrückt werden θ, während bei autonomen Fahranwendungen die Belohnungsfunktion mit einem gewünschten Fahrverhalten (z. B. Kollisionsvermeidungsverhalten) assoziiert werden kann.
Bei autonomen Fahranwendungen können die gewichteten Merkmale θ mit unterschiedlichen „Merkmalen“ oder „Hinweise“ des Umgebungszustands übereinstimmen, beispielsweise ob das autonome Fahrzeug auf der rechten Spur fährt, ob ein anderes Fahrzeug gerade die Spur vor dem autonomen Fahrzeug gewechselt hat, die Geschwindigkeit eines nahegelegenen Fahrzeugs usw.
Eine MDP „Richtlinie“ π ist eine Kartierung von Umgebungszuständen S zu Wahrscheinlichkeitsverteilungen in Bezug auf die Aktionen A. Ausgehend von Zustand so und dann durch eine zufällige Zustandsequenz s₁, s₂, usw. fortschreitend, zu einem endgültigen Zustand s_Ziel, ist es möglich, durch die Berücksichtigung der Handlungen a₀, a₁ usw., die von einer bestimmten Strategie π definiert sind, die gewichteten Merkmale θ Erwartungen für diese bestimmte Strategie π zu bestimmen. Diese gewichtete Merkmalserwartungsberechnung kann für mehrere Richtlinien π durchgeführt werden. Da die Belohnungsfunktion R normalerweise als lineare Kombination der gewichteten Merkmale θ ausgedrückt werden kann, ist es dann möglich, eine optimale Strategie π zu wählen, die den erwarteten Wert der Belohnungsfunktion R in Bezug auf diese gewichteten Merkmale θ maximiert. Diese optimale Strategieauswahl berücksichtigt die inhärenten Unsicherheiten, die mit dem Fahren verbunden sind - eine Strategie der Fahraktionen wird gewählt, um eine Anhäufung des erwarteten Werts von R zu maximieren (d. h. der erwartete Wert der Belohnung über einen zukünftigen Zeitraum wird maximiert, beginnend mit einem Anfangszustand so und fortschreitend zum Endzustand s_Ziel).
Es ist jedoch nicht optimal, wenn ein Designer die Struktur der Belohnungsfunktion R „handwerklich“ gestaltet, da dies dazu führen kann, dass das MDP eine suboptimale Strategie π auswählt. Mit anderen Worten, unabhängig davon, wie genau der MDP-Prozess bei der Auswahl der richtigen Strategie π für einen bestimmten Umgebungszustand ist, um den erwarteten Wert einer bestimmten Belohnungsfunktion R zu maximieren, wenn die Struktur der Belohnungsfunktion R, die maximiert wird, falsch ist, kann eine falsche Strategie π für Fahrmaßnahmen gewählt werden.
Um dieses Problem zu überwinden und eine höhere Wahrscheinlichkeit einer korrekten Fahrweise durch das MDP zu gewährleisten, kann ein MDP ohne eine vorgegebene Belohnungsfunktion R (MDP/R) definiert werden. Einem Agenten, der mit diesem MDP/R angelernt wird, können dann Proben des menschlichen Expertenfahrverhaltens für bestimmte Umgebungszustände präsentiert werden. Auf der Basis des MDP/R, des präsentierten Umgebungszustands (der die Umgebungsmerkmale beinhaltet) und des präsentierten Expertenfahrverhaltens muss der Agent dann eine Strategie π ermitteln, die durch die vom Experten gewählte Reihenfolge der Fahraktionen für den präsentierten Umgebungszustand maximiert wird.
In einer Ausführungsform wird diese Strategiebestimmung mittels tiefem inversem Verstärkungslernen (DIRL) durchgeführt. Beim DIRL werden zufällige Strategien π vom Agenten ausgewählt, und jede Strategie wird mit einer ersten „Schätzung“ der Belohnungsfunktion verglichen, die durch die Reihenfolge der Fahraktionen des Experten optimiert wird. Der Agent berechnet dann iterativ potenzielle Belohnungsfunktionen R, die durch die Reihenfolge des Fahrverhaltens des Experten stärker maximiert werden als die bisherige vom Agenten ermittelte Belohnungsfunktion für die „beste Einschätzung“. Auf diese Weise kann die Struktur der Belohnungsfunktion iterativ bestimmt und die latente Motivation hinter der Abfolge der Fahraktionen des Experten aus dieser bestimmten Belohnungsfunktion wiederhergestellt werden.
Als Beispiel kann beim Einlernen des autonomen Fahragentenmoduls 1000 das autonome Fahragentenmodul 1000 mit einer Demonstration eines erfahrenen Fahrers präsentiert werden, der in einem bestimmten Umgebungszustand an Geschwindigkeit verliert (z. B. ein Umgebungszustand, der ein Fahrzeug direkt vor dem erfahrenen Fahrer beinhaltet, dessen Geschwindigkeit rapide abnimmt). Mit DIRL stellt der autonome Fahragent 1000 die Struktur der Belohnungsfunktion wieder her (die Anhäufung dieser Belohnungsfunktion wird durch eine Strategie π maximiert, die eine Reihe von Fahraktionen A beschreibt, die zu einer Verringerung der Geschwindigkeit des Fahrzeugs in der durch das Expertenverhalten gezeigten Weise geführt hat), und somit auch die latente Motivation des erfahrenen Fahrers (Vermeidung einer Kollision mit dem anderen Fahrzeug). Belohnungsfunktionen werden im Allgemeinen in Form eines Tensors wiederhergestellt.
Eine Ausführungsform der DIRL-Technik zum Anlernen des autonomen Fahragenten 100 ist in 2 dargestellt. Wie in 2 gezeigt, wird ein DIRL-Agent 215 mit einer Vielzahl von Fahrverhaltensdemonstrationen 200 von einer Vielzahl von erfahrenen Fahrern in verschiedenen Fahrumgebungszuständen 202 präsentiert. In einer Ausführungsform führt der DIRL-Agent 215 einen MDP/R-Prozess zur Wiederherstellung der Belohnungsfunktion R in Form einer Belohnungstensorkarte 220 basierend auf dem Datensatz der Fahrdemonstrationen 200 durch. Diese Belohnungstensorkarte 220 verbindet einen verallgemeinerten Umgebungszustand 202, gekennzeichnet durch einige Merkmale θ, die für den verallgemeinerten Umgebungszustand 202 von Interesse sind, mit einer bestimmten Strategie π von Fahraktionen A, die den erwarteten Wert der Belohnungsfunktion für diesen verallgemeinerten Umgebungszustand 202 maximiert. Mit anderen Worten, die Belohnungstensorkarte 220 ermöglicht eine Entscheidung über die optimale Strategie der Fahrweise A in einem beliebigen Umgebungszustand S.
Im Einzelnen können alle Demonstrationen aus einem bestimmten Umgebungszustand 202 (z. B. dem j-ten Umgebungszustand) in einen Datensatz Ω_j aufgenommen werden. In einer Ausführungsform würde der Demonstrationssatz alle aus dieser j-ten Umgebung abgeleiteten Demonstrationsmerkmale w beinhalten, sodass: Ω_j = {w_1j, w_2j, ... w_nj}, und kann verwendet werden, um die Strategien Ω zu interpolieren, gefolgt von jedem Demonstrator in der j-ten Umgebung. Diese Interpolation kann durch Schätzen eines Belohnungsfunktions-Approximators r erfolgen, der eine Funktion der aus dem demonstrierten Expertenverhalten x extrahierten Informationen und der gewichteten Merkmale θ ist, sodass r ≈ f(x, θ₁, θ₂, ..., θ_n). In einer Ausführungsform kann die Belohnungsfunktion R auch unter Verwendung einer Universalwertfunktion V(s₀, s_Ziel) aktualisiert werden, die zum Maximieren des erwarteten Werts der Belohnungsfunktion R bei einem Anfangszustand so und einem Zielzustand s_Ziel verwendet wird.
Auf diese Weise können die von jedem einzelnen Demonstrator in einer bestimmten Umgebung 202 befolgten Strategien π der Fahraktionen A wiederhergestellt und dann mit dem DIRL-Modul 215 verallgemeinert werden, um die Belohnungstensorkarte 220 wiederherzustellen. Die wiederhergestellte Belohnungstensorkarte 220 bewirkt, dass ein autonomes Fahragentenmodul 1000 in der Lage ist, eine bevorzugte Strategie π von Fahraktionen A für jeden zukünftigen Umgebungszustand 202 zu bestimmen.
Zum Verständnis der latenten Motivationen hinter der Konfiguration der wiederhergestellten Belohnungstensorkarte 220 kann ein Supervisor bestimmte Merkmale, die dem DIRL-Modul 215 präsentiert werden, mit den Fahrdemonstrationen kennzeichnen. Die Kennzeichnung bestimmter wichtiger Merkmale θ in den präsentierten Fahrdemonstrationen 200 würde es dem Supervisor ermöglichen, zu ermitteln, warum die Belohnungskarte in einer bestimmten Weise durch den Fahragenten wiederhergestellt wird. Ein Beispiel für ein wichtiges Merkmal θ, das von einem Supervisor gekennzeichnet werden kann, ist das starke Abbremsen eines Fahrzeugs vor dem autonomen Fahrzeug 10. Die wiederhergestellte Belohnungskarte würde ein Ausweichmanöver in einem derartigen Umgebungszustand belohnen und damit dem Supervisor die latente Motivation hinter dem Ausweichmanöver anzeigen.
In einem weiteren Beispiel, wenn ein dargestellter Umgebungszustand 202 zwei Fahrzeuge enthält und die geometrische Konfiguration dieser beiden Fahrzeuge dazu geführt hat, dass das Verhalten des dargestellten Experten die Fahrzeuggeschwindigkeit reduziert hat, kann ein Supervisor den Umgebungszustand 202 manuell kennzeichnen, um dem DIRL-Agenten 215 anzuzeigen, dass sich zwei Fahrzeuge im dargestellten Umgebungszustand 202 befinden und dass sich diese Fahrzeuge in einer bestimmten geometrischen Konfiguration befinden. Die Kennzeichnung ermöglicht daraufhin dem DIRL-Modul 215, die Merkmale zu erkennen, die den erfahrenen Fahrer veranlasst haben, die Fahrzeuggeschwindigkeit zu reduzieren.
Die Kennzeichnung von Trainingsdaten ist ein zeitintensiver Prozess. Um die verschiedenen Umgebungszustände 202 für jede der mehreren Fahrdemonstrationen 200 zu kennzeichnen, wäre ein hoher Zeitaufwand an Überwachung erforderlich, um die latenten Motivationen hinter der Wiederherstellung einer Belohnungstensorkarte 220 über einen DIRL-Prozess mit einem DIRL-Agenten korrekt wiederherzustellen.
In einer Ausführungsform kann ein kontradiktorisches Anlernverfahren verwendet werden, um die Notwendigkeit zu vermeiden, Anlerndemonstrationen für den DIRL-Agenten 215 zu kennzeichnen. Eine Ausführungsform eines derartigen kontradiktorischen Anlernverfahrens ist in 3 dargestellt. Unter Bezugnahme auf 3 beinhaltet ein kontradiktorisches Anlernverfahren den Einsatz eines Generatormoduls 300. Wie hierin verwendet, bezieht sich der Begriff „Generatormodul“ auf ein Modul, das mit der Lernaufgabe betraut ist, aus extrahierten Sensorinformationen des Sensorsystems 28 Umgebungsinterpretationen 302 zu erzeugen. Das kontradiktorische Anlernverfahren beinhaltet auch den Einsatz eines Diskriminatormoduls 400. Wie hierin verwendet, bezieht sich der Begriff „Diskriminatormodul“ auf ein Modul, das mit der Lernaufgabe betraut ist, zu ermitteln, ob eine erzeugte Umgebungsinterpretation 302 einem realistischen Umgebungszustand entspricht oder nicht.
Wie in 3 dargestellt, können Sensorinformationen zu den Demonstrationen 200 in den verschiedenen Umgebungen 202 an ein neuronales Netz 216 gesendet werden. In einer Ausführungsform extrahiert das neuronale Netz 216 Informationen, wie beispielsweise expressive Hinweise, aus den Demonstrationsinformationen. In einer Ausführungsform liegen die Demonstrationsinformationen in Form von Videoaufnahmen einer optischen Kamera vor. In einer Ausführungsform ist das neuronale Netz 216 ein tiefes neuronales Netzwerk, wobei sich die vom neuronalen Netz 216 ausgegebenen Informationen auf das Erkennen von Bildern des Videomaterials von einer optischen Kamera auf hoher Ebene beziehen. Die Art und Weise, in der diese Erkennung auf hoher Ebene durchgeführt wird, wird im Folgenden näher erläutert.
Zusätzlich oder ergänzend können die Demonstrationsinformationen eine Reihe von LIDAR-Messwerte sein. Zusätzlich oder ergänzend können die Demonstrationsinformationen auch andere Arten von Sensorinformationen beinhalten, wie beispielsweise Radar, globales Positionierungssystem, Wärmebildkamera, Ultraschallsensor, Trägheitsmesseinheit und/oder andere Arten von Sensordaten.
Die Merkmale θ (beispielsweise Fahrzeugpositionen, Ampeln usw.) und andere aussagekräftige Umgebungsinformationen, die durch das neuronale Netz 216 aus den Demonstrationsinformationen extrahiert werden, können im MDP/R-Prozess des DIRL-Agenten 215 künstlich auf das Verhalten des erfahrenen Fahrers gewichtet werden. Diese Gewichtung kann die Notwendigkeit eliminieren, die Umgebung genau zu erfassen und Funktionen bereitzustellen, die mit der Kinematik von Objekten, den Regeln für Verkehrszeichen usw. zusammenhängen. Unter Bezugnahme auf 3 werden in einer Ausführungsform Informationen aus den Demonstrationen 200 über das neuronale Netz 216 an den DIRL-Agenten 215 übertragen. Darüber hinaus ist die aufgezeichnete Strategie des Experten für Fahrmanöver A aus den Aufzeichnungen des Betätigungssystems 30 des Expertenfahrzeugs wiederhergestellt. In einer Ausführungsform ist der DIRL-Agent 215 konfiguriert, um die extrahierten Informationen und die Strategie mehrerer Experten in Bezug auf Fahraktionen zur Wiederherstellung der Belohnungskarte 220 zu verwenden.
In einer Ausführungsform werden die extrahierten Informationen auch an ein Generatormodul 300 übertragen. Das Generatormodul 300 beinhaltet in einer Ausführungsform auch ein tiefes faltungsneuronales Netz. Das Generatormodul 300 ist konfiguriert, um eine Interpretation des dargestellten Umgebungszustands 202 basierend auf den extrahierten Informationen aus dem neuronalen Netz 216 zu erzeugen.
Unter Bezugnahme auf 4 werden nun die Details dargestellt, wie das Generatormodul 300 konfiguriert ist, um eine Interpretation des dargestellten Umgebungszustands 202 basierend auf den extrahierten Informationen aus dem neuronalen Netz 216 zu erzeugen. In einer Ausführungsform basiert die erzeugte Umgebungsinterpretation 302 auf einer Generatorfunktion G(z). In einer Ausführungsform beinhaltet das Generatormodul 300 eine Reihe von versteckten Faltungsschichten 700, 702, 704, 706 (CONV-Schichten). Jede dieser CONV-Schichten 700, 702, 704, 706 kann aus den extrahierten Informationen des neuronalen Netzes 216 progressiv übergeordnete Merkmale extrahieren. In der in 4 dargestellten Ausführungsform werden vier versteckte CONV-Schichten 700, 702, 704, 706 verwendet. In einer Ausführungsform weisen die CONV-Schichten 700, 702, 704, 706 alle den gleichen Schrittwert auf. In einer weiteren Ausführungsform umfassen die CONV-Schichten 700, 702, 704, 706 unterschiedliche Schrittwerte. In der in 4 dargestellten Ausführungsform weist jede CONV-Schicht 700, 702, 704, 706 einen Schrittwert von 2 auf, sodass über 4 CONV-Schichten eine Interpretation von 4x4x1024 projiziert und zu einer Interpretation von 64x64x3 umgestaltet wird.
In einer Ausführungsform entspricht die Ausgabe der letzten CONV-Schicht 706 des Generatormoduls 300 der erzeugten Umgebungsinterpretation 302 der Umgebung 202, basierend auf den extrahierten Informationen aus dem neuronalen Netz 216. Diese Umgebungsinterpretation 302 beinhaltet das Agenten-eigene „Kennzeichnungs“-Verfahren - das heißt, das Generatormodul 300 kennzeichnet das demonstrative Fahrverhalten 200 durch den Erzeugungsprozess der Umgebungsinterpretation.
Unter Bezugnahme auf 3 wird dann die erzeugte Umgebungsinterpretation 302 an das Diskriminatormodul 400 übergeben. Die Informationen der Sensorrohdaten (die in einer Ausführungsform als Rohdaten der optischen Kamera vorliegen) werden ebenfalls an das Diskriminatormodul 400 übergeben. Das Diskriminatormodul 400, das in einer Ausführungsform auch ein neuronales Netz beinhaltet, ist zum Vergleichen der erzeugten Umgebungsinterpretation 302 mit dem „realen“ Umgebungszustand 202 in den Rohsensorinformationen konfiguriert. Das Diskriminatormodul 400 ist konfiguriert, um basierend auf einer Diskriminatorfunktion D(G(x⁽ⁱ⁾)) zu ermitteln, ob die erzeugte Umgebungsinterpretation 302 mit einem realistischen Umgebungszustand korreliert. Diese Diskriminatorfunktion kann eine iterative Funktion sein.
In einer Ausführungsform und wie in den 3 und 4 dargestellt, kann das Diskriminatormodul 400 auch mit den extrahierten Informationen aus dem neuronalen Netz 216 versorgt werden. In dieser Ausführungsform ist das Diskriminatormodul 400 konfiguriert, um zu ermitteln, ob die erzeugte Umgebungsinterpretation 302 nicht nur einem allgemein realistischen Umgebungszustand entspricht, sondern auch dem tatsächlichen realen Umgebungszustand 202, der mit den Sensorinformationen aus den Fahrdemonstrationen 200 dargestellt wird.
Wie vorstehend ausgeführt, kann das Diskriminatormodul 400 auch ein neuronales Netz beinhalten. In einer Ausführungsform kann das Diskriminatormodul 400 eine Reihe von versteckten Faltungsschichten (CONV-Schichten) in einem umgekehrten „Spiegelbild“ des Generatormoduls 300 beinhalten.
In einer Ausführungsform werden sowohl das Generatormodul 300 als auch das Diskriminatormodul 400 zur Verbesserung ihrer Lernziele trainiert.
Mit anderen Worten, das Generatormodul 300 muss lernen, zwei Aufgaben korrekt auszuführen. Zunächst muss das Generatormodul 300 lernen, aus den extrahierten Informationen des neuronalen Netzes 216 eine „realistische“ Umgebungszustandsinterpretation 302 zu erzeugen. Zweitens muss das Generatormodul 300 in der Lage sein, eine Umgebungsinterpretation 302 zu erzeugen, die mit den an das Diskriminatormodul 400 übermittelten Sensorrohinformationen korreliert. Das Diskriminatormodul 400 muss lernen, die Aufgabe einer korrekten Ermittlung zu erfüllen, ob eine erzeugte Umgebungsinterpretation 302 mit einem allgemein realistischen Umgebungszustand korreliert. Darüber hinaus muss das Diskriminatormodul 400 in einer Ausführungsform ebenfalls lernen, die Aufgabe der korrekten Ermittlung, ob eine erzeugte Umgebungsinterpretation 302 mit dem dargestellten Umgebungszustand, der mit den Rohsensorinformationen korreliert, übereinstimmt oder nicht.
Um sowohl das Generatormodul 300 als auch das Diskriminatormodul 400 für diese Aufgaben anzulernen, werden das Generatormodul 300 und das Diskriminatormodul 400 als Kontrahenten angelernt. Im Besonderen gibt das Generatormodul 300 das spezifische Lernziel vor, aus den extrahierten Informationen eine Umgebungsinterpretation 302 zu erzeugen, die den Diskriminierungstest des Diskriminatormoduls 400 durchläuft. Dementsprechend wird dem Diskriminatormodul 400 das Lernziel vorgegeben, korrekt zu ermitteln, ob eine erzeugte Umgebungsinterpretation 302 mit einem realistischen Umgebungszustand korreliert oder, in einer Ausführungsform, dem tatsächlichen Umgebungszustand 200, der mit den Rohsensorinformationen dargestellt wird.
Das Generatormodul 300 und das Diskriminatormodul 400 werden dann iterativ aktualisiert. Im Besonderen werden die von einer „anfänglichen“ Generatorfunktion erzeugten Umgebungsinterpretationen 302 durch eine „anfängliche“ Diskriminatorfunktion ausgewertet. Ausgehend von der Ermittlung der anfänglichen Diskriminatorfunktion wird dann die Generatorfunktion aktualisiert, beispielsweise durch Verwendung einer Verlust- oder Kostenfunktion, sodass die Generatorfunktion eher eine Umgebungsinterpretation aus den extrahierten Informationen erzeugt, die den Diskriminierungstest der „ursprünglichen“ Diskriminatorfunktion bestehen wird.
In einer Ausführungsform ist die Verlust- oder Kostenfunktion eine Funktion, die den Fehler der Leistung des Generatormoduls 300 oder des Diskriminatormoduls 400 quantifiziert. In einer Ausführungsform kann die Verlust- oder Kostenfunktion den Unterschied zwischen der erzeugten Umgebungsinterpretation 302 und einer vorher definierten „idealen“ realistischen Umgebungsinterpretation bestimmen. In einer Ausführungsform ist die Verlust- oder Kostenfunktion in Bezug auf Variablen, die mit der erzeugten Umgebungsinterpretation verbunden sind, differenzierbar, sodass der Fehler in der Verlust- oder Kostenfunktion über ein Gradientenabsenkungsverfahren minimiert werden kann.
Wenn die Generatorfunktion des Generatormoduls 300 auf einen Genauigkeitsgrad aktualisiert wird, bei welchem die meisten der erzeugten Umgebungsinterpretationen den Diskriminatorfunktionstest des Diskriminatormoduls 400 „bestehen“, wird das Aktualisieren der Generatorfunktion angehalten. Die Diskriminatorfunktion des Diskriminatormoduls 400 wird dann iterativ aktualisiert, beispielsweise durch Verwendung einer anderen Verlust- oder Kostenfunktion, sodass die Diskriminatorfunktion eher korrekt ermitteln kann, ob eine erzeugte Umgebungsinterpretation mit einem realistischen Umgebungszustand korreliert. Wenn die Diskriminatorfunktion auf eine bestimmte Genauigkeit aktualisiert/optimiert wird, wird das Aktualisieren der Diskriminatorfunktion angehalten, und das Aktualisieren der Generatorfunktion wird dann basierend auf der verbesserten Diskriminatorfunktion usw. fortgesetzt.
Auf diese Weise werden sowohl die Diskriminator- als auch die Generatorfunktionen so weit aktualisiert, dass die Generatorfunktion des Generatormoduls 300 fast immer eine Umgebungsinterpretation 302 erzeugt, die basierend auf den extrahierten Sensorinformationen aus dem neuronalen Netz 216 korrekt einem realistischen Umgebungszustand 202 entspricht. An dieser Stelle können die Generator- und Diskriminatormodule 300, 400 als angelernt betrachtet werden.
Ein Datenflussdiagramm, das die kontradiktorische Natur der Generator- und Diskriminatormodule 300, 400 wiedergibt, ist in 5 dargestellt. In der Ausführungsform von 5 werden die Demonstrationsinformationen 200 an das neuronale Netz 216 und auch an das Diskriminatormodul 400 übertragen. Das Diskriminatormodul vergleicht die vom Generatormodul 300 erzeugte Umgebungszustandsinterpretation 302 mit den realen Umgebungszustandsinformationen 200 mittels der Diskriminatorfunktion. Wenn der Ausgang des Diskriminatormoduls ergibt, dass die erzeugte Umgebungsinterpretation 302 nicht dem realen Umgebungszustand 202 entspricht, weist das Diskriminatormodul 400 die erzeugte Umgebungszustandsinterpretation 302 zurück. Das Generatormodul 300 lernt dann basierend auf dieser Zurückweisung, dass das Verfahren zum Erzeugen dieser speziellen Interpretation in irgendeiner Weise fehlerhaft ist, und erzeugt daher eine neue Umgebungsinterpretation 302, die eine Störung in Bezug auf die zurückgewiesene Umgebungsinterpretation 302 beinhaltet. In einer Ausführungsform beinhaltet das Erzeugen der neuen Umgebungsinterpretation 302 ein Monte-Carlo-Verfahren zum Erzeugen der gestörten neuen Umgebungsinterpretation.
Wenn der Ausgang des Diskriminatormoduls 400 ergibt, dass die erzeugte Umgebungszustandsinterpretation der realen Umgebungszustandsinterpretation entspricht, speichert das Diskriminatormodul den realen Umgebungszustand und die zugehörige erzeugte Umgebungsinterpretation 302 in einem Speicher. Der gespeicherte reale Umgebungszustand und die damit verbundene erzeugte Umgebungsinterpretation werden dann verwendet, um das Diskriminatormodul 400 zur besseren Unterscheidung der erzeugten Umgebungsinterpretationen anzulernen, wodurch die Wahrscheinlichkeit von „Falschmeldungen“ Ergebnissen aus der Diskriminatorfunktion reduziert wird.
Nach einer Vielzahl von Iterationen dieses kontradiktorischen Anlernverfahrens wird das Generatormodul 300 so weit verbessert, dass die meisten der erzeugten Umgebungszustandsinterpretationen 302 den Vergleichstest mit der verbesserten Diskriminatorfunktion des verbesserten Diskriminatormoduls 400 bestehen (abhängig von den gewählten Lernkriterien). Das Generatormodul 300 kann dann als „angelernt“ betrachtet werden.
Das angelernte Generatormodul 300 kann dann verwendet werden, um aus den extrahierten Informationen des neuronalen Netzes 216 genaue Umgebungszustandsinterpretationen 302 zu erzeugen. Die extrahierten Informationen werden in Ausführungsformen aus den protokollierten menschlichen Fahrdaten übernommen. Für den Einsatz des angelernten Generatormoduls 300 sind keine besonderen Anmerkungen oder Kennzeichnungen der erfassten menschlichen Fahrdaten erforderlich. Auf diese Weise kann der autonome Fahrer eine menschenähnliche Interpretation der Fahrsituation vorhersagen, ohne dass ein Mensch nachweisen muss, was er in einer derartigen Situation tun würde oder warum.
Im Einzelnen kann, wie der gestrichelte Pfeil in 3 zeigt, die präzise erzeugte Umgebungsinterpretation 302 aus dem angelernten Generatormodul 300 als Eingabe für das DIRL-Modul 215 zum Durchführen des vorstehend beschriebenen DIRL-Lernprozesses verwendet werden. Durch die Verwendung des angelernten Generatormoduls 300 ist es nicht erforderlich, die präsentierten Fahrdemonstrationen durch einen Supervisor für den DIRL-Lernprozess zu kennzeichnen. Somit kann die Wiederherstellung der Belohnungstensorkarte 220 aus den Fahrdemonstrationen 200 weitgehend unbeaufsichtigt erfolgen. Mit anderen Worten, alles, was benötigt wird, um die Belohnungstensorkarte 220 wiederherzustellen, ist ein Datensatz von Experten-Fahrverhaltensdemonstrationen 200 - eine Kennzeichnung dieser Fahrverhaltensdemonstrationen 200 ist nicht erforderlich.
Nach der Wiederherstellung der Belohnungstensorkarte 220 kann der angelernte autonome Fahragent, der die wiederhergestellte Belohnungskarte 220 enthält, anschließend in einem autonomen Fahrzeug 10 eingesetzt werden. Wie in den 6 und 7 dargestellt, kann ein autonomes Fahrzeug 10 mit einem Sensorsystem 28 ausgestattet werden, das eine optische Kamera beinhalten kann. Umgebungszustandsinformationen 202 über Merkmale der Umgebung können mit diesem Sensorsystem 28 erfasst werden. Informationen bezüglich der Merkmale der Umgebung können über ein neuronales Netz 216 extrahiert werden. Der autonome Fahragent 216 implementiert dann eine Strategie der Fahraktionen A basierend auf diesen extrahierten Informationen durch die Verwendung der wiederhergestellten Belohnungskarte 220. Die extrahierten Informationen können auch über ein Datensplittermodul 219 an das angelernte Generatormodul 300 weitergegeben werden. Das angelernte Generatormodul 300 erzeugt basierend auf diesen extrahierten Informationen eine dem realen Umgebungszustand entsprechende Umgebungsinterpretation 302. Die erzeugte Umgebungsinterpretation 302 kann dann in einem Speicher 401 gespeichert und später verwendet werden, um die Hintergründe zu verstehen, warum der Agent eine bestimmte Strategie zum Steuern von Aktionen für eine bestimmte Umgebungszustandsinterpretation gewählt hat. Mit anderen Worten, durch den Zugriff auf die Umgebungszustandsinterpretation, auf welcher der Agent die Strategie der Fahrweise aufbaut, ist es möglich zu verstehen, welche Merkmale θ dieser Umgebungszustandsinterpretation den Agenten veranlasst hat, eine bestimmte Strategie der Fahrweise zu wählen. Das angelernte Diskriminatormodul 400 kann auch in das Fahrzeug 10 integriert werden, wobei der Ausgang des Diskriminatormoduls 400 auch im Speicher 401 zum späteren Aktualisieren des Diskriminatormoduls 400 gespeichert werden kann.
Dieses Verständnis, welche Merkmale der Umgebungszustandsinterpretation den Agenten veranlasst haben, eine bestimmte Fahrstrategie zu wählen, kann später zur anschließenden Aktualisierung des Agenten verwendet werden. Im Besonderen kann der Agent eine unerwartete Fahrstrategie gewählt haben, um auf einen Umgebungszustand zu reagieren, den der Agent bisher nicht kannte. In dieser Situation ist es möglich, aus der erzeugten Umgebungsinterpretation zu ermitteln, welche Merkmale des neuen Umgebungszustands den Agenten veranlasst haben, diese bestimmte Fahrstrategie zu wählen. Wenn die gewählte Strategie unerwünscht war, kann der Agent anschließend aktualisiert werden, um zu gewährleisten, dass die unerwünschte Strategie beim nächsten Auftreten eines ähnlichen Umgebungszustands nicht ausgewählt wird.
Darüber hinaus kann, wie auch in 7 dargestellt, das angelernte Generatormodul 300 in das autonome Fahrzeug 10 eingebunden werden. In einer Ausführungsform ist das Diskriminatormodul 400 auch im autonomen Fahrzeug mit inbegriffen. Obwohl das Diskriminatormodul 400 die erzeugten Umgebungsinterpretationen beim autonomen Fahren nicht aktiv diskriminieren kann, können die Entscheidungen, welche die Diskriminatorfunktion des Diskriminatormoduls basierend auf der vom Generatormodul empfangenen erzeugten Umgebungsinterpretation und dem vom Sensor empfangenen realen Umgebungszustand getroffen hätte, in einem Speicher 401 gespeichert werden. Dieser Speicher kann dann genutzt werden, um die Diskriminatorfunktion (und damit auch die Generatorfunktion) periodisch basierend auf „in Gebrauch“-Fahrdaten zu aktualisieren.
Um den zuvor beschriebenen Lernprozess zusammenzufassen, ist in 8 ein Flussdiagramm des Lernprozesses dargestellt. Bei Schritt 500 werden Informationen aus den Fahrerdemonstrationen 200 extrahiert. In einer Ausführungsform wird diese Extraktion über ein neuronales Netz durchgeführt. Bei Schritt 502 werden diese Informationen an ein Generatormodul 300 übertragen. Bei Schritt 504 wird der reale Umgebungszustand an ein Diskriminatormodul 400 übertragen. Bei Schritt 506 erzeugt das Generatormodul 300 aus den extrahierten Informationen Umgebungszustandsinterpretationen. Bei Schritt 508 werden sowohl die Generator- als auch die Diskriminatormodule so angelernt, dass der Diskriminator lernt, zwischen erzeugten Umgebungsinterpretationen und realistischen Umgebungszuständen besser zu unterscheiden. Bei Schritt 510 wird eine Belohnungskarte aus den Fahrerdemonstrationen unter Verwendung der erzeugten Umgebungszustandsinterpretationen des gelernten Generators wiederhergestellt. Diese Belohnungskarte 220 kann durch den Einsatz des DIRL-Agenten 215 wiederhergestellt werden.
In verschiedenen Ausführungsformen kann das autonome Fahrzeug 10, das mit Bezug auf 1 beschrieben ist, für den Einsatz im Rahmen eines Taxi- oder Shuttle-Unternehmens in einem bestimmten geografischen Gebiet (z. B. einer Stadt, einer Schule oder einem Geschäftscampus, einem Einkaufszentrum, einem Vergnügungspark, einem Veranstaltungszentrum oder dergleichen) geeignet sein. So kann beispielsweise das autonome Fahrzeug 10 einem autonomen fahrzeugbasierten Transportsystem zugeordnet sein. In verschiedenen Ausführungsformen beinhaltet die Betriebsumgebung ferner eine oder mehrere Benutzervorrichtungen, die mit dem autonomen Fahrzeug 10 und/oder einem entfernten Transportsystem über ein Kommunikationsnetzwerk kommunizieren.
Das Kommunikationsnetzwerk kann die Kommunikation zwischen Geräten, Systemen und Komponenten unterstützen, die von der Betriebsumgebung unterstützt werden (z. B. über physische Kommunikationsverbindungen und/oder drahtlose Kommunikationsverbindungen). So kann beispielsweise das Kommunikationsnetzwerk ein Drahtlosträgersystem beinhalten, wie beispielsweise ein Mobiltelefonsystem, das eine Vielzahl von Mobilfunktürmen (nicht dargestellt), eine oder mehrere Mobilvermittlungsstellen (MSCs) (nicht dargestellt) sowie alle anderen Netzwerkkomponenten beinhalten, die zum Verbinden des Drahtlosträgersystems mit dem Festnetz-Kommunikationssystem erforderlich sind. Jeder Mobilfunkturm beinhaltet Sende- und Empfangsantennen und eine Basisstation, wobei die Basisstationen verschiedener Mobilfunktürme mit den MSC verbunden sind, entweder direkt oder über Zwischenvorrichtungen, wie beispielsweise eine Basisstationssteuerung. Das Drahtlosträgersystem kann jede geeignete Kommunikationstechnologie implementieren, beispielsweise digitale Technologien wie CDMA (z. B. CDMA2000), LTE (z. B. 4G LTE oder 5G LTE), GSM/GPRS oder andere aktuelle oder neu entstehende drahtlose Technologien. Andere Mobilfünkturm/Basisstation/MSC-Anordnungen sind möglich und könnten mit dem Mobilfunkanbietersystem verwendet werden. So könnten sich beispielsweise die Basisstation und der Mobilfunkturm an derselben Stelle oder entfernt voneinander befinden, jede Basisstation könnte für einen einzelnen Mobilfunkturm zuständig sein oder eine einzelne Basisstation könnte verschiedene Mobilfunktürme bedienen, oder verschiedene Basisstationen könnten mit einer einzigen MSC gekoppelt werden, um nur einige der möglichen Anordnungen zu nennen.
Abgesehen vom Verwenden des drahtlosen Trägersystems kann ein zweites drahtloses Trägersystem in Form eines Satellitenkommunikationssystems verwendet werden, um unidirektionale oder bidirektionale Kommunikation mit dem autonomen Fahrzeug bereitzustellen. Dies kann unter Verwendung von einem oder mehreren Kommunikationssatelliten (nicht dargestellt) und einer aufwärts gerichteten Sendestation (nicht dargestellt) erfolgen. Die unidirektionale Kommunikation kann beispielsweise Satellitenradiodienste beinhalten, worin programmierte Inhaltsdaten (Nachrichten, Musik usw.) von der Sendestation empfangen werden, für das Hochladen gepackt und anschließend zum Satelliten gesendet werden, der die Programmierung an die Teilnehmer ausstrahlt. Die bidirektionale Kommunikation kann beispielsweise Satellitentelefondienste beinhalten, die den Satelliten verwenden, um Telefonkommunikationen zwischen dem Fahrzeug und der Station weiterzugeben. Die Satellitentelefonie kann entweder zusätzlich oder anstelle des Drahtlosträgersystems verwendet werden.
Ein Festnetz-Kommunikationssystem kann ein konventionelles Festnetz-Telekommunikationsnetzwerk beinhalten, das mit einem oder mehreren Festnetztelefonen verbunden ist und das drahtlose Trägersystem mit dem entfernten Transportsystem verbindet. So kann beispielsweise das Festnetz-Kommunikationssystem ein Fernsprechnetz (PSTN) wie jenes sein, das verwendet wird, um festverdrahtetes Fernsprechen, paketvermittelte Datenkommunikationen und die Internetinfrastruktur bereitzustellen. Ein oder mehrere Segmente des Festnetz-Kommunikationssystems könnten durch Verwenden eines normalen drahtgebundenen Netzwerks, eines Lichtleiter- oder eines anderen optischen Netzwerks, eines Kabelnetzes, von Stromleitungen, anderen drahtlosen Netzwerken, wie drahtlose lokale Netzwerke (WLANs) oder Netzwerke, die drahtlosen Breitbandzugang (BWA) bereitstellen oder jeder Kombination davon implementiert sein. Weiterhin muss das entfernte Transportsystem nicht über das Festnetz-Kommunikationssystem verbunden sein, sondern könnte Funktelefonausrüstung beinhalten, sodass sie direkt mit einem drahtlosen Netzwerk, wie z. B. dem drahtlosen Trägersystem, kommunizieren kann.
Ausführungsformen der Betriebsumgebung können eine beliebige Anzahl von Benutzervorrichtungen, einschließlich mehrerer Benutzervorrichtungen unterstützen, die das Eigentum einer Person sind, von dieser bedient oder anderweitig verwendet werden. Jede Benutzervorrichtung, die von der Betriebsumgebung unterstützt wird, kann unter Verwendung einer geeigneten Hardwareplattform implementiert werden. In dieser Hinsicht kann die Benutzervorrichtung in einem gemeinsamen Formfaktor realisiert werden, darunter auch in: einen Desktop-Computer; einem mobilen Computer (z. B. einem Tablet-Computer, einem Laptop-Computer oder einem Netbook-Computer); einem Smartphone; einem Videospielgerät; einem digitalen Media-Player; einem Bestandteil eines Heimunterhaltungsgeräts; einer Digitalkamera oder Videokamera; einem tragbaren Computergerät (z. B. einer Smart-Uhr, Smart-Brille, Smart-Kleidung); oder dergleichen. Jede von der Betriebsumgebung unterstützte Benutzervorrichtung ist als computerimplementiertes oder computergestütztes Gerät mit der Hardware-, Software-, Firmware- und/oder Verarbeitungslogik realisiert, die für die Durchführung der hier beschriebenen verschiedenen Techniken und Verfahren erforderlich ist. So beinhaltet beispielsweise die Benutzervorrichtung einen Mikroprozessor in Form einer programmierbaren Vorrichtung, die eine oder mehrere in einer internen Speicherstruktur gespeicherte Anweisungen beinhaltet und angewendet wird, um binäre Eingaben zu empfangen und binäre Ausgaben zu erzeugen. In einigen Ausführungsformen beinhaltet die Benutzervorrichtung ein GPS-Modul, das GPS-Satellitensignale empfangen und GPS-Koordinaten basierend auf diesen Signalen erzeugen kann. In weiteren Ausführungsformen beinhaltet die Benutzervorrichtung eine Mobilfunk-Kommunikationsfunktionalität, sodass die Vorrichtung Sprach- und/oder Datenkommunikationen über das Kommunikationsnetzwerk unter Verwendung eines oder mehrerer Mobilfunk-Kommunikationsprotokolle durchführt, wie hierin erläutert. In verschiedenen Ausführungsformen beinhaltet die Benutzervorrichtung 54 eine visuelle Anzeige, wie zum Beispiel ein grafisches Touchscreen-Display oder eine andere Anzeige.
Das entfernte Transportsystem beinhaltet ein oder mehrere Backend-Serversysteme, die an dem speziellen Campus oder dem geografischen Standort, der vom Transportsystem bedient wird, Cloud-basiert, netzwerkbasiert oder resident sein können. Das entfernte Transportsystem kann mit einem Live-Berater, einem automatisierten Berater oder einer Kombination aus beidem besetzt sein. Das entfernte Transportsystem kann mit den Benutzervorrichtungen und den autonomen Fahrzeugen kommunizieren, um Fahrten zu planen, autonome Fahrzeuge zu versetzen und dergleichen. In verschiedenen Ausführungsformen speichert das entfernte Transportsystem Kontoinformationen, wie zum Beispiel Teilnehmerauthentisierungsdaten, Fahrzeugkennzeichen, Profilaufzeichnungen, Verhaltensmuster und andere entsprechende Teilnehmerinformationen.
Gemäß einem typischen Anwendungsfall-Arbeitsablauf kann ein registrierter Benutzer des entfernten Transportsystems über die Benutzervorrichtung eine Fahrtanforderung erstellen. Die Fahrtanforderung gibt typischerweise den gewünschten Abholort des Fahrgastes (oder den aktuellen GPS-Standort), den gewünschten Zielort (der einen vordefinierten Fahrzeugstopp und/oder ein benutzerdefiniertes Passagierziel identifizieren kann) und eine Abholzeit an. Das entfernte Transportsystem empfängt die Fahrtanforderung, verarbeitet die Anforderung und sendet ein ausgewähltes der autonomen Fahrzeuge (wenn und sofern verfügbar), um den Passagier an dem vorgesehenen Abholort und zu gegebener Zeit abzuholen. Das entfernte Transportsystem kann zudem eine entsprechend konfigurierte Bestätigungsnachricht oder Benachrichtigung an die Benutzervorrichtung erzeugen und senden, um den Passagier zu benachrichtigen, dass ein Fahrzeug unterwegs ist.
Wie ersichtlich, bietet der hierin offenbarte Gegenstand bestimmte verbesserte Eigenschaften und Funktionen für das, was als ein standardmäßiges oder Basislinien autonomes Fahrzeug und/oder ein autonomes fahrzeugbasiertes Transportsystem betrachtet werden kann. Zu diesem Zweck kann ein autonomes fahrzeugbasiertes Transportsystem modifiziert, erweitert oder anderweitig ergänzt werden, um die nachfolgend näher beschriebenen zusätzlichen Funktionen bereitzustellen.
Gemäß verschiedener Ausführungsformen realisiert eine Steuerung ein autonomes Antriebssystem (ADS). Die Steuerung kann den vorstehend beschriebenen gelernten autonomen Agenten beinhalten. Das heißt, dass geeignete Soft- und/oder Hardwarekomponenten der Steuerung (z. B. ein Prozessor und ein computerlesbares Speichermedium) verwendet werden, um ein autonomes Antriebssystem bereitzustellen, das in Verbindung mit dem Fahrzeug 10 verwendet wird.
Während mindestens eine exemplarische Ausführungsform in der vorstehenden ausführlichen Beschreibung dargestellt wurde, versteht es sich, dass es eine große Anzahl an Varianten gibt. Es versteht sich weiterhin, dass die exemplarische Ausführungsform oder die exemplarischen Ausführungsformen lediglich Beispiele sind und den Umfang, die Anwendbarkeit oder die Konfiguration dieser Offenbarung in keiner Weise einschränken sollen. Die vorstehende ausführliche Beschreibung stellt Fachleuten auf dem Gebiet vielmehr einen zweckmäßigen Plan zur Implementierung der exemplarischen Ausführungsform bzw. der exemplarischen Ausführungsformen zur Verfügung. Es versteht sich, dass verschiedene Veränderungen an der Funktion und der Anordnung von Elementen vorgenommen werden können, ohne vom Umfang der Offenbarung, wie er in den beigefügten Ansprüchen und deren rechtlichen Entsprechungen aufgeführt ist, abzuweichen.

Claims

Computerimplementiertes Verfahren zum Anlernen eines autonomen Fahragenten, wobei das Verfahren die folgenden Schritte umfasst: Extrahieren von Informationen aus Demonstrationen des Fahrverhaltens unter Verwendung eines neuronalen Netzes durch einen Prozessor; Wiederherstellen einer Belohnungskarte aus den extrahierten Informationen durch einen Prozessor; Übertragen der extrahierten Informationen an ein Generatormodul; Übertragen eines realen Umgebungszustands, der mit den Demonstrationen des Fahrverhaltens und der wiederhergestellten Prämienkarte verbunden ist, an ein Diskriminatormodul; Erzeugen, durch einen Prozessor, von Umgebungszustandsinterpretationen aus den extrahierten Informationen unter Verwendung des Generatormoduls; Anlernen, durch einen Prozessor, des Diskriminatormoduls, um besser zu bestimmen, ob die erzeugten Umgebungszustandsinterpretationen dem tatsächlichen Umgebungszustand entsprechen, während das Generatormodul durch einen Prozessor geschult wird, um eine verbesserte Umgebungszustandsinterpretation zu erzeugen, die der Diskriminator entsprechend dem tatsächlichen Umgebungszustand bestimmt.
Verfahren nach Anspruch 1, worin die extrahierten Informationen unter Verwendung eines faltungsneuronalen Netzes extrahiert werden.
Verfahren nach Anspruch 1, worin die Belohnungsfunktion durch tiefes inverses Verstärkungslernen über ein tiefes inverses Verstärkungslernmodul wiederhergestellt wird.
Verfahren nach Anspruch 1, worin das Anlernen des Diskriminatormoduls unter Verwendung einer Verlust- oder Kostengradientenfunktion durchgeführt wird.
Verfahren nach Anspruch 1, worin das Anlernen des Generatormoduls unter Verwendung einer Verlust- oder Kostengradientenfunktion durchgeführt wird.
Verfahren nach Anspruch 1, worin der Sensor eine optische Kamera, ein LIDAR-System und/oder ein RADAR-System umfasst.
System zum Anlernen eines autonomen Fahragenten, wobei das System Folgendes umfasst: ein neuronales Netz, das konfiguriert ist, um Informationen aus Demonstrationen des Fahrverhaltens zu extrahieren; ein tiefes inverses Verstärkungslernmodul, das konfiguriert ist, um eine Prämienkarte aus den extrahierten Informationen wiederherzustellen; ein Generatormodul, das konfiguriert ist, um basierend auf den extrahierten Informationen eine Interpretation des Umgebungszustands zu erzeugen; und ein Diskriminatormodul, das konfiguriert ist, um die wiederhergestellte Prämienkarte zumindest teilweise zu verwenden, um zu ermitteln, ob die Interpretation des erzeugten Umgebungszustands einem realen, dem der extrahierten Information zugeordneten Umgebungszustand entspricht.
System nach Anspruch 7, worin das Diskriminatormodul zur iterativen Verbesserung der Ermittlung, ob die erzeugte Umgebungszustandsinterpretation einem realistischen Umgebungszustand basierend auf einer Verlust- oder Kostenfunktion entspricht, konfiguriert ist.
System nach Anspruch 8, worin das Generatormodul konfiguriert ist, um die Form der erzeugten Umgebungszustandsinterpretation iterativ zu verbessern, sodass das Diskriminatormodul bestimmen würde, dass die erzeugte Umgebungszustandsinterpretation basierend auf einer Verlust- oder Kostenfunktion einem realistischen Umgebungszustand entspricht.
Fahrzeug, umfassend: einen Sensor, der konfiguriert ist, um Informationen in Bezug auf Merkmale des das Fahrzeug umgebenden Umgebungszustands zu erfassen; ein neuronales Netz, das konfiguriert ist, um Informationen aus den Sensorinformationen zu extrahieren; einen angelernten autonomen Fahragenten, der konfiguriert ist, um eine Strategie von Fahraktionen basierend auf den extrahierten Informationen zu bestimmen; und ein angelerntes Generatormodul, das konfiguriert ist, um basierend auf den extrahierten Informationen eine Umgebungszustandsinterpretation zu erzeugen.