DE102019129232A1

DE102019129232A1 - Sprachverarbeitung für ein fahrzeug

Info

Publication number: DE102019129232A1
Application number: DE102019129232.8A
Authority: DE
Inventors: Arpan Kusari
Original assignee: Ford Global Technologies LLC
Current assignee: Ford Global Technologies LLC
Priority date: 2018-11-01
Filing date: 2019-10-29
Publication date: 2020-05-07
Also published as: CN111137301A; US20200142420A1; US10831208B2

Abstract

Die vorliegende Offenbarung stellt Sprachverarbeitung für ein Fahrzeug bereit. Ein Rechensystem kann dazu programmiert sein, eine Fahrzeughandlung auf Grundlage einer Dateneingabe von einem Fahrzeugsensor in ein tiefes neuronales Netz (deep neural network - DNN), das unter Verwendung eines Systems für inverses verstärkendes Lernen (inverse reinforcement learning system - IRL-System) trainiert wurde, das einen Variational Autoencoder (VAE) beinhaltet, zu bestimmen. Das Rechensystem kann ferner dazu programmiert sein, ein Fahrzeug auf Grundlage der Fahrzeughandlung zu betreiben.

Description

TECHNISCHES GEBIET
Die Offenbarung betrifft im Allgemeinen Fahrzeugrechensysteme und insbesondere Sprachverarbeitung für ein Fahrzeug.
ALLGEMEINER STAND DER TECHNIK
Fahrzeuge können dazu ausgestattet sein, sowohl in einem autonomen als auch in einem insassengesteuerten Modus betrieben zu werden. Fahrzeuge können mit Rechenvorrichtungen, Netzen, Sensoren und Steuerungen ausgestattet sein, um Informationen bezüglich der Umgebung des Fahrzeugs zu erfassen und das Fahrzeug auf Grundlage der Informationen zu betreiben. Der sichere und komfortable Betrieb des Fahrzeugs kann vom Erfassen genauer und rechtzeitiger Informationen in Bezug auf die Umgebung des Fahrzeugs abhängig sein. Fahrzeugsensoren können Daten hinsichtlich zu fahrender Routen und zu umfahrender Objekte in der Umgebung des Fahrzeugs bereitstellen. Der sichere und effiziente Betrieb des Fahrzeugs kann vom Erfassen genauer und rechtzeitiger Informationen in Bezug auf Routen und Objekte in der Umgebung eines Fahrzeugs abhängig sein, während das Fahrzeug auf einer Fahrbahn betrieben wird.
KURZDARSTELLUNG
Fahrzeuge können dazu ausgestattet sein, sowohl in einem autonomen als auch in einem insassengesteuerten Modus betrieben zu werden. Mit einem teil- oder vollautonomen Modus ist ein Betriebsmodus gemeint, bei dem ein Fahrzeug teilweise oder gänzlich durch eine Rechenvorrichtung als Teil eines Fahrzeuginformationssystems gesteuert werden kann, das Sensoren und Steuerungen aufweist. Das Fahrzeug kann besetzt oder unbesetzt sein, doch in beiden Fällen kann das Fahrzeug teilweise oder vollständig ohne die Unterstützung eines Insassen gesteuert werden. Für die Zwecke dieser Offenbarung ist ein autonomer Modus als ein Modus definiert, bei dem der Antrieb (z. B. über einen Antriebsstrang, der eine Brennkraftmaschine und/oder einen Elektromotor beinhaltet), die Bremsen und die Lenkung des Fahrzeugs jeweils durch einen oder mehrere Fahrzeugcomputer gesteuert werden; in einem teilautonomen Modus steuert der bzw. steuern die Fahrzeugcomputer eines oder zwei von dem Antrieb, den Bremsen und der Lenkung des Fahrzeugs. In einem nichtautonomen Fahrzeug werden keine davon durch einen Computer gesteuert.
Eine Rechenvorrichtung in einem Fahrzeug kann dazu programmiert sein, Daten in Bezug auf die äußere Umgebung eines Fahrzeugs zu erfassen und die Daten zu verwenden, um eine Fahrzeugtrajektorie zu bestimmen, die verwendet werden soll, um ein Fahrzeug in einem autonomen oder teilautonomen Modus zu betreiben. Zum Beispiel kann die Rechenvorrichtung Steuerungen (z. B. elektronischen Steuereinheiten oder ECUs) Informationen zum Betreiben des Fahrzeugs auf einer Fahrbahn in Verkehr bereitstellen, die Orte von Objekten einschließlich anderer Fahrzeuge und Fußgänger beinhalten. Auf Grundlage von Sensordaten kann eine Rechenvorrichtung ein von einem Fahrzeug zu fahrendes Wegpolynom bestimmen, um ein Ziel auf einer Fahrbahn in Gegenwart anderer Fahrzeuge und Fußgänger zu erreichen, wobei ein Wegpolynom eine Polynomfunktion ist, die eine gerade oder gekrümmte Linie beschreibt, die aufeinanderfolgende Orte eines Fahrzeugs verbindet, wenn es sich von einem ersten Ort auf einer Fahrbahn zu einem zweiten Ort auf einer Fahrbahn bewegt. Eine Rechenvorrichtung kann auf Grundlage eines Wegpolynoms Fahrzeugtrajektorien bestimmen, die verwendet werden können, um ein Fahrzeug auf einer Fahrbahn zu betreiben. Hierin wird eine Technik zum Bestimmen des Verhaltens eines Fahrzeugs (die Reward-Funktion) auf Grundlage einer Dateneingabe von einem Fahrzeugsensor in einen Variational Autoencoder (VAE) beschrieben. Die Reward-Funktion wird dann verwendet, um die rekonstruierte Strategie unter Verwendung eines Strategienetzes, das als tiefes neuronales Netz definiert ist, zu erhalten.
Hierin offenbart ist ein Verfahren, beinhaltend Bestimmen einer Fahrzeughandlung auf Grundlage einer Dateneingabe von einem Fahrzeugsensor in ein tiefes neuronales Netz (deep neural network - DNN), das unter Verwendung eines Systems für inverses verstärkendes Lernen (inverse reinforcement learning system - IRL-System) trainiert wurde, das einen Variational Autoencoder (VAE) beinhaltet, und Betreiben eines Fahrzeugs auf Grundlage der Fahrzeughandlung. Das DNN kann unter Verwendung des VAE trainiert werden, um eine rekonstruierte Strategie zu erzeugen. Die rekonstruierte Strategie kann auf einem Fahrzeugzustand und einer latenten Reward-Funktion basieren. Ein Adversarial-Diskriminator-Netz kann zwischen der rekonstruierten Strategie und einer Expertenstrategie unterscheiden. Die Expertenstrategie kann darauf basieren, dass das Fahrzeug N Trajektorien aufweist. Die rekonstruierte Strategie kann verwendet werden, um die Expertenstrategie und die latente Reward-Funktion wiederherzustellen. Die Fahrzeugsensordaten können Entfernungen und relative Geschwindigkeiten von benachbarten Fahrzeugen auf der linken, rechten und derselben Spur beinhalten.
Die Fahrzeughandlung kann drei Arten einer Geschwindigkeitsänderung des Fahrzeugs beinhalten, einschließlich mehr Geschwindigkeit, weniger Geschwindigkeit und keiner Änderung. Die Fahrzeughandlung kann drei Arten einer lateralen Positionsänderung des Fahrzeugs beinhalten, einschließlich Spurwechselmanöver nach links, derselben Spur und Spurwechselmanöver nach rechts. Der VAE kann einen Strategieverarbeitungsblock beinhalten, der eine rekonstruierte Handlung auf Grundlage eines Rewards und eines Expertenzustands bestimmt. Der VAE kann einen Diskriminator-Verarbeitungsblock beinhalten, der einen verarbeiteten Reward auf Grundlage der rekonstruierten Handlung und einer Expertenhandlung bestimmt, der auf einer Ähnlichkeit zwischen der rekonstruierten Handlung und der Expertenhandlung basiert. Das DNN aktualisiert latente Recheninformationen auf Grundlage des verarbeiteten Rewards. Ein Wegpolynom kann auf Grundlage der Fahrzeughandlung bestimmt werden. Das Betreiben des Fahrzeugs kann Anweisen von Fahrzeugantriebsstrang-, Brems- und Lenkkomponenten auf Grundlage des Wegpolynoms beinhalten.
Ferner offenbart ist ein computerlesbares Medium, auf dem Programmanweisungen zum Ausführen einiger oder aller der vorstehenden Verfahrensschritte gespeichert sind. Ferner offenbart ist ein Computer, der zum Ausführen einiger oder aller der vorstehenden Verfahrensschritte programmiert ist, beinhaltend eine Computervorrichtung, die dazu programmiert ist, eine Fahrzeughandlung auf Grundlage einer Dateneingabe von einem Sensor in ein tiefes neuronales Netz (deep neural network - DNN), das unter Verwendung eines Systems für inverses verstärkendes Lernen (inverse reinforcement learning system - IRL-System) trainiert wurde, das einen Variational Autoencoder (VAE) beinhaltet, zu bestimmen und ein Fahrzeug auf Grundlage der Fahrzeughandlung zu betreiben. Das DNN kann unter Verwendung des VAE trainiert werden, um eine rekonstruierte Strategie zu erzeugen. Die rekonstruierte Strategie kann auf einem Fahrzeugzustand und einer latenten Reward-Funktion basieren. Ein Adversarial-Diskriminator-Netz kann zwischen der rekonstruierten Strategie und einer Expertenstrategie unterscheiden. Die Expertenstrategie kann darauf basieren, dass das Fahrzeug N Trajektorien aufweist. Die rekonstruierte Strategie kann verwendet werden, um die Expertenstrategie und die latente Reward-Funktion wiederherzustellen. Die Fahrzeugsensordaten können Entfernungen und relative Geschwindigkeiten von benachbarten Fahrzeugen auf der linken, rechten und derselben Spur beinhalten.
Die Computervorrichtung kann ferner drei Arten einer Geschwindigkeitsänderung des Fahrzeugs bei der Fahrzeughandlung beinhalten, einschließlich mehr Geschwindigkeit, weniger Geschwindigkeit und keiner Änderung. Die Fahrzeughandlung kann drei Arten einer lateralen Positionsänderung des Fahrzeugs beinhalten, einschließlich Spurwechselmanöver nach links, derselben Spur und Spurwechselmanöver nach rechts. Der VAE kann einen Strategieverarbeitungsblock beinhalten, der eine rekonstruierte Handlung auf Grundlage eines Rewards und eines Expertenzustands bestimmt. Der VAE kann einen Diskriminator-Verarbeitungsblock beinhalten, der einen verarbeiteten Reward auf Grundlage der rekonstruierten Handlung und einer Expertenhandlung bestimmt, der auf einer Ähnlichkeit zwischen der rekonstruierten Handlung und der Expertenhandlung basiert. Das DNN aktualisiert latente Recheninformationen auf Grundlage des verarbeiteten Rewards. Ein Wegpolynom kann auf Grundlage der Fahrzeughandlung bestimmt werden. Das Betreiben des Fahrzeugs kann Anweisen von Fahrzeugantriebsstrang-, Brems- und Lenkkomponenten auf Grundlage des Wegpolynoms beinhalten.
Figurenliste

1 ist ein Blockdiagramm eines beispielhaften Verkehrsinfrastruktursystems.
2 ist ein Diagramm einer beispielhaften Verkehrsszene.
3 ist ein Diagramm eines beispielhaften Systems für inverses verstärkendes Lernen (inverse reinforcement learning system - IRL-System).
4 ist ein Ablaufdiagramm eines beispielhaften Prozesses zum Betreiben eines Fahrzeugs auf Grundlage einer Fahrzeugtrajektorie.

DETAILLIERTE BESCHREIBUNG
1 ist eine Darstellung eines Verkehrsinfrastruktursystems 100, das ein Fahrzeug 110 beinhaltet, das in einem autonomen („autonom“ bedeutet in dieser Offenbarung alleinstehend „vollautonom“) und einem von einem Insassen gesteuerten (auch als nichtautonom bezeichneten) Modus betrieben werden kann. Das Fahrzeug 110 beinhaltet zudem eine oder mehrere Rechenvorrichtungen 115 zum Durchführen von Berechnungen zum Steuern des Fahrzeugs 110 während des autonomen Betriebs. Die Rechenvorrichtungen 115 können von den Sensoren 116 Informationen in Bezug auf den Betrieb des Fahrzeugs empfangen. Die Rechenvorrichtung 115 kann das Fahrzeug 110 in einem autonomen Modus, einem teilautonomen Modus oder einem nichtautonomen Modus betreiben. Für die Zwecke dieser Offenbarung ist ein autonomer Modus als ein Modus definiert, bei dem der Antrieb, die Bremsen und die Lenkung des Fahrzeugs 110 jeweils durch die Rechenvorrichtung gesteuert werden; in einem teilautonomen Modus steuert die Rechenvorrichtung 115 eines oder zwei von dem Antrieb, den Bremsen Bremsung und der Lenkung des Fahrzeugs 110; in einem nichtautonomen Modus steuert ein menschlicher Fahrzeugführer den Antrieb, die Bremsen und die Lenkung des Fahrzeugs.
Die Rechenvorrichtung 115 beinhaltet einen Prozessor und einen Speicher, wie sie bekannt sind. Ferner beinhaltet der Speicher eine oder mehrere Formen von computerlesbaren Medien und speichert Anweisungen, die durch den Prozessor ausführbar sind, um verschiedene Vorgänge durchzuführen, einschließlich solcher, die hierin offenbart sind. Zum Beispiel kann die Rechenvorrichtung 115 Programmierung beinhalten, um eines oder mehrere von Bremsen, Antrieb (z. B. Steuerung der Beschleunigung in dem Fahrzeug 110 durch Steuern von einem oder mehreren von einer Brennkraftmaschine, einem Elektromotor, einem Hybridmotor usw.), Lenkung, Klimasteuerung, Innen- und/oder Außenleuchten usw. des Fahrzeugs zu betreiben sowie um zu bestimmen, ob und wann die Rechenvorrichtung 115 im Gegensatz zu einem menschlichen Fahrzeugführer derartige Vorgänge steuern soll.
Die Rechenvorrichtung 115 kann mehr als eine Rechenvorrichtung beinhalten oder z. B. über einen Fahrzeugkommunikationsbus, wie weiter unten beschrieben, kommunikativ an diese gekoppelt sein, z. B. Steuerungen oder dergleichen, die zum Überwachen und/oder Steuern verschiedener Fahrzeugkomponenten in dem Fahrzeug 110 enthalten sind, z.B. eine Antriebsstrangsteuerung 112, eine Bremssteuerung 113, eine Lenksteuerung 114 usw. Die Rechenvorrichtung 115 ist im Allgemeinen zur Kommunikation in einem Fahrzeugkommunikationsnetz angeordnet, das z. B. einen Bus in dem Fahrzeug 110 beinhaltet, wie etwa einem Controller Area Network (CAN) oder dergleichen; das Netz des Fahrzeugs 110 kann zusätzlich oder alternativ drahtgebundene oder drahtlose Kommunikationsmechanismen beinhalten, wie sie bekannt sind, z. B. Ethernet oder andere Kommunikationsprotokolle.
Über das Fahrzeugnetz kann die Rechenvorrichtung 115 Nachrichten an verschiedene Vorrichtungen in dem Fahrzeug übertragen und/oder Nachrichten von den verschiedenen Vorrichtungen empfangen, z. B. Steuerungen, Aktoren, Sensoren usw. einschließlich der Sensoren 116. Alternativ oder zusätzlich kann in Fällen, in denen die Rechenvorrichtung 115 tatsächlich mehrere Vorrichtungen umfasst, das Fahrzeugkommunikationsnetz zur Kommunikation zwischen Vorrichtungen verwendet werden, die in dieser Offenbarung als die Rechenvorrichtung 115 dargestellt sind. Ferner können, wie nachstehend erwähnt, verschiedene Steuerungen oder Sensorelemente wie etwa die Sensoren 116 der Rechenvorrichtung 115 über das Fahrzeugkommunikationsnetz Daten bereitstellen.
Zusätzlich kann die Rechenvorrichtung 115 zum Kommunizieren über eine Fahrzeug-Infrastruktur-Schnittstelle (F-I-Schnittstelle) 111 mit einem entfernten Servercomputer 120, z. B. einem Cloud-Server, über ein Netz 130 ausgelegt sein, das, wie nachstehend beschrieben, Hardware, Firmware und Software beinhaltet, die ermöglichen, dass die Rechenvorrichtung 115 über ein Netz 130 wie etwa drahtloses Internet (WLAN) oder Mobilfunknetze mit einem entfernten Servercomputer 120 kommuniziert. Die F-I-Schnittstelle 111 kann dementsprechend Prozessoren, Speicher, Sender/Empfänger usw. beinhalten, die dazu ausgelegt sind, verschiedene drahtgebundene und/oder drahtlose Netztechnologien zu verwenden, z. B. Mobilfunk, BLUETOOTH® und drahtgebundene und/oder drahtlose Paketnetze. Die Rechenvorrichtung 115 kann zum Kommunizieren mit anderen Fahrzeugen 110 über die F-I-Schnittstelle 111 unter Verwendung von Fahrzeug-Fahrzeug-(F-F-)Netzen z. B. gemäß dedizierter Nahbereichskommunikation (Dedicated Short Range Communications - DSRC) und/oder dergleichen ausgelegt sein, die z. B. ad hoc zwischen Fahrzeugen 110 in der Nähe gebildet werden oder über infrastrukturbasierte Netze gebildet werden. Die Rechenvorrichtung 115 beinhaltet zudem nichtflüchtigen Speicher, wie bekannt ist. Die Rechenvorrichtung 115 kann Informationen protokollieren, indem sie die Informationen zum späteren Abrufen und Übertragen über das Fahrzeugkommunikationsnetz und eine Fahrzeug-Infrastruktur-(F-I-)Schnittstelle 111 an einen Servercomputer 120 oder eine mobile Benutzervorrichtung 160 in nichtflüchtigem Speicher speichert.
Wie bereits erwähnt, ist in Anweisungen, die in dem Speicher gespeichert sind und durch den Prozessor der Rechenvorrichtung 115 ausgeführt werden können, im Allgemeinen Programmierung zum Betreiben einer oder mehrerer Komponenten des Fahrzeugs 110, z. B. Bremsen, Lenkung, Antrieb usw., ohne Eingriff eines menschlichen Fahrzeugführers enthalten. Unter Verwendung von in der Rechenvorrichtung 115 empfangenen Daten, z. B. der Sensordaten von den Sensoren 116, dem Servercomputer 120 usw., kann die Rechenvorrichtung 115 ohne einen Fahrer zum Betreiben des Fahrzeugs 110 verschiedene Bestimmungen vornehmen und/oder verschiedene Komponenten und/oder Vorgänge des Fahrzeugs 110 steuern. Zum Beispiel kann die Rechenvorrichtung 115 Programmierung beinhalten, um Betriebsverhalten des Fahrzeugs 110 (d.h. physische Manifestationen des Betriebs des Fahrzeugs 110) wie etwa Geschwindigkeit, Beschleunigung, Verzögerung, Lenkung usw. sowie taktisches Verhalten (d. h. Steuerung des Betriebsverhaltens typischerweise auf eine Weise, mit der eine sichere und effiziente Zurücklegung einer Route erreicht werden soll) wie etwa einen Abstand zwischen Fahrzeugen und/oder eine Zeitspanne zwischen Fahrzeugen, einen Spurwechsel, einen Mindestabstand zwischen Fahrzeugen, einen minimalen Linksabbiegeweg, eine Zeit bis zur Ankunft an einem bestimmten Ort und eine minimale Zeit bis zur Ankunft an einer Kreuzung (ohne Ampel) zum Überqueren der Kreuzung zu regulieren.
Steuerungen beinhalten im hierin verwendeten Sinne des Ausdrucks Rechenvorrichtungen, die typischerweise zum Steuern eines konkreten Fahrzeugteilsystems programmiert sind. Beispiele beinhalten eine Antriebsstrangsteuerung 112, eine Bremssteuerung 113 und eine Lenksteuerung 114. Eine Steuerung kann eine elektronische Steuereinheit (electronic control unit - ECU) sein, wie bekannt ist, die möglicherweise zusätzliche Programmierung beinhaltet, wie hierin beschrieben. Die Steuerungen können kommunikativ mit der Rechenvorrichtung 115 verbunden sein und Anweisungen von dieser empfangen, um das Teilsystem gemäß den Anweisungen zu betätigen. Zum Beispiel kann die Bremssteuerung 113 Anweisungen zum Betreiben der Bremsen des Fahrzeugs 110 von der Rechenvorrichtung 115 empfangen.
Die eine oder mehreren Steuerungen 112, 113, 114 für das Fahrzeug 110 können bekannte elektronische Steuereinheiten (ECUs) oder dergleichen beinhalten, zu denen als nicht einschränkende Beispiele eine oder mehrere Antriebsstrangsteuerungen 112, eine oder mehrere Bremssteuerungen 113 und eine oder mehrere Lenksteuerungen 114 gehören. Jede der Steuerungen 112, 113, 114 kann entsprechende Prozessoren und Speicher und einen oder mehrere Aktoren beinhalten. Die Steuerungen 112, 113, 114 können mit einem Kommunikationsbus des Fahrzeugs 110 programmiert und verbunden sein, wie etwa einem Controller-Area-Network-(CAN-)Bus oder Local-Interconnect-Network-(LIN-)Bus, um Anweisungen von dem Computer 115 zu empfangen und Aktoren auf Grundlage der Anweisungen zu steuern.
Zu den Sensoren 116 können vielfältige Vorrichtungen gehören, die bekanntlich Daten über den Fahrzeugkommunikationsbus bereitstellen. Zum Beispiel kann ein Radar, das an einer Frontstoßstange (nicht gezeigt) des Fahrzeugs 110 befestigt ist, einen Abstand von dem Fahrzeug 110 zu einem nächsten Fahrzeug vor dem Fahrzeug 110 bereitstellen oder ein Sensor eines globalen Positionsbestimmungssystems (GPS), der in dem Fahrzeug 110 angeordnet ist, geografische Koordinaten des Fahrzeugs 110 bereitstellen. Der bzw. die durch das Radar und/oder die anderen Sensoren 116 bereitgestellte(n) Abstand bzw. Abstände und/oder die durch den GPS-Sensor bereitgestellten geografischen Koordinaten können durch die Rechenvorrichtung 115 verwendet werden, um das Fahrzeug 110 autonom oder teilautonom zu betreiben.
Das Fahrzeug 110 ist im Allgemeinen ein landbasiertes Fahrzeug 110, das zu einem autonomen und/oder teilautonomen Betrieb in der Lage ist und drei oder mehr Räder aufweist, z. B. ein Personenkraftwagen, ein Leichtlastkraftwagen usw. Das Fahrzeug 110 beinhaltet einen oder mehrere Sensoren 116, die F-I-Schnittstelle 111, die Rechenvorrichtung 115 und eine oder mehrere Steuerungen 112, 113, 114. Die Sensoren 116 können Daten in Bezug auf das Fahrzeug 110 und die Umgebung, in der das Fahrzeug 110 betrieben wird, erfassen. Beispielsweise und nicht einschränkend können zu den Sensoren 116 z. B. Höhenmesser, Kameras, LIDAR, Radar, Ultraschallsensoren, Infrarotsensoren, Drucksensoren, Beschleunigungsmesser, Gyroskope, Temperatursensoren, Drucksensoren, Hall-Sensoren, optische Sensoren, Spannungssensoren, Stromsensoren, mechanische Sensoren wie etwa Schalter usw. gehören. Die Sensoren 116 können verwendet werden, um die Umgebung zu erfassen, in der das Fahrzeug 110 betrieben wird, z. B. können die Sensoren 116 Phänomene wie etwa Wetterbedingungen (Niederschlag, externe Umgebungstemperatur usw.), die Neigung einer Straße, die Lage einer Straße (z. B. unter Verwendung von Straßenrändern, Spurmarkierungen usw.) oder Standorte von Zielobjekten wie etwa benachbarten Fahrzeugen 110 detektieren. Die Sensoren 116 können ferner verwendet werden, um Daten zu erfassen, zu denen dynamische Daten des Fahrzeugs 110 in Bezug auf Vorgänge des Fahrzeugs 110 wie etwa Geschwindigkeit, Gierrate, Lenkwinkel, Motordrehzahl, Bremsdruck, Öldruck, der an die Steuerungen 112, 113, 114 in dem Fahrzeug 110 angelegte Leistungspegel, Konnektivität zwischen Komponenten und genaue und rechtzeitige Leistung von Komponenten des Fahrzeugs 110 gehören.
2 ist eine Darstellung einer beispielhaften Verkehrsszene 200, die ein Fahrzeug 110 beinhaltet, das auf einer Fahrbahn 202 in einer Spur 204 betrieben wird. Der Betrieb des Fahrzeugs 110 auf einer Fahrbahn 202 kann durch die Wegpolynome 212, 214, 216, die hierin gemeinsam und individuell mit dem Bezugszeichen 218 bezeichnet sind, dargestellt werden. Ein Wegpolynom 218 ist eine Polynomfunktion dritten Grades oder weniger, die auf einem Fahrzeugvektor berechnet wird, der 3D-(dreidimensionale) Fahrzeugtrajektoriedaten beinhalten kann, wobei eine Fahrzeugtrajektorie ein Vektor ist, der eine Fahrzeug-3D-Stellung und eine Fahrzeug-3D-Beschleunigung beinhaltet, wobei die 3D-Stellung x-, y- und z-Raumkoordinaten und Roll-, Nick- und Gier-Drehkoordinaten in Bezug auf ein Koordinatensystem, wie etwa Breite, Länge und Höhe, beinhaltet und die 3D-Beschleunigung Beschleunigungen in linearen x-, y- und z-Richtungen und Roll-, Nick- und Gier-Drehrichtungen beinhaltet. Zu Berechnungszwecken können 3D-Fahrzeugtrajektoriedaten als 2D-(zweidimensionaler) Ort in einer Ebene parallel zu einer Fahrbahn, 2D-Richtung in der Ebene, Geschwindigkeit in 2D-Richtung und Quer- und Längsbeschleunigung in Bezug auf die 2D-Richtung eines Fahrzeugs 110 ausgedrückt werden, alle in Bezug auf die Bewegung eines Fahrzeugs. Die Rechenvorrichtung 115 in dem Fahrzeug 110 kann ein Wegpolynom 218 durch Schätzen zukünftiger Trajektorien für das Fahrzeug 110 bestimmen.
Die zukünftigen Trajektoriedaten können auf Grundlage eines bestimmten Zielorts oder Orts eines Ziels in der Verkehrsszene 200 geschätzt werden und dann auf Grundlage dessen, dass eine Abfolge von Orten bestimmt wird, die den Zielort oder das Ziel mit einer Sollgeschwindigkeit erreichen, während die Querbeschleunigung (Gierrate) und Längsbeschleunigung (x) aufgrund von Lenkung, Bremsen und Antriebsstrang auf Benutzereingabegrenzen begrenzt werden. Obere und untere Grenzen für die Quer- und Längsbeschleunigung können auf Benutzereingabegrenzen basieren. Die Rechenvorrichtung 115 kann dann das Wegpolynom verwenden, um Anweisungen für die Steuerungen 112, 113, 114 zu bestimmen, um zu bewirken, dass der Antriebsstrang, die Lenkung und die Bremsen des Fahrzeugs auf Grundlage eines mathematischen Modells des Fahrzeugs 110 betrieben werden. Ein mathematisches Modell des Fahrzeugs 110 ist ein Computerprogramm, das auf einer Rechenvorrichtung 115 ausgeführt wird und ein Verhalten des Fahrzeugs 110 in der realen Welt als Reaktion auf Antriebsstrang-, Lenkungs- und Bremsanweisungen vorhersagen kann. Ein mathematisches Modell des Fahrzeugs 110 kann durch Aufzeichnen einer Vielzahl von Steuerungsanweisungen und den Steuerungsanweisungen entsprechenden Trajektorien des Fahrzeugs 110 und Bestimmen mathematischer Beziehungen zwischen Trajektorien des Fahrzeugs 110 und Steueranweisungen empirisch bestimmt werden. Die Rechenvorrichtung 115 kann dann ein empirisch bestimmtes mathematisches Modell des Fahrzeugs 110 verwenden, um Steuerungsanweisungen zu bestimmen, die bewirken, dass sich das Fahrzeug 110 gemäß Trajektorien im Raum bewegt, die dazu führen, dass das Fahrzeug 110 entlang des Wegpolynoms 218 betrieben wird.
In der beispielhaften Verkehrsszene 200 sind andere Fahrzeuge 210, 220, 222 enthalten, die hierin gemeinsam und individuell mit dem Bezugszeichen 224 bezeichnet sind und auf einer Fahrbahn 202 betrieben werden. Das Fahrzeug 110 kann auf einer Fahrbahn 202 gemäß Fahrzeugbefehlen fahren, bei denen es sich um Anweisungen handelt, die den Betrieb eines Fahrzeugs 110 beschreiben, die von der Rechenvorrichtung 115 verwendet werden können, um ein Wegpolynom 218 zu bestimmen, mit dem ein Fahrzeug 110 betrieben werden soll. Eine Rechenvorrichtung 115 kann einen Fahrzeugbefehl ausführen, der ein Fahrzeug 110 anweist, zum Beispiel eine Zielgeschwindigkeit in einer Spur 204, 206, 208 auf einer Fahrbahn 202 beizubehalten. In der beispielhaften Verkehrsszene 200 kann ein erstes oder Hostfahrzeug 110 mit einer höheren Geschwindigkeit als ein zweites Fahrzeug 210 auf derselben Spur 204 fahren. Wenn das Fahrzeug 110 seine Geschwindigkeit und/oder Richtung nicht ändert, kann es zu einer Kollision oder Beinahekollision mit einem anderen Fahrzeug 210 kommen. In dem Beispiel in der Verkehrsszene 200 kann das Fahrzeug 110 sich entweder verlangsamen, um sich der Geschwindigkeit eines anderen Fahrzeugs 210 anzugleichen, was durch das Wegpolynom 214 veranschaulicht ist, oder einen Spurwechsel nach links oder rechts oder ein Überholmanöver durchführen, was durch die Wegpolynome 212, 216 veranschaulicht ist.
Die Rechenvorrichtung 115 kann ein tiefes neuronales Netz (deep neural network - DNN) verwenden, um zum Beispiel zu bestimmen, wie auf eine durch die Verkehrsszene 200 veranschaulichte Verkehrssituation reagiert werden soll. Auf Grundlage einer Dateneingaben von einem Fahrzeugsensor 116 kann ein DNN Fahrzeugbefehle ausgeben, die die Rechenvorrichtung 115 verwenden kann, um die Geschwindigkeit und den Ort des Fahrzeugs gemäß einem Fahrplan zu ändern. Die Daten von dem Fahrzeugsensor 116 können zum Beispiel Videosensordaten, Lidarsensordaten und Radarsensordaten beinhalten. Die Daten von dem Fahrzeugsensor 116 können Daten von dem Fahrzeugsensor 116 beinhalten, die von der Rechenvorrichtung 115 verarbeitet werden, um zum Beispiel Objekte, einschließlich anderer Fahrzeuge und Fußgänger, zu bestimmen. Die Rechenvorrichtung kann die Daten von dem Fahrzeugsensor 116 verarbeiten, um Entfernungen, Richtungen und relative Geschwindigkeiten in Bezug auf Objekte in einer Umgebung um, d h. innerhalb einer Reichweite der Sensoren 116, ein Fahrzeug 110 zu bestimmen, während das Fahrzeug 110 auf einer Fahrbahn 202 fährt.
Die Rechenvorrichtung 115 kann bestimmen, wie auf eine Verkehrssituation reagiert werden soll, indem sie einen Fahrzeugzustand auf Grundlage von Daten von dem Fahrzeugsensor 116 in ein DNN eingibt, wobei das DNN dazu programmiert ist, eine Fahrzeughandlung als Reaktion auf den Fahrzeugzustand auszugeben. Die Daten von dem Fahrzeugsensor können zum Beispiel die Entfernungen und relativen Geschwindigkeiten anderer Fahrzeuge 224 in den Spuren 204, 206, 208 einer Fahrbahn 202 beinhalten. Das DNN kann einen Fahrzeugzustand eingeben und eine Fahrzeughandlung ausgeben, die von einer Rechenvorrichtung 115 verwendet werden kann, um das Fahrzeug 110 zu betreiben. Unter Verwendung der hierin erörterten Techniken wird der Betrieb des Fahrzeugs 110 dadurch verbessert, dass die Rechenvorrichtung 115 eine Reaktion auf eine Verkehrsszene 200 auf Grundlage von Daten von einem Fahrzeugsensor unter Verwendung eines tiefen neuronalen Netzes (deep neural network - DNN), das mit einem System für inverses verstärkendes Lernen (inverse reinforcement learning system - IRL-System) trainiert wurde, das einen Variational Autoencoder (VAE) beinhaltet, bestimmt.
Ein DNN, das dazu trainiert ist, eine Fahrzeughandlung auf Grundlage eines eingegebenen Fahrzeugzustands auszugeben, ist ein Expertensystem, das einen Markov-Entscheidungsprozess (Markov Decision Process - MDP) ausführt, wobei eine Fahrzeugzustandsübergangswahrscheinlichkeit p(s_t+1|s_t, a_t) einen nächsten Fahrzeugzustand s_t+1 auf Grundlage eines aktuellen Zustands s_t und einer aktuellen Fahrzeughandlung a_t kennzeichnet. Bei Empfang eines aktuellen Fahrzeugzustands s_t gibt das DNN eine Fahrzeughandlung a_t aus. Das Trainieren eines DNN basiert auf einem skalaren Reward r_t, und einem neuen Fahrzeugzustand s_t+1, der auf Grundlage empirischer oder simulierter Daten aus der Umgebung bestimmt wird. Um einen skalaren Reward zu bestimmen, kann eine kumulative diskontierte Summe von Rewards oder die Wertfunktion v^t maximiert werden: $v^{t} = \sum_{k = 0}^{\infty} γ^{k} r_{t + k}$
wobei 0 ≤ γ ≤ 1 ein diskontierter Faktor ist und r_t ein Reward zu einem Zeitpunkt t ist.
Die DNN-Ausgabe kann auf Grund unbekannter, unvollständiger, fehlender oder fehlerhafter Daten unterbestimmt sein. Eine kumulative Reward-Funktion v^t für ein Fahrzeug 110 kann dadurch unlösbar sein, dass sie auf unbekannten oder unvollständig bekannten Daten basiert. Zum Beispiel kann eine kumulative Reward-Funktion v^t auf vorhergesagten zukünftigen Handlungen anderer Fahrzeuge 224 oder anderen Ereignissen basieren, die zu dem Zeitpunkt, zu dem der kumulative Reward berechnet wird, unbekannt sind. Auf Grund von derartigen Unbekannten können die Gleichungen, die verwendet werden, um eine Reward-Funktion zu berechnen, unterbestimmt sein. Unterbestimmte Gleichungen haben mehr unbekannte Ergebnisse als bekannte Eingaben und können daher mit mehr als einer Lösung und in einigen Beispielen mit einer unendlichen Anzahl von Lösungen korrekt gelöst werden. Spezielle Techniken können verwendet werden, um unterbestimmte Funktionen zu berechnen. Zum Beispiel können Markov-Chain-Monte-Carlo-(MCMC-)Techniken den Lösungsraum zufällig abtasten und eine Optimierung von Reward-Funktionsberechnungen ermöglichen, um unterbestimmte Gleichungen zu überwinden. MCMC-Techniken können a-priori-Informationen in Bezug auf den Markov-Prozess erfordern, um Parameter für ein lineares Programmiermodell auszuwählen, das dem MCMC-Prozess ermöglicht, zu konvergieren.
Die hierin beschriebenen Techniken können das DNN-Training verbessern, um dem DNN zu ermöglichen, unterbestimmte Gleichungen zu lösen, ohne a-priori-Informationen zu erfordern, durch Bestimmen einer Reward-Funktion unter Verwendung eines annähernden Inferenzmodells eines neuronalen Netzes, das als Variational Autoencoder (VAE) bekannt ist. Ein VAE beinhaltet ein Strategieoptimierungsnetz, um eine rekonstruierte Strategie aus einem Fahrzeugzustand durch Kombinieren einer latenten Reward-Funktion auf Grundlage einer Expertenstrategie aus vorheriger Erfahrung zu erzeugen, und ein Adversarial-Diskriminator-Netz, um zwischen der rekonstruierten Strategie und der Expertenstrategie zu unterscheiden. Variational Autoencoder lösen das Problem unterbestimmter Gleichungen durch Erzeugen einer Vielzahl von rekonstruierten Strategien, die über den Lösungsraum rekonstruierter Strategien verteilt sind, und Bestimmen, welche rekonstruierten Strategien von der Vielzahl von rekonstruierten Strategien mit den Expertenstrategien übereinstimmen. Hierin beschriebene Techniken verwenden einen Adversarial-Prozess, der ein Diskriminator-Netz beinhaltet, um zu bestimmen, ob eine durch ein neuronales Netz erzeugte Strategie eine Expertenstrategie ist. Unter Verwendung eines Adversarial-Prozesses kann ein neuronales Netz trainiert werden, um rekonstruierte Strategien zu erzeugen, die im Allgemeinen von Expertenstrategien nicht zu unterscheiden sind.
3 ist ein Diagramm eines beispielhaften Systems für inverses verstärkendes Lernen (inverse reinforcement learning system - IRL-System) 300. Das IRL-System 300 ist ein Expertensystem, das dazu ausgelegt ist, nichtlineares Bayessches inverses verstärkendes Lernen durchzuführen. Ein Expertensystem ist ein Maschinenintelligenzsystem, das zum Beispiel Zustandsinformationen in Bezug auf eine Umgebung um ein Fahrzeug eingeben, und auf Grundlage eine latenten internen Zustands eine Fahrzeughandlung ausgeben kann. Das IRL-System 300 beinhaltet einen Encoder-Verarbeitungsblock 306 eines neuronalen Netzes. Der Encoder-Verarbeitungsblock 306 des neuronalen Netzes ist ein probabilistischer Encoder. Da die wahre Reward-Funktion unlösbar ist, kann von der annähernden Reward-Funktion angenommen werden, dass sie eine multivariate Gaußsche Verteilung mit einer diagonalen Kovarianzstruktur wie folgt aufweist: $log (q_{ϕ} (z | x_{i})) = log (N (z; μ_{i}, σ_{i}^{2} I))$
wobei q_ϕ(z|x_i) eine Annäherung von p(z,x) ist, die gemeinsame Wahrscheinlichkeitsdichte, die den Beobachtungen x = x_1:n und den latenten Variablen $z = z_{1 : m .} p (z) = N (z; μ_{i}, σ_{i}^{2} I)$
entspricht, eine multivariate Gaußsche Wahrscheinlichkeitsdichteverteilung für die latente Variable z mit Mittelwert µ, und Varianz σ² ist, definiert über einem Satz unlösbarer Reward-Funktionen I.
Der Encoder-Verarbeitungsblock 306 kann einen Expertenzustand 302 eingeben, der Informationen zu Entfernungen, Richtungen und relativen Geschwindigkeiten zu anderen Fahrzeugen 224 beinhaltet, und eine Expertenhandlung 304 eingeben, die eine Fahrzeugtrajektorie beinhaltet, und den eingegebenen Expertenzustand 302 und die eingegebene Expertenhandlung 304 verwenden, um den Encoder-Verarbeitungsblock 306 durch Vergeben eines Rewards an den Encoder-Verarbeitungsblock 306 für das Berechnen der Expertenhandlung 304 auf Grundlage des Expertenzustands 302 zu trainieren. Der Expertenzustand 302 kann auf Grundlage von Daten von einem Fahrzeugsensor in Bezug auf eine Umgebung um ein Fahrzeug, einschließlich Entfernungen, Richtungen und relativer Geschwindigkeiten zu anderen Fahrzeugen 224, bestimmt werden. Die Expertenhandlung 304 kann ein Fahrzeugbefehl sein, der auf Grundlage von empirischen Daten in Bezug auf Fahrzeugbefehle in der realen Welt, die durch eine Rechenvorrichtung 115 als Reaktion auf eine Expertenhandlung 304, die durch eine Rechenvorrichtung 115 aufgezeichnet wird, ausgeführt werden, bestimmt wird. Die Rechenvorrichtung 115 kann außerdem Informationen in Bezug auf kumulative Reward-Funktionen v^t, die den Expertenzuständen 302 und den Expertenhandlungen 304 entsprechen, wie in Gleichung (1) definiert, bestimmen. Die Informationen in Bezug auf kumulative Reward-Funktionen v^t können in dem vorherigen Verarbeitungsblock 310 als Wahrscheinlichkeitsdichteverteilungen gespeichert werden.
Fahrzeugzustände und Fahrzeughandlungen können für eine Vielzahl von Fahrzeugen 110 in einer Vielzahl von Verkehrsszenen 200 zusammen mit Informationen in Bezug auf Wahrscheinlichkeitsverteilungen kumulativer Rewards, die den Fahrzeugzuständen und Fahrzeughandlungen entsprechen, aufgezeichnet werden. Informationen in Bezug auf Wahrscheinlichkeitsverteilungen für Rewards, die Ergebnissen von Fahrzeughandlungen entsprechen, können erfasst und verarbeitet werden, um Expertenwahrscheinlichkeitsverteilungen kumulativer Rewards, die einem Expertenzustand 302 und einer Expertenhandlung 304 entsprechen, zu bilden. Eine Anzahl von Expertenzuständen 302 und Expertenhandlungen 302 kann durch die Anzahl von Fahrzeugtrajektorien auf eine Anzahl N begrenzt werden, wobei N größer als 100 sein kann. N kann zum Beispiel durch Auswählen von Abtastraten und Auflösungen für Ort-, Richtungs- und Geschwindigkeitsinformationen in einem Fahrzeugtrajektorievektor bestimmt werden, die N auf eine rechnerisch nachweisbare Anzahl beschränken. Durch Begrenzen der Anzahl von Fahrzeugtrajektorien auf N können die Expertenzustände 302 und Expertenhandlungen 304 in Bezug auf Fahrzeugtrajektorien nummeriert werden, und Wahrscheinlichkeitsverteilungen kumulativer Rewards können für die nummerierten Expertenzustände 302 und Expertenhandlungen 304 berechnet werden.
Wahrscheinlichkeitsverteilungen kumulativer Rewards können auf Grundlage des Erfassens von Expertenzuständen 302 und Expertenhandlungen 304 unter Verwendung von Simulationsdaten berechnet werden. Die Verkehrsszenen 200 und der Betrieb des Fahrzeugs 110 können unter Verwendung von Rechentechniken auf Grundlage von Videospieltechnologie simuliert werden. Die zum Bestimmen realistischer Anzeigen von Fahrzeugen in Videospielen verwendete Technologie kann verwendet werden, um Expertenzustände 302, einschließlich Entfernungen zu anderen Fahrzeugen 224, zu bestimmen. Videospieltechnologie kann verwendet werden, um eine Expertenhandlung 304 auf Grundlage eines Expertenzustands 302 zu bestimmen und Informationen bereitzustellen, um der Rechenvorrichtung 115 zu ermöglichen, eine kumulative Reward-Funktion v^t zu bestimmen. Wahrscheinlichkeitsverteilungen kumulativer Reward-Funktionen v^t können zum Beispiel durch Ausführen einer Vielzahl von Simulationen unter einer Vielzahl von Bedingungen eines Expertenzustands 302 bestimmt werden.
Der Encoder-Verarbeitungsblock 306 kann eine Expertenhandlung 304 auf Grundlage eines eingegebenen Expertenzustands 302 berechnen und gibt 308 sowohl die Expertenhandlung 304 als auch den Expertenzustand 302 an den vorherigen Verarbeitungsblock 310 aus. Der vorherige Verarbeitungsblock bestimmt einen Reward 314 auf Grundlage von Wahrscheinlichkeitsverteilungen kumulativer Reward-Funktionen v^t, die zuvor aus Daten aus der realen Welt und simulierten Daten wie vorstehend beschrieben erfasst wurden. Der vorherige Verarbeitungsblock kann einen Reward 314 auf Grundlage der Expertenhandlung 304 und des Expertenzustands 302, die auf Wahrscheinlichkeitsverteilungen kumulativer Reward-Funktionen v^t basieren, bestimmen und gibt einen Reward 314 an den Strategieverarbeitungsblock 316 aus.
Der Strategieverarbeitungsblock 316 ist ein neuronales Netz, das eine rekonstruierte Handlung 318 auf Grundlage des Rewards 314 bestimmt und einen Expertenzustand 302 gemäß der nachstehenden Gleichung (4) eingibt. Die rekonstruierte Handlung 318 wird an den Diskriminator-Verarbeitungsblock 320 ausgegeben, um zu bestimmen, ob die rekonstruierte Handlung 318 von einer Expertenhandlung 304 nicht zu unterscheiden ist.
Der Diskriminator-Verarbeitungsblock 320 ist ein neuronales Netz, das bestimmt, ob eine rekonstruierte Handlung 318 gleich wie die eingegebene Expertenhandlung 304 ist. Der Diskriminator-Verarbeitungsblock 320 kann durch Ausführen einer Diskriminator-Funktion bestimmen, ob eine rekonstruierte Handlung 318 gleich wie die eingegebene Expertenhandlung 304 ist. Eine Diskriminator-Funktion ist eine Funktion, die eine Ähnlichkeit zwischen einer rekonstruierten Handlung 318 und einer Expertenhandlung 304 gemäß der nachstehenden Gleichung (3) bestimmt. Wenn bestimmt wird, dass die rekonstruierte Handlung 318 einer Expertenhandlung 304 ähnlich ist, wobei die Ähnlichkeit durch Benutzereingabe definiert ist, gibt die Diskriminator-Funktion ein „wahres“ oder „reales“ Ergebnis aus. Wenn bestimmt wird, dass die rekonstruierte Handlung 318 einer Expertenhandlung 304 nicht ähnlich ist, wie durch Benutzereingabe definiert, gibt die Diskriminator-Funktion ein „falsches“ oder „unechtes“ Ergebnis aus. Der Diskriminator-Verarbeitungsblock 320 kann eine Diskriminator-Verlustfunktion auf den Reward 314 anwenden und den verarbeiteten Reward 322 an den Encoder-Verarbeitungsblock 306 ausgeben, um den Encoder-Verarbeitungsblock 306 mit dem verarbeiteten Reward 322 zu aktualisieren.
Der Diskriminator-Verarbeitungsblock 320 unterscheidet zwischen einer Expertenhandlung und einer rekonstruierten Handlung durch Berechnen des Diskriminator-Verlusts gemäß der Gleichung: $L_{D i s k r i m i n a t o r} = \frac{1}{m} \sum_{i = 1}^{m} [log (D (π_{E})) + log (1 - D (π_{R}))]$
wobei D eine Diskriminator-Funktion ist, die die rekonstruierte Handlung π_R und die Expertenhandlung π_E auf Grundlage davon bewertet, wie ähnlich die rekonstruierte Handlung π_R einer Expertenhandlung ist. Der Verlust des Strategie-Verarbeitungsblocks 316 wird als Summe des gewichteten logarithmischen Wahrscheinlichkeitsverlusts von dem Encoder-Verarbeitungsblock 306 und dem vorherigen Verarbeitungsblock 310 gemäß einer Verlustfunktion gebildet: $L_{S t r a t e g i e} = \frac{1}{m} \sum_{i = 1}^{m} [log (π_{R} (a_{m} | s_{m})) * r (s_{m}, a_{m}) + log (1 - D (π_{R}))]$
wobei π_R eine rekonstruierte Handlung ist und r(s_m,a_m) eine Reward-Funktion für eine Anzahl von unterschiedlichen Proben m von Expertenzuständen 302 s_m und Expertenhandlungen 304 α_m. Der Wahrscheinlichkeitsverlust ergibt sich aus der Summe einer Cross-Entropie-Fehlerfunktion und eines Diskriminator-Verlust aus der vorstehenden Gleichung (3): $\begin{array}{l} L_{W a h r s c h e i n l i c h k e i t} + L_{D i s k r i m i n a t o r} = \frac{1}{m} \sum_{i = 1}^{m} [s_{m} * log (π_{R} (s_{m})) + (1 - s_{m}) * \\ log (π_{R} (s_{m}))] \end{array}$
und der Divergenzverlust ergibt sich aus der Kullback-Lieber-(KL-)Divergenz zwischen nachfolgenden und vorhergehenden Reward-Funktionen, wie in der vorstehenden Gleichung (2) angegeben $L_{D i v e r g e n z} = K L (q_{ϕ} (z | x_{i}) ∥ p (z))$
Die Kullback-Lieber-Divergenz ist ein Maß des Informationsverlusts, das eine Differenz zwischen den Wahrscheinlichkeitsverteilungen der nachfolgenden und der vorherigen Reward-Funktionen entspricht.
Das IRL-System 300 kann eine Vielzahl von Paaren aus Expertenzustand 302 und Expertenhandlung 304 verarbeiten, wobei jedes Paar eine Vielzahl von Malen verarbeitet wird, um Programmierinformationen zu erzeugen, die bei dem Encoder-Verarbeitungsblock 306 gespeichert werden. Im Anschluss an das Trainieren des IRL-Systems 300 mit einer Vielzahl von Paaren aus Expertenzustand 302 und Expertenhandlung 304 können die in dem Encoder-Verarbeitungsblock 306 enthaltenen Programmierinformationen auf die Rechenvorrichtung 115 hochgeladen und in nichtflüchtigem Speicher gespeichert werden. Die Programmierinformationen können von der Rechenvorrichtung 115 auf ein DNN heruntergeladen werden, das ähnlich wie der Encoder-Verarbeitungsblock 306 ausgelegt ist. Das programmierte DNN kann Fahrzeughandlungen auf Grundlage von eingegebenen Fahrzeugzustandsinformationen bestimmen. Die Fahrzeughandlungsausgabe aus dem DNN wird der von dem IRL-System 300 ausgegebenen Expertenhandlung ähnlich sein, auch wenn sie unvollständige oder fehlende kumulative Reward-Informationen aufweist.
Das IRL-System 300 kann den Betrieb des Fahrzeugs 110 verbessern, indem es eine Fahrzeughandlung auf Grundlage eines Fahrzeugzustands bestimmt, wobei der Fahrzeugzustand und die Fahrzeughandlung nicht ausreichend Informationen beinhalten, um eine kumulative Reward-Funktion zu bestimmen. Unter Verwendung eines IRL-Systems 300, das einen VAE beinhaltet, wobei ein VAE einen Strategie-Verarbeitungsblock 316 und einen Diskriminator 320 beinhaltet, kann die Rechenvorrichtung 115 einen Encoder-Verarbeitungsblock 306 trainieren und die Programmierinformationen an ein DNN übertragen, das ähnlich wie der Encoder-Verarbeitungsblock dazu ausgelegt ist, Fahrzeughandlungen auf Grundlage von eingegebenen Fahrzeugzuständen zu bestimmen.
4 ist eine Darstellung eines Ablaufdiagramms, das in Bezug auf die 1-3 beschrieben ist, für einen Prozess 7400 zum Betreiben eines Fahrzeugs auf Grundlage von Fahrzeughandlungen, die durch ein mit einem IRL trainiertes DNN bestimmt werden. Der Prozess 400 kann durch einen Prozessor der Rechenvorrichtung 115 umgesetzt sein, wobei zum Beispiel Informationen von den Sensoren 116 als Eingabe herangezogen werden und Befehle ausgeführt und Steuersignale über die Steuerungen 112, 113, 114 gesendet werden. Der Prozess 400 beinhaltet mehrere Blöcke, die in der offenbarten Reihenfolge ausgeführt werden. Der Prozess 400 beinhaltet zudem Umsetzungen, die weniger Blöcke beinhalten oder die in anderen Reihenfolgen ausgeführte Blöcke beinhalten können.
Der Prozess 400 beginnt bei Block 402, wobei ein DNN unter Verwendung eines IRL-Systems 300 trainiert wird, wie vorstehend in Bezug auf 3 erörtert wurde. Das IRL-System 300 gibt einen Expertenzustand 302 ein, der Informationen in Bezug auf Objekte in einer Umgebung des Fahrzeugs 110, einschließlich Entfernungen, Richtungen und relativer Geschwindigkeiten anderer Fahrzeuge 224, beinhaltet. Informationen in Bezug auf Objekte in einer Umgebung des Fahrzeugs beinhalten Informationen, die auf Grundlage von Daten von einem Fahrzeugsensor 116 bestimmt wurden. Das IRL-System 300 gibt eine Expertenhandlung 304 ein, die eine Fahrzeughandlung beinhaltet, die eine Fahrzeughandlung beinhaltet. Die Fahrzeughandlung kann eine Fahrzeugtrajektorie beinhalten, wobei eine Fahrzeugtrajektorie Richtungen beinhalten, um das Fahrzeug 110 auf einer Fahrbahn 202 zu betreiben. Auf Grundlage einer Vielzahl von eingegebenen Expertenzuständen 302 und Expertenhandlungen 304 und Expertenwahrscheinlichkeitsverteilungen, die auf Grundlage von empirischen Beweisen bestimmt wurden, kann das IRL-System 300 ein DNN trainieren, um eine Fahrzeugtrajektorie und einen Reward als Reaktion auf einen eingegebenen Fahrzeugzustand auszugeben.
Bei Block 404 erfasst die Rechenvorrichtung 115 Daten von einem Fahrzeugsensor 116, einschließlich Videosensordaten, Lidarsensordaten und Radarsensordaten, um Entfernungen, Richtungen und relative Geschwindigkeiten anderer Fahrzeuge 224 in einer Umgebung des Fahrzeugs 110 zu bestimmen. Die Entfernungen, Richtungen und relativen Geschwindigkeiten anderer Fahrzeuge 224 werden von dem trainierten DNN verarbeitet, um eine Fahrzeughandlung und einen Reward zu bestimmen, wobei der Reward eine Zahl in dem Bereich [0... 1] ist. In diesem Beispiel kann der Reward positiv (+0,1) für schneller fahren und Null Reward für langsamer fahren sein. Ein großer negativer Reward (-2) kann für Kollisionen oder Abkommen von der Straße vergeben werden. Ein Fahrzeughandlungsraum kann Fahrzeugtrajektorien beinhalten, einschließlich drei Arten einer Fahrzeuggeschwindigkeitsänderung (mehr Geschwindigkeit/weniger Geschwindigkeit/keine Änderung) und drei Arten einer lateralen Positionsänderung (in die linke Spur wechseln/dieselbe Spur/in die rechte Spur wechseln).
Bei Block 406 betreibt die Rechenvorrichtung 115 das Fahrzeug 110 auf der Grundlage der bei Block 404 ausgegebenen Fahrzeughandlung, wie vorstehend in Bezug auf 2 erörtert. Die Rechenvorrichtung 115 kann das Fahrzeug 110 betreiben, in dem sie ein Wegpolynom 218 auf Grundlage des Fahrzeugbefehls bestimmt. Das Wegpolynom beinhaltet Fahrzeugtrajektorien, die Geschwindigkeiten von einer der drei Arten einer Fahrzeuggeschwindigkeitsänderung und Orte und Richtungen von einem der drei Arten einer lateralen Positionsänderung beinhalten. Die Rechenvorrichtung 115 kann Anweisungen bestimmen, um den Fahrzeugantriebsstrang, die Bremsen und die Lenkung über die Steuerungen 112, 113, 114 anzuweisen, das Fahrzeug 110 zusammen mit dem Wegpolynom 218 zu betreiben und dadurch die Fahrzeughandlungsausgabe bei Block 404 zu erreichen. Im Anschluss an Block 406 endet der Prozess 400.
Rechenvorrichtungen, wie etwa die hier erörterten, beinhalten im Allgemeinen jeweils Befehle, die durch eine oder mehrere Rechenvorrichtungen, wie etwa die vorstehend genannten, und zum Ausführen von Blöcken oder Schritten von vorstehend beschriebenen Prozessen ausführbar sind. Zum Beispiel können die vorstehend erörterten Prozessblöcke als computerausführbare Befehle ausgeführt sein.
Computerausführbare Befehle können von Computerprogrammen kompiliert oder interpretiert werden, die unter Verwendung vielfältiger Programmiersprachen und/oder -technologien erstellt worden sind, einschließlich unter anderem und entweder für sich oder in Kombination Java™, C, C++, Visual Basic, Java Script, Perl, HTML usw. Im Allgemeinen empfängt ein Prozessor (z. B. ein Mikroprozessor) Befehle z. B. von einem Speicher, einem computerlesbaren Medium usw. und führt diese Befehle aus, wodurch er einen oder mehrere Prozesse einschließlich eines oder mehrerer der hierin beschriebenen Prozesse durchführt. Derartige Befehle und andere Daten können in Dateien gespeichert und unter Verwendung vielfältiger computerlesbarer Medien übertragen werden. Eine Datei in einer Rechenvorrichtung ist im Allgemeinen eine Sammlung von Daten, die auf einem computerlesbaren Medium, wie etwa einem Speichermedium, einem Direktzugriffsspeicher usw., gespeichert sind.
Ein computerlesbares Medium beinhaltet ein beliebiges Medium, das am Bereitstellen von Daten (z. B. Befehlen) beteiligt ist, die durch einen Computer ausgelesen werden können. Ein derartiges Medium kann viele Formen annehmen, einschließlich unter anderem nichtflüchtiger Medien, flüchtiger Medien usw. Zu nichtflüchtigen Medien gehören zum Beispiel optische Platten oder Magnetplatten und andere dauerhafte Speicher. Zu flüchtigen Medien gehört dynamischer Direktzugriffsspeicher (dynamic random access memory - DRAM), der typischerweise einen Hauptspeicher darstellt. Zu gängigen Formen computerlesbarer Medien gehören zum Beispiel eine Diskette, eine Folienspeicherplatte, eine Festplatte, ein Magnetband, ein beliebiges anderes magnetisches Medium, eine CD-ROM, eine DVD, ein beliebiges anderes optisches Medium, Lochkarten, Lochstreifen, ein beliebiges anderes physisches Medium mit Lochmustern, ein RAM, ein PROM, ein EPROM, ein FLASH-EEPROM, ein beliebiger anderer Speicherchip oder eine beliebige andere Speicherkassette oder ein beliebiges anderes Medium, das durch einen Computer ausgelesen werden kann.
Allen in den Patentansprüchen verwendeten Ausdrücken soll deren allgemeine und gewöhnliche Bedeutung zukommen, wie sie vom Fachmann verstanden wird, sofern nicht ausdrücklich etwas anderes angegeben ist. Insbesondere ist die Verwendung der Singularartikel wie etwa „ein“, „eine“, „der“, „die“, „das“ usw. dahingehend auszulegen, dass eines oder mehrere der aufgeführten Elemente genannt wird bzw. werden, es sei denn, ein Patentanspruch enthält ausdrücklich eine gegenteilige Einschränkung.
Der Ausdruck „beispielhaft“ wird hier in dem Sinne verwendet, dass er ein Beispiel angibt, z. B. sollte ein Verweis auf eine „beispielhafte Vorrichtung“ einfach als Bezugnahme auf ein Beispiel für eine Vorrichtung gelesen werden.
Das einen Wert oder ein Ergebnis modifizierende Adverb „ungefähr“ bedeutet, dass eine Form, eine Struktur, ein Messwert, ein Wert, eine Bestimmung, eine Berechnung usw. von einer bzw. einem genau beschriebenen Geometrie, Abstand, Messwert, Wert, Bestimmung, Berechnung usw. aufgrund von Mängeln hinsichtlich Materialien, Bearbeitung, Herstellung, Sensormessungen, Berechnungen, Verarbeitungszeit, Kommunikationszeit usw. abweichen kann.
In den Zeichnungen geben die gleichen Bezugszeichen die gleichen Elemente an. Ferner könnten einige oder alle dieser Elemente geändert werden. Hinsichtlich der hier beschriebenen Medien, Prozesse, Systeme, Verfahren usw. versteht es sich, dass die Schritte oder Blöcke derartiger Prozesse usw. zwar als gemäß einer bestimmten Abfolge stattfindend beschrieben worden sind, derartige Prozesse jedoch so umgesetzt werden könnten, dass die beschriebenen Schritte in einer anderen Reihenfolge als der hier beschriebenen Reihenfolge durchgeführt werden. Es versteht sich ferner, dass gewisse Schritte gleichzeitig durchgeführt, andere Schritte hinzugefügt oder gewisse hier beschriebene Schritte weggelassen werden könnten. Mit anderen Worten dienen die Beschreibungen von Prozessen in dieser Schrift dem Zwecke der Veranschaulichung gewisser Ausführungsformen und sollten keinesfalls dahingehend ausgelegt werden, dass sie die beanspruchte Erfindung einschränken.
Gemäß der vorliegenden Erfindung beinhaltet ein Verfahren: Bestimmen einer Fahrzeughandlung auf Grundlage einer Dateneingabe von einem Fahrzeugsensor in ein tiefes neuronales Netz (deep neural network - DNN), das unter Verwendung eines Systems für inverses verstärkendes Lernen (inverse reinforcement learning system - IRL-System) trainiert wurde, das einen Variational Autoencoder (VAE) beinhaltet; und Betreiben eines Fahrzeugs auf Grundlage der Fahrzeughandlung.
Gemäß einer Ausführungsform ist die Erfindung ferner durch Trainieren des DNN unter Verwendung des VAE, um eine rekonstruierte Strategie zu erzeugen, gekennzeichnet.
Gemäß einer Ausführungsform basiert die rekonstruierte Strategie auf einem Fahrzeugzustand und einer latenten Reward-Funktion.
Gemäß einer Ausführungsform unterscheidet ein Adversarial-Diskriminator-Netz zwischen der rekonstruierten Strategie und einer Expertenstrategie.
Gemäß einer Ausführungsform basiert die Expertenstrategie darauf, dass das Fahrzeug N Trajektorien aufweist.
Gemäß einer Ausführungsform wird die rekonstruierte Strategie verwendet, um die Expertenstrategie und die latente Reward-Funktion wiederherzustellen.
Gemäß einer Ausführungsform beinhalten die Fahrzeugsensordaten Entfernungen und relative Geschwindigkeiten von benachbarten Fahrzeugen auf der linken, rechten und derselben Spur.
Gemäß einer Ausführungsform beinhaltet die Fahrzeughandlung drei Arten einer Geschwindigkeitsänderung des Fahrzeugs, einschließlich mehr Geschwindigkeit, weniger Geschwindigkeit und keiner Änderung.
Gemäß einer Ausführungsform beinhaltet die Fahrzeughandlung drei Arten einer lateralen Positionsänderung des Fahrzeugs, einschließlich Spurwechselmanöver nach links, derselben Spur und Spurwechselmanöver nach rechts.
Gemäß der vorliegenden Erfindung ist ein System bereitgestellt, das Folgendes aufweist: einen Prozessor; und einen Speicher, der zu Folgendem programmiert ist: Bestimmen einer Fahrzeughandlung auf Grundlage einer Dateneingabe von einem Fahrzeugsensor in ein tiefes neuronales Netz (deep neural network - DNN), das unter Verwendung eines Systems für inverses verstärkendes Lernen (inverse reinforcement learning system - IRL-System) trainiert wurde, das einen Variational Autoencoder (VAE) beinhaltet; und Betreiben eines Fahrzeugs auf Grundlage der Fahrzeughandlung.
Gemäß einer Ausführungsform ist die Erfindung ferner durch Trainieren des DNN unter Verwendung des VAE, um eine rekonstruierte Strategie zu erzeugen, gekennzeichnet.
Gemäß einer Ausführungsform basiert die rekonstruierte Strategie auf einem Fahrzeugzustand und einer latenten Reward-Funktion.
Gemäß einer Ausführungsform unterscheidet ein Adversarial-Diskriminator-Netz zwischen der rekonstruierten Strategie und einer Expertenstrategie.
Gemäß einer Ausführungsform basiert die Expertenstrategie darauf, dass das Fahrzeug N Trajektorien aufweist.
Gemäß einer Ausführungsform wird die rekonstruierte Strategie verwendet, um die Expertenstrategie und die latente Reward-Funktion wiederherzustellen.
Gemäß einer Ausführungsform beinhalten die Fahrzeugsensordaten Entfernungen und relative Geschwindigkeiten von benachbarten Fahrzeugen auf der linken, rechten und derselben Spur.
Gemäß einer Ausführungsform beinhaltet die Fahrzeughandlung drei Arten einer Geschwindigkeitsänderung des Fahrzeugs, einschließlich mehr Geschwindigkeit, weniger Geschwindigkeit und keiner Änderung.
Gemäß einer Ausführungsform beinhaltet die Fahrzeughandlung drei Arten einer lateralen Positionsänderung des Fahrzeugs, einschließlich Spurwechselmanöver nach links, derselben Spur und Spurwechselmanöver nach rechts.
Gemäß der vorliegenden Erfindung ist ein System bereitgestellt, das Folgendes aufweist: Mittel zum Steuern von Lenkung, Bremsen und Antriebsstrang eines zweiten Fahrzeugs Computermittel für Folgendes: Bestimmen einer Fahrzeughandlung auf Grundlage einer Dateneingabe von einem Fahrzeugsensor in ein tiefes neuronales Netz (deep neural network - DNN), das unter Verwendung eines Systems für inverses verstärkendes Lernen (inverse reinforcement learning system - IRL-System) trainiert wurde, das einen Variational Autoencoder (VAE) beinhaltet; und Betreiben eines Fahrzeugs auf Grundlage der Fahrzeughandlung und der Mittel zum Steuern von Lenkung, Bremsen und Antriebsstrang des zweiten Fahrzeugs.
Gemäß einer Ausführungsform ist die Erfindung ferner durch Trainieren des DNN unter Verwendung des VAE, um eine rekonstruierte Strategie zu erzeugen, gekennzeichnet.

Claims

Verfahren, umfassend: Bestimmen einer Fahrzeughandlung auf Grundlage einer Dateneingabe von einem Fahrzeugsensor in ein tiefes neuronales Netz (deep neural network - DNN), das unter Verwendung eines Systems für inverses verstärkendes Lernen (inverse reinforcement learning system - IRL-System) trainiert wurde, das einen Variational Autoencoder (VAE) beinhaltet; und Betreiben eines Fahrzeugs auf Grundlage der Fahrzeughandlung.
Verfahren nach Anspruch 1, ferner umfassend Trainieren des DNN unter Verwendung des VAE, um eine rekonstruierte Strategie zu erzeugen.
Verfahren nach Anspruch 2, wobei die rekonstruierte Strategie auf einem Fahrzeugzustand und einer latenten Reward-Funktion basiert.
Verfahren nach Anspruch 3, wobei ein Adversarial-Diskriminator-Netz zwischen der rekonstruierten Strategie und einer Expertenstrategie unterscheidet.
Verfahren nach Anspruch 4, wobei die Expertenstrategie darauf basiert, dass das Fahrzeug N Trajektorien aufweist.
Verfahren nach Anspruch 5, wobei die rekonstruierte Strategie verwendet wird, um die Expertenstrategie und die latente Reward-Funktion wiederherzustellen.
Verfahren nach Anspruch 1, wobei die Fahrzeugsensordaten Entfernungen und relative Geschwindigkeiten von benachbarten Fahrzeugen auf der linken, rechten und derselben Spur beinhalten.
Verfahren nach Anspruch 1, wobei die Fahrzeughandlung drei Arten einer Geschwindigkeitsänderung des Fahrzeugs beinhaltet, einschließlich mehr Geschwindigkeit, weniger Geschwindigkeit und keiner Änderung.
Verfahren nach Anspruch 1, wobei die Fahrzeughandlung drei Arten einer lateralen Positionsänderung des Fahrzeugs beinhaltet, einschließlich Spurwechselmanöver nach links, derselben Spur und Spurwechselmanöver nach rechts.
Verfahren nach Anspruch 1, wobei der VAE einen Strategieverarbeitungsblock beinhaltet, der eine rekonstruierte Handlung auf Grundlage eines Rewards und eines Expertenzustands bestimmt.
Verfahren nach Anspruch 10, wobei der VAE einen Diskriminator-Verarbeitungsblock beinhaltet, der einen verarbeiteten Reward auf Grundlage der rekonstruierten Handlung und einer Expertenhandlung bestimmt, der auf einer Ähnlichkeit zwischen der rekonstruierten Handlung und der Expertenhandlung basiert.
Verfahren nach Anspruch 11, wobei das DNN latente Recheninformationen auf Grundlage des verarbeiteten Rewards aktualisiert.
Verfahren nach Anspruch 1, wobei ein Wegpolynom auf Grundlage der Fahrzeughandlung bestimmt wird.
Verfahren nach Anspruch 13, wobei das Betreiben des Fahrzeugs Anweisen von Fahrzeugantriebsstrang-, Brems- und Lenkkomponenten auf Grundlage des Wegpolynoms beinhaltet.
System, umfassend einen Computer, der dazu programmiert ist, die Verfahren nach einem der Ansprüche 1-14 durchzuführen.