DE112019001046T5

DE112019001046T5 - Informationsverarbeitungsvorrichtung, informationsverarbeitungsverfahren, programm und mobiler körper

Info

Publication number: DE112019001046T5
Application number: DE112019001046.8T
Authority: DE
Inventors: Yuka Ariki
Original assignee: Sony Corp
Current assignee: Sony Corp
Priority date: 2018-02-28
Filing date: 2019-01-16
Publication date: 2020-11-26
Also published as: CN111758017A; JPWO2019167457A1; JP7405072B2; US20210116930A1; WO2019167457A1

Abstract

Eine Informationsverarbeitungsvorrichtung gemäß einer Ausführungsform weist eine Erfassungseinheit und eine Berechnungseinheit auf. Die Erfassungseinheit erfasst Lerndaten einschließlich Bahndaten, die sich auf eine Bahn beziehen, auf dem sich ein mobiler Körper bewegt hat. Auf Basis der erfassten Lerndaten berechnet die Berechnungseinheit eine Kostenfunktion in Bezug auf die Bewegung des mobilen Körpers, wobei die Berechnung unter Verwendung von umgekehrtem bestärkendem Lernen ausgeführt wird.

Description

Technisches Gebiet
Die vorliegende Technologie betrifft eine Informationsverarbeitungseinrichtung, ein Informationsverarbeitungsverfahren, ein Programm und ein mobiles Objekt, die auf die Bewegungssteuerung mobiler Objekte anwendbar sind.
Stand der Technik
Die Patentliteratur 1 offenbart ein Parkassistenzsystem, das eine Führungsroute erzeugt, das Fahrzeug führt und eine Fahrassistenz erzielt, wenn sich ein Fahrzeug auf einem engen Parkplatz oder auf einer schmalen Straße bewegt. Das Parkassistenzsystem erzeugt die Führungsroute auf Basis eines vorbestimmten Sicherheitsspielraums und erzielt eine automatische Führungssteuerung. In diesem Fall wird der Sicherheitsspielraum in einem vorbestimmten Zustand angemessen angepasst, wenn es aufgrund des Vorhandenseins eines Hindernisses oder dergleichen schwierig wird, das Fahrzeug zu einer Zielposition zu führen. Dies ermöglicht es, das Fahrzeug zur Zielposition zu führen (siehe Absätze [0040] bis [0048], 5 und dergleichen der Patentliteratur 1).
Zitatliste
Patentliteratur
Patentliteratur 1: JP 2017-30481A
Offenbarung der Erfindung
Technisches Problem
In Zukunft wird erwartet, dass Technologien zum automatischen Fahren verschiedener mobiler Objekte einschließlich Fahrzeuge weit verbreitet sein können. Wünschenswert sind Technologien, die eine flexible Bewegungssteuerung erreichen können, die auf eine Umgebung zugeschnitten ist, in der sich die mobilen Objekte bewegen.
In Anbetracht der oben beschriebenen Umstände besteht ein Zweck der vorliegenden Technologie darin, eine Informationsverarbeitungseinrichtung, ein Informationsverarbeitungsverfahren, ein Programm und ein mobiles Objekt bereitzustellen, die in der Lage sind, eine flexible Bewegungssteuerung zu erreichen, die auf eine Bewegungsumgebung zugeschnitten ist.
Lösung für das Problem
Um den oben beschriebenen Zweck zu erreichen, weist eine Informationsverarbeitungseinrichtung gemäß einem Aspekt der vorliegenden Technologie eine Erfassungseinheit und eine Berechnungseinheit auf.
Die Erfassungseinheit erfasst Trainingsdaten einschließlich Kursdaten, die sich auf einen Kurs beziehen, auf dem sich ein mobiles Objekt bewegt hat.
Die Berechnungseinheit berechnet eine Kostenfunktion in Bezug auf die Bewegung des mobilen Objekts durch inverses bestärkendes Lernen auf Basis der erfassten Trainingsdaten.
Die Informationsverarbeitungseinrichtung berechnet die Kostenfunktion durch das inverse bestärkende Lernen auf Basis der Trainingsdaten. Dies ermöglicht es, eine flexible Bewegungssteuerung zu erreichen, die auf eine Bewegungsumgebung zugeschnitten ist.
Die Kostenfunktion kann es ermöglichen, eine Kostenkarte durch Eingabe von Informationen bezüglich der Bewegung des mobilen Objekts zu erzeugen.
Die Informationen, die sich auf die Bewegung beziehen, können eine Position des mobilen Objekts und/oder Umgebungsinformationen des mobilen Objekts und/oder die Geschwindigkeit des mobilen Objekts einschließen.
Die Berechnungseinheit kann die Kostenfunktion derart berechnen, dass ein vorbestimmter Parameter zum Definieren der Kostenkarte variabel ist.
Die Berechnungseinheit kann die Kostenfunktion derart berechnen, dass ein Sicherheitsspielraum variabel ist.
Die Informationsverarbeitungseinrichtung kann ferner eine Optimierungsverarbeitungseinheit aufweisen, die die berechnete Kostenfunktion durch eine Simulation optimiert.
Die Optimierungsverarbeitungseinheit kann die Kostenfunktion auf Basis der erfassten Trainingsdaten optimieren.
Die Optimierungsverarbeitungseinheit kann die Kostenfunktion auf Basis von Kursdaten optimieren, die durch die Simulation erzeugt werden.
Die Optimierungsverarbeitungseinheit kann die Kostenfunktion optimieren, indem sie die erfassten Trainingsdaten mit den durch die Simulation erzeugten Kursdaten kombiniert.
Die Optimierungsverarbeitungseinheit kann die Kostenfunktion auf Basis eines durch einen Benutzer festgelegten Evaluierungsparameters optimieren.
Die Optimierungsverarbeitungseinheit kann die Kostenfunktion auf Basis eines Annäherungsgrads an einen Zielort und/oder eines Sicherheitsgrads in Bezug auf die Bewegung und/oder eines Komfortgrads in Bezug auf die Bewegung optimieren.
Die Berechnungseinheit kann die Kostenfunktion durch GPIRL (Gaussian Process Inverse Reinforcement Learning - inverses bestärkendes Lernen mit Gauß-Prozess) berechnen.
Die Kostenfunktion kann es ermöglichen, eine Kostenkarte basierend auf einer Wahrscheinlichkeitsverteilung zu erzeugen.
Die Kostenfunktion kann es ermöglichen, eine Kostenkarte basierend auf einer Normalverteilung zu erzeugen. In diesem Fall kann die Kostenkarte durch einen Sicherheitsspielraum definiert werden, der einem Eigenwert einer Kovarianzmatrix entspricht.
Die Kostenkarte kann durch einen Sicherheitsspielraum definiert werden, der auf einer Bewegungsrichtung des mobilen Objekts basiert.
Die Berechnungseinheit kann in der Lage sein, die jeweiligen Kostenfunktionen zu berechnen, die verschiedenen Gebieten entsprechen.
Ein Informationsverarbeitungsverfahren gemäß einem Aspekt der vorliegenden Technologie ist ein Informationsverarbeitungsverfahren, das durch ein Computersystem ausgeführt werden soll, wobei das Informationsverarbeitungsverfahren das Erfassen von Trainingsdaten einschließlich Kursdaten aufweist, die sich auf einen Kurs beziehen, auf dem sich ein mobiles Objekt bewegt hat.
Eine Kostenfunktion in Bezug auf die Bewegung des mobilen Objekts wird durch inverses bestärkendes Lernen auf Basis der erfassten Trainingsdaten berechnet.
Ein Programm gemäß einem Aspekt der vorliegenden Technologie veranlasst, dass ein Computersystem Folgendes ausführt:

einen Schritt des Erfassens von Trainingsdaten, einschließlich Kursdaten, die sich auf einen Kurs beziehen, auf dem sich ein mobiles Objekt bewegt hat; und
einen Schritt des Berechnens einer Kostenfunktion in Bezug auf die Bewegung des mobilen Objekts durch inverses bestärkendes Lernen auf Basis der erfassten Trainingsdaten.

Ein mobiles Objekt gemäß einem Aspekt der vorliegenden Technologie weist eine Erfassungseinheit und eine Kursberechnungseinheit auf.
Die Erfassungseinheit erfasst eine Kostenfunktion in Bezug auf die Bewegung des mobilen Objekts, wobei die Kostenfunktion durch inverses bestärkendes Lernen auf Basis von Trainingsdaten einschließlich Kursdaten in Bezug auf einen Kurs, auf dem sich das mobile Objekt bewegt hat, berechnet wurde.
Die Kursberechnungseinheit berechnet einen Kurs auf Basis der erfassten Kostenfunktion.
Das mobile Objekt kann als ein Fahrzeug konfiguriert sein.
Eine Informationsverarbeitungseinrichtung gemäß einem anderen Aspekt der vorliegenden Technologie weist eine Erfassungseinheit und eine Erzeugungseinheit auf.
Die Erfassungseinheit erfasst Informationen in Bezug auf die Bewegung eines mobilen Objekts.
Die Erzeugungseinheit erzeugt eine Kostenkarte basierend auf einer Wahrscheinlichkeitsverteilung auf Basis der erfassten Informationen, die sich auf die Bewegung des mobilen Objekts beziehen.
Vorteilhafte Effekte der Erfindung
Wie oben beschrieben, ist es gemäß der vorliegenden Technologie möglich, die flexible Bewegungssteuerung zu erreichen, die auf eine Bewegungsumgebung zugeschnitten ist. Es ist zu beachten, dass die hierin beschriebenen Effekte nicht notwendigerweise beschränkt sind und ein der in der vorliegenden Offenbarung beschriebenen Effekte sein können.
Figurenliste

[1] 1 ist ein schematisches Diagramm, das ein Konfigurationsbeispiel eines Bewegungssteuerungssystems gemäß der vorliegenden Technologie veranschaulicht.
[2] 2 zeigt Außenansichten, die ein Konfigurationsbeispiel eines Fahrzeugs veranschaulichen.
[3] 3 ist ein Blockdiagramm, das ein Konfigurationsbeispiel eines Fahrzeugsteuersystems veranschaulicht, das das Fahrzeug steuert.
[4] 4 ist ein Blockdiagramm, das ein Funktionskonfigurationsbeispiel einer Servereinrichtung veranschaulicht.
[5] 5 ist ein Flussdiagramm, das ein Beispiel zum Erzeugen einer Kostenfunktion durch die Servereinrichtung veranschaulicht
[6] 6 ist ein schematisches Diagramm, das ein Beispiel einer Kostenkarte veranschaulicht.
[7] 7 ist ein schematisches Diagramm, das ein Beispiel von Trainingsdaten veranschaulicht.
[8] 8 ist ein schematisches Diagramm, das ein Beispiel einer Kostenkarte veranschaulicht, die mittels einer Kostenfunktion erzeugt wurde, die auf Basis der in 7 veranschaulichten Trainingsdaten berechnet wurde.
[9] 9 veranschaulicht Simulationsbeispiele, die zur Optimierung einer Kostenfunktion verwendet werden.
[10] 10 veranschaulicht Simulationsbeispiele, die zur Optimierung einer Kostenfunktion verwendet werden.
[11] 11 ist ein Diagramm zur Beschreibung der Evaluierung der vorliegenden Technologie.
[12] 12 ist ein Diagramm zur Beschreibung der Evaluierung der vorliegenden Technologie.
[13] 13 zeigt Diagramme zur Beschreibung eines Kursberechnungsverfahrens gemäß einem Vergleichsbeispiel.

Ausführungsweise(n) der Erfindung
Nachfolgend wird eine Ausführungsform der vorliegenden Technologie unter Bezugnahme auf die Zeichnungen beschrieben.
[Konfiguration des Bewegungssteuerungssystems]
1 ist ein schematisches Diagramm, das ein Konfigurationsbeispiel eines Bewegungssteuerungssystems gemäß der vorliegenden Technologie veranschaulicht. Ein Bewegungssteuerungssystem 500 weist mehrere Fahrzeuge 10, ein Netzwerk 20, eine Datenbank 25 und eine Servereinrichtung 30 auf. Jedes der Fahrzeuge 10 weist eine autonome Fahrfunktion auf, die zum automatischen Fahren zu einem Zielort fähig ist. Es ist zu beachten, dass das Fahrzeug 10 ein Beispiel eines mobilen Objekts gemäß der vorliegenden Ausführungsform ist.
Die mehreren Fahrzeuge 10 und die Servereinrichtung 30 sind derart verbunden, dass sie zur gegenseitigen Kommunikation über das Netzwerk 20 fähig sind. Die Servereinrichtung 30 ist derart mit der Datenbank 25 verbunden, dass die Servereinrichtung 30 zum Zugreifen auf die Datenbank 25 fähig ist. Beispielsweise ist die Servereinrichtung 30 fähig, verschiedene Arten von Informationen, die von den mehreren Fahrzeugen 10 erfasst wurden, in der Datenbank 25 aufzuzeichnen, die verschiedenen Arten von Informationen, die in der Datenbank 25 aufgezeichnet sind, auszulesen und die Informationen zu jedem der Fahrzeuge 10 zu übertragen.
Das Netzwerk 20 ist beispielsweise aus dem Internet, einem großflächigen Kommunikationsnetz und dergleichen aufgebaut. Darüber hinaus ist es auch möglich, ein beliebiges großflächiges Netzwerk (WAN), ein beliebiges lokales Netzwerk (LAN) oder dergleichen zu verwenden. Ein Protokoll zum Aufbau des Netzwerks 20 ist nicht beschränkt.
Gemäß der vorliegenden Ausführungsform wird ein sogenannter Cloud-Dienst durch das Netzwerk 20, die Servereinrichtung 30 und die Datenbank 25 bereitgestellt. Daher kann gesagt werden, dass die mehreren Fahrzeuge 10 mit einem Cloud-Netzwerk verbunden sind.
2 zeigt Außenansichten, die ein Konfigurationsbeispiel des Fahrzeugs 10 veranschaulichen. 2A ist eine perspektivische Ansicht, die das Konfigurationsbeispiel des Fahrzeugs 10 veranschaulicht. 2B ist ein schematisches Diagramm, das erhalten wird, wenn das Fahrzeug 10 von oben betrachtet wird.
Wie in 2A und 2B veranschaulicht, weist das Fahrzeug 10 Umgebungssensoren 11 auf. Die Umgebungssensoren 11 detektieren Umgebungsinformationen in Bezug auf die Umgebung des Fahrzeugs 10. Hierbei handelt es sich bei den Umgebungsinformationen um Informationen, die Bildinformationen, Tiefeninformationen und dergleichen in Bezug auf die Umgebung des Fahrzeugs 10 einschließen. Beispielsweise werden Abstände zu Hindernissen, die im Umfeld des Fahrzeugs 10 vorhanden sind, die Größen der Hindernisse und dergleichen als die Umgebungsinformationen detektiert. Als ein Beispiel für die Umgebungssensoren 11 veranschaulichen 2A und 2B schematisch eine Bildgebungseinrichtung 12 und einen Abstandssensor 13.
Die Bildgebungseinrichtung 12 ist derart installiert, dass die Bildgebungseinrichtung 12 zu einer Vorderseite des Fahrzeugs 10 zeigt. Die Bildgebungseinrichtung 12 nimmt ein Bild der Vorderseite des Fahrzeugs 10 auf und detektiert Bildinformationen. Beispielsweise wird eine RGB-Kamera oder dergleichen als die Bildgebungseinrichtung 12 verwendet. Die RGB-Kamera weist einen Bildsensor wie etwa ein CCD oder einen CMOS auf. Die vorliegende Technologie ist nicht darauf beschränkt. Es ist auch möglich, als die Bildgebungseinrichtung 12 einen Bildsensor oder dergleichen zu verwenden, der Infrarotlicht oder polarisiertes Licht detektiert.
Der Abstandssensor 13 ist derart installiert, dass der Abstandssensor 13 zur Vorderseite des Fahrzeugs 10 zeigt. Der Abstandssensor 13 detektiert Informationen in Bezug auf Abstände zu Objekten, die in seinem Detektionsbereich enthalten sind, und detektiert Tiefeninformationen in Bezug auf die Umgebung des Fahrzeugs 10. Beispielsweise wird ein LiDAR-Sensor (Laserbildgebungsdetektion und -entfernungsmessung) oder dergleichen als der Abstandssensor 13 verwendet.
Mit dem LiDAR-Sensor ist es beispielsweise möglich, ein Bild (Tiefenbild) mit Tiefeninformationen oder dergleichen leicht zu detektieren. Alternativ ist es beispielsweise auch möglich, einen Laufzeit(TOF:

Time Of Flight)-Tiefensensor oder dergleichen als den Abstandssensor 13 zu verwenden. Die Arten und dergleichen der Abstandssensoren 13 sind nicht beschränkt. Es ist möglich, einen beliebigen Sensor zu verwenden, der einen Entfernungsmesser, ein Millimeterwellenradar, einen Infrarotlaser oder dergleichen verwendet.

Zusätzlich sind die Arten, die Anzahl und dergleichen der Umgebungssensoren 11 nicht beschränkt. Beispielsweise ist es auch möglich, Umgebungssensoren 11 (Bildgebungseinrichtung 12 und Abstandssensor 13) zu verwenden, die derart installiert sind, dass die Umgebungssensoren 11 in eine beliebige Richtung wie etwa eine Heckseite, eine laterale Seite oder dergleichen des Fahrzeugs 10 zeigen. Es ist zu beachten, dass der Umgebungssensor 11 aus einem Sensor besteht, der in einer (später beschriebenen) Datenerfassungseinheit 102 enthalten ist.
3 ist ein Blockdiagramm, das ein Konfigurationsbeispiel eines Fahrzeugsteuersystems 100 veranschaulicht, das das Fahrzeug 10 steuert. Das Fahrzeugsteuersystem 100 ist ein System, das in dem Fahrzeug 10 installiert ist und das Fahrzeug 10 auf verschiedene Weisen steuert.
Das Fahrzeugsteuersystem 100 weist Folgendes auf: eine Eingabeeinheit 101, eine Datenerfassungseinheit 102, eine Kommunikationseinheit 103, ein fahrzeuginternes Gerät 104, eine Ausgabesteuereinheit 105, eine Ausgabeeinheit 106, eine Antriebsstrangsteuereinheit 107, ein Antriebsstrangsystem 108, eine Karosseriesteuereinheit 109, ein Karosseriesystem 110, eine Speicherungseinheit 111 und eine Autonomes-Fahren-Steuereinheit 112. Die Eingabeeinheit 101, die Datenerfassungseinheit 102, die Kommunikationseinheit 103, die Ausgabesteuereinheit 105, die Antriebsstrangsteuereinheit 107, die Karosseriesteuereinheit 109, die Speicherungseinheit
111 und die Autonomes-Fahren-Steuereinheit 112 sind über ein Kommunikationsnetzwerk 121 miteinander verbunden. Beispielsweise schließt das Kommunikationsnetzwerk 121 einen Bus oder ein fahrzeugmontiertes Kommunikationsnetzwerk ein, das einem beliebigen Standard entspricht, wie etwa ein Controller Area Network (CAN), ein lokales Interconnect-Netzwerk (LIN), ein lokales Netzwerk (LAN), FlexRay oder dergleichen. Es ist zu beachten, dass manchmal die Strukturelemente des Fahrzeugsteuersystems 100 direkt miteinander verbunden sein können, ohne das Kommunikationsnetzwerk 121 zu verwenden.
Es ist zu beachten, dass das Kommunikationsnetzwerk 121 nicht in dem Fall beschrieben ist, in dem die jeweiligen Strukturelemente des Fahrzeugsteuersystems 100 über das Kommunikationsnetzwerk 121 miteinander kommunizieren. Beispielsweise wird einfach offenbart, dass die Eingabeeinheit 101 und die Autonomes-Fahren-Steuereinheit 112 miteinander kommunizieren, in dem Fall, in dem die Eingabeeinheit 101 und die Autonomes-Fahren-Steuereinheit 112 über das Kommunikationsnetzwerk 121 miteinander kommunizieren.
Die Eingabeeinheit 101 weist eine Vorrichtung auf, die durch einen Mitfahrer verwendet wird, um verschiedene Arten von Daten, Anweisungen oder dergleichen einzugeben. Beispielsweise weist die Eingabeeinheit 101 eine Bedienungsvorrichtung wie etwa einen Touchscreen, eine Taste, ein Mikrofon, einen Schalter oder einen Hebel, eine Bedienungsvorrichtung, die Informationen durch Ton, Geste oder dergleichen eingeben kann, die sich von der manuellen Bedienung unterscheidet, oder dergleichen auf. Alternativ kann die Eingabeeinheit 101 beispielsweise ein externes Verbindungsgerät sein, wie etwa ein Fernsteuerungsgerät, das Infrarot oder eine andere Funkwelle verwendet, oder ein mobiles Gerät oder ein tragbares Gerät, das mit dem Betrieb des Fahrzeugsteuersystems 100 kompatibel ist. Die Eingabeeinheit 101 erzeugt ein Eingangssignal auf Basis von Daten, einer Anweisung oder dergleichen, die vom Mitfahrer eingegeben werden, und liefert das erzeugte Eingangssignal an die jeweiligen Strukturelemente des Fahrzeugsteuersystems 100.
Die Datenerfassungseinheit 102 weist verschiedene Arten von Sensoren oder dergleichen zum Erfassen von Daten auf, die in Prozessen verwendet werden sollen, die durch das Fahrzeugsteuersystem 100 durchgeführt werden, und liefert die erfassten Daten an die jeweiligen Strukturelemente des Fahrzeugsteuersystems 100.
Beispielsweise weist die Datenerfassungseinheit 102 verschiedene Arten von Sensoren zum Detektieren eines Zustands oder dergleichen des Fahrzeugs 10 auf. Insbesondere weist die Datenerfassungseinheit 102 beispielsweise einen Gyrosensor, einen Beschleunigungssensor, eine Trägheitsmesseinheit (IMU) und einen Sensor oder dergleichen zum Detektieren eines Betätigungsbetrags eines Gaspedals, eines Betätigungsbetrags eines Bremspedals, eines Lenkwinkels eines Lenkrads, der Anzahl der Umdrehungen eines Verbrennungsmotors, der Anzahl der Umdrehungen eines Motors, der Rotationsgeschwindigkeiten der Räder oder dergleichen auf.
Zusätzlich dazu weist die Datenerfassungseinheit 102 zum Beispiel verschiedene Arten von Sensoren zum Detektieren von Informationen bezüglich der Außenseite des Fahrzeugs 10 auf. Insbesondere weist die Datenerfassungseinheit 102 zum Beispiel eine Bildgebungseinrichtung auf, wie etwa eine Laufzeit(ToF)-Kamera, eine Stereokamera, eine Monokularkamera, eine Infrarotkamera oder andere Kameras. Zusätzlich weist die Datenerfassungseinheit 102 beispielsweise einen Umweltsensor zum Detektieren von Wetter, einem meteorologischen Phänomen oder dergleichen und einen Umgebungsinformationsdetektionssensor zum Detektieren von Objekten im Umfeld des Fahrzeugs 10 auf. Beispielsweise weist der Umweltsensor einen Regensensor, einen Nebelsensor, einen Sonnensensor, einen Schneesensor oder dergleichen auf. Der Umgebungsinformationsdetektionssensor weist einen Ultraschallsensor, ein Radar, einen LiDAR-Sensor (Lichtdetektion und -entfernungsmessung, Laserbildgebungsdetektion und -entfernungsmessung), ein Sonar oder dergleichen auf.
Zusätzlich weist die Datenerfassungseinheit 102 beispielsweise verschiedene Arten von Sensoren zum Detektieren eines aktuellen Standorts des Fahrzeugs 10 auf. Insbesondere weist die Datenerfassungseinheit 102 beispielsweise einen Empfänger eines globalen Satellitennavigationssystems (GNSS), der Satellitensignale (im Folgenden als GNSS-Signale bezeichnet) von einem GNSS-Satelliten empfängt, der ein Navigationssatellit ist, oder dergleichen auf.
Zusätzlich dazu weist die Datenerfassungseinheit 102 zum Beispiel verschiedene Arten von Sensoren zum Detektieren von Informationen bezüglich der Innenseite des Fahrzeugs 10 auf. Insbesondere weist die Datenerfassungseinheit 102 beispielsweise eine Bildgebungseinrichtung, die ein Bild eines Fahrers aufnimmt, einen biologischen Sensor, der biologische Informationen des Fahrers detektiert, ein Mikrofon, das Ton im Innenraum des Fahrzeugs sammelt, oder dergleichen auf. Der biologische Sensor ist zum Beispiel in einer Sitzoberfläche, dem Lenkrad oder dergleichen installiert und detektiert biologische Informationen eines auf einem Sitz sitzenden Mitfahrers oder des Fahrers, der das Lenkrad hält.
Die Kommunikationseinheit 103 kommuniziert mit dem fahrzeuginternen Gerät 104, verschiedenen Arten von Geräten außerhalb des Fahrzeugs, einem Server, einer Basisstation oder dergleichen, überträgt Daten, die durch die jeweiligen Strukturelemente des Fahrzeugsteuersystems 100 geliefert werden, und liefert die empfangenen Daten an die jeweiligen Strukturelemente des Fahrzeugsteuersystems 100. Es ist zu beachten, dass ein Kommunikationsprotokoll, das durch die Kommunikationseinheit 103 unterstützt wird, nicht speziell beschränkt ist. Es ist möglich, dass die Kommunikationseinheit 103 mehrere Arten von Kommunikationsprotokollen unterstützt.
Beispielsweise stellt die Kommunikationseinheit 103 eine drahtlose Verbindung mit dem fahrzeuginternen Gerät 104 unter Verwendung eines drahtlosen LAN, Bluetooth (eingetragenes Markenzeichen), Nahfeldkommunikation (NFC), drahtlosem USB (WUSB) oder dergleichen her. Zusätzlich stellt die Kommunikationseinheit 103 beispielsweise eine drahtgebundene Verbindung mit dem fahrzeuginternen Gerät 104 unter Verwendung von USB (Universal Serial Bus), HDMI (High-Definition Multimedia Interface), MHL (Mobile High-Definition Link) oder dergleichen über einen Verbindungsanschluss (nicht veranschaulicht) (und ggf. ein Kabel) her.
Zusätzlich kommuniziert die Kommunikationseinheit 103 zum Beispiel über eine Basisstation oder einen Zugangspunkt mit einem Gerät (zum Beispiel einem Anwendungsserver oder einem Steuerserver), das in einem externen Netzwerk (zum Beispiel dem Internet, einem Cloud-Netzwerk oder einem unternehmensspezifischen Netzwerk) vorhanden ist. Zusätzlich kommuniziert die Kommunikationseinheit 103 beispielsweise mit einem Endgerät (z. B. einem Endgerät eines Fußgängers oder eines Geschäfts und einem MTC-Endgerät (Machine Type Communication - Maschinentypkommunikation)), das in der Nähe des Fahrzeugs 10 vorhanden ist, unter Verwendung einer Peer-zu-Peer(P2P)-Technologie. Darüber hinaus führt die Kommunikationseinheit 103 zum Beispiel eine V2X-Kommunikation wie etwa eine Fahrzeug-zu-Fahrzeug-Kommunikation, eine Fahrzeug-zu-Infrastruktur-Kommunikation, eine Fahrzeug-zu-Haus-Kommunikation zwischen dem Fahrzeug 10 und einem Haus oder eine Fahrzeug-zu-Fußgänger-Kommunikation aus. Ferner weist die Kommunikationseinheit 103 beispielsweise einen Beacon-Empfänger auf, empfängt eine Funkwelle oder eine elektromagnetische Welle, die von einer auf einer Straße oder dergleichen installierten Funkstation gesendet wird, und erfasst dadurch Informationen bezüglich des aktuellen Standorts, der Überlastung, der Verkehrsregelung, der notwendigen Zeit oder dergleichen.
Das fahrzeuginterne Gerät 104 schließt zum Beispiel ein mobiles Gerät oder ein tragbares Gerät, die ein Mitfahrer besitzt, ein Informationsgerät, das in das Fahrzeug 10 getragen wird oder an diesem angebracht ist, eine Navigationseinrichtung, die nach einem Weg zu einem beliebigen Zielort sucht, und dergleichen ein.
Die Ausgabesteuereinheit 105 steuert die Ausgabe verschiedener Arten von Informationen an den Mitfahrer des Fahrzeugs 10 oder eine Außenseite des Fahrzeugs 10. Beispielsweise erzeugt die Ausgabesteuereinheit 105 ein Ausgabesignal, das visuelle Informationen (wie etwa Bilddaten) und/oder Audioinformationen (wie etwa Tondaten) enthält, liefert das Ausgabesignal an die Ausgabeeinheit 106 und steuert dadurch die Ausgabe der visuellen Informationen und der Audioinformationen von der Ausgabeeinheit 106. Insbesondere kombiniert die Ausgabesteuereinheit 105 zum Beispiel Bilddatenelemente, die durch verschiedene Bildgebungseinrichtungen der Datenerfassungseinheit 102 aufgenommen wurden, erzeugt ein Vogelperspektivenbild, ein Panoramabild oder dergleichen und liefert ein Ausgabesignal einschließlich des erzeugten Bildes an die Ausgabeeinheit 106. Außerdem erzeugt die Ausgabesteuereinheit 105 zum Beispiel Tondaten einschließlich eines Warntons, einer Warnnachricht oder dergleichen bezüglich einer Gefahr, wie etwa einer Kollision, eines Kontakts oder eines Eintritts in eine Gefahrenzone, und liefert ein Ausgabesignal einschließlich der erzeugten Tondaten an die Ausgabeeinheit 106.
Die Ausgabeeinheit 106 weist eine Einrichtung auf, die in der Lage ist, die visuellen Informationen oder die Audioinformationen an den Mitfahrer oder die Außenseite des Fahrzeugs 10 auszugeben. Zum Beispiel weist die Ausgabeeinheit 106 eine Anzeigeeinrichtung, ein Instrumentenfeld, einen Audiolautsprecher, Kopfhörer, eine Wearable-Vorrichtung, wie etwa eine Anzeige vom Brillentyp, die von dem Mitfahrer oder dergleichen getragen wird, einen Projektor, eine Lampe oder dergleichen auf. Anstelle einer Einrichtung mit einer üblichen Anzeige kann die in der Ausgabeeinheit 106 enthaltene Anzeigeeinrichtung beispielsweise eine Einrichtung sein, die die visuellen Informationen in einem Sichtfeld des Fahrers anzeigt, wie etwa eine Head-up-Anzeige, eine transparente Anzeige, eine Einrichtung mit einer AR-Anzeigefunktion (AR - erweiterte Realität).
Die Antriebsstrangsteuereinheit 107 erzeugt verschiedene Arten von Steuersignalen, liefert sie an das Antriebsstrangsystem 108 und steuert dadurch das Antriebsstrangsystem 108. Zusätzlich liefert die Antriebsstrangsteuereinheit 107 bei Bedarf die Steuersignale an die jeweiligen Strukturelemente außer dem Antriebsstrangsystem 108 und benachrichtigt sie über einen Steuerzustand des Antriebsstrangsystems 108 oder dergleichen.
Das Antriebsstrangsystem 108 weist verschiedene Arten von Einrichtungen auf, die sich auf den Antriebsstrang des Fahrzeugs 10 beziehen. Beispielsweise weist das Antriebsstrangsystem 108 Folgendes auf: eine Antriebskrafterzeugungseinrichtung zum Erzeugen der Antriebskraft eines Verbrennungsmotors, eines Antriebsmotors oder dergleichen, einen Antriebskraftübertragungsmechanismus zum Übertragen der Antriebskraft auf Räder, einen Lenkmechanismus zum Anpassen des Lenkwinkels, eine Bremseinrichtung zum Erzeugen einer Bremskraft, ein Antiblockiersystem (ABS), ein elektronisches Stabilitätskontrollsystem (ESC-System), eine elektrische Servolenkeinrichtung und dergleichen.
Die Karosseriesteuereinheit 109 erzeugt verschiedene Arten von Steuersignalen, liefert sie an das Karosseriesystem 110 und steuert dadurch das Karosseriesystem 110. Zusätzlich liefert die Karosseriesteuereinheit 109 bei Bedarf die Steuersignale an die jeweiligen Strukturelemente außer dem Karosseriesystem 110 und benachrichtigt sie über einen Steuerzustand des Karosseriesystems 110 oder dergleichen.
Das Karosseriesystem 110 weist verschiedene Arten von Karosserieeinrichtungen auf, die in einer Fahrzeugkarosserie installiert sind. Beispielsweise weist das Karosseriesystem 110 Folgendes auf: ein schlüsselloses Zugangssystem, ein Smart-Key-System, eine elektrische Fenstereinrichtung, einen elektrischen Sitz, das Lenkrad, eine Klimaanlage, verschiedene Arten von Lampen (wie etwa zum Beispiel Scheinwerfer, Rückleuchten, Bremslichter, Richtungsanzeigelampen und Nebelscheinwerfer) und dergleichen.
Die Speicherungseinheit 111 schließt zum Beispiel einen Nur-Lese-Speicher (ROM), einen Direktzugriffsspeicher (RAM), eine magnetische Speicherungsvorrichtung wie etwa eine Festplatte (HDD), eine Halbleiterspeicherungsvorrichtung, eine optische Speicherungsvorrichtung, eine magnetooptische Speicherungsvorrichtung oder dergleichen ein. Die Speicherungseinheit 111 speichert verschiedene Arten von Programmen und Daten, die von jeweiligen Strukturelementen des Fahrzeugsteuersystems 100 verwendet werden, oder dergleichen. Beispielsweise speichert die Speicherungseinheit 11 Kartendaten wie etwa dreidimensionale hochgenaue Karten, globale Karten und lokale Karten. Die hochgenaue Karte ist eine dynamische Karte oder dergleichen. Die globale Karte weist eine geringere Genauigkeit als die hochgenaue Karte auf, deckt jedoch einen größeren Bereich als die hochgenaue Karte ab. Die lokale Karte weist Informationen bezüglich der Umgebung des Fahrzeugs 10 auf.
Die Autonomes-Fahren-Steuereinheit 112 führt eine Steuerung in Bezug auf das autonome Fahren wie etwa autonome Fortbewegung oder Fahrassistenz durch. Insbesondere führt die Autonomes-Fahren-Steuereinheit 112 beispielsweise eine kooperative Steuerung durch, die zum Implementieren von Funktionen eines Fahrassistenzsystems (FAS) vorgesehen ist, dessen Funktionen eine Kollisionsvermeidung oder Stoßabschwächung für das Fahrzeug 10, eine Folgefahrt basierend auf einer Folgeentfernung, eine Fahrt mit Geschwindigkeitsbeibehaltung, eine Kollisionswarnung für das Fahrzeug 10, eine Spurverlassenwarnung für das Fahrzeug 10 oder dergleichen beinhalten. Zusätzlich ist es beispielsweise auch möglich, dass die Autonomes-Fahren-Steuereinheit 112 eine kooperative Steuerung durchführt, die für autonomes Fahren vorgesehen ist, die es dem Fahrzeug ermöglicht, autonom zu fahren, ohne von der vom Fahrer ausgeführten Operation oder dergleichen abhängig zu sein. Die Autonomes-Fahren-Steuereinheit 112 weist eine Detektionseinheit 131, eine Eigenstandortschätzungseinheit 132, eine Situationsanalyseeinheit 133, eine Planungseinheit 134 und eine Verhaltenssteuereinheit 135 auf.
Die Autonomes-Fahren-Steuereinheit 112 enthält für einen Computer erforderliche Hardware, wie etwa zum Beispiel eine CPU, ein RAM und ein ROM.
Verschiedene Arten von
Informationsverarbeitungsverfahren werden ausgeführt, wenn die CPU ein Programm in den RAM lädt und das Programm ausführt. Das Programm wird vorab im ROM aufgezeichnet.
Die spezifische Konfiguration der Autonomes-Fahren-Steuereinheit 112 ist nicht beschränkt. Beispielsweise ist es möglich, eine programmierbare Logikvorrichtung (PLD) wie etwa ein feldprogrammierbares Gate-Array (FPGA) oder eine andere Vorrichtung wie etwa eine anwendungsspezifische integrierte Schaltung (ASIC) zu verwenden.
Wie in 2 veranschaulicht, weist die Autonomes-Fahren-Steuereinheit 112 eine Detektionseinheit 131, eine Eigenstandortschätzungseinheit 132, eine Situationsanalyseeinheit 133, eine Planungseinheit 134 und die Verhaltenssteuereinheit 135 auf. Beispielsweise wird jeder der Funktionsblöcke konfiguriert, wenn die CPU der Autonomes-Fahren-Steuereinheit 112 ein vorbestimmtes Programm ausführt.
Die Detektionseinheit 131 detektiert verschiedene Arten von Informationen, die zur Steuerung des autonomen Fahrens erforderlich sind. Die Detektionseinheit 131 weist eine Fahrzeugaußeninformationen-Detektionseinheit 141, eine Fahrzeuginneninformationen-Detektionseinheit 142 und eine Fahrzeugzustand-Detektionseinheit 143 auf.
Die Fahrzeugaußeninformationen-Detektionseinheit 141 führt einen Prozess zum Detektieren von Informationen bezüglich einer Außenseite des Fahrzeugs 10 auf Basis von Daten oder Signalen von den jeweiligen Einheiten des Fahrzeugsteuersystems 100 durch. Zum Beispiel führt die Fahrzeugaußeninformationen-Detektionseinheit 141 einen Detektionsprozess, einen Erkennungsprozess, einen Verfolgungsprozess von Objekten im Umfeld des Fahrzeugs 10 und einen Prozess zum Detektieren von Abständen zu den Objekten durch. Beispiele für ein Detektionszielobjekt schließen ein Fahrzeug, eine Person, ein Hindernis, eine Struktur, eine Straße, eine Ampel, ein Verkehrszeichen, ein Straßenschild und dergleichen ein. Zusätzlich führt die Fahrzeugaußeninformationen-Detektionseinheit 141 beispielsweise einen Prozess zum Detektieren einer Umgebung im Umfeld des Fahrzeugs 10 durch. Beispiele für die umliegende Umgebung, die als ein Detektionsziel dient, schließen Wetter, Temperatur, Luftfeuchtigkeit, Helligkeit, ein Straßenoberflächenzustand und dergleichen ein. Die Fahrzeugaußeninformationen-Detektionseinheit 141 liefert Daten, die Ergebnisse der Detektionsprozesse angeben, an die Eigenstandortschätzungseinheit 132, eine Kartenanalyseeinheit 151, eine Verkehrsregelerkennungseinheit 152 und eine Situationserkennungseinheit 153 der Situationsanalyseeinheit 133, eine Notfallereignisvermeidungseinheit 171 der Verhaltenssteuereinheit 135 und dergleichen.
Zusätzlich erzeugt gemäß der vorliegenden Ausführungsform die Fahrzeugaußeninformationen-Detektionseinheit 141 Lerndaten, die zum maschinellen Lernen verwendet werden sollen. Dementsprechend ist die Fahrzeugaußeninformationen-Detektionseinheit 141 in der Lage, sowohl einen Prozess zum Detektieren von Informationen bezüglich der Außenseite des Fahrzeugs 10 als auch einen Prozess zum Erzeugen der Lerndaten auszuführen.
Die Fahrzeuginneninformationen-Detektionseinheit 142 führt einen Prozess zum Detektieren von Informationen bezüglich einer Innenseite des Fahrzeugs auf Basis von Daten oder Signalen von den jeweiligen Einheiten des Fahrzeugsteuersystems 100 durch. Beispielsweise führt die Fahrzeuginneninformationen-Detektionseinheit 142 Prozesse zum Authentifizieren und Detektieren des Fahrers, einen Prozess zum Detektieren eines Zustands des Fahrers, einen Prozess zum Detektieren eines Mitfahrers, einen Prozess zum Detektieren einer Fahrzeuginnenumgebung und dergleichen durch. Beispiele für den Zustand des Fahrers, der ein Detektionsziel ist, schließen einen Gesundheitszustand, einen Bewusstheitsgrad, einen Konzentrationsgrad, einen Ermüdungsgrad, eine Blickrichtung und dergleichen ein. Beispiele für die Fahrzeuginnenumgebung, die ein Detektionsziel ist, schließen Temperatur, Luftfeuchtigkeit, Helligkeit, Geruch und dergleichen ein. Die Fahrzeuginneninformationen-Detektionseinheit 142 liefert Daten, die Ergebnisse der Detektionsprozesse angeben, an die Situationserkennungseinheit 153 der Situationsanalyseeinheit 133, die Notfallereignisvermeidungseinheit 171 der Verhaltenssteuereinheit 135 und dergleichen.
Die Fahrzeugzustand-Detektionseinheit 143 führt einen Prozess zum Detektieren eines Zustands des Fahrzeugs 10 auf Basis von Daten oder Signalen von den jeweiligen Einheiten des Fahrzeugsteuersystems 100 durch. Beispiele für den Zustand des Fahrzeugs 10, das ein Detektionsziel ist, schließen Geschwindigkeit, Beschleunigung, einen Lenkwinkel, Vorhandensein/Nichtvorhandensein einer Anomalie, einen Inhalt der Anomalie, einen Zustand des Fahrbetriebs, eine Position und Neigung des elektrischen Sitzes, einen Zustand eines Türschlosses, Zustände anderer fahrzeuginterner Geräte und dergleichen ein. Die Fahrzeugzustand-Detektionseinheit 143 liefert Daten, die Ergebnisse des Detektionsprozesses angeben, an die Situationserkennungseinheit 153 der Situationsanalyseeinheit 133, die Notfallereignisvermeidungseinheit 171 der Verhaltenssteuereinheit 135 und dergleichen.
Die Eigenstandortschätzungseinheit 132 führt einen Prozess zum Schätzen eines Standorts, einer Stellung und dergleichen des Fahrzeugs 10 auf Basis von Daten oder Signalen von den jeweiligen Einheiten des Fahrzeugsteuersystems 100 durch, wie etwa der Fahrzeugaußeninformationen-Detektionseinheit 141 und der Situationserkennungseinheit 153 der Situationsanalyseeinheit 133. Zusätzlich erzeugt die Eigenstandortschätzungseinheit 132 nach Bedarf eine lokale Karte (im Folgenden als Eigenstandortschätzungskarte bezeichnet), die zum Schätzen eines Eigenstandorts verwendet werden soll. Beispielsweise kann die Eigenstandortschätzungskarte eine hochgenaue Karte sein, die eine Technologie wie etwa simultane Positionierung und Kartenerstellung (SLAM) verwendet. Die Eigenstandortschätzungseinheit 132 liefert Daten, die ein Ergebnis des Schätzungsprozesses angeben, an die Kartenanalyseeinheit 151, die Verkehrsregelerkennungseinheit 152 und die Situationserkennungseinheit 153 der Situationsanalyseeinheit 133 und dergleichen. Außerdem veranlasst die Eigenstandortschätzungseinheit 132, dass die Speicherungseinheit 111 die Eigenstandortschätzungskarte speichert.
Nachfolgend kann manchmal der Prozess zum Schätzen des Standorts, der Stellung und dergleichen des Fahrzeugs 10 als Eigenstandortschätzungsverarbeitung bezeichnet werden. Zusätzlich können die Informationen bezüglich des Standorts und der Stellung des Fahrzeugs 10 als Standort-/Stellungsinformationen bezeichnet werden. Daher ist die Eigenstandortschätzungsverarbeitung, die durch die Eigenstandortschätzungseinheit 132 ausgeführt wird, der Prozess zum Schätzen der Standort-/Stellungsinformationen des Fahrzeugs 10.
Die Situationsanalyseeinheit 133 führt einen Prozess zum Analysieren einer Situation des Fahrzeugs 10 und einer Situation im Umfeld des Fahrzeugs 10 durch. Die Situationsanalyseeinheit 133 weist die Kartenanalyseeinheit 151, die Verkehrsregelerkennungseinheit 152, die Situationserkennungseinheit 153 und eine Situationsvorhersageeinheit 154 auf.
Die Kartenanalyseeinheit 151 führt einen Prozess zum Analysieren verschiedener Arten von in der Speicherungseinheit 111 gespeicherten Karten durch und erstellt eine Karte einschließlich Informationen, die für einen autonomen Fahrprozess erforderlich sind, während Daten oder Signale nach Bedarf von den jeweiligen Einheiten des Fahrzeugsteuersystems 100 wie etwa der Eigenstandortschätzungseinheit 132 und der Fahrzeugaußeninformationen-Detektionseinheit 141 verwendet werden. Die Kartenanalyseeinheit 151 liefert die erstellte Karte an die Verkehrsregelerkennungseinheit 152, die Situationserkennungseinheit 153, die Situationsvorhersageeinheit 154 und dergleichen sowie eine Routenplanungseinheit 161, eine Handlungsplanungseinheit 162 und eine Verhaltensplanungseinheit 163 der Planungseinheit 134.
Die Verkehrsregelerkennungseinheit 152 führt einen Prozess zum Erkennen von Verkehrsregeln im Umfeld des Fahrzeugs 10 auf Basis von Daten oder Signalen von den jeweiligen Einheiten des Fahrzeugsteuersystems 100 durch, wie etwa der Eigenstandortschätzungseinheit 132, der Fahrzeugaußeninformationen-Detektionseinheit 141 und der Kartenanalyseeinheit 151. Der Erkennungsprozess ermöglicht es beispielsweise, Standorte und Zustände von Ampeln im Umfeld des Fahrzeugs 10, Inhalte von Verkehrssteuerungen im Umfeld des Fahrzeugs 10, eine befahrbare Fahrspur und dergleichen zu erkennen. Die Verkehrsregelerkennungseinheit 152 liefert Daten, die ein Ergebnis des Erkennungsprozesses angeben, an die Situationsvorhersageeinheit 154 oder dergleichen.
Die Situationserkennungseinheit 153 führt einen Prozess zum Erkennen von Situationen bezüglich des Fahrzeugs 10 auf Basis von Daten oder Signalen von den jeweiligen Einheiten des Fahrzeugsteuersystems 100 durch, wie etwa der Eigenstandortschätzungseinheit 132, der Fahrzeugaußeninformationen-Detektionseinheit 141, der Fahrzeuginneninformationen-Detektionseinheit 142, der Fahrzeugzustand-Detektionseinheit 143 und der Kartenanalyseeinheit 151. Beispielsweise führt die Situationserkennungseinheit 153 einen Prozess zum Erkennen einer Situation des Fahrzeugs 10, einer Situation im Umfeld des Fahrzeugs 10, einer Situation des Fahrers des Fahrzeugs 10 und dergleichen durch. Zusätzlich erzeugt die Situationserkennungseinheit 153 nach Bedarf eine lokale Karte (im Folgenden als Situationserkennungskarte bezeichnet), die zum Erkennen der Situation im Umfeld des Fahrzeugs 10 verwendet werden soll. Beispielsweise kann die Situationserkennungskarte eine Belegtheitsgitterkarte sein.
Beispiele für die Situation des Fahrzeugs 10, das ein Erkennungsziel ist, schließen einen Standort, eine Stellung und eine Bewegung (wie etwa beispielsweise Geschwindigkeit, Beschleunigung oder eine Bewegungsrichtung) des Fahrzeugs 10, Vorhandensein/Nichtvorhandensein einer Anomalie, Inhalt der Anomalie und dergleichen ein. Beispiele für die Situation im Umfeld des Fahrzeugs 10, das ein Erkennungsziel ist, schließen Typen und Standorte umliegender stillstehender Objekte, Typen, Standorte und Bewegungen (wie etwa beispielsweise Geschwindigkeit, Beschleunigung und Bewegungsrichtungen) umliegender
sich bewegender Objekte, Zusammensetzungen umliegender Straßen, Zustände von Straßenoberflächen, Umgebungswetter, Temperatur, Luftfeuchtigkeit, Helligkeit und dergleichen ein. Beispiele für den Zustand des Fahrers, der ein Detektionsziel ist, schließen einen Gesundheitszustand, einen Bewusstheitsgrad, einen Konzentrationsgrad, einen Ermüdungsgrad, eine Blickrichtung, einen Fahrbetrieb und dergleichen ein.
Die Situationserkennungseinheit 153 liefert Daten, die ein Ergebnis des Erkennungsprozesses angeben (einschließlich der Situationserkennungskarte, falls erforderlich), an die Eigenstandortschätzungseinheit 132 und die Situationsvorhersageeinheit 154. Außerdem veranlasst die Situationserkennungseinheit 153, dass die Speicherungseinheit 111 die Situationserkennungskarte speichert.
Die Situationsvorhersageeinheit 154 führt einen Prozess zum Vorhersagen einer Situation bezüglich des Fahrzeugs 10 auf Basis von Daten oder Signalen von den jeweiligen Einheiten des Fahrzeugsteuersystems 100 durch, wie etwa der Kartenanalyseeinheit 151, der Verkehrsregelerkennungseinheit 152 und der Situationserkennungseinheit 153. Beispielsweise führt die Situationsvorhersageeinheit 154 einen Prozess zum Vorhersagen einer Situation des Fahrzeugs 10, einer Situation im Umfeld des Fahrzeugs 10, einer Situation des Fahrers und dergleichen durch.
Beispiele für die Situation des Fahrzeugs 10, das ein Vorhersageziel ist, schließen das Verhalten des Fahrzeugs 10, das Auftreten einer Anomalie, eine fahrbare Distanz und dergleichen ein. Beispiele für die Situation im Umfeld des Fahrzeugs 10, das ein Vorhersageziel ist, schließen das Verhalten von sich bewegenden Objekten, die Änderung des Zustands von Ampeln, die Änderung von Umgebungen wie etwa das Wetter und dergleichen im Umfeld des Fahrzeugs 10 ein. Beispiele für die Situation des Fahrers, der ein Vorhersageziel ist, schließen Verhalten, einen Gesundheitszustand und dergleichen des Fahrers ein.
Die Situationsvorhersageeinheit 154 liefert Daten, die ein Ergebnis des Vorhersageprozesses angeben, zusätzlich zu den Daten von der Verkehrsregelerkennungseinheit 152 und der Situationserkennungseinheit 153, an die Routenplanungseinheit 161, die Handlungsplanungseinheit 162 und die Verhaltensplanungseinheit 163 und dergleichen der Planungseinheit 134.
Die Routenplanungseinheit 161 plant eine Route zu einem Zielort auf Basis von Daten oder Signalen von den jeweiligen Einheiten des Fahrzeugsteuersystems 100, wie etwa der Kartenanalyseeinheit 151 und der Situationsvorhersageeinheit 154. Beispielsweise legt die Routenplanungseinheit 161 einen Zielpfad auf Basis der globalen Karte fest. Der Zielpfad ist eine Route von einem aktuellen Standort zu einem designierten Zielort. Darüber hinaus ändert die Routenplanungseinheit 161 beispielsweise die Route in geeigneter Weise auf Basis eines Gesundheitszustands eines Fahrers, einer Situation wie etwa einer Überlastung, eines Unfalls, einer Verkehrsregelung und von Straßenarbeiten usw. Die Routenplanungseinheit 161 liefert Daten, die die geplante Route repräsentieren, an die Handlungsplanungseinheit 162 oder dergleichen.
Gemäß der vorliegenden Ausführungsform überträgt die Servereinrichtung 30 eine Kostenfunktion in Bezug auf die Bewegung des Fahrzeugs 10 über das Netzwerk 20 zu der Autonomes-Fahren-Steuereinheit 112. Die Routenplanungseinheit 161 berechnet auf Basis der empfangenen Kostenfunktion einen Kurs, auf dem sich das Fahrzeug 10 bewegen soll, und spiegelt den berechneten Kurs im Routenplan angemessen wider.
Beispielsweise wird eine Kostenkarte erzeugt, indem Informationen, die sich auf die Bewegung des Fahrzeugs 10 beziehen, in die Kostenfunktion eingegeben werden. Beispiele für Informationen, die sich auf die Bewegung des Fahrzeugs 10 beziehen, schließen den Standort des Fahrzeugs 10, Umgebungsinformationen des Fahrzeugs 10 und die Geschwindigkeit des Fahrzeugs 10 ein. Natürlich sind die Informationen nicht darauf beschränkt. Es ist auch möglich, beliebige Informationen zu verwenden, die sich auf die Bewegung des Fahrzeugs 10 beziehen. Manchmal ist es möglich, einen Teil der Informationen zu verwenden.
Ein Kurs mit den minimalen Kosten wird auf Basis der berechneten Kostenkarte berechnet. Es ist zu beachten, dass die Kostenkarte als ein in der Kostenfunktion enthaltenes Konzept angesehen werden kann. Daher ist es auch möglich, den Kurs mit den minimalen Kosten zu berechnen, indem die Informationen bezüglich der Bewegung des Fahrzeugs 10 in die Kostenfunktion eingegeben werden.
Die Art der zu berechnenden Kosten ist nicht beschränkt. Eine beliebige Art von Kosten kann festgelegt werden. Zum Beispiel ist es möglich, beliebige Kosten festzulegen, wie etwa dynamische Hinderniskosten, statische Hinderniskosten, Kosten, die dem Typ eines Hindernisses entsprechen, Zielgeschwindigkeitsfolgekosten, Zielpfadfolgekosten, Geschwindigkeitsänderungskosten, Lenkungsänderungskosten oder eine Kombination davon.
Zum Beispiel ist es möglich, angemessen Kosten festzulegen, um einen Kurs zu berechnen, der einen vom Benutzer gewünschten Fahrmodus erfüllt. Zum Beispiel werden die Kosten angemessen festgelegt, um einen Kurs zu berechnen, der einen Annäherungsgrad an einen Zielort, einen Sicherheitsgrad in Bezug auf die Bewegung, einen Komfortgrad in Bezug auf die Bewegung oder dergleichen, der vom Benutzer gewünscht wird, erfüllt. Es ist zu beachten, dass der oben beschriebene Annäherungsgrad an den Zielort und dergleichen Konzepte sind, die als Evaluierungsparameter des Benutzers bezeichnet werden, die verwendet werden sollen, wenn eine Kostenfunktionsoptimierung (die später beschrieben wird) ausgeführt wird. Einzelheiten solcher Konzepte werden später beschrieben.
Es ist möglich, die zu berechnenden Kosten angemessen festzulegen, indem ein Parameter festgelegt wird, der die Kostenfunktion definiert (Kostenkarte). Zum Beispiel ist es möglich, Hinderniskosten zu berechnen, indem ein Abstand zu einem Hindernis, eine Geschwindigkeit und eine Richtung eines eigenen Fahrzeugs und dergleichen als Parameter angemessen festgelegt werden. Darüber hinaus ist es möglich, Zielfolgekosten zu berechnen, indem ein Abstand zu einem Zielpfad als ein Parameter angemessen festgelegt wird. Natürlich ist das Festlegen der Parameter nicht auf das oben beschriebene Festlegen beschränkt.
Das Bewegungssteuerungssystem 500 gemäß der vorliegenden Ausführungsform berechnet einen Kurs mit den geringsten Kosten durch Eingeben von Informationen bezüglich der Bewegung des Fahrzeugs 10 in eine Kostenfunktion in dem Fall, in dem eine beliebige Art von Kosten festgelegt ist, das heißt in dem Fall, in dem ein beliebiger Parametertyp als ein Parameter zur Definition der Kostenfunktion (Kostenkarte) festgelegt wird. Einzelheiten davon werden später beschrieben.
Die Handlungsplanungseinheit 162 plant Handlungen des Fahrzeugs 10, um ein sicheres Fahren entlang einer durch die Routenplanungseinheit 161 geplanten Route innerhalb eines geplanten Zeitraums zu erreichen, auf Basis von Daten oder Signalen von den jeweiligen Einheiten des Fahrzeugsteuersystems 100 wie etwa der Kartenanalyseeinheit 151 und der Situationsvorhersageeinheit 154. Beispielsweise plant die Handlungsplanungseinheit 162 einen Bewegungsbeginn, einen Bewegungsstopp, eine Bewegungsrichtung (z. B. vorwärts, rückwärts, links abbiegen, rechts abbiegen, Richtungswechsel oder dergleichen), eine Fahrspur, Fahrgeschwindigkeit, Überholen oder dergleichen. Die Handlungsplanungseinheit 162 liefert Daten, die die geplanten Handlungen des Fahrzeugs 10 repräsentieren, an die Verhaltensplanungseinheit 163 oder dergleichen.
Die Verhaltensplanungseinheit 163 plant das Verhalten des Fahrzeugs 10 zum Durchführen der durch die Handlungsplanungseinheit 162 geplanten Handlungen auf Basis von Daten oder Signalen von den jeweiligen Einheiten des Fahrzeugsteuersystems 100, wie etwa der Kartenanalyseeinheit 151 und der Situationsvorhersageeinheit 154. Beispielsweise plant die Verhaltensplanungseinheit 163 Beschleunigung, Verzögerung, einen Fahrkurs oder dergleichen. Die Verhaltensplanungseinheit 163 liefert Daten, die das geplante Verhalten des Fahrzeugs 10 repräsentieren, an eine Beschleunigungs-/Verzögerungssteuereinheit 172, eine Richtungssteuereinheit 173 und dergleichen in der Verhaltenssteuereinheit 135.
Die Verhaltenssteuereinheit 135 steuert das Verhalten des Fahrzeugs 10. Die Verhaltenssteuereinheit 135 weist die Notfallereignisvermeidungseinheit 171,
die Beschleunigungs-/Verzögerungssteuereinheit 172 und die Richtungssteuereinheit 173 auf.
Die Notfallereignisvermeidungseinheit 171 führt einen Prozess zum Detektieren eines Notfallereignisses wie etwa Kollision, Kontakt,
Eintritt in eine Gefahrenzone, Anomalie eines Zustands des Fahrers oder Anomalie eines Zustands des Fahrzeugs 10 auf Basis von durch die Fahrzeugaußeninformationen-Detektionseinheit 141, die Fahrzeuginneninformationen-Detektionseinheit 142 und die Fahrzeugzustand-Detektionseinheit 143 erhaltenen Detektionsergebnissen durch. In dem Fall, in dem das Auftreten des Notfallereignisses detektiert wird, plant die Notfallereignisvermeidungseinheit 171 das Verhalten des Fahrzeugs 10, wie etwa einen Schnellstopp oder eine schnelle Wendung zur Vermeidung des Notfallereignisses. Die Notfallereignisvermeidungseinheit 171 liefert Daten, die das geplante Verhalten des Fahrzeugs 10 angeben, an die Beschleunigungs-/Verzögerungssteuereinheit 172, die Richtungssteuereinheit 173 und dergleichen.
Die Beschleunigungs-/Verzögerungssteuereinheit 172 steuert die Beschleunigung/Verzögerung, um das durch die Verhaltensplanungseinheit 163 oder die Notfallereignisvermeidungseinheit 171 geplante Verhalten des Fahrzeugs 10 zu erreichen. Beispielsweise berechnet die Beschleunigungs-/Verzögerungssteuereinheit 172 einen Steuerzielwert der Antriebskrafterzeugungseinrichtung oder der Bremseinrichtung, um die geplante Beschleunigung, Verzögerung oder den Schnellstopp zu erreichen, und liefert eine Steueranweisung, die den berechneten Steuerzielwert angibt, an die Antriebsstrangsteuereinheit 107.
Die Richtungssteuereinheit 173 steuert eine Richtung zum Erreichen des Verhaltens des Fahrzeugs 10, das durch die Verhaltensplanungseinheit 163 oder die Notfallereignisvermeidungseinheit 171 geplant ist. Beispielsweise berechnet die Richtungssteuereinheit 173 einen Steuerzielwert des Lenkmechanismus, um einen Fahrkurs oder eine schnelle Wendung zu erreichen, die durch die Verhaltensplanungseinheit 163 oder die Notfallereignisvermeidungseinheit 171 geplant sind, und liefert eine Steueranweisung, die den berechneten Steuerzielwert angibt, an die Antriebsstrangsteuereinheit 107.
4 ist ein Blockdiagramm, das ein Funktionskonfigurationsbeispiel der Servereinrichtung 30 veranschaulicht. 5 ist ein Flussdiagramm, das ein Beispiel zum Erzeugen einer Kostenfunktion durch die Servereinrichtung 30 veranschaulicht
Die Servereinrichtung 30 weist zum Konfigurieren eines Computers erforderliche Hardware auf, wie etwa beispielsweise eine CPU, einen ROM, einen RAM und eine HDD. Die in 4 veranschaulichten jeweiligen Blöcke werden konfiguriert und ein Informationsverarbeitungsverfahren gemäß der vorliegenden Technologie wird ausgeführt, wenn die CPU ein Programm in den RAM lädt und das Programm ausführt. Das Programm bezieht sich auf die vorliegende Technologie und wird im Voraus auf dem ROM oder dergleichen aufgezeichnet.
Beispielsweise kann die Servereinrichtung 30 durch einen beliebigen Computer wie etwa einen Personal Computer (PC) implementiert werden. Natürlich ist es auch möglich, Hardware wie etwa ein FPGA oder eine ASIC zu verwenden. Zusätzlich ist es auch möglich, dedizierte Hardware wie etwa eine integrierte Schaltung (IC) zu verwenden, um die in 4 veranschaulichten jeweiligen Blöcke zu implementieren.
Das Programm wird beispielsweise über verschiedene Arten von Aufzeichnungsmedien in der Servereinrichtung 30 installiert. Alternativ ist es auch möglich, das Programm über das Internet zu installieren.
Wie in 4 veranschaulicht, weist die Servereinrichtung 30 eine Trainingsdatenerfassungseinheit 31, eine Kostenfunktionsberechnungseinheit 32, eine Optimierungsverarbeitungseinheit 33 und eine Kostenfunktionsevaluierungseinheit 34 auf.
Die Trainingsdatenerfassungseinheit 31 erfasst Trainingsdaten zum Berechnen einer Kostenfunktion aus der Datenbank 25 (Schritt 101). Die Trainingsdaten weisen Kursdaten auf, die sich auf einen Kurs beziehen, auf dem sich jedes Fahrzeug 10 bewegt hat. Zusätzlich weisen die Trainingsdaten auch Bewegungssituationsinformationen auf, die sich auf einen Zustand des Fahrzeugs 10 beziehen, der bei einer Bewegung des Fahrzeugs 10 entlang des Kurses erhalten wird. Beispiele für die Bewegungssituationsinformationen können beliebige Informationen wie etwa Informationen bezüglich eines Gebiets, in dem sich das Fahrzeug 10 bewegt hat, Geschwindigkeit und einen Winkel des sich bewegenden Fahrzeugs 10, die bei einer Bewegung des Fahrzeugs 10 erhalten werden, Umgebungsinformationen des Fahrzeugs 10 (Vorhandensein oder Nichtvorhandensein eines Hindernisses, einen Abstand zum Hindernis und dergleichen), Farbinformationen einer Straße, Zeitinformationen oder Wetterinformationen einschließen.
In der Regel werden Informationen, die die Extraktion eines eine Kostenfunktion (Kostenkarte) definierenden Parameters ermöglichen, als die Bewegungssituationsinformationen erfasst und als die Trainingsdaten verwendet. Natürlich ist es für die Bewegungssituationsinformationen möglich, den die Kostenfunktion (Kostenkarte) definierenden Parameter selbst zu erfassen.
Gemäß der vorliegenden Ausführungsform werden Bewegungsinformationen einschließlich der Bewegungssituationsinformationen und der Kursdaten, die sich auf Kurse beziehen, auf denen sich die Fahrzeuge 10 bewegt haben, in geeigneter Weise in der Servereinrichtung von den Fahrzeugen 10 über das Netzwerk 20 gesammelt. Die Servereinrichtung 30 speichert die empfangenen Bewegungsinformationen in der Datenbank 25. Die von den jeweiligen Fahrzeugen 10 gesammelten Bewegungsinformationen können ohne Änderung als die Trainingsdaten verwendet werden. Alternativ ist es auch möglich, die Trainingsdaten auf Basis der empfangenen Bewegungsinformationen angemessen zu erzeugen. Gemäß der vorliegenden Ausführungsform entspricht die Trainingsdatenerfassungseinheit einer Erfassungseinheit.
Die Kostenfunktionsberechnungseinheit 32 berechnet eine Kostenfunktion in Bezug auf die Bewegung eines mobilen Objekts durch inverses bestärkendes Lernen (IRL) auf Basis der erfassten Trainingsdaten (Schritt 102). Durch das inverse bestärkende Lernen wird die Kostenfunktion derart berechnet, dass die in den Trainingsdaten enthaltenen Kursdaten ein Kurs mit minimalen Kosten sind. Gemäß der vorliegenden Ausführungsform wird die Kostenfunktion durch GPIRL (Gaussian Process Inverse Reinforcement Learning - inverses bestärkendes Lernen mit Gauß-Prozess) berechnet.
Es ist möglich, eine Kostenfunktion für jeden Teil der Kursdaten zu berechnen, die als die Trainingsdaten verwendbar sind. Mit anderen Worten wird eine Kostenfunktion durch das inverse bestärkende Lernen in Bezug auf einen Teil der Kursdaten (Trainingsdaten) berechnet. Natürlich ist die vorliegende Technologie nicht darauf beschränkt. Es ist auch möglich, eine Kostenfunktion in Bezug auf mehrere in den Trainingsdaten enthaltene Elemente der Kursdaten zu berechnen. Gemäß der vorliegenden Ausführungsform entspricht die Kostenfunktionsberechnungseinheit einer Berechnungseinheit.
Es ist zu beachten, dass die Berechnung eines Kurses mit den minimalen Kosten der Berechnung der Kosten mit der maximalen Belohnung entspricht. Die Berechnung einer Kostenfunktion entspricht daher der Berechnung einer Belohnungsfunktion, die eine Berechnung der Belohnung in Bezug auf die Kosten ermöglicht. Im Folgenden wird die Berechnung der Kostenfunktion manchmal als die Berechnung der Belohnungsfunktion bezeichnet.
Die Optimierungsverarbeitungseinheit 33 optimiert die berechnete Kostenfunktion (Schritt 103). Gemäß der vorliegenden Ausführungsform wird die Kostenfunktion durch eine Simulation optimiert. Mit anderen Worten wird das Fahrzeug unter Verwendung der berechneten Kostenfunktion in einem voreingestellten virtuellen Raum bewegt. Die Kostenfunktion wird auf Basis einer solchen Simulation optimiert.
Die Kostenfunktionsevaluierungseinheit 34 evaluiert die optimierten Kostenfunktionen und wählt eine Kostenfunktion mit der höchsten Leistungsfähigkeit als eine wahre Kostenfunktion aus (Schritt 104). Beispielsweise werden die Kostenfunktionen auf Basis
von Simulationsergebnissen bewertet. Die wahre Kostenfunktion wird auf Basis der Bewertungen berechnet. Natürlich ist die vorliegende Technologie nicht darauf beschränkt.
Gemäß der vorliegenden Ausführungsform wird ein Kostenfunktionsgenerator durch die Kostenfunktionsberechnungseinheit 32, die Optimierungsverarbeitungseinheit 33 und die Kostenfunktionsevaluierungseinheit 34 implementiert.
Als Nächstes werden Einzelheiten der jeweiligen in 5 veranschaulichten Schritte beschrieben. Die in 5 veranschaulichten Schritte werden von den jeweiligen in 4 veranschaulichten Blöcken ausgeführt.
6 ist ein schematisches Diagramm, das ein Beispiel der Kostenkarte veranschaulicht. Beispielsweise wird eine zweidimensionale Normalverteilung mit n = 2 in Bezug auf den folgenden Ausdruck auf Basis von Hindernissen 42 (durch Kreuzmarkierungen angegeben), die an einem Startpunkt 41 im Umfeld des Fahrzeugs 10 vorhanden sind, festgelegt.
$f (x) = \frac{1}{{(\sqrt{2 π})}^{n} \sqrt{| Σ |}} exp {- \frac{1}{2} {(x - μ)}^{T} Σ^{- 1} (x - μ)}$
Da die zweidimensionale Normalverteilung festgelegt ist, ist die Kovarianzmatrix Σ im Ausdruck eine 2×2-Matrix und enthält zwei Eigenwerte und zwei zueinander orthogonale Eigenvektoren 43 und 44. Falls hier die Kovarianzmatrix Σ als symmetrische Matrix definiert ist, enthält die Kovarianzmatrix Σ nur einen Eigenwert, und eine Gleichwahrscheinlichkeitsellipse (Konzentrationsellipse) weist eine Kreisform auf.
In einer Kostenkarte 40 wird die Gleichwahrscheinlichkeitsellipse als ein Sicherheitsspielraum 45 festgelegt. Mit anderen Worten ist die Kostenkarte 40 eine Kostenkarte, die auf der Normalverteilung basiert, in der die Sicherheitsspielräume 45 definiert sind. Die Sicherheitsspielräume 45 entsprechen dem Eigenwert der Kovarianzmatrix Σ.
Es ist zu beachten, dass der Sicherheitsspielraum 45 ein Parameter ist, der sich auf einen Abstand zum Hindernis bezieht. Eine Position außerhalb des Radius des Sicherheitsspielraums 45 bedeutet eine sichere Position (zum Beispiel mit den minimalen Kosten), und ein Gebiet innerhalb des Sicherheitsspielraums 45 bedeutet einen gefährlichen Bereich (zum Beispiel mit den maximalen Kosten). Mit anderen Worten ist ein Kurs, der den Sicherheitsspielraum 45 nicht durchläuft, ein Kurs mit geringen Kosten.
Beispielsweise werden Informationen, einschließlich Positionen von Hindernissen im Umfeld des Fahrzeugs 10, als Informationen in Bezug auf die Bewegung des Fahrzeugs 10 in die Kostenfunktion eingegeben. Dies ermöglicht es, die Kostenkarte 40 zu erzeugen, in der die Sicherheitsspielräume 45 mit Größen, die den Eigenwerten der Kovarianzmatrix entsprechen, festgelegt sind. Es ist zu beachten, dass in 6 die Sicherheitsspielräume 45 mit der gleichen Größe in Bezug auf alle Hindernisse 42 festgelegt sind. Es ist jedoch auch möglich, Sicherheitsspielräume 45 mit unterschiedlichen Größen in Bezug auf die jeweiligen Hindernisse 42 festzulegen.
Unter Bezugnahme auf die in 6 veranschaulichte Kostenkarte 40 ist es nicht möglich, einen Kurs zu berechnen, der die Sicherheitsspielräume 45 vom Startpunkt 41 zu einem Zielort 46 nicht durchläuft. Mit anderen Worten ist es in Bezug auf die in 6 veranschaulichte Kostenkarte 40 schwierig, einen geeigneten Kurs vom Startpunkt 41 zum Zielort 46 zu berechnen.
7 ist ein schematisches Diagramm, das ein Beispiel der Trainingsdaten veranschaulicht. Beispielsweise wird angenommen, dass die in 7 veranschaulichten Trainingsdaten erfasst werden. Hier wird zur Vereinfachung der Erklärung angenommen, dass Trainingsdaten einschließlich Kursdaten eines Kurses 47 zum Durchlaufen eines Raums zwischen den Hindernissen 42a und 42b in einem Zustand erfasst werden, in dem sich Hindernisse 42 an denselben Positionen wie die in 6A veranschaulichten Hindernisse 42 befinden. Die Kostenfunktionsberechnungseinheit 32 berechnet eine Kostenfunktion durch das GPIRL auf Basis der Trainingsdaten.
8 ist ein schematisches Diagramm, das ein Beispiel einer Kostenkarte 50 veranschaulicht, die mittels einer Kostenfunktion erzeugt wurde, die auf Basis der in 7 veranschaulichten Trainingsdaten berechnet wurde. Die Kostenfunktion wird unter Verwendung der Kursdaten eines Kurses, auf dem das Fahrzeug 10 tatsächlich den Raum zwischen den Hindernissen 42a und 42b durchlaufen hat, als die Trainingsdaten berechnet (gelernt). Infolgedessen werden die Größen (die Eigenwerte der Kovarianzmatrix) der für die Hindernisse 42a und 42b festgelegten Sicherheitsspielräume 45 angepasst, und dies ermöglicht es, einen geeigneten Kurs 51 vom Startpunkt 41 zum Zielort 46 zu berechnen.
Mit anderen Worten wird die Kostenfunktion auf Basis von Beziehungen zwischen Abständen zu den Hindernissen 42 und dem Kurs gelernt, auf dem sich das Fahrzeug 10 tatsächlich hätte bewegen können, und die Kostenkarte 50 mit verbesserter Genauigkeit wird erzeugt. Es ist zu beachten, dass die Optimierung der Sicherheitsspielräume auch in Bezug auf die anderen Hindernisse 42 als das Hindernis 42a oder das Hindernis 42b angemessen ausgeführt wird.
Es ist zu beachten, dass 7 das Beispiel der Trainingsdaten veranschaulicht, die sich in dem Zustand befinden, in dem sich Hindernisse 42 an denselben Positionen befinden wie die in 6 veranschaulichten Hindernisse 42. Die vorliegende Technologie ist nicht darauf beschränkt. Es ist auch möglich, Kursdaten zu einem anderen Ort mit einer anderen Umgebungssituation als die Trainingsdaten zu verwenden. Durch die Verwendung solcher Trainingsdaten ist es auch möglich, eine Kostenfunktion beispielsweise auf Basis von Beziehungen zwischen Abständen zu den Hindernissen und einem Kurs, auf dem sich das Fahrzeug 10 tatsächlich hätte bewegen können, zu lernen.
Mit anderen Worten ist es möglich, eine Kostenfunktion auf Basis tatsächlicher Kursdaten zu lernen, die angeben, dass es möglich ist, den Raum zwischen Hindernissen zu durchlaufen, die in einem bestimmten Intervall angeordnet sind, unabhängig von einem Standort oder dergleichen. Dies ermöglicht es, die Genauigkeit der Kostenkarte zu verbessern.
In den Kostenkarten 40 und 50 entsprechen die Sicherheitsspielräume Parametern, die die Kostenkarten (Kostenfunktionen) definieren. Durch das Ausführen des inversen bestärkenden Lernens auf Basis der Trainingsdaten ist es möglich, eine Kostenfunktion derart zu berechnen, dass die Sicherheitsspielräume 45 variabel sind.
Gleiches gilt für jegliche Parameter, die eine Kostenkarte (Kostenfunktion) definieren. Mit anderen Worten ist es gemäß der vorliegenden Technologie möglich, eine Kostenfunktion derart zu berechnen, dass jegliche Parameter, die eine Kostenkarte (Kostenfunktion) definieren, variabel sind. Dies ermöglicht es, eine geeignete Kostenfunktion (Kostenkarte) zu erzeugen, die auf eine Bewegungsumgebung zugeschnitten ist, und eine flexible Bewegungssteuerung zu erreichen.
Beispielsweise ist es unter Verwendung einer Kostenkarte, in der Sicherheitsspielräume fest sind, sehr schwierig, einen Kurs an einer überfüllten Kreuzung oder dergleichen zu berechnen, an der viele Fußgänger, Fahrzeuge und dergleichen vorbeifahren. Gemäß der vorliegenden Ausführungsform ist es jedoch möglich, eine Kostenfunktion beispielsweise auf Basis von Trainingsdaten zu lernen, die Kursdaten einschließen, die tatsächliche Kurse angeben, auf denen die Fahrzeuge oder dergleichen die überfüllte Kreuzung überquert haben. Auf diese Weise kann eine Kostenkarte erzeugt werden, in der die Sicherheitsspielräume optimiert werden, und auf diese Weise kann ein geeigneter Kurs berechnet werden.
Als Nächstes wird ein spezifisches Algorithmusbeispiel der Belohnungsfunktion beschrieben, die durch das GPIRL erhalten wird. Wie oben beschrieben, entspricht die Berechnung einer Belohnungsfunktion der Berechnung einer Kostenfunktion.
Zunächst repräsentiert der folgende Ausdruck, wie durch den folgenden Ausdruck angegeben, eine Belohnungsfunktion r(s) eines Zustands s durch lineare Abbildung einer nichtlinearen Funktion. Der Zustand s kann durch beliebige Parameter definiert werden, die sich auf einen aktuellen Zustand beziehen, wie etwa beispielsweise eine Gitterposition einer Gitterkarte, eine Geschwindigkeit, eine Richtung und dergleichen des Fahrzeugs 10.
$\begin{array}{l} r (s) = α ϕ (s) \\ wobei α = [α_{1} \dots α_{d}], {[ϕ_{1} (s) \dots ϕ_{d} (s)]}^{T} \end{array}$
φ_d(x) ist eine Funktion, die eine Merkmalsgröße angibt, die einem die Kostenfunktion definierenden Parameter entspricht. Zum Beispiel wird (φ_d(x) gemäß jedem beliebigen Parameter festgelegt, wie etwa einem Abstand zu einem Hindernis, der Geschwindigkeit des Fahrzeugs 10, und einem den Fahrkomfort repräsentierenden Parameter. Die jeweiligen Merkmalsgrößen werden mit α gewichtet.
Der folgende Ausdruck wird durch das Ausführen des GPIRL erhalten. $logP (D, u, θ | Xu) = logP (D | r = K_{r, u}^{T} u) + logP (u, θ | Xu)$
D repräsentiert Kursdaten, die in Trainingsdaten enthalten sind. Xu ist eine Merkmalsgröße, die aus dem in den Trainingsdaten enthaltenen Zustand S abgeleitet wird, und Xu entspricht der Merkmalsgröße (φ(x).
u repräsentiert einen Parameter, der als virtuelle Belohnung festgelegt ist. Wie durch den obigen Ausdruck angegeben, ist es möglich, Kernelfunktionen zu verwenden, um die Belohnungsfunktion r als Mittelwert und Varianz einer Gaußschen Verteilung durch eine nichtlineare Regressionsmethode, die als Gauß-Prozess bezeichnet wird, effizient zu berechnen.
Wie durch den folgenden Ausdruck angegeben, ist θ ein Parameter zum Definieren eines Elements k(u_i,u_j) einer Matrix K_U,U, und θ = {β, Λ} wird erhalten. $k (u_{i}, u_{i}) = β exp {(- \frac{1}{2} (u_{i} - u_{i}))}^{T} Λ (u_{i} - u_{i}))$
Gemäß der vorliegenden Ausführungsform wird eine Belohnungsfunktion r(s) derart berechnet, dass logP(Dlr), ein erster Term des Ausdrucks [Math. 3], maximal wird. Dies bedeutet, dass die Parameter (u,9) derart angepasst werden, dass logP(D|r), der erste Term, maximal wird. Um die Parameter (u,θ) anzupassen, kann beispielsweise ein Wahrscheinlichkeitsmodell wie etwa ein Markov-Entscheidungsprozess (MDP), ein Gradientenverfahren oder dergleichen in geeigneter Weise verwendet werden.
In den in 6 bis 8 veranschaulichten Beispielen wird die folgende Belohnungsfunktion r(s) auf Basis einer Merkmalsgröße (als „φ Abstand (x) “ bezeichnet) erhalten, die sich auf einen Abstand (Sicherheitsspielraum) bezieht. Es ist zu beachten, dass die Anzahl nichtlinearer Funktionen 1 beträgt. Daher wird 1 als ein Gewicht verwendet.
r(s) = φ Abstand(s)
Die Belohnungen werden mittels der Belohnungsfunktion r(s) bezüglich aller Zustände s (hier Positionen auf einem Gitter) in der Gitterkarte (nicht veranschaulicht) berechnet. Dies ermöglicht es, einen Kurs mit der maximalen Belohnung zu berechnen.
Beispielsweise wird das GPIRL auf Basis der in 7 veranschaulichten Trainingsdaten ausgeführt. Die Parameter (u,θ) werden auf Basis der Merkmalsgrößen (Xu) angepasst, die derart aus den in den Trainingsdaten enthaltenen Zuständen s abgeleitet werden, dass der Kurs 47 (entsprechend D) die maximale Belohnung aufweist. Infolgedessen werden die für die Hindernisse 42 festgelegten Sicherheitsspielräume 45 (Eigenwerte der Kovarianzmatrix) angepasst. Hier entspricht die Anpassung der Sicherheitsspielräume 45 der Anpassung von A im Parameter 9.
9 und 10 sind Beispiele einer Simulation, die zur Optimierung einer Kostenfunktion durch die Optimierungsverarbeitungseinheit 33 verwendet wird. Beispielsweise wird ein Fahrzeug 10' virtuell in einer Simulationsumgebung, die verschiedene Situationen annimmt, unter Verwendung der durch das GPIRL berechneten Kostenfunktion (Belohnungsfunktion) bewegt.
Beispielsweise wird die Simulation unter der Annahme durchgeführt, dass eine in 9A veranschaulichte S-förmige Straße befahren wird, oder ein Hindernis gegen den Uhrzeigersinn umfahren wird, wie in 9B veranschaulicht. Zusätzlich wird die Simulation unter der Annahme, dass an einer Kreuzung, bei der andere Fahrzeuge wie in 10A veranschaulicht fahren, geradeaus gefahren wird, oder unter der Annahme, dass auf einer Autobahn die Spur gewechselt wird, durchgeführt. Natürlich ist es auch möglich, andere Simulationsumgebungen festzulegen.
Gemäß einer solchen Simulation wird ein Kurs mittels der berechneten Kostenfunktion berechnet. Mit anderen Worten werden die Kosten für die jeweiligen Zustände S mittels der Kostenfunktion berechnet und wird ein Kurs mit den minimalen Kosten berechnet.
Beispielsweise wird angenommen, dass das Fahrzeug in den jeweiligen Simulationen nicht angemessen bewegt wurde, das heißt, dass keine geeigneten Kurse berechnet wurden. In diesem Fall optimiert gemäß der vorliegenden Ausführungsform die Optimierungsverarbeitungseinheit 33 die Kostenfunktion. Beispielsweise wird die Kostenfunktion derart optimiert, dass in den jeweiligen Simulationen geeignete Kurse berechnet werden.
Beispielsweise wird die Kostenfunktion derart optimiert, dass die geeigneten Kurse in den jeweiligen Simulationen geringe Kosten (große Belohnungen) aufweisen. Gemäß der vorliegenden Ausführungsform werden die Parameter (u,θ), die bereits angepasst wurden, als das GPIRL ausgeführt wurde, erneut angepasst. Daher wird die Optimierung auch als Neulernen bezeichnet.
Beispielsweise ist es möglich, die Kostenfunktion auf Basis autonom erzeugter Daten in den jeweiligen Simulationen (in den Simulationen erzeugte Kursdaten) zu optimieren. Alternativ ist es auch möglich, die Kostenfunktion auf Basis von in der Datenbank 25 gespeicherten Trainingsdaten zu optimieren. Darüber hinaus ist es auch möglich, die Kostenfunktion mittels einer Kombination der Trainingsdaten und der autonom erzeugten Daten in den Simulationen zu optimieren.
Beispielsweise werden die autonom erzeugten Daten und die Trainingsdaten überprüft, und die Kostenfunktion wird auf Basis eines ausgewählten Teils der autonom erzeugten Daten oder eines ausgewählten Teils der Trainingsdaten optimiert. Beispielsweise kann ein kleines Gewicht an einen Kurs gebunden werden, auf dem sich das Fahrzeug nicht angemessen bewegt hat, ein großes Gewicht kann nur an einen geeigneten Kurs gebunden werden, und dann kann ein Neulernen durchgeführt werden.
Darüber hinaus ist es auch möglich, die Kostenfunktion auf Basis eines von einem Benutzer festgelegten Evaluierungsparameters zu optimieren. Der vom Benutzer festgelegte Evaluierungsparameter kann beispielsweise ein Annäherungsgrad an einen Zielort,
ein Sicherheitsgrad in Bezug auf die Bewegung, ein Komfortgrad in Bezug auf die Bewegung oder dergleichen sein. Natürlich können auch andere Evaluierungsparameter übernommen werden.
Der Annäherungsgrad an einen Zielort schließt beispielsweise die Zeit ein, die benötigt wird, um am Zielort anzukommen (Ankunftszeit). In dem Fall, in dem dieser Evaluierungsparameter festgelegt ist, wird die Kostenfunktion derart optimiert, dass ein Kurs mit
einer frühen Ankunftszeit in jeder Simulation geringe Kosten aufweist. Alternativ wird ein Kurs mit einer frühen Ankunftszeit aus den in den Trainingsdaten enthaltenen Kursdaten oder den autonom erzeugten Daten in den Simulationen ausgewählt, und die Kostenfunktion derart optimiert, dass der Kurs geringe Kosten aufweist.
Der Sicherheitsgrad in Bezug auf die Bewegung ist ein Evaluierungsparameter, der sich beispielsweise auf den Abstand zu einem Hindernis bezieht. Beispielsweise wird die Kostenfunktion derart optimiert, dass ein Kurs, der das Hindernis in jeder Simulation ausreichend vermeidet, geringe Kosten aufweist. Alternativ wird aus den Trainingsdaten oder den autonom erzeugten Daten in den Simulationen ein Kurs ausgewählt, der das Hindernis ausreichend vermeidet, und die Kostenfunktion wird derart optimiert, dass der Kurs geringe Kosten aufweist.
Der Komfortgrad bezüglich der Bewegung kann beispielsweise durch Beschleunigung, Ruck, Vibration, Bediengefühl oder dergleichen definiert werden, die auf einen Fahrer in Abhängigkeit von der Bewegung einwirken. Die Beschleunigung schließt eine unangenehme Beschleunigung und eine angenehme Beschleunigung ein, die durch das Beschleunigen oder dergleichen erzeugt werden. Solche Parameter können die Leistungsfähigkeit des Fahrkomforts auf einer Autobahn, des Fahrkomforts in einem städtischen Gebiet und dergleichen als Komfortgrade definieren.
Die Kostenfunktion wird derart optimiert, dass ein Kurs mit einem hohen Komfortgrad bezüglich der Bewegung in jeder Simulation geringe Kosten aufweist. Alternativ wird aus den Trainingsdaten oder den autonom erzeugten Daten in den Simulationen ein Kurs mit einem hohen Komfortgrad bezüglich der Bewegung extrahiert, und wird die Kostenfunktion derart optimiert, dass der Kurs geringe Kosten aufweist.
Es ist auch möglich, geeignete Simulationen entsprechend den jeweiligen Evaluierungsparametern zu erstellen. Zum Beispiel ist es möglich, eine Simulationsumgebung oder dergleichen zu erstellen, die der Optimierung der Kostenfunktion gewidmet ist, sodass beispielsweise der Annäherungsgrad an den Zielort verbessert wird. Gleiches gilt für die anderen Evaluierungsparameter.
Es ist zu beachten, dass es möglich ist, eine Simulation durchzuführen, die Informationen bezüglich des Typs (der Marke) des Fahrzeugs 10 einschließt. Mit anderen Worten ist es auch möglich, eine Simulation durchzuführen, indem die tatsächliche Größe, Leistungsfähigkeit und dergleichen des Fahrzeugs 10 berücksichtigt werden. Andererseits ist es auch möglich, eine Simulation durchzuführen, indem sich nur auf Kurse konzentriert wird.
Alternativ kann ein beliebiges Verfahren als ein Verfahren zur Optimierung der Kostenfunktion übernommen werden. Beispielsweise kann die Kostenfunktion durch das Kreuzentropieverfahren, Adversarial Learning oder dergleichen optimiert werden.
Die Kostenfunktionsevaluierungseinheit 34 evakuiert die optimierte Kostenfunktion. Beispielsweise werden Kostenfunktionen, die in der Lage sind, geeignete Kurse in den jeweiligen Simulationen zu berechnen, hohe Bewertungen gegeben. Darüber hinaus werden Kostenfunktionen, die auf Basis der Evaluierungsparameter des Benutzers eine hohe Leistungsfähigkeit erzielen, hohe Bewertungen gegeben. Die Kostenfunktionsevaluierungseinheit 34 bestimmt eine wahre Kostenfunktion beispielsweise auf Basis der Bewertungen, die den Kostenfunktionen gegeben werden. Es ist zu beachten, dass das Verfahren zur Evaluierung der Kostenfunktionen und das Verfahren zur Bestimmung der wahren Kostenfunktion nicht beschränkt sind. Ein beliebiges Verfahren kann übernommen werden.
Darüber hinaus ist es auch möglich, eine für jedes Gebiet spezifische Kostenfunktion zu berechnen. Mit anderen Worten kann eine wahre Kostenfunktion in Bezug auf jedes der verschiedenen Gebiete berechnet werden. Beispielsweise kann eine wahre Kostenfunktion in Bezug auf jede Stadt auf der Welt ausgewählt werden, wie etwa Tokio, Peking, Indien, Paris, London, New York, San Francisco, Sydney, Moskau, Kairo, Johannesburg, Buenos Aires oder Rio de Janeiro. Mit anderen Worten kann eine wahre Kostenfunktion gemäß einer Charakteristik eines Gebiets wie etwa Wüste, Wald, Schneefeld oder Ebene berechnet werden. Natürlich ist
es auch möglich, eine weltweit nutzbare Kostenfunktion zu erzeugen.
Zum Beispiel ist es möglich, eine wahre Kostenfunktion in Bezug auf jedes Gebiet zu berechnen, indem Trainingsdaten entsprechend dem Gebiet ausgewählt werden. Beispielsweise ist es möglich, Trainingsdaten für jedes Gebiet auf Basis von Bewegungsinformationen zu erzeugen, die von Fahrzeugen 10 gesammelt wurden,
die sich in einem Berechnungszielgebiet bewegt haben. Alternativ kann ein beliebiges Verfahren übernommen werden.
Darüber hinaus ist es auch möglich, eine wahre Funktion in Bezug auf jeden Evaluierungsparameter des Benutzers zu erzeugen. Anschließend kann jedes Fahrzeug 10 in der Lage sein, eine Kostenfunktion auszuwählen, die einem gewissen Evaluierungsparameter entspricht.
Wie in 1 veranschaulicht, wird eine durch die Servereinrichtung 30 berechnete wahre Kostenfunktion über das Netzwerk 20 zu jedem Fahrzeug 10 übertragen. Natürlich ist es auch möglich, die Kostenfunktion entsprechend zu aktualisieren und dann zu dem Fahrzeug 10 zu übertragen. Darüber hinaus kann die berechnete Kostenfunktion beim Werksversand installiert werden.
Die Routenplanungseinheit 161 des Fahrzeugs 10 berechnet einen Kurs auf Basis der empfangenen Kostenfunktion. Gemäß der vorliegenden Ausführungsform fungiert die in 3 veranschaulichte Autonomes-Fahren-Steuereinheit 112 als eine Erfassungseinheit, die eine Kostenfunktion in Bezug auf die Bewegung eines mobilen Objekts erfasst, wobei die Kostenfunktion durch das inverse bestärkende Lernen auf Basis von Trainingsdaten berechnet wurde, einschließlich Kursdaten, die sich auf einen Kurs beziehen, auf dem sich das mobile Objekt bewegt hat. Zusätzlich fungiert die Routenplanungseinheit 161 als eine Kursberechnungseinheit, die einen Kurs auf Basis der erfassten Kostenfunktion berechnet.
11 und 12 sind Diagramme zur Beschreibung der Evaluierung, die mit der vorliegenden Technologie vorgenommen wurde. Das Lernen und Evaluieren von Kostenfunktionen gemäß der vorliegenden Technologie wurde in dynamischen Umgebungen mit drei verschiedenen Strategien durchgeführt. Als die dynamischen Umgebungen werden eine Umgebung, in der sich Hindernisse in vertikaler Richtung bewegen, eine Umgebung, in der sich Hindernisse in horizontaler Richtung bewegen, und eine zufällige Umgebung angenommen. Außerdem wird angenommen, dass die Standorte der Hindernisse innerhalb eines Bereichs zufällig festgelegt werden.
Bei dieser Evaluierung werden mehrere Punkte 60, die die Hindernisse repräsentieren, auf einem Bildschirm in einer Links-Rechts-Richtung, einer Auf-Ab-Richtung und einer Zufallsrichtung (diese Richtungen entsprechen den drei oben beschriebenen Strategien) bewegt. In diesem Fall wird eine Evaluierung vorgenommen, indem ein Bewegungszielobjekt 63 von einem Startpunkt 61 zu einem Zielort 62 bewegt wird.
11 ist ein Diagramm, das einen Fall veranschaulicht, in dem ein Pfad (Kurs) mittels einer Kostenkarte (Kostenfunktion) berechnet wird, in der ein einfacher Umkreisradius verwendet wird und der Umkreisradius als ein fester Sicherheitsspielraum festgelegt wird. 11A ist eine Kostenkarte, die zu einem bestimmten Zeitpunkt erzeugt wird. 11B ist ein Diagramm, das eine Bahn 64 veranschaulicht, auf der sich das Bewegungszielobjekt 63 vom Startpunkt 61 zum Zielort 62 bewegt hat, in dem Fall, in dem sich die mehreren Punkte 60, die die Hindernisse repräsentieren, von links nach rechts bewegt haben. Das Bewegungszielobjekt 63 konnte durch keine Lücken in den mehreren Punkten 60 laufen, das Bewegungszielobjekt 63 hat mehrmals gewendet und es dauert lange, bis es am Zielort ankommt.
12 ist ein Diagramm, das einen Fall veranschaulicht, in dem ein Pfad (Kurs) mittels einer Kostenfunktion (Kostenkarte) gemäß der vorliegenden Technologie berechnet wird. Ein Benutzer verwendet eine Steuerung und bewegt das Bewegungszielobjekt 63 zum Zielort, während die Punkte 60 vermieden werden, die sich auf dem Bildschirm bewegen. Die Kostenfunktion wird durch das GPIRL auf Basis von Trainingsdaten einschließlich solcher Kursdaten berechnet. In diesem Fall wird, wie in 12A veranschaulicht, eine Kostenkarte erzeugt, in der die Sicherheitsspielräume optimiert sind. Wie in 12B veranschaulicht, ermöglicht dies dem Bewegungszielobjekt 63, durch Lücken zwischen den Punkten 60 zu laufen und sich zum Zielort 62 zu bewegen. Mit anderen Worten ist es gemäß der vorliegenden Technologie möglich, die Kostenkarte gemäß den Strategien sequenziell zu ändern und innerhalb kurzer Zeit am Zielort anzukommen.
Wie oben beschrieben, berechnet das Bewegungssteuersystem 500 gemäß der vorliegenden Ausführungsform die Kostenfunktion durch das inverse bestärkende Lernen auf Basis der Trainingsdaten. Dies ermöglicht es, eine flexible Bewegungssteuerung zu erreichen, die auf eine Bewegungsumgebung zugeschnitten ist.
Im Hinblick auf eine autonome Fahrsteuerung des mobilen Objekts ist es wichtig, eine Kostenfunktion zur Erzeugung eines optimalen Kurses zu finden. Herkömmlicherweise hat ein Experimentator häufig die Kostenfunktion im Allgemeinen entworfen. Insbesondere wurde häufig ein gewisser Umkreisradius für Hindernisse festgelegt. Wenn jedoch der gewisse Umkreisradius einfach festgelegt wird, kann es manchmal eine Bewegung möglich sein, und es kann einige Zeit dauern, bis in einer Situation, in der Hindernisse übermäßig vorhanden sind, ein Ziel erreicht wird.
Beispielsweise werden verschiedene Bewegungsumgebungen wie etwa eine Umgebung, in der übermäßig Fahrzeuge vorhanden sind, eine spezielle Umgebung wie ein Kreisverkehr, eine Umgebung mit vielen Störungen und eine Umgebung mit hoher Unsicherheit (eine Umgebung, in der es schwierig ist, sich umzusehen) als die Bewegungsumgebung in Betracht gezogen, in der sich das Fahrzeug 10 bewegt. Es ist sehr schwierig, eine Kostenfunktion zu gestalten, die mit den verschiedenen Bewegungsumgebungen kompatibel ist, wie oben beschrieben, während ein Parameter wie etwa der Umkreisradius im Voraus festgelegt wird.
13 zeigt Diagramme zur Beschreibung eines Kursberechnungsverfahrens gemäß einem Vergleichsbeispiel. Zum Beispiel werden, wie in 13 veranschaulicht, so viele Kurskandidaten 90 berechnet. Als Nächstes werden Zielpfadfolgekosten und Hindernisvermeidungskosten in Bezug auf jeden der Kurskandidaten 90 berechnet. Ein Kurskandidat 90, dessen Summe der berechneten Zielpfadfolgekosten und der berechneten Hindernisvermeidungskosten minimal ist, wird als ein Kurs berechnet, auf dem sich das mobile Objekt bewegen sollte. Selbst im Fall der Verwendung eines solchen Verfahrens werden beispielsweise Gewichte oder dergleichen, die an die Zielpfadfolgekosten und die Hindernisvermeidungskosten gebunden werden sollen, im Voraus entworfen, und es ist schwierig, mit verschiedenen Arten von Bewegungsumgebungen umzugehen. Falls beispielsweise die Hindernisvermeidungskosten unnötig erhöht werden, kann das Fahrzeug manchmal in einer Umgebung stecken bleiben, in der übermäßig Fahrzeuge vorhanden sind, oder dergleichen.
Gemäß der vorliegenden Ausführungsform ist es möglich, eine Kostenfunktion unter Verwendung der Trainingsdaten zu lernen. Dies ermöglicht es, Parameter wie etwa die Sicherheitsspielräume gemäß einer Bewegungsumgebung zu optimieren. Dies ermöglicht es, Kostenfunktionen zu berechnen, die auf verschiedene Arten von Umgebungen zugeschnitten sind, und dies ermöglicht es, eine flexible Bewegungssteuerung gemäß den Umgebungen zu erreichen.
Darüber hinaus ist es auch möglich, eine Kostenfunktion auf Basis von Evaluierungsparametern eines Benutzers neu zu lernen. Dies ermöglicht es, die vom Benutzer gewünschte Bewegung mit sehr hoher Genauigkeit zu steuern. Zusätzlich berechnet das Fahrzeug 10 einen Kurs zu einem Zielort, indem ein Zustand S in die Kostenfunktion eingegeben wird. Dies ermöglicht es, die Verarbeitungszeit und die Verarbeitungslast zu reduzieren. Darüber hinaus wird auch in einer ungewohnten Umgebung eine Kostenfunktion auf Basis einer Erfahrung (Trainingsdaten) berechnet, die von einem anderen Fahrzeug erfasst wurde. Dies ermöglicht es, das Fahrzeug 10 auch dann angemessen zu bewegen, wenn keine Karteninformationen oder dergleichen vorliegen.
Es ist zu beachten, dass der Benutzer die Parameter, die die Kostenfunktion definieren, zweckmäßig festlegen kann. Daher können die Parameter, die die Kostenfunktion definieren, als die Evaluierungsparameter bezeichnet werden.
<Andere Ausführungsformen>
Die vorliegende Technologie ist nicht auf die oben beschriebene Ausführungsform beschränkt. Verschiedene andere Ausführungsformen sind möglich.
Gemäß der vorliegenden Technologie ist es auch möglich, eine Kostenkarte zu erzeugen, die durch Sicherheitsspielräume basierend auf einer Bewegungsrichtung eines mobilen Objekts definiert ist. Beispielsweise wird eine Matrix einschließlich Eigenwerten, die voneinander verschiedene Werte sind, als die Kovarianzmatrix Σ der zweidimensionalen Normalverteilung übernommen. Als Nächstes werden die Sicherheitsspielräume derart definiert, dass ein größerer Eigenwert der Bewegungsrichtung entspricht. Dies ermöglicht es, den Sicherheitsspielraum mit einer ovalen Form (elliptischen Form) festzulegen, die sich entlang der Bewegungsrichtung erstreckt (deren Längsrichtung der Bewegungsrichtung entspricht).
Beispielsweise ist die Autobahn eine Umgebung, in der nur Fahrzeuge im Umfeld des Bewegungszielobjekts vorhanden sind, deren Bewegungsrichtungen konstant sind, und die Unsicherheit ist gering. Zusätzlich ist es notwendig, die Geschwindigkeit des Bewegungszielobjekts derart festzulegen, dass die Geschwindigkeit der Geschwindigkeit der umliegenden Fahrzeuge ähnelt. Eine Kostenfunktion, bei der ein Eigenwert einer Bewegungsrichtung entspricht, wird als für eine solche Umgebung geeignete Kostenfunktion berechnet. Darüber hinaus ist es auch möglich, die Größe eines Sicherheitsspielraums zu optimieren, indem der Eigenwert gemäß der Geschwindigkeit gewichtet wird.
Die auf der Normalverteilung basierende Kostenkarte (Kostenfunktion) wurde oben beschrieben. Die vorliegende Technologie ist jedoch auch auf eine Kostenkarte (Kostenfunktion) anwendbar, die auf einer anderen Art von Wahrscheinlichkeitsverteilung basiert. Darüber hinaus ist es auch möglich, eine Kostenfunktion mittels eines anderen inversen bestärkenden Lernalgorithmus als das GPIRL zu berechnen.
Es ist zu beachten, dass die Erzeugung einer Kostenkarte (Kostenfunktion) basierend auf der Wahrscheinlichkeitsverteilung ebenfalls eine Technologie ist, die vom vorliegenden Erfinder neu entwickelt wurde. Die neu entwickelte Technologie schließt eine jegliche Informationsverarbeitungseinrichtung ein, die eine Erfassungseinheit, die Informationen in Bezug auf die Bewegung eines mobilen Objekts erfasst, und eine Erzeugungseinheit, die eine Kostenkarte basierend auf einer Wahrscheinlichkeitsverteilung auf Basis der erfassten Informationen in Bezug auf die Bewegung des mobilen Objekts erzeugt, aufweist. Mit einer solchen Informationsverarbeitungseinrichtung ist es möglich, die flexible Bewegungssteuerung zu erreichen, die auf eine Bewegungsumgebung zugeschnitten ist. Natürlich sind die in 1 veranschaulichte Servereinrichtung und dergleichen auch in der Technologie enthalten, die neu entwickelt wurde.
Das Beispiel, in dem die Simulation unter Verwendung des virtuellen Raums durchgeführt wird, wurde oben beschrieben. Die vorliegende Technologie ist nicht darauf beschränkt. Es ist auch möglich, durch das Fahrzeug detektierte Umgebungsinformationen zu der Servereinrichtung zu übertragen und die Simulation auf Basis der tatsächlichen Umgebungsinformationen durchzuführen. Dies ermöglicht es, eine Kostenfunktion gemäß einer tatsächlichen Umgebungssituation zu optimieren.
Gemäß der oben beschriebenen Ausführungsform berechnet die Servereinrichtung die Kostenfunktion. Ein in dem Fahrzeug installiertes Fahrzeugsteuersystem kann jedoch als die Informationsverarbeitungseinrichtung gemäß der vorliegenden Technologie konfiguriert sein und kann das Informationsverarbeitungsverfahren gemäß der vorliegenden Technologie ausführen. Mit anderen Worten kann das Fahrzeug die Kostenfunktion durch das inverse bestärkende Lernen basierend auf den Trainingsdaten berechnen.
Die vorliegende Technologie ist anwendbar, um verschiedene Arten von mobilen Objekten zu steuern. Beispielsweise ist die vorliegende Technologie auf die Bewegungssteuerung von Autos, Elektroautos, Hybrid-Elektroautos, Motorrädern, Fahrrädern, Personentransportern, Flugzeugen, Drohnen, Schiffen, Robotern, Schwermaschinen, landwirtschaftlichen Maschinen (Traktoren) und dergleichen anwendbar.
Das Informationsverarbeitungsverfahren und das Programm gemäß der vorliegenden Technologie können nicht nur in einem Computersystem ausgeführt werden, das durch einen einzelnen Computer konfiguriert wird, sondern auch in einem Computersystem, in dem mehrere Computer kooperativ arbeiten. Es ist anzumerken, dass in der vorliegenden Offenbarung das System ein Aggregat mehrerer Komponenten (Einrichtung, Modul (Teile) und dergleichen) bedeutet und es keine Rolle spielt, ob alle Komponenten in demselben Gehäuse untergebracht sind oder nicht. Daher sind sowohl mehrere Einrichtungen, die in getrennten Gehäusen untergebracht sind und über ein Netzwerk miteinander verbunden sind, als auch eine einzelne Einrichtung mit mehreren Modulen, die in einem einzigen Gehäuse untergebracht sind, das System.
Die Ausführung des Informationsverarbeitungsverfahrens und des Programms gemäß der vorliegenden Technologie durch das Computersystem schließt beispielsweise sowohl einen Fall, in dem die Erfassung der Trainingsdaten, die Berechnung der Kostenfunktion und dergleichen durch einen einzelnen Computer ausgeführt werden, als auch einen Fall, in dem diese Prozesse durch verschiedene Computer ausgeführt werden, ein. Ferner schließt die Ausführung der jeweiligen Prozesse durch einen vorbestimmten Computer das Veranlassen, dass der andere Computer einige oder alle dieser Prozesse ausführt und Ergebnisse davon erfasst, ein.
Das heißt, das Informationsverarbeitungsverfahren und das Programm gemäß der vorliegenden Technologie sind auch auf eine Cloud-Computing-Konfiguration anwendbar, bei der eine Funktion von mehreren Einrichtungen über ein Netzwerk gemeinsam genutzt und kooperativ verarbeitet wird.
Die jeweiligen Konfigurationen, die Verarbeitungsabläufe und dergleichen der Servereinrichtung, des Fahrzeugs usw., die unter Bezugnahme auf die Zeichnungen beschrieben wurden, sind nur eine Ausführungsform. Eine beliebige Modifikation kann vorgenommen werden, ohne vom Kern der vorliegenden Technologie abzuweichen. Mit anderen Worten ist es möglich, irgendeine andere Konfiguration, einen anderen Algorithmus oder dergleichen anzunehmen, um die vorliegende Technologie zu erreichen.
Von den Merkmalsteilen gemäß der oben beschriebenen vorliegenden Technologie können mindestens zwei Merkmalsteile kombiniert werden. Das heißt, die verschiedenen in den Ausführungsformen beschriebenen Merkmalsteile können unabhängig von den Ausführungsformen beliebig kombiniert werden. Ferner sind verschiedene oben beschriebene Effekte lediglich Beispiele und nicht beschränkt, und andere Effekte können ausgeübt werden.
Es wird angemerkt, dass die vorliegende Technologie auch wie unten konfiguriert sein kann.

(1) Eine Informationsverarbeitungseinrichtung, die Folgendes aufweist:
- eine Erfassungseinheit, die Trainingsdaten einschließlich Kursdaten erfasst, die sich auf einen Kurs beziehen, auf dem sich ein mobiles Objekt bewegt hat; und
- eine Berechnungseinheit, die eine Kostenfunktion in Bezug auf die Bewegung des mobilen Objekts durch inverses bestärkendes Lernen auf Basis der erfassten Trainingsdaten berechnet.
(2) Die Informationsverarbeitungseinrichtung gemäß (1) oder (2), wobei die Kostenfunktion es ermöglicht, eine Kostenkarte durch Eingabe von Informationen, die sich auf die Bewegung des mobilen Objekts beziehen, zu erzeugen.
(3) Die Informationsverarbeitungseinrichtung gemäß (2) oder (3), wobei die auf die Bewegung bezogenen Informationen eine Position des mobilen Objekts und/oder Umgebungsinformationen des mobilen Objekts und/oder die Geschwindigkeit des mobilen Objekts einschließen.
(4) Die Informationsverarbeitungseinrichtung gemäß einem von (1) bis (3), wobei die Berechnungseinheit die Kostenfunktion derart berechnet, dass ein vorbestimmter Parameter zum Definieren der Kostenkarte variabel ist.
(5) Die Informationsverarbeitungseinrichtung gemäß (4), wobei die Berechnungseinheit die Kostenfunktion derart berechnet, dass ein Sicherheitsspielraum variabel ist.
(6) Die Informationsverarbeitungseinrichtung gemäß einem von (1) bis (5), die ferner Folgendes aufweist: eine Optimierungsverarbeitungseinheit, die die berechnete Kostenfunktion durch eine Simulation optimiert.
(7) Die Informationsverarbeitungseinrichtung gemäß (6), wobei die Optimierungsverarbeitungseinheit die Kostenfunktion auf Basis der erfassten Trainingsdaten optimiert.
(8) Die Informationsverarbeitungseinrichtung gemäß (6) oder (7), wobei die Optimierungsverarbeitungseinheit die Kostenfunktion auf Basis von durch die Simulation erzeugten Kursdaten optimiert.
(9) Die Informationsverarbeitungseinrichtung gemäß einem von (6) bis (8), wobei die Optimierungsverarbeitungseinheit die Kostenfunktion optimiert, indem sie die erfassten Trainingsdaten mit durch die Simulation erzeugten Kursdaten kombiniert.
(10) Die Informationsverarbeitungseinrichtung gemäß einem von (6) bis (9), wobei die Optimierungsverarbeitungseinheit die Kostenfunktion auf Basis eines von einem Benutzer festgelegten Evaluierungsparameters optimiert.
(11) Die Informationsverarbeitungsvorrichtung gemäß (10), wobei die Optimierungsverarbeitungseinheit die Kostenfunktion auf Basis eines Annäherungsgrads an einen Zielort und/oder eines Sicherheitsgrads in Bezug auf die Bewegung und/oder eines Komfortgrads in Bezug auf die Bewegung optimiert.
(12) Die Informationsverarbeitungseinrichtung gemäß einem von (1) bis (11), wobei die Berechnungseinheit die Kostenfunktion durch GPIRL (Gaussian Process Inverse Reinforcement Learning
- - inverses bestärkendes Lernen mit Gauß-Prozess) berechnet.
(13) Die Informationsverarbeitungseinrichtung gemäß einem von (1) bis (12), wobei die Kostenfunktion es ermöglicht, eine Kostenkarte basierend auf einer Wahrscheinlichkeitsverteilung zu erzeugen.
(14) Die Informationsverarbeitungseinrichtung gemäß (13), wobei die Kostenfunktion es ermöglicht, eine Kostenkarte basierend auf einer Normalverteilung zu erzeugen, und die Kostenkarte durch einen Sicherheitsspielraum definiert ist, der einem Eigenwert einer Kovarianzmatrix entspricht.
(15) Die Informationsverarbeitungseinrichtung gemäß (14), wobei die Kostenkarte durch einen Sicherheitsspielraum definiert ist, der auf einer Bewegungsrichtung des mobilen Objekts basiert.
(16) Die Informationsverarbeitungseinrichtung gemäß einem von (1) bis (15), wobei die Berechnungseinheit in der Lage ist, die jeweiligen Kostenfunktionen zu berechnen, die verschiedenen Gebieten entsprechen.
(17) Ein Informationsverarbeitungsverfahren, das veranlasst, dass ein Computersystem Folgendes ausführt:
- Erfassen von Trainingsdaten, einschließlich Kursdaten, die sich auf einen Kurs beziehen, auf dem sich ein mobiles Objekt bewegt hat; und
- Berechnen einer Kostenfunktion in Bezug auf die Bewegung des mobilen Objekts durch inverses bestärkendes Lernen auf Basis der erfassten Trainingsdaten.
(18) Ein Programm, das ein Computersystem veranlasst, Folgendes auszuführen:
- einen Schritt des Erfassens von Trainingsdaten, einschließlich Kursdaten, die sich auf einen Kurs beziehen, auf dem sich ein mobiles Objekt bewegt hat; und
- einen Schritt des Berechnens einer Kostenfunktion in Bezug auf die Bewegung des mobilen Objekts durch inverses bestärkendes Lernen auf Basis der erfassten Trainingsdaten.
(19) Ein mobiles Objekt, das Folgendes aufweist:
- eine Erfassungseinheit, die eine Kostenfunktion in Bezug auf die Bewegung des mobilen Objekts erfasst, wobei die Kostenfunktion durch inverses bestärkendes Lernen auf Basis von Trainingsdaten einschließlich Kursdaten in Bezug auf einen Kurs, auf dem sich das mobile Objekt bewegt hat, berechnet wurde; und
- eine Kursberechnungseinheit, die einen Kurs auf Basis der erfassten Kostenfunktion berechnet.
(20) Eine Informationsverarbeitungseinrichtung, die Folgendes aufweist:
- eine Erfassungseinheit, die Informationen in Bezug auf die Bewegung eines mobilen Objekts erfasst; und
- eine Erzeugungseinheit, die eine Kostenkarte basierend auf einer Wahrscheinlichkeitsverteilung auf Basis der erfassten Informationen, die sich auf die Bewegung des mobilen Objekts beziehen, erzeugt.

Bezugszeichenliste

10: Fahrzeug
20: Netzwerk
25: Datenbank
30: Servereinrichtung
31: Trainingsdatenerfassungseinheit
32: Kostenfunktionsberechnungseinheit
33: Optimierungsverarbeitungseinheit
34: Kostenfunktionsevaluierungseinheit
40, 50: Kostenkarte
45: Sicherheitsspielraum
47, 51: Kurs
100: Fahrzeugsteuersystem
500: Bewegungssteuerungssystem

ZITATE ENTHALTEN IN DER BESCHREIBUNG
Diese Liste der vom Anmelder aufgeführten Dokumente wurde automatisiert erzeugt und ist ausschließlich zur besseren Information des Lesers aufgenommen. Die Liste ist nicht Bestandteil der deutschen Patent- bzw. Gebrauchsmusteranmeldung. Das DPMA übernimmt keinerlei Haftung für etwaige Fehler oder Auslassungen.
Zitierte Patentliteratur

JP 2017030481 A [0003]

Claims

Informationsverarbeitungseinrichtung, die Folgendes aufweist: eine Erfassungseinheit, die Trainingsdaten einschließlich Kursdaten erfasst, die sich auf einen Kurs beziehen, auf dem sich ein mobiles Objekt bewegt hat; und eine Berechnungseinheit, die eine Kostenfunktion in Bezug auf die Bewegung des mobilen Objekts durch inverses bestärkendes Lernen auf Basis der erfassten Trainingsdaten berechnet.
Informationsverarbeitungseinrichtung nach Anspruch 1, wobei die Kostenfunktion es ermöglicht, eine Kostenkarte durch Eingabe von Informationen bezüglich der Bewegung des mobilen Objekts zu erzeugen.
Informationsverarbeitungseinrichtung nach Anspruch 2, wobei die Informationen, die sich auf die Bewegung beziehen, eine Position des mobilen Objekts und/oder Umgebungsinformationen des mobilen Objekts und/oder die Geschwindigkeit des mobilen Objekts einschließen.
Informationsverarbeitungseinrichtung nach Anspruch 2, wobei die Berechnungseinheit die Kostenfunktion derart berechnet, dass ein vorbestimmter Parameter zum Definieren der Kostenkarte variabel ist.
Informationsverarbeitungseinrichtung nach Anspruch 4, wobei die Berechnungseinheit die Kostenfunktion derart berechnet, dass ein Sicherheitsspielraum variabel ist.
Informationsverarbeitungseinrichtung nach Anspruch 1, die ferner Folgendes aufweist: eine Optimierungsverarbeitungseinheit, die die berechnete Kostenfunktion durch eine Simulation optimiert.
Informationsverarbeitungseinrichtung nach Anspruch 6, wobei die Optimierungsverarbeitungseinheit die Kostenfunktion auf Basis der erfassten Trainingsdaten optimiert.
Informationsverarbeitungseinrichtung nach Anspruch 6, wobei die Optimierungsverarbeitungseinheit die Kostenfunktion auf Basis von Kursdaten optimiert, die durch die Simulation erzeugt werden.
Informationsverarbeitungseinrichtung nach Anspruch 6, wobei die Optimierungsverarbeitungseinheit die Kostenfunktion optimiert, indem sie die erfassten Trainingsdaten mit den durch die Simulation erzeugten Kursdaten kombiniert.
Informationsverarbeitungseinrichtung nach Anspruch 6, wobei die Optimierungsverarbeitungseinheit die Kostenfunktion auf Basis eines durch einen Benutzer festgelegten Evaluierungsparameters optimiert.
Informationsverarbeitungseinrichtung nach Anspruch 10, wobei die Optimierungsverarbeitungseinheit die Kostenfunktion auf Basis eines Annäherungsgrads an einen Zielort und/oder eines Sicherheitsgrads in Bezug auf Bewegung und/oder eines Komfortgrads in Bezug auf die Bewegung optimiert.
Informationsverarbeitungseinrichtung nach Anspruch 1, wobei die Berechnungseinheit die Kostenfunktion durch GPIRL (Gaussian Process Inverse Reinforcement Learning - inverses bestärkendes Lernen mit Gauß-Prozess) berechnet.
Informationsverarbeitungseinrichtung nach Anspruch 1, wobei die Kostenfunktion es ermöglicht, eine Kostenkarte basierend auf einer Wahrscheinlichkeitsverteilung zu erzeugen.
Informationsverarbeitungseinrichtung nach Anspruch 13, wobei die Kostenfunktion es ermöglicht, eine Kostenkarte basierend auf einer Normalverteilung zu erzeugen, und die Kostenkarte durch einen Sicherheitsspielraum definiert ist, der einem Eigenwert einer Kovarianzmatrix entspricht.
Informationsverarbeitungseinrichtung nach Anspruch 14, wobei die Kostenkarte durch einen Sicherheitsspielraum definiert wird, der auf einer Bewegungsrichtung des mobilen Objekts basiert.
Informationsverarbeitungseinrichtung nach Anspruch 1, wobei die Berechnungseinheit in der Lage ist, die jeweiligen Kostenfunktionen zu berechnen, die verschiedenen Gebieten entsprechen.
Informationsverarbeitungsverfahren, das veranlasst, dass ein Computersystem Folgendes ausführt: Erfassen von Trainingsdaten, einschließlich Kursdaten, die sich auf einen Kurs beziehen, auf dem sich ein mobiles Objekt bewegt hat; und Berechnen einer Kostenfunktion in Bezug auf die Bewegung des mobilen Objekts durch inverses bestärkendes Lernen auf Basis der erfassten Trainingsdaten.
Programm, das ein Computersystem veranlasst, Folgendes auszuführen: einen Schritt des Erfassens von Trainingsdaten, einschließlich Kursdaten, die sich auf einen Kurs beziehen, auf dem sich ein mobiles Objekt bewegt hat; und einen Schritt des Berechnens einer Kostenfunktion in Bezug auf die Bewegung des mobilen Objekts durch inverses bestärkendes Lernen auf Basis der erfassten Trainingsdaten.
Mobiles Objekt, das Folgendes aufweist: eine Erfassungseinheit, die eine Kostenfunktion in Bezug auf die Bewegung des mobilen Objekts erfasst, wobei die Kostenfunktion durch inverses bestärkendes Lernen auf Basis von Trainingsdaten einschließlich Kursdaten in Bezug auf einen Kurs, auf dem sich das mobile Objekt bewegt hat, berechnet wurde; und eine Kursberechnungseinheit, die einen Kurs auf Basis der erfassten Kostenfunktion berechnet.
Informationsverarbeitungseinrichtung, die Folgendes aufweist: eine Erfassungseinheit, die Informationen in Bezug auf die Bewegung eines mobilen Objekts erfasst; und eine Erzeugungseinheit, die eine Kostenkarte basierend auf einer Wahrscheinlichkeitsverteilung auf Basis der erfassten Informationen, die sich auf die Bewegung des mobilen Objekts beziehen, erzeugt.