DE102018119867B4

DE102018119867B4 - Autonome Verhaltenssteuerung unter Verwendung von Richtlinienauslösung und -ausführung

Info

Publication number: DE102018119867B4
Application number: DE102018119867.1A
Authority: DE
Inventors: Praveen Palanisamy; Upali P. Mudalige
Original assignee: GM Global Technology Operations LLC
Current assignee: GM Global Technology Operations LLC
Priority date: 2017-08-18
Filing date: 2018-08-15
Publication date: 2023-02-02
Anticipated expiration: 2038-08-16
Also published as: CN109407660B; CN109407660A; US20190056737A1; US10474149B2; DE102018119867A1

Abstract

System zum Betreiben eines autonomen Fahrzeugs, umfassend:einen Umgebungssensor, der konfiguriert ist, um einen oder mehrere Parameter von externen Agenten des Fahrzeugs zu erhalten; undeinen Prozessor, der konfiguriert ist zum:Erhalten einer Strecke mit einem Bestimmungsort in dem autonomen Fahrzeug;Bilden eines Markov-Zustandsmodell der Strecke, das eine Vielzahl von Zuständen für das autonome Fahrzeug und den einen oder die mehreren Parameter der externen Agenten enthält;Erzeugen einer Vielzahl von Fahrrichtlinien zum Navigieren der Strecke, wobei jede Fahrrichtlinie einen Fortschritt durch die Vielzahl von Zuständen beinhaltet; undAuswählen einer Richtlinie zum Navigieren der Strecke aus der Vielzahl von Fahrrichtlinien unter Verwendung eines Markov-Entscheidungsverfahrens;gekennzeichnet durchder Prozessor ferner zum Ausführen der ausgewählten Richtlinie an dem autonomen Fahrzeug konfiguriert ist, um das Fahrzeug entlang der Strecke zu dem Bestimmungsort zu navigieren, und um einen Zustand des Fahrzeugs zu aktualisieren, wenn das Fahrzeug die Strecke navigiert, und eine aktualisierte Richtlinie basierend auf dem aktualisierten Zustand des Fahrzeugs zu bestimmen.

Description

EINLEITUNG
Die vorliegende Offenbarung betrifft ein System und ein damit ausgestattetes autonomes Fahrzeug zum Steuern eines Verhaltens des autonomen Fahrzeugs zum Navigieren durch Verkehr über eine ausgewählte Strecke gemäß dem Oberbegriff des Anspruchs 1 bzw. des Anspruchs 5, wie der Art nach im Wesentlichen aus der DE 10 2012 214 930 A1 bekannt.
Bezüglich des weitergehenden Standes der Technik sei an dieser Stelle auf die DE 10 2011 104 838 A1 verwiesen.
Autonomes Fahren bietet die Möglichkeit, ein Fahrzeug ohne Eingabe, außer einer Bereitstellung eines Bestimmungsortes, eines Fahrers oder Beifahrers zu bedienen. Der Niveau der Verarbeitung, das für das Nachdenken über unerwartete Straßenereignisse erforderlich ist, um Fahrentscheidungen zu treffen, übersteigt die Fähigkeiten von Skriptregeln und vordefinierten Wissensdatenbanken. Dementsprechend ist es wünschenswert, ein System und Verfahren zum autonomen Fahren bereitzustellen, das ein sozial akzeptables Fahrverhalten zeigt.
KURZDARSTELLUNG
Erfindungsgemäß werden ein System mit den Merkmalen des Anspruchs 1 und ein autonomes Fahrzeug mit den Merkmalen des Anspruchs 5 vorgestellt.
Ferner wird ein Verfahren zum Betreiben eines autonomen Fahrzeugs beschrieben. Das Verfahren beinhaltet das Erhalten einer Strecke mit einem Bestimmungsort in dem autonomen Fahrzeug, das Erstellen eines Markov-Zustandsmodells der Strecke mit mehreren Zuständen für das autonome Fahrzeug, das Erzeugen einer Vielzahl von Fahrrichtlinien zum Navigieren der Strecke, wobei jede Fahrrichtlinie einen Fortschritt durch die Vielzahl von Zuständen beinhaltet, das Auswählen einer Richtlinie zum Navigieren der Strecke aus der Vielzahl von Fahrrichtlinien unter Verwendung eines Markov-Entscheidungsverfahrens und das Ausführen der ausgewählten Richtlinie an dem autonomen Fahrzeug, um das Fahrzeug entlang der Strecke zu dem Bestimmungsort zu navigieren.
Ein Zustand des Fahrzeugs wird aktualisiert, wenn das Fahrzeug die Strecke navigiert, und eine aktualisierte Richtlinie wird basierend auf dem aktualisierten Zustand des Fahrzeugs bestimmt. Ein erwarteter Belohnungswert wird für jede der Vielzahl von Fahrrichtlinien bestimmt, wobei der Belohnungswert einer Fahrrichtlinie eine Wirksamkeit der Fahrrichtlinie beim Fortschreiten des autonomen Fahrzeugs in Richtung des Bestimmungsorts sicher und reibungslos anzeigt und die Richtlinie basierend darauf ausgewählt wird, dass sie einen ausgewählten Belohnungswert aufweist. In einer Ausführungsform beinhaltet die ausgewählte Richtlinie ferner, dass die Richtlinie einen größten erwarteten Belohnungswert ohne Strafen aufweist. Das Ausführen der ausgewählten Richtlinie bei dem autonomen Fahrzeug beinhaltet das Ausführen einer Aktion an dem Fahrzeug, um das Fahrzeug gemäß der Richtlinie zu einem Bestimmungsort der Strecke zu fahren.
Ein Zustand des Fahrzeugs beinhaltet mindestens einen von einem Pose-Vektor, einem Kinematikvektor, einem Umgebungsinformationsvektor und einem Aktuatorzustand des autonomen Fahrzeugs. Der Umgebungsinformationsvektor enthält Parameter von externen Agenten und Verkehrsregelungsvorrichtungen in der Umgebung.
Der Prozessor ist ferner konfiguriert zum Bestimmen eines erwarteten Belohnungswerts für jede der Vielzahl von Fahrrichtlinien, wobei der Belohnungswert einer Fahrrichtlinie eine Wirksamkeit der Fahrrichtlinie beim Fortschreiten des autonomen Fahrzeugs zu dem Bestimmungsort anzeigt; und zum Auswählen der Richtlinie mit einem ausgewählten Belohnungswert. In einer Ausführungsform ist die ausgewählte Richtlinie die Richtlinie mit einem größten erwarteten Belohnungswert ohne Strafen. In einer Ausführungsform führt der Prozessor die ausgewählte Richtlinie bei dem autonomen Fahrzeug aus, indem er eine Aktion an dem Fahrzeug ausführt, um das autonome Fahrzeug zu dem Bestimmungsort zu fahren.
Ein Zustand des Fahrzeugs beinhaltet mindestens einen von einem Pose-Vektor, einem Kinematikvektor, einem Umgebungsinformationsvektor und einem Aktuatorzustand des autonomen Fahrzeugs. Der Umgebungsinformationsvektor enthält Parameter von externen Agenten und Verkehrsregelungsvorrichtungen in der Umgebung.
Die oben genannten Eigenschaften und Vorteile sowie anderen Eigenschaften und Funktionen der vorliegenden Offenbarung gehen aus der folgenden ausführlichen Beschreibung in Verbindung mit den zugehörigen Zeichnungen ohne weiteres hervor.
Figurenliste
Andere Merkmale, Vorteile und Details erscheinen nur exemplarisch in der folgenden ausführlichen Beschreibung der Ausführungsformen, wobei sich die ausführliche Beschreibung auf die Zeichnungen bezieht, wobei gilt:

1 zeigt eine Draufsicht eines Fahrzeugs, das eine Strecke in Bezug auf verschiedene externe Agenten in der Umgebung navigiert;
2 zeigt eine Draufsicht eines Bereichs, der eine veranschaulichenden Strecke für ein Fahrzeug beinhaltet;
3 zeigt eine Ego-Perspektive eines ausgewählten Abschnitts der veranschaulichenden Strecke;
FEIGE. 4 zeigt eine Drittperson-Perspektive des ausgewählten Abschnitts der in 3 gezeigten veranschaulichenden Strecke;
5 zeigt eine Darstellung von Fahrzeugzuständen und Aktionen zum Bewegen zwischen Zuständen, bekannt als ein Markov-Zustandsmodell;
6 zeigt eine Drittperson-Perspektive, die eine Vielzahl von Fahrzeugzuständen enthält, die der Drittperson-Perspektive von 4 überlagert sind;
7 ist ein schematisches Diagramm, das eine Richtlinie oder einen Fortschritt von Zuständen für ein Fahrzeug zum Navigieren einer Strecke darstellt;
8 zeigt ein Ablaufdiagramm zum Auswählen einer Richtlinie zum Navigieren einer Strecke in einer Ausführungsform; und
9 zeigt eine veranschaulichende Datenbank von Aktionen, die an dem Fahrzeug ausgeführt werden können.

AUSFÜHRLICHE BESCHREIBUNG
Die folgende Beschreibung ist lediglich exemplarischer Natur. Es sollte verstanden werden, dass in den Zeichnungen entsprechende Bezugszeichen gleiche oder entsprechende Teile und Merkmale bezeichnen.
Gemäß einer exemplarischen Ausführungsform der Erfindung zeigt 1 eine Draufsicht eines Fahrzeugs 102, das eine Strecke in Bezug auf verschiedene externe Agenten 118 in der Umgebung 100 navigiert. In einer Ausführungsform ist das Fahrzeug 102 ein autonomes oder selbstfahrendes Fahrzeug. Ein externer Agent 118 kann Objekte wie andere Fahrzeuge, Fußgänger, Radfahrer, Tiere, stationäre Objekte usw. beinhalten. Das Fahrzeug 102 enthält verschiedene Umgebungssensoren 104 zum Erfassen der Zustände oder Parameter der externen Agenten 118, wie beispielsweise deren Entfernung, Geschwindigkeit, Beschleunigung, Winkelposition usw. Exemplarische Umgebungssensoren 104 können Radar, Lidar, Kameras usw. umfassen, sind aber nicht darauf beschränkt. Nur zu Veranschaulichungszwecken ist der externe Agent 118 ein Fahrzeug und der Umgebungssensor 104 ist ein Radarsystem, das einen externen Agenten 118 durch Übertragen eines elektromagnetischen Impulses 114 entfernt von dem Fahrzeug 102 erfasst und eine Reflexion 116 des elektromagnetischen Impulses 114 von dem externen Agent 118 empfängt, wodurch Parameter des externen Agenten 118 wie seine relative Geschwindigkeit, seine azimutale Entfernung usw. bestimmt werden.
Das Fahrzeug 102 enthält ferner einen oder mehrere interne Zustandssensoren 106 zur Messung von Parametern bezüglich der internen Operationen des Fahrzeugs 102. Zum Beispiel kann ein interner Zustandssensor 106 einen Bremssensor, einen Beschleunigungssensor, einen Lenkradsensor oder andere Sensoren beinhalten, die einen mit der Bewegung des Fahrzeugs 102, wie Antrieb, Bremsen, Lenken, etc., in Beziehung stehenden Parameter erfasst. Die Messungen des internen Zustandssensors 106 können verwendet werden, um einen aktuellen Zustand des Fahrzeugs 102 zu bestimmen.
Das Fahrzeug 102 enthält ferner verschiedene Betätigungsvorrichtungen 108 für den Betrieb des Fahrzeugs 102. Beispielhafte Betätigungsvorrichtungen 108 können Bremsaktuatoren, Vortriebs- oder Drosselklappenaktuatoren, Lenkaktuatoren usw. beinhalten, sind aber nicht darauf beschränkt. Diese Betätigungsvorrichtungen 108 bewirken, dass das Fahrzeug 102 beschleunigt, langsamer wird, lenkt, stoppt, den Gang wechselt, die Richtung ändert usw. Messungen von den internen Zustandssensoren 106 zusammen mit dem Betrieb der Betätigungsvorrichtungen 108 können verwendet werden, um ein autonomes Fahren des Fahrzeugs 102 zu ermöglichen. Das Fahrzeug 102 beinhaltet ferner ein Kommunikationsmodul 110, das eine Kommunikationsverbindung 115 zu einem entfernten Ort oder Fernprozessor 120 bereitstellt, um Daten zu senden und zu empfangen. In einer Ausführungsform kann der Fernprozessor 120 einen Streckenplan bereitstellen, damit das Fahrzeug 102 im Allgemeinen auf Anforderung von dem Prozessor 112 navigieren kann.
Das Fahrzeug 102 beinhaltet ferner einen Prozessor 112, der das hierin offenbarte Verfahren zur Fahrzeugnavigation ausführt. Der Prozessor 112 empfängt eine Strecke und bestimmt ein Verfahren zum Navigieren der Strecke unter Verwendung eines Markov-Entscheidungsverfahrens, wie hierin erörtert. Der Prozessor 112 empfängt Parameter, die die externen Agenten 118 von den Umgebungssensoren 104 angeben und interne Parameter des Fahrzeugs 102 von den internen Zustandssensoren 106. Der Prozessor 112 bestimmt aus diesen Parametern eine Richtlinie oder einen Fortschritt von Zuständen des Fahrzeugs 102, die es dem autonomen Fahrzeug 102 ermöglichen, die Strecke zu navigieren. In einer Ausführungsform navigiert der Prozessor 112 das Fahrzeug 102 basierend auf dem Streckenplan, Messungen bezüglich der Umgebung des Fahrzeugs 102 und seiner externen Agenten 118 und Messungen hinsichtlich des internen Zustands des Fahrzeugs 102. Der Prozessor 112 steuert dann die Betätigungsvorrichtungen 108 des Fahrzeugs 102, um eine oder mehrere Aktionen an dem Fahrzeug 102 bereitzustellen, um das Fahrzeug 102 durch den Fortschritt von Zuständen an dem Fahrzeug 102 zu bewegen, wodurch das Fahrzeug 102 betrieben wird. In verschiedenen Ausführungsformen berechnet der Prozessor 112 den Fortschritt von Zuständen auf einer periodischen Basis neu.
2 zeigt eine Draufsicht 200 eines Bereichs, der eine veranschaulichende Strecke 202 für ein Fahrzeug 102 beinhaltet. Die veranschaulichende Strecke 202 beinhaltet einen Startpunkt 204 und einen Bestimmungsort 206. Die Strecke 202 ist allgemein keine gerade Linie, die den Startpunkt 204 und den Bestimmungsort 206 verbindet. Stattdessen kann die Strecke 202 verschiedene zusammenhängende Spuren beinhalten, die entlang existierender Straßen und Wege der Region definiert sind. Beispielsweise enthält die veranschaulichende Strecke 202 Zwischenpunkte 208, 210 und 212. Eine erste Spur 202a verbindet den Startpunkt 204 mit dem ersten Zwischenpunkt 208. Eine zweite Spur 202b verbindet den ersten Zwischenpunkt 208 mit dem zweiten Zwischenpunkt 210. Eine dritte Spur 202c verbindet den zweiten Zwischenpunkt 210 mit dem dritten Zwischenpunkt 212. Eine vierte Spur 202d verbindet den dritten Zwischenpunkt 212 mit dem Bestimmungsort 206. Die Spuren 202a-d sind größtenteils lineare Pfade. Dies ist jedoch keine notwendige Bedingung für die Spuren 202a-d. Außerdem kann eine Spur in Teilspuren geparst werden, bis eine akzeptable Annäherung an lineare Pfade erreicht ist.
3 zeigt eine Ego-Perspektive 300 eines ausgewählten Abschnitts der veranschaulichenden Strecke 202. Die Ego-Perspektive 300 bezieht sich auf die Perspektive, die entweder von dem Fahrzeug 102 oder dem Fahrer des Fahrzeugs gesehen wird. Die Ego-Perspektive 300 zeigt die erste Spur 202a, den ersten Zwischenpunkt 208 und die zweite Spur 202b.
4 zeigt eine Drittperson-Perspektive 400 des ausgewählten Abschnitts der in 3 gezeigten veranschaulichenden Strecke 202. Die Drittperson-Perspektive 400 zeigt die erste Spur 202a, den ersten Zwischenpunkt 208 und die zweite Spur 202b. Wie zu sehen ist, beinhaltet die zweite Spur 202b eine Vielzahl von Fahrspuren.
5 zeigt eine Darstellung 500 von Fahrzeugzuständen und Aktionen zum Bewegen zwischen Zuständen, bekannt als ein Markov-Zustandsmodell. Kreise repräsentieren Zustände des Fahrzeugs. Ein Zustand des Fahrzeugs beinhaltet beispielsweise einen Pose-Vektor des Fahrzeugs, der einen Ort, eine Ausrichtung usw. des Fahrzeugs angibt, einen Kinematikvektor des Fahrzeugs, der eine Geschwindigkeit, eine Beschleunigung oder einen Gang des Fahrzeugs anzeigt, einen Winkel eines Lenkaktuators, ein Drosselklappeniveau des Fahrzeugs, ein Bremsniveau des Fahrzeugs und jegliche anderen Parameter, die den gegenwärtigen Ort, die Bewegung und/oder die Richtung des Fahrzeugs anzeigen können. Der Zustand des Fahrzeugs kann ferner Informationen beinhalten, die für die Umgebung des Fahrzeugs spezifisch sind, wie zum Beispiel die Nähe des Fahrzeugs zu Verkehrsschildern, Straßenmarkierungen, einem Ort und der Geschwindigkeit von externen Agenten usw. Aktionen werden durch Pfeile angezeigt und bringen das Fahrzeug von einem Zustand in einen anderen Zustand. Solche Aktionen können Beschleunigen, Bremsen und Lenken beinhalten, sind aber nicht darauf beschränkt. Wenn sich das Fahrzeug beispielsweise in einem bestimmten Zustand befindet, beispielsweise im Leerlauf, kann eine Aktion zur Beschleunigung an dem Fahrzeug durchgeführt werden, um den Zustand des Fahrzeugs von Leerlauf zu Vorwärtsfahrt mit einer ausgewählten Geschwindigkeit zu ändern.
In einer Ausführungsform bestimmt der Prozessor 112 des Fahrzeugs 102 einen Fortschritt von Zuständen, die zum Navigieren des Fahrzeugs 102 über die Strecke 202 geeignet sind. Sobald die Strecke empfangen worden ist, parst der Prozessor 112 die Strecke in eine Vielzahl von Spuren. Der Prozessor 112 erstellt eine Richtlinie oder einen Fortschritt von Zuständen und überlagert einen erwarteten Fortschritt des Fahrzeugs 102, der der Richtlinie über die Strecke oder die Spur entspricht. Ein Markov-Entscheidungsverfahren bestimmt einen erwarteten Belohnungswert der Richtlinie, der die Wirksamkeit der Richtlinie beim Fahren des Fahrzeugs 102 in Richtung seines Bestimmungsorts 206 angibt. In einer Ausführungsform erzeugt der Prozessor 112 eine Vielzahl von Richtlinien und bestimmt erwartete Belohnungswerte für jede der Vielzahl von Richtlinien. Der Prozessor 112 wählt dann eine Richtlinie aus, die einen optimalen Belohnungswert aufweist, und implementiert die Richtlinie bei dem Fahrzeug 102, um das Fahrzeug 102 entlang der Strecke 202 zu navigieren.
6 zeigt eine Drittperson-Perspektive 600, die eine Vielzahl von Fahrzeugzuständen enthält, die der Drittperson-Perspektive 400 von 4 überlagert sind. In jedem Zustand berechnet und wählt das Fahrzeug 102 eine andere Richtlinie basierend auf dem aktualisierten Zustand des Fahrzeugs und berücksichtigt die aktualisierten Messungen der Aktivitäten externer Agenten in der Umgebung. Bezugnehmend auf 6 ist ein erster Satz von Zuständen S1 bis S11 deterministisch, wenn das Fahrzeug entlang einer geraden Linie 202a fährt und an einem ersten Zwischenpunkt 208 bis zum Stillstand verlangsamt. Sobald das Fahrzeug in die Kreuzung eintritt, gibt es viel mehr mögliche Zustände für das Fahrzeug 102 aufgrund der drei Fahrspuren der zweiten Spur 202b sowie der Existenz anderer Fahrzeuge.
Da die zweite Spur 202b eine mehrspurige Straße ist, besteht ein Bedarf für ein Entscheidungsverfahren, welche Spur beim Abbiegen auszuwählen ist. Vorausschauend auf den zweiten Zwischenpunkt 210, an dem erwartet wird, dass das Fahrzeug 102 nach links abbiegt, gibt es eine Vielzahl von Entscheidungen darüber, wann und wie Fahrspurwechsel vorgenommen werden, um von der rechten Fahrspur (beginnend vom ersten Zwischenpunkt 208) zu der linken Fahrspur zu gelangen, zu der Zeit, wenn das Fahrzeug 102 den zweiten Zwischenpunkt 210 erreicht. Dieses Entscheidungsverfahren berücksichtigt die Geschwindigkeiten und Positionen anderer Fahrzeuge.
Bezugnehmend auf 6 sind Zustände des Markov-Zustandsmodells von 5 über die Drittperson-Perspektive 400 von 4 überlagert. Die Zustände werden durch Kreise dargestellt. Jeder Zustand ist an einer diskreten Stelle des Fahrzeugs 102 entlang der Strecke gezeigt. An jeder der diskreten Stellen kann eine aktualisierte Bewertung des möglichen Fortschritts von Fahrzeugzuständen vorgenommen werden. Wie in 6 gezeigt, steuern die Zustände S1-S11 den Zustand des Fahrzeugs 102, um die erste Spur 202a von dem Startpunkt 204 zu dem ersten Zwischenpunkt 208 zu durchlaufen. Entlang der ersten Spur 202a gibt es einen einzigartigen Fortschritt von Zuständen für das Fahrzeug 102. Entlang der zweiten Spur 202b gibt es jedoch viele mögliche Zustände. Zum Beispiel ist der Zustand S11 an verschiedenen Positionen entlang der zweiten Spur 202b gezeigt. Zustand S12 und Zustand S45 werden mehr als einmal angezeigt. Ein Markov-Entscheidungsverfahren wird auf das Markov-Zustandsmodell angewendet, um den bestimmten Fortschritt von Zuständen auszuwählen, die es dem Fahrzeug erlaubt, diese Strecke zu durchlaufen.
7 ist ein schematisches Diagramm 700, das eine Richtlinie oder einen Fortschritt von Zuständen für ein Fahrzeug 102 zum Navigieren einer Strecke 202 darstellt. Die Zustände des Fahrzeugs 102 sind mit S_i, S_i+1, S_i+2, ..., S_i+n bezeichnet, wobei i ein Index ist und n ist eine Anzahl von Schritten, für die der Prozessor vorausschauen möchte. Der gegenwärtige Zustand des Fahrzeugs 102 ist mit S_i bezeichnet. Zustand S_i ist durch verschiedene Vektoren gekennzeichnet, beispielsweise eine Pose-Matrix P_i, einen Kinematikvektor K_i, einen Umgebungsinformationsvektor E_i und einen Aktuatorzustandsvektor A_i. Der Zustand P_i ist jedoch nicht auf diese Vektoren beschränkt. Die Pose-Matrix P_i zeigt eine Position und Orientierung des Fahrzeugs 102 an. Der Kinematikvektor K_i liefert Informationen über die Kinematik des Fahrzeugs 102, wie beispielsweise seine Geschwindigkeit, Beschleunigung, Abbremsen oder Verzögerung, Lenken usw. Der Umgebungsinformationsvektor E_i stellt Informationen über externe Agenten 118 in der Umgebung des Fahrzeugs 102 bereit, wie die Entfernung, Orientierung, Winkelrichtung, Geschwindigkeit, Beschleunigung anderer Fahrzeuge, den Zustand von Verkehrsampeln, das Vorhandensein von Fußgängern, Radfahrern, Tieren usw. Der Stellgliedzustandsvektor A_i liefert Informationen bezüglich der Betätigungselemente des Fahrzeugs 102. Jeder der Vektoren P_i, K_i, E_i, A_i wird durch Messungen informiert, die von verschiedenen Sensoren 702 vorgenommen werden. In einer Ausführungsform empfangen der Pose-Vektor P_i und Kinematikvektor K_i Messungen von den internen Zustandssensoren 106 (1) und der Umgebungsinformationsvektor E_i empfängt Messungen von den Umgebungssensoren 104. Zusätzlich kann der Zustand der Betätigungselemente durch Betätigungssensoren bereitgestellt werden.
Die Richtlinie π_i(s) schreibt vor, welche Aktionen (d. h. Verhaltenssteuerungsbefehle) in einem gegebenen Zustand S_i auszuführen sind. Beginnend mit Zustand S_i werden die Vektoren P_i, K_i, E_i, A_i verwendet, um einen nächsten Zustand S_i+1 des Fahrzeugs 102 zu berechnen. Ähnlich wird Zustand S_i+2 aus dem vorhergesagten Zustand S_i+1 berechnet. Dieses Verfahren wird fortgesetzt, bis ein n Zustand S_i+n berechnet wurde. Das Verfahren kann mehrere Male wiederholt werden, um eine Vielzahl von Richtlinien zu berechnen. Mit jeder Richtlinie π_i(s) kann ein erwarteter Belohnungswert für die Richtlinie berechnet werden. Das Markov-Entscheidungsverfahren wird verwendet, um einen Wert für die Richtlinie zu bestimmen. Der Wert stellt eine langfristig diskontierte zukünftige Belohnung dar, die durch den Start von dem ersten Zustand S_i und Ausführen der Richtlinie π_i(s) erreicht wird. Im Allgemeinen hat die Erwünschtheit der Richtlinie damit zu tun, wie effektiv die Richtlinie darin ist, das Fahrzeug 102 zu seinem Bestimmungsort hin zu befördern. Eine Wertfunktion, die durch das Markov-Entscheidungsverfahren bereitgestellt wird, stellt eine Zuordnung von Zuständen zu Werten dar, wobei die Werte eine kumulative Rendite (d. h. diskontierte zukünftige Belohnungen) darstellen, die durch Folgen der Richtlinie π_i(s) von dem gegenwärtigen Zustand zu dem Zielzustand fortzuschreiten oder, alternativ, von dem gegenwärtigen Zustand um eine vorgewählte Anzahl „n“ von Schritten fortzuschreiten. In einer Ausführungsform kann der Prozessor die Richtlinie auswählen und implementieren, die eine höchste Belohnung aufweist (d. h. das Fahrzeug 102 am besten zu seinem Ziel zu fahren), ohne eine beliebige Strafen zu verursachen (wie beispielsweise eine Kollision zu haben, Verkehrsregeln zu verletzen, rücksichtsloses Fahren, grobe Fahrten, usw.). Sobald das Fahrzeug in einen nächsten Zustand übergeht (z. B. Zustand S_i+1), kann das Verfahren wiederholt werden, um eine geeignete Richtlinie bei dem nächsten Zustand des Fahrzeugs zu bestimmen.
8 zeigt ein Ablaufdiagramm 800 zum Auswählen einer Richtlinie zum Navigieren einer Strecke in einer Ausführungsform. Das Ablaufdiagramm 800 beginnt bei Kasten 802. Bei Kasten 804 bestimmt der Prozessor, ob ein gültiger Fahrplan oder ein gültiges Ziel eingegeben wurde. Wenn „Nein“, kehrt das Ablaufdiagramm 800 zu Kasten 802 zurück. Wenn „Ja“, geht das Ablaufdiagramm 800 zu Kasten 806 über. In Kasten 806 sammelt der Prozessor Kartendaten. In Kasten 808 bestimmt der Prozessor, ob beispielsweise Kartendaten für den Fahrplan von einem Fernprozessor verfügbar sind. Wenn Kartendaten nicht auf dem Fernprozessor verfügbar sind, kann ein anderer Fernprozessor nach Kartendaten abgefragt werden. Wenn innerhalb einer spezifizierten Zeitspanne keine Kartendaten gefunden werden können, kann das Ablaufdiagramm 800 eine Zeitüberschreitung aufweisen und zu Kasten 802 zurückkehren. Wenn jedoch Kartendaten lokalisiert werden können, werden die Kartendaten bei Kasten 810 in das Fahrzeug und in den Prozessor heruntergeladen. Der Prozessor initialisiert die Fahrzeugumgebung durch Analysieren der Streckenebene für die Kartendaten. In Kasten 812 baut der Prozessor ein Markov-Zustandsmodell, das die Umgebung darstellt. In Kasten 814 priorisiert der Prozessor ähnliche Zustände des Markov-Zustandsmodells, wobei er Wertfunktionen der Zustände und erwartete Bedrohungen aufzeichnet.
In Kasten 816 beginnt der Prozessor ein Markov-Entscheidungsverfahren zum Navigieren der Strecke. In Kasten 818 führt der Prozessor einen Richtlinien-Iterator aus, der Schritte ausführt, um eine Richtlinie zur Ausführung im autonomen Fahrzeug auszuwählen. Der Richtlinien-Iterator (Kasten 818) bewertet verschiedene Richtlinien durch Bestimmen eines erwarteten kumulativen diskontierten zukünftigen Belohnungswerts, der erhalten wird, indem die durch eine Richtlinie π_i(s) vorgeschriebene Aktion oder die Aktionen aus dem aktuellen Zustand des Fahrzeugs erhalten oder durchgeführt werden. Der Richtlinien-Iterator sucht auch nach einer anderen Richtlinie in einem Richtlinienbereich mit einem höheren geeigneten Belohnungswert. In einer Ausführungsform durchsucht der Richtlinien-Iterator 818 eine Datenbank (Kasten 820) von primitiven Unterrichtlinien, die aus einem vorbestimmten Betätigungsbefehl zum Bewegen zwischen einigen Zuständen bestehen, jedoch nicht zum Bewegen zwischen allen Zuständen auf der geplanten Strecke. Der Richtlinien-Iterator 818 erstellt dann eine aktualisierte Richtlinie unter Verwendung der vorbestimmten Aktivierungsbefehle/primitiven Unterrichtlinien und bestimmt einen erwarteten Belohnungswert für die aktualisierte Richtlinie.
9 zeigt Details der Datenbank 820 von vorbestimmten Betätigungsbefehlen und/oder primitiven Unterrichtlinien, die in dem Fahrzeug in einer veranschaulichenden Ausführungsform genommen werden können. Die vorbestimmten Betätigungsbefehle und/oder primitiven Unterrichtlinien der Datenbank 816 können das adaptive Fahren 902, den Spurwechsel 904, das Verbleiben in der Fahrspur 906, das Linksabbiegen 908, das Rechtsabbiegen 910 und die kurvenreiche Straße 912, Fußgängerausweichen 914, Halt, 916, Querverkehrsausweichen 918, Eingliedern in den Verkehrsfluss 920, Abfahrt 922 und Kreisverkehr 924 umfassen, sind aber nicht darauf beschränkt. Der Richtlinien-Iterator 818 kann eine Richtlinie durch Kombinieren eines oder mehrerer dieser vorbestimmten Betätigungsbefehle/primitiven Unterrichtlinien von der Datenbank in einem geordneten Fortschritt erstellen und führt Iterationen durch, um eine optimale Richtlinie zu finden.
Rückkehrend zu Kasten 818 von 8 durchsucht der Richtlinien-Iterator 818 einen Richtlinienraum nach einer optimalen Richtlinie, die vom aktuellen Zustand des Fahrzeugs ausgeführt werden kann, um das Fahrzeug zu seinem Bestimmungsort zu bringen. Alternativ kann eine Richtlinie ausgewählt werden, die das Fahrzeug durch eine ausgewählte Anzahl „n“ von Schritten bewegt. Der Richtlinien-Iterator 818 erstellt eine erste Richtlinie und bestimmt einen ersten erwarteten Belohnungswert für die erste Richtlinie. Der Richtlinien-Iterator 818 kann dann eine zweite Richtlinie erstellen und einen zweiten erwarteten Belohnungswert für die zweite Richtlinie bestimmen und dann aus der ersten Richtlinie und der zweiten Richtlinie die Richtlinie mit dem größeren erwarteten Belohnungswert auswählen. Dieses Verfahren kann für eine ausgewählte Anzahl von Iterationen oder bis ein ausgewählter erwarteter Belohnungswert erreicht ist, wiederholt werden. In einer Ausführungsform wählt der Richtlinien-Iterator 818 die Richtlinie aus, die eine optimale oder maximale Belohnung aufweist, die keine Strafen wie etwa Kollisionen, Verkehrsverstöße usw. aufweist.
Sobald eine Richtlinie durch den Richtlinien-Iterator 818 ausgewählt wurde, fließt das Verfahren zu einem Richtlinienausführer von Kasten 822. Der Richtlinienausführer 822 bestimmt Aktionen, die an verschiedenen Betätigungsvorrichtungen 108 des Fahrzeugs auszuführen sind, und sendet die Aktionen an die Betätigungsvorrichtungen in Kasten 824, damit die Richtlinie in dem Fahrzeug ausgeführt wird. Das Ausführen der Richtlinie in Kasten 824 führt zum Erzeugen einer Trajektorie für das Fahrzeug in Kasten 826. Außerdem wird in Kasten 828 die ausgewählte Richtlinie mit Beobachtungen aus der externen Umgebung (d. h. Messungen von Umgebungssensoren) fusioniert, um einen nächsten Zustand zu bestimmen, der sich aus der Implementierung der Richtlinie in dem Fahrzeug in seinem aktuellen Zustand ergibt. In Kasten 830 bestimmt der Prozessor, ob der nächste Zustand ein gültiger Zustand ist. Wenn „Nein“, kehrt der Prozessor zu Kasten 828 zurück, um die Richtlinie mit aktuellen Beobachtungen zu fusionieren. Wenn „Ja“ (d. h. der Zustand ist gültig), dann aktualisiert der Prozessor in Kasten 832 den Zustand des Fahrzeugs in den nächsten Zustand, einschließlich der internen Zustandsparameter des Fahrzeugs und der Parameter der Umgebung und externer Agenten. Aus dem aktualisierten Zustand von Kasten 832 kehrt das Ablaufdiagramm zu dem Richtlinien-Iteratorkasten 818 zurück, in dem der Prozessor fortfahren kann, einen aktualisierten Satz von Richtlinien zum Navigieren des Fahrzeugs basierend auf dem aktualisierten Zustand zu bestimmen.

Claims

System zum Betreiben eines autonomen Fahrzeugs, umfassend: einen Umgebungssensor, der konfiguriert ist, um einen oder mehrere Parameter von externen Agenten des Fahrzeugs zu erhalten; und einen Prozessor, der konfiguriert ist zum: Erhalten einer Strecke mit einem Bestimmungsort in dem autonomen Fahrzeug; Bilden eines Markov-Zustandsmodell der Strecke, das eine Vielzahl von Zuständen für das autonome Fahrzeug und den einen oder die mehreren Parameter der externen Agenten enthält; Erzeugen einer Vielzahl von Fahrrichtlinien zum Navigieren der Strecke, wobei jede Fahrrichtlinie einen Fortschritt durch die Vielzahl von Zuständen beinhaltet; und Auswählen einer Richtlinie zum Navigieren der Strecke aus der Vielzahl von Fahrrichtlinien unter Verwendung eines Markov-Entscheidungsverfahrens; gekennzeichnet durch der Prozessor ferner zum Ausführen der ausgewählten Richtlinie an dem autonomen Fahrzeug konfiguriert ist, um das Fahrzeug entlang der Strecke zu dem Bestimmungsort zu navigieren, und um einen Zustand des Fahrzeugs zu aktualisieren, wenn das Fahrzeug die Strecke navigiert, und eine aktualisierte Richtlinie basierend auf dem aktualisierten Zustand des Fahrzeugs zu bestimmen.
System nach Anspruch 1, wobei der Prozessor ferner konfiguriert ist zum: Bestimmen eines erwarteten Belohnungswerts für jede der Vielzahl von Fahrrichtlinien, wobei der Belohnungswert einer Fahrrichtlinie eine Wirksamkeit der Fahrrichtlinie beim Fortschreiten des autonomen Fahrzeugs zu dem Bestimmungsort anzeigt; und zum Auswählen der Richtlinie mit einem ausgewählten Belohnungswert.
System nach Anspruch 2, wobei die ausgewählte Richtlinie ferner umfasst, dass die Richtlinie einen größten erwarteten Belohnungswert ohne Strafen aufweist.
System nach Anspruch 1, wobei der Prozessor ferner konfiguriert ist, um die ausgewählte Richtlinie bei dem autonomen Fahrzeug auszuführen, indem er eine Aktion an dem Fahrzeug ausführt, um das autonome Fahrzeug zu dem Bestimmungsort zu fahren.
Autonomes Fahrzeug, umfassend: einen Umgebungssensor, der konfiguriert ist, um einen oder mehrere Parameter von externen Agenten des Fahrzeugs zu erhalten; und einen Prozessor, der konfiguriert ist zum: Erhalten einer Strecke mit einem Bestimmungsort in dem autonomen Fahrzeug; Bilden eines Markov-Zustandsmodell der Strecke, das eine Vielzahl von Zuständen für das autonome Fahrzeug und den einen oder die mehreren Parameter der externen Agenten enthält; Erzeugen einer Vielzahl von Fahrrichtlinien zum Navigieren der Strecke, wobei jede Fahrrichtlinie einen Fortschritt durch die Vielzahl von Zuständen beinhaltet; und Auswählen einer Richtlinie zum Navigieren der Strecke aus der Vielzahl von Fahrrichtlinien unter Verwendung eines Markov-Entscheidungsverfahrens; dadurch kennzeichnet, dass der Prozessor ferner zum Ausführen der ausgewählten Richtlinie an dem autonomen Fahrzeug konfiguriert ist, um das Fahrzeug entlang der Strecke zu dem Bestimmungsort zu navigieren, und um einen Zustand des Fahrzeugs zu aktualisieren, wenn das Fahrzeug die Strecke navigiert, und eine aktualisierte Richtlinie basierend auf dem aktualisierten Zustand des Fahrzeugs zu bestimmen.
Autonomes Fahrzeug nach Anspruch 5, wobei der Prozessor ferner konfiguriert ist zum: Bestimmen eines erwarteten Belohnungswerts für jede der Vielzahl von Fahrrichtlinien, wobei die Belohnung einer Fahrrichtlinie eine Wirksamkeit der Fahrrichtlinie beim Fortschreiten des autonomen Fahrzeugs zu dem Bestimmungsort anzeigt; und zum Auswählen der Richtlinie mit einem ausgewählten Belohnungswert.
Autonomes Fahrzeug nach Anspruch 6, wobei die ausgewählte Richtlinie ferner umfasst, dass die Richtlinie einen größten erwarteten Belohnungswert ohne Strafen aufweist.
Autonomes Fahrzeug nach Anspruch 5, wobei der Prozessor ferner konfiguriert ist, um die ausgewählte Richtlinie bei dem autonomen Fahrzeug auszuführen, indem er eine Aktion an dem Fahrzeug ausführt, um das autonome Fahrzeug zu dem Bestimmungsort zu fahren.