DE102020111953A1

DE102020111953A1 - Trajektorienplanungsmodul für automatisiertes fahren

Info

Publication number: DE102020111953A1
Application number: DE102020111953.4A
Authority: DE
Inventors: Vladislav Nenchev
Original assignee: Bayerische Motoren Werke AG
Current assignee: Bayerische Motoren Werke AG
Priority date: 2020-05-04
Filing date: 2020-05-04
Publication date: 2021-11-04

Abstract

Bereitgestellt wird ein Verfahren zur Trajektorienplanung. Es wird ein Berechnen einer ersten Stellgrößentrajektorie mittels eines modellbasierten Ansatzes durchgeführt. Ein basierend auf der Stellgrößentrajektorie des modellbasierten Trajektorienplanungsmoduls mittels des modellbasierten Ansatzes prädizierter Fahrzeugzustand liegt über den Planungshorizont innerhalb von allen Schranken des modellbasierten Ansatzes und der prädizierte Fahrzeugzustand erlaubt Abweichungen entlang jeder Trajektorie, die innerhalb der Toleranzbandschranken liegt, ohne dass eine der Schranken des modellbasierten Ansatzes verletzt wird. Ein Berechnen einer zweiten Stellgrößentrajektorie wird mittels eines lernenden Trajektorienplanungsmoduls durchgeführt. Ferner wird ein Berechnen einer Aktuatorstellgrößentrajektorie über den Planungshorizont als Summe aus der ersten Stellgrößentrajektorie und der zweiten Stellgrößentrajektorie durchgeführt. Ein basierend auf der Aktuatorstellgrößentrajektorie mittels des modellbasierten Ansatzes prädizierter Fahrzeugzustand liegt über den Planungshorizont innerhalb von allen Schranken des modellbasierten Ansatzes und der prädizierte Fahrzeugzustand erlaubt Abweichungen entlang jeder Trajektorie, die innerhalb der Toleranzbandschranken liegt, ohne dass eine der Schranken des modellbasierten Ansatzes verletzt wird. Die berechnete Aktuatorstellgrößentrajektorie wird zu dem Fahrzeug ausgegeben.

Description

Die vorliegende Erfindung betrifft ein Trajektorienplanungsmodul für ein automatisiertes Fahren.
Zur automatisierten Führung, insbesondere Quer- und/oder Längsführung, eines Fahrzeugs erfolgt typischerweise eine Trajektorienplanung, unter Berücksichtigung von zeitlich veränderlichen Beschränkungen aus einem Umfeldmodell des Umfelds des Fahrzeugs (z.B. ein maximal zulässiger Seitenabstand), sowie unter Berücksichtigung von physikalischen Fahrzeugbeschränkungen (z.B. eine maximal zulässige Krümmungsänderung, die durch das Fahrzeug umgesetzt werden kann). Im Rahmen der Trajektorienplanung kann eine endliche, geplante Zieltrajektorie für die Längs- und/oder die Querführung bereitgestellt werden.
Bei automatisierten Fahrzeugen, insbesondere Personenkraftwagen, werden zur Trajektorienplanung üblicherweise Trajektorienplanungsmodule für ein automatisiertes Fahren eingesetzt, die analytisch hergeleitete Fahrzeugmodelle verwenden. Diese führen zu einer sub-optimalen Planungs- sowie Regelgüte und können sich nicht automatisch an veränderliche Umweltbedingungen anpassen.
Auf maschinelles Lernen basierte Trajektorienplanungsverfahren haben in vielen Anwendungsbereichen, wie z.B. bei der Bewegungsplanung von Robotern, klassische modellbasierte Verfahren abgelöst. Dies liegt insbesondere daran, dass ein genaueres Modell der Umgebung gelernt werden kann, um damit eine bessere Planung zu ermöglichen.
Allerdings ist die Anwendung von maschinellem Lernen für die Trajektorienplanung beim automatisierten Fahren dadurch beschränkt, dass damit sicherheitskritische Eigenschaften (z.B. maximale Beschleunigung und/oder Lenkwinkel des Fahrzeugs) eines Trajektorienplanungssubsystems nicht bzw. nur schwer garantiert werden können.
Ein üblicher Ansatz ist, eine hinterlegte Ausgabebeschränkung (z.B. limitierte maximale Beschleunigung und/oder Lenkwinkel des Fahrzeugs) für das Subsystem anzuwenden, die die sicherheitskritischen Eigenschaften garantiert. Um dies zu ermöglichen, werden wiederum modelbasierte Verfahren verwendet, die die Güte des auf maschinellen Lernen basierenden Ansatzes stark reduzieren.
Aufgabe der vorliegenden Erfindung ist es daher, unter anderem diese Nachteile aus dem Stand der Technik zu überwinden.
Danach wird die Aufgabe gelöst durch ein Trajektorienplanungsmodul zur Planung einer Trajektorie eines automatisierten Fahrzeugs. Das Trajektorienplanungsmodul weist ein lernendes Trajektorienplanungsmodul und ein modellbasiertes Trajektorienplanungsmodul auf und ist ausgestaltet, eine Aktuatorstellgrößentrajektorie über einen Planungshorizont zu dem Fahrzeug auszugeben.
Das modellbasierte Trajektorienplanungsmodul ist ausgestaltet, basierend auf einem Umfeldmodel, Toleranzbandschranken aufweisend eine untere Schranke und eine obere Schranke, weiteren Schranken sowie einem aktuellen Fahrzeugzustand des Fahrzeugs mittels eines modellbasierten Ansatzes eine Stellgrößentrajektorie über den Planungshorizont zu erzeugen und auszugeben.
Ein basierend auf der Stellgrößentrajektorie des modellbasierten Trajektorienplanungsmoduls mittels des modellbasierten Ansatzes prädizierter Fahrzeugzustand liegt über den Planungshorizont innerhalb von allen Schranken des modellbasierten Ansatzes und der prädizierte Fahrzeugzustand erlaubt Abweichungen entlang jeder Trajektorie, die innerhalb der Toleranzbandschranken (w_u, w_l) liegt, ohne dass eine der Schranken des modelbasierten Ansatzes verletzt wird.
Das lernende Trajektorienplanungsmodul ist ausgestaltet, basierend auf der vom modellbasierten Trajektorienplanungsmodul erzeugten Stellgrößentrajektorie, der unteren Schranke und der oberen Schranke sowie dem aktuellen Fahrzeugzustand des Fahrzeugs eine Stellgrößentrajektorie über den Planungshorizont zu erzeugen und auszugeben.
Die Aktuatorstellgrößentrajektorie entspricht einer Summe aus der Stellgrößentrajektorie, die von dem modellbasierten Trajektorienplanungsmodul ausgegeben wird, und der Stellgrößentrajektorie, die von dem lernenden Trajektorienplanungsmodul ausgegeben wird.
Ein basierend auf der Aktuatorstellgrößentrajektorie mittels des modellbasierten Ansatzes prädizierter Fahrzeugzustand liegt über den Planungshorizont innerhalb von allen Schranken des modellbasierten Ansatzes und der prädizierte Fahrzeugzustand erlaubt Abweichungen entlang jeder Trajektorie, die innerhalb der Toleranzbandschranken liegt, ohne dass eine der Schranken des modellbasierten Ansatzes verletzt wird.
Das Fahrzeug ist, wie oben beschrieben, ausgestaltet, um automatisiert zu fahren. Das automatisierte Fahren kann so erfolgen, dass die Fortbewegung des Fahrzeugs weitgehend autonom erfolgt. Das Fahrzeug kann ein Fahrzeug der Autonomiestufe 1 sein, d.h. bestimmte Fahrerassistenzsysteme aufweisen, die den Fahrer bei der Fahrzeugbedienung, beispielsweise der Abstandsregeltempomat (ACC), unterstützen. Das Fahrzeug kann ein Fahrzeug der Autonomiestufe 2 sein, d.h. so teilautomatisiert sein, dass Funktionen wie automatisches Einparken, Spurhalten bzw. Querführung, allgemeine Längsführung, Beschleunigen und/oder Abbremsen von Fahrerassistenzsystemen übernommen werden. Das Fahrzeug kann ein Fahrzeug der Autonomiestufe 3 sein, d.h. so bedingungsautomatisiert, dass der Fahrer das System Fahrzeug nicht durchgehend überwachen muss. Das Fahrzeug führt selbstständig Funktionen wie das Auslösen des Blinkers, Spurwechsel und/oder Spurhalten durch. Der Fahrer kann sich anderen Dingen zuwenden, wird aber bei Bedarf innerhalb einer Vorwarnzeit vom System aufgefordert die Führung zu übernehmen. Das Fahrzeug kann ein Fahrzeug der Autonomiestufe 4 sein, d.h. so hochautomatisiert, dass die Führung des Fahrzeugs dauerhaft vom System Fahrzeug übernommen wird. Werden die Fahraufgaben vom System nicht mehr bewältigt, kann der Fahrer aufgefordert werden, die Führung zu übernehmen. Das Fahrzeug kann ein Fahrzeug der Autonomiestufe 5 sein, d.h. so vollautomatisiert, dass der Fahrer zum Erfüllen der Fahraufgabe nicht erforderlich ist. Außer dem Festlegen des Ziels und dem Starten des Systems ist kein menschliches Eingreifen erforderlich. Das Fahrzeug kann ohne Lenkrad und Pedale auskommen. Bei dem Fahrzeug kann es sich insbesondere um einen Personenkraftwagen handeln.
Bei dem Planungshorizont handelt es sich um ein Zeitintervall vorbestimmter Länge.
Bei den Toleranzbandschranken, die auch Beschränkungen genannt werden können, handelt es sich um sog. upper und lower boundaries die eine Unsicherheit im System beschränken. Ausführungsbeispiele für die Schranken sind eine „worst-case“ bounding Box eines erkannten bzw. ggf. auch prädizierten Objekts und/oder „worst-case“ Spurschranken. Der „worst-case“ kann so definiert werden, dass z.B. Kollisionen, insbesondere schwere Kollisionen, bei Geschwindigkeiten größer 80 km/h immer vermieden werden sollen. Die Toleranzbandschranken sind Parameter, die auch veränderbar über den Planungshorizont gewählt werden können, solange sie relativ klein zu den Werten der Zustandsvariablen bleiben.
Bei den weiteren Schranken des modellbasierten Ansatzes handelt es sich um sog. harte Schranken, wie beispielsweise eine minimale oder eine maximale Geschwindigkeit des Fahrzeugs.
Anhand des modellbasierten Ansatzes bzw. des vom modellbasierten Trajektorienplanungsmodul verwendeten Modells lässt sich mittels der Stellgrößentrajektorie des modellbasierten Trajektorienplanungsmoduls ein sich einstellender Fahrzeugzustand prädizieren bzw. vorhersagen.
Dieser prädizierte Fahrzeugzustand muss über den Planungshorizont innerhalb von allen Schranken des modellbasierten Ansatzes, d.h. innerhalb der harten Schranken und der Toleranzbandschranken liegen.
Der prädizierte Fahrzeugzustand erlaubt jedoch Abweichungen des Fahrzeugzustandes entlang jeder Trajektorie, die innerhalb der Toleranzbandschranken (w_u, w_l) liegt, solange keine der Schranken, d.h. weder einer der Toleranzbandschranken noch eine der harten Schranken des modellbasierten Ansatzes verletzt wird.
Somit kann der vom modellbasierten Trajektorienplanungsmodul verwendete robuste Ansatz realisiert werden.
Die Aktuatorstellgrößentrajektorie entspricht jedoch einer Summe aus der Stellgrößentrajektorie, die von dem modellbasierten Trajektorienplanungsmodul ausgegeben wird, und der Stellgrößentrajektorie, die von dem lernenden Trajektorienplanungsmodul ausgegeben wird.
Damit die vom modellbasierten Trajektorienplanungsmodul bereitgestellte Robustheit auch für die Aktuatorstellgrößentrajektorie gilt, muss ein basierend auf der Aktuatorstellgrößentrajektorie prädizierter Fahrzeugzustand ebenfalls über den Planungshorizont innerhalb von allen Schranken des modellbasierten Ansatzes liegen.
Der basierend auf der Aktuatorstellgrößentrajektorie mittels des modellbasierten Trajektorienplanungsmoduls prädizierte Fahrzeugzustand erlaubt jedoch ebenso Abweichungen entlang jeder Trajektorie, die innerhalb der Toleranzbandschranken liegt, solange keine der Schranken des modellbasierten Ansatzes verletzt wird.
Damit kann ist auch die Aktuatorstellgrößentrajektorie robust gegen auftretende Störungen im Betrieb des Fahrzeugs, wie beispielsweise Seitenwind oder Unsicherheiten im Umfeldmodell.
Weiterhin wird das Trajektorienplanungsmodul durch das Umfeldmodell, insbesondere durch eine beispielsweise darin enthaltene Spurmitte, Objektboxen und/oder Spurschranken, parametriert. Denkbar ist auch, dass die beiden Module des Trajektorienplanungsmoduls nicht nur von einem vorgelagerten Umfeldmodellmodul sondern auch mit einer Prädiktion und Fahrstrategie, falls dies durch eine Komplexität der bereitzustellenden Funktionalität benötigt wird, parametriert werden, durch z.B. Fahrspuren, Objektprädiktionen usw.. Weiterhin sind für das Trajektorienplanungsmodul als aktueller Fahrzeugzustand alle relevanten aktuellen Fahrzeugodometriedaten, insbesondere Position und Geschwindigkeit des Fahrzeugs, als Messgrößen verfügbar.
Die untere Schranke und die obere Schranke können über eine Zeit, eine Position, eine Geschwindigkeit und/oder eine Beschleunigung eines im Umfeldmodell enthaltenen Objekts formuliert sein.
Das lernende Trajektorienplanungsmodul kann ausgestaltet sein, um durch überwachtes Lernen (sog. supervised learning), insbesondere überwachtes Lernen offline, und/oder durch bestärkendes Lernen (sog. reinforcement learning), insbesondere bestärkendes Lernen online, gelernt zu werden.
Beim offline Lernen handelt es sich bei der Trainingsprozedur um eine Stapelverarbeitung, was auch als sog. „batch learning“ bezeichnet werden kann. Dabei werden Parameter des Algorithmus erst angepasst, nachdem der gesamte Stapel an Trainingsdatensätzen das Training durchlaufen hat. Beim online Lernen wird nicht über einen Stapel (Batch) trainiert, sondern jeder einzelne Datensatz, insbesondere aus laufend hinzugefügten Datensätzen, wird dem Training einzeln hinzugefügt, trainiert und umgehend in eine Parameteranpassung bzw. Modellanpassung umgesetzt.
Jeder Wert einer Stellgröße der von dem lernenden Trajektorienplanungsmodul ausgegebenen Stellgrößentrajektorie kann innerhalb der unteren Schranke und der oberen Schranke liegen. Ein basierend auf der Stellgrößentrajektorie des lernenden Trajektorienplanungsmoduls mittels des modellbasierten Ansatzes prädizierter Fahrzeugzustand kann über den Planungshorizont innerhalb von allen Schranken des modellbasierten Ansatzes liegen und der prädizierte Fahrzeugzustand kann Abweichungen entlang jeder Trajektorie, die innerhalb der Toleranzbandschranken liegt, erlauben, ohne dass eine der Schranken des modellbasierten Ansatzes verletzt wird.
Das heißt, das lernende Trajektorienplanungsmodul bekommt als Eingang die vom modellbasierte Trajektorienplanungsmodul berechnete Trajektorie über den Planungshorizont und den aktuellen Fahrzeugzustand. Der Ausgang des lernenden Trajektorienplanungsmoduls ist eine Stellgrößentrajektorie bzw. Trajektorie über den Planungshorizont, wobei jedes Element der Stellgrößentrajektorie innerhalb der oberen und unteren Schranke liegen muss. Ferner kann die Robustheit der Aktuatorstellgrößentrajektorie, die anteilig die gelernte Trajektorie umfasst, sichergestellt werden.
Eine Belohnungsfunktion des lernenden Trajektorienplanungsmoduls entspricht einer invertierten Kostenfunktion des modellbasierten Trajektorienplanungsmoduls und weist penalty-basierten Terme für Nebenbedingungen des modellbasierten Trajektorienplanungsmodul und für die untere und obere Schranke auf.
Die Belohnungsfunktion bzw. Rewardfunktion kann dabei als Funktion abhängig vom aktuellen Fahrzeugzustand und von der Stellgrößentrajektorie des modellbasierten Trajektorienplanungsmoduls formuliert angesehen werden. Dem modellbasierten Trajektorienplanungsmodul liegt jedoch die Idee zugrunde ein Kostenfunktional bzw. eine Kostenfunktion zu minimieren. Ein Wert der Belohnungsfunktion soll jedoch mit sinkender Kostenfunktion steigen, sodass die invertierte Kostenfunktion verwendet wird. Das heißt, ein geringer Wert bei der Kostenfunktion soll zu einem hohem Wert bei der Belohnungsfunktion führen und umgekehrt.
Bei den Nebenbedingungen des Trajektorienplanungsmoduls handelt es sich um Gleichungen und Ungleichungen, die beispielsweise eine Kollision mit weiteren Objekten im Fahrzeugumfeld verhindern.
Ferner ist, bezogen auf die unteren und oberen Schranken, also bezogen auf die Unsicherheit, ein Regularisierungsterm vorgesehen, sodass das lernende Trajektorienplanungsmodul so gelernt wird, dass jedes Element der ausgegebenen Stellgrößentrajektorie des lernenden Trajektorienplanungsmoduls innerhalb der unteren und oberen Schranke liegt.
Die Belohnungsfunktion kann einen weiteren Term beinhalten, der eine Verbesserung eines vom lernenden Trajektorienplanungsmoduls verwendeten Modells im Hinblick auf ein reales System motiviert.
Der Term zur Verbesserung des vom lernenden Trajektorienplanungsmoduls verwendeten Modells im Hinblick auf das reale System kann durch eine Differenz, insbesondere eine gewichtete Differenz, zwischen einem aktuellen Fahrzeugzustand und basierend auf einer zuvor mittels des Trajektorienplanungsmodul berechneten Aktuatorstellgröße und einem daraus resultierenden prädizierten Fahrzeugzustand gebildet werden.
Demnach kann die Rewardfunktion also einen Term beinhalten, der die Verbesserung der Modells in Hinblick auf das reale System motiviert, z.B. durch die gewichtete Differenz zwischen dem Ist-Fahrzeugzustand und der im vorigen Schritt berechneten Stellgröße und dem daraus resultierenden prädizierten Fahrzeugzustand.
Das modellbasierte Trajektorienplanungsmodul kann auf einem robusten, optimierungsbasierten Ansatz basieren, bei dem angenommen wird, dass über den Planungshorizont der Wert einer Stellgröße der vom modellbasierten Trajektorienplanungsmodul berechneten Stellgrößentrajektorie additiv durch eine beschränkte Unsicherheit verändert werden kann, wobei die beschränkte Unsicherheit innerhalb der unteren Schranke und der oberen Schranke liegt.
Das modellbasierte Trajektorienplanungsmodul kann folglich auf einem analytischen Dynamikmodell (getrennt für Längs und Quer, oder kombiniert) basieren und setzt entweder auf dem Ist- oder dem Sollzustand des Fahrzeugs auf. Es wird ein robuster optimierungsbasierter Ansatz verwendet, bei dem angenommen wird, dass über den Planungshorizont der Wert des Eingangs bzw. der Stellgröße additiv durch eine beschränkte Unsicherheit, wobei die Unsicherheit innerhalb der Toleranzbandschranken liegt, verändert werden kann.
Das modellbasierte Trajektorienplanungsmodul kann eingerichtet sein, eine modellprädiktive Regelung (englisch: model predictive control, MPC) durchzuführen. Die modellprädiktive Regelung ist ein digitaler Regelungsalgorithmus, bei dem ein zeitlicher Verlauf der Stellgröße durch Lösen eines Optimierungsproblems ermittelt wird. Die Optimierung basiert auf einem Systemmodell, das die Streckendynamik beschreibt, sodass der zeitliche Verlauf ein oder mehrerer Systemzustände bzw. Zustandskomponenten in Abhängigkeit von einem zeitlichen Verlauf der Stellgrößen vorhergesagt werden kann.
Welche Zustandsverläufe dabei optimal sind, wird im Allgemeinen anhand eines linearen oder quadratischen Gütekriteriums definiert und in einem Kostenfunktional festgehalten. Um die optimale Stellgrößenfolge zu berechnen, wird das formulierte Kostenfunktional für einen endlichen Prädiktionshorizont, hier dem Planungshorizont, mit numerischen Optimierungsverfahren minimiert. Das System wird dabei ausgehend von einem Anfangszustand in einen gewünschten Endzustand überführt.
Die Idee der modellprädiktiven Regelung besteht darin, das Optimierungsproblem zyklisch auf einen fortschreitenden Horizont zu lösen. Dabei wird in jedem Zeitschritt k typischerweise ausschließlich das erste Intervall der Stellgrößenfolge als Stellgröße zur Steuerung des Systems verwendet. Die Stellgröße im darauf- folgenden Zeitschritt k + 1 wird unter Berücksichtigung der gemessenen Zustandsrückführung (Ausgangszustand) neu berechnet. Die fortlaufende Optimierung zur Laufzeit bietet die Möglichkeit durch Anpassungen des Prädiktionsmodells auf Parameterschwankungen bzw. auf ein nichtlineares zeitvariantes Verhalten der Regelstrecke zu reagieren.
Ein weiterer Vorteil der MPC ist die Fähigkeit, physikalische und/oder leistungsorientierte Beschränkungen der Regelstrecke zu berücksichtigen. Zum einen kann eine Begrenzung der Stellgröße in die Regelungsaufgabe einbezogen werden. Zum anderen ist es möglich durch die Beschränkung von ein oder mehreren Systemzuständen bzw. Zustandskomponenten unerwünschtes Überschwingen zu unterbinden und/oder sicherheitskritische Zustände zu vermeiden.
Aufgrund der Tatsache, dass bei einer modellprädiktiven Regelung die Stellgröße über eine Optimierung ermittelt wird, fällt zur Laufzeit ein relativ hoher Rechenaufwand an. Um diesen Rechenaufwand zu reduzieren, kann eine explizite modellprädiktive Regelung verwendet werden.
Ein beispielhaftes Kostenfunktional für eine modellprädiktive Regelung ist $J (x (0), U) = \sum_{k = 0}^{N} x {(k)}^{t} Qx (k) + \sum_{k = 0}^{N - 1} u {(k)}^{T} R u (k)$
wobei U ein Vektor der zu ermittelnden Stellgrößenfolge u(k) für k = 0, ..., N - 1, ist, wobei x(k) der Systemzustand zum Zeitpunkt k ist und wobei x(0) der Anfangszustand ist, und wobei Q und R jeweils eine Matrix sind. Der Systemzustand x(k) umfasst typischerweise eine Vielzahl von Zustandskomponenten. Die Systemdynamik des Gesamtmodells und der Anfangszustand können durch eine zeitdiskrete Zustandsdarstellung wie folgt beschrieben werden $x (k + 1) = Ax (k) + Bu (k), A \in ℝ^{n \times n}, B \in ℝ^{n \times n},$
$x (0) = x_{0},$
und das Kostenfunktional kann in Abhängigkeit von Beschränkungen für die Stellgröße und/oder für die einzelnen Zustandskomponenten optimiert, insbesondere minimiert, werden. $u_{m i n} \leq u (k) \leq u_{m a x}, k = 0, \dots, N - 1,$
$x_{m i n} \leq x (k) \leq x_{m a x}, k = 1, \dots, N .$
Konkret kommt vorliegend als robuster, optimierungsbasierter Ansatz beispielsweise der in J. Löfberg, „Approximations of closed-loop MPC", IEEE CDC, 2003 vorgeschlagene Ansatz in Betracht.
Das Ergebnis des robusten modellbasierten Trajektorienplanungsmoduls ist die oben beschriebene Stellgrößentrajektorie. Mit dieser wird dann die Aktuatorstellgrößentrajektorie gebildet. Durch die explizite Berücksichtigung der maximal möglich auftretenden Unsicherheit während der Planung mit dem modellbasierten Trajektorienplanungsmodul, wird die Aktuatorstellgrößentrajektorie die Beschränkungen aus Umfeldmodell, Prädiktion, Fahrstrategie usw. einhalten, aber beinhaltet anteilig eine gelernte Trajektorie.
Ferner wird ein System zur Trajektorienplanung für ein Fahrzeug aufweisend ein Umfeldmodellmodul und das oben beschriebene Trajektorienplanungsmodul bereitgestellt. Das System zur Trajektorienplanung ist ausgestaltet, vom Fahrzeug empfangene Messgrößen, die zu einem aktuellen Fahrzeugzustand korrespondieren, in das Umfeldmodellmodul und das Trajektorienplanungsmodul einzugeben.
Das Umfeldmodellmodul ist ausgestaltet, um basierend auf dem aktuellen Fahrzeugzustand ein aktuelles Umfeldmodell des Fahrzeugs zu erzeugen und auszugeben.
Das Trajektorienplanungsmodul ist ausgestaltet, um die Aktuatorstellgrößentrajektorie über den Planungshorizont zu dem Fahrzeug basierend auf dem vom Umfeldmodellmodul ausgegebenen Umfeldmodell zu erzeugen und zu dem Fahrzeug auszugeben.
Das Fahrzeug kann basierend auf der ausgegebenen Aktuatorstellgrößentrajektorie gesteuert werden. Denkbar ist, dass zwischen dem Trajektorienplanungsmodul und dem Fahrzeug ein Trajektorienfolgeregler für die Längs- und/oder Querführung des Fahrzeugs bereitgestellt wird. Der Trajektorienfolgeregler bewirkt, dass das Fahrzeug einer vom Trajektorienplanungsmodul geplanten Zieltrajektorie folgt. Zu diesem Zweck wird als Eingang eines Trajektorienfolgereglers die Differenz zwischen dem (durch die geplante Zieltrajektorie vorgegebenen) Soll-Zustand des Fahrzeugs und dem gemessenen Ist-Zustand des Fahrzeugs betrachtet, und es wird als Ausgang des Trajektorienfolgereglers eine von dem Fahrzeug zu erbringende Beschleunigung (für die Längsführung) bzw. Krümmung (für die Querführung) als Stellgröße ermittelt.
Ferner wird ein Verfahren zur Planung einer Trajektorie eines automatisierten Fahrzeugs bereitgestellt. Das Verfahren weist ein Berechnen einer ersten Stellgrößentrajektorie über einen Planungshorizont basierend auf einem Umfeldmodell, Toleranzbandschranken aufweisend eine untere Schranke und eine obere Schranke sowie einen aktuellen Fahrzeugzustand des Fahrzeugs mittels eines modellbasierten Ansatzes, wobei ein basierend auf der Stellgrößentrajektorie des modellbasierten Trajektorienplanungsmoduls mittels des modellbasierten Ansatzes prädizierter Fahrzeugzustand über den Planungshorizont innerhalb von allen Schranken des modellbasierten Ansatzes liegt und der prädizierte Fahrzeugzustand Abweichungen entlang jeder Trajektorie, die innerhalb der Toleranzbandschranken liegt, erlaubt, ohne dass eine der Schranken des modellbasierten Ansatzes verletzt wird, ein Berechnen einer zweiten Stellgrößentrajektorie mittels eines lernenden Trajektorienplanungsmoduls über den Planungshorizont basierend auf der mittels des modellbasierten Ansatzes erzeugten Stellgrößentrajektorie, der unteren Schranken und der oberen Schranken sowie dem aktuellen Fahrzeugzustand des Fahrzeugs, ein Berechnen einer Aktuatorstellgrößentrajektorie über den Planungshorizont als Summe aus der ersten Stellgrößentrajektorie und der zweiten Stellgrößentrajektorie, wobei ein basierend auf der Aktuatorstellgrößentrajektorie (a) mittels des modellbasierten Ansatzes prädizierter Fahrzeugzustand über den Planungshorizont [0,T] innerhalb von allen Schranken des modellbasierten Ansatzes liegt und der prädizierte Fahrzeugzustand Abweichungen entlang jeder Trajektorie, die innerhalb der Toleranzbandschranken (w_u, w_l) liegt, erlaubt, ohne dass eine der Schranken des modellbasierten Ansatzes verletzt wird, und ein Ausgeben der berechneten Aktuatorstellgrößentrajektorie zu dem Fahrzeug auf.
Das oben zu den Vorrichtungen beschriebene gilt analog auch für das Verfahren und umgekehrt.
Nachfolgend wird eine Ausführungsform mit Bezug zu 1 beschrieben.

1 zeigt schematisch ein System zur Trajektorienplanung gemäß der Ausführungsform.

In 1 ist schematisch ein System zur Trajektorienplanung 1, das ausgestaltet ist, eine Trajektorie eines Fahrzeugs 2 zu planen, gemäß der Ausführungsform dargestellt.
Das System 1 ist zu dem Fahrzeug 2 verbunden, von dem es als Eingangsgrößen Messgrößen aufweisend Fahrzeugdaten korrespondierend zu einem aktuellen Fahrzeugzustand s bzw. Ist-Zustand des Fahrzeugs 2 zur Trajektorienplanung empfängt. Die Messgrößen umfassen vorliegend zumindest eine aktuelle Geschwindigkeit und ein aktuelle Position bzw. Odometriedaten des Fahrzeugs 2.
Das System 1 weist ein Umfeldmodellmodul 3, ein Prädiktions- und Fahrstrategiemodul 4 und ein Trajektorienplanungsmodul 5 auf. Das Trajektorienplanungsmodul 5 weist wiederum ein lernendes Trajektorienplanungsmodul 51 und ein modellbasiertes Trajektorienplanungsmodul 52 auf.
Die vom Fahrzeug 2 empfangenen Messgrößen bzw. der Fahrzeugzustand s werden in das Umfeldmodellmodul 3, das Prädiktions- und Fahrstrategiemodul 4 und das Trajektorienplanungsmodul 5 eingegeben.
Das Umfeldmodellmodul 3 ist ausgestaltet basierend auf dem Fahrzeugzustand sein aktuelles Umfeldmodell des Fahrzeugs 2 zu bestimmen. Das Umfeldmodell modelliert bzw. bildet eine räumliche Umgebung des Fahrzeugs 2 (digital) nach. Es ist denkbar, dass hierzu ferner weitere Mess- bzw. Sensordaten verwendet werden, wie z.B. Bilder einer außen am Fahrzeug 2 verbauten Kamera und/oder eines Radarsensors.
Das Umfeldmodellmodul 3 ist ausgestaltet, ggf. vorbestimmte Objekte im Umfeld des Fahrzeugs 2 zu erkennen. Diese Objekte können z.B. ein weiteres Fahrzeug, eine Spurmitte einer Fahrbahn, auf der sich das Fahrzeug 2 aktuell befindet, und/oder Spurschranken bzw. seitliche Begrenzungen der Fahrbahn, auf der sich das Fahrzeug 2 aktuell befindet, sein.
Das Umfeldmodellmodul 3 ist zudem ausgestaltet, die erkannten Objekte mit jeweils einem Begrenzungskasten (sog. bounding box), insbesondere vollständig, zu umschließen und eine Position des jeweiligen Begrenzungskastens, z.B. relativ zum Fahrzeug 2 und/oder in einem absoluten Koordinatensystem, zu ermitteln.
Dieses vom Umfeldmodellmodul 3 erzeugte Umfeldmodell ist mit einer gewissen Unsicherheit behaftet, die beispielsweise daraus resultiert, dass ein Objekt im Umfeldmodell nicht korrekt erkannt wurde, z.B. zwei Personenkraftwagen, die seitlich zueinander versetzt fahren, können ggf. fälschlicherweise als ein einziger Lastkraftwagen modelliert werden.
Das so vom Umfeldmodellmodul 3 erzeugte, mit Unsicherheiten behaftete Umfeldmodell, des Fahrzeugs 2 wird in das Prädiktions- und Fahrstrategiemodul 4 eingegeben. Das Prädiktions- und Fahrstrategiemodul 4 ist ausgestaltet, basierend auf dem vom Umfeldmodellmodul 3 erhaltenen Umfeldmodell des Fahrzeugs 2 jeweils eine wahrscheinliche Trajektorie oder ggf. auch mehrere wahrscheinliche Trajektorien der im Umfeldmodell erkannten Objekte über einen Planungshorizont [0, T] zu bestimmen bzw. zu prädizieren.
Der Planungshorizont [0, T] ist bei der vorliegenden Ausführungsform zeitdiskret und umfasst eine gewisse Anzahl i an Signalwerten zu vorbestimmten Zeitpunkten, die insbesondere äquidistant voneinander beabstandet sind, innerhalb des Intervalls von 0 bis T. Denkbar wäre jedoch auch ein kontinuierlicher Planungshorizont.
Dieses vom Prädiktions- und Fahrstrategiemodul 4 modifizierte bzw. weiter entwickelte Umfeldmodell enthält damit zusätzliche Informationen darüber, wie und wohin, d.h. entlang welcher Trajektorie, sich die weiteren im Umfeld des Fahrzeugs 2 befindlichen Objekte in Zukunft, d.h. bis zum Ende des Planungshorizonts T, bewegen werden.
Auch das vom Prädiktions- und Fahrstrategiemodul 4 modifizierte Umfeldmodell ist mit Unsicherheiten behaftet. Diese Unsicherheiten resultieren zum einen aus den im vom Umfeldmodellmodul 3 erzeugten Umfeldmodell bereits enthaltenen Unsicherheiten und zum anderen aus Unsicherheiten, die bei der Prädiktion der Fahrstrategie der Objekte im Umfeld des Fahrzeugs 2 hinzukommen. Es muss dennoch versucht werden, dass sich das Fahrzeug 2 kollisionsfrei bewegen kann.
Dazu werden zusätzlich zum vom Prädiktions- und Fahrstrategiemodul 4 modifizierten Umfeldmodell enthaltend Informationen über eine Trajektorie der im Umfeld des Fahrzeugs befindlichen Objekte auch sog. vorbestimmte Toleranzschranken w_u [0, T] und w_l [0,T] zum Trajektorienplanungsmodul 5, insbesondere zu dem Trajektorienplanungsmodul 51 und dem modellbasierten Trajektorienplanungsmodul 52, ausgegeben.
Die Toleranzschranken w_l [0, T] und w_u [0, T] sind Parameter, die ggf. veränderlich über den Planungshorizont [0, T] gewählt werden können, solange sie relativ klein zu den Werten der Messgrößen bzw. des Fahrzeugzustands s, die den Ist-Zustand des Fahrzeugs 2 wiederspiegeln, bleiben. Die Schranken w_l [0, T] und w_u [0, T] beschreiben dabei den sicheren Bereich, in dem eine kollisionsfreie Fahrt möglich ist.
Die Schranke w_u [0, T] stellt dabei eine obere Beschränkung (sog. upper boundary) und w_l [0,T] eine untere Schranke (sog. lower boundary) dar. Die Schranken w_u [0, T] und w_l [0,T] erweitern das modifizierte Umfeldmodell um ein „worst case“ Szenario, das den schlechtesten oder den ungünstigsten anzunehmenden Fall darstellt. Der „worst-case“ kann beispielsweise so definiert werden, dass eine Kollision des Fahrzeugs 2 mit einem Objekt im modifizierten Umfeldmodell bei einer Geschwindigkeit größer 80 km/h immer vermieden werden soll. Je mehr Einschränkungen das „worst-case“ Szenario beinhaltet, desto konservativer wird eine Trajektorienplanung des Trajektorienplanungsmoduls 5.
Die Schranken w_u [0, T] und w_l [0,T] können über eine Zeit, eine Position, eine Geschwindigkeit und/oder eine Beschleunigung eines im vom Prädiktions- und Fahrstrategiemodul 4 modifizierten Umfeldmodell enthaltenen Objekts formuliert werden. Ausführungsbeispiele für die Schranken w_u [0, T] und w_l [0,T] umfassen dabei beispielsweise einen „worst-case“ Begrenzungskasten eines Objektes, d.h. der Begrenzungskasten wird um einen vordefinierten Faktor vergrößert und verkleinert, und „worst-case“ Spurschranken, d.h. es wird ein Verlauf der Spurschranken in einem vorbestimmten Toleranzbereich angenommen.
Das Trajektorienplanungsmodul 5 ist ausgestaltet, basierend auf dem vom Prädiktions- und Fahrstrategiemodul 4 erhaltenen modifizierten Umfeldmodell und den Toleranzschranken w_u [0, T] und w_l [0,T], weiteren harten Schranken, wie beispielsweise einer minimalen und maximalen Beschleunigung des Fahrzeugs, sowie dem aktuellen Fahrzeugzustand s eine Aktuatorstellgrößentrajektorie a [0,T] zu dem Fahrzeug 2 auszugeben. Die Aktuatorstellgrößentrajektorie a [0,T] ist ein Steuersignal für die Quer- und Längsführung des Fahrzeugs 2 über den Planungshorizont [0,T].
Die Aktuatorstellgrößentrajektorie a [0,T] entspricht einer Summe aus einer Stellgrößentrajektorie u [0,T], die von dem modellbasierten Trajektorienplanungsmodul 52 erzeugt wird, und einer Stellgrößentrajektorie w [0,T], die von dem lernen Trajektorienplanungsmodul 51 erzeugt wird.
Das modellbasierte Trajektorienplanungsmodul 52 ist ausgestaltet, basierend auf dem vom Prädiktions- und Fahrstrategiemodul 4 erhaltenen modifizierten Umfeldmodell und den Beschränkungen w_u [0, T] und w_l [0,T] sowie dem aktuellen Fahrzeugzustand s mittels eines modellbasierten Ansatzes die Stellgrößentrajektorie u [0,T] zu erzeugen.
Genauer gesagt ist das modellbasierte Trajektorienplanungsmodul 52 ausgestaltet, basierend auf einem analytischen Dynamikmodell, beispielsweise getrennt für eine Längs- und Querführung oder kombiniert für die Längs- und Querführung des Fahrzeugs 2, eine Stellgrößentrajektorie u [0,T] auszugeben. Das analytische Dynamikmodell basiert auf einer, beispielsweise linearen, Differenzialgleichung.
Das modellbasierte Trajektorienplanungsmodul 52 verwendet dabei zur Erzeugung der Stellgrößentrajektorie u [0,T] einen robusten optimierungsbasierten Ansatz, bei dem angenommen wird, dass über den Planungshorizont [0,T] der Wert einer Stellgröße u_i additiv durch eine innerhalb der Schranken w_u und w_l liegende maximale Unsicherheit w_i, verändert werden kann. Die Unsicherheit w_i ist also so beschränkt, dass w_l < w_i < w_u erfüllt ist. Bei einem solchem robusten optimierungsbasierten Ansatz wird eine optimale Regelung bereitgestellt, die in bestimmten Schranken Unsicherheiten mitberücksichtigt. Die gelieferte Lösung ist optimal im Sinne eines Kostenfunktionals und, zusätzlich, werden Zustands- oder Stellgrößenbeschränkungen für alle möglichen Werte der Unsicherheiten innerhalb der vorhandenen Schranken eingehalten. Ein Beispiel eines solchen robusten optimierungsbasierten Ansatzes ist in J. Löfberg, „Approximations of closed-loop MPC", IEEE CDC, 2003 beschrieben.
Das Ergebnis des modellbasierten Trajektorienplanungsmoduls 52 ist die Stellgrößentrajektorie u [0,T].
Ein basierend auf der Stellgrößentrajektorie u des modellbasierten Trajektorienplanungsmoduls 52 mittels des modellbasierten Ansatzes prädizierter Fahrzeugzustand liegt über den Planungshorizont [0,T] innerhalb von allen Schranken des modellbasierten Ansatzes. Der prädizierte Fahrzeugzustand erlaubt Abweichungen entlang jeder Trajektorie, die innerhalb der Toleranzbandschranken (w_u, w_l) liegt, ohne dass eine der Schranken des modellbasierten Ansatzes verletzt wird.
Mit der Stellgrößentrajektorie u des modellbasierten Trajektorienplanungsmoduls 52 wird die Aktuatorstellgrößentrajektorie a [0,T] gebildet. Durch die explizite Berücksichtigung der maximal möglich auftretenden Unsicherheit w_i während der Planung mit dem modellbasierten Trajektorienplanungsmodul 52, wird die Aktuatorstellgrößentrajektorie a [0,T] die Beschränkungen aus dem Umfeldmodell, der Prädiktion und der Fahrstrategie einhalten, aber kann anteilig eine gelernte Trajektorie beinhalten.
Das lernende Trajektorienplanungsmodul 51 liefert diese gelernte Trajektorie. Das lernende Trajektorienplanungsmodul 51 kann durch überwachtes Lernen (sog. supervised learning), insbesondere überwachtes Lernen offline, und/oder durch bestärkendes Lernen bzw. verstärkendes Lernen (sog. reinforcement learning), insbesondere bestärkendes Lernen online, gelernt werden.
Als Eingang bekommt das lernende Trajektorienplanungsmodul 51 die vom modellbasierten Trajektorienplanungsmodul 52 berechnete Stellgrößentrajektorie u über den Planungshorizont [0,T], den aktuellen Fahrzeugzustand s und die Beschränkungen w_u und w_l.
Das lernende Trajektorienplanungsmodul 51 ist ausgestaltet, basierend auf der vom modellbasierten Trajektorienplanungsmodul 52 berechneten Stellgrößentrajektorie u [0,T], dem aktuellen Fahrzeugzustand s und den Beschränkungen w_u und w_l eine Stellgrößentrajektorie w über den Planungshorizont [0,T] auszugeben.
Die Stellgrößentrajektorie w [0,T] ist zeitdiskret und weist über den Planungshorizont eine gewisse Anzahl an Signalwerten w_i auf. Jeder Signalwert w_i muss w_l<w_i<w_u erfüllen, d.h. innerhalb der Schranken liegen.
Eine Belohnungsfunktion R(s,u) für das lernende Trajektorienplanungsmodul 51 entspricht einer Kostenfunktion des Trajektorienplanungsmodul 52 und weist penaltybasierte Terme für die Nebenbedingungen des modellbasierten Trajektorienplanungsmodul 52 auf, sowie einen Regularisierungsterm, um w_l<w_i<w_u zu erfüllen.
Die Belohnungsfunktion, auch Reward-Funktion genannt, ist dabei ein Ausdruck, der von Zustands- und Eingangsgrößen abhängt.
Weiterhin kann die Belohnungsfunktion einen Term beinhalten, der die Verbesserung des Modells in Hinblick auf das reale System motiviert, z.B. durch die gewichtete Differenz zwischen dem aktuellen Fahrzeugzustand s und der im vorigen Schritt berechneten Stellgröße und dem daraus resultierenden prädizierten Fahrzeugzustand.
Ein basierend auf der Stellgrößentrajektorie w des lernenden Trajektorienplanungsmoduls 51 mittels des modellbasierten Ansatzes prädizierter Fahrzeugzustand liegt ebenso wie beim modellbasierten Trajektorienplanungsmodul 52 über den Planungshorizont [0,T] innerhalb von allen Schranken des modellbasierten Ansatzes und der prädizierte Fahrzeugzustand erlaubt Abweichungen entlang jeder Trajektorie, die innerhalb der Toleranzbandschranken (w_u, w_l) liegt, ohne dass eine der Schranken des modellbasierten Ansatzes verletzt wird.
Damit liegt auch ein basierend auf der Aktuatorstellgrößentrajektorie a mittels des modellbasierten Ansatzes prädizierter Fahrzeugzustand über den Planungshorizont [0,T] innerhalb von allen Schranken des modellbasierten Ansatzes. Der prädizierte Fahrzeugzustand erlaubt Abweichungen entlang jeder Trajektorie, die innerhalb der Toleranzbandschranken liegt, ohne dass eine der Schranken des modellbasierten Ansatzes verletzt wird.
Bezugszeichenliste

1: System zur Trajektorienplanung
2: Fahrzeug
3: Umfeldmodellmodul
4: Prädiktions- und Fahrstrategiemodul
5: Trajektorienplanungsmodul
51: lernendes Trajektorienplanungsmodul
52: modelbasiertes Trajektorienplanungsmodul
a: Aktuatorstellgrößentrajektorie
s: Messgrößen korrespondierend zum Ist- bzw. aktuellen Fahrzeugzustand
u: Stellgrößentrajektorie des modellbasierten Trajektorienplanungsmoduls
w: Stellgrößentrajektorie des lernenden Trajektorienplanungsmoduls
w_l: untere Schranke
w_u: obere Schranke
[0,T]: Planungshorizont

ZITATE ENTHALTEN IN DER BESCHREIBUNG
Diese Liste der vom Anmelder aufgeführten Dokumente wurde automatisiert erzeugt und ist ausschließlich zur besseren Information des Lesers aufgenommen. Die Liste ist nicht Bestandteil der deutschen Patent- bzw. Gebrauchsmusteranmeldung. Das DPMA übernimmt keinerlei Haftung für etwaige Fehler oder Auslassungen.
Zitierte Nicht-Patentliteratur

J. Löfberg, „Approximations of closed-loop MPC“, IEEE CDC, 2003 [0046, 0075]

Claims

Trajektorienplanungsmodul (5) zur Planung einer Trajektorie eines automatisierten Fahrzeugs (2), wobei das Trajektorienplanungsmodul (5) ein lernendes Trajektorienplanungsmodul (51) und ein modellbasiertes Trajektorienplanungsmodul (52) aufweist und ausgestaltet ist, eine Aktuatorstellgrößentrajektorie (a) über einen Planungshorizont [0,T] zu dem Fahrzeug (2) auszugeben, wobei das modellbasierte Trajektorienplanungsmodul (52) ausgestaltet ist, basierend auf einem Umfeldmodell, Toleranzbandschranken aufweisend eine untere Schranke (w_l) und eine obere Schranke (w_u), weiteren Schranken sowie einem aktuellen Fahrzeugzustand (s) des Fahrzeugs (2) mittels eines modellbasierten Ansatzes eine Stellgrößentrajektorie (u) über den Planungshorizont [0,T] zu erzeugen und auszugeben, wobei ein basierend auf der Stellgrößentrajektorie (u) des modellbasierten Trajektorienplanungsmoduls (52) mittels des modellbasierten Ansatzes prädizierter Fahrzeugzustand über den Planungshorizont [0,T] innerhalb von allen Schranken des modellbasierten Ansatzes liegt und der prädizierte Fahrzeugzustand Abweichungen entlang jeder Trajektorie, die innerhalb der Toleranzbandschranken (w_u, w_l) liegt, erlaubt, ohne dass eine der Schranken des modellbasierten Ansatzes verletzt wird, wobei das lernende Trajektorienplanungsmodul (51) ausgestaltet ist, basierend auf der vom modellbasierten Trajektorienplanungsmodul (52) erzeugten Stellgrößentrajektorie (u), der unteren Schranke (w_l) und der oberen Schranke (w_u) sowie dem aktuellen Fahrzeugzustand (s) des Fahrzeugs (2) eine Stellgrößentrajektorie (w) über den Planungshorizont [0,T] zu erzeugen und auszugeben, und wobei die Aktuatorstellgrößentrajektorie (a) einer Summe aus der Stellgrößentrajektorie (u), die von dem modellbasierten Trajektorienplanungsmodul (52) ausgegeben wird, und der Stellgrößentrajektorie (w), die von dem lernenden Trajektorienplanungsmodul (51) ausgegeben wird, entspricht, wobei ein basierend auf der Aktuatorstellgrößentrajektorie (a) mittels des modellbasierten Ansatzes prädizierter Fahrzeugzustand über den Planungshorizont [0,T] innerhalb von allen Schranken des modellbasierten Ansatzes liegt und der prädizierte Fahrzeugzustand Abweichungen entlang jeder Trajektorie, die innerhalb der Toleranzbandschranken (w_u, w_l) liegt, erlaubt, ohne dass eine der Schranken des modellbasierten Ansatzes verletzt wird.
Trajektorienplanungsmodul (5) nach Anspruch 1, wobei die untere Schranke (w_l) und die obere Schranke (w_u) über eine Zeit, eine Position, eine Geschwindigkeit und/oder eine Beschleunigung eines im Umfeldmodell enthaltenen Objekts formuliert sind.
Trajektorienplanungsmodul (5) nach Anspruch 1 oder 2, wobei das lernende Trajektorienplanungsmodul (51) ausgestaltet ist, um durch überwachtes Lernen, insbesondere überwachtes Lernen offline, und/oder durch bestärkendes Lernen, insbesondere bestärkendes Lernen online, gelernt zu werden.
Trajektorienplanungsmodul (5) nach einem der Ansprüche 1 bis 3, wobei jeder Wert einer Stellgröße (w_i) der von dem lernenden Trajektorienplanungsmodul (51) ausgegebenen Stellgrößentrajektorie (w) innerhalb der unteren Schranke (w_l) und der oberen Schranke (w_u) liegt, wobei ein basierend auf der Stellgrößentrajektorie (w) des lernenden Trajektorienplanungsmoduls (51) mittels des modellbasierten Ansatzes prädizierter Fahrzeugzustand über den Planungshorizont [0,T] innerhalb von allen Schranken des modellbasierten Ansatzes liegt und der prädizierte Fahrzeugzustand Abweichungen entlang jeder Trajektorie, die innerhalb der Toleranzbandschranken (w_u, w_l) liegt, erlaubt, ohne dass eine der Schranken des modellbasierten Ansatzes verletzt wird.
Trajektorienplanungsmodul (5) nach einem der Ansprüche 1 bis 4, wobei eine Belohnungsfunktion des lernenden Trajektorienplanungsmodul (51) einer invertierten Kostenfunktion des modellbasierten Trajektorienplanungsmoduls (52) entspricht und penalty-basierten Terme für Nebenbedingungen des modellbasierten Trajektorienplanungsmodul (52) und für die untere und obere Schranke (w_l, w_u) aufweist.
Trajektorienplanungsmodul (5) nach Anspruch 5, wobei die Belohnungsfunktion einen weiteren Term beinhaltet, der eine Verbesserung eines vom lernenden Trajektorienplanungsmoduls (51) verwendeten Modells im Hinblick auf ein reales System motiviert.
Trajektorienplanungsmodul (5) nach Anspruch 6, wobei der Term zur Verbesserung des vom lernenden Trajektorienplanungsmoduls (51) verwendeten Modells im Hinblick auf das reale System durch eine Differenz, insbesondere eine gewichtete Differenz, zwischen einem aktuellen Fahrzeugzustand (s) und basierend auf einer zuvor mittels des Trajektorienplanungsmodul (5) berechneten Aktuatorstellgröße und einem daraus resultierenden prädizierten Fahrzeugzustand gebildet wird.
Trajektorienplanungsmodul (5) nach einem der Ansprüche 1 bis 7, wobei das modellbasierte Trajektorienplanungsmodul (52) auf einem robusten, optimierungsbasierten Ansatz basiert, bei dem angenommen wird, dass über den Planungshorizont [0,T] der Wert einer Stellgröße (u_i) der vom modellbasierten Trajektorienplanungsmodul 52 berechneten Stellgrößentrajektorie (u) additiv durch eine beschränkte Unsicherheit (w_i) verändert werden kann, wobei die beschränkte Unsicherheit innerhalb der unteren Schranke (w_l) und der oberen Schranke (w_u) liegt.
System zur Trajektorienplanung (1) für ein Fahrzeug (2) aufweisend ein Umfeldmodellmodul (3) und ein Trajektorienplanungsmodul (5) nach einem der Ansprüche 1 bis 8, wobei das System zur Trajektorienplanung (1) ausgestaltet ist, vom Fahrzeug (2) empfangene Messgrößen, die zu einem aktuellen Fahrzeugzustand (s) korrespondieren, in das Umfeldmodellmodul (3) und das Trajektorienplanungsmodul (5) einzugeben, wobei das Umfeldmodellmodul (3) ausgestaltet ist, um basierend auf dem aktuellen Fahrzeugzustand (s) ein aktuelles Umfeldmodell des Fahrzeugs (2) zu erzeugen und auszugeben, und wobei das Trajektorienplanungsmodul (5) ausgestaltet ist, um die Aktuatorstellgrößentrajektorie (a) über den Planungshorizont [0,T] zu dem Fahrzeug (2) basierend auf dem vom Umfeldmodellmodul (3) ausgegebenen Umfeldmodell zu erzeugen und zu dem Fahrzeug (2) auszugeben.
Verfahren zur Planung einer Trajektorie eines automatisierten Fahrzeugs (2) aufweisend: Berechnen einer ersten Stellgrößentrajektorie (u) über einen Planungshorizont [0,T] basierend auf einem Umfeldmodell, Toleranzschranken aufweisend eine untere Schranke (w_l) und eine obere Schranke (w_u), weiteren Schranken sowie einem aktuellen Fahrzeugzustand (s) des Fahrzeugs (2) mittels eines modellbasierten Ansatzes, wobei ein basierend auf der Stellgrößentrajektorie (u) des modellbasierten Trajektorienplanungsmoduls (52) mittels des modellbasierten Ansatzes prädizierter Fahrzeugzustand über den Planungshorizont [0,T] innerhalb von allen Schranken des modellbasierten Ansatzes liegt und der prädizierte Fahrzeugzustand Abweichungen entlang jeder Trajektorie, die innerhalb der Toleranzbandschranken (w_u, w_l) liegt, erlaubt, ohne dass eine der Schranken des modellbasierten Ansatzes verletzt wird, Berechnen einer zweiten Stellgrößentrajektorie (w) mittels eines lernenden Trajektorienplanungsmoduls (51) über den Planungshorizont [0,T] basierend auf der mittels des modellbasierten Ansatzes erzeugten Stellgrößentrajektorie (u), der unteren Schranke (w_l) und der oberen Schranke (w_u) sowie dem aktuellen Fahrzeugzustand (s) des Fahrzeugs (2), Berechnen einer Aktuatorstellgrößentrajektorie (a) über den Planungshorizont [0,T] als Summe aus der ersten Stellgrößentrajektorie (u) und der zweiten Stellgrößentrajektorie (w), wobei ein basierend auf der Aktuatorstellgrößentrajektorie (a) mittels des modellbasierten Ansatzes prädizierter Fahrzeugzustand über den Planungshorizont [0,T] innerhalb von allen Schranken des modellbasierten Ansatzes liegt und der prädizierte Fahrzeugzustand Abweichungen entlang jeder Trajektorie, die innerhalb der Toleranzbandschranken (w_u, w_l) liegt, erlaubt, ohne dass eine der Schranken des modellbasierten Ansatzes verletzt wird, und Ausgeben der berechneten Aktuatorstellgrößentrajektorie (a) zu dem Fahrzeug (2).