DE102020215302A1

DE102020215302A1 - Dynamikabhängige Verhaltensplanung für zumindest teilweise automatisiert fahrende Fahrzeuge

Info

Publication number: DE102020215302A1
Application number: DE102020215302.7A
Authority: DE
Inventors: Seyed Jalal Etesami; Martin Stoll
Original assignee: Robert Bosch GmbH
Current assignee: Robert Bosch GmbH
Priority date: 2020-12-03
Filing date: 2020-12-03
Publication date: 2022-06-09
Also published as: US20240001955A1; CN116547186A; WO2022117588A1

Abstract

Verfahren (100) zum Trainieren eines Verhaltensplaners (3) für ein zumindest teilweise automatisiert fahrendes Zielfahrzeug (2) auf der Basis von Beobachtungsdaten (4) der Kinematik und/oder Dynamik, die während mindestens einer Testfahrt mit einem Testfahrzeug (1) aufgenommen wurden, mit den Schritten:• aus den Beobachtungsdaten (4) wird mindestens ein Fahrmanöver (5) identifiziert (110), welches das Testfahrzeug (1) von einem Anfangszustand (5a) in einen Endzustand (5b) überführt;• der Manöverendzeitpunkt (6), zu dem das Testfahrzeug (1) den Endzustand (5b) erreicht, wird ermittelt (120);• aus einem Dynamikmodell (7) des Zielfahrzeugs (2) wird eine Manöverdauer (8) abgerufen (130), die das Zielfahrzeug (2) für die Durchführung des identifizierten Fahrmanövers (5) benötigt;• Beobachtungsdaten (4) aus einem Zeitintervall, dessen Ende durch den Manöverendzeitpunkt (6) gegeben ist und dessen Beginn um die Manöverdauer (8) vor dem Manöverendzeitpunkt (6) liegt, werden mit dem identifizieren Fahrmanöver (5) gelabelt (140); mit den gelabelten Beobachtungsdaten (4) wird der Verhaltensplaner (3) darauf trainiert (150), Beobachtungsdaten (4), die einen Zustand des Zielfahrzeugs (2) anzeigen, auf mindestens ein durchzuführendes Fahrmanöver (5) abzubilden.

Description

Die vorliegende Erfindung betrifft die Planung von Fahrmanövern für zumindest teilweise automatisiert fahrende Fahrzeuge .
Stand der Technik
Ein zumindest teilweise automatisiert fahrendes Fahrzeug erfasst fortwährend die Situation, in der es sich befindet, um die Planung von Fahrmanövern für die nähere Zukunft Änderungen dieser Situation anzupassen. Änderungen der Situation, auf die das Fahrzeug reagieren muss, können beispielsweise dadurch bedingt sein, dass das Fahrzeug sich an einen anderen Ort mit anderen Gegebenheiten bewegt. Aber auch Bewegungen anderer Objekte, wie etwa anderer Verkehrsteilnehmer, können die Situation maßgeblich ändern und eine Reaktion erforderlich machen. Die DE 10 2018 210 280 A1 offenbart ein Verfahren, mit dem die Trajektorien von Fremdobjekten prognostiziert werden können, so dass die Trajektorie des eigenen Fahrzeugs entsprechend angepasst werden kann.
Auf der Manöverebene trifft ein Verhaltensplaner ausgehend von einer Repräsentation der Situation, in der das Fahrzeug sich befindet, die Entscheidung für ein durchzuführendes Fahrmanöver, wie etwa einen Spurwechsel oder ein Überholmanöver. Die getroffene Entscheidung wird dann an einen Bewegungsplaner weitergereicht. Dieser Bewegungsplaner hat die Aufgabe, eine geeignete Trajektorie für das Fahrzeug zu finden und das Fahrzeug durch Einwirken auf Aktoren dazu zu veranlassen, diese Trajektorie abzufahren.
Offenbarung der Erfindung
Im Rahmen der Erfindung wurde ein Verfahren zum Trainieren eines Verhaltensplaners für ein zumindest teilweise automatisiertes Fahrzeug entwickelt. Dieses Verfahren verwendet Beobachtungsdaten der Kinematik und/oder Dynamik, die während mindestens einer Testfahrt mit einem Testfahrzeug aufgenommen wurden.
Zur Unterscheidung von diesem Testfahrzeug wird das zumindest teilweise automatisierte Fahrzeug im Folgenden als „Zielfahrzeug“ bezeichnet. In der Regel werden die Testfahrten unter der Kontrolle eines menschlichen Fahrers absolviert. Das Testfahrzeug muss dann ein Fahrzeug sein, das für die Steuerung durch einen menschlichen Fahrer ausgelegt ist. Insbesondere vollständig automatisiert fahrende Fahrzeuge sind meistens nicht dafür ausgelegt, wahlweise automatisiert oder von einem menschlichen Fahrer gesteuert zu werden.
Aus den Beobachtungsdaten wird mindestens ein Fahrmanöver identifiziert, welches das Testfahrzeug von einem Anfangszustand in einen Endzustand überführt. Weiterhin wird der Manöverendzeitpunkt, zu dem das Testfahrzeug den Endzustand erreicht, ermittelt. Hierfür können beliebige vorhandene Mittel verwendet werden.
Aus einem Dynamikmodell des Zielfahrzeugs wird eine Manöverdauer abgerufen, die das Zielfahrzeug für die Durchführung des identifizierten Fahrmanövers benötigt. In dem Dynamikmodell ist somit insbesondere die Fahrphysik des Zielfahrzeugs verkörpert, die darüber bestimmt, wie schnell das Zielfahrzeug auf eine entsprechende Anforderung hin seine Kinematik ändern kann.
Beobachtungsdaten aus einem Zeitintervall, dessen Ende durch den Manöverendzeitpunkt gegeben ist und dessen Beginn um die Manöverdauer vor dem Manöverendzeitpunkt liegt, werden mit dem identifizieren Fahrmanöver gelabelt. Das bedeutet, dass das Zielfahrzeug, wenn es mit dem identifizierten Fahrmanöver zum ermittelten Manöverendzeitpunkt den durch die Beobachtungsdaten gegebenen Endzustand erreichen soll, innerhalb dieses Zeitintervalls das identifizierte Fahrmanöver ausführen muss.
Mit den gelabelten Beobachtungsdaten wird der Verhaltensplaner darauf trainiert, Beobachtungsdaten, die einen Zustand des Zielfahrzeugs anzeigen, auf mindestens ein durchzuführendes Fahrmanöver abzubilden. Dabei muss dieser Zustand des Zielfahrzeugs nicht auf Informationen über die Kinematik und/oder Dynamik des Zielfahrzeugs beschränkt sein, sondern kann auch weitere Informationen über die Situation, in der sich das Zielfahrzeug befindet, enthalten.
Beispielsweise können die Beobachtungsdaten anzeigen, dass das Testfahrzeug sich von hinten einem anderen, langsamer vorausfahrenden Fahrzeug nähert. Der Fahrer des Testfahrzeugs hat zu einem bestimmten Zeitpunkt die Spur gewechselt, um das vorausfahrende Fahrzeug zu überholen. Der Verhaltensplaner wird nun darauf trainiert, in der gleichen Situation das Überholmanöver zu dem Zeitpunkt zu beginnen, zu dem dies auf Grund der Fahrphysik des Zielfahrzeugs nötig bzw. angemessen ist.
Es wurde erkannt, dass sich die Dynamik des Zielfahrzeugs in der Regel deutlich von der Dynamik des Testfahrzeugs unterscheidet. Dies liegt unter anderem daran, dass automatisiert fahrende Fahrzeuge konstruktiv anders aufgebaut sind als Testfahrzeuge, die von menschlichen Fahrern gesteuert werden. Zugleich unterliegt der automatisierte Fahrbetrieb in vielerlei Hinsicht besonderen regulatorischen Auflagen. So sind beispielsweise Beschleunigungen und Verzögerungen betragsmäßig limitiert, und auch Spurwechsel müssen gemächlicher durchgeführt werden als dies ein menschlicher Fahrer tun würde. Durch die Nutzung des Dynamikmodells können die mit dem Testfahrzeug erhobenen Beobachtungsdaten auf die Gegebenheiten des Zielfahrzeugs „übersetzt“ werden. Damit kann der Verhaltensplaner darauf trainiert werden, unter diesen neuen Gegebenheiten den gewünschten Erfolg zu erzielen, nämlich zu dem gegebenen Manöverendzeitpunkt ein bestimmtes Fahrmanöver abgeschlossen zu haben.
Das Dynamikmodell nimmt den Testfahrten zugleich eine durch den persönlichen Fahrstil des menschlichen Testfahrers bedingte subjektive Komponente. Derartige Fahrstile unterscheiden sich hauptsächlich in der Dynamik, mit der beispielsweise ein Überholvorgang durchgeführt wird. Der bloße Weg, den das Testfahrzeug verfolgt, ist hingegen mehr oder weniger vorgegeben und durch den individuellen Fahrstil nur in geringem Umfang änderbar.
Mit Hilfe des Dynamikmodells lässt sich der Verhaltensplaner weiterhin nachtrainieren oder umtrainieren, wenn sich die Fahrphysik des Zielfahrzeugs im Nachhinein ändert. Wird beispielsweise ein Anhänger an das Zielfahrzeug angehängt, ändern sich sowohl die Massenträgheit als auch der Luftwiderstand des Zielfahrzeugs. Weiterhin unterliegen etwa abrupte Richtungswechsel zusätzlichen Einschränkungen, damit der Anhänger nicht abreißt oder umkippt. Um den Verhaltensplaner an das Fahren mit Anhänger anzupassen, ist lediglich ein neues Dynamikmodell erforderlich. Mit diesem Dynamikmodell und den bereits vorhandenen Beobachtungsdaten kann der Verhaltensplaner entsprechend trainiert werden. Das „Einfahren“ zusätzlicher Beobachtungsdaten mit einem Testfahrzeug mit Anhänger entfällt.
Ein derartiges Nachtrainieren oder Umtrainieren kann auch beispielsweise während der Entwicklung eines automatisiert fahrenden Zielfahrzeugs erforderlich werden. Wenn beispielsweise die automatisierte Fahrfunktion einerseits und die Karosserie andererseits parallel zueinander entwickelt werden, können zu einem Zeitpunkt, zu dem die automatisierte Fahrfunktion schon zu einem großen Teil trainiert ist, noch konstruktive Änderungen am Fahrzeug nötig werden. Wird das Zielfahrzeug beispielsweise batterieelektrisch angetrieben, kann es gewünscht sein, ein leicht verändertes Fahrzeugmodell bereitzustellen, in dem eine zweite Antriebsbatterie für eine deutlich größere Reichweite sorgt. Diese zweite Antriebsbatterie fügt dem Zielfahrzeug an einer bestimmten Stelle ein erhebliches Gewicht hinzu. Dieses Gewicht verändert die Massenträgheit sowie die Trägheitsmomente des Zielfahrzeugs. Möglicherweise wird auch der Schwerpunkt des Zielfahrzeugs verschoben. Derartige Veränderungen wirken sich auf die Fahrphysik des Zielfahrzeugs aus.
Schließlich wird es auch erleichtert, den Verhaltensplaner auf bestimmte widrige Witterungsbedingungen, wie etwa extreme Glätte, zu trainieren. Derartige Bedingungen treten vergleichsweise selten auf, so dass es schwierig wäre, ein umfangreiches Pensum an Testfahrten unter diesen Bedingungen zu wiederholen. Ein neues Dynamikmodell für diese Bedingungen, mit denen dann die vorhandenen Beobachtungsdaten „übersetzt“ werden können, ist hingegen mit deutlich weniger Testfahrten erhältlich.
Das hier beschriebene automatisierte Labeln ist weiterhin auch dann vorteilhaft, wenn die Dynamik des Zielfahrzeugs zwar identisch mit der Dynamik des Testfahrzeugs ist, aber ein geplantes Verhalten grundsätzlich mit Latenzen umgesetzt wird. So kann beispielsweise das auf Umfelddaten vom Zeitpunkt t geplante Verhalten mit einer Verzögerung a, also erst zu einem Zeitpunkt t+a, an die Aktorik kommuniziert werden. Es kann dann eine weitere Verzögerung b eintreten, so dass das geplante Verhalten erst zu einem Zeitpunkt t+a+b in der tatsächlich abgefahrenen Trajektorie sichtbar wird. Die in der Literatur häufig genutzte Näherung, dass das Verhalten bzw. Manöver aus direkt aufeinander folgenden Beobachtungen abgeleitet und korrekt gelabelt werden kann, ist dann nicht mehr gültig.
In einer besonders vorteilhaften Ausgestaltung wird das Fahrmanöver mit einem trainierten Klassifikatormodell identifiziert. Dieses Klassifikatormodell bildet eine Zeitreihe von Beobachtungsdaten auf mindestens ein Fahrmanöver ab, das mit dieser Zeitreihe im Einklang steht. Derartige Klassifikatormodelle sind im Wesentlichen unabhängig von den Gegebenheiten konkreter Fahrzeuge, da das durchgeführte Fahrmanöver hauptsächlich durch die reine Kinematik festgelegt ist. Das Klassifikatormodell kann beispielsweise ein Machine Learning-Modell sein. Dies ist jedoch nicht zwingend erforderlich.
In einer weiteren vorteilhaften Ausgestaltung wird ein Dynamikmodell des Zielfahrzeugs gewählt, das dazu ausgebildet ist, eine Kombination aus einem Anfangszustand des Zielfahrzeugs und einer Angabe eines Fahrmanövers auf eine Manöverdauer abzubilden. Viele Fahrmanöver können ausgehend von vielen Anfangszuständen gestartet werden, wobei die erforderliche Manöverdauer vom Anfangszustand abhängt. So dauert etwa eine Änderung der Geschwindigkeit von 100 km/h auf 200 km/h länger als die anfängliche Beschleunigung von 0 km/h auf 100 km/h, weil zu der anfänglich eingebrachten kinetischen Energie noch einmal das Dreifache hinzukommt und außerdem noch der Luftwiderstand quadratisch mit der Geschwindigkeit zunimmt.
Die Kombination, die von dem Dynamikmodell auf die Manöverdauer abgebildet wird, kann weiterhin zusätzlich mindestens einen einstellbaren Parameter des Verhaltensplaners des Zielfahrzeugs enthalten. So kann beispielsweise ein Verhaltensplaner für ein batterieelektrisches Fahrzeug einen Sport-Modus mit spritziger Beschleunigung und maximaler Geschwindigkeit und einen Eco-Modus mit gemächlicherer Beschleunigung und Geschwindigkeit, dafür aber größerer Reichweite haben. Darüber hinaus kann auch jedes einzelne Fahrmanöver selbst parametriert sein.
Mindestens ein Fahrmanöver kann beispielsweise

• einen Spurwechsel auf eine benachbarte Fahrspur; und/oder
• eine Änderung der Fahrgeschwindigkeit um einen vorgegebenen Betrag; und/oder
• das Anhalten des Fahrzeugs an einer definierten Stelle; und/oder
• das Hinterherfahren hinter einem Fremdfahrzeug; und/oder
• eine Notbremsung des Fahrzeugs

Mit dem Training des Verhaltensplaners wird letztendlich das Ziel verfolgt, dass das zumindest teilweise automatisierte Fahrzeug in möglichst vielen verschiedenen Situationen das Verhalten zeigt, das der jeweiligen Situation angemessen und für den übrigen Verkehr nicht übermäßig überraschend ist. Daher bezieht sich die Erfindung auch auf ein Verfahren mit der vollständigen Wirkkette bis hin zur Ansteuerung des Fahrzeugs.
Dieses Verfahren beginnt damit, dass ein Verhaltensplaner für das zumindest teilweise automatisierte Fahrzeug mit dem zuvor beschriebenen Verfahren trainiert wird. Mit mindestens einem Sensor des Fahrzeugs werden anschließend Beobachtungsdaten der Kinematik und/oder Dynamik des Fahrzeugs erfasst. Zusätzlich können die Beobachtungsdaten auch beispielsweise Informationen aus der Umgebung des Fahrzeugs und/oder Informationen, die anhand der aktuellen Position des Fahrzeugs aus einer digitalen Karte abgerufen werden, enthalten. So sind viele Fahrmanöver nur dann möglich, wenn die Verkehrssituation es zulässt und beispielsweise der Teil des Verkehrsraums, in den das Fahrzeug einfahren soll, frei ist.
Die Beobachtungsdaten werden mit dem Verhaltensplaner auf mindestens ein durchzuführendes Fahrmanöver abgebildet. Mindestens ein auf die Fahrdynamik des Fahrzeugs wirkender Aktor wird anschließend so angesteuert, dass das Fahrzeug das Fahrmanöver ausführt.
Die Erfindung bezieht sich auch auf ein weiteres Verfahren zum Trainieren eines Dynamikmodells eines Zielfahrzeugs für den Einsatz beim Training eines Verhaltensplaners.
Unter dem Dynamikmodell wird insbesondere ein Machine Learning-Modell verstanden. Ein Machine Learning-Modell verkörpert eine mit anpassbaren Parametern parametrierte Funktion mit großer Kraft zur Verallgemeinerung. Die Parameter können beim Training eines Machine Learning-Modells insbesondere dergestalt angepasst werden, dass bei Eingabe von Lern-Eingaben in das Modell die zu den Lern-Eingaben gehörigen, vorab bekannten Soll-Ausgaben möglichst gut reproduziert werden. Das Machine Learning-Modell kann insbesondere ein künstliches neuronales Netzwerk, KNN, beinhalten, und/oder es kann ein KNN sein.
Im Rahmen dieses Verfahrens werden Lern-Anfangszustände und Lern-Fahrmanöver bereitgestellt. Ausgehend von den Lern-Anfangszuständen werden die Lern-Fahrmanöver an dem Zielfahrzeug, und/oder an einem Simulationsmodell des Zielfahrzeugs, durchgeführt. Hierbei wird die Zeitdauer erfasst, die für die Durchführung der Lern-Fahrmanöver jeweils benötigt wird.
Diese Zeitdauer wird als Lern-Manöverdauer festgelegt und bildet somit die „ground truth“ für das Training des Dynamikmodells.
Für das eigentliche Training werden die Lern-Anfangszustände und Lern-Fahrmanöver dem Dynamikmodell zugeführt und von dem Dynamikmodell jeweils auf eine Manöverdauer abgebildet. Die Übereinstimmung der hierbei erhaltenen Manöverdauer mit der zum jeweiligen Lern-Anfangszustand und Lern-Fahrmanöver gehörenden Lern-Manöverdauer wird mit einer vorgegebenen Kostenfunktion bewertet. Parameter, die das Verhalten des Dynamikmodells charakterisieren, werden optimiert mit dem Ziel, dass die weitere Verarbeitung von Lern-Anfangszuständen und Lern-Fahrmanövern zu einer besseren Bewertung durch die Kostenfunktion führt.
Der Katalog der insgesamt zur Verfügung stehenden Fahrmanöver ist vorab mehr oder weniger festgelegt. Völlig ungesehene Fahrmanöver werden im späteren Fahrbetrieb des Zielfahrzeugs nicht auftreten. Hingegen werden im späteren Fahrbetrieb viel mehr Anfangszustände auftreten als Lern-Anfangszustände während des Trainings verwendet wurden. Die Kraft des Dynamikmodells zur Verallgemeinerung kann also genutzt werden, um auch für bislang ungesehene Anfangszustände zutreffende Manöverdauern vorherzusagen.
Weitere, die Erfindung verbessernde Maßnahmen werden nachstehend gemeinsam mit der Beschreibung der bevorzugten Ausführungsbeispiele der Erfindung anhand von Figuren näher dargestellt.
Ausführungsbeispiele
Es zeigt:

1 Ausführungsbeispiel des Verfahrens 100 zum Trainieren eines Verhaltensplaners 3;
2 Ausführungsbeispiel des Verfahrens 200 mit der vollständigen Wirkkette bis zur Ansteuerung des Fahrzeugs 2;
3 Ausführungsbeispiel des Verfahrens 300 zum Trainieren eines Dynamikmodells 7.

1 ist ein schematisches Ablaufdiagramm eines Ausführungsbeispiels des Verfahrens 100 zum Trainieren eines Verhaltensplaners 3 für ein zumindest teilweise automatisiert fahrendes Zielfahrzeug 2. Für das Training werden Beobachtungsdaten 4 der Kinematik und/oder Dynamik, die während mindestens einer Testfahrt mit einem Testfahrzeug 1 aufgenommen wurden, verwendet.
In Schritt 110 wird aus den Beobachtungsdaten 4 mindestens ein Fahrmanöver 5 identifiziert, welches das Testfahrzeug 1 von einem Anfangszustand 5a in einen Endzustand 5b überführt. Dabei kann gemäß Block 111 insbesondere beispielsweise das Fahrmanöver 5 mit einem trainierten Klassifikatormodell identifiziert werden. Dieses Klassifikatormodell bildet eine Zeitreihe von Beobachtungsdaten 4 auf mindestens ein Fahrmanöver 5 ab, das mit dieser Zeitreihe im Einklang steht.
In Schritt 120 wird der Manöverendzeitpunkt 6, zu dem das Testfahrzeug 1 den Endzustand 5b erreicht, ermittelt. In Schritt 130 wird aus einem Dynamikmodell 7 des Zielfahrzeugs 2 eine Manöverdauer 8 abgerufen, die das Zielfahrzeug 2 für die Durchführung des identifizierten Fahrmanövers 5 benötigt. Hierbei kann insbesondere beispielsweise gemäß Block 131 ein Dynamikmodell 7 des Zielfahrzeugs 2 gewählt werden, das dazu ausgebildet ist, eine Kombination aus einem Anfangszustand 5a des Zielfahrzeugs 2 und einer Angabe eines Fahrmanövers 5 auf eine Manöverdauer 8 abzubilden.
In Schritt 140 werden Beobachtungsdaten 4 aus einem Zeitintervall, dessen Ende durch den Manöverendzeitpunkt 6 gegeben ist und dessen Beginn um die Manöverdauer 8 vor dem Manöverendzeitpunkt 6 liegt, mit dem identifizieren Fahrmanöver 5 gelabelt. Mit den gelabelten Beobachtungsdaten 4 wird in Schritt 150 der Verhaltensplaner 3 darauf trainiert, Beobachtungsdaten 4, die einen Zustand des Zielfahrzeugs 2 anzeigen, auf mindestens ein durchzuführendes Fahrmanöver 5 abzubilden.
2 ist ein schematisches Ablaufdiagramm eines Ausführungsbeispiels des Verfahrens 200 mit der vollständigen Wirkkette bis zur Ansteuerung eines zumindest teilweise automatisiert fahrenden Fahrzeugs 2.
In Schritt 210 wird ein Verhaltensplaner 3 für das Fahrzeug 2 mit dem zuvor beschriebenen Verfahren (100) nach einem der Ansprüche 1 bis 5 trainiert. In Schritt 220 werden mit mindestens einem Sensor 2a des Fahrzeugs 2 Beobachtungsdaten 4 der Kinematik und/oder Dynamik des Fahrzeugs 2 erfasst.
In Schritt 230 werden die Beobachtungsdaten 4 mit dem Verhaltensplaner 3 auf mindestens ein durchzuführendes Fahrmanöver 5 abgebildet. mindestens ein auf die Fahrdynamik des Fahrzeugs 2 wirkender Aktor 2b wird in Schritt 240 so angesteuert, dass das Fahrzeug 2 das Fahrmanöver 5 durchführt.
3 ist ein schematisches Ablaufdiagramm eines Ausführungsbeispiels des Verfahrens 300 zum Trainieren eines Dynamikmodells 7 eines Zielfahrzeugs 2.
In Schritt 310 werden es werden Lern-Anfangszustände 5a' und Lern-Fahrmanöver 5' bereitgestellt. In Schritt 320 werden ausgehend von den Lern-Anfangszuständen 5a' die Lern-Fahrmanöver 5' an dem Zielfahrzeug 2, und/oder an einem Simulationsmodell des Zielfahrzeugs 2, durchgeführt. Die für die Durchführung der Lern-Fahrmanöver 5' jeweils benötigte Zeitdauer wird in Schritt 330 ermittelt und als Lern-Manöverdauer 8' festgelegt.
In Schritt 340 werden die Lern-Anfangszustände 5a' und Lern-Fahrmanöver 5' dem Dynamikmodell 7 zugeführt und von dem Dynamikmodell 7 jeweils auf eine Manöverdauer 8 abgebildet. Die Übereinstimmung der Manöverdauer 8 mit der zum jeweiligen Lern-Anfangszustand 5a' und Lern-Fahrmanöver 5' gehörenden Lern-Manöverdauer 8' wird in Schritt 350 mit einer vorgegebenen Kostenfunktion 9 bewertet. Parameter 7a, die das Verhalten des Dynamikmodells 7 charakterisieren, werden in Schritt 360 optimiert mit dem Ziel, dass die weitere Verarbeitung von Lern-Anfangszuständen 5a' und Lern-Fahrmanövern 5' zu einer besseren Bewertung 9a durch die Kostenfunktion 9 führt. Der fertig trainierte Zustand der Parameter 7a ist mit dem Bezugszeichen 7a* bezeichnet.
ZITATE ENTHALTEN IN DER BESCHREIBUNG
Diese Liste der vom Anmelder aufgeführten Dokumente wurde automatisiert erzeugt und ist ausschließlich zur besseren Information des Lesers aufgenommen. Die Liste ist nicht Bestandteil der deutschen Patent- bzw. Gebrauchsmusteranmeldung. Das DPMA übernimmt keinerlei Haftung für etwaige Fehler oder Auslassungen.
Zitierte Patentliteratur

DE 102018210280 A1 [0002]

Claims

Verfahren (100) zum Trainieren eines Verhaltensplaners (3) für ein zumindest teilweise automatisiert fahrendes Zielfahrzeug (2) auf der Basis von Beobachtungsdaten (4) der Kinematik und/oder Dynamik, die während mindestens einer Testfahrt mit einem Testfahrzeug (1) aufgenommen wurden, mit den Schritten: • aus den Beobachtungsdaten (4) wird mindestens ein Fahrmanöver (5) identifiziert (110), welches das Testfahrzeug (1) von einem Anfangszustand (5a) in einen Endzustand (5b) überführt; • der Manöverendzeitpunkt (6), zu dem das Testfahrzeug (1) den Endzustand (5b) erreicht, wird ermittelt (120); • aus einem Dynamikmodell (7) des Zielfahrzeugs (2) wird eine Manöverdauer (8) abgerufen (130), die das Zielfahrzeug (2) für die Durchführung des identifizierten Fahrmanövers (5) benötigt; • Beobachtungsdaten (4) aus einem Zeitintervall, dessen Ende durch den Manöverendzeitpunkt (6) gegeben ist und dessen Beginn um die Manöverdauer (8) vor dem Manöverendzeitpunkt (6) liegt, werden mit dem identifizieren Fahrmanöver (5) gelabelt (140); • mit den gelabelten Beobachtungsdaten (4) wird der Verhaltensplaner (3) darauf trainiert (150), Beobachtungsdaten (4), die einen Zustand des Zielfahrzeugs (2) anzeigen, auf mindestens ein durchzuführendes Fahrmanöver (5) abzubilden.
Verfahren (100) nach Anspruch 1, wobei das Fahrmanöver (5) mit einem trainierten Klassifikatormodell identifiziert wird (111), wobei dieses Klassifikatormodell eine Zeitreihe von Beobachtungsdaten (4) auf mindestens ein Fahrmanöver (5) abbildet, das mit dieser Zeitreihe im Einklang steht.
Verfahren (100) nach einem der Ansprüche 1 bis 2, wobei ein Dynamikmodell (7) des Zielfahrzeugs (2) gewählt wird (131), das dazu ausgebildet ist, eine Kombination aus einem Anfangszustand (5a) des Zielfahrzeugs (2) und einer Angabe eines Fahrmanövers (5) auf eine Manöverdauer (8) abzubilden.
Verfahren (100) nach Anspruch 3, wobei die Kombination zusätzlich mindestens einen einstellbaren Parameter des Verhaltensplaners (3) des Zielfahrzeugs (2) enthält.
Verfahren (100) nach einem der Ansprüche 1 bis 4, wobei mindestens ein Fahrmanöver (5) • einen Spurwechsel auf eine benachbarte Fahrspur; und/oder • eine Änderung der Fahrgeschwindigkeit um einen vorgegebenen Betrag; und/oder • das Anhalten des Fahrzeugs an einer definierten Stelle; und/oder • das Hinterherfahren hinter einem Fremdfahrzeug; und/oder • eine Notbremsung des Fahrzeugs umfasst.
Verfahren (200) mit den Schritten: • ein Verhaltensplaner (3) für ein zumindest teilweise automatisiert fahrendes Fahrzeug (2) wird mit dem Verfahren (100) nach einem der Ansprüche 1 bis 5 trainiert (210); • mit mindestens einem Sensor (2a) des Fahrzeugs (2) werden Beobachtungsdaten (4) der Kinematik und/oder Dynamik des Fahrzeugs (2) erfasst (220); • die Beobachtungsdaten (4) werden mit dem Verhaltensplaner (3) auf mindestens ein durchzuführendes Fahrmanöver (5) abgebildet (230); • mindestens ein auf die Fahrdynamik des Fahrzeugs (2) wirkender Aktor (2b) wird so angesteuert (240), dass das Fahrzeug (2) das Fahrmanöver (5) durchführt.
Verfahren (300) zum Trainieren eines Dynamikmodells (7) eines Zielfahrzeugs (2) für den Einsatz in dem Verfahren (100) nach einem der Ansprüche 1 bis 5 mit den Schritten: • es werden Lern-Anfangszustände (5a') und Lern-Fahrmanöver (5') bereitgestellt (310); • ausgehend von den Lern-Anfangszuständen (5a') werden die Lern-Fahrmanöver (5') an dem Zielfahrzeug (2), und/oder an einem Simulationsmodell des Zielfahrzeugs (2), durchgeführt (320); • die für die Durchführung der Lern-Fahrmanöver (5') jeweils benötigte Zeitdauer wird ermittelt und als Lern-Manöverdauer (8') festgelegt (330); • die Lern-Anfangszustände (5a') und Lern-Fahrmanöver (5') werden dem Dynamikmodell (7) zugeführt und von dem Dynamikmodell (7) jeweils auf eine Manöverdauer (8) abgebildet (340); • die Übereinstimmung der Manöverdauer (8) mit der zum jeweiligen Lern-Anfangszustand (5a') und Lern-Fahrmanöver (5') gehörenden Lern-Manöverdauer (8') wird mit einer vorgegebenen Kostenfunktion (9) bewertet (350); • Parameter (7a), die das Verhalten des Dynamikmodells (7) charakterisieren, werden optimiert (360) mit dem Ziel, dass die weitere Verarbeitung von Lern-Anfangszuständen (5a') und Lern-Fahrmanövern (5') zu einer besseren Bewertung (9a) durch die Kostenfunktion (9) führt.
Computerprogramm, enthaltend maschinenlesbare Anweisungen, die, wenn sie auf einem oder mehreren Computern ausgeführt werden, den oder die Computer dazu veranlassen, ein Verfahren (100, 200, 300) nach einem der Ansprüche 1 bis 7 auszuführen.
Maschinenlesbarer Datenträger und/oder Downloadprodukt mit dem Computerprogramm nach Anspruch 8.
Computer mit dem Computerprogramm nach Anspruch 8, und/oder mit dem maschinenlesbaren Datenträger und/oder Downloadprodukt nach Anspruch 9.