DE102021206588A1

DE102021206588A1 - Procedure for trajectory optimization

Info

Publication number: DE102021206588A1
Application number: DE102021206588.0A
Authority: DE
Inventors: Nicolas Stein; Hendrik Deusch
Original assignee: Continental Autonomous Mobility Germany GmbH
Current assignee: Continental Autonomous Mobility Germany GmbH
Priority date: 2021-06-25
Filing date: 2021-06-25
Publication date: 2022-12-29
Also published as: EP4359274A1; JP2024523157A; WO2022268274A1; CN117500708A

Abstract

Die Erfindung betrifft ein Verfahren zur Ermittlung einer Fahrtrajektorie für wiederkehrende Fahrsituationen, wobei das Verfahren die folgenden Schritte aufweist:- Abfahren einer Fahrstrecke (FS) von einer Startposition (SP) zu einer Zielposition (ZP) durch einen menschlichen Fahrer mittels eines Fahrzeugs (F) (S10);- Erfassen von Umgebungsinformationen durch eine Sensorik des Fahrzeugs (F) während des Abfahrens der Fahrstrecke (FS) (S11);- Abspeichern von Informationen zu einer befahrbaren Fahrgasse basierend auf den Umgebungsinformationen (S12);- Ermitteln einer Fahrtrajektorie basierend auf Informationen zur befahrbaren Fahrgasse mittels einer Recheneinheit des Fahrzeugs (F), die eine Strategie des bestärkenden Lernens implementiert (S13);- Abspeichern der ermittelten Fahrtrajektorie (S14).The invention relates to a method for determining a driving trajectory for recurring driving situations, the method having the following steps: (S10);- Detection of environmental information by a sensor system of the vehicle (F) while driving along the route (FS) (S11);- Storage of information on a traffic lane based on the environmental information (S12);- Determining a travel trajectory based on Information on the driving lane that can be driven on by means of a computing unit of the vehicle (F) which implements a strategy of reinforcement learning (S13); - storing the determined driving trajectory (S14).

Description

Die Erfindung betrifft ein Verfahren zur Trajektorienoptimierung bei wiederkehrenden Fahrsituationen, insbesondere bei wiederkehrenden Parksituationen.The invention relates to a method for trajectory optimization in recurring driving situations, in particular in recurring parking situations.

Teilautomatisierte oder automatisierte Parkfunktionen von Fahrzeugen sind bereits bekannt. Dabei wird beispielsweise eine vom menschlichen Fahrer manuell abgefahrene Trajektorie von einer Startposition zu einem Parkplatz als Zielposition einschließlich des Einparkmanövers und die detektierte Umgebung gespeichert. Basierend auf diesen gespeicherten Informationen kann zu einem späteren Zeitpunkt die gespeicherte Trajektorie abgefahren werden.Partially automated or automated parking functions of vehicles are already known. For example, a trajectory traveled manually by the human driver from a starting position to a parking space is stored as the target position, including the parking maneuver and the detected environment. Based on this stored information, the stored trajectory can be traversed at a later point in time.

Nachteilig hierbei ist, dass sich die Trajektorie lediglich so abfahren lässt, wie sie ursprünglich abgespeichert wurde. Da die vom menschlichen Fahrer abgefahrene Trajektorie oft nicht optimal bezüglich der Länge, der Zeit und/oder dem Lenkwinkel ist und diese manuell abgefahrene Trajektorie die Grundlage für den automatisierten Fahrvorgang bildet, ist auch die automatisiert abgefahrene Trajektorie häufig nicht optimal hinsichtlich der vorgenannten Trajektorieneigenschaften.The disadvantage here is that the trajectory can only be followed as it was originally stored. Since the trajectory driven by the human driver is often not optimal in terms of length, time and/or the steering angle, and this manually driven trajectory forms the basis for the automated driving process, the automatically driven trajectory is often not optimal with regard to the aforementioned trajectory properties.

Ausgehend hiervon ist es Aufgabe der Erfindung, ein Verfahren zur Ermittlung einer Fahrtrajektorie für wiederkehrende Fahrsituationen anzugeben, das verbesserte Trajektorieneigenschaften für die automatisiert abgefahrene Fahrstrecke bietet.Proceeding from this, it is the object of the invention to specify a method for determining a driving trajectory for recurring driving situations, which offers improved trajectory properties for the driving route traveled automatically.

Die Aufgabe wird durch ein Verfahren mit den Merkmalen des unabhängigen Patentanspruchs 1 gelöst. Bevorzugte Ausführungsformen sind Gegenstand der Unteransprüche. Ein System zur Ermittlung einer Fahrtrajektorie für wiederkehrende Fahrsituationen ist Gegenstand des nebengeordneten Patentanspruchs 15.The object is solved by a method having the features of independent patent claim 1 . Preferred embodiments are the subject matter of the dependent claims. A system for determining a driving trajectory for recurring driving situations is the subject of the independent patent claim 15.

Gemäß einem ersten Aspekt bezieht sich die Erfindung auf ein Verfahren zur Ermittlung einer Fahrtrajektorie für wiederkehrende Fahrsituationen. Das Verfahren weist die folgenden Schritte auf:

Zunächst wird eine Fahrstrecke von einer Startposition zu einer Zielposition durch einen menschlichen Fahrer mittels eines Fahrzeugs abgefahren. Diese Fahrstrecke bezieht sich auf die wiederkehrende Fahrsituation, d.h. wird zukünftig öfter durchfahren, beispielsweise als Parkvorgang zu Hause, am Arbeitsplatz etc.

According to a first aspect, the invention relates to a method for determining a driving trajectory for recurring driving situations. The procedure has the following steps:

First, a route is traveled from a starting position to a target position by a human driver using a vehicle. This route refers to the recurring driving situation, i.e. it will be driven through more often in the future, for example when parking at home, at work, etc.

Während des Abfahrens der Fahrstrecke werden Umgebungsinformationen durch eine Sensorik des Fahrzeugs erfasst. Die Sensorik kann durch jegliche Fahrzeugsensorik gebildet werden, über die die Umgebung der Fahrstrecke erfassbar ist und daraus die kollisionsfrei befahrbare Fahrgasse ermittelt werden kann. Beispielsweise kann die Sensorik einen oder mehrere Ultraschallsensoren, zumindest eine Kamera, zumindest einen Radarsensor und/oder zumindest einen LIDAR-Sensor umfassen.While the route is being driven, information about the surroundings is recorded by a sensor system in the vehicle. The sensor system can be formed by any vehicle sensor system, via which the environment of the route can be detected and the collision-free driving lane can be determined therefrom. For example, the sensor system can include one or more ultrasonic sensors, at least one camera, at least one radar sensor and/or at least one LIDAR sensor.

Nach dem Erfassen der Umgebungsinformationen werden Informationen zu einer befahrbaren Fahrgasse basierend auf diesen Umgebungsinformationen erzeugt und abgespeichert. Damit wird der Bereich bzw. Fahrschlauch festgelegt, innerhalb dem die Trajektorienplanung erfolgen kann.After the environmental information has been recorded, information about a traffic lane that can be driven on is generated and stored based on this environmental information. This defines the area or driving path within which the trajectory can be planned.

Basierend auf den Informationen zur befahrbaren Fahrgasse wird eine Fahrtrajektorie mittels einer Recheneinheit des Fahrzeugs ermittelt. Die Recheneinheit implementiert dabei eine Strategie des bestärkenden Lernens, d.h. es wird über mehrere iterative Versuchstrajektorien, eine Beurteilung der Versuchstrajektorien und eine Rückmeldung an das lernende System, ob sich die Trajektorieneigenschaften der aktuell berechneten Versuchstrajektorie gegenüber einer früheren Versuchstrajektorie verbessert haben, eine Fahrtrajektorie gesucht, die verbesserte Trajektorieneigenschaften aufweist.A driving trajectory is determined by means of a computing unit of the vehicle based on the information on the driving lane that can be driven on. The computing unit implements a strategy of reinforcement learning, i.e. it searches for a driving trajectory that has improved trajectory properties.

Zuletzt erfolgt ein Abspeichern der ermittelten Fahrtrajektorie, um basierend auf dieser Fahrtrajektorie zukünftig die Fahrstrecke automatisiert oder teilautomatisiert mittels eines Fahrassistenzsystems abfahren zu können. Dabei kann sich der Fahrer außerhalb des Fahrzeugs befinden, d.h. das Fahrzeug fährt beispielsweise selbstständig zur Parkposition.Finally, the determined travel trajectory is stored in order to be able to drive the route automatically or partially automatically using a driver assistance system based on this travel trajectory in the future. The driver can be outside the vehicle, i.e. the vehicle drives itself to the parking position, for example.

Der technische Vorteil des erfindungsgemäßen Verfahrens besteht darin, dass durch das bestärkende Lernverfahren keine komplexen Trainingsdaten zum Erzeugen einer optimierten Fahrtrajektorie nötig sind, sondern lediglich zumindest einmal die Fahrstrecke von einer Startposition zu einer Zielposition durch den menschlichen Fahrer abgefahren werden muss, um die befahrbare Fahrgasse zu bestimmen. Das Auffinden einer optimierten Fahrgasse erfolgt dann über bestärkendes Lernen. Dies hat den Vorteil, dass die durch die Optimierung zu bestimmende Fahrtrajektorie nicht durch die Güte der Trainingsdaten limitiert ist, sondern durch das bestärkende Lernen eine Fahrtrajektorie ermittelt werden kann, die besser ist als die vom menschlichen Fahrer gefahrene F ah rtrajektorie.The technical advantage of the method according to the invention is that the reinforcement learning method does not require complex training data to generate an optimized driving trajectory, but rather the human driver only has to travel the route at least once from a starting position to a target position in order to find the passable lane determine. An optimized tramline is then found by means of reinforcement learning. This has the advantage that the driving trajectory to be determined by the optimization is not limited by the quality of the training data, but a driving trajectory that is better than the driving trajectory driven by the human driver can be determined by the reinforcement learning.

Gemäß einem Ausführungsbeispiel sind in der Recheneinheit ein Agent und ein Bewertungssystem implementiert. Der Agent ist dazu konfiguriert, ohne Trainingsdaten eine Fahrtrajektorie zu bestimmen, die im Hinblick auf vorgegebene Trajektorieneigenschaften optimiert ist. Eine vom Agenten berechnete Fahrtrajektorie wird durch das Bewertungssystem basierend auf Trajektorieneigenschaften beurteilt und abhängig vom Beurteilungsergebnis wird eine neue Fahrtrajektorie berechnet. Dadurch können beeinflusst durch das Beurteilungsergebnis neue Fahrtrajektorien berechnet und dadurch Fahrtrajektorien mit besseren Trajektorieneigenschaften erzeugt werden.According to one embodiment, an agent and an evaluation system are implemented in the computing unit. The agent is configured to determine a travel trajectory without training data, which is optimized with regard to predefined trajectory properties. A travel trajectory calculated by the agent is evaluated by the rating system based on trajectory properties ten assessed and depending on the assessment result, a new travel trajectory is calculated. As a result, new travel trajectories can be calculated, influenced by the assessment result, and travel trajectories with better trajectory properties can thereby be generated.

Gemäß einem Ausführungsbeispiel werden mehrere unterschiedliche Trajektorieneigenschaften zur Beurteilung einer Trajektorie herangezogen. Vorzugsweise können die unterschiedlichen Trajektorieneigenschaften verschieden gewichtet werden. Die Berechnung einer neuen Trajektorie kann unter einer oder mehreren Vorgaben erfolgen, und zwar derart, dass eine oder mehrere Trajektorieneigenschaften verbessert werden. Dies kann beispielsweise derart erfolgen, dass eine oder mehrere Trajektorieneigenschaften verbessert und andere Trajektorieneigenschaften verschlechtert werden. So kann beispielsweise eine sehr lange Trajektorie dadurch verbessert werden, dass die Trajektorienlänge verkleinert wird, um schneller zur Zielposition zu gelangen.According to one exemplary embodiment, a number of different trajectory properties are used to assess a trajectory. The different trajectory properties can preferably be weighted differently. A new trajectory can be calculated under one or more specifications, in such a way that one or more trajectory properties are improved. This can be done, for example, in such a way that one or more trajectory properties are improved and other trajectory properties are degraded. For example, a very long trajectory can be improved by reducing the trajectory length in order to reach the target position more quickly.

Gemäß einem Ausführungsbeispiel berechnet der Agent iterativ neue Fahrtrajektorien derart, dass das Beurteilungsergebnis gesteigert wird. Dabei fließen vorzugsweise mehrere unterschiedliche Trajektorieneigenschaften, beispielsweise mit unterschiedlicher Gewichtung, in die Beurteilung ein. Dadurch kann über mehrere Iterationsschritte hinweg die Trajektorie verbessert werden.According to one exemplary embodiment, the agent iteratively calculates new travel trajectories in such a way that the assessment result is increased. A number of different trajectory properties, for example with different weightings, are preferably included in the assessment. As a result, the trajectory can be improved over several iteration steps.

Gemäß einem Ausführungsbeispiel umfasst das Bewertungssystem eine Belohnungsfunktion, die zu einer berechneten Fahrtrajektorie eine positive oder negative Belohnung berechnet. Diese Belohnung ist eine Feedbackinformation für den Agenten, der die nachfolgenden Trajektorienberechnungen beeinflusst. Dadurch kann der Agent derart beeinflusst werden, dass sukzessive Trajektorien mit besseren Trajektorieneigenschaften und damit einem besseren Beurteilungsergebnis berechnet werden.According to one exemplary embodiment, the evaluation system includes a reward function that calculates a positive or negative reward for a calculated travel trajectory. This reward is feedback information for the agent, which influences subsequent trajectory calculations. As a result, the agent can be influenced in such a way that successive trajectories with better trajectory properties and thus a better assessment result are calculated.

Gemäß einem Ausführungsbeispiel berechnet der Agent iterativ Fahrtrajektorien derart, dass eine nachfolgende Fahrtrajektorie eine höhere positive Belohnung erhält als eine vorherige Fahrtrajektorie. Damit kann sukzessive die Qualität der Fahrtrajektorien verbessert und durch das bestärkende Lernverfahren eine finale Fahrtrajektorie ermittelt werden, die hinreichend gute Trajektorieneigenschaften aufweist.According to one embodiment, the agent iteratively calculates travel trajectories such that a subsequent travel trajectory receives a higher positive reward than a previous travel trajectory. The quality of the travel trajectories can thus be successively improved and a final travel trajectory which has sufficiently good trajectory properties can be determined by the reinforcing learning method.

Gemäß einem Ausführungsbeispiel umfassen die zur Beurteilung einer Fahrtrajektorie verwendeten Trajektorieneigenschaften die Zeit zum Durchfahren der Fahrtrajektorie, die Wegstrecke der Fahrtrajektorie, Informationen zu Lenkwinkeländerungen, Informationen zur Längsbeschleunigung und/oder Informationen zur Querbeschleunigung. Mittels dieser Trajektorieneigenschaften können die Fahrtrajektorien objektiv beurteilt werden, und zwar angelehnt an die Wahrnehmung eines menschlichen Fahrers.According to one exemplary embodiment, the trajectory properties used to assess a driving trajectory include the time required to travel through the driving trajectory, the distance covered by the driving trajectory, information about steering angle changes, information about longitudinal acceleration and/or information about lateral acceleration. The travel trajectories can be assessed objectively by means of these trajectory properties, based on the perception of a human driver.

Gemäß einem Ausführungsbeispiel wird die Fahrstrecke von der Startposition zu der Zielposition mehrfach abgefahren. Dies können ausschließlich mehrere vom menschlichen Fahrer durchgeführte Fahrvorgänge sein oder aber zumindest teilweise auch automatisiert durchgeführte Fahrvorgänge. Dabei werden Umgebungsinformationen durch eine Sensorik des Fahrzeugs erfasst und Informationen zur befahrbaren Fahrgasse ermittelt und gespeichert. Durch ein mehrfaches Abfahren der Fahrstrecke können umfassendere Umgebungsinformationen erhalten werden, so dass eine verbesserte Trajektorienbestimmung erfolgen kann.According to one exemplary embodiment, the route from the starting position to the target position is traversed several times. This can exclusively be a number of driving processes carried out by the human driver or driving processes that are also carried out at least partially in an automated manner. Information about the surroundings is recorded by a sensor system in the vehicle and information about the lane that can be driven on is determined and stored. More comprehensive environmental information can be obtained by driving along the route several times, so that an improved trajectory determination can take place.

Gemäß einem Ausführungsbeispiel werden mehrere zeitlich nacheinander ermittelte Umgebungsinformationen und/oder Informationen zur befahrbaren Fahrgasse kombiniert, und diese kombinierten Informationen zur befahrbaren Fahrgasse werden zum Ermitteln einer Fahrtrajektorie herangezogen. Durch diese Fusion von Umgebungsinformationen bzw. Fahrgasseninformationen kann eine modifizierte, insbesondere größere Fahrgasse erhalten werden. Auf Basis dieser modifizierten Fahrgasse wird ein größerer Freiraum für die Berechnung von Fahrtrajektorien erhalten.According to one exemplary embodiment, a plurality of items of environmental information and/or information about the trafficable lane determined in chronological succession are combined, and this combined information about the trafficable lane is used to determine a travel trajectory. This fusion of environmental information or tramline information allows a modified, in particular larger, tramline to be obtained. Based on this modified tramline, there is more freedom for the calculation of travel trajectories.

Gemäß einem Ausführungsbeispiel wird beim Durchfahren der Fahrstrecke von dem Startpunkt zu dem Zielpunkt fortlaufend eine Umgebungserfassung vollzogen und das Ermitteln einer Fahrtrajektorie durch bestärkendes Lernen wird neu vollzogen, wenn anhand der erfassten Umgebungsinformationen erkennbar ist, dass sich die Informationen zur befahrbaren Fahrgasse durch statische Objekte verändert hat. Dadurch kann sichergestellt werden, dass die Fahrtrajektorie an statische Veränderungen der befahrbaren Fahrgasse, beispielsweise durch eine bauliche Veränderung, fortlaufend angepasst wird.According to one embodiment, when driving through the route from the starting point to the destination, the environment is continuously detected and a driving trajectory is determined by reinforcement learning if it can be seen from the detected environmental information that the information on the trafficable lane has changed due to static objects . It can thereby be ensured that the travel trajectory is continuously adapted to static changes in the driving lane that can be driven on, for example as a result of a structural change.

Gemäß einem Ausführungsbeispiel wird die Fahrstrecke von der Startposition zur Zielposition basierend auf der ermittelten Fahrtrajektorie automatisiert durchfahren. Von der ermittelten Fahrtrajektorie wird dann abgewichen, wenn ein Hindernis auf der ermittelten Fahrtrajektorie detektiert wird. Dadurch ist es möglich, situationsbezogen auf temporäre Veränderungen der befahrbaren Fahrgasse zu reagieren und durch Ausweichen Kollisionen zu vermeiden.According to one exemplary embodiment, the route from the starting position to the target position is driven through automatically based on the determined travel trajectory. There is a deviation from the determined travel trajectory when an obstacle is detected on the determined travel trajectory. This makes it possible to react situation-specifically to temporary changes in the passable lane and avoid collisions by avoiding collisions.

Gemäß einem Ausführungsbeispiel ermittelt die Recheneinheit mehrere unterschiedliche optimierte Fahrtrajektorien mittels der Strategie des bestärkenden Lernens und eine Fahrtrajektorie dieser optimierten Fahrtrajektorien wird basierend auf einem oder mehreren Zielkriterien auswählt. Dadurch kann erreicht werden, dass in Fällen, in denen mehrere unterschiedliche optimierte Fahrtrajektorien ermittelt werden können, diejenige optimierte Fahrtrajektorie verwendet wird, die vorgegebene Beurteilungskriterien am besten erfüllt.According to one exemplary embodiment, the computing unit determines a number of different optimized driving trajectories using the reinforcement learning strategy, and a driving trajectory from these optimized driving trajectories is selected based on one or more target criteria. In this way it can be achieved that in cases in which a number of different optimized travel trajectories can be determined, that optimized travel trajectory which best satisfies predetermined assessment criteria is used.

Gemäß einem weiteren Aspekt betrifft die Erfindung ein System zur Ermittlung einer Fahrtrajektorie für wiederkehrende Fahrsituationen umfassend eine in einem Fahrzeug vorgesehene Recheneinheit. Das Verfahren weist die folgenden Schritte auf:

- Erfassen von Umgebungsinformationen durch eine Sensorik des Fahrzeugs während des Abfahrens der Fahrstrecke von einer Startposition zu einer Zielposition durch einen menschlichen Fahrer;
- Abspeichern von Informationen zu einer befahrbaren Fahrgasse basierend auf den Umgebungsinformationen;
- Ermitteln einer Fahrtrajektorie basierend auf Informationen zur befahrbaren Fahrgasse mittels der Recheneinheit, die eine Strategie des bestärkenden Lernens implementiert;
- Abspeichern der ermittelten Fahrtrajektorie in einer Speichereinheit.

According to a further aspect, the invention relates to a system for determining a driving trajectory for recurring driving situations, comprising a computing unit provided in a vehicle. The procedure has the following steps:

- Detection of environmental information by a sensor system of the vehicle while driving along the route from a starting position to a target position by a human driver;
- Saving information on a traffic lane based on the environment information;
- Determination of a travel trajectory based on information on the passable lane by means of the computing unit, which implements a strategy of reinforcement learning;
- Saving the determined driving trajectory in a memory unit.

Die Ausdrücke „näherungsweise“, „im Wesentlichen“ oder „etwa“ bedeuten im Sinne der Erfindung Abweichungen vom jeweils exakten Wert um +/- 10%, bevorzugt um +/- 5% und/oder Abweichungen in Form von für die Funktion unbedeutenden Änderungen.The terms “approximately”, “substantially” or “roughly” mean deviations from the exact value by +/-10%, preferably by +/-5% and/or deviations in the form of changes that are insignificant for the function .

Weiterbildungen, Vorteile und Anwendungsmöglichkeiten der Erfindung ergeben sich auch aus der nachfolgenden Beschreibung von Ausführungsbeispielen und aus den Figuren. Dabei sind alle beschriebenen und/oder bildlich dargestellten Merkmale für sich oder in beliebiger Kombination grundsätzlich Gegenstand der Erfindung, unabhängig von ihrer Zusammenfassung in den Ansprüchen oder deren Rückbeziehung. Auch wird der Inhalt der Ansprüche zu einem Bestandteil der Beschreibung gemacht.Further developments, advantages and possible applications of the invention also result from the following description of exemplary embodiments and from the figures. All of the features described and/or illustrated are fundamentally the subject matter of the invention, either alone or in any combination, regardless of how they are summarized in the claims or how they relate back to them. The content of the claims is also made part of the description.

Die Erfindung wird im Folgenden anhand der Figuren an Ausführungsbeispielen näher erläutert. Es zeigen:

1 beispielhaft eine Draufsichtdarstellung einer Fahrstrecke einer wiederkehrenden Fahrsituation; und
2 beispielhaft ein Blockdiagramm, das die Verfahrensschritte zur Ermittlung einer Fahrtrajektorie für wiederkehrende Fahrsituationen verdeutlicht.

The invention is explained in more detail below with reference to the figures of exemplary embodiments. Show it:

1 by way of example, a plan view of a route of a recurring driving situation; and
2 a block diagram, for example, which illustrates the procedural steps for determining a driving trajectory for recurring driving situations.

1 zeigt beispielhaft und grob schematisch ein Fahrzeug F zu Beginn einer wiederkehrenden Fahrsituation, die durch eine Fahrstrecke FS von einer Startposition SP zu einer Zielposition ZP beschrieben ist. Eine solche Fahrstrecke FS kann beispielsweise die Strecke zwischen einer Grundstückszufahrt und einer am Grundstück vorgesehenen Parkposition, beispielsweise einem Garagenstellplatz, sein. 1 shows an example and a rough schematic of a vehicle F at the beginning of a recurring driving situation, which is described by a route FS from a starting position SP to a target position ZP. Such a route FS can be, for example, the route between a property access road and a parking position provided on the property, for example a garage parking space.

Um diese Fahrstrecke FS automatisiert durchfahren zu können, ist es nötig, eine Fahrtrajektorie durch eine Recheneinheit des Fahrzeugs F zu berechnen, entlang derer das Fahrzeug F von der Startposition SP zur Zielposition ZP fährt.In order to be able to drive through this route FS automatically, it is necessary for a computing unit of the vehicle F to calculate a travel trajectory, along which the vehicle F travels from the starting position SP to the target position ZP.

Für die Berechnung der Fahrtrajektorie ist es nötig, dass Informationen über die Umgebung im Bereich der Fahrstrecke FS vorhanden sind, um basierend darauf den frei befahrbaren Bereich, nachfolgend auch als Fahrschlauch bezeichnet, zu kennen.For the calculation of the driving trajectory, it is necessary that information about the environment in the area of the driving route FS is available in order to know the freely navigable area based on this, also referred to below as the driving path.

Zur Bestimmung des Fahrschlauchs weist das Fahrzeug F eine Sensorik auf, mittels der die Umgebungsinformationen erfassbar sind. Die Sensorik kann beispielsweise Ultraschallsensoren, eine oder mehrere Kameras, einen oder mehrere Radarsensoren und/oder einen oder mehrere LIDAR-Sensoren umfassen.In order to determine the driving path, the vehicle F has a sensor system, by means of which the environmental information can be recorded. The sensor system can include, for example, ultrasonic sensors, one or more cameras, one or more radar sensors and/or one or more LIDAR sensors.

Um die Umgebungsinformationen entlang der Fahrstrecke FS initial bestimmen zu können, ist es nötig, dass die Fahrstrecke FS zunächst zumindest einmal durch den menschlichen Fahrer abgefahren wird, d.h. von der Startposition SP zur Zielposition ZP. Bei diesem Durchfahren können die Umgebungsinformationen durch die Sensorik des Fahrzeugs F erfasst und damit der befahrbare Fahrschlauch ermittelt werden.In order to be able to initially determine the environmental information along the route FS, it is necessary for the route FS to be traveled at least once by the human driver, i.e. from the starting position SP to the target position ZP. During this driving through, the environmental information can be recorded by the sensors of the vehicle F and the driving path that can be driven on can thus be determined.

Nachdem der befahrbare Fahrschlauch bestimmt ist, kann eine Berechnung einer Fahrtrajektorie von der Startposition SP zur Zielposition ZP erfolgen. Dies erfolgt vorzugsweise durch einen Trajektorienplaner, der in einer Rechnereinheit des Fahrzeugs implementiert ist.After the travel path that can be driven on has been determined, a travel trajectory from the starting position SP to the target position ZP can be calculated. This is preferably done by a trajectory planner that is implemented in a computer unit of the vehicle.

Die Rechnereinheit ist zum maschinellen Lernen konfiguriert, und zwar nach dem Prinzip des bestärkenden Lernens (engl. Reinforcement learning). Hierbei weist die Rechnereinheit einen Agenten auf, der ohne Trainingsdaten eine Fahrtrajektorie bestimmen kann, die im Hinblick auf vorgegebene Trajektorieneigenschaften optimiert ist. In anderen Worten implementiert die Rechnereinheit kein überwachtes Lernverfahren, das auf einem Satz von Trainingsdaten basiert.The computer unit is configured for machine learning, based on the principle of reinforcement learning. In this case, the computer unit has an agent that can determine a travel trajectory without training data, which is optimized with regard to predefined trajectory properties. In other Words, the computer unit does not implement a supervised learning method based on a set of training data.

Zudem ist ein Bewertungssystem vorgesehen, das zur Beurteilung einer berechneten Fahrtrajektorie basierend auf vorgegebenen Trajektorieneigenschaften ausgebildet ist. Je nachdem, wie gut die berechnete Fahrtrajektorie die vorgegebenen Trajektorieneigenschaften erfüllt, wird durch das Bewertungssystem eine positive oder negative Belohnung bereitgestellt. Insbesondere generiert das Bewertungssystem eine positive Belohnung, wenn die Trajektorieneigenschaften einer neu berechneten Fahrtrajektorie besser sind als die Trajektorieneigenschaften einer vorher berechneten Trajektorie. Im umgekehrten Fall generiert das Bewertungssystem beispielsweise eine negative Belohnung, wenn die Trajektorieneigenschaften einer neu berechneten Fahrtrajektorie schlechter sind als die Trajektorieneigenschaften einer vorher berechneten Trajektorie. Die vorher berechnete Trajektorie kann dabei jeweils die direkt vorher berechnete Trajektorie sein, oder es kann auf eine Trajektorie zurückgegriffen werden, die bereits länger zurückliegend berechnet wurde.In addition, an evaluation system is provided, which is designed to evaluate a calculated travel trajectory based on predefined trajectory properties. Depending on how well the calculated driving trajectory fulfills the specified trajectory properties, a positive or negative reward is provided by the evaluation system. In particular, the rating system generates a positive reward if the trajectory properties of a newly calculated travel trajectory are better than the trajectory properties of a previously calculated trajectory. In the opposite case, the rating system generates a negative reward, for example, if the trajectory properties of a newly calculated travel trajectory are worse than the trajectory properties of a previously calculated trajectory. The previously calculated trajectory can in each case be the trajectory calculated directly beforehand, or a trajectory can be used that was calculated a long time ago.

Basierend auf den positiven bzw. negativen Belohnungen lernt der Agent selbstständig, wie eine Fahrtrajektorie verändert werden muss, um positive Belohnungen zu erhalten. Anhand der Belohnungen kann eine Nutzenfunktion ermittelt werden, die angibt, welchen Wert eine Trajektorieneigenschaft in Bezug auf den Erhalt einer positiven Belohnung hat. Dadurch ist es möglich, eine gezielte Verbesserung der Trajektorieneigenschaften zu erreichen.Based on the positive or negative rewards, the agent independently learns how a driving trajectory has to be changed in order to receive positive rewards. The rewards can be used to derive a utility function that represents the value of a trajectory property in relation to receiving a positive reward. This makes it possible to achieve a targeted improvement in the trajectory properties.

Vorzugsweise wird der Prozess zur Ermittlung einer Fahrtrajektorie zunächst dann eingeleitet, wenn zu einer sich wiederholenden Fahrsituation ein befahrbarer Fahrschlauch zur Verfügung steht. Beispielsweise kann die Berechnung direkt nach dem Erreichen der Zielposition ZP eingeleitet werden. Vorzugsweise wird die Berechnung von Fahrtrajektorien so lange vollzogen, bis eine hinreichend gute Fahrtrajektorie ermittelt werden konnte. Es können hierbei ein oder mehrere Abbruchkriterien definiert sein, basierend auf denen die iterative Trajektorienoptimierung beendet wird.The process for determining a travel trajectory is preferably initially initiated when a driving path that can be driven on is available for a repeated driving situation. For example, the calculation can be initiated immediately after reaching the target position ZP. Travel trajectories are preferably calculated until a sufficiently good travel trajectory can be determined. One or more termination criteria can be defined here, based on which the iterative trajectory optimization is terminated.

Die Trajektorieneigenschaften, basierend auf denen die Beurteilung der Fahrtrajektorien erfolgt, können beispielsweise die Zeit zum Durchfahren der Fahrtrajektorie, die Wegstrecke der Fahrtrajektorie, Informationen zur Lenkwinkeländerung, Informationen zur Längsbeschleunigung und/oder Informationen zur Querbeschleunigung sein.The trajectory properties on which the assessment of the travel trajectories is based can be, for example, the time to travel through the travel trajectory, the distance of the travel trajectory, information about the steering angle change, information about the longitudinal acceleration and/or information about the lateral acceleration.

Vorzugsweise wird die Fahrstrecke FS zwischen der Startposition SP und der Zielposition ZP mehrmals durchfahren, um dabeiThe route FS is preferably traversed several times between the starting position SP and the target position ZP in order to

Umgebungsinformationen zu erfassen. Dadurch lassen sich zeitlich hintereinander unterschiedliche Umgebungsinformationen erfassen. Diese können miteinander kombiniert bzw. fusioniert werden, um basierend darauf verbesserte Informationen zur befahrbaren Fahrgasse zu erhalten. Diese verbesserten Informationen können anschließend als Basis für die Berechnung der Fahrtrajektorie verwendet werden. Der Vorteil liegt darin, dass mit jeder zusätzlich gefahrenen Trajektorie, insbesondere manuell gefahrenen Trajektorie, der befahrbare Fahrschlauch vergrößert werden kann und damit auch ein höheres Potential für eine Optimierung der Fahrtrajektorie durch das bestärkende Lernen besteht.capture environmental information. As a result, different environmental information can be recorded in chronological succession. These can be combined or merged with each other in order to obtain improved information on the traffic lane that can be driven on. This improved information can then be used as a basis for calculating the driving trajectory. The advantage lies in the fact that with each additional trajectory driven, in particular manually driven trajectory, the driving path that can be driven on can be enlarged and thus there is also a higher potential for optimizing the driving trajectory through reinforcement learning.

Es erfolgt auch bei dem automatisierten Befahren der Fahrstrecke FS auf der Grundlage einer vorher berechneten Fahrtrajektorie eine Umgebungserfassung. Diese erfolgt zum einen mit dem Ziel, dass auf der Fahrtrajektorie befindliche hinderliche Objekte erfasst werden und das Fahrzeug diesen ausweichen bzw. davor anhalten kann. Zum anderen erfolgt die Umgebungserfassung beim automatisierten Befahren auch aus dem Grund, dass neue stationäre Objekte auf einem vorher als befahrbar detektierten Fahrschlauch erkannt werden und damit eine neue Trajektorienoptimierung durch bestärkendes Lernen unter Berücksichtigung des veränderten Fahrschlauchs möglich wird. Mit anderen Worten wird kann damit bei einer Veränderung der befahrbaren Fahrgasse die Berechnung der Fahrtrajektorie erneut durchgeführt werden, um basierend auf der veränderten Umgebungssituation eine optimierte Fahrtrajektorie zu ermitteln.A detection of the surroundings also takes place when driving along the route FS automatically on the basis of a previously calculated driving trajectory. On the one hand, this is done with the aim that obstructive objects located on the travel trajectory are detected and the vehicle can avoid them or stop in front of them. On the other hand, the environment is also detected during automated driving because new stationary objects are recognized on a driving path that was previously detected as passable, and thus a new trajectory optimization through reinforcement learning, taking into account the changed driving path, becomes possible. In other words, the calculation of the travel trajectory can be carried out again when the driving lane that can be driven on changes, in order to determine an optimized travel trajectory based on the changed environmental situation.

Es kann vorkommen, dass die Optimierung der Fahrtrajektorie durch bestärkendes Lernen nicht zu einem globalen Optimum der Fahrtrajektorie führt, sondern lediglich zu einem lokalen Optimum. Daher kann vorzugsweise die Trajektorienoptimierung mehrfach erfolgen, beispielsweise basierend auf anderen Optimierungskriterien, um mehrere unterschiedliche optimierte Fahrtrajektorien zu erhalten. Anschließend können diese unterschiedlichen optimierten Fahrtrajektorien miteinander verglichen werden. Insbesondere können die unterschiedlichen optimierten Fahrtrajektorien basierend auf vorgegebenen Kriterien wie beispielsweise Zeit zum Durchfahren der Fahrtrajektorie, Wegstrecke der Fahrtrajektorie, Informationen zur Lenkwinkeländerung, Informationen zur Längsbeschleunigung und/oder Informationen zur Querbeschleunigung miteinander verglichen werden, um eine finale Fahrtrajektorie zu bestimmen, die anschließend für die autonome Fahrfunktion verwendet wird. Die autonome Fahrfunktion kann insbesondere „trainiertes Parken“ bei einer wiederkehrenden Parksituation sein.It can happen that the optimization of the travel trajectory by reinforcement learning does not lead to a global optimum of the travel trajectory, but only to a local optimum. Therefore, the trajectory optimization can preferably take place several times, for example based on other optimization criteria, in order to obtain several different optimized travel trajectories. These different optimized travel trajectories can then be compared with one another. In particular, the different optimized driving trajectories can be compared with each other based on predetermined criteria such as time to drive through the driving trajectory, distance of the driving trajectory, information about the steering angle change, information about the longitudinal acceleration and/or information about the lateral acceleration in order to determine a final driving trajectory, which is then used for the autonomous driving function is used. The autonomous driving function can in particular be "trained parking" in a recurring parking situation.

2 zeigt ein Diagramm, das die Verfahrensschritte zur Ermittlung der Fahrtrajektorie verdeutlicht. 2 shows a diagram that explains the procedural steps for determining the travel trajectory.

Zunächst wird eine Fahrstrecke von einer Startposition zu einer Zielposition durch einen menschlichen Fahrer mittels eines Fahrzeugs abgefahren (S10).First, a route is traveled from a start position to a target position by a human driver using a vehicle (S10).

Während des Abfahrens der Fahrstrecke werden Umgebungsinformationen durch eine Sensorik des Fahrzeugs erfasst (S11).While the route is being driven, information about the surroundings is recorded by a sensor system in the vehicle (S11).

Anschließend werden Informationen zu einer befahrbaren Fahrgasse basierend auf den Umgebungsinformationen des Fahrzeugs abgespeichert (S12).Subsequently, information on a driving lane that can be driven on is stored based on the information surrounding the vehicle (S12).

Daraufhin wird eine Fahrtrajektorie basierend auf Informationen zur befahrbaren Fahrgasse mittels einer Recheneinheit des Fahrzeugs ermittelt (S13). Die Recheneinheit implementiert dabei eine Strategie des bestärkenden Lernens, bei dem eine berechnete Fahrtrajektorie basierend auf Trajektorieneigenschaften beurteilt und iterativ optimiert wird, und zwar derart, dass versucht wird, durch die Iterationsschritte Trajektorieneigenschaften der Fahrtrajektorie sukzessive zu verbessern.A travel trajectory is then determined based on information on the traffic lane that can be driven on by means of a computing unit in the vehicle (S13). The computing unit implements a strategy of reinforcement learning, in which a calculated driving trajectory is assessed based on trajectory properties and iteratively optimized in such a way that the iteration steps try to successively improve trajectory properties of the driving trajectory.

Zuletzt erfolgt ein Abspeichern der ermittelten Fahrtrajektorie (S14). Dadurch kann die ermittelte Fahrtrajektorie zum automatisierten Befahren der wiederkehrenden Fahrsituation verwendet werden.Finally, the determined driving trajectory is stored (S14). As a result, the driving trajectory determined can be used for automated driving in the recurring driving situation.

Die Erfindung wurde voranstehend an Ausführungsbeispielen beschrieben. Es versteht sich, dass zahlreiche Änderungen sowie Abwandlungen möglich sind, ohne dass dadurch der durch die Patentansprüche definierte Schutzbereich verlassen wird.The invention has been described above using exemplary embodiments. It goes without saying that numerous changes and modifications are possible without leaving the scope of protection defined by the patent claims.

BezugszeichenlisteReference List

Ff: Fahrzeugvehicle
FSFS: Fahrstreckedriving distance
SPSP: Startpositionstarting position
ZPZP: Zielpositiontarget position

Claims

Method for determining a driving trajectory for recurring driving situations, the method having the following steps: - Departing a route (FS) from a starting position (SP) to a target position (ZP) by a human driver using a vehicle (F) (S10); - Detection of environmental information by a sensor system of the vehicle (F) while driving along the route (FS) (S11); - Storing information on a traffic lane based on the environmental information (S12); - Determining a travel trajectory based on information on the passable lane by means of a computing unit of the vehicle (F), which implements a strategy of reinforcement learning (S13); - Saving the determined driving trajectory (S14).

procedure after claim 1 , characterized in that an agent and an evaluation system are implemented in the computing unit, that a travel trajectory calculated by the agent is assessed by the evaluation system based on trajectory properties and a new travel trajectory is calculated depending on the assessment result.

procedure after claim 1 or 2 , characterized in that several different trajectory properties are used to assess a trajectory and a new travel trajectory is calculated under one or more specifications, in such a way that one or more trajectory properties are improved.

procedure after claim 2 or 3 , characterized in that the agent iteratively calculates new travel trajectories in such a way that the assessment result is increased.

Procedure according to one of claims 2 until 4 , characterized in that the evaluation system includes a reward function that calculates a positive or negative reward for a calculated travel trajectory.

procedure after claim 5 , characterized in that a subsequent travel trajectory is selected by the agent on the basis of the amount of its reward.

Method according to one of the preceding claims, characterized in that the trajectory properties used to assess a driving trajectory include the time required to travel through the driving trajectory, the distance covered by the driving trajectory, information on steering angle changes, information on longitudinal acceleration and/or information on transverse acceleration.

Method according to one of the preceding claims, characterized in that the route (FS) from the starting position (SP) to the Target position (ZP) is traveled several times while environmental information is detected by a sensor system of the vehicle (F) and information about the passable lane is determined and stored.

procedure after claim 8 , characterized in that a plurality of items of information relating to the trafficable lane which are determined one after the other are combined, and this combined information relating to the trafficable lane is used to determine a driving trajectory.

Method according to one of the preceding claims, characterized in that when driving through the route from the starting point to the destination, the environment is continuously detected and the determination of a travel trajectory is performed again by reinforcement learning if it can be seen from the detected environmental information that the information has changed to the passable tramline by static objects.

Method according to one of the preceding claims, characterized in that based on the determined travel trajectory, the route (FS) from the starting position (SP) to the destination position (ZP) is driven through automatically and the determined travel trajectory is deviated from if an obstacle on the determined travel trajectory is detected.

Method according to one of the preceding claims, characterized in that the computing unit determines a number of different optimized driving trajectories using the reinforcement learning strategy and selects a driving trajectory from these optimized driving trajectories based on one or more target criteria.

System for determining a driving trajectory for recurring driving situations, comprising a computing unit provided in a vehicle (F), the method having the following steps: - Detection of environmental information by a sensor system of the vehicle (F) while driving along the route (FS) from a starting position (SP) to a target position (ZP) by a human driver; - Saving information on a traffic lane based on the environment information; - Determination of a travel trajectory based on information on the passable lane by means of the computing unit, which implements a strategy of reinforcement learning; - Saving the determined driving trajectory in a memory unit.