EP4359274A1 - Trajectory optimisation method - Google Patents
Trajectory optimisation methodInfo
- Publication number
- EP4359274A1 EP4359274A1 EP22758420.8A EP22758420A EP4359274A1 EP 4359274 A1 EP4359274 A1 EP 4359274A1 EP 22758420 A EP22758420 A EP 22758420A EP 4359274 A1 EP4359274 A1 EP 4359274A1
- Authority
- EP
- European Patent Office
- Prior art keywords
- trajectory
- driving
- information
- travel
- route
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 34
- 230000007613 environmental effect Effects 0.000 claims abstract description 20
- 230000002787 reinforcement Effects 0.000 claims abstract description 17
- 230000001133 acceleration Effects 0.000 claims description 8
- 238000011156 evaluation Methods 0.000 claims description 7
- 230000006870 function Effects 0.000 claims description 7
- 238000004364 calculation method Methods 0.000 claims description 6
- 238000001514 detection method Methods 0.000 claims description 3
- 230000003068 static effect Effects 0.000 claims description 3
- 238000005457 optimization Methods 0.000 description 8
- 238000012549 training Methods 0.000 description 5
- 230000008901 benefit Effects 0.000 description 4
- 230000008569 process Effects 0.000 description 4
- 238000012360 testing method Methods 0.000 description 4
- 230000008859 change Effects 0.000 description 3
- 238000010586 diagram Methods 0.000 description 2
- 230000001419 dependent effect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 230000004927 fusion Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000000414 obstructive effect Effects 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 230000003014 reinforcing effect Effects 0.000 description 1
Classifications
-
- B—PERFORMING OPERATIONS; TRANSPORTING
- B62—LAND VEHICLES FOR TRAVELLING OTHERWISE THAN ON RAILS
- B62D—MOTOR VEHICLES; TRAILERS
- B62D15/00—Steering not otherwise provided for
- B62D15/02—Steering position indicators ; Steering position determination; Steering aids
- B62D15/027—Parking aids, e.g. instruction means
- B62D15/0285—Parking performed automatically
-
- B—PERFORMING OPERATIONS; TRANSPORTING
- B60—VEHICLES IN GENERAL
- B60W—CONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
- B60W30/00—Purposes of road vehicle drive control systems not related to the control of a particular sub-unit, e.g. of systems using conjoint control of vehicle sub-units
- B60W30/06—Automatic manoeuvring for parking
-
- B—PERFORMING OPERATIONS; TRANSPORTING
- B60—VEHICLES IN GENERAL
- B60W—CONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
- B60W60/00—Drive control systems specially adapted for autonomous road vehicles
- B60W60/001—Planning or execution of driving tasks
-
- G—PHYSICS
- G05—CONTROLLING; REGULATING
- G05D—SYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
- G05D1/00—Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
- G05D1/02—Control of position or course in two dimensions
- G05D1/021—Control of position or course in two dimensions specially adapted to land vehicles
- G05D1/0212—Control of position or course in two dimensions specially adapted to land vehicles with means for defining a desired trajectory
- G05D1/0221—Control of position or course in two dimensions specially adapted to land vehicles with means for defining a desired trajectory involving a learning process
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
Definitions
- the invention relates to a method for trajectory optimization in recurring driving situations, in particular in recurring parking situations.
- a trajectory traveled manually by the human driver from a starting position to a parking space is stored as the target position, including the parking maneuver and the detected surroundings. Based on this stored information, the stored trajectory can be traversed at a later point in time.
- the disadvantage here is that the trajectory can only be followed as it was originally stored. Since the trajectory driven by the human driver is often not optimal in terms of length, time and/or the steering angle, and this manually driven trajectory forms the basis for the automated driving process, the automatically driven trajectory is often not optimal with regard to the aforementioned trajectory properties.
- the invention relates to a method for determining a driving trajectory for recurring driving situations.
- the procedure has the following steps:
- a route is traveled from a starting position to a target position by a human driver using a vehicle.
- This route refers to the recurring driving situation, i.e. it will be driven through more often in the future, for example when parking to a whimper, at work, etc.
- the sensor system can be formed by any vehicle sensor system, via which the environment of the route can be detected and the collision-free driving lane can be determined therefrom.
- the sensor system can include one or more ultrasonic sensors, at least one camera, at least one radar sensor and/or at least one LIDAR sensor.
- information about a traffic lane that can be driven on is generated and stored based on this environmental information. This defines the area or driving path within which the trajectory can be planned.
- a driving trajectory is determined by means of a computing unit of the vehicle based on the information on the driving lane that can be driven on.
- the computing unit implements a strategy of reinforcement learning, ie it is over several iterative test trajectories, a Assessment of the test trajectories and feedback to the learning system as to whether the trajectory properties of the currently calculated test trajectory have improved compared to a previous test trajectory, a driving trajectory is sought that has improved trajectory properties.
- the determined travel trajectory is stored in order to be able to drive the route automatically or partially automatically using a driver assistance system based on this travel trajectory in the future.
- the driver can be outside the vehicle, i.e. the vehicle drives itself to the parking position, for example.
- the technical advantage of the method according to the invention is that the reinforcement learning method does not require complex training data to generate an optimized driving trajectory, but rather the human driver only has to travel the route at least once from a starting position to a target position in order to find the passable lane determine. An optimized tramline is then found by means of reinforcement learning.
- This has the advantage that the driving trajectory to be determined by the optimization is not limited by the quality of the training data, but a driving trajectory that is better than the driving trajectory driven by the human driver can be determined by the reinforcement learning.
- an agent and an evaluation system are implemented in the computing unit.
- the agent is configured to determine a travel trajectory without training data, which is optimized with regard to predefined trajectory properties.
- a travel trajectory calculated by the agent is assessed by the rating system based on trajectory properties and depending on the A new travel trajectory is calculated based on the assessment result.
- new travel trajectories can be calculated, influenced by the assessment result, and travel trajectories with better trajectory properties can thereby be generated.
- a number of different trajectory properties are used to assess a trajectory.
- the different trajectory properties can preferably be weighted differently.
- a new trajectory can be calculated under one or more specifications, in such a way that one or more trajectory properties are improved. This can be done, for example, in such a way that one or more trajectory properties are improved and other trajectory properties are degraded. For example, a very long trajectory can be improved by reducing the trajectory length in order to reach the target position more quickly.
- the agent iteratively calculates new travel trajectories in such a way that the assessment result is increased.
- a number of different trajectory properties are preferably included in the assessment. As a result, the trajectory can be improved over several iteration steps.
- the evaluation system includes a reward function that calculates a positive or negative reward for a calculated travel trajectory.
- This reward is feedback information for the agent, which influences subsequent trajectory calculations.
- the agent can be influenced in such a way that successive trajectories with better Trajectory properties and thus a better assessment result are calculated.
- the agent iteratively calculates travel trajectories such that a subsequent travel trajectory receives a higher positive reward than a previous travel trajectory.
- the quality of the travel trajectories can thus be successively improved and a final travel trajectory which has sufficiently good trajectory properties can be determined by the reinforcing learning method.
- the trajectory properties used to assess a driving trajectory include the time required to travel through the driving trajectory, the distance covered by the driving trajectory, information about steering angle changes, information about longitudinal acceleration and/or information about lateral acceleration.
- the travel trajectories can be assessed objectively by means of these trajectory properties, based on the perception of a human driver.
- the route from the starting position to the target position is traversed several times. This can exclusively be a number of driving processes carried out by the human driver or driving processes that are also carried out at least partially in an automated manner. Information about the surroundings is recorded by a sensor system in the vehicle and information about the lane that can be driven on is determined and stored. More comprehensive environmental information can be obtained by driving along the route several times, so that an improved trajectory determination can take place.
- This fusion of environmental information or tramline information allows a modified, in particular larger, tramline to be obtained. Based on this modified tramline, there is more freedom for the calculation of travel trajectories.
- the environment when driving through the route from the starting point to the destination, the environment is continuously detected and a driving trajectory is determined by reinforcement learning if it can be seen from the detected environmental information that the information on the trafficable lane has changed due to static objects . It can thereby be ensured that the travel trajectory is continuously adapted to static changes in the driving lane that can be driven on, for example as a result of a structural change.
- the route from the starting position to the target position is driven through automatically based on the determined travel trajectory. There is a deviation from the determined travel trajectory when an obstacle is detected on the determined travel trajectory. This makes it possible to react situation-specifically to temporary changes in the passable lane and avoid collisions by avoiding collisions.
- the computing unit determines a number of different optimized driving trajectories using the reinforcement learning strategy, and a driving trajectory from these optimized driving trajectories is selected based on one or more target criteria. In this way it can be achieved that in cases in which several different optimized driving trajectories can be determined, that optimized travel trajectory is used that best meets the specified assessment criteria.
- the invention relates to a system for determining a driving trajectory for recurring driving situations, comprising a computing unit provided in a vehicle. The procedure has the following steps:
- FIG. 2 shows an example of a block diagram that explains the method steps for determining a driving trajectory for recurring driving situations.
- FIG. 1 shows an example and a rough schematic of a vehicle F at the start of a recurring driving situation that is described by a route FS from a starting position SP to a target position ZP.
- a route FS can be, for example, the route between a property access road and a parking position provided on the property, for example a garage parking space.
- a computing unit of the vehicle F In order to be able to drive through this route FS automatically, it is necessary for a computing unit of the vehicle F to calculate a travel trajectory, along which the vehicle F travels from the starting position SP to the target position ZP.
- the driving trajectory it is necessary that information about the environment in the area of the driving route FS is available in order to know the freely navigable area based on this, also referred to below as the driving path.
- the vehicle F has a sensor system, by means of which the environmental information can be recorded.
- the sensor system can include, for example, ultrasonic sensors, one or more cameras, one or more radar sensors and/or one or more LIDAR sensors.
- the route FS it is necessary for the route FS to be traveled at least once by the human driver, ie from the starting position SP to the target position ZP.
- the environmental information can be recorded by the sensors of the vehicle F and the driving path that can be driven on can thus be determined.
- a travel trajectory from the starting position SP to the target position ZP can be calculated. This is preferably done by a trajectory planner that is implemented in a computer unit of the vehicle.
- the computer unit is configured for machine learning, based on the principle of reinforcement learning.
- the computer unit has an agent that can determine a travel trajectory without training data, which is optimized with regard to predefined trajectory properties.
- the computer unit does not implement a supervised learning method based on a set of training data.
- an evaluation system which is designed to evaluate a calculated travel trajectory based on predefined trajectory properties. Depending on how well the calculated driving trajectory fulfills the specified trajectory properties, a positive or negative reward is provided by the evaluation system.
- the rating system generates a positive reward if the trajectory properties of a newly calculated travel trajectory are better than the trajectory properties of a previously calculated trajectory.
- the rating system generates a negative reward, for example, if the trajectory properties of a newly calculated driving trajectory are worse than the trajectory properties of a previously calculated trajectory.
- the previously calculated trajectory can in each case be the trajectory calculated directly beforehand, or a trajectory can be used that was calculated a long time ago.
- the agent Based on the positive or negative rewards, the agent independently learns how a driving trajectory has to be changed in order to receive positive rewards.
- the rewards can be used to derive a utility function that represents the value of a trajectory property in relation to receiving a positive reward. This makes it possible to achieve a targeted improvement in the trajectory properties.
- the process for determining a travel trajectory is preferably initially initiated when a driving path that can be driven on is available for a repeated driving situation. For example, the calculation can be initiated immediately after reaching the target position ZP. Travel trajectories are preferably calculated until a sufficiently good travel trajectory can be determined. One or more termination criteria can be defined here, based on which the iterative trajectory optimization is terminated.
- the trajectory properties on which the assessment of the travel trajectories is based can be, for example, the time to travel through the travel trajectory, the distance of the travel trajectory, information about the steering angle change, information about the longitudinal acceleration and/or information about the lateral acceleration.
- the route FS is preferably traversed several times between the starting position SP and the target position ZP in order to capture environmental information. As a result, different environmental information can be recorded in chronological succession. These can be combined or merged with each other in order to obtain improved information on the traffic lane that can be driven on. This improved information can then be used as a basis for calculating the driving trajectory.
- the advantage lies in the fact that with each additional trajectory driven, in particular manually driven trajectory, the driving path that can be driven on can be enlarged and thus there is also a higher potential for optimizing the driving trajectory through reinforcement learning.
- a detection of the surroundings also takes place when driving along the route FS automatically on the basis of a previously calculated driving trajectory. On the one hand, this is done with the aim that obstructive objects located on the travel trajectory are detected and the vehicle can avoid them or stop in front of them.
- the environment is also detected during automated driving because new stationary objects are recognized on a driving path that was previously detected as passable, and thus a new trajectory optimization through reinforcement learning, taking into account the changed driving path, becomes possible. In other words, the calculation of the travel trajectory can be carried out again when the driving lane that can be driven on changes, in order to determine an optimized travel trajectory based on the changed environmental situation.
- the trajectory optimization can preferably take place several times, for example based on other optimization criteria, in order to obtain several different optimized travel trajectories. Afterward these different optimized driving trajectories can be compared with each other.
- the different optimized driving trajectories can be compared with each other based on predetermined criteria such as time to drive through the driving trajectory, distance of the driving trajectory, information about the steering angle change, information about the longitudinal acceleration and/or information about the lateral acceleration in order to determine a final driving trajectory, which is then used for the autonomous driving function is used.
- the autonomous driving function can be “trained parking” in a recurring parking situation.
- FIG. 2 shows a diagram that explains the method steps for determining the travel trajectory.
- a route is traveled from a start position to a target position by a human driver using a vehicle (S10).
- a travel trajectory is then determined based on information on the traffic lane that can be driven on by means of a computing unit in the vehicle (S13).
- the computing unit implements a strategy of reinforcement learning, in which a calculated travel trajectory is assessed based on trajectory properties and iteratively optimized, specifically in such a way that an attempt is made to successively improve the trajectory properties of the travel trajectory through the iteration steps.
- the determined driving trajectory is stored (S14). As a result, the driving trajectory determined can be used for automated driving in the recurring driving situation.
Landscapes
- Engineering & Computer Science (AREA)
- Transportation (AREA)
- Mechanical Engineering (AREA)
- Automation & Control Theory (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Software Systems (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Aviation & Aerospace Engineering (AREA)
- Radar, Positioning & Navigation (AREA)
- Human Computer Interaction (AREA)
- Chemical & Material Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Medical Informatics (AREA)
- Remote Sensing (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Combustion & Propulsion (AREA)
- Traffic Control Systems (AREA)
- Control Of Driving Devices And Active Controlling Of Vehicle (AREA)
- Navigation (AREA)
Abstract
The invention relates to a method for determining a driving trajectory for recurring driving situations, the method comprising the following steps: - driving along a route (FS) from a start position (SP) to a target position (ZP) by a human driver by means of a vehicle (F) (S10); - sensing environmental information by means of a sensor system of the vehicle (F) while driving along the route (FS) (S11); - storing information relating to a driving lane which can be travelled on the basis of the environmental information (S12); - determining a driving trajectory on the basis of information relating to the driving lane which can be travelled by means of a computing unit of the vehicle (F), which implements a reinforcement learning strategy (S13); - storing the determined driving trajectory (S14).
Description
Beschreibung description
Verfahren zur Trajektorienoptimierung Procedure for trajectory optimization
Die Erfindung betrifft ein Verfahren zur Trajektorienoptimierung bei wiederkehrenden Fahrsituationen, insbesondere bei wiederkehrenden Parksituationen. The invention relates to a method for trajectory optimization in recurring driving situations, in particular in recurring parking situations.
Teilautomatisierte oder automatisierte Parkfunktionen von Fahrzeugen sind bereits bekannt. Dabei wird beispielsweise eine vom menschlichen Fahrer manuell abgefahrene Trajektorie von einer Startposition zu einem Parkplatz als Zielposition einschließlich des Einparkmanövers und die detektierte Umgebung gespeichert. Basierend auf diesen gespeicherten Informationen kann zu einem späteren Zeitpunkt die gespeicherte Trajektorie abgefahren werden. Partially automated or automated parking functions of vehicles are already known. For example, a trajectory traveled manually by the human driver from a starting position to a parking space is stored as the target position, including the parking maneuver and the detected surroundings. Based on this stored information, the stored trajectory can be traversed at a later point in time.
Nachteilig hierbei ist, dass sich die Trajektorie lediglich so abfahren lässt, wie sie ursprünglich abgespeichert wurde. Da die vom menschlichen Fahrer abgefahrene Trajektorie oft nicht optimal bezüglich der Länge, der Zeit und/oder dem Lenkwinkel ist und diese manuell abgefahrene Trajektorie die Grundlage für den automatisierten Fahrvorgang bildet, ist auch die automatisiert abgefahrene Trajektorie häufig nicht optimal hinsichtlich der vorgenannten Trajektorieneigenschaften. The disadvantage here is that the trajectory can only be followed as it was originally stored. Since the trajectory driven by the human driver is often not optimal in terms of length, time and/or the steering angle, and this manually driven trajectory forms the basis for the automated driving process, the automatically driven trajectory is often not optimal with regard to the aforementioned trajectory properties.
Ausgehend hiervon ist es Aufgabe der Erfindung, ein Verfahren zur Ermittlung einer Fahrtrajektorie für wiederkehrende Fahrsituationen anzugeben, das verbesserte Trajektorieneigenschaften für die automatisiert abgefahrene Fahrstrecke bietet. Proceeding from this, it is the object of the invention to specify a method for determining a driving trajectory for recurring driving situations, which offers improved trajectory properties for the driving route traveled automatically.
Die Aufgabe wird durch ein Verfahren mit den Merkmalen des unabhängigen Patentanspruchs 1 gelöst. Bevorzugte Ausführungsformen sind Gegenstand der Unteransprüche. Ein System zur Ermittlung einer
Fahrtrajektorie für wiederkehrende Fahrsituationen ist Gegenstand des nebengeordneten Patentanspruchs 15. The object is solved by a method having the features of independent patent claim 1 . Preferred embodiments are the subject matter of the dependent claims. A system for identifying a Driving trajectory for recurring driving situations is the subject of the independent patent claim 15.
Gemäß einem ersten Aspekt bezieht sich die Erfindung auf ein Verfahren zur Ermittlung einer Fahrtrajektorie für wiederkehrende Fahrsituationen. Das Verfahren weist die folgenden Schritte auf: According to a first aspect, the invention relates to a method for determining a driving trajectory for recurring driving situations. The procedure has the following steps:
Zunächst wird eine Fahrstrecke von einer Startposition zu einer Zielposition durch einen menschlichen Fahrer mittels eines Fahrzeugs abgefahren. Diese Fahrstrecke bezieht sich auf die wiederkehrende Fahrsituation, d.h. wird zukünftig öfter durchfahren, beispielsweise als Parkvorgang zu Flause, am Arbeitsplatz etc. First, a route is traveled from a starting position to a target position by a human driver using a vehicle. This route refers to the recurring driving situation, i.e. it will be driven through more often in the future, for example when parking to a whimper, at work, etc.
Während des Abfahrens der Fahrstrecke werden Umgebungsinformationen durch eine Sensorik des Fahrzeugs erfasst. Die Sensorik kann durch jegliche Fahrzeugsensorik gebildet werden, über die die Umgebung der Fahrstrecke erfassbar ist und daraus die kollisionsfrei befahrbare Fahrgasse ermittelt werden kann. Beispielsweise kann die Sensorik einen oder mehrere Ultraschallsensoren, zumindest eine Kamera, zumindest einen Radarsensor und/oder zumindest einen LIDAR- Sensor umfassen. While the route is being driven, information about the surroundings is recorded by a sensor system in the vehicle. The sensor system can be formed by any vehicle sensor system, via which the environment of the route can be detected and the collision-free driving lane can be determined therefrom. For example, the sensor system can include one or more ultrasonic sensors, at least one camera, at least one radar sensor and/or at least one LIDAR sensor.
Nach dem Erfassen der Umgebungsinformationen werden Informationen zu einer befahrbaren Fahrgasse basierend auf diesen Umgebungsinformationen erzeugt und abgespeichert. Damit wird der Bereich bzw. Fahrschlauch festgelegt, innerhalb dem die Trajektorienplanung erfolgen kann. After the environmental information has been recorded, information about a traffic lane that can be driven on is generated and stored based on this environmental information. This defines the area or driving path within which the trajectory can be planned.
Basierend auf den Informationen zur befahrbaren Fahrgasse wird eine Fahrtrajektorie mittels einer Recheneinheit des Fahrzeugs ermittelt. Die Recheneinheit implementiert dabei eine Strategie des bestärkenden Lernens, d.h. es wird über mehrere iterative Versuchstrajektorien, eine
Beurteilung der Versuchstrajektorien und eine Rückmeldung an das lernende System, ob sich die Trajektorieneigenschaften der aktuell berechneten Versuchstrajektorie gegenüber einer früheren Versuchstrajektorie verbessert haben, eine Fahrtrajektorie gesucht, die verbesserte Trajektorieneigenschaften aufweist. A driving trajectory is determined by means of a computing unit of the vehicle based on the information on the driving lane that can be driven on. The computing unit implements a strategy of reinforcement learning, ie it is over several iterative test trajectories, a Assessment of the test trajectories and feedback to the learning system as to whether the trajectory properties of the currently calculated test trajectory have improved compared to a previous test trajectory, a driving trajectory is sought that has improved trajectory properties.
Zuletzt erfolgt ein Abspeichern der ermittelten Fahrtrajektorie, um basierend auf dieser Fahrtrajektorie zukünftig die Fahrstrecke automatisiert oder teilautomatisiert mittels eines Fahrassistenzsystems abfahren zu können. Dabei kann sich der Fahrer außerhalb des Fahrzeugs befinden, d.h. das Fahrzeug fährt beispielsweise selbstständig zur Parkposition. Finally, the determined travel trajectory is stored in order to be able to drive the route automatically or partially automatically using a driver assistance system based on this travel trajectory in the future. The driver can be outside the vehicle, i.e. the vehicle drives itself to the parking position, for example.
Der technische Vorteil des erfindungsgemäßen Verfahrens besteht darin, dass durch das bestärkende Lernverfahren keine komplexen Trainingsdaten zum Erzeugen einer optimierten Fahrtrajektorie nötig sind, sondern lediglich zumindest einmal die Fahrstrecke von einer Startposition zu einer Zielposition durch den menschlichen Fahrer abgefahren werden muss, um die befahrbare Fahrgasse zu bestimmen. Das Auffinden einer optimierten Fahrgasse erfolgt dann über bestärkendes Lernen. Dies hat den Vorteil, dass die durch die Optimierung zu bestimmende Fahrtrajektorie nicht durch die Güte der Trainingsdaten limitiert ist, sondern durch das bestärkende Lernen eine Fahrtrajektorie ermittelt werden kann, die besser ist als die vom menschlichen Fahrer gefahrene Fahrtrajektorie. The technical advantage of the method according to the invention is that the reinforcement learning method does not require complex training data to generate an optimized driving trajectory, but rather the human driver only has to travel the route at least once from a starting position to a target position in order to find the passable lane determine. An optimized tramline is then found by means of reinforcement learning. This has the advantage that the driving trajectory to be determined by the optimization is not limited by the quality of the training data, but a driving trajectory that is better than the driving trajectory driven by the human driver can be determined by the reinforcement learning.
Gemäß einem Ausführungsbeispiel sind in der Recheneinheit ein Agent und ein Bewertungssystem implementiert. Der Agent ist dazu konfiguriert, ohne Trainingsdaten eine Fahrtrajektorie zu bestimmen, die im Hinblick auf vorgegebene Trajektorieneigenschaften optimiert ist. Eine vom Agenten berechnete Fahrtrajektorie wird durch das Bewertungssystem basierend auf Trajektorieneigenschaften beurteilt und abhängig vom
Beurteilungsergebnis wird eine neue Fahrtrajektorie berechnet. Dadurch können beeinflusst durch das Beurteilungsergebnis neue Fahrtrajektorien berechnet und dadurch Fahrtrajektorien mit besseren Trajektorieneigenschaften erzeugt werden. According to one embodiment, an agent and an evaluation system are implemented in the computing unit. The agent is configured to determine a travel trajectory without training data, which is optimized with regard to predefined trajectory properties. A travel trajectory calculated by the agent is assessed by the rating system based on trajectory properties and depending on the A new travel trajectory is calculated based on the assessment result. As a result, new travel trajectories can be calculated, influenced by the assessment result, and travel trajectories with better trajectory properties can thereby be generated.
Gemäß einem Ausführungsbeispiel werden mehrere unterschiedliche Trajektorieneigenschaften zur Beurteilung einer Trajektorie herangezogen. Vorzugsweise können die unterschiedlichen Trajektorieneigenschaften verschieden gewichtet werden. Die Berechnung einer neuen Trajektorie kann unter einer oder mehreren Vorgaben erfolgen, und zwar derart, dass eine oder mehrere Trajektorieneigenschaften verbessert werden. Dies kann beispielsweise derart erfolgen, dass eine oder mehrere Trajektorieneigenschaften verbessert und andere Trajektorieneigenschaften verschlechtert werden. So kann beispielsweise eine sehr lange Trajektorie dadurch verbessert werden, dass die Trajektorienlänge verkleinert wird, um schneller zur Zielposition zu gelangen. According to one exemplary embodiment, a number of different trajectory properties are used to assess a trajectory. The different trajectory properties can preferably be weighted differently. A new trajectory can be calculated under one or more specifications, in such a way that one or more trajectory properties are improved. This can be done, for example, in such a way that one or more trajectory properties are improved and other trajectory properties are degraded. For example, a very long trajectory can be improved by reducing the trajectory length in order to reach the target position more quickly.
Gemäß einem Ausführungsbeispiel berechnet der Agent iterativ neue Fahrtrajektorien derart, dass das Beurteilungsergebnis gesteigert wird. Dabei fließen vorzugsweise mehrere unterschiedliche Trajektorieneigenschaften, beispielsweise mit unterschiedlicher Gewichtung, in die Beurteilung ein. Dadurch kann über mehrere Iterationsschritte hinweg die Trajektorie verbessert werden. According to one exemplary embodiment, the agent iteratively calculates new travel trajectories in such a way that the assessment result is increased. A number of different trajectory properties, for example with different weightings, are preferably included in the assessment. As a result, the trajectory can be improved over several iteration steps.
Gemäß einem Ausführungsbeispiel umfasst das Bewertungssystem eine Belohnungsfunktion, die zu einer berechneten Fahrtrajektorie eine positive oder negative Belohnung berechnet. Diese Belohnung ist eine Feedbackinformation für den Agenten, der die nachfolgenden Trajektorienberechnungen beeinflusst. Dadurch kann der Agent derart beeinflusst werden, dass sukzessive Trajektorien mit besseren
Trajektorieneigenschaften und damit einem besseren Beurteilungsergebnis berechnet werden. According to one exemplary embodiment, the evaluation system includes a reward function that calculates a positive or negative reward for a calculated travel trajectory. This reward is feedback information for the agent, which influences subsequent trajectory calculations. As a result, the agent can be influenced in such a way that successive trajectories with better Trajectory properties and thus a better assessment result are calculated.
Gemäß einem Ausführungsbeispiel berechnet der Agent iterativ Fahrtrajektorien derart, dass eine nachfolgende Fahrtrajektorie eine höhere positive Belohnung erhält als eine vorherige Fahrtrajektorie. Damit kann sukzessive die Qualität der Fahrtrajektorien verbessert und durch das bestärkende Lernverfahren eine finale Fahrtrajektorie ermittelt werden, die hinreichend gute Trajektorieneigenschaften aufweist. According to one embodiment, the agent iteratively calculates travel trajectories such that a subsequent travel trajectory receives a higher positive reward than a previous travel trajectory. The quality of the travel trajectories can thus be successively improved and a final travel trajectory which has sufficiently good trajectory properties can be determined by the reinforcing learning method.
Gemäß einem Ausführungsbeispiel umfassen die zur Beurteilung einer Fahrtrajektorie verwendeten Trajektorieneigenschaften die Zeit zum Durchfahren der Fahrtrajektorie, die Wegstrecke der Fahrtrajektorie, Informationen zu Lenkwinkeländerungen, Informationen zur Längsbeschleunigung und/oder Informationen zur Querbeschleunigung. Mittels dieser Trajektorieneigenschaften können die Fahrtrajektorien objektiv beurteilt werden, und zwar angelehnt an die Wahrnehmung eines menschlichen Fahrers. According to one exemplary embodiment, the trajectory properties used to assess a driving trajectory include the time required to travel through the driving trajectory, the distance covered by the driving trajectory, information about steering angle changes, information about longitudinal acceleration and/or information about lateral acceleration. The travel trajectories can be assessed objectively by means of these trajectory properties, based on the perception of a human driver.
Gemäß einem Ausführungsbeispiel wird die Fahrstrecke von der Startposition zu der Zielposition mehrfach abgefahren. Dies können ausschließlich mehrere vom menschlichen Fahrer durchgeführte Fahrvorgänge sein oder aber zumindest teilweise auch automatisiert durchgeführte Fahrvorgänge. Dabei werden Umgebungsinformationen durch eine Sensorik des Fahrzeugs erfasst und Informationen zur befahrbaren Fahrgasse ermittelt und gespeichert. Durch ein mehrfaches Abfahren der Fahrstrecke können umfassendere Umgebungsinformationen erhalten werden, so dass eine verbesserte Trajektorienbestimmung erfolgen kann. According to one exemplary embodiment, the route from the starting position to the target position is traversed several times. This can exclusively be a number of driving processes carried out by the human driver or driving processes that are also carried out at least partially in an automated manner. Information about the surroundings is recorded by a sensor system in the vehicle and information about the lane that can be driven on is determined and stored. More comprehensive environmental information can be obtained by driving along the route several times, so that an improved trajectory determination can take place.
Gemäß einem Ausführungsbeispiel werden mehrere zeitlich nacheinander ermittelte Umgebungsinformationen und/oder Informationen zur
befahrbaren Fahrgasse kombiniert, und diese kombinierten Informationen zur befahrbaren Fahrgasse werden zum Ermitteln einer Fahrtrajektorie herangezogen. Durch diese Fusion von Umgebungsinformationen bzw. Fahrgasseninformationen kann eine modifizierte, insbesondere größere Fahrgasse erhalten werden. Auf Basis dieser modifizierten Fahrgasse wird ein größerer Freiraum für die Berechnung von Fahrtrajektorien erhalten. According to one exemplary embodiment, a plurality of environmental information items and/or information items determined one after the other in terms of time navigable tramline combined, and this combined information on the navigable tramline is used to determine a travel trajectory. This fusion of environmental information or tramline information allows a modified, in particular larger, tramline to be obtained. Based on this modified tramline, there is more freedom for the calculation of travel trajectories.
Gemäß einem Ausführungsbeispiel wird beim Durchfahren der Fahrstrecke von dem Startpunkt zu dem Zielpunkt fortlaufend eine Umgebungserfassung vollzogen und das Ermitteln einer Fahrtrajektorie durch bestärkendes Lernen wird neu vollzogen, wenn anhand der erfassten Umgebungsinformationen erkennbar ist, dass sich die Informationen zur befahrbaren Fahrgasse durch statische Objekte verändert hat. Dadurch kann sichergestellt werden, dass die Fahrtrajektorie an statische Veränderungen der befahrbaren Fahrgasse, beispielsweise durch eine bauliche Veränderung, fortlaufend angepasst wird. According to one embodiment, when driving through the route from the starting point to the destination, the environment is continuously detected and a driving trajectory is determined by reinforcement learning if it can be seen from the detected environmental information that the information on the trafficable lane has changed due to static objects . It can thereby be ensured that the travel trajectory is continuously adapted to static changes in the driving lane that can be driven on, for example as a result of a structural change.
Gemäß einem Ausführungsbeispiel wird die Fahrstrecke von der Startposition zur Zielposition basierend auf der ermittelten Fahrtrajektorie automatisiert durchfahren. Von der ermittelten Fahrtrajektorie wird dann abgewichen, wenn ein Hindernis auf der ermittelten Fahrtrajektorie detektiert wird. Dadurch ist es möglich, situationsbezogen auf temporäre Veränderungen der befahrbaren Fahrgasse zu reagieren und durch Ausweichen Kollisionen zu vermeiden. According to one exemplary embodiment, the route from the starting position to the target position is driven through automatically based on the determined travel trajectory. There is a deviation from the determined travel trajectory when an obstacle is detected on the determined travel trajectory. This makes it possible to react situation-specifically to temporary changes in the passable lane and avoid collisions by avoiding collisions.
Gemäß einem Ausführungsbeispiel ermittelt die Recheneinheit mehrere unterschiedliche optimierte Fahrtrajektorien mittels der Strategie des bestärkenden Lernens und eine Fahrtrajektorie dieser optimierten Fahrtrajektorien wird basierend auf einem oder mehreren Zielkriterien auswählt. Dadurch kann erreicht werden, dass in Fällen, in denen mehrere unterschiedliche optimierte Fahrtrajektorien ermittelt werden können,
diejenige optimierte Fahrtrajektorie verwendet wird, die vorgegebene Beurteilungskriterien am besten erfüllt. Gemäß einem weiteren Aspekt betrifft die Erfindung ein System zur Ermittlung einer Fahrtrajektorie für wiederkehrende Fahrsituationen umfassend eine in einem Fahrzeug vorgesehene Recheneinheit. Das Verfahren weist die folgenden Schritte auf: According to one exemplary embodiment, the computing unit determines a number of different optimized driving trajectories using the reinforcement learning strategy, and a driving trajectory from these optimized driving trajectories is selected based on one or more target criteria. In this way it can be achieved that in cases in which several different optimized driving trajectories can be determined, that optimized travel trajectory is used that best meets the specified assessment criteria. According to a further aspect, the invention relates to a system for determining a driving trajectory for recurring driving situations, comprising a computing unit provided in a vehicle. The procedure has the following steps:
- Erfassen von Umgebungsinformationen durch eine Sensorik des Fahrzeugs während des Abfahrens der Fahrstrecke von einer- Acquisition of environmental information by a sensor system of the vehicle while driving along the route from a
Startposition zu einer Zielposition durch einen menschlichen Fahrer;starting position to a target position by a human driver;
- Abspeichern von Informationen zu einer befahrbaren Fahrgasse basierend auf den Umgebungsinformationen; - Saving information on a traffic lane based on the environment information;
- Ermitteln einer Fahrtrajektorie basierend auf Informationen zur befahrbaren Fahrgasse mittels der Recheneinheit, die eine Strategie des bestärkenden Lernens implementiert; - Determination of a travel trajectory based on information on the passable lane by means of the computing unit, which implements a strategy of reinforcement learning;
- Abspeichern der ermittelten Fahrtrajektorie in einer Speichereinheit. - Saving the determined driving trajectory in a memory unit.
Die Ausdrücke „näherungsweise“, „im Wesentlichen“ oder „etwa“ bedeuten im Sinne der Erfindung Abweichungen vom jeweils exakten Wert um +/- 10%, bevorzugt um +/- 5% und/oder Abweichungen in Form von für die Funktion unbedeutenden Änderungen. The terms “approximately”, “substantially” or “roughly” mean deviations from the exact value by +/-10%, preferably by +/-5% and/or deviations in the form of changes that are insignificant for the function .
Weiterbildungen, Vorteile und Anwendungsmöglichkeiten der Erfindung ergeben sich auch aus der nachfolgenden Beschreibung von Ausführungsbeispielen und aus den Figuren. Dabei sind alle beschriebenen und/oder bildlich dargestellten Merkmale für sich oder in beliebiger Kombination grundsätzlich Gegenstand der Erfindung, unabhängig von ihrer Zusammenfassung in den Ansprüchen oder deren Rückbeziehung. Auch wird der Inhalt der Ansprüche zu einem Bestandteil der Beschreibung gemacht.
Die Erfindung wird im Folgenden anhand der Figuren an Ausführungsbeispielen näher erläutert. Es zeigen: Further developments, advantages and possible applications of the invention also result from the following description of exemplary embodiments and from the figures. All of the features described and/or illustrated are fundamentally the subject matter of the invention, either alone or in any combination, regardless of how they are summarized in the claims or how they relate back to them. The content of the claims is also made part of the description. The invention is explained in more detail below with reference to the figures of exemplary embodiments. Show it:
Fig. 1 beispielhaft eine Draufsichtdarstellung einer Fahrstrecke einer wiederkehrenden Fahrsituation; und 1 is an example of a plan view of a route of a recurring driving situation; and
Fig. 2 beispielhaft ein Blockdiagramm, das die Verfahrensschritte zur Ermittlung einer Fahrtrajektorie für wiederkehrende Fahrsituationen verdeutlicht. 2 shows an example of a block diagram that explains the method steps for determining a driving trajectory for recurring driving situations.
Figur 1 zeigt beispielhaft und grob schematisch ein Fahrzeug F zu Beginn einer wiederkehrenden Fahrsituation, die durch eine Fahrstrecke FS von einer Startposition SP zu einer Zielposition ZP beschrieben ist. Eine solche Fahrstrecke FS kann beispielsweise die Strecke zwischen einer Grundstückszufahrt und einer am Grundstück vorgesehenen Parkposition, beispielsweise einem Garagenstellplatz, sein. FIG. 1 shows an example and a rough schematic of a vehicle F at the start of a recurring driving situation that is described by a route FS from a starting position SP to a target position ZP. Such a route FS can be, for example, the route between a property access road and a parking position provided on the property, for example a garage parking space.
Um diese Fahrstrecke FS automatisiert durchfahren zu können, ist es nötig, eine Fahrtrajektorie durch eine Recheneinheit des Fahrzeugs F zu berechnen, entlang derer das Fahrzeug F von der Startposition SP zur Zielposition ZP fährt. In order to be able to drive through this route FS automatically, it is necessary for a computing unit of the vehicle F to calculate a travel trajectory, along which the vehicle F travels from the starting position SP to the target position ZP.
Für die Berechnung der Fahrtrajektorie ist es nötig, dass Informationen über die Umgebung im Bereich der Fahrstrecke FS vorhanden sind, um basierend darauf den frei befahrbaren Bereich, nachfolgend auch als Fahrschlauch bezeichnet, zu kennen. For the calculation of the driving trajectory, it is necessary that information about the environment in the area of the driving route FS is available in order to know the freely navigable area based on this, also referred to below as the driving path.
Zur Bestimmung des Fahrschlauchs weist das Fahrzeug F eine Sensorik auf, mittels der die Umgebungsinformationen erfassbar sind. Die Sensorik kann beispielsweise Ultraschallsensoren, eine oder mehrere Kameras, einen oder mehrere Radarsensoren und/oder einen oder mehrere LIDAR- Sensoren umfassen.
Um die Umgebungsinformationen entlang der Fahrstrecke FS initial bestimmen zu können, ist es nötig, dass die Fahrstrecke FS zunächst zumindest einmal durch den menschlichen Fahrer abgefahren wird, d.h. von der Startposition SP zur Zielposition ZP. Bei diesem Durchfahren können die Umgebungsinformationen durch die Sensorik des Fahrzeugs F erfasst und damit der befahrbare Fahrschlauch ermittelt werden. In order to determine the driving path, the vehicle F has a sensor system, by means of which the environmental information can be recorded. The sensor system can include, for example, ultrasonic sensors, one or more cameras, one or more radar sensors and/or one or more LIDAR sensors. In order to be able to initially determine the environmental information along the route FS, it is necessary for the route FS to be traveled at least once by the human driver, ie from the starting position SP to the target position ZP. During this driving through, the environmental information can be recorded by the sensors of the vehicle F and the driving path that can be driven on can thus be determined.
Nachdem der befahrbare Fahrschlauch bestimmt ist, kann eine Berechnung einer Fahrtrajektorie von der Startposition SP zur Zielposition ZP erfolgen. Dies erfolgt vorzugsweise durch einen Trajektorienplaner, der in einer Rechnereinheit des Fahrzeugs implementiert ist. After the travel path that can be driven on has been determined, a travel trajectory from the starting position SP to the target position ZP can be calculated. This is preferably done by a trajectory planner that is implemented in a computer unit of the vehicle.
Die Rechnereinheit ist zum maschinellen Lernen konfiguriert, und zwar nach dem Prinzip des bestärkenden Lernens (engl. Reinforcement learning). Hierbei weist die Rechnereinheit einen Agenten auf, der ohne Trainingsdaten eine Fahrtrajektorie bestimmen kann, die im Hinblick auf vorgegebene Trajektorieneigenschaften optimiert ist. In anderen Worten implementiert die Rechnereinheit kein überwachtes Lernverfahren, das auf einem Satz von Trainingsdaten basiert. The computer unit is configured for machine learning, based on the principle of reinforcement learning. In this case, the computer unit has an agent that can determine a travel trajectory without training data, which is optimized with regard to predefined trajectory properties. In other words, the computer unit does not implement a supervised learning method based on a set of training data.
Zudem ist ein Bewertungssystem vorgesehen, das zur Beurteilung einer berechneten Fahrtrajektorie basierend auf vorgegebenen Trajektorieneigenschaften ausgebildet ist. Je nachdem, wie gut die berechnete Fahrtrajektorie die vorgegebenen Trajektorieneigenschaften erfüllt, wird durch das Bewertungssystem eine positive oder negative Belohnung bereitgestellt. Insbesondere generiert das Bewertungssystem eine positive Belohnung, wenn die Trajektorieneigenschaften einer neu berechneten Fahrtrajektorie besser sind als die Trajektorieneigenschaften einer vorher berechneten Trajektorie. Im umgekehrten Fall generiert das Bewertungssystem beispielsweise eine negative Belohnung, wenn die Trajektorieneigenschaften einer neu berechneten Fahrtrajektorie
schlechter sind als die Trajektorieneigenschaften einer vorher berechneten Trajektorie. Die vorher berechnete Trajektorie kann dabei jeweils die direkt vorher berechnete Trajektorie sein, oder es kann auf eine Trajektorie zurückgegriffen werden, die bereits länger zurückliegend berechnet wurde. In addition, an evaluation system is provided, which is designed to evaluate a calculated travel trajectory based on predefined trajectory properties. Depending on how well the calculated driving trajectory fulfills the specified trajectory properties, a positive or negative reward is provided by the evaluation system. In particular, the rating system generates a positive reward if the trajectory properties of a newly calculated travel trajectory are better than the trajectory properties of a previously calculated trajectory. In the opposite case, the rating system generates a negative reward, for example, if the trajectory properties of a newly calculated driving trajectory are worse than the trajectory properties of a previously calculated trajectory. The previously calculated trajectory can in each case be the trajectory calculated directly beforehand, or a trajectory can be used that was calculated a long time ago.
Basierend auf den positiven bzw. negativen Belohnungen lernt der Agent selbstständig, wie eine Fahrtrajektorie verändert werden muss, um positive Belohnungen zu erhalten. Anhand der Belohnungen kann eine Nutzenfunktion ermittelt werden, die angibt, welchen Wert eine Trajektorieneigenschaft in Bezug auf den Erhalt einer positiven Belohnung hat. Dadurch ist es möglich, eine gezielte Verbesserung der Trajektorieneigenschaften zu erreichen. Based on the positive or negative rewards, the agent independently learns how a driving trajectory has to be changed in order to receive positive rewards. The rewards can be used to derive a utility function that represents the value of a trajectory property in relation to receiving a positive reward. This makes it possible to achieve a targeted improvement in the trajectory properties.
Vorzugsweise wird der Prozess zur Ermittlung einer Fahrtrajektorie zunächst dann eingeleitet, wenn zu einer sich wiederholenden Fahrsituation ein befahrbarer Fahrschlauch zur Verfügung steht. Beispielsweise kann die Berechnung direkt nach dem Erreichen der Zielposition ZP eingeleitet werden. Vorzugsweise wird die Berechnung von Fahrtrajektorien so lange vollzogen, bis eine hinreichend gute Fahrtrajektorie ermittelt werden konnte. Es können hierbei ein oder mehrere Abbruchkriterien definiert sein, basierend auf denen die iterative Trajektorienoptimierung beendet wird. The process for determining a travel trajectory is preferably initially initiated when a driving path that can be driven on is available for a repeated driving situation. For example, the calculation can be initiated immediately after reaching the target position ZP. Travel trajectories are preferably calculated until a sufficiently good travel trajectory can be determined. One or more termination criteria can be defined here, based on which the iterative trajectory optimization is terminated.
Die Trajektorieneigenschaften, basierend auf denen die Beurteilung der Fahrtrajektorien erfolgt, können beispielsweise die Zeit zum Durchfahren der Fahrtrajektorie, die Wegstrecke der Fahrtrajektorie, Informationen zur Lenkwinkeländerung, Informationen zur Längsbeschleunigung und/oder Informationen zur Querbeschleunigung sein. The trajectory properties on which the assessment of the travel trajectories is based can be, for example, the time to travel through the travel trajectory, the distance of the travel trajectory, information about the steering angle change, information about the longitudinal acceleration and/or information about the lateral acceleration.
Vorzugsweise wird die Fahrstrecke FS zwischen der Startposition SP und der Zielposition ZP mehrmals durchfahren, um dabei
Umgebungsinformationen zu erfassen. Dadurch lassen sich zeitlich hintereinander unterschiedliche Umgebungsinformationen erfassen. Diese können miteinander kombiniert bzw. fusioniert werden, um basierend darauf verbesserte Informationen zur befahrbaren Fahrgasse zu erhalten. Diese verbesserten Informationen können anschließend als Basis für die Berechnung der Fahrtrajektorie verwendet werden. Der Vorteil liegt darin, dass mit jeder zusätzlich gefahrenen Trajektorie, insbesondere manuell gefahrenen Trajektorie, der befahrbare Fahrschlauch vergrößert werden kann und damit auch ein höheres Potential für eine Optimierung der Fahrtrajektorie durch das bestärkende Lernen besteht. The route FS is preferably traversed several times between the starting position SP and the target position ZP in order to capture environmental information. As a result, different environmental information can be recorded in chronological succession. These can be combined or merged with each other in order to obtain improved information on the traffic lane that can be driven on. This improved information can then be used as a basis for calculating the driving trajectory. The advantage lies in the fact that with each additional trajectory driven, in particular manually driven trajectory, the driving path that can be driven on can be enlarged and thus there is also a higher potential for optimizing the driving trajectory through reinforcement learning.
Es erfolgt auch bei dem automatisierten Befahren der Fahrstrecke FS auf der Grundlage einer vorher berechneten Fahrtrajektorie eine Umgebungserfassung. Diese erfolgt zum einen mit dem Ziel, dass auf der Fahrtrajektorie befindliche hinderliche Objekte erfasst werden und das Fahrzeug diesen ausweichen bzw. davor anhalten kann. Zum anderen erfolgt die Umgebungserfassung beim automatisierten Befahren auch aus dem Grund, dass neue stationäre Objekte auf einem vorher als befahrbar detektierten Fahrschlauch erkannt werden und damit eine neue Trajektorienoptimierung durch bestärkendes Lernen unter Berücksichtigung des veränderten Fahrschlauchs möglich wird. Mit anderen Worten wird kann damit bei einer Veränderung der befahrbaren Fahrgasse die Berechnung der Fahrtrajektorie erneut durchgeführt werden, um basierend auf der veränderten Umgebungssituation eine optimierte Fahrtrajektorie zu ermitteln. A detection of the surroundings also takes place when driving along the route FS automatically on the basis of a previously calculated driving trajectory. On the one hand, this is done with the aim that obstructive objects located on the travel trajectory are detected and the vehicle can avoid them or stop in front of them. On the other hand, the environment is also detected during automated driving because new stationary objects are recognized on a driving path that was previously detected as passable, and thus a new trajectory optimization through reinforcement learning, taking into account the changed driving path, becomes possible. In other words, the calculation of the travel trajectory can be carried out again when the driving lane that can be driven on changes, in order to determine an optimized travel trajectory based on the changed environmental situation.
Es kann Vorkommen, dass die Optimierung der Fahrtrajektorie durch bestärkendes Lernen nicht zu einem globalen Optimum der Fahrtrajektorie führt, sondern lediglich zu einem lokalen Optimum. Daher kann vorzugsweise die Trajektorienoptimierung mehrfach erfolgen, beispielsweise basierend auf anderen Optimierungskriterien, um mehrere unterschiedliche optimierte Fahrtrajektorien zu erhalten. Anschließend
können diese unterschiedlichen optimierten Fahrtrajektorien miteinander verglichen werden. Insbesondere können die unterschiedlichen optimierten Fahrtrajektorien basierend auf vorgegebenen Kriterien wie beispielsweise Zeit zum Durchfahren der Fahrtrajektorie, Wegstrecke der Fahrtrajektorie, Informationen zur Lenkwinkeländerung, Informationen zur Längsbeschleunigung und/oder Informationen zur Querbeschleunigung miteinander verglichen werden, um eine finale Fahrtrajektorie zu bestimmen, die anschließend für die autonome Fahrfunktion verwendet wird. Die autonome Fahrfunktion kann insbesondere „trainiertes Parken“ bei einer wiederkehrenden Parksituation sein. It can happen that the optimization of the travel trajectory by reinforcement learning does not lead to a global optimum of the travel trajectory, but only to a local optimum. Therefore, the trajectory optimization can preferably take place several times, for example based on other optimization criteria, in order to obtain several different optimized travel trajectories. Afterward these different optimized driving trajectories can be compared with each other. In particular, the different optimized driving trajectories can be compared with each other based on predetermined criteria such as time to drive through the driving trajectory, distance of the driving trajectory, information about the steering angle change, information about the longitudinal acceleration and/or information about the lateral acceleration in order to determine a final driving trajectory, which is then used for the autonomous driving function is used. In particular, the autonomous driving function can be “trained parking” in a recurring parking situation.
Fig. 2 zeigt ein Diagramm, das die Verfahrensschritte zur Ermittlung der Fahrtrajektorie verdeutlicht. FIG. 2 shows a diagram that explains the method steps for determining the travel trajectory.
Zunächst wird eine Fahrstrecke von einer Startposition zu einer Zielposition durch einen menschlichen Fahrer mittels eines Fahrzeugs abgefahren (S10). First, a route is traveled from a start position to a target position by a human driver using a vehicle (S10).
Während des Abfahrens der Fahrstrecke werden Umgebungsinformationen durch eine Sensorik des Fahrzeugs erfasst (S11). While the route is being driven, information about the surroundings is recorded by a sensor system in the vehicle (S11).
Anschließend werden Informationen zu einer befahrbaren Fahrgasse basierend auf den Umgebungsinformationen des Fahrzeugs abgespeichert (S12). Subsequently, information on a driving lane that can be driven on is stored based on the information surrounding the vehicle (S12).
Daraufhin wird eine Fahrtrajektorie basierend auf Informationen zur befahrbaren Fahrgasse mittels einer Recheneinheit des Fahrzeugs ermittelt (S13). Die Recheneinheit implementiert dabei eine Strategie des bestärkenden Lernens, bei dem eine berechnete Fahrtrajektorie basierend auf Trajektorieneigenschaften beurteilt und iterativ optimiert wird, und zwar
derart, dass versucht wird, durch die Iterationsschritte Trajektorieneigenschaften der Fahrtrajektorie sukzessive zu verbessern. A travel trajectory is then determined based on information on the traffic lane that can be driven on by means of a computing unit in the vehicle (S13). The computing unit implements a strategy of reinforcement learning, in which a calculated travel trajectory is assessed based on trajectory properties and iteratively optimized, specifically in such a way that an attempt is made to successively improve the trajectory properties of the travel trajectory through the iteration steps.
Zuletzt erfolgt ein Abspeichern der ermittelten Fahrtrajektorie (S14). Dadurch kann die ermittelte Fahrtrajektorie zum automatisierten Befahren der wiederkehrenden Fahrsituation verwendet werden. Finally, the determined driving trajectory is stored (S14). As a result, the driving trajectory determined can be used for automated driving in the recurring driving situation.
Die Erfindung wurde voranstehend an Ausführungsbeispielen beschrieben. Es versteht sich, dass zahlreiche Änderungen sowie Abwandlungen möglich sind, ohne dass dadurch der durch die Patentansprüche definierte Schutzbereich verlassen wird.
The invention has been described above using exemplary embodiments. It goes without saying that numerous changes and modifications are possible without leaving the scope of protection defined by the patent claims.
Bezugszeichenliste F FahrzeugList of reference symbols F vehicle
FS FahrstreckeFS route
SP StartpositionSP starting position
ZP Zielposition
ZP target position
Claims
Patentansprüche patent claims
1 ) Verfahren zur Ermittlung einer Fahrtrajektorie für wiederkehrende Fahrsituationen, wobei das Verfahren die folgenden Schritte aufweist: 1) Method for determining a driving trajectory for recurring driving situations, the method having the following steps:
- Abfahren einer Fahrstrecke (FS) von einer Startposition (SP) zu einer Zielposition (ZP) durch einen menschlichen Fahrer mittels eines Fahrzeugs (F) (S10); - Departing a route (FS) from a starting position (SP) to a target position (ZP) by a human driver using a vehicle (F) (S10);
- Erfassen von Umgebungsinformationen durch eine Sensorik des Fahrzeugs (F) während des Abfahrens der Fahrstrecke (FS) (S11); - Detection of environmental information by a sensor system of the vehicle (F) while driving along the route (FS) (S11);
- Abspeichern von Informationen zu einer befahrbaren Fahrgasse basierend auf den Umgebungsinformationen (S12);- Storing information on a traffic lane based on the environmental information (S12);
- Ermitteln einer Fahrtrajektorie basierend auf Informationen zur befahrbaren Fahrgasse mittels einer Recheneinheit des Fahrzeugs (F), die eine Strategie des bestärkenden Lernens implementiert (S13); - Determining a travel trajectory based on information on the passable lane by means of a computing unit of the vehicle (F), which implements a strategy of reinforcement learning (S13);
- Abspeichern der ermittelten Fahrtrajektorie (S14). - Saving the determined driving trajectory (S14).
2) Verfahren nach Anspruch 1 , dadurch gekennzeichnet, dass in der Recheneinheit ein Agent und ein Bewertungssystem implementiert sind, dass eine vom Agenten berechnete Fahrtrajektorie durch das Bewertungssystem basierend auf Trajektorieneigenschaften beurteilt wird und abhängig vom Beurteilungsergebnis eine neue Fahrtrajektorie berechnet wird. 2) Method according to claim 1, characterized in that an agent and an evaluation system are implemented in the computing unit, that a travel trajectory calculated by the agent is assessed by the evaluation system based on trajectory properties and a new travel trajectory is calculated depending on the assessment result.
3) Verfahren nach Anspruch 1 oder 2, dadurch gekennzeichnet, dass mehrere unterschiedliche Trajektorieneigenschaften zur Beurteilung einer Trajektorie herangezogen werden und die Berechnung einer neuen Fahrtrajektorie unter einer oder mehreren Vorgaben erfolgt, und zwar derart, dass eine oder mehrere Trajektorieneigenschaften verbessert werden.
4) Verfahren nach Anspruch 2 oder 3, dadurch gekennzeichnet, dass der Agent iterativ neue Fahrtrajektorien derart berechnet, dass das Beurteilungsergebnis gesteigert wird. 3) The method according to claim 1 or 2, characterized in that several different trajectory properties are used to assess a trajectory and the calculation of a new travel trajectory is based on one or more specifications, in such a way that one or more trajectory properties are improved. 4) Method according to claim 2 or 3, characterized in that the agent iteratively calculates new travel trajectories in such a way that the assessment result is increased.
5) Verfahren nach einem der Ansprüche 2 bis 4, dadurch gekennzeichnet, dass das Bewertungssystem eine Belohnungsfunktion umfasst, die zu einer berechneten Fahrtrajektorie eine positive oder negative Belohnung berechnet. 5) Method according to one of claims 2 to 4, characterized in that the evaluation system comprises a reward function which calculates a positive or negative reward for a calculated travel trajectory.
6) Verfahren nach Anspruch 5, dadurch gekennzeichnet, dass durch den Agenten eine nachfolgende Fahrtrajektorie auf Basis der Flöhe ihrer Belohnung ausgewählt wird. 6) Method according to claim 5, characterized in that a subsequent travel trajectory is selected by the agent based on the fleas of their reward.
7) Verfahren nach einem der vorhergehenden Ansprüche, dadurch gekennzeichnet, dass die zur Beurteilung einer Fahrtrajektorie verwendeten Trajektorieneigenschaften die Zeit zum Durchfahren der Fahrtrajektorie, die Wegstrecke der Fahrtrajektorie, Informationen zu Lenkwinkeländerungen, Informationen zur Längsbeschleunigung und/oder Informationen zur Querbeschleunigung umfassen. 7) Method according to one of the preceding claims, characterized in that the trajectory properties used to assess a driving trajectory include the time to travel through the driving trajectory, the distance of the driving trajectory, information on steering angle changes, information on longitudinal acceleration and / or information on lateral acceleration.
8) Verfahren nach einem der vorhergehenden Ansprüche, dadurch gekennzeichnet, dass die Fahrstrecke (FS) von der Startposition (SP) zu der Zielposition (ZP) mehrfach abgefahren wird und dabei Umgebungsinformationen durch eine Sensorik des Fahrzeugs (F) erfasst und Informationen zur befahrbaren Fahrgasse ermittelt und gespeichert werden. 8) Method according to one of the preceding claims, characterized in that the route (FS) from the starting position (SP) to the target position (ZP) is traveled several times and environmental information is recorded by a sensor system of the vehicle (F) and information on the passable lane be identified and stored.
9) Verfahren nach Anspruch 8, dadurch gekennzeichnet, dass mehrere zeitlich nacheinander ermittelte Informationen zur befahrbaren Fahrgasse kombiniert werden, und diese kombinierten Informationen zur befahrbaren Fahrgasse zum Ermitteln einer Fahrtrajektorie herangezogen werden.
10) Verfahren nach einem der vorhergehenden Ansprüche, dadurch gekennzeichnet, dass beim Durchfahren der Fahrstrecke von dem Startpunkt zu dem Zielpunkt fortlaufend eine Umgebungserfassung vollzogen wird und das Ermitteln einer Fahrtrajektorie durch bestärkendes Lernen neu vollzogen wird, wenn anhand der erfassten Umgebungsinformationen erkennbar ist, dass sich die Informationen zur befahrbaren Fahrgasse durch statische Objekte verändert hat. 9) The method according to claim 8, characterized in that a plurality of information on the trafficable lane, which is determined one after the other, is combined, and this combined information on the trafficable lane is used to determine a travel trajectory. 10) The method according to any one of the preceding claims, characterized in that when driving through the route from the starting point to the destination, the environment is continuously detected and the determination of a travel trajectory is performed again by reinforcement learning if it can be seen from the detected environmental information that has changed the information on the passable tramline through static objects.
11 ) Verfahren nach einem der vorhergehenden Ansprüche, dadurch gekennzeichnet, dass basierend auf der ermittelten Fahrtrajektorie die Fahrstrecke (FS) von der Startposition (SP) zur Zielposition (ZP) automatisiert durchfahren wird und von der ermittelten Fahrtrajektorie abgewichen wird, wenn ein Hindernis auf der ermittelten Fahrtrajektorie detektiert wird. 11) Method according to one of the preceding claims, characterized in that based on the determined travel trajectory, the route (FS) from the starting position (SP) to the target position (ZP) is automatically traveled through and the determined travel trajectory is deviated from if an obstacle is on the determined travel trajectory is detected.
12) Verfahren nach einem der vorhergehenden Ansprüche, dadurch gekennzeichnet, dass die Recheneinheit mehrere unterschiedliche optimierte Fahrtrajektorien mittels der Strategie des bestärkenden Lernens ermittelt und eine Fahrtrajektorie dieser optimierten Fahrtrajektorien basierend auf einem oder mehreren Zielkriterien auswählt. 12) The method according to any one of the preceding claims, characterized in that the computing unit determines several different optimized driving trajectories using the reinforcement learning strategy and selects a driving trajectory of these optimized driving trajectories based on one or more target criteria.
13) System zur Ermittlung einer Fahrtrajektorie für wiederkehrende Fahrsituationen umfassend eine in einem Fahrzeug (F) vorgesehene Recheneinheit, wobei das Verfahren die folgenden Schritte aufweist: 13) System for determining a driving trajectory for recurring driving situations, comprising a computing unit provided in a vehicle (F), the method having the following steps:
- Erfassen von Umgebungsinformationen durch eine Sensorik des Fahrzeugs (F) während des Abfahrens der Fahrstrecke (FS) von einer Startposition (SP) zu einer Zielposition (ZP) durch einen menschlichen Fahrer; - Detection of environmental information by a sensor system of the vehicle (F) while driving along the route (FS) from a starting position (SP) to a target position (ZP) by a human driver;
- Abspeichern von Informationen zu einer befahrbaren Fahrgasse basierend auf den Umgebungsinformationen;
- Ermitteln einer Fahrtrajektorie basierend auf Informationen zur befahrbaren Fahrgasse mittels der Recheneinheit, die eine Strategie des bestärkenden Lernens implementiert; - Saving information on a traffic lane based on the environment information; - Determination of a travel trajectory based on information on the passable lane by means of the computing unit, which implements a strategy of reinforcement learning;
- Abspeichern der ermittelten Fahrtrajektorie in einer Speichereinheit.
- Saving the determined driving trajectory in a memory unit.
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
DE102021206588.0A DE102021206588A1 (en) | 2021-06-25 | 2021-06-25 | Procedure for trajectory optimization |
PCT/DE2022/200136 WO2022268274A1 (en) | 2021-06-25 | 2022-06-21 | Trajectory optimisation method |
Publications (1)
Publication Number | Publication Date |
---|---|
EP4359274A1 true EP4359274A1 (en) | 2024-05-01 |
Family
ID=83059126
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
EP22758420.8A Pending EP4359274A1 (en) | 2021-06-25 | 2022-06-21 | Trajectory optimisation method |
Country Status (5)
Country | Link |
---|---|
EP (1) | EP4359274A1 (en) |
JP (1) | JP2024523157A (en) |
CN (1) | CN117500708A (en) |
DE (1) | DE102021206588A1 (en) |
WO (1) | WO2022268274A1 (en) |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE102017110020A1 (en) | 2017-05-10 | 2018-11-15 | Valeo Schalter Und Sensoren Gmbh | Method for operating a driver assistance system of a motor vehicle for maneuvering the motor vehicle in a mobile area, driver assistance system and motor vehicle |
CN108860139B (en) * | 2018-04-11 | 2019-11-29 | 浙江零跑科技有限公司 | A kind of automatic parking method for planning track based on depth enhancing study |
DE102018129556A1 (en) * | 2018-11-23 | 2020-05-28 | Valeo Schalter Und Sensoren Gmbh | Method for driving a vehicle at least partially autonomously as part of a parking process |
CN111098852B (en) | 2019-12-02 | 2021-03-12 | 北京交通大学 | Parking path planning method based on reinforcement learning |
-
2021
- 2021-06-25 DE DE102021206588.0A patent/DE102021206588A1/en active Pending
-
2022
- 2022-06-21 JP JP2023573577A patent/JP2024523157A/en active Pending
- 2022-06-21 WO PCT/DE2022/200136 patent/WO2022268274A1/en active Application Filing
- 2022-06-21 EP EP22758420.8A patent/EP4359274A1/en active Pending
- 2022-06-21 CN CN202280043391.8A patent/CN117500708A/en active Pending
Also Published As
Publication number | Publication date |
---|---|
WO2022268274A1 (en) | 2022-12-29 |
CN117500708A (en) | 2024-02-02 |
JP2024523157A (en) | 2024-06-28 |
DE102021206588A1 (en) | 2022-12-29 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
EP3224118B1 (en) | Method and device for assisted driving of a vehicle | |
DE102015108605B4 (en) | Lane change path planning algorithm for an autonomous vehicle | |
DE102016203086B4 (en) | Method and device for driver assistance | |
EP3224117B1 (en) | Method and device for assisted guiding of a vehicle | |
EP3181422B1 (en) | Method and system for automatically guiding a follow vehicle with a scout vehicle | |
DE102016211183A1 (en) | Method, device and system for carrying out an automated journey of a vehicle with the participation of at least one further vehicle | |
DE102017115988A1 (en) | Modify a trajectory depending on an object classification | |
DE102009060169A1 (en) | Automatic forward parking in head parking spaces | |
EP3509931B1 (en) | Method for operating a vehicle, and control unit for carrying out the method | |
DE102019118366A1 (en) | Method and control device for a system for controlling a motor vehicle | |
DE102015217891A1 (en) | Determining a desired trajectory for a vehicle | |
DE102007009745A1 (en) | Method for controlling vehicle steering during parking process, involves measuring parking place selected for parking vehicle and establishing orientation field, where orientation field determines number of support points | |
DE102015208790A1 (en) | Determining a trajectory for a vehicle | |
EP3824247A1 (en) | Method and system for determining a position of a vehicle | |
DE102018218835A1 (en) | Method for at least partially unblocking a field of vision of a motor vehicle, in particular during lane changes | |
WO2019086315A1 (en) | Parking assistance for a motor vehicle for parking on public and private land | |
DE102018131898A1 (en) | Method for determining a trajectory by applying Bézier curves tangentially to geometric structures; Control unit; Driver assistance system; Computer program product and computer readable medium | |
DE102020117767A1 (en) | Trajectory planning for an autonomous driving maneuver of an ego vehicle | |
EP2974944B1 (en) | Method for supporting a driver when parking of a motor vehicle, driver assistance system and motor vehicle | |
DE19601831C5 (en) | Method for detecting relevant objects | |
EP4412882A1 (en) | Method for planning a trajectory of a driving maneuver of a motor vehicle, computer program product, computer-readable storage medium, and vehicle | |
EP4359274A1 (en) | Trajectory optimisation method | |
DE102021200858B3 (en) | Method for operating an electronic computing device and electronic computing device | |
DE102014110173A1 (en) | A method for assisting a driver when parking a motor vehicle, driver assistance system and motor vehicle | |
EP3911555A1 (en) | Method for training a trajectory for a vehicle, and electronic vehicle guiding system |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
STAA | Information on the status of an ep patent application or granted ep patent |
Free format text: STATUS: UNKNOWN |
|
STAA | Information on the status of an ep patent application or granted ep patent |
Free format text: STATUS: THE INTERNATIONAL PUBLICATION HAS BEEN MADE |
|
PUAI | Public reference made under article 153(3) epc to a published international application that has entered the european phase |
Free format text: ORIGINAL CODE: 0009012 |
|
STAA | Information on the status of an ep patent application or granted ep patent |
Free format text: STATUS: REQUEST FOR EXAMINATION WAS MADE |
|
17P | Request for examination filed |
Effective date: 20240125 |
|
AK | Designated contracting states |
Kind code of ref document: A1 Designated state(s): AL AT BE BG CH CY CZ DE DK EE ES FI FR GB GR HR HU IE IS IT LI LT LU LV MC MK MT NL NO PL PT RO RS SE SI SK SM TR |
|
DAV | Request for validation of the european patent (deleted) | ||
DAX | Request for extension of the european patent (deleted) |