DE102021107458A1

DE102021107458A1 - Control device and method

Info

Publication number: DE102021107458A1
Application number: DE102021107458.4A
Authority: DE
Inventors: Torben Gräber; Michael Unterreiner
Original assignee: Dr Ing HCF Porsche AG
Current assignee: Dr Ing HCF Porsche AG
Priority date: 2021-03-25
Filing date: 2021-03-25
Publication date: 2022-09-29

Abstract

Ein Verfahren zum Steuern von Aktoren (61, 62) eines Fahrzeugs (10) mittels einer Steuervorrichtung (30), welche Steuervorrichtung (30) mindestens einen Eingang (31) zum Empfang von Fahrzeugdaten (53, 54) aufweist, welche Steuervorrichtung (30) mindestens einen Ausgang (32) zur Ausgabe von Sollwerten (63, 64) für Aktoren (61, 62) aufweist, welche Steuervorrichtung (30) einen Agenten (20), ein neuronales Netzwerk (43) mit Netzwerkparametern (NP) für das neuronale Netzwerk (43), und eine Belohnungserzeugungsvorrichtung (65) aufweist und dazu ausgebildet ist, Sollwerte (63, 64) für die Aktoren (61, 62) zu ermitteln, weist die folgenden Schritte auf:A) Die Fahrzeugdaten (53, 54) werden über den mindestens einen Eingang (31) erfasst, und es wird ein aktueller Fahrzeugzustand (41) berechnet;B) Der Agent (20) ordnet gemäß einer mit dem neuronalen Netzwerk (43) implementierten Strategie in Abhängigkeit von den Netzwerkparametern (NP) dem aktuellen Fahrzeugzustand (41) eine Aktion (42) zu;C) In Abhängigkeit von der Aktion (42) werden aktualisierte Sollwerte (63, 64) für die Aktoren (61, 62) bestimmt und über den mindestens einen Ausgang (32) ausgegeben;D) In Abhängigkeit von der Änderung der Fahrzeugdaten (53, 54) in Folge der aktualisierten Sollwerte (63, 64) wird durch die Belohnungserzeugungsvorrichtung (65) mit Hilfe einer Belohnungsfunktion ein Belohnungswert (66) ermittelt, welcher positiv oder negativ sein kann;E) Die Netzwerkparameter (NP) werden durch bestärkendes Lernen in Abhängigkeit vom Belohnungswert (66) geändert, um durch die Änderung die bei Anwendung des neuronalen Netzwerks (43) zu erwartenden Belohnungswerte (66) zu erhöhen.A method for controlling actuators (61, 62) of a vehicle (10) using a control device (30), which control device (30) has at least one input (31) for receiving vehicle data (53, 54), which control device (30) has at least one output (32) for outputting target values (63, 64) for actuators (61, 62), which control device (30) has an agent (20), a neural network (43) with network parameters (NP) for the neural network (43) and a reward generating device (65) and is designed to determine target values (63, 64) for the actuators (61, 62), has the following steps: A) The vehicle data (53, 54) are the at least one input (31) is detected, and a current vehicle status (41) is calculated;B) the agent (20) arranges the current vehicle status according to a strategy implemented with the neural network (43), depending on the network parameters (NP). (41) an action (42) to;C) In Depending on the action (42), updated target values (63, 64) for the actuators (61, 62) are determined and output via the at least one output (32); D) depending on the change in the vehicle data (53, 54) in As a result of the updated target values (63, 64), the reward generation device (65) uses a reward function to determine a reward value (66), which can be positive or negative;E) the network parameters (NP) are determined by reinforcing learning as a function of the reward value ( 66) in order to increase the expected reward values (66) when using the neural network (43).

Description

Die Erfindung betrifft eine Steuervorrichtung und ein Verfahren zum Steuern von Aktoren eines Fahrzeugs.The invention relates to a control device and a method for controlling actuators of a vehicle.

Die DE 10 2019 104 966 A1 zeigt eine selbstlernende Steuervorrichtung, welche konfiguriert ist zum Initialisieren eines Datensatzes beinhaltend Daten, die ein oder mehrere zuvor aufgezeichnete Eingangssignale kennzeichnen, Bereitstellen einer Reward-Funktion und Trainieren eines neuronalen Netzes für die Reward-Funktion.the DE 10 2019 104 966 A1 FIG. 1 shows a self-learning controller configured to initialize a data set including data identifying one or more previously recorded input signals, provide a reward function, and train a neural network for the reward function.

Die DE 10 2006 054 425 A1 zeigt ein Verfahren zum Ermitteln eines Werts eines Modellparameters eines Fahrzeugreferenzmodells, bei dem ein Schätzwert des Modellparameters in Abhängigkeit von einer Fahrzustandsgröße mittels eines künstlichen neuronalen Netzes ermittelt wird, welches neuronale Netz durch ein Lernverfahren angepasst wird.the DE 10 2006 054 425 A1 shows a method for determining a value of a model parameter of a vehicle reference model, in which an estimated value of the model parameter is determined as a function of a driving state variable using an artificial neural network, which neural network is adapted by a learning method.

Die DE 10 2017 007 136 A1 zeigt eine Vorrichtung zum Trainieren selbstlernender Algorithmen für ein automatisiert fahrbares Fahrzeug.the DE 10 2017 007 136 A1 shows a device for training self-learning algorithms for an automated vehicle.

Die DE 10 2020 106 936 A1 zeigt ein System zum Steuern des Betriebs eines Fahrzeugs mit einem Überwachungssteuer-Modul, welches zum Empfang von Fehlerdaten eingerichtet ist.the DE 10 2020 106 936 A1 FIG. 1 shows a system for controlling the operation of a vehicle with a supervisory control module configured to receive error data.

Die DE 11 2016 003 350 T5 zeigt ein Verfahren für das tief bestärkende Lernen und Trainieren eines neuronalen Akteur-Netzwerks, bei dem aktuelle Werte von Parametern eines kritischen neuronalen Netzwerks mithilfe von Fehlern zwischen den neuronalen Zielnetzwerkausgaben und den neuronalen Netzwerkausgaben aktualisiert werden.the DE 11 2016 003 350 T5 shows a method for deep reinforcement learning and training of an actor neural network in which current values of parameters of a critical neural network are updated using errors between the target neural network outputs and the neural network outputs.

Es ist daher eine Aufgabe der Erfindung, ein neues Verfahren zum Steuern von Aktoren eines Fahrzeugs und eine neue Steuervorrichtung bereitzustellen. It is therefore an object of the invention to provide a new method for controlling actuators of a vehicle and a new control device.

Diese Aufgabe wird gelöst durch den Gegenstand des Anspruchs 1 und des Anspruchs 13.This object is solved by the subject matter of claim 1 and claim 13.

Ein Verfahren zum Steuern von Aktoren eines Fahrzeugs mittels einer Steuervorrichtung, welche Steuervorrichtung mindestens einen Eingang zum Empfang von Fahrzeugdaten aufweist, welche Steuervorrichtung mindestens einen Ausgang zur Ausgabe von Sollwerten für Aktoren aufweist, welche Steuervorrichtung einen Agenten, ein neuronales Netzwerk mit Netzwerkparametern für das neuronale Netzwerk, und eine Belohnungserzeugungsvorrichtung aufweist und dazu ausgebildet ist, Sollwerte für die Aktoren zu ermitteln, weist die folgenden Schritte auf:

A) Die Fahrzeugdaten werden über den mindestens einen Eingang erfasst, und es wird ein aktueller Fahrzeugzustand berechnet;
B) Der Agent ordnet gemäß einer mit dem neuronalen Netzwerk implementierten Strategie in Abhängigkeit von den Netzwerkparametern dem aktuellen Fahrzeugzustand eine Aktion zu;
C) In Abhängigkeit von der Aktion werden aktualisierte Sollwerte für die Aktoren bestimmt und über den mindestens einen Ausgang ausgegeben;
D) In Abhängigkeit von der Änderung der Fahrzeugdaten in Folge der aktualisierten Sollwerte wird durch die Belohnungserzeugungsvorrichtung mit Hilfe einer Belohnungsfunktion ein Belohnungswert ermittelt, welcher positiv oder negativ sein kann;
E) Die Netzwerkparameter werden durch bestärkendes Lernen in Abhängigkeit vom Belohnungswert geändert, um durch die Änderung die bei Anwendung des neuronalen Netzwerks zu erwartenden Belohnungswerte zu erhöhen.

A method for controlling actuators of a vehicle using a control device, which control device has at least one input for receiving vehicle data, which control device has at least one output for outputting target values for actuators, which control device has an agent, a neural network with network parameters for the neural network , and has a reward generation device and is designed to determine target values for the actuators, has the following steps:

A) The vehicle data are recorded via the at least one input, and a current vehicle status is calculated;
B) The agent assigns an action to the current vehicle state according to a strategy implemented with the neural network depending on the network parameters;
C) Depending on the action, updated target values for the actuators are determined and output via the at least one output;
D) Depending on the change in the vehicle data as a result of the updated target values, a reward value, which can be positive or negative, is determined by the reward generation device using a reward function;
E) The network parameters are changed by reinforcement learning depending on the reward value in order to increase the reward values to be expected when using the neural network.

Die Anwendung eines neuronalen Netzwerks mit bestärkendem Lernen hat in Versuchen zu einem außergewöhnlich guten Verhalten des Agenten geführt, dessen Qualität die Qualität bisheriger Steuervorrichtungen zumindest bereichsweise übertroffen hat.The application of a neural network with reinforcement learning has led to an exceptionally good behavior of the agent in tests, the quality of which has at least partially surpassed the quality of previous control devices.

Gemäß einer bevorzugten Ausführungsform wird das bestärkende Lernen als modellfreies bestärkendes Lernen durchgeführt. Durch die modellfreie Ausgestaltung wird die Gefahr einer Verschlechterung durch ein fehlerhaftes Modell verringert, und die Qualität hat sich als besonders gut erwiesen.According to a preferred embodiment, the reinforcement learning is performed as model-free reinforcement learning. The model-free design reduces the risk of deterioration due to a faulty model, and the quality has proven to be particularly good.

Gemäß einer bevorzugten Ausführungsform werden dem Agenten erste Netzwerkparameter vorgegeben, welche ersten Netzwerkparameter zuvor durch bestärkendes Lernen mit dem Agenten oder mit einem anderen Agenten mit dem strukturell gleichen neuronalen Netzwerk ermittelt werden. Dies ermöglicht von Beginn an einen gut funktionierenden Agenten und verringert die Zeit für die weitere Optimierung.According to a preferred embodiment, the agent is given first network parameters, which first network parameters are previously determined by reinforcement learning with the agent or with another agent with the same neural network structure. This enables a well-functioning agent from the start and reduces the time for further optimization.

Gemäß einer bevorzugten Ausführungsform wird eine Simulation eines Fahrzeugs erstellt, und die ersten Netzwerkparameter werden mit Hilfe der Simulation ermittelt. Die Verwendung einer Simulation ist für den Beginn deutlich günstiger als tatsächliche Testfahrten, und es können auch besondere Situationen zum Lernen verwendet werden.According to a preferred embodiment, a simulation of a vehicle is created and the first network parameters are determined using the simulation. Using a simulation is significantly cheaper to start with than actual test drives, and special situations can also be used for learning.

Gemäß einer bevorzugten Ausführungsform werden dem Agenten für die Simulation in einem Fahrzeug real gemessene Fahrzeugdaten zugeführt. Dies können beispielsweise Fahrzeugdaten eines Radsensors oder Messdaten der Straßenbeschaffenheit sein.According to a preferred embodiment, the agent for the simulation in a Vehicle real measured vehicle data supplied. This can be, for example, vehicle data from a wheel sensor or measured data on the condition of the road.

Gemäß einer bevorzugten Ausführungsform werden die Netzwerkparameter auch im eingebauten Zustand der Steuervorrichtung in einem Fahrzeug durch bestärkendes Lernen in Abhängigkeit vom Belohnungswert geändert, wobei der Belohnungswert in Abhängigkeit von der tatsächlichen Beeinflussung der Fahrzeugdaten durch den Agenten ermittelt wird, um durch die Änderung der Netzwerkparameter die bei Anwendung des neuronalen Netzwerks zu erwartenden Belohnungswerte zu erhöhen. Das bestärkende Lernen kann hierdurch beim Endkunden weiter erfolgen, und das neuronale Netzwerk kann an die Fahreigenheiten des Endkunden verbessernd angepasst werden. Durch das bestärkende Lernen im eingebauten Zustand kann ein lebenslanges Lernen verwirklicht werden.According to a preferred embodiment, the network parameters are also changed in the installed state of the control device in a vehicle by reinforcement learning depending on the reward value, the reward value being determined depending on the actual influencing of the vehicle data by the agent in order to change the network parameters Application of the neural network to increase expected reward values. The reinforcement learning can thus continue to take place at the end customer, and the neural network can be adapted to improve the driving characteristics of the end customer. Lifelong learning can be realized through the reinforcing learning in the built-in state.

Gemäß einer bevorzugten Ausführungsform wird die Änderung der Netzwerkparameter auch während einer Bewegung des Fahrzeugs durchgeführt. Dies ermöglicht eine schnelle Anpassung an aktuelle Versionen, beispielsweise an einen neuartigen Untergrund.According to a preferred embodiment, the network parameters are also changed while the vehicle is moving. This enables quick adaptation to current versions, for example to a new type of subsurface.

Gemäß einer bevorzugten Ausführungsform weist die Steuervorrichtung eine Datenschnittstelle auf, und der Steuervorrichtung werden im in einem Fahrzeug eingebauten Zustand zweite Netzwerkparameter zugesendet. Durch das Vorhandensein einer Datenschnittstelle kann der Fahrzeughersteller verbesserte Netzwerkparameter an die Fahrzeuge senden und ggf. auch Netzwerkparameter der Fahrzeuge auswerten und zur Optimierung verwenden.According to a preferred embodiment, the control device has a data interface, and second network parameters are sent to the control device when it is installed in a vehicle. Due to the presence of a data interface, the vehicle manufacturer can send improved network parameters to the vehicles and, if necessary, also evaluate network parameters of the vehicles and use them for optimization.

Gemäß einer bevorzugten Ausführungsform sind die zweiten Netzwerkparameter abhängig von einer Mehrzahl von anderen Steuervorrichtungen von unterschiedlichen anderen Fahrzeugen, und die Steuervorrichtung ist dazu ausgebildet, die Netzwerkparameter in Abhängigkeit von den zweiten Netzwerkparametern zu ändern. Hierdurch kann eine Optimierung der gesamten Flotte durchgeführt werden.According to a preferred embodiment, the second network parameters are dependent on a plurality of other control devices from different other vehicles, and the control device is designed to change the network parameters as a function of the second network parameters. This allows the entire fleet to be optimized.

Gemäß einer bevorzugten Ausführungsform werden im neuronalen Netzwerk die Netzwerkparameter mit dem Ziel geändert, dass die Wahrscheinlichkeit für eine vorgegebene Aktion der Strategie bei einem vorgegebenen Fahrzeugzustand erhöht wird, wenn die Durchführung dieser vorgegebenen Aktion beim vorgegebenen Fahrzeugzustand einen positiven Belohnungswert ergeben hat. Dies beschleunigt das maschinelle Lernen.According to a preferred embodiment, the network parameters are changed in the neural network with the aim of increasing the probability of a specified action of the strategy given a specified vehicle state if the performance of this specified action in the specified vehicle state resulted in a positive reward value. This speeds up machine learning.

Gemäß einer bevorzugten Ausführungsform werden im neuronalen Netzwerk die Netzwerkparameter mit dem Ziel geändert, dass die Wahrscheinlichkeit für eine vorgegebene Aktion der Strategie bei einem vorgegebenen Fahrzeugzustand erniedrigt wird, wenn die Durchführung dieser vorgegebenen Aktion beim vorgegebenen Fahrzeugzustand einen negativen Belohnungswert ergeben hat. Nachteilige Aktionen werden hierdurch mit der Zeit unterdrückt.According to a preferred embodiment, the network parameters are changed in the neural network with the aim of reducing the probability of a specified action of the strategy given a specified vehicle state if the performance of this specified action in the specified vehicle state resulted in a negative reward value. Adverse actions are thereby suppressed over time.

Gemäß einer bevorzugten Ausführungsform werden im neuronalen Netzwerk die Netzwerkparameter geändert, indem der Einfluss von durch Hinzufügen von Störungen erzeugten Variationen der Netzwerkparameter im Hinblick auf die Änderung des Belohnungswerts ausgewertet wird und die Netzwerkparameter geändert werden, wenn die Variation zu einem besseren Belohnungswert führt. Diese Strategie wird auch evolutionäre Strategie genannt, und es finden künstlich erzeugte Mutationen statt, die im Falle von positiven Eigenschaften verstärkt werden.According to a preferred embodiment, the network parameters are changed in the neural network by evaluating the influence of variations in the network parameters generated by adding disturbances with regard to the change in the reward value and changing the network parameters if the variation leads to a better reward value. This strategy is also called an evolutionary strategy, and artificially created mutations take place, which are reinforced in the case of positive traits.

Eine Steuervorrichtung zum Steuern eines Fahrzeugs mit Aktoren weist mindestens einen Eingang zum Empfang von Fahrzeugdaten, mindestens einen Ausgang zur Ausgabe von Sollwerten für Aktoren, einen Agenten, ein neuronales Netzwerk mit Netzwerkparametern für das neuronale Netzwerk, und eine Belohnungserzeugungsvorrichtung auf und ist dazu ausgebildet, ein solches Verfahren auszuführen.A control device for controlling a vehicle with actuators has at least one input for receiving vehicle data, at least one output for outputting target values for actuators, an agent, a neural network with network parameters for the neural network, and a reward generation device and is designed to to carry out such a procedure.

Ein Fahrzeug weist eine solche Steuervorrichtung und Aktoren auf. In einem Fahrzeug hat sich die Steuervorrichtung als unerwartet vorteilhaft erwiesen.A vehicle has such a control device and actuators. In a vehicle, the control device has proven to be unexpectedly advantageous.

Weitere Einzelheiten und vorteilhafte Weiterbildungen der Erfindung ergeben sich aus den im Folgenden beschriebenen und in den Zeichnung dargestellten, in keiner Weise als Einschränkung der Erfindung zu verstehenden Ausführungsbeispielen sowie aus den Unteransprüchen. Es versteht sich, dass die voranstehend genannten und die nachstehend noch zu erläuternden Merkmale nicht nur in der jeweils angegebenen Kombination, sondern auch in anderen Kombinationen oder in Alleinstellung verwendbar sind, ohne den Rahmen der vorliegenden Erfindung zu verlassen. Es zeigt:

1 in schematischer Darstellung einen Agenten und eine Umgebung,
2 ein Fahrzeugmodell für eine Simulation,
3 ein Diagramm, welches die Wahrnehmung des Menschen von Wankwinkelfrequenzen anzeigt,
4 in schematischer Darstellung bestärkendes Lernen,
5 bis 8 die Auslenkung der vier Räder eines Fahrzeugs bei unterschiedlichen Agenten,
9 den Wankwinkel bei unterschiedlichen Agenten,
10 die Wankwinkelgeschwindigkeit bei unterschiedlichen Agenten,
11 ein auftretendes Moment und ein durch ein trainiertes neuronales Netzwerk erzeugtes Moment,
12 ein auftretendes Moment und ein durch ein untrainiertes neuronales Netzwerk erzeugtes Moment,
13 ein Histogramm mit Aufteilung unterschiedlich trainierter neuronaler Netzwerke auf ein Maß der Unbequemlichkeit, und
14 in schematischer Darstellung ein Fahrzeug mit einem Steuergerät und Aktoren.

Further details and advantageous developments of the invention result from the exemplary embodiments described below and illustrated in the drawings, which are in no way to be understood as limiting the invention, and from the dependent claims. It goes without saying that the features mentioned above and those still to be explained below can be used not only in the combination specified in each case, but also in other combinations or on their own, without departing from the scope of the present invention. It shows:

1 a schematic representation of an agent and an environment,
2 a vehicle model for a simulation,
3 a diagram showing human perception of roll angle frequencies,
4 in a schematic representation of reinforcement learning,
5 until 8th the deflection of the four wheels of a vehicle with different agents,
9 the sway angle of different agents,
10 the roll angle velocity for different agents,
11 an occurring moment and a moment generated by a trained neural network,
12 an occurring moment and a moment generated by an untrained neural network,
13 a histogram with partitioning of differently trained neural networks on a level of discomfort, and
14 a schematic representation of a vehicle with a control unit and actuators.

Im Folgenden sind gleiche oder gleichwirkende Teile mit den gleichen Bezugszeichen versehen und werden üblicherweise nur einmal beschrieben. Die Beschreibung ist figurenübergreifend aufeinander aufbauend, um unnötige Wiederholungen zu vermeiden.In the following, parts that are the same or have the same effect are provided with the same reference symbols and are usually only described once. The description builds on one another across figures in order to avoid unnecessary repetition.

1 zeigt Grundelemente für das bestärkende Lernen. Ein Agent 20 ist vorgesehen und ermöglicht eine Ausgabe von Sollwerten über eine Leitung 83 an eine Umgebung 81. Die Umgebung 81 reagiert in Abhängigkeit von den Sollwerten, und über eine Leitung 82 wird eine Beobachtung (englisch: observation) an den Agenten 20 gesendet. Zusätzlich wird ein Belohnungswert erzeugt, der die sich aus den Stellwerten ergebende Reaktion der Umgebung als positiv oder negativ bewertet. Der Agent 20 reagiert in Abhängigkeit von der Beobachtung und gibt aktualisierte Sollwerte aus. Der Agent 20 arbeitet mit Methoden des maschinellen Lernens. 1 shows basic elements for reinforcement learning. An agent 20 is provided and enables setpoint values to be output via a line 83 to an environment 81. The environment 81 reacts as a function of the setpoint values, and an observation is sent to the agent 20 via a line 82. In addition, a reward value is generated, which evaluates the reaction of the environment resulting from the control values as positive or negative. The agent 20 responds in response to the observation and issues updated setpoints. The agent 20 works with machine learning methods.

2 zeigt eine Simulation 110 eines Fahrzeugs 10, welche im Ausführungsbeispiel ein physikalisches Halbfahrzeug-Modell nutzt. Das Fahrzeugmodell 110 gibt die vertikale Fahrzeugdynamik für ein halbes Fahrzeug (vorne oder hinten) wieder. Die Karosserie 112 hat einen Schwerpunkt 113, und sie ist auf der linken Seite über einen Dämpfer 131 und eine Feder 132 mit einem linken Rad 114 sowie über einen Dämpfer 141 und eine Feder 142 mit einem rechten Rad 116 verbunden. Das Modell arbeitet nach dem Skyhook-Modell, und zwischen dem linken Rad 114 und der Straße 118 sind ein Dämpfer 133 und eine Feder 134 vorgesehen. Zwischen dem rechten Rad 116 und der Straße 120 sind ein Dämpfer 143 und eine Feder 144 vorgesehen. Der laterale Abstand zwischen dem Schwerpunkt 113 und dem linken Rad 114 ist als I^l eingezeichnet, und der laterale Abstand zwischen dem Schwerpunkt 113 und dem rechten Rad 116 als I^r. Der Wankwinkel phi (cp) ist im Schwerpunkt 113 eingezeichnet. Als u^l und u^r sind Kräfte eines jeweiligen Aktors eingezeichnet, wie sie bspw. durch ein aktives Fahrwerk erzeugt werden können. 2 shows a simulation 110 of a vehicle 10, which uses a physical semi-vehicle model in the exemplary embodiment. The vehicle model 110 represents vertical vehicle dynamics for half a vehicle (front or rear). The body 112 has a center of gravity 113 and is connected to a left wheel 114 through a damper 131 and spring 132 and to a right wheel 116 through a damper 141 and spring 142 on the left side. The model operates on the Skyhook model and a damper 133 and spring 134 are provided between the left wheel 114 and the road 118 . A damper 143 and a spring 144 are provided between the right wheel 116 and the road 120 . The lateral distance between the center of gravity 113 and the left wheel 114 is plotted as I ^l and the lateral distance between the center of gravity 113 and the right wheel 116 as I ^r . The roll angle phi (cp) is located at the center of gravity 113 . Forces of a respective actuator are drawn in as u ^l and u ^r , such as can be generated, for example, by an active chassis.

3 zeigt ein Diagramm mit einer Kurve 150, welche angibt, als wie unangenehm unterschiedliche Wankwinkelfrequenzen wahrgenommen werden. Als besonders unangenehm werden Wankwinkelfrequenzen von ca. 0,7 Hz bzw. im Bereich 0,4 Hz bis 1,0 Hz wahrgenommen. Die Kurve 150 ist empirisch ermittelt worden. Die Kurve 150 ist dazu geeignet, einen Belohnungswert in Abhängigkeit von den aktuell vorkommenden Wankwinkelfrequenzen zu erzeugen. Hierzu können bspw. die auftretenden Wankwinkelfrequenzen mit dem zugehörigen Wert der Kurve 150 multipliziert und anschließend summiert werden, um ein Maß für den aktuellen Komfort in der Karosserie 112 zu erzeugen. Wenn der sich ergebende Wert bspw. über einem vorgegebenen Grenzwert ist, kann ein negativer Belohnungswert erzeugt werden, und wenn er unter dem vorgegebenen Grenzwert ist, kann ein positiver Belohnungswert erzeugt werden. Naturgemäß sind unterschiedliche Möglichkeiten zur Erzeugung des Belohnungswerts denkbar. So kann bspw. nur in bestimmten Frequenzbereichen eine Wertung durchgeführt werden, und es können unterschiedliche Grenzwerte und Normierungen genutzt werden. 3 shows a diagram with a curve 150, which indicates how unpleasant different roll angle frequencies are perceived. Roll angle frequencies of approx. 0.7 Hz or in the range of 0.4 Hz to 1.0 Hz are perceived as particularly unpleasant. The curve 150 has been determined empirically. The curve 150 is suitable for generating a reward value as a function of the currently occurring roll angle frequencies. For this purpose, for example, the rolling angle frequencies that occur can be multiplied by the associated value of curve 150 and then added together in order to generate a measure of the current comfort in body 112 . For example, if the resulting value is above a predetermined threshold, a negative reward value may be generated, and if it is below the predetermined threshold, a positive reward value may be generated. Naturally, different possibilities for generating the reward value are conceivable. For example, an evaluation can only be carried out in certain frequency ranges, and different limit values and normalizations can be used.

4 zeigt schematisch den Ablauf des bestärkenden Lernens. In einem Kasten 84 sind die Umgebung 81 und der Agent 20 vorgesehen. Über einen Pfeil 85 werden der Fahrzeugzustand und die Sollwerte für die Aktoren an eine Zielfunktion 86 übergeben, und die Zielfunktion 86 berechnet ein Zielergebnis, welches über einen Pfeil 87 an einen Optimierer 88 übergeben wird. Das Zielergebnis kann auch als Belohnungswert bezeichnet werden. Der Optimierer 88 ermittelt geänderte Netzwerkparameter für das neuronale Netzwerk des Agenten 20 und gibt diese über einen Pfeil 89 an einen geänderten Agenten 90 weiter. Der geänderte Agent 90 wird über den Pfeil 91 dem Agenten 20 zugeführt bzw. ersetzt diesen. 4 shows schematically the process of reinforcement learning. In a box 84 the environment 81 and the agent 20 are provided. The vehicle state and the setpoint values for the actuators are transferred to a target function 86 via an arrow 85 and the target function 86 calculates a target result which is transferred to an optimizer 88 via an arrow 87 . The target result can also be referred to as the reward value. The optimizer 88 determines changed network parameters for the neural network of the agent 20 and passes them on to a changed agent 90 via an arrow 89 . The changed agent 90 is fed to the agent 20 via the arrow 91 or replaces it.

Bei den Algorithmen zum bestärkenden Lernen gibt es modellfreie Algorithmen und modellbasierte Algorithmen. Versuche haben ergeben, dass modellfreie Algorithmen für die Steuerung von Fahrzeugen besonders vorteilhafte Ergebnisse liefern und zu einem angenehmen Fahrverhalten führen. Bei den modellfreien Algorithmen zum bestärkenden Lernen gibt es insbesondere das Verfahren der Strategieoptimierung (englisch: policy optimization) und das Verfahren des Q-Lernens (englisch: Q-Iearning). Untersuchungen haben ergeben, dass die Strategieoptimierung beim maschinellen Lernen mit bestärkendem Lernen für den gewählten Einsatzbereich besonders positiv ist.When it comes to reinforcement learning algorithms, there are model-free algorithms and model-based algorithms. Experiments have shown that model-free algorithms for vehicle control deliver particularly advantageous results and lead to pleasant driving behavior. In the case of the model-free algorithms for reinforcement learning, there are in particular the method of strategy optimization (English: policy optimization) and the method of Q-learning (English: Q-learning). Research has shown that strategy optimization in machine learning with reinforcement learning for the selected area of application is particularly positive.

Zwei Verfahren haben sich bei der Strategieoptimierung als besonders vorteilhaft erwiesen. Zum einen existiert das sog. REINFORCE-Verfahren, und zum anderen das Verfahren der evolutionären Strategie (englisch: evolutionary strategy), das auch als ES-Verfahren bezeichnet wird.Two methods have proven to be particularly advantageous in strategy optimization. On the one hand there is the so-called REINFORCE method, and on the other hand the method of evolutionary strategy, which is also known as the ES method.

Beim REINFORCE-Verfahren wird ein Verhalten bestärkt, welches eine hohe Belohnung bzw. einen großen positiven Belohnungswert ergibt, und ein Verhalten mit niedriger Belohnung bzw. negativer Belohnung wird geschwächt. Hierzu wird bevorzugt folgende Funktion genutzt: $θ_{t + 1} = θ_{t} + α R (o,a) \nabla_{θ} ln P (a | o)$

mit dem Strategie-Parameter θ (englisch: policy parameter) zum Zeitpunkt t bzw. t+1, einem Applikationsparameter α, der die Lernrate beeinflusst, der Belohnungsfunktion R(o,a) für die Beobachtung o (Fahrzeugzustand) und die durchgeführte Aktion a sowie dem Gradienten nach dem Strategie-Parameter θ (englisch: agent gradient) vom natürlichen Logarithmus der Wahrscheinlichkeit P im neuronalen Netzwerk für die Aktion A im Hinblick auf die Beobachtung o. Das Produkt der Belohnungsfunktion mit dem Gradienten wird als Strategiegradient (englisch: policy gradient) bezeichnet. Der Strategiegradient kann auch anders aufgebaut werden, beispielsweise mit dem Logarithmus zur Basis 10.In the REINFORCE process, behavior that yields a high reward or large positive reward value is reinforced and behavior that yields a low reward or negative reward is weakened. The following function is preferably used for this:

θ_{t + 1} = θ_{t} + a R (O,a) \nabla_{θ} ln P (a | O)

with the strategy parameter θ (policy parameter) at time t or t+1, an application parameter α that influences the learning rate, the reward function R(o,a) for the observation o (vehicle state) and the action a carried out and the gradient according to the policy parameter θ (English: agent gradient) from the natural logarithm of the probability P in the neural network for the action A with regard to the observation o. The product of the reward function with the gradient is called the policy gradient (English: policy gradient ) designated. The strategy gradient can also be structured differently, for example with the logarithm to base 10.

Durch Anwendung dieser Funktion wird die Wahrscheinlichkeit für eine Aktion erhöht, wenn der daraus resultierende Belohnungswert positiv ist. Eine Aktion mit negativem Belohnungswert wird dagegen von der Wahrscheinlichkeit her erniedrigt. Im Ergebnis werden hierdurch die Netzwerkparameter derart geändert, dass der Agent mit der von den Netzwerkparametern abhängigen Strategie bevorzugt Aktionen durchführt, welche eine hohe Belohnung ergeben.Applying this feature increases the probability of an action when the resulting reward value is positive. An action with a negative reward value, on the other hand, is reduced in probability. As a result, the network parameters are changed in such a way that the agent, with the strategy dependent on the network parameters, preferably carries out actions which result in a high reward.

Die evolutionäre Strategie hat ein analoges Ziel wie das REINFORCE-Verfahren, es arbeitet jedoch direkt auf der Ebene der Netzwerkparameter. Die Netzwerkparameter werden durch Hinzufügung von Störwerten variiert, und es wird überprüft, ob durch diese Variationen eine Verbesserung der zu erwartenden Belohnungswerte erzielt werden kann. Die Optimierung erfolgt auf Grundlage der folgenden Gleichung: $\nabla_{θ} J (θ) = E_{τ ~A θ} [E_{ε ~N} [(R (θ + ε) - R (θ - ε)) / ε]]$

mit dem Gradienten nach dem Strategie-Parameter θ von einer Kostenfunktion J, der in Abhängigkeit einer Störung ε des Strategie-Parameters θ nach dem Vorbild einer Mutation variiert wird, und Variationen mit hohen Belohnungswerten werden verstärkt. E_τ∼Aθ ist der Erwartungswert für eine gewählte Aktion τ aus den möglichen Aktionen A_θ. E_ε∼N ist der Erwartungswert für die Störung ε, die aus einer Normalverteilung N gewählt ist. Der hintere Teil stellt eine Abschätzung der finiten Differenz dar.The evolutionary strategy has an analogous goal to the REINFORCE method, but it works directly on the network parameter level. The network parameters are varied by adding disturbance values, and it is checked whether these variations can improve the expected reward values. The optimization is based on the following equation:

\nabla_{θ} J (θ) = E_{τ ~A θ} [E_{e ~N} [(R (θ + e) - R (θ - e)) / e]]

with the gradient according to the strategy parameter θ of a cost function J varied depending on a perturbation ε of the strategy parameter θ along the lines of a mutation, and variations with high reward values are amplified. E _τ∼Aθ is the expected value for a chosen action τ from the possible actions A _θ . E _ε∼N is the expectation value for the disturbance ε, which is chosen from a normal distribution N. The rear part represents an estimate of the finite difference.

5 zeigt die Radbewegung des vorderen rechten Rads, 6 die Radbewegung des vorderen linken Rads, 7 die Radbewegung des hinteren rechten Rads und 8 die Radbewegung des hinteren linken Rads. Die Abszisse zeigt jeweils die Zeit t in Sekunden, und die Ordinate zeigt die Radbewegung in Metern. Die Kurven 201.1, 201.2, 201.3 und 201.4 zeigen die jeweilige Radbewegung im trainierten Zustand des neuronalen Netzwerks, und die Kurven 202.1, 202.2, 202.3 und 202.4 die Radbewegung im untrainierten Zustand des neuronalen Netzwerks. Der Untergrund hat bei der Simulation die Form einer Stufe (englisch: step), wobei immer eine Stufe nach oben und eine Stufe nach unten aufeinander folgen und die Stufen zwischen der linken Seite und der rechten Seite zueinander versetzt sind. Das aktive Fahrwerk muss entsprechend korrigieren, um den Wankwinkel zu verringern, zumindest in den relevanten Frequenzbereichen. Die vertikale Bewegung der Räder ist im trainierten Zustand generell größer als im untrainierten Zustand, und dies ermöglicht einen besseren Ausgleich der Unebenheiten. 5 shows the wheel movement of the front right wheel, 6 the wheel movement of the front left wheel, 7 the wheel movement of the rear right wheel and 8th the wheel motion of the rear left wheel. The abscissa shows the time t in seconds and the ordinate shows the wheel movement in meters. The curves 201.1, 201.2, 201.3 and 201.4 show the respective wheel movement in the trained state of the neural network, and the curves 202.1, 202.2, 202.3 and 202.4 the wheel movement in the untrained state of the neural network. In the simulation, the underground has the form of a step, with one step up and one step down always following one another and the steps between the left side and the right side are offset to one another. The active chassis must correct accordingly in order to reduce the roll angle, at least in the relevant frequency ranges. The vertical movement of the wheels is generally greater when trained than when untrained, and this allows for better smoothing over bumps.

Neben der Simulation mit einem solchen stufenförmigen Untergrund können beispielsweise Simulationen mit folgenden Untergrundvarianten durchgeführt werden:

- Sinusform
- Sägezahnform (englisch: saw form)
- zufällig erzeugte Form
- tatsächliche Messung eines Straßenuntergrunds

In addition to the simulation with such a stepped background, simulations can be carried out with the following background variants:

- Sinusoidal
- saw tooth shape
- randomly generated shape
- actual measurement of a roadbed

Hierbei kann beispielsweise variiert werden in der Amplitude, in der Standardabweichung, in der Periodendauer, in der Länge, in der linken und rechten Symmetrie und in der Neigung. Here, for example, the amplitude, the standard deviation, the period, the length, the left and right symmetry and the inclination can be varied.

9 zeigt den Wankwinkel im Bogenmaß über die Zeit t in Sekunden. Die Linie 203 entspricht dem Wankwinkel bei trainiertem neuronalem Netzwerk, und die Linie 204 bei untrainiertem neuronalem Netzwerk. Es ist zu sehen, dass die Amplituden des Wankwinkels im untrainierten Zustand um das vierfache bis sechsfache größer sind als im trainierten Zustand und der trainierte Zustand führt zu einem deutlich ruhigeren Fahrverhalten des Fahrzeugs. 9 shows the roll angle in radians over time t in seconds. Line 203 corresponds to the roll angle with a trained neural network, and line 204 with an untrained neural network. It can be seen that the amplitudes of the roll angle in the untrained state are four to six times larger than in the trained state and the trained state leads to a significantly smoother driving behavior of the vehicle.

10 zeigt die Wankwinkelgeschwindigkeit, aufgetragen über die Zeit t in Sekunden. Die Wankwinkelgeschwindigkeit ist als Rate des Bogenmaßes angegeben mit der Einheit rad/s. Die Kurve 205 zeigt die Wankwinkelgeschwindigkeit beim trainierten neuronalen Netzwerk, und die Kurve 206 beim untrainierten neuronalen Netzwerk. Die Wankwinkelgeschwindigkeit beim trainierten neuronalen Netzwerk ist deutlich geringer als beim untrainierten neuronalen Netzwerk, und dies führt zu einem ruhigeren und angenehmeren Fahrverhalten des Fahrzeugs. 10 shows the roll angular velocity plotted over time t in seconds. the Roll velocity is given as a rate of radians with units of rad/s. Curve 205 shows the roll angular velocity for the trained neural network, and curve 206 for the untrained neural network. The roll angular velocity of the trained neural network is significantly lower than that of the untrained neural network, and this leads to a smoother and more pleasant driving behavior of the vehicle.

11 zeigt als Kurve 207 das durch den Untergrund erzeugte Moment, und die Kurve 208 zeigt das durch den Agenten 20 mit Hilfe des trainierten neuronalen Netzwerks erzeugte Moment über die Zeit t in Sekunden. Mit Hilfe des Agenten 20 und dem trainierten neuronalen Netzwerk kann das äußere Moment fast vollständig kompensiert werden, und dies führ zu einem ruhigen und angenehmen Fahrverhalten und hohem Komfort. 11 shows the moment generated by the background as curve 207, and curve 208 shows the moment generated by the agent 20 with the aid of the trained neural network over time t in seconds. With the help of the agent 20 and the trained neural network, the external moment can be almost completely compensated, and this leads to a smooth and pleasant driving behavior and a high level of comfort.

12 zeigt als Linie 209 das durch den Untergrund erzeugte Moment, und die Linie 210 zeigt das durch den Agenten 20 mit Hilfe des untrainierten neuronalen Netzwerks erzeugte Moment über die Zeit t in Sekunden. Der Agent 20 ist mit untrainiertem neuronalen Netzwerk nicht in der Lage ein entsprechendes Gegenmoment zu erzeugen, und hierdurch tritt eine vergleichsweise große Wankbewegung der Karosserie auf, die der Fahrer als unangenehm wahrnimmt. 12 shows as line 209 the moment generated by the background, and line 210 shows the moment generated by the agent 20 with the help of the untrained neural network over time t in seconds. With an untrained neural network, the agent 20 is not able to generate a corresponding counter-torque, and as a result a comparatively large rolling movement of the body occurs, which the driver perceives as unpleasant.

13 zeigt ein Histogramm, bei dem die Abszisse ein Maß für die Unbequemlichkeit im Fahrzeug angibt und die Ordinate die beim bestärkenden Lernen des neuronalen Netzwerks unterschiedlichen Ergebnisse auf das Maß der Unbequemlichkeit aufteilt. Das Maß für die Unbequemlichkeit ist von links nach rechts zunehmend. Der Balken bei 221 entspricht einer passiven Steuervorrichtung, und diese ist mit einem Maß von ca. 0,0114 vergleichsweise unkomfortabel. Der Balken 222 entspricht einem bevorzugten Ergebnis eines trainierten neuronalen Netzwerks, welches mit einem Wert von 0,00487 einen hohen Komfort bietet bzw. ein geringes Maß an Unbequemlichkeit aufweist. Es hat sich gezeigt, dass durch das bestärkende Lernen hervorragende Parameter für das neuronale Netzwerk ermittelt werden können, welche mit der Simulation von 2 zu einem guten Ergebnis geführt haben. Im vorliegenden Fall wurde das bestätigende Lernen nach der Methode der evolutionären Strategien durchgeführt. 13 Fig. 12 shows a histogram in which the abscissa indicates an in-vehicle discomfort level and the ordinate divides the different results in the neural network reinforcement learning to the discomfort level. The level of discomfort increases from left to right. The bar at 221 corresponds to a passive controller and this is comparatively uncomfortable, measuring about 0.0114. The bar 222 corresponds to a preferred result of a trained neural network, which with a value of 0.00487 offers a high level of comfort or has a low degree of inconvenience. It has been shown that excellent parameters for the neural network can be determined through reinforcement learning, which can be determined with the simulation of 2 led to a good result. In the present case, the confirmatory learning was carried out according to the method of evolutionary strategies.

Mit einem solchen neuronalen Netzwerk sind auch deutlich komplexere Agenten mit weiteren Aktoren implementierbar, und das Framework mit dem neuronalen Netzwerk kann für unterschiedliche Steuervorrichtungen bzw. Regelvorrichtungen genutzt werden. Beispiele für weitere Aktoren sind

- Hinterradlenkvorrichtung;
- Wankmomentverteilungsvorrichtung;
- Antriebskraftverteilungsvorrichtung bei einem Fahrzeug mit Zweiachsenantrieb;
- Fahrdynamikregelung.

Significantly more complex agents with additional actuators can also be implemented with such a neural network, and the framework with the neural network can be used for different control devices or regulating devices. Examples of other actors are

- rear wheel steering device;
- rolling moment distribution device;
- Driving force distribution device in a vehicle with two-axle drive;
- Driving dynamics control.

14 zeigt in schematischer Darstellung ein Fahrzeug 10 mit der Steuervorrichtung 30, Aktoren 61, 62 und Sensoren 67, 68 zur Erzeugung von Fahrzeugdaten 53, 54. Die Steuervorrichtung 30 hat einen Eingang 31 zum Empfang der Fahrzeugdaten 53, 54 und einen Ausgang 32 zur Ausgabe von Sollwerten 63, 64 für die Aktoren 61, 62. 14 shows a schematic representation of a vehicle 10 with the control device 30, actuators 61, 62 and sensors 67, 68 for generating vehicle data 53, 54. The control device 30 has an input 31 for receiving the vehicle data 53, 54 and an output 32 for outputting Target values 63, 64 for the actuators 61, 62.

Die Steuervorrichtung 30 hat den Agenten 20, der die Aktoren 61, 62 mit den Sollwerten 63, 64 ansteuert. Der Agent 20 hat das neuronale Netzwerk 43 mit Netzwerkparametern NP, und ihm werden die Fahrzeugdaten 53, 54 zugeführt.The control device 30 has the agent 20, which controls the actuators 61, 62 with the target values 63, 64. The agent 20 has the neural network 43 with network parameters NP, and the vehicle data 53, 54 are supplied to it.

In einem Schritt A) werden die Fahrzeugdaten 53, 54 über den mindestens einen Eingang 31 erfasst, und es wird ein aktueller Fahrzeugzustand 41 berechnet. In a step A), the vehicle data 53, 54 are recorded via the at least one input 31, and a current vehicle state 41 is calculated.

Der Fahrzeugzustand kann aus einer Aneinanderreihung der Fahrzeugdaten 53, 54 bestehen, bevorzugt werden aber aus den Fahrzeugdaten 53, 54 weitere Zustandsdaten berechnet.The vehicle status can consist of a series of vehicle data 53, 54, but further status data are preferably calculated from vehicle data 53, 54.

In einem Schritt B) ordnet der Agent 20 gemäß einer mit dem neuronalen Netzwerk 43 implementierten Strategie in Abhängigkeit von den Netzwerkparametern NP dem aktuellen Fahrzeugzustand 41 eine Aktion 42 zu. Das neuronale Netzwerk 43 kann auch als neuronales Netz 43 bezeichnet werden.In a step B), the agent 20 assigns an action 42 to the current vehicle state 41 according to a strategy implemented with the neural network 43 as a function of the network parameters NP. The neural network 43 can also be referred to as a neural network 43 .

In Abhängigkeit von der Aktion 42 werden in einem Schritt C) aktualisierte Sollwerte 63, 64 für die Aktoren 61, 62 des Fahrzeugs 10 bestimmt und über den mindestens einen Ausgang 32 ausgegeben.Depending on action 42 , updated target values 63 , 64 for actuators 61 , 62 of vehicle 10 are determined in a step C) and are output via the at least one output 32 .

In einem Schritt D) wird in Abhängigkeit von der Änderung der Fahrzeugdaten 53, 54 in Folge der aktualisierten Sollwerte 63, 64 durch die Belohnungserzeugungsvorrichtung 65 mithilfe einer Belohnungsfunktion ein Belohnungswert ermittelt, welcher positiv oder negativ sein kann. Positiv drückt aus, dass die Strategie vorteilhaft war, und negativ drückt aus, dass sie nicht vorteilhaft war.In a step D), depending on the change in the vehicle data 53, 54 as a result of the updated target values 63, 64, the reward generation device 65 uses a reward function to determine a reward value, which can be positive or negative. Positive indicates that the strategy was beneficial and negative indicates that it was not beneficial.

Der Belohnungswert 66 wird einem Schritt E) zugeführt, und in diesem Schritt werden die Netzwerkparameter NP durch bestärkendes Lernen in Abhängigkeit vom Belohnungswert 66 geändert (NP'), um durch die Änderung die bei Anwendung des neuronalen Netzwerks 43 zu erwartenden Belohnungswerte 66 zu erhöhen. Die Änderung der Belohnungswerte NP kann unmittelbar erfolgen, oder sie kann bspw. nach einem Halt des Fahrzeugs 10 erfolgen.The reward value 66 is fed to a step E), and in this step the network parameters NP are changed (NP′) by reinforcement learning depending on the reward value 66 in order to increase the reward values 66 to be expected when using the neural network 43 through the change. The reward values NP can be changed immediately, or it can take place, for example, after the vehicle 10 has stopped.

Bevorzugt hat die Steuervorrichtung 30 eine Datenschnittstelle 69, beispielsweise drahtlos oder drahtgebunden, und der Steuervorrichtung 30 können im in einem Fahrzeug 10 eingebauten Zustand zweite Netzwerkparameter NP'' zugesendet werden. Dies ermöglicht eine Verbesserung des neuronalen Netzwerks von außen auch im eingebauten Zustand der Steuervorrichtung 30. Die Datenschnittstelle 69 ist bevorzugt bidirektional.The control device 30 preferably has a data interface 69, for example wireless or wired, and the control device 30 can be sent second network parameters NP'' when it is installed in a vehicle 10. This enables the neural network to be improved from the outside, even when the control device 30 is installed. The data interface 69 is preferably bidirectional.

Bevorzugt sind die zweiten Netzwerkparameter NP'' abhängig von einer Mehrzahl von nicht dargestellten anderen Steuervorrichtungen 30 von unterschiedlichen anderen Fahrzeugen 10, und die Steuervorrichtung 30 ist dazu ausgebildet, die Netzwerkparameter NP in Abhängigkeit von den zweiten Netzwerkparametern NP'' zu ändern. Hierdurch können unterschiedliche Netzwerkparameter eines Fahrzeugtyps ausgewertet werden, und besonders vorteilhafte Netzwerkparameter können an die Fahrzeuge des gleichen Fahrzeugtyps gesandt werden. Dies ist beispielsweise vorteilhaft, wenn ein bestimmter Fahrzeugzustand nur sehr selten auftritt und daher nicht oder nur wenig optimiert wird. Hierdurch kann auch die Sicherheit in selten vorkommenden Situationen verbessert werden.The second network parameters NP'' are preferably dependent on a plurality of other control devices 30 (not shown) from different other vehicles 10, and the control device 30 is designed to change the network parameters NP depending on the second network parameters NP''. In this way, different network parameters of a vehicle type can be evaluated, and particularly advantageous network parameters can be sent to vehicles of the same vehicle type. This is advantageous, for example, when a specific vehicle state occurs only very rarely and is therefore not optimized, or only slightly so. This can also improve security in situations that rarely occur.

Naturgemäß sind im Rahmen der vorliegenden Erfindung vielfältige Abwandlungen und Modifikationen möglich.A wide range of variations and modifications are of course possible within the scope of the present invention.

ZITATE ENTHALTEN IN DER BESCHREIBUNGQUOTES INCLUDED IN DESCRIPTION

Diese Liste der vom Anmelder aufgeführten Dokumente wurde automatisiert erzeugt und ist ausschließlich zur besseren Information des Lesers aufgenommen. Die Liste ist nicht Bestandteil der deutschen Patent- bzw. Gebrauchsmusteranmeldung. Das DPMA übernimmt keinerlei Haftung für etwaige Fehler oder Auslassungen.This list of documents cited by the applicant was generated automatically and is included solely for the better information of the reader. The list is not part of the German patent or utility model application. The DPMA assumes no liability for any errors or omissions.

Zitierte PatentliteraturPatent Literature Cited

DE 102019104966 A1 [0002]
DE 102006054425 A1 [0003]
DE 102017007136 A1 [0004]
DE 102020106936 A1 [0005]
DE 112016003350 T5 [0006]

Claims

Method for controlling actuators (61, 62) of a vehicle (10) by means of a control device (30), which control device (30) has at least one input (31) for receiving vehicle data (53, 54), which control device (30) has at least one output (32) for outputting desired values (63, 64) for actuators (61, 62), which control device (30) has an agent (20), a neural network (43) with network parameters (NP) for the neural network (43), and a reward generation device (65) and is designed to set target values (63, 64) for the to determine actuators (61, 62), which procedure has the following steps: A) The vehicle data (53, 54) are recorded via the at least one input (31), and a current vehicle status (41) is calculated; B) The agent (20) assigns an action (42) to the current vehicle state (41) according to a strategy implemented with the neural network (43) as a function of the network parameters (NP); C) Depending on the action (42), updated target values (63, 64) for the actuators (61, 62) are determined and output via the at least one output (32); D) Depending on the change in the vehicle data (53, 54) as a result of the updated target values (63, 64), a reward value (66), which can be positive or negative, is determined by the reward generation device (65) using a reward function; E) The network parameters (NP) are changed by reinforcement learning depending on the reward value (66) in order to increase the reward values (66) to be expected when using the neural network (43).

procedure after claim 1 , in which the reinforcement learning is performed as model-free reinforcement learning.

procedure after claim 1 or 2 , in which the agent (20) first network parameters (NP) are specified, which first network parameters (NP) previously determined by reinforcement learning with the agent (20) or with another agent (20) with the same neuronal network (43) structure will.

procedure after claim 3 , in which a simulation (110) of a vehicle (10) is created, and in which the first network parameters (NP) are determined using the simulation (110).

procedure after claim 3 or 4 , in which the agent (20) for the simulation (110) in a vehicle (10) actually measured vehicle data (53, 54) are supplied.

Method according to one of the preceding claims, in which the network parameters (NP) are also changed when the control device (30) is installed in a vehicle (10) by reinforcement learning as a function of the reward value (66), the reward value (66) being dependent is determined from the actual influencing of the vehicle data (53, 54) by the agent (20) in order to increase the reward values (66) to be expected when using the neural network (43) by changing the network parameters (NP).

procedure after claim 6 , in which the change in the network parameters (NP) is also carried out while the vehicle (10) is moving.

Method according to one of the preceding claims, in which the control device (30) has a data interface (69) and in which the control device (30) is sent second network parameters (NP'') when installed in a vehicle (10).

procedure after claim 8 , in which the second network parameters (NP'') are dependent on a plurality of other control devices (30) from different other vehicles (10), and in which the control device (30) is designed to change the network parameters (NP) as a function of to change the second network parameter (NP'').

Method according to one of the preceding claims, in which the network parameters (NP) are changed in the neural network (43) with the aim of increasing the probability of a specified action (42) of the strategy given a specified vehicle state (41) if the Carrying out this specified action (42) in the specified vehicle state (41) has resulted in a positive reward value.

Method according to one of the preceding claims, in which the network parameters (NP) are changed in the neural network (43) with the aim of reducing the probability of a specified action (42) of the strategy given a specified vehicle state (41) if the Carrying out this specified action (42) in the specified vehicle state (41) has resulted in a negative reward value.

Method according to one of the preceding claims, in which the network parameters (NP) are changed in the neural network (43) by evaluating the influence of variations in the network parameters (NP) caused by adding disturbances with regard to the change in the reward value (66). and changing the network parameters (NP) if the variation results in a better reward value (66).

Control device for controlling a vehicle (10) with actuators (61, 62), which control device (30) has at least one input (31) for receiving vehicle data (53, 54), which control device (30) has at least one output (32) for Output of target values (63, 64) for actuators (61, 62), which control device (30) has an agent (20), a neural network (43) with network parameters (NP) for the neural network, and a reward generation device (65) has and is designed to carry out a method according to any one of the preceding claims.

Vehicle (10), which according to a control device Claim 13 and actuators (61, 62).