DE102021107458A1 - Control device and method - Google Patents
Control device and method Download PDFInfo
- Publication number
- DE102021107458A1 DE102021107458A1 DE102021107458.4A DE102021107458A DE102021107458A1 DE 102021107458 A1 DE102021107458 A1 DE 102021107458A1 DE 102021107458 A DE102021107458 A DE 102021107458A DE 102021107458 A1 DE102021107458 A1 DE 102021107458A1
- Authority
- DE
- Germany
- Prior art keywords
- vehicle
- control device
- network parameters
- neural network
- reward
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- B—PERFORMING OPERATIONS; TRANSPORTING
- B60—VEHICLES IN GENERAL
- B60G—VEHICLE SUSPENSION ARRANGEMENTS
- B60G17/00—Resilient suspensions having means for adjusting the spring or vibration-damper characteristics, for regulating the distance between a supporting surface and a sprung part of vehicle or for locking suspension during use to meet varying vehicular or surface conditions, e.g. due to speed or load
- B60G17/015—Resilient suspensions having means for adjusting the spring or vibration-damper characteristics, for regulating the distance between a supporting surface and a sprung part of vehicle or for locking suspension during use to meet varying vehicular or surface conditions, e.g. due to speed or load the regulating means comprising electric or electronic elements
-
- B—PERFORMING OPERATIONS; TRANSPORTING
- B60—VEHICLES IN GENERAL
- B60G—VEHICLE SUSPENSION ARRANGEMENTS
- B60G2600/00—Indexing codes relating to particular elements, systems or processes used on suspension systems or suspension control systems
- B60G2600/18—Automatic control means
- B60G2600/187—Digital Controller Details and Signal Treatment
- B60G2600/1876—Artificial intelligence
-
- B—PERFORMING OPERATIONS; TRANSPORTING
- B60—VEHICLES IN GENERAL
- B60G—VEHICLE SUSPENSION ARRANGEMENTS
- B60G2800/00—Indexing codes relating to the type of movement or to the condition of the vehicle and to the end result to be achieved by the control action
- B60G2800/01—Attitude or posture control
- B60G2800/012—Rolling condition
-
- B—PERFORMING OPERATIONS; TRANSPORTING
- B60—VEHICLES IN GENERAL
- B60G—VEHICLE SUSPENSION ARRANGEMENTS
- B60G2800/00—Indexing codes relating to the type of movement or to the condition of the vehicle and to the end result to be achieved by the control action
- B60G2800/24—Steering, cornering
-
- B—PERFORMING OPERATIONS; TRANSPORTING
- B60—VEHICLES IN GENERAL
- B60G—VEHICLE SUSPENSION ARRANGEMENTS
- B60G2800/00—Indexing codes relating to the type of movement or to the condition of the vehicle and to the end result to be achieved by the control action
- B60G2800/70—Estimating or calculating vehicle parameters or state variables
Landscapes
- Engineering & Computer Science (AREA)
- Mechanical Engineering (AREA)
- Vehicle Body Suspensions (AREA)
- Feedback Control In General (AREA)
Abstract
Ein Verfahren zum Steuern von Aktoren (61, 62) eines Fahrzeugs (10) mittels einer Steuervorrichtung (30), welche Steuervorrichtung (30) mindestens einen Eingang (31) zum Empfang von Fahrzeugdaten (53, 54) aufweist, welche Steuervorrichtung (30) mindestens einen Ausgang (32) zur Ausgabe von Sollwerten (63, 64) für Aktoren (61, 62) aufweist, welche Steuervorrichtung (30) einen Agenten (20), ein neuronales Netzwerk (43) mit Netzwerkparametern (NP) für das neuronale Netzwerk (43), und eine Belohnungserzeugungsvorrichtung (65) aufweist und dazu ausgebildet ist, Sollwerte (63, 64) für die Aktoren (61, 62) zu ermitteln, weist die folgenden Schritte auf:A) Die Fahrzeugdaten (53, 54) werden über den mindestens einen Eingang (31) erfasst, und es wird ein aktueller Fahrzeugzustand (41) berechnet;B) Der Agent (20) ordnet gemäß einer mit dem neuronalen Netzwerk (43) implementierten Strategie in Abhängigkeit von den Netzwerkparametern (NP) dem aktuellen Fahrzeugzustand (41) eine Aktion (42) zu;C) In Abhängigkeit von der Aktion (42) werden aktualisierte Sollwerte (63, 64) für die Aktoren (61, 62) bestimmt und über den mindestens einen Ausgang (32) ausgegeben;D) In Abhängigkeit von der Änderung der Fahrzeugdaten (53, 54) in Folge der aktualisierten Sollwerte (63, 64) wird durch die Belohnungserzeugungsvorrichtung (65) mit Hilfe einer Belohnungsfunktion ein Belohnungswert (66) ermittelt, welcher positiv oder negativ sein kann;E) Die Netzwerkparameter (NP) werden durch bestärkendes Lernen in Abhängigkeit vom Belohnungswert (66) geändert, um durch die Änderung die bei Anwendung des neuronalen Netzwerks (43) zu erwartenden Belohnungswerte (66) zu erhöhen.A method for controlling actuators (61, 62) of a vehicle (10) using a control device (30), which control device (30) has at least one input (31) for receiving vehicle data (53, 54), which control device (30) has at least one output (32) for outputting target values (63, 64) for actuators (61, 62), which control device (30) has an agent (20), a neural network (43) with network parameters (NP) for the neural network (43) and a reward generating device (65) and is designed to determine target values (63, 64) for the actuators (61, 62), has the following steps: A) The vehicle data (53, 54) are the at least one input (31) is detected, and a current vehicle status (41) is calculated;B) the agent (20) arranges the current vehicle status according to a strategy implemented with the neural network (43), depending on the network parameters (NP). (41) an action (42) to;C) In Depending on the action (42), updated target values (63, 64) for the actuators (61, 62) are determined and output via the at least one output (32); D) depending on the change in the vehicle data (53, 54) in As a result of the updated target values (63, 64), the reward generation device (65) uses a reward function to determine a reward value (66), which can be positive or negative;E) the network parameters (NP) are determined by reinforcing learning as a function of the reward value ( 66) in order to increase the expected reward values (66) when using the neural network (43).
Description
Die Erfindung betrifft eine Steuervorrichtung und ein Verfahren zum Steuern von Aktoren eines Fahrzeugs.The invention relates to a control device and a method for controlling actuators of a vehicle.
Die
Die
Die
Die
Die
Es ist daher eine Aufgabe der Erfindung, ein neues Verfahren zum Steuern von Aktoren eines Fahrzeugs und eine neue Steuervorrichtung bereitzustellen. It is therefore an object of the invention to provide a new method for controlling actuators of a vehicle and a new control device.
Diese Aufgabe wird gelöst durch den Gegenstand des Anspruchs 1 und des Anspruchs 13.This object is solved by the subject matter of
Ein Verfahren zum Steuern von Aktoren eines Fahrzeugs mittels einer Steuervorrichtung, welche Steuervorrichtung mindestens einen Eingang zum Empfang von Fahrzeugdaten aufweist, welche Steuervorrichtung mindestens einen Ausgang zur Ausgabe von Sollwerten für Aktoren aufweist, welche Steuervorrichtung einen Agenten, ein neuronales Netzwerk mit Netzwerkparametern für das neuronale Netzwerk, und eine Belohnungserzeugungsvorrichtung aufweist und dazu ausgebildet ist, Sollwerte für die Aktoren zu ermitteln, weist die folgenden Schritte auf:
- A) Die Fahrzeugdaten werden über den mindestens einen Eingang erfasst, und es wird ein aktueller Fahrzeugzustand berechnet;
- B) Der Agent ordnet gemäß einer mit dem neuronalen Netzwerk implementierten Strategie in Abhängigkeit von den Netzwerkparametern dem aktuellen Fahrzeugzustand eine Aktion zu;
- C) In Abhängigkeit von der Aktion werden aktualisierte Sollwerte für die Aktoren bestimmt und über den mindestens einen Ausgang ausgegeben;
- D) In Abhängigkeit von der Änderung der Fahrzeugdaten in Folge der aktualisierten Sollwerte wird durch die Belohnungserzeugungsvorrichtung mit Hilfe einer Belohnungsfunktion ein Belohnungswert ermittelt, welcher positiv oder negativ sein kann;
- E) Die Netzwerkparameter werden durch bestärkendes Lernen in Abhängigkeit vom Belohnungswert geändert, um durch die Änderung die bei Anwendung des neuronalen Netzwerks zu erwartenden Belohnungswerte zu erhöhen.
- A) The vehicle data are recorded via the at least one input, and a current vehicle status is calculated;
- B) The agent assigns an action to the current vehicle state according to a strategy implemented with the neural network depending on the network parameters;
- C) Depending on the action, updated target values for the actuators are determined and output via the at least one output;
- D) Depending on the change in the vehicle data as a result of the updated target values, a reward value, which can be positive or negative, is determined by the reward generation device using a reward function;
- E) The network parameters are changed by reinforcement learning depending on the reward value in order to increase the reward values to be expected when using the neural network.
Die Anwendung eines neuronalen Netzwerks mit bestärkendem Lernen hat in Versuchen zu einem außergewöhnlich guten Verhalten des Agenten geführt, dessen Qualität die Qualität bisheriger Steuervorrichtungen zumindest bereichsweise übertroffen hat.The application of a neural network with reinforcement learning has led to an exceptionally good behavior of the agent in tests, the quality of which has at least partially surpassed the quality of previous control devices.
Gemäß einer bevorzugten Ausführungsform wird das bestärkende Lernen als modellfreies bestärkendes Lernen durchgeführt. Durch die modellfreie Ausgestaltung wird die Gefahr einer Verschlechterung durch ein fehlerhaftes Modell verringert, und die Qualität hat sich als besonders gut erwiesen.According to a preferred embodiment, the reinforcement learning is performed as model-free reinforcement learning. The model-free design reduces the risk of deterioration due to a faulty model, and the quality has proven to be particularly good.
Gemäß einer bevorzugten Ausführungsform werden dem Agenten erste Netzwerkparameter vorgegeben, welche ersten Netzwerkparameter zuvor durch bestärkendes Lernen mit dem Agenten oder mit einem anderen Agenten mit dem strukturell gleichen neuronalen Netzwerk ermittelt werden. Dies ermöglicht von Beginn an einen gut funktionierenden Agenten und verringert die Zeit für die weitere Optimierung.According to a preferred embodiment, the agent is given first network parameters, which first network parameters are previously determined by reinforcement learning with the agent or with another agent with the same neural network structure. This enables a well-functioning agent from the start and reduces the time for further optimization.
Gemäß einer bevorzugten Ausführungsform wird eine Simulation eines Fahrzeugs erstellt, und die ersten Netzwerkparameter werden mit Hilfe der Simulation ermittelt. Die Verwendung einer Simulation ist für den Beginn deutlich günstiger als tatsächliche Testfahrten, und es können auch besondere Situationen zum Lernen verwendet werden.According to a preferred embodiment, a simulation of a vehicle is created and the first network parameters are determined using the simulation. Using a simulation is significantly cheaper to start with than actual test drives, and special situations can also be used for learning.
Gemäß einer bevorzugten Ausführungsform werden dem Agenten für die Simulation in einem Fahrzeug real gemessene Fahrzeugdaten zugeführt. Dies können beispielsweise Fahrzeugdaten eines Radsensors oder Messdaten der Straßenbeschaffenheit sein.According to a preferred embodiment, the agent for the simulation in a Vehicle real measured vehicle data supplied. This can be, for example, vehicle data from a wheel sensor or measured data on the condition of the road.
Gemäß einer bevorzugten Ausführungsform werden die Netzwerkparameter auch im eingebauten Zustand der Steuervorrichtung in einem Fahrzeug durch bestärkendes Lernen in Abhängigkeit vom Belohnungswert geändert, wobei der Belohnungswert in Abhängigkeit von der tatsächlichen Beeinflussung der Fahrzeugdaten durch den Agenten ermittelt wird, um durch die Änderung der Netzwerkparameter die bei Anwendung des neuronalen Netzwerks zu erwartenden Belohnungswerte zu erhöhen. Das bestärkende Lernen kann hierdurch beim Endkunden weiter erfolgen, und das neuronale Netzwerk kann an die Fahreigenheiten des Endkunden verbessernd angepasst werden. Durch das bestärkende Lernen im eingebauten Zustand kann ein lebenslanges Lernen verwirklicht werden.According to a preferred embodiment, the network parameters are also changed in the installed state of the control device in a vehicle by reinforcement learning depending on the reward value, the reward value being determined depending on the actual influencing of the vehicle data by the agent in order to change the network parameters Application of the neural network to increase expected reward values. The reinforcement learning can thus continue to take place at the end customer, and the neural network can be adapted to improve the driving characteristics of the end customer. Lifelong learning can be realized through the reinforcing learning in the built-in state.
Gemäß einer bevorzugten Ausführungsform wird die Änderung der Netzwerkparameter auch während einer Bewegung des Fahrzeugs durchgeführt. Dies ermöglicht eine schnelle Anpassung an aktuelle Versionen, beispielsweise an einen neuartigen Untergrund.According to a preferred embodiment, the network parameters are also changed while the vehicle is moving. This enables quick adaptation to current versions, for example to a new type of subsurface.
Gemäß einer bevorzugten Ausführungsform weist die Steuervorrichtung eine Datenschnittstelle auf, und der Steuervorrichtung werden im in einem Fahrzeug eingebauten Zustand zweite Netzwerkparameter zugesendet. Durch das Vorhandensein einer Datenschnittstelle kann der Fahrzeughersteller verbesserte Netzwerkparameter an die Fahrzeuge senden und ggf. auch Netzwerkparameter der Fahrzeuge auswerten und zur Optimierung verwenden.According to a preferred embodiment, the control device has a data interface, and second network parameters are sent to the control device when it is installed in a vehicle. Due to the presence of a data interface, the vehicle manufacturer can send improved network parameters to the vehicles and, if necessary, also evaluate network parameters of the vehicles and use them for optimization.
Gemäß einer bevorzugten Ausführungsform sind die zweiten Netzwerkparameter abhängig von einer Mehrzahl von anderen Steuervorrichtungen von unterschiedlichen anderen Fahrzeugen, und die Steuervorrichtung ist dazu ausgebildet, die Netzwerkparameter in Abhängigkeit von den zweiten Netzwerkparametern zu ändern. Hierdurch kann eine Optimierung der gesamten Flotte durchgeführt werden.According to a preferred embodiment, the second network parameters are dependent on a plurality of other control devices from different other vehicles, and the control device is designed to change the network parameters as a function of the second network parameters. This allows the entire fleet to be optimized.
Gemäß einer bevorzugten Ausführungsform werden im neuronalen Netzwerk die Netzwerkparameter mit dem Ziel geändert, dass die Wahrscheinlichkeit für eine vorgegebene Aktion der Strategie bei einem vorgegebenen Fahrzeugzustand erhöht wird, wenn die Durchführung dieser vorgegebenen Aktion beim vorgegebenen Fahrzeugzustand einen positiven Belohnungswert ergeben hat. Dies beschleunigt das maschinelle Lernen.According to a preferred embodiment, the network parameters are changed in the neural network with the aim of increasing the probability of a specified action of the strategy given a specified vehicle state if the performance of this specified action in the specified vehicle state resulted in a positive reward value. This speeds up machine learning.
Gemäß einer bevorzugten Ausführungsform werden im neuronalen Netzwerk die Netzwerkparameter mit dem Ziel geändert, dass die Wahrscheinlichkeit für eine vorgegebene Aktion der Strategie bei einem vorgegebenen Fahrzeugzustand erniedrigt wird, wenn die Durchführung dieser vorgegebenen Aktion beim vorgegebenen Fahrzeugzustand einen negativen Belohnungswert ergeben hat. Nachteilige Aktionen werden hierdurch mit der Zeit unterdrückt.According to a preferred embodiment, the network parameters are changed in the neural network with the aim of reducing the probability of a specified action of the strategy given a specified vehicle state if the performance of this specified action in the specified vehicle state resulted in a negative reward value. Adverse actions are thereby suppressed over time.
Gemäß einer bevorzugten Ausführungsform werden im neuronalen Netzwerk die Netzwerkparameter geändert, indem der Einfluss von durch Hinzufügen von Störungen erzeugten Variationen der Netzwerkparameter im Hinblick auf die Änderung des Belohnungswerts ausgewertet wird und die Netzwerkparameter geändert werden, wenn die Variation zu einem besseren Belohnungswert führt. Diese Strategie wird auch evolutionäre Strategie genannt, und es finden künstlich erzeugte Mutationen statt, die im Falle von positiven Eigenschaften verstärkt werden.According to a preferred embodiment, the network parameters are changed in the neural network by evaluating the influence of variations in the network parameters generated by adding disturbances with regard to the change in the reward value and changing the network parameters if the variation leads to a better reward value. This strategy is also called an evolutionary strategy, and artificially created mutations take place, which are reinforced in the case of positive traits.
Eine Steuervorrichtung zum Steuern eines Fahrzeugs mit Aktoren weist mindestens einen Eingang zum Empfang von Fahrzeugdaten, mindestens einen Ausgang zur Ausgabe von Sollwerten für Aktoren, einen Agenten, ein neuronales Netzwerk mit Netzwerkparametern für das neuronale Netzwerk, und eine Belohnungserzeugungsvorrichtung auf und ist dazu ausgebildet, ein solches Verfahren auszuführen.A control device for controlling a vehicle with actuators has at least one input for receiving vehicle data, at least one output for outputting target values for actuators, an agent, a neural network with network parameters for the neural network, and a reward generation device and is designed to to carry out such a procedure.
Ein Fahrzeug weist eine solche Steuervorrichtung und Aktoren auf. In einem Fahrzeug hat sich die Steuervorrichtung als unerwartet vorteilhaft erwiesen.A vehicle has such a control device and actuators. In a vehicle, the control device has proven to be unexpectedly advantageous.
Weitere Einzelheiten und vorteilhafte Weiterbildungen der Erfindung ergeben sich aus den im Folgenden beschriebenen und in den Zeichnung dargestellten, in keiner Weise als Einschränkung der Erfindung zu verstehenden Ausführungsbeispielen sowie aus den Unteransprüchen. Es versteht sich, dass die voranstehend genannten und die nachstehend noch zu erläuternden Merkmale nicht nur in der jeweils angegebenen Kombination, sondern auch in anderen Kombinationen oder in Alleinstellung verwendbar sind, ohne den Rahmen der vorliegenden Erfindung zu verlassen. Es zeigt:
-
1 in schematischer Darstellung einen Agenten und eine Umgebung, -
2 ein Fahrzeugmodell für eine Simulation, -
3 ein Diagramm, welches die Wahrnehmung des Menschen von Wankwinkelfrequenzen anzeigt, -
4 in schematischer Darstellung bestärkendes Lernen, -
5 bis8 die Auslenkung der vier Räder eines Fahrzeugs bei unterschiedlichen Agenten, -
9 den Wankwinkel bei unterschiedlichen Agenten, -
10 die Wankwinkelgeschwindigkeit bei unterschiedlichen Agenten, -
11 ein auftretendes Moment und ein durch ein trainiertes neuronales Netzwerk erzeugtes Moment, -
12 ein auftretendes Moment und ein durch ein untrainiertes neuronales Netzwerk erzeugtes Moment, -
13 ein Histogramm mit Aufteilung unterschiedlich trainierter neuronaler Netzwerke auf ein Maß der Unbequemlichkeit, und -
14 in schematischer Darstellung ein Fahrzeug mit einem Steuergerät und Aktoren.
-
1 a schematic representation of an agent and an environment, -
2 a vehicle model for a simulation, -
3 a diagram showing human perception of roll angle frequencies, -
4 in a schematic representation of reinforcement learning, -
5 until8th the deflection of the four wheels of a vehicle with different agents, -
9 the sway angle of different agents, -
10 the roll angle velocity for different agents, -
11 an occurring moment and a moment generated by a trained neural network, -
12 an occurring moment and a moment generated by an untrained neural network, -
13 a histogram with partitioning of differently trained neural networks on a level of discomfort, and -
14 a schematic representation of a vehicle with a control unit and actuators.
Im Folgenden sind gleiche oder gleichwirkende Teile mit den gleichen Bezugszeichen versehen und werden üblicherweise nur einmal beschrieben. Die Beschreibung ist figurenübergreifend aufeinander aufbauend, um unnötige Wiederholungen zu vermeiden.In the following, parts that are the same or have the same effect are provided with the same reference symbols and are usually only described once. The description builds on one another across figures in order to avoid unnecessary repetition.
Bei den Algorithmen zum bestärkenden Lernen gibt es modellfreie Algorithmen und modellbasierte Algorithmen. Versuche haben ergeben, dass modellfreie Algorithmen für die Steuerung von Fahrzeugen besonders vorteilhafte Ergebnisse liefern und zu einem angenehmen Fahrverhalten führen. Bei den modellfreien Algorithmen zum bestärkenden Lernen gibt es insbesondere das Verfahren der Strategieoptimierung (englisch: policy optimization) und das Verfahren des Q-Lernens (englisch: Q-Iearning). Untersuchungen haben ergeben, dass die Strategieoptimierung beim maschinellen Lernen mit bestärkendem Lernen für den gewählten Einsatzbereich besonders positiv ist.When it comes to reinforcement learning algorithms, there are model-free algorithms and model-based algorithms. Experiments have shown that model-free algorithms for vehicle control deliver particularly advantageous results and lead to pleasant driving behavior. In the case of the model-free algorithms for reinforcement learning, there are in particular the method of strategy optimization (English: policy optimization) and the method of Q-learning (English: Q-learning). Research has shown that strategy optimization in machine learning with reinforcement learning for the selected area of application is particularly positive.
Zwei Verfahren haben sich bei der Strategieoptimierung als besonders vorteilhaft erwiesen. Zum einen existiert das sog. REINFORCE-Verfahren, und zum anderen das Verfahren der evolutionären Strategie (englisch: evolutionary strategy), das auch als ES-Verfahren bezeichnet wird.Two methods have proven to be particularly advantageous in strategy optimization. On the one hand there is the so-called REINFORCE method, and on the other hand the method of evolutionary strategy, which is also known as the ES method.
Beim REINFORCE-Verfahren wird ein Verhalten bestärkt, welches eine hohe Belohnung bzw. einen großen positiven Belohnungswert ergibt, und ein Verhalten mit niedriger Belohnung bzw. negativer Belohnung wird geschwächt. Hierzu wird bevorzugt folgende Funktion genutzt:
Durch Anwendung dieser Funktion wird die Wahrscheinlichkeit für eine Aktion erhöht, wenn der daraus resultierende Belohnungswert positiv ist. Eine Aktion mit negativem Belohnungswert wird dagegen von der Wahrscheinlichkeit her erniedrigt. Im Ergebnis werden hierdurch die Netzwerkparameter derart geändert, dass der Agent mit der von den Netzwerkparametern abhängigen Strategie bevorzugt Aktionen durchführt, welche eine hohe Belohnung ergeben.Applying this feature increases the probability of an action when the resulting reward value is positive. An action with a negative reward value, on the other hand, is reduced in probability. As a result, the network parameters are changed in such a way that the agent, with the strategy dependent on the network parameters, preferably carries out actions which result in a high reward.
Die evolutionäre Strategie hat ein analoges Ziel wie das REINFORCE-Verfahren, es arbeitet jedoch direkt auf der Ebene der Netzwerkparameter. Die Netzwerkparameter werden durch Hinzufügung von Störwerten variiert, und es wird überprüft, ob durch diese Variationen eine Verbesserung der zu erwartenden Belohnungswerte erzielt werden kann. Die Optimierung erfolgt auf Grundlage der folgenden Gleichung:
Neben der Simulation mit einem solchen stufenförmigen Untergrund können beispielsweise Simulationen mit folgenden Untergrundvarianten durchgeführt werden:
- - Sinusform
- - Sägezahnform (englisch: saw form)
- - zufällig erzeugte Form
- - tatsächliche Messung eines Straßenuntergrunds
- - Sinusoidal
- - saw tooth shape
- - randomly generated shape
- - actual measurement of a roadbed
Hierbei kann beispielsweise variiert werden in der Amplitude, in der Standardabweichung, in der Periodendauer, in der Länge, in der linken und rechten Symmetrie und in der Neigung. Here, for example, the amplitude, the standard deviation, the period, the length, the left and right symmetry and the inclination can be varied.
Mit einem solchen neuronalen Netzwerk sind auch deutlich komplexere Agenten mit weiteren Aktoren implementierbar, und das Framework mit dem neuronalen Netzwerk kann für unterschiedliche Steuervorrichtungen bzw. Regelvorrichtungen genutzt werden. Beispiele für weitere Aktoren sind
- - Hinterradlenkvorrichtung;
- - Wankmomentverteilungsvorrichtung;
- - Antriebskraftverteilungsvorrichtung bei einem Fahrzeug mit Zweiachsenantrieb;
- - Fahrdynamikregelung.
- - rear wheel steering device;
- - rolling moment distribution device;
- - Driving force distribution device in a vehicle with two-axle drive;
- - Driving dynamics control.
Die Steuervorrichtung 30 hat den Agenten 20, der die Aktoren 61, 62 mit den Sollwerten 63, 64 ansteuert. Der Agent 20 hat das neuronale Netzwerk 43 mit Netzwerkparametern NP, und ihm werden die Fahrzeugdaten 53, 54 zugeführt.The
In einem Schritt A) werden die Fahrzeugdaten 53, 54 über den mindestens einen Eingang 31 erfasst, und es wird ein aktueller Fahrzeugzustand 41 berechnet. In a step A), the
Der Fahrzeugzustand kann aus einer Aneinanderreihung der Fahrzeugdaten 53, 54 bestehen, bevorzugt werden aber aus den Fahrzeugdaten 53, 54 weitere Zustandsdaten berechnet.The vehicle status can consist of a series of
In einem Schritt B) ordnet der Agent 20 gemäß einer mit dem neuronalen Netzwerk 43 implementierten Strategie in Abhängigkeit von den Netzwerkparametern NP dem aktuellen Fahrzeugzustand 41 eine Aktion 42 zu. Das neuronale Netzwerk 43 kann auch als neuronales Netz 43 bezeichnet werden.In a step B), the
In Abhängigkeit von der Aktion 42 werden in einem Schritt C) aktualisierte Sollwerte 63, 64 für die Aktoren 61, 62 des Fahrzeugs 10 bestimmt und über den mindestens einen Ausgang 32 ausgegeben.Depending on
In einem Schritt D) wird in Abhängigkeit von der Änderung der Fahrzeugdaten 53, 54 in Folge der aktualisierten Sollwerte 63, 64 durch die Belohnungserzeugungsvorrichtung 65 mithilfe einer Belohnungsfunktion ein Belohnungswert ermittelt, welcher positiv oder negativ sein kann. Positiv drückt aus, dass die Strategie vorteilhaft war, und negativ drückt aus, dass sie nicht vorteilhaft war.In a step D), depending on the change in the
Der Belohnungswert 66 wird einem Schritt E) zugeführt, und in diesem Schritt werden die Netzwerkparameter NP durch bestärkendes Lernen in Abhängigkeit vom Belohnungswert 66 geändert (NP'), um durch die Änderung die bei Anwendung des neuronalen Netzwerks 43 zu erwartenden Belohnungswerte 66 zu erhöhen. Die Änderung der Belohnungswerte NP kann unmittelbar erfolgen, oder sie kann bspw. nach einem Halt des Fahrzeugs 10 erfolgen.The
Bevorzugt hat die Steuervorrichtung 30 eine Datenschnittstelle 69, beispielsweise drahtlos oder drahtgebunden, und der Steuervorrichtung 30 können im in einem Fahrzeug 10 eingebauten Zustand zweite Netzwerkparameter NP'' zugesendet werden. Dies ermöglicht eine Verbesserung des neuronalen Netzwerks von außen auch im eingebauten Zustand der Steuervorrichtung 30. Die Datenschnittstelle 69 ist bevorzugt bidirektional.The
Bevorzugt sind die zweiten Netzwerkparameter NP'' abhängig von einer Mehrzahl von nicht dargestellten anderen Steuervorrichtungen 30 von unterschiedlichen anderen Fahrzeugen 10, und die Steuervorrichtung 30 ist dazu ausgebildet, die Netzwerkparameter NP in Abhängigkeit von den zweiten Netzwerkparametern NP'' zu ändern. Hierdurch können unterschiedliche Netzwerkparameter eines Fahrzeugtyps ausgewertet werden, und besonders vorteilhafte Netzwerkparameter können an die Fahrzeuge des gleichen Fahrzeugtyps gesandt werden. Dies ist beispielsweise vorteilhaft, wenn ein bestimmter Fahrzeugzustand nur sehr selten auftritt und daher nicht oder nur wenig optimiert wird. Hierdurch kann auch die Sicherheit in selten vorkommenden Situationen verbessert werden.The second network parameters NP'' are preferably dependent on a plurality of other control devices 30 (not shown) from different
Naturgemäß sind im Rahmen der vorliegenden Erfindung vielfältige Abwandlungen und Modifikationen möglich.A wide range of variations and modifications are of course possible within the scope of the present invention.
ZITATE ENTHALTEN IN DER BESCHREIBUNGQUOTES INCLUDED IN DESCRIPTION
Diese Liste der vom Anmelder aufgeführten Dokumente wurde automatisiert erzeugt und ist ausschließlich zur besseren Information des Lesers aufgenommen. Die Liste ist nicht Bestandteil der deutschen Patent- bzw. Gebrauchsmusteranmeldung. Das DPMA übernimmt keinerlei Haftung für etwaige Fehler oder Auslassungen.This list of documents cited by the applicant was generated automatically and is included solely for the better information of the reader. The list is not part of the German patent or utility model application. The DPMA assumes no liability for any errors or omissions.
Zitierte PatentliteraturPatent Literature Cited
- DE 102019104966 A1 [0002]DE 102019104966 A1 [0002]
- DE 102006054425 A1 [0003]DE 102006054425 A1 [0003]
- DE 102017007136 A1 [0004]DE 102017007136 A1 [0004]
- DE 102020106936 A1 [0005]DE 102020106936 A1 [0005]
- DE 112016003350 T5 [0006]DE 112016003350 T5 [0006]
Claims (14)
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
DE102021107458.4A DE102021107458A1 (en) | 2021-03-25 | 2021-03-25 | Control device and method |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
DE102021107458.4A DE102021107458A1 (en) | 2021-03-25 | 2021-03-25 | Control device and method |
Publications (1)
Publication Number | Publication Date |
---|---|
DE102021107458A1 true DE102021107458A1 (en) | 2022-09-29 |
Family
ID=83192692
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
DE102021107458.4A Pending DE102021107458A1 (en) | 2021-03-25 | 2021-03-25 | Control device and method |
Country Status (1)
Country | Link |
---|---|
DE (1) | DE102021107458A1 (en) |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE102006054425A1 (en) | 2005-11-22 | 2007-05-31 | Continental Teves Ag & Co. Ohg | Method for determination of value of model parameter of reference vehicle model, involves determination of statistical value of model parameter whereby artificial neural network is adapted with learning procedure |
DE112016003350T5 (en) | 2015-07-24 | 2018-04-05 | Google Llc | CONTINUOUS CONTROL WITH LOW STRENGTH LEARNING |
DE102017007136A1 (en) | 2017-07-27 | 2019-01-31 | Opel Automobile Gmbh | Method and device for training self-learning algorithms for an automated mobile vehicle |
DE102017123205A1 (en) | 2017-10-06 | 2019-04-11 | Valeo Schalter Und Sensoren Gmbh | Configuration of a motor vehicle driver assistance device with a neural network during operation |
DE102019108477A1 (en) | 2018-04-03 | 2019-10-10 | Ford Global Technologies, Llc | AUTOMATIC NAVIGATION USING DEEP REINFORCEMENT LEARNING |
DE102019104966A1 (en) | 2019-02-27 | 2020-08-27 | Bayerische Motoren Werke Aktiengesellschaft | Self-learning control device and method for self-learning control device |
DE102020106936A1 (en) | 2019-04-26 | 2020-10-29 | GM Global Technology Operations LLC | CONTROLLING THE OPERATION OF A VEHICLE WITH A HIGHER-LEVEL CONTROL MODULE WITH ERROR TOLERANT CONTROL |
EP3295384B1 (en) | 2015-09-11 | 2020-12-23 | DeepMind Technologies Limited | Training reinforcement learning neural networks |
-
2021
- 2021-03-25 DE DE102021107458.4A patent/DE102021107458A1/en active Pending
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE102006054425A1 (en) | 2005-11-22 | 2007-05-31 | Continental Teves Ag & Co. Ohg | Method for determination of value of model parameter of reference vehicle model, involves determination of statistical value of model parameter whereby artificial neural network is adapted with learning procedure |
DE112016003350T5 (en) | 2015-07-24 | 2018-04-05 | Google Llc | CONTINUOUS CONTROL WITH LOW STRENGTH LEARNING |
EP3295384B1 (en) | 2015-09-11 | 2020-12-23 | DeepMind Technologies Limited | Training reinforcement learning neural networks |
DE102017007136A1 (en) | 2017-07-27 | 2019-01-31 | Opel Automobile Gmbh | Method and device for training self-learning algorithms for an automated mobile vehicle |
DE102017123205A1 (en) | 2017-10-06 | 2019-04-11 | Valeo Schalter Und Sensoren Gmbh | Configuration of a motor vehicle driver assistance device with a neural network during operation |
DE102019108477A1 (en) | 2018-04-03 | 2019-10-10 | Ford Global Technologies, Llc | AUTOMATIC NAVIGATION USING DEEP REINFORCEMENT LEARNING |
DE102019104966A1 (en) | 2019-02-27 | 2020-08-27 | Bayerische Motoren Werke Aktiengesellschaft | Self-learning control device and method for self-learning control device |
DE102020106936A1 (en) | 2019-04-26 | 2020-10-29 | GM Global Technology Operations LLC | CONTROLLING THE OPERATION OF A VEHICLE WITH A HIGHER-LEVEL CONTROL MODULE WITH ERROR TOLERANT CONTROL |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
DE10212582B4 (en) | Method and device for controlling the driving dynamics | |
EP1283793A1 (en) | Method and device for co-ordinating multiple driving system devices of a vehicle | |
DE102007017034A1 (en) | Driver workload based vehicle stability improvement control | |
EP1926654A1 (en) | Method and device for steering a motor vehicle | |
DE19939872B4 (en) | Method and device for sensor monitoring, in particular for an ESP system for vehicles | |
DE102019217431A1 (en) | Method for evaluating the dynamic driving behavior of a vehicle with at least one driver assistance function | |
DE102021206880A1 (en) | Method and device for the optimal parameterization of a driving dynamics control system for vehicles | |
EP3466754A1 (en) | Method and device for adjusting the inclination of a headlamp | |
DE102019134258A1 (en) | Method for controlling a driving function of a vehicle | |
DE102018203182A1 (en) | Method and device for regulating vehicle transverse dynamics | |
DE112021004002T5 (en) | Suspension control device and method of controlling a suspension control device | |
WO2020043366A1 (en) | Mentoring device for assisting a user in the handling of a predefined object, motor vehicle and method | |
DE102012010553B4 (en) | Method for controlling an active chassis | |
EP4288954A1 (en) | Method for the infrastructure-supported assistance of a motor vehicle | |
WO2023274768A1 (en) | Device and method for controlling the longitudinal and/or lateral guidance of a vehicle | |
DE102019214935A1 (en) | Control of a vehicle | |
DE102016006005B4 (en) | Electronically controlled suspension device and damping force regulating method | |
DE102021107458A1 (en) | Control device and method | |
DE102019214931A1 (en) | Control of a vehicle | |
EP3631402B1 (en) | Vehicle test stand and method for ascertaining a vehicle longitudinal acceleration | |
DE102019214564A1 (en) | System for training at least one neural control network for an adaptive speed control system of a vehicle | |
WO2022111992A1 (en) | Optimization for a lateral guidance assistance system | |
DE102020107531A1 (en) | Method for estimating the aerobalance of a motor vehicle | |
DE102019007345A1 (en) | Method for operating a driver assistance system of a vehicle | |
DE102019214925A1 (en) | Control of a vehicle |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
R012 | Request for examination validly filed | ||
R016 | Response to examination communication |