EP4035969A1 - Verfahren zum trainieren einer steuerung für ein schienenfahrzeug, steuerung und schienenfahrzeug - Google Patents

Verfahren zum trainieren einer steuerung für ein schienenfahrzeug, steuerung und schienenfahrzeug Download PDF

Info

Publication number
EP4035969A1
EP4035969A1 EP21154227.9A EP21154227A EP4035969A1 EP 4035969 A1 EP4035969 A1 EP 4035969A1 EP 21154227 A EP21154227 A EP 21154227A EP 4035969 A1 EP4035969 A1 EP 4035969A1
Authority
EP
European Patent Office
Prior art keywords
rail vehicle
control
training
selection rule
action selection
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
EP21154227.9A
Other languages
English (en)
French (fr)
Inventor
Andrew Palmer
Marc Christian Weber
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Siemens Mobility GmbH
Original Assignee
Siemens Mobility GmbH
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Siemens Mobility GmbH filed Critical Siemens Mobility GmbH
Priority to EP21154227.9A priority Critical patent/EP4035969A1/de
Priority to AU2022200290A priority patent/AU2022200290B2/en
Priority to CN202210092219.3A priority patent/CN114802370B/zh
Publication of EP4035969A1 publication Critical patent/EP4035969A1/de
Pending legal-status Critical Current

Links

Images

Classifications

    • BPERFORMING OPERATIONS; TRANSPORTING
    • B61RAILWAYS
    • B61LGUIDING RAILWAY TRAFFIC; ENSURING THE SAFETY OF RAILWAY TRAFFIC
    • B61L15/00Indicators provided on the vehicle or train for signalling purposes
    • B61L15/0062On-board target speed calculation or supervision
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B61RAILWAYS
    • B61LGUIDING RAILWAY TRAFFIC; ENSURING THE SAFETY OF RAILWAY TRAFFIC
    • B61L27/00Central railway traffic control systems; Trackside control; Communication systems specially adapted therefor
    • B61L27/04Automatic systems, e.g. controlled by train; Change-over to manual control
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B61RAILWAYS
    • B61LGUIDING RAILWAY TRAFFIC; ENSURING THE SAFETY OF RAILWAY TRAFFIC
    • B61L27/00Central railway traffic control systems; Trackside control; Communication systems specially adapted therefor
    • B61L27/20Trackside control of safe travel of vehicle or train, e.g. braking curve calculation
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B61RAILWAYS
    • B61LGUIDING RAILWAY TRAFFIC; ENSURING THE SAFETY OF RAILWAY TRAFFIC
    • B61L27/00Central railway traffic control systems; Trackside control; Communication systems specially adapted therefor
    • B61L27/60Testing or simulation

Definitions

  • the invention relates to a method for training a controller for a rail vehicle.
  • the invention also relates to a controller and a rail vehicle with a controller.
  • Automatic train operation requires a controller that can translate a desired trajectory from a higher-level planning unit into the acceleration and braking commands required to drive the trajectory.
  • the controls used require significant tuning effort to adapt to the specific characteristics of each vehicle.
  • Typical control approaches are based on Proportional-Integral-Derivative (PID) controllers and Model Predictive Control (MPC) controllers.
  • PID controllers are very commonly used because they are very easy to implement. However, they require a significant amount of tuning when used in a new vehicle. Also, they do not account for more than the current time step and therefore can perform poorly on systems where there is a delay in the system's response to control inputs. In these cases, MPC controllers are typically used. However, MPC control requires an accurate model of the system to be controlled. In the case of complex systems, however, this can be complex or cannot be achieved with sufficient precision.
  • the object of the invention is to provide an improved method for training a controller for a rail vehicle, an improved controller and a rail vehicle with a controller.
  • an improved method for training a controller of a rail vehicle can be provided.
  • the control of the rail vehicle is trained using machine learning techniques. Training data based on sensor data from a rail vehicle is provided for this purpose. Based on the training data, a surrogate model of the rail vehicle is then created trained in relation to a relation between a control of a drive of the rail vehicle and a resulting speed of the rail vehicle. An action selection rule is then trained based on the training data and the trained surrogate model using reinforcement learning techniques and taking into account at least one control goal, and a trained action selection rule is generated. Based on the trained action selection rule, the rail vehicle can be controlled and the respectively predetermined control goal can be achieved.
  • a surrogate model of a rail vehicle is a virtual model of a real rail vehicle that represents all the relevant features of the real rail vehicle.
  • a surrogate model can be designed analogously to a virtual twin of a real machine and virtually simulate the operation of a real machine or a rail vehicle.
  • the surrogate model is thus set up to simulate a method of moving a rail vehicle by means of a corresponding control.
  • the surrogate model can, for example, be in the form of an appropriately trained neural network and can be trained to simulate or represent the driving behavior or the control-relevant properties of the rail vehicle.
  • An action selection rule within the meaning of the application is a plurality of control instructions that are set up to accelerate the rail vehicle from a first speed state to a second speed state.
  • the first and second speed states can be an actual state, in which the rail vehicle is located at a specific point in time, and a desired state, into which the rail vehicle is to be transferred by controlling the drive.
  • the first and second speed states can be two states of the rail vehicle that follow one another in time, into which the rail vehicle changes when it is activated by the controller becomes.
  • control instructions are instructions or commands for controlling the rail vehicle.
  • Control instructions can, for example, include accelerating or braking the rail vehicle, including detailed control of the drive.
  • control instructions can include shifting into different gears or into an energy-saving mode of the drive.
  • various aspects relevant to control can be taken into account in the form of corresponding instructions in the control instructions.
  • control goals are goals that can be achieved by controlling the controller.
  • Control goals can be, for example, a speed to which the rail vehicle is to be accelerated by actuating the controller.
  • control targets can be defined for various future points in time, for example defined using speed trajectories.
  • control goals can define an energy consumption that is to be achieved or not to be exceeded when the rail vehicle is controlled.
  • the control goals are defined based on the training data, which in turn are generated based on sensor data from a rail vehicle. In this case, control targets can be generated from the sensor data of the rail vehicle.
  • control goals can result from the sensor data and describe, for example, speeds to be achieved or energy consumption according to which the rail vehicle would be controlled while the sensor data were being recorded. Control goals can also during the execution of the trained action selection rule for controlling the rail vehicle by higher-level systems, such as appropriate Planning modules for controlling the rail vehicle are defined or changed.
  • the machine learning is designed as reinforcement learning.
  • reinforcement learning is an area of machine learning that deals with training operational participants to carry out desired actions in order to transfer the participant from an actual state to a desired target state.
  • the training of the participant is done considering a control goal to be achieved by performing the action of the participant.
  • the training may consider maximizing a reward function that presents the participant with the action to be taken and the goal to be achieved.
  • the training comprises: randomly modifying the at least one objective control goal based on the training data and defining modified control goals; and training the action selection rule to meet the modified control objectives.
  • the training data for training the controller can be used more effectively by the randomized modification of the at least one control target and the associated definition of modified control targets.
  • Control goals are defined that are supported by, but not limited to, the training data.
  • the changed control goals thus result in control goals that are not based on training data, but represent control goals that go beyond the control goals according to which the rail vehicle was controlled during the recording of the sensor data.
  • an improved trained action selection rule can be generated that defines control instructions for an increased number of different control goals. This can provide improved control.
  • training the action selection rule includes maximizing a reward function, wherein the reward function is maximal for an action selection rule that satisfies the objective control goal and/or the modified control goals.
  • the technical advantage can be achieved that the action selection rule can be trained as precisely as possible according to the techniques of reinforcement learning.
  • the reward function takes into account a difference between a speed state achieved by executing a control action of the action selection rule and the objective control goal and/or the modified control goals.
  • the technical advantage can be achieved that efficient training of the action selection rule and a precisely trained action selection rule can be provided, which precisely meets the control goal to be achieved.
  • maximizing the reward function is performed by an artificial neural network.
  • the technical advantage can be achieved that efficient training of the action selection rule or the control of the rail vehicle can be provided.
  • control target includes a target speed of the rail vehicle and/or a target energy consumption and/or a target acceleration and/or low-wear acceleration and/or braking behavior.
  • an efficiently trained action selection rule and, associated therewith, an efficiently trained control of a rail vehicle can be provided.
  • the action selection rule trained in this way includes control instructions that are suitable for controlling the rail vehicle, taking into account the named control goals.
  • the training data is recorded during a process of the rail vehicle and includes sensor data of state variables, control actions and speed trajectories, the state variables including speed data, acceleration data, location data, specification data of the drive and/or the rail vehicle, the control actions including drive and/or brake actuations include, and wherein the speed trajectories describe corresponding speed developments of the rail vehicle over time.
  • a controller for a rail vehicle comprising at least one trained action selection rule that is based on a method for training a controller of a rail vehicle according to one of the preceding embodiments is trained, and wherein the controller is set up to control the rail vehicle by executing the trained action selection rule.
  • an improved controller for a rail vehicle can be provided, which is trained using methods of machine learning, in particular reinforcement learning.
  • the control has a trained action selection rule, which is trained according to the method according to the invention for training a control of a rail vehicle according to the above-mentioned embodiments.
  • the trained action selection rule which has a plurality of control instructions for controlling the rail vehicle, taking into account various control goals, the rail vehicle can be controlled to achieve the respective control goals.
  • the controller can be trained for any rail vehicle that corresponds to the surrogate model, so that with a new rail vehicle a complex adaptation of the model used for the controller, as is the case with a Model Predictive Control (MPC) controller is necessary can be omitted.
  • MPC Model Predictive Control
  • a rail vehicle is provided with a controller according to one of the preceding embodiments.
  • a computer program product comprising instructions which, when the program is executed by a data processing unit, cause the latter to use the method for training a controller for a Run rail vehicle according to one of the preceding embodiments.
  • FIG 1 shows a flow chart of a method 100 for training a controller 200 of a rail vehicle 201 according to an embodiment.
  • training data are initially provided in a first method step 101 .
  • the training data is based on sensor data from a rail vehicle 201 and includes state variables 217, control actions 219 and speed trajectories 221 in the embodiment shown sensors to be included.
  • state variables 217 describe points within a state space which describes various states of the rail vehicle 201 .
  • the state variables 217 can be speed data, acceleration data and/or include location data of the rail vehicle 201 that was recorded while the rail vehicle 201 or the comparable rail vehicle was being moved.
  • the comparable rail vehicle can be a rail vehicle of the same type, for example.
  • the state variables 217 can include specification data of the drive and/or the rail vehicle 201, which include, for example, the type of drive, maximum power or speed and other parameters of the drive or a size or weight of the rail vehicle 201.
  • control actions 219 are actions that are carried out by the controller 200 during the movement of the rail vehicle 201 for controlling the rail vehicle 201 .
  • Control actions 219 can include, for example, actuating the gas pedal or the control lever of a rail vehicle or actuating the brake of the rail vehicle 201 .
  • speed trajectories 221 are traces of speed values which follow one another in time and which have been reached during the movement of the rail vehicle 201 and which run through the state space.
  • a surrogate model 205 of the rail vehicle 201 is generated or trained and a relation between activation of a drive 207 of the rail vehicle 201 and a resulting speed of the rail vehicle 201 is learned from the surrogate model 205.
  • the surrogate model 205 which represents a virtual copy of the rail vehicle 201, is trained using machine learning methods, which control actions 219, actuation of the accelerator pedal or actuation of the brake, at what final speeds of the rail vehicle 201, based on the corresponding state variables 217 are determined.
  • the surrogate model 205 trained in this way thus enables a simulation of the controller 200 of the rail vehicle 201, in which corresponding speed trajectories 221 can be achieved by executing corresponding control functions 219.
  • an action selection rule 209 is trained based on the training data 203 and the trained surrogate model 205 using methods of reinforcement learning and taking into account at least one objective control goal 211 .
  • the action selection rule 209 in this case includes control instructions for controlling the drive 207 of the rail vehicle 201.
  • the control instructions are set up here to accelerate the rail vehicle 201 from a first speed state into a second speed state.
  • the control instructions can correspond, for example, to the control actions 219 that were recorded as training data 203 during the movement of the rail vehicle 201 and include accelerating or braking the rail vehicle.
  • the action selection rule 209 can have a plurality of control instructions, by means of which the drive 207 of the rail vehicle 201 can be controlled.
  • the control instructions are designed in such a way that the objective control target 211 is achieved while the drive 207 of the rail vehicle 201 is being activated.
  • the objective control target 211 can be, for example, a final speed to be reached, a desired energy consumption or a maximum acceleration of the rail vehicle 201, which are to be achieved or maintained during the actuation of the rail vehicle 201.
  • the objective control target 211 can also be provided by the training data 203 .
  • the control target 211 can be represented by the recorded speed trajectories 221 of the training data 203 .
  • the first and second speed states can each be an actual state or a target state of the rail vehicle 201, wherein the rail vehicle 201 is to be transferred from the actual state to the target state by driving according to the control instructions of the action selection rule 209.
  • the first and second speed states can be two states of the state space which occur one after the other in time and into which the rail vehicle 201 is to be transferred by activation in accordance with the control instructions of the action selection rule.
  • an arbitrarily selected action selection rule is trained or optimized with any control instructions based on the training data 203 including the state variables 217 of the state space of the rail vehicle 201 and taking into account the respectively selected control target 211, so that the action selection rule 209 is set up, to achieve the selected control goal 211 .
  • the training of the arbitrarily selected action selection rule 209 is carried out in a further method step 111 by maximizing a correspondingly set up reward function.
  • the reward function can be defined, for example, as a difference between a speed state achieved by executing a control action 219 of the action selection rule 209 and the objective control target 211 .
  • the action selection rule 209 is therefore trained by modifying the control instructions or the action selection rule 209 in such a way that the correspondingly defined reward function reaches a maximum value.
  • An action selection rule 209 with a maximum reward function is therefore able to achieve the selected control goal 211 .
  • the state space of the rail vehicle 201 defined by the training data 203 in which various states of the rail vehicle 201 are listed, can be traversed to determine the optimal action selection rule 209, which is set up to convert the rail vehicle 201 into states in an optimized trajectory by executing the corresponding control instructions, which ensure optimal control 200 and the achievement of the predetermined objective control target 211.
  • the objective control goal 211 is changed randomly in a method step 109 and changed control goals 215 are generated in order to train the action selection rule 209 .
  • changed control targets 215 can be generated, which can deviate from the training data 203.
  • the objective control target 211 can be formed by a speed trajectory 221 of the training data 203 .
  • the respective speed trajectory 221 can be supported by the sensor data of the rail vehicle 201 which were recorded while the rail vehicle 201 was moving.
  • modified speed trajectories 221 can thus be generated as modified control targets 215, with the modified speed trajectories 221 not being fully supported by the training data 203 and having speed values that occurred during the movement of the rail vehicle 201 and the recording of the respective speed values of the Rail vehicle 201 differ.
  • By changing the speed trajectory 221 it is thus possible to reach points in the state space of the rail vehicle 201 for which no explicit training data 203 were generated.
  • a number of control objectives 211, 215 can also be taken into account when training the action selection rule 209, so that the action selection rule 209 is set up to fulfill a number of control objectives 211, 215.
  • the control goals can be in addition to the final speed to be achieved of the rail vehicle 201 include, for example, an energy consumption of the rail vehicle 201 or a maximum permissible acceleration of the rail vehicle 201, which must be fulfilled or taken into account during the control 200 of the rail vehicle 201.
  • a correspondingly trained action selection rule 213 is generated based on the initial action selection rule 209, which includes control instructions that are set up to accelerate the rail vehicle 201 and to meet the control target 211 or the modified control targets 215.
  • the training of the action selection rule 209 or the maximizing of the reward function can be carried out by a trained artificial intelligence, for example by an appropriately trained neural network.
  • a trained artificial intelligence for example by an appropriately trained neural network.
  • FIG 2 shows a schematic representation of a rail vehicle 201 with a controller 200 according to an embodiment.
  • FIG. 2 1 shows a rail vehicle 201 with a controller 200, the controller 200 comprising an action selection rule 213 trained according to the method 100 according to the invention for training a controller 200 of a rail vehicle 201.
  • the rail vehicle 201 also includes a drive 207 and a sensor 223. Sensor values of the drive 207 can be recorded via the sensor 223 in order to track activation of the drive 207 by means of the controller 200.
  • the rail vehicle 201 also includes a planning unit 225 which is connected to the controller 200 . To control the rail vehicle 201 can thus the controller 200 of the Planning unit 225 receive a corresponding speed trajectory 221, which describes a planned speed profile of the process of the rail vehicle 201.
  • the controller 200 can thus execute the corresponding control instructions that are suitable for accelerating the rail vehicle 201 according to the planned speed trajectory 221 of the planning unit 225 .
  • the controller 200 of the rail vehicle 201 can take various control objectives 211, 215 into account.
  • the rail vehicle 201 can be driven below a predetermined maximum energy consumption.
  • the rail vehicle 201 can be controlled taking into account a maximum permissible acceleration.
  • the appropriately trained action selection rule 213 includes corresponding control instructions for a large number of different control targets 211, 215, which are suitable for controlling the rail vehicle 201, taking into account the respective control targets 211, 215, corresponding Control goals 211, 215 are modified, which are to be achieved during the control of the rail vehicle 201.
  • a change in the controller 200 and in particular an adaptation of the respective defined control instructions is not required due to the training of the trained action selection rule 213 .
  • FIG. 3 shows a schematic representation of a computer program product 300.
  • FIG 3 shows a computer program product 300, comprising instructions which, when the program is executed by a computing unit, cause the latter to execute the method 100 according to one of the above-mentioned embodiments.
  • the computer program product 300 is stored on a storage medium 301 in the embodiment shown.
  • the storage medium 301 can be any storage medium known from the prior art.

Landscapes

  • Engineering & Computer Science (AREA)
  • Mechanical Engineering (AREA)
  • Train Traffic Observation, Control, And Security (AREA)
  • Toys (AREA)
  • Electric Propulsion And Braking For Vehicles (AREA)

Abstract

Die Erfindung betrifft ein Verfahren (100) zum Trainieren einer Steuerung (200) eines Schienenfahrzeugs (201), umfassend:- Bereitstellen (101) von Trainingsdaten (203) basierend auf Sensordaten eines Schienenfahrzeugs (201);- Trainieren (103) eines Surrogat-Modells (205) des Schienenfahrzeugs (201) basierend auf den Trainingsdaten (203) bezüglich einer Relation zwischen einer Ansteuerung eines Antriebs (207) des Schienenfahrzeugs (201) und einer resultierenden Geschwindigkeit des Schienenfahrzeugs (201);- Trainieren (105) einer Aktionsauswahlregel (209) basierend auf den Trainingsdaten (203) und dem Surrogat-Modell (205) unter Verwendung von maschinellem Lernen und unter Berücksichtigung wenigstens eines objektiven Steuerungsziels (211), wobei die Aktionsauswahlregel (209) Steuerungsanweisungen zum Ansteuern des Antriebs (207) des Schienenfahrzeugs (201) umfasst, die eingerichtet sind, das Schienenfahrzeug (201) aus einem ersten Geschwindigkeitszustand in einen zweiten Geschwindigkeitszustand zu beschleunigen; und- Generieren (107) einer trainierten Aktionsauswahlregel (213), wobei die trainierte Aktionsauswahlregel (213) Steuerungsanweisungen umfasst, die eingerichtet sind, das Schienenfahrzeug (201) zu beschleunigen und das Steuerungsziel (211) zu erfüllen.Die Erfindung betrifft ferner eine entsprechend trainierte Steuerung (200) und ein Schienenfahrzeug (201) mit einer Steuerung (200).

Description

  • Die Erfindung betrifft ein Verfahren zum Trainieren einer Steuerung für ein Schienenfahrzeug. Die Erfindung betrifft ferner eine Steuerung und ein Schienenfahrzeug mit einer Steuerung.
  • Für den automatischen Zugbetrieb ist eine Steuerung erforderlich, die eine gewünschte Trajektorie von einer übergeordneten Planungseinheit in die zum Fahren der Trajektorie erforderlichen Beschleunigungs- und Bremsbefehle übersetzen kann. Typischerweise erfordern die verwendeten Steuerungen einen erheblichen Abstimmungsaufwand, um sich an die spezifischen Eigenschaften der einzelnen Fahrzeuge anzupassen.
  • Typische Ansätze für Steuerungen basieren auf Proportional-Integral-Derivative (PID)-Reglern und Model Predictive Control (MPC)-Reglern. PID-Regler werden sehr häufig verwendet, da sie sehr einfach zu implementieren sind. Sie erfordern jedoch einen erheblichen Abstimmungsaufwand, wenn sie in einem neuen Fahrzeug eingesetzt werden. Außerdem berücksichtigen sie nicht mehr als den aktuellen Zeitschritt und können daher bei Systemen, bei denen es eine Verzögerung in der Reaktion des Systems auf die Steuereingaben gibt, eine schlechte Leistung aufweisen. In diesen Fällen werden typischerweise MPC-Regler eingesetzt. Die MPC-Steuerung setzt jedoch ein genaues Modell des zu steuernden Systems voraus. Bei komplexen Systemen kann dieses jedoch aufwändig sein beziehungsweise nicht mit ausreichender Präzision erreicht werden.
  • Der Erfindung liegt die Aufgabe zugrunde, ein verbessertes Verfahren zum Trainieren einer Steuerung für ein Schienenfahrzeug, eine verbesserte Steuerung und ein Schienenfahrzeug mit einer Steuerung bereitzustellen.
  • Diese Aufgabe wird durch ein Verfahren zum Trainieren einer Steuerung eines Schienenfahrzeugs, eine entsprechend trainierte Steuerung und ein Schienenfahrzeug mit einer trainierten Steuerung gemäß den unabhängigen Ansprüchen gelöst. Vorteilhafte Ausgestaltungen sind in den Unteransprüchen angegeben.
  • Nach einem Aspekt der Erfindung wird ein Verfahren zum Trainieren einer Steuerung eines Schienenfahrzeugs bereitgestellt, wobei das Verfahren umfasst:
    • Bereitstellen von Trainingsdaten basierend auf Sensordaten eines Schienenfahrzeugs;
    • Trainieren eines Surrogat-Modells des Schienenfahrzeugs basierend auf den Trainingsdaten bezüglich einer Relation zwischen einer Ansteuerung eines Antriebs des Schienenfahrzeugs und einer resultierenden Geschwindigkeit des Schienenfahrzeugs;
    • Trainieren einer Aktionsauswahlregel basierend auf den Trainingsdaten und dem Surrogat-Modell unter Verwendung von maschinellem Lernen und unter Berücksichtigung wenigstens eines objektiven Steuerungsziels, wobei die Aktionsauswahlregel Steuerungsanweisungen zum Ansteuern des Antriebs des Schienenfahrzeugs umfasst, die eingerichtet sind, das Schienenfahrzeug aus einem ersten Geschwindigkeitszustand in einen zweiten Geschwindigkeitszustand zu beschleunigen; und
    • Generieren einer trainierten Aktionsauswahlregel, wobei die trainierte Aktionsauswahlregel Steuerungsanweisungen umfasst, die eingerichtet sind, das Schienenfahrzeug zu beschleunigen und das Steuerungsziel zu erfüllen.
  • Hierdurch kann der technische Vorteil erreicht werden, dass ein verbessertes Verfahren zum Trainieren einer Steuerung eines Schienenfahrzeugs bereitgestellt werden kann. Die Steuerung des Schienenfahrzeugs wird hierbei unter Berücksichtigung von Techniken des Maschinenlernens trainiert. Hierzu werden auf Sensordaten eines Schienenfahrzeugs basierende Trainingsdaten bereitgestellt. Basierend auf den Trainingsdaten wird darauffolgend ein Surrogat-Modell des Schienenfahrzeugs in Bezug auf eine Relation zwischen einer Ansteuerung eines Antriebs des Schienenfahrzeugs und einer hieraus resultierenden Geschwindigkeit des Schienenfahrzeugs trainiert. Darauffolgend wird eine Aktionsauswahlregel basierend auf den Trainingsdaten und dem trainierten Surrogat-Modell mittels Techniken des bestärkenden Lernens und unter Berücksichtigung wenigstens eines Steuerungsziels trainiert und eine trainierte Aktionsauswahlregel generiert. Basierend auf der trainierten Aktionsauswahlregel kann das Schienenfahrzeug gesteuert und das jeweils vorbestimmte Steuerungsziel erreicht werden.
  • Ein Surrogat-Modell eines Schienenfahrzeugs ist im Sinne der Anmeldung ein virtuelles Modell eines realen Schienenfahrzeugs, das alle relevanten Merkmale des realen Schienenfahrzeugs darstellt. Ein Surrogat-Modell kann analog zu einem virtuellen Zwilling einer realen Maschine ausgebildet sein und den Betrieb einer realen Maschine bzw. eines Schienenfahrzeugs virtuell simulieren. Das Surrogat-Modell ist somit eingerichtet, ein Verfahren eines Schienenfahrzeugs durch eine entsprechende Ansteuerung zu simulieren. Das Surrogat-Modell kann beispielsweise als ein entsprechend trainiertes neuronales Netz ausgebildet sein, und kann darauf trainiert sein, das Fahrverhalten bzw. die steuerungsrelevanten Eigenschaften des Schienenfahrzeugs zu simulieren bzw. darzustellen.
  • Eine Aktionsauswahlregel im Sinne der Anmeldung ist eine Mehrzahl von Steuerungsanweisungen, die eingerichtet sind, das Schienenfahrzeug aus einem ersten Geschwindigkeitszustand in einen zweiten Geschwindigkeitszustand zu beschleunigen. Die ersten und zweiten Geschwindigkeitszustände können hierbei ein Ist-Zustand, in dem sich das Schienenfahrzeug zu einem bestimmten Zeitpunkt befindet, und ein Soll-Zustand sein, in den das Schienenfahrzeug durch Ansteuern des Antriebs zu überführen ist. Die ersten und zweiten Geschwindigkeitszustände können alternativ hierzu zwei zeitlich nacheinander folgende Zustände des Schienenfahrzeugs sein, in die das Schienenfahrzeug beim Ansteuern durch die Steuerung überführt wird. Durch Ausführen der Steuerungsanweisungen der Aktionsauswahlregel durch die Steuerung kann das jeweilige Schienenfahrzeug somit unter Berücksichtigung des zu erreichenden Steuerungsziels gesteuert werden.
  • Steuerungsanweisung sind im Sinne der Anmeldung Anweisung bzw. Befehle zum Steuern des Schienenfahrzeugs. Steuerungsanweisungen können beispielsweise das Beschleunigen oder Abbremsen des Schienenfahrzeugs inklusive detaillierter Ansteuerung des Antriebs umfassen. Darüber hinaus können Steuerungsanweisungen das Schalten in verschiedene Gänge oder in einen Energiesparmodus des Antriebs umfassen. Darüber hinaus können in den Steuerungsanweisungen verschiedene steuerungsrelevante Aspekte in Form entsprechender Anweisungen berücksichtigt sein.
  • Steuerungsziele sind im Sinne der Anmeldung Ziele, die durch das Ansteuern der Steuerung zu erreichen sind. Steuerungsziele können beispielsweise eine Geschwindigkeit sein, auf die durch Ansteuern der Steuerung das Schienenfahrzeug beschleunigt werden soll. Steuerungsziele können alternativ oder zusätzlich für verschiedene zukünftige Zeitpunkte definiert sein, beispielsweise über Geschwindigkeitstrajektorien definiert sein. Alternativ können Steuerungsziele einen Energieverbrauch definieren, der bei der Ansteuerung des Schienenfahrzeugs zu erreichen oder nicht zu überschreiten ist. Die Steuerungsziele sind im Sinne der Anmeldung basierend auf den Trainingsdaten definiert, die wiederum basierend auf Sensordaten eines Schienenfahrzeugs generiert sind. Steuerungsziele können hierbei aus den Sensordaten des Schienenfahrzeugs generiert sein. Die Steuerungsziele können sich aus den Sensordaten ergeben und beispielsweise zu erzielende Geschwindigkeiten oder Energieverbräuche beschreiben, gemäß denen das Schienenfahrzeug während der Aufnahme der Sensordaten gesteuert würde. Steuerungsziele können auch während der Ausführung der trainierten Aktionsauswahlregel zur Steuerung des Schienenfahrzeugs durch übergeordnete Systeme, beispielsweise entsprechende Planungsmodule zur Steuerung des Schienenfahrzeugs, definiert oder geändert werden.
  • Nach einer Ausführungsform ist das maschinelle Lernen als bestärkendes Lernen ausgebildet.
  • Hierdurch kann der technische Effekt erreicht werden, dass ein effizientes Trainieren der Aktionsauswahlregel ermöglicht ist.
  • Bestärkendes Lernen (Reinforcement Learning) ist im Sinne der Anmeldung ein Bereich des maschinellen Lernens, der sich mit dem Trainieren von operationellen Teilnehmern beschäftigt, gewünschte Aktionen auszuführen, um somit den Teilnehmer aus einem Ist-Zustand in einen gewünschten Soll-Zustand zu überführen. Das Trainieren des Teilnehmers wird hierbei unter Berücksichtigung eines Steuerungsziels getätigt, das durch die Ausführung der Handlung des Teilnehmers zu erreichen ist. Das Training kann ein Maximieren einer Belohnungsfunktion berücksichtigen, durch die dem Teilnehmer die ausführende Handlung und das zu erreichende Ziel dargestellt ist.
  • Nach einer Ausführungsform umfasst das Trainieren: Randomisiertes Abändern des wenigstens einen auf den Trainingsdaten basierenden objektiven Steuerungsziels und Definieren von abgeänderten Steuerungszielen; und Trainieren der Aktionsauswahlregel in Bezug auf Erfüllung der abgeänderten Steuerungsziele.
  • Hierdurch kann der technische Vorteil erreicht werden, dass ein präziseres Training der Steuerung des Schienenfahrzeugs bereitgestellt werden kann. Durch das randomisierte Abändern des wenigstens einen Steuerungsziels und das damit verbundene Definieren von abgeänderten Steuerungszielen können die Trainingsdaten zum Trainieren der Steuerung effektiver ausgenutzt werden. Durch das Abändern der Steuerungsziele und das Generieren bzw. Definieren von abgeänderten Steuerungszielen können Steuerungsziele definiert werden, die durch die Trainingsdaten gestützt, jedoch nicht auf diese beschränkt sind.
  • Die geänderten Steuerungsziele ergeben somit Steuerungsziele, die nicht auf Trainingsdaten basieren, sondern Steuerungsziele darstellen, die über die Steuerungsziele hinausgehen, gemäß denen das Schienenfahrzeug während der Aufnahme der Sensordaten angesteuert wurde. Durch das Trainieren der Aktionsauswahlregel basierend auf den abgeänderten Steuerungszielen kann eine verbesserte trainierte Aktionsauswahlregel generiert werden, die Steuerungsanweisungen für eine erhöhte Anzahl verschiedener Steuerungsziele definiert. Hierdurch kann eine verbesserte Steuerung bereitgestellt werden.
  • Nach einer Ausführungsform umfasst das Trainieren der Aktionsauswahlregel ein Maximieren einer Belohnungsfunktion, wobei die Belohnungsfunktion für eine Aktionsauswahlregel maximal ist, die das objektive Steuerungsziel und/oder die abgeänderten Steuerungsziele erfüllt.
  • Hierdurch kann der technische Vorteil erreicht werden, dass ein möglichst präzises Training der Aktionsauswahlregel gemäß den Techniken des bestärkenden Lernens erreicht werden kann.
  • Nach einer Ausführungsform berücksichtigt die Belohnungsfunktion eine Differenz zwischen einem durch Ausführen einer Steuerungsaktion der Aktionsauswahlregel erzielten Geschwindigkeitszustand und dem objektiven Steuerungsziel und/oder den abgeänderten Steuerungszielen.
  • Hierdurch kann der technische Vorteil erreicht werden, dass ein effizientes Training der Aktionsauswahlregel und eine präzise trainierte Aktionsauswahlregel bereitgestellt werden kann, die präzise das zu erreichende Steuerungsziel erfüllt.
  • Nach einer Ausführungsform wird das Maximieren der Belohnungsfunktion durch ein künstliches neuronales Netz ausgeführt.
  • Hierdurch kann der technische Vorteil erreicht werden, dass ein effizientes Training der Aktionsauswahlregel bzw. der Steuerung des Schienenfahrzeugs bereitgestellt werden kann.
  • Nach einer Ausführungsform umfasst das Steuerungsziel eine Sollgeschwindigkeit des Schienenfahrzeugs und/oder einen Sollenergieverbrauch und/oder eine Sollbeschleunigung und/oder ein verschleißarmes Beschleunigungs- und/oder Bremsverhalten.
  • Hierdurch kann der technische Vorteil erreicht werden, dass eine effizient trainierte Aktionsauswahlregel und damit verbunden eine effizient trainierte Steuerung eines Schienenfahrzeugs bereitgestellt werden kann. Die derart trainierte Aktionsauswahlregel umfasst hierbei Steuerungsanweisungen, die geeignet sind, das Schienenfahrzeug unter Berücksichtigung der genannten Steuerungsziele zu steuern.
  • Nach einer Ausführungsform werden die Trainingsdaten während eines Verfahrens des Schienenfahrzeugs aufgenommen und umfassen Sensordaten von Zustandsvariablen, Steuerungsaktionen und Geschwindigkeitstrajektorien, wobei die Zustandsvariablen Geschwindigkeitsdaten, Beschleunigungsdaten, Ortsdaten, Spezifikationsdaten des Antriebs und/oder des Schienenfahrzeugs umfassen, wobei die Steuerungsaktionen Antriebs- und/oder Bremsbetätigungen umfassen, und wobei die Geschwindigkeitstrajektorien entsprechende zeitliche Geschwindigkeitsentwicklungen des Schienenfahrzeugs beschreiben.
  • Hierdurch kann der technische Vorteil erreicht werden, dass durch umfassende Trainingsdaten ein präzises Training der Steuerung ermöglicht ist.
  • Nach einem zweiten Aspekt der Erfindung wird eine Steuerung für ein Schienenfahrzeug bereitgestellt, wobei die Steuerung wenigstens eine trainierte Aktionsauswahlregel umfasst, die nach einem Verfahren zum Trainieren einer Steuerung eines Schienenfahrzeugs nach einer der voranstehenden Ausführungsformen trainiert ist, und wobei die Steuerung eingerichtet ist, das Schienenfahrzeug unter Ausführung der trainierten Aktionsauswahlregel zu steuern.
  • Hierdurch kann eine verbesserte Steuerung für ein Schienenfahrzeug bereitgestellt werden, die unter Verwendung von Methoden des maschinellen Lernens, insbesondere des bestärkenden Lernens, trainiert ist. Die Steuerung weist hierzu eine trainierte Aktionsauswahlregel auf, die gemäß dem erfindungsgemäßen Verfahren zum Trainieren einer Steuerung eines Schienenfahrzeugs gemäß den oben genannten Ausführungsformen trainiert ist. Basierend auf der trainierten Aktionsauswahlregel, die eine Mehrzahl von Steuerungsanweisungen zum Steuern des Schienenfahrzeugs unter Berücksichtigung verschiedener Steuerungsziele aufweist, kann das Schienenfahrzeug zum Erreichen der jeweiligen Steuerungsziele angesteuert werden. Durch das Trainieren der Aktionsauswahlregel basierend auf dem Surrogat-Modell des Schienenfahrzeugs kann die Steuerung für beliebige Schienenfahrzeuge, die dem Surrogat-Modell entsprechen, trainiert werden, sodass bei einem neuen Schienenfahrzeug eine aufwändige Anpassung des zur Steuerung verwendeten Modells einer Steuerung, wie dies bei einem Model Predictive Control (MPC)-Regler notwendig ist, entfallen kann. Hierdurch kann eine präzise, zuverlässige und variable Steuerung für Schienenfahrzeuge bereitgestellt werden.
  • Nach einem dritten Aspekt wird ein Schienenfahrzeug mit einer Steuerung nach einer der voranstehenden Ausführungsformen bereitgestellt.
  • Hierdurch kann ein Schienenfahrzeug mit einer verbesserten Steuerung mit den obengenannten Vorteilen bereitgestellt werden.
  • Nach einem vierten Aspekt wird ein Computerprogrammprodukt umfassend Befehle bereitgestellt, die bei der Ausführung des Programms durch eine Datenverarbeitungseinheit diese veranlassen, das Verfahren zum Trainieren einer Steuerung für ein Schienenfahrzeug nach einer der voranstehenden Ausführungsformen auszuführen.
  • Die oben beschriebenen Merkmale und Vorteile dieser Erfindung sowie die Art und Weise, wie diese erreicht werden, werden klarer und deutlicher verständlich durch die Erläuterungen der folgenden, stark vereinfachten, schematischen Darstellungen bevorzugter Ausführungsbeispiele. Hierbei zeigen:
  • FIG 1
    ein Flussdiagramm eines Verfahrens zum Trainieren einer Steuerung eines Schienenfahrzeugs gemäß einer Ausführungsform;
    FIG 2
    eine schematische Darstellung eines Schienenfahrzeugs mit einer Steuerung nach einer Ausführungsform; und
    FIG 3
    eine schematische Darstellung eines Computerprogrammprodukts.
  • FIG 1 zeigt ein Flussdiagramm eines Verfahrens 100 zum Trainieren einer Steuerung 200 eines Schienenfahrzeugs 201 gemäß einer Ausführungsform.
  • Zum Trainieren der Steuerung 200 des Schienenfahrzeugs 201 werden zunächst in einem ersten Verfahrensschritt 101 Trainingsdaten bereitgestellt. Die Trainingsdaten basieren hierbei auf Sensordaten eines Schienenfahrzeugs 201 und umfassen in der gezeigten Ausführungsform Zustandsvariablen 217, Steuerungsaktionen 219 und Geschwindigkeitstrajektorien 221. Die Trainingsdaten 203, insbesondere die Sensordaten des Schienenfahrzeugs 201, können beispielsweise während eines Fahrens des Schienenfahrzeugs 201 oder eines vergleichbaren Schienenfahrzeugs durch eine entsprechende Sensorik aufgenommen sein.
  • Zustandsvariablen 217 beschreiben im Sinne der Anmeldung Punkte innerhalb eines Zustandsraums, der verschiedene Zustände des Schienenfahrzeugs 201 beschreibt. Insbesondere können die Zustandsvariablen 217 Geschwindigkeitsdaten, Beschleunigungsdaten und/oder Ortsdaten des Schienenfahrzeugs 201 umfassen, die während des Verfahrens des Schienenfahrzeugs 201 oder des vergleichbaren Schienenfahrzeugs aufgenommen wurden. Das vergleichbare Schienenfahrzeug kann beispielsweise ein Schienenfahrzeug identischen Typs sein. Darüber hinaus können die Zustandsvariablen 217 Spezifikationsdaten des Antriebs und/oder des Schienenfahrzeugs 201 umfassen, die beispielsweise die Art des Antriebs, maximale Leistung bzw. Drehzahl und andere Parameter des Antriebs oder eine Größe bzw. ein Gewicht des Schienenfahrzeugs 201 umfassen.
  • Steuerungsaktionen 219 sind im Sinne der Anmeldung Aktionen, die während des Verfahrens des Schienenfahrzeugs 201 zum Steuern des Schienenfahrzeugs 201 durch die Steuerung 200 ausgeführt werden. Steuerungsaktionen 219 können beispielsweise die Betätigung des Gaspedals oder des Steuerungshebels eines Schienenfahrzeugs bzw. die Betätigung der Bremse des Schienenfahrzeugs 201 umfassen.
  • Geschwindigkeitstrajektorien 221 sind im Sinne der Anmeldung durch den Zustandsraum verlaufende Spuren von zeitlich aufeinander folgenden Geschwindigkeitswerten, die während des Verfahrens des Schienenfahrzeugs 201 erreicht wurden.
  • Nach Bereitstellen der Trainingsdaten 203 wird in einem weiteren Verfahrensschritt 103 ein Surrogat-Modell 205 des Schienenfahrzeugs 201 generiert bzw. trainiert und dem Surrogat-Modell 205 eine Relation zwischen Ansteuerungen eines Antriebs 207 des Schienenfahrzeugs 201 und einer hieraus resultierenden Geschwindigkeit des Schienenfahrzeugs 201 gelernt.
  • Basierend auf den Trainingsdaten 203, die während des Verfahrens des Schienenfahrzeugs 201 aufgenommen wurden, wird dem Surrogat-Modell 205, das eine virtuelle Kopie des Schienenfahrzeugs 201 darstellt, mittels Methoden des Maschinenlernens trainiert, welche Steuerungsaktionen 219, Betätigung des Gaspedals oder Betätigung der Bremse, zu welchen Endgeschwindigkeiten des Schienenfahrzeugs 201, die basierend auf den entsprechenden Zustandsvariablen 217 ermittelt werden, führen. Das derart trainierte Surrogat-Modell 205 ermöglicht somit eine Simulation der Steuerung 200 des Schienenfahrzeugs 201, bei der durch Ausführung entsprechender Steuerungsfunktionen 219 entsprechende Geschwindigkeitstrajektorien 221 erzielt werden können.
  • In einem weiteren Verfahrensschritt 105 wird eine Aktionsauswahlregel 209 basierend auf den Trainingsdaten 203 und dem trainierten Surrogat-Modell 205 unter Verwendung von Methoden des bestärkenden Lernens und unter Berücksichtigung wenigstens eines objektiven Steuerungsziels 211 trainiert. Die Aktionsauswahlregel 209 umfasst hierbei Steuerungsanweisungen zum Steuern des Antriebs 207 des Schienenfahrzeugs 201. Die Steuerungsanweisungen sind hierbei eingerichtet, das Schienenfahrzeug 201 aus einem ersten Geschwindigkeitszustand in einen zweiten Geschwindigkeitszustand zu beschleunigen.
  • Die Steuerungsanweisungen können beispielsweise den Steuerungsaktionen 219 entsprechen, die als Trainingsdaten 203 während des Verfahrens des Schienenfahrzeugs 201 aufgenommen wurden, und das Beschleunigen bzw. Abbremsen des Schienenfahrzeugs umfassen. Die Aktionsauswahlregel 209 kann hierzu eine Mehrzahl von Steuerungsanweisungen aufweisen, mittels denen der Antrieb 207 des Schienenfahrzeugs 201 angesteuert werden kann. Die Steuerungsanweisungen sind hierbei derart ausgebildet, dass während des Ansteuerns des Antriebs 207 des Schienenfahrzeugs 201 das objektive Steuerungsziel 211 erreicht wird. Das objektive Steuerungsziel 211 kann hierbei beispielsweise eine zu erreichende Endgeschwindigkeit, ein gewünschter Energieverbrauch oder eine maximale Beschleunigung des Schienenfahrzeugs 201 sein, die jeweils während des Ansteuerns des Schienenfahrzeugs 201 zu erreichen bzw. einzuhalten sind. Das objektive Steuerungsziel 211 kann ebenfalls durch die Trainingsdaten 203 bereitgestellt sein. Beispielsweise kann das Steuerungsziel 211 durch die aufgezeichneten Geschwindigkeitstrajektorien 221 der Trainingsdaten 203 dargestellt sein.
  • Die ersten und zweiten Geschwindigkeitszustände können hierbei jeweils ein Ist-Zustand bzw. ein Soll-Zustand des Schienenfahrzeugs 201 sein, wobei das Schienenfahrzeug 201 durch das Ansteuern gemäß den Steuerungsanweisungen der Aktionsauswahlregel 209 aus dem Ist-Zustand in den Soll-Zustand zu überführen ist. Alternativ hierzu können die ersten und zweiten Geschwindigkeitszustände zwei zeitlich nacheinander eintretende Zustände des Zustandsraums sein, in die das Schienenfahrzeug 201 durch Ansteuern gemäß den Steuerungsanweisungen der Aktionsauswahlregel zu überführen ist.
  • Zum Trainieren der Aktionsauswahlregel 209 durch bestärkendes Lernen wird eine beliebig ausgewählte Aktionsauswahlregel mit beliebigen Steuerungsanweisungen basierend auf den Trainingsdaten 203 inklusive der Zustandsvariablen 217 des Zustandsraums des Schienenfahrzeugs 201 und unter Berücksichtigung des jeweils ausgewählten Steuerungsziels 211 trainiert bzw. optimiert, sodass die Aktionsauswahlregel 209 eingerichtet ist, das ausgewählte Steuerungsziel 211 zu erreichen. In der gezeigten Ausführungsform wird das Training der beliebig gewählten Aktionsauswahlregel 209 in einem weiteren Verfahrensschritt 111 durch ein Maximieren einer entsprechend eingerichteten Belohnungsfunktion ausgeführt. Die Belohnungsfunktion kann hierbei beispielsweise eine Differenz zwischen einem durch Ausführen einer Steuerungsaktion 219 der Aktionsauswahlregel 209 erzielten Geschwindigkeitszustand und dem objektiven Steuerungsziel 211 definiert sein. Das Training der Aktionsauswahlregel 209 erfolgt somit dadurch, dass die Steuerungsanweisungen bzw. die Aktionsauswahlregel 209 derart modifiziert werden, dass die entsprechend definierte Belohnungsfunktion einen maximalen Wert erreicht. Eine Aktionsauswahlregel 209 mit einer maximalen Belohnungsfunktion ist demzufolge in der Lage, das ausgewählte Steuerungsziel 211 zu erreichen. Durch das derartige Trainieren der Aktionsauswahlregel 209 kann der durch die Trainingsdaten 203 definierte Zustandsraum des Schienenfahrzeugs 201, in dem verschiedene Zustände des Schienenfahrzeugs 201 angeführt sind, durchquert werden, um die optimale Aktionsauswahlregel 209 zu bestimmen, die eingerichtet ist, durch Ausführung der entsprechenden Steuerungsanweisungen das Schienenfahrzeug 201 in einer optimierten Trajektorie in Zustände zu überführen, die eine optimale Steuerung 200 und das Erreichen des vorbestimmten objektiven Steuerungsziels 211 gewährleisten.
  • Gemäß der gezeigten Ausführungsform wird zum Trainieren der Aktionsauswahlregel 209 in einem Verfahrensschritt 109 das objektive Steuerungsziel 211 randomisiert geändert und geänderte Steuerungsziele 215 generiert. Durch das randomisierte Ändern des Steuerungsziels 211 können geänderte Steuerungsziele 215 generiert werden, die von den Trainingsdaten 203 abweichen können.
  • Beispielsweise kann das objektive Steuerungsziel 211 durch eine Geschwindigkeitstrajektorie 221 der Trainingsdaten 203 gebildet sein. Die jeweilige Geschwindigkeitstrajektorie 221 kann hierbei durch die Sensordaten des Schienenfahrzeugs 201 gestützt sein, die während des Verfahrens des Schienenfahrzeugs 201 aufgenommen wurden. Durch Verändern einzelner Werte der Geschwindigkeitstrajektorie 221 können somit abgeänderte Geschwindigkeitstrajektorien 221 als abgeänderte Steuerungsziele 215 generiert werden, wobei die abgeänderten Geschwindigkeitstrajektorien 221 nicht vollständig durch die Trainingsdaten 203 gestützt sind und Geschwindigkeitswerte aufweisen, die während des Verfahrens des Schienenfahrzeugs 201 und der Aufnahme der jeweiligen Geschwindigkeitswerte des Schienenfahrzeugs 201 abweichen. Durch das Ändern der Geschwindigkeitstrajektorie 221 können somit Punkte im Zustandsraum des Schienenfahrzeugs 201 erreicht werden, für die keine expliziten Trainingsdaten 203 generiert wurden.
  • Alternativ hierzu können auch mehrere Steuerungsziele 211, 215 beim Training der Aktionsauswahlregel 209 berücksichtigt werden, sodass die Aktionsauswahlregel 209 eingerichtet ist, eine Mehrzahl von Steuerungszielen 211, 215 zu erfüllen. Die Steuerungsziele können hierbei neben der zu erreichenden Endgeschwindigkeit des Schienenfahrzeugs 201 beispielsweise ein Energieverbrauch des Schienenfahrzeugs 201 oder eine maximal zulässige Beschleunigung des Schienenfahrzeugs 201 umfassen, die während der Steuerung 200 des Schienenfahrzeugs 201 zu erfüllen bzw. zu berücksichtigen sind.
  • Nach dem Trainieren der Aktionsauswahlregel 209 im Verfahrensschritt 105 wird basierend auf der Ausgangs-Aktionsauswahlregel 209 eine entsprechend trainierte Aktionsauswahlregel 213 generiert, die Steuerungsanweisungen umfasst, die eingerichtet sind, das Schienenfahrzeug 201 zu beschleunigen und das Steuerungsziel 211 bzw. die abgeänderten Steuerungsziele 215 zu erfüllen.
  • Das Trainieren der Aktionsauswahlregel 209 bzw. das Maximieren der Belohnungsfunktion kann durch eine trainierte künstliche Intelligenz, beispielsweise durch ein entsprechend trainiertes neuronales Netz, durchgeführt werden. Durch Maximieren der entsprechend eingerichteten Belohnungsfunktion kann somit eine Aktionsauswahlregel 213 generiert werden, die die entsprechenden Steuerungsziele 211, 215 erfüllt und somit eine optimierte Steuerung 200 des Schienenfahrzeugs 201 gewährleistet.
  • FIG 2 zeigt eine schematische Darstellung eines Schienenfahrzeugs 201 mit einer Steuerung 200 nach einer Ausführungsform.
  • Fig. 2 zeigt ein Schienenfahrzeug 201 mit einer Steuerung 200, wobei die Steuerung 200 eine gemäß dem erfindungsgemäßen Verfahren 100 zum Trainieren einer Steuerung 200 eines Schienenfahrzeugs 201 trainierte Aktionsauswahlregel 213 umfasst. Das Schienenfahrzeug 201 umfasst ferner einen Antrieb 207 und einen Sensor 223. Über den Sensor 223 können Sensorwerte des Antriebs 207 aufgenommen werden, um eine Ansteuerung des Antriebs 207 mittels der Steuerung 200 zu verfolgen. Das Schienenfahrzeug 201 umfasst ferner eine Planungseinheit 225, die mit der Steuerung 200 verbunden ist. Zur Ansteuerung des Schienenfahrzeugs 201 kann somit die Steuerung 200 von der Planungseinheit 225 eine entsprechende Geschwindigkeitstrajektorie 221 empfangen, die einen geplanten Geschwindigkeitsverlauf des Verfahrens des Schienenfahrzeugs 201 beschreibt. Durch Ausführen der durch die trainierte Aktionsauswahlregel 213 definierten Steuerungsanweisungen kann somit die Steuerung 200 die entsprechenden Steuerungsanweisungen ausführen, die geeignet sind, das Schienenfahrzeug 201 gemäß der geplanten Geschwindigkeitstrajektorie 221 der Planungseinheit 225 zu beschleunigen. Die Steuerung 200 des Schienenfahrzeugs 201 kann hierbei verschiedene Steuerungsziele 211, 215 berücksichtigen. Beispielsweise kann das Schienenfahrzeug 201 unter einem vorbestimmten maximalen Energieverbrauch angesteuert werden. Alternativ oder zusätzlich hierzu kann das Schienenfahrzeug 201 unter Berücksichtigung einer maximal zulässigen Beschleunigung angesteuert werden. Indem die entsprechend trainierte Aktionsauswahlregel 213 für eine Vielzahl verschiedener Steuerungsziele 211, 215 entsprechende Steuerungsanweisungen umfasst, die geeignet sind, das Schienenfahrzeug 201 unter Berücksichtigung der jeweiligen Steuerungsziele 211, 215 anzusteuern, können während des Betriebs des Schienenfahrzeugs 201 und insbesondere bei bereits installierter Steuerung 200 entsprechende Steuerungsziele 211, 215 abgeändert werden, die während des Steuerns des Schienenfahrzeugs 201 erreicht werden sollen. Eine Änderung der Steuerung 200 und insbesondere eine Anpassung der jeweiligen definierten Steuerungsanweisungen ist aufgrund des Trainings der trainierten Aktionsauswahlregel 213 nicht erforderlich.
  • FIG 3 zeigt eine schematische Darstellung eines Computerprogrammprodukts 300.
  • Figur 3 zeigt ein Computerprogrammprodukt 300, umfassend Befehle, die bei der Ausführung des Programms durch eine Recheneinheit dieses veranlassen, das Verfahren 100 nach einer der oben genannten Ausführungsformen auszuführen. Das Computerprogrammprodukt 300 ist in der gezeigten Ausführungsform auf einem Speichermedium 301 gespeichert. Das Speichermedium 301 kann hierbei ein beliebiges aus dem Stand der Technik bekanntes Speichermedium sein.
  • Obwohl die Erfindung im Detail durch das bevorzugte Ausführungsbeispiel näher illustriert und beschrieben wurde, so ist die Erfindung nicht durch die offenbarten Beispiele eingeschränkt und andere Variationen können vom Fachmann hieraus abgeleitet werden, ohne den Schutzumfang der Erfindung zu verlassen.

Claims (11)

  1. Verfahren (100) zum Trainieren einer Steuerung (200) eines Schienenfahrzeugs (201), umfassend:
    - Bereitstellen (101) von Trainingsdaten (203) basierend auf Sensordaten eines Schienenfahrzeugs (201);
    - Trainieren (103) eines Surrogat-Modells (205) des Schienenfahrzeugs (201) basierend auf den Trainingsdaten (203) bezüglich einer Relation zwischen einer Ansteuerung eines Antriebs (207) des Schienenfahrzeugs (201) und einer resultierenden Geschwindigkeit des Schienenfahrzeugs (201);
    - Trainieren (105) einer Aktionsauswahlregel (209) basierend auf den Trainingsdaten (203) und dem Surrogat-Modell (205) unter Verwendung von maschinellem Lernen und unter Berücksichtigung wenigstens eines objektiven Steuerungsziels (211), wobei die Aktionsauswahlregel (209) Steuerungsanweisungen zum Ansteuern des Antriebs (207) des Schienenfahrzeugs (201) umfasst, die eingerichtet sind, das Schienenfahrzeug (201) aus einem ersten Geschwindigkeitszustand in einen zweiten Geschwindigkeitszustand zu beschleunigen; und
    - Generieren (107) einer trainierten Aktionsauswahlregel (213), wobei die trainierte Aktionsauswahlregel (213) Steuerungsanweisungen umfasst, die eingerichtet sind, das Schienenfahrzeug (201) zu beschleunigen und das Steuerungsziel (211) zu erfüllen.
  2. Verfahren (100) nach Anspruch 1, wobei das maschinelle Lernen als bestärkendes Lernen ausgebildet ist.
  3. Verfahren (100) nach Anspruch 1 oder 2, wobei das Trainieren (105) der Aktionsauswahlregel (209) umfasst:
    Randomisiertes Abändern (109) des wenigstens einen auf den Trainingsdaten (203) basierenden objektiven Steuerungsziels (211) und Definieren von abgeänderten Steuerungszielen (215);
    und
    Trainieren der Aktionsauswahlregel (209) in Bezug auf Erfüllung der abgeänderten Steuerungsziele (215).
  4. Verfahren (100) nach Anspruch 1, 2 oder 3, wobei das Trainieren (105) der Aktionsauswahlregel (209) umfasst:
    Maximieren (111) einer Belohnungsfunktion, wobei die Belohnungsfunktion für eine Aktionsauswahlregel (209) maximal ist, die das objektive Steuerungsziel (211) und/oder die abgeänderten Steuerungsziele (215) erfüllt.
  5. Verfahren (100) nach Anspruch 4, wobei die Belohnungsfunktion eine Differenz zwischen einem durch Ausführen einer Steuerungsanweisung der Aktionsauswahlregel (209) erzielten Geschwindigkeitszustand und dem objektiven Steuerungsziel (211) und/oder den abgeänderten Steuerungszielen (215) berücksichtigt.
  6. Verfahren (100) nach Anspruch 4 oder 5, wobei das Maximieren (111) der Belohnungsfunktion durch ein künstliches neuronales Netz ausgeführt wird.
  7. Verfahren (100) nach einem der voranstehenden Ansprüche, wobei das Steuerungsziel (211) und/oder die abgeänderten Steuerungsziele (215) eine Sollgeschwindigkeit des Schienenfahrzeugs (201) und/oder einen Sollenergieverbrauch und/oder eine Sollbeschleunigung und/oder ein verschleißarmes Beschleunigungs- und/oder Bremsverhalten umfasst.
  8. Verfahren (100) nach einem der voranstehenden Ansprüche, wobei die Trainingsdaten (203) während eines Verfahrens des Schienenfahrzeugs (201) aufgenommen werden und Sensordaten von Zustandsvariablen (217), Steuerungsaktionen (219) und Geschwindigkeitstrajektorien (221) umfassen, wobei die Zustandsvariablen (217) Geschwindigkeitsdaten, Beschleunigungsdaten, Ortsdaten, Spezifikationsdaten des Antriebs und/oder des Schienenfahrzeugs (201) umfassen, wobei die Steuerungsaktionen (219) Antriebs- und/oder Bremsbetätigungen umfassen, und wobei die Geschwindigkeitstrajektorien (221) entsprechende zeitliche Geschwindigkeitsentwicklungen des Schienenfahrzeugs (201) beschreiben.
  9. Steuerung (200) für ein Schienenfahrzeug (201), wobei die Steuerung (200) wenigstens eine trainierte Aktionsauswahlregel (213) umfasst, die nach einem Verfahren (100) zum Trainieren einer Steuerung (200) eines Schienenfahrzeugs (201) nach einem der voranstehenden Ansprüche 1 bis 8 trainiert ist, und wobei die Steuerung (200) eingerichtet ist, das Schienenfahrzeug (201) unter Ausführung der trainierten Aktionsauswahlregel (213) zu steuern.
  10. Schienenfahrzeug (201) mit einer Steuerung (200) nach Anspruch 9.
  11. Computerprogrammprodukt (300) umfassend Befehle, die bei der Ausführung des Programms durch eine Datenverarbeitungseinheit diese veranlassen, das Verfahren (100) nach einem der voranstehenden Ansprüche 1 bis 8 auszuführen.
EP21154227.9A 2021-01-29 2021-01-29 Verfahren zum trainieren einer steuerung für ein schienenfahrzeug, steuerung und schienenfahrzeug Pending EP4035969A1 (de)

Priority Applications (3)

Application Number Priority Date Filing Date Title
EP21154227.9A EP4035969A1 (de) 2021-01-29 2021-01-29 Verfahren zum trainieren einer steuerung für ein schienenfahrzeug, steuerung und schienenfahrzeug
AU2022200290A AU2022200290B2 (en) 2021-01-29 2022-01-18 Method of training control means of a rail vehicle, control means, and rail vehicle
CN202210092219.3A CN114802370B (zh) 2021-01-29 2022-01-26 用于训练轨道车辆的控制装置的方法、控制装置和轨道车辆

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
EP21154227.9A EP4035969A1 (de) 2021-01-29 2021-01-29 Verfahren zum trainieren einer steuerung für ein schienenfahrzeug, steuerung und schienenfahrzeug

Publications (1)

Publication Number Publication Date
EP4035969A1 true EP4035969A1 (de) 2022-08-03

Family

ID=74418221

Family Applications (1)

Application Number Title Priority Date Filing Date
EP21154227.9A Pending EP4035969A1 (de) 2021-01-29 2021-01-29 Verfahren zum trainieren einer steuerung für ein schienenfahrzeug, steuerung und schienenfahrzeug

Country Status (3)

Country Link
EP (1) EP4035969A1 (de)
CN (1) CN114802370B (de)
AU (1) AU2022200290B2 (de)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115188240A (zh) * 2022-08-24 2022-10-14 南京中车浦镇城轨车辆有限责任公司 一种应用于轨道车辆的牵引制动教学操作台
EP4339066A1 (de) * 2022-09-15 2024-03-20 Siemens Mobility GmbH Dynamikmodell für ein schienenfahrzeug

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE102017215802A1 (de) * 2017-09-07 2019-03-07 Siemens Aktiengesellschaft Fahrerassistenzsystem für Schienenfahrzeuge
EP3552921A1 (de) * 2018-04-13 2019-10-16 Siemens Mobility GmbH Autonome geschwindigkeitsplanung eines auf einen vorbestimmten pfad beschränkten beweglichen akteurs

Family Cites Families (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102951165B (zh) * 2012-11-05 2015-04-15 北京交通大学 轨道列车节省电能运行控制方法
PL3213974T3 (pl) * 2016-03-03 2021-04-19 Thales Management & Services Deutschland Gmbh Sposób sterowania pojazdami w przypadku sytuacji konfliktowej i system wspomagania decyzji
US9934623B2 (en) * 2016-05-16 2018-04-03 Wi-Tronix Llc Real-time data acquisition and recording system
CN107194612B (zh) * 2017-06-20 2020-10-13 清华大学 一种基于深度强化学习的列车运行调度方法及系统
CN109204390B (zh) * 2018-09-29 2021-03-12 交控科技股份有限公司 一种基于深度学习的列车控制方法
CN109835375B (zh) * 2019-01-29 2021-05-11 中国铁道科学研究院集团有限公司通信信号研究所 基于人工智能技术的高速铁路列车自动驾驶系统
DE102019206241A1 (de) * 2019-04-30 2020-11-05 Siemens Mobility GmbH Verfahren zum Bestimmen einer Gleisbelegung sowie Achszähleinrichtung
US11493926B2 (en) * 2019-05-15 2022-11-08 Baidu Usa Llc Offline agent using reinforcement learning to speedup trajectory planning for autonomous vehicles
CN110920690B (zh) * 2019-11-22 2022-02-15 交控科技股份有限公司 远程筛选升级列车的方法
CN111516735B (zh) * 2020-05-14 2022-02-08 重庆交通大学 虚拟重联小编组列车自动驾驶的控制系统及其控制方法
CN111619624B (zh) * 2020-06-01 2022-06-21 北京全路通信信号研究设计院集团有限公司 一种基于深度强化学习的有轨电车运行控制方法和系统
CN112149666A (zh) * 2020-09-15 2020-12-29 河海大学 一种基于深度学习的车辆目标检测方法
CN112193280B (zh) * 2020-12-04 2021-03-16 华东交通大学 一种重载列车强化学习控制方法及系统

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE102017215802A1 (de) * 2017-09-07 2019-03-07 Siemens Aktiengesellschaft Fahrerassistenzsystem für Schienenfahrzeuge
EP3552921A1 (de) * 2018-04-13 2019-10-16 Siemens Mobility GmbH Autonome geschwindigkeitsplanung eines auf einen vorbestimmten pfad beschränkten beweglichen akteurs

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
SHUANBAO YAO ET AL: "Optimization design for aerodynamic elements of high speed trains", COMPUTERS AND FLUIDS, PERGAMON PRESS, NEW YORK, NY, GB, vol. 95, 3 March 2014 (2014-03-03), pages 56 - 73, XP028844629, ISSN: 0045-7930, DOI: 10.1016/J.COMPFLUID.2014.02.018 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115188240A (zh) * 2022-08-24 2022-10-14 南京中车浦镇城轨车辆有限责任公司 一种应用于轨道车辆的牵引制动教学操作台
CN115188240B (zh) * 2022-08-24 2024-05-24 南京中车浦镇城轨车辆有限责任公司 一种应用于轨道车辆的牵引制动教学操作台
EP4339066A1 (de) * 2022-09-15 2024-03-20 Siemens Mobility GmbH Dynamikmodell für ein schienenfahrzeug

Also Published As

Publication number Publication date
CN114802370A (zh) 2022-07-29
CN114802370B (zh) 2024-06-14
AU2022200290A1 (en) 2022-08-18
AU2022200290B2 (en) 2022-12-22

Similar Documents

Publication Publication Date Title
DE102015004932B4 (de) Simulationsvorrichtung für mehrere Roboter
DE102016117773B4 (de) Werkzeugmaschine, die eine optimale Beschleunigung/Verlangsamung erzeugt, Simulationsvorrichtung und Maschinenlernvorrichtung
EP3132317B1 (de) Verfahren zur rechnergestützten anlagensteuerungsoptimierung mittels einem simulationsmodul
EP4035969A1 (de) Verfahren zum trainieren einer steuerung für ein schienenfahrzeug, steuerung und schienenfahrzeug
EP2941675B1 (de) Verfahren zur rechnergestützten steuerung und/oder regelung eines technischen systems
WO2018068944A1 (de) Verfahren und vorrichtung zur fahrdynamikregelung für ein kraftfahrzeug
WO2020187591A1 (de) Verfahren und vorrichtung zum ansteuern eines roboters
AT522166B1 (de) Verfahren und Kontrollvorrichtung zum Kontrollieren eines Fahrzeugs
WO2019166229A1 (de) Verfahren zum automatischen erzeugen einer bewegungstrajektorie und zugehöriges computerprogrammprodukt
EP3783446B1 (de) Computerimplementiertes verfahren und testeinheit zum approximieren einer teilmenge von testergebnissen
DE102019008398A1 (de) Verfahren zum Steuern und/oder Regeln von Schaltvorgängen sowie zum Durchführen von Adaptionen in einem Getriebe für ein Kraftfahrzeug
DE19539022A1 (de) Verfahren und Vorrichtung zum Festlegen des Gangs in einem Automatikgetriebe unter Berücksichtigung der Straßensteigung
DE102016007898B4 (de) Numerische Steuerung mit Vorabmitteilung der Ausführung einer Hilfsfunktion
AT522167B1 (de) Verfahren und Vorrichtung zur vorausschauenden Fahrzeugkontrolle
EP2832599A1 (de) Verfahren und Vorrichtung zum Betreiben eines Fahrzeugs, Computerprogramm, Computer-Programmprodukt
DE102019128115B4 (de) Fahrzeugmodell für Längsdynamik
EP3753682B1 (de) Verfahren zur steuerung eines antriebsmotors
EP4082868A1 (de) Verfahren zum optimieren eines schienenverkehrs eines schienenverkehrsnetzes
DE102022112606B3 (de) Computerimplementiertes Verfahren zur Kalibrierung eines technischen Systems
EP4339072A1 (de) Verfahren zum ermitteln zumindest eines regelparameters für ein ato-system
DE102011076969A1 (de) Verfahren zum rechnergestützten Lernen einer Regelung und/oder Steuerung eines technischen Systems
DE102020005719A1 (de) Verfahren zur Regelung einer Längsposition eines Fahrzeugs
DE102010052818A1 (de) Verfahren zur Ansteuerung einer Kupplung
EP3349078A1 (de) Diagnoseeinrichtung und verfahren zur überwachung und/oder optimierung einer regeleinrichtung
DE102016214858B4 (de) Verfahren zur prädiktiven Steuerung

Legal Events

Date Code Title Description
PUAI Public reference made under article 153(3) epc to a published international application that has entered the european phase

Free format text: ORIGINAL CODE: 0009012

STAA Information on the status of an ep patent application or granted ep patent

Free format text: STATUS: THE APPLICATION HAS BEEN PUBLISHED

AK Designated contracting states

Kind code of ref document: A1

Designated state(s): AL AT BE BG CH CY CZ DE DK EE ES FI FR GB GR HR HU IE IS IT LI LT LU LV MC MK MT NL NO PL PT RO RS SE SI SK SM TR

STAA Information on the status of an ep patent application or granted ep patent

Free format text: STATUS: REQUEST FOR EXAMINATION WAS MADE

17P Request for examination filed

Effective date: 20230120

RBV Designated contracting states (corrected)

Designated state(s): AL AT BE BG CH CY CZ DE DK EE ES FI FR GB GR HR HU IE IS IT LI LT LU LV MC MK MT NL NO PL PT RO RS SE SI SK SM TR

REG Reference to a national code

Ref country code: DE

Ref legal event code: R079

Free format text: PREVIOUS MAIN CLASS: B61L0003000000

Ipc: B61L0015000000