EP4035969B1 - Verfahren zum trainieren einer steuerung für ein schienenfahrzeug, steuerung und schienenfahrzeug - Google Patents

Verfahren zum trainieren einer steuerung für ein schienenfahrzeug, steuerung und schienenfahrzeug Download PDF

Info

Publication number
EP4035969B1
EP4035969B1 EP21154227.9A EP21154227A EP4035969B1 EP 4035969 B1 EP4035969 B1 EP 4035969B1 EP 21154227 A EP21154227 A EP 21154227A EP 4035969 B1 EP4035969 B1 EP 4035969B1
Authority
EP
European Patent Office
Prior art keywords
rail vehicle
control
training
action selection
selection rule
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
EP21154227.9A
Other languages
English (en)
French (fr)
Other versions
EP4035969A1 (de
EP4035969C0 (de
Inventor
Andrew Palmer
Marc Christian Weber
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Siemens Mobility GmbH
Original Assignee
Siemens Mobility GmbH
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Siemens Mobility GmbH filed Critical Siemens Mobility GmbH
Priority to EP21154227.9A priority Critical patent/EP4035969B1/de
Priority to ES21154227T priority patent/ES3010352T3/es
Priority to AU2022200290A priority patent/AU2022200290B2/en
Priority to CN202210092219.3A priority patent/CN114802370B/zh
Publication of EP4035969A1 publication Critical patent/EP4035969A1/de
Application granted granted Critical
Publication of EP4035969C0 publication Critical patent/EP4035969C0/de
Publication of EP4035969B1 publication Critical patent/EP4035969B1/de
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • BPERFORMING OPERATIONS; TRANSPORTING
    • B61RAILWAYS
    • B61LGUIDING RAILWAY TRAFFIC; ENSURING THE SAFETY OF RAILWAY TRAFFIC
    • B61L27/00Central railway traffic control systems; Trackside control; Communication systems specially adapted therefor
    • B61L27/04Automatic systems, e.g. controlled by train; Change-over to manual control
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B61RAILWAYS
    • B61LGUIDING RAILWAY TRAFFIC; ENSURING THE SAFETY OF RAILWAY TRAFFIC
    • B61L15/00Indicators provided on the vehicle or train for signalling purposes
    • B61L15/0062On-board target speed calculation or supervision
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B61RAILWAYS
    • B61LGUIDING RAILWAY TRAFFIC; ENSURING THE SAFETY OF RAILWAY TRAFFIC
    • B61L27/00Central railway traffic control systems; Trackside control; Communication systems specially adapted therefor
    • B61L27/20Trackside control of safe travel of vehicle or train, e.g. braking curve calculation
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B61RAILWAYS
    • B61LGUIDING RAILWAY TRAFFIC; ENSURING THE SAFETY OF RAILWAY TRAFFIC
    • B61L27/00Central railway traffic control systems; Trackside control; Communication systems specially adapted therefor
    • B61L27/60Testing or simulation

Definitions

  • the invention relates to a method for training a control system for a rail vehicle.
  • the invention further relates to a control system and a rail vehicle with a control system.
  • Automatic train operation requires a controller that can translate a desired trajectory from a higher-level planning unit into the acceleration and braking commands required to drive the trajectory.
  • the controllers used require considerable coordination effort to adapt to the specific characteristics of the individual vehicles.
  • PID controllers are very commonly used because they are very easy to implement. However, they require a significant amount of tuning when used in a new vehicle. In addition, they do not consider more than the current time step and can therefore perform poorly in systems where there is a delay in the system's response to the control inputs. In these cases, MPC controllers are typically used. However, MPC control requires an accurate model of the system to be controlled. However, for complex systems, this can be complex or not achievable with sufficient precision.
  • the invention is based on the object of providing an improved method for training a controller for a rail vehicle, an improved controller and a rail vehicle with a controller.
  • the rail vehicle control system is trained using machine learning techniques. For this purpose, training data based on sensor data from a rail vehicle is provided. Based on the training data, a surrogate model of the rail vehicle is then created. in relation to a relationship between a control of a drive of the rail vehicle and a resulting speed of the rail vehicle. An action selection rule is then trained based on the training data and the trained surrogate model using reinforcement learning techniques and taking into account at least one control goal, and a trained action selection rule is generated. Based on the trained action selection rule, the rail vehicle can be controlled and the respective predetermined control goal can be achieved.
  • a surrogate model of a rail vehicle is, in the sense of the application, a virtual model of a real rail vehicle that represents all relevant features of the real rail vehicle.
  • a surrogate model can be designed analogously to a virtual twin of a real machine and can virtually simulate the operation of a real machine or a rail vehicle.
  • the surrogate model is thus set up to simulate a movement of a rail vehicle by means of a corresponding control.
  • the surrogate model can, for example, be designed as an appropriately trained neural network and can be trained to simulate or represent the driving behavior or the control-relevant properties of the rail vehicle.
  • An action selection rule in the sense of the application is a plurality of control instructions that are designed to accelerate the rail vehicle from a first speed state to a second speed state.
  • the first and second speed states can be an actual state in which the rail vehicle is at a certain point in time and a target state into which the rail vehicle is to be transferred by controlling the drive.
  • the first and second speed states can alternatively be two chronologically successive states of the rail vehicle into which the rail vehicle is transferred when controlled by the control system.
  • Control instructions in the sense of the application are instructions or commands for controlling the rail vehicle.
  • Control instructions can include, for example, accelerating or braking the rail vehicle, including detailed control of the drive.
  • control instructions can include switching to different gears or to an energy-saving mode of the drive.
  • various control-relevant aspects can be taken into account in the control instructions in the form of corresponding instructions.
  • Control objectives in the sense of the application are objectives that are to be achieved by controlling the control system.
  • Control objectives can be, for example, a speed to which the rail vehicle is to be accelerated by controlling the control system.
  • Control objectives can alternatively or additionally be defined for various future points in time, for example via speed trajectories.
  • control objectives can define an energy consumption that is to be reached or not exceeded when controlling the rail vehicle.
  • the control objectives are defined in the sense of the application based on the training data, which in turn is generated based on sensor data from a rail vehicle.
  • Control objectives can be generated from the sensor data of the rail vehicle.
  • the control objectives can result from the sensor data and, for example, describe speeds to be achieved or energy consumption according to which the rail vehicle would be controlled while the sensor data is being recorded.
  • Control objectives can also be defined during the execution of the trained action selection rule for controlling the rail vehicle by higher-level systems, for example corresponding Planning modules for controlling the rail vehicle can be defined or changed.
  • the machine learning is designed as reinforcement learning.
  • Reinforcement learning is an area of machine learning that deals with training operational participants to carry out desired actions in order to transfer the participant from an actual state to a desired target state.
  • the training of the participant is carried out taking into account a control goal that is to be achieved by the execution of the participant's action.
  • the training can take into account maximizing a reward function that shows the participant the action to be carried out and the goal to be achieved.
  • training comprises: randomly modifying the at least one objective control objective based on the training data and defining modified control objectives; and training the action selection rule to satisfy the modified control objectives.
  • control objectives are defined that are supported by, but not limited to, the training data.
  • the modified control objectives thus result in control objectives that are not based on training data, but represent control objectives that go beyond the control objectives according to which the rail vehicle was controlled during the recording of the sensor data.
  • an improved trained action selection rule can be generated that defines control instructions for an increased number of different control objectives. This can provide improved control.
  • training the action selection rule comprises maximizing a reward function, wherein the reward function is maximal for an action selection rule that satisfies the objective control objective and/or the modified control objectives.
  • This provides the technical advantage of enabling the action selection rule to be trained as precisely as possible using reinforcement learning techniques.
  • the reward function takes into account a difference between a speed state achieved by executing a control action of the action selection rule and the objective control goal and/or the modified control goals.
  • maximizing the reward function is performed by an artificial neural network.
  • control target comprises a target speed of the rail vehicle and/or a target energy consumption and/or a target acceleration and/or a low-wear acceleration and/or braking behavior.
  • the action selection rule trained in this way includes control instructions that are suitable for controlling the rail vehicle taking the control objectives mentioned into account.
  • the training data are recorded during a movement of the rail vehicle and comprise sensor data of state variables, control actions and speed trajectories, wherein the state variables comprise speed data, acceleration data, location data, specification data of the drive and/or the rail vehicle, wherein the control actions comprise drive and/or brake actuations, and wherein the speed trajectories describe corresponding temporal speed developments of the rail vehicle.
  • a control system for a rail vehicle wherein the control system is operated according to a method for training a control system of a rail vehicle according to one of the preceding embodiments is trained, and wherein the controller is arranged to control the rail vehicle by executing the trained action selection rule.
  • the control has a trained action selection rule that is trained according to the inventive method for training a control of a rail vehicle according to the above-mentioned embodiments. Based on the trained action selection rule, which has a plurality of control instructions for controlling the rail vehicle taking into account various control objectives, the rail vehicle can be controlled to achieve the respective control objectives.
  • the control can be trained for any rail vehicle that corresponds to the surrogate model, so that in the case of a new rail vehicle, a complex adaptation of the model of a control used for control, as is necessary for a model predictive control (MPC) controller, can be omitted.
  • MPC model predictive control
  • a rail vehicle with a control according to one of the preceding embodiments is provided.
  • a computer program product comprising instructions which, when the program is executed by a data processing unit, cause the data processing unit to carry out the method for training a controller for a Rail vehicle according to one of the preceding embodiments.
  • FIG 1 shows a flowchart of a method 100 for training a controller 200 of a rail vehicle 201 according to an embodiment.
  • training data is first provided in a first method step 101.
  • the training data is based on sensor data of a rail vehicle 201 and, in the embodiment shown, includes state variables 217, control actions 219 and speed trajectories 221.
  • the training data 203 in particular the sensor data of the rail vehicle 201, can be recorded by a corresponding sensor system, for example, while the rail vehicle 201 or a comparable rail vehicle is traveling.
  • State variables 217 describe, in the sense of the application, points within a state space that describes various states of the rail vehicle 201.
  • the state variables 217 can be speed data, acceleration data and/or location data of the rail vehicle 201 that were recorded during the movement of the rail vehicle 201 or the comparable rail vehicle.
  • the comparable rail vehicle can, for example, be a rail vehicle of the identical type.
  • the state variables 217 can include specification data of the drive and/or the rail vehicle 201, which include, for example, the type of drive, maximum power or speed and other parameters of the drive or a size or weight of the rail vehicle 201.
  • Control actions 219 in the sense of the application are actions that are carried out during the movement of the rail vehicle 201 for controlling the rail vehicle 201 by the controller 200.
  • Control actions 219 can include, for example, the actuation of the accelerator pedal or the control lever of a rail vehicle or the actuation of the brake of the rail vehicle 201.
  • speed trajectories 221 are traces of temporally successive speed values that run through the state space and were reached during the movement of the rail vehicle 201.
  • a surrogate model 205 of the rail vehicle 201 is generated or trained in a further method step 103 and the surrogate model 205 is taught a relationship between controls of a drive 207 of the rail vehicle 201 and a resulting speed of the rail vehicle 201.
  • the surrogate model 205 which represents a virtual copy of the rail vehicle 201, is trained by means of machine learning methods to determine which control actions 219, actuation of the accelerator pedal or actuation of the brake, lead to which final speeds of the rail vehicle 201, which are based on the corresponding state variables 217 are determined.
  • the surrogate model 205 trained in this way thus enables a simulation of the control 200 of the rail vehicle 201, in which corresponding speed trajectories 221 can be achieved by executing corresponding control functions 219.
  • an action selection rule 209 is trained based on the training data 203 and the trained surrogate model 205 using reinforcement learning methods and taking into account at least one objective control goal 211.
  • the action selection rule 209 includes control instructions for controlling the drive 207 of the rail vehicle 201.
  • the control instructions are designed to accelerate the rail vehicle 201 from a first speed state to a second speed state.
  • the control instructions can, for example, correspond to the control actions 219 that were recorded as training data 203 during the movement of the rail vehicle 201 and include the acceleration or braking of the rail vehicle.
  • the action selection rule 209 can have a plurality of control instructions by means of which the drive 207 of the rail vehicle 201 can be controlled.
  • the control instructions are designed in such a way that the objective control goal 211 is achieved during the control of the drive 207 of the rail vehicle 201.
  • the objective control goal 211 can, for example, be a final speed to be achieved, a desired energy consumption or a maximum acceleration of the rail vehicle 201, which are to be achieved or maintained during the control of the rail vehicle 201.
  • the objective control goal 211 can also be provided by the training data 203.
  • the control target 211 may be represented by the recorded velocity trajectories 221 of the training data 203.
  • the first and second speed states can each be an actual state or a target state of the rail vehicle 201, wherein the rail vehicle 201 is to be transferred from the actual state to the target state by controlling it in accordance with the control instructions of the action selection rule 209.
  • the first and second speed states can be two states of the state space that occur one after the other, into which the rail vehicle 201 is to be transferred by controlling it in accordance with the control instructions of the action selection rule.
  • an arbitrarily selected action selection rule is trained or optimized with arbitrary control instructions based on the training data 203 including the state variables 217 of the state space of the rail vehicle 201 and taking into account the respectively selected control goal 211, so that the action selection rule 209 is set up to achieve the selected control goal 211.
  • the training of the arbitrarily selected action selection rule 209 is carried out in a further method step 111 by maximizing a correspondingly set up reward function.
  • the reward function can be defined, for example, as a difference between a speed state achieved by executing a control action 219 of the action selection rule 209 and the objective control goal 211.
  • the training of the action selection rule 209 is thus carried out by modifying the control instructions or the action selection rule 209 in such a way that the correspondingly defined reward function reaches a maximum value.
  • An action selection rule 209 with a maximum reward function is therefore able to achieve the selected control goal 211.
  • the objective control target 211 is changed randomly in a method step 109 and changed control targets 215 are generated.
  • changed control targets 215 can be generated, which can deviate from the training data 203.
  • the objective control target 211 can be formed by a speed trajectory 221 of the training data 203.
  • the respective speed trajectory 221 can be supported by the sensor data of the rail vehicle 201 that was recorded during the movement of the rail vehicle 201.
  • modified speed trajectories 221 can thus be generated as modified control targets 215, wherein the modified speed trajectories 221 are not fully supported by the training data 203 and have speed values that differ during the movement of the rail vehicle 201 and the recording of the respective speed values of the rail vehicle 201.
  • points in the state space of the rail vehicle 201 can thus be reached for which no explicit training data 203 was generated.
  • control objectives 211, 215 can be taken into account when training the action selection rule 209, so that the action selection rule 209 is set up to meet a plurality of control objectives 211, 215.
  • the control objectives can be of the rail vehicle 201 may include, for example, an energy consumption of the rail vehicle 201 or a maximum permissible acceleration of the rail vehicle 201, which must be met or taken into account during the control 200 of the rail vehicle 201.
  • a correspondingly trained action selection rule 213 is generated based on the initial action selection rule 209, which includes control instructions that are designed to accelerate the rail vehicle 201 and to fulfill the control goal 211 or the modified control goals 215.
  • the training of the action selection rule 209 or the maximization of the reward function can be carried out by a trained artificial intelligence, for example by a correspondingly trained neural network.
  • a trained artificial intelligence for example by a correspondingly trained neural network.
  • FIG 2 shows a schematic representation of a rail vehicle 201 with a controller 200 according to an embodiment.
  • Fig. 2 shows a rail vehicle 201 with a controller 200, wherein the controller 200 comprises an action selection rule 213 trained according to the inventive method 100 for training a controller 200 of a rail vehicle 201.
  • the rail vehicle 201 further comprises a drive 207 and a sensor 223. Sensor values of the drive 207 can be recorded via the sensor 223 in order to track a control of the drive 207 by means of the controller 200.
  • the rail vehicle 201 further comprises a planning unit 225 which is connected to the controller 200. To control the rail vehicle 201, the controller 200 can thus be controlled by the Planning unit 225 receives a corresponding speed trajectory 221 that describes a planned speed profile of the movement of the rail vehicle 201.
  • the controller 200 can thus execute the corresponding control instructions that are suitable for accelerating the rail vehicle 201 according to the planned speed trajectory 221 of the planning unit 225.
  • the controller 200 of the rail vehicle 201 can take into account various control objectives 211, 215.
  • the rail vehicle 201 can be controlled with a predetermined maximum energy consumption.
  • the rail vehicle 201 can be controlled taking into account a maximum permissible acceleration.
  • the appropriately trained action selection rule 213 includes corresponding control instructions for a large number of different control objectives 211, 215 that are suitable for controlling the rail vehicle 201 taking into account the respective control objectives 211, 215, corresponding control objectives 211, 215 that are to be achieved during the control of the rail vehicle 201 can be modified during the operation of the rail vehicle 201 and in particular when the controller 200 is already installed. A change to the controller 200 and in particular an adaptation of the respective defined control instructions is not necessary due to the training of the trained action selection rule 213.
  • FIG 3 shows a schematic representation of a computer program product 300.
  • Figure 3 shows a computer program product 300 comprising instructions which, when the program is executed by a computing unit, cause the latter to execute the method 100 according to one of the above-mentioned embodiments.
  • the computer program product 300 is stored on a storage medium 301.
  • the storage medium 301 can be any storage medium known from the prior art.

Landscapes

  • Engineering & Computer Science (AREA)
  • Mechanical Engineering (AREA)
  • Train Traffic Observation, Control, And Security (AREA)
  • Electric Propulsion And Braking For Vehicles (AREA)
  • Toys (AREA)

Description

  • Die Erfindung betrifft ein Verfahren zum Trainieren einer Steuerung für ein Schienenfahrzeug. Die Erfindung betrifft ferner eine Steuerung und ein Schienenfahrzeug mit einer Steuerung.
  • Für den automatischen Zugbetrieb ist eine Steuerung erforderlich, die eine gewünschte Trajektorie von einer übergeordneten Planungseinheit in die zum Fahren der Trajektorie erforderlichen Beschleunigungs- und Bremsbefehle übersetzen kann. Typischerweise erfordern die verwendeten Steuerungen einen erheblichen Abstimmungsaufwand, um sich an die spezifischen Eigenschaften der einzelnen Fahrzeuge anzupassen.
  • Typische Ansätze für Steuerungen basieren auf Proportional-Integral-Derivative (PID)-Reglern und Model Predictive Control (MPC)-Reglern. PID-Regler werden sehr häufig verwendet, da sie sehr einfach zu implementieren sind. Sie erfordern jedoch einen erheblichen Abstimmungsaufwand, wenn sie in einem neuen Fahrzeug eingesetzt werden. Außerdem berücksichtigen sie nicht mehr als den aktuellen Zeitschritt und können daher bei Systemen, bei denen es eine Verzögerung in der Reaktion des Systems auf die Steuereingaben gibt, eine schlechte Leistung aufweisen. In diesen Fällen werden typischerweise MPC-Regler eingesetzt. Die MPC-Steuerung setzt jedoch ein genaues Modell des zu steuernden Systems voraus. Bei komplexen Systemen kann dieses jedoch aufwändig sein beziehungsweise nicht mit ausreichender Präzision erreicht werden.
  • Aus der EP 3 552 921 A1 ist eine AUTONOME GESCHWINDIGKEITS-PLANUNG EINES AUF EINEN VORBESTIMMTEN PFAD BESCHRÄNKTEN BEWEGLICHEN AKTEURS bekannt.
  • Ferner ist in der DE 10 2017 215 802 A1 ein Fahrerassistenzsystem für Schienenfahrzeuge beschrieben.
  • Weiterhin wird über das Design von Hochgeschwindigkeitzügen in SHUANBAO YAO ET AL: "Optimization design for aerodynamic elements of high speed trains", COMPUTERS AND FLUIDS, PERGAMON PRESS, NEW YORK, NY, GB, Bd. 95, 3. März 2014 (2014-03-03), Seiten 56-73, berichtet.
  • Der Erfindung liegt die Aufgabe zugrunde, ein verbessertes Verfahren zum Trainieren einer Steuerung für ein Schienenfahrzeug, eine verbesserte Steuerung und ein Schienenfahrzeug mit einer Steuerung bereitzustellen.
  • Diese Aufgabe wird erfindungsgemäß durch ein Verfahren zum Trainieren einer Steuerung eines Schienenfahrzeugs, eine entsprechend trainierte Steuerung und ein Schienenfahrzeug mit einer trainierten Steuerung gemäß den unabhängigen Ansprüchen gelöst. Vorteilhafte Ausgestaltungen sind in den Unteransprüchen angegeben.
  • Nach einem Aspekt der Erfindung wird ein Verfahren zum Trainieren einer Steuerung eines Schienenfahrzeugs bereitgestellt, wobei das Verfahren umfasst:
    • Bereitstellen von Trainingsdaten basierend auf Sensordaten eines Schienenfahrzeugs;
    • Trainieren eines Surrogat-Modells des Schienenfahrzeugs basierend auf den Trainingsdaten bezüglich einer Relation zwischen einer Ansteuerung eines Antriebs des Schienenfahrzeugs und einer resultierenden Geschwindigkeit des Schienenfahrzeugs;
    • Trainieren einer Aktionsauswahlregel basierend auf den Trainingsdaten und dem Surrogat-Modell unter Verwendung von maschinellem Lernen und unter Berücksichtigung wenigstens eines objektiven Steuerungsziels, wobei die Aktionsauswahlregel Steuerungsanweisungen zum Ansteuern des Antriebs des Schienenfahrzeugs umfasst, die eingerichtet sind, das Schienenfahrzeug aus einem ersten Geschwindigkeitszustand in einen zweiten Geschwindigkeitszustand zu beschleunigen; und
    • Generieren einer trainierten Aktionsauswahlregel, wobei die trainierte Aktionsauswahlregel Steuerungsanweisungen umfasst, die eingerichtet sind, das Schienenfahrzeug zu beschleunigen und das Steuerungsziel zu erfüllen.
  • Hierdurch kann der technische Vorteil erreicht werden, dass ein verbessertes Verfahren zum Trainieren einer Steuerung eines Schienenfahrzeugs bereitgestellt werden kann. Die Steuerung des Schienenfahrzeugs wird hierbei unter Berücksichtigung von Techniken des Maschinenlernens trainiert. Hierzu werden auf Sensordaten eines Schienenfahrzeugs basierende Trainingsdaten bereitgestellt. Basierend auf den Trainingsdaten wird darauffolgend ein Surrogat-Modell des Schienenfahrzeugs in Bezug auf eine Relation zwischen einer Ansteuerung eines Antriebs des Schienenfahrzeugs und einer hieraus resultierenden Geschwindigkeit des Schienenfahrzeugs trainiert. Darauffolgend wird eine Aktionsauswahlregel basierend auf den Trainingsdaten und dem trainierten Surrogat-Modell mittels Techniken des bestärkenden Lernens und unter Berücksichtigung wenigstens eines Steuerungsziels trainiert und eine trainierte Aktionsauswahlregel generiert. Basierend auf der trainierten Aktionsauswahlregel kann das Schienenfahrzeug gesteuert und das jeweils vorbestimmte Steuerungsziel erreicht werden.
  • Ein Surrogat-Modell eines Schienenfahrzeugs ist im Sinne der Anmeldung ein virtuelles Modell eines realen Schienenfahrzeugs, das alle relevanten Merkmale des realen Schienenfahrzeugs darstellt. Ein Surrogat-Modell kann analog zu einem virtuellen Zwilling einer realen Maschine ausgebildet sein und den Betrieb einer realen Maschine bzw. eines Schienenfahrzeugs virtuell simulieren. Das Surrogat-Modell ist somit eingerichtet, ein Verfahren eines Schienenfahrzeugs durch eine entsprechende Ansteuerung zu simulieren. Das Surrogat-Modell kann beispielsweise als ein entsprechend trainiertes neuronales Netz ausgebildet sein, und kann darauf trainiert sein, das Fahrverhalten bzw. die steuerungsrelevanten Eigenschaften des Schienenfahrzeugs zu simulieren bzw. darzustellen.
  • Eine Aktionsauswahlregel im Sinne der Anmeldung ist eine Mehrzahl von Steuerungsanweisungen, die eingerichtet sind, das Schienenfahrzeug aus einem ersten Geschwindigkeitszustand in einen zweiten Geschwindigkeitszustand zu beschleunigen. Die ersten und zweiten Geschwindigkeitszustände können hierbei ein Ist-Zustand, in dem sich das Schienenfahrzeug zu einem bestimmten Zeitpunkt befindet, und ein Soll-Zustand sein, in den das Schienenfahrzeug durch Ansteuern des Antriebs zu überführen ist. Die ersten und zweiten Geschwindigkeitszustände können alternativ hierzu zwei zeitlich nacheinander folgende Zustände des Schienenfahrzeugs sein, in die das Schienenfahrzeug beim Ansteuern durch die Steuerung überführt wird. Durch Ausführen der Steuerungsanweisungen der Aktionsauswahlregel durch die Steuerung kann das jeweilige Schienenfahrzeug somit unter Berücksichtigung des zu erreichenden Steuerungsziels gesteuert werden.
  • Steuerungsanweisung sind im Sinne der Anmeldung Anweisung bzw. Befehle zum Steuern des Schienenfahrzeugs. Steuerungsanweisungen können beispielsweise das Beschleunigen oder Abbremsen des Schienenfahrzeugs inklusive detaillierter Ansteuerung des Antriebs umfassen. Darüber hinaus können Steuerungsanweisungen das Schalten in verschiedene Gänge oder in einen Energiesparmodus des Antriebs umfassen. Darüber hinaus können in den Steuerungsanweisungen verschiedene steuerungsrelevante Aspekte in Form entsprechender Anweisungen berücksichtigt sein.
  • Steuerungsziele sind im Sinne der Anmeldung Ziele, die durch das Ansteuern der Steuerung zu erreichen sind. Steuerungsziele können beispielsweise eine Geschwindigkeit sein, auf die durch Ansteuern der Steuerung das Schienenfahrzeug beschleunigt werden soll. Steuerungsziele können alternativ oder zusätzlich für verschiedene zukünftige Zeitpunkte definiert sein, beispielsweise über Geschwindigkeitstrajektorien definiert sein. Alternativ können Steuerungsziele einen Energieverbrauch definieren, der bei der Ansteuerung des Schienenfahrzeugs zu erreichen oder nicht zu überschreiten ist. Die Steuerungsziele sind im Sinne der Anmeldung basierend auf den Trainingsdaten definiert, die wiederum basierend auf Sensordaten eines Schienenfahrzeugs generiert sind. Steuerungsziele können hierbei aus den Sensordaten des Schienenfahrzeugs generiert sein. Die Steuerungsziele können sich aus den Sensordaten ergeben und beispielsweise zu erzielende Geschwindigkeiten oder Energieverbräuche beschreiben, gemäß denen das Schienenfahrzeug während der Aufnahme der Sensordaten gesteuert würde. Steuerungsziele können auch während der Ausführung der trainierten Aktionsauswahlregel zur Steuerung des Schienenfahrzeugs durch übergeordnete Systeme, beispielsweise entsprechende Planungsmodule zur Steuerung des Schienenfahrzeugs, definiert oder geändert werden.
  • Nach einer Ausführungsform ist das maschinelle Lernen als bestärkendes Lernen ausgebildet.
  • Hierdurch kann der technische Effekt erreicht werden, dass ein effizientes Trainieren der Aktionsauswahlregel ermöglicht ist.
  • Bestärkendes Lernen (Reinforcement Learning) ist im Sinne der Anmeldung ein Bereich des maschinellen Lernens, der sich mit dem Trainieren von operationellen Teilnehmern beschäftigt, gewünschte Aktionen auszuführen, um somit den Teilnehmer aus einem Ist-Zustand in einen gewünschten Soll-Zustand zu überführen. Das Trainieren des Teilnehmers wird hierbei unter Berücksichtigung eines Steuerungsziels getätigt, das durch die Ausführung der Handlung des Teilnehmers zu erreichen ist. Das Training kann ein Maximieren einer Belohnungsfunktion berücksichtigen, durch die dem Teilnehmer die ausführende Handlung und das zu erreichende Ziel dargestellt ist.
  • Nach einer Ausführungsform umfasst das Trainieren: Randomisiertes Abändern des wenigstens einen auf den Trainingsdaten basierenden objektiven Steuerungsziels und Definieren von abgeänderten Steuerungszielen; und Trainieren der Aktionsauswahlregel in Bezug auf Erfüllung der abgeänderten Steuerungsziele.
  • Hierdurch kann der technische Vorteil erreicht werden, dass ein präziseres Training der Steuerung des Schienenfahrzeugs bereitgestellt werden kann. Durch das randomisierte Abändern des wenigstens einen Steuerungsziels und das damit verbundene Definieren von abgeänderten Steuerungszielen können die Trainingsdaten zum Trainieren der Steuerung effektiver ausgenutzt werden. Durch das Abändern der Steuerungsziele und das Generieren bzw. Definieren von abgeänderten Steuerungszielen können Steuerungsziele definiert werden, die durch die Trainingsdaten gestützt, jedoch nicht auf diese beschränkt sind.
  • Die geänderten Steuerungsziele ergeben somit Steuerungsziele, die nicht auf Trainingsdaten basieren, sondern Steuerungsziele darstellen, die über die Steuerungsziele hinausgehen, gemäß denen das Schienenfahrzeug während der Aufnahme der Sensordaten angesteuert wurde. Durch das Trainieren der Aktionsauswahlregel basierend auf den abgeänderten Steuerungszielen kann eine verbesserte trainierte Aktionsauswahlregel generiert werden, die Steuerungsanweisungen für eine erhöhte Anzahl verschiedener Steuerungsziele definiert. Hierdurch kann eine verbesserte Steuerung bereitgestellt werden.
  • Nach einer Ausführungsform umfasst das Trainieren der Aktionsauswahlregel ein Maximieren einer Belohnungsfunktion, wobei die Belohnungsfunktion für eine Aktionsauswahlregel maximal ist, die das objektive Steuerungsziel und/oder die abgeänderten Steuerungsziele erfüllt.
  • Hierdurch kann der technische Vorteil erreicht werden, dass ein möglichst präzises Training der Aktionsauswahlregel gemäß den Techniken des bestärkenden Lernens erreicht werden kann.
  • Nach einer Ausführungsform berücksichtigt die Belohnungsfunktion eine Differenz zwischen einem durch Ausführen einer Steuerungsaktion der Aktionsauswahlregel erzielten Geschwindigkeitszustand und dem objektiven Steuerungsziel und/oder den abgeänderten Steuerungszielen.
  • Hierdurch kann der technische Vorteil erreicht werden, dass ein effizientes Training der Aktionsauswahlregel und eine präzise trainierte Aktionsauswahlregel bereitgestellt werden kann, die präzise das zu erreichende Steuerungsziel erfüllt.
  • Nach einer Ausführungsform wird das Maximieren der Belohnungsfunktion durch ein künstliches neuronales Netz ausgeführt.
  • Hierdurch kann der technische Vorteil erreicht werden, dass ein effizientes Training der Aktionsauswahlregel bzw. der Steuerung des Schienenfahrzeugs bereitgestellt werden kann.
  • Nach einer Ausführungsform umfasst das Steuerungsziel eine Sollgeschwindigkeit des Schienenfahrzeugs und/oder einen Sollenergieverbrauch und/oder eine Sollbeschleunigung und/oder ein verschleißarmes Beschleunigungs- und/oder Bremsverhalten.
  • Hierdurch kann der technische Vorteil erreicht werden, dass eine effizient trainierte Aktionsauswahlregel und damit verbunden eine effizient trainierte Steuerung eines Schienenfahrzeugs bereitgestellt werden kann. Die derart trainierte Aktionsauswahlregel umfasst hierbei Steuerungsanweisungen, die geeignet sind, das Schienenfahrzeug unter Berücksichtigung der genannten Steuerungsziele zu steuern.
  • Nach einer Ausführungsform werden die Trainingsdaten während eines Verfahrens des Schienenfahrzeugs aufgenommen und umfassen Sensordaten von Zustandsvariablen, Steuerungsaktionen und Geschwindigkeitstrajektorien, wobei die Zustandsvariablen Geschwindigkeitsdaten, Beschleunigungsdaten, Ortsdaten, Spezifikationsdaten des Antriebs und/oder des Schienenfahrzeugs umfassen, wobei die Steuerungsaktionen Antriebs- und/oder Bremsbetätigungen umfassen, und wobei die Geschwindigkeitstrajektorien entsprechende zeitliche Geschwindigkeitsentwicklungen des Schienenfahrzeugs beschreiben.
  • Hierdurch kann der technische Vorteil erreicht werden, dass durch umfassende Trainingsdaten ein präzises Training der Steuerung ermöglicht ist.
  • Nach einem zweiten Aspekt der Erfindung wird eine Steuerung für ein Schienenfahrzeug bereitgestellt, wobei die Steuerung nach einem Verfahren zum Trainieren einer Steuerung eines Schienenfahrzeugs nach einer der voranstehenden Ausführungsformen trainiert ist, und wobei die Steuerung eingerichtet ist, das Schienenfahrzeug unter Ausführung der trainierten Aktionsauswahlregel zu steuern.
  • Hierdurch kann eine verbesserte Steuerung für ein Schienenfahrzeug bereitgestellt werden, die unter Verwendung von Methoden des maschinellen Lernens, insbesondere des bestärkenden Lernens, trainiert ist. Die Steuerung weist hierzu eine trainierte Aktionsauswahlregel auf, die gemäß dem erfindungsgemäßen Verfahren zum Trainieren einer Steuerung eines Schienenfahrzeugs gemäß den oben genannten Ausführungsformen trainiert ist. Basierend auf der trainierten Aktionsauswahlregel, die eine Mehrzahl von Steuerungsanweisungen zum Steuern des Schienenfahrzeugs unter Berücksichtigung verschiedener Steuerungsziele aufweist, kann das Schienenfahrzeug zum Erreichen der jeweiligen Steuerungsziele angesteuert werden. Durch das Trainieren der Aktionsauswahlregel basierend auf dem Surrogat-Modell des Schienenfahrzeugs kann die Steuerung für beliebige Schienenfahrzeuge, die dem Surrogat-Modell entsprechen, trainiert werden, sodass bei einem neuen Schienenfahrzeug eine aufwändige Anpassung des zur Steuerung verwendeten Modells einer Steuerung, wie dies bei einem Model Predictive Control (MPC)-Regler notwendig ist, entfallen kann. Hierdurch kann eine präzise, zuverlässige und variable Steuerung für Schienenfahrzeuge bereitgestellt werden.
  • Nach einem dritten Aspekt wird ein Schienenfahrzeug mit einer Steuerung nach einer der voranstehenden Ausführungsformen bereitgestellt.
  • Hierdurch kann ein Schienenfahrzeug mit einer verbesserten Steuerung mit den obengenannten Vorteilen bereitgestellt werden.
  • Nach einem vierten Aspekt wird ein Computerprogrammprodukt umfassend Befehle bereitgestellt, die bei der Ausführung des Programms durch eine Datenverarbeitungseinheit diese veranlassen, das Verfahren zum Trainieren einer Steuerung für ein Schienenfahrzeug nach einer der voranstehenden Ausführungsformen auszuführen.
  • Die oben beschriebenen Merkmale und Vorteile dieser Erfindung sowie die Art und Weise, wie diese erreicht werden, werden klarer und deutlicher verständlich durch die Erläuterungen der folgenden, stark vereinfachten, schematischen Darstellungen bevorzugter Ausführungsbeispiele. Hierbei zeigen:
  • FIG 1
    ein Flussdiagramm eines Verfahrens zum Trainieren einer Steuerung eines Schienenfahrzeugs gemäß einer Ausführungsform;
    FIG 2
    eine schematische Darstellung eines Schienenfahrzeugs mit einer Steuerung nach einer Ausführungsform; und
    FIG 3
    eine schematische Darstellung eines Computerprogrammprodukts.
  • FIG 1 zeigt ein Flussdiagramm eines Verfahrens 100 zum Trainieren einer Steuerung 200 eines Schienenfahrzeugs 201 gemäß einer Ausführungsform.
  • Zum Trainieren der Steuerung 200 des Schienenfahrzeugs 201 werden zunächst in einem ersten Verfahrensschritt 101 Trainingsdaten bereitgestellt. Die Trainingsdaten basieren hierbei auf Sensordaten eines Schienenfahrzeugs 201 und umfassen in der gezeigten Ausführungsform Zustandsvariablen 217, Steuerungsaktionen 219 und Geschwindigkeitstrajektorien 221. Die Trainingsdaten 203, insbesondere die Sensordaten des Schienenfahrzeugs 201, können beispielsweise während eines Fahrens des Schienenfahrzeugs 201 oder eines vergleichbaren Schienenfahrzeugs durch eine entsprechende Sensorik aufgenommen sein.
  • Zustandsvariablen 217 beschreiben im Sinne der Anmeldung Punkte innerhalb eines Zustandsraums, der verschiedene Zustände des Schienenfahrzeugs 201 beschreibt. Insbesondere können die Zustandsvariablen 217 Geschwindigkeitsdaten, Beschleunigungsdaten und/oder Ortsdaten des Schienenfahrzeugs 201 umfassen, die während des Verfahrens des Schienenfahrzeugs 201 oder des vergleichbaren Schienenfahrzeugs aufgenommen wurden. Das vergleichbare Schienenfahrzeug kann beispielsweise ein Schienenfahrzeug identischen Typs sein. Darüber hinaus können die Zustandsvariablen 217 Spezifikationsdaten des Antriebs und/oder des Schienenfahrzeugs 201 umfassen, die beispielsweise die Art des Antriebs, maximale Leistung bzw. Drehzahl und andere Parameter des Antriebs oder eine Größe bzw. ein Gewicht des Schienenfahrzeugs 201 umfassen.
  • Steuerungsaktionen 219 sind im Sinne der Anmeldung Aktionen, die während des Verfahrens des Schienenfahrzeugs 201 zum Steuern des Schienenfahrzeugs 201 durch die Steuerung 200 ausgeführt werden. Steuerungsaktionen 219 können beispielsweise die Betätigung des Gaspedals oder des Steuerungshebels eines Schienenfahrzeugs bzw. die Betätigung der Bremse des Schienenfahrzeugs 201 umfassen.
  • Geschwindigkeitstrajektorien 221 sind im Sinne der Anmeldung durch den Zustandsraum verlaufende Spuren von zeitlich aufeinander folgenden Geschwindigkeitswerten, die während des Verfahrens des Schienenfahrzeugs 201 erreicht wurden.
  • Nach Bereitstellen der Trainingsdaten 203 wird in einem weiteren Verfahrensschritt 103 ein Surrogat-Modell 205 des Schienenfahrzeugs 201 generiert bzw. trainiert und dem Surrogat-Modell 205 eine Relation zwischen Ansteuerungen eines Antriebs 207 des Schienenfahrzeugs 201 und einer hieraus resultierenden Geschwindigkeit des Schienenfahrzeugs 201 gelernt.
  • Basierend auf den Trainingsdaten 203, die während des Verfahrens des Schienenfahrzeugs 201 aufgenommen wurden, wird dem Surrogat-Modell 205, das eine virtuelle Kopie des Schienenfahrzeugs 201 darstellt, mittels Methoden des Maschinenlernens trainiert, welche Steuerungsaktionen 219, Betätigung des Gaspedals oder Betätigung der Bremse, zu welchen Endgeschwindigkeiten des Schienenfahrzeugs 201, die basierend auf den entsprechenden Zustandsvariablen 217 ermittelt werden, führen. Das derart trainierte Surrogat-Modell 205 ermöglicht somit eine Simulation der Steuerung 200 des Schienenfahrzeugs 201, bei der durch Ausführung entsprechender Steuerungsfunktionen 219 entsprechende Geschwindigkeitstrajektorien 221 erzielt werden können.
  • In einem weiteren Verfahrensschritt 105 wird eine Aktionsauswahlregel 209 basierend auf den Trainingsdaten 203 und dem trainierten Surrogat-Modell 205 unter Verwendung von Methoden des bestärkenden Lernens und unter Berücksichtigung wenigstens eines objektiven Steuerungsziels 211 trainiert. Die Aktionsauswahlregel 209 umfasst hierbei Steuerungsanweisungen zum Steuern des Antriebs 207 des Schienenfahrzeugs 201. Die Steuerungsanweisungen sind hierbei eingerichtet, das Schienenfahrzeug 201 aus einem ersten Geschwindigkeitszustand in einen zweiten Geschwindigkeitszustand zu beschleunigen.
  • Die Steuerungsanweisungen können beispielsweise den Steuerungsaktionen 219 entsprechen, die als Trainingsdaten 203 während des Verfahrens des Schienenfahrzeugs 201 aufgenommen wurden, und das Beschleunigen bzw. Abbremsen des Schienenfahrzeugs umfassen. Die Aktionsauswahlregel 209 kann hierzu eine Mehrzahl von Steuerungsanweisungen aufweisen, mittels denen der Antrieb 207 des Schienenfahrzeugs 201 angesteuert werden kann. Die Steuerungsanweisungen sind hierbei derart ausgebildet, dass während des Ansteuerns des Antriebs 207 des Schienenfahrzeugs 201 das objektive Steuerungsziel 211 erreicht wird. Das objektive Steuerungsziel 211 kann hierbei beispielsweise eine zu erreichende Endgeschwindigkeit, ein gewünschter Energieverbrauch oder eine maximale Beschleunigung des Schienenfahrzeugs 201 sein, die jeweils während des Ansteuerns des Schienenfahrzeugs 201 zu erreichen bzw. einzuhalten sind. Das objektive Steuerungsziel 211 kann ebenfalls durch die Trainingsdaten 203 bereitgestellt sein. Beispielsweise kann das Steuerungsziel 211 durch die aufgezeichneten Geschwindigkeitstrajektorien 221 der Trainingsdaten 203 dargestellt sein.
  • Die ersten und zweiten Geschwindigkeitszustände können hierbei jeweils ein Ist-Zustand bzw. ein Soll-Zustand des Schienenfahrzeugs 201 sein, wobei das Schienenfahrzeug 201 durch das Ansteuern gemäß den Steuerungsanweisungen der Aktionsauswahlregel 209 aus dem Ist-Zustand in den Soll-Zustand zu überführen ist. Alternativ hierzu können die ersten und zweiten Geschwindigkeitszustände zwei zeitlich nacheinander eintretende Zustände des Zustandsraums sein, in die das Schienenfahrzeug 201 durch Ansteuern gemäß den Steuerungsanweisungen der Aktionsauswahlregel zu überführen ist.
  • Zum Trainieren der Aktionsauswahlregel 209 durch bestärkendes Lernen wird eine beliebig ausgewählte Aktionsauswahlregel mit beliebigen Steuerungsanweisungen basierend auf den Trainingsdaten 203 inklusive der Zustandsvariablen 217 des Zustandsraums des Schienenfahrzeugs 201 und unter Berücksichtigung des jeweils ausgewählten Steuerungsziels 211 trainiert bzw. optimiert, sodass die Aktionsauswahlregel 209 eingerichtet ist, das ausgewählte Steuerungsziel 211 zu erreichen. In der gezeigten Ausführungsform wird das Training der beliebig gewählten Aktionsauswahlregel 209 in einem weiteren Verfahrensschritt 111 durch ein Maximieren einer entsprechend eingerichteten Belohnungsfunktion ausgeführt. Die Belohnungsfunktion kann hierbei beispielsweise eine Differenz zwischen einem durch Ausführen einer Steuerungsaktion 219 der Aktionsauswahlregel 209 erzielten Geschwindigkeitszustand und dem objektiven Steuerungsziel 211 definiert sein. Das Training der Aktionsauswahlregel 209 erfolgt somit dadurch, dass die Steuerungsanweisungen bzw. die Aktionsauswahlregel 209 derart modifiziert werden, dass die entsprechend definierte Belohnungsfunktion einen maximalen Wert erreicht. Eine Aktionsauswahlregel 209 mit einer maximalen Belohnungsfunktion ist demzufolge in der Lage, das ausgewählte Steuerungsziel 211 zu erreichen. Durch das derartige Trainieren der Aktionsauswahlregel 209 kann der durch die Trainingsdaten 203 definierte Zustandsraum des Schienenfahrzeugs 201, in dem verschiedene Zustände des Schienenfahrzeugs 201 angeführt sind, durchquert werden, um die optimale Aktionsauswahlregel 209 zu bestimmen, die eingerichtet ist, durch Ausführung der entsprechenden Steuerungsanweisungen das Schienenfahrzeug 201 in einer optimierten Trajektorie in Zustände zu überführen, die eine optimale Steuerung 200 und das Erreichen des vorbestimmten objektiven Steuerungsziels 211 gewährleisten.
  • Gemäß der gezeigten Ausführungsform wird zum Trainieren der Aktionsauswahlregel 209 in einem Verfahrensschritt 109 das objektive Steuerungsziel 211 randomisiert geändert und geänderte Steuerungsziele 215 generiert. Durch das randomisierte Ändern des Steuerungsziels 211 können geänderte Steuerungsziele 215 generiert werden, die von den Trainingsdaten 203 abweichen können.
  • Beispielsweise kann das objektive Steuerungsziel 211 durch eine Geschwindigkeitstrajektorie 221 der Trainingsdaten 203 gebildet sein. Die jeweilige Geschwindigkeitstrajektorie 221 kann hierbei durch die Sensordaten des Schienenfahrzeugs 201 gestützt sein, die während des Verfahrens des Schienenfahrzeugs 201 aufgenommen wurden. Durch Verändern einzelner Werte der Geschwindigkeitstrajektorie 221 können somit abgeänderte Geschwindigkeitstrajektorien 221 als abgeänderte Steuerungsziele 215 generiert werden, wobei die abgeänderten Geschwindigkeitstrajektorien 221 nicht vollständig durch die Trainingsdaten 203 gestützt sind und Geschwindigkeitswerte aufweisen, die während des Verfahrens des Schienenfahrzeugs 201 und der Aufnahme der jeweiligen Geschwindigkeitswerte des Schienenfahrzeugs 201 abweichen. Durch das Ändern der Geschwindigkeitstrajektorie 221 können somit Punkte im Zustandsraum des Schienenfahrzeugs 201 erreicht werden, für die keine expliziten Trainingsdaten 203 generiert wurden.
  • Alternativ hierzu können auch mehrere Steuerungsziele 211, 215 beim Training der Aktionsauswahlregel 209 berücksichtigt werden, sodass die Aktionsauswahlregel 209 eingerichtet ist, eine Mehrzahl von Steuerungszielen 211, 215 zu erfüllen. Die Steuerungsziele können hierbei neben der zu erreichenden Endgeschwindigkeit des Schienenfahrzeugs 201 beispielsweise ein Energieverbrauch des Schienenfahrzeugs 201 oder eine maximal zulässige Beschleunigung des Schienenfahrzeugs 201 umfassen, die während der Steuerung 200 des Schienenfahrzeugs 201 zu erfüllen bzw. zu berücksichtigen sind.
  • Nach dem Trainieren der Aktionsauswahlregel 209 im Verfahrensschritt 105 wird basierend auf der Ausgangs-Aktionsauswahlregel 209 eine entsprechend trainierte Aktionsauswahlregel 213 generiert, die Steuerungsanweisungen umfasst, die eingerichtet sind, das Schienenfahrzeug 201 zu beschleunigen und das Steuerungsziel 211 bzw. die abgeänderten Steuerungsziele 215 zu erfüllen.
  • Das Trainieren der Aktionsauswahlregel 209 bzw. das Maximieren der Belohnungsfunktion kann durch eine trainierte künstliche Intelligenz, beispielsweise durch ein entsprechend trainiertes neuronales Netz, durchgeführt werden. Durch Maximieren der entsprechend eingerichteten Belohnungsfunktion kann somit eine Aktionsauswahlregel 213 generiert werden, die die entsprechenden Steuerungsziele 211, 215 erfüllt und somit eine optimierte Steuerung 200 des Schienenfahrzeugs 201 gewährleistet.
  • FIG 2 zeigt eine schematische Darstellung eines Schienenfahrzeugs 201 mit einer Steuerung 200 nach einer Ausführungsform.
  • Fig. 2 zeigt ein Schienenfahrzeug 201 mit einer Steuerung 200, wobei die Steuerung 200 eine gemäß dem erfindungsgemäßen Verfahren 100 zum Trainieren einer Steuerung 200 eines Schienenfahrzeugs 201 trainierte Aktionsauswahlregel 213 umfasst. Das Schienenfahrzeug 201 umfasst ferner einen Antrieb 207 und einen Sensor 223. Über den Sensor 223 können Sensorwerte des Antriebs 207 aufgenommen werden, um eine Ansteuerung des Antriebs 207 mittels der Steuerung 200 zu verfolgen. Das Schienenfahrzeug 201 umfasst ferner eine Planungseinheit 225, die mit der Steuerung 200 verbunden ist. Zur Ansteuerung des Schienenfahrzeugs 201 kann somit die Steuerung 200 von der Planungseinheit 225 eine entsprechende Geschwindigkeitstrajektorie 221 empfangen, die einen geplanten Geschwindigkeitsverlauf des Verfahrens des Schienenfahrzeugs 201 beschreibt. Durch Ausführen der durch die trainierte Aktionsauswahlregel 213 definierten Steuerungsanweisungen kann somit die Steuerung 200 die entsprechenden Steuerungsanweisungen ausführen, die geeignet sind, das Schienenfahrzeug 201 gemäß der geplanten Geschwindigkeitstrajektorie 221 der Planungseinheit 225 zu beschleunigen. Die Steuerung 200 des Schienenfahrzeugs 201 kann hierbei verschiedene Steuerungsziele 211, 215 berücksichtigen. Beispielsweise kann das Schienenfahrzeug 201 unter einem vorbestimmten maximalen Energieverbrauch angesteuert werden. Alternativ oder zusätzlich hierzu kann das Schienenfahrzeug 201 unter Berücksichtigung einer maximal zulässigen Beschleunigung angesteuert werden. Indem die entsprechend trainierte Aktionsauswahlregel 213 für eine Vielzahl verschiedener Steuerungsziele 211, 215 entsprechende Steuerungsanweisungen umfasst, die geeignet sind, das Schienenfahrzeug 201 unter Berücksichtigung der jeweiligen Steuerungsziele 211, 215 anzusteuern, können während des Betriebs des Schienenfahrzeugs 201 und insbesondere bei bereits installierter Steuerung 200 entsprechende Steuerungsziele 211, 215 abgeändert werden, die während des Steuerns des Schienenfahrzeugs 201 erreicht werden sollen. Eine Änderung der Steuerung 200 und insbesondere eine Anpassung der jeweiligen definierten Steuerungsanweisungen ist aufgrund des Trainings der trainierten Aktionsauswahlregel 213 nicht erforderlich.
  • FIG 3 zeigt eine schematische Darstellung eines Computerprogrammprodukts 300.
  • Figur 3 zeigt ein Computerprogrammprodukt 300, umfassend Befehle, die bei der Ausführung des Programms durch eine Recheneinheit dieses veranlassen, das Verfahren 100 nach einer der oben genannten Ausführungsformen auszuführen. Das Computerprogrammprodukt 300 ist in der gezeigten Ausführungsform auf einem Speichermedium 301 gespeichert. Das Speichermedium 301 kann hierbei ein beliebiges aus dem Stand der Technik bekanntes Speichermedium sein.
  • Obwohl die Erfindung im Detail durch das bevorzugte Ausführungsbeispiel näher illustriert und beschrieben wurde, so ist die Erfindung nicht durch die offenbarten Beispiele eingeschränkt und andere Variationen können vom Fachmann hieraus abgeleitet werden, ohne den Schutzumfang der Erfindung zu verlassen, der durch die Ansprüche definiert ist.

Claims (14)

  1. Verfahren (100) zum Trainieren einer Steuerung (200) eines Schienenfahrzeugs (201), umfassend:
    - Bereitstellen (101) von Trainingsdaten (203) basierend auf Sensordaten eines Schienenfahrzeugs (201);
    - Trainieren (103) eines Surrogat-Modells (205) des Schienenfahrzeugs (201) basierend auf den Trainingsdaten (203) bezüglich einer Relation zwischen einer Ansteuerung eines Antriebs (207) des Schienenfahrzeugs (201) und einer resultierenden Geschwindigkeit des Schienenfahrzeugs (201);
    - Trainieren (105) einer Aktionsauswahlregel (209) basierend auf den Trainingsdaten (203) und dem Surrogat-Modell (205) unter Verwendung von maschinellem Lernen und unter Berücksichtigung wenigstens eines objektiven Steuerungsziels (211), wobei die Aktionsauswahlregel (209) Steuerungsanweisungen zum Ansteuern des Antriebs (207) des Schienenfahrzeugs (201) umfasst, die eingerichtet sind, das Schienenfahrzeug (201) aus einem ersten Geschwindigkeitszustand in einen zweiten Geschwindigkeitszustand zu beschleunigen; und
    - Generieren (107) einer trainierten Aktionsauswahlregel (213), wobei die trainierte Aktionsauswahlregel (213) Steuerungsanweisungen umfasst, die eingerichtet sind, das Schienenfahrzeug (201) zu beschleunigen und das Steuerungsziel (211) zu erfüllen.
  2. Verfahren (100) nach Anspruch 1, wobei das maschinelle Lernen als bestärkendes Lernen ausgebildet ist.
  3. Verfahren (100) nach Anspruch 1 oder 2, wobei das Trainieren (105) der Aktionsauswahlregel (209) umfasst:
    Randomisiertes Abändern (109) des wenigstens einen auf den Trainingsdaten (203) basierenden objektiven Steuerungsziels (211) und Definieren von abgeänderten Steuerungszielen (215); und
    Trainieren der Aktionsauswahlregel (209) in Bezug auf Erfüllung der abgeänderten Steuerungsziele (215).
  4. Verfahren (100) nach Anspruch 3, wobei das Trainieren (105) der Aktionsauswahlregel (209) umfasst:
    Maximieren (111) einer Belohnungsfunktion, wobei die Belohnungsfunktion für eine Aktionsauswahlregel (209) maximal ist, die das objektive Steuerungsziel (211) und/oder die abgeänderten Steuerungsziele (215) erfüllt.
  5. Verfahren (100) nach Anspruch 4, wobei die Belohnungsfunktion eine Differenz zwischen einem durch Ausführen einer Steuerungsanweisung der Aktionsauswahlregel (209) erzielten Geschwindigkeitszustand und dem objektiven Steuerungsziel (211) und/oder den abgeänderten Steuerungszielen (215) berücksichtigt.
  6. Verfahren (100) nach Anspruch 1 oder 2, wobei das Trainieren (105) der Aktionsauswahlregel (209) umfasst:
    Maximieren (111) einer Belohnungsfunktion, wobei die Belohnungsfunktion für eine Aktionsauswahlregel (209) maximal ist, die das objektive Steuerungsziel (211) erfüllt.
  7. Verfahren (100) nach Anspruch 6, wobei die Belohnungsfunktion eine Differenz zwischen einem durch Ausführen einer Steuerungsanweisung der Aktionsauswahlregel (209) erzielten Geschwindigkeitszustand und dem objektiven Steuerungsziel (211) berücksichtigt.
  8. Verfahren (100) nach einem der Ansprüche 4 bis 7, wobei das Maximieren (111) der Belohnungsfunktion durch ein künstliches neuronales Netz ausgeführt wird.
  9. Verfahren (100) nach einem der voranstehenden Ansprüche 3, 4 oder 5, wobei das Steuerungsziel (211) und/oder die abgeänderten Steuerungsziele (215) eine Sollgeschwindigkeit des Schienenfahrzeugs (201) und/oder einen Sollenergieverbrauch und/oder eine Sollbeschleunigung und/oder ein verschleißarmes Beschleunigungs- und/oder Bremsverhalten umfasst.
  10. Verfahren (100) nach einem der voranstehenden Ansprüche 6, 7 oder 8, wobei das Steuerungsziel (211) eine Sollgeschwindigkeit des Schienenfahrzeugs (201) und/oder einen Sollenergieverbrauch und/oder eine Sollbeschleunigung und/oder ein verschleißarmes Beschleunigungs- und/oder Bremsverhalten umfasst.
  11. Verfahren (100) nach einem der voranstehenden Ansprüche, wobei die Trainingsdaten (203) während eines Verfahrens des Schienenfahrzeugs (201) aufgenommen werden und Sensordaten von Zustandsvariablen (217), Steuerungsaktionen (219) und Geschwindigkeitstrajektorien (221) umfassen, wobei die Zustandsvariablen (217) Geschwindigkeitsdaten, Beschleunigungsdaten, Ortsdaten, Spezifikationsdaten des Antriebs und/oder des Schienenfahrzeugs (201) umfassen, wobei die Steuerungsaktionen (219) Antriebs- und/oder Bremsbetätigungen umfassen, und wobei die Geschwindigkeitstrajektorien (221) entsprechende zeitliche Geschwindigkeitsentwicklungen des Schienenfahrzeugs (201) beschreiben.
  12. Steuerung (200) für ein Schienenfahrzeug (201), wobei die Steuerung (200) nach einem Verfahren (100) zum Trainieren einer Steuerung (200) eines Schienenfahrzeugs (201) nach einem der voranstehenden Ansprüche 1 bis 11 trainiert ist, und wobei die Steuerung (200) eingerichtet ist, das Schienenfahrzeug (201) unter Ausführung der trainierten Aktionsauswahlregel (213) zu steuern.
  13. Schienenfahrzeug (201) mit einer Steuerung (200) nach Anspruch 12.
  14. Computerprogrammprodukt (300) umfassend Befehle, die bei der Ausführung des Programms durch eine Datenverarbeitungseinheit diese veranlassen, das Verfahren (100) nach einem der voranstehenden Ansprüche 1 bis 11 auszuführen.
EP21154227.9A 2021-01-29 2021-01-29 Verfahren zum trainieren einer steuerung für ein schienenfahrzeug, steuerung und schienenfahrzeug Active EP4035969B1 (de)

Priority Applications (4)

Application Number Priority Date Filing Date Title
EP21154227.9A EP4035969B1 (de) 2021-01-29 2021-01-29 Verfahren zum trainieren einer steuerung für ein schienenfahrzeug, steuerung und schienenfahrzeug
ES21154227T ES3010352T3 (en) 2021-01-29 2021-01-29 Controller, railway vehicle and method for training a controller for a railway vehicle
AU2022200290A AU2022200290B2 (en) 2021-01-29 2022-01-18 Method of training control means of a rail vehicle, control means, and rail vehicle
CN202210092219.3A CN114802370B (zh) 2021-01-29 2022-01-26 用于训练轨道车辆的控制装置的方法、控制装置和轨道车辆

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
EP21154227.9A EP4035969B1 (de) 2021-01-29 2021-01-29 Verfahren zum trainieren einer steuerung für ein schienenfahrzeug, steuerung und schienenfahrzeug

Publications (3)

Publication Number Publication Date
EP4035969A1 EP4035969A1 (de) 2022-08-03
EP4035969C0 EP4035969C0 (de) 2024-11-13
EP4035969B1 true EP4035969B1 (de) 2024-11-13

Family

ID=74418221

Family Applications (1)

Application Number Title Priority Date Filing Date
EP21154227.9A Active EP4035969B1 (de) 2021-01-29 2021-01-29 Verfahren zum trainieren einer steuerung für ein schienenfahrzeug, steuerung und schienenfahrzeug

Country Status (4)

Country Link
EP (1) EP4035969B1 (de)
CN (1) CN114802370B (de)
AU (1) AU2022200290B2 (de)
ES (1) ES3010352T3 (de)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
ES3023268T3 (en) * 2021-04-28 2025-05-30 Siemens Mobility GmbH Method for controlling rail traffic of a plurality of railway vehicles, computing unit and computer program
CN115188240B (zh) * 2022-08-24 2024-05-24 南京中车浦镇城轨车辆有限责任公司 一种应用于轨道车辆的牵引制动教学操作台
EP4339066A1 (de) * 2022-09-15 2024-03-20 Siemens Mobility GmbH Dynamikmodell für ein schienenfahrzeug

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP3552921B1 (de) * 2018-04-13 2020-11-18 Siemens Mobility GmbH Autonome geschwindigkeitsplanung eines auf einen vorbestimmten pfad beschränkten beweglichen akteurs

Family Cites Families (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102951165B (zh) * 2012-11-05 2015-04-15 北京交通大学 轨道列车节省电能运行控制方法
PT3213974T (pt) * 2016-03-03 2021-01-22 Thales Man & Services Deutschland Gmbh Procedimento para controlo de veículos no caso de uma situação de conflito e sistema de apoio à decisão
US9934623B2 (en) * 2016-05-16 2018-04-03 Wi-Tronix Llc Real-time data acquisition and recording system
CN107194612B (zh) * 2017-06-20 2020-10-13 清华大学 一种基于深度强化学习的列车运行调度方法及系统
DE102017215802A1 (de) * 2017-09-07 2019-03-07 Siemens Aktiengesellschaft Fahrerassistenzsystem für Schienenfahrzeuge
CN109204390B (zh) * 2018-09-29 2021-03-12 交控科技股份有限公司 一种基于深度学习的列车控制方法
CN109835375B (zh) * 2019-01-29 2021-05-11 中国铁道科学研究院集团有限公司通信信号研究所 基于人工智能技术的高速铁路列车自动驾驶系统
DE102019206241A1 (de) * 2019-04-30 2020-11-05 Siemens Mobility GmbH Verfahren zum Bestimmen einer Gleisbelegung sowie Achszähleinrichtung
US11493926B2 (en) * 2019-05-15 2022-11-08 Baidu Usa Llc Offline agent using reinforcement learning to speedup trajectory planning for autonomous vehicles
CN110920690B (zh) * 2019-11-22 2022-02-15 交控科技股份有限公司 远程筛选升级列车的方法
CN111516735B (zh) * 2020-05-14 2022-02-08 重庆交通大学 虚拟重联小编组列车自动驾驶的控制系统及其控制方法
CN111619624B (zh) * 2020-06-01 2022-06-21 北京全路通信信号研究设计院集团有限公司 一种基于深度强化学习的有轨电车运行控制方法和系统
CN112149666A (zh) * 2020-09-15 2020-12-29 河海大学 一种基于深度学习的车辆目标检测方法
CN112193280B (zh) * 2020-12-04 2021-03-16 华东交通大学 一种重载列车强化学习控制方法及系统

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP3552921B1 (de) * 2018-04-13 2020-11-18 Siemens Mobility GmbH Autonome geschwindigkeitsplanung eines auf einen vorbestimmten pfad beschränkten beweglichen akteurs

Also Published As

Publication number Publication date
AU2022200290B2 (en) 2022-12-22
ES3010352T3 (en) 2025-04-02
CN114802370A (zh) 2022-07-29
EP4035969A1 (de) 2022-08-03
AU2022200290A1 (en) 2022-08-18
EP4035969C0 (de) 2024-11-13
CN114802370B (zh) 2024-06-14

Similar Documents

Publication Publication Date Title
EP4035969B1 (de) Verfahren zum trainieren einer steuerung für ein schienenfahrzeug, steuerung und schienenfahrzeug
DE102015004932B4 (de) Simulationsvorrichtung für mehrere Roboter
EP3017918A1 (de) Flexibles taktzeitoptimiertes teilen eines arbeitsraums für roboter
WO2018068944A1 (de) Verfahren und vorrichtung zur fahrdynamikregelung für ein kraftfahrzeug
EP3983777B1 (de) Verfahren und kontrollvorrichtung zum kontrollieren eines fahrzeugs
EP1956452A1 (de) Verfahren zum Betreiben von gesteuerten Maschinen
DE102016215421A1 (de) Verfahren und Vorrichtung zum Betreiben eines automatisierten Kraftfahrzeugs
DE102019008398A1 (de) Verfahren zum Steuern und/oder Regeln von Schaltvorgängen sowie zum Durchführen von Adaptionen in einem Getriebe für ein Kraftfahrzeug
DE102022207763B4 (de) Steuervorrichtung für ein fahrzeug
EP4082868A1 (de) Verfahren zum optimieren eines schienenverkehrs eines schienenverkehrsnetzes
DE102022100664A1 (de) Verfahren, Steuervorrichtung und Computerprogramm zum Steuern einer Längsführung eines Fahrzeugs
EP3783446B1 (de) Computerimplementiertes verfahren und testeinheit zum approximieren einer teilmenge von testergebnissen
EP4082869B1 (de) Verfahren zum steuern eines schienenverkehrs einer mehrzahl von schienenfahrzeugen, recheneinheit und computerprogrammprodukt
DE102022207041A1 (de) Verfahren zum Planen von Bewegungstrajektorien durch ein Modell für maschinelles Lernen
DE102010052818A1 (de) Verfahren zur Ansteuerung einer Kupplung
DE3938083C2 (de)
AT527744B1 (de) Kontrollverfahren und Kontrollsystem für einen Hybridantriebsstrang
DE102008013252A1 (de) Verfahren und Vorrichtung zur Regelung eines Fahrzeug-Antriebsstrangs
EP4429924B1 (de) Verfahren und vorrichtung zur längsregelung eines fahrzeugs
DE102011076969A1 (de) Verfahren zum rechnergestützten Lernen einer Regelung und/oder Steuerung eines technischen Systems
DE102019128115B4 (de) Fahrzeugmodell für Längsdynamik
EP3783452B1 (de) Computerimplementiertes verfahren und testeinheit zum approximieren von testergebnissen und verfahren zum bereitstellen eines trainierten, künstlichen neuronalen netzes
EP4339072A1 (de) Verfahren zum ermitteln zumindest eines regelparameters für ein ato-system
DE10134055C1 (de) Fahrzeug-Führungssystem und Verfahren zur Durchführung einer automatischen Fahrzeug-Führung
DE102023206319A1 (de) Verfahren und generatives Modell zum Ermitteln von zeitlichen Verläufen von Systemgrößen

Legal Events

Date Code Title Description
PUAI Public reference made under article 153(3) epc to a published international application that has entered the european phase

Free format text: ORIGINAL CODE: 0009012

STAA Information on the status of an ep patent application or granted ep patent

Free format text: STATUS: THE APPLICATION HAS BEEN PUBLISHED

AK Designated contracting states

Kind code of ref document: A1

Designated state(s): AL AT BE BG CH CY CZ DE DK EE ES FI FR GB GR HR HU IE IS IT LI LT LU LV MC MK MT NL NO PL PT RO RS SE SI SK SM TR

STAA Information on the status of an ep patent application or granted ep patent

Free format text: STATUS: REQUEST FOR EXAMINATION WAS MADE

17P Request for examination filed

Effective date: 20230120

RBV Designated contracting states (corrected)

Designated state(s): AL AT BE BG CH CY CZ DE DK EE ES FI FR GB GR HR HU IE IS IT LI LT LU LV MC MK MT NL NO PL PT RO RS SE SI SK SM TR

REG Reference to a national code

Ref country code: DE

Ref legal event code: R079

Free format text: PREVIOUS MAIN CLASS: B61L0003000000

Ipc: B61L0015000000

Ref document number: 502021005773

Country of ref document: DE

GRAP Despatch of communication of intention to grant a patent

Free format text: ORIGINAL CODE: EPIDOSNIGR1

STAA Information on the status of an ep patent application or granted ep patent

Free format text: STATUS: GRANT OF PATENT IS INTENDED

RIC1 Information provided on ipc code assigned before grant

Ipc: B61L 27/60 20220101ALI20240614BHEP

Ipc: B61L 27/20 20220101ALI20240614BHEP

Ipc: B61L 15/00 20060101AFI20240614BHEP

INTG Intention to grant announced

Effective date: 20240715

GRAS Grant fee paid

Free format text: ORIGINAL CODE: EPIDOSNIGR3

GRAA (expected) grant

Free format text: ORIGINAL CODE: 0009210

STAA Information on the status of an ep patent application or granted ep patent

Free format text: STATUS: THE PATENT HAS BEEN GRANTED

AK Designated contracting states

Kind code of ref document: B1

Designated state(s): AL AT BE BG CH CY CZ DE DK EE ES FI FR GB GR HR HU IE IS IT LI LT LU LV MC MK MT NL NO PL PT RO RS SE SI SK SM TR

REG Reference to a national code

Ref country code: GB

Ref legal event code: FG4D

Free format text: NOT ENGLISH

REG Reference to a national code

Ref country code: CH

Ref legal event code: EP

REG Reference to a national code

Ref country code: DE

Ref legal event code: R096

Ref document number: 502021005773

Country of ref document: DE

REG Reference to a national code

Ref country code: IE

Ref legal event code: FG4D

Free format text: LANGUAGE OF EP DOCUMENT: GERMAN

U01 Request for unitary effect filed

Effective date: 20241125

U07 Unitary effect registered

Designated state(s): AT BE BG DE DK EE FI FR IT LT LU LV MT NL PT RO SE SI

Effective date: 20241202

U20 Renewal fee for the european patent with unitary effect paid

Year of fee payment: 5

Effective date: 20250120

REG Reference to a national code

Ref country code: ES

Ref legal event code: FG2A

Ref document number: 3010352

Country of ref document: ES

Kind code of ref document: T3

Effective date: 20250402

PG25 Lapsed in a contracting state [announced via postgrant information from national office to epo]

Ref country code: IS

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20250313

Ref country code: HR

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20241113

PG25 Lapsed in a contracting state [announced via postgrant information from national office to epo]

Ref country code: NO

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20250213

PG25 Lapsed in a contracting state [announced via postgrant information from national office to epo]

Ref country code: GR

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20250214

PG25 Lapsed in a contracting state [announced via postgrant information from national office to epo]

Ref country code: PL

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20241113

PGFP Annual fee paid to national office [announced via postgrant information from national office to epo]

Ref country code: GB

Payment date: 20250210

Year of fee payment: 5

PG25 Lapsed in a contracting state [announced via postgrant information from national office to epo]

Ref country code: RS

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20250213

PG25 Lapsed in a contracting state [announced via postgrant information from national office to epo]

Ref country code: SM

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20241113

PGFP Annual fee paid to national office [announced via postgrant information from national office to epo]

Ref country code: ES

Payment date: 20250422

Year of fee payment: 5

PGFP Annual fee paid to national office [announced via postgrant information from national office to epo]

Ref country code: CH

Payment date: 20250403

Year of fee payment: 5

PG25 Lapsed in a contracting state [announced via postgrant information from national office to epo]

Ref country code: SK

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20241113

PG25 Lapsed in a contracting state [announced via postgrant information from national office to epo]

Ref country code: CZ

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20241113

PG25 Lapsed in a contracting state [announced via postgrant information from national office to epo]

Ref country code: MC

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20241113

PLBE No opposition filed within time limit

Free format text: ORIGINAL CODE: 0009261

STAA Information on the status of an ep patent application or granted ep patent

Free format text: STATUS: NO OPPOSITION FILED WITHIN TIME LIMIT

26N No opposition filed

Effective date: 20250814