ES3010352T3 - Controller, railway vehicle and method for training a controller for a railway vehicle - Google Patents
Controller, railway vehicle and method for training a controller for a railway vehicle Download PDFInfo
- Publication number
- ES3010352T3 ES3010352T3 ES21154227T ES21154227T ES3010352T3 ES 3010352 T3 ES3010352 T3 ES 3010352T3 ES 21154227 T ES21154227 T ES 21154227T ES 21154227 T ES21154227 T ES 21154227T ES 3010352 T3 ES3010352 T3 ES 3010352T3
- Authority
- ES
- Spain
- Prior art keywords
- railway vehicle
- control
- training
- selection rule
- action selection
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000012549 training Methods 0.000 title claims abstract description 86
- 238000000034 method Methods 0.000 title claims abstract description 40
- 230000009471 action Effects 0.000 claims abstract description 85
- 238000010801 machine learning Methods 0.000 claims abstract description 10
- 230000006870 function Effects 0.000 claims description 19
- 230000001133 acceleration Effects 0.000 claims description 14
- 238000005265 energy consumption Methods 0.000 claims description 8
- 230000002787 reinforcement Effects 0.000 claims description 7
- 238000004590 computer program Methods 0.000 claims description 5
- 238000013528 artificial neural network Methods 0.000 claims description 4
- 230000006399 behavior Effects 0.000 claims description 4
- 238000011161 development Methods 0.000 claims description 2
- 230000018109 developmental process Effects 0.000 claims description 2
- 238000012986 modification Methods 0.000 claims description 2
- 230000004048 modification Effects 0.000 claims description 2
- 238000012545 processing Methods 0.000 claims description 2
- 230000008901 benefit Effects 0.000 description 9
- 230000006978 adaptation Effects 0.000 description 3
- 238000013461 design Methods 0.000 description 2
- 238000013473 artificial intelligence Methods 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 239000012530 fluid Substances 0.000 description 1
- 230000000977 initiatory effect Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 238000004088 simulation Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
Classifications
-
- B—PERFORMING OPERATIONS; TRANSPORTING
- B61—RAILWAYS
- B61L—GUIDING RAILWAY TRAFFIC; ENSURING THE SAFETY OF RAILWAY TRAFFIC
- B61L27/00—Central railway traffic control systems; Trackside control; Communication systems specially adapted therefor
- B61L27/04—Automatic systems, e.g. controlled by train; Change-over to manual control
-
- B—PERFORMING OPERATIONS; TRANSPORTING
- B61—RAILWAYS
- B61L—GUIDING RAILWAY TRAFFIC; ENSURING THE SAFETY OF RAILWAY TRAFFIC
- B61L15/00—Indicators provided on the vehicle or train for signalling purposes
- B61L15/0062—On-board target speed calculation or supervision
-
- B—PERFORMING OPERATIONS; TRANSPORTING
- B61—RAILWAYS
- B61L—GUIDING RAILWAY TRAFFIC; ENSURING THE SAFETY OF RAILWAY TRAFFIC
- B61L27/00—Central railway traffic control systems; Trackside control; Communication systems specially adapted therefor
- B61L27/20—Trackside control of safe travel of vehicle or train, e.g. braking curve calculation
-
- B—PERFORMING OPERATIONS; TRANSPORTING
- B61—RAILWAYS
- B61L—GUIDING RAILWAY TRAFFIC; ENSURING THE SAFETY OF RAILWAY TRAFFIC
- B61L27/00—Central railway traffic control systems; Trackside control; Communication systems specially adapted therefor
- B61L27/60—Testing or simulation
Landscapes
- Engineering & Computer Science (AREA)
- Mechanical Engineering (AREA)
- Train Traffic Observation, Control, And Security (AREA)
- Electric Propulsion And Braking For Vehicles (AREA)
- Toys (AREA)
Abstract
La invención se refiere a un método (100) para entrenar un controlador (200) de un vehículo ferroviario (201), que comprende: - proporcionar (101) datos de entrenamiento (203) basados en datos de sensores de un vehículo ferroviario (201); - entrenar (103) un modelo sustituto (205) del vehículo ferroviario (201) basado en los datos de entrenamiento (203) con respecto a una relación entre un control de un accionamiento (207) del vehículo ferroviario (201) y una velocidad resultante del vehículo ferroviario (201); - entrenar (105) una regla de selección de acción (209) basada en los datos de entrenamiento (203) y el modelo sustituto (205) utilizando aprendizaje automático y teniendo en cuenta al menos un objetivo de control objetivo (211), donde la regla de selección de acción (209) comprende instrucciones de control para controlar el accionamiento (207) del vehículo ferroviario (201), que están configuradas para acelerar el vehículo ferroviario (201) desde un primer estado de velocidad a un segundo estado de velocidad; y - generar (107) una regla de selección de acción entrenada (213), en donde la regla de selección de acción entrenada (213) comprende instrucciones de control configuradas para acelerar el vehículo ferroviario (201) y para cumplir el objetivo de control (211). La invención se refiere además a un controlador entrenado correspondientemente (200) y a un vehículo ferroviario (201) que tiene un controlador (200). (Traducción automática con Google Translate, sin valor legal)
Description
DESCRIPCIÓN
Procedimiento para entrenar un controlador para un vehículo ferroviario, controlador y vehículo ferroviario
La presente invención hace referencia a un procedimiento para entrenar un controlador para un vehículo ferroviario. La invención además hace referencia a un controlador y a un vehículo ferroviario con un controlador.
Para el funcionamiento automático de los trenes se requiere un controlador que pueda trasladar una trayectoria deseada, desde una unidad de planificación superordinada, a las órdenes de aceleración y de frenado requeridas para recorrer la trayectoria. Habitualmente, los controladores utilizados requieren un esfuerzo de adaptación considerable para adaptarse a las propiedades específicas de los vehículos individuales.
Los principios básicos para los controles se basan en controladores proporcionales, integrales y derivativos (PID) y en controladores de control predictivo por modelo (MPC). Los controladores PID se utilizan con mucha frecuencia, ya que pueden implementarse con mucha facilidad. Sin embargo, requieren un esfuerzo considerable para la adaptación cuando se utilizan en un nuevo vehículo. Además, éstos no consideran más que el intervalo de tiempo real y, por tanto, no presentan un buen rendimiento en sistemas en los que existe un retardo en la reacción del sistema en cuanto a las entradas de control. En esos casos, habitualmente se utilizan controladores MPC. No obstante, el controlador MPC presupone un modelo preciso del sistema que debe controlarse. En los sistemas complejos esto puede ser complicado o no puede lograrse con una precisión suficiente.
Por la solicitud EP 3 552 921 A1 se conoce una planificación de velocidad autónoma de un actuador móvil limitado a una ruta predeterminada.
Además, en la solicitud DE 102017215802 A1 se describe un sistema de asistencia para el conductor para vehículos ferroviarios.
Asimismo, en SHUANBAO YAO ET AL: "Optimization design for aerodynamic elements of high speed trains", COMPUTERS AND FLUIDS, PERGAMON PRESS, NEW YORK, NY, GB, tomo 95, del 3 de marzo de 2014 (2014-03-03), páginas 56-73, se informa sobre el diseño de trenes de alta velocidad.
El objeto de la presente invención consiste en proporcionar un procedimiento mejorado para entrenar un controlador para un vehículo ferroviario, un controlador mejorado y un vehículo ferroviario con un controlador.
Dicho objeto, según la invención, se soluciona mediante un procedimiento para entrenar un controlador de un vehículo ferroviario, mediante un controlador entrenado de modo correspondiente y un vehículo ferroviario con un controlador entrenado, según las reivindicaciones independientes. En las reivindicaciones dependientes se indican configuraciones ventajosas.
Según un aspecto de la invención se proporciona un procedimiento para entrenar un controlador de un vehículo ferroviario, donde el procedimiento comprende:
- la puesta a disposición de datos de entrenamiento en base a datos de sensor de un vehículo ferroviario;
- el entrenamiento de un modelo de sustitución del vehículo ferroviario en base a los datos de entrenamiento con respecto a una relación entre un control de un accionamiento del vehículo ferroviario y una velocidad resultante del vehículo ferroviario;
- el entrenamiento de una regla de selección de acción en base a los datos de entrenamiento y al modelo de sustitución, utilizando aprendizaje automático y considerando al menos una finalidad de control objetiva, donde la regla de selección de acción comprende instrucciones de control para controlar el accionamiento del vehículo ferroviario, que están configuradas para acelerar el vehículo ferroviario, desde un primer estado de velocidad, a un segundo estado de velocidad; y
- la generación de una regla de selección de acción entrenada, donde la regla de selección de acción entrenada comprende instrucciones de control que están configuradas para acelerar el vehículo ferroviario y cumplir con la finalidad de control.
Gracias a esto puede alcanzarse la ventaja técnica de que puede proporcionarse un procedimiento mejorado para entrenar un controlador de un vehículo ferroviario. El controlador del vehículo ferroviario se entrena en este caso considerando técnicas del aprendizaje automático. Para ello se proporcionan datos de entrenamiento que se basan en datos de sensor de un vehículo ferroviario. A continuación, en base a los datos de entrenamiento, un modelo de sustitución del vehículo ferroviario se entrena con respecto a una relación entre un control de un accionamiento del vehículo ferroviario y una velocidad resultante de ello, del vehículo ferroviario. A continuación, se entrena una regla de selección de acción en base a los datos de entrenamiento y al modelo de sustitución entrenado, mediante técnicas del aprendizaje de refuerzo, y considerando al menos una finalidad de control, y se genera una regla de selección de acción entrenada. En base a la regla de selección de acción entrenada, el vehículo ferroviario puede controlarse y puede alcanzarse la finalidad de control respectivamente predeterminada.
En el sentido de la solicitud, un modelo de sustitución de un vehículo ferroviario es un modelo virtual de un vehículo ferroviario real, que representa todas las características relevantes del vehículo ferroviario real. Un modelo de sustitución puede estar diseñado de forma análoga a un gemelo virtual de una máquina real y puede simular virtualmente el funcionamiento de una máquina real o de un vehículo ferroviario. De este modo, el modelo de sustitución está configurado para simular un procedimiento de un vehículo ferroviario mediante un control correspondiente. El modelo de sustitución, por ejemplo, puede estar diseñado como una red neuronal entrenada de modo correspondiente, y puede estar entrenado para simular o representar el comportamiento de marcha o las propiedades del vehículo ferroviario relevantes para el control.
Una regla de selección de acción, en el sentido de la solicitud, es una pluralidad de instrucciones de control que están configuradas para acelerar el vehículo ferroviario, desde un primer estado de velocidad, a un segundo estado de velocidad. El primer y el segundo estado de velocidad pueden ser en este caso un estado real, en el que se encuentra el vehículo ferroviario en un instante determinado, y un estado objetivo, al que debe pasarse el vehículo ferroviario mediante el control del accionamiento. El primer y el segundo estado de velocidad, de manera alternativa, pueden ser dos estados consecutivos en el tiempo del vehículo ferroviario, a los que se pasa el vehículo ferroviario en el caso de un control mediante el controlador. Mediante la ejecución de las instrucciones de control de la regla de selección de acción, por medio del controlador, de este modo, el respectivo vehículo ferroviario puede controlarse considerando la finalidad de control que debe alcanzarse.
Las instrucciones de control, en el sentido de la solicitud, son instrucciones u órdenes para controlar el vehículo ferroviario. Las instrucciones de control, por ejemplo, pueden comprender la aceleración o el frenado del vehículo ferroviario, incluyendo un control detallado del accionamiento. Además, las instrucciones de control pueden comprender la conmutación a distintas marchas o a un modo de ahorro de energía del accionamiento. Además, en las instrucciones de control pueden estar considerados distintos aspectos, relevantes para el control, en forma de instrucciones correspondientes.
Las finalidades de control, en el sentido de la solicitud, son objetivos que deben ser alcanzados mediante el control del controlador. Las finalidades de control, por ejemplo, pueden ser una velocidad a la que debe acelerarse el vehículo ferroviario mediante el control del controlador. Las finalidades de control, de manera alternativa o adicional, pueden estar definidas para distintos instantes futuros, por ejemplo mediante trayectorias de velocidad. De manera alternativa, las finalidades de control pueden definir un consumo de energía que debe alcanzarse o que no debe superarse al controlar el vehículo ferroviario. Las finalidades de control, en el sentido de la solicitud, están definidas en base a los datos de entrenamiento, que a su vez se han generado en base a datos de sensor de un vehículo ferroviario. Las finalidades de control, en este caso, pueden estar generadas a partir de los datos de sensor del vehículo ferroviario. Las finalidades de control pueden resultar de los datos de sensor y, por ejemplo, describir velocidades o consumos de energía que deben alcanzarse, según los cuales se controlaría el vehículo ferroviario durante el registro de los datos de sensor. Las finalidades de control también pueden definirse o modificarse durante la ejecución de la regla de selección de acción entrenada para el control del vehículo ferroviario mediante sistemas superordinados, por ejemplo módulos de planificación correspondientes para controlar el vehículo ferroviario.
Según una forma de ejecución, el aprendizaje automático está diseñado como aprendizaje de refuerzo.
Gracias a esto puede alcanzarse el efecto técnico de que se posibilita un entrenamiento eficiente de la regla de selección de acción.
El aprendizaje de refuerzo (Reinforcement Learning), en el sentido de la solicitud, es un área del aprendizaje automático que se ocupa del entrenamiento de participantes operacionales para ejecutar acciones deseadas, para de ser modo pasar el participante desde un estado real a un estado objetivo deseado. El entrenamiento del participante se realiza aquí considerando una finalidad de control que puede alcanzarse mediante la ejecución de la acción del participante. El entrenamiento puede considerar una maximización de una función de recompensa, mediante la cual se presenta al participante la acción que debe realizarse y el objetivo que debe alcanzarse.
Según una forma de ejecución, el entrenamiento comprende: la modificación randomizada de al menos una finalidad de control objetiva que se basa en los datos de entrenamiento y la definición de finalidades de control modificadas; y el entrenamiento de la regla de selección de acción con respecto al cumplimiento de las finalidades de control modificadas.
Gracias a esto puede alcanzarse la ventaja técnica de que puede proporcionarse un entrenamiento más preciso del controlador del vehículo ferroviario. Mediante la modificación randomizada de al menos una finalidad de control y la definición, asociada a ello, de finalidades de control modificadas, los datos de entrenamiento pueden utilizarse de manera efectiva para el entrenamiento del controlador. Mediante la modificación de las finalidades de control y la generación o definición de finalidades de control modificadas, pueden definirse finalidades de control respaldadas por datos de entrenamiento, pero que no están limitadas a los mismos.
De este modo, de las finalidades de control modificadas resultan finalidades de control que no se basan en datos de entrenamiento, sino que representan finalidades de control que exceden las finalidades de control, según las que fue controlado el vehículo ferroviario durante el registro de los datos de sensor. Mediante el entrenamiento de la regla de selección de acción, en base a las finalidades de control modificadas, puede generarse una regla de selección de acción mejor entrenada, que define las instrucciones de control para un mayor número de finalidades de control diferentes. Gracias a esto puede proporcionarse un control mejorado.
Según una forma de ejecución, el entrenamiento de la regla de selección de acción comprende una maximización de una función de recompensa, donde la función de recompensa es máxima para una regla de selección de acción que cumple con la finalidad de control objetiva y/o con las finalidades de control modificadas.
Gracias a esto puede alcanzarse la ventaja técnica de que puede alcanzarse un entrenamiento lo más preciso posible de la regla de selección de acción según las técnicas del aprendizaje de refuerzo.
Según una forma de ejecución, la función de recompensa considera una diferencia entre un estado de velocidad logrado mediante la ejecución de una acción de control de la regla de selección de acción y la finalidad de control objetiva y/o las finalidades de control modificadas.
Gracias a esto puede alcanzarse la ventaja técnica de que puede proporcionarse un entrenamiento eficiente de la regla de selección de acción y una regla de selección de acción entrenada precisa, que cumple con precisión la finalidad de control que debe alcanzarse.
Según una forma de ejecución, la maximización de la función de recompensa se realiza mediante una red neuronal artificial.
Gracias a esto puede alcanzarse la ventaja técnica de que puede proporcionarse un entrenamiento eficiente de la regla de selección de acción, así como del controlador del vehículo ferroviario.
Según una forma de ejecución, la finalidad de control comprende una velocidad objetivo del vehículo ferroviario y/o un consumo de energía objetivo y/o una aceleración objetivo y/o un comportamiento de aceleración y/o de frenado con poco desgaste.
Gracias a esto puede alcanzarse la ventaja técnica de que puede proporcionarse una regla de selección de acción entrenada de manera eficiente y, asociado a ello, un controlador entrenado de manera eficiente, de un vehículo ferroviario. La regla de selección de acción entrenada de ese modo comprende aquí instrucciones de control que son adecuadas para controlar el vehículo ferroviario considerando las finalidades de control mencionadas.
Según una forma de ejecución, los datos de entrenamiento se registran durante un desplazamiento del vehículo ferroviario y comprenden datos de sensor de variables de estado, acciones de control y trayectorias de velocidad, donde las variables de estado comprenden datos de velocidad, datos de aceleración, datos de ubicación, datos de especificación del accionamiento y/o del vehículo ferroviario, donde las acciones de control comprenden operaciones de accionamiento y/o de frenado, y donde las trayectorias de velocidad describen desarrollos de velocidad correspondientes en el tiempo del vehículo ferroviario.
Gracias a esto puede alcanzarse la ventaja técnica de que mediante datos de entrenamiento completos es posible un entrenamiento preciso del controlador.
De acuerdo con un segundo aspecto de la invención se proporciona un controlador para un vehículo ferroviario, donde el controlador está entrenado según un procedimiento para entrenar un controlador de un vehículo ferroviario según una de las formas de ejecución precedentes, y donde el controlador está configurado para controlar el vehículo ferroviario ejecutando la regla de selección de acción entrenada.
De este modo puede proporcionarse un controlador mejorado para un vehículo ferroviario, que está entrenado utilizando métodos del aprendizaje automático, en particular del aprendizaje de refuerzo. Para ello, el controlador presenta una regla de selección de acción entrenada, que está entrenada según el procedimiento según la invención para entrenar un controlador de un vehículo ferroviario, según las formas de ejecución antes mencionadas. En base a la regla de selección de acción entrenada, que presenta una pluralidad de instrucciones de control para controlar el vehículo ferroviario considerando distintas finalidades de control, el vehículo ferroviario puede controlarse para alcanzar las respectivas finalidades de control. Mediante el entrenamiento de la regla de selección de acción en base al modelo de sustitución del vehículo ferroviario, el controlador puede entrenarse para cualquier vehículo ferroviario que corresponda al modelo de sustitución, de manera que, en el caso de un nuevo vehículo ferroviario, puede omitirse una adaptación compleja del modelo de un controlador, utilizado para el controlador, como se requiere en el caso de un controlador de control predictivo por modelo (MPC). Gracias a esto puede proporcionarse un controlador preciso, fiable y variable para vehículos ferroviarios.
Según un tercer aspecto se proporciona un vehículo ferroviario con un controlador según una de las formas de ejecución precedentes.
Gracias a esto puede proporcionarse un vehículo ferroviario con un controlador mejorado, con las ventajas antes mencionadas.
Según un cuarto aspecto se proporciona un producto de programa informático que comprende comandos que, al ser ejecutado el programa mediante una unidad de procesamiento de datos, disponen al mismo a realizar el procedimiento para entrenar un controlador para un vehículo ferroviario según una de las formas de ejecución precedentes.
Las características y ventajas de esta invención, descritas anteriormente, así como el modo de alcanzar las mismas, se aclaran y se vuelven más compresibles mediante las explicaciones de las siguientes representaciones, muy simplificadas, de ejemplos de ejecución preferentes. Muestran:
Figura 1 un diagrama de flujo de un procedimiento para entrenar un controlador de un vehículo ferroviario, según una forma de ejecución;
Figura 2 una representación esquemática de un vehículo ferroviario con un controlador según una forma de ejecución; y
Figura 3 una representación esquemática de un producto de programa informático.
La Figura 1 muestra un diagrama de flujo de un procedimiento 100 para entrenar un controlador 200 de un vehículo ferroviario 201, según una forma de ejecución.
Para el entrenamiento del controlador 200 del vehículo ferroviario 201 en primer lugar, en una primera etapa del procedimiento 101, se proporcionan datos de entrenamiento. Los datos de entrenamiento en este caso se basan en datos de sensor de un vehículo ferroviario 201 y, en la forma de ejecución mostrada, comprenden variables de estado 217, acciones de control 219 y trayectorias de velocidad 221. Los datos de entrenamiento 203, en particular los datos de sensor del vehículo ferroviario 201, por ejemplo, pueden registrarse durante una marcha del vehículo ferroviario 201 o de un vehículo ferroviario comparable, mediante un sistema de sensores correspondientes.
Las variables de estado 217, en el sentido de la solicitud, describen puntos dentro de un espacio de estado que describe distintos estados del vehículo ferroviario 201. En particular, las variables de estado 217 pueden comprender datos de velocidad, datos de aceleración y/o datos de ubicación del vehículo ferroviario 201, que se registraron durante el desplazamiento del vehículo ferroviario 201 o del vehículo ferroviario comparable. El vehículo ferroviario comparable, por ejemplo, puede ser un vehículo ferroviario de un tipo idéntico. Además, las variables de estado 217 pueden comprender datos de especificación del accionamiento y/o del vehículo ferroviario 201, que por ejemplo comprenden el tipo de accionamiento, la potencia o velocidad máxima, u otros parámetros del accionamiento, o un tamaño o un peso del vehículo ferroviario 201.
Las acciones de control 219, en el sentido de la solicitud, son acciones que realiza el controlador 200 durante el desplazamiento del vehículo ferroviario 201, para controlar el vehículo ferroviario 201. Las acciones de control 219, por ejemplo, pueden comprender el accionamiento del pedal del acelerador o de la palanca de control de un vehículo ferroviario, o el accionamiento del freno del vehículo ferroviario 201.
Las trayectorias de velocidad 221, en el sentido de la solicitud, son líneas que se extienden por el espacio de estado, de valores de velocidad consecutivos en el tiempo, que se alcanzaron durante el desplazamiento del vehículo ferroviario 201.
Después de la puesta a disposición de los datos de entrenamiento 203, en otra etapa del procedimiento 103, se genera, así como se entrena, un modelo de sustitución 205 del vehículo ferroviario 201, y el modelo de sustitución 205 aprende una relación entre controles de un accionamiento 207 del vehículo ferroviario 201 y una velocidad del vehículo ferroviario 201, resultante de ello.
En base a los datos de entrenamiento 203 que se registraron durante el desplazamiento del vehículo ferroviario 201, el modelo de sustitución 205, que representa una copia virtual del vehículo ferroviario 201, se entrena mediante métodos del aprendizaje automático, que conducen a acciones de control 219, al accionamiento del pedal del acelerador o al accionamiento del freno, con respecto a velocidades finales del vehículo ferroviario 201 que se determinan en base a las variables de estado 217 correspondientes. El modelo de sustitución 205 entrenado de ese modo, con ello, permite una simulación del controlador 200 del vehículo ferroviario 201, en donde mediante la ejecución de funciones de control 219 correspondientes pueden alcanzarse trayectorias de velocidad 221 correspondientes.
En otra etapa del procedimiento 105, se entrena una regla de selección de acción 209 en base a los datos de entrenamiento 203 y al modelo de sustitución 205 entrenado, utilizando métodos del aprendizaje de refuerzo y considerando al menos una finalidad de control objetiva 211. La regla de selección de acción 209 comprende aquí instrucciones de control para controlar el accionamiento 207 del vehículo ferroviario 201. En este caso, las instrucciones de control están configuradas para acelerar el vehículo ferroviario 201, desde un primer estado de velocidad, a un segundo estado de velocidad.
Las instrucciones de control, por ejemplo, pueden corresponder a las acciones de control 219 que fueron registradas como datos de entrenamiento 203 durante el desplazamiento del vehículo ferroviario 201, y que comprenden la aceleración o el frenado del vehículo ferroviario. La regla de selección de acción 209, para ello, puede presentar una pluralidad de instrucciones de control, mediante las que puede controlarse el accionamiento 207 del vehículo ferroviario 201. Las instrucciones de control, en este caso, están diseñadas de manera que durante el control del accionamiento 207 del vehículo ferroviario 201 se alcanza la finalidad de control objetiva 211. En este caso, por ejemplo, la finalidad de control objetiva 211 puede ser una velocidad final que debe alcanzarse, un consumo de energía deseado o una aceleración máxima del vehículo ferroviario 201, que respectivamente deben alcanzarse u observarse durante el control del vehículo ferroviario 201. La finalidad de control objetiva 211 igualmente puede estar proporcionada mediante los datos de entrenamiento 203. Por ejemplo, la finalidad de control 211 puede estar representada mediante las trayectorias de velocidad 221 registradas de los datos de entrenamiento 203.
Los primeros y segundos estados de velocidad, en este caso, pueden ser respectivamente un estado real o un estado objetivo del vehículo ferroviario 201, donde el vehículo ferroviario 201, mediante el control según las instrucciones de control de la regla de selección de acción 209, puede pasarse desde el estado real al estado objetivo. Alternativamente con respecto a ello, el primer y el segundo estado de velocidad pueden ser dos estados del espacio de estado que se presentan de forma consecutiva en el tiempo, a los que puede pasarse el vehículo ferroviario 201, mediante el control según las instrucciones de control de la regla de selección de acción.
Para el entrenamiento de la regla de selección de acción 209 mediante aprendizaje automático, se entrena u optimiza una regla de selección de acción seleccionada del modo deseado, con cualquier instrucción de control en base a los datos de entrenamiento 203, incluyendo las variables de estado 217 del espacio de estado del vehículo ferroviario 201 y considerando la finalidad de control 211 respectivamente seleccionada, de modo que la regla de selección de acción 209 está configurada para alcanzar la finalidad de control 211 seleccionada. En la forma de ejecución mostrada, el entrenamiento de cualquier regla de selección de acción 209 seleccionada se realiza en otra etapa del procedimiento 111, mediante una maximización de una función de recompensa configurada de modo correspondiente. La función de recompensa, en este caso, por ejemplo, puede estar definida como una diferencia entre un estado de velocidad alcanzado mediante la realización de una acción de control 219 de la regla de selección de acción 209 y la finalidad de control objetiva 211. El entrenamiento de la regla de selección de acción 209, con ello, tiene lugar de manera que las instrucciones de control, así como la regla de selección de acción 209, se modifican de manera que la función de recompensa, definida de modo correspondiente, alcanza un valor máximo. Por consiguiente, una regla de selección de acción 209 con una función de recompensa máxima puede alcanzar la finalidad de control 211 seleccionada. Mediante el entrenamiento de esa clase de la regla de selección de acción 209 puede atravesarse el espacio de estado del vehículo ferroviario 201, definida por los datos de entrenamiento 203, en donde se indican diferentes estados del vehículo ferroviario 201, para determinar la regla de selección de acción 209 óptima, que está configurada para, mediante la ejecución de las instrucciones de control correspondientes, pasar el vehículo ferroviario 201, en una trayectoria optimizada, a estados que garanticen un controlador 200 óptimo y el alcance de la finalidad de control objetiva 211 predeterminada.
Según la forma de ejecución mostrada, para el entrenamiento de la regla de selección de acción 209, en una etapa del procedimiento 109, la finalidad de control objetiva 211 se modifica de forma randomizada y se generan finalidades de control 215 modificadas. Mediante la modificación randomizada de la finalidad de control 211 pueden generarse finalidades de control 215 modificadas que pueden diferir de los datos de entrenamiento 203.
Por ejemplo, la finalidad de control objetiva 211 puede estar formada por una trayectoria de velocidad 221 de los datos de entrenamiento 203. La respectiva trayectoria de velocidad 221 puede estar respaldada por los datos de sensor del vehículo ferroviario 201, que fueron registrados durante el desplazamiento del vehículo ferroviario 201. Mediante una modificación de valores individuales de la trayectoria de velocidad 221, de este modo, pueden generarse trayectorias de velocidad 221 modificadas, como finalidades de control 215 modificadas, donde las trayectorias de velocidad 221 modificadas no están respaldadas por completo por los datos de entrenamiento 203, y presentan valores de velocidad que difieren durante el desplazamiento del vehículo ferroviario 201 y el registro de los respectivos valores de velocidad del vehículo ferroviario 201. Modificando la trayectoria de velocidad 221, de este modo, pueden alcanzarse puntos en el espacio de estado del vehículo ferroviario 201, para los que no se generaron datos de entrenamiento 203 explícitos.
Alternativamente, en el entrenamiento de la regla de selección de acción 209 también pueden considerarse varias finalidades de control 211, 215, de modo que la regla de selección de acción 209 esté configurada para cumplir con una pluralidad de finalidades de control 211, 215. Las finalidades de control, junto con la velocidad final del vehículo ferroviario 201 que debe alcanzarse, por ejemplo, pueden comprender un consumo de energía del vehículo ferroviario 201 o una aceleración máxima admisible del vehículo ferroviario 201, que deben cumplirse u observarse con el controlador 200 del vehículo ferroviario 201.
Después del entrenamiento de la regla de selección de acción 209, en la etapa del procedimiento 105, en base a la regla de selección de acción inicial 209, se genera una regla de selección de acción 213 entrenada de modo correspondiente, que comprende instrucciones de control que están configuradas para acelerar el vehículo ferroviario 201 y para cumplir con la finalidad de control 211 o con las finalidades de control 215 modificadas.
El entrenamiento de la regla de selección de acción 209, así como la maximización de la función de recompensa, puede realizarse mediante una inteligencia artificial entrenada, por ejemplo mediante una red neuronal entrenada de forma correspondiente. Con ello, mediante la maximización de la función de recompensa configurada de modo correspondiente puede generarse una regla de selección de acción 213 que cumpla con las finalidades de control 211, 215 correspondientes, garantizando un controlador 200 optimizado del vehículo ferroviario 201.
La figura 2 muestra una representación de un vehículo ferroviario 201 con un controlador 200 según una forma de ejecución.
La figura 2 muestra un vehículo ferroviario 201 con un controlador 200, donde el controlador 200 comprende una regla de selección de acción 213 entrenada según el procedimiento 100 según la invención, para entrenar un controlador 200 de un vehículo ferroviario 201. El vehículo ferroviario 201 comprende además un accionamiento 207 y un sensor 223. Mediante el sensor 223 pueden registrarse valores de sensor del accionamiento 207, para hacer el seguimiento de un control del accionamiento 207, mediante el controlador 200. El vehículo ferroviario 201 comprende además una unidad de planificación 225 que está conectada al controlador 200. Para controlar el vehículo ferroviario 201, de este modo, el controlador 200 puede recibir desde la unidad de planificación 225 una trayectoria de velocidad 221 correspondiente, que describe una curva de velocidad planificada del desplazamiento del vehículo ferroviario 201. Mediante la ejecución de las instrucciones de control definidas por la regla de selección de acción 213 entrenada, de este modo, el controlador 200 puede realizar las instrucciones de control correspondientes que sean adecuadas para acelerar el vehículo ferroviario 201 según la trayectoria de velocidad 221 planificada de la unidad de planificación 225. El controlador 200 del vehículo ferroviario 201, de este modo, puede considerar diferentes finalidades de control 211,215. Por ejemplo, el vehículo ferroviario 201 puede controlarse mediante un consumo de energía máximo predeterminado. De manera alternativa o adicional con respecto a ello, el vehículo ferroviario 201 puede controlarse considerando una aceleración máxima admisible. Si la regla de selección de acción 213 entrenada de modo correspondiente, para una pluralidad de finalidades de control 211, 215 diferentes, comprende instrucciones de control correspondientes que son adecuadas para controlar el vehículo ferroviario 201 considerando las respectivas finalidades de control 211,215, durante el funcionamiento del vehículo ferroviario 201 y en particular, al ya estar instalado el controlador 200, pueden modificarse finalidades de control 211, 215 correspondientes, que deben alcanzarse durante el control del vehículo ferroviario 201. Una modificación del controlador 200, y en particular una adaptación de las instrucciones de control respectivamente definidas, no son necesarias debido al entrenamiento de la regla de acción 213 entrenada.
La FIG 3 muestra una representación esquemática de un producto de programa informático 300.
La Figura 3 muestra un producto de programa informático 300 que comprende comandos que, al ser ejecutado el programa mediante una unidad informática, disponen al mismo a realizar el procedimiento 100 según una de las formas de ejecución antes mencionadas. El producto de programa informático 300, en la forma de ejecución mostrada, está almacenado en un medio de almacenamiento 301. En este caso, el medio de almacenamiento 301 puede ser cualquier medio de almacenamiento conocido por el estado de la técnica.
Si bien la invención fue ilustrada y descrita en detalle mediante el ejemplo de ejecución preferente, la invención no está limitada por los ejemplos descritos, y el experto puede deducir de éstos otras variaciones, sin abandonar el alcance de protección de la invención, que está definido mediante las reivindicaciones.
Claims (14)
1. Procedimiento (100) para entrenar un controlador (200) de un vehículo ferroviario (201), que comprende:
- la puesta a disposición (101) de datos de entrenamiento (203) en base a datos de sensor de un vehículo ferroviario (201);
- el entrenamiento (103) de un modelo de sustitución (205) del vehículo ferroviario (201) en base a los datos de entrenamiento (203) con respecto a una relación entre un control de un accionamiento (207) del vehículo ferroviario (201) y una velocidad resultante del vehículo ferroviario (201);
- el entrenamiento (105) de una regla de selección de acción (209) en base a los datos de entrenamiento (203) y al modelo de sustitución (205), utilizando aprendizaje automático y considerando al menos una finalidad de control objetiva (211), donde la regla de selección de acción (209) comprende instrucciones de control para controlar el accionamiento (207) del vehículo ferroviario (201), que están configuradas para acelerar el vehículo ferroviario (201), desde un primer estado de velocidad, a un segundo estado de velocidad; y
- la generación (107) de una regla de selección de acción (213) entrenada, donde la regla de selección de acción (213) entrenada comprende instrucciones de control que están configuradas para acelerar el vehículo ferroviario (201) y cumplir con la finalidad de control (211).
2. Procedimiento (100) según la reivindicación 1, donde el aprendizaje automático está diseñado como aprendizaje de refuerzo.
3. Procedimiento (100) según la reivindicación 1 ó 2, donde el entrenamiento (105) de la regla de selección de acción (209) comprende:
la modificación randomizada (109) de al menos una finalidad de control objetiva (211) que se basa en los datos de entrenamiento (203) y la definición de finalidades de control (215) modificadas; y
el entrenamiento de la regla de selección de acción (209) con respecto al cumplimiento de las finalidades de control (215) modificadas.
4. Procedimiento (100) según la reivindicación 3, donde el entrenamiento (105) de la regla de selección de acción (209) comprende: la maximización (111) de una función de recompensa, donde la función de recompensa es máxima para una regla de selección de acción (209) que cumple con la finalidad de control objetiva (211) y/o con las finalidades de control (215) modificadas.
5. Procedimiento (100) según la reivindicación 4, donde la función de recompensa considera una diferencia entre un estado de velocidad logrado mediante la ejecución de una instrucción de control de la regla de selección de acción (209) y la finalidad de control objetiva (211) y/o las finalidades de control (215) modificadas.
6. Procedimiento (100) según la reivindicación 1 ó 2, donde el entrenamiento (105) de la regla de selección de acción (209) comprende:
la maximización (111) de una función de recompensa, donde la función de recompensa es máxima para una regla de selección de acción (209) que cumple con la finalidad de control objetiva (211).
7. Procedimiento (100) según la reivindicación 6, donde la función de recompensa considera una diferencia entre un estado de velocidad logrado mediante la ejecución de una instrucción de control de la regla de selección de acción (209) y la finalidad de control objetiva (211).
8. Procedimiento (100) según una de las reivindicaciones 4 a 7, donde la maximización (111) de la función de recompensa se realiza mediante una red neuronal artificial.
9. Procedimiento (100) según una de las reivindicaciones 3, 4 ó 5 precedentes, donde la finalidad de control (211) y/o las finalidades de control (215) modificadas comprenden una velocidad objetivo del vehículo ferroviario (201) y/o un consumo de energía objetivo y/o una aceleración objetivo y/o un comportamiento de aceleración y/o de frenado con poco desgaste.
10. Procedimiento (100) según una de las reivindicaciones 6, 7 u 8 precedentes, donde la finalidad de control (211) comprende una velocidad objetivo del vehículo ferroviario (201) y/o un consumo de energía objetivo y/o una aceleración objetivo y/o un comportamiento de aceleración y/o de frenado con poco desgaste.
11. Procedimiento (100) según una de las reivindicaciones precedentes, donde los datos de entrenamiento (203) se registran durante un desplazamiento del vehículo ferroviario (201) y comprenden datos de sensor de variables de estado (217), acciones de control (219) y trayectorias de velocidad (221), donde las variables de estado (217) comprenden datos de velocidad, datos de aceleración, datos de ubicación, datos de especificación del accionamiento y/o del vehículo ferroviario (201), donde las acciones de control (219) comprenden operaciones de accionamiento y/o de frenado, y donde las trayectorias de velocidad (221) describen desarrollos de velocidad correspondientes en el tiempo del vehículo ferroviario (201).
12. Controlador (200) para un vehículo ferroviario (201), donde el controlador (200) está entrenado según un procedimiento (100) para entrenar un controlador (200) de un vehículo ferroviario (201) según una de las reivindicaciones 1 a 11 precedentes, y donde el controlador (200) está configurado para controlar el vehículo ferroviario (201) ejecutando la regla de selección de acción (213) entrenada.
13. Vehículo ferroviario (201) con un controlador (200) según la reivindicación 12.
14. Producto de programa informático (300) que comprende órdenes que, al ser ejecutado el programa por una unidad de procesamiento de datos, disponen al mismo a realizar el procedimiento (100) según una de las reivindicaciones 1 a 11 precedentes.
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| EP21154227.9A EP4035969B1 (de) | 2021-01-29 | 2021-01-29 | Verfahren zum trainieren einer steuerung für ein schienenfahrzeug, steuerung und schienenfahrzeug |
Publications (1)
| Publication Number | Publication Date |
|---|---|
| ES3010352T3 true ES3010352T3 (en) | 2025-04-02 |
Family
ID=74418221
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| ES21154227T Active ES3010352T3 (en) | 2021-01-29 | 2021-01-29 | Controller, railway vehicle and method for training a controller for a railway vehicle |
Country Status (4)
| Country | Link |
|---|---|
| EP (1) | EP4035969B1 (es) |
| CN (1) | CN114802370B (es) |
| AU (1) | AU2022200290B2 (es) |
| ES (1) | ES3010352T3 (es) |
Families Citing this family (3)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| ES3023268T3 (en) * | 2021-04-28 | 2025-05-30 | Siemens Mobility GmbH | Method for controlling rail traffic of a plurality of railway vehicles, computing unit and computer program |
| CN115188240B (zh) * | 2022-08-24 | 2024-05-24 | 南京中车浦镇城轨车辆有限责任公司 | 一种应用于轨道车辆的牵引制动教学操作台 |
| EP4339066A1 (de) * | 2022-09-15 | 2024-03-20 | Siemens Mobility GmbH | Dynamikmodell für ein schienenfahrzeug |
Family Cites Families (15)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| CN102951165B (zh) * | 2012-11-05 | 2015-04-15 | 北京交通大学 | 轨道列车节省电能运行控制方法 |
| PT3213974T (pt) * | 2016-03-03 | 2021-01-22 | Thales Man & Services Deutschland Gmbh | Procedimento para controlo de veículos no caso de uma situação de conflito e sistema de apoio à decisão |
| US9934623B2 (en) * | 2016-05-16 | 2018-04-03 | Wi-Tronix Llc | Real-time data acquisition and recording system |
| CN107194612B (zh) * | 2017-06-20 | 2020-10-13 | 清华大学 | 一种基于深度强化学习的列车运行调度方法及系统 |
| DE102017215802A1 (de) * | 2017-09-07 | 2019-03-07 | Siemens Aktiengesellschaft | Fahrerassistenzsystem für Schienenfahrzeuge |
| EP3552921B1 (de) * | 2018-04-13 | 2020-11-18 | Siemens Mobility GmbH | Autonome geschwindigkeitsplanung eines auf einen vorbestimmten pfad beschränkten beweglichen akteurs |
| CN109204390B (zh) * | 2018-09-29 | 2021-03-12 | 交控科技股份有限公司 | 一种基于深度学习的列车控制方法 |
| CN109835375B (zh) * | 2019-01-29 | 2021-05-11 | 中国铁道科学研究院集团有限公司通信信号研究所 | 基于人工智能技术的高速铁路列车自动驾驶系统 |
| DE102019206241A1 (de) * | 2019-04-30 | 2020-11-05 | Siemens Mobility GmbH | Verfahren zum Bestimmen einer Gleisbelegung sowie Achszähleinrichtung |
| US11493926B2 (en) * | 2019-05-15 | 2022-11-08 | Baidu Usa Llc | Offline agent using reinforcement learning to speedup trajectory planning for autonomous vehicles |
| CN110920690B (zh) * | 2019-11-22 | 2022-02-15 | 交控科技股份有限公司 | 远程筛选升级列车的方法 |
| CN111516735B (zh) * | 2020-05-14 | 2022-02-08 | 重庆交通大学 | 虚拟重联小编组列车自动驾驶的控制系统及其控制方法 |
| CN111619624B (zh) * | 2020-06-01 | 2022-06-21 | 北京全路通信信号研究设计院集团有限公司 | 一种基于深度强化学习的有轨电车运行控制方法和系统 |
| CN112149666A (zh) * | 2020-09-15 | 2020-12-29 | 河海大学 | 一种基于深度学习的车辆目标检测方法 |
| CN112193280B (zh) * | 2020-12-04 | 2021-03-16 | 华东交通大学 | 一种重载列车强化学习控制方法及系统 |
-
2021
- 2021-01-29 EP EP21154227.9A patent/EP4035969B1/de active Active
- 2021-01-29 ES ES21154227T patent/ES3010352T3/es active Active
-
2022
- 2022-01-18 AU AU2022200290A patent/AU2022200290B2/en active Active
- 2022-01-26 CN CN202210092219.3A patent/CN114802370B/zh active Active
Also Published As
| Publication number | Publication date |
|---|---|
| AU2022200290B2 (en) | 2022-12-22 |
| CN114802370A (zh) | 2022-07-29 |
| EP4035969A1 (de) | 2022-08-03 |
| AU2022200290A1 (en) | 2022-08-18 |
| EP4035969C0 (de) | 2024-11-13 |
| EP4035969B1 (de) | 2024-11-13 |
| CN114802370B (zh) | 2024-06-14 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| ES3010352T3 (en) | Controller, railway vehicle and method for training a controller for a railway vehicle | |
| Karnchanachari et al. | Towards learning-based planning: The nuplan benchmark for real-world autonomous driving | |
| Larsson et al. | Pro-social control of connected automated vehicles in mixed-autonomy multi-lane highway traffic | |
| WO2021212728A1 (zh) | 基于对抗模仿学习的无人驾驶车辆换道决策方法和系统 | |
| JP2023508486A (ja) | 知的車両の制御方法、装置、および制御システム | |
| US12189349B2 (en) | System and method of efficient, continuous, and safe learning using first principles and constraints | |
| CN103939597B (zh) | 模拟装置 | |
| CN115457782B (zh) | 基于深度强化学习的自动驾驶车辆交叉口无冲突合作方法 | |
| CN108121217A (zh) | 基于车间通信的列控系统车载功能样机仿真驾驶模拟系统 | |
| Peña-Ayala | Intelligent and Adaptive Educational-Learning Systems | |
| CN105539199A (zh) | 电动教练车及其熄火控制方法 | |
| JP2020108330A (ja) | 車両の動作方法 | |
| Liu et al. | Language-driven policy distillation for cooperative driving in multi-agent reinforcement learning | |
| CN105480228A (zh) | 增强的车辆速度控制 | |
| KR20220163751A (ko) | 가상 드라이빙 시스템의 딥러닝 머신 및 그 운용방법 | |
| Gao et al. | Multi-physical cooperative control of plug-in hybrid electric vehicles via cyber hierarchy and interactional network | |
| Gutiérrez-Moreno et al. | Hybrid decision making for autonomous driving in complex urban scenarios | |
| Navarro et al. | Using reinforcement learning and simulation to develop autonomous vehicle control strategies | |
| CN119953360A (zh) | 一种自动驾驶商用车学习型紧急避撞控制方法、系统和存储介质 | |
| Guo et al. | Modeling, learning and prediction of longitudinal behaviors of human-driven vehicles by incorporating internal human DecisionMaking process using inverse model predictive control | |
| Jia et al. | Car-following safe headway strategy with battery-health conscious: A reinforcement learning approach | |
| Cacciabue et al. | Unified Driver Model simulation and its application to the automotive, rail and maritime domains | |
| Lu et al. | Speed trajectory optimisation for electric vehicles in eco-approach and departure using linear programming | |
| Chen et al. | Enhanced applicability of reinforcement learning-based energy management by pivotal state-based Markov trajectories | |
| Li et al. | Intelligent Eco-Driving Control for Urban CAVs Using a Model-Based Controller Assisted Deep Reinforcement Learning |