CN114802370A

CN114802370A - 用于训练轨道车辆的控制装置的方法、控制装置和轨道车辆

Info

Publication number: CN114802370A
Application number: CN202210092219.3A
Authority: CN
Inventors: M.C.韦伯; A.帕默
Original assignee: Siemens Mobility GmbH
Current assignee: Siemens Mobility GmbH
Priority date: 2021-01-29
Filing date: 2022-01-26
Publication date: 2022-07-29
Also published as: EP4035969A1; AU2022200290B2; AU2022200290A1

Abstract

本发明涉及一种用于训练轨道车辆的控制装置的方法，所述方法包括：‑提供基于轨道车辆的传感器数据的训练数据；‑基于训练数据在轨道车辆的驱动器的控制与所产生的轨道车辆的速度之间的关系方面训练轨道车辆的代理模型；‑基于训练数据和代理模型，在利用机器学习并且考虑到至少一个客观控制目标的情况下训练动作选择规则，其中，动作选择规则包括用于控制轨道车辆的驱动器的控制指令，控制指令设置用于将轨道车辆从第一速度状态加速至第二速度状态；并且‑生成经训练的动作选择规则，其中，经训练的动作选择规则包括设置用于加速轨道车辆并且满足控制目标的控制指令。本发明还涉及一种相应地经训练的控制装置和具有控制装置的轨道车辆。

Description

用于训练轨道车辆的控制装置的方法、控制装置和轨道车辆

技术领域

本发明涉及一种用于训练轨道车辆的控制装置的方法。本发明还涉及一种控制装置和一种具有控制装置的轨道车辆。

背景技术

自动列车运行需要控制装置，控制装置可以将所需轨迹从更高级别的规划单元转换为行驶轨迹所需的加速和制动指令。所使用的控制装置通常需要大量的调整耗费以适配于各个车辆的特定特性。

用于控制装置的典型方法基于比例积分微分(PID)调节器和模型预测控制(MPC)调节器。PID调节器被非常频繁地使用，因为它们非常容易实现。但是，当在新的车辆中使用PID调节器时，PID调节器需要大量的调整耗费。此外，PID调节器只考虑当前时间步长，因此在系统对控制输入的响应存在延迟的系统中可能表现不佳。在这些情况下，通常使用MPC调节器。然而，MPC控制装置需要待控制系统的精确模型。但是，在复杂系统的情况下这可能是耗费的或无法以足够的精度实现。

发明内容

本发明所要解决的技术问题在于，提供一种用于训练轨道车辆的控制装置的改进方法、一种改进的控制装置和一种具有控制装置的轨道车辆。

所述技术问题通过根据本发明的用于训练轨道车辆的控制装置的方法、相应地经训练的控制装置和具有经训练的控制装置的轨道车辆来解决。有利的设计方案在优选的实施例中提供。

根据本发明的一个方面，提供一种用于训练轨道车辆的控制装置的方法，其中，所述方法包括：

-提供基于轨道车辆的传感器数据的训练数据；

-基于所述训练数据在轨道车辆的驱动器的控制与所产生的轨道车辆的速度之间的关系方面训练轨道车辆的代理模型；

-基于所述训练数据和所述代理模型，在利用机器学习并且考虑到至少一个客观控制目标的情况下训练动作选择规则，其中，所述动作选择规则包括用于控制轨道车辆的驱动器的控制指令，所述控制指令设置用于将所述轨道车辆从第一速度状态加速至第二速度状态；并且

-生成经训练的动作选择规则，其中，经训练的动作选择规则包括设置用于加速轨道车辆并且满足控制目标的控制指令。

由此可以实现技术优势，即可以提供一种用于训练轨道车辆的控制装置的改进方法。在此，在考虑机器学习技术的情况下训练轨道车辆的控制装置。为此，提供基于轨道车辆的传感器数据的训练数据。基于训练数据，然后在轨道车辆的驱动器的控制与由此产生的轨道车辆的速度之间的关系方面训练轨道车辆的代理模型。然后基于训练数据和经训练的代理模型借助强化学习技术并在考虑至少一个控制目标的情况下训练动作选择规则，并且生成经训练的动作选择规则。基于经训练的动作选择规则，可以控制轨道车辆并且分别实现预先确定的控制目标。

在本申请的意义中，轨道车辆的代理模型是真实轨道车辆的虚拟模型，其表现出真实轨道车辆的所有相关特征。可以将代理模型设计为类似于真实机器的虚拟双胞胎，并且虚拟地模拟真实机器或者说轨道车辆的运行。因此，代理模型设置为，模拟通过相应的控制来移动轨道车辆。代理模型例如可以设计为相应地经训练的神经网络，并且可以被训练以模拟或表示轨道车辆的驾驶行为或与控制相关的特性。

在本申请的意义中，动作选择规则是多个控制指令，这些控制指令设置用于将轨道车辆从第一速度状态加速至第二速度状态。在此，第一和第二速度状态可以是轨道车辆在特定时间点所处于的实际状态，并且第一和第二速度状态可以是轨道车辆待通过驱动器控制过渡到的额定状态。作为对此的备选，第一和第二速度状态可以是轨道车辆在时间上相继的两个状态，当轨道车辆被控制装置控制时，轨道车辆被转变到所述两个状态中。通过控制装置执行动作选择规则的控制指令，相应的轨道车辆可以因此在考虑要实现的控制目标的情况下被控制。

在本申请的意义中，控制指令是用于控制轨道车辆的指令或命令。例如，控制指令可以包括加速或制动轨道车辆，包括对驱动器的详细控制。此外，控制指令可以包括切换到不同的档位或切换到驱动器的节能模式。此外，可以在控制指令中以相应指令的形式考虑与控制相关的不同方面。

在本申请的意义中，控制目标是通过对控制装置进行控制所达到的目标。例如，控制目标可以是轨道车辆通过对控制装置进行控制应加速到的速度。备选或附加地，可以针对不同的未来时间点定义控制目标，例如通过速度轨迹进行定义。备选地，控制目标可以定义在控制轨道车辆时要达到或不超过的能量消耗。在本申请的意义中，基于训练数据定义控制目标，而训练数据又是基于轨道车辆的传感器数据生成的。在这种情况下，可以从轨道车辆的传感器数据中生成控制目标。控制目标可以从传感器数据中得出，并且描述例如要达到的速度或能量消耗，据此在收集传感器数据期间控制轨道车辆。控制目标也可以在执行经训练的用于控制轨道车辆的动作选择规则期间被更高级别的系统、例如用于控制轨道车辆的相应的规划模块，定义或改变。

根据一种实施方式，所述机器学习设计为强化学习。

由此可以达到能够实现动作选择规则的有效训练的技术效果。

在本申请的意义中，强化学习(Reinforcement Learning)是机器学习的与操作参与者的训练相关的领域，执行期望的动作，以便因此将参与者从实际状态转移到期望的额定状态。在此，在考虑到通过执行参与者的操作而实现的控制目标的情况下训练参与者。训练可以考虑奖励函数的最大化，通过该奖励函数向参与者显示要执行的操作和要实现的目标。

根据一种实施方式，所述训练包括：随机改变至少一个基于训练数据的客观控制目标并且定义改变后的控制目标；并且对动作选择规则进行训练以满足改变后的控制目标。

由此可实现的技术优点是，可以提供对轨道车辆的控制装置的更精确的训练。通过随机地改变至少一个控制目标和对改变后的控制目标的与此相关的定义，可以更有效地利用用于训练控制装置的训练数据。通过改变控制目标和生成或者说定义改变后的控制目标，可以定义被训练数据支持但不限于训练数据的控制目标。

因此，改变后的控制目标得出不基于训练数据的控制目标，而是表示一种控制目标，该控制目标超出了在收集传感器数据期间受控的轨道车辆的控制目标。通过基于改变后的控制目标训练动作选择规则，可以生成改进的经训练的动作选择规则，该动作选择规则为更多数量的不同控制目标定义控制指令。由此可以提供改进的控制装置。

根据一种实施方式，对所述动作选择规则的训练包括奖励函数的最大化，其中，所述奖励函数对于满足客观控制目标和/或改变后的控制目标的动作选择规则是最大的。

由此可实现的技术优点是，根据强化学习技术可以实现对动作选择规则的尽可能精确的训练。

根据一种实施方式，所述奖励函数考虑到在通过执行所述动作选择规则的控制动作而达到的速度状态与所述客观控制目标和/或改变后的控制目标之间的差异。

由此可实现的技术优点是，可以提供对动作选择规则的有效训练并且提供经过精确训练的动作选择规则，所述动作选择规则精确地满足要实现的控制目标。

根据一种实施方式，通过人工神经网络实施所述奖励函数的最大化。

由此可实现的技术优点是，可以提供对动作选择规则的有效训练或者说对轨道车辆的控制。

根据一种实施方式，所述控制目标包括轨道车辆的额定速度和/或额定能量消耗和/或额定加速度和/或低磨损的加速和/或制动行为。

由此可实现的技术优点是，可以提供经过有效训练的动作选择规则并且与之相关地提供轨道车辆的经过有效训练的控制装置。在此，以这种方式训练的动作选择规则包括适用于在考虑到所提及的控制目标的情况下控制轨道车辆的控制指令。

根据一种实施方式，所述训练数据在轨道车辆移动时被收集并且包括状态变量、控制动作和速度轨迹的传感器数据，其中，所述状态变量包括速度数据、加速度数据、位置数据、驱动器和/或轨道车辆的规格数据，其中，所述控制动作包括驱动操纵和/或制动操纵，并且其中，所述速度轨迹描述了所述轨道车辆在时间上的相应的速度变化发展。

由此可实现的技术优点是，通过全面的训练数据能够实现对控制装置的精确训练。

根据本发明的第二方面，提供一种用于轨道车辆的控制装置，其中，所述控制装置包括至少一个根据前述实施方式之一所述的用于训练轨道车辆的控制装置的方法经训练的动作选择规则，并且其中，所述控制装置设置为，在执行经训练的动作选择规则的情况下控制所述轨道车辆。

由此可以提供一种用于轨道车辆的改进的控制装置，该控制装置使用机器学习的方法、尤其强化学习的方法来训练。为此，控制装置具有经训练的动作选择规则，经训练的动作选择规则是根据按照前述实施方式之一所述的用于训练轨道车辆的控制装置的方法训练的。基于经训练的、具有多个在考虑到不同控制目标情况下用于控制轨道车辆的控制指令的动作选择规则，可以控制轨道车辆实现相应的控制目标。通过基于轨道车辆的代理模型训练动作选择规则，控制装置可以针对任何与代理模型对应的轨道车辆进行训练，从而在新的轨道车辆的情况下可以省去对用于控制装置的模型的耗费的适配，如在模型预测控制(MPC)调节器中需要的那样。由此可以提供一种用于轨道车辆的精确、可靠且可变的控制装置。

根据第三方面，提供一种具有根据前述实施方式之一所述的控制装置的轨道车辆。

由此，可以提供一种具有具备上述优点的改进控制装置的轨道车辆。

根据第四方面，提供了一种包括命令的计算机程序产品，在通过数据处理单元执行程序时所述命令使数据处理单元执行根据前述实施方式之一所述的用于训练轨道车辆的控制装置的方法。

附图说明

通过阐述以下优选实施例的高度简化的示意图，更清楚且明晰地理解前述的本发明的特征、优点以及其实现方式。在附图中：

图1示出根据一种实施方式的用于训练轨道车辆的控制装置的方法的流程图；

图2示出具有根据一种实施方式的控制装置的轨道车辆的示意图；和

图3示出一种计算机程序产品的示意图。

具体实施方式

图1示出根据一种实施方式的用于训练轨道车辆201的控制装置200的方法100的流程图。

为了训练轨道车辆201的控制装置200，首先在第一方法步骤101中提供训练数据。在此，训练数据基于轨道车辆201的传感器数据并且在所示的实施方式中包括状态变量217、控制动作219和速度轨迹221。训练数据203、尤其是轨道车辆201的传感器数据，这例如可以在轨道车辆201或相似的轨道车辆的行驶期间通过相应的传感装置被记录。

在本申请的意义中，状态变量217描述了状态空间内的点，该状态空间描述了轨道车辆201的不同状态。状态变量217尤其可以包括在轨道车辆201或相似的轨道车辆的行驶期间记录的轨道车辆201的速度数据、加速度数据和/或位置数据。例如，相似的轨道车辆可以是相同类型的轨道车辆。此外，状态变量217可以包括驱动器和/或轨道车辆201的规格数据，所述规格数据例如包括驱动器的类型、驱动器的最大功率或最大转速以及其他参数或者轨道车辆201的尺寸或重量。

在本申请的意义中，控制动作219是在轨道车辆201移动时由控制装置200执行的用于控制轨道车辆201的动作。控制动作219例如可以包括操纵轨道车辆的油门踏板或控制杆或操纵轨道车辆201的制动器。

在本申请的意义中，速度轨迹221是时间上相继的、在轨道车辆201移动时已经达到的速度值贯穿状态空间的轨迹。

在提供训练数据203之后，在另一方法步骤103中生成或训练轨道车辆201的代理模型205，并且使代理模型205学习轨道车辆201的驱动器207的控制与由此产生的轨道车辆的速度之间的关系201。

基于在轨道车辆201移动时记录的训练数据203，借助机器学习方法训练代表轨道车辆201的虚拟副本的代理模型205：哪些控制动作219、操纵油门踏板或操纵制动器，会导致基于相应的状态变量217确定的轨道车辆201的哪种最终速度。以这种方式训练的代理模型205因此能够模拟轨道车辆201的控制装置200，在该控制装置中，可以通过执行相应的控制功能219来达到相应的速度轨迹221。

在另一方法步骤105中，在使用强化学习方法并且考虑至少一个客观控制目标211的情况下基于训练数据203和经训练的代理模型205训练动作选择规则209。在此，动作选择规则209包括用于控制轨道车辆201的驱动器207的控制指令。在此，控制指令设置为用于将轨道车辆201从第一速度状态加速至第二速度状态。

控制指令例如可以相应于在轨道车辆201移动时被记录为训练数据203的控制动作219并且可以包括加速或制动轨道车辆。为此，动作选择规则209可以具有多个控制指令，借助这些控制指令可以控制轨道车辆201的驱动器207。控制指令在此设计为，在控制轨道车辆201的驱动器207期间实现客观控制目标211。客观控制目标211例如可以是在轨道车辆201的控制期间要达到或维持的轨道车辆201的要达到的最终速度、期望的能量消耗或最大加速度。客观控制目标211同样可以通过训练数据203提供。例如，控制目标211可以由训练数据203的所记录的速度轨迹221来表示。

在此，第一和第二速度状态可以分别是轨道车辆201的实际状态或额定状态，其中，轨道车辆201通过根据动作选择规则209的控制指令的控制从实际状态转移到额定状态。作为对此的备选，第一和第二速度状态可以是状态空间的在时间上相继地出现的两种状态，轨道车辆201通过根据动作选择规则的控制指令的控制转移到所述两种状态。

为了通过强化学习来训练动作选择规则209，基于训练数据203(包括轨道车辆201的状态空间的状态变量217)并且在考虑到分别选择的控制目标211的情况下训练或优化具有任意控制指令的任意选择的动作选择规则，使得动作选择规则209设置为用于实现所选择的控制目标211。在所示的实施方式中，在另一方法步骤111中通过相应地设置的奖励函数的最大化来执行对任意选择的动作选择规则209的训练。在此，例如可以将奖励函数定义为在通过执行动作选择规则209的控制动作219达到的速度状态与客观控制目标211之间的差异。因此，通过以下方式训练动作选择规则209：控制指令或动作选择规则209被这样修改，使得相应地定义的奖励函数达到最大值。因此，具有最大奖励函数的动作选择规则209能够实现所选择的控制目标211。通过动作选择规则209的这种训练，可以遍历由训练数据203定义的轨道车辆201的状态空间(在该状态空间中列出了轨道车辆201的不同状态)，以便确定最优的动作选择规则209，所述最优的动作选择规则设置为，通过执行相应的控制指令来将轨道车辆201在最优轨迹中转移到确保最优的控制装置200和实现预先确定的客观控制目标211的状态中。

根据所示的实施方式，为了训练动作选择规则209，在方法步骤109中随机改变客观控制目标211并且生成改变后的控制目标215。通过随机改变控制目标211，可以生成可能偏离于训练数据203的改变后的控制目标215。

例如，客观控制目标211可以由训练数据203的速度轨迹221形成。在此，相应的速度轨迹221可以由在轨道车辆201移动时记录的轨道车辆201的传感器数据支持。通过改变速度轨迹221的各个值，因此可以生成改变后的速度轨迹221作为改变后的控制目标215，其中，改变后的速度轨迹221不完全被训练数据203支持，而是具有在轨道车辆201移动时和在轨道车辆201的相应速度值被记录时有偏离的速度值。因此，通过改变速度轨迹221，可以到达轨道车辆201的状态空间中的没有生成明确训练数据203的点。

作为对此的备选，在训练动作选择规则209时也可以考虑多个控制目标211、215，从而动作选择规则209设置用于满足多个控制目标211、215。在此，除了轨道车辆201要达到的最终速度之外，控制目标可以包括在轨道车辆201被控制200时要满足或要考虑的例如轨道车辆201的能量消耗或轨道车辆201的允许的最大加速度。

在方法步骤105中训练动作选择规则209之后，基于输出-动作选择规则209生成相应地训练的动作选择规则213，其包括控制指令，所述控制指令设置为，加速轨道车辆201和满足控制目标211或改变后的控制目标215。

动作选择规则209的训练或奖励函数的最大化可以通过经训练的人工智能、例如通过相应地训练的神经网络来执行。通过相应地设置的奖励函数的最大化，可以因此生成满足相应的控制目标211、215并且因此确保轨道车辆201的优化的控制装置200的动作选择规则213。

图2示出了根据一种实施方式的具有控制装置200的轨道车辆201的示意图。

图2示出了具有控制装置200的轨道车辆201，其中，控制装置200包括根据按照本发明的用于训练轨道车辆201的控制装置200的方法100训练的动作选择规则213。轨道车辆201还包括驱动器207和传感器223。通过传感器223可以记录驱动器207的传感器值，以便借助控制装置200跟踪驱动器207的控制。轨道车辆201还包括与控制装置200连接的规划单元225。为了控制轨道车辆201，控制装置200因此可以从规划单元225接收相应的速度轨迹221，该速度轨迹描述了轨道车辆201的移动的所规划的速度变化过程。通过执行由经训练的动作选择规则213定义的控制指令，控制装置200可以因此执行相应的控制指令，所述控制指令适用于根据规划单元225的所规划的速度轨迹221加速轨道车辆201。在此，轨道车辆201的控制装置200可以考虑不同的控制目标211、215。例如，可以以预先确定的最大能量消耗控制轨道车辆201。备选或附加地，可以在考虑允许的最大加速度的情况下控制轨道车辆201。通过相应地经训练的动作选择规则213针对多个不同的控制目标211、215包括相应的、在考虑相应控制目标211、215的情况下控制轨道车辆201的控制指令，可以在轨道车辆201运行时并且尤其在已经安装的控制装置200的情况下改变在控制轨道车辆201期间应实现的相应的控制目标211、215。由于对经训练的动作选择规则213的训练，不需要控制装置200的改变并且尤其不需要相应的所定义的控制指令的适配。

图3示出了一种计算机程序产品300的示意图。

图3示出了计算机程序产品300，其包括命令，当通过计算单元执行该程序时，所述命令使计算单元执行根据上述实施方式之一所述的方法100。在所示的实施方式中，计算机程序产品300存储在存储介质301上。在此，存储介质301可以是现有技术中已知的任何存储介质。

尽管已经通过优选实施例详细说明和描述了本发明，但是本发明不受所公开的示例的限制，并且本领域技术人员可以在不脱离本发明的保护范围的情况下从中得出其他变型方案。

Claims

1.一种用于训练轨道车辆(201)的控制装置(200)的方法(100)，所述方法包括：

-提供(101)基于轨道车辆(201)的传感器数据的训练数据(203)；

-基于所述训练数据(203)在轨道车辆(201)的驱动器(207)的控制与所产生的轨道车辆(201)的速度之间的关系方面训练(103)轨道车辆(201)的代理模型(205)；

-基于所述训练数据(203)和所述代理模型(205)，在利用机器学习并且考虑到至少一个客观控制目标(211)的情况下训练(105)动作选择规则(209)，其中，所述动作选择规则(209)包括用于控制轨道车辆(201)的驱动器(207)的控制指令，所述控制指令设置用于将所述轨道车辆(201)从第一速度状态加速至第二速度状态；并且

-生成(107)经训练的动作选择规则(213)，其中，经训练的动作选择规则(213)包括设置用于加速轨道车辆(201)并且满足控制目标(211)的控制指令。

2.根据权利要求1所述的方法(100)，其特征在于，所述机器学习设计为强化学习。

3.根据权利要求1或2所述的方法(100)，其特征在于，对所述动作选择规则(209)的训练(105)包括：

-随机改变(109)至少一个基于训练数据(203)的客观控制目标(211)并且定义改变后的控制目标(215)；并且

-对动作选择规则(209)进行训练以满足改变后的控制目标(215)。

4.根据权利要求1至3之一所述的方法(100)，其特征在于，对所述动作选择规则(209)的训练(105)包括：

奖励函数的最大化(111)，其中，所述奖励函数对于满足客观控制目标(211)和/或改变后的控制目标(215)的动作选择规则(209)是最大的。

5.根据权利要求4所述的方法(100)，其特征在于，所述奖励函数考虑到在通过执行所述动作选择规则(209)的控制动作而达到的速度状态与所述客观控制目标(211)和/或改变后的控制目标(215)之间的差异。

6.根据权利要求4或5所述的方法(100)，其特征在于，通过人工神经网络实施所述奖励函数的最大化(111)。

7.根据上述权利要求中任一项所述的方法(100)，其特征在于，所述控制目标(211)和/或改变后的控制目标(215)包括轨道车辆(201)的额定速度和/或额定能量消耗和/或额定加速度和/或低磨损的加速和/或制动行为。

8.根据上述权利要求中任一项所述的方法(100)，其特征在于，所述训练数据(203)在轨道车辆(201)移动时被收集并且包括状态变量(217)、控制动作(219)和速度轨迹(221)的传感器数据，其中，所述状态变量(217)包括速度数据、加速度数据、位置数据、驱动器和/或轨道车辆(201)的规格数据，其中，所述控制动作(210)包括驱动操纵和/或制动操纵，并且其中，所述速度轨迹(211)描述了所述轨道车辆(201)在时间上的相应的速度变化发展。

9.一种用于轨道车辆(201)的控制装置(200)，其中，所述控制装置(200)包括至少一个按照权利要求1至8中任一项所述的用于训练轨道车辆(201)的控制装置(200)的方法(100)经训练的动作选择规则(213)，并且其中，所述控制装置(200)设置为，在执行经训练的动作选择规则(213)的情况下控制所述轨道车辆(201)。

10.一种轨道车辆(201)，具有根据权利要求9所述的控制装置(200)。

11.一种计算机程序产品(300)，包括命令，在通过数据处理单元执行程序时所述命令使所述数据处理单元实施根据权利要求1至8中任一项所述的方法(100)。