CN113492892A

CN113492892A - 虚拟编组列车追踪控制方法、装置、电子设备及可读存储介质

Info

Publication number: CN113492892A
Application number: CN202110791290.6A
Authority: CN
Inventors: 吴梦委; 张蕾; 包峰
Original assignee: Traffic Control Technology TCT Co Ltd
Current assignee: Traffic Control Technology TCT Co Ltd
Priority date: 2021-07-13
Filing date: 2021-07-13
Publication date: 2021-10-12
Anticipated expiration: 2041-07-13
Also published as: US20230013788A1; US11945481B2; EP4119418A1; CN113492892B; EP4119418B1

Abstract

本申请实施例中提供了一种虚拟编组列车追踪控制方法、装置、电子设备及可读存储介质，旨在兼顾行车安全和铁路资源利用率。本申请中，通过获得目标列车的运行状态数据，并基于预设的强化学习模型，从多个预设控制操作中确定该运行状态数据对应的目标控制操作，以及根据该目标控制操作实现对目标列车的控制。此外，还根据运行状态数据包括的距离，确定目标控制操作的前一次控制操作对应的奖励值，并根据该奖励值更新强化学习模型。本申请中，由于运行状态数据包括目标列车与目标追踪列车之间的距离，因此目标控制操作的确定会以作为距离考虑因素。再通过执行该目标控制操作，从而调节目标列车与目标追踪列车之间的距离。

Description

虚拟编组列车追踪控制方法、装置、电子设备及可读存储介质

技术领域

本申请涉及轨道交通技术领域，具体地，涉及一种虚拟编组列车追踪控制方法、装置、电子设备及可读存储介质。

背景技术

在利用列车控制系统对运行中的多辆列车进行控制和调度时，通常从列车的到站时刻这一角度，对列车运行进行控制。由于不同列车的到站时间通常间隔较长，因此列车与列车之间的行车间距通常很自然地处于较长的状态，列车与列车之间通常不会因为距离过近而产生安全问题。但是由于列车与列车之间的行车间距过长，会导致铁路资源不能被充分应用，使得铁路资源的总体运力难以进一步提升。

可见相关技术中，对于如何兼顾行车安全和铁路资源利用率，是一个亟待解决的问题。

发明内容

本申请实施例中提供了一种虚拟编组列车追踪控制方法、装置、电子设备及可读存储介质，旨在兼顾行车安全和铁路资源利用率。

根据本申请实施例的第一个方面，提供了一种虚拟编组列车追踪控制方法，所述方法包括：获得目标列车的运行状态数据，所述运行状态数据包括所述目标列车与目标追踪列车之间的距离，所述目标列车与所述目标追踪列车位于同一个虚拟编组中，在所述虚拟编组中，所述目标追踪列车是行驶在所述目标列车前方且距离所述目标列车最近的列车；基于预设的强化学习模型，从多个预设控制操作中确定所述运行状态数据对应的目标控制操作，并根据所述目标控制操作控制所述目标列车；根据所述运行状态数据包括的所述距离，确定所述目标控制操作的前一次控制操作对应的奖励值；根据所述奖励值更新所述强化学习模型。

根据本申请实施例的第二个方面，提供了一种虚拟编组列车追踪控制装置，所述装置包括：运行状态数据获得模块，用于获得目标列车的运行状态数据，所述运行状态数据包括所述目标列车与目标追踪列车之间的距离，所述目标列车与所述目标追踪列车位于同一个虚拟编组中，在所述虚拟编组中，所述目标追踪列车是行驶在所述目标列车前方且距离所述目标列车最近的列车；列车控制模块，用于基于预设的强化学习模型，从多个预设控制操作中确定所述运行状态数据对应的目标控制操作，并根据所述目标控制操作控制所述目标列车；奖励值确定模块，用于根据所述运行状态数据包括的所述距离，确定所述目标控制操作的前一次控制操作对应的奖励值；模型更新模块，用于根据所述奖励值更新所述强化学习模型。

根据本申请实施例的第三方面，提供了一种电子设备，所述电子设备包括：处理器、存储器以及总线，所述存储器存储有所述处理器可执行的机器可读指令，当所述电子设备运行时，所述处理器与所述存储器之间通过所述总线通信，所述机器可读指令被所述处理器执行时执行上述虚拟编组列车追踪控制方法。

根据本申请实施例的第四方面，提供了一种存储介质，所述存储介质上存储有计算机程序，所述计算机程序被处理器运行时执行上述虚拟编组列车追踪控制方法。

采用本申请实施例中提供的虚拟编组列车追踪控制方法，通过获得目标列车的运行状态数据，并基于预设的强化学习模型，从多个预设控制操作中确定该运行状态数据对应的目标控制操作，以及根据该目标控制操作实现对目标列车的控制。本申请中，由于运行状态数据包括目标列车与目标追踪列车之间的距离，因此目标控制操作的确定会以距离作为考虑因素，从而确定出合适的目标控制操作。再通过执行该目标控制操作，从而调节目标列车与目标追踪列车之间的距离。通过采用本申请实施例中提供的虚拟编组列车追踪控制方法，使得虚拟编组中列车与列车之间的距离可以不至于过大或者过小，以达到兼顾行车安全和提升铁路资源利用率的目的。

此外本申请中，通过根据运行状态数据包括的距离，确定目标控制操作的前一次控制操作对应的奖励值，并根据该奖励值更新强化学习模型。如此，可以在列车运行期间持续对强化学习模型进行优化，进而有利于提升列车控制的稳定性。

附图说明

此处所说明的附图用来提供对本申请的进一步理解，构成本申请的一部分，本申请的示意性实施例及其说明用于解释本申请，并不构成对本申请的不当限定。在附图中：

图1是本申请一实施例提出的虚拟编组列车追踪控制方法的流程示意图；

图2是本申请一实施例提出的列车运行示意图；

图3是本申请一实施例提出的确定目标控制操作的示意图；

图4是本申请一实施例提出的在线更新强化学习模型的流程示意图；

图5是本申请一实施例提出的更新强化学习模型的示意图；

图6是本申请一实施例提出的线下训练强化学习模型的流程图；

图7是图6所示线下训练流程图对应的线下训练示意图；

图8是本申请一实施例提出的虚拟编组列车追踪控制装置800的示意图；

图9是本申请一实施例提供的电子设备的结构框图。

可能的实现方式

在实现本申请的过程中，发明人发现，在利用主流CBTC(Communication BasedTrain Control System)列控系统对多辆列车的运行进行控制和调度时，列车与列车之间通常保持很长的行车间距。但是列车与列车之间过长的行车间距，是以牺牲运输能力为代价的。当列车与列车之间的行车间距过大时，铁路资源的利用效率相应地降低，从而导致运输能力下降。可见相关技术中，对于对于如何兼顾行车安全和铁路资源利用率，是一个亟待解决的问题。

针对上述问题，本申请实施例中提供了一种虚拟编组列车追踪控制方法、装置、电子设备及可读存储介质，通过获得目标列车的运行状态数据，并基于预设的强化学习模型，从多个预设控制操作中确定该运行状态数据对应的目标控制操作，以及根据该目标控制操作实现对目标列车的控制。本申请中，由于运行状态数据包括目标列车与目标追踪列车之间的距离，因此目标控制操作的确定会以距离作为考虑因素，从而确定出合适的目标控制操作。再通过执行该目标控制操作，从而调节目标列车与目标追踪列车之间的距离。

为了使本申请实施例中的技术方案及优点更加清楚明白，以下结合附图对本申请的示例性实施例进行进一步详细的说明，显然，所描述的实施例仅是本申请的一部分实施例，而不是所有实施例的穷举。需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。

本申请中，运行在同一条铁路线上的多辆列车可以建立成一个虚拟编组，虚拟编组中的多辆列车之间不通过物理车钩连接，而是建立无线通信连接。当虚拟编组在站台区域内运行时，虚拟编组中的每辆列车可以按照预设控制方式，对每辆列车的运行进行控制，本申请对于应用在站台区域内的预设控制方式具体选用何种控制方式，不做限定。

当虚拟编组使出站台区域，开始在上一站台与下一站台之间运行时，虚拟编组中的每辆列车可以根据其牵引力，确定其是否进入巡航状态。当列车进入巡航状态后，可以从预设控制方式切换成本申请提供的虚拟编组列车追踪控制方法，从而按照本申请提供的虚拟编组列车追踪控制方法控制列车，使得列车与前方列车(即下述目标追踪列车)之间的距离被稳定控制在合适范围内。

当虚拟编组完成运载任务后，虚拟编组中的每辆列车接收到解编指令，每辆列车响应于该解编指令，首先从本申请提供的虚拟编组列车追踪控制方法切换成预设控制方式，然后再解除编组状态。其中，解编指令可以是虚拟编组中的一辆列车在检测到驾驶员的编组解除操作后发出的，也可以是由铁路调度中心发出的，本申请对此不做限定。

为了便于说明，本申请以虚拟编组中的一辆列车为例，针对应用在站台与站台之间的虚拟编组列车追踪控制方法进行说明，以下将该辆列车称为目标列车。

参考图1，图1是本申请一实施例提出的虚拟编组列车追踪控制方法的流程示意图。该虚拟编组列车追踪控制方法可以由目标列车上的电子设备或系统执行，电子设备或系统通过执行该虚拟编组列车追踪控制方法，从而控制目标列车的运行。为便于说明，以下将执行该虚拟编组列车追踪控制方法的电子设备或系统称为执行主体。如图1所示，该虚拟编组列车追踪控制方法包括以下步骤：

S110：获得目标列车的运行状态数据，运行状态数据包括目标列车与目标追踪列车之间的距离，目标列车与目标追踪列车位于同一个虚拟编组中，在该虚拟编组中，目标追踪列车是行驶在目标列车前方且距离目标列车最近的列车。

本申请中，执行主体可以周期性地获得目标列车的运行状态数据，例如执行主体可以每隔1秒钟，获得目标列车当前时刻的运行状态数据。执行主体每次获得运行状态数据后，通过执行下述步骤S120至S140，从而周期性地对列车进行控制操作，并周期性地更新下述强化学习模型。

目标列车的运行状态数据包括目标列车与目标追踪列车之间的距离。在一些可能的实现方式中，该距离可以是目标列车的车头与目标追踪列车的车尾之间的距离。或者在一些可能的实现方式中，该距离也可以是目标列车的列车中点与目标追踪列车的中点之间的距离。或者在一些可能的实现方式中，该距离可以是目标列车的车头与目标追踪列车的车头之间的距离。

在一些可能的实现方式中，该距离可以是目标列车的车头与目标追踪列车的车尾之间的直线距离。或者在一些可能的实现方式中，该距离可以是目标列车的车头与目标追踪列车的车尾之间的铁路轨道长度。

在一些可能的实现方式中，目标追踪列车可以周期性地将自身位置信息发送给目标列车，目标列车每接收到目标追踪列车的位置信息时，可以根据目标追踪列车的位置和目标列车当前的自身位置，确定两者之间的距离。

具体实现时，参考图2，图2是本申请一实施例提出的列车运行示意图，图2中的箭头表示各辆列车的行驶方向。如图2所示，铁路轨道21上设置了多个应答器22，分别为应答器A、应答器B以及应答器C。目标列车23的车头在经过每个应答器22时，应答器22会将其自身的位置信息发送给目标列车23。同样地，目标追踪列车24的车头在经过每个应答器22时，应答器22会将其自身的位置信息发送给目标追踪列车24。示例性地，每个应答器22的自身位置信息可以是该应答器22在整个铁路线上的里程位置，例如应答器A、应答器B以及应答器C在铁路线上的里程位置分别为24km、28km、32km。

此外，目标列车23安装有速度传感器，当目标列车23的车头每经过一个应答器22时，将车头经过应答器22的时间点作为时间起点，并开始对速度传感器检测到的速度进行积分，积分结果等于车头经过应答器22之后的行驶路程。为便于理解，示例性地，假设目标列车23的车头在10:45:12(10点45分12秒)的时候经过了应答器A。则以10:45:12为起点，开始对速度传感器检测到的速度进行积分。例如当时间点来到10:45:27时，此时已经对10:45:12至10:45:27之间的速度进行了积分，从而获得了在10:45:27时刻目标列车23车头与应答器A的距离d1。然后，可以将距离d1与应答器A的里程位置相加，从而得到了在10:45:27时刻目标列车23的车头里程位置D1。

按照同样地方式，可以获得在10:45:27时刻目标追踪列车24车头与应答器B的距离d2。然后将距离d2与应答器B的里程位置相加，从而得到了在10:45:27时刻目标追踪列车24的车头里程位置D2。

目标追踪列车24将车头里程位置D2作为位置信息，发送给目标列车23。目标列车23接收到D2后，将D2与D1相减，获得相减结果X1。在一些可能的实现方式中，执行主体可以将X1确定为目标列车与目标追踪列车之间的距离，该距离实际上是目标列车的车头与目标追踪列车的车头之间的距离。

或者在另一些可能的实现方式中，执行主体还可以将X1减去目标追踪列车的列车长度，获得相减结果X2，执行主体可以将X2确定为目标列车与目标追踪列车之间的距离，该距离实际上是目标列车的车头与目标追踪列车的车尾之间的距离。

在一些可能的实现方式中，目标列车的运行状态数据还可以包括列车速度和/或列车位置。其中，列车速度可以通过传感器采集，列车位置可以是上述实施方式中介绍的车头里程位置D1。执行主体每获得列车速度、列车位置以及距离等运行状态数据后，按照预设排序方式，将这些运行状态数据排列组织成一个数列，该数列可以作为一个运行状态向量。

如前所述，在一些可能的实现方式中，目标列车在周期性获取目标列车的运行状态数据之前，可以根据目标列车的牵引力，确定目标列车是否进入巡航状态。在目标列车进入巡航状态的情况下，目标列车才开始周期性获取目标列车的运行状态数据。

具体实现时，目标列车可以通过监测其牵引力，从而判断列车的运行阶段。当目标列车的牵引力处于最大牵引级位时，说明目标列车当前正处于启动阶段。当目标列车的牵引力由最大牵引力级位逐渐降低至最小牵引力级位时，说明目标列车当前进入了巡航阶段，此时目标列车处于巡航状态。

S120：基于预设的强化学习模型，从多个预设控制操作中确定运行状态数据对应的目标控制操作，并根据目标控制操作控制目标列车。

本申请中，多个预设控制操作中的每个预设控制操作用于控制目标列车的车速。在一些可能的实现方式中，多个预设控制操作具体为多个呈等差数列排列的控制档位，多个控制档位中包括用于控制目标列车加速的控制档位、用于控制目标列车减速的控制档位、以及用于控制目标列车维持现有车速的档位。

其中，每个档位分别对应不同的牵引力或制动力，因此呈等差数列排列的控制档位对应呈等差数列排列的牵引力或制动力。为便于理解，示例性地，多个预设控制操作分别为：-a、-a/2、0、a/2以及a。其中，a是一个预设的力或者加速度，a是一个正数。-a表示以a的大小进行制动，-a/2表示以a/2的大小进行制动，a/2表示以a/2的大小进行牵引，a表示以a的大小进行牵引。其中，-a和-a/2是用于控制目标列车减速的控制档位，a和a/2是用于控制目标列车加速的控制档位，0是用于控制目标列车维持现有车速的档位。

其中，在基于预设的强化学习模型，从多个预设控制操作中确定运行状态数据对应的目标控制操作时，具体可以将运行状态数据输入强化学习模型，获得强化学习模型为每个预设控制操作输出的预测价值；并基于贪心策略算法，根据多个预设控制操作各自的预测价值，从多个预设控制操作中确定目标控制操作。

具体实现时，参考图3，图3是本申请一实施例提出的确定目标控制操作的示意图。如图3所示，强化学习模型选用DQN(Deep Q-Networks)深度神经网络模型，强化学习模型包括预测值网络和目标值网络，预测值网络和目标值网络具有相同的网络结构，目标值网络的网络参数是从预测值网络出复制而来的。预测值网络用于接收运行状态向量s，并输出每个预设控制操作各自对应的预测价值Q，预测价值Q用于表征奖励值的累计。

在一些可能的实现方式中，为了确定出目标控制操作，如图3所示，可以将步骤S110中得到的运行状态向量s_t输入强化学习模型中的预测值网络，从而获得强化学习模型为每个预设控制操作各自输出的价值Q。然后根据多个预设控制操作各自对应的价值Q，基于贪心策略(ε-greedy)算法，从多个预设控制操作中确定出目标控制操作。

S130：根据运行状态数据包括的距离，确定目标控制操作的前一次控制操作对应的奖励值。

本申请中，由于目标控制操作的前一次控制操作的执行，使得目标列车与目标追踪列车之间的距离产生变化，因此运行状态数据包括的距离可以反映出前一次控制操作的好坏。如此，本申请可以根据运行状态数据包括的距离，确定出目标控制操作的前一次控制操作对应的奖励值。

本申请中，为了确定奖励值，还可以根据运行状态数据的上一份运行状态数据包括的上一个距离、运行状态数据包括的距离以及预设的距离控制区间，确定目标控制操作的前一次控制操作对应的奖励值。

其中，运行状态数据的上一份运行状态数据包括的上一个距离，也即是上一份运行状态数据包括的距离。本申请中，通过将运行状态数据包括的距离与上一份运行状态数据包括的距离等两者比较，或者通过将运行状态数据包括的距离、上一份运行状态数据包括的距离以及预设的距离控制区间等三者进行比较，从而可以反映出距离变化趋势，并可以反映该变化趋势与距离控制区间之间的关系，进而可以更合理地确定前一次控制操作对应的奖励值。

为简化说明，以下将本次获得的运行状态数据中的距离简称为当前距离，将上一份运行状态数据中的上一个距离简称为上一个距离。

在一些可能的实现方式中，在上一个距离位于距离控制区间之内，当前距离也位于距离控制区间之内的情况下，确定奖励值等于第一预设值。在上一个距离位于距离控制区间之内，当前距离位于距离控制区间之外的情况下，确定奖励值等于第二预设值，第二预设值小于第一预设值。在上一个距离位于距离控制区间之外，当前距离也位于距离控制区间之外，且当前距离相比于上一个距离更靠近距离控制区间的情况下，确定奖励值等于第三预设值，第三预设值小于第一预设值且大于第二预设值。

本申请中，按照上述实现方式确定奖励值，可以激励强化学习模型进一步优化，使得强化学习模型为各个预设控制操作输出的Q值更准确，从而在根据Q值选出目标控制操作，并根据目标控制操作控制目标列车时，使得目标列车与目标追踪列车的距离，更稳定地保持在距离控制区间之内。

其中，第一预设值可以是一个正值，第二预设值可以是一个负值。为便于理解，示例性地，将第一预设值设置为0.5，将第二预设值设置为-10，将第三预设值设置为0，将距离控制区间设置为[198,202]，单位为米。

如果上一个距离等于199.5米，当前距离等于200.4米。则由于上一个距离位于距离控制区间之内，当前距离也位于距离控制区间之内，因此确定奖励值等于0.5。

如果上一个距离等于199.5米，当前距离等于202.8米。则由于上一个距离位于距离控制区间之内，而当前距离位于距离控制区间之外，因此确定奖励值等于-10。

如果上一个距离等于199.5米，当前距离等于196.6米。则由于上一个距离位于距离控制区间之内，而当前距离位于距离控制区间之外，因此确定奖励值等于-10。

如果上一个距离等于197.1米，当前距离等于197.5米。则由于上一个距离位于距离控制区间之外，当前距离也位于距离控制区间之外，且当前距离相比于上一个距离更靠近距离控制区间，因此确定奖励值等于0。

在一些可能的实现方式中，在上一个距离位于距离控制区间之内，当前距离也位于距离控制区间之内，且当前距离相比于上一个距离更靠近预设目标距离的情况下，根据当前距离与预设目标距离之间的差值，确定奖励值。其中，预设目标距离是位于距离控制区间之内的数值，当前距离与预设目标距离之间的差值越小，奖励值越大。

本申请中，按照上述实现方式确定奖励值，可以优化距离误差，使得强化学习模型可以获得足够的正反馈从而进行优化学习。

其中，可以将预设目标距离设置成距离控制区间的区间中值，例如距离控制区间为[198,202]，则预设目标距离设置成200米。

示例性地，在上一个距离位于距离控制区间之内，当前距离也位于距离控制区间之内，且当前距离相比于上一个距离更靠近预设目标距离的情况下，可以根据以下公式计算奖励值：r＝c-|dr-de|，其中r表示奖励值，表示dr表示当前距离，de表示预设目标距离，||表示绝对值符号，c是一个预设正数，比如c可以设置为正数5。

S140：根据奖励值更新强化学习模型。

本申请中，可以根据步骤S130确定出的奖励值，进一步确定出损失值，从而利用损失值更新强化学习模型，使得强化学习模型在列车运行期间得到在线学习优化，使得强化学习模型在目标列车的后续控制期间，帮助目标列车将与目标追踪列车的距离更稳定地控制在距离控制区间之内。

参考图4，图4是本申请一实施例提出的在线更新强化学习模型的流程示意图。其中，强化学习模型包括预测值网络和目标值网络，预测值网络和目标值网络具有相同的网络结构。如图4所示，该在线更新方案包括以下步骤：

S410：获得预测值网络为目标控制操作的前一次控制操作输出的第一价值。本申请中，为了简化说明，将预测值网络输出的价值称为第一价值。

S420：将运行状态数据输入目标值网络，获得目标值网络为每个预设控制操作输出的第二价值，并从多个预设控制操作对应的多个第二价值中确定最大第二价值。本申请中，为了简化说明，将目标值网络输出的价值称为第二价值。

S430：根据运行状态数据包括的距离，确定目标控制操作的前一次控制操作对应的奖励值。

S440：根据奖励值、最大第二价值以及第一价值，确定第一损失值，并根据第一损失值更新强化学习模型。

本申请中，在目标列车运行期间，可以将上一份运行状态数据s_t-1、前一次控制操作a_t-1、根据当前的运行状态数据中的距离为前一次控制操作确定的奖励值r_t-1、以及当前的运行状态数据s_t作为一组训练数据，按照图4所示的方式，对强化学习模型进行在线更新优化。

需要说明的是，由于目标列车在运行期间，会周期性地获得运行状态数据，从而周期性地确定目标控制操作，并周期性地在线更新强化学习模型。因此在上一周期时，执行主体执行了如下操作步骤：

S010：获得了上一周期时的运行状态数据，即s_t-1。

S020：将s_t-1输入强化学习模型的预测值网络，使得预测值网络输出每个预设控制操作的第一价值；根据多个预设控制操作各自对应的第一价值，基于贪心策略算法，从多个预设控制操作中确定出上一周期的目标控制操作，即a_t-1；根据a_t-1控制目标列车。

S030：根据s_t-1包括的距离，确定a_t-2对应的奖励值，a_t-2是指a_t-1的前一次控制操作。

S040：根据a_t-2对应的奖励值，更新强化学习模型。

可见在上一周期中，执行主体通过将s_t-1输入强化学习模型的预测值网络，从而已经获得了预测值网络为多个预设控制操作输出的多个第一价值，其中包括a_t-1对应的第一价值。因此在当前周期中，为了继续对强化学习模型进行在线更新，在执行步骤S410时，可以直接从上一周期获得的多个第一价值中，直接获取a_t-1对应的第一价值。

还需要说明的是，步骤S110、S120、S410、S420、S430以及S440是在当前周期内执行主体需要执行的步骤。其中，步骤S410至S440用于在线更新强化学习模型，步骤S410至S440可以在步骤S110之后执行，也可以在步骤S120之后执行，本申请对此不做限定。而对于步骤S410、S420以及S430等三者，本申请不限定其相互之间的执行顺序。

参考图5，图5是本申请一实施例提出的更新强化学习模型的示意图。如图5所示，在对强化学习模型进行在线更新优化时，可以获得预测值网络为前一次控制操作输出的第一价值。具体地，将上一份运行状态数据s_t-1输入预测值网络，从而获得预测值网络为每个预设控制操作输出的第一价值，然后从中获取到前一次控制操作a_t-1的第一价值Q(s_t-1,a_t-1；θ_i)，其中θ_i表示预测值网络的网络参数。

如图5所示，将当前的运行状态数据s_t输入目标值网络，从而获得目标值网络为每个预设控制操作输出的第二价值，然后从多个第二价值中确定出最大第二价值maxQ(s_t,a_t；θ_i’)，其中θ_i’表示目标值网络的网络参数。

如图5所示，根据奖励值和最大第二价值maxQ(s_t,a_t；θ_i’)，计算出目标值y，具体的计算公式如下：

y＝r_t-1+γmaxQ(s_t,a_t；θ_i’)

其中，γ是预设折扣因子，γ是介于0到1之间的小数。r_t-1表示前一次控制操作对应的奖励值，r_t-1是步骤S430中确定出的奖励值，步骤S430的具体实施方式可参见步骤S130。

如图5所示，根据目标值y和第一价值Q(s_t-1,a_t-1；θ_i)，计算出用于更新预测值网络的损失值L(θ_i)，具体地计算公式如下，其中E表示均方差：

L(θ_i)＝E[(r_t-1+γmaxQ(s_t，a_t；θ_i’)-Q(s_t-1，a_t-1；θ_i))²]

如图5所示，在计算出损失值L(θ_i)之后，基于梯度下降法更新预测值网络的网络参数θ_i。此外本申请中，可以每隔一段时间(例如每隔10个周期)，将预测值网络最新训练到的网络参数复制给目标值网络。

参考图6，图6是本申请一实施例提出的线下训练强化学习模型的流程图。其中，线下训练是指在模拟的铁路运行环境中对强化学习模型进行训练，换言之，在非真实的铁路运行环境中对强化学习模型进行训练。本申请中，在强化学习模型完成线下训练后，将强化学习模型移植到目标列车上，在目标列车试运行或运行期间，按照S110和S120的方式，利用强化学习模型对列车运行进行控制。并按照S130和S140的方式，或者按照S410-S440的方式，继续对强化学习模型进行在线更新优化。

如图6所示，强化学习模型在部署至目标列车之前，其线下训练过程包括以下步骤：

S610：将模拟运行状态数据和模拟控制操作输入预先训练的环境模型中，获得环境模型预测的模拟奖励值和下一个模拟运行状态数据，模拟控制操作是多个预设控制操作中的一个。

S620：将模拟运行状态数据输入预测值网络，获得预测值网络为模拟控制操作输出的第一预测价值。

S630：将下一个模拟运行状态数据输入目标值网络，获得目标值网络为每个预设控制操作输出的第二预测价值，并从多个预设控制操作对应的多个第二预测价值中确定最大第二预测价值。

S640：根据模拟奖励值、最大第二预测价值以及第一预测价值，确定第二损失值，并根据第二损失值更新强化学习模型。

具体实现时，参考图7，图7是图6所示线下训练流程图对应的线下训练示意图。如图7所示，模拟运行状态数据中可以包括：列车位置、列车速度、与目标追踪列车之间的距离、预设目标距离(即期望跟踪距离)、当前时间信息、线路的限速信息、以及线路坡度等。

具体实现时，为了获得模拟运行状态数据，可以随机生成列车位置、列车速度、距离、预设目标距离、当前时间信息、线路的限速信息、线路坡度等运行状态数据，然后按照预设排序方式，对随机生成的这些运行状态数据进行排序，最后将排序结果作为模拟运行状态数据。

为了获得模拟控制操作，可以将随机生成的列车位置、列车速度以及距离等运行状态数据，输入强化学习模型的预测值网络，从而得到预测值网络为每个预设控制操作输出的第一价值。再根据多个预设控制操作各自对应的第一价值，基于贪心策略算法，从多个预设控制操作中确定出模拟控制操作。

在执行步骤S610时，如图7所示，将模拟运行状态数据和模拟控制操作输入环境模型，可以获得环境模型输出的模拟奖励值和下一个模拟运行状态数据，下一个模拟运行状态数据可以包括：列车位置、列车速度以及距离等运行状态数据。

如图7所示，可以将模拟运行状态数据中的列车位置、列车速度以及距离等作为样本状态S_t，将模拟控制操作作为样本动作A_t，将环境模型输出的模拟奖励值作为样本奖励值R_t，将环境模型输出的下一个模拟运行状态数据作为样本状态S_t+1，从而获得一个样本组(S_t,A_t,R_t,S_t+1)，接着可以采用经验回放的方式，把该样本组存放至经验池中。

在执行步骤S620至S640时，如图7所示，可以从经验池中获取到样本组(S_t,A_t,R_t,S_t+1)，然后将样本组中的模拟运行状态数据S_t输入强化学习模型中的预测值网络，从而获得预测值网络为每个预设控制操作分别输出的第一预测价值Q，多个第一预测价值Q中包括模拟控制操作A_t对应的第一预测价值Q(S_t,A_t；θ_i)。

如图7所示，将样本组中的下一个模拟运行状态数据S_t+1输入强化学习模型中的目标值网络，从而获得目标值网络为每个预设控制操作分别输出的第二预测价值Q。然后从多个预设控制操作的多个第二预测价值Q中，确定出最大第二预测价值maxQ(S_t+1，A_t+1；θ_i’)。接着根据最大第二预测价值和样本组中的模拟奖励值R_t计算目标值Y，具体计算公式如下：

Y＝R_t+γmaxQ(S_t+1，A_t+1；θ_i’)

其中，γ是预设折扣因子，γ是介于0到1之间的小数。

如图7所示，根据目标值Y和第一预测价值Q(S_t，A_t；θ_i)，计算出用于更新预测值网络的损失值L(θ_i)，具体地计算公式如下，其中E表示均方差：

L(θ_i)＝E[(R_t+γmaxQ(S_t+1，A_t+1；θ_i’)-Q(S_t，A_t；θ_i))²]

如图7所示，在计算出损失值L(θ_i)之后，基于梯度下降法更新预测值网络的网络参数θ_i。此外本申请中，可以每隔一段时间(例如每隔10个周期)，将预测值网络最新训练到的网络参数复制给目标值网络。

在一些可能的实施方式中，环境模型的网络结构可选用稀疏化卷积神经网络(Sparsity Invariant CNNs，SCNN)，环境模型可以按照如下方式训练得到：

第一步，根据列车的历史运行数据，构建列车运行状态的时间序列，时间序列包括多个在时间上连续的样本，多个样本可以分别表示为：

其中

代表在t时刻采集的如下数据：列车位置、列车速度、与前车之间的距离、预设目标距离(即期望跟踪距离)、当前时间信息、线路的限速信息、线路坡度、以及控制操作。此外，每个样本还携带有样本奖励值，每个样本的样本奖励值是根据下一样本中的距离确定出的，具体确定方式可参见步骤S130。

第二步，将针对每个样本，将该样本输入环境模型中，获得环境模型预测的奖励值和下一运行状态，其中下一运行状态包括：下一时刻的列车位置、下一时刻的列车速度、以及下一时刻的距离。然后将预测的奖励值与该样本携带的样本奖励值比较，以确定奖励值损失。接着将下一运行状态与下一时刻的样本进行比较，以确定状态损失值。最后根据奖励值损失和状态损失，确定总损失值，并根据总损失值更新环境模型的网络参数。

为便于理解上述第二步，示例性地，例如将

输入环境模型中，获得环境模型预测的奖励值R_p、下一时刻的列车位置、下一时刻的列车速度以及下一时刻的距离。然后根据奖励值R_p和

携带的样本奖励值，计算两者的差值，并对差值进行归一化处理，从而获得奖励值损失。

接着将下一时刻的列车位置、下一时刻的列车速度以及下一时刻的距离排列成数列，并将该数列作为第一向量。从

中读取出列车位置、列车速度以及距离，并将读取出的列车位置、列车速度以及距离排列成数列，以及将该数列作为第二向量。最后计算第一向量与第二向量之间的向量距离，并对向量距离进行归一化处理，从而获得状态损失。

最后根据奖励值损失、状态损失及其各自的权重，计算出总损失值。再采用随机梯度下降法结合批量梯度下降法的方式，根据总损失值更新环境模型的网络参数。

综上所述，本申请提供一种虚拟编组列车追踪控制方法，首先在非真实的铁路运行环境中，通过预先训练的环境模型和待训练的强化学习模型，生成多个样本组(S_t,A_t,R_t,S_t+1)，并将多个样本组存入存放至经验池中。然后从经验池中随机获取样本组，并利用获取的样本组训练强化学习模型。在强化学习模型训练完成后，将强化学习模型移植到目标列车上。

当目标列车与其他列车组建成虚拟编组，并且该虚拟编组在站台与站台之间运行时，通过获得目标列车的运行状态数据，并基于目标列车上部署的强化学习模型，从多个预设控制操作中确定该运行状态数据对应的目标控制操作，以及根据该目标控制操作实现对目标列车的控制，从而调节目标列车与目标追踪列车之间的距离。此外，根据运行状态数据包括的距离，确定目标控制操作的前一次控制操作对应的奖励值，再根据该奖励值，对强化学习模型进行在线更新优化。

参考图8，图8是本申请一实施例提出的虚拟编组列车追踪控制装置800的示意图。如图8所示，虚拟编组列车追踪控制装置800包括：

运行状态数据获得模块810，用于获得目标列车的运行状态数据，运行状态数据包括目标列车与目标追踪列车之间的距离，目标列车与目标追踪列车位于同一个虚拟编组中，在该虚拟编组中，目标追踪列车是行驶在目标列车前方且距离目标列车最近的列车；

列车控制模块820，用于基于预设的强化学习模型，从多个预设控制操作中确定运行状态数据对应的目标控制操作，并根据目标控制操作控制目标列车；

奖励值确定模块830，用于根据运行状态数据包括的距离，确定目标控制操作的前一次控制操作对应的奖励值；

模型更新模块840，用于根据奖励值更新强化学习模型。

在一些可能的实现方式中，奖励值确定模块830具体用于：根据运行状态数据的上一份运行状态数据包括的上一个距离、运行状态数据包括的距离以及预设的距离控制区间，确定目标控制操作的前一次控制操作对应的奖励值。

在一些可能的实现方式中，奖励值确定模块830具体用于：在上一个距离位于距离控制区间之内，当前的距离(即运行状态数据包括的距离)也位于距离控制区间之内的情况下，确定奖励值等于第一预设值；在上一个距离位于距离控制区间之内，当前的距离位于距离控制区间之外的情况下，确定奖励值等于第二预设值，第二预设值小于第一预设值；在上一个距离位于距离控制区间之外，当前的距离也位于距离控制区间之外，且当前的距离相比于上一个距离更靠近距离控制区间的情况下，确定奖励值等于第三预设值，第三预设值小于第一预设值且大于第二预设值。

在一些可能的实现方式中，奖励值确定模块830具体用于：在上一个距离位于距离控制区间之内，当前的距离也位于距离控制区间之内，且当前的距离相比于上一个距离更靠近预设目标距离的情况下，根据当前的距离与预设目标距离之间的差值，确定奖励值；其中，预设目标距离是位于距离控制区间之内的数值，当前的距离与预设目标距离之间的差值越小，奖励值越大。

在一些可能的实现方式中，多个预设控制操作为多个呈等差数列排列的控制档位，多个控制档位中包括用于控制目标列车加速的控制档位、用于控制目标列车减速的控制档位、以及用于控制目标列车维持现有车速的档位。

在一些可能的实现方式中，强化学习模型包括预测值网络和目标值网络，预测值网络和目标值网络具有相同的网络结构，模型更新模块840具体用于：获得预测值网络为目标控制操作的前一次控制操作输出的第一价值；将运行状态数据输入目标值网络，获得目标值网络为每个预设控制操作输出的第二价值，并从多个预设控制操作对应的多个第二价值中确定最大第二价值；根据奖励值、最大第二价值以及第一价值，确定第一损失值，并根据第一损失值更新强化学习模型。

在一些可能的实现方式中，强化学习模型在部署至目标列车之前，是通过以下方式训练得到的：将模拟运行状态数据和模拟控制操作输入预先训练的环境模型中，获得环境模型预测的模拟奖励值和下一个模拟运行状态数据，其中，模拟控制操作是多个预设控制操作中的一个；将模拟运行状态数据输入预测值网络，获得预测值网络为模拟控制操作输出的第一预测价值；将下一个模拟运行状态数据输入目标值网络，获得目标值网络为每个预设控制操作输出的第二预测价值，并从多个预设控制操作对应的多个第二预测价值中确定最大第二预测价值；根据模拟奖励值、最大第二预测价值以及第一预测价值，确定第二损失值，并根据第二损失值更新强化学习模型。

需要说明的是，所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述装置的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

请参阅图9，图9是本申请一实施例提供的电子设备的结构框图，该电子设备900包括处理器910以及存储器920以及一个或多个应用程序，其中一个或多个应用程序被存储在存储器920中并被配置为由一个或多个处理器910执行，一个或多个程序配置用于执行上述虚拟编组列车追踪控制方法。

本申请中的电子设备900可以包括一个或多个如下部件：处理器910、存储器920、以及一个或多个应用程序，其中一个或多个应用程序可以被存储在存储器920中并被配置为由一个或多个处理器910执行，一个或多个程序配置用于执行如前述方法实施例所描述的方法。

处理器910可以包括一个或者多个处理核。处理器910利用各种接口和线路连接整个电子设备900内的各个部分，通过运行或执行存储在存储器920内的指令、程序、代码集或指令集，以及调用存储在存储器920内的数据，执行电子设备900的各种功能和处理数据。可选地，处理器910可以采用数字信号处理(DigitalSignalProcessing，DSP)、现场可编程门阵列(Field－ProgrammableGateArray，FPGA)、可编程逻辑阵列(ProgrammableLogicArray，PLA)中的至少一种硬件形式来实现。处理器910可集成中央处理器(CentralProcessingUnit，CPU)、图像处理器(GraphicsProcessingUnit，GPU)和调制解调器等中的一种或几种的组合。其中，CPU主要处理操作系统、用户界面和应用程序等；GPU用于负责显示内容的渲染和绘制；调制解调器用于处理无线通信。可以理解的是，上述调制解调器也可以不集成到处理器910中，单独通过一块通信芯片进行实现。

存储器920可以包括随机存储器(RandomAccessMemory，RAM)，也可以包括只读存储器(Read-OnlyMemory)。存储器920可用于存储指令、程序、代码、代码集或指令集。存储器920可包括存储程序区和存储数据区，其中，存储程序区可存储用于实现操作系统的指令、用于实现至少一个功能的指令(比如触控功能、声音播放功能、图像播放功能等)、用于实现上述各个方法实施例的指令等。存储数据区还可以存储电子设备900在使用中所创建的数据等。

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

尽管已描述了本申请的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例作出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本申请范围的所有变更和修改。

显然，本领域的技术人员可以对本申请进行各种改动和变型而不脱离本申请的精神和范围。这样，倘若本申请的这些修改和变型属于本申请权利要求及其等同技术的范围之内，则本申请也意图包含这些改动和变型在内。

Claims

1.一种虚拟编组列车追踪控制方法，其特征在于，所述方法包括：

获得目标列车的运行状态数据，所述运行状态数据包括所述目标列车与目标追踪列车之间的距离，所述目标列车与所述目标追踪列车位于同一个虚拟编组中，在所述虚拟编组中，所述目标追踪列车是行驶在所述目标列车前方且距离所述目标列车最近的列车；

基于预设的强化学习模型，从多个预设控制操作中确定所述运行状态数据对应的目标控制操作，并根据所述目标控制操作控制所述目标列车；

根据所述运行状态数据包括的所述距离，确定所述目标控制操作的前一次控制操作对应的奖励值；

根据所述奖励值更新所述强化学习模型。

2.根据权利要求1所述的方法，其特征在于，所述根据所述运行状态数据包括的所述距离，确定所述目标控制操作的前一次控制操作对应的奖励值，包括：

根据所述运行状态数据的上一份运行状态数据包括的上一个距离、所述运行状态数据包括的所述距离以及预设的距离控制区间，确定所述目标控制操作的前一次控制操作对应的奖励值。

3.根据权利要求2所述的方法，其特征在于，所述根据所述运行状态数据的上一份运行状态数据包括的上一个距离、所述运行状态数据包括的所述距离以及预设的距离控制区间，确定所述目标控制操作的前一次控制操作对应的奖励值，包括：

在所述上一个距离位于所述距离控制区间之内，所述距离也位于所述距离控制区间之内的情况下，确定所述奖励值等于第一预设值；

在所述上一个距离位于所述距离控制区间之内，所述距离位于所述距离控制区间之外的情况下，确定所述奖励值等于第二预设值，所述第二预设值小于所述第一预设值；

在所述上一个距离位于所述距离控制区间之外，所述距离也位于所述距离控制区间之外，且所述距离相比于所述上一个距离更靠近所述距离控制区间的情况下，确定所述奖励值等于第三预设值，所述第三预设值小于所述第一预设值且大于所述第二预设值。

4.根据权利要求2所述的方法，其特征在于，所述根据所述运行状态数据的上一份运行状态数据包括的上一个距离、所述运行状态数据包括的所述距离以及预设的距离控制区间，确定所述目标控制操作的前一次控制操作对应的奖励值，包括：

在所述上一个距离位于所述距离控制区间之内，所述距离也位于所述距离控制区间之内，且所述距离相比于所述上一个距离更靠近预设目标距离的情况下，根据所述距离与所述预设目标距离之间的差值，确定所述奖励值；其中，所述预设目标距离是位于所述距离控制区间之内的数值，所述距离与所述预设目标距离之间的差值越小，所述奖励值越大。

5.根据权利要求1所述的方法，其特征在于，所述基于预设的强化学习模型，从多个预设控制操作中确定所述运行状态数据对应的目标控制操作，包括：

将所述运行状态数据输入所述强化学习模型，获得所述强化学习模型为每个预设控制操作输出的预测价值；

基于贪心策略算法，根据多个预设控制操作各自的预测价值，从多个预设控制操作中确定目标控制操作；

其中，所述多个预设控制操作为多个呈等差数列排列的控制档位，多个控制档位中包括用于控制所述目标列车加速的控制档位、用于控制所述目标列车减速的控制档位、以及用于控制所述目标列车维持现有车速的档位。

6.根据权利要求1所述的方法，其特征在于，所述强化学习模型包括预测值网络和目标值网络，所述预测值网络和所述目标值网络具有相同的网络结构；在根据所述奖励值更新所述强化学习模型之前，所述方法还包括：

获得所述预测值网络为所述目标控制操作的前一次控制操作输出的第一价值；

将所述运行状态数据输入所述目标值网络，获得所述目标值网络为每个预设控制操作输出的第二价值，并从多个预设控制操作对应的多个第二价值中确定最大第二价值；

所述根据所述奖励值更新所述强化学习模型，包括：

根据所述奖励值、所述最大第二价值以及所述第一价值，确定第一损失值，并根据所述第一损失值更新所述强化学习模型。

7.根据权利要求6所述的方法，其特征在于，所述强化学习模型在部署至所述目标列车之前，是通过以下方式训练得到的：

将模拟运行状态数据和模拟控制操作输入预先训练的环境模型中，获得所述环境模型预测的模拟奖励值和下一个模拟运行状态数据，所述模拟控制操作是所述多个预设控制操作中的一个；

将所述模拟运行状态数据输入所述预测值网络，获得所述预测值网络为所述模拟控制操作输出的第一预测价值；

将所述下一个模拟运行状态数据输入所述目标值网络，获得所述目标值网络为每个预设控制操作输出的第二预测价值，并从多个预设控制操作对应的多个第二预测价值中确定最大第二预测价值；

根据所述模拟奖励值、所述最大第二预测价值以及所述第一预测价值，确定第二损失值，并根据所述第二损失值更新所述强化学习模型。

8.根据权利要求1至7任一所述的方法，其特征在于，在所述获得目标列车的运行状态数据之前，所述方法还包括：

根据所述目标列车的牵引力，确定所述目标列车是否进入巡航状态；

所述获得目标列车的运行状态数据，包括：

在所述目标列车进入所述巡航状态的情况下，获得所述目标列车的运行状态数据。

9.一种虚拟编组列车追踪控制装置，其特征在于，所述装置包括：

运行状态数据获得模块，用于获得目标列车的运行状态数据，所述运行状态数据包括所述目标列车与目标追踪列车之间的距离，所述目标列车与所述目标追踪列车位于同一个虚拟编组中，在所述虚拟编组中，所述目标追踪列车是行驶在所述目标列车前方且距离所述目标列车最近的列车；

列车控制模块，用于基于预设的强化学习模型，从多个预设控制操作中确定所述运行状态数据对应的目标控制操作，并根据所述目标控制操作控制所述目标列车；

奖励值确定模块，用于根据所述运行状态数据包括的所述距离，确定所述目标控制操作的前一次控制操作对应的奖励值；

模型更新模块，用于根据所述奖励值更新所述强化学习模型。

10.一种电子设备，其特征在于，所述电子设备包括：处理器、存储器以及总线，所述存储器存储有所述处理器可执行的机器可读指令，当所述电子设备运行时，所述处理器与所述存储器之间通过所述总线通信，所述机器可读指令被所述处理器执行时执行如权利要求1至8任一项所述的方法。

11.一种存储介质，其特征在于，所述存储介质上存储有计算机程序，所述计算机程序被处理器运行时执行如权利要求1至8任一项所述的方法。