CN116001863A

CN116001863A - 货运列车运行控制方法、装置、电子设备及存储介质

Info

Publication number: CN116001863A
Application number: CN202211652028.4A
Authority: CN
Inventors: 陈斌; 李申; 宋亚京; 张蕾
Original assignee: Traffic Control Technology TCT Co Ltd
Current assignee: Traffic Control Technology TCT Co Ltd
Priority date: 2022-12-21
Filing date: 2022-12-21
Publication date: 2023-04-25

Abstract

本发明提供一种货运列车运行控制方法、装置、电子设备及存储介质，涉及轨道交通技术领域，所述方法包括：对货运列车运行的初始状态进行编码处理，获取与初始状态相对应的特征编码；将特征编码输入强化学习模型，获取强化学习模型输出的目标控制级位；基于目标控制级位控制货运列车运行；其中，强化学习模型是以最小化货运列车的运行能耗和车钩力为目标构建的。本发明通过基于强化学习模型获取目标控制级位来控制货运列车运行，由于强化学习模型是以最小化货运列车的运行能耗和车钩力为目标构建的，则由强化学习模型得到的目标控制级位可以保证货运列车在运行安全的前提下降低货运列车的运行能耗，并提高货运列车的运输效率。

Description

货运列车运行控制方法、装置、电子设备及存储介质

技术领域

本发明涉及轨道交通技术领域，尤其涉及一种货运列车运行控制方法、装置、电子设备及存储介质。

背景技术

货运列车作为货运铁路的承运工具，其安全和高效地运行是关乎货运铁路运输效能的重要因素。

目前货运列车运行依靠人工驾驶，但由于货运列车编组多、长度大，并且牵引制动响应时间长，故驾驶操作难度大，对货运列车驾驶员的驾驶操作技术要求较高，而且货运列车驾驶员频繁操作导致能耗和设备损耗严重。同时，复杂的线路条件也对货运列车的运输效率产生了一定的影响。

因此，如何在保证货运列车运行安全的前提下提高货运列车的运输效率，降低运行能耗，成为业界亟需解决的问题。

发明内容

针对现有技术存在的问题，本发明提供一种货运列车运行控制方法、装置、电子设备及存储介质。

第一方面，本发明提供一种货运列车运行控制方法，包括：

对货运列车运行的初始状态进行编码处理，获取与所述初始状态相对应的特征编码；

将所述特征编码输入强化学习模型，获取所述强化学习模型输出的目标控制级位；

基于所述目标控制级位控制所述货运列车运行；

其中，所述强化学习模型是以最小化所述货运列车的运行能耗和车钩力为目标构建的。

可选地，根据本发明提供的一种货运列车运行控制方法，在所述对货运列车运行的初始状态进行编码处理，获取与所述初始状态相对应的特征编码之前，所述方法还包括：

确定所述货运列车运行的初始状态，所述初始状态包括所述货运列车的初始运行速度和初始位置。

可选地，根据本发明提供的一种货运列车运行控制方法，所述对货运列车运行的初始状态进行编码处理，获取与所述初始状态相对应的特征编码，包括：

对所述货运列车的初始运行速度和初始位置进行网格离散化，获取多个瓦片；

基于瓦片编码方法分别对各瓦片进行编码，获取与各瓦片分别对应的编码数据；

基于多个所述编码数据，生成与所述初始运行速度和初始位置相对应的特征编码。

可选地，根据本发明提供的一种货运列车运行控制方法，所述强化学习模型是由携带有经验回放的卷积神经网络构建的。

可选地，根据本发明提供的一种货运列车运行控制方法，所述强化学习模型包括训练网络、目标网络和经验回放池；所述训练网络和所述目标网络均是基于相同结构的所述卷积神经网络构建的；

所述强化学习模型的求解过程包括：

基于所述货运列车的运行状态，通过所述训练网络、所述目标网络和所述经验回放池至少执行一次智能体与环境的交互过程；

在所述智能体与环境交互的回合数达到预设的最大回合数的情况下，获取所述强化学习模型输出的目标控制级位。

可选地，根据本发明提供的一种货运列车运行控制方法，一次所述智能体与环境的交互过程包括：

基于所述货运列车的运行状态，初始化所述强化学习模型的初始状态，利用ε-greedy算法获取与所述强化学习模型的初始状态相对应的动作，所述动作用于表征所述强化学习模型在当前状态下输出的控制级位；

执行所述动作，获取所述强化学习模型的初始状态的下一个状态，以及与所述下一个状态相对应的收益，所述收益用于表征所述货运列车的运行能耗和车钩力；

将所述初始状态对应的特征编码、所述动作、所述下一个状态对应的收益，以及所述下一个状态对应的特征编码进行组合后存储至所述经验回放池中；

从所述经验回放池中随机采样预设数目个目标样本，基于所述目标样本和均方差损失函数更新所述训练网络的网络参数，并间隔预设网络参数更新周期，基于所述训练网络的网络参数更新所述目标网络的网络参数。

可选地，根据本发明提供的一种货运列车运行控制方法，所述基于所述目标控制级位控制所述货运列车运行，包括：

基于所述目标控制级位，控制列车执行器系统输出与所述目标控制级位相对应的目标牵引制动等级；

基于所述目标牵引制动等级，对所述货运列车的运行速度与位置进行控制。

第二方面，本发明还提供一种货运列车运行控制装置，包括：

编码模块，用于对货运列车运行的初始状态进行编码处理，获取与所述初始状态相对应的特征编码；

获取模块，用于将所述特征编码输入强化学习模型，获取所述强化学习模型输出的目标控制级位；

控制模块，用于基于所述目标控制级位控制所述货运列车运行；

第三方面，本发明还提供一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如第一方面所述货运列车运行控制方法。

第四方面，本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现如第一方面所述货运列车运行控制方法。

第五方面，本发明还提供一种计算机程序产品，包括计算机程序，所述计算机程序被处理器执行时实现如第一方面所述货运列车运行控制方法。

本发明提供的货运列车运行控制方法、装置、电子设备及存储介质，通过对货运列车运行的初始状态进行编码，将编码后得到的特征编码输入强化学习模型获取目标控制级位，进而基于目标控制级位控制货运列车运行，由于强化学习模型是以最小化货运列车的运行能耗和车钩力为目标构建的，则由强化学习模型得到的目标控制级位可以保证货运列车在运行安全的前提下降低货运列车的运行能耗，并提高货运列车的运输效率。

附图说明

为了更清楚地说明本发明或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明提供的货运列车运行控制方法的流程示意图；

图2是本发明提供的瓦片编码的示意图；

图3是本发明提供的卷积神经网络的结构示意图；

图4是本发明提供的货运列车运行控制强化学习模型的架构示意图之一；

图5是本发明提供的货运列车运行控制强化学习模型的架构示意图之二；

图6是本发明提供的货运列车运行控制装置的结构示意图；

图7是本发明提供的电子设备的实体结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合本发明中的附图，对本发明中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

为了便于更加清晰地理解本发明各实施例，首先对一些相关的背景知识进行如下介绍。

与客运列车相比，货运列车编组多、长度大，并且牵引制动响应时间长，故驾驶操作难度大，对货运列车驾驶员的驾驶操作技术要求较高。具体来讲，货运列车驾驶员操作一致性和列车平稳性难以保障，可能导致货运列车纵向冲动大、非正常停车、超速甚至断钩等现象的发生；货运列车驾驶员频繁操作导致能耗和设备损耗严重；为提高货运运输效率，货运列车驾驶员往往驾驶时间长，增加了货运列车驾驶员的劳动强度，可能会导致行车效率的降低；而在陌生路段，多数货运列车驾驶员为了安全考虑而采用低速慢行的驾驶策略，一定程度降低了运输效率。此外，培养货运列车驾驶员困难，增加人员成本。因此，亟需采用一种新技术解决当前货运列车运行控制所面临的相关问题。

在其他制式轨道交通中，城市轨道交通已经实现了全自动驾驶等无人驾驶技术，高速铁路也在进行列车自动驾驶技术的试验。目前列车自动驾驶技术在城市轨道交通领域已经非常成熟，但是应用于货运列车运行控制方面还存在着以下不可避免的安全风险问题：

(1)货运铁路线路坡度变化大，特别是在长下坡阶段，对货运列车制动系统的级位转换要求较高，否则容易造成货运列车速度过快，甚至断钩等危险情况的发生；

(2)与普通列车相比，货运列车操纵难度大，更容易造成冲动，野蛮操纵更可能会造成货运列车分离或脱线，给退牵引力和电制力要求缓慢逐级进行，电制力使用不能过大，空气制动减压量不能过大，现有的列车自动运行系统(Automatic Train Operation，ATO)控车算法无法很好地满足货运列车运行控制的上述约束条件；

(3)现有的ATO控车算法无法满足货运列车运行控制的约束条件要求，且无法学习优秀的列车驾驶员经验，而对于货运列车而言，优秀的货运列车驾驶员的驾驶经验十分宝贵，能够在保证货运列车运行安全的前提下提高货运列车的运输效率。

此外，在轨道交通领域，现有的基于深度强化学习的列车运行优化控制方法无法满足货运铁路线路长下坡等运行环境的约束要求，而本发明通过结合货运列车特有的运行特性与运行线路条件，基于深度强化学习进行货运列车的控制级位优化，可以保证货运列车在运行安全的前提下降低货运列车的运行能耗，并提高货运列车的运输效率。

下面结合附图对本发明提供的货运列车运行控制方法、装置、电子设备及存储介质进行示例性的介绍。

图1是本发明提供的货运列车运行控制方法的流程示意图，如图1所示，该方法包括：

步骤100，对货运列车运行的初始状态进行编码处理，获取与所述初始状态相对应的特征编码；

步骤110，将所述特征编码输入强化学习模型，获取所述强化学习模型输出的目标控制级位；

步骤120，基于所述目标控制级位控制所述货运列车运行；

具体地，在本发明实施例中，为了克服现有的列车运行控制方法无法满足货运铁路线路长下坡等复杂线路运行环境的约束要求，从而无法保证货运列车以低能耗进行安全运行的缺陷，本发明通过对货运列车运行的初始状态进行编码，将编码后得到的特征编码输入强化学习模型获取目标控制级位，进而基于目标控制级位控制货运列车运行，由于强化学习模型是以最小化货运列车的运行能耗和车钩力为目标构建的，则由强化学习模型得到的目标控制级位可以保证货运列车在运行安全的前提下降低货运列车的运行能耗，并提高货运列车的运输效率。

可选地，可以先对货运列车运行的初始状态进行编码处理，获取与初始状态相对应的特征编码，然后将特征编码输入强化学习模型，获取强化学习模型输出的目标控制级位，进而基于目标控制级位控制货运列车运行。

可选地，在本发明实施例中，可以将ATO子系统作为强化学习模型架构中的智能体Agent，将列车ATO子系统输出的控制级位作为强化学习中智能体的动作Action。

可以理解的是，强化学习中的环境Environment需要对智能体的输出与状态转移之间建立准确的关系，在本发明实施例中，强化学习中的环境可以旨在描述控制级位与货运列车运行速度及位置之间的关系，即在控制级位为自变量前提下，构建准确的列车运行动力学模型。

可选地，在本发明实施例中，可以以货运列车的运行速度与位置表征货运列车的运行状态，则将货运列车的速度与位置定义为强化学习中环境返回智能体的状态State。

可以理解的是，智能体在状态s下采取动作a，则称之为当前智能体的策略Strategy，记作π，而策略又分为两种：随机性策略(Stochastic Policy)和决定性策略(Deterministic Policy)，分别如下所示：

π(a|s)＝P(a_k＝a|s_k＝s)

其中，P(a_k＝a|s_k＝s)表示在强化学习中，状态s_k＝s下，智能体输出动作a_k＝a的概率。

可选地，在本发明实施例中，将货运列车的运行能耗及货运列车车钩力作为强化学习的收益Reward元素，则以最小化货运列车的运行能耗和车钩力为目标构建强化学习模型。

可以理解的是，通过基于以最小化货运列车的运行能耗和车钩力为目标构建的强化学习模型对货运列车控制级位进行控制优化，可以保证货运列车的运行安全，并降低货运列车的运行能耗，同时通过强化学习模型输出的目标控制级位自动控制货运列车运行，可以提高货运列车的运输效率。

本发明提供的货运列车运行控制方法，通过对货运列车运行的初始状态进行编码，将编码后得到的特征编码输入强化学习模型获取目标控制级位，进而基于目标控制级位控制货运列车运行，由于强化学习模型是以最小化货运列车的运行能耗和车钩力为目标构建的，则由强化学习模型得到的目标控制级位可以保证货运列车在运行安全的前提下降低货运列车的运行能耗，并提高货运列车的运输效率。

可选地，在所述对货运列车运行的初始状态进行编码处理，获取与所述初始状态相对应的特征编码之前，所述方法还包括：

具体地，在本发明实施例中，在对货运列车运行的初始状态进行编码处理，获取与初始状态相对应的特征编码之前，可以确定货运列车运行的初始状态，该初始状态包括货运列车的初始运行速度和初始位置。

可以理解的是，在本发明实施例中，以货运列车的运行速度和位置作为强化学习状态，进而实现通过强化学习模型获得控制货运列车运行的控制级位。

可选地，可以先对货运列车的初始运行速度和初始位置进行编码处理，获取与初始运行速度和初始位置相对应的特征编码，然后将特征编码输入强化学习模型，获取强化学习模型输出的目标控制级位，进而基于目标控制级位控制货运列车运行。

本发明提供的货运列车运行控制方法，通过将货运列车的运行速度和位置作为强化学习状态，便于实现通过强化学习模型获得控制货运列车运行的控制级位，并且由于强化学习模型是以最小化货运列车的运行能耗和车钩力为目标构建的，则由强化学习模型得到的目标控制级位可以保证货运列车在运行安全的前提下降低货运列车的运行能耗，并提高货运列车的运输效率。

可选地，所述对货运列车运行的初始状态进行编码处理，获取与所述初始状态相对应的特征编码，包括：

具体地，在本发明实施例中，对货运列车运行的初始状态进行编码处理，获取与初始状态相对应的特征编码，可以包括如下步骤：

步骤1、对货运列车的初始运行速度和初始位置进行网格离散化，获取多个瓦片，获取多个瓦片；

步骤2、基于瓦片编码方法分别对各瓦片进行编码，获取与各瓦片分别对应的编码数据；

步骤3、基于多个编码数据，生成与货运列车的初始运行速度和初始位置相对应的特征编码。

可以理解的是，瓦片编码(tile-coding)是多维连续空间的一种粗编码形式。在tile-coding中，特征的感受野(Receptive fields)被分组到输入空间的详尽分区中，每一个分区称为一个tiling，tiling中的元素称为一个tile，每个tile都是一个二元特征的感受野。

以二维状态空间为例，进行tile-coding编码时，最简单的tiling是一个均匀的网格形式。图2是本发明提供的瓦片编码的示意图，如图2所示，图中左边网格的阴影区域为二维状态空间，点A代表了其中一个状态点，4×4网格是一个tiling，其中每一个小方格是一个tile，则点A可以由该tiling的唯一的一个tile进行粗编码。为了提高编码精度，需要增加tiling，如图2右边网格所示，在此例中，一共有三个tiling，三个tiling两两之间不重合，存在着一定的偏移量，点A在三个tiling中分别对应唯一的一个tile，可以用三个tiling中特定的tile进行编码，这样可以提高编码的精度。在tile-coding中，tiling的个数越多，编码的精度越高。

可选地，在本发明实施例中，假设一共有N_t个tiling用来进行tile-coding，

为强化学习状态的特征向量，则有：

其中，

代表第iN_t个tiling中，状态s对应的特征编码，在第iN_t个tiling中，需要对二维状态空间进行网格化离散，可以定义N_p为状态中位置分量p离散后的个数，Δp为每一个tile对应的运行位置差，N_v为状态中速度分量v离散后的个数，Δv为每一个tile对应的运行速度差，则该tiling中一共有N_p×N_v个tile，从而

的定义如下：

并且，N_p、Δp、N_v和Δv之间存在以下约束：

其中，P为列车运行线路的最远距离，V_max是列车运行的最大速度。

对所有的tiling，两两tiling之间存在着一个偏移量offset，并且此偏移量offset需要具有独立性，这样才能保证特征向量的准确性。在本发明中，offset在每个tiling的两个维度(位置和速度)上的取值分别需要从区间(0,Δp)和(0,Δv)中进行随机取值，则N_t个tiling的offset取值计算如下：

本发明提供的货运列车运行控制方法，通过基于瓦片编码方法对货运列车的初始运行速度和初始位置进行编码，便于后续以货运列车的运行速度和位置为强化学习状态，实现通过强化学习模型获得控制货运列车运行的控制级位，并且由于强化学习模型是以最小化货运列车的运行能耗和车钩力为目标构建的，则由强化学习模型得到的目标控制级位可以保证货运列车在运行安全的前提下降低货运列车的运行能耗，并提高货运列车的运输效率。

可选地，所述强化学习模型是由携带有经验回放的卷积神经网络构建的。

具体地，在本发明实施例中，可以基于携带有经验回放的卷积神经网络构建强化学习模型，以利用卷积神经网络对货运列车的运行速度和位置对应的特征编码进行处理。

可以理解的是，在对货运列车的初始运行速度v和位置p进行编码之后，采用卷积神经网络的形式对价值函数进行近似表示。将状态(v，p)的编码类比于图像的像素编码，采用卷积神经网络进行处理。图3是本发明提供的卷积神经网络的结构示意图，如图3所示，该卷积神经网络的中间层总共有5层。

可以理解的是，在强化学习过程中，智能体将与环境的交互信息，即经验存储在回放缓冲池中，然后均匀地随机选择部分经验进行回放以更新控制策略。不同于在线强化学习智能体在一次更新后立即丢弃传入的数据，经验回放方法允许智能体从以前版本的策略生成的数据中学习，使一个经验可以被用于不止一次的更新，从而打破了时间相关性的限制，在使用基于独立同分布假设的随机梯度下降算法训练神经网络函数逼近时特别有用。

本发明提供的货运列车运行控制方法，通过基于携带有经验回放的卷积神经网络构建强化学习模型，从而可以基于卷积神经网络对货运列车的运行速度和位置对应的特征编码进行处理，实现利用深度强化学习进行控制级位优化。

可选地，所述强化学习模型包括训练网络、目标网络和经验回放池；所述训练网络和所述目标网络均是基于相同结构的所述卷积神经网络构建的；

所述强化学习模型的求解过程包括：

具体地，在本发明实施例中，强化学习模型可以包括训练网络、目标网络和经验回放池，其中训练网络和目标网络均是基于相同结构的卷积神经网络构建的，强化学习模型的求解过程包括：基于货运列车的运行状态，通过训练网络、目标网络和经验回放池至少执行一次智能体与环境的交互过程，并在在智能体与环境交互的回合数达到预设的最大回合数的情况下，获取强化学习模型输出的目标控制级位。

可选地，预设的最大回合数可以为10次、20次或50次等，本发明实施例对此不作具体限定。

可选地，所述一次所述智能体与环境的交互过程包括：

具体地，在本发明实施例中，每一次智能体与环境的交互过程可以包括如下步骤：

步骤1：基于货运列车的运行状态，初始化强化学习模型的初始状态，利用ε-greedy(贪婪算法)算法获取与强化学习模型的初始状态相对应的动作，该动作用于表征强化学习模型在当前状态下输出的控制级位；

可选地，货运列车的运行状态可以包括货运列车的运行速度与位置。

步骤2：执行步骤1得到的动作，获取强化学习模型的初始状态的下一个状态，以及与下一个状态相对应的收益，该收益用于表征货运列车的运行能耗和车钩力；

步骤3：将初始状态对应的特征编码、动作、下一个状态对应的收益，以及下一个状态对应的特征编码进行组合后存储至经验回放池中；

步骤4：从经验回放池中随机采样预设数目个目标样本，基于目标样本和均方差损失函数更新训练网络的网络参数，并间隔预设网络参数更新周期，基于训练网络的网络参数更新目标网络的网络参数。

可选地，在本发明实施例中，可以基于目标样本和均方差损失函数，并通过神经网络的梯度反向传播更新训练网络的所有网络参数。

本发明提供的货运列车运行控制方法，通过基于经验回放机制和卷积神经网络构建强化学习模型，进而基于强化学习模型的智能体与环境的交互，实现利用深度强化学习进行控制级位优化，最终得到优化的目标控制级位，该目标控制级位可以保证货运列车在运行安全的前提下降低货运列车的运行能耗，并提高货运列车的运输效率。

可选地，所述基于所述目标控制级位控制所述货运列车运行，包括：

具体地，在本发明实施例中，在获取到强化学习模型输出的目标控制级位之后，可以基于该目标控制级位，控制列车执行器系统输出与该目标控制级位相对应的目标牵引制动等级，进而基于该目标牵引制动等级，对货运列车的运行速度与位置进行控制。

本发明提供的货运列车运行控制方法，通过基于强化学习模型输出的目标控制级位控制列车执行器系统输出与该目标控制级位相对应的目标牵引制动等级，进而基于该目标牵引制动等级对货运列车的运行速度与位置进行控制，由于强化学习模型是以最小化货运列车的运行能耗和车钩力为目标构建的，则由强化学习模型得到的目标控制级位控制列车执行器系统输出的牵引制动等级，可以保证货运列车在运行安全的前提下降低货运列车的运行能耗，并提高货运列车的运输效率。

图4是本发明提供的货运列车运行控制强化学习模型的架构示意图之一，如图4所示，其中：

智能体：作为列车运行控制级位的输出机构，ATO子系统在强化学习架构中扮演着智能体的角色，其通过改变列车执行器系统输出的牵引制动等级，从而控制着列车运行的速度与位置。

环境：强化学习中的环境需要对智能体的输出与状态转移之间建立准确的关系。在本发明中，环境目的旨在描述列车执行器系统输出的牵引制动等级与列车运行的速度及距离之间的关系，即在控制级位为自变量前提下，构建准确的列车运行动力学模型。在强化学习第k步，列车的运行速度和位置分别为v_k和p_k，时间点为t_k。通过列车牵引制动特性曲线，获取当前速度下牵引力f_k或者制动力b_k，根据列车的动力学模型，则在强化学习第(k+1)步，时间点为t_k+1，列车的速度与位置更新计算过程如下：

在t_k～t_k+1之间，可以认为列车做匀加速运动，其加速度为：

则在t_k+1时刻，列车的速度与位置分别是：

其中，f是列车牵引传动系统输出的牵引力，v是列车运行速度，b为列车制动力，R(v)是列车基本运行阻力，其大小与速度大小相关，G(p)是由于线路轨道存在坡道引起的附加坡道阻力，与当前位置的坡度相关。M为列车运行质量，τ是列车回转质量系数，其大小由列车的总质量以及回转部分的折算质量共同决定，p是列车运行的距离，在本发明实施例中将列车运行的距离与列车的位置等同看待，R(v)与G(p)计算方式如下：

R(v)＝r₀+r₁v+r₂v²

G(p)＝Mgsin(θ(p))

其中，r₀、r₁与r₂是基本阻力系数，g为重力加速度，θ(p)是在p位置处的道路坡度，单位为弧度。

状态：列车的运行速度与位置是表征列车运行状态的两个重要的特征，本发明实施例将列车的运行速度与位置定义为强化学习中环境返回智能体的状态。同时，列车的运行速度与位置均需要在特定的限制区间内，速度不能超过当前线路的限制速度，位置范围处在整个运行线路内。从而，在强化学习第k步的时间点为t_k，智能体从环境中获取的状态如下：

其中，

是在位置p_k处列车允许运行的速度区间，P为列车运行位置最大值。

动作：列车ATO子系统通过输出控制级位，控制列车执行器系统输出不同的控制牵引制动等级，从而对列车运行的速度与位置进行控制，将列车ATO子系统输出的控制级位作为强化学习中智能体的动作。在强化学习中，状态s_k下，智能体输出动作a_k，输出动作必须属于列车执行器系统的控制级位，且与上一个动作a_k-1之间的级位距离符合列车执行器系统的约束。

a_k∈{M_i|M_i∈,M_min,M_max],ΔM_k＝(a_k-a_k-1)∈,ΔM_min,ΔM_max]}

其中，M_i为列车执行器系统输出的级位，M_min为最小控制级位，M_max为最大控制级位，ΔM_min为允许的执行器输出级位变化最小值，ΔM_max为允许的执行器输出级位变化最大值。

策略：智能体在状态s下采取动作a，则称之为当前智能体的策略，记作π，而策略又分为两种：随机性策略(Stochastic Policy)和决定性策略(Deterministic Policy)，分别如下所示：

π(a|s)＝P(a_k＝a|s_k＝s)

收益：本发明实施例将货运列车的运行能耗及货运列车车钩力作为强化学习的收益元素。在智能体通过动作a_k使得状态从s_k转移到s_k+1时，智能体将会收到一个收益r_k+1，此时时间点从t_k增加到t_k+1。

由上述公式可看出，收益由两部分组成，第一部分是运行能耗的负数、第二部分是最大车钩力的负数。ω_e与ω_c分别是运行能耗与车钩力的系数。η_f是列车牵引系统牵引时电能转化为机械能的效率，

是货运列车的所有相邻车厢之间的车钩力，

是车钩力的最大值。

图5是本发明提供的货运列车运行控制强化学习模型的架构示意图之二，如图5所示，该货运列车运行控制强化学习模型的模型求解过程的求解流程包括如下步骤：

步骤1：初始化经验回放集合D、随机初始化网络参数ω，并利用其初始化动作值函数q，令ω^-＝ω，并利用其初始化目标动作值函数

步骤2：当回合数episode小于最大回合数EPISODE时，循环步骤3～步骤4；

步骤3：初始化环境，得到初始状态，并对初始状态进行编码，得到特征编码；

步骤4：当迭代次数小于每回合最大迭代次数ITERATION时，循环步骤5～步骤12；

步骤5：利用ε-greedy算法获取当前智能体输出动作a_t；

步骤6：执行动作a_t，获取收益r_t+1和状态s_t+1；

步骤7：对状态s_t+1进行编码得到

步骤8：将

存储到经验回放集合D中；

步骤9：从D中随机采样BATCH个样本

步骤10：计算

其中，终止状态表征列车运行到了终点；

步骤11：利用均方差损失函数

通过神经网络的梯度反向传播来更新网络的所有参数ω；

步骤12：每C步更新一次目标网络参数ω^-←ω，其中C为预设参数；

步骤13：循环结束，得到最优解序列A＝[a₁,a₂,...,a_n]，即为目标控制级位。

可以理解的是，本发明实施例根据货运列车动力学模型构建货运列车运行能耗与安全模型，设计了基于深度Q网络的货运列车运行控制算法，以货运列车的运行速度与位置作为强化学习状态，以能耗最低与运行安全为目标，优化货运列车运行控制输出级位，在保证货运列车运行安全的前提下降低运行能耗。

可以理解的是，本发明实施例提供的货运列车运行控制方法，通过对货运列车运行速度与位置进行编码，采用卷积神经网络对编码进行处理，结合货运列车运行线路条件，利用深度强化学习进行控制级位优化，最终输出货运列车最优控制级位。

下面对本发明提供的货运列车运行控制装置进行描述，下文描述的货运列车运行控制装置与上文描述的货运列车运行控制方法可相互对应参照。

图6是本发明提供的货运列车运行控制装置的结构示意图，如图6所示，该装置包括：编码模块610、获取模块620和控制模块630；其中：

编码模块610用于对货运列车运行的初始状态进行编码处理，获取与所述初始状态相对应的特征编码；

获取模块620用于将所述特征编码输入强化学习模型，获取所述强化学习模型输出的目标控制级位；

控制模块630用于基于所述目标控制级位控制所述货运列车运行；

本发明提供的货运列车运行控制装置，通过对货运列车运行的初始状态进行编码，将编码后得到的特征编码输入强化学习模型获取目标控制级位，进而基于目标控制级位控制货运列车运行，由于强化学习模型是以最小化货运列车的运行能耗和车钩力为目标构建的，则由强化学习模型得到的目标控制级位可以保证货运列车在运行安全的前提下降低货运列车的运行能耗，并提高货运列车的运输效率。

可选地，所述装置还包括确定模块；

所述确定模块用于确定所述货运列车运行的初始状态，所述初始状态包括所述货运列车的初始运行速度和初始位置。

可选地，所述编码模块610具体用于：

所述强化学习模型包括训练网络、目标网络和经验回放池；所述训练网络和所述目标网络均是基于相同结构的所述卷积神经网络构建的；

所述强化学习模型的求解过程包括：

可选地，一次所述智能体与环境的交互过程包括：

可选地，所述控制模块630具体用于：

在此需要说明的是，本发明实施例提供的上述货运列车运行控制装置，能够实现上述货运列车运行控制方法实施例所实现的所有方法步骤，且能够达到相同的技术效果，在此不再对本实施例中与方法实施例相同的部分及有益效果进行具体赘述。

图7是本发明提供的电子设备的实体结构示意图，如图7所示，该电子设备可以包括：处理器(processor)710、通信接口(Communications Interface)720、存储器(memory)730和通信总线740，其中，处理器710，通信接口720，存储器730通过通信总线740完成相互间的通信。处理器710可以调用存储器730中的逻辑指令，以执行上述各方法所提供的货运列车运行控制方法，该方法包括：

基于所述目标控制级位控制所述货运列车运行；

此外，上述的存储器730中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

另一方面，本发明还提供一种计算机程序产品，所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序，所述计算机程序包括程序指令，当所述程序指令被计算机执行时，计算机能够执行上述各方法所提供的货运列车运行控制方法，该方法包括：

基于所述目标控制级位控制所述货运列车运行；

又一方面，本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现以执行上述各提供的货运列车运行控制方法，该方法包括：

基于所述目标控制级位控制所述货运列车运行；

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种货运列车运行控制方法，其特征在于，包括：

基于所述目标控制级位控制所述货运列车运行；

2.根据权利要求1所述的货运列车运行控制方法，其特征在于，在所述对货运列车运行的初始状态进行编码处理，获取与所述初始状态相对应的特征编码之前，所述方法还包括：

3.根据权利要求2所述的货运列车运行控制方法，其特征在于，所述对货运列车运行的初始状态进行编码处理，获取与所述初始状态相对应的特征编码，包括：

4.根据权利要求1所述的货运列车运行控制方法，其特征在于，所述强化学习模型是由携带有经验回放的卷积神经网络构建的。

5.根据权利要求4所述的货运列车运行控制方法，其特征在于，所述强化学习模型包括训练网络、目标网络和经验回放池；所述训练网络和所述目标网络均是基于相同结构的所述卷积神经网络构建的；

所述强化学习模型的求解过程包括：

6.根据权利要求5所述的货运列车运行控制方法，其特征在于，一次所述智能体与环境的交互过程包括：

7.根据权利要求1-6任一项所述的货运列车运行控制方法，其特征在于，所述基于所述目标控制级位控制所述货运列车运行，包括：

8.一种货运列车运行控制装置，其特征在于，包括：

9.一种电子设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1至7任一项所述货运列车运行控制方法。

10.一种非暂态计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至7任一项所述货运列车运行控制方法。

11.一种计算机程序产品，包括计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至7任一项所述货运列车运行控制方法。