CN112193280A

CN112193280A - 一种重载列车强化学习控制方法及系统

Info

Publication number: CN112193280A
Application number: CN202011396657.6A
Authority: CN
Inventors: 杨辉; 王禹; 李中奇; 付雅婷; 谭畅
Original assignee: East China Jiaotong University
Current assignee: East China Jiaotong University
Priority date: 2020-12-04
Filing date: 2020-12-04
Publication date: 2021-01-08
Anticipated expiration: 2040-12-04
Also published as: US11205124B1; AU2021100503A4; CN112193280B

Abstract

本发明涉及一种重载列车强化学习控制方法及系统，涉及重载列车智能控制技术领域，包括获取当前时刻重载列车的运行状态信息；根据当前时刻重载列车的运行状态信息和重载列车虚拟控制器，获取下一时刻重载列车控制指令，并将下一时刻重载列车控制指令发送至重载列车控制单元以控制重载列车运行；重载列车虚拟控制器是根据重载列车运行状态数据和专家经验网络训练强化学习网络得到的；强化学习网络包括一个控制网络和两个评价网络；强化学习网络是根据SAC强化学习算法构建的。本发明能够使重载列车在运行过程中具有安全、稳定、高效的性质。

Description

一种重载列车强化学习控制方法及系统

技术领域

本发明涉及重载列车智能控制技术领域，特别是涉及一种重载列车强化学习控制方法及系统。

背景技术

当前中国重载铁路线路正在不断拓展，重载铁路运输在轨道运输中具有非常重要的战略地位和经济地位。目前，重载列车的操纵依靠司机的经验技术，而重载线路具有距离长、线路情况复杂的特点，且重载列车运载重量大、组合车辆多，对司机的操纵水平以及精神状态有着非常大的考验。为了使重载列车安全正点行驶，需要用更好的控制策略来控制重载列车行驶过程。所以，重载列车的建模和控制成为当今研究的重点和方向。

对于重载列车运行控制，通常使用经典控制方法设计一条目标曲线，同时设计一个跟踪控制器来实现自动驾驶。跟踪控制器常常采用经典的PID控制算法，但是PID控制算法在参数的选取上依靠人为调节，不适合重载列车复杂过程控制。对此，有人提出使用广义预测控制算法实现重载列车速度跟踪控制，但是广义预测控制算法计算繁琐复杂，在实时响应的重载列车控制系统中表现不佳。有人把重载列车的自动停车控制和模糊控制相结合，但是模糊控制中模糊规则以及隶属函数凭借经验得出，在重载列车运行过程中难以控制和计算。

随着人工神经网络的发展，有人提出基于数据驱动的重载列车操纵控制方法，但是普通的神经网络训练需要大量实际数据，并且实际数据样本分布不均匀会导致训练出的控制器过拟合，实际场景的变化更多，训练的控制器状态在未知样本空间的情况下容易崩溃，在实际应用中有非常大的风险。

发明内容

本发明的目的是提供一种重载列车强化学习控制方法及系统，以具有安全、稳定、高效的性质。

为实现上述目的，本发明提供了如下方案：

一种重载列车强化学习控制方法，包括：

获取当前时刻重载列车的运行状态信息；所述重载列车是由多个车辆组成，所述车辆包括牵引机车和普通货车；所述运行状态信息包括重载列车速度和重载列车位置；

根据所述当前时刻重载列车的运行状态信息和重载列车虚拟控制器，获取下一时刻重载列车控制指令，并将所述下一时刻重载列车控制指令发送至重载列车控制单元以控制重载列车运行；

其中，所述重载列车虚拟控制器存储有重载列车的线路信息；

所述重载列车虚拟控制器是根据重载列车运行状态数据和专家经验网络训练强化学习网络得到的；所述强化学习网络包括一个控制网络和两个评价网络；所述强化学习网络是根据SAC强化学习算法构建的；所述重载列车运行状态数据为M个周期重载列车的位置、速度与奖励的时序序列。

可选的，所述专家经验网络的训练过程为：

利用重载列车实际运行历史数据对递归神经网络进行预训练，得到专家经验网络；其中，所述重载列车实际运行历史数据为N个周期重载列车在线路上的位置、速度与控制力的时序序列。

可选的，所述重载列车虚拟控制器的训练过程包括：

构建重载列车虚拟控制器训练架构；所述重载列车虚拟控制器训练架构包括专家经验网络、强化学习网络、记忆库和重载列车运行仿真环境；其中，所述记忆库内存储有重载列车运行状态数据；

将同周期重载列车运行状态数据的位置分别输入所述专家经验网络和所述强化学习网络的控制网络中，将同周期重载列车运行状态数据的速度分别输入所述专家经验网络和所述强化学习网络的控制网络中，得到专家控制指令和强化学习控制指令；

将所述强化学习控制指令以及同周期重载列车运行状态数据的速度和位置输入至所述强化学习网络的评价网络中，得到评价损失；

根据所述专家控制指令和所述强化学习控制指令计算指令损失；

根据综合损失更新所述强化学习网络的控制网络参数，直至得到满足需求的重载列车虚拟控制器；所述综合损失为所述评价损失和所述指令损失的和。

可选的，所述重载列车虚拟控制器的训练过程还包括：

根据重载列车运行状态数据的奖励更新所述强化学习网络的评价网络参数。

可选的，所述重载列车虚拟控制器的训练过程还包括：

将所述强化学习控制指令输入到所述重载列车运行仿真环境中，以获取更新后的重载列车运行状态数据，并将所述更新后的重载列车运行状态数据存储在所述记忆库中。

可选的，所述重载列车运行仿真环境的构建过程为：

确定重载列车运动学模型；

在强化学习环境中确定重载列车运行过程的奖励函数；所述奖励函数包括速度奖励函数、探索范围奖励函数和最大车钩力奖励函数；

根据所述重载列车运动学模型和所述奖励函数组成重载列车运行仿真环境。

可选的，所述确定重载列车运动学模型，具体包括：

利用多质点列车纵向动力学方程对重载列车运行过程进行建模，得到重载列车运动学模型。

一种重载列车强化学习控制系统，包括：

信息获取模块，用于获取当前时刻重载列车的运行状态信息；所述重载列车是由多个车辆组成，所述车辆包括牵引机车和普通货车；所述运行状态信息包括重载列车速度和重载列车位置；

控制指令确定模块，用于根据所述当前时刻重载列车的运行状态信息和重载列车虚拟控制器，获取下一时刻重载列车控制指令，并将所述下一时刻重载列车控制指令发送至重载列车控制单元以控制重载列车运行；

可选的，所述控制指令确定模块中的专家经验网络的训练过程为：

可选的，所述控制指令确定模块中的重载列车虚拟控制器的训练过程包括：

根据本发明提供的具体实施例，本发明公开了以下技术效果：

本发明对复杂环境下重载列车非线性系统的控制问题，提出了一种重载列车强化学习控制方法及系统，采用强化学习算法对重载列车运行状态空间进行探索，利用递归神经网络对专家经验数据进行拟合预测，训练得到一个安全、稳定、高效的重载列车虚拟控制器，并将重载列车虚拟控制器运用到重载列车实际运行中，以具有安全、稳定、高效的性质。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例一重载列车强化学习控制方法的流程图；

图2为本发明实施例一重载列车强化学习控制系统的结构图；

图3为本发明实施例三重载列车虚拟控制器训练结构框图；

图4为本发明实施例三重载列车实际运行过程图；

图5为本发明实施例三启动阶段训练奖励变化曲线图；

图6为本发明实施例三启动过程速度位移曲线图；

图7为本发明实施例三停车制动阶段训练奖励变化曲线图；

图8为本发明实施例三制动过程速度位移曲线图；

图9为本发明实施例三巡航阶段训练奖励变化曲线图；

图10为本发明实施例三巡航过程速度位移曲线图；

图11为本发明实施例三启动阶段控制力曲线图；

图12为本发明实施例三巡航阶段控制力曲线图；

图13为本发明实施例三制动阶段控制力曲线图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本发明作进一步详细的说明。

强化学习算法由控制(Actor)网络和评价(Critic)网络两部分组成；控制网络输入列车及线路状态，输出控制指令；评价网络输入列车及线路状态和控制指令，输出价值(value)。

实施例一

如图1所示，本实施例提供的一种重载列车强化学习控制方法包括如下步骤。

步骤101：获取当前时刻重载列车的运行状态信息；所述重载列车是由多个车辆组成，所述车辆包括牵引机车和普通货车；所述运行状态信息包括重载列车速度和重载列车位置。

步骤102：根据所述当前时刻重载列车的运行状态信息和重载列车虚拟控制器，获取下一时刻重载列车控制指令，并将所述下一时刻重载列车控制指令发送至重载列车控制单元以控制重载列车运行。

其中，所述重载列车虚拟控制器存储有重载列车的线路信息。

所述专家经验网络的训练过程为：利用重载列车实际运行历史数据对递归神经网络进行预训练，得到专家经验网络；其中，所述重载列车实际运行历史数据为N个周期重载列车在线路上的位置、速度与控制力的时序序列。

所述重载列车虚拟控制器的训练过程为：

步骤11：构建重载列车虚拟控制器训练架构；所述重载列车虚拟控制器训练架构包括专家经验网络、强化学习网络、记忆库和重载列车运行仿真环境；其中，所述记忆库内存储有重载列车运行状态数据；所述重载列车运行仿真环境用于根据当前控制指令对重载列车运行状态数据进行更新，并将更新后的重载列车运行状态数据存入所述记忆库中。

步骤12：将同周期重载列车运行状态数据的位置分别输入所述专家经验网络和所述强化学习网络的控制网络中，将同周期重载列车运行状态数据的速度分别输入所述专家经验网络和所述强化学习网络的控制网络中，得到专家控制指令和强化学习控制指令。

步骤13：将所述强化学习控制指令以及同周期重载列车运行状态数据的速度和位置输入至所述强化学习网络的评价网络中，得到评价损失。

步骤14：根据所述专家控制指令和所述强化学习控制指令计算指令损失。

步骤15：根据综合损失更新所述强化学习网络的控制网络参数，直至得到满足需求的重载列车虚拟控制器；所述综合损失为所述评价损失和所述指令损失的和。

所述重载列车虚拟控制器的训练过程还包括：

步骤16：将所述强化学习控制指令输入到所述重载列车运行仿真环境中，以获取更新后的重载列车运行状态数据，并将所述更新后的重载列车运行状态数据存储在所述记忆库中。

步骤17：根据重载列车运行状态数据的奖励更新所述强化学习网络的评价网络参数。

所述重载列车运行仿真环境的构建过程为：

步骤1101：确定重载列车运动学模型，具体为利用多质点列车纵向动力学方程对重载列车运行过程进行建模，得到重载列车运动学模型。

步骤1102：在强化学习环境中确定重载列车运行过程的奖励函数；所述奖励函数包括速度奖励函数、探索范围奖励函数和最大车钩力奖励函数。

步骤1103：根据所述重载列车运动学模型和所述奖励函数组成重载列车运行仿真环境。

实施例二

如图2所示，本实施例提供了一种重载列车强化学习控制系统，包括：

信息获取模块201，用于获取当前时刻重载列车的运行状态信息；所述重载列车是由多个车辆组成，所述车辆包括牵引机车和普通货车；所述运行状态信息包括重载列车速度和重载列车位置。

控制指令确定模块202，用于根据所述当前时刻重载列车的运行状态信息和重载列车虚拟控制器，获取下一时刻重载列车控制指令，并将所述下一时刻重载列车控制指令发送至重载列车控制单元以控制重载列车运行。

所述控制指令确定模块中的专家经验网络的训练过程为：

所述控制指令确定模块中的重载列车虚拟控制器的训练过程包括：

构建重载列车虚拟控制器训练架构；所述重载列车虚拟控制器训练架构包括专家经验网络、强化学习网络、记忆库和重载列车运行仿真环境；其中，所述记忆库内存储有重载列车运行状态数据。

将同周期重载列车运行状态数据的位置分别输入所述专家经验网络和所述强化学习网络的控制网络中，将同周期重载列车运行状态数据的速度分别输入所述专家经验网络和所述强化学习网络的控制网络中，得到专家控制指令和强化学习控制指令。

将所述强化学习控制指令以及同周期重载列车运行状态数据的速度和位置输入至所述强化学习网络的评价网络中，得到评价损失。

根据所述专家控制指令和所述强化学习控制指令计算指令损失。

实施例三

为实现上述目的，本实施例提供了一种重载列车强化学习控制方法，该方法包括：

步骤一：构建重载列车虚拟控制器

利用重载列车实际运行历史数据对递归神经网络进行预训练，得到专家经验网络；利用多质点列车纵向动力学方程对重载列车运行过程进行建模，得到重载列车运动学模型，并在强化学习环境中确定重载列车运行过程的奖励函数（用作对当前控制指令的奖励评价），重载列车运动学模型和奖励函数组成重载列车运行仿真环境，该重载列车运行仿真环境通过输入控制指令以更新重载列车的速度与位置，并给出该控制指令作用后得到的奖励。每次与重载列车运行仿真环境互动得到的数据均存储在记忆库中，在训练强化学习网络时从记忆库中采样M组数据进行学习，相同的重载列车的位置和速度分别输入专家经验网络和强化学习网络的控制网络中，分别得到专家控制指令和强化学习控制指令，计算强化学习网络的控制网络的输出与专家经验网络的输出之间的损失，计算强化学习网络的评价网络的输出对强化学习网络的控制网络的损失，将两个损失进行加权求和得到强化学习网络的控制网络的综合损失，并通过综合损失更新强化学习网络的参数，最终得到一个满足需要的重载列车虚拟控制器。

其中，本实施例将训练过程划分成启动、巡航、制动三个阶段，加速仿真的训练。

步骤二：获取当前时刻重载列车的运行状态信息；重载列车是由多个车辆组成，车辆包括牵引机车和普通货车；运行状态信息包括重载列车速度和重载列车位置。

步骤三：根据当前时刻重载列车的运行状态信息和重载列车虚拟控制器，获取下一时刻重载列车控制指令，并将下一时刻重载列车控制指令发送至重载列车控制单元以控制重载列车运行。其中，重载列车虚拟控制器存储有重载列车的线路信息。

下面重点介绍重载列车虚拟控制器的构建过程

步骤1、重载列车运行状态空间

考虑到万吨重载列车由一组牵引机车牵引着多辆普通货车组成，而且每一个训练周期都有多个状态转移，为简化计算复杂度，本实施例的重载列车运行状态空间只包含头车的速度与位置，如公式（1）所示。

（1）；

其中，

表示k时刻重载列车所处的运行状态；

表示k时刻头部牵引机车的速度；

表示k时刻头部牵引机车所处的位置；

分别表示速度的下限与上限，

分别表示重载列车的起始位置与结束位置，限速是根据路段和运行时间变化的，重载列车的起始位置与结束位置则是根据线路信息进行调整的；k=1,2,…,N_done，N_done为触发终止条件的时刻。

步骤2、专家经验网络

RNN(循环神经网络或者成递归神经网络)是一个具有时间动态行为的神经网络。在重载列车控制上，采用具有时序维度的状态能够提升重载列车的稳定性与安全性。本实施例采用RNN结合重载列车实际运行历史数据（N个周期重载列车在线路上的位置、速度与控制力的时序序列）训练得到专家经验网络，用作强化学习网络的约束，使重载列车的操纵更加稳定。

RNN为多输入多输出的网络结构，能够最大化的利用历史数据，拟合出最优的专家操纵经验，在给强化学习网络做约束时有更高的可信度。

但是，用作强化学习网络约束时，专家经验网络是一个多输入单输出的递归神经网络，该专家经验网络的输入为重载列车速度和重载列车位置，来预测下一时刻重载列车的控制力。

步骤3、重载列车速度和重载列车位置的更新方程

由于重载列车载重大、分布长、动力集中在前端且车钩连接存在空隙，故本实施例采用多质点列车纵向动力学模型作为重载列车运动学模型，有利于重载列车寻找，减小重载列车运行时纵向冲动，通过动力学特性构建多质点列车纵向动力学方程，然后得到公式（2）所示的重载列车速度更新方程：

（2）；

式中，

为第i辆车的质量；

为第i辆车的加速度；

为牵引机车的牵引力；

为牵引机车的电制动力；

为前车钩力；

为后车钩力；

为空气制动力；

为车辆运行基本阻力；

为重载列车的附加阻力，并且

，其中，

为曲线附加阻力，

为坡道附加阻力。

重载列车的运行状态由其运行的加速度、速度以及所处的路况决定。建立好多质点列车纵向动力学方程，对非线性动力学方程进行数值积分求解，得到列车的加速度、速度、位移等状态量。数值积分过程如公式（3）：

（3）；

式中，

为重载列车下一时刻的位移量，

为重载列车当前时刻的位移量，

为重载列车下一时刻的速度量，

为重载列车当前时刻的速度量，

为重载列车当前时刻的加速度量，

为重载列车上一时刻的加速度量，

为时间积分步长，下标n-1、n、n+1分别代表上一步

时刻、当前步

时刻、下一步

；ψ、

为控制积分方法特性的独立参数，在此取0.5。

步骤4、强化学习奖励设计

好的奖励能够帮助重载列车学习，稀疏的奖励会使重载列车在抵达目标前无法获得任何奖励，加大训练难度，奖励分布的方差太大也会使得策略梯度太大导致学习不平稳，将奖励归一化能够有效提升学习效率。

虽然强化学习算法的本质就是积累奖励值使奖励最大化，奖励的设置与要实现的目标有很强的关联性，负奖励有利于有限步数内快速结束该回合，正奖励鼓励重载列车不断累积奖励以维持最高奖励状态。重载列车学习操控重载列车有两种目标：在启动至巡航阶段，应当获得正奖励以累积奖励值，鼓励重载列车将奖励最大化；而在制动过程中操控的目标是在安全操纵下停在指定地点，这时应该将奖励设计为负值，以期重载列车快速达到目标状态。本实施例将速度奖励函数为：

（4）

其中，

，d为当前位置到停车点的距离，单位km；

和

为归一化后的速度与距离；＆为距离

的指数参数，调整＆大小可以改变制动阶段到停车点距离的奖励变化斜率；k₁，k₂为有关速度的缩放系数。距终点2km以内为停车制动工况下的速度奖励函数，在启动牵引和巡航工况下的速度奖励为公式（4）的后两项。制动条件下的奖励函数表达式包含了速度和距离两个维度的参数，距离越近，速度越低则奖励越高。

为加快算法的训练速度，对目标探索空间进行约束。为提高算法的训练效率，将重载列车的搜索空间进行一定的约束，给定重载列车探索的上限与下限。上限为机车满级位运行的速度-位移曲线，下线为以初始40%牵引力，每隔200步递减1%的牵引力运行的速度-时间曲线，对超出期望探索范围的状态-动作进行惩罚，探索范围奖励函数为：

（5）；

（6）；

其中，

为k+1时刻最高限速的奖励函数，

为k+1时刻最低限速的奖励函数，c₁~c₈为常数，

为k+1时刻机车的速度，

为k+1时刻所在位置的速度上限，

为k+1时刻速度下限值。

重载列车运行过程中，车钩力应当在最大应力极限范围内变化，以免造成脱钩事故。为避免重载列车一直施加最小的控制力，将车钩力的奖励函数进行分段处理，在正常车钩力范围内奖励函数为定值，当车钩力大于1000时，车钩力奖励逐渐下降。最大车钩力奖励函数

构造为：

（7）；

其中，F_{c max}为整列车的最大车钩力。将以上奖励整合加入经验库，奖励的形式为：

（8）；

其中

，

=1。

为提升训练效果，所有奖励均经过归一化操作。

步骤5、记忆库

在SAC强化学习算法中需要引入记忆库来存储重载列车运行状态数据以训练强化学习网络。由于专家经验网络输入的数据为时序结构，重载列车运行状态数据需要做预处理，以满足专家经验网络采样的准确度。

步骤6、SAC强化学习算法训练强化学习网络

本实施例采用强化学习中的SAC(Soft Actor-Critic)算法架构，该算法是面向最大熵的强化学习开发的一种离线策略算法，与常用的确定性策略的强化学习算法不同，SAC强化学习算法生成的是随机策略，使状态空间的探索有更优的性能。SAC强化学习算法的架构由一个控制网络和两个评价网络组成，相较于一个评价网络的结构，使用两个评价网络能够有效减少网络的过估计，能够让训练曲线更加平滑。控制网络的输入为当前状态，控制网络的输出为动作分布的动作与方差。评价网络的输出为当前状态下动作的价值，作为控制网络跟新的依据。SAC强化学习算法结合了在线策略和离线策略两种策略的优点，并引入了记忆库，强化学习网络能够在记忆库中采样训练，提高数据的利用率，打破连续样本的相关性，有利于强化学习网络的训练。

本实施例的结构框图如图3所示，包含专家经验网络、强化学习网络、记忆库、重载列车运行仿真环境。训练阶段，强化学习网络在当前网络参数下根据重载列车运行状态数据将生成的控制指令提供给重载列车运行仿真环境；重载列车运行仿真环境根据当前控制指令对重载列车运行状态进行更新，并对当前控制指令给出奖励，重载列车运行状态和奖励都将存储在记忆库中，等待强化学习网络进行采样学习，且被专家经验网络约束。

SAC算法的最优策略表达式由公式（9）表示，描述了最优策略、奖励与熵值之间的关系，最优策略分为奖励和熵正则化项，在训练初期的策略随机，获得的奖励小，通过增加熵值可以探寻更好的策略；随着获得的奖励变大，应当将熵值减小使好的策略能够保持，直至训练末期，收获最大的奖励与最小熵，获得稳定的最优策略。

（9）；

式中，r(s_t，a_t)为当前重载列车运行状态下采取控制指令的奖励；

表示动作的熵值，熵值前面的系数

为温度系数，控制着控制指令的随机性，温度系数

越大则控制指令越随机，更有利于重载列车运行状态空间的探索。每个时刻的状态与动作组合在一起形成了一条轨迹，对该轨迹求最解大的期望就是期望得到的最优策略。其中，温度系数

随训练过程会有变化，公式（17）便是用来自动调整该参数，

也用在值函数的表达式中，并结合熵作为正则化项

SAC算法的熵的正则化不仅仅体现在策略上，也体现在状态-动作价值函数Q (s_t，a_t)之上，计算公式为公式（10）：

（10）；

（11）。

其中，

为Bellman算子，为算法的收敛性提供保障；Bellman方程为当前时刻控制指令的及时奖励r(s_t，a_t)加下一时刻控制指令的折扣价值期望，状态价值V(s_t)的计算为当前运行状态减去控制指令的Q值加上熵项

，

为折扣因子，确保价值函数收敛；

为状态转移概率p下的下一时刻的状态价值期望。

评价网络的损失由公式（12）给出，为一个时序差分(Temporal Differential, TDerror)的损失。

（12）；

其中

为target评价网络输出的Q值减去熵值，如式（11）；target评价网络和评价网络结构相同，但是参数更新滞后评价网络。SAC强化学习算法中有两个评价网络

、

，在训练时选取最小的Q值作为

，减少过估计。

本实施例采用两种损失函数同时训练控制网络：一种由评价网络输出的价值对控制网络进行训练，期望控制指令的价值最大化；另一种由专家经验网络在相同环境状态下输出控制指令，与控制网络输出的控制指令的均方差损失来训练，以训练出与专家经验网络相似的决策。

评价网络的输出对控制网络的价值损失由公式（13）给出，

（13）；

其中

是根据

隐式定义的，

为重参数化后的控制指令，帮助网络将误差反向传递；

是从固定分布(如球形高斯分布)中采样的噪声。

强化学习网络的控制网络的输出与专家经验网络的输出之间的损失由公式（14）给出：

（14）；

其中μ(s_t)为专家网络在当前状态 s_t下输出的控制指令；

为控制网络在状态s_t下输出的控制指令，通过计算二者的均方根误差作为专家的监督损失；D、π为状态、策略的空间。

将评价网络输出对控制网络的损失J_ori和专家网络输出对控制网络输出的损失J_sup乘上比例系数λ之和得到控制网络的综合损失，如式（15）:

（15）。

温度参数决定了熵的大小，在训练过程中需要自动调整温度参数使模型可以稳定训练，所以将温度参数作为约束对象，当作一个优化问题：最大化期望收益的同时，保持策略的熵大于一个阈值。需要优化的表达式如（16）所示。

（16）；

其中，

为0到T时刻的累计奖励，对其求解最大期望

，

表示状态到动作的映射；

为熵的期望；

为最小期望熵，作为从0时刻到T时刻整条轨迹奖励

期望最大的约束。

根据式（16），最终得到需要优化的损失函数（17）：

（17）。

本实施例的具体实施方式如图4所示，在得到一个训练好的强化学习控制器后，从列车LKJ设备中读取当前的线路信息以及车辆状态信息(当前位置、速度等)，读取的信息输入到重载列车虚拟控制器中，由重载列车虚拟控制器输出控制指令给列车中央控制单元，完成一个周期的控制。

为得到一个具有鲁棒性的预测模型，需要在专家经验数据（即重载列车实际运行历史数据）中添加高斯噪声。

线路区段的选择按照正常大秦线的启停区段截取部分线路提供训练，牵引启动工况选择30~50公里区间训练，列车初始速度0km/h；巡航工况选择80~100公里区段进行训练，列车初始速度70km/h；制动工况选择545~550公里区段进行训练，列车初始速度70km/h。

图5为重载列车在启动牵引阶段迭代训练中的学习曲线，从环境中获得的奖励越高，重载列车在设定目标下的操控越好，从图5中可以看到结合专家经验的SAC算法在训练后期能够获得稳定且较高的环境总奖励；图6中的启动阶段列车的速度在期望的状态空间区间内，重载列车在启动牵引的速度曲线比较平稳。在停车制动方面，图7中重载列车探索到了非常好的停车制动方案，图8中重载列车的速度曲线在前期更加平滑、稳定，在中后期由于制动力变大导致速度减小的更快，符合专家经验控制；在巡航操纵控制上，图9中结合专家经验的SAC算法训练的重载列车获得的在训练后期也获得了稳定且较高的奖励；图10中，结合专家经验的SAC算法在刚进入巡航控制时有一段过度区间，其速度变化比较缓慢，在巡航的后期提高了运行速度，且在安全运行的限速下方，满足列车运行的高效要求。

图11~13为启动牵引、巡航控制、制动操纵三工况的控制力变化曲线，在三种工况下基本保持牵引/制动状态，在巡航工况下能够通过调节控制力应对变化的线路条件，且牵引制动工况切换比较平缓，不会造成过大的纵向冲动，满足HXD1机车的牵引/制动力特性和列车安全稳定控制的指标。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。对于实施例公开的系统而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处。综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种重载列车强化学习控制方法，其特征在于，包括：

2.根据权利要求1所述的一种重载列车强化学习控制方法，其特征在于，所述专家经验网络的训练过程为：

3.根据权利要求1所述的一种重载列车强化学习控制方法，其特征在于，所述重载列车虚拟控制器的训练过程包括：

4.根据权利要求3所述的一种重载列车强化学习控制方法，其特征在于，所述重载列车虚拟控制器的训练过程还包括：

5.根据权利要求3所述的一种重载列车强化学习控制方法，其特征在于，所述重载列车虚拟控制器的训练过程还包括：

6.根据权利要求3所述的一种重载列车强化学习控制方法，其特征在于，所述重载列车运行仿真环境的构建过程为：

确定重载列车运动学模型；

7.根据权利要求6所述的一种重载列车强化学习控制方法，其特征在于，所述确定重载列车运动学模型，具体包括：

8.一种重载列车强化学习控制系统，其特征在于，包括：

9.根据权利要求8所述的一种重载列车强化学习控制系统，其特征在于，所述控制指令确定模块中的专家经验网络的训练过程为：

10.根据权利要求8所述的一种重载列车强化学习控制系统，其特征在于，所述控制指令确定模块中的重载列车虚拟控制器的训练过程包括：