CN116859731A

CN116859731A - 基于强化学习的增强高铁自动驾驶控制系统准时性的方法

Info

Publication number: CN116859731A
Application number: CN202310804271.1A
Authority: CN
Inventors: 邓海; 沈迪; 金立生; 朱文涛; 刘国峰; 谢宪毅; 王芳荣; 姜玉莹
Original assignee: Jilin University; Yanshan University; CRRC Changchun Railway Vehicles Co Ltd
Current assignee: Jilin University; Yanshan University; CRRC Changchun Railway Vehicles Co Ltd
Priority date: 2023-07-03
Filing date: 2023-07-03
Publication date: 2023-10-10

Abstract

本发明提供一种基于强化学习的增强高铁自动驾驶控制系统准时性的方法，通过建立基本数据模块和列车运行仿真模块，设置奖励函数和额外单步奖励，设计神经网络结构，构建高速列车自动驾驶训练模型；确定训练参数执行训练，得到高速列车自动驾驶控制模型；本发明改进列车准时性奖励函数的设置方式，在保留原有全局奖励方法的基础上，设置一个在一轮训练过程中的每个单步中都能给予智能体准时性反馈的额外奖励函数，使奖励函数的引导性更强，解决准时性稀疏奖励难以获得的问题，提高列车自动驾驶控制系统的训练效率，更好地满足自动驾驶列车运行过程中的准时性要求。

Description

基于强化学习的增强高铁自动驾驶控制系统准时性的方法

技术领域

本发明涉及一种高铁自动驾驶控制方法，特别涉及一种基于强化学习的增强高铁自动驾驶控制系统准时性的方法。

背景技术

强化学习是实现强人工智能的方法之一。作为一类自学习的机器学习算法，不同于监督学习与无监督学习，强化学习凭借着试错学习、反馈机制等独特优势，在自动化控制领域得到了深入而广泛的研究。强化学习基于马尔科夫决策过程，以奖励函数作为激励，使智能体在不断与环境交互的过程中采用探索试错的方法自主迭代学习，逐渐获得经验和知识，并做出相应的行动策略以适应环境。强化学习方法在多阶段决策问题中展现出了强大的自学习能力和近似最优解搜索的显著优越性。在列车自动驾驶决策领域具有巨大的应用潜力。

奖励稀疏是强化学习在列车准时性决策实际应用场景中存在的一个关键问题。奖励函数是由环境给出的表示强化学习智能体在某一步采取某个策略的优劣程度的反馈信号，强化学习智能体的目的就是最大化可以获得的奖励。奖励函数的设置方法的不同将直接影响到智能体的行为，从而影响控制策略的训练效率及智能化程度。智能体在无法得到足够多的、有效的奖励时，将会出现学习缓慢甚至无法进行有效学习的问题。

在目前的强化学习列车决策控制方法中，关于准时性指标奖励函数的设置是：在每一轮训练的N步中，智能体会将每一步所花费的时间累加起来计算实际运行时间，然后用实际运行时间和计划运行时间的差值来表达准时性奖励值。每一轮训练的准时性奖励仅体现在该轮的最后一步。该方法的问题在于将每一轮最后的准时性奖励全部加在了该轮训练的最后一步上，而前面的N-1步采集到的训练数据中没有任何关于准时性的奖励信息，对于主流的采用时序差分单步更新方式的强化学习算法来说，多数时候智能体都不能得到准时性奖励，而不能得到奖励的情况下训练智能体是非常困难的，造成训练效率低下，训练效果差等问题。

综上所述，为了解决基于强化学习的列车决策控制方法中准时性稀疏奖励难以获得所导致的训练效率低、效果差的问题，更好地满足自动驾驶列车运行过程中的准时性要求，急需提供一种增强高速列车自动驾驶控制系统准时性的方法。

发明内容

为了解决上述技术问题，本发明提供一种基于强化学习的增强高铁自动驾驶控制系统准时性的方法，包括下述步骤：

步骤1，建立基本数据模块，包括列车参数模块与线路数据模块；

步骤2，基于基本数据模块，建立列车运行仿真模块中的列车运行仿真环境，所述的列车运行仿真环境包括列车运动学模型和列车状态转移模型；

步骤3，基于基本数据模块和列车运行仿真模块，定义状态空间与动作空间，设置全局奖励函数，设置额外单步奖励，定义强化学习决策控制模型架构，设计神经网络结构，构建高速列车自动驾驶训练模型；所述的全局奖励函数依据列车运行的安全性与准时性指标设置；所述的额外单步奖励驱使智能体的运行速度在条件满足时趋向于平均运行速度，引导智能体在限速条件允许的前提下，尽量以接近v的速度运行，以增强列车运行的准时性；

步骤4，确定强化学习人工神经网络的超参数并执行训练，直至模型收敛，得到高速列车自动驾驶控制模型；使用此模型输出的策略即为满足准时性要求的高速列车运行控制方法。

进一步的，步骤1中所述的列车参数模块包括：列车基本数据、列车基本阻力参数、附加阻力参数、列车牵引制动特性、列车质量变化参数中的一种或数种；

所述的线路数据模块包括：坡道数据、弯道数据、隧道数据中的一种或数种。

进一步的，步骤2列车运行仿真模块中，所述的列车运动学模型和列车状态转移模型建立方法如下：

2.1、所述的列车运动学模型如公式(1)所示：

式中，x为列车的位置；v为列车实时运行速度，单位为km/h；m为列车质量，单位为t；F(v)和B(v)分别是列车在速度为v时对应的最大牵引力和最大制动力，单位为kN；u_f和u_b分别为牵引力和制动力的输出比例；R_c(v)是列车在一定速度下受到的基本运行阻力，单位为kN；R_t为列车运行所受的总附加阻力，单位为kN；

2.1.1、所述的F(v)和B(v)的计算方法：

对于已知型号的列车，根据其牵引特性曲线与制动特性曲线，利用插值法求解确定速度对应的牵引力与制动力；

2.1.2、所述的基本运行阻力R_c(v)由轴承阻力、滚动阻力、滑动阻力、冲击和振动阻力以及空气阻力构成，根据经验公式进行计算：

R_b(t)＝(r₁+r₂v+r₃v²)m·g (2)

式中，r₁,r₂和r₃为阻力系数，v为列车的实时运行速度，m为列车总质量，g为重力加速度；

2.1.3、所述的总附加阻力R_t包括：

(1)坡道附加阻力W_i：

列车所受重力沿坡道方向的分力

W_i＝m·g·sinθ (3)

其中θ为坡道与水平方向的夹角；

(2)曲线附加阻力W_r：

根据经验公式计算：

其中，A为试验方法确定的常数，R为曲线半径；

(3)隧道附加空气阻力W_s：

计算公式为：

W_s＝0.00013L_s·m·g (5)

其中，L_s为隧道长度，单位为m；

综上，列车运行所受的总附加阻力为：

R_t＝W_i+W_r+W_s (6)

2.2、所述的列车状态转移模型建立方法如下：

根据列车运动学模型提供的数据，确定列车当前运行状态，所述的列车当前运行状态包括列车当前速度、运行距离、运行时间；将列车当前运行状态传递给强化学习决策控制模型，并接收来自决策控制模型输出的牵引力控制指令，输入列车运动学模型进行列车运动学计算，得到列车的下一状态。

进一步的，步骤3所述高速列车自动驾驶训练模型建立过程包括：

3.1、定义状态空间：

列车在站间的运行过程中，将列车的状态S_i定义为：

S_i＝[x_i,v_i,t_resi,i_i,r_i,c_i,d_i] (7)

其中x_i为当前时刻的列车位置；v_i为当前时刻的列车速度；i_i为当前位置处的道路坡度；t_resi为列车计划到站剩余运行时间，t_resi∈[0,T],T为给定的列车站间运行时分；r_i为当前位置的道路曲率；c_i和d_i为布尔变量，c_i代表当前是否处于隧道中，d_i代表是否到达终点；

将列车的状态以七元数组的形式记录，作为决策控制模型网络的输入数据；

3.2、定义动作空间：

智能体执行的动作空间如下：

a_i∈[-1,1]

其中，a_i表示牵引/制动力输出比例，当a_i＞0时为牵引，当a_i＜0时为制动，当a_i＝0时为惰行；|a_i|的值越大则牵引/制动力越大；

3.3、设置全局奖励函数：

(1)安全性奖励函数的设置方法：

当列车出现超速状态时，对其奖励评价为一个足够小的负值-R；

(2)全局准时性奖励函数的设置方法：

其中，ΔT表示为：

T(x)和T_p分别为列车实际运行时间和计划运行时间；其中，T(x)计算方法为：

3.4、设置额外单步奖励：

通过总里程X与目标运行时间T_p计算列车期望运行速度v，在限速的范围内，依据列车当前速度v_i与v差值的绝对值v-deviation设置额外的单步奖励，当v_i越接近v时给予智能体一个越大的正奖励；

将此额外单步奖励以一定的权重与全局准时性奖励相加，作为总奖励；额外单步奖励驱使智能体的运行速度在条件满足时趋向于平均运行速度，引导智能体在限速条件允许的前提下，尽量以接近的速度运行，间接影响列车运行的准时性；

3.5、定义强化学习决策控制模型架构：

从步骤2.2中的上层列车状态转移模型中，获得步骤3.1中定义的列车当前的状态信息，作为强化学习决策控制模型网络的输入；模型网络的输出动作为步骤3.2中定义的牵引/制动力输出比例a_i的数值，其通过步骤2.1中列车运动学模型的变量u_f和u_b的数值大小来体现；将u_f和u_b输入列车运动学模型，获得下一状态，进入下一步训练；

3.6、神经网络结构设计：

基于具有连续动作空间的DDPG算法设计演员-评论家神经网络结构，定义强化学习决策控制模型中各个网络的类型、隐藏层数、每层的节点数，设置损失函数与激活函数的类型，规定训练的轮次以及每轮训练的步数；设置训练超参数与经验回放池参数。

进一步的，所述的神经网络结构设计包括以下步骤：

(1)策略函数网络设计：

采用确定性策略μ，使智能体在每一步训练时直接获得确定的动作值a_i：

a_i＝μ_θ(s_t|θ^μ)

上式中，a_i表示在第i步智能体获得最优的动作值，μ表示最优动作策略，θ表示策略函数μ中的参数；

构建策略网络对确定性动作策略函数μ进行近似；策略网络包括两个子网络：在线网络和目标网络，首先构建在线网络，定义为2层隐藏层神经网络，分别设置400和300个神经元；

在线网络的输入为步骤3.1中定义的列车当前状态S_i，输出为步骤3.2中定义的智能体当前选择执行的动作a_i；对两个隐藏层使用线性整流激活函数(Rectified LinearUnit,ReLU)，以及批处理和L2正则化，以实现稳定性，避免出现陷入局部最优、过拟合等现象；对于策略网络的输出层使用双曲正切激活函数(hyperbolic tangent function，Tanh)，保持取值有界；

在线网络的参数更新方式为在结束每次小批量数据训练后，采用梯度下降算法更新网络参数；

策略网络中的目标网络模型结构及初始化参数与在线网络保持一致；目标网络的参数采用软更新方式，即在每一步上，都会对目标网络参数进行更新，但不是固定时间步更新，更新的幅度较小。

软更新方式使得算法的目标网络模型参数变化率变小，在强化学习训练过程中计算在线网络的梯度变化更稳定，使得训练更容易收敛。

(2)价值函数网络设计：

智能体在列车环境状态S_i下采取动作a_i，按照确定性动作策略μ执行，所获得的价值期望，即价值函数Q，用贝尔曼方程的形式表示；

构建价值网络对价值函数进行近似，价值网络也被称为Q网络，计算得到的价值叫做Q值；价值网络包括两个子网络：在线网络和目标网络，价值函数网络同时将列车环境的状态S_i和智能体的行为动作a_i作为输入，输出为计算出当前的Q值；构造2个输入层，2个隐藏层，隐藏层的神经元个数分别为200和300个；

每个隐藏层的输出使用ReLU激活函数进行非线性化处理，价值网络的输出函数Q(s,a),在理论上是无界的，故不添加输出层激活函数；

价值网络参数的更新方式与策略网络相同，均采用软更新的方式。

进一步的，步骤4中模型训练流程如下：

4.1、初始化策略网络和价值网络的超参数，初始化经验回放池，导入列车运行的线路静态数据与限速信息，初始化列车运行仿真环境状态值；

4.2、将列车当前状态输入策略网络，策略网络输出动作值给状态转移模型，控制列车执行动作，包括牵引、惰行、制动；

4.3、更新列车的下一运行状态信息，计算智能体对应获得的奖励值；将列车当前运行状态、当前选择执行的动作、获得的反馈奖励值以及下一运行状态组合成一个元组放入经验回放池中；

4.4、智能体随机批量地从经验回放池抽取一定批量的经验样本数据，基于梯度下降方法训练并更新策略网络的权重参数；

4.5、判断当前列车运行是否到达终止状态，若已达到终止状态，则结束本轮训练，否则重复步骤4.2至步骤4.5。

本发明的有益效果：

本发明针对基于强化学习的列车决策控制算法中准时性奖励为全局奖励所导致的训练效率低、效果差等问题，提出一种基于强化学习的增强高铁自动驾驶控制系统准时性的方法，本发明改进列车准时性奖励函数的设置方式，在保留原有全局奖励方法的基础上，设置一个在一轮训练过程中的每个单步中都能给予智能体准时性反馈的额外奖励函数，使奖励函数的引导性更强，解决准时性稀疏奖励难以获得的问题，增强列车自动驾驶控制系统的训练效率，更好地满足自动驾驶列车运行过程中的准时性要求。

附图说明

图1为本发明控制方法整体流程示意图；

图2为本发明控制系统结构框架示意图；

图3为本发明实施例列车牵引特性曲线图；

图4为本发明实施例列车制动特性曲线图；

图5为本发明实施例列车运行线路数据示意图；

图6为本发明准时性单步附加奖励示意图；

图7为本发明实施例中采用的DDPG算法的结构图。

具体实施方式

参阅附图1-2所示，本发明提供一种基于强化学习的增强高铁自动驾驶控制系统准时性的方法，包括下述步骤：

所述的列车参数模块包括：列车基本数据、列车基本阻力参数、附加阻力参数、列车牵引制动特性、列车质量变化参数等；

以CRH3-350列车为例：

标准运行质量：428t；

列车长度：200.67m；

基本运行阻力戴维斯公式系数：

f＝6.6+0.0245v+0.00132v²(N/ton)，v单位：km/h。

列车牵引特性曲线如图3所示；

列车制动特性曲线如图4所示；

所述的线路数据模块包括：坡道数据、弯道数据、隧道数据，具体的如里程数、坡度、弯道曲率以及是否处于隧道等，选用某高速铁路某区间的实际线路数据，如图5所示。

步骤2，基于基本数据模块，建立列车运行仿真模块中的列车运行仿真环境，所述的列车运行仿真环境包括列车运动学模型和列车状态转移模型；建模具体步骤如下：

2.1、所述的列车运动学模型如公式(1)所示：

2.1.1、所述的F(v)和B(v)的计算方法：

已知列车型号为CRH3-350，根据其牵引特性曲线与制动特性曲线，利用插值法求解确定速度对应的牵引力与制动力；

2.1.2、所述的基本运行阻力R_c(v)由轴承阻力、滚动阻力、滑动阻力、冲击和振动阻力以及空气阻力构成。实际情况下，基本运行阻力的计算往往难以精准描述，根据经验公式进行计算：

R_b(t)＝(r₁+r₂v+r₃v²)m·g (2)

式中，r₁,r₂和r₃为阻力系数，v为列车的实时运行速度，m为列车总质量，g为重力加速度；CRH3-350列车的阻力系数r₁、r₂和r₃的数值分别为：r₁＝6.6，r₂＝0.0245，r₃＝0.00132；列车总质量m的数值为428t。

2.1.3、所述的总附加阻力R_t包括：

(1)坡道附加阻力W_i：

列车所受重力沿坡道方向的分力

W_i＝m·g·sinθ (3)

其中θ为坡道与水平方向的夹角；

(2)曲线附加阻力W_r：

曲线附加阻力与列车车辆轴距、运行速度、曲线半径等因素有关。按照《列车牵引计算规程》，通常根据经验公式计算：

其中，A为试验方法确定的常数，由试验方法确定，数值为600；R为曲线半径；

(3)隧道附加空气阻力W_s：

隧道附加空气阻力与列车外形、横截面积、隧道长度和隧道横截面积等因素有关，计算公式为：

W_s＝0.00013L_s·m·g (5)

其中，L_s为隧道长度，单位为m；

综上，列车运行所受的总附加阻力为：

R_t＝W_i+W_r+W_s (6)

2.2、所述的列车状态转移模型建立方法如下：

以站间里程数划分高速列车的训练步长，具体地，位置的离散间隔为Δx，位置空间被离散化为N_x＝x/Δx个区间，此处取Δx为40m，因为Δx足够小，所以每个区间内的道路坡度与道路曲率以及是否处于隧道中可被视为定值。

步骤3，基于基本数据模块和列车运行仿真模块，定义状态空间与动作空间，设置全局奖励函数，设置额外单步奖励，定义强化学习决策控制模型架构，设计神经网络结构，构建高速列车自动驾驶训练模型，所述的全局奖励函数依据列车运行的安全性与准时性指标设置；所述的额外单步奖励驱使智能体的运行速度在条件满足时趋向于平均运行速度，引导智能体在限速条件允许的前提下，尽量以接近v的速度运行，以增强列车运行的准时性；

步骤如下；

3.1、定义状态空间：

列车在站间的运行过程中，将列车的状态S_i定义为：

S_i＝[x_i,v_i,t_resi,i_i,r_i,c_i,d_i] (7)

3.2、定义动作空间：

在列车自动运行过程中，列车执行的牵引、惰行、制动等控制信号可视为连续型动作，进行数值输出。智能体执行的动作空间如下：

a_i∈[-1,1]

其中，a_i表示牵引/制动力输出比例，当a_i＞0时为牵引，当a_i＜0时为制动，当a_i＝0时为惰行；|a_i|的值越大则牵引/制动力越大；a_i的值与列车动作的对应关系如表1所示：

表1ai与列车动作的对应关系

3.3、设置奖励函数：

奖励函数的设计是本发明的核心内容。考虑安全性与准时性，在常规准时性奖励函数的基础上设置额外引导功能的奖励函数，对准时性模型进行求解。

(1)安全性奖励函数的设置方法：

(2)全局准时性奖励函数的设置方法：

其中，ΔT表示为：

3.4、设置额外单步奖励：

通过总里程X与目标运行时间T_p计算列车期望运行速度v，在限速的范围内，依据列车当前速度v_i与v差值的绝对值v-deviation设置额外的单步奖励，当v_i越接近时给予智能体一个越大的正奖励；

将此额外单步奖励以一定的权重与全局准时性奖励相加，作为总奖励；额外单步奖励驱使智能体的运行速度在条件满足时趋向于平均运行速度，引导智能体在限速条件允许的前提下，尽量以接近v的速度运行，间接影响列车运行的准时性，如图6所示；

3.5、定义强化学习决策控制模型架构：

3.6、神经网络结构设计：

基于具有连续动作空间的DDPG算法设计演员-评论家神经网络结构，算法流程如图7所示；定义强化学习决策控制模型中各个网络的类型、隐藏层数、每层的节点数，设置损失函数与激活函数的类型，规定训练的轮次以及每轮训练的步数；设置训练超参数与经验回放池参数。包括以下步骤：

(1)策略函数网络设计：

a_i＝μ_θ(s_t|θ^μ)

(2)价值函数网络设计：

步骤4，确定强化学习人工神经网络的超参数并执行训练，直至模型收敛，得到高速列车自动驾驶控制模型；使用此模型输出的策略即为满足准时性要求的高速列车运行控制方法；训练流程如下：

4.1、初始化策略网络和价值网络的超参数，如表2所示，初始化经验回放池，导入列车运行的线路静态数据与限速信息，初始化列车运行仿真环境状态值；

表2网络超参数

4.2、将列车当前状态输入策略网络，策略网络输出动作值给状态转移模型，控制列车执行动作，包括牵引、惰行、制动等操作；

Claims

1.一种基于强化学习的增强高铁自动驾驶控制系统准时性的方法，其特征在于：包括下述步骤：

步骤3，基于基本数据模块和列车运行仿真模块，定义状态空间与动作空间，设置全局奖励函数，设置额外单步奖励，定义强化学习决策控制模型架构，设计神经网络结构，构建高速列车自动驾驶训练模型；所述的全局奖励函数依据列车运行的安全性与准时性指标设置；所述的额外单步奖励驱使智能体的运行速度在条件满足时趋向于平均运行速度，引导智能体在限速条件允许的前提下，尽量以接近的速度运行，以增强列车运行的准时性；

2.根据权利要求1所述的一种基于强化学习的增强高铁自动驾驶控制系统准时性的方法，其特征在于：基本数据模块中，所述的列车参数模块包括：列车基本数据、列车基本阻力参数、附加阻力参数、列车牵引制动特性、列车质量变化参数中的一种或数种；

3.根据权利要求1所述的一种基于强化学习的增强高铁自动驾驶控制系统准时性的方法，其特征在于：步骤2列车运行仿真模块中，所述的列车运动学模型和列车状态转移模型建立方法如下：

2.1、所述的列车运动学模型如公式(1)所示：

2.2、所述的列车状态转移模型建立方法如下：

4.根据权利要求3所述的一种基于强化学习的增强高铁自动驾驶控制系统准时性的方法，其特征在于：所述的列车运动学模型中：

2.1.1、所述的F(v)和B(v)的计算方法：

R_b(t)＝(r₁+r₂v+r₃v²)m·g (2)

式中，r₁、r₂和r₃为阻力系数，v为列车的实时运行速度，m为列车总质量，g为重力加速度；

2.1.3、所述的总附加阻力R_t包括：

(1)坡道附加阻力W_i：

列车所受重力沿坡道方向的分力

W_i＝m·g·sinθ (3)

其中θ为坡道与水平方向的夹角；

(2)曲线附加阻力W_r：

根据经验公式计算：

其中，A为试验方法确定的常数，R为曲线半径；

(3)隧道附加空气阻力W_s：

计算公式为：

W_s＝0.00013L_s·m·g (5)

其中，L_s为隧道长度，单位为m；

综上，列车运行所受的总附加阻力为：

R_t＝W_i+W_r+W_s (6)。

5.根据权利要求1所述的一种基于强化学习的增强高铁自动驾驶控制系统准时性的方法，其特征在于：步骤3所述高速列车自动驾驶训练模型建立过程包括：

3.1、定义状态空间：

列车在站间的运行过程中，将列车的状态S_i定义为：

S_i＝[x_i,v_i,t_resi,i_i,r_i,c_i,d_i] (7)

3.2、定义动作空间：

智能体执行的动作空间如下：

a_i∈[-1,1]

3.3、设置奖励函数：

(1)安全性奖励函数的设置方法：

(2)全局准时性奖励函数的设置方法：

其中，ΔT表示为：

3.4、设置额外单步奖励：

通过总里程X与目标运行时间T_p计算列车期望运行速度在限速的范围内，依据列车当前速度v_i与/>差值的绝对值v-deviation设置额外的单步奖励，当v_i越接近/>时给予智能体一个越大的正奖励；

3.5、定义强化学习决策控制模型架构：

从上层列车状态转移模型中，获得步骤3.1中定义的列车当前的状态信息，作为强化学习决策控制模型网络的输入；模型网络的输出动作为步骤3.2中定义的牵引/制动力输出比例a_i的数值，其通过列车运动学模型的变量u_f和u_b的数值大小来体现，所述的u_f和u_b分别为牵引力和制动力的输出比例；将u_f和u_b输入列车运动学模型，获得下一状态，进入下一步训练；

3.6、神经网络结构设计：

6.根据权利要求5所述的一种基于强化学习的增强高铁自动驾驶控制系统准时性的方法，其特征在于：3.6所述的神经网络结构设计包括以下步骤：

(1)策略函数网络设计：

a_i＝μ_θ(s_t|θ^μ)

在线网络的输入为步骤3.1中定义的列车当前状态S_i，输出为步骤3.2中定义的智能体当前选择执行的动作a_i；对两个隐藏层使用线性整流激活函数，以及批处理和L2正则化；对于策略网络的输出层使用双曲正切激活函数，保持取值有界；

策略网络中的目标网络模型结构及初始化参数与在线网络保持一致；目标网络的参数采用软更新方式，即在每一步上，都会对目标网络参数进行更新，但不是固定时间步更新，更新的幅度较小；

(2)价值函数网络设计：

7.根据权利要求1所述的一种基于强化学习的增强高铁自动驾驶控制系统准时性的方法，其特征在于：步骤4中模型训练流程如下：