CN116859731A - 基于强化学习的增强高铁自动驾驶控制系统准时性的方法 - Google Patents
基于强化学习的增强高铁自动驾驶控制系统准时性的方法 Download PDFInfo
- Publication number
- CN116859731A CN116859731A CN202310804271.1A CN202310804271A CN116859731A CN 116859731 A CN116859731 A CN 116859731A CN 202310804271 A CN202310804271 A CN 202310804271A CN 116859731 A CN116859731 A CN 116859731A
- Authority
- CN
- China
- Prior art keywords
- train
- network
- speed
- model
- value
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 71
- 230000002787 reinforcement Effects 0.000 title claims abstract description 45
- 230000002708 enhancing effect Effects 0.000 title claims abstract description 15
- 230000006870 function Effects 0.000 claims abstract description 71
- 238000012549 training Methods 0.000 claims abstract description 54
- 238000004088 simulation Methods 0.000 claims abstract description 18
- 238000013528 artificial neural network Methods 0.000 claims abstract description 17
- 230000008569 process Effects 0.000 claims abstract description 16
- 230000009471 action Effects 0.000 claims description 48
- 230000004913 activation Effects 0.000 claims description 15
- 230000007704 transition Effects 0.000 claims description 14
- 238000004422 calculation algorithm Methods 0.000 claims description 13
- 238000004364 calculation method Methods 0.000 claims description 12
- 238000013461 design Methods 0.000 claims description 9
- 230000008859 change Effects 0.000 claims description 7
- 210000002569 neuron Anatomy 0.000 claims description 6
- 230000001133 acceleration Effects 0.000 claims description 3
- 238000013459 approach Methods 0.000 claims description 3
- 238000006073 displacement reaction Methods 0.000 claims description 3
- 238000011478 gradient descent method Methods 0.000 claims description 3
- 230000005484 gravity Effects 0.000 claims description 3
- 238000012545 processing Methods 0.000 claims description 3
- 238000005096 rolling process Methods 0.000 claims description 3
- 230000003068 static effect Effects 0.000 claims description 3
- 238000010998 test method Methods 0.000 claims description 3
- 230000000875 corresponding effect Effects 0.000 description 5
- 238000010586 diagram Methods 0.000 description 5
- 230000000694 effects Effects 0.000 description 3
- 230000001276 controlling effect Effects 0.000 description 2
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000011217 control strategy Methods 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 230000008713 feedback mechanism Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G05—CONTROLLING; REGULATING
- G05B—CONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
- G05B13/00—Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion
- G05B13/02—Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric
- G05B13/04—Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric involving the use of models or simulators
- G05B13/042—Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric involving the use of models or simulators in which a parameter or coefficient is automatically adjusted to optimise the performance
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Computation (AREA)
- Medical Informatics (AREA)
- Software Systems (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Automation & Control Theory (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明提供一种基于强化学习的增强高铁自动驾驶控制系统准时性的方法,通过建立基本数据模块和列车运行仿真模块,设置奖励函数和额外单步奖励,设计神经网络结构,构建高速列车自动驾驶训练模型;确定训练参数执行训练,得到高速列车自动驾驶控制模型;本发明改进列车准时性奖励函数的设置方式,在保留原有全局奖励方法的基础上,设置一个在一轮训练过程中的每个单步中都能给予智能体准时性反馈的额外奖励函数,使奖励函数的引导性更强,解决准时性稀疏奖励难以获得的问题,提高列车自动驾驶控制系统的训练效率,更好地满足自动驾驶列车运行过程中的准时性要求。
Description
技术领域
本发明涉及一种高铁自动驾驶控制方法,特别涉及一种基于强化学习的增强高铁自动驾驶控制系统准时性的方法。
背景技术
强化学习是实现强人工智能的方法之一。作为一类自学习的机器学习算法,不同于监督学习与无监督学习,强化学习凭借着试错学习、反馈机制等独特优势,在自动化控制领域得到了深入而广泛的研究。强化学习基于马尔科夫决策过程,以奖励函数作为激励,使智能体在不断与环境交互的过程中采用探索试错的方法自主迭代学习,逐渐获得经验和知识,并做出相应的行动策略以适应环境。强化学习方法在多阶段决策问题中展现出了强大的自学习能力和近似最优解搜索的显著优越性。在列车自动驾驶决策领域具有巨大的应用潜力。
奖励稀疏是强化学习在列车准时性决策实际应用场景中存在的一个关键问题。奖励函数是由环境给出的表示强化学习智能体在某一步采取某个策略的优劣程度的反馈信号,强化学习智能体的目的就是最大化可以获得的奖励。奖励函数的设置方法的不同将直接影响到智能体的行为,从而影响控制策略的训练效率及智能化程度。智能体在无法得到足够多的、有效的奖励时,将会出现学习缓慢甚至无法进行有效学习的问题。
在目前的强化学习列车决策控制方法中,关于准时性指标奖励函数的设置是:在每一轮训练的N步中,智能体会将每一步所花费的时间累加起来计算实际运行时间,然后用实际运行时间和计划运行时间的差值来表达准时性奖励值。每一轮训练的准时性奖励仅体现在该轮的最后一步。该方法的问题在于将每一轮最后的准时性奖励全部加在了该轮训练的最后一步上,而前面的N-1步采集到的训练数据中没有任何关于准时性的奖励信息,对于主流的采用时序差分单步更新方式的强化学习算法来说,多数时候智能体都不能得到准时性奖励,而不能得到奖励的情况下训练智能体是非常困难的,造成训练效率低下,训练效果差等问题。
综上所述,为了解决基于强化学习的列车决策控制方法中准时性稀疏奖励难以获得所导致的训练效率低、效果差的问题,更好地满足自动驾驶列车运行过程中的准时性要求,急需提供一种增强高速列车自动驾驶控制系统准时性的方法。
发明内容
为了解决上述技术问题,本发明提供一种基于强化学习的增强高铁自动驾驶控制系统准时性的方法,包括下述步骤:
步骤1,建立基本数据模块,包括列车参数模块与线路数据模块;
步骤2,基于基本数据模块,建立列车运行仿真模块中的列车运行仿真环境,所述的列车运行仿真环境包括列车运动学模型和列车状态转移模型;
步骤3,基于基本数据模块和列车运行仿真模块,定义状态空间与动作空间,设置全局奖励函数,设置额外单步奖励,定义强化学习决策控制模型架构,设计神经网络结构,构建高速列车自动驾驶训练模型;所述的全局奖励函数依据列车运行的安全性与准时性指标设置;所述的额外单步奖励驱使智能体的运行速度在条件满足时趋向于平均运行速度,引导智能体在限速条件允许的前提下,尽量以接近v的速度运行,以增强列车运行的准时性;
步骤4,确定强化学习人工神经网络的超参数并执行训练,直至模型收敛,得到高速列车自动驾驶控制模型;使用此模型输出的策略即为满足准时性要求的高速列车运行控制方法。
进一步的,步骤1中所述的列车参数模块包括:列车基本数据、列车基本阻力参数、附加阻力参数、列车牵引制动特性、列车质量变化参数中的一种或数种;
所述的线路数据模块包括:坡道数据、弯道数据、隧道数据中的一种或数种。
进一步的,步骤2列车运行仿真模块中,所述的列车运动学模型和列车状态转移模型建立方法如下:
2.1、所述的列车运动学模型如公式(1)所示:
式中,x为列车的位置;v为列车实时运行速度,单位为km/h;m为列车质量,单位为t;F(v)和B(v)分别是列车在速度为v时对应的最大牵引力和最大制动力,单位为kN;uf和ub分别为牵引力和制动力的输出比例;Rc(v)是列车在一定速度下受到的基本运行阻力,单位为kN;Rt为列车运行所受的总附加阻力,单位为kN;
2.1.1、所述的F(v)和B(v)的计算方法:
对于已知型号的列车,根据其牵引特性曲线与制动特性曲线,利用插值法求解确定速度对应的牵引力与制动力;
2.1.2、所述的基本运行阻力Rc(v)由轴承阻力、滚动阻力、滑动阻力、冲击和振动阻力以及空气阻力构成,根据经验公式进行计算:
Rb(t)=(r1+r2v+r3v2)m·g (2)
式中,r1,r2和r3为阻力系数,v为列车的实时运行速度,m为列车总质量,g为重力加速度;
2.1.3、所述的总附加阻力Rt包括:
(1)坡道附加阻力Wi:
列车所受重力沿坡道方向的分力
Wi=m·g·sinθ (3)
其中θ为坡道与水平方向的夹角;
(2)曲线附加阻力Wr:
根据经验公式计算:
其中,A为试验方法确定的常数,R为曲线半径;
(3)隧道附加空气阻力Ws:
计算公式为:
Ws=0.00013Ls·m·g (5)
其中,Ls为隧道长度,单位为m;
综上,列车运行所受的总附加阻力为:
Rt=Wi+Wr+Ws (6)
2.2、所述的列车状态转移模型建立方法如下:
根据列车运动学模型提供的数据,确定列车当前运行状态,所述的列车当前运行状态包括列车当前速度、运行距离、运行时间;将列车当前运行状态传递给强化学习决策控制模型,并接收来自决策控制模型输出的牵引力控制指令,输入列车运动学模型进行列车运动学计算,得到列车的下一状态。
进一步的,步骤3所述高速列车自动驾驶训练模型建立过程包括:
3.1、定义状态空间:
列车在站间的运行过程中,将列车的状态Si定义为:
Si=[xi,vi,tresi,ii,ri,ci,di] (7)
其中xi为当前时刻的列车位置;vi为当前时刻的列车速度;ii为当前位置处的道路坡度;tresi为列车计划到站剩余运行时间,tresi∈[0,T],T为给定的列车站间运行时分;ri为当前位置的道路曲率;ci和di为布尔变量,ci代表当前是否处于隧道中,di代表是否到达终点;
将列车的状态以七元数组的形式记录,作为决策控制模型网络的输入数据;
3.2、定义动作空间:
智能体执行的动作空间如下:
ai∈[-1,1]
其中,ai表示牵引/制动力输出比例,当ai>0时为牵引,当ai<0时为制动,当ai=0时为惰行;|ai|的值越大则牵引/制动力越大;
3.3、设置全局奖励函数:
(1)安全性奖励函数的设置方法:
当列车出现超速状态时,对其奖励评价为一个足够小的负值-R;
(2)全局准时性奖励函数的设置方法:
其中,ΔT表示为:
T(x)和Tp分别为列车实际运行时间和计划运行时间;其中,T(x)计算方法为:
3.4、设置额外单步奖励:
通过总里程X与目标运行时间Tp计算列车期望运行速度v,在限速的范围内,依据列车当前速度vi与v差值的绝对值v-deviation设置额外的单步奖励,当vi越接近v时给予智能体一个越大的正奖励;
将此额外单步奖励以一定的权重与全局准时性奖励相加,作为总奖励;额外单步奖励驱使智能体的运行速度在条件满足时趋向于平均运行速度,引导智能体在限速条件允许的前提下,尽量以接近的速度运行,间接影响列车运行的准时性;
3.5、定义强化学习决策控制模型架构:
从步骤2.2中的上层列车状态转移模型中,获得步骤3.1中定义的列车当前的状态信息,作为强化学习决策控制模型网络的输入;模型网络的输出动作为步骤3.2中定义的牵引/制动力输出比例ai的数值,其通过步骤2.1中列车运动学模型的变量uf和ub的数值大小来体现;将uf和ub输入列车运动学模型,获得下一状态,进入下一步训练;
3.6、神经网络结构设计:
基于具有连续动作空间的DDPG算法设计演员-评论家神经网络结构,定义强化学习决策控制模型中各个网络的类型、隐藏层数、每层的节点数,设置损失函数与激活函数的类型,规定训练的轮次以及每轮训练的步数;设置训练超参数与经验回放池参数。
进一步的,所述的神经网络结构设计包括以下步骤:
(1)策略函数网络设计:
采用确定性策略μ,使智能体在每一步训练时直接获得确定的动作值ai:
ai=μθ(st|θμ)
上式中,ai表示在第i步智能体获得最优的动作值,μ表示最优动作策略,θ表示策略函数μ中的参数;
构建策略网络对确定性动作策略函数μ进行近似;策略网络包括两个子网络:在线网络和目标网络,首先构建在线网络,定义为2层隐藏层神经网络,分别设置400和300个神经元;
在线网络的输入为步骤3.1中定义的列车当前状态Si,输出为步骤3.2中定义的智能体当前选择执行的动作ai;对两个隐藏层使用线性整流激活函数(Rectified LinearUnit,ReLU),以及批处理和L2正则化,以实现稳定性,避免出现陷入局部最优、过拟合等现象;对于策略网络的输出层使用双曲正切激活函数(hyperbolic tangent function,Tanh),保持取值有界;
在线网络的参数更新方式为在结束每次小批量数据训练后,采用梯度下降算法更新网络参数;
策略网络中的目标网络模型结构及初始化参数与在线网络保持一致;目标网络的参数采用软更新方式,即在每一步上,都会对目标网络参数进行更新,但不是固定时间步更新,更新的幅度较小。
软更新方式使得算法的目标网络模型参数变化率变小,在强化学习训练过程中计算在线网络的梯度变化更稳定,使得训练更容易收敛。
(2)价值函数网络设计:
智能体在列车环境状态Si下采取动作ai,按照确定性动作策略μ执行,所获得的价值期望,即价值函数Q,用贝尔曼方程的形式表示;
构建价值网络对价值函数进行近似,价值网络也被称为Q网络,计算得到的价值叫做Q值;价值网络包括两个子网络:在线网络和目标网络,价值函数网络同时将列车环境的状态Si和智能体的行为动作ai作为输入,输出为计算出当前的Q值;构造2个输入层,2个隐藏层,隐藏层的神经元个数分别为200和300个;
每个隐藏层的输出使用ReLU激活函数进行非线性化处理,价值网络的输出函数Q(s,a),在理论上是无界的,故不添加输出层激活函数;
价值网络参数的更新方式与策略网络相同,均采用软更新的方式。
进一步的,步骤4中模型训练流程如下:
4.1、初始化策略网络和价值网络的超参数,初始化经验回放池,导入列车运行的线路静态数据与限速信息,初始化列车运行仿真环境状态值;
4.2、将列车当前状态输入策略网络,策略网络输出动作值给状态转移模型,控制列车执行动作,包括牵引、惰行、制动;
4.3、更新列车的下一运行状态信息,计算智能体对应获得的奖励值;将列车当前运行状态、当前选择执行的动作、获得的反馈奖励值以及下一运行状态组合成一个元组放入经验回放池中;
4.4、智能体随机批量地从经验回放池抽取一定批量的经验样本数据,基于梯度下降方法训练并更新策略网络的权重参数;
4.5、判断当前列车运行是否到达终止状态,若已达到终止状态,则结束本轮训练,否则重复步骤4.2至步骤4.5。
本发明的有益效果:
本发明针对基于强化学习的列车决策控制算法中准时性奖励为全局奖励所导致的训练效率低、效果差等问题,提出一种基于强化学习的增强高铁自动驾驶控制系统准时性的方法,本发明改进列车准时性奖励函数的设置方式,在保留原有全局奖励方法的基础上,设置一个在一轮训练过程中的每个单步中都能给予智能体准时性反馈的额外奖励函数,使奖励函数的引导性更强,解决准时性稀疏奖励难以获得的问题,增强列车自动驾驶控制系统的训练效率,更好地满足自动驾驶列车运行过程中的准时性要求。
附图说明
图1为本发明控制方法整体流程示意图;
图2为本发明控制系统结构框架示意图;
图3为本发明实施例列车牵引特性曲线图;
图4为本发明实施例列车制动特性曲线图;
图5为本发明实施例列车运行线路数据示意图;
图6为本发明准时性单步附加奖励示意图;
图7为本发明实施例中采用的DDPG算法的结构图。
具体实施方式
参阅附图1-2所示,本发明提供一种基于强化学习的增强高铁自动驾驶控制系统准时性的方法,包括下述步骤:
步骤1,建立基本数据模块,包括列车参数模块与线路数据模块;
所述的列车参数模块包括:列车基本数据、列车基本阻力参数、附加阻力参数、列车牵引制动特性、列车质量变化参数等;
以CRH3-350列车为例:
标准运行质量:428t;
列车长度:200.67m;
基本运行阻力戴维斯公式系数:
f=6.6+0.0245v+0.00132v2(N/ton),v单位:km/h。
列车牵引特性曲线如图3所示;
列车制动特性曲线如图4所示;
所述的线路数据模块包括:坡道数据、弯道数据、隧道数据,具体的如里程数、坡度、弯道曲率以及是否处于隧道等,选用某高速铁路某区间的实际线路数据,如图5所示。
步骤2,基于基本数据模块,建立列车运行仿真模块中的列车运行仿真环境,所述的列车运行仿真环境包括列车运动学模型和列车状态转移模型;建模具体步骤如下:
2.1、所述的列车运动学模型如公式(1)所示:
式中,x为列车的位置;v为列车实时运行速度,单位为km/h;m为列车质量,单位为t;F(v)和B(v)分别是列车在速度为v时对应的最大牵引力和最大制动力,单位为kN;uf和ub分别为牵引力和制动力的输出比例;Rc(v)是列车在一定速度下受到的基本运行阻力,单位为kN;Rt为列车运行所受的总附加阻力,单位为kN;
2.1.1、所述的F(v)和B(v)的计算方法:
已知列车型号为CRH3-350,根据其牵引特性曲线与制动特性曲线,利用插值法求解确定速度对应的牵引力与制动力;
2.1.2、所述的基本运行阻力Rc(v)由轴承阻力、滚动阻力、滑动阻力、冲击和振动阻力以及空气阻力构成。实际情况下,基本运行阻力的计算往往难以精准描述,根据经验公式进行计算:
Rb(t)=(r1+r2v+r3v2)m·g (2)
式中,r1,r2和r3为阻力系数,v为列车的实时运行速度,m为列车总质量,g为重力加速度;CRH3-350列车的阻力系数r1、r2和r3的数值分别为:r1=6.6,r2=0.0245,r3=0.00132;列车总质量m的数值为428t。
2.1.3、所述的总附加阻力Rt包括:
(1)坡道附加阻力Wi:
列车所受重力沿坡道方向的分力
Wi=m·g·sinθ (3)
其中θ为坡道与水平方向的夹角;
(2)曲线附加阻力Wr:
曲线附加阻力与列车车辆轴距、运行速度、曲线半径等因素有关。按照《列车牵引计算规程》,通常根据经验公式计算:
其中,A为试验方法确定的常数,由试验方法确定,数值为600;R为曲线半径;
(3)隧道附加空气阻力Ws:
隧道附加空气阻力与列车外形、横截面积、隧道长度和隧道横截面积等因素有关,计算公式为:
Ws=0.00013Ls·m·g (5)
其中,Ls为隧道长度,单位为m;
综上,列车运行所受的总附加阻力为:
Rt=Wi+Wr+Ws (6)
2.2、所述的列车状态转移模型建立方法如下:
以站间里程数划分高速列车的训练步长,具体地,位置的离散间隔为Δx,位置空间被离散化为Nx=x/Δx个区间,此处取Δx为40m,因为Δx足够小,所以每个区间内的道路坡度与道路曲率以及是否处于隧道中可被视为定值。
根据列车运动学模型提供的数据,确定列车当前运行状态,所述的列车当前运行状态包括列车当前速度、运行距离、运行时间;将列车当前运行状态传递给强化学习决策控制模型,并接收来自决策控制模型输出的牵引力控制指令,输入列车运动学模型进行列车运动学计算,得到列车的下一状态。
步骤3,基于基本数据模块和列车运行仿真模块,定义状态空间与动作空间,设置全局奖励函数,设置额外单步奖励,定义强化学习决策控制模型架构,设计神经网络结构,构建高速列车自动驾驶训练模型,所述的全局奖励函数依据列车运行的安全性与准时性指标设置;所述的额外单步奖励驱使智能体的运行速度在条件满足时趋向于平均运行速度,引导智能体在限速条件允许的前提下,尽量以接近v的速度运行,以增强列车运行的准时性;
步骤如下;
3.1、定义状态空间:
列车在站间的运行过程中,将列车的状态Si定义为:
Si=[xi,vi,tresi,ii,ri,ci,di] (7)
其中xi为当前时刻的列车位置;vi为当前时刻的列车速度;ii为当前位置处的道路坡度;tresi为列车计划到站剩余运行时间,tresi∈[0,T],T为给定的列车站间运行时分;ri为当前位置的道路曲率;ci和di为布尔变量,ci代表当前是否处于隧道中,di代表是否到达终点;
将列车的状态以七元数组的形式记录,作为决策控制模型网络的输入数据;
3.2、定义动作空间:
在列车自动运行过程中,列车执行的牵引、惰行、制动等控制信号可视为连续型动作,进行数值输出。智能体执行的动作空间如下:
ai∈[-1,1]
其中,ai表示牵引/制动力输出比例,当ai>0时为牵引,当ai<0时为制动,当ai=0时为惰行;|ai|的值越大则牵引/制动力越大;ai的值与列车动作的对应关系如表1所示:
表1ai与列车动作的对应关系
3.3、设置奖励函数:
奖励函数的设计是本发明的核心内容。考虑安全性与准时性,在常规准时性奖励函数的基础上设置额外引导功能的奖励函数,对准时性模型进行求解。
(1)安全性奖励函数的设置方法:
当列车出现超速状态时,对其奖励评价为一个足够小的负值-R;
(2)全局准时性奖励函数的设置方法:
其中,ΔT表示为:
T(x)和Tp分别为列车实际运行时间和计划运行时间;其中,T(x)计算方法为:
3.4、设置额外单步奖励:
通过总里程X与目标运行时间Tp计算列车期望运行速度v,在限速的范围内,依据列车当前速度vi与v差值的绝对值v-deviation设置额外的单步奖励,当vi越接近时给予智能体一个越大的正奖励;
将此额外单步奖励以一定的权重与全局准时性奖励相加,作为总奖励;额外单步奖励驱使智能体的运行速度在条件满足时趋向于平均运行速度,引导智能体在限速条件允许的前提下,尽量以接近v的速度运行,间接影响列车运行的准时性,如图6所示;
3.5、定义强化学习决策控制模型架构:
从步骤2.2中的上层列车状态转移模型中,获得步骤3.1中定义的列车当前的状态信息,作为强化学习决策控制模型网络的输入;模型网络的输出动作为步骤3.2中定义的牵引/制动力输出比例ai的数值,其通过步骤2.1中列车运动学模型的变量uf和ub的数值大小来体现;将uf和ub输入列车运动学模型,获得下一状态,进入下一步训练;
3.6、神经网络结构设计:
基于具有连续动作空间的DDPG算法设计演员-评论家神经网络结构,算法流程如图7所示;定义强化学习决策控制模型中各个网络的类型、隐藏层数、每层的节点数,设置损失函数与激活函数的类型,规定训练的轮次以及每轮训练的步数;设置训练超参数与经验回放池参数。包括以下步骤:
(1)策略函数网络设计:
采用确定性策略μ,使智能体在每一步训练时直接获得确定的动作值ai:
ai=μθ(st|θμ)
上式中,ai表示在第i步智能体获得最优的动作值,μ表示最优动作策略,θ表示策略函数μ中的参数;
构建策略网络对确定性动作策略函数μ进行近似;策略网络包括两个子网络:在线网络和目标网络,首先构建在线网络,定义为2层隐藏层神经网络,分别设置400和300个神经元;
在线网络的输入为步骤3.1中定义的列车当前状态Si,输出为步骤3.2中定义的智能体当前选择执行的动作ai;对两个隐藏层使用线性整流激活函数(Rectified LinearUnit,ReLU),以及批处理和L2正则化,以实现稳定性,避免出现陷入局部最优、过拟合等现象;对于策略网络的输出层使用双曲正切激活函数(hyperbolic tangent function,Tanh),保持取值有界;
在线网络的参数更新方式为在结束每次小批量数据训练后,采用梯度下降算法更新网络参数;
策略网络中的目标网络模型结构及初始化参数与在线网络保持一致;目标网络的参数采用软更新方式,即在每一步上,都会对目标网络参数进行更新,但不是固定时间步更新,更新的幅度较小。
软更新方式使得算法的目标网络模型参数变化率变小,在强化学习训练过程中计算在线网络的梯度变化更稳定,使得训练更容易收敛。
(2)价值函数网络设计:
智能体在列车环境状态Si下采取动作ai,按照确定性动作策略μ执行,所获得的价值期望,即价值函数Q,用贝尔曼方程的形式表示;
构建价值网络对价值函数进行近似,价值网络也被称为Q网络,计算得到的价值叫做Q值;价值网络包括两个子网络:在线网络和目标网络,价值函数网络同时将列车环境的状态Si和智能体的行为动作ai作为输入,输出为计算出当前的Q值;构造2个输入层,2个隐藏层,隐藏层的神经元个数分别为200和300个;
每个隐藏层的输出使用ReLU激活函数进行非线性化处理,价值网络的输出函数Q(s,a),在理论上是无界的,故不添加输出层激活函数;
价值网络参数的更新方式与策略网络相同,均采用软更新的方式。
步骤4,确定强化学习人工神经网络的超参数并执行训练,直至模型收敛,得到高速列车自动驾驶控制模型;使用此模型输出的策略即为满足准时性要求的高速列车运行控制方法;训练流程如下:
4.1、初始化策略网络和价值网络的超参数,如表2所示,初始化经验回放池,导入列车运行的线路静态数据与限速信息,初始化列车运行仿真环境状态值;
表2网络超参数
4.2、将列车当前状态输入策略网络,策略网络输出动作值给状态转移模型,控制列车执行动作,包括牵引、惰行、制动等操作;
4.3、更新列车的下一运行状态信息,计算智能体对应获得的奖励值;将列车当前运行状态、当前选择执行的动作、获得的反馈奖励值以及下一运行状态组合成一个元组放入经验回放池中;
4.4、智能体随机批量地从经验回放池抽取一定批量的经验样本数据,基于梯度下降方法训练并更新策略网络的权重参数;
4.5、判断当前列车运行是否到达终止状态,若已达到终止状态,则结束本轮训练,否则重复步骤4.2至步骤4.5。
Claims (7)
1.一种基于强化学习的增强高铁自动驾驶控制系统准时性的方法,其特征在于:包括下述步骤:
步骤1,建立基本数据模块,包括列车参数模块与线路数据模块;
步骤2,基于基本数据模块,建立列车运行仿真模块中的列车运行仿真环境,所述的列车运行仿真环境包括列车运动学模型和列车状态转移模型;
步骤3,基于基本数据模块和列车运行仿真模块,定义状态空间与动作空间,设置全局奖励函数,设置额外单步奖励,定义强化学习决策控制模型架构,设计神经网络结构,构建高速列车自动驾驶训练模型;所述的全局奖励函数依据列车运行的安全性与准时性指标设置;所述的额外单步奖励驱使智能体的运行速度在条件满足时趋向于平均运行速度,引导智能体在限速条件允许的前提下,尽量以接近的速度运行,以增强列车运行的准时性;
步骤4,确定强化学习人工神经网络的超参数并执行训练,直至模型收敛,得到高速列车自动驾驶控制模型;使用此模型输出的策略即为满足准时性要求的高速列车运行控制方法。
2.根据权利要求1所述的一种基于强化学习的增强高铁自动驾驶控制系统准时性的方法,其特征在于:基本数据模块中,所述的列车参数模块包括:列车基本数据、列车基本阻力参数、附加阻力参数、列车牵引制动特性、列车质量变化参数中的一种或数种;
所述的线路数据模块包括:坡道数据、弯道数据、隧道数据中的一种或数种。
3.根据权利要求1所述的一种基于强化学习的增强高铁自动驾驶控制系统准时性的方法,其特征在于:步骤2列车运行仿真模块中,所述的列车运动学模型和列车状态转移模型建立方法如下:
2.1、所述的列车运动学模型如公式(1)所示:
式中,x为列车的位置;v为列车实时运行速度,单位为km/h;m为列车质量,单位为t;F(v)和B(v)分别是列车在速度为v时对应的最大牵引力和最大制动力,单位为kN;uf和ub分别为牵引力和制动力的输出比例;Rc(v)是列车在一定速度下受到的基本运行阻力,单位为kN;Rt为列车运行所受的总附加阻力,单位为kN;
2.2、所述的列车状态转移模型建立方法如下:
根据列车运动学模型提供的数据,确定列车当前运行状态,所述的列车当前运行状态包括列车当前速度、运行距离、运行时间;将列车当前运行状态传递给强化学习决策控制模型,并接收来自决策控制模型输出的牵引力控制指令,输入列车运动学模型进行列车运动学计算,得到列车的下一状态。
4.根据权利要求3所述的一种基于强化学习的增强高铁自动驾驶控制系统准时性的方法,其特征在于:所述的列车运动学模型中:
2.1.1、所述的F(v)和B(v)的计算方法:
对于已知型号的列车,根据其牵引特性曲线与制动特性曲线,利用插值法求解确定速度对应的牵引力与制动力;
2.1.2、所述的基本运行阻力Rc(v)由轴承阻力、滚动阻力、滑动阻力、冲击和振动阻力以及空气阻力构成,根据经验公式进行计算:
Rb(t)=(r1+r2v+r3v2)m·g (2)
式中,r1、r2和r3为阻力系数,v为列车的实时运行速度,m为列车总质量,g为重力加速度;
2.1.3、所述的总附加阻力Rt包括:
(1)坡道附加阻力Wi:
列车所受重力沿坡道方向的分力
Wi=m·g·sinθ (3)
其中θ为坡道与水平方向的夹角;
(2)曲线附加阻力Wr:
根据经验公式计算:
其中,A为试验方法确定的常数,R为曲线半径;
(3)隧道附加空气阻力Ws:
计算公式为:
Ws=0.00013Ls·m·g (5)
其中,Ls为隧道长度,单位为m;
综上,列车运行所受的总附加阻力为:
Rt=Wi+Wr+Ws (6)。
5.根据权利要求1所述的一种基于强化学习的增强高铁自动驾驶控制系统准时性的方法,其特征在于:步骤3所述高速列车自动驾驶训练模型建立过程包括:
3.1、定义状态空间:
列车在站间的运行过程中,将列车的状态Si定义为:
Si=[xi,vi,tresi,ii,ri,ci,di] (7)
其中xi为当前时刻的列车位置;vi为当前时刻的列车速度;ii为当前位置处的道路坡度;tresi为列车计划到站剩余运行时间,tresi∈[0,T],T为给定的列车站间运行时分;ri为当前位置的道路曲率;ci和di为布尔变量,ci代表当前是否处于隧道中,di代表是否到达终点;
将列车的状态以七元数组的形式记录,作为决策控制模型网络的输入数据;
3.2、定义动作空间:
智能体执行的动作空间如下:
ai∈[-1,1]
其中,ai表示牵引/制动力输出比例,当ai>0时为牵引,当ai<0时为制动,当ai=0时为惰行;|ai|的值越大则牵引/制动力越大;
3.3、设置奖励函数:
(1)安全性奖励函数的设置方法:
当列车出现超速状态时,对其奖励评价为一个足够小的负值-R;
(2)全局准时性奖励函数的设置方法:
其中,ΔT表示为:
T(x)和Tp分别为列车实际运行时间和计划运行时间;其中,T(x)计算方法为:
3.4、设置额外单步奖励:
通过总里程X与目标运行时间Tp计算列车期望运行速度在限速的范围内,依据列车当前速度vi与/>差值的绝对值v-deviation设置额外的单步奖励,当vi越接近/>时给予智能体一个越大的正奖励;
将此额外单步奖励以一定的权重与全局准时性奖励相加,作为总奖励;额外单步奖励驱使智能体的运行速度在条件满足时趋向于平均运行速度,引导智能体在限速条件允许的前提下,尽量以接近的速度运行,间接影响列车运行的准时性;
3.5、定义强化学习决策控制模型架构:
从上层列车状态转移模型中,获得步骤3.1中定义的列车当前的状态信息,作为强化学习决策控制模型网络的输入;模型网络的输出动作为步骤3.2中定义的牵引/制动力输出比例ai的数值,其通过列车运动学模型的变量uf和ub的数值大小来体现,所述的uf和ub分别为牵引力和制动力的输出比例;将uf和ub输入列车运动学模型,获得下一状态,进入下一步训练;
3.6、神经网络结构设计:
基于具有连续动作空间的DDPG算法设计演员-评论家神经网络结构,定义强化学习决策控制模型中各个网络的类型、隐藏层数、每层的节点数,设置损失函数与激活函数的类型,规定训练的轮次以及每轮训练的步数;设置训练超参数与经验回放池参数。
6.根据权利要求5所述的一种基于强化学习的增强高铁自动驾驶控制系统准时性的方法,其特征在于:3.6所述的神经网络结构设计包括以下步骤:
(1)策略函数网络设计:
采用确定性策略μ,使智能体在每一步训练时直接获得确定的动作值ai:
ai=μθ(st|θμ)
上式中,ai表示在第i步智能体获得最优的动作值,μ表示最优动作策略,θ表示策略函数μ中的参数;
构建策略网络对确定性动作策略函数μ进行近似;策略网络包括两个子网络:在线网络和目标网络,首先构建在线网络,定义为2层隐藏层神经网络,分别设置400和300个神经元;
在线网络的输入为步骤3.1中定义的列车当前状态Si,输出为步骤3.2中定义的智能体当前选择执行的动作ai;对两个隐藏层使用线性整流激活函数,以及批处理和L2正则化;对于策略网络的输出层使用双曲正切激活函数,保持取值有界;
在线网络的参数更新方式为在结束每次小批量数据训练后,采用梯度下降算法更新网络参数;
策略网络中的目标网络模型结构及初始化参数与在线网络保持一致;目标网络的参数采用软更新方式,即在每一步上,都会对目标网络参数进行更新,但不是固定时间步更新,更新的幅度较小;
(2)价值函数网络设计:
智能体在列车环境状态Si下采取动作ai,按照确定性动作策略μ执行,所获得的价值期望,即价值函数Q,用贝尔曼方程的形式表示;
构建价值网络对价值函数进行近似,价值网络也被称为Q网络,计算得到的价值叫做Q值;价值网络包括两个子网络:在线网络和目标网络,价值函数网络同时将列车环境的状态Si和智能体的行为动作ai作为输入,输出为计算出当前的Q值;构造2个输入层,2个隐藏层,隐藏层的神经元个数分别为200和300个;
每个隐藏层的输出使用ReLU激活函数进行非线性化处理,价值网络的输出函数Q(s,a),在理论上是无界的,故不添加输出层激活函数;
价值网络参数的更新方式与策略网络相同,均采用软更新的方式。
7.根据权利要求1所述的一种基于强化学习的增强高铁自动驾驶控制系统准时性的方法,其特征在于:步骤4中模型训练流程如下:
4.1、初始化策略网络和价值网络的超参数,初始化经验回放池,导入列车运行的线路静态数据与限速信息,初始化列车运行仿真环境状态值;
4.2、将列车当前状态输入策略网络,策略网络输出动作值给状态转移模型,控制列车执行动作,包括牵引、惰行、制动;
4.3、更新列车的下一运行状态信息,计算智能体对应获得的奖励值;将列车当前运行状态、当前选择执行的动作、获得的反馈奖励值以及下一运行状态组合成一个元组放入经验回放池中;
4.4、智能体随机批量地从经验回放池抽取一定批量的经验样本数据,基于梯度下降方法训练并更新策略网络的权重参数;
4.5、判断当前列车运行是否到达终止状态,若已达到终止状态,则结束本轮训练,否则重复步骤4.2至步骤4.5。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310804271.1A CN116859731A (zh) | 2023-07-03 | 2023-07-03 | 基于强化学习的增强高铁自动驾驶控制系统准时性的方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310804271.1A CN116859731A (zh) | 2023-07-03 | 2023-07-03 | 基于强化学习的增强高铁自动驾驶控制系统准时性的方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116859731A true CN116859731A (zh) | 2023-10-10 |
Family
ID=88218337
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310804271.1A Pending CN116859731A (zh) | 2023-07-03 | 2023-07-03 | 基于强化学习的增强高铁自动驾驶控制系统准时性的方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116859731A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117474295A (zh) * | 2023-12-26 | 2024-01-30 | 长春工业大学 | 一种基于Dueling DQN算法的多AGV负载均衡与任务调度方法 |
-
2023
- 2023-07-03 CN CN202310804271.1A patent/CN116859731A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117474295A (zh) * | 2023-12-26 | 2024-01-30 | 长春工业大学 | 一种基于Dueling DQN算法的多AGV负载均衡与任务调度方法 |
CN117474295B (zh) * | 2023-12-26 | 2024-04-26 | 长春工业大学 | 一种基于Dueling DQN算法的多AGV负载均衡与任务调度方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110969848B (zh) | 一种对向双车道下基于强化学习的自动驾驶超车决策方法 | |
Wang et al. | Continuous control for automated lane change behavior based on deep deterministic policy gradient algorithm | |
CN110991027A (zh) | 一种基于虚拟场景训练的机器人模仿学习方法 | |
CN112947562A (zh) | 一种基于人工势场法和maddpg的多无人机运动规划方法 | |
CN112508164B (zh) | 一种基于异步监督学习的端到端自动驾驶模型预训练方法 | |
Aradi et al. | Policy gradient based reinforcement learning approach for autonomous highway driving | |
CN116859731A (zh) | 基于强化学习的增强高铁自动驾驶控制系统准时性的方法 | |
CN112183288B (zh) | 一种基于模型的多智能体强化学习方法 | |
CN114153213A (zh) | 一种基于路径规划的深度强化学习智能车行为决策方法 | |
CN114074680B (zh) | 基于深度强化学习的车辆换道行为决策方法及系统 | |
CN115743179A (zh) | 一种车辆概率多模态预期轨迹预测方法 | |
Feher et al. | Q-learning based reinforcement learning approach for lane keeping | |
CN113033902B (zh) | 一种基于改进深度学习的自动驾驶换道轨迹规划方法 | |
Sun et al. | Human-like highway trajectory modeling based on inverse reinforcement learning | |
CN116027669A (zh) | 一种高速列车自适应滑模控制方法、系统及电子设备 | |
CN116476825A (zh) | 一种基于安全可信强化学习的自动驾驶车道保持控制方法 | |
CN111824182A (zh) | 一种基于深度强化学习的三轴重型车自适应巡航控制算法 | |
Nan et al. | Interaction-Aware Planning With Deep Inverse Reinforcement Learning for Human-Like Autonomous Driving in Merge Scenarios | |
CN116551703B (zh) | 一种复杂环境下基于机器学习的运动规划方法 | |
Zhao et al. | Imitation of real lane-change decisions using reinforcement learning | |
CN117048667A (zh) | 一种基于车辆动态响应辨识的重载列车控制方法及系统 | |
CN116224996A (zh) | 一种基于对抗强化学习的自动驾驶优化控制方法 | |
CN114148349B (zh) | 一种基于生成对抗模仿学习的车辆个性化跟驰控制方法 | |
CN115062202A (zh) | 驾驶行为意图及轨迹的预测方法、装置、设备及存储介质 | |
Yang et al. | Decision-making in autonomous driving by reinforcement learning combined with planning & control |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |