CN114620098A - 一种适用于高速列车自动停车的深度强化学习方法 - Google Patents
一种适用于高速列车自动停车的深度强化学习方法 Download PDFInfo
- Publication number
- CN114620098A CN114620098A CN202210069196.4A CN202210069196A CN114620098A CN 114620098 A CN114620098 A CN 114620098A CN 202210069196 A CN202210069196 A CN 202210069196A CN 114620098 A CN114620098 A CN 114620098A
- Authority
- CN
- China
- Prior art keywords
- train
- braking
- reinforcement learning
- speed
- deep reinforcement
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- B—PERFORMING OPERATIONS; TRANSPORTING
- B61—RAILWAYS
- B61L—GUIDING RAILWAY TRAFFIC; ENSURING THE SAFETY OF RAILWAY TRAFFIC
- B61L23/00—Control, warning, or like safety means along the route or between vehicles or vehicle trains
- B61L23/08—Control, warning, or like safety means along the route or between vehicles or vehicle trains for controlling traffic in one direction only
- B61L23/14—Control, warning, or like safety means along the route or between vehicles or vehicle trains for controlling traffic in one direction only automatically operated
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F30/00—Computer-aided design [CAD]
- G06F30/10—Geometric CAD
- G06F30/15—Vehicle, aircraft or watercraft design
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Abstract
本发明属于轨道交通车辆运行控制技术领域,具体为一种适用于高速列车自动停车的深度强化学习方法,解决了背景技术中的技术问题,其包括通过分析高速列车自动停车制动过程中的运动特点,构建动力学模型和制动模型;构建一种结合长短期记忆网络与全连接网络的多输入单输出神经网络结构对高速列车停车制动过程进行深度强化学习;将深度强化学习方法应用到采用实际线路数据建立的仿真环境,计算得到高速列车停车制动的控制方法。本发明适用于轨道交通高速列车自动停车控制过程。本发明解决了现有方法停车制动控制参数寻优难的问题,基于多车多线路模型的强化学习环境使适用场景更加广泛,实现了深度强化学习方法在制动过程中实时调整最优控制参数。
Description
技术领域
本发明属于轨道交通车辆运行控制技术领域,具体为一种适用于高速列车自动停车的深度强化学习方法。
背景技术
列车自动驾驶(Automatic Train Operation,ATO)是智慧轨道交通的核心组成部分,列车自动停车(Automatic Train Parking,ATP)问题是ATO领域的热点之一。现有的关于ATP问题的人工智能控制方法的普遍难点在于制动挡位切换时控制参数寻优。基于此,有必要发明一种新的列车自动停车控制方法,以更好解决高速列车自动停车问题。
发明内容
本发明旨在解决高速列车自动停车过程中制动挡位切换时控制参数寻优难的技术问题,提供了一种适用于高速列车自动停车的深度强化学习方法。
本发明解决其技术问题采用的技术手段是:一种适用于高速列车自动停车的深度强化学习方法,包括以下步骤:
步骤S1:通过分析高速列车自动停车制动过程中的运动特点构建动力学模型和停车过程中的制动模型,高速列车的制动过程为:高速列车以初速度进入停车区域后,根据状态信息,使列车速度均匀下降,直至到达指定位置时速度恰为零;
步骤S2:根据步骤S1中的动力学模型和制动模型,对高速列车停车制动过程进行深度强化学习,其中深度强化学习包括环境和智能体两个相互作用的部分,环境状态为o,智能体将环境状态o划分为o1和o2两个部分,环境状态o在任意t时刻的定义为o=(o1,o2);o1由列车的瞬时位置l、瞬时速度v、实时选择制动指令u以及指令的执行时间m组成,o1在任意t时刻的定义为o1=(l,v,u,m);o2由参考制动系数b和坡度α组成,o2在任意t时刻的定义为o2=(b,α),参考制动系数b由步骤S1中的制动模型得到;
步骤S3:利用长短期网络的记忆功能提取列车t时刻的状态序列特征s(t),列车t时刻的状态序列特征s(t)由最近的i个观测状态o1构成,s(t)的定义为利用全连接网络的泛化能力提取其余的数据特征o2,将长短期网络的输出与全连接网络的输出并联后拼接成一个多输入单输出的神经网络结构;智能体包含知识模块和深度强化学习模块,知识模块用于估计列车当前状态的理想制动指令;深度强化学习模块进一步决策该理想制动指令的持续执行时间;高速列车停车制动过程的深度强化学习包括以下子步骤:
步骤S3-1:建立知识模块,知识模块通过以下公式获得:
ai=G(ui,v),i=0,1,…or 7 (2),
uI=uid (4),
其中aα(l)是由线路坡度引起的加速度,aI为列车理想加速度;l表示实际位置,LT表示制动终点,umax表示最大制动指令,G(umax,v)是关于umax和v的非线性静态函数;vr表示参考速度,由专家经验给出;ui表示制动指令,G(ui,v)是关于umax和v的非线性静态函数;ai为列车每个指令对应的估计减速度,uI为列车当前状态的理想执行指令;i表示挡位;
步骤S3-2:利用步骤S3-1计算出的列车当前状态的理想执行指令uI训练所述神经网络结构得到最优动作价值的估计,记为Q,θ为Q的参数,通过式(5)计算损失函数Λ,再通过式(6)得到更新参数估值θt+1,然后将更新参数估值θt+1带入式(7)计算得到更新后的Q值,选择对应Q值最大的当前动作持续时间mt作为决策理想指令的持续时间,其中式(5)、(6)、(7)分别如下:
其中,ot表示t时刻的环境状态,mt表示当前动作的持续时间,θt是在t时刻对于参数θ的估计值,γ为奖励折扣因子,为目标真实值,是参数θ的最优值;λ为学习率,表示梯度算子,Rt表示t时刻的奖励函数,由Rt可得出Rt+1的函数,Rt+1表示t+1时刻的奖励函数,Rt如式(8)所示,
其中,|ei|是停车误差,通过奖励函数可以看出当列车未到达终点时,为了减少制动指令的切换次数,设定较长的执行时间可获得较大的奖励,其中停车误差|ei|的标准设定为0.3米;
步骤S4:将步骤S2和步骤S3所述的深度强化学习方法应用到采用实际线路数据建立的仿真环境,计算得到高速列车停车制动的控制方法。
本发明的有益效果是:本发明所述深度强化学习方法解决了现有方法停车制动控制参数寻优难的问题,适用于轨道交通车辆运行控制,与现有的列车自动停车方法相比,本发明基于多车多线路模型的强化学习环境,设计了一种结合长短期记忆(LSTM)网络与全连接网络(FCN)的多输入单输出神经网络结构,使得深度强化学习方法适用场景更加广泛,实现了深度强化学习方法在制动过程中实时调整最优控制参数;本发明构建出的高速列车自动停车方法更贴近于现实需求,从而使得应用价值更高。
附图说明
为了更清楚地说明本发明具体实施方式或现有技术中的技术方案,下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明所述的多输入单输出的神经网络结构的结构示意图。
具体实施方式
下面将结合附图对本发明的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
在本发明的描述中,需要说明的是,除非另有明确的规定和限定,术语“安装”、“相连”、“连接”应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或一体地连接;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通。对于本领域的普通技术人员而言,可以具体情况理解上述术语在本发明中的具体含义。
一种适用于高速列车自动停车的深度强化学习方法,包括以下步骤:
步骤S1:通过分析高速列车自动停车制动过程中的运动特点构建动力学模型和停车过程中的制动模型,高速列车的制动过程为:高速列车以初速度进入停车区域后,根据状态信息,使列车速度均匀下降,直至到达指定位置时速度恰为零;
使用单质点模型来描述与分析列车的运动特点,对应的动力学模型表示为:
f4=f1+f2+f3 (9),
f5=d1*v2+d2*v+d3 (10),
fr=f4+f5 (11),
(1+γ-)*a=f+fr (12),
其中f1、f2、f3分别代表由坡度、弯道和隧道引起的阻力,f4为附加总阻力,f5为基本阻力,d1、d2、d3是基本阻力系数,合计为向量D;v为列车的瞬时速度,γ-为列车回转质量系数,a为列车运行时的总加速度,f为单位质量列车的制动力;
所述制动模型表述为:
其中,是列车制动控制器产生的控制减速度,τ是纯延时时间,G(u,v)是非线性静态函数,T1是制动系统响应的时间常数,umax是最大的制动指令,aB(v)是单位质量列车的满制动力模型;式(15)中b1、b2、b3、b4、b5、b6和b7是制动系数,记为b,b即为o2的参考制动系数;v1、v2、v3、v4和v5代表速度v的不同区间分割点;
步骤S2:根据步骤S1中的动力学模型和制动模型,对高速列车停车制动过程进行深度强化学习,其中深度强化学习包括环境和智能体两个相互作用的部分,环境状态为o,智能体将环境状态o划分为o1和o2两个部分,环境状态o在任意t时刻的定义为o=(o1,o2);o1由列车的瞬时位置l、瞬时速度v、实时选择制动指令u以及指令的执行时间m组成,o1在任意t时刻的定义为o1=(l,v,u,m);o2由参考制动系数b和坡度α组成,o2在任意t时刻的定义为o2=(b,α),参考制动系数b由步骤S1中的制动模型得到;
步骤S3:利用长短期网络的记忆功能提取列车t时刻的状态序列特征s(t),列车t时刻的状态序列特征s(t)由最近的i个观测状态o1构成,s(t)的定义为利用全连接网络的泛化能力提取其余的数据特征o2,将长短期网络的输出与全连接网络的输出并联后拼接成一个多输入单输出的神经网络结构;智能体包含知识模块和深度强化学习模块,知识模块用于估计列车当前状态的理想制动指令;深度强化学习模块进一步决策该理想制动指令的持续执行时间;高速列车停车制动过程的深度强化学习包括以下子步骤:
步骤S3-1:建立知识模块,知识模块通过以下公式获得:
ai=G(ui,v),i=0,1,…or 7 (2),
uI=uid (4),
其中aα(l)是由线路坡度引起的加速度,aI为列车理想加速度;l表示实际位置,LT表示制动终点,umax表示最大制动指令,G(umax,v)是关于umax和v的非线性静态函数;vr表示参考速度,由专家经验给出;ui表示制动指令,G(ui,v)是关于ui和v的非线性静态函数;ai为列车每个指令对应的估计减速度,uI为列车当前状态的理想执行指令;i表示挡位;
步骤S3-2:利用步骤S3-1计算出的列车当前状态的理想执行指令uI训练所述神经网络结构得到最优动作价值的估计,记为Q,θ为Q的参数,通过式(5)计算损失函数Λ,再通过式(6)得到更新参数估值θt+1,然后将更新参数估值θt+1带入式(7)计算得到更新后的Q值,选择对应Q值最大的当前动作持续时间mt作为决策理想指令的持续时间,其中式(5)、(6)、(7)分别如下:
其中,ot表示t时刻的环境状态,mt表示当前动作的持续时间,θt是在t时刻对于参数θ的估计值,γ为奖励折扣因子,为目标真实值,是参数θ的最优值;λ为学习率,表示梯度算子,Rt表示t时刻的奖励函数,由Rt可得出Rt+1的函数,Rt+1表示t+1时刻的奖励函数,Rt如式(8)所示,
其中,|ei|是停车误差,通过奖励函数可以看出当列车未到达终点时,为了减少制动指令的切换次数,设定较长的执行时间可获得较大的奖励,其中停车误差|ei|的标准设定为0.3米;
步骤S4:将步骤S2和步骤S3所述的深度强化学习方法应用到采用实际线路数据建立的仿真环境,计算得到高速列车停车制动的控制方法。
最后应说明的是:以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。
Claims (3)
1.一种适用于高速列车自动停车的深度强化学习方法,其特征在于,包括以下步骤:
步骤S1:通过分析高速列车自动停车制动过程中的运动特点构建动力学模型和停车过程中的制动模型,高速列车的制动过程为:高速列车以初速度进入停车区域后,根据状态信息,使列车速度均匀下降,直至到达指定位置时速度恰为零;
步骤S2:根据步骤S1中的动力学模型和制动模型,对高速列车停车制动过程进行深度强化学习,其中深度强化学习包括环境和智能体两个相互作用的部分,环境状态为o,智能体将环境状态o划分为o1和o2两个部分,环境状态o在任意t时刻的定义为o=(o1,o2);o1由列车的瞬时位置l、瞬时速度v、实时选择制动指令u以及指令的执行时间m组成,o1在任意t时刻的定义为o1=(l,v,u,m);o2由参考制动系数b和坡度α组成,o2在任意t时刻的定义为o2=(b,α),参考制动系数b由步骤S1中的制动模型得到;
步骤S3:利用长短期网络的记忆功能提取列车t时刻的状态序列特征s(t),列车t时刻的状态序列特征s(t)由最近的i个观测状态o1构成,s(t)的定义为利用全连接网络的泛化能力提取其余的数据特征o2,将长短期网络的输出与全连接网络的输出并联后拼接成一个多输入单输出的神经网络结构;智能体包含知识模块和深度强化学习模块,知识模块用于估计列车当前状态的理想制动指令;深度强化学习模块进一步决策该理想制动指令的持续执行时间;高速列车停车制动过程的深度强化学习包括以下子步骤:
步骤S3-1:建立知识模块,知识模块通过以下公式获得:
ai=G(ui,v),i=0,1,…or 7 (2),
uI=uid (4),
其中aα(l)是由线路坡度引起的加速度,aI为列车理想加速度;l表示实际位置,LT表示制动终点,umax表示最大制动指令,G(umax,v)是关于umax和v的非线性静态函数;vr表示参考速度;ui表示制动指令,G(ui,v)是关于umax和v的非线性静态函数;ai为列车每个指令对应的估计减速度,uI为列车当前状态的理想执行指令;i表示挡位;
步骤S3-2:利用步骤S3-1计算出的列车当前状态的理想执行指令uI训练所述神经网络结构得到最优动作价值的估计,记为Q,θ为Q的参数,通过式(5)计算损失函数Λ,再通过式(6)得到更新参数估值θt+1,然后将更新参数估值θt+1带入式(7)计算得到更新后的Q值,选择对应Q值最大的当前动作持续时间mt作为决策理想指令的持续时间,其中式(5)、(6)、(7)分别如下:
其中,ot表示t时刻的环境状态,mt表示当前动作的持续时间,θt是在t时刻对于参数θ的估计值,γ为奖励折扣因子,为目标真实值,是参数θ的最优值;λ为学习率,表示梯度算子,Rt表示t时刻的奖励函数,由Rt可得出Rt+1,Rt+1表示t+1时刻的奖励函数Rt如式(8)所示,
其中,|ei|是停车误差;
步骤S4:将步骤S2和步骤S3所述的深度强化学习方法应用到采用实际线路数据建立的仿真环境,计算得到高速列车停车制动的控制方法。
2.根据权利要求1所述的一种适用于高速列车自动停车的深度强化学习方法,其特征在于,步骤S1中,使用单质点模型来描述与分析列车的运动特点,对应的动力学模型表示为:
f4=f1+f2+f3 (9),
f5=d1*v2+d2*v+d3 (10),
fr=f4+f5 (11),
(1+γ-)*a=f+fr (12),
其中,f1、f2、f3分别代表由坡度、弯道和隧道引起的阻力,f4为附加总阻力,f5为基本阻力,d1、d2、d3是基本阻力系数,合计为向量D;v为列车的瞬时速度,γ-为列车回转质量系数,a为列车运行时的总加速度,f为单位质量列车的制动力。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210069196.4A CN114620098A (zh) | 2022-01-21 | 2022-01-21 | 一种适用于高速列车自动停车的深度强化学习方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210069196.4A CN114620098A (zh) | 2022-01-21 | 2022-01-21 | 一种适用于高速列车自动停车的深度强化学习方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114620098A true CN114620098A (zh) | 2022-06-14 |
Family
ID=81898893
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210069196.4A Pending CN114620098A (zh) | 2022-01-21 | 2022-01-21 | 一种适用于高速列车自动停车的深度强化学习方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114620098A (zh) |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110497943A (zh) * | 2019-09-03 | 2019-11-26 | 西南交通大学 | 一种基于强化学习的城轨列车节能运行策略在线优化方法 |
US20200139973A1 (en) * | 2018-11-01 | 2020-05-07 | GM Global Technology Operations LLC | Spatial and temporal attention-based deep reinforcement learning of hierarchical lane-change policies for controlling an autonomous vehicle |
CN112198799A (zh) * | 2020-10-28 | 2021-01-08 | 北京交通大学 | 一种基于深度学习的高速列车停车控制方法及系统 |
CN112193280A (zh) * | 2020-12-04 | 2021-01-08 | 华东交通大学 | 一种重载列车强化学习控制方法及系统 |
-
2022
- 2022-01-21 CN CN202210069196.4A patent/CN114620098A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20200139973A1 (en) * | 2018-11-01 | 2020-05-07 | GM Global Technology Operations LLC | Spatial and temporal attention-based deep reinforcement learning of hierarchical lane-change policies for controlling an autonomous vehicle |
CN110497943A (zh) * | 2019-09-03 | 2019-11-26 | 西南交通大学 | 一种基于强化学习的城轨列车节能运行策略在线优化方法 |
CN112198799A (zh) * | 2020-10-28 | 2021-01-08 | 北京交通大学 | 一种基于深度学习的高速列车停车控制方法及系统 |
CN112193280A (zh) * | 2020-12-04 | 2021-01-08 | 华东交通大学 | 一种重载列车强化学习控制方法及系统 |
US11205124B1 (en) * | 2020-12-04 | 2021-12-21 | East China Jiaotong University | Method and system for controlling heavy-haul train based on reinforcement learning |
Non-Patent Citations (1)
Title |
---|
崔玉君: "基于知识和深度强化学习的列车自动停车控制算法研究", 《中国优秀硕士学位论文全文数据库 (电子期刊)》, pages 2 - 4 * |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112193280B (zh) | 一种重载列车强化学习控制方法及系统 | |
CN108944930B (zh) | 一种基于lstm的模拟驾驶员特性的自动跟车方法及系统 | |
CN109910909B (zh) | 一种多车运动状态的汽车轨迹网联交互式预测方法 | |
CN106844949B (zh) | 一种用于实现机车节能操纵的双向lstm模型的训练方法 | |
CN109740839A (zh) | 一种突发事件下的列车动态调整方法及系统 | |
CN109829577A (zh) | 基于深度神经网络结构模型的轨道列车运行状态预测方法 | |
Acciani et al. | Cooperative adaptive cruise control over unreliable networks: An observer-based approach to increase robustness to packet loss | |
CN103019267A (zh) | 高速列车anfis建模与运行速度预测控制方法 | |
CN112198799B (zh) | 一种基于深度学习的高速列车停车控制方法及系统 | |
CN111159642A (zh) | 一种基于粒子滤波的在线轨迹预测方法 | |
CN111625989A (zh) | 一种基于a3c-sru的智能车汇入车流方法及系统 | |
CN112172813A (zh) | 基于深度逆强化学习的模拟驾驶风格的跟车系统及方法 | |
CN110456636A (zh) | 基于不确定性上界估计的飞行器离散滑模自适应控制方法 | |
CN114620098A (zh) | 一种适用于高速列车自动停车的深度强化学习方法 | |
CN114253274B (zh) | 基于数据驱动的网联混合车辆编队滚动优化控制方法 | |
Brosowsky et al. | Safe deep reinforcement learning for adaptive cruise control by imposing state-specific safe sets | |
CN111679577B (zh) | 一种高速列车的速度跟踪控制方法和自动驾驶控制系统 | |
CN116643499A (zh) | 一种基于模型强化学习的智能体路径规划方法及系统 | |
Su et al. | Adaptive fault-tolerant fixed-time cruise control for virtually coupled train set | |
CN114510081A (zh) | 通信延迟约束下的多无人机集群导航方法 | |
Bisio et al. | Innovative flying strategy based on drone energy profile: an application for traffic monitoring | |
Chung et al. | A new utility function for smooth transition between exploration and exploitation of a wind energy field | |
CN110376887A (zh) | 基于时变滑模增益的飞行器离散滑模智能控制方法 | |
Chen et al. | 5g-enabled edge intelligence for autonomous train control: A practical perspective | |
CN117275240B (zh) | 考虑多类型驾驶风格的交通信号强化学习控制方法和装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |