CN116090336A - 基于改进强化学习算法的虚拟编组列车参考曲线计算方法 - Google Patents
基于改进强化学习算法的虚拟编组列车参考曲线计算方法 Download PDFInfo
- Publication number
- CN116090336A CN116090336A CN202211680558.XA CN202211680558A CN116090336A CN 116090336 A CN116090336 A CN 116090336A CN 202211680558 A CN202211680558 A CN 202211680558A CN 116090336 A CN116090336 A CN 116090336A
- Authority
- CN
- China
- Prior art keywords
- train
- reinforcement learning
- vehicle
- virtual
- car
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000002787 reinforcement Effects 0.000 title claims abstract description 63
- 238000004364 calculation method Methods 0.000 title claims abstract description 25
- 238000005457 optimization Methods 0.000 claims abstract description 24
- 230000006870 function Effects 0.000 claims description 72
- 230000009471 action Effects 0.000 claims description 66
- 238000000034 method Methods 0.000 claims description 61
- 230000001133 acceleration Effects 0.000 claims description 49
- 238000012549 training Methods 0.000 claims description 33
- 230000008569 process Effects 0.000 claims description 28
- 238000013528 artificial neural network Methods 0.000 claims description 21
- 230000007246 mechanism Effects 0.000 claims description 20
- 238000011156 evaluation Methods 0.000 claims description 8
- 230000008901 benefit Effects 0.000 claims description 5
- 230000008602 contraction Effects 0.000 claims description 5
- 230000003993 interaction Effects 0.000 claims description 3
- 239000011159 matrix material Substances 0.000 claims description 3
- 230000015572 biosynthetic process Effects 0.000 abstract description 11
- 230000001360 synchronised effect Effects 0.000 abstract description 11
- 238000010586 diagram Methods 0.000 description 6
- 238000004891 communication Methods 0.000 description 4
- 230000000694 effects Effects 0.000 description 4
- 230000008859 change Effects 0.000 description 2
- 230000001419 dependent effect Effects 0.000 description 2
- 230000007704 transition Effects 0.000 description 2
- 241000135164 Timea Species 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000001934 delay Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 210000002569 neuron Anatomy 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 230000008520 organization Effects 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 238000000926 separation method Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F30/00—Computer-aided design [CAD]
- G06F30/20—Design optimisation, verification or simulation
- G06F30/27—Design optimisation, verification or simulation using machine learning, e.g. artificial intelligence, neural networks, support vector machines [SVM] or training a model
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/40—Business processes related to the transportation industry
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F2111/00—Details relating to CAD techniques
- G06F2111/04—Constraint-based CAD
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Business, Economics & Management (AREA)
- Evolutionary Computation (AREA)
- General Physics & Mathematics (AREA)
- Software Systems (AREA)
- General Health & Medical Sciences (AREA)
- Geometry (AREA)
- General Engineering & Computer Science (AREA)
- Medical Informatics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Artificial Intelligence (AREA)
- Health & Medical Sciences (AREA)
- Economics (AREA)
- Computer Hardware Design (AREA)
- Human Resources & Organizations (AREA)
- Marketing (AREA)
- Primary Health Care (AREA)
- Strategic Management (AREA)
- Tourism & Hospitality (AREA)
- General Business, Economics & Management (AREA)
- Train Traffic Observation, Control, And Security (AREA)
Abstract
本发明公开了基于改进强化学习算法的虚拟编组列车参考曲线计算方法,应用于轨道交通运行控制技术领域,包括:基于虚拟编组列车运行指标与约束的数学形式构建虚拟编组列车的运行优化模型,并确定决策变量;将运行优化模型转化到强化学习框架下;应用改进的强化学习DQN算法对运行优化模型求解,获得虚拟编组列车参考曲线。本发明通过整合各列车单元的独立分布规划,在考虑编队整体的运行指标基础上,为车队中每一辆车都生成一条各自的协同参考曲线,并通过改进的强化学习DQN算法求解,取代了现有的独立分布规划,使得前车不再完全独立的运行而是考虑后车的运行状态,实现虚拟编组列车同步停车、准点到达、精确停车的运行指标。
Description
技术领域
本发明涉及轨道交通运行控制技术领域,特别涉及基于改进强化学习算法的虚拟编组列车参考曲线计算方法。
背景技术
虚拟编组运列车由多个(含两个)具有独立牵引/制动、通信和运行控制能力的列车单元组成,各列车单元间可保持小间距安全追踪运行。虚拟编组列车可以快速灵活地调整编队中列车单元的数量,从而更好地满足动态变化的客流需求,但如何实现虚拟编组列车控制,达到安全运行、准点到达、精准停车、同步停车、同步发车等列车运行目标,仍是一个难题。
现有虚拟编组列车运行控制方案设计中,通常采用独立分步规划的方式,即:前车先独立规划参考曲线,并控制列车运行,后车实时接收前车位置、速度和加速度等信息,将其作为追踪目标。在满足安全间距的约束条件下,规划后车参考曲线,并控制后车运行。由于前车规划和控制时未考虑后车的状态和控制能力,而后车需要基于前车的控制结果实时规划参考曲线,因此在实际运行条件下存在进站不同步、后车实时追踪困难、后车二次规划调整困难等问题,具体为:
第一,进站不同步。虚拟编组列车从外部看等同于一列物理连挂列车,编队中所有列车单元都要求协同一致的启停,以更好的满足乘客上下车需求。但在实际运行过程中,为了保证安全,列车间距始终要大于安全间距,其中安全间距的大小由两车的实际运行状态决定。在站间高速运行时,列车单元之间的间距会受安全间距影响而增大,而在站台停车时需要将间距缩短至很小以满足站台长度限制和方便乘客等要求。因此,如果前车在规划其参考曲线时如果不考虑与后车运行状态的相互关系,后车很难在保证安全间距的同时做到和前车同步停车,这会导致前车完全独立进站停车后,后车需要继续运行一段时间才能满足两车在站台停车的间距要求,从而导致两车停车时间存在较大的时间差,不满足城市轨道交通客运组织的需要。
第二,后车实时追踪困难。在目前的虚拟编组列车运行模式下,后车只有收到前车最新的状态信息后才能计算出自身的控制加速度,从而追踪前车的运行。但是在实际运行场景中,影响车车通信的因素有很多,比如通信延时、信号设备故障、时钟错拍等等。后车一旦没有接收或延迟接收到前车的信息,就会导致后车无法或者只能根据上一周期的信息来控制列车,从而导致追踪出现问题。另外安全间距的计算也需要前车信息,并且安全间距由于自身特性具有高阶非线性的特点,需要考虑其计算时间,错误的安全间距将会导致更加危险的情况出现。
第三,后车二次规划调整困难。规划生成曲线后进行追踪,但是控制误差和偏差的存在会导致列车无法完全按照曲线运行。为了尽可能的改善曲线追踪的效果往往会添加实时的二次在线规划。但是在前车完全不顾及后车的运行模式下,后车即使做出最有利于追踪前车的动作,也无法保证整体虚拟编组列车能够协调一致的运行。并且在恶劣的车车通信环境下实时二次优化也可能由于信息延迟和缺失而计算失败。
为此,如何提供一种克服独立分步规划中前车规划和控制时未考虑后车的状态和控制能力,导致的在实际运行条件下存在进站不同步、后车实时追踪困难、后车二次规划调整困难等问题的基于改进强化学习算法的虚拟编组列车参考曲线计算方法是本领域技术人员亟需解决的问题。
发明内容
有鉴于此,本发明提出了基于改进强化学习算法的虚拟编组列车参考曲线计算方法。通过整合各列车单元的独立分布规划,在考虑编队整体的运行指标基础上,为车队中每一辆车都生成一条各自的协同参考曲线,并通过改进的强化学习DQN算法求解,取代了现有的独立分布规划,使得前车不再完全独立的运行而是考虑后车的运行状态,实现虚拟编组列车同步停车、准点到达、精确停车的运行指标。
为了实现上述目的,本发明采用如下技术方案:
基于改进强化学习算法的虚拟编组列车参考曲线计算方法,包括:
步骤(1):基于虚拟编组列车运行指标与约束的数学形式构建虚拟编组列车的运行优化模型,并确定决策变量;
步骤(2):将运行优化模型转化到强化学习框架下;
步骤(3):应用改进的强化学习DQN算法对运行优化模型求解,获得虚拟编组列车参考曲线。
可选的,虚拟编组列车运行指标包括:
同时停车,如下式:
准点到达,如下式:
精准停车,如下式:
可选的,虚拟编组列车运行约束包括:
列车动力学约束,如下:
驱动力约束,如下:
道路限速约束,如下:
前后车速度满足约束:
安全间距约束,如下:
sm=min(d(t));
de+L+k1≤d(t)≤de+L+k2;
可选的,决策变量为每个计算步长内的列车控制加速度u,如下:
u1,u2,u3……un。
可选的,通过马尔可夫决策过程将运行优化模型转化到强化学习框架下,如下:
其中,s0,s1……sn分别为每一步的虚拟编组列车状态;u1,u2……un分别为每一步的控制加速度指令。
可选的,改进的强化学习DQN算法,具体为:
初始化阶段:设置改进的强化学习DQN算法参数,并初始化一个深度神经网络作为价值函数;
观察阶段:从初始状态开始随机选择动作获得下一状态,存储数据到经验空间,直至训练次数达到预设值;
训练阶段:从初始状态根据价值函数以及策略函数选择大价值动作进行迭代,并按预设周期从经验空间中抽取样本训练价值函数,直至训练结果满足预设成功率要求,取出成熟价值函数;
参考曲线生成阶段:从初始状态开始利用成熟价值函数和策略函数迭代获得一系列完整的起点到终点的数据,得到虚拟编组列车参考曲线。
可选的,设置改进的强化学习DQN算法参数,并初始化一个深度神经网络作为价值函数,具体为:
状态:
以虚拟编组列车的位置、速度、时间作为状态变量,如下:
初始状态、最终状态以及目标状态分别为:
动作:
将前后车的离散控制加速度的编码值作为动作,通过对动作解码获得两车的控制加速度值,编码函数如下:
环境:
包括:列车动力学和线路参数;
对于前车,智能体与环境的交互公式,如下:
其中,Δt为时间计算步长;
对于前车,根据线路参数计算出线路阻力包含的加速度,如下:
价值函数:
Q=Qnet(sk,Ak),0≤k≤n;
其中,Qnet为价值函数,为一个深度神经网络,输入为状态和动作,输出为当前状态结合动作的Q值,为当前组合产生的未来收益;
策略函数:
奖励函数:
e=[ex,ev,et,ex,ev,et];
其中,e为容许误差矩阵;R1为虚拟编组列车在要求的位置、速度、时间误差内停下时给予的正奖励;P1为两车没有在停车区域停下时给予的负奖励;P2为两车没有按时刻表安排停下时给予的负奖励;P3为前车或后车超出道路限速时给予的负奖励;P4为当两车间距小于安全间距时给予的负奖励;
经验回放:从经验空间中抽取的数据不符合神经网络的输入输出需求无法直接用来训练,需要根据数据计算出当前估计的未来期望值,处理后的数据可根据学习率α对神经网络进行训练,如下:
其中,Uk为根据第k步抽取数据估计的未来期望值;Rk为第k步抽取数据中的奖励值;γ为衰减率。
可选的,设置改进的强化学习DQN算法参数,还包括:
经验奖励:在算法初始化阶段,从外部导入一条以往训练得到的参考曲线数据作为基础添加奖励,一旦在算法过程中探索曲线偏离经验数据过远就会给与负奖励,如下:
其中,B1和B2为整数;xw和tw分别为经验数据中的位置和时间;g1和g2为设定的引导范围;
曲线评价机制:若没有可以导入的外部经验数据,则把探索到的第一条曲线当成经验数据进行使用,并采用曲线评价机制,使分数高的曲线代替分数低的曲线,评分函数如下:
其中,a、b、c为针对虚拟编组列车运行各目标的权重系数。
可选的,设置改进的强化学习DQN算法参数,还包括:
局部遍历机制:当列车触发边界时会在一定范围内进行局部遍历选择动作,算法中加入了记录违规动作的表,用来进行局部遍历。
可选的,设置改进的强化学习DQN算法参数,还包括:
动作空间收缩机制:
当确定列车处于牵引或制动工况时,只考虑相对应的加速或制动指令;
当一辆列车停止时,动作可以只针对另一辆还在行驶的列车,已经停下的列车控制加速度始终为零。
经由上述的技术方案可知,与现有技术相比,本发明提出了基于改进强化学习算法的虚拟编组列车参考曲线计算方法。提出通过整合各列车单元的独立分布规划,在考虑编队整体的运行指标基础上,为车队中每一辆车都生成一条各自的协同参考曲线,并通过改进的强化学习DQN算法求解,取代现有的独立分布规划,使得前车不再完全独立的运行而是考虑后车的运行状态,实现虚拟编组列车同步停车、准点到达、精确停车的运行指标的思想。并通过以下技术手段实现上述思想,包括:在虚拟编组列车的运行指标,包括:同步停车、准点到达、精确停车以及相关约束,包括:列车动力学约束、驱动力约束、道路限速约束、安全间距约束转化为数学形式的基础构建虚拟编组列车的运行优化模型,确定每个计算步长内的列车控制加速度为决策变量;通过马尔可夫决策过程将构建好的虚拟编组列车的运行优化模型转化到强化学习框架下,使得模型能够使用强化学习算法进行求解;通过改进的强化学习DQN算法,大概分为初始化阶段、观察阶段、训练阶段、参考曲线生成阶段进行求解,获得协同参考曲线;其中,初始化阶段设置强化学习DQN算法参数包括:状态、动作、环境、价值函数、策略函数、奖励函数、经验回放、经验奖励、曲线评价机制、局部遍历机制、动作空间收缩机制。本发明通过将虚拟编组列车运行场景转化到强化学习算法框架下利用改进的DQN算法来探索寻优最终获得协同参考曲线,取得了以下效果:改善了目前虚拟编组列车由于跟随车单方面追踪领头车而导致的难以同步进站停车问题。通过领头车和跟随车的协同曲线规划,满足了虚拟编组列车的运行目标;缓解了跟随列车实时追踪控制的压力。改变了严重依赖实时追踪控制的跟随车运行模式,为其附加了参考曲线,以追踪曲线为前提来进行控制,减轻了列车自动驾驶系统的实时计算压力。同时前车的运行也因为参考曲线而能够顾及后车的情况,整体编队更加同步;采用改进的强化学习算法来处理复杂的多车协同参考曲线优化问题,能够较好的解决问题维数较高和实时计算量较大的问题。通过考虑轨道交通运行场景的特性对算法进行改进,能够在保证求解质量的前提下相对较快的找到满足要求的协同参考速度曲线。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1为本发明的方法流程示意图。
图2为本发明的道路限速警示曲线示意图。
图3为本发明改进的强化学习DQN算法基本逻辑结构示意图。
图4为本发明改进的强化学习DQN算法求解虚拟编组列车协同参考曲线问题的描述方式结构示意图。
图5为本发明改进的强化学习DQN算法求解虚拟编组列车协同参考曲线的阶段结构示意图。
图6为本发明的局部遍历机制原理示意图。
图7为本发明改进的强化学习DQN算法求解虚拟编组列车协同参考曲线的整体逻辑结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
实施例1:
本发明实施例1公开了基于改进强化学习算法的虚拟编组列车参考曲线计算方法,如图1所示,包括:
步骤(1):基于虚拟编组列车运行指标与约束的数学形式构建虚拟编组列车的运行优化模型,并确定决策变量;
虚拟编组列车运行指标包括:
同时停车,在进站停车阶段,如果两辆车的停车时间差过大就会影响乘客的上下车以及其他的客流调度作业,因此将最小化两车停车时间差作为目标,如下式:
准点到达,地铁时刻表是根据客流以及运营成本等诸多因素设计的,列车按照时刻表运行能够最大化乘客需求同时节约成本,因此在两车同步停车的基础上仅将前车的停车的最终时间和目标时间差作为优化目标,如下式:
精准停车,只有列车门和屏蔽门对齐才能保证乘客的上下车,这对虚拟编组列车的停车精度提出了较高的要求,因此将前后车停车的最终位置和目标位置之差作为最小化目标,如下式:
虚拟编组列车运行约束包括:
列车动力学约束,列车单元的状态信息要满足基于牛顿第二定律的列车动力学方程,如下:
驱动力约束,由于电机的工作特性,列车单元在不同速度下所能够提供的牵引力和常用制动力有限制,该约束取决于车辆的牵引/制动特性曲线,由车辆厂家提供,如下:
道路限速约束,列车在线路上运行时需要满足道路限速,一旦列车速度超过道路限速就可能会发生危险。特别是在高限速向低限速区段过渡的时候,过晚进入制动阶段将不可避免的触及限速。另外,在从低限速区段向高限速区段过渡时,为了防止前行车列车在出清限速区段后直接加速,使得列车间距拉大。我们使前行列车的低限速区段。因此在道路限速的基础上生成了警示曲线,保证列车能够及时进入降速段防止触发限速,如图2所示。
前后车速度满足约束:
安全间距约束,为了保证虚拟编组列车在运行过程中不会因间距过近而发生危险,需要对前后车的间距施加约束。安全间距约束的基本计算原则如下:
列车之间的最小间距为sm,一旦距离小于该距离就认为会发生危险。在编队运行的每一个时刻都假设两车同时触发紧急制动,则能够获得紧急制动过程中任意时刻的两车间距,如下:
只要能够满足在紧急制动过程中前后车的间距都大于最小间距sm,那么就可以认为列车目前的状态是符合安全间距约束的。考虑临界情况当紧急制动过程中存在最小间距恰好等于sm时,此时两车的初始间距即为安全间距约束值,如下:
则,当
sm=min(d(t));
安全间距约束,如下:
考虑到后续进行追踪控制时存在误差,为了保证安全,这里给安全间距约束添加控制裕量k1,k2。那么列车间距服从的约束,如下:
de+L+k1≤d(t)≤de+L+k2;
由于虚拟编组列车在运行过程考虑了更加精细化的安全约束以及目标,传统的工况切换点优化方法不再能够满足要求,因此选择每个计算步长内的列车控制加速度u。作为决策变量,通过一连串的控制加速度序列能够获得虚拟编组列车参考曲线的全部信息,如下:
u1,u2,u3……un。
其中,假设虚拟编组列车运行全程一共分为n个计算步长。
步骤(2):虚拟编组列车的运行可以视作是根据时间计算步长分隔的离散过程。在每一步通过选择合适的控制指令控制列车运行,直到列车符合目标到达站台并停下。这个过程可以描述为马尔科夫决策过程(一个多步决策过程),通过马尔可夫决策过程将运行优化模型转化到强化学习框架下,如下:
其中,s0,s1……sn分别为每一步的虚拟编组列车状态;u1,u2……un分别为每一步的控制加速度指令。
步骤(3):应用改进的强化学习DQN算法对运行优化模型求解,获得虚拟编组列车参考曲线。
DQN算法是强化学习中基于价值的一种算法,基本逻辑架构,如图3所示,智能体从初始状态开始,选择动作并与环境交互进入下一状态。同时根据当前状态通过奖励函数获得一个奖励,这代表了当前状态是否满足人为给定的期望要求。一次迭代的“状态-动作-状态-奖励”将会储存在经验空间中,定期从经验空间抽取数据来训练价值函数,通过训练使价值函数学习“在什么状态下选择什么动作能够获得更大奖励”的知识,这样在下一次迭代时就会选择价值更高的动作来使状态变化更符合期望。算法不断循环直到状态能够稳定达到目标状态为止。
改进的强化学习DQN算法求解虚拟编组列车协同参考曲线问题的描述方式,如图4所示。
通过人为设置奖励函数来引导智能体不断的向目标状态前进,同时将过程约束条件转化到环境中,就可以求解满足约束情况下的优化问题。
改进的强化学习DQN算法求解虚拟编组列车协同参考曲线的阶段,如图5所示,大致分为四个阶段:初始化阶段、观察阶段、训练阶段、参考曲线生成阶段,具体为:
初始化阶段:设置改进的强化学习DQN算法参数,并初始化一个深度神经网络作为价值函数;
观察阶段:从初始状态开始随机选择动作获得下一状态,存储数据到经验空间,直至训练次数达到预设值;
训练阶段:从初始状态根据价值函数以及策略函数选择大价值动作进行迭代,并按预设周期从经验空间中抽取样本训练价值函数,直至训练结果满足预设成功率要求,取出成熟价值函数;
参考曲线生成阶段:从初始状态开始利用成熟价值函数和策略函数迭代获得一系列完整的起点到终点的数据,得到虚拟编组列车参考曲线。
设置改进的强化学习DQN算法参数,并初始化一个深度神经网络作为价值函数,具体为:
状态:
以虚拟编组列车的位置、速度、时间作为状态变量,如下:
初始状态、最终状态以及目标状态分别为:
动作:
将前后车的离散控制加速度的编码值作为动作,通过对动作解码获得两车的控制加速度值,编码函数如下:
具体编码规则如下:
前车的控制加速度范围离散为m档,后车控制加速度范围离散为n种。规定编码值一共有m*n种。
举例:控制加速度从-1到1离散为20档,那么一共有20×20=400种编码值。当前车选第1档控制加速度,后车选第2档控制加速度时,编码值为1×2=2。
环境:考虑到状态通过与环境交互得到下一个状态,类比列车运行,环境相当于列车动力学,线路条件。环境的边界则为道路限速,虚拟编组安全间距,列车倒车这些硬性约束条件。
包括:列车动力学和线路参数;
对于前车,智能体与环境的交互公式,如下:
其中,Δt为时间计算步长;
对于前车,根据线路参数计算出线路阻力包含的加速度,如下:
价值函数:DQN算法的价值函数为一个深度神经网络,本发明采用状态动作价值函数的形式,那么神经网络的输入为状态和动作,输出为当前状态结合动作的Q值,Q值越大表示当前组合产生的未来收益越高,如下:
Q=Qnet(sk,Ak),0≤k≤n;
其中,Qnet为价值函数,为一个深度神经网络,输入为状态和动作,输出为当前状态结合动作的Q值,为当前组合产生的未来收益;
神经网络需要根据问题的复杂度进行构建。一般为3-6层每层20-100个神经元。需要根据实际神经网络拟合效果进行调整。
策略函数:DQN算法是一类基于价值的算法,策略函数则较为固定。本发明采用确定型策略函数,输入为当前状态,输出为最优动作值。选取动作的规则就是将所有的动作结合当前状态输入价值函数,挑选价值最大组合中的动作作为最优策略。每次输入的状态都会结合所有可能的动作全部输入到价值函数中去计算Q值,选取Q值最大的“状态-动作”组合中的动作作为函数的输出,如下:
奖励函数:奖励函数是DQN算法最核心的部分,奖励代表了人对状态的期望变化方向,一个合理的奖励函数能够大大加快算法的进程,快速引导智能体达成目标。结合虚拟编组列车运行的目标以及相关约束,设计奖励的原则如下:
列车状态在容许范围内到达目标状态时给与正奖励。
列车状态在容许范围之外到达目标状态时给与负奖励。
列车状态违反约束条件时给与负奖励。
具体函数,如下:
e=[ex,ev,et,ex,ev,et];
其中,e为容许误差矩阵;R1为虚拟编组列车在要求的位置、速度、时间误差内停下时给予的正奖励;P1为两车没有在停车区域停下时给予的负奖励;P2为两车没有按时刻表安排停下时给予的负奖励;P3为前车或后车超出道路限速时给予的负奖励;P4为当两车间距小于安全间距时给予的负奖励;
经验回放:算法过程中的“状态-动作-状态-奖励”数据不断的存入经验空间,每隔一段时间会从中抽取一部分数据让价值函数(深度神经网络)进行学习。不断的强化价值函数的判断力,使它能够准确的判断出当前状态应该采取的最佳动作,具体如下:
从经验空间中抽取的数据不符合神经网络的输入输出需求无法直接用来训练,需要根据数据计算出当前估计的未来期望值,处理后的数据即可根据学习率α对神经网络进行训练,如下:
其中,Uk为根据第k步抽取数据估计的未来期望值;Rk为第k步抽取数据中的奖励值;γ为衰减率。
通过对算法逻辑的描述,能够发现一个明显的问题,那就是算法的过程奖励太少,这会导致智能体的探索较为盲目,又因为从起点到终点的步数过多,动作空间维度也较高,因此智能体很难到达目标状态。鉴于此,通过以下改进的DQN算法满足虚拟编组列车场景的使用要求,如下:
经验奖励:在算法初始化阶段,从外部导入一条以往训练得到的参考曲线数据作为基础添加奖励,一旦在算法过程中探索曲线偏离经验数据过远就会给予负奖励,保证了在全程都能够即时的对智能体进行引导,如下:
其中,B1和B2为整数;xw和tw分别为经验数据中的位置和时间;g1和g2为设定的引导范围;
曲线评价机制:若没有可以导入的外部经验数据,算法则会把探索到的第一条曲线当成经验数据进行使用,为了保证迭代的寻优性,还设计了曲线评价机制,通过对获得的多条成功曲线进行打分,分数高的曲线将会替换分数低的经验曲线,保证探索的结果不断变优,评分函数如下:
其中,a、b、c为针对虚拟编组列车运行各目标的权重系数。
局部遍历机制:在智能体探索的过程中难免会触及环境边界,这时传统处理办法,一是获取负奖励直接返回起点。二是后退一步重新进行动作选择。但是在轨道领域列车严格遵循列车动力学,同时驱动力也有所限制,回退一步很可能仍然无法避免触发边界。直接退回起点又会使算法效率降低,因此设计了局部遍历机制,当列车触发边界时会在一定范围内进行局部遍历选择动作,原理如图6所示。算法中加入了记录违规动作的表,用来进行局部遍历,保证一次训练能够使列车行驶到停车,不会中途返回起点。
动作空间收缩机制:在某些具体的运行场景中,虚拟编组列车动作空间中的某些动作明显“不合理”,可以人为缩减,加快曲线的搜索进程,如下:
当确定列车处于牵引或制动工况时,只考虑相对应的加速或制动指令;
当一辆列车停止时,动作可以只针对另一辆还在行驶的列车,已经停下的列车控制加速度始终为零。
设置完DQN算法的关键要素后,即可开始根据算法程序进行训练学习,不断寻优,改进的强化学习DQN算法求解虚拟编组列车协同参考曲线的整体逻辑架构,如图7所示,具体如下:
设置DQN算法自身参数:初始化神经网络,设置每次训练的步数、观察期长度、训练期长度、设置数据归一化原则、经验空间大小、每次经验回放周期、经验回放样本个数、目标网络更新周期、衰减率、学习率。构建动作违规记录表。注意:参数根据具体训练反馈适当进行人工调整以达到较优训练效果。
设置虚拟编组列车运行相关的参数:根据站间运行要求设置目标状态,导入线路参数,设置停车误差、准点误差和同步停车容许时间误差参数。如果有成功曲线经验数据则导入。
观察期:从初始状态开始随机选择动作获得下一状态,存储数据到经验空间。训练次数达到设定值时退出。
训练期:从初始状态开始根据价值函数和策略函数选择动作,并且按照设定周期从经验空间中抽取样本训练价值函数,从而使得价值函数的价值判断符合虚拟编组列车运行的目标。当训练成功率达到95%以上时停止训练,取出当前价值函数。
参考曲线生成:从初始状态开始,利用训练完成后的价值函数配合策略函数选择动作,直到虚拟编组列车到达目标状态,即获得协同参考速度曲线。
至此,针对站间实际场景的虚拟编组列车协同参考速度曲线生成结束,参考曲线将作为列车单元自动驾驶系统的输入进行后续使用。
本发明实施例公开了基于改进强化学习算法的虚拟编组列车参考曲线计算方法。提出通过整合各列车单元的独立分布规划,在考虑编队整体的运行指标基础上,为车队中每一辆车都生成一条各自的协同参考曲线,并通过改进的强化学习DQN算法求解,取代现有的独立分布规划,使得前车不再完全独立的运行而是考虑后车的运行状态,实现虚拟编组列车同步停车、准点到达、精确停车的运行指标的思想。并通过以下技术手段实现上述思想,包括:在虚拟编组列车的运行指标,包括:同步停车、准点到达、精确停车以及相关约束,包括:列车动力学约束、驱动力约束、道路限速约束、安全间距约束转化为数学形式的基础构建虚拟编组列车的运行优化模型,确定每个计算步长内的列车控制加速度为决策变量;通过马尔可夫决策过程将构建好的虚拟编组列车的运行优化模型转化到强化学习框架下,使得模型能够使用强化学习算法进行求解;通过改进的强化学习DQN算法,大概分为初始化阶段、观察阶段、训练阶段、参考曲线生成阶段进行求解,获得协同参考曲线;其中,初始化阶段设置强化学习DQN算法参数包括:状态、动作、环境、价值函数、策略函数、奖励函数、经验回放、经验奖励、曲线评价机制、局部遍历机制、动作空间收缩机制。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。
Claims (10)
1.基于改进强化学习算法的虚拟编组列车参考曲线计算方法,其特征在于,包括:
步骤(1):基于虚拟编组列车运行指标与约束的数学形式构建虚拟编组列车的运行优化模型,并确定决策变量;
步骤(2):将所述运行优化模型转化到强化学习框架下;
步骤(3):应用改进的强化学习DQN算法对所述运行优化模型求解,获得虚拟编组列车参考曲线。
3.根据权利要求1所述的基于改进强化学习算法的虚拟编组列车参考曲线计算方法,其特征在于,所述虚拟编组列车运行约束包括:
列车动力学约束,如下:
驱动力约束,如下:
道路限速约束,如下:
前后车速度满足约束:
安全间距约束,如下:
sm=min(d(t));
de+L+k1≤d(t)≤de+L+k2;
4.根据权利要求1所述的基于改进强化学习算法的虚拟编组列车参考曲线计算方法,其特征在于,所述决策变量为每个计算步长内的列车控制加速度u,如下:
u1,u2,u3......un。
6.根据权利要求1所述的基于改进强化学习算法的虚拟编组列车参考曲线计算方法,其特征在于,所述改进的强化学习DQN算法,具体为:
初始化阶段:设置改进的强化学习DQN算法参数,并初始化一个深度神经网络作为价值函数;
观察阶段:从初始状态开始随机选择动作获得下一状态,存储数据到经验空间,直至训练次数达到预设值;
训练阶段:从初始状态根据价值函数以及策略函数选择大价值动作进行迭代,并按预设周期从经验空间中抽取样本训练价值函数,直至训练结果满足预设成功率要求,取出成熟价值函数;
参考曲线生成阶段:从初始状态开始利用成熟价值函数和策略函数迭代获得一系列完整的起点到终点的数据,得到虚拟编组列车参考曲线。
7.根据权利要求6所述的基于改进强化学习算法的虚拟编组列车参考曲线计算方法,其特征在于,所述设置改进的强化学习DQN算法参数,并初始化一个深度神经网络作为价值函数,具体为:
状态:
以虚拟编组列车的位置、速度、时间作为状态变量,如下:
初始状态、最终状态以及目标状态分别为:
动作:
将前后车的离散控制加速度的编码值作为动作,通过对动作解码获得两车的控制加速度值,编码函数如下:
环境:
包括:列车动力学和线路参数;
对于前车,智能体与环境的交互公式,如下:
其中,Δt为时间计算步长;
对于前车,根据线路参数计算出线路阻力包含的加速度,如下:
价值函数:
Q=Qnet(sk,Ak),0≤k≤n;
其中,Qnet为价值函数,为一个深度神经网络,输入为状态和动作,输出为当前状态结合动作的Q值,为当前组合产生的未来收益;
策略函数:
奖励函数:
e=[ex,ev,et,ex,ev,et];
其中,e为容许误差矩阵;R1为虚拟编组列车在要求的位置、速度、时间误差内停下时给予的正奖励;P1为两车没有在停车区域停下时给予的负奖励;P2为两车没有按时刻表安排停下时给予的负奖励;P3为前车或后车超出道路限速时给予的负奖励;P4为当两车间距小于安全间距时给予的负奖励;
经验回放:从经验空间中抽取的数据不符合神经网络的输入输出需求无法直接用来训练,需要根据数据计算出当前估计的未来期望值,处理后的数据可根据学习率α对神经网络进行训练,如下:
其中,Uk为根据第k步抽取数据估计的未来期望值;Rk为第k步抽取数据中的奖励值;γ为衰减率。
9.根据权利要求7所述的基于改进强化学习算法的虚拟编组列车参考曲线计算方法,其特征在于,设置所述改进的强化学习DQN算法参数,还包括:
局部遍历机制:当列车触发边界时会在一定范围内进行局部遍历选择动作,算法中加入了记录违规动作的表,用来进行局部遍历。
10.根据权利要求7所述的基于改进强化学习算法的虚拟编组列车参考曲线计算方法,其特征在于,设置所述改进的强化学习DQN算法参数,还包括:
动作空间收缩机制:
当确定列车处于牵引或制动工况时,只考虑相对应的加速或制动指令;
当一辆列车停止时,动作可以只针对另一辆还在行驶的列车,已经停下的列车控制加速度始终为零。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211680558.XA CN116090336A (zh) | 2022-12-27 | 2022-12-27 | 基于改进强化学习算法的虚拟编组列车参考曲线计算方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211680558.XA CN116090336A (zh) | 2022-12-27 | 2022-12-27 | 基于改进强化学习算法的虚拟编组列车参考曲线计算方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116090336A true CN116090336A (zh) | 2023-05-09 |
Family
ID=86211413
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211680558.XA Pending CN116090336A (zh) | 2022-12-27 | 2022-12-27 | 基于改进强化学习算法的虚拟编组列车参考曲线计算方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116090336A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117682429A (zh) * | 2024-02-01 | 2024-03-12 | 华芯(嘉兴)智能装备有限公司 | 一种物料控制系统的天车搬运指令调度方法及装置 |
-
2022
- 2022-12-27 CN CN202211680558.XA patent/CN116090336A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117682429A (zh) * | 2024-02-01 | 2024-03-12 | 华芯(嘉兴)智能装备有限公司 | 一种物料控制系统的天车搬运指令调度方法及装置 |
CN117682429B (zh) * | 2024-02-01 | 2024-04-05 | 华芯(嘉兴)智能装备有限公司 | 一种物料控制系统的天车搬运指令调度方法及装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Su et al. | A cooperative collision-avoidance control methodology for virtual coupling trains | |
CN110362910B (zh) | 基于博弈论的自动驾驶车辆换道冲突协调模型建立方法 | |
CN110298131B (zh) | 一种混合驾驶环境下自动驾驶换道决策模型建立方法 | |
CN105460048B (zh) | 城轨交通优化操纵与行车调度综合节能控制方法及装置 | |
Zhou et al. | Smart train operation algorithms based on expert knowledge and reinforcement learning | |
CN109508751B (zh) | 高速铁路列车晚点时间预测的深度神经网络模型建模方法 | |
CN104986190A (zh) | 轨道列车的再生能量的利用方法和系统 | |
CN111439264B (zh) | 一种基于人机混驾的换道控制模型的实现方法 | |
CN106056238B (zh) | 列车区间运行轨迹的规划方法 | |
CN116090336A (zh) | 基于改进强化学习算法的虚拟编组列车参考曲线计算方法 | |
CN113312752B (zh) | 一种主路优先控制交叉口交通仿真方法及装置 | |
CN116513273A (zh) | 基于深度强化学习的列车运行调度优化方法 | |
CN109693688A (zh) | 预设性能的列车自动驾驶控制系统及控制方法 | |
CN109895794A (zh) | 基于机器学习的列车自动驾驶系统精准停车方法及装置 | |
CN109204390A (zh) | 一种基于深度学习的列车控制方法 | |
CN113552801A (zh) | 一种基于分布式的地铁列车虚拟编队运行控制方法 | |
CN114074680B (zh) | 基于深度强化学习的车辆换道行为决策方法及系统 | |
CN115392111B (zh) | 一种列车追踪控制方法、设备、存储介质 | |
CN114818135B (zh) | 列车运行曲线离线优化方法、设备、存储介质 | |
CN106781555A (zh) | 一种设置双左转车道的信号交叉口调头区域设计方法 | |
Lang et al. | Dqn-based speed curve optimization for virtual coupling | |
CN114880770A (zh) | 一种基于参考深度强化学习的列车协同运行控制方法 | |
CN114298385A (zh) | 考虑客流影响和再生制动能利用的地铁列车延误调整方法 | |
CN117184176A (zh) | 列车自动驾驶速度规划方法及装置 | |
Wang et al. | Energy-saving operation in urban rail transit: A deep reinforcement learning approach with speed optimization |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |