CN113536692A - 一种不确定环境下的高铁列车智能调度方法及系统 - Google Patents

一种不确定环境下的高铁列车智能调度方法及系统 Download PDF

Info

Publication number
CN113536692A
CN113536692A CN202110885255.0A CN202110885255A CN113536692A CN 113536692 A CN113536692 A CN 113536692A CN 202110885255 A CN202110885255 A CN 202110885255A CN 113536692 A CN113536692 A CN 113536692A
Authority
CN
China
Prior art keywords
train
scheduling
time
station
simulation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110885255.0A
Other languages
English (en)
Other versions
CN113536692B (zh
Inventor
代学武
岳鹏
崔东亮
俞胜平
柴天佑
程丽娟
徐鹏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Northeastern University China
Original Assignee
Northeastern University China
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Northeastern University China filed Critical Northeastern University China
Priority to CN202110885255.0A priority Critical patent/CN113536692B/zh
Publication of CN113536692A publication Critical patent/CN113536692A/zh
Application granted granted Critical
Publication of CN113536692B publication Critical patent/CN113536692B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F30/00Computer-aided design [CAD]
    • G06F30/20Design optimisation, verification or simulation
    • G06F30/27Design optimisation, verification or simulation using machine learning, e.g. artificial intelligence, neural networks, support vector machines [SVM] or training a model

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Medical Informatics (AREA)
  • Software Systems (AREA)
  • Artificial Intelligence (AREA)
  • Computer Hardware Design (AREA)
  • Geometry (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Train Traffic Observation, Control, And Security (AREA)

Abstract

本发明公开了一种不确定环境下的高铁列车智能调度方法及系统,属于高铁列车智能调度技术领域。首先将采集铁路CTC系统内部列车运行数据,利用调度时间窗划分方法确立实际调度列车,进而确定仿真环境状态S,为提高调度模型的决策响应速度,引入先验调度知识,即对调度决策进行预筛选,再由基于Q学习方法的调度模型给出最终的调度决策,利用贪心算法生成对应的列车调度方案,考虑到调度环境的不确定性,引入能产生随机晚点的仿真模块,使调度环境更为真实有效。通过选取对实例场景进行验证,证明本发明方法及系统能够有效减缓列车晚点的传播,可为调度员的列车调度工作提供参考方案。

Description

一种不确定环境下的高铁列车智能调度方法及系统
技术领域
本发明属于高铁列车智能调度技术领域,具体涉及一种不确定环境下的高铁列车智能调度方法及系统。
背景技术
高铁列车凭借其安全和高效目前已成为乘客在中长行程旅途中的主要交通方式。但受到气候、客流、设备故障的影响,列车往往无法严格按照计划运行信息行驶,由此造成部分列车产生晚点,而为了减小列车晚点对后续列车的影响,需要对高铁列车进行调度,即重新生成一个全新的列车运行方案。
目前在实际列车运行过程中,调度人员是完全依据其自身经验对列车进行调度,但高速列车运行效率的严格要求导致调度人员的决策时间较为有限,同时列车后续运行所面临的不确定性,即不确定环境下的调度也使得决策变得更为困难,因此采用人工调度方法往往无法有效降低列车晚点的传播,由此产生较高的经济成本。
目前已有相关调度方法用于解决这一问题,主要包括三大类,第一类是数学规划方法,通过构建严格的数学模型如混合整数线性规划模型,采用商用求解器如CPLEX或者GUROBI对模型进行求解,这种方法虽能得到精确最优解但求解时间相对较长,很难满足高铁列车调度时效性要求;第二类是以遗传算法为代表的智能调度方法,这类算法的优势在于其能够在合理时间内求得近似最优解,但现有方法假定调度环境充分已知,然而在实际调度环境下调度人员、列车以及气候无时无刻都对列车的运行产生影响,因此也无法满足实际工程的需求,第三类则是基于仿真的方法,如元胞自动机,这类方法虽能根据环境变化进行快速应对,但相关专家知识的获取仍是一个相对困难的工作。而且,目前现有学者大多研究确定性场景下如何进行列车调度的问题,很少考虑到后续环境不确定性对列车调度的影响,因此无法产生全局最优的列车重调度方案。
发明内容
针对现有技术的不足,本发明提出一种不确定环境下的高铁列车智能调度方法及系统。
本发明的技术方案是:
一种不确定环境下的高铁列车智能调度方法,包括如下步骤:
步骤1:从铁路CTC系统中采集列车运行数据;
所述列车运行数据包括车次名、首发车站、终到站、途经车站、列车在各车站的计划到达时间和计划发车时间、铁路CTC系统当前时间、列车预计到站时间、列车最短安全停站时间、列车最小安全间隔时间和列车限速区段以及列车限速值;
步骤2:对步骤1采集的列车运行数据按照其所处时间划分时间窗且根据铁路CTC系统当前时间tnow确定目标时间窗,并将目标时间窗窗体内部所包含的列车确定为调度列车,并从上述列车运行数据中提取与调度列车相关的列车运行数据dataopt
步骤3:根据各调度列车的计划到达时间Tap和预计到达时间tap,确定仿真环境状态S;
将各调度列车的预计到达时间
Figure BDA0003193802820000021
和计划到达时间
Figure BDA0003193802820000022
Figure BDA0003193802820000023
代入到公式(5)计算各列车在本调度区段首发车站的晚点时间D0,其中
Figure BDA0003193802820000024
表示第i辆列车在第j站的预计到达时间,
Figure BDA0003193802820000025
表示第i辆列车在第j站的计划到达时间,由此定义仿真环境状态:
Figure BDA0003193802820000026
Figure BDA0003193802820000027
上式中,
Figure BDA0003193802820000028
表示第i辆列车在第j站的晚点时间;
Figure BDA0003193802820000029
Figure BDA00031938028200000210
分别来自于调度列车的预计到达时间tap和计划到达时间Tap;j为调度车站编号;
步骤4:利用先验调度知识对调度决策进行预筛选,确定可行调度决策集合
Figure BDA00031938028200000211
步骤5:从可行调度决策集合
Figure BDA00031938028200000212
中确定最终的调度决策
Figure BDA00031938028200000213
步骤5-1:建立调度模型,通过调度模型对可行调度决策集合
Figure BDA00031938028200000214
中的调度决策进行评价;
由步骤3计算的仿真环境状态S和步骤4-3计算得到的可行调度决策集合
Figure BDA00031938028200000215
共同构成调度模型的输入数据input={[S,ak]},其中ak表示
Figure BDA00031938028200000216
中的第k个调度决策,对应的调度模型输出为调度决策的评价集Qset={Q(S,ak)},其中状态动作值Q(S,ak)表示为仿真环境状态S下的通过Q学习方法获得的第k个调度决策的评价值,其用于评估仿真环境状态S下执行调度决策ak的好坏程度;
步骤5-2:调度模型从可行调度决策集合
Figure BDA00031938028200000217
中选出评价值最高的调度决策作为最终的调度决策;
具体方法为:判定调度模型训练回合数k是否大于预先设定次数num,当k<num时,调度模型利用公式(9)所示的ε-greedy策略实现对调度决策
Figure BDA00031938028200000218
的选择,否则调度模型通过公式(10)选取使得状态动作值Q(S,ak)最大的动作即调度决策
Figure BDA00031938028200000219
其中模型训练回合数k用于记录仿真次数,初始值设定为0,预先设定次数num代表模型的最小训练回合数;
Figure BDA0003193802820000031
Figure BDA0003193802820000032
步骤6:根据最终的调度决策
Figure BDA0003193802820000033
给出的列车行车顺序,利用贪心算法确定列车重调度方案;
步骤7:根据列车限速区段Cl与对应限速值Cv以及步骤6确定的列车重调度方案进行列车运行仿真,仿真结束输出仿真运行方案Trun,根据仿真运行方案Trun确定列车决策收益R,以及根据仿真运行方案Trun更新仿真环境状态得到更新后的仿真环境状态S′;
所述仿真运行方案Trun=[Taru,Tdru],其中
Figure BDA0003193802820000034
Figure BDA0003193802820000035
Figure BDA0003193802820000036
分别表示调度列车预计到站时间和调度列车预计发站时间;再利用式(17)计算各调度列车在车站j+1的晚点时间Dj+1,利用式(18)计算列车决策收益R,利用式(19)对更新后的仿真环境状态S′进行定义;
Figure BDA0003193802820000037
Figure BDA0003193802820000038
Figure BDA0003193802820000039
其中,
Figure BDA00031938028200000310
来源于仿真运行方案Trun,表示列车ti在车站j+1的仿真到站时间;
Figure BDA00031938028200000311
来自于dataopt,其表示列车ti在车站j+1的计划到站时间;
Figure BDA00031938028200000312
表示列车ti在车站j+1的晚点时间,更新后的仿真环境状态S′中
Figure BDA00031938028200000313
来源于Dj+1,指的是第1,2,…,n辆列车在车站j+1的晚点时间;
步骤8:根据步骤7中更新后的仿真环境状态S′确定当前车站编号j+1,再从调度列车的列车运行数据dataopt中调取在车站编号j+1的各列车的计划到达时间
Figure BDA00031938028200000314
将S′和
Figure BDA00031938028200000315
代入至步骤4中更新列车可行调度决策集合,更新后的列车可行调度决策集记为
Figure BDA00031938028200000316
步骤9:对调度模型进行训练;
将步骤7确定的列车决策收益R和更新后的仿真环境状态S′,步骤8确定的更新后的列车可行调度决策集
Figure BDA00031938028200000317
以及步骤3中的仿真环境状态S和步骤5中的调度决策
Figure BDA00031938028200000318
进行整合,构成数据集
Figure BDA00031938028200000319
利用该数据集dataset和式(20)完成调度模型参数的更新;
Figure BDA0003193802820000041
上式中,α∈(0,1]和γ∈[0,1)分别表示调度模型的学习率和折扣率;
步骤10:提取更新后的仿真环境状态S′中的车站编号j+1,当车站编号j+1大于等于调度区段的车站总数numtrain时,更新模型训练回合数k←k+1,若调度模型更新次数k大于预先设定次数num,则表示调度模型训练完成,执行步骤11,否则执行步骤3至步骤10;当车站编号j+1小于调度区段的车站总数numtrain时,用更新后的仿真环境状态S′替换仿真环境状态S,即S←S′,再次执行步骤4至步骤10;
步骤11:生成最终的列车运行方案;
步骤11-1:执行步骤3至步骤7,并用步骤7确定的更新后的仿真环境状态S′替换仿真环境状态S,即S←S′;
步骤11-2:判定仿真环境状态S中车站编号j+1是否大于等于调度区段的车站总数numtrain,若否,则再次执行步骤11-1,若是,则将执行过程中生成的列车重调度方案Tre整合构成整个调度区段的列车运行方案。
进一步地,根据所述的不确定环境下的高铁列车智能调度方法,步骤2所述对步骤1采集的列车运行数据按照其所处时间划分时间窗为:将所采集的列车运行数据按照其所处时间等分为七个时间跨度为六小时的时间窗,时间窗均匀分布在一天内且相邻时间窗间存在三小时的重合时间。
进一步地,根据所述的不确定环境下的高铁列车智能调度方法,所述步骤4包括如下步骤:
步骤4-1:根据各调度列车的计划到达时间Tap和预计到达时间tap,确定预计越行列车集trst和越行偏移量yst
步骤4-2:对S中所包含的n个调度列车进行随机排列组合,生成所有列车调度决策集Aset={ak|k=1,2,…,n!},计算Aset中包含的调度决策ak所对应的越行列车集
Figure BDA0003193802820000042
和越行偏移量
Figure BDA0003193802820000043
其中ak=[Oi|i=1,2,…,n]表示具体列车发车顺序,Oi表示第i个列车所在位置;
步骤4-3:根据步骤4-1中确定的预计越行列车集trst及越行偏移量yst和步骤4-2中计算的各调度决策所对应的越行列车集
Figure BDA0003193802820000044
和越行偏移量
Figure BDA0003193802820000045
按照式(6)对调度决策进行筛选,生成可行调度决策集合
Figure BDA0003193802820000046
Figure BDA0003193802820000047
进一步地,根据所述的不确定环境下的高铁列车智能调度方法,所述步骤6包括如下步骤:
步骤6-1:根据步骤3计算的仿真环境状态S确定当前车站编号j,再从步骤2中构建的调度列车的列车运行数据dataopt中调取与车站编号j相关的列车运行数据
Figure BDA0003193802820000051
Figure BDA0003193802820000052
其中
Figure BDA0003193802820000053
Figure BDA0003193802820000054
分别表示第i辆驶离车站的调度列车ti在车站j和j+1上的计划到达时间,
Figure BDA0003193802820000055
为第i辆发车的调度列车ti在车站j上的计划离开时间,
Figure BDA0003193802820000056
为第i辆发车的调度列车i在车站j的最小停留时间,
Figure BDA0003193802820000057
为第i辆发车的调度列车ti在车站j与车站j+1间的区间最小运行时间,Tmd为相邻列车最小安全间隔时间;
步骤6-2:根据步骤5确定的最终调度决策
Figure BDA0003193802820000058
确定各列车的先后行车顺序,首先利用式(11)计算第一辆驶离车站的列车t1在车站j的离开时间
Figure BDA0003193802820000059
进而根据式(12)确定列车t1在车站j+1的到达时间
Figure BDA00031938028200000510
Figure BDA00031938028200000511
Figure BDA00031938028200000512
其中,
Figure BDA00031938028200000513
来源于步骤3计算的仿真环境状态S,表示首辆驶离车站的调度列车t1在j车站的晚点时间;
步骤6-3:根据步骤6-2确定的首发列车t1的具体运行时间
Figure BDA00031938028200000514
Figure BDA00031938028200000515
和步骤6-1构建的
Figure BDA00031938028200000516
利用式(13)和式(14)分别计算后一辆列车ti+1的驶离车站j的时间
Figure BDA00031938028200000517
和到达车站j+1的时间
Figure BDA00031938028200000518
Figure BDA00031938028200000519
Figure BDA00031938028200000520
其中,
Figure BDA00031938028200000521
来源于步骤3计算的仿真环境状态S,表示列车ti+1在j车站的晚点时间;
Figure BDA00031938028200000522
表示列车ti+1在车站j的计划到达时间;
Figure BDA00031938028200000523
表示列车ti+1在车站j的最短安全停站时间;
Figure BDA00031938028200000524
表示列车ti+1在j车站的计划发车时间;
Figure BDA00031938028200000525
表示列车ti+1在车站j和车站j+1间的最短运行时长;
Figure BDA00031938028200000526
表示列车ti+1在车站j+1的计划到达时间;
步骤6-4:根据步骤6-3确定的列车ti+1的具体运行时间
Figure BDA0003193802820000061
Figure BDA0003193802820000062
代入至式(15)和式(16)中,依次对后续所有列车驶离车站j的时间
Figure BDA0003193802820000063
和到达车站j+1的时间
Figure BDA0003193802820000064
进行确定,进而完成列车重调度方案Tre=[Tar,Tdr]的生成,其中
Figure BDA0003193802820000065
Figure BDA0003193802820000066
Figure BDA0003193802820000067
Figure BDA0003193802820000068
Figure BDA0003193802820000069
用于实现以上任一所述方法的不确定环境下的高铁列车智能调度系统,包括:
信息采集模块:用于从铁路CTC系统中采集列车运行数据,并将其发送至信息处理模块;
信息处理模块:用于接收信息采集模块所发送的列车运行数据;对接收的列车运行数据按照其所处时间划分时间窗;基于铁路CTC系统当前时间选定目标时间窗,目标窗体内部所包含的列车将被选定为调度列车,随后从上述列车运行数据中提取与调度列车相关的列车运行数据,并根据与调度列车相关的列车运行数据得到仿真运行参数数据,其具体包括仿真环境状态S、运行时间约束Const和运行速度约束Consv;所述仿真环境状态S是以n+1维数组进行存储的,其被定义为:
Figure BDA00031938028200000610
其中j表示当前调度车站对应编号,而
Figure BDA00031938028200000611
Figure BDA00031938028200000612
表示列车1至n在车站j的到站晚点时间,共计n辆列车,最终仿真环境状态S数据被传输至辅助调度模块;而运行时间约束Const则包含调度列车在各车站的计划到达时间Tap和计划发车时间Tdp、列车在各车站的最短安全停站时间Tmw,而运行速度约束Consv则包含列车限速区段Cl和对应限速值Cv,可分别表示为:
Const={[Tap,Tdp],Tmw}
Consv={[Cl,Cv]}
最终运行时间约束Const被传输至调度辅助模块、调度模块和仿真模块,而运行速度约束Consv则仅输送至仿真模块;
调度辅助模块:用于辅助调度模块完成列车调度任务,该模块包括越行识别单元和动作筛选单元;在列车运行仿真工作的初始阶段,调度辅助模块接收信息处理模块所传输的仿真环境状态S和运行时间约束Const中的Tap信息,再由S中所包含的列车个数排列组合生成初始调度决策集Aset={ak|k=1,2,…,n!},其中ak=[Oi|i=1,2,…,n]表示具体列车发车顺序,Oi表示第i个列车所在位置;将Aset、S和Tap两两输入至越行识别单元中:以Aset和S为输入得到各调度决策的调整列车集
Figure BDA0003193802820000071
其代表各调度决策对列车运行顺序进行调整的高铁列车集合,所述列车运行顺序具体表示为各列车在站间的行车先后关系;以Aset和Tap为输入确定各调度决策的列车越行偏移量
Figure BDA0003193802820000072
其反映各调度决策所对应的列车发车顺序与计划列车运行顺序间的偏离程度,最后以S和Tap为输入得到预计越行列车集trst和越行偏移量yst,其分别表示预计列车运行顺序发生变化的高铁列车集合和预计列车运行顺序与计划列车运行顺序间的偏离程度;将四项数据
Figure BDA0003193802820000073
yst和trst统一输入至动作筛选单元,根据筛选规则筛选出可行调度决策集合
Figure BDA0003193802820000074
输出的可行调度决策集合
Figure BDA0003193802820000075
和仿真环境状态S被传输至调度模块4;所述筛选规则为:
1)调度决策应仅对越行列车进行调整,非越行列车不进行主动调整,即:
Figure BDA0003193802820000076
2)调整后的行车顺序应靠拢于计划列车行驶顺序,即:
Figure BDA0003193802820000077
调度模块:用于训练调度模型并完成列车调度任务,具体由模型训练单元、调度决策单元和方案生成单元组成:1)所述调度决策单元,用于接收调度辅助模块提供的可行调度决策集合
Figure BDA0003193802820000078
和仿真环境状态S;根据可行调度决策集合
Figure BDA0003193802820000079
和仿真环境状态S构建调度模型的输入数据集input={[S,ak]},调度模型的输出为调度决策的评价集Qset={Q(S,ak)},其中Q(S,ak)表示为仿真环境状态S下的通过Q学习方法获得的第k个调度决策的评价值;根据调度决策的评价集Qset中各调度决策的评价值,调度决策的选择则根据模型训练回合数是否大于预先设定次数进行确定,当满足条件时利用e-greedy策略进行确定,不满足条件则直接选取Q(S,ak)最大对应的动作
Figure BDA00031938028200000710
所选出的调度决策
Figure BDA00031938028200000711
同时传输至方案生成单元和模型训练单元;2)所述方案生成单元,用于接收由调度决策单元传输的调度决策
Figure BDA00031938028200000712
根据最终的调度决策
Figure BDA00031938028200000713
给出的列车行车顺序,利用贪心算法生成列车重调度方案Tre=[Tar,Tdr],区别于调度决策仅确定列车运行顺序,列车重调度方案则确定列车的具体到发时间,其中Tar和Tdr分别表示为重调度方案中列车的到站时间和发车时间,并将其传输至仿真模块;3)所述模型训练单元,用于接收调度辅助模块提供的仿真环境状态S、调度决策单元传输的调度决策
Figure BDA00031938028200000714
由仿真模块传输的决策收益R和更新后的仿真环境状态S′以及调度辅助模块传输的更新后的调度决策集合
Figure BDA00031938028200000715
其中更新后的仿真环境状态S′是由仿真模块根据重调度方案Tre通过仿真生成的,调度决策集合
Figure BDA0003193802820000081
是由调度辅助模块接收更新后的仿真环境状态S′计算生成的,最终将所有数据汇总得到训练数据集
Figure BDA0003193802820000082
其被用于完成调度模型的参数更新;
仿真模块,由仿真接口单元和模拟仿真系统单元组成,其中模拟仿真系统单元负责列车运行仿真,而仿真接口单元负责实现模拟仿真系统单元与外部其他模块间的信息交互并完成对列车重调度方案的评价;具体为:所述模拟仿真系统单元用于接收调度模块传输的列车重调度方案
Figure BDA0003193802820000083
和信息处理模块传输的运行速度约束Consv,并根据列车重调度方案
Figure BDA0003193802820000084
和运行速度约束Consv进行列车运行仿真,考虑列车运行场景所存在的不确定性,模拟仿真系统单元内部引入随机晚点,即对繁忙列车中加入随机晚点,晚点服从离散概率分布P,而繁忙列车是通过比较计划运行图中列车在区间的运行时间
Figure BDA0003193802820000085
与重调度方案中列车在区间的运行时间
Figure BDA0003193802820000086
的差异性来判定的,差异越小则说明本列车越繁忙,列车运行仿真后的数据即预计列车运行数据
Figure BDA0003193802820000087
将被反馈回所述仿真接口单元,由仿真接口单元计算决策收益R并更新环境状态,其中决策收益R被用于评估列车重调度方案预计执行的好坏,利用列车总晚点进行衡量,更新后的仿真环境状态S′是由车站编号j+1和各调度列车在车站j+1的晚点时间信息构成,得到的决策收益R和更新后的仿真环境状态S′均传输至调度模块。
本发明具有以下有益效果:本发明提出一种基于Q学习考虑调度环境不确定性的列车智能调度方法及系统,在列车调度之前,本发明方法及系统引入调度时间窗的划分和确定方法,不仅有效降低了调度列车的规模,提高方法及系统的决策响应速度,同时也提高了调度时间窗的相似性,使得调度方法及系统能够利用已有调度经验,快速适应并解决新的列车调度问题,同时本发明方法及系统仅利用列车晚点时间信息定义仿真环境状态,进一步增大了各类调度问题相似性,使调度方法及系统习得的调度技能具有较强的泛化能力,而在列车运行仿真环境内部本发明方法及系统引入了列车的随机晚点使最终生成的列车调度方案能够关注调度的不确定性和长期效益,生成期望意义下列车延误最小的列车重调度方案,最后在调度决策阶段,本发明方法及系统中引入了先验调度知识从而可以剔除无效的调度决策,极大地缩短调度用时,从而满足实际列车调度的时间要求,提高了本发明方法及系统的实际应用价值。
附图说明
图1为本发明实施方式的不确定环境下的高铁列车智能调度系统的结构示意图;
图2为本发明实施方式中时间窗的划分和选取示意图;
图3为本发明实施方式中仿真环境状态S和调度决策ak的定义示意图;
图4为本发明实施方式中确定可行调度决策集合
Figure BDA0003193802820000088
的流程示意图;
图5为本发明实施方式中确定列车重调度方案Tre的流程示意图;
图6为本发明实施方式的不确定环境下的高铁列车智能调度方法流程图;
图7为本发明实施方式的不确定环境下的高铁列车智能调度方法中调度模型训练曲线示意图;
图8为本发明实施方式不确定环境下的高铁列车智能调度方法及系统生成的列车重调度方案示意图。
具体实施方式
为了便于理解本申请,下面将参照相关附图对本申请进行更全面的描述。附图中给出了本申请的较佳实施方式。但是,本申请可以以许多不同的形式来实现,并不限于本文所描述的实施方式。相反地,提供这些实施方式的目的是使对本申请的公开内容理解的更加透彻全面。
图1是本实施方式不确定环境下的高铁列车智能调度系统的结构示意图,所述不确定环境下的高铁列车智能调度系统包括:
信息采集模块:负责从铁路CTC系统中采集高速列车运行过程中影响列车调度的列车运行数据,并将其发送至信息处理模块;所述列车运行数据具体包括车次名、首发车站、终到站、途经车站、列车在各车站的计划到达时间和计划发车时间、铁路CTC系统当前时间、列车预计到站时间、列车最短安全停站时间、列车最小安全间隔时间和列车限速区段以及列车限速值;
信息处理模块:为了降低列车调度规模,增强系统可扩展性,信息处理模块负责接收信息采集模块所提供的信息,并对其进行筛选和处理,便于调度模块完成列车调度任务。为此首先对接收的列车运行数据按照其所处时间进行划分,最终等分为七个时间跨度为六小时的时间窗,时间窗均匀分布在一天内且相邻时间窗间存在三小时的重合时间,如图2所示。基于铁路CTC系统当前时间选定目标时间窗,使其处于目标时间窗覆盖时间范围的前半部分,最终确定的目标窗体内部所包含的列车将被选定为调度列车。随后从接收的所有列车运行数据中提取与调度列车相关的列车运行数据,进而得到仿真运行参数数据,其具体包括仿真环境状态S、运行时间约束Const和运行速度约束Consv,其中仿真环境状态S是调度模块进行列车调度的依据,而运行时间约束Const和运行速度约束Consv则是出于安全、商业因素考虑的列车运行约束信息。具体地,仿真环境状态S是以n+1维数组进行存储的,其被定义为:
Figure BDA0003193802820000091
其中j表示当前调度车站编号,而
Figure BDA0003193802820000092
Figure BDA0003193802820000093
表示列车1至n在车站j的到站晚点时间,共计n辆列车,最终仿真环境状态S数据被传输至辅助调度模块。而运行时间约束Const则包含调度列车在各车站的计划到达时间Tap和计划发车时间Tdp、列车在各车站的最短安全停站时间Tmw,而运行速度约束Consv则包含列车限速区段Cl和对应限速值Cv,可分别表示为:
Const={[Tap,Tdp],Tmw}
Consv={[Cl,Cv]}
最终运行时间约束Const被传输至调度辅助模块、调度模块和仿真模块,而运行速度约束Consv则仅输送至仿真模块。
调度辅助模块:用于辅助调度模块完成列车调度任务,包括越行识别单元和动作筛选单元;在列车运行仿真工作的初始阶段,调度辅助模块接收信息处理模块所传输的仿真环境状态S和运行时间约束Const中的Tap信息,再由S中所包含的列车个数排列组合生成初始调度决策集Aset={ak|k=1,2,…,n!},如图3所示,其中ak=[Oi|i=1,2,…,n]表示具体列车发车顺序,Oi表示第i个列车所在位置。将得到的Aset、S和Tap两两输入至越行识别单元中,如图4所示,以Aset和S为输入得到各调度决策的调整列车集
Figure BDA0003193802820000101
其代表各调度决策对列车运行顺序进行调整的高铁列车集合,列车运行顺序具体表示为各列车在站间的行车先后关系。而以Aset和Tap为输入确定各调度决策的列车越行偏移量
Figure BDA0003193802820000102
其反映各调度决策所对应的列车发车顺序与计划列车运行顺序间的偏离程度,最后以S和Tap为输入得到预计越行列车集trst和越行偏移量yst,其分别表示预计列车运行顺序发生变化的高铁列车集合和预计列车运行顺序与计划列车运行顺序间的偏离程度。将得到的这四项数据统一输入至动作筛选单元,如图4所示,根据内部筛选规则筛选出可行调度决策集合
Figure BDA0003193802820000103
动作筛选单元中的具体筛选规则为:
1)调度决策应仅对越行列车进行调整,非越行列车不进行主动调整,即:
Figure BDA0003193802820000104
2)调整后的行车顺序应靠拢于计划列车行驶顺序,即:
Figure BDA0003193802820000105
输出的可行调度决策集合
Figure BDA0003193802820000106
和仿真环境状态S被传输至调度模块4。
调度模块:用于训练调度模型并完成列车调度任务,具体由模型训练单元、调度决策单元和方案生成单元组成,如图5所示。所述调度决策单元用于接收调度辅助模块提供的可行调度决策集合
Figure BDA0003193802820000107
和仿真环境状态S,构建调度模型的输入数据集input={[S,ak]},调度模型的输出为调度决策的评价集Qset={Q(S,ak)},其中Q(S,ak)表示为仿真环境状态S下通过Q学习方法获得的第k个调度决策的评价值,调度决策的选择则根据模型训练回合数是否大于预先设定次数进行确定,当满足条件时利用e-greedy策略进行确定,不满足条件则直接选取Q(S,ak)最大对应的动作
Figure BDA0003193802820000111
所选出的调度决策
Figure BDA0003193802820000112
将分别传输至方案生成单元和模型训练单元,方案生成单元接收由调度决策单元传输的调度决策
Figure BDA0003193802820000113
根据最终的调度决策
Figure BDA0003193802820000114
给出的列车行车顺序,利用贪心算法生成最终列车重调度方案Tre=[Tar,Tdr],区别于调度决策仅确定列车运行顺序,列车重调度方案则确定列车的具体到发时间,其中Tar和Tdr分别表示为重调度方案中列车的到站时间和发车时间,并将其传输至仿真模块。而模型训练单元接收调度辅助模块提供的仿真环境状态S、调度决策单元传输的调度决策
Figure BDA0003193802820000115
由仿真模块传输的决策收益R和更新后的仿真环境状态S′以及调度辅助模块传输的更新后的调度决策集合
Figure BDA0003193802820000116
其中更新后的仿真环境状态S′是由仿真模块根据重调度方案Tre通过仿真生成的,调度决策集合
Figure BDA0003193802820000117
是由调度辅助模块接收更新后的仿真环境状态S′计算生成的,最终将所有数据汇总得到训练数据集
Figure BDA0003193802820000118
其被用于完成调度模型的参数更新。
仿真模块,具体由仿真接口单元和模拟仿真系统单元所组成,其中模拟仿真系统单元负责完成列车的实际运行仿真,而仿真接口单元负责实现模拟仿真系统单元与外部其他模块间的信息交互并完成对列车重调度方案的评价。具体地,仿真模块接收调度模块的列车重调度方案
Figure BDA0003193802820000119
和信息处理模块传输的运行速度约束Consv,将其发送至模拟仿真系统单元,模拟仿真系统单元从而进行仿真,为了考虑列车运行场景所存在的不确定性,模拟仿真系统单元内部引入随机晚点,即对繁忙列车中加入随机晚点,晚点服从离散概率分布P,而繁忙列车是通过比较计划运行图中列车在区间的运行时间
Figure BDA00031938028200001110
与重调度方案中列车在区间的运行时间
Figure BDA00031938028200001111
的差异性来判定的,差异越小则说明本列车越繁忙,列车运行仿真后的数据即预计列车运行数据
Figure BDA00031938028200001112
将被反馈回仿真接口单元,由仿真接口单元计算决策收益R并更新环境状态,其中决策收益R被用于评估列车重调度方案实际执行的好坏,利用列车总晚点进行衡量,更新后的仿真环境状态S′指的是各调度列车依据调度方案运行后到达的下一车站j+1和各调度列车在车站j+1的晚点时间信息,决策收益R和更新后的仿真环境状态S′均传输至调度模块,用于完成调度模型训练任务。
图6是本实施方式的不确定环境下的高铁列车智能调度方法流程图,所述不确定环境下的高铁列车智能调度方法包括以下步骤:
步骤1:从铁路CTC系统中采集列车调度与仿真所需要的列车运行数据;
所述列车运行数据包括车次名、首发车站、终到站、途经车站、列车在各车站的计划到达时间和计划发车时间、铁路CTC系统当前时间、列车预计到站时间、列车最短安全停站时间、列车最小安全间隔时间、列车限速区段以及列车限速值。
步骤2:对步骤1采集的列车运行数据按照其所处时间划分时间窗且根据铁路CTC系统当前时间tnow确定目标时间窗,并将目标时间窗窗体内部所包含的列车确定为调度列车。
将步骤1采集到的列车运行数据按照数据记录的时间进行划分,通过式(1)等分为七个时间跨度为六小时的时间窗ΔTw,时间窗均匀分布在一天内且相邻时间窗间存在三小时的重合时间,根据铁路CTC系统当前时间tnow利用式(2)确定出目标时间窗ΔTa,进而利用式(3)确定调度列车的列车运行数据dataopt
ΔTw={[Δt×(i-1)/2,Δt×(i+1)/2]|i=1,2,…,7,Δt=6} (1)
ΔTa={ΔTw[i]|Δt×(i-1)/2<tnow<Δt×i} (2)
Figure BDA0003193802820000121
其中,Δt表示时间窗所对应的时间间隔,取值为6小时;ΔTw[i]表示具体第i个时间窗;datatrain为列车train对应的列车运行数据,调度列车的列车运行数据dataopt来自于步骤1中获取的列车运行数据,具体可归为以下几项:包括调度列车集trainset,列车个数n,铁路CTC系统当前时间tnow,调度列车的计划到达时间Tap,计划发车时间Tdp,列车预计到站时间tap,调度列车在各车站的最短安全停站时间Tmw,在站间的最短运行时长Tmr,列车最小安全间隔时间Tmd,列车限速区段Cl和对应限速值Cv
dataopt={trainset,tnow,Tap,Tdp,tap,Tmw,Tmr,Tmd,Cl,Cv} (4)
步骤3:确定仿真环境状态S。
将步骤2中确定的各调度列车的预计到达时间
Figure BDA0003193802820000122
和计划到达时间
Figure BDA0003193802820000123
代入到公式(5)计算各列车在本调度区段首发车站的晚点时间D0,其中
Figure BDA0003193802820000124
表示第i辆列车在第j站的预计到达时间,
Figure BDA0003193802820000125
表示第i辆列车在第j站的计划到达时间。由此定义仿真环境状态:
Figure BDA0003193802820000126
Figure BDA0003193802820000127
上式中,
Figure BDA0003193802820000128
表示第i辆列车在第j站的晚点时间;
Figure BDA0003193802820000129
Figure BDA00031938028200001210
分别来自于调度列车的预计到达时间tap和计划到达时间Tap;j为当前车站编号。
步骤4:利用先验调度知识对调度决策进行预筛选,确定可行调度决策集合;
针对列车调度问题,本方法采取先确定列车行车顺序,其中列车行车顺序表示各列车在同一运行区间的行车先后顺序,再确定列车具体到发时间的方式来实现的,而在制定列车行车顺序之前,先利用先验调度知识对调度决策进行预筛选。
步骤4-1:确定预计越行列车集及越行程度。
方法为:首先根据步骤2中确定的各调度列车的计划到达时间Tap和预计到达时间tap分别确定计划的列车行车顺序orderp和预计列车行车顺序orderp′,判断列车计划行车顺序orderp中首辆列车traini在预计行车顺序order′p的位置
Figure BDA0003193802820000131
Figure BDA0003193802820000132
时,则判定该列车未发生越行,否则判定为越行,则利用式(7)更新预计越行列车集trst且利用式(8)更新越行偏移量yst
Figure BDA0003193802820000133
Figure BDA0003193802820000134
随后对列车计划行车顺序orderp和预计列车行车顺序order′p进行更新,具体分别在orderp和order′p中删除列车traini,随后再将删除后的列车按照行车顺序进行排序并再次识别首辆列车traini在预计列车行车顺序order′p中的位置,当
Figure BDA0003193802820000135
时,则判定该列车未发生越行,否则判定为越行,再次利用式(7)和式(8)更新预计越行列车集trst和越行偏移量yst,重复执行这一过程持续至列车计划行车顺序orderp中仅包含一辆车为止。
步骤4-2:确定调度决策所对应的越行列车集和越行程度。
方法为:对n个调度列车进行随机排列组合,生成所有列车调度决策集Aset={ak|k=1,2,…,n!},计算Aset中包含的调度决策ak的越行列车集
Figure BDA0003193802820000136
和越行偏移量
Figure BDA0003193802820000137
具体地,首先判断计划列车行车顺序orderp中首辆列车traini在调度决策ak中的排序
Figure BDA0003193802820000138
Figure BDA0003193802820000139
Figure BDA00031938028200001310
则判定该列车未发生越行,否则判定为越行,利用式(7)更新越行列车集
Figure BDA00031938028200001311
利用式(8)更新越行偏移量
Figure BDA00031938028200001312
随后,分别在orderp和ak中删除列车traini,再将剩余列车按照行车顺序进行排序并识别首辆列车traini在调度决策ak中排序,再次利用式(7)和式(8)更新调度方案的越行列车集
Figure BDA00031938028200001313
和越行偏移量
Figure BDA00031938028200001314
重复执行这一过程持续至列车计划行车顺序仅包含一辆车为止。
步骤4-3:完成调度决策的筛选。根据步骤4-1中计算的预计越行列车集trst及越行偏移量yst和步骤4-2中计算的各调度决策的越行列车集
Figure BDA0003193802820000141
和越行偏移量
Figure BDA0003193802820000142
按照式(6)对调度决策进行筛选,生成可行调度决策集合
Figure BDA0003193802820000143
Figure BDA0003193802820000144
步骤5:从可行调度决策集合
Figure BDA0003193802820000145
中确定最终的调度决策。
步骤5-1:由步骤3计算的仿真环境状态S和步骤4-3计算得到的可行调度决策集合
Figure BDA0003193802820000146
共同构成调度模型的输入数据input={[S,ak]},其中ak表示
Figure BDA0003193802820000147
中的第k个调度决策,对应的调度模型输出为调度决策的评价集Qset={Q(S,ak)},其中状态动作值Q(S,ak)表示为仿真环境状态S下的通过Q学习方法获得的第k个调度决策的评价值,其用于评估仿真环境状态S下执行调度决策ak的好坏程度。
步骤5-2:判定调度模型训练回合数k是否大于预先设定次数num,当k<num时,调度模型利用公式(9)所示的ε-greedy策略实现对调度决策
Figure BDA0003193802820000148
的选择,否则调度模型通过公式(10)选取使得状态动作值Q(S,ak)最大的动作即调度决策
Figure BDA0003193802820000149
其中调度模型训练回合数k用于记录仿真次数,初始值设定为0,预先设定次数num代表了模型的最小训练回合数,由人为选定。
Figure BDA00031938028200001410
Figure BDA00031938028200001411
步骤6:利用贪心算法确定列车重调度方案。
步骤6-1:根据步骤3计算的仿真环境状态S确定当前车站编号j,再从步骤2中构建的调度列车的列车运行数据dataopt中调取与车站编号j相关的列车运行数据
Figure BDA00031938028200001412
Figure BDA00031938028200001413
其中
Figure BDA00031938028200001414
Figure BDA00031938028200001415
分别表示第i辆驶离车站的调度列车ti在车站j和j+1上的计划到达时间,
Figure BDA00031938028200001416
为第i辆发车的调度列车ti在车站j上的计划离开时间,
Figure BDA00031938028200001417
为第i辆发车的调度列车i在车站j的最小停留时间,
Figure BDA00031938028200001418
为第i辆发车的调度列车ti在车站j与车站j+1间的区间最小运行时间,Tmd为相邻列车最小安全间隔时间。
步骤6-2:根据步骤5确定的最终调度决策
Figure BDA00031938028200001419
确定各列车的先后行车顺序,首先利用式(11)计算第一辆驶离车站的列车t1在车站j的离开时间
Figure BDA00031938028200001420
进而根据式(12)确定列车t1在车站j+1的到达时间
Figure BDA00031938028200001421
Figure BDA0003193802820000151
Figure BDA0003193802820000152
其中,
Figure BDA0003193802820000153
来源于步骤3计算的仿真环境状态S,表示首辆驶离车站的调度列车t1在j车站的晚点时间。
步骤6-3:根据步骤6-2确定的首发列车t1的具体运行时间
Figure BDA0003193802820000154
Figure BDA0003193802820000155
和步骤6-1构建的
Figure BDA0003193802820000156
利用式(13)和式(14)分别计算后一辆列车ti+1的驶离车站j的时间
Figure BDA0003193802820000157
和到达车站j+1的时间
Figure BDA0003193802820000158
Figure BDA0003193802820000159
Figure BDA00031938028200001510
其中,
Figure BDA00031938028200001511
来源于步骤3计算的仿真环境状态S,表示列车ti+1在j车站的晚点时间;
Figure BDA00031938028200001512
表示列车ti+1在车站j的计划到达时间;
Figure BDA00031938028200001513
表示列车ti+1在车站j的最短安全停站时间;
Figure BDA00031938028200001514
表示列车ti+1在j车站的计划发车时间;
Figure BDA00031938028200001515
表示列车ti+1在车站j和车站j+1间的最短运行时长;
Figure BDA00031938028200001516
表示列车ti+1在车站j+1的计划到达时间。
步骤6-4:根据步骤6-3确定的列车ti+1的具体运行时间
Figure BDA00031938028200001517
Figure BDA00031938028200001518
代入至式(15)和式(16)中,依次对后续所有列车驶离车站j的时间
Figure BDA00031938028200001519
和到达车站j+1的时间
Figure BDA00031938028200001520
进行确定,进而完成列车重调度方案Tre=[Tar,Tdr]的生成,其中
Figure BDA00031938028200001521
Figure BDA00031938028200001522
Figure BDA00031938028200001523
Figure BDA00031938028200001524
Figure BDA00031938028200001525
步骤7:确定列车决策收益R和更新后的仿真环境状态S′。
将步骤6确定的列车重调度方案和步骤2收集的Cl,Cv传输至仿真模块中进行列车运行仿真,仿真结束输出仿真运行方案Trun=[Taru,Tdru],其中
Figure BDA00031938028200001526
Figure BDA00031938028200001527
Figure BDA00031938028200001528
分别表示调度列车实际到站时间和调度列车实际发站时间。再利用式(17)计算各调度列车在车站j+1的晚点时间Dj+1,利用式(18)计算决策收益R,利用式(19)对更新后的仿真环境状态S′进行定义。
Figure BDA0003193802820000161
Figure BDA0003193802820000162
Figure BDA0003193802820000163
其中,
Figure BDA0003193802820000164
来源于仿真运行方案Trun,表示列车ti在车站j+1的仿真到站时间;
Figure BDA0003193802820000165
来自于步骤2中构建的调度场景数据dataopt,其表示列车ti在车站j+1的计划到站时间;
Figure BDA0003193802820000166
表示列车ti在车站j+1的晚点时间,更新后的仿真环境状态S′中
Figure BDA0003193802820000167
来源于Dj+1,指的是第1,2,…,n辆驶离车站列车的晚点时间。
步骤8:更新列车可行调度决策集合,记为
Figure BDA0003193802820000168
根据步骤7中更新后的仿真环境状态S′确定当前车站编号j+1,再从步骤2中构建的调度场景数据dataopt中调取在车站编号j+1的各列车的计划到达时间
Figure BDA0003193802820000169
将S′和
Figure BDA00031938028200001610
代入至步骤4中计算更新后的列车可行调度决策集
Figure BDA00031938028200001611
步骤9:对调度模型进行训练。
步骤9-1:将步骤7确定的列车决策收益R和更新后的仿真环境状态S′,步骤8确定的更新后的列车可行调度决策集
Figure BDA00031938028200001612
以及步骤5中的仿真环境状态S和调度决策
Figure BDA00031938028200001613
进行整合,构成调度模型训练数据集
Figure BDA00031938028200001614
步骤9-2:利用步骤9-1确定的调度模型训练数据dataset,利用式(20)完成调度模型参数的更新。
Figure BDA00031938028200001615
式中α∈(0,1]和γ∈[0,1)为调度模型训练所需参数,分别表示调度模型的学习率和折扣率。
步骤10:提取仿真环境状态S′中的车站编号j+1,当车站编号j+1大于调度区段的车站总数numtrain时,更新模型训练回合数k←k+1,若调度模型更新次数k大于预先设定次数num,则表示调度模型训练完成,执行步骤11,否则执行步骤3至步骤10;当车站编号j+1小于调度区段的车站总数numtrain时,将更新后的仿真环境状态S′替换仿真环境状态S,即S←S′,再次执行步骤4至步骤10。其中调度区段的车站总数numtrain是指步骤1获取的列车运行数据中首发车站、终到站、途经车站的所有元素个数。
步骤11:生成最终的列车运行方案;
步骤11-1:执行步骤3至步骤7,并用步骤7确定的更新后的仿真环境状态S′替换仿真环境状态S,即S←S′;
步骤11-2:判定仿真环境状态S中车站编号j+1是否大于等于调度区段的车站总数bnumtrain,若否,则再次执行步骤11-1,若是,则将执行过程中生成的列车重调度方案Tre整合构成整个调度区段的列车运行方案。
为验证本发明的有效性,在实施例中选取天津南至枣庄的列车运行场景,其中列车车站数M=8,列车数n=8。具体调度列车的计划到站时间和计划发车时间如表1所示。
表1案例计划运行信息
Figure BDA0003193802820000171
其他列车运行信息包括列车最小安全间隔时间Tmd取值为4分钟,调度列车在各车站的最短安全停站时间Tmw为2分钟。站间的最短运行时长Tmr如表2所示。列车预计到站时间tap=[50,0,20,0,0,0,0];列车限速区段
Figure BDA0003193802820000173
和对应限速值Cv=∞,仿真模块内部随机晚点所服从的分布P如表3所示。
表2实施例中列车站间最短运行时长
Figure BDA0003193802820000172
Figure BDA0003193802820000181
图7是实施例中最终调度模型训练的收敛曲线图,图中横坐标表示模型训练回合数k,纵坐标表示调度方案的晚点时长。从图7可以发现,本调度系统和方法能够在不确定性环境下仍能够实现快速收敛,具体在1400个回合便可以收敛,图8是通过训练后的调度模型生成的列车重调度方案,图中实线表示经高铁列车智能调度系统调整后的列车运行方案,虚线表示计划的列车运行时刻表,可以发现图中车1和车3分别产生了不同程度的晚点,而利用本发明方法和系统能够合理地调整列车间运行顺序,有效减少列车的晚点时间,值得注意的是,在图中圈中的地方列车1与列车2间的行车顺序并未发生改变,这是由于列车顺序的交互往往会引起随机晚点的产生,因此本发明系统和方法所生成的列车重调度方案能够考虑到列车运行环境的不确定性。
虽然上面结合本发明的优选实施例对本发明的原理进行了详细的描述,本领域技术人员应该理解,上述实施例仅仅是对本发明的示意性实现方式的解释,并非对本发明包含范围的限定。实施例中的细节并不构成对本发明范围的限制,在并不背离本发明的精神和范围的情况下,任何基于本发明技术方案的等效变换、简单替换等显而易见的改变,均落在本发明保护范围之内。

Claims (5)

1.一种不确定环境下的高铁列车智能调度方法,其特征在于,包括如下步骤:
步骤1:从铁路CTC系统中采集列车运行数据;
所述列车运行数据包括车次名、首发车站、终到站、途经车站、列车在各车站的计划到达时间和计划发车时间、铁路CTC系统当前时间、列车预计到站时间、列车最短安全停站时间、列车最小安全间隔时间和列车限速区段以及列车限速值;
步骤2:对步骤1采集的列车运行数据按照其所处时间划分时间窗且根据铁路CTC系统当前时间tnow确定目标时间窗,并将目标时间窗窗体内部所包含的列车确定为调度列车,并从上述列车运行数据中提取与调度列车相关的列车运行数据dataopt
步骤3:根据各调度列车的计划到达时间Tap和预计到达时间tap,确定仿真环境状态S;
将各调度列车的预计到达时间
Figure FDA0003193802810000011
和计划到达时间
Figure FDA0003193802810000012
Figure FDA0003193802810000013
代入到公式(5)计算各列车在本调度区段首发车站的晚点时间D0,其中
Figure FDA0003193802810000014
表示第i辆列车在第j站的预计到达时间,
Figure FDA0003193802810000015
表示第i辆列车在第j站的计划到达时间,由此定义仿真环境状态:
Figure FDA0003193802810000016
Figure FDA0003193802810000017
上式中,
Figure FDA0003193802810000018
表示第i辆列车在第j站的晚点时间;
Figure FDA0003193802810000019
Figure FDA00031938028100000110
分别来自于调度列车的预计到达时间tap和计划到达时间Tap;j为调度车站编号;
步骤4:利用先验调度知识对调度决策进行预筛选,确定可行调度决策集合
Figure FDA00031938028100000111
步骤5:从可行调度决策集合
Figure FDA00031938028100000112
中确定最终的调度决策
Figure FDA00031938028100000113
步骤5-1:建立调度模型,通过调度模型对可行调度决策集合
Figure FDA00031938028100000114
中的调度决策进行评价;
由步骤3计算的仿真环境状态S和步骤4-3计算得到的可行调度决策集合
Figure FDA00031938028100000115
共同构成调度模型的输入数据input={[S,ak]},其中ak表示
Figure FDA00031938028100000116
中的第k个调度决策,对应的调度模型输出为调度决策的评价集Qset={Q(S,ak)},其中状态动作值Q(S,ak)表示为仿真环境状态S下的通过Q学习方法获得的第k个调度决策的评价值,其用于评估仿真环境状态S下执行调度决策ak的好坏程度;
步骤5-2:调度模型从可行调度决策集合
Figure FDA00031938028100000117
中选出评价值最高的调度决策作为最终的调度决策;
具体方法为:判定调度模型训练回合数k是否大于预先设定次数num,当k<num时,调度模型利用公式(9)所示的ε-greedy策略实现对调度决策
Figure FDA0003193802810000021
的选择,否则调度模型通过公式(10)选取使得状态动作值Q(S,ak)最大的动作即调度决策
Figure FDA0003193802810000022
其中模型训练回合数k用于记录仿真次数,初始值设定为0,预先设定次数num代表模型的最小训练回合数;
Figure FDA0003193802810000023
Figure FDA0003193802810000024
步骤6:根据最终的调度决策
Figure FDA0003193802810000025
给出的列车行车顺序,利用贪心算法确定列车重调度方案;
步骤7:根据列车限速区段Cl与对应限速值Cv以及步骤6确定的列车重调度方案进行列车运行仿真,仿真结束输出仿真运行方案Trun,根据仿真运行方案Trun确定列车决策收益R,以及根据仿真运行方案Trun更新仿真环境状态得到更新后的仿真环境状态S′;
所述仿真运行方案Trun=[Taru,Tdru],其中
Figure FDA0003193802810000026
Figure FDA0003193802810000027
Figure FDA0003193802810000028
分别表示调度列车预计到站时间和调度列车预计发站时间;再利用式(17)计算各调度列车在车站j+1的晚点时间Dj+1,利用式(18)计算列车决策收益R,利用式(19)对更新后的仿真环境状态S′进行定义;
Figure FDA0003193802810000029
Figure FDA00031938028100000210
Figure FDA00031938028100000211
其中,
Figure FDA00031938028100000212
来源于仿真运行方案Trun,表示列车ti在车站j+1的仿真到站时间;
Figure FDA00031938028100000213
来自于dataopt,其表示列车ti在车站j+1的计划到站时间;
Figure FDA00031938028100000214
表示列车ti在车站j+1的晚点时间,更新后的仿真环境状态S′中
Figure FDA00031938028100000215
来源于Dj+1,指的是第1,2,...,n辆列车在车站j+1的晚点时间;
步骤8:根据步骤7中更新后的仿真环境状态S′确定当前车站编号j+1,再从调度列车的列车运行数据dataopt中调取在车站编号j+1的各列车的计划到达时间
Figure FDA00031938028100000216
将S′和
Figure FDA00031938028100000217
代入至步骤4中更新列车可行调度决策集合,更新后的列车可行调度决策集记为
Figure FDA00031938028100000218
步骤9:对调度模型进行训练;
将步骤7确定的列车决策收益R和更新后的仿真环境状态S′,步骤8确定的更新后的列车可行调度决策集
Figure FDA0003193802810000031
以及步骤3中的仿真环境状态S和步骤5中的调度决策
Figure FDA0003193802810000032
进行整合,构成数据集
Figure FDA0003193802810000033
利用该数据集dataset和式(20)完成调度模型参数的更新;
Figure FDA0003193802810000034
上式中,α∈(0,1]和γ∈[0,1)分别表示调度模型的学习率和折扣率;
步骤10:提取更新后的仿真环境状态S′中的车站编号j+1,当车站编号j+1大于等于调度区段的车站总数numtrain时,更新模型训练回合数k←k+1,若调度模型更新次数k大于预先设定次数num,则表示调度模型训练完成,执行步骤11,否则执行步骤3至步骤10;当车站编号j+1小于调度区段的车站总数numtrain时,用更新后的仿真环境状态S′替换仿真环境状态S,即S←S′,再次执行步骤4至步骤10;
步骤11:生成最终的列车运行方案;
步骤11-1:执行步骤3至步骤7,并用步骤7确定的更新后的仿真环境状态S′替换仿真环境状态S,即S←S′;
步骤11-2:判定仿真环境状态S中车站编号j+1是否大于等于调度区段的车站总数numtrain,若否,则再次执行步骤11-1,若是,则将执行过程中生成的列车重调度方案Tre整合构成整个调度区段的列车运行方案。
2.根据权利要求1所述的不确定环境下的高铁列车智能调度方法,其特征在于,步骤2所述对步骤1采集的列车运行数据按照其所处时间划分时间窗为:将所采集的列车运行数据按照其所处时间等分为七个时间跨度为六小时的时间窗,时间窗均匀分布在一天内且相邻时间窗间存在三小时的重合时间。
3.根据权利要求1所述的不确定环境下的高铁列车智能调度方法,其特征在于,所述步骤4包括如下步骤:
步骤4-1:根据各调度列车的计划到达时间Tap和预计到达时间tap,确定预计越行列车集trst和越行偏移量yst
步骤4-2:对S中所包含的n个调度列车进行随机排列组合,生成所有列车调度决策集Aset={ak|k=1,2,...,n!},计算Aset中包含的调度决策ak所对应的越行列车集
Figure FDA0003193802810000035
和越行偏移量
Figure FDA0003193802810000036
其中ak=[Oi|i=1,2,...,n]表示具体列车发车顺序,Oi表示第i个列车所在位置;
步骤4-3:根据步骤4-1中确定的预计越行列车集trst及越行偏移量yst和步骤4-2中计算的各调度决策所对应的越行列车集
Figure FDA0003193802810000037
和越行偏移量
Figure FDA0003193802810000038
按照式(6)对调度决策进行筛选,生成可行调度决策集合
Figure FDA0003193802810000041
Figure FDA0003193802810000042
4.根据权利要求1所述的不确定环境下的高铁列车智能调度方法,其特征在于,所述步骤6包括如下步骤:
步骤6-1:根据步骤3计算的仿真环境状态S确定当前车站编号j,再从步骤2中构建的调度列车的列车运行数据dataopt中调取与车站编号j相关的列车运行数据
Figure FDA0003193802810000043
Figure FDA0003193802810000044
其中
Figure FDA0003193802810000045
Figure FDA0003193802810000046
分别表示第i辆驶离车站的调度列车ti在车站j和j+1上的计划到达时间,
Figure FDA0003193802810000047
为第i辆发车的调度列车ti在车站j上的计划离开时间,
Figure FDA0003193802810000048
为第i辆发车的调度列车i在车站j的最小停留时间,
Figure FDA0003193802810000049
为第i辆发车的调度列车ti在车站j与车站j+1间的区间最小运行时间,Tmd为相邻列车最小安全间隔时间;
步骤6-2:根据步骤5确定的最终调度决策
Figure FDA00031938028100000410
确定各列车的先后行车顺序,首先利用式(11)计算第一辆驶离车站的列车t1在车站j的离开时间
Figure FDA00031938028100000411
进而根据式(12)确定列车t1在车站j+1的到达时间
Figure FDA00031938028100000412
Figure FDA00031938028100000413
Figure FDA00031938028100000414
其中,
Figure FDA00031938028100000415
来源于步骤3计算的仿真环境状态S,表示首辆驶离车站的调度列车t1在j车站的晚点时间;
步骤6-3:根据步骤6-2确定的首发列车t1的具体运行时间
Figure FDA00031938028100000416
Figure FDA00031938028100000417
和步骤6-1构建的
Figure FDA00031938028100000418
利用式(13)和式(14)分别计算后一辆列车ti+1的驶离车站j的时间
Figure FDA00031938028100000419
和到达车站j+1的时间
Figure FDA00031938028100000420
Figure FDA00031938028100000421
Figure FDA00031938028100000422
其中,
Figure FDA00031938028100000423
来源于步骤3计算的仿真环境状态S,表示列车ti+1在j车站的晚点时间;
Figure FDA00031938028100000424
表示列车ti+1在车站j的计划到达时间;
Figure FDA00031938028100000425
表示列车ti+1在车站j的最短安全停站时间;
Figure FDA00031938028100000426
表示列车ti+1在j车站的计划发车时间;
Figure FDA0003193802810000051
表示列车ti+1在车站j和车站j+1间的最短运行时长;
Figure FDA0003193802810000052
表示列车ti+1在车站j+1的计划到达时间;
步骤6-4:根据步骤6-3确定的列车ti+1的具体运行时间
Figure FDA0003193802810000053
Figure FDA0003193802810000054
代入至式(15)和式(16)中,依次对后续所有列车驶离车站j的时间
Figure FDA0003193802810000055
和到达车站j+1的时间
Figure FDA0003193802810000056
进行确定,进而完成列车重调度方案Tre=[Tar,Tdr]的生成,其中
Figure FDA0003193802810000057
Figure FDA0003193802810000058
Figure FDA0003193802810000059
Figure FDA00031938028100000510
5.用于实现以上任一权利要求所述方法的不确定环境下的高铁列车智能调度系统,其特征在于,包括:
信息采集模块:用于从铁路CTC系统中采集列车运行数据,并将其发送至信息处理模块;
信息处理模块:用于接收信息采集模块所发送的列车运行数据;对接收的列车运行数据按照其所处时间划分时间窗;基于铁路CTC系统当前时间选定目标时间窗,目标窗体内部所包含的列车将被选定为调度列车,随后从上述列车运行数据中提取与调度列车相关的列车运行数据,并根据与调度列车相关的列车运行数据得到仿真运行参数数据,其具体包括仿真环境状态S、运行时间约束Const和运行速度约束Consv;所述仿真环境状态S是以n+1维数组进行存储的,其被定义为:
Figure FDA00031938028100000511
其中j表示当前调度车站对应编号,而
Figure FDA00031938028100000512
Figure FDA00031938028100000513
表示列车1至n在车站j的到站晚点时间,共计n辆列车,最终仿真环境状态S数据被传输至辅助调度模块;而运行时间约束Const则包含调度列车在各车站的计划到达时间Tap和计划发车时间Tdp、列车在各车站的最短安全停站时间Tmw,而运行速度约束Consv则包含列车限速区段Cl和对应限速值Cv,可分别表示为:
Const={[Tap,Tdp],Tmw}
Consv={[Cl,Cv]}
最终运行时间约束Const被传输至调度辅助模块、调度模块和仿真模块,而运行速度约束Consv则仅输送至仿真模块;
调度辅助模块:用于辅助调度模块完成列车调度任务,该模块包括越行识别单元和动作筛选单元;在列车运行仿真工作的初始阶段,调度辅助模块接收信息处理模块所传输的仿真环境状态S和运行时间约束Const中的Tap信息,再由S中所包含的列车个数排列组合生成初始调度决策集Aset={ak|k=1,2,...,n!},其中ak=[Oi|i=1,2,...,n]表示具体列车发车顺序,Oi表示第i个列车所在位置;将Aset、S和Tap两两输入至越行识别单元中:以Aset和S为输入得到各调度决策的调整列车集
Figure FDA0003193802810000061
其代表各调度决策对列车运行顺序进行调整的高铁列车集合,所述列车运行顺序具体表示为各列车在站间的行车先后关系;以Aset和Tap为输入确定各调度决策的列车越行偏移量
Figure FDA0003193802810000062
其反映各调度决策所对应的列车发车顺序与计划列车运行顺序间的偏离程度,最后以S和Tap为输入得到预计越行列车集trst和越行偏移量yst,其分别表示预计列车运行顺序发生变化的高铁列车集合和预计列车运行顺序与计划列车运行顺序间的偏离程度;将四项数据
Figure FDA0003193802810000063
yst和trst统一输入至动作筛选单元,根据筛选规则筛选出可行调度决策集合
Figure FDA0003193802810000064
输出的可行调度决策集合
Figure FDA0003193802810000065
和仿真环境状态S被传输至调度模块4;所述筛选规则为:
1)调度决策应仅对越行列车进行调整,非越行列车不进行主动调整,即:
Figure FDA0003193802810000066
2)调整后的行车顺序应靠拢于计划列车行驶顺序,即:
Figure FDA0003193802810000067
调度模块:用于训练调度模型并完成列车调度任务,具体由模型训练单元、调度决策单元和方案生成单元组成:1)所述调度决策单元,用于接收调度辅助模块提供的可行调度决策集合
Figure FDA0003193802810000068
和仿真环境状态S;根据可行调度决策集合
Figure FDA0003193802810000069
和仿真环境状态S构建调度模型的输入数据集input={[S,ak]},调度模型的输出为调度决策的评价集Qset={Q(S,ak)},其中Q(S,ak)表示为仿真环境状态S下的通过Q学习方法获得的第k个调度决策的评价值;根据调度决策的评价集Qset中各调度决策的评价值,调度决策的选择则根据模型训练回合数是否大于预先设定次数进行确定,当满足条件时利用e-greedy策略进行确定,不满足条件则直接选取Q(S,ak)最大对应的动作
Figure FDA00031938028100000610
所选出的调度决策
Figure FDA00031938028100000611
同时传输至方案生成单元和模型训练单元;2)所述方案生成单元,用于接收由调度决策单元传输的调度决策
Figure FDA00031938028100000612
根据最终的调度决策
Figure FDA00031938028100000613
给出的列车行车顺序,利用贪心算法生成列车重调度方案Tre=[Tar,Tdr],区别于调度决策仅确定列车运行顺序,列车重调度方案则确定列车的具体到发时间,其中Tar和Tdr分别表示为重调度方案中列车的到站时间和发车时间,并将其传输至仿真模块;3)所述模型训练单元,用于接收调度辅助模块提供的仿真环境状态S、调度决策单元传输的调度决策
Figure FDA0003193802810000071
由仿真模块传输的决策收益R和更新后的仿真环境状态S′以及调度辅助模块传输的更新后的调度决策集合
Figure FDA0003193802810000072
其中更新后的仿真环境状态S′是由仿真模块根据重调度方案Tre通过仿真生成的,调度决策集合
Figure FDA0003193802810000073
是由调度辅助模块接收更新后的仿真环境状态S′计算生成的,最终将所有数据汇总得到训练数据集
Figure FDA0003193802810000074
其被用于完成调度模型的参数更新;
仿真模块,由仿真接口单元和模拟仿真系统单元组成,其中模拟仿真系统单元负责列车运行仿真,而仿真接口单元负责实现模拟仿真系统单元与外部其他模块间的信息交互并完成对列车重调度方案的评价;具体为:所述模拟仿真系统单元用于接收调度模块传输的列车重调度方案
Figure FDA0003193802810000075
和信息处理模块传输的运行速度约束Consv,并根据列车重调度方案
Figure FDA0003193802810000076
和运行速度约束Consv进行列车运行仿真,考虑列车运行场景所存在的不确定性,模拟仿真系统单元内部引入随机晚点,即对繁忙列车中加入随机晚点,晚点服从离散概率分布P,而繁忙列车是通过比较计划运行图中列车在区间的运行时间
Figure FDA0003193802810000077
与重调度方案中列车在区间的运行时间
Figure FDA0003193802810000078
的差异性来判定的,差异越小则说明本列车越繁忙,列车运行仿真后的数据即预计列车运行数据
Figure FDA0003193802810000079
将被反馈回所述仿真接口单元,由仿真接口单元计算决策收益R并更新环境状态,其中决策收益R被用于评估列车重调度方案预计执行的好坏,利用列车总晚点进行衡量,更新后的仿真环境状态S′是由车站编号j+1和各调度列车在车站j+1的晚点时间信息构成,得到的决策收益R和更新后的仿真环境状态S′均传输至调度模块。
CN202110885255.0A 2021-08-03 2021-08-03 一种不确定环境下的高铁列车智能调度方法及系统 Active CN113536692B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110885255.0A CN113536692B (zh) 2021-08-03 2021-08-03 一种不确定环境下的高铁列车智能调度方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110885255.0A CN113536692B (zh) 2021-08-03 2021-08-03 一种不确定环境下的高铁列车智能调度方法及系统

Publications (2)

Publication Number Publication Date
CN113536692A true CN113536692A (zh) 2021-10-22
CN113536692B CN113536692B (zh) 2023-10-03

Family

ID=78090174

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110885255.0A Active CN113536692B (zh) 2021-08-03 2021-08-03 一种不确定环境下的高铁列车智能调度方法及系统

Country Status (1)

Country Link
CN (1) CN113536692B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114312926A (zh) * 2021-12-03 2022-04-12 北京交通大学 一种城市轨道交通列车运行调整方案优化方法和系统
CN117875674A (zh) * 2024-03-11 2024-04-12 西北大学 一种基于Q-learning的公交调度方法

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109840639A (zh) * 2019-03-05 2019-06-04 东北大学 一种高速铁路列车运行晚点时间预测方法
CN110341763A (zh) * 2019-07-19 2019-10-18 东北大学 一种快速恢复高铁列车准点运行的智能调度系统及方法
CN110803204A (zh) * 2019-11-13 2020-02-18 东北大学 一种保持高速列车运行稳定性的在线控制系统及方法
CN110843870A (zh) * 2019-11-21 2020-02-28 北京交通大学 一种非正常事件下高铁路网图定能力保持方法
US20200272954A1 (en) * 2019-02-25 2020-08-27 Mitsubishi Electric Research Laboratories, Inc. System and Method for Scheduling Multiple Modes of Transport with Incomplete Information
CN112511586A (zh) * 2020-10-21 2021-03-16 中国铁道科学研究院集团有限公司通信信号研究所 一种基于云边协同的高速铁路智能行车调度安全卡控系统

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20200272954A1 (en) * 2019-02-25 2020-08-27 Mitsubishi Electric Research Laboratories, Inc. System and Method for Scheduling Multiple Modes of Transport with Incomplete Information
CN109840639A (zh) * 2019-03-05 2019-06-04 东北大学 一种高速铁路列车运行晚点时间预测方法
CN110341763A (zh) * 2019-07-19 2019-10-18 东北大学 一种快速恢复高铁列车准点运行的智能调度系统及方法
CN110803204A (zh) * 2019-11-13 2020-02-18 东北大学 一种保持高速列车运行稳定性的在线控制系统及方法
CN110843870A (zh) * 2019-11-21 2020-02-28 北京交通大学 一种非正常事件下高铁路网图定能力保持方法
CN112511586A (zh) * 2020-10-21 2021-03-16 中国铁道科学研究院集团有限公司通信信号研究所 一种基于云边协同的高速铁路智能行车调度安全卡控系统

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
庄河;何世伟;戴杨铖;: "高速铁路列车运行调整的模型及其策略优化方法", 中国铁道科学, no. 02, pages 120 - 128 *
杨荟;周建栋;李想;: "基于节能的地铁时刻表随机机会约束规划模型", 系统工程学报, no. 02, pages 55 - 69 *
黄志鹏;: "基于旅行时间满意度的城际列车开行方案", 兰州交通大学学报, no. 01, pages 27 - 32 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114312926A (zh) * 2021-12-03 2022-04-12 北京交通大学 一种城市轨道交通列车运行调整方案优化方法和系统
CN114312926B (zh) * 2021-12-03 2022-12-16 北京交通大学 一种城市轨道交通列车运行调整方案优化方法和系统
CN117875674A (zh) * 2024-03-11 2024-04-12 西北大学 一种基于Q-learning的公交调度方法

Also Published As

Publication number Publication date
CN113536692B (zh) 2023-10-03

Similar Documents

Publication Publication Date Title
CN109508751B (zh) 高速铁路列车晚点时间预测的深度神经网络模型建模方法
CN109840639B (zh) 一种高速铁路列车运行晚点时间预测方法
Cao et al. Real-time schedule adjustments for autonomous public transport vehicles
CN113536692B (zh) 一种不确定环境下的高铁列车智能调度方法及系统
CN109558985A (zh) 一种基于bp神经网络的公交客流量预测方法
CN111027673B (zh) 一种地铁客流量预测方法
CN113276915B (zh) 一种地铁发车调度方法和系统
Cats et al. Optimizing the number and location of time point stops
CN112562377A (zh) 一种基于随机机会约束的客运车辆实时调度方法
CN115222251B (zh) 一种基于混合分层强化学习的网约车调度方法
CN114240002A (zh) 基于深度强化学习的公交发车时刻表动态优化算法
CN109522584B (zh) 一种有轨电车发车时刻表设计方法
CN114004452A (zh) 城轨调度方法、装置、电子设备及存储介质
Liu et al. Prediction algorithms for train arrival time in urban rail transit
CN113344336A (zh) 一种车辆调度方法、装置及存储介质
Chang et al. Evaluation of evolutionary algorithms for multi-objective train schedule optimization
CN107272407A (zh) 一种ato系统行程方案的评价方法及系统
CN115170006B (zh) 发车调度方法、装置、设备和存储介质
Li et al. Timetable coordination of the first trains for subway network with maximum passenger perceived transfer quality
CN112967518B (zh) 一种公交专用道条件下公交车辆轨迹的Seq2Seq预测方法
CN113935581A (zh) 基于滚动时域事件影响分析的货物列车调度方法及系统
Gkiotsalitis Bus holding control of running buses in time windows
CN114117883A (zh) 一种基于强化学习的自适应轨道交通调度方法、系统、终端
Hairong et al. Optimal regional bus timetables using improved genetic algorithm
Gkiotsalitis Periodic Stop Skipping: NP-hardness and computational limitations.

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant