CN113536692A - 一种不确定环境下的高铁列车智能调度方法及系统 - Google Patents
一种不确定环境下的高铁列车智能调度方法及系统 Download PDFInfo
- Publication number
- CN113536692A CN113536692A CN202110885255.0A CN202110885255A CN113536692A CN 113536692 A CN113536692 A CN 113536692A CN 202110885255 A CN202110885255 A CN 202110885255A CN 113536692 A CN113536692 A CN 113536692A
- Authority
- CN
- China
- Prior art keywords
- train
- scheduling
- time
- station
- simulation
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 66
- 238000004088 simulation Methods 0.000 claims abstract description 172
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 8
- 238000012549 training Methods 0.000 claims description 35
- 230000007613 environmental effect Effects 0.000 claims description 21
- 238000012216 screening Methods 0.000 claims description 21
- 238000011156 evaluation Methods 0.000 claims description 19
- 230000009471 action Effects 0.000 claims description 16
- 230000010365 information processing Effects 0.000 claims description 13
- 238000010586 diagram Methods 0.000 claims description 12
- 238000004364 calculation method Methods 0.000 claims description 9
- 235000006629 Prosopis spicigera Nutrition 0.000 claims description 6
- 240000000037 Prosopis spicigera Species 0.000 claims description 6
- 230000003993 interaction Effects 0.000 claims description 4
- 230000008901 benefit Effects 0.000 claims description 3
- 125000004432 carbon atom Chemical group C* 0.000 claims description 3
- 238000010276 construction Methods 0.000 claims description 3
- 230000010354 integration Effects 0.000 claims description 2
- 230000004044 response Effects 0.000 abstract description 2
- 238000012795 verification Methods 0.000 abstract 1
- 230000008569 process Effects 0.000 description 4
- 238000012217 deletion Methods 0.000 description 2
- 230000037430 deletion Effects 0.000 description 2
- 230000004075 alteration Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000001934 delay Effects 0.000 description 1
- 230000003111 delayed effect Effects 0.000 description 1
- 230000002068 genetic effect Effects 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 238000000926 separation method Methods 0.000 description 1
- 238000012163 sequencing technique Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F30/00—Computer-aided design [CAD]
- G06F30/20—Design optimisation, verification or simulation
- G06F30/27—Design optimisation, verification or simulation using machine learning, e.g. artificial intelligence, neural networks, support vector machines [SVM] or training a model
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Theoretical Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Medical Informatics (AREA)
- Software Systems (AREA)
- Artificial Intelligence (AREA)
- Computer Hardware Design (AREA)
- Geometry (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
- Train Traffic Observation, Control, And Security (AREA)
Abstract
本发明公开了一种不确定环境下的高铁列车智能调度方法及系统,属于高铁列车智能调度技术领域。首先将采集铁路CTC系统内部列车运行数据,利用调度时间窗划分方法确立实际调度列车,进而确定仿真环境状态S,为提高调度模型的决策响应速度,引入先验调度知识,即对调度决策进行预筛选,再由基于Q学习方法的调度模型给出最终的调度决策,利用贪心算法生成对应的列车调度方案,考虑到调度环境的不确定性,引入能产生随机晚点的仿真模块,使调度环境更为真实有效。通过选取对实例场景进行验证,证明本发明方法及系统能够有效减缓列车晚点的传播,可为调度员的列车调度工作提供参考方案。
Description
技术领域
本发明属于高铁列车智能调度技术领域,具体涉及一种不确定环境下的高铁列车智能调度方法及系统。
背景技术
高铁列车凭借其安全和高效目前已成为乘客在中长行程旅途中的主要交通方式。但受到气候、客流、设备故障的影响,列车往往无法严格按照计划运行信息行驶,由此造成部分列车产生晚点,而为了减小列车晚点对后续列车的影响,需要对高铁列车进行调度,即重新生成一个全新的列车运行方案。
目前在实际列车运行过程中,调度人员是完全依据其自身经验对列车进行调度,但高速列车运行效率的严格要求导致调度人员的决策时间较为有限,同时列车后续运行所面临的不确定性,即不确定环境下的调度也使得决策变得更为困难,因此采用人工调度方法往往无法有效降低列车晚点的传播,由此产生较高的经济成本。
目前已有相关调度方法用于解决这一问题,主要包括三大类,第一类是数学规划方法,通过构建严格的数学模型如混合整数线性规划模型,采用商用求解器如CPLEX或者GUROBI对模型进行求解,这种方法虽能得到精确最优解但求解时间相对较长,很难满足高铁列车调度时效性要求;第二类是以遗传算法为代表的智能调度方法,这类算法的优势在于其能够在合理时间内求得近似最优解,但现有方法假定调度环境充分已知,然而在实际调度环境下调度人员、列车以及气候无时无刻都对列车的运行产生影响,因此也无法满足实际工程的需求,第三类则是基于仿真的方法,如元胞自动机,这类方法虽能根据环境变化进行快速应对,但相关专家知识的获取仍是一个相对困难的工作。而且,目前现有学者大多研究确定性场景下如何进行列车调度的问题,很少考虑到后续环境不确定性对列车调度的影响,因此无法产生全局最优的列车重调度方案。
发明内容
针对现有技术的不足,本发明提出一种不确定环境下的高铁列车智能调度方法及系统。
本发明的技术方案是:
一种不确定环境下的高铁列车智能调度方法,包括如下步骤:
步骤1:从铁路CTC系统中采集列车运行数据;
所述列车运行数据包括车次名、首发车站、终到站、途经车站、列车在各车站的计划到达时间和计划发车时间、铁路CTC系统当前时间、列车预计到站时间、列车最短安全停站时间、列车最小安全间隔时间和列车限速区段以及列车限速值;
步骤2:对步骤1采集的列车运行数据按照其所处时间划分时间窗且根据铁路CTC系统当前时间tnow确定目标时间窗,并将目标时间窗窗体内部所包含的列车确定为调度列车,并从上述列车运行数据中提取与调度列车相关的列车运行数据dataopt;
步骤3:根据各调度列车的计划到达时间Tap和预计到达时间tap,确定仿真环境状态S;
将各调度列车的预计到达时间和计划到达时间 代入到公式(5)计算各列车在本调度区段首发车站的晚点时间D0,其中表示第i辆列车在第j站的预计到达时间,表示第i辆列车在第j站的计划到达时间,由此定义仿真环境状态:
由步骤3计算的仿真环境状态S和步骤4-3计算得到的可行调度决策集合共同构成调度模型的输入数据input={[S,ak]},其中ak表示中的第k个调度决策,对应的调度模型输出为调度决策的评价集Qset={Q(S,ak)},其中状态动作值Q(S,ak)表示为仿真环境状态S下的通过Q学习方法获得的第k个调度决策的评价值,其用于评估仿真环境状态S下执行调度决策ak的好坏程度;
具体方法为:判定调度模型训练回合数k是否大于预先设定次数num,当k<num时,调度模型利用公式(9)所示的ε-greedy策略实现对调度决策的选择,否则调度模型通过公式(10)选取使得状态动作值Q(S,ak)最大的动作即调度决策其中模型训练回合数k用于记录仿真次数,初始值设定为0,预先设定次数num代表模型的最小训练回合数;
步骤7:根据列车限速区段Cl与对应限速值Cv以及步骤6确定的列车重调度方案进行列车运行仿真,仿真结束输出仿真运行方案Trun,根据仿真运行方案Trun确定列车决策收益R,以及根据仿真运行方案Trun更新仿真环境状态得到更新后的仿真环境状态S′;
所述仿真运行方案Trun=[Taru,Tdru],其中和 分别表示调度列车预计到站时间和调度列车预计发站时间;再利用式(17)计算各调度列车在车站j+1的晚点时间Dj+1,利用式(18)计算列车决策收益R,利用式(19)对更新后的仿真环境状态S′进行定义;
其中,来源于仿真运行方案Trun,表示列车ti在车站j+1的仿真到站时间;来自于dataopt,其表示列车ti在车站j+1的计划到站时间;表示列车ti在车站j+1的晚点时间,更新后的仿真环境状态S′中来源于Dj+1,指的是第1,2,…,n辆列车在车站j+1的晚点时间;
步骤8:根据步骤7中更新后的仿真环境状态S′确定当前车站编号j+1,再从调度列车的列车运行数据dataopt中调取在车站编号j+1的各列车的计划到达时间将S′和代入至步骤4中更新列车可行调度决策集合,更新后的列车可行调度决策集记为
步骤9:对调度模型进行训练;
将步骤7确定的列车决策收益R和更新后的仿真环境状态S′,步骤8确定的更新后的列车可行调度决策集以及步骤3中的仿真环境状态S和步骤5中的调度决策进行整合,构成数据集利用该数据集dataset和式(20)完成调度模型参数的更新;
上式中,α∈(0,1]和γ∈[0,1)分别表示调度模型的学习率和折扣率;
步骤10:提取更新后的仿真环境状态S′中的车站编号j+1,当车站编号j+1大于等于调度区段的车站总数numtrain时,更新模型训练回合数k←k+1,若调度模型更新次数k大于预先设定次数num,则表示调度模型训练完成,执行步骤11,否则执行步骤3至步骤10;当车站编号j+1小于调度区段的车站总数numtrain时,用更新后的仿真环境状态S′替换仿真环境状态S,即S←S′,再次执行步骤4至步骤10;
步骤11:生成最终的列车运行方案;
步骤11-1:执行步骤3至步骤7,并用步骤7确定的更新后的仿真环境状态S′替换仿真环境状态S,即S←S′;
步骤11-2:判定仿真环境状态S中车站编号j+1是否大于等于调度区段的车站总数numtrain,若否,则再次执行步骤11-1,若是,则将执行过程中生成的列车重调度方案Tre整合构成整个调度区段的列车运行方案。
进一步地,根据所述的不确定环境下的高铁列车智能调度方法,步骤2所述对步骤1采集的列车运行数据按照其所处时间划分时间窗为:将所采集的列车运行数据按照其所处时间等分为七个时间跨度为六小时的时间窗,时间窗均匀分布在一天内且相邻时间窗间存在三小时的重合时间。
进一步地,根据所述的不确定环境下的高铁列车智能调度方法,所述步骤4包括如下步骤:
步骤4-1:根据各调度列车的计划到达时间Tap和预计到达时间tap,确定预计越行列车集trst和越行偏移量yst;
步骤4-2:对S中所包含的n个调度列车进行随机排列组合,生成所有列车调度决策集Aset={ak|k=1,2,…,n!},计算Aset中包含的调度决策ak所对应的越行列车集和越行偏移量其中ak=[Oi|i=1,2,…,n]表示具体列车发车顺序,Oi表示第i个列车所在位置;
进一步地,根据所述的不确定环境下的高铁列车智能调度方法,所述步骤6包括如下步骤:
步骤6-1:根据步骤3计算的仿真环境状态S确定当前车站编号j,再从步骤2中构建的调度列车的列车运行数据dataopt中调取与车站编号j相关的列车运行数据 其中和分别表示第i辆驶离车站的调度列车ti在车站j和j+1上的计划到达时间,为第i辆发车的调度列车ti在车站j上的计划离开时间,为第i辆发车的调度列车i在车站j的最小停留时间,为第i辆发车的调度列车ti在车站j与车站j+1间的区间最小运行时间,Tmd为相邻列车最小安全间隔时间;
其中,来源于步骤3计算的仿真环境状态S,表示列车ti+1在j车站的晚点时间;表示列车ti+1在车站j的计划到达时间;表示列车ti+1在车站j的最短安全停站时间;表示列车ti+1在j车站的计划发车时间;表示列车ti+1在车站j和车站j+1间的最短运行时长;表示列车ti+1在车站j+1的计划到达时间;
步骤6-4:根据步骤6-3确定的列车ti+1的具体运行时间和代入至式(15)和式(16)中,依次对后续所有列车驶离车站j的时间和到达车站j+1的时间进行确定,进而完成列车重调度方案Tre=[Tar,Tdr]的生成,其中
用于实现以上任一所述方法的不确定环境下的高铁列车智能调度系统,包括:
信息采集模块:用于从铁路CTC系统中采集列车运行数据,并将其发送至信息处理模块;
信息处理模块:用于接收信息采集模块所发送的列车运行数据;对接收的列车运行数据按照其所处时间划分时间窗;基于铁路CTC系统当前时间选定目标时间窗,目标窗体内部所包含的列车将被选定为调度列车,随后从上述列车运行数据中提取与调度列车相关的列车运行数据,并根据与调度列车相关的列车运行数据得到仿真运行参数数据,其具体包括仿真环境状态S、运行时间约束Const和运行速度约束Consv;所述仿真环境状态S是以n+1维数组进行存储的,其被定义为:
其中j表示当前调度车站对应编号,而至表示列车1至n在车站j的到站晚点时间,共计n辆列车,最终仿真环境状态S数据被传输至辅助调度模块;而运行时间约束Const则包含调度列车在各车站的计划到达时间Tap和计划发车时间Tdp、列车在各车站的最短安全停站时间Tmw,而运行速度约束Consv则包含列车限速区段Cl和对应限速值Cv,可分别表示为:
Const={[Tap,Tdp],Tmw}
Consv={[Cl,Cv]}
最终运行时间约束Const被传输至调度辅助模块、调度模块和仿真模块,而运行速度约束Consv则仅输送至仿真模块;
调度辅助模块:用于辅助调度模块完成列车调度任务,该模块包括越行识别单元和动作筛选单元;在列车运行仿真工作的初始阶段,调度辅助模块接收信息处理模块所传输的仿真环境状态S和运行时间约束Const中的Tap信息,再由S中所包含的列车个数排列组合生成初始调度决策集Aset={ak|k=1,2,…,n!},其中ak=[Oi|i=1,2,…,n]表示具体列车发车顺序,Oi表示第i个列车所在位置;将Aset、S和Tap两两输入至越行识别单元中:以Aset和S为输入得到各调度决策的调整列车集其代表各调度决策对列车运行顺序进行调整的高铁列车集合,所述列车运行顺序具体表示为各列车在站间的行车先后关系;以Aset和Tap为输入确定各调度决策的列车越行偏移量其反映各调度决策所对应的列车发车顺序与计划列车运行顺序间的偏离程度,最后以S和Tap为输入得到预计越行列车集trst和越行偏移量yst,其分别表示预计列车运行顺序发生变化的高铁列车集合和预计列车运行顺序与计划列车运行顺序间的偏离程度;将四项数据yst和trst统一输入至动作筛选单元,根据筛选规则筛选出可行调度决策集合输出的可行调度决策集合和仿真环境状态S被传输至调度模块4;所述筛选规则为:
1)调度决策应仅对越行列车进行调整,非越行列车不进行主动调整,即:
2)调整后的行车顺序应靠拢于计划列车行驶顺序,即:
调度模块:用于训练调度模型并完成列车调度任务,具体由模型训练单元、调度决策单元和方案生成单元组成:1)所述调度决策单元,用于接收调度辅助模块提供的可行调度决策集合和仿真环境状态S;根据可行调度决策集合和仿真环境状态S构建调度模型的输入数据集input={[S,ak]},调度模型的输出为调度决策的评价集Qset={Q(S,ak)},其中Q(S,ak)表示为仿真环境状态S下的通过Q学习方法获得的第k个调度决策的评价值;根据调度决策的评价集Qset中各调度决策的评价值,调度决策的选择则根据模型训练回合数是否大于预先设定次数进行确定,当满足条件时利用e-greedy策略进行确定,不满足条件则直接选取Q(S,ak)最大对应的动作所选出的调度决策同时传输至方案生成单元和模型训练单元;2)所述方案生成单元,用于接收由调度决策单元传输的调度决策根据最终的调度决策给出的列车行车顺序,利用贪心算法生成列车重调度方案Tre=[Tar,Tdr],区别于调度决策仅确定列车运行顺序,列车重调度方案则确定列车的具体到发时间,其中Tar和Tdr分别表示为重调度方案中列车的到站时间和发车时间,并将其传输至仿真模块;3)所述模型训练单元,用于接收调度辅助模块提供的仿真环境状态S、调度决策单元传输的调度决策由仿真模块传输的决策收益R和更新后的仿真环境状态S′以及调度辅助模块传输的更新后的调度决策集合其中更新后的仿真环境状态S′是由仿真模块根据重调度方案Tre通过仿真生成的,调度决策集合是由调度辅助模块接收更新后的仿真环境状态S′计算生成的,最终将所有数据汇总得到训练数据集其被用于完成调度模型的参数更新;
仿真模块,由仿真接口单元和模拟仿真系统单元组成,其中模拟仿真系统单元负责列车运行仿真,而仿真接口单元负责实现模拟仿真系统单元与外部其他模块间的信息交互并完成对列车重调度方案的评价;具体为:所述模拟仿真系统单元用于接收调度模块传输的列车重调度方案和信息处理模块传输的运行速度约束Consv,并根据列车重调度方案和运行速度约束Consv进行列车运行仿真,考虑列车运行场景所存在的不确定性,模拟仿真系统单元内部引入随机晚点,即对繁忙列车中加入随机晚点,晚点服从离散概率分布P,而繁忙列车是通过比较计划运行图中列车在区间的运行时间与重调度方案中列车在区间的运行时间的差异性来判定的,差异越小则说明本列车越繁忙,列车运行仿真后的数据即预计列车运行数据将被反馈回所述仿真接口单元,由仿真接口单元计算决策收益R并更新环境状态,其中决策收益R被用于评估列车重调度方案预计执行的好坏,利用列车总晚点进行衡量,更新后的仿真环境状态S′是由车站编号j+1和各调度列车在车站j+1的晚点时间信息构成,得到的决策收益R和更新后的仿真环境状态S′均传输至调度模块。
本发明具有以下有益效果:本发明提出一种基于Q学习考虑调度环境不确定性的列车智能调度方法及系统,在列车调度之前,本发明方法及系统引入调度时间窗的划分和确定方法,不仅有效降低了调度列车的规模,提高方法及系统的决策响应速度,同时也提高了调度时间窗的相似性,使得调度方法及系统能够利用已有调度经验,快速适应并解决新的列车调度问题,同时本发明方法及系统仅利用列车晚点时间信息定义仿真环境状态,进一步增大了各类调度问题相似性,使调度方法及系统习得的调度技能具有较强的泛化能力,而在列车运行仿真环境内部本发明方法及系统引入了列车的随机晚点使最终生成的列车调度方案能够关注调度的不确定性和长期效益,生成期望意义下列车延误最小的列车重调度方案,最后在调度决策阶段,本发明方法及系统中引入了先验调度知识从而可以剔除无效的调度决策,极大地缩短调度用时,从而满足实际列车调度的时间要求,提高了本发明方法及系统的实际应用价值。
附图说明
图1为本发明实施方式的不确定环境下的高铁列车智能调度系统的结构示意图;
图2为本发明实施方式中时间窗的划分和选取示意图;
图3为本发明实施方式中仿真环境状态S和调度决策ak的定义示意图;
图5为本发明实施方式中确定列车重调度方案Tre的流程示意图;
图6为本发明实施方式的不确定环境下的高铁列车智能调度方法流程图;
图7为本发明实施方式的不确定环境下的高铁列车智能调度方法中调度模型训练曲线示意图;
图8为本发明实施方式不确定环境下的高铁列车智能调度方法及系统生成的列车重调度方案示意图。
具体实施方式
为了便于理解本申请,下面将参照相关附图对本申请进行更全面的描述。附图中给出了本申请的较佳实施方式。但是,本申请可以以许多不同的形式来实现,并不限于本文所描述的实施方式。相反地,提供这些实施方式的目的是使对本申请的公开内容理解的更加透彻全面。
图1是本实施方式不确定环境下的高铁列车智能调度系统的结构示意图,所述不确定环境下的高铁列车智能调度系统包括:
信息采集模块:负责从铁路CTC系统中采集高速列车运行过程中影响列车调度的列车运行数据,并将其发送至信息处理模块;所述列车运行数据具体包括车次名、首发车站、终到站、途经车站、列车在各车站的计划到达时间和计划发车时间、铁路CTC系统当前时间、列车预计到站时间、列车最短安全停站时间、列车最小安全间隔时间和列车限速区段以及列车限速值;
信息处理模块:为了降低列车调度规模,增强系统可扩展性,信息处理模块负责接收信息采集模块所提供的信息,并对其进行筛选和处理,便于调度模块完成列车调度任务。为此首先对接收的列车运行数据按照其所处时间进行划分,最终等分为七个时间跨度为六小时的时间窗,时间窗均匀分布在一天内且相邻时间窗间存在三小时的重合时间,如图2所示。基于铁路CTC系统当前时间选定目标时间窗,使其处于目标时间窗覆盖时间范围的前半部分,最终确定的目标窗体内部所包含的列车将被选定为调度列车。随后从接收的所有列车运行数据中提取与调度列车相关的列车运行数据,进而得到仿真运行参数数据,其具体包括仿真环境状态S、运行时间约束Const和运行速度约束Consv,其中仿真环境状态S是调度模块进行列车调度的依据,而运行时间约束Const和运行速度约束Consv则是出于安全、商业因素考虑的列车运行约束信息。具体地,仿真环境状态S是以n+1维数组进行存储的,其被定义为:
其中j表示当前调度车站编号,而至表示列车1至n在车站j的到站晚点时间,共计n辆列车,最终仿真环境状态S数据被传输至辅助调度模块。而运行时间约束Const则包含调度列车在各车站的计划到达时间Tap和计划发车时间Tdp、列车在各车站的最短安全停站时间Tmw,而运行速度约束Consv则包含列车限速区段Cl和对应限速值Cv,可分别表示为:
Const={[Tap,Tdp],Tmw}
Consv={[Cl,Cv]}
最终运行时间约束Const被传输至调度辅助模块、调度模块和仿真模块,而运行速度约束Consv则仅输送至仿真模块。
调度辅助模块:用于辅助调度模块完成列车调度任务,包括越行识别单元和动作筛选单元;在列车运行仿真工作的初始阶段,调度辅助模块接收信息处理模块所传输的仿真环境状态S和运行时间约束Const中的Tap信息,再由S中所包含的列车个数排列组合生成初始调度决策集Aset={ak|k=1,2,…,n!},如图3所示,其中ak=[Oi|i=1,2,…,n]表示具体列车发车顺序,Oi表示第i个列车所在位置。将得到的Aset、S和Tap两两输入至越行识别单元中,如图4所示,以Aset和S为输入得到各调度决策的调整列车集其代表各调度决策对列车运行顺序进行调整的高铁列车集合,列车运行顺序具体表示为各列车在站间的行车先后关系。而以Aset和Tap为输入确定各调度决策的列车越行偏移量其反映各调度决策所对应的列车发车顺序与计划列车运行顺序间的偏离程度,最后以S和Tap为输入得到预计越行列车集trst和越行偏移量yst,其分别表示预计列车运行顺序发生变化的高铁列车集合和预计列车运行顺序与计划列车运行顺序间的偏离程度。将得到的这四项数据统一输入至动作筛选单元,如图4所示,根据内部筛选规则筛选出可行调度决策集合动作筛选单元中的具体筛选规则为:
1)调度决策应仅对越行列车进行调整,非越行列车不进行主动调整,即:
2)调整后的行车顺序应靠拢于计划列车行驶顺序,即:
调度模块:用于训练调度模型并完成列车调度任务,具体由模型训练单元、调度决策单元和方案生成单元组成,如图5所示。所述调度决策单元用于接收调度辅助模块提供的可行调度决策集合和仿真环境状态S,构建调度模型的输入数据集input={[S,ak]},调度模型的输出为调度决策的评价集Qset={Q(S,ak)},其中Q(S,ak)表示为仿真环境状态S下通过Q学习方法获得的第k个调度决策的评价值,调度决策的选择则根据模型训练回合数是否大于预先设定次数进行确定,当满足条件时利用e-greedy策略进行确定,不满足条件则直接选取Q(S,ak)最大对应的动作所选出的调度决策将分别传输至方案生成单元和模型训练单元,方案生成单元接收由调度决策单元传输的调度决策根据最终的调度决策给出的列车行车顺序,利用贪心算法生成最终列车重调度方案Tre=[Tar,Tdr],区别于调度决策仅确定列车运行顺序,列车重调度方案则确定列车的具体到发时间,其中Tar和Tdr分别表示为重调度方案中列车的到站时间和发车时间,并将其传输至仿真模块。而模型训练单元接收调度辅助模块提供的仿真环境状态S、调度决策单元传输的调度决策由仿真模块传输的决策收益R和更新后的仿真环境状态S′以及调度辅助模块传输的更新后的调度决策集合其中更新后的仿真环境状态S′是由仿真模块根据重调度方案Tre通过仿真生成的,调度决策集合是由调度辅助模块接收更新后的仿真环境状态S′计算生成的,最终将所有数据汇总得到训练数据集其被用于完成调度模型的参数更新。
仿真模块,具体由仿真接口单元和模拟仿真系统单元所组成,其中模拟仿真系统单元负责完成列车的实际运行仿真,而仿真接口单元负责实现模拟仿真系统单元与外部其他模块间的信息交互并完成对列车重调度方案的评价。具体地,仿真模块接收调度模块的列车重调度方案和信息处理模块传输的运行速度约束Consv,将其发送至模拟仿真系统单元,模拟仿真系统单元从而进行仿真,为了考虑列车运行场景所存在的不确定性,模拟仿真系统单元内部引入随机晚点,即对繁忙列车中加入随机晚点,晚点服从离散概率分布P,而繁忙列车是通过比较计划运行图中列车在区间的运行时间与重调度方案中列车在区间的运行时间的差异性来判定的,差异越小则说明本列车越繁忙,列车运行仿真后的数据即预计列车运行数据将被反馈回仿真接口单元,由仿真接口单元计算决策收益R并更新环境状态,其中决策收益R被用于评估列车重调度方案实际执行的好坏,利用列车总晚点进行衡量,更新后的仿真环境状态S′指的是各调度列车依据调度方案运行后到达的下一车站j+1和各调度列车在车站j+1的晚点时间信息,决策收益R和更新后的仿真环境状态S′均传输至调度模块,用于完成调度模型训练任务。
图6是本实施方式的不确定环境下的高铁列车智能调度方法流程图,所述不确定环境下的高铁列车智能调度方法包括以下步骤:
步骤1:从铁路CTC系统中采集列车调度与仿真所需要的列车运行数据;
所述列车运行数据包括车次名、首发车站、终到站、途经车站、列车在各车站的计划到达时间和计划发车时间、铁路CTC系统当前时间、列车预计到站时间、列车最短安全停站时间、列车最小安全间隔时间、列车限速区段以及列车限速值。
步骤2:对步骤1采集的列车运行数据按照其所处时间划分时间窗且根据铁路CTC系统当前时间tnow确定目标时间窗,并将目标时间窗窗体内部所包含的列车确定为调度列车。
将步骤1采集到的列车运行数据按照数据记录的时间进行划分,通过式(1)等分为七个时间跨度为六小时的时间窗ΔTw,时间窗均匀分布在一天内且相邻时间窗间存在三小时的重合时间,根据铁路CTC系统当前时间tnow利用式(2)确定出目标时间窗ΔTa,进而利用式(3)确定调度列车的列车运行数据dataopt。
ΔTw={[Δt×(i-1)/2,Δt×(i+1)/2]|i=1,2,…,7,Δt=6} (1)
ΔTa={ΔTw[i]|Δt×(i-1)/2<tnow<Δt×i} (2)
其中,Δt表示时间窗所对应的时间间隔,取值为6小时;ΔTw[i]表示具体第i个时间窗;datatrain为列车train对应的列车运行数据,调度列车的列车运行数据dataopt来自于步骤1中获取的列车运行数据,具体可归为以下几项:包括调度列车集trainset,列车个数n,铁路CTC系统当前时间tnow,调度列车的计划到达时间Tap,计划发车时间Tdp,列车预计到站时间tap,调度列车在各车站的最短安全停站时间Tmw,在站间的最短运行时长Tmr,列车最小安全间隔时间Tmd,列车限速区段Cl和对应限速值Cv。
dataopt={trainset,tnow,Tap,Tdp,tap,Tmw,Tmr,Tmd,Cl,Cv} (4)
步骤3:确定仿真环境状态S。
将步骤2中确定的各调度列车的预计到达时间和计划到达时间代入到公式(5)计算各列车在本调度区段首发车站的晚点时间D0,其中表示第i辆列车在第j站的预计到达时间,表示第i辆列车在第j站的计划到达时间。由此定义仿真环境状态:
步骤4:利用先验调度知识对调度决策进行预筛选,确定可行调度决策集合;
针对列车调度问题,本方法采取先确定列车行车顺序,其中列车行车顺序表示各列车在同一运行区间的行车先后顺序,再确定列车具体到发时间的方式来实现的,而在制定列车行车顺序之前,先利用先验调度知识对调度决策进行预筛选。
步骤4-1:确定预计越行列车集及越行程度。
方法为:首先根据步骤2中确定的各调度列车的计划到达时间Tap和预计到达时间tap分别确定计划的列车行车顺序orderp和预计列车行车顺序orderp′,判断列车计划行车顺序orderp中首辆列车traini在预计行车顺序order′p的位置当时,则判定该列车未发生越行,否则判定为越行,则利用式(7)更新预计越行列车集trst且利用式(8)更新越行偏移量yst。
随后对列车计划行车顺序orderp和预计列车行车顺序order′p进行更新,具体分别在orderp和order′p中删除列车traini,随后再将删除后的列车按照行车顺序进行排序并再次识别首辆列车traini在预计列车行车顺序order′p中的位置,当时,则判定该列车未发生越行,否则判定为越行,再次利用式(7)和式(8)更新预计越行列车集trst和越行偏移量yst,重复执行这一过程持续至列车计划行车顺序orderp中仅包含一辆车为止。
步骤4-2:确定调度决策所对应的越行列车集和越行程度。
方法为:对n个调度列车进行随机排列组合,生成所有列车调度决策集Aset={ak|k=1,2,…,n!},计算Aset中包含的调度决策ak的越行列车集和越行偏移量具体地,首先判断计划列车行车顺序orderp中首辆列车traini在调度决策ak中的排序当 则判定该列车未发生越行,否则判定为越行,利用式(7)更新越行列车集利用式(8)更新越行偏移量随后,分别在orderp和ak中删除列车traini,再将剩余列车按照行车顺序进行排序并识别首辆列车traini在调度决策ak中排序,再次利用式(7)和式(8)更新调度方案的越行列车集和越行偏移量重复执行这一过程持续至列车计划行车顺序仅包含一辆车为止。
步骤4-3:完成调度决策的筛选。根据步骤4-1中计算的预计越行列车集trst及越行偏移量yst和步骤4-2中计算的各调度决策的越行列车集和越行偏移量按照式(6)对调度决策进行筛选,生成可行调度决策集合
步骤5-1:由步骤3计算的仿真环境状态S和步骤4-3计算得到的可行调度决策集合共同构成调度模型的输入数据input={[S,ak]},其中ak表示中的第k个调度决策,对应的调度模型输出为调度决策的评价集Qset={Q(S,ak)},其中状态动作值Q(S,ak)表示为仿真环境状态S下的通过Q学习方法获得的第k个调度决策的评价值,其用于评估仿真环境状态S下执行调度决策ak的好坏程度。
步骤5-2:判定调度模型训练回合数k是否大于预先设定次数num,当k<num时,调度模型利用公式(9)所示的ε-greedy策略实现对调度决策的选择,否则调度模型通过公式(10)选取使得状态动作值Q(S,ak)最大的动作即调度决策其中调度模型训练回合数k用于记录仿真次数,初始值设定为0,预先设定次数num代表了模型的最小训练回合数,由人为选定。
步骤6:利用贪心算法确定列车重调度方案。
步骤6-1:根据步骤3计算的仿真环境状态S确定当前车站编号j,再从步骤2中构建的调度列车的列车运行数据dataopt中调取与车站编号j相关的列车运行数据 其中和分别表示第i辆驶离车站的调度列车ti在车站j和j+1上的计划到达时间,为第i辆发车的调度列车ti在车站j上的计划离开时间,为第i辆发车的调度列车i在车站j的最小停留时间,为第i辆发车的调度列车ti在车站j与车站j+1间的区间最小运行时间,Tmd为相邻列车最小安全间隔时间。
其中,来源于步骤3计算的仿真环境状态S,表示列车ti+1在j车站的晚点时间;表示列车ti+1在车站j的计划到达时间;表示列车ti+1在车站j的最短安全停站时间;表示列车ti+1在j车站的计划发车时间;表示列车ti+1在车站j和车站j+1间的最短运行时长;表示列车ti+1在车站j+1的计划到达时间。
步骤6-4:根据步骤6-3确定的列车ti+1的具体运行时间和代入至式(15)和式(16)中,依次对后续所有列车驶离车站j的时间和到达车站j+1的时间进行确定,进而完成列车重调度方案Tre=[Tar,Tdr]的生成,其中
步骤7:确定列车决策收益R和更新后的仿真环境状态S′。
将步骤6确定的列车重调度方案和步骤2收集的Cl,Cv传输至仿真模块中进行列车运行仿真,仿真结束输出仿真运行方案Trun=[Taru,Tdru],其中和 分别表示调度列车实际到站时间和调度列车实际发站时间。再利用式(17)计算各调度列车在车站j+1的晚点时间Dj+1,利用式(18)计算决策收益R,利用式(19)对更新后的仿真环境状态S′进行定义。
其中,来源于仿真运行方案Trun,表示列车ti在车站j+1的仿真到站时间;来自于步骤2中构建的调度场景数据dataopt,其表示列车ti在车站j+1的计划到站时间;表示列车ti在车站j+1的晚点时间,更新后的仿真环境状态S′中来源于Dj+1,指的是第1,2,…,n辆驶离车站列车的晚点时间。
根据步骤7中更新后的仿真环境状态S′确定当前车站编号j+1,再从步骤2中构建的调度场景数据dataopt中调取在车站编号j+1的各列车的计划到达时间将S′和代入至步骤4中计算更新后的列车可行调度决策集
步骤9:对调度模型进行训练。
步骤9-2:利用步骤9-1确定的调度模型训练数据dataset,利用式(20)完成调度模型参数的更新。
式中α∈(0,1]和γ∈[0,1)为调度模型训练所需参数,分别表示调度模型的学习率和折扣率。
步骤10:提取仿真环境状态S′中的车站编号j+1,当车站编号j+1大于调度区段的车站总数numtrain时,更新模型训练回合数k←k+1,若调度模型更新次数k大于预先设定次数num,则表示调度模型训练完成,执行步骤11,否则执行步骤3至步骤10;当车站编号j+1小于调度区段的车站总数numtrain时,将更新后的仿真环境状态S′替换仿真环境状态S,即S←S′,再次执行步骤4至步骤10。其中调度区段的车站总数numtrain是指步骤1获取的列车运行数据中首发车站、终到站、途经车站的所有元素个数。
步骤11:生成最终的列车运行方案;
步骤11-1:执行步骤3至步骤7,并用步骤7确定的更新后的仿真环境状态S′替换仿真环境状态S,即S←S′;
步骤11-2:判定仿真环境状态S中车站编号j+1是否大于等于调度区段的车站总数bnumtrain,若否,则再次执行步骤11-1,若是,则将执行过程中生成的列车重调度方案Tre整合构成整个调度区段的列车运行方案。
为验证本发明的有效性,在实施例中选取天津南至枣庄的列车运行场景,其中列车车站数M=8,列车数n=8。具体调度列车的计划到站时间和计划发车时间如表1所示。
表1案例计划运行信息
其他列车运行信息包括列车最小安全间隔时间Tmd取值为4分钟,调度列车在各车站的最短安全停站时间Tmw为2分钟。站间的最短运行时长Tmr如表2所示。列车预计到站时间tap=[50,0,20,0,0,0,0];列车限速区段和对应限速值Cv=∞,仿真模块内部随机晚点所服从的分布P如表3所示。
表2实施例中列车站间最短运行时长
图7是实施例中最终调度模型训练的收敛曲线图,图中横坐标表示模型训练回合数k,纵坐标表示调度方案的晚点时长。从图7可以发现,本调度系统和方法能够在不确定性环境下仍能够实现快速收敛,具体在1400个回合便可以收敛,图8是通过训练后的调度模型生成的列车重调度方案,图中实线表示经高铁列车智能调度系统调整后的列车运行方案,虚线表示计划的列车运行时刻表,可以发现图中车1和车3分别产生了不同程度的晚点,而利用本发明方法和系统能够合理地调整列车间运行顺序,有效减少列车的晚点时间,值得注意的是,在图中圈中的地方列车1与列车2间的行车顺序并未发生改变,这是由于列车顺序的交互往往会引起随机晚点的产生,因此本发明系统和方法所生成的列车重调度方案能够考虑到列车运行环境的不确定性。
虽然上面结合本发明的优选实施例对本发明的原理进行了详细的描述,本领域技术人员应该理解,上述实施例仅仅是对本发明的示意性实现方式的解释,并非对本发明包含范围的限定。实施例中的细节并不构成对本发明范围的限制,在并不背离本发明的精神和范围的情况下,任何基于本发明技术方案的等效变换、简单替换等显而易见的改变,均落在本发明保护范围之内。
Claims (5)
1.一种不确定环境下的高铁列车智能调度方法,其特征在于,包括如下步骤:
步骤1:从铁路CTC系统中采集列车运行数据;
所述列车运行数据包括车次名、首发车站、终到站、途经车站、列车在各车站的计划到达时间和计划发车时间、铁路CTC系统当前时间、列车预计到站时间、列车最短安全停站时间、列车最小安全间隔时间和列车限速区段以及列车限速值;
步骤2:对步骤1采集的列车运行数据按照其所处时间划分时间窗且根据铁路CTC系统当前时间tnow确定目标时间窗,并将目标时间窗窗体内部所包含的列车确定为调度列车,并从上述列车运行数据中提取与调度列车相关的列车运行数据dataopt;
步骤3:根据各调度列车的计划到达时间Tap和预计到达时间tap,确定仿真环境状态S;
将各调度列车的预计到达时间和计划到达时间 代入到公式(5)计算各列车在本调度区段首发车站的晚点时间D0,其中表示第i辆列车在第j站的预计到达时间,表示第i辆列车在第j站的计划到达时间,由此定义仿真环境状态:
由步骤3计算的仿真环境状态S和步骤4-3计算得到的可行调度决策集合共同构成调度模型的输入数据input={[S,ak]},其中ak表示中的第k个调度决策,对应的调度模型输出为调度决策的评价集Qset={Q(S,ak)},其中状态动作值Q(S,ak)表示为仿真环境状态S下的通过Q学习方法获得的第k个调度决策的评价值,其用于评估仿真环境状态S下执行调度决策ak的好坏程度;
具体方法为:判定调度模型训练回合数k是否大于预先设定次数num,当k<num时,调度模型利用公式(9)所示的ε-greedy策略实现对调度决策的选择,否则调度模型通过公式(10)选取使得状态动作值Q(S,ak)最大的动作即调度决策其中模型训练回合数k用于记录仿真次数,初始值设定为0,预先设定次数num代表模型的最小训练回合数;
步骤7:根据列车限速区段Cl与对应限速值Cv以及步骤6确定的列车重调度方案进行列车运行仿真,仿真结束输出仿真运行方案Trun,根据仿真运行方案Trun确定列车决策收益R,以及根据仿真运行方案Trun更新仿真环境状态得到更新后的仿真环境状态S′;
所述仿真运行方案Trun=[Taru,Tdru],其中和 分别表示调度列车预计到站时间和调度列车预计发站时间;再利用式(17)计算各调度列车在车站j+1的晚点时间Dj+1,利用式(18)计算列车决策收益R,利用式(19)对更新后的仿真环境状态S′进行定义;
其中,来源于仿真运行方案Trun,表示列车ti在车站j+1的仿真到站时间;来自于dataopt,其表示列车ti在车站j+1的计划到站时间;表示列车ti在车站j+1的晚点时间,更新后的仿真环境状态S′中来源于Dj+1,指的是第1,2,...,n辆列车在车站j+1的晚点时间;
步骤8:根据步骤7中更新后的仿真环境状态S′确定当前车站编号j+1,再从调度列车的列车运行数据dataopt中调取在车站编号j+1的各列车的计划到达时间将S′和代入至步骤4中更新列车可行调度决策集合,更新后的列车可行调度决策集记为
步骤9:对调度模型进行训练;
将步骤7确定的列车决策收益R和更新后的仿真环境状态S′,步骤8确定的更新后的列车可行调度决策集以及步骤3中的仿真环境状态S和步骤5中的调度决策进行整合,构成数据集利用该数据集dataset和式(20)完成调度模型参数的更新;
上式中,α∈(0,1]和γ∈[0,1)分别表示调度模型的学习率和折扣率;
步骤10:提取更新后的仿真环境状态S′中的车站编号j+1,当车站编号j+1大于等于调度区段的车站总数numtrain时,更新模型训练回合数k←k+1,若调度模型更新次数k大于预先设定次数num,则表示调度模型训练完成,执行步骤11,否则执行步骤3至步骤10;当车站编号j+1小于调度区段的车站总数numtrain时,用更新后的仿真环境状态S′替换仿真环境状态S,即S←S′,再次执行步骤4至步骤10;
步骤11:生成最终的列车运行方案;
步骤11-1:执行步骤3至步骤7,并用步骤7确定的更新后的仿真环境状态S′替换仿真环境状态S,即S←S′;
步骤11-2:判定仿真环境状态S中车站编号j+1是否大于等于调度区段的车站总数numtrain,若否,则再次执行步骤11-1,若是,则将执行过程中生成的列车重调度方案Tre整合构成整个调度区段的列车运行方案。
2.根据权利要求1所述的不确定环境下的高铁列车智能调度方法,其特征在于,步骤2所述对步骤1采集的列车运行数据按照其所处时间划分时间窗为:将所采集的列车运行数据按照其所处时间等分为七个时间跨度为六小时的时间窗,时间窗均匀分布在一天内且相邻时间窗间存在三小时的重合时间。
3.根据权利要求1所述的不确定环境下的高铁列车智能调度方法,其特征在于,所述步骤4包括如下步骤:
步骤4-1:根据各调度列车的计划到达时间Tap和预计到达时间tap,确定预计越行列车集trst和越行偏移量yst;
步骤4-2:对S中所包含的n个调度列车进行随机排列组合,生成所有列车调度决策集Aset={ak|k=1,2,...,n!},计算Aset中包含的调度决策ak所对应的越行列车集和越行偏移量其中ak=[Oi|i=1,2,...,n]表示具体列车发车顺序,Oi表示第i个列车所在位置;
4.根据权利要求1所述的不确定环境下的高铁列车智能调度方法,其特征在于,所述步骤6包括如下步骤:
步骤6-1:根据步骤3计算的仿真环境状态S确定当前车站编号j,再从步骤2中构建的调度列车的列车运行数据dataopt中调取与车站编号j相关的列车运行数据 其中和分别表示第i辆驶离车站的调度列车ti在车站j和j+1上的计划到达时间,为第i辆发车的调度列车ti在车站j上的计划离开时间,为第i辆发车的调度列车i在车站j的最小停留时间,为第i辆发车的调度列车ti在车站j与车站j+1间的区间最小运行时间,Tmd为相邻列车最小安全间隔时间;
其中,来源于步骤3计算的仿真环境状态S,表示列车ti+1在j车站的晚点时间;表示列车ti+1在车站j的计划到达时间;表示列车ti+1在车站j的最短安全停站时间;表示列车ti+1在j车站的计划发车时间;表示列车ti+1在车站j和车站j+1间的最短运行时长;表示列车ti+1在车站j+1的计划到达时间;
步骤6-4:根据步骤6-3确定的列车ti+1的具体运行时间和代入至式(15)和式(16)中,依次对后续所有列车驶离车站j的时间和到达车站j+1的时间进行确定,进而完成列车重调度方案Tre=[Tar,Tdr]的生成,其中
5.用于实现以上任一权利要求所述方法的不确定环境下的高铁列车智能调度系统,其特征在于,包括:
信息采集模块:用于从铁路CTC系统中采集列车运行数据,并将其发送至信息处理模块;
信息处理模块:用于接收信息采集模块所发送的列车运行数据;对接收的列车运行数据按照其所处时间划分时间窗;基于铁路CTC系统当前时间选定目标时间窗,目标窗体内部所包含的列车将被选定为调度列车,随后从上述列车运行数据中提取与调度列车相关的列车运行数据,并根据与调度列车相关的列车运行数据得到仿真运行参数数据,其具体包括仿真环境状态S、运行时间约束Const和运行速度约束Consv;所述仿真环境状态S是以n+1维数组进行存储的,其被定义为:
其中j表示当前调度车站对应编号,而至表示列车1至n在车站j的到站晚点时间,共计n辆列车,最终仿真环境状态S数据被传输至辅助调度模块;而运行时间约束Const则包含调度列车在各车站的计划到达时间Tap和计划发车时间Tdp、列车在各车站的最短安全停站时间Tmw,而运行速度约束Consv则包含列车限速区段Cl和对应限速值Cv,可分别表示为:
Const={[Tap,Tdp],Tmw}
Consv={[Cl,Cv]}
最终运行时间约束Const被传输至调度辅助模块、调度模块和仿真模块,而运行速度约束Consv则仅输送至仿真模块;
调度辅助模块:用于辅助调度模块完成列车调度任务,该模块包括越行识别单元和动作筛选单元;在列车运行仿真工作的初始阶段,调度辅助模块接收信息处理模块所传输的仿真环境状态S和运行时间约束Const中的Tap信息,再由S中所包含的列车个数排列组合生成初始调度决策集Aset={ak|k=1,2,...,n!},其中ak=[Oi|i=1,2,...,n]表示具体列车发车顺序,Oi表示第i个列车所在位置;将Aset、S和Tap两两输入至越行识别单元中:以Aset和S为输入得到各调度决策的调整列车集其代表各调度决策对列车运行顺序进行调整的高铁列车集合,所述列车运行顺序具体表示为各列车在站间的行车先后关系;以Aset和Tap为输入确定各调度决策的列车越行偏移量其反映各调度决策所对应的列车发车顺序与计划列车运行顺序间的偏离程度,最后以S和Tap为输入得到预计越行列车集trst和越行偏移量yst,其分别表示预计列车运行顺序发生变化的高铁列车集合和预计列车运行顺序与计划列车运行顺序间的偏离程度;将四项数据yst和trst统一输入至动作筛选单元,根据筛选规则筛选出可行调度决策集合输出的可行调度决策集合和仿真环境状态S被传输至调度模块4;所述筛选规则为:
1)调度决策应仅对越行列车进行调整,非越行列车不进行主动调整,即:
2)调整后的行车顺序应靠拢于计划列车行驶顺序,即:
调度模块:用于训练调度模型并完成列车调度任务,具体由模型训练单元、调度决策单元和方案生成单元组成:1)所述调度决策单元,用于接收调度辅助模块提供的可行调度决策集合和仿真环境状态S;根据可行调度决策集合和仿真环境状态S构建调度模型的输入数据集input={[S,ak]},调度模型的输出为调度决策的评价集Qset={Q(S,ak)},其中Q(S,ak)表示为仿真环境状态S下的通过Q学习方法获得的第k个调度决策的评价值;根据调度决策的评价集Qset中各调度决策的评价值,调度决策的选择则根据模型训练回合数是否大于预先设定次数进行确定,当满足条件时利用e-greedy策略进行确定,不满足条件则直接选取Q(S,ak)最大对应的动作所选出的调度决策同时传输至方案生成单元和模型训练单元;2)所述方案生成单元,用于接收由调度决策单元传输的调度决策根据最终的调度决策给出的列车行车顺序,利用贪心算法生成列车重调度方案Tre=[Tar,Tdr],区别于调度决策仅确定列车运行顺序,列车重调度方案则确定列车的具体到发时间,其中Tar和Tdr分别表示为重调度方案中列车的到站时间和发车时间,并将其传输至仿真模块;3)所述模型训练单元,用于接收调度辅助模块提供的仿真环境状态S、调度决策单元传输的调度决策由仿真模块传输的决策收益R和更新后的仿真环境状态S′以及调度辅助模块传输的更新后的调度决策集合其中更新后的仿真环境状态S′是由仿真模块根据重调度方案Tre通过仿真生成的,调度决策集合是由调度辅助模块接收更新后的仿真环境状态S′计算生成的,最终将所有数据汇总得到训练数据集其被用于完成调度模型的参数更新;
仿真模块,由仿真接口单元和模拟仿真系统单元组成,其中模拟仿真系统单元负责列车运行仿真,而仿真接口单元负责实现模拟仿真系统单元与外部其他模块间的信息交互并完成对列车重调度方案的评价;具体为:所述模拟仿真系统单元用于接收调度模块传输的列车重调度方案和信息处理模块传输的运行速度约束Consv,并根据列车重调度方案和运行速度约束Consv进行列车运行仿真,考虑列车运行场景所存在的不确定性,模拟仿真系统单元内部引入随机晚点,即对繁忙列车中加入随机晚点,晚点服从离散概率分布P,而繁忙列车是通过比较计划运行图中列车在区间的运行时间与重调度方案中列车在区间的运行时间的差异性来判定的,差异越小则说明本列车越繁忙,列车运行仿真后的数据即预计列车运行数据将被反馈回所述仿真接口单元,由仿真接口单元计算决策收益R并更新环境状态,其中决策收益R被用于评估列车重调度方案预计执行的好坏,利用列车总晚点进行衡量,更新后的仿真环境状态S′是由车站编号j+1和各调度列车在车站j+1的晚点时间信息构成,得到的决策收益R和更新后的仿真环境状态S′均传输至调度模块。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110885255.0A CN113536692B (zh) | 2021-08-03 | 2021-08-03 | 一种不确定环境下的高铁列车智能调度方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110885255.0A CN113536692B (zh) | 2021-08-03 | 2021-08-03 | 一种不确定环境下的高铁列车智能调度方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113536692A true CN113536692A (zh) | 2021-10-22 |
CN113536692B CN113536692B (zh) | 2023-10-03 |
Family
ID=78090174
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110885255.0A Active CN113536692B (zh) | 2021-08-03 | 2021-08-03 | 一种不确定环境下的高铁列车智能调度方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113536692B (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114312926A (zh) * | 2021-12-03 | 2022-04-12 | 北京交通大学 | 一种城市轨道交通列车运行调整方案优化方法和系统 |
CN117875674A (zh) * | 2024-03-11 | 2024-04-12 | 西北大学 | 一种基于Q-learning的公交调度方法 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109840639A (zh) * | 2019-03-05 | 2019-06-04 | 东北大学 | 一种高速铁路列车运行晚点时间预测方法 |
CN110341763A (zh) * | 2019-07-19 | 2019-10-18 | 东北大学 | 一种快速恢复高铁列车准点运行的智能调度系统及方法 |
CN110803204A (zh) * | 2019-11-13 | 2020-02-18 | 东北大学 | 一种保持高速列车运行稳定性的在线控制系统及方法 |
CN110843870A (zh) * | 2019-11-21 | 2020-02-28 | 北京交通大学 | 一种非正常事件下高铁路网图定能力保持方法 |
US20200272954A1 (en) * | 2019-02-25 | 2020-08-27 | Mitsubishi Electric Research Laboratories, Inc. | System and Method for Scheduling Multiple Modes of Transport with Incomplete Information |
CN112511586A (zh) * | 2020-10-21 | 2021-03-16 | 中国铁道科学研究院集团有限公司通信信号研究所 | 一种基于云边协同的高速铁路智能行车调度安全卡控系统 |
-
2021
- 2021-08-03 CN CN202110885255.0A patent/CN113536692B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20200272954A1 (en) * | 2019-02-25 | 2020-08-27 | Mitsubishi Electric Research Laboratories, Inc. | System and Method for Scheduling Multiple Modes of Transport with Incomplete Information |
CN109840639A (zh) * | 2019-03-05 | 2019-06-04 | 东北大学 | 一种高速铁路列车运行晚点时间预测方法 |
CN110341763A (zh) * | 2019-07-19 | 2019-10-18 | 东北大学 | 一种快速恢复高铁列车准点运行的智能调度系统及方法 |
CN110803204A (zh) * | 2019-11-13 | 2020-02-18 | 东北大学 | 一种保持高速列车运行稳定性的在线控制系统及方法 |
CN110843870A (zh) * | 2019-11-21 | 2020-02-28 | 北京交通大学 | 一种非正常事件下高铁路网图定能力保持方法 |
CN112511586A (zh) * | 2020-10-21 | 2021-03-16 | 中国铁道科学研究院集团有限公司通信信号研究所 | 一种基于云边协同的高速铁路智能行车调度安全卡控系统 |
Non-Patent Citations (3)
Title |
---|
庄河;何世伟;戴杨铖;: "高速铁路列车运行调整的模型及其策略优化方法", 中国铁道科学, no. 02, pages 120 - 128 * |
杨荟;周建栋;李想;: "基于节能的地铁时刻表随机机会约束规划模型", 系统工程学报, no. 02, pages 55 - 69 * |
黄志鹏;: "基于旅行时间满意度的城际列车开行方案", 兰州交通大学学报, no. 01, pages 27 - 32 * |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114312926A (zh) * | 2021-12-03 | 2022-04-12 | 北京交通大学 | 一种城市轨道交通列车运行调整方案优化方法和系统 |
CN114312926B (zh) * | 2021-12-03 | 2022-12-16 | 北京交通大学 | 一种城市轨道交通列车运行调整方案优化方法和系统 |
CN117875674A (zh) * | 2024-03-11 | 2024-04-12 | 西北大学 | 一种基于Q-learning的公交调度方法 |
Also Published As
Publication number | Publication date |
---|---|
CN113536692B (zh) | 2023-10-03 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109508751B (zh) | 高速铁路列车晚点时间预测的深度神经网络模型建模方法 | |
CN109840639B (zh) | 一种高速铁路列车运行晚点时间预测方法 | |
Cao et al. | Real-time schedule adjustments for autonomous public transport vehicles | |
CN113536692B (zh) | 一种不确定环境下的高铁列车智能调度方法及系统 | |
CN109558985A (zh) | 一种基于bp神经网络的公交客流量预测方法 | |
CN111027673B (zh) | 一种地铁客流量预测方法 | |
CN113276915B (zh) | 一种地铁发车调度方法和系统 | |
Cats et al. | Optimizing the number and location of time point stops | |
CN112562377A (zh) | 一种基于随机机会约束的客运车辆实时调度方法 | |
CN115222251B (zh) | 一种基于混合分层强化学习的网约车调度方法 | |
CN114240002A (zh) | 基于深度强化学习的公交发车时刻表动态优化算法 | |
CN109522584B (zh) | 一种有轨电车发车时刻表设计方法 | |
CN114004452A (zh) | 城轨调度方法、装置、电子设备及存储介质 | |
Liu et al. | Prediction algorithms for train arrival time in urban rail transit | |
CN113344336A (zh) | 一种车辆调度方法、装置及存储介质 | |
Chang et al. | Evaluation of evolutionary algorithms for multi-objective train schedule optimization | |
CN107272407A (zh) | 一种ato系统行程方案的评价方法及系统 | |
CN115170006B (zh) | 发车调度方法、装置、设备和存储介质 | |
Li et al. | Timetable coordination of the first trains for subway network with maximum passenger perceived transfer quality | |
CN112967518B (zh) | 一种公交专用道条件下公交车辆轨迹的Seq2Seq预测方法 | |
CN113935581A (zh) | 基于滚动时域事件影响分析的货物列车调度方法及系统 | |
Gkiotsalitis | Bus holding control of running buses in time windows | |
CN114117883A (zh) | 一种基于强化学习的自适应轨道交通调度方法、系统、终端 | |
Hairong et al. | Optimal regional bus timetables using improved genetic algorithm | |
Gkiotsalitis | Periodic Stop Skipping: NP-hardness and computational limitations. |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |