CN113536692A

CN113536692A - 一种不确定环境下的高铁列车智能调度方法及系统

Info

Publication number: CN113536692A
Application number: CN202110885255.0A
Authority: CN
Inventors: 代学武; 岳鹏; 崔东亮; 俞胜平; 柴天佑; 程丽娟; 徐鹏
Original assignee: Northeastern University China
Current assignee: Northeastern University China
Priority date: 2021-08-03
Filing date: 2021-08-03
Publication date: 2021-10-22
Anticipated expiration: 2041-08-03
Also published as: CN113536692B

Abstract

本发明公开了一种不确定环境下的高铁列车智能调度方法及系统，属于高铁列车智能调度技术领域。首先将采集铁路CTC系统内部列车运行数据，利用调度时间窗划分方法确立实际调度列车，进而确定仿真环境状态S，为提高调度模型的决策响应速度，引入先验调度知识，即对调度决策进行预筛选，再由基于Q学习方法的调度模型给出最终的调度决策，利用贪心算法生成对应的列车调度方案，考虑到调度环境的不确定性，引入能产生随机晚点的仿真模块，使调度环境更为真实有效。通过选取对实例场景进行验证，证明本发明方法及系统能够有效减缓列车晚点的传播，可为调度员的列车调度工作提供参考方案。

Description

一种不确定环境下的高铁列车智能调度方法及系统

技术领域

本发明属于高铁列车智能调度技术领域，具体涉及一种不确定环境下的高铁列车智能调度方法及系统。

背景技术

高铁列车凭借其安全和高效目前已成为乘客在中长行程旅途中的主要交通方式。但受到气候、客流、设备故障的影响，列车往往无法严格按照计划运行信息行驶，由此造成部分列车产生晚点，而为了减小列车晚点对后续列车的影响，需要对高铁列车进行调度，即重新生成一个全新的列车运行方案。

目前在实际列车运行过程中，调度人员是完全依据其自身经验对列车进行调度，但高速列车运行效率的严格要求导致调度人员的决策时间较为有限，同时列车后续运行所面临的不确定性，即不确定环境下的调度也使得决策变得更为困难，因此采用人工调度方法往往无法有效降低列车晚点的传播，由此产生较高的经济成本。

目前已有相关调度方法用于解决这一问题，主要包括三大类，第一类是数学规划方法，通过构建严格的数学模型如混合整数线性规划模型，采用商用求解器如CPLEX或者GUROBI对模型进行求解，这种方法虽能得到精确最优解但求解时间相对较长，很难满足高铁列车调度时效性要求；第二类是以遗传算法为代表的智能调度方法，这类算法的优势在于其能够在合理时间内求得近似最优解，但现有方法假定调度环境充分已知，然而在实际调度环境下调度人员、列车以及气候无时无刻都对列车的运行产生影响，因此也无法满足实际工程的需求，第三类则是基于仿真的方法，如元胞自动机，这类方法虽能根据环境变化进行快速应对，但相关专家知识的获取仍是一个相对困难的工作。而且，目前现有学者大多研究确定性场景下如何进行列车调度的问题，很少考虑到后续环境不确定性对列车调度的影响，因此无法产生全局最优的列车重调度方案。

发明内容

针对现有技术的不足，本发明提出一种不确定环境下的高铁列车智能调度方法及系统。

本发明的技术方案是：

一种不确定环境下的高铁列车智能调度方法，包括如下步骤：

步骤1：从铁路CTC系统中采集列车运行数据；

所述列车运行数据包括车次名、首发车站、终到站、途经车站、列车在各车站的计划到达时间和计划发车时间、铁路CTC系统当前时间、列车预计到站时间、列车最短安全停站时间、列车最小安全间隔时间和列车限速区段以及列车限速值；

步骤2：对步骤1采集的列车运行数据按照其所处时间划分时间窗且根据铁路CTC系统当前时间t_now确定目标时间窗，并将目标时间窗窗体内部所包含的列车确定为调度列车，并从上述列车运行数据中提取与调度列车相关的列车运行数据data_opt；

步骤3：根据各调度列车的计划到达时间T_ap和预计到达时间t_ap，确定仿真环境状态S；

将各调度列车的预计到达时间

和计划到达时间

代入到公式(5)计算各列车在本调度区段首发车站的晚点时间D⁰，其中

表示第i辆列车在第j站的预计到达时间，

表示第i辆列车在第j站的计划到达时间，由此定义仿真环境状态：

上式中，

表示第i辆列车在第j站的晚点时间；

和

分别来自于调度列车的预计到达时间t_ap和计划到达时间T_ap；j为调度车站编号；

步骤4：利用先验调度知识对调度决策进行预筛选，确定可行调度决策集合

步骤5：从可行调度决策集合

中确定最终的调度决策

步骤5-1：建立调度模型，通过调度模型对可行调度决策集合

中的调度决策进行评价；

由步骤3计算的仿真环境状态S和步骤4-3计算得到的可行调度决策集合

共同构成调度模型的输入数据input＝{[S,a_k]}，其中a_k表示

中的第k个调度决策，对应的调度模型输出为调度决策的评价集Q_set＝{Q(S,a_k)}，其中状态动作值Q(S,a_k)表示为仿真环境状态S下的通过Q学习方法获得的第k个调度决策的评价值，其用于评估仿真环境状态S下执行调度决策a_k的好坏程度；

步骤5-2：调度模型从可行调度决策集合

中选出评价值最高的调度决策作为最终的调度决策；

具体方法为：判定调度模型训练回合数k是否大于预先设定次数num，当k<num时，调度模型利用公式(9)所示的ε-greedy策略实现对调度决策

的选择，否则调度模型通过公式(10)选取使得状态动作值Q(S,a_k)最大的动作即调度决策

其中模型训练回合数k用于记录仿真次数，初始值设定为0，预先设定次数num代表模型的最小训练回合数；

步骤6：根据最终的调度决策

给出的列车行车顺序，利用贪心算法确定列车重调度方案；

步骤7：根据列车限速区段C_l与对应限速值C_v以及步骤6确定的列车重调度方案进行列车运行仿真，仿真结束输出仿真运行方案T_run，根据仿真运行方案T_run确定列车决策收益R，以及根据仿真运行方案T_run更新仿真环境状态得到更新后的仿真环境状态S′；

所述仿真运行方案T_run＝[T_aru,T_dru]，其中

和

分别表示调度列车预计到站时间和调度列车预计发站时间；再利用式(17)计算各调度列车在车站j+1的晚点时间D^j+1，利用式(18)计算列车决策收益R，利用式(19)对更新后的仿真环境状态S′进行定义；

其中，

来源于仿真运行方案T_run，表示列车t_i在车站j+1的仿真到站时间；

来自于data_opt，其表示列车t_i在车站j+1的计划到站时间；

表示列车t_i在车站j+1的晚点时间，更新后的仿真环境状态S′中

来源于D^j+1，指的是第1,2,…,n辆列车在车站j+1的晚点时间；

步骤8：根据步骤7中更新后的仿真环境状态S′确定当前车站编号j+1，再从调度列车的列车运行数据data_opt中调取在车站编号j+1的各列车的计划到达时间

将S′和

代入至步骤4中更新列车可行调度决策集合，更新后的列车可行调度决策集记为

步骤9：对调度模型进行训练；

将步骤7确定的列车决策收益R和更新后的仿真环境状态S′，步骤8确定的更新后的列车可行调度决策集

以及步骤3中的仿真环境状态S和步骤5中的调度决策

进行整合，构成数据集

利用该数据集data_set和式(20)完成调度模型参数的更新；

上式中，α∈(0,1]和γ∈[0,1)分别表示调度模型的学习率和折扣率；

步骤10：提取更新后的仿真环境状态S′中的车站编号j+1，当车站编号j+1大于等于调度区段的车站总数num_train时，更新模型训练回合数k←k+1，若调度模型更新次数k大于预先设定次数num，则表示调度模型训练完成，执行步骤11，否则执行步骤3至步骤10；当车站编号j+1小于调度区段的车站总数num_train时，用更新后的仿真环境状态S′替换仿真环境状态S，即S←S′，再次执行步骤4至步骤10；

步骤11：生成最终的列车运行方案；

步骤11-1：执行步骤3至步骤7，并用步骤7确定的更新后的仿真环境状态S′替换仿真环境状态S，即S←S′；

步骤11-2：判定仿真环境状态S中车站编号j+1是否大于等于调度区段的车站总数num_train，若否，则再次执行步骤11-1，若是，则将执行过程中生成的列车重调度方案T_re整合构成整个调度区段的列车运行方案。

进一步地，根据所述的不确定环境下的高铁列车智能调度方法，步骤2所述对步骤1采集的列车运行数据按照其所处时间划分时间窗为：将所采集的列车运行数据按照其所处时间等分为七个时间跨度为六小时的时间窗，时间窗均匀分布在一天内且相邻时间窗间存在三小时的重合时间。

进一步地，根据所述的不确定环境下的高铁列车智能调度方法，所述步骤4包括如下步骤：

步骤4-1：根据各调度列车的计划到达时间T_ap和预计到达时间t_ap，确定预计越行列车集tr_st和越行偏移量y_st；

步骤4-2：对S中所包含的n个调度列车进行随机排列组合，生成所有列车调度决策集A_set＝{a_k|k＝1,2,…,n！}，计算A_set中包含的调度决策a_k所对应的越行列车集

和越行偏移量

其中a_k＝[O_i|i＝1,2,…,n]表示具体列车发车顺序，O_i表示第i个列车所在位置；

步骤4-3：根据步骤4-1中确定的预计越行列车集tr_st及越行偏移量y_st和步骤4-2中计算的各调度决策所对应的越行列车集

和越行偏移量

按照式(6)对调度决策进行筛选，生成可行调度决策集合

进一步地，根据所述的不确定环境下的高铁列车智能调度方法，所述步骤6包括如下步骤：

步骤6-1：根据步骤3计算的仿真环境状态S确定当前车站编号j，再从步骤2中构建的调度列车的列车运行数据data_opt中调取与车站编号j相关的列车运行数据

其中

和

分别表示第i辆驶离车站的调度列车t_i在车站j和j+1上的计划到达时间，

为第i辆发车的调度列车t_i在车站j上的计划离开时间，

为第i辆发车的调度列车i在车站j的最小停留时间，

为第i辆发车的调度列车t_i在车站j与车站j+1间的区间最小运行时间，T_md为相邻列车最小安全间隔时间；

步骤6-2：根据步骤5确定的最终调度决策

确定各列车的先后行车顺序，首先利用式(11)计算第一辆驶离车站的列车t₁在车站j的离开时间

进而根据式(12)确定列车t₁在车站j+1的到达时间

其中，

来源于步骤3计算的仿真环境状态S，表示首辆驶离车站的调度列车t₁在j车站的晚点时间；

步骤6-3：根据步骤6-2确定的首发列车t₁的具体运行时间

和

和步骤6-1构建的

利用式(13)和式(14)分别计算后一辆列车t_i+1的驶离车站j的时间

和到达车站j+1的时间

其中，

来源于步骤3计算的仿真环境状态S，表示列车t_i+1在j车站的晚点时间；

表示列车t_i+1在车站j的计划到达时间；

表示列车t_i+1在车站j的最短安全停站时间；

表示列车t_i+1在j车站的计划发车时间；

表示列车t_i+1在车站j和车站j+1间的最短运行时长；

表示列车t_i+1在车站j+1的计划到达时间；

步骤6-4：根据步骤6-3确定的列车t_i+1的具体运行时间

和

代入至式(15)和式(16)中，依次对后续所有列车驶离车站j的时间

和到达车站j+1的时间

进行确定，进而完成列车重调度方案T_re＝[T_ar,T_dr]的生成，其中

用于实现以上任一所述方法的不确定环境下的高铁列车智能调度系统，包括：

信息采集模块：用于从铁路CTC系统中采集列车运行数据，并将其发送至信息处理模块；

信息处理模块：用于接收信息采集模块所发送的列车运行数据；对接收的列车运行数据按照其所处时间划分时间窗；基于铁路CTC系统当前时间选定目标时间窗，目标窗体内部所包含的列车将被选定为调度列车，随后从上述列车运行数据中提取与调度列车相关的列车运行数据，并根据与调度列车相关的列车运行数据得到仿真运行参数数据，其具体包括仿真环境状态S、运行时间约束Cons_t和运行速度约束Cons_v；所述仿真环境状态S是以n+1维数组进行存储的，其被定义为：

其中j表示当前调度车站对应编号，而

至

表示列车1至n在车站j的到站晚点时间，共计n辆列车，最终仿真环境状态S数据被传输至辅助调度模块；而运行时间约束Cons_t则包含调度列车在各车站的计划到达时间T_ap和计划发车时间T_dp、列车在各车站的最短安全停站时间T_mw，而运行速度约束Cons_v则包含列车限速区段C_l和对应限速值C_v，可分别表示为：

Cons_t＝{[T_ap,T_dp],T_mw}

Cons_v＝{[C_l,C_v]}

最终运行时间约束Cons_t被传输至调度辅助模块、调度模块和仿真模块，而运行速度约束Cons_v则仅输送至仿真模块；

调度辅助模块：用于辅助调度模块完成列车调度任务，该模块包括越行识别单元和动作筛选单元；在列车运行仿真工作的初始阶段，调度辅助模块接收信息处理模块所传输的仿真环境状态S和运行时间约束Cons_t中的T_ap信息，再由S中所包含的列车个数排列组合生成初始调度决策集A_set＝{a_k|k＝1,2,…,n！}，其中a_k＝[O_i|i＝1,2,…,n]表示具体列车发车顺序，O_i表示第i个列车所在位置；将A_set、S和T_ap两两输入至越行识别单元中：以A_set和S为输入得到各调度决策的调整列车集

其代表各调度决策对列车运行顺序进行调整的高铁列车集合，所述列车运行顺序具体表示为各列车在站间的行车先后关系；以A_set和T_ap为输入确定各调度决策的列车越行偏移量

其反映各调度决策所对应的列车发车顺序与计划列车运行顺序间的偏离程度，最后以S和T_ap为输入得到预计越行列车集tr_st和越行偏移量y_st，其分别表示预计列车运行顺序发生变化的高铁列车集合和预计列车运行顺序与计划列车运行顺序间的偏离程度；将四项数据

y_st和tr_st统一输入至动作筛选单元，根据筛选规则筛选出可行调度决策集合

输出的可行调度决策集合

和仿真环境状态S被传输至调度模块4；所述筛选规则为：

1)调度决策应仅对越行列车进行调整，非越行列车不进行主动调整，即：

2)调整后的行车顺序应靠拢于计划列车行驶顺序，即：

调度模块：用于训练调度模型并完成列车调度任务，具体由模型训练单元、调度决策单元和方案生成单元组成：1)所述调度决策单元，用于接收调度辅助模块提供的可行调度决策集合

和仿真环境状态S；根据可行调度决策集合

和仿真环境状态S构建调度模型的输入数据集input＝{[S,a_k]}，调度模型的输出为调度决策的评价集Q_set＝{Q(S,a_k)}，其中Q(S,a_k)表示为仿真环境状态S下的通过Q学习方法获得的第k个调度决策的评价值；根据调度决策的评价集Q_set中各调度决策的评价值，调度决策的选择则根据模型训练回合数是否大于预先设定次数进行确定，当满足条件时利用e-greedy策略进行确定，不满足条件则直接选取Q(S,a_k)最大对应的动作

所选出的调度决策

同时传输至方案生成单元和模型训练单元；2)所述方案生成单元，用于接收由调度决策单元传输的调度决策

根据最终的调度决策

给出的列车行车顺序，利用贪心算法生成列车重调度方案T_re＝[T_ar,T_dr]，区别于调度决策仅确定列车运行顺序，列车重调度方案则确定列车的具体到发时间，其中T_ar和T_dr分别表示为重调度方案中列车的到站时间和发车时间，并将其传输至仿真模块；3)所述模型训练单元，用于接收调度辅助模块提供的仿真环境状态S、调度决策单元传输的调度决策

由仿真模块传输的决策收益R和更新后的仿真环境状态S′以及调度辅助模块传输的更新后的调度决策集合

其中更新后的仿真环境状态S′是由仿真模块根据重调度方案T_re通过仿真生成的，调度决策集合

是由调度辅助模块接收更新后的仿真环境状态S′计算生成的，最终将所有数据汇总得到训练数据集

其被用于完成调度模型的参数更新；

仿真模块，由仿真接口单元和模拟仿真系统单元组成，其中模拟仿真系统单元负责列车运行仿真，而仿真接口单元负责实现模拟仿真系统单元与外部其他模块间的信息交互并完成对列车重调度方案的评价；具体为：所述模拟仿真系统单元用于接收调度模块传输的列车重调度方案

和信息处理模块传输的运行速度约束Cons_v，并根据列车重调度方案

和运行速度约束Cons_v进行列车运行仿真，考虑列车运行场景所存在的不确定性，模拟仿真系统单元内部引入随机晚点，即对繁忙列车中加入随机晚点，晚点服从离散概率分布P，而繁忙列车是通过比较计划运行图中列车在区间的运行时间

与重调度方案中列车在区间的运行时间

的差异性来判定的，差异越小则说明本列车越繁忙，列车运行仿真后的数据即预计列车运行数据

将被反馈回所述仿真接口单元，由仿真接口单元计算决策收益R并更新环境状态，其中决策收益R被用于评估列车重调度方案预计执行的好坏，利用列车总晚点进行衡量，更新后的仿真环境状态S′是由车站编号j+1和各调度列车在车站j+1的晚点时间信息构成，得到的决策收益R和更新后的仿真环境状态S′均传输至调度模块。

本发明具有以下有益效果：本发明提出一种基于Q学习考虑调度环境不确定性的列车智能调度方法及系统，在列车调度之前，本发明方法及系统引入调度时间窗的划分和确定方法，不仅有效降低了调度列车的规模，提高方法及系统的决策响应速度，同时也提高了调度时间窗的相似性，使得调度方法及系统能够利用已有调度经验，快速适应并解决新的列车调度问题，同时本发明方法及系统仅利用列车晚点时间信息定义仿真环境状态，进一步增大了各类调度问题相似性，使调度方法及系统习得的调度技能具有较强的泛化能力，而在列车运行仿真环境内部本发明方法及系统引入了列车的随机晚点使最终生成的列车调度方案能够关注调度的不确定性和长期效益，生成期望意义下列车延误最小的列车重调度方案，最后在调度决策阶段，本发明方法及系统中引入了先验调度知识从而可以剔除无效的调度决策，极大地缩短调度用时，从而满足实际列车调度的时间要求，提高了本发明方法及系统的实际应用价值。

附图说明

图1为本发明实施方式的不确定环境下的高铁列车智能调度系统的结构示意图；

图2为本发明实施方式中时间窗的划分和选取示意图；

图3为本发明实施方式中仿真环境状态S和调度决策a_k的定义示意图；

图4为本发明实施方式中确定可行调度决策集合

的流程示意图；

图5为本发明实施方式中确定列车重调度方案T_re的流程示意图；

图6为本发明实施方式的不确定环境下的高铁列车智能调度方法流程图；

图7为本发明实施方式的不确定环境下的高铁列车智能调度方法中调度模型训练曲线示意图；

图8为本发明实施方式不确定环境下的高铁列车智能调度方法及系统生成的列车重调度方案示意图。

具体实施方式

为了便于理解本申请，下面将参照相关附图对本申请进行更全面的描述。附图中给出了本申请的较佳实施方式。但是，本申请可以以许多不同的形式来实现，并不限于本文所描述的实施方式。相反地，提供这些实施方式的目的是使对本申请的公开内容理解的更加透彻全面。

图1是本实施方式不确定环境下的高铁列车智能调度系统的结构示意图，所述不确定环境下的高铁列车智能调度系统包括：

信息采集模块：负责从铁路CTC系统中采集高速列车运行过程中影响列车调度的列车运行数据，并将其发送至信息处理模块；所述列车运行数据具体包括车次名、首发车站、终到站、途经车站、列车在各车站的计划到达时间和计划发车时间、铁路CTC系统当前时间、列车预计到站时间、列车最短安全停站时间、列车最小安全间隔时间和列车限速区段以及列车限速值；

信息处理模块：为了降低列车调度规模，增强系统可扩展性，信息处理模块负责接收信息采集模块所提供的信息，并对其进行筛选和处理，便于调度模块完成列车调度任务。为此首先对接收的列车运行数据按照其所处时间进行划分，最终等分为七个时间跨度为六小时的时间窗，时间窗均匀分布在一天内且相邻时间窗间存在三小时的重合时间，如图2所示。基于铁路CTC系统当前时间选定目标时间窗，使其处于目标时间窗覆盖时间范围的前半部分，最终确定的目标窗体内部所包含的列车将被选定为调度列车。随后从接收的所有列车运行数据中提取与调度列车相关的列车运行数据，进而得到仿真运行参数数据，其具体包括仿真环境状态S、运行时间约束Cons_t和运行速度约束Cons_v，其中仿真环境状态S是调度模块进行列车调度的依据，而运行时间约束Cons_t和运行速度约束Cons_v则是出于安全、商业因素考虑的列车运行约束信息。具体地，仿真环境状态S是以n+1维数组进行存储的，其被定义为：

其中j表示当前调度车站编号，而

至

表示列车1至n在车站j的到站晚点时间，共计n辆列车，最终仿真环境状态S数据被传输至辅助调度模块。而运行时间约束Cons_t则包含调度列车在各车站的计划到达时间T_ap和计划发车时间T_dp、列车在各车站的最短安全停站时间T_mw，而运行速度约束Cons_v则包含列车限速区段C_l和对应限速值C_v，可分别表示为：

Cons_t＝{[T_ap,T_dp],T_mw}

Cons_v＝{[C_l,C_v]}

最终运行时间约束Cons_t被传输至调度辅助模块、调度模块和仿真模块，而运行速度约束Cons_v则仅输送至仿真模块。

调度辅助模块：用于辅助调度模块完成列车调度任务，包括越行识别单元和动作筛选单元；在列车运行仿真工作的初始阶段，调度辅助模块接收信息处理模块所传输的仿真环境状态S和运行时间约束Cons_t中的T_ap信息，再由S中所包含的列车个数排列组合生成初始调度决策集A_set＝{a_k|k＝1,2,…,n！}，如图3所示，其中a_k＝[O_i|i＝1,2,…,n]表示具体列车发车顺序，O_i表示第i个列车所在位置。将得到的A_set、S和T_ap两两输入至越行识别单元中，如图4所示，以A_set和S为输入得到各调度决策的调整列车集

其代表各调度决策对列车运行顺序进行调整的高铁列车集合，列车运行顺序具体表示为各列车在站间的行车先后关系。而以A_set和T_ap为输入确定各调度决策的列车越行偏移量

其反映各调度决策所对应的列车发车顺序与计划列车运行顺序间的偏离程度，最后以S和T_ap为输入得到预计越行列车集tr_st和越行偏移量y_st，其分别表示预计列车运行顺序发生变化的高铁列车集合和预计列车运行顺序与计划列车运行顺序间的偏离程度。将得到的这四项数据统一输入至动作筛选单元，如图4所示，根据内部筛选规则筛选出可行调度决策集合

动作筛选单元中的具体筛选规则为：

2)调整后的行车顺序应靠拢于计划列车行驶顺序，即：

输出的可行调度决策集合

和仿真环境状态S被传输至调度模块4。

调度模块：用于训练调度模型并完成列车调度任务，具体由模型训练单元、调度决策单元和方案生成单元组成，如图5所示。所述调度决策单元用于接收调度辅助模块提供的可行调度决策集合

和仿真环境状态S，构建调度模型的输入数据集input＝{[S,a_k]}，调度模型的输出为调度决策的评价集Q_set＝{Q(S,a_k)}，其中Q(S,a_k)表示为仿真环境状态S下通过Q学习方法获得的第k个调度决策的评价值，调度决策的选择则根据模型训练回合数是否大于预先设定次数进行确定，当满足条件时利用e-greedy策略进行确定，不满足条件则直接选取Q(S,a_k)最大对应的动作

所选出的调度决策

将分别传输至方案生成单元和模型训练单元，方案生成单元接收由调度决策单元传输的调度决策

根据最终的调度决策

给出的列车行车顺序，利用贪心算法生成最终列车重调度方案T_re＝[T_ar,T_dr]，区别于调度决策仅确定列车运行顺序，列车重调度方案则确定列车的具体到发时间，其中T_ar和T_dr分别表示为重调度方案中列车的到站时间和发车时间，并将其传输至仿真模块。而模型训练单元接收调度辅助模块提供的仿真环境状态S、调度决策单元传输的调度决策

其被用于完成调度模型的参数更新。

仿真模块，具体由仿真接口单元和模拟仿真系统单元所组成，其中模拟仿真系统单元负责完成列车的实际运行仿真，而仿真接口单元负责实现模拟仿真系统单元与外部其他模块间的信息交互并完成对列车重调度方案的评价。具体地，仿真模块接收调度模块的列车重调度方案

和信息处理模块传输的运行速度约束Cons_v，将其发送至模拟仿真系统单元，模拟仿真系统单元从而进行仿真，为了考虑列车运行场景所存在的不确定性，模拟仿真系统单元内部引入随机晚点，即对繁忙列车中加入随机晚点，晚点服从离散概率分布P，而繁忙列车是通过比较计划运行图中列车在区间的运行时间

与重调度方案中列车在区间的运行时间

将被反馈回仿真接口单元，由仿真接口单元计算决策收益R并更新环境状态，其中决策收益R被用于评估列车重调度方案实际执行的好坏，利用列车总晚点进行衡量，更新后的仿真环境状态S′指的是各调度列车依据调度方案运行后到达的下一车站j+1和各调度列车在车站j+1的晚点时间信息，决策收益R和更新后的仿真环境状态S′均传输至调度模块，用于完成调度模型训练任务。

图6是本实施方式的不确定环境下的高铁列车智能调度方法流程图，所述不确定环境下的高铁列车智能调度方法包括以下步骤：

步骤1：从铁路CTC系统中采集列车调度与仿真所需要的列车运行数据；

所述列车运行数据包括车次名、首发车站、终到站、途经车站、列车在各车站的计划到达时间和计划发车时间、铁路CTC系统当前时间、列车预计到站时间、列车最短安全停站时间、列车最小安全间隔时间、列车限速区段以及列车限速值。

步骤2：对步骤1采集的列车运行数据按照其所处时间划分时间窗且根据铁路CTC系统当前时间t_now确定目标时间窗，并将目标时间窗窗体内部所包含的列车确定为调度列车。

将步骤1采集到的列车运行数据按照数据记录的时间进行划分，通过式(1)等分为七个时间跨度为六小时的时间窗ΔT_w，时间窗均匀分布在一天内且相邻时间窗间存在三小时的重合时间，根据铁路CTC系统当前时间t_now利用式(2)确定出目标时间窗ΔT_a，进而利用式(3)确定调度列车的列车运行数据data_opt。

ΔT_w＝{[Δt×(i-1)/2,Δt×(i+1)/2]|i＝1,2,…,7,Δt＝6} (1)

ΔT_a＝{ΔT_w[i]|Δt×(i-1)/2<t_now<Δt×i} (2)

其中，Δt表示时间窗所对应的时间间隔，取值为6小时；ΔT_w[i]表示具体第i个时间窗；data^train为列车train对应的列车运行数据，调度列车的列车运行数据data_opt来自于步骤1中获取的列车运行数据，具体可归为以下几项：包括调度列车集train_set，列车个数n，铁路CTC系统当前时间t_now，调度列车的计划到达时间T_ap，计划发车时间T_dp，列车预计到站时间t_ap，调度列车在各车站的最短安全停站时间T_mw，在站间的最短运行时长T_mr，列车最小安全间隔时间T_md，列车限速区段C_l和对应限速值C_v。

data_opt＝{train_set,t_now,T_ap,T_dp,t_ap,T_mw,T_mr,T_md,C_l,C_v} (4)

步骤3：确定仿真环境状态S。

将步骤2中确定的各调度列车的预计到达时间

和计划到达时间

表示第i辆列车在第j站的预计到达时间，

表示第i辆列车在第j站的计划到达时间。由此定义仿真环境状态：

上式中，

表示第i辆列车在第j站的晚点时间；

和

分别来自于调度列车的预计到达时间t_ap和计划到达时间T_ap；j为当前车站编号。

步骤4：利用先验调度知识对调度决策进行预筛选，确定可行调度决策集合；

针对列车调度问题，本方法采取先确定列车行车顺序，其中列车行车顺序表示各列车在同一运行区间的行车先后顺序，再确定列车具体到发时间的方式来实现的，而在制定列车行车顺序之前，先利用先验调度知识对调度决策进行预筛选。

步骤4-1：确定预计越行列车集及越行程度。

方法为：首先根据步骤2中确定的各调度列车的计划到达时间T_ap和预计到达时间t_ap分别确定计划的列车行车顺序order_p和预计列车行车顺序order_p′，判断列车计划行车顺序order_p中首辆列车train_i在预计行车顺序order′_p的位置

当

时，则判定该列车未发生越行，否则判定为越行，则利用式(7)更新预计越行列车集tr_st且利用式(8)更新越行偏移量y_st。

随后对列车计划行车顺序order_p和预计列车行车顺序order′_p进行更新，具体分别在order_p和order′_p中删除列车train_i，随后再将删除后的列车按照行车顺序进行排序并再次识别首辆列车train_i在预计列车行车顺序order′_p中的位置，当

时，则判定该列车未发生越行，否则判定为越行，再次利用式(7)和式(8)更新预计越行列车集tr_st和越行偏移量y_st，重复执行这一过程持续至列车计划行车顺序order_p中仅包含一辆车为止。

步骤4-2：确定调度决策所对应的越行列车集和越行程度。

方法为：对n个调度列车进行随机排列组合，生成所有列车调度决策集A_set＝{a_k|k＝1,2,…,n！}，计算A_set中包含的调度决策a_k的越行列车集

和越行偏移量

具体地，首先判断计划列车行车顺序order_p中首辆列车train_i在调度决策a_k中的排序

当

则判定该列车未发生越行，否则判定为越行，利用式(7)更新越行列车集

利用式(8)更新越行偏移量

随后，分别在order_p和a_k中删除列车train_i，再将剩余列车按照行车顺序进行排序并识别首辆列车train_i在调度决策a_k中排序，再次利用式(7)和式(8)更新调度方案的越行列车集

和越行偏移量

重复执行这一过程持续至列车计划行车顺序仅包含一辆车为止。

步骤4-3：完成调度决策的筛选。根据步骤4-1中计算的预计越行列车集tr_st及越行偏移量y_st和步骤4-2中计算的各调度决策的越行列车集

和越行偏移量

按照式(6)对调度决策进行筛选，生成可行调度决策集合

步骤5：从可行调度决策集合

中确定最终的调度决策。

步骤5-1：由步骤3计算的仿真环境状态S和步骤4-3计算得到的可行调度决策集合

共同构成调度模型的输入数据input＝{[S,a_k]}，其中a_k表示

中的第k个调度决策，对应的调度模型输出为调度决策的评价集Q_set＝{Q(S,a_k)}，其中状态动作值Q(S,a_k)表示为仿真环境状态S下的通过Q学习方法获得的第k个调度决策的评价值，其用于评估仿真环境状态S下执行调度决策a_k的好坏程度。

步骤5-2：判定调度模型训练回合数k是否大于预先设定次数num，当k<num时，调度模型利用公式(9)所示的ε-greedy策略实现对调度决策

其中调度模型训练回合数k用于记录仿真次数，初始值设定为0，预先设定次数num代表了模型的最小训练回合数，由人为选定。

步骤6：利用贪心算法确定列车重调度方案。

其中

和

为第i辆发车的调度列车t_i在车站j上的计划离开时间，

为第i辆发车的调度列车i在车站j的最小停留时间，

为第i辆发车的调度列车t_i在车站j与车站j+1间的区间最小运行时间，T_md为相邻列车最小安全间隔时间。

步骤6-2：根据步骤5确定的最终调度决策

进而根据式(12)确定列车t₁在车站j+1的到达时间

其中，

来源于步骤3计算的仿真环境状态S，表示首辆驶离车站的调度列车t₁在j车站的晚点时间。

步骤6-3：根据步骤6-2确定的首发列车t₁的具体运行时间

和

和步骤6-1构建的

和到达车站j+1的时间

其中，

表示列车t_i+1在车站j的计划到达时间；

表示列车t_i+1在车站j的最短安全停站时间；

表示列车t_i+1在j车站的计划发车时间；

表示列车t_i+1在车站j和车站j+1间的最短运行时长；

表示列车t_i+1在车站j+1的计划到达时间。

步骤6-4：根据步骤6-3确定的列车t_i+1的具体运行时间

和

和到达车站j+1的时间

步骤7：确定列车决策收益R和更新后的仿真环境状态S′。

将步骤6确定的列车重调度方案和步骤2收集的C_l,C_v传输至仿真模块中进行列车运行仿真，仿真结束输出仿真运行方案T_run＝[T_aru,T_dru]，其中

和

分别表示调度列车实际到站时间和调度列车实际发站时间。再利用式(17)计算各调度列车在车站j+1的晚点时间D^j+1，利用式(18)计算决策收益R，利用式(19)对更新后的仿真环境状态S′进行定义。

其中，

来自于步骤2中构建的调度场景数据data_opt，其表示列车t_i在车站j+1的计划到站时间；

来源于D^j+1，指的是第1,2,…,n辆驶离车站列车的晚点时间。

步骤8：更新列车可行调度决策集合，记为

根据步骤7中更新后的仿真环境状态S′确定当前车站编号j+1，再从步骤2中构建的调度场景数据data_opt中调取在车站编号j+1的各列车的计划到达时间

将S′和

代入至步骤4中计算更新后的列车可行调度决策集

步骤9：对调度模型进行训练。

步骤9-1：将步骤7确定的列车决策收益R和更新后的仿真环境状态S′，步骤8确定的更新后的列车可行调度决策集

以及步骤5中的仿真环境状态S和调度决策

进行整合，构成调度模型训练数据集

步骤9-2：利用步骤9-1确定的调度模型训练数据data_set，利用式(20)完成调度模型参数的更新。

式中α∈(0,1]和γ∈[0,1)为调度模型训练所需参数，分别表示调度模型的学习率和折扣率。

步骤10：提取仿真环境状态S′中的车站编号j+1，当车站编号j+1大于调度区段的车站总数num_train时，更新模型训练回合数k←k+1，若调度模型更新次数k大于预先设定次数num，则表示调度模型训练完成，执行步骤11，否则执行步骤3至步骤10；当车站编号j+1小于调度区段的车站总数num_train时，将更新后的仿真环境状态S′替换仿真环境状态S，即S←S′，再次执行步骤4至步骤10。其中调度区段的车站总数num_train是指步骤1获取的列车运行数据中首发车站、终到站、途经车站的所有元素个数。

步骤11：生成最终的列车运行方案；

步骤11-2：判定仿真环境状态S中车站编号j+1是否大于等于调度区段的车站总数bnum_train，若否，则再次执行步骤11-1，若是，则将执行过程中生成的列车重调度方案T_re整合构成整个调度区段的列车运行方案。

为验证本发明的有效性，在实施例中选取天津南至枣庄的列车运行场景，其中列车车站数M＝8，列车数n＝8。具体调度列车的计划到站时间和计划发车时间如表1所示。

表1案例计划运行信息

其他列车运行信息包括列车最小安全间隔时间T_md取值为4分钟，调度列车在各车站的最短安全停站时间T_mw为2分钟。站间的最短运行时长T_mr如表2所示。列车预计到站时间t_ap＝[50,0,20,0,0,0,0]；列车限速区段

和对应限速值C_v＝∞，仿真模块内部随机晚点所服从的分布P如表3所示。

表2实施例中列车站间最短运行时长

图7是实施例中最终调度模型训练的收敛曲线图，图中横坐标表示模型训练回合数k，纵坐标表示调度方案的晚点时长。从图7可以发现，本调度系统和方法能够在不确定性环境下仍能够实现快速收敛，具体在1400个回合便可以收敛，图8是通过训练后的调度模型生成的列车重调度方案，图中实线表示经高铁列车智能调度系统调整后的列车运行方案，虚线表示计划的列车运行时刻表，可以发现图中车1和车3分别产生了不同程度的晚点，而利用本发明方法和系统能够合理地调整列车间运行顺序，有效减少列车的晚点时间，值得注意的是，在图中圈中的地方列车1与列车2间的行车顺序并未发生改变，这是由于列车顺序的交互往往会引起随机晚点的产生，因此本发明系统和方法所生成的列车重调度方案能够考虑到列车运行环境的不确定性。

虽然上面结合本发明的优选实施例对本发明的原理进行了详细的描述，本领域技术人员应该理解，上述实施例仅仅是对本发明的示意性实现方式的解释，并非对本发明包含范围的限定。实施例中的细节并不构成对本发明范围的限制，在并不背离本发明的精神和范围的情况下，任何基于本发明技术方案的等效变换、简单替换等显而易见的改变，均落在本发明保护范围之内。

Claims

1.一种不确定环境下的高铁列车智能调度方法，其特征在于，包括如下步骤：

步骤1：从铁路CTC系统中采集列车运行数据；

将各调度列车的预计到达时间

和计划到达时间

表示第i辆列车在第j站的预计到达时间，

上式中，

表示第i辆列车在第j站的晚点时间；

和

步骤5：从可行调度决策集合

中确定最终的调度决策

步骤5-1：建立调度模型，通过调度模型对可行调度决策集合

中的调度决策进行评价；

共同构成调度模型的输入数据input＝{[S，a_k]}，其中a_k表示

中的第k个调度决策，对应的调度模型输出为调度决策的评价集Q_set＝{Q(S，a_k)}，其中状态动作值Q(S，a_k)表示为仿真环境状态S下的通过Q学习方法获得的第k个调度决策的评价值，其用于评估仿真环境状态S下执行调度决策a_k的好坏程度；

步骤5-2：调度模型从可行调度决策集合

中选出评价值最高的调度决策作为最终的调度决策；

具体方法为：判定调度模型训练回合数k是否大于预先设定次数num，当k＜num时，调度模型利用公式(9)所示的ε-greedy策略实现对调度决策

的选择，否则调度模型通过公式(10)选取使得状态动作值Q(S，a_k)最大的动作即调度决策

步骤6：根据最终的调度决策

给出的列车行车顺序，利用贪心算法确定列车重调度方案；

所述仿真运行方案T_run＝[T_aru，T_dru]，其中

和

其中，

来自于data_opt，其表示列车t_i在车站j+1的计划到站时间；

来源于D^j+1，指的是第1，2，...，n辆列车在车站j+1的晚点时间；

将S′和

步骤9：对调度模型进行训练；

以及步骤3中的仿真环境状态S和步骤5中的调度决策

进行整合，构成数据集

利用该数据集data_set和式(20)完成调度模型参数的更新；

上式中，α∈(0，1]和γ∈[0，1)分别表示调度模型的学习率和折扣率；

步骤11：生成最终的列车运行方案；

2.根据权利要求1所述的不确定环境下的高铁列车智能调度方法，其特征在于，步骤2所述对步骤1采集的列车运行数据按照其所处时间划分时间窗为：将所采集的列车运行数据按照其所处时间等分为七个时间跨度为六小时的时间窗，时间窗均匀分布在一天内且相邻时间窗间存在三小时的重合时间。

3.根据权利要求1所述的不确定环境下的高铁列车智能调度方法，其特征在于，所述步骤4包括如下步骤：

步骤4-2：对S中所包含的n个调度列车进行随机排列组合，生成所有列车调度决策集A_set＝{a_k|k＝1，2，...，n！}，计算A_set中包含的调度决策a_k所对应的越行列车集

和越行偏移量

其中a_k＝[O_i|i＝1，2，...，n]表示具体列车发车顺序，O_i表示第i个列车所在位置；

和越行偏移量

按照式(6)对调度决策进行筛选，生成可行调度决策集合

4.根据权利要求1所述的不确定环境下的高铁列车智能调度方法，其特征在于，所述步骤6包括如下步骤：

其中

和

为第i辆发车的调度列车t_i在车站j上的计划离开时间，

为第i辆发车的调度列车i在车站j的最小停留时间，

步骤6-2：根据步骤5确定的最终调度决策

进而根据式(12)确定列车t₁在车站j+1的到达时间

其中，

步骤6-3：根据步骤6-2确定的首发列车t₁的具体运行时间

和

和步骤6-1构建的

和到达车站j+1的时间

其中，

表示列车t_i+1在车站j的计划到达时间；

表示列车t_i+1在车站j的最短安全停站时间；

表示列车t_i+1在j车站的计划发车时间；

表示列车t_i+1在车站j和车站j+1间的最短运行时长；

表示列车t_i+1在车站j+1的计划到达时间；

步骤6-4：根据步骤6-3确定的列车t_i+1的具体运行时间

和

和到达车站j+1的时间

进行确定，进而完成列车重调度方案T_re＝[T_ar，T_dr]的生成，其中

5.用于实现以上任一权利要求所述方法的不确定环境下的高铁列车智能调度系统，其特征在于，包括：

其中j表示当前调度车站对应编号，而

至

Cons_t＝{[T_ap，T_dp]，T_mw}

Cons_v＝{[C_l，C_v]}

调度辅助模块：用于辅助调度模块完成列车调度任务，该模块包括越行识别单元和动作筛选单元；在列车运行仿真工作的初始阶段，调度辅助模块接收信息处理模块所传输的仿真环境状态S和运行时间约束Cons_t中的T_ap信息，再由S中所包含的列车个数排列组合生成初始调度决策集A_set＝{a_k|k＝1，2，...，n！}，其中a_k＝[O_i|i＝1，2，...，n]表示具体列车发车顺序，O_i表示第i个列车所在位置；将A_set、S和T_ap两两输入至越行识别单元中：以A_set和S为输入得到各调度决策的调整列车集

输出的可行调度决策集合

和仿真环境状态S被传输至调度模块4；所述筛选规则为：

2)调整后的行车顺序应靠拢于计划列车行驶顺序，即：

和仿真环境状态S；根据可行调度决策集合

和仿真环境状态S构建调度模型的输入数据集input＝{[S，a_k]}，调度模型的输出为调度决策的评价集Q_set＝{Q(S，a_k)}，其中Q(S，a_k)表示为仿真环境状态S下的通过Q学习方法获得的第k个调度决策的评价值；根据调度决策的评价集Q_set中各调度决策的评价值，调度决策的选择则根据模型训练回合数是否大于预先设定次数进行确定，当满足条件时利用e-greedy策略进行确定，不满足条件则直接选取Q(S，a_k)最大对应的动作

所选出的调度决策

根据最终的调度决策

给出的列车行车顺序，利用贪心算法生成列车重调度方案T_re＝[T_ar，T_dr]，区别于调度决策仅确定列车运行顺序，列车重调度方案则确定列车的具体到发时间，其中T_ar和T_dr分别表示为重调度方案中列车的到站时间和发车时间，并将其传输至仿真模块；3)所述模型训练单元，用于接收调度辅助模块提供的仿真环境状态S、调度决策单元传输的调度决策

其被用于完成调度模型的参数更新；

与重调度方案中列车在区间的运行时间