CN109740839A

CN109740839A - 一种突发事件下的列车动态调整方法及系统

Info

Publication number: CN109740839A
Application number: CN201811404765.6A
Authority: CN
Inventors: 董海荣; 王荣笙; 高士根; 乐逸祥; 张琦
Original assignee: Beijing Jiaotong University
Current assignee: Beijing Jiaotong University
Priority date: 2018-11-23
Filing date: 2018-11-23
Publication date: 2019-05-10
Anticipated expiration: 2038-11-23
Also published as: CN109740839B

Abstract

本发明提供了一种突发事件下的列车动态调整方法及系统，包括：记录所有突发事件下的历史调图数据，采集当前突发事件的同时段同方向列车的数据信息，确定列车的运营场景条件，根据数据信息和运营场景条件搭建场景库；根据历史调图数据和马尔科夫决策过程建立基于历史数据集的环境模型；根据场景库和基于历史数据集的环境模型，通过智能体进行深度强化学习，得到列车动态调整模型；通过列车动态调整模型对当前突发事件的同时段同方向的列车的实绩运行图进行在线动态调整。该方法提高了动态调整近似最优可行解的求解速度和质量，解决了突发事件下列车实绩运行图的动态调整问题。

Description

一种突发事件下的列车动态调整方法及系统

技术领域

本发明涉及铁路运营调度领域，尤其涉及一种突发事件下的列车动态调整方法及系统。

背景技术

随着“交通强国，铁路先行”战略的提出和庞大运营里程的建设，“八横八纵”的现代化高速铁路网将在2035年实现互联互通。网络化运营条件下的列车运行状态具有非线性、快速演变性和不稳定性等特点，线路上出现的故障若处置不当，线路上的一列列车的延迟将快速传播给本线其他列车以及与该线路相邻接的跨线列车，会直接影响到铁路线路运营能力和列车的运行效率。目前，铁路突发事件下的应急处置仍是以调度员人工处置的方式为主要处置方式，由于其自动化程度较低、人工经验依赖度较高，且调整策略全局最优性难以保证，现有技术中还没有其他自动化程度高的列车调度方法，因此，亟需一种突发事件下高效快速应急处置列车的动态调整方法。

发明内容

本发明提供了一种突发事件下的列车动态调整方法及系统，以解决突发事件下列车实绩运行图的动态调整问题。

为了实现上述目的，本发明采取了如下技术方案。

本发明的一方面提供了一种突发事件下的列车动态调整方法，包括：

记录所有突发事件下的历史调图数据，采集当前突发事件的同时段同方向列车的数据信息，确定所述列车的运营场景条件，根据所述数据信息和运营场景条件搭建场景库；

调取当前突发事件下对应的的同时段同方向的历史调图数据，根据历史调图数据和马尔科夫决策过程建立基于历史数据集的环境模型；

根据所述场景库和所述的基于历史数据集的环境模型建立环境模型，通过智能体对所述环境模型进行学习，得到列车动态调整模型；

通过列车动态调整模型对当前突发事件的同时段同方向的列车的实绩运行图进行在线动态调整。

进一步地，采集当前突发事件的同时段同方向列车的数据信息，确定所述列车的运营场景条件，包括：

所述的列车数据信息包括列车车次、列车时刻表数据和列车状态；

所述的列车运营场景条件包括：铁路运营场景线路的基础设施、布局、车站结构和列车作业时间。

进一步地，根据历史调图数据和马尔科夫决策过程建立基于历史数据集的环境模型，包括：所述的马尔科夫决策过程的参数表达式为：<S,A,P,R>，其中S,A,P,R分别表示状态空间、动作空间、状态转移概率和奖励函数空间。

进一步地，基于历史数据集的环境模型包括通过历史调图数据和马尔科夫决策过程预测的状态转移概率和回报值。

进一步地，状态转移概率如下

式(1)所示：

P(s′|s,a)＝N(s,a,s′)/N(s,a) (1)

回报值如下式(2)所示：

其中：P(s′|s,a)为当前状态-动作(s,a)转移到下一状态s′的转移概率，N(s,a)表示当前状态s执行动作a的总次数，N(s,a,s′)表示从状态-动作(s,a)转移到下一状态s′的次数；为状态-动作接收的平均回报值为，reward 为每一次状态动作转移的奖励函数。

进一步地，通过智能体对所述环境模型进行学习，包括：所述智能体通过深度Q学习的方法对所述环境模型进行学习。

本发明的另一方面提供了一种突发事件下的列车动态调整系统，包括：信息采集模块、数据存储模块、场景库搭建模块、模型训练模块和模型输出模块；

信息采集模块，用于采集当前突发事件的同时段同方向列车的数据信息；

数据存储模块，用于存储所述信息采集模块采集的数据信息和存储所有突发事件下的历史调图数据，以及列车的运营场景条件；

场景库搭建模块，用于调取所述数据存储模块中的信息，进行场景库的搭建；

模型训练模块，用于调取所述数据存储模块中的历史调图数据和所述场景库模块搭建的场景库，根据所述历史调图数据建立基于历史数据集的环境模型，并根据所述的场景库和基于历史数据集的环境模型得到环境模型进行离线学习，得到列车动态调整模型；

模型输出模块，用于根据所述的模型训练模块得到的列车动态调整模型对当前突发事件的线路进行在线调整。

进一步地，信息采集模块，用于采集当前突发事件的同时段同方向列车的数据信息包括列车车次、列车时刻表数据和列车状态信息；

数据存储模块，用于存储列车运营场景条件包括：铁路运营场景线路的基础设施、布局、车站结构和列车作业时间。

进一步地，模型训练模块，具体用于根据历史调图数据和马尔科夫决策过程建立基于历史数据集的环境模型，所述的马尔科夫决策过程的参数表达式为：<S,A,P,R>，其中S,A,P,R分别表示状态空间、动作空间、状态转移概率和奖励函数空间；

所述的模型训练模块建立的基于历史数据集的环境模型包括根据历史调图数据和马尔科夫决策过程预测状态转移概率和回报值；

所述的状态转移概率如下式(1)所示：

P(s′|s,a)＝N(s,a,s′)/N(s,a) (1)

所述的回报值如下式(2)所示：

其中：P(s′|s,a)为当前状态-动作(s,a)转移到下一状态s′的转移概率，N(s,a)表示当前状态s执行动作a的总次数，N(s,a,s′)表示从状态-动作(s,a)转移到下一状态s′的次数；为状态-动作接收的平均回报值为，reward为每一次状态动作转移的奖励函数。

进一步地，模型训练模块根据所述的场景库和基于历史数据集的环境模型得到的环境模型，通过深度Q学习的方法进行学习，得到列车动态调整模型。由上述本发明的突发事件下的列车动态调整方法及系统提供的技术方案可以看出，本发明综合强化学习无模型数据训练和基于历史调图数据的双重优势，面对线路上的突发事件，给出最优动态调整策略；基于历史调图数据集预测状态转移概率和回报值进行模型学习的优势，一方面，对状态转移概率进行预测，改进学习模型，提高学习效率；另一方面，对奖励函数的回报值进行预测，辅助数据训练中最优动态调整策略的寻找，从而实现突发事件下列车动态调整方法的智能化、自动化和数字化；基于历史数据集模型的奖励函数的设置明确了列车动态调整的最优化指标，在场景库的有效表征下，提高了动态调整近似最优可行解的求解速度和质量，解决了突发事件下列车实绩运行图的动态调整问题。

本发明附加的方面和优点将在下面的描述中部分给出，这些将从下面的描述中变得明显，或通过本发明的实践了解到。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例1的突发事件下的列车动态调整方法示意图；

图2为本发明实施例1的同时段的京沪高速线下行线路运行示意图；

图3本发明实施例1的场景库结构图；

图4为基于深度强化学习的列车动态调整方法反馈控制示意图；

图5为列车智能体与环境模型的更新规则示意图；

图6为本发明实施例2的突发事件下的列车动态调整系统示意图；

图7为本发明实施例3的突发事件下的列车动态调整系统仿真界面示意图。

具体实施方式

下面详细描述本发明的实施方式，所述实施方式的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施方式是示例性的，仅用于解释本发明，而不能解释为对本发明的限制。

本技术领域技术人员可以理解，除非特意声明，这里使用的单数形式 “一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是，本发明的说明书中使用的措辞“包括”是指存在所述特征、整数、步骤和操作，但是并不排除存在或添加一个或多个其他特征、整数、步骤和操作。这里使用的措辞“和/或”包括一个或更多个相关联的列出项的任一单元和全部组合。

本技术领域技术人员可以理解，除非另外定义，这里使用的所有术语 (包括技术术语和科学术语)具有与本发明所属领域中的普通技术人员的一般理解相同的意义。还应该理解的是，诸如通用字典中定义的那些术语应该被理解为具有与现有技术的上下文中的意义一致的意义，并且除非像这里一样定义，不会用理想化或过于正式的含义来解释。

为便于对本发明实施例的理解，下面将结合附图以具体实施例为例做进一步的解释说明。

本发明实施例的突发事件下的列车动态调整方法及系统，旨在通过调图历史数据集预测状态转移概率和回报值，进而通过模型学习的优势，对当前突发事件下的同时段同方向的列车的实绩运行图进行在线动态调整。

实施例1

图1为本发明实施例1的突发事件下的列车动态调整方法示意图，参照图 1，该方法包括：

S1记录所有突发事件下的历史调图数据，采集当前突发事件的同时段同方向列车的数据信息，确定所述列车的运营场景条件，根据所述数据信息和运营场景条件搭建场景库；

S2调取当前突发事件下对应的的同时段同方向的历史调图数据，根据历史调图数据和马尔科夫决策过程建立基于历史数据集的环境模型；

S3根据所述场景库和所述的基于历史数据集的环境模型建立环境模型，通过智能体对所述环境模型进行学习，得到列车动态调整模型；

S4通过列车动态调整模型对当前突发事件的同时段同方向的列车的实绩运行图进行在线动态调整。

优选地，采集同时段同方向列车的数据信息，确定所述列车的运营场景限制条件，包括：

需要进一步说明的是，根据中国铁路线路和车站的类型，普速铁路线路和普速场运行的列车类型有Z型、T型、K型、Y型、数字型和部分D型列车等，高速铁路线路和高速场(包括城际高速铁路线路和高速场)运行的列车类型有D 型、G型和C型。需要注意的是，不同线路的上下行列车在各自线路独立运行，互不干扰。因此，本发明步骤S1中的列车是针对同时段同方向线路的不同速度等级列车的列车车次和时刻表数据进行统计。示意性地，以京沪高速线下行线路的38列列车为例，采集的同时段的京沪高速线下行线路运行示意图，如图2所示。

列车车次的数据信息包括列车类型(G、D)和列车车次号，列车时刻表数据包括起始站、终点站、到站地点及其公里数、到站时刻、停站时间、发车时刻，其中，要求列车车次和列车时刻表数据相互对应。另外，列车状态包括在运营状态和备用状态，在运营状态是指正在线路运行工作的列车，备用状态是指随时用于发生突发紧急情况时备用的列车。

考虑到铁路运营场景线路的基础设施及其布局、车站结构和列车作业时间等限制条件，与采集的列车数据信息组成场景库。

铁路线路基础设施及其布局包括：区间闭塞分区的数量和长度，信号机和道岔的布置方式；车站结构是指车站站内股道、正线和侧线的数量及正线和侧线的布置方式；列车作业时间包括两部分：一部分是列车车站作业时间：列车到达时刻、发车时刻、停站时间、列车到达(发车)间隔时间、列车通过时间；另一部分是列车区间作业时间：区间运行时间、缓冲时间和列车追踪间隔时间。

突发事件按故障的持续时间和影响大小可分为微干扰事件和严重干扰事件。微干扰是指较短时间内的故障事件，可由列车运行图的自身恢复时间、列车运行线之间的缓冲时间自行恢复调节，或改变列车在车站的到发时间和次序。严重干扰事件是指在一段时间内列车运行区间长时间失去通过能力或者完全失效，一般指风、雪、雷雨、冰雹、地震等不可控的突发小概率自然事件，在国内一般需要从路局集团公司层面进行协调优化，图3为本发明实施例的场景库结构图。

其中，场景库中列车作业时间模型的约束条件设置如下：

1)列车车站作业时间

发车时刻：列车的发车时刻不早于计划运行图的图定发车时刻，如下式 (1)所示：

停站时间：列车的停站时间不小于办理列车在车站作业的最小停站时间，如下式(2)所示：

d_g,i-a_g,i＞0 (2)

2)列车区间作业时间

区间运行时间：各列车区间运行满足最小区间运行时间，如下式(2)所示：

追踪间隔时间：多列车的追踪间隔时间满足区间的最小追踪间隔时间，如下式(4)所示：

其中，a_g,i，d_g,i，s_g,i分别表示列车g在车站i的到达时刻，发车时刻，停站时间；分别表示列车g在车站i在计划运行图中的图定发车时刻和最小停站时间；表示列车g在车站i和i+1之间区间的最小区间运行时间，表示多列车在车站i和i+1之间区间的最小追踪间隔时间； t_g+1,i,i+1,t_g,i,i+1表示列车g+1,g在车站i和i+1之间区间的实时运行时刻，R,S分别表示列车和车站的集合。

优选地，根据历史调图数据和马尔科夫决策过程建立基于历史数据集的环境模型，包括：所述的马尔科夫决策过程的参数表达式为：<S,A,P,R>，其中 S,A,P,R分别表示状态空间、动作空间、状态转移概率和奖励函数空间。

状态空间S：一方面，列车只能在车站办理待避和越行作业，在区间禁止停车。另一方面，区间闭塞分区只允许进入一列列车。所以状态空间S包括车站内列车状态和区间闭塞分区状态。车站内列车状态分为车站内到站，表现为列车到站时间a_g,i；站内停车，表现为：列车停站时间d_g,i-a_g,i；站内发车，表现为列车发车时间d_g,i。区间闭塞分区状态根据信号机开放与否分为占用和空闲。信号机的开放与否决定于前方列车所在的闭塞分区。因此，闭塞分区状态空间大小设为2·s^r，其中2表示闭塞分区的两种状态：空闲和占用，s表示线路上闭塞分区的数量，r表示线路上运行列车的数量。

动作空间A：根据状态空间，相应的动作空间中的动作分为：车站内列车的动作和区间闭塞分区的动作。车站内列车的动作分为发车和到站，在算法中表现为调整发车时间d_g,i和到站时间a_g,i。区间闭塞分区的动作根据信号机的动作分为开放和出清闭塞分区。设两站之间闭塞区段的信号机数量为l，则列车可能的动作空间最大值为2^l，由于列车智能体考虑的是列车前方闭塞分区和信号机的状态，所以动作空间的上界减小为2^r。

状态转移概率P：状态转移概率矩阵是指在当前状态-动作转移到下一状态的概率集合，用矩阵形式表达，如下式(5)所示

P(s′|s,a)＝P[S_t+1＝s'|S_t＝s,A_t＝a]

其中，P(s′|s,a)为当前状态-动作(s,a)转移到下一状态s′的转移概率。

奖励函数空间R：奖励函数是指在执行当前动作之后反馈给列车智能体的奖励值集合，是对当前执行动作的评价指标，即在突发事件下对列车动态调整模型训练的客观评价和最优化目标。

其中，历史调图数据集是指某往期同方向同时段列车的调整实绩运行图的数据，包括列车车次、列车计划时刻表数据、列车运营状态和备用车底状态、突发事件造成的晚点时间和不同调度员调整后列车运行图的时刻表数据等。

基于历史数据集的环境模型是基于准确真实的突发事件的历史调图数据，作为马尔可夫决策过程的数据来源，一方面，对状态转移概率进行预测，改进学习模型，提高学习效率；另一方面，对奖励函数计算得到的回报值进行预测，数据集的客观评价有助于优化目标和最优动态调整策略的寻找。

优选地，状态转移概率如下式(6)所示：

P(s′|s,a)＝N(s,a,s′)/N(s,a) (6)

回报值如下式(7)所示：

其中：N(s,a)表示当前状态s执行动作a的总次数，N(s,a,s′)表示从状态-动作(s,a)转移到下一状态s′的次数；为状态-动作接收的平均回报值为，reward为每一次状态动作转移的奖励函数。

进一步地，根据所述场景库和所述的基于历史数据集的环境模型建立环境模型，奖励函数通常以表格或者函数的形式表达，示意性地，本发明实施例的突发事件下列车动态调整的最优化目标有3个：列车总晚点时间最小、列车总晚点数量最小、严重事件下取消的列车数量最少。单纯的使各列车总晚点时间最少可能导致线路上列车总晚点列车数量增多，这显然是不合理的，因此，需要协调优化列车总晚点时间和列车总晚点数量之间的关系，二者的比例关系由强化学习训练完成。严重干扰事件下取消的列车数量最少是指故障时间过长导致某地区或者某线路的列车无法正常通过而采用的方式，但该方法一般不建议执行，因为会造成旅客满意率下降，根据文献参考和实际调研，取消一列列车对旅客造成的影响是改变列车到发时间和次序等措施造成影响的1000倍左右。

鉴于此，本发明示意性地以下面的具体实施例说明奖励函数空间的设计。

本发明设计的奖励函数在均值归一化后设计如下式(8)所示：

reward＝reward^dt+reward^ms+reward^cr (8)

列车总晚点时间最小的奖励函数归一化表示如下式(9)所示：

其中，

列车总晚点数量最小的奖励函数归一化表示如下式(10)所示：

严重干扰下取消的列车数量最少的奖励函数归一化表示如下式(11)所示：

其中，n_s表示当前状态下的第n列晚点列车，m_s表示当前状态下线路中晚点列车的总数量(m_s＜r)，reward是归一化后的奖励函数， reward^dt,reward^cr分别是列车总晚点时间最小，列车总晚点数量最小，严重事件下取消的列车数量最少的各部分奖励函数。表示当前状态下第n列晚点列车的晚点时间，当前状态下的实绩时刻以及图定时刻； cr_s表示当前状态下取消晚点列车的数量，μ表示取消列车措施的执行与否，取值为0或者1。

奖励函数的数学意义是在当前训练片段的当前状态下发生突发事件并采取列车动态调整策略后，列车总晚点时间、列车总晚点数量和取消列车数量的归一化后的综合定量表示。列车总晚点时间最小，列车总晚点数量最少，取消列车数量最少，奖励函数的奖励值越大，则列车动态调整的动作更优。另外，实施例中的奖励函数是较为主观的优化目标，基于环境模型中对奖励函数进行预测目的在于对奖励函数进行一个客观的引导和评价，由此得到的最终奖励函数更有助最优动态调整动作的寻找。

本领域技术人员应能理解，上述所举的奖励函数仅为更好地说明本发明实施例的技术方案，而非对本发明实施例作出的限定。实际列车动态调整中，通过加入不同的优化指标来设计奖励函数空间，改进最优动态调整策略，均包含在本发明实施例的范围内。

通过智能体对所述环境模型进行学习，包括：所述智能体通过深度Q学习的方法对所述环境模型进行学习。智能体计算其值函数并进行策略评估和改进，从而改进学习模型，由此给出最大回报、最优动作及最佳策略，反馈给环境模型，实现列车智能体与环境模型大量数据信息交互、智能体在环境模型中交互推演，极大地提高训练效率和最优动态调整动作的选择，图4为基于深度强化学习的列车动态调整方法反馈控制示意图。

需要说明的是，列车智能体相当于调整列车实绩运行图的计算机辅助决策方法，针对铁路运营场景中的突发事件，历史调图数据作为场景库的数据来源，一方面，用于建立环境模型中的马尔可夫决策过程；另一方面，用于预测状态转移概率和奖励函数。另外，奖励函数的设置由参数化形式的主观表达和历史数据集的客观评价，有助于最优策略的生成。深度强化学习方法的离线训练过程如下：在场景库和历史调图数据以马尔可夫决策过程参数化表达后，产生状态值函数和奖励函数给列车智能体，值函数在DQN方法下进行值函数更新、策略评估及改进，生成最优动态调整策略和动作反馈给环境模型。参照图5，图5为为列车智能体与环境模型的更新规则示意图，通过此方法得到列车动态调整模型对实绩的列车运行图进行改进，列车由此按图行车。

智能体动作值函数的更新采用深度Q学习(Deep-Q-Network)的方式，算法的基本流程如下：

输入：闭塞分区状态s∈S，列车动作a∈A，值函数v∈R，建立映射S×A→R

初始化容量为N的经验回放数据区D

初始化状态-动作值函数Q和参数θ

初始化目标Q神经网络Target和参数θ_—

开始：

对于第一个训练片段episode＝1：

初始化环境，得到初始状态s₁，预处理得到φ₁＝φ(s₁)

对于t＝1：

以ε的概率随机选择一个动作a_t或者根据模型选择当前最优

执行动作a_t，得到新状态s_t+1和回报值r_t+1

预处理得到φ_t+1＝φ(s_t+1)

将{φ_t,a_t,r_t+1,φ_t+1}存储到D中

从_D中采样m个训练样本{φ_j,a_j,r_j+1,φ_j+1}

计算

对目标函数应用梯度下降法进行求解

经过次后完成参数更新

结束后再次循环

对策略参数设置策略梯度的目的在于应用深度Q学习(Deep-Q-Network)对策略进行参数化表示后，寻找最优参数θ，使强化学习累计奖励的回报最大，使动态调整动作值函数最大，列车动态调整策略最优。

本发明突发事件的设置通过在线路设置随机的故障数量和随机的故障时间，在模型和数据下离线训练学习，列车智能体与环境模型不断进行交互，为评估Q学习性能，需要对每个学习参数设置，以达到最佳学习性能。

其中，步长α：步长即Q学习的学习参数，指当前时刻列车和闭塞分区状态转移至下一时刻列车和闭塞分区状态的学习步长，一般设置参数大小为0到 1之间的有限小数。

折算因子γ：一个训练片段中随着状态不断向前转移，奖励回报值会呈现指数形式衰减，距离当前状态越远的状态，对当前状态的影响越小。

训练片段个数n：强化学习某状态的学习训练次数。

探索与开发的比率ε：训练学习过程中，探索的意义在于在当前状态下尝试不同的行为进而收集更多的数据信息，有利于做出长远利益的决定。开发的意义在于在当前状态下采取最好的动作，最大奖励，做出当前数据信息下的最佳决定。因此训练学习的过程就是从探索到开发的过程，ε的变化从1 逐渐收敛至0的过程。为评估优化强化学习的训练效果，需要对探索与开发的比率ε合理设定。

综上所述，在实际处理列车动态调整问题时，首先将列车运行状态、车次和时刻表数据、场景库等信息进行整合，在外界突发事件下，列车运行图出现紊乱后，采集同方向同时段的列车数据；在基于深度强化学习的列车动态调整方法中不断进行负反馈离线训练；调节训练参数，优化训练效果，得到列车动态调整模型；最后在随机故障数量和随机延误时间下对列车实绩运行图进行在线动态调整，指挥行车调度。

实施例2

图6为本发明实施例2的突发事件下的列车动态调整系统示意图，参照图 6，该系统包括：信息采集模块、数据存储模块、场景库搭建模块、模型训练模块和模型输出模块；

优选地，信息采集模块，用于采集当前突发事件的同时段同方向列车的数据信息包括列车车次、列车时刻表数据和列车状态信息；

所述的数据存储模块，用于存储列车运营场景条件包括：铁路运营场景线路的基础设施、布局、车站结构和列车作业时间。

优选地，模型训练模块，具体用于根据历史调图数据和马尔科夫决策过程建立基于历史数据集的环境模型，所述的马尔科夫决策过程的参数表达式为：<S,A,P,R>，其中S,A,P,R分别表示状态空间、动作空间、状态转移概率和奖励函数空间；

所述的状态转移概率如下式(1)所示：

P(s′|s,a)＝N(s,a,s′)/N(s,a) (1)

所述的回报值如下式(2)所示：

其中：P(s′|s，a)为当前状态-动作(s,a)转移到下一状态s′的转移概率，N(s,a)表示当前状态s执行动作a的总次数，N(s,a,s′)表示从状态-动作(s,a)转移到下一状态s′的次数；为状态-动作接收的平均回报值为，reward为每一次状态动作转移的奖励函数。

优选地，模型训练模块根据所述的场景库和基于历史数据集的环境模型得到的环境模型，通过深度Q学习的方法进行学习，得到列车动态调整模型。本领域技术人员应能理解，图2仅为简明起见而示出的各类模块的数量可能小于一个实际系统中的数量，但这种省略无疑是以不会影响对发明实施例进行清楚、充分的公开为前提的。

实施例3

图7为本发明实施例3的突发事件下的列车动态调整系统仿真界面示意图，参照图7，该系统包括5部分：信息采集模块、数据存储模块、场景库搭建模块、模型训练模块及模型输出模块。

其中，信息采集模块中的内容包括列车车次号、列车状态、列车运行方向、突发事件类型和列车时刻表信息。通过该模块可采集列车基本计划运行图中的任一列车信息，以京沪高速线某车次列车G17为例，其列车状态设置为在运营状态，其列车运行方向根据列车车次号自动设置为下行，其突发事件类型设置为自然因素：大风(8级)，列车时刻表信息根据系统事件自动显示当前即将到达车站为廊坊站、到达时间为9:15、停站时间为2分、停站股道为1 股道、发车时间为9:17和下一到站为德州东站。信息采集模块的具体显示信息如图7所示。

数据存储模块根据信息采集模块的信息输出线路名称为京沪线，车站、到达时间、发车时间和停站时间根据信息采集模块进行实时更新；其次，根据历史调图数据建立基于历史数据集的环境模型；最后，存储列车运营场景条件，具体包括：铁路运营场景线路的基础设施、布局、车站结构和列车作业时间。

场景库搭建模块调取数据存储模块中的历史调图数据和列车运营场景条件，本实施例以2018年11月1日的历史调图数据为例，构建场景库，显示当前列车G17在当前车站廊坊站的运营场景信息。

模型训练模块调取所述数据存储模块中的历史调图数据和所述场景库模块搭建的场景库，根据所述历史调图数据建立基于历史数据集的环境模型，并在基于历史数据集模型和场景库建立的的环境模型下，计算机基于后台数据库和算法进行离线训练学习，得到列车动态调整模型。

模型输出模块根据所述的模型训练模块得到的列车动态调整模型对当前自然因素：大风(8级)突发事件下的线路进行在线调整。

综上所述，本发明实施例的突发事件下的列车动态调整方法和系统融合了场景数据和基于历史调图数据，通过离线训练生成列车动态调整模型进行在线调整，由于强化学习本身是一种半监督的无模型数据离线训练的方法，但在列车动态调整问题中，仅凭数据离线训练，策略梯度下降寻找最优动作，可能在求解速度和质量上出现问题。考虑在强化学习的环境模型中加入历史数据集，预测状态转移概率和回报值，改进学习模型的值函数更新和策略评估改进，将下一时刻列车状态-动作值函数反馈给新的马尔科夫决策过程中。可以解决随机延误时间下列车实绩运行图的动态调整问题，提高了突发事件下调整列车运行图近似最优解的求解速度和质量，抑制了线路上的晚点传播。

通过以上的实施方式的描述可知，本领域的技术人员可以清楚地了解到本发明可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例或者实施例的某些部分所述的方法。

以上所述，仅为本发明较佳的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到的变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应该以权利要求的保护范围为准。

Claims

1.一种突发事件下的列车动态调整方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述的采集当前突发事件的同时段同方向列车的数据信息，确定所述列车的运营场景条件，包括：

3.根据权利要求1所述的方法，其特征在于，所述的根据历史调图数据和马尔科夫决策过程建立基于历史数据集的环境模型，包括：所述的马尔科夫决策过程的参数表达式为：S,A,P,R，其中S,A,P,R分别表示状态空间、动作空间、状态转移概率和奖励函数空间。

4.根据权利要求1所述的方法，其特征在于，所述的基于历史数据集的环境模型包括通过历史调图数据和马尔科夫决策过程预测的状态转移概率和回报值。

5.根据权利要求4所述的方法，其特征在于，所述的状态转移概率如下式(1)所示：

P(s′|s,a)＝N(s,a,s′)/N(s,a)(1)

所述的回报值如下式(2)所示：

6.根据权利要求1所述的方法，其特征在于，所述的通过智能体对所述环境模型进行学习，包括：所述智能体通过深度Q学习的方法对所述环境模型进行学习。

7.一种突发事件下的列车动态调整系统，其特征在于，包括：信息采集模块、数据存储模块、场景库搭建模块、模型训练模块和模型输出模块；

所述的信息采集模块，用于采集当前突发事件的同时段同方向列车的数据信息；

所述的数据存储模块，用于存储所述信息采集模块采集的数据信息和存储所有突发事件下的历史调图数据，以及列车的运营场景条件；

所述的场景库搭建模块，用于调取所述数据存储模块中的信息，进行场景库的搭建；

所述的模型训练模块，用于调取所述数据存储模块中的历史调图数据和所述场景库模块搭建的场景库，根据所述历史调图数据建立基于历史数据集的环境模型，并根据所述的场景库和基于历史数据集的环境模型得到环境模型进行离线学习，得到列车动态调整模型；

所述的模型输出模块，用于根据所述的模型训练模块得到的列车动态调整模型对当前突发事件的线路进行在线调整。

8.根据权利要求7所述的系统，其特征在于，

所述的信息采集模块，用于采集当前突发事件的同时段同方向列车的数据信息包括列车车次、列车时刻表数据和列车状态信息；

9.根据权利要求7所述的系统，其特征在于，所述的模型训练模块，具体用于根据历史调图数据和马尔科夫决策过程建立基于历史数据集的环境模型，所述的马尔科夫决策过程的参数表达式为：S,A,P,R，其中S,A,P,R分别表示状态空间、动作空间、状态转移概率和奖励函数空间；

所述的状态转移概率如下式(1)所示：

P(s′|s,a)＝N(s,a,s′)/N(s,a)(1)

所述的回报值如下式(2)所示：

10.根据权利要求7所述的系统，其特征在于，所述的模型训练模块根据所述的场景库和基于历史数据集的环境模型得到的环境模型，通过深度Q学习的方法进行学习，得到列车动态调整模型。