CN113415322A

CN113415322A - 一种基于q学习的高速列车运行调整方法与系统

Info

Publication number: CN113415322A
Application number: CN202110884976.XA
Authority: CN
Inventors: 代学武; 程丽娟; 俞胜平; 崔东亮; 袁志明; 闫璐
Original assignee: Northeastern University China; Signal and Communication Research Institute of CARS
Current assignee: Northeastern University China; Signal and Communication Research Institute of CARS
Priority date: 2021-08-03
Filing date: 2021-08-03
Publication date: 2021-09-21
Anticipated expiration: 2041-08-03
Also published as: CN113415322B

Abstract

本发明公开了一种基于Q学习的高速列车运行调整方法与系统，涉及高铁动态调度技术领域。不仅准确描述列车运行调整过程的状态、动作和策略以及以满足列车晚点时间最小为目标函数的奖励函数，通过交互学习方式得到突发事件下晚点列车动态调整方案辅助调度员做决策，而且从高铁路网资源的时空供给和约束两个角度，设计并搭建了支持机‑机交互的路网运行仿真模块，不仅可以仿真正常运营及典型突发事件引起的晚点的运行场景，而且可以快速地接收调度方案自动生成的调度指令模拟列车运行，刻画了高铁路网的动态变化过程，校验调度方案的可行性。最后输入真实的运行场景数据得到调度方案，验证该方法与系统的有效性，为列车动态运行调整方法提供了新的解决思路。

Description

一种基于Q学习的高速列车运行调整方法与系统

技术领域

本发明涉及高铁动态调度技术领域，尤其涉及一种基于Q学习的高速列车运行调整方法与系统。

背景技术

列车运行调整是铁路运输生产中的一个核心关键环节。高速列车在运行过程中容易受到天气、设备故障、突发事件等因素的影响，会使得列车的实际运行轨迹偏离预先制定的列车运行计划，需要及时地对列车运行时间进行调整，保证让它能够最大程度地与列车运行图贴合，否则将会造成一系列不可预估的损失，需要一种方法得到一个较优的调度方案，并通过现有的调度系统进行仿真验证。目前我国高速铁路主要采用“总公司—路局调度中心—基层站段”三级统一调度，高速铁路调度指挥主要还是以人工调度为主，调度员的主要任务是按照计划时刻表安排列车，并不断地监视铁路运行状况，分析有关列车位置和基础设施的数据，评估与计划时刻表是否相符，对所导致的延迟做出及时而正确的响应。调度员主要凭借人工经验制订调整方案，通常需要在短时间内做出调整，劳动强度大。当路网复杂，列车晚点数量增多，人工凭经验难以考虑到所有约束条件和多种可行方案，通常制订出来的调度方案尽管是可行的，但未必是满意的，无法做到精细化调整。

列车运行调整问题是NP(Nondeterministic Polynomially，非确定性多项式)问题，目前求解列车运行调整的方法主要包括三大类：运筹学方法、仿真方法和人工智能算法。运筹学方法有较完善的理论基础，对于高铁这样庞大复杂的动态时变、关联强和安全约束多的系统，难以建立准确的过程模型，通常会做较多的假设和简化，所得到的解可行性需进一步验证。仿真方法存在着计算量太大，实时性较差的问题。目前人工智能算法中启发式算法应用较多，存在着随问题规模变大求解效率变低，难以得到较优的解。

随着计算机技术的发展和人工智能技术逐步成熟，利用现代先进的信息处理技术更准确、更快捷地解决由于各种原因造成的列车晚点，不仅可以提高整个高速铁路网及调度中心系统的应急处理能力，而且能更好地满足高铁运营和发展的需求和提高乘客满意度。Q学习(Q-learning)算法主要应用于城际交通协调控制问题、高速列车节能优化问题，很少将该方法应用于求解突发事件下列车运行调整问题，该算法可以解决随着规模变大求解效率变低，难以得到较优解问题。然而实现Q学习算法需要列车运行仿真软件有交互能力，而目前列车运行仿真软件的研究有很多，虽然具备了非常准确的仿真列车运行过程能力，但这些仿真系统并不是为机器学习而设计开发的，仿真效率慢，以人机交互为主，缺少快速的“机-机”交互能力，不适用于需要大量交互和运行场景不断变化的强化学习。

发明内容

针对上述现有技术的不足，本发明提供一种基于Q学习的高速列车运行调整方法与系统。

本发明的技术方案是：

一种基于Q学习的高速列车运行调整方法，包括以下步骤：

步骤1：获取列车调度场景中的相关数据；

所述相关数据包括：(1)铁路基础设施初始化参数：编号为

的M个车站，每个车站j对应的股道数量C_j和车站的里程l_j；编号为

的B个区间；道岔；信号灯；(2)列车的静态数据：编号为

的N辆列车，高速列车的计划到发时刻表、经停方案、列车的最大运行速度、区间最小运行时间T_j,j′、以及列车的最小停站时间A_i,j、列车到发和发到最小间隔时间h_j、相邻列车到站/发车最小间隔时间g_j、列车启动附加时间τ^起、列车停车附加时间τ^停；

步骤2：建立列车运行调整的调度优化目标函数及保证列车安全运行的约束条件；

步骤3：实时监测晚点事件信息，当监测到晚点信息时，根据当前时刻的铁路基础设施的状态变化和列车运行过程相关数据，利用Q学习算法对晚点列车进行调整得到最优的列车运行调整策略，并更新离散事件表；

所述列车运行过程相关数据，包括列车的位置和速度信息、列车实际到达车站的时间、实际从车站发车的时间和列车晚点时间；

步骤4：根据最优的列车调整策略得到调整后的列车实际运行图。

进一步地，根据所述的基于Q学习的高速列车运行调整方法，所述列车运行调整的调度优化目标函数为采用所有列车在所有车站总晚点时间J最小作为目标函数：

其中，D_i,j表示列车i实际到达车站j的时刻；DP_i,j表示列车i计划到达车站j的时刻；F_i,j表示列车i实际从车站j发车的时刻；FP_i,j表示列车i计划从车站j发车的时刻，规定列车实际从车站发车的时刻不能大于列车计划从车站发车的时刻。

进一步地，根据所述的基于Q学习的高速列车运行调整方法，所述保证列车安全运行的约束条件包括：

1)车站容量约束：

其中，x_i,j,t表示列车i对车站j在t时刻是否占用，当x_i,j,t＝1表示车站j被列车i占用，x_i,j,t＝0表示车站j未被列车i占用，且在任意时刻t，占用车站j的列车的总数不能超过该车站的最大容量C_j；

2)列车最小停站时间约束：

其中，F_i,j表示列车i实际从车站j发车的时刻；a_i,j表示列车i在车站j上实际停站时间；A_i,j表示列车i在车站j的最小停站时间；

3)区间最小运行时间约束：

其中，D_i,j′表示列车i实际到达车站j′的时刻；t_i,j表示列车i在资源j上实际运行时间；T_i,j表示列车i在资源j上区间最小运行时间；

4)发车时间约束：

5)相邻列车到站或者发车间隔时间约束

其中，D_i′,j表示列车i′实际到达车站j的时刻；F_i′,j表示列车^i′实际从车站j发车的时刻；g_j表示列车i和相邻列车i′到站或者发车最小间隔时间，即相邻列车的到站或者发车间隔时间应不小于g_j；

6)相邻列车的到发和发到间隔时间约束：

其中，D_i′,j表示列车i′实际到达车站j的时刻；h_j表示列车i和相邻列车i′到发和发到最小间隔时间，即相邻列车的到发和发到间隔时间应不小于h_j。

进一步地，根据所述的基于Q学习的高速列车运行调整方法，所述步骤3包括如下步骤：

步骤3.1：将二维Q(S,A)表初始化为0，并设定最大迭代次数、学习率α、折扣因子γ、ε值、常数C；

步骤3.2：获取初始状态向量S₀；

当监测到晚点信息时，获取当前时刻下列车运行位置和路网的区间、股道占用情况的数据，得到初始状态向量S₀；

为了便于描述Q学习算法的基本要素，对铁路基础设施中的车站

区间

统一称为资源，设共有R＝B+M个资源，编号为

从理论上可以将调度时间范围[t₁,t₂]进行离散化处理得到集合

根据步骤1中获取到的列车调度场景中的相关数据，定义Q学习算法中的状态向量S_t如式(12)所示：

其中，t表示当前事件触发的时刻；k_i,t∈R为列车i在时刻t所在的资源编号即列车的相对位置；k_1,t表示列车1在t时刻停留/运行的资源编号；k_2,t表示列车2在t时刻停留/运行的资源编号；k_n,t表示列车n在t时刻停留/运行的资源编号；

表示当前时刻t所有列车占用资源的集合；

表示当前时刻t每辆列车前进方向上的下一个资源的集合；

表示调度时间范围的集合；c_1,t为当前列车1在时刻t所在的资源的临近资源编号；c_i,t为当前列车i在时刻t所在的资源的临近资源编号；c_n,t为当前列车n在时刻t所在的资源的临近资源编号；

代表在时刻t资源c_1,t的拥挤程度；

代表在时刻t资源c_i，t的拥挤程度；

代表在时刻t资源c_n,t的拥挤程度；其中资源状态r_k,t，

用来表达资源k的拥挤程度，定义为当前时刻t下占用当前资源k的列车数量T_num与资源容量C_k的比值，从0到100％划分成m个等级，因此对于

其中m为用户自定义的定值常量；

步骤3.3：根据当前状态S_t，利用ε-greedy策略从预先设置的动作集A(S_t)中选择一个可行的动作；

根据当前状态S_t，采用公式(13)所示的ε-greedy策略从预先设置的动作集A(S_t)中选择可行的动作a_t∈A(S_t)，具体内容为：首先产生一个随机数rand∈(0,1)，如果该随机数小于ε，从可行的动作集中随机选择一个动作，反之选择Q(S_t,A(S_t))最大的那个动作；

其中，π(a_t|S_t)为在状态S_t下选择动作a_t的概率；ε可以为一个定量也可以为一个随时间变化的函数值；

步骤3.4：根据所选择的动作下达列车进站/出站作业调度命令并更新离散事件表；

步骤3.5：当离散事件表发生更新时，根据更新事件对铁路基础设施占用状态和列车运行过程相关数据进行更新，且通过奖励函数计算奖励值，并获取下一个时刻的铁路基础设施占用状态和列车运行过程相关数据，得到一个新的状态向量S_t+1；

所述奖励函数是用于判断所选择的动作是否有益于调度优化目标的实现，包括延时奖励函数r_T和即时奖励函数r_t，列车的总晚点时间越大越偏离计划时刻表，奖励函数越小；所述延时奖励函数r_T按照式(14)进行定义：

其中，C为一个常量；D_i,j表示列车i实际到达车站j的时刻；DP_i,j表示列车i计划到达车站j的时刻；F_i,j表示列车i实际从车站j发车的时刻；FP_i,j表示列车i计划从车站j发车的时刻；

所述即时奖励函数r_t按照式(15)进行定义：

其中，D为用户自定义的常量；

步骤3.6：根据步骤3.5得到的奖励值r，通过公式(16)更新状态-动作对的Q值；

其中，S_t为当前时刻t下的列车运行位置和路网的区间、股道占用情况；S_t+1为t+1时刻下的列车运行位置和路网的区间、股道占用情况；a_t表示根据当前状态S_t选择的动作；Q(S_t,a_t)表示在当前时刻t的状态S_t采取动作a_t的效用函数，用来评价所选动作的优劣；α表示步长因子，又被称为学习率，取值范围为α∈[0,1]；γ∈[0,1]表示折扣因子，γ→0说明Q学习智能主体最大化当前的奖励值，γ→1说明Q学习智能主体对未来的奖励值更加注重；r为在当前状态下采取一个动作得到的奖励值；

步骤3.7：令S_t＝S_t+1，判断是否满足所有的列车都到达终点站，如果不满足则转至步骤3.3，如果满足则判断Q值是否收敛或者是否达到最大迭代次数，如果满足则终止学习，反之则转至步骤3.2直到Q值收敛或者达到最大迭代次数，得到最优的列车调整策略。

实现上述基于Q学习的高速列车运行调整方法的基于Q学习的高速列车运行调整系统，包括：

参数配置模块：用于配置高速列车运行场景中铁路基础设施初始化参数、高速列车车次号、列车的计划到发时刻表、列车的最大运行速度、经停方案和保证列车安全运行的约束条件参数；并将所配置的参数均发送至人-机交互接口模块；所述列车运行场景中铁路基础设施初始化参数包括车站、股道数量、车站的里程、区间、道岔和信号灯；所述保证列车安全运行的约束条件参数包括车站容量、列车启动附加时间、列车停车附加时间、相邻列车到站/发车最小间隔时间、所有列车在各个区间的最小运行时间，每辆列车的最小停站时间以及列车到发和发到最小间隔时间；第一人-机交互接口模块：用于接收参数配置模块发送的数据并转发给列车运行仿真模块，且向列车运行仿真模块下达参数配置命令；根据铁路基础设施初始化参数以图形方式显示初始的路网布局图；以图形方式对列车运行过程中铁路基础设施的状态变化数据和列车运行过程相关数据进行显示；设置晚点信息以模拟突发事件的发生；并将设置的晚点信息发送至列车运行仿真模块，并对晚点信息进行显示提醒；

列车运行仿真模块：用于接收第一人-机交互接口模块发送的参数配置命令，根据铁路基础设施初始化参数对列车运行场景中涉及的车站、区间、信号灯和道岔均初始化为空闲状态；依据列车的计划到发时刻表和经停方案创建一个离散事件表，表中每个事件均包含以下信息：处理事件时间、事件对应列车编号、列车所在资源块；根据保证列车安全运行的约束条件，采用离散事件驱动的方式以分钟级仿真精度模拟高速列车信号与控制系统的运行，同时监测和更新铁路基础设施的状态变化数据和列车运行过程相关数据并将这些数据发送给第一人-机交互接口模块；当判断出列车运行至车站时，将根据股道的占用情况和列车的最小停站时间自动进行进路安排；当判断出列车运行至区间时，在保证区间最小运行时间前提下按照经停方案运行；当接收到第一人-机交互接口模块发送的晚点信息或者接收到机-机交互接口模块下达的进站/出站作业调度命令时，相应地将会根据晚点信息或者调度命令更新离散事件表，进而更新铁路基础设施的状态变化数据和列车运行过程相关数据；当每一个事件触发时，计算列车晚点时间，即列车实际到达车站的时间与计划到达车站的时间之差；在列车运行过程中，按照分钟调度精度采集铁路基础设施的状态变化数据和列车运行过程相关数据发送给数据采集模块；

数据采集模块：用于在列车运行仿真模块和调度方案自动生成模块之间传输和共享数据，从列车运行仿真模块中接收并存储铁路基础设施的状态变化数据、列车运行过程相关数据以及作业调度命令；

调度方案自动生成模块：用于监测数据采集模块中的列车晚点信息；当监测到列车晚点信息时，从数据采集模块中获取当前时刻下的列车运行位置和路网的区间、股道占用情况的数据，得到Q学习算法所需的状态数据；根据当前的状态数据，通过Q学习算法生成列车的调度命令，并同时下达至第二人-机交互接口模块和机-机交互接口模块；

第二人-机交互接口模块：用于显示Q学习算法的求解结果；辅助调度员查看调度方案自动生成模块所生成的调度命令是否出现列车冲突或者违反保证列车安全运行的约束条件，若是，则调度员在该模块对调度命令进行编辑、修改以消解冲突，得到新的调度命令并下达至机-机交互接口模块；

机-机交互接口模块：将调度方案自动生成模块生成的调度命令或者将第二人-机交互接口模块生成的新的调度命令转换成列车运行仿真模块可以识别的行车调度命令并传递至列车运行仿真模块。

本发明的有益效果在于：本发明提供的基于Q学习的高速列车运行调整方法与系统，不仅准确描述列车运行调整过程的状态、动作和策略以及以满足列车晚点时间最小为目标函数的即时奖励函数，通过快速交互学习方式得到突发事件下晚点列车动态调整方案辅助调度员做决策，而且从高铁路网资源的时空供给和约束的两个角度，设计并搭建了支持机-机交互的路网运行仿真模块，不仅可以仿真正常运营及典型突发事件引起的晚点的运行场景，而且可以快速地接收调度方案自动生成的调度指令模拟列车运行，刻画了高铁路网的动态变化过程，校验调度方案的可行性。最后输入真实的运行场景数据，采用本发明方法与系统快速交互方式得到调度方案，并验证了该方法与系统的有效性，为列车动态调整方法提供了新的解决思路。

附图说明

图1为本发明基于Q学习的高速列车运行调整系统的结构框图；

图2为本发明系统中数据采集模块104所需获取和存储的信息示意图；

图3本发明基于Q学习的高速列车运行调整方法流程图；

图4本发明实施例中列车调整前的计划运行图；

图5本发明实施例中列车调整后的实际运行图。

具体实施方式

下面结合附图和实施例，对本发明的具体实施方式作进一步详细描述。以下实施例用于说明本发明，但不用来限制本发明的范围。

下面以长春西到沈阳北高速场调度区段的高速列车运行场景为例，对本发明提供的基于Q学习的高速列车运行调整系统与方法进行详细说明。

图1是本发明的基于Q学习的高速列车运行调整系统的结构框图，所述基于Q学习的高速列车运行调整系统，包括：参数配置模块101、第一人-机交互接口模块102、列车运行仿真模块103、数据采集模块104、调度方案自动生成模块105、第二人-机交互接口模块106、机-机交互接口模块107。

所述参数配置模块101：用来配置高速列车运行场景中铁路基础设施初始化参数、高速列车车次号、列车的计划到发时刻表、列车的最大运行速度、经停方案和保证列车安全运行的约束条件参数；并将所配置的参数均发送至人-机交互接口模块102；所述列车运行场景中铁路基础设施初始化参数包括车站、股道数量、车站的里程、区间、道岔和信号灯；所述保证列车安全运行的约束条件参数包括车站容量、列车启动附加时间、列车停车附加时间、到站/发车最小间隔时间、所有列车在各个区间的最小运行时间，每辆列车的最小停站时间以及列车到发和发到最小间隔时间。

所述第一人-机交互接口模块102：用于接收参数配置模块101发送的数据并转发给列车运行仿真模块103，且向列车运行仿真模块103下达参数配置命令；根据铁路基础设施初始化参数以图形方式显示初始的路网布局图；以图形方式对列车运行过程中铁路基础设施的状态变化数据和列车运行过程相关数据进行显示；设置晚点信息以模拟突发事件的发生；并将设置的晚点信息发送至列车运行仿真模块103，并对晚点信息进行显示提醒。所述列车运行过程相关数据，包括列车的位置和速度信息、列车实际到达车站的时间、实际从车站发车的时间和列车晚点时间。

所述列车运行仿真模块103：用于接收第一人-机交互接口模块102发送的参数配置命令，根据铁路基础设施初始化参数对列车运行场景中涉及的资源块进行初始化，即将车站、区间、信号灯和道岔均初始化为空闲状态；依据列车的计划到发时刻表和经停方案创建一个离散事件表，表中每个事件均包含以下信息：处理事件时间、事件对应列车编号、列车所在资源块；根据保证列车安全运行的约束条件，采用离散事件驱动的方式以分钟级仿真精度模拟高速列车信号与控制系统的运行，同时监测和更新铁路基础设施的状态变化数据和列车运行过程相关数据并将这些数据发送给第一人-机交互接口模块102；当判断出列车运行至车站时，将根据股道的占用情况和列车的最小停站时间自动进行进路安排；当判断出列车运行至区间时，在保证区间最小运行时间前提下按照经停方案运行；当接收到第一人-机交互接口模块102发送的晚点信息或者接收到机-机交互接口模块107下达的进站/出站作业调度命令时，相应地将会根据晚点信息或者调度命令更新离散事件表，进而更新铁路基础设施的状态变化数据和列车运行过程相关数据；当每一个事件触发时，计算列车晚点时间，即列车实际到达车站的时间与计划到达车站的时间之差；在列车运行过程中，按照分钟调度精度采集铁路基础设施的状态变化数据和列车运行过程相关数据发送给数据采集模块104。所述列车运行过程相关数据，包括列车的位置和速度信息、列车实际到达车站的时间、实际从车站发车的时间和列车晚点时间。

所述数据采集模块104：主要负责在列车运行仿真模块103和调度方案自动生成模块105之间传输和共享数据，从列车运行仿真模块103中接收并存储铁路基础设施的状态变化数据、列车运行过程相关数据以及作业调度命令，如图2所示。所述列车运行过程相关数据，包括列车的位置和速度信息、列车实际到达车站的时间、实际从车站发车的时间和列车晚点时间。

所述调度方案自动生成模块105：用于监测数据采集模块104中的列车晚点信息；当监测到列车晚点信息时，从数据采集模块104中获取当前时刻下的列车运行位置和路网的区间、股道占用情况的数据，得到Q学习算法所需的状态数据；根据当前的状态数据，通过Q学习算法生成列车的调度命令，并同时下达至第二人-机交互接口模块106和机-机交互接口模块107。

所述第二人-机交互接口模块106：用于显示Q学习算法的求解结果；辅助调度员查看调度方案自动生成模块105所生成的调度命令是否出现列车冲突或者违反保证列车安全运行的约束条件，若是，则调度员在该模块对调度命令进行编辑、修改以消解冲突，得到新的调度命令并下达至机-机交互接口模块107。

所述机-机交互接口模块107：将调度方案自动生成模块105生成的调度命令或者将第二人-机交互接口模块106生成的新的调度命令转换成列车运行仿真模块103可以识别的行车调度命令并传递至列车运行仿真模块103。

通过上述描述的各个模块之间的功能和联系提供本发明系统的基础框架，具备交互能力的、能准确模拟列车运行过程是构建基于Q学习的高速列车运行调整系统的前提和先决条件。

另一方面，本发明提供一种基于Q学习的高速列车运行调整方法，具体实现流程如图3所示包括：

步骤1：获取列车调度场景中的相关数据；

所述相关数据包括：(1)铁路基础设施初始化参数：M个车站，编号为

每个车站j对应的股道数量C_j和车站的里程l_j；B个区间，编号为

道岔、信号灯(2)列车的静态数据：N辆列车编号为

高速列车的计划到发时刻表、经停方案、列车的最大运行速度、区间最小运行时间T_j,j′、以及列车的最小停站时间A_i,j、列车到发和发到最小间隔时间h_j、相邻列车到站/发车最小间隔时间g_j、列车启动附加时间τ^起、列车停车附加时间τ^停。

本实施例中采用长春西到沈阳北高速场区段的数据，如表1和表2所示，包括：(1)铁路基础设施初始化参数：车站数量M＝8，编号为1-8，其名称分别为车站长春西、公主岭南、四平东、昌图西、开原西、铁岭西、六王屯线路所、沈阳北高速场。每个车站j对应的股道数量C_j＝{5,2,3,2,2,3,-,4}和车站的里程l_j＝{298,235,180,129,101,54,-,0}；(2)列车的静态数据：N＝6辆，列车编号为1-6，每辆列车i的名称为：G399、D27、D23、G8023、G239、G1233；高速列车的计划到发时刻表如表2所示；区间最小运行时间T_j,j′如表1所示，以及列车的最小停站时间A_i,j＝1min、相邻列车到发和发到最小间隔时间h_j＝3min、相邻列车到站/发车最小间隔时间g_j＝3min，列车启动附加时间τ^起＝1min、列车停车附加时间τ^停＝1min。

表1沈阳北-长春西列车调度场景中的相关数据

表2沈阳北-长春西列车的计划到发时刻表

本发明采用所有列车在所有车站总晚点时间J最小作为目标函数：

其中，N表示列车总数；M表示车站总数；D_i,j表示列车i实际到达车站j的时刻；DP_i,j表示列车i计划到达车站j的时刻；F_i,j表示列车i实际从车站j发车的时刻；FP_i,j表示列车i计划从车站j发车的时刻。

为了充分模拟列车实际运行过程中的影响因素和限制条件，建立保证列车安全运行的约束条件包括：

1)车站容量约束：

其中，x_i,j,t表示列车i对车站j在t时刻是否占用，当x_i,j,t＝1表示车站j被列车i占用，x_i,j,t＝0表示车站j未被列车i占用，且在任意时刻t，占用车站j的列车的总数不能超过该车站的最大容量C_j。

2)列车最小停站时间约束：

其中，D_i,j表示列车i实际到达车站j的时刻；F_i,j表示列车i实际从车站j发车的时刻，a_i,j表示列车i在车站j上实际停站时间；A_i,j表示列车i在车站j的最小停站时间。

3)区间最小运行时间约束：

其中，D_i,j′表示列车i实际到达车站j′的时刻；F_i,j表示列车i实际从车站j发车的时刻；t_i,j表示列车i在资源j上实际运行时间；T_i,j表示列车i在资源j上区间最小运行时间。τ^起表示列车启动附加时间，τ^停表示列车停车附加时间。

4)发车时间约束：

其中，F_i,j表示列车i实际从车站j发车的时刻；FP_i,j表示列车i计划从车站j发车的时刻。规定列车实际从车站发车的时刻不能大于列车计划从车站发车的时刻。

5)相邻列车的到站/发车间隔时间约束

其中，其中D_i,j表示列车i实际到达车站j的时刻；D_i′,j表示列车i′实际到达车站j的时刻；F_i′,j表示列车i′实际从车站j发车的时刻；F_i,j表示列车i实际从车站j发车的时刻；g_j表示列车i和相邻列车i′到站/发车最小间隔时间，即相邻列车到站/发车间隔时间应不小于g_j。

6)相邻列车的到发和发到间隔时间约束：

其中，D_i,j表示列车i实际到达车站j的时刻；F_i′,j表示列车i′实际从车站j发车的时刻；F_i,j表示列车i实际从车站j发车的时刻；D_i′,j表示列车i^′实际到达车站j的时刻；h_j表示列车i和相邻列车i′到发和发到最小间隔时间，即相邻列车的到发和发到间隔时间应不小于h_j。

步骤3：实时监测晚点事件信息，当监测到晚点信息时，根据当前时刻的铁路基础设施的状态变化和列车运行过程相关数据，利用Q学习算法对晚点列车进行调整得到最优的列车运行调整策略，并更新离散事件表。

步骤3.2：获取初始状态向量S₀；

当监测到晚点信息时，从数据采集模块104中获取当前时刻下列车运行位置和路网的区间、股道占用情况的数据，得到初始状态向量S₀。

区间

统一称为资源，设共有R＝B+M个资源，编号为

根据步骤1中获取到的列车调度场景中的相关数据，定义Q学习算法中的状态向量：

状态向量S_t：当列车发生晚点时，根据当前时刻下整个当前时刻下列车运行位置和路网的区间、股道占用情况对列车进行调整。值得指出的是列车运行过程受到时间和空间不同维度的影响，针对该特点从时间和空间两个角度定义2×N维向量为状态S_t：

其中，t表示列车运行仿真模块103中当前事件触发的时刻；k_i,t∈R为列车i在时刻t所在的资源编号即列车的相对位置；k_1,t表示列车1在t时刻停留/运行的资源编号；k_2,t表示列车2在t时刻停留/运行的资源编号；k_n,t表示列车n在t时刻停留/运行的资源编号；

表示当前时刻t所有列车占用资源的集合；

表示当前时刻t每辆列车前进方向上的下一个资源的集合；

代表在时刻t资源c_1,t的拥挤程度；

代表在时刻t资源c_i,t的拥挤程度；

代表在时刻t资源c_n,t的拥挤程度；其中资源状态r_k,t，

其中m为用户自定义的定值常量。

步骤3.3：根据当前状态S_t，利用ε-greedy策略从预先设置的动作集A(S_t)中选择一个可行的动作。

列车运行调整问题是当列车发生晚点时，需要根据列车运行位置和路网的区间、股道占用情况从预先设置的动作集A(S_t)中选择适当的动作a_t，决定当前时刻哪些列车应发车进入下一个资源，哪些列车应继续保持在当前资源上。

为了解决Q学习过程中存在探索和利用问题，本发明根据当前状态S_t，采用公式(13)所示的ε-greedy策略从预先设置的动作集A(S_t)中选择可行的动作a_t∈A(S_t)，具体内容为：首先产生一个随机数rand∈(0,1)，如果该随机数小于ε，从可行的动作集中随机选择一个动作，反之选择Q(S_t,A(S_t))最大的那个动作，将选择的动作传递至机-机交互接口模块107。

其中，π(a_t|S_t)为在状态S_t下选择动作a_t的概率；ε可以为一个定量也可以为一个随时间变化的函数值。

当得到的动作违反步骤2中所述的保证列车安全运行的约束条件时，调度员可以通过第二人-机交互接口模块106下达调度命令至机-机交互接口模块107中消解列车冲突。

在本实施方式中，是通过机-机交互接口模块107下达进站/出站作业调度命令给列车运行仿真模块103。

步骤3.5：当离散事件表发生更新时，根据更新事件对铁路基础设施占用状态和列车运行过程相关数据进行更新，且通过奖励函数计算奖励值，并从列车运行仿真模块103获取下一个时刻的铁路基础设施占用状态和列车运行过程相关数据，得到一个新的状态向量S_t+1。所述列车运行过程相关数据，包括列车的位置和速度信息、列车实际到达车站的时间、实际从车站发车的时间和列车晚点时间。

所述奖励函数是用于判断所选择的动作是否有益于调度优化目标的实现，包括延时奖励函数r_T和即时奖励函数r_t。用Q学习算法解决列车运行晚点时间最小的问题，列车的总晚点时间越大越偏离计划时刻表，奖励函数越小。因此按照式(14)对延时奖励函数r_T进行定义：

其中，N表示列车总数；M表示车站总数；C为一个常量；D_i,j表示列车i实际到达车站j的时刻；DP_i,j表示列车i计划到达车站j的时刻；F_i,j表示列车i实际从车站j发车的时刻；FP_i,j表示列车i计划从车站j发车的时刻。当列车的总晚点时间J越大，列车运行仿真模块103反馈的延时奖励函数r_T值越小，反之越大。除了延时奖励函数r_T，在Q学习过程中每次状态发生转移时设计了即时奖励函数：

其中，D为用户自定义的常量。为了避免出现大范围的停车以及发生超出调度时间域范围内还有列车没有到达终点站的现象，增加求解的复杂度和降低求解效率现象，设置即时奖励值r_t＝-1，在其他情况下即时奖励值r_t＝0。

步骤3.6：根据步骤3.5得到的奖励值r，通过公式(16)更新状态-动作对的Q值。

其中，S_t为当前时刻t下的列车运行位置和路网的区间、股道占用情况；S_t+1为t+1时刻下的列车运行位置和路网的区间、股道占用情况；a_t表示调度方案自动生成模块105根据当前状态S_t选择的动作；Q(S_t,a_t)表示在当前时刻t的状态S_t采取动作a_t的效用函数，用来评价所选动作的优劣；α表示步长因子，又被称为学习率，取值范围为α∈[0,1]；γ∈[0,1]表示折扣因子，γ→0说明Q学习智能主体最大化当前的奖励值，γ→1说明Q学习智能主体对未来的奖励值更加注重；r为在当前状态下采取一个动作得到的奖励值。

步骤3.7：令S_t＝S_t+1，判断是否满足所有的列车都到达终点站，如果不满足则转至步骤3.3，如果满足则判断Q值是否收敛或者是否达到最大迭代次数，如果满足则终止学习，反之则转至步骤3.2直到Q值收敛或达到最大迭代次数，得到最优的列车调整策略。

本实施例中针对长春西到沈阳北高速场调度区段设置晚点信息模拟列车实际运行过程中突发事件的发生，具体信息为列车G399受大风天气影响到达车站长春西时晚点26分钟。图4为调整前的列车计划运行图。图5中带星的实线为通过本发明系统与方法调整后的G399列车实际运行图，虚线表示G399列车计划运行图。其他的列车计划运行图与实际运行图重合表示恢复运行。由此可见，本发明方法与系统可根据当前路网资源的占用状态和列车的位置信息，实时的调整列车尽快恢复列车的晚点时间，能够支持机-机交互，可学习到最优的调度策略，具有较强的灵活性，降低了操作人员的劳动强度。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述实施所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明权利要求所限定的范围。

Claims

1.一种基于Q学习的高速列车运行调整方法，其特征在于，包括以下步骤：

步骤1：获取列车调度场景中的相关数据；

所述相关数据包括：(1)铁路基础设施初始化参数：编号为

的B个区间；道岔；信号灯；(2)列车的静态数据：编号为

的N辆列车，高速列车的计划到发时刻表、经停方案、列车的最大运行速度、区间最小运行时间T_j，j′、以及列车的最小停站时间A_i，j、列车到发和发到最小间隔时间h_j、相邻列车到站/发车最小间隔时间g_j、列车启动附加时间τ^起、列车停车附加时间τ^停；

2.根据权利要求1所述的基于Q学习的高速列车运行调整方法，其特征在于，所述列车运行调整的调度优化目标函数为采用所有列车在所有车站总晚点时间J最小作为目标函数：

其中，D_i，j表示列车i实际到达车站j的时刻；DP_i，j表示列车i计划到达车站j的时刻；F_i，j表示列车i实际从车站j发车的时刻；FP_i，j表示列车i计划从车站j发车的时刻，规定列车实际从车站发车的时刻不能大于列车计划从车站发车的时刻。

3.根据权利要求1所述的基于Q学习的高速列车运行调整方法，其特征在于，所述保证列车安全运行的约束条件包括：

1)车站容量约束：

其中，x_i，j，t表示列车i对车站j在t时刻是否占用，当x_i，j，t＝1表示车站j被列车i占用，x_i，j，t＝0表示车站j未被列车i占用，且在任意时刻t，占用车站j的列车的总数不能超过该车站的最大容量C_j；

2)列车最小停站时间约束：

其中，F_i，j表示列车i实际从车站j发车的时刻；D_i，j表示列车i实际到达车站j的时刻；a_i，j表示列车i在车站j上实际停站时间；A_i，j表示列车i在车站j的最小停站时间；

3)区间最小运行时间约束：

其中，D_i，j′表示列车i实际到达车站j′的时刻；t_i，j表示列车i在资源j上实际运行时间；T_i，j表示列车i在资源j上区间最小运行时间；

4)发车时间约束：

5)相邻列车到站或者发车间隔时间约束

其中，D_i′j表示列车i′实际到达车站j的时刻；F_i′，j表示列车i′实际从车站j发车的时刻；g_j表示列车i和相邻列车i′到站或者发车最小间隔时间，即相邻列车的到站或者发车时间间隔应不小于g_j；

6)相邻列车的到发和发到间隔时间约束：

其中，D_i′，j表示列车i′实际到达车站j的时刻；h_j表示列车i和相邻列车i′到发和发到最小间隔时间，即相邻列车的到发和发到时间间隔应不小于h_j。

4.根据权利要求1所述的基于Q学习的高速列车运行调整方法，其特征在于，所述步骤3包括如下步骤：

步骤3.1：将二维Q(S，A)表初始化为0，并设定最大迭代次数、学习率α、折扣因子γ、ε值、常数C；

步骤3.2：获取初始状态向量S₀；

区间

统一称为资源，设共有R＝B+M个资源，编号为

从理论上可以将调度时间范围[t₁，t₂]进行离散化处理得到集合

其中，t表示当前事件触发的时刻；k_i，t∈R为列车i在时刻t所在的资源编号即列车的相对位置；k_1，t表示列车1在t时刻停留/运行的资源编号；k_2，t表示列车2在t时刻停留/运行的资源编号；k_n，t表示列车n在t时刻停留/运行的资源编号；

表示当前时刻t所有列车占用资源的集合；

表示当前时刻t每辆列车前进方向上的下一个资源的集合；

表示调度时间范围的集合；c_1，t为当前列车1在时刻t所在的资源的临近资源编号；c_i，t为当前列车i在时刻t所在的资源的临近资源编号；c_n，t为当前列车n在时刻t所在的资源的临近资源编号；

代表在时刻t资源c_1，t的拥挤程度；

代表在时刻t资源c_i，t的拥挤程度；

代表在时刻t资源c_n，t的拥挤程度；其中资源状态r_k，t，

其中m为用户自定义的定值常量；

根据当前状态S_t，采用公式(13)所示的ε-greedy策略从预先设置的动作集A(S_t)中选择可行的动作a_t∈A(S_t)，具体内容为：首先产生一个随机数rand∈(0，1)，如果该随机数小于ε，从可行的动作集中随机选择一个动作，反之选择Q(S_t，A(S_t))最大的那个动作；

其中，C为一个常量；D_i，j表示列车i实际到达车站j的时刻；DP_i，j表示列车i计划到达车站j的时刻；F_i，j表示列车i实际从车站j发车的时刻；FP_i，j表示列车i计划从车站j发车的时刻；

所述即时奖励函数r_t按照式(15)进行定义：

其中，D为用户自定义的常量；

其中，S_t为当前时刻t下的列车运行位置和路网的区间、股道占用情况；S_t+1为t+1时刻下的列车运行位置和路网的区间、股道占用情况；a_t表示根据当前状态S_t选择的动作；Q(S_t，a_t)表示在当前时刻t的状态S_t采取动作a_t的效用函数，用来评价所选动作的优劣；α表示步长因子，又被称为学习率，取值范围为α∈[0，1]；γ∈[0，1]表示折扣因子，γ→0说明Q学习智能主体最大化当前的奖励值，γ→1说明Q学习智能主体对未来的奖励值更加注重；r为在当前状态下采取一个动作得到的奖励值；

5.一种基于Q学习的高速列车运行调整系统，其特征在于，包括：

参数配置模块：用于配置高速列车运行场景中铁路基础设施初始化参数、高速列车车次号、列车的计划到发时刻表、列车的最大运行速度、经停方案和保证列车安全运行的约束条件参数；并将所配置的参数均发送至人-机交互接口模块；所述列车运行场景中铁路基础设施初始化参数包括车站、股道数量、车站的里程、区间、道岔和信号灯；所述保证列车安全运行的约束条件参数包括车站容量、列车启动附加时间、列车停车附加时间、相邻列车到站/发车最小间隔时间、所有列车在各个区间的最小运行时间，每辆列车的最小停站时间以及列车到发和发到最小间隔时间；

第一人-机交互接口模块：用于接收参数配置模块发送的数据并转发给列车运行仿真模块，且向列车运行仿真模块下达参数配置命令；根据铁路基础设施初始化参数以图形方式显示初始的路网布局图；以图形方式对列车运行过程中铁路基础设施的状态变化数据和列车运行过程相关数据进行显示；设置晚点信息以模拟突发事件的发生；并将设置的晚点信息发送至列车运行仿真模块，并对晚点信息进行显示提醒；