CN113415322A - 一种基于q学习的高速列车运行调整方法与系统 - Google Patents

一种基于q学习的高速列车运行调整方法与系统 Download PDF

Info

Publication number
CN113415322A
CN113415322A CN202110884976.XA CN202110884976A CN113415322A CN 113415322 A CN113415322 A CN 113415322A CN 202110884976 A CN202110884976 A CN 202110884976A CN 113415322 A CN113415322 A CN 113415322A
Authority
CN
China
Prior art keywords
train
time
station
data
module
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110884976.XA
Other languages
English (en)
Other versions
CN113415322B (zh
Inventor
代学武
程丽娟
俞胜平
崔东亮
袁志明
闫璐
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Northeastern University China
Signal and Communication Research Institute of CARS
Original Assignee
Northeastern University China
Signal and Communication Research Institute of CARS
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Northeastern University China, Signal and Communication Research Institute of CARS filed Critical Northeastern University China
Priority to CN202110884976.XA priority Critical patent/CN113415322B/zh
Publication of CN113415322A publication Critical patent/CN113415322A/zh
Application granted granted Critical
Publication of CN113415322B publication Critical patent/CN113415322B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F30/00Computer-aided design [CAD]
    • G06F30/20Design optimisation, verification or simulation
    • G06F30/27Design optimisation, verification or simulation using machine learning, e.g. artificial intelligence, neural networks, support vector machines [SVM] or training a model
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2111/00Details relating to CAD techniques
    • G06F2111/04Constraint-based CAD
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Medical Informatics (AREA)
  • Software Systems (AREA)
  • Artificial Intelligence (AREA)
  • Computer Hardware Design (AREA)
  • Geometry (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Train Traffic Observation, Control, And Security (AREA)

Abstract

本发明公开了一种基于Q学习的高速列车运行调整方法与系统,涉及高铁动态调度技术领域。不仅准确描述列车运行调整过程的状态、动作和策略以及以满足列车晚点时间最小为目标函数的奖励函数,通过交互学习方式得到突发事件下晚点列车动态调整方案辅助调度员做决策,而且从高铁路网资源的时空供给和约束两个角度,设计并搭建了支持机‑机交互的路网运行仿真模块,不仅可以仿真正常运营及典型突发事件引起的晚点的运行场景,而且可以快速地接收调度方案自动生成的调度指令模拟列车运行,刻画了高铁路网的动态变化过程,校验调度方案的可行性。最后输入真实的运行场景数据得到调度方案,验证该方法与系统的有效性,为列车动态运行调整方法提供了新的解决思路。

Description

一种基于Q学习的高速列车运行调整方法与系统
技术领域
本发明涉及高铁动态调度技术领域,尤其涉及一种基于Q学习的高速列车运行调整方法与系统。
背景技术
列车运行调整是铁路运输生产中的一个核心关键环节。高速列车在运行过程中容易受到天气、设备故障、突发事件等因素的影响,会使得列车的实际运行轨迹偏离预先制定的列车运行计划,需要及时地对列车运行时间进行调整,保证让它能够最大程度地与列车运行图贴合,否则将会造成一系列不可预估的损失,需要一种方法得到一个较优的调度方案,并通过现有的调度系统进行仿真验证。目前我国高速铁路主要采用“总公司—路局调度中心—基层站段”三级统一调度,高速铁路调度指挥主要还是以人工调度为主,调度员的主要任务是按照计划时刻表安排列车,并不断地监视铁路运行状况,分析有关列车位置和基础设施的数据,评估与计划时刻表是否相符,对所导致的延迟做出及时而正确的响应。调度员主要凭借人工经验制订调整方案,通常需要在短时间内做出调整,劳动强度大。当路网复杂,列车晚点数量增多,人工凭经验难以考虑到所有约束条件和多种可行方案,通常制订出来的调度方案尽管是可行的,但未必是满意的,无法做到精细化调整。
列车运行调整问题是NP(Nondeterministic Polynomially,非确定性多项式)问题,目前求解列车运行调整的方法主要包括三大类:运筹学方法、仿真方法和人工智能算法。运筹学方法有较完善的理论基础,对于高铁这样庞大复杂的动态时变、关联强和安全约束多的系统,难以建立准确的过程模型,通常会做较多的假设和简化,所得到的解可行性需进一步验证。仿真方法存在着计算量太大,实时性较差的问题。目前人工智能算法中启发式算法应用较多,存在着随问题规模变大求解效率变低,难以得到较优的解。
随着计算机技术的发展和人工智能技术逐步成熟,利用现代先进的信息处理技术更准确、更快捷地解决由于各种原因造成的列车晚点,不仅可以提高整个高速铁路网及调度中心系统的应急处理能力,而且能更好地满足高铁运营和发展的需求和提高乘客满意度。Q学习(Q-learning)算法主要应用于城际交通协调控制问题、高速列车节能优化问题,很少将该方法应用于求解突发事件下列车运行调整问题,该算法可以解决随着规模变大求解效率变低,难以得到较优解问题。然而实现Q学习算法需要列车运行仿真软件有交互能力,而目前列车运行仿真软件的研究有很多,虽然具备了非常准确的仿真列车运行过程能力,但这些仿真系统并不是为机器学习而设计开发的,仿真效率慢,以人机交互为主,缺少快速的“机-机”交互能力,不适用于需要大量交互和运行场景不断变化的强化学习。
发明内容
针对上述现有技术的不足,本发明提供一种基于Q学习的高速列车运行调整方法与系统。
本发明的技术方案是:
一种基于Q学习的高速列车运行调整方法,包括以下步骤:
步骤1:获取列车调度场景中的相关数据;
所述相关数据包括:(1)铁路基础设施初始化参数:编号为
Figure BDA0003193683660000021
的M个车站,每个车站j对应的股道数量Cj和车站的里程lj;编号为
Figure BDA0003193683660000022
的B个区间;道岔;信号灯;(2)列车的静态数据:编号为
Figure BDA0003193683660000023
的N辆列车,高速列车的计划到发时刻表、经停方案、列车的最大运行速度、区间最小运行时间Tj,j′、以及列车的最小停站时间Ai,j、列车到发和发到最小间隔时间hj、相邻列车到站/发车最小间隔时间gj、列车启动附加时间τ、列车停车附加时间τ
步骤2:建立列车运行调整的调度优化目标函数及保证列车安全运行的约束条件;
步骤3:实时监测晚点事件信息,当监测到晚点信息时,根据当前时刻的铁路基础设施的状态变化和列车运行过程相关数据,利用Q学习算法对晚点列车进行调整得到最优的列车运行调整策略,并更新离散事件表;
所述列车运行过程相关数据,包括列车的位置和速度信息、列车实际到达车站的时间、实际从车站发车的时间和列车晚点时间;
步骤4:根据最优的列车调整策略得到调整后的列车实际运行图。
进一步地,根据所述的基于Q学习的高速列车运行调整方法,所述列车运行调整的调度优化目标函数为采用所有列车在所有车站总晚点时间J最小作为目标函数:
Figure BDA0003193683660000024
其中,Di,j表示列车i实际到达车站j的时刻;DPi,j表示列车i计划到达车站j的时刻;Fi,j表示列车i实际从车站j发车的时刻;FPi,j表示列车i计划从车站j发车的时刻,规定列车实际从车站发车的时刻不能大于列车计划从车站发车的时刻。
进一步地,根据所述的基于Q学习的高速列车运行调整方法,所述保证列车安全运行的约束条件包括:
1)车站容量约束:
Figure BDA0003193683660000025
其中,xi,j,t表示列车i对车站j在t时刻是否占用,当xi,j,t=1表示车站j被列车i占用,xi,j,t=0表示车站j未被列车i占用,且在任意时刻t,占用车站j的列车的总数不能超过该车站的最大容量Cj
2)列车最小停站时间约束:
Figure BDA0003193683660000031
Figure BDA0003193683660000032
其中,Fi,j表示列车i实际从车站j发车的时刻;ai,j表示列车i在车站j上实际停站时间;Ai,j表示列车i在车站j的最小停站时间;
3)区间最小运行时间约束:
Figure BDA0003193683660000033
Figure BDA0003193683660000034
其中,Di,j′表示列车i实际到达车站j′的时刻;ti,j表示列车i在资源j上实际运行时间;Ti,j表示列车i在资源j上区间最小运行时间;
4)发车时间约束:
Figure BDA0003193683660000035
5)相邻列车到站或者发车间隔时间约束
Figure BDA0003193683660000036
Figure BDA0003193683660000037
其中,Di′,j表示列车i′实际到达车站j的时刻;Fi′,j表示列车i′实际从车站j发车的时刻;gj表示列车i和相邻列车i′到站或者发车最小间隔时间,即相邻列车的到站或者发车间隔时间应不小于gj
6)相邻列车的到发和发到间隔时间约束:
Figure BDA0003193683660000038
Figure BDA0003193683660000039
其中,Di′,j表示列车i′实际到达车站j的时刻;hj表示列车i和相邻列车i′到发和发到最小间隔时间,即相邻列车的到发和发到间隔时间应不小于hj
进一步地,根据所述的基于Q学习的高速列车运行调整方法,所述步骤3包括如下步骤:
步骤3.1:将二维Q(S,A)表初始化为0,并设定最大迭代次数、学习率α、折扣因子γ、ε值、常数C;
步骤3.2:获取初始状态向量S0
当监测到晚点信息时,获取当前时刻下列车运行位置和路网的区间、股道占用情况的数据,得到初始状态向量S0
为了便于描述Q学习算法的基本要素,对铁路基础设施中的车站
Figure BDA0003193683660000041
区间
Figure BDA0003193683660000042
统一称为资源,设共有R=B+M个资源,编号为
Figure BDA0003193683660000043
从理论上可以将调度时间范围[t1,t2]进行离散化处理得到集合
Figure BDA0003193683660000044
根据步骤1中获取到的列车调度场景中的相关数据,定义Q学习算法中的状态向量St如式(12)所示:
Figure BDA0003193683660000045
其中,t表示当前事件触发的时刻;ki,t∈R为列车i在时刻t所在的资源编号即列车的相对位置;k1,t表示列车1在t时刻停留/运行的资源编号;k2,t表示列车2在t时刻停留/运行的资源编号;kn,t表示列车n在t时刻停留/运行的资源编号;
Figure BDA0003193683660000046
表示当前时刻t所有列车占用资源的集合;
Figure BDA0003193683660000047
表示当前时刻t每辆列车前进方向上的下一个资源的集合;
Figure BDA0003193683660000048
表示调度时间范围的集合;c1,t为当前列车1在时刻t所在的资源的临近资源编号;ci,t为当前列车i在时刻t所在的资源的临近资源编号;cn,t为当前列车n在时刻t所在的资源的临近资源编号;
Figure BDA0003193683660000049
代表在时刻t资源c1,t的拥挤程度;
Figure BDA00031936836600000410
代表在时刻t资源ci,t的拥挤程度;
Figure BDA00031936836600000411
代表在时刻t资源cn,t的拥挤程度;其中资源状态rk,t
Figure BDA00031936836600000412
用来表达资源k的拥挤程度,定义为当前时刻t下占用当前资源k的列车数量Tnum与资源容量Ck的比值,从0到100%划分成m个等级,因此对于
Figure BDA00031936836600000413
其中m为用户自定义的定值常量;
步骤3.3:根据当前状态St,利用ε-greedy策略从预先设置的动作集A(St)中选择一个可行的动作;
根据当前状态St,采用公式(13)所示的ε-greedy策略从预先设置的动作集A(St)中选择可行的动作at∈A(St),具体内容为:首先产生一个随机数rand∈(0,1),如果该随机数小于ε,从可行的动作集中随机选择一个动作,反之选择Q(St,A(St))最大的那个动作;
Figure BDA00031936836600000414
其中,π(at|St)为在状态St下选择动作at的概率;ε可以为一个定量也可以为一个随时间变化的函数值;
步骤3.4:根据所选择的动作下达列车进站/出站作业调度命令并更新离散事件表;
步骤3.5:当离散事件表发生更新时,根据更新事件对铁路基础设施占用状态和列车运行过程相关数据进行更新,且通过奖励函数计算奖励值,并获取下一个时刻的铁路基础设施占用状态和列车运行过程相关数据,得到一个新的状态向量St+1
所述奖励函数是用于判断所选择的动作是否有益于调度优化目标的实现,包括延时奖励函数rT和即时奖励函数rt,列车的总晚点时间越大越偏离计划时刻表,奖励函数越小;所述延时奖励函数rT按照式(14)进行定义:
Figure BDA0003193683660000051
其中,C为一个常量;Di,j表示列车i实际到达车站j的时刻;DPi,j表示列车i计划到达车站j的时刻;Fi,j表示列车i实际从车站j发车的时刻;FPi,j表示列车i计划从车站j发车的时刻;
所述即时奖励函数rt按照式(15)进行定义:
Figure BDA0003193683660000052
其中,D为用户自定义的常量;
步骤3.6:根据步骤3.5得到的奖励值r,通过公式(16)更新状态-动作对的Q值;
Figure BDA0003193683660000053
其中,St为当前时刻t下的列车运行位置和路网的区间、股道占用情况;St+1为t+1时刻下的列车运行位置和路网的区间、股道占用情况;at表示根据当前状态St选择的动作;Q(St,at)表示在当前时刻t的状态St采取动作at的效用函数,用来评价所选动作的优劣;α表示步长因子,又被称为学习率,取值范围为α∈[0,1];γ∈[0,1]表示折扣因子,γ→0说明Q学习智能主体最大化当前的奖励值,γ→1说明Q学习智能主体对未来的奖励值更加注重;r为在当前状态下采取一个动作得到的奖励值;
步骤3.7:令St=St+1,判断是否满足所有的列车都到达终点站,如果不满足则转至步骤3.3,如果满足则判断Q值是否收敛或者是否达到最大迭代次数,如果满足则终止学习,反之则转至步骤3.2直到Q值收敛或者达到最大迭代次数,得到最优的列车调整策略。
实现上述基于Q学习的高速列车运行调整方法的基于Q学习的高速列车运行调整系统,包括:
参数配置模块:用于配置高速列车运行场景中铁路基础设施初始化参数、高速列车车次号、列车的计划到发时刻表、列车的最大运行速度、经停方案和保证列车安全运行的约束条件参数;并将所配置的参数均发送至人-机交互接口模块;所述列车运行场景中铁路基础设施初始化参数包括车站、股道数量、车站的里程、区间、道岔和信号灯;所述保证列车安全运行的约束条件参数包括车站容量、列车启动附加时间、列车停车附加时间、相邻列车到站/发车最小间隔时间、所有列车在各个区间的最小运行时间,每辆列车的最小停站时间以及列车到发和发到最小间隔时间;第一人-机交互接口模块:用于接收参数配置模块发送的数据并转发给列车运行仿真模块,且向列车运行仿真模块下达参数配置命令;根据铁路基础设施初始化参数以图形方式显示初始的路网布局图;以图形方式对列车运行过程中铁路基础设施的状态变化数据和列车运行过程相关数据进行显示;设置晚点信息以模拟突发事件的发生;并将设置的晚点信息发送至列车运行仿真模块,并对晚点信息进行显示提醒;
列车运行仿真模块:用于接收第一人-机交互接口模块发送的参数配置命令,根据铁路基础设施初始化参数对列车运行场景中涉及的车站、区间、信号灯和道岔均初始化为空闲状态;依据列车的计划到发时刻表和经停方案创建一个离散事件表,表中每个事件均包含以下信息:处理事件时间、事件对应列车编号、列车所在资源块;根据保证列车安全运行的约束条件,采用离散事件驱动的方式以分钟级仿真精度模拟高速列车信号与控制系统的运行,同时监测和更新铁路基础设施的状态变化数据和列车运行过程相关数据并将这些数据发送给第一人-机交互接口模块;当判断出列车运行至车站时,将根据股道的占用情况和列车的最小停站时间自动进行进路安排;当判断出列车运行至区间时,在保证区间最小运行时间前提下按照经停方案运行;当接收到第一人-机交互接口模块发送的晚点信息或者接收到机-机交互接口模块下达的进站/出站作业调度命令时,相应地将会根据晚点信息或者调度命令更新离散事件表,进而更新铁路基础设施的状态变化数据和列车运行过程相关数据;当每一个事件触发时,计算列车晚点时间,即列车实际到达车站的时间与计划到达车站的时间之差;在列车运行过程中,按照分钟调度精度采集铁路基础设施的状态变化数据和列车运行过程相关数据发送给数据采集模块;
数据采集模块:用于在列车运行仿真模块和调度方案自动生成模块之间传输和共享数据,从列车运行仿真模块中接收并存储铁路基础设施的状态变化数据、列车运行过程相关数据以及作业调度命令;
调度方案自动生成模块:用于监测数据采集模块中的列车晚点信息;当监测到列车晚点信息时,从数据采集模块中获取当前时刻下的列车运行位置和路网的区间、股道占用情况的数据,得到Q学习算法所需的状态数据;根据当前的状态数据,通过Q学习算法生成列车的调度命令,并同时下达至第二人-机交互接口模块和机-机交互接口模块;
第二人-机交互接口模块:用于显示Q学习算法的求解结果;辅助调度员查看调度方案自动生成模块所生成的调度命令是否出现列车冲突或者违反保证列车安全运行的约束条件,若是,则调度员在该模块对调度命令进行编辑、修改以消解冲突,得到新的调度命令并下达至机-机交互接口模块;
机-机交互接口模块:将调度方案自动生成模块生成的调度命令或者将第二人-机交互接口模块生成的新的调度命令转换成列车运行仿真模块可以识别的行车调度命令并传递至列车运行仿真模块。
本发明的有益效果在于:本发明提供的基于Q学习的高速列车运行调整方法与系统,不仅准确描述列车运行调整过程的状态、动作和策略以及以满足列车晚点时间最小为目标函数的即时奖励函数,通过快速交互学习方式得到突发事件下晚点列车动态调整方案辅助调度员做决策,而且从高铁路网资源的时空供给和约束的两个角度,设计并搭建了支持机-机交互的路网运行仿真模块,不仅可以仿真正常运营及典型突发事件引起的晚点的运行场景,而且可以快速地接收调度方案自动生成的调度指令模拟列车运行,刻画了高铁路网的动态变化过程,校验调度方案的可行性。最后输入真实的运行场景数据,采用本发明方法与系统快速交互方式得到调度方案,并验证了该方法与系统的有效性,为列车动态调整方法提供了新的解决思路。
附图说明
图1为本发明基于Q学习的高速列车运行调整系统的结构框图;
图2为本发明系统中数据采集模块104所需获取和存储的信息示意图;
图3本发明基于Q学习的高速列车运行调整方法流程图;
图4本发明实施例中列车调整前的计划运行图;
图5本发明实施例中列车调整后的实际运行图。
具体实施方式
下面结合附图和实施例,对本发明的具体实施方式作进一步详细描述。以下实施例用于说明本发明,但不用来限制本发明的范围。
下面以长春西到沈阳北高速场调度区段的高速列车运行场景为例,对本发明提供的基于Q学习的高速列车运行调整系统与方法进行详细说明。
图1是本发明的基于Q学习的高速列车运行调整系统的结构框图,所述基于Q学习的高速列车运行调整系统,包括:参数配置模块101、第一人-机交互接口模块102、列车运行仿真模块103、数据采集模块104、调度方案自动生成模块105、第二人-机交互接口模块106、机-机交互接口模块107。
所述参数配置模块101:用来配置高速列车运行场景中铁路基础设施初始化参数、高速列车车次号、列车的计划到发时刻表、列车的最大运行速度、经停方案和保证列车安全运行的约束条件参数;并将所配置的参数均发送至人-机交互接口模块102;所述列车运行场景中铁路基础设施初始化参数包括车站、股道数量、车站的里程、区间、道岔和信号灯;所述保证列车安全运行的约束条件参数包括车站容量、列车启动附加时间、列车停车附加时间、到站/发车最小间隔时间、所有列车在各个区间的最小运行时间,每辆列车的最小停站时间以及列车到发和发到最小间隔时间。
所述第一人-机交互接口模块102:用于接收参数配置模块101发送的数据并转发给列车运行仿真模块103,且向列车运行仿真模块103下达参数配置命令;根据铁路基础设施初始化参数以图形方式显示初始的路网布局图;以图形方式对列车运行过程中铁路基础设施的状态变化数据和列车运行过程相关数据进行显示;设置晚点信息以模拟突发事件的发生;并将设置的晚点信息发送至列车运行仿真模块103,并对晚点信息进行显示提醒。所述列车运行过程相关数据,包括列车的位置和速度信息、列车实际到达车站的时间、实际从车站发车的时间和列车晚点时间。
所述列车运行仿真模块103:用于接收第一人-机交互接口模块102发送的参数配置命令,根据铁路基础设施初始化参数对列车运行场景中涉及的资源块进行初始化,即将车站、区间、信号灯和道岔均初始化为空闲状态;依据列车的计划到发时刻表和经停方案创建一个离散事件表,表中每个事件均包含以下信息:处理事件时间、事件对应列车编号、列车所在资源块;根据保证列车安全运行的约束条件,采用离散事件驱动的方式以分钟级仿真精度模拟高速列车信号与控制系统的运行,同时监测和更新铁路基础设施的状态变化数据和列车运行过程相关数据并将这些数据发送给第一人-机交互接口模块102;当判断出列车运行至车站时,将根据股道的占用情况和列车的最小停站时间自动进行进路安排;当判断出列车运行至区间时,在保证区间最小运行时间前提下按照经停方案运行;当接收到第一人-机交互接口模块102发送的晚点信息或者接收到机-机交互接口模块107下达的进站/出站作业调度命令时,相应地将会根据晚点信息或者调度命令更新离散事件表,进而更新铁路基础设施的状态变化数据和列车运行过程相关数据;当每一个事件触发时,计算列车晚点时间,即列车实际到达车站的时间与计划到达车站的时间之差;在列车运行过程中,按照分钟调度精度采集铁路基础设施的状态变化数据和列车运行过程相关数据发送给数据采集模块104。所述列车运行过程相关数据,包括列车的位置和速度信息、列车实际到达车站的时间、实际从车站发车的时间和列车晚点时间。
所述数据采集模块104:主要负责在列车运行仿真模块103和调度方案自动生成模块105之间传输和共享数据,从列车运行仿真模块103中接收并存储铁路基础设施的状态变化数据、列车运行过程相关数据以及作业调度命令,如图2所示。所述列车运行过程相关数据,包括列车的位置和速度信息、列车实际到达车站的时间、实际从车站发车的时间和列车晚点时间。
所述调度方案自动生成模块105:用于监测数据采集模块104中的列车晚点信息;当监测到列车晚点信息时,从数据采集模块104中获取当前时刻下的列车运行位置和路网的区间、股道占用情况的数据,得到Q学习算法所需的状态数据;根据当前的状态数据,通过Q学习算法生成列车的调度命令,并同时下达至第二人-机交互接口模块106和机-机交互接口模块107。
所述第二人-机交互接口模块106:用于显示Q学习算法的求解结果;辅助调度员查看调度方案自动生成模块105所生成的调度命令是否出现列车冲突或者违反保证列车安全运行的约束条件,若是,则调度员在该模块对调度命令进行编辑、修改以消解冲突,得到新的调度命令并下达至机-机交互接口模块107。
所述机-机交互接口模块107:将调度方案自动生成模块105生成的调度命令或者将第二人-机交互接口模块106生成的新的调度命令转换成列车运行仿真模块103可以识别的行车调度命令并传递至列车运行仿真模块103。
通过上述描述的各个模块之间的功能和联系提供本发明系统的基础框架,具备交互能力的、能准确模拟列车运行过程是构建基于Q学习的高速列车运行调整系统的前提和先决条件。
另一方面,本发明提供一种基于Q学习的高速列车运行调整方法,具体实现流程如图3所示包括:
步骤1:获取列车调度场景中的相关数据;
所述相关数据包括:(1)铁路基础设施初始化参数:M个车站,编号为
Figure BDA0003193683660000091
每个车站j对应的股道数量Cj和车站的里程lj;B个区间,编号为
Figure BDA0003193683660000092
道岔、信号灯(2)列车的静态数据:N辆列车编号为
Figure BDA0003193683660000093
高速列车的计划到发时刻表、经停方案、列车的最大运行速度、区间最小运行时间Tj,j′、以及列车的最小停站时间Ai,j、列车到发和发到最小间隔时间hj、相邻列车到站/发车最小间隔时间gj、列车启动附加时间τ、列车停车附加时间τ
本实施例中采用长春西到沈阳北高速场区段的数据,如表1和表2所示,包括:(1)铁路基础设施初始化参数:车站数量M=8,编号为1-8,其名称分别为车站长春西、公主岭南、四平东、昌图西、开原西、铁岭西、六王屯线路所、沈阳北高速场。每个车站j对应的股道数量Cj={5,2,3,2,2,3,-,4}和车站的里程lj={298,235,180,129,101,54,-,0};(2)列车的静态数据:N=6辆,列车编号为1-6,每辆列车i的名称为:G399、D27、D23、G8023、G239、G1233;高速列车的计划到发时刻表如表2所示;区间最小运行时间Tj,j′如表1所示,以及列车的最小停站时间Ai,j=1min、相邻列车到发和发到最小间隔时间hj=3min、相邻列车到站/发车最小间隔时间gj=3min,列车启动附加时间τ=1min、列车停车附加时间τ=1min。
表1沈阳北-长春西列车调度场景中的相关数据
Figure BDA0003193683660000101
表2沈阳北-长春西列车的计划到发时刻表
Figure BDA0003193683660000102
Figure BDA0003193683660000111
步骤2:建立列车运行调整的调度优化目标函数及保证列车安全运行的约束条件;
本发明采用所有列车在所有车站总晚点时间J最小作为目标函数:
Figure BDA0003193683660000112
其中,N表示列车总数;M表示车站总数;Di,j表示列车i实际到达车站j的时刻;DPi,j表示列车i计划到达车站j的时刻;Fi,j表示列车i实际从车站j发车的时刻;FPi,j表示列车i计划从车站j发车的时刻。
为了充分模拟列车实际运行过程中的影响因素和限制条件,建立保证列车安全运行的约束条件包括:
1)车站容量约束:
Figure BDA0003193683660000113
其中,xi,j,t表示列车i对车站j在t时刻是否占用,当xi,j,t=1表示车站j被列车i占用,xi,j,t=0表示车站j未被列车i占用,且在任意时刻t,占用车站j的列车的总数不能超过该车站的最大容量Cj
2)列车最小停站时间约束:
Figure BDA0003193683660000114
Figure BDA0003193683660000115
其中,Di,j表示列车i实际到达车站j的时刻;Fi,j表示列车i实际从车站j发车的时刻,ai,j表示列车i在车站j上实际停站时间;Ai,j表示列车i在车站j的最小停站时间。
3)区间最小运行时间约束:
Figure BDA0003193683660000116
Figure BDA0003193683660000117
其中,Di,j′表示列车i实际到达车站j′的时刻;Fi,j表示列车i实际从车站j发车的时刻;ti,j表示列车i在资源j上实际运行时间;Ti,j表示列车i在资源j上区间最小运行时间。τ表示列车启动附加时间,τ表示列车停车附加时间。
4)发车时间约束:
Figure BDA0003193683660000118
其中,Fi,j表示列车i实际从车站j发车的时刻;FPi,j表示列车i计划从车站j发车的时刻。规定列车实际从车站发车的时刻不能大于列车计划从车站发车的时刻。
5)相邻列车的到站/发车间隔时间约束
Figure BDA0003193683660000121
Figure BDA0003193683660000122
其中,其中Di,j表示列车i实际到达车站j的时刻;Di′,j表示列车i′实际到达车站j的时刻;Fi′,j表示列车i′实际从车站j发车的时刻;Fi,j表示列车i实际从车站j发车的时刻;gj表示列车i和相邻列车i′到站/发车最小间隔时间,即相邻列车到站/发车间隔时间应不小于gj
6)相邻列车的到发和发到间隔时间约束:
Figure BDA0003193683660000123
Figure BDA0003193683660000124
其中,Di,j表示列车i实际到达车站j的时刻;Fi′,j表示列车i′实际从车站j发车的时刻;Fi,j表示列车i实际从车站j发车的时刻;Di′,j表示列车i实际到达车站j的时刻;hj表示列车i和相邻列车i′到发和发到最小间隔时间,即相邻列车的到发和发到间隔时间应不小于hj
步骤3:实时监测晚点事件信息,当监测到晚点信息时,根据当前时刻的铁路基础设施的状态变化和列车运行过程相关数据,利用Q学习算法对晚点列车进行调整得到最优的列车运行调整策略,并更新离散事件表。
步骤3.1:将二维Q(S,A)表初始化为0,并设定最大迭代次数、学习率α、折扣因子γ、ε值、常数C;
步骤3.2:获取初始状态向量S0
当监测到晚点信息时,从数据采集模块104中获取当前时刻下列车运行位置和路网的区间、股道占用情况的数据,得到初始状态向量S0
为了便于描述Q学习算法的基本要素,对铁路基础设施中的车站
Figure BDA0003193683660000125
区间
Figure BDA0003193683660000126
统一称为资源,设共有R=B+M个资源,编号为
Figure BDA0003193683660000127
从理论上可以将调度时间范围[t1,t2]进行离散化处理得到集合
Figure BDA0003193683660000128
根据步骤1中获取到的列车调度场景中的相关数据,定义Q学习算法中的状态向量:
状态向量St:当列车发生晚点时,根据当前时刻下整个当前时刻下列车运行位置和路网的区间、股道占用情况对列车进行调整。值得指出的是列车运行过程受到时间和空间不同维度的影响,针对该特点从时间和空间两个角度定义2×N维向量为状态St
Figure BDA0003193683660000129
其中,t表示列车运行仿真模块103中当前事件触发的时刻;ki,t∈R为列车i在时刻t所在的资源编号即列车的相对位置;k1,t表示列车1在t时刻停留/运行的资源编号;k2,t表示列车2在t时刻停留/运行的资源编号;kn,t表示列车n在t时刻停留/运行的资源编号;
Figure BDA0003193683660000131
表示当前时刻t所有列车占用资源的集合;
Figure BDA0003193683660000132
表示当前时刻t每辆列车前进方向上的下一个资源的集合;
Figure BDA0003193683660000133
表示调度时间范围的集合;c1,t为当前列车1在时刻t所在的资源的临近资源编号;ci,t为当前列车i在时刻t所在的资源的临近资源编号;cn,t为当前列车n在时刻t所在的资源的临近资源编号;
Figure BDA0003193683660000134
代表在时刻t资源c1,t的拥挤程度;
Figure BDA0003193683660000135
代表在时刻t资源ci,t的拥挤程度;
Figure BDA0003193683660000136
代表在时刻t资源cn,t的拥挤程度;其中资源状态rk,t
Figure BDA0003193683660000137
用来表达资源k的拥挤程度,定义为当前时刻t下占用当前资源k的列车数量Tnum与资源容量Ck的比值,从0到100%划分成m个等级,因此对于
Figure BDA0003193683660000138
其中m为用户自定义的定值常量。
步骤3.3:根据当前状态St,利用ε-greedy策略从预先设置的动作集A(St)中选择一个可行的动作。
列车运行调整问题是当列车发生晚点时,需要根据列车运行位置和路网的区间、股道占用情况从预先设置的动作集A(St)中选择适当的动作at,决定当前时刻哪些列车应发车进入下一个资源,哪些列车应继续保持在当前资源上。
为了解决Q学习过程中存在探索和利用问题,本发明根据当前状态St,采用公式(13)所示的ε-greedy策略从预先设置的动作集A(St)中选择可行的动作at∈A(St),具体内容为:首先产生一个随机数rand∈(0,1),如果该随机数小于ε,从可行的动作集中随机选择一个动作,反之选择Q(St,A(St))最大的那个动作,将选择的动作传递至机-机交互接口模块107。
Figure BDA0003193683660000139
其中,π(at|St)为在状态St下选择动作at的概率;ε可以为一个定量也可以为一个随时间变化的函数值。
当得到的动作违反步骤2中所述的保证列车安全运行的约束条件时,调度员可以通过第二人-机交互接口模块106下达调度命令至机-机交互接口模块107中消解列车冲突。
步骤3.4:根据所选择的动作下达列车进站/出站作业调度命令并更新离散事件表;
在本实施方式中,是通过机-机交互接口模块107下达进站/出站作业调度命令给列车运行仿真模块103。
步骤3.5:当离散事件表发生更新时,根据更新事件对铁路基础设施占用状态和列车运行过程相关数据进行更新,且通过奖励函数计算奖励值,并从列车运行仿真模块103获取下一个时刻的铁路基础设施占用状态和列车运行过程相关数据,得到一个新的状态向量St+1。所述列车运行过程相关数据,包括列车的位置和速度信息、列车实际到达车站的时间、实际从车站发车的时间和列车晚点时间。
所述奖励函数是用于判断所选择的动作是否有益于调度优化目标的实现,包括延时奖励函数rT和即时奖励函数rt。用Q学习算法解决列车运行晚点时间最小的问题,列车的总晚点时间越大越偏离计划时刻表,奖励函数越小。因此按照式(14)对延时奖励函数rT进行定义:
Figure BDA0003193683660000141
其中,N表示列车总数;M表示车站总数;C为一个常量;Di,j表示列车i实际到达车站j的时刻;DPi,j表示列车i计划到达车站j的时刻;Fi,j表示列车i实际从车站j发车的时刻;FPi,j表示列车i计划从车站j发车的时刻。当列车的总晚点时间J越大,列车运行仿真模块103反馈的延时奖励函数rT值越小,反之越大。除了延时奖励函数rT,在Q学习过程中每次状态发生转移时设计了即时奖励函数:
Figure BDA0003193683660000142
其中,D为用户自定义的常量。为了避免出现大范围的停车以及发生超出调度时间域范围内还有列车没有到达终点站的现象,增加求解的复杂度和降低求解效率现象,设置即时奖励值rt=-1,在其他情况下即时奖励值rt=0。
步骤3.6:根据步骤3.5得到的奖励值r,通过公式(16)更新状态-动作对的Q值。
Figure BDA0003193683660000143
其中,St为当前时刻t下的列车运行位置和路网的区间、股道占用情况;St+1为t+1时刻下的列车运行位置和路网的区间、股道占用情况;at表示调度方案自动生成模块105根据当前状态St选择的动作;Q(St,at)表示在当前时刻t的状态St采取动作at的效用函数,用来评价所选动作的优劣;α表示步长因子,又被称为学习率,取值范围为α∈[0,1];γ∈[0,1]表示折扣因子,γ→0说明Q学习智能主体最大化当前的奖励值,γ→1说明Q学习智能主体对未来的奖励值更加注重;r为在当前状态下采取一个动作得到的奖励值。
步骤3.7:令St=St+1,判断是否满足所有的列车都到达终点站,如果不满足则转至步骤3.3,如果满足则判断Q值是否收敛或者是否达到最大迭代次数,如果满足则终止学习,反之则转至步骤3.2直到Q值收敛或达到最大迭代次数,得到最优的列车调整策略。
步骤4:根据最优的列车调整策略得到调整后的列车实际运行图。
本实施例中针对长春西到沈阳北高速场调度区段设置晚点信息模拟列车实际运行过程中突发事件的发生,具体信息为列车G399受大风天气影响到达车站长春西时晚点26分钟。图4为调整前的列车计划运行图。图5中带星的实线为通过本发明系统与方法调整后的G399列车实际运行图,虚线表示G399列车计划运行图。其他的列车计划运行图与实际运行图重合表示恢复运行。由此可见,本发明方法与系统可根据当前路网资源的占用状态和列车的位置信息,实时的调整列车尽快恢复列车的晚点时间,能够支持机-机交互,可学习到最优的调度策略,具有较强的灵活性,降低了操作人员的劳动强度。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述实施所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明权利要求所限定的范围。

Claims (5)

1.一种基于Q学习的高速列车运行调整方法,其特征在于,包括以下步骤:
步骤1:获取列车调度场景中的相关数据;
所述相关数据包括:(1)铁路基础设施初始化参数:编号为
Figure FDA0003193683650000011
的M个车站,每个车站j对应的股道数量Cj和车站的里程lj;编号为
Figure FDA0003193683650000012
的B个区间;道岔;信号灯;(2)列车的静态数据:编号为
Figure FDA0003193683650000013
的N辆列车,高速列车的计划到发时刻表、经停方案、列车的最大运行速度、区间最小运行时间Tj,j′、以及列车的最小停站时间Ai,j、列车到发和发到最小间隔时间hj、相邻列车到站/发车最小间隔时间gj、列车启动附加时间τ、列车停车附加时间τ
步骤2:建立列车运行调整的调度优化目标函数及保证列车安全运行的约束条件;
步骤3:实时监测晚点事件信息,当监测到晚点信息时,根据当前时刻的铁路基础设施的状态变化和列车运行过程相关数据,利用Q学习算法对晚点列车进行调整得到最优的列车运行调整策略,并更新离散事件表;
所述列车运行过程相关数据,包括列车的位置和速度信息、列车实际到达车站的时间、实际从车站发车的时间和列车晚点时间;
步骤4:根据最优的列车调整策略得到调整后的列车实际运行图。
2.根据权利要求1所述的基于Q学习的高速列车运行调整方法,其特征在于,所述列车运行调整的调度优化目标函数为采用所有列车在所有车站总晚点时间J最小作为目标函数:
Figure FDA0003193683650000014
其中,Di,j表示列车i实际到达车站j的时刻;DPi,j表示列车i计划到达车站j的时刻;Fi,j表示列车i实际从车站j发车的时刻;FPi,j表示列车i计划从车站j发车的时刻,规定列车实际从车站发车的时刻不能大于列车计划从车站发车的时刻。
3.根据权利要求1所述的基于Q学习的高速列车运行调整方法,其特征在于,所述保证列车安全运行的约束条件包括:
1)车站容量约束:
Figure FDA0003193683650000015
其中,xi,j,t表示列车i对车站j在t时刻是否占用,当xi,j,t=1表示车站j被列车i占用,xi,j,t=0表示车站j未被列车i占用,且在任意时刻t,占用车站j的列车的总数不能超过该车站的最大容量Cj
2)列车最小停站时间约束:
Figure FDA0003193683650000016
Figure FDA0003193683650000021
其中,Fi,j表示列车i实际从车站j发车的时刻;Di,j表示列车i实际到达车站j的时刻;ai,j表示列车i在车站j上实际停站时间;Ai,j表示列车i在车站j的最小停站时间;
3)区间最小运行时间约束:
Figure FDA0003193683650000022
Figure FDA0003193683650000023
其中,Di,j′表示列车i实际到达车站j′的时刻;ti,j表示列车i在资源j上实际运行时间;Ti,j表示列车i在资源j上区间最小运行时间;
4)发车时间约束:
Figure FDA0003193683650000024
5)相邻列车到站或者发车间隔时间约束
Figure FDA0003193683650000025
Figure FDA0003193683650000026
其中,Di′j表示列车i′实际到达车站j的时刻;Fi′,j表示列车i′实际从车站j发车的时刻;gj表示列车i和相邻列车i′到站或者发车最小间隔时间,即相邻列车的到站或者发车时间间隔应不小于gj
6)相邻列车的到发和发到间隔时间约束:
Figure FDA0003193683650000027
Figure FDA0003193683650000028
其中,Di′,j表示列车i′实际到达车站j的时刻;hj表示列车i和相邻列车i′到发和发到最小间隔时间,即相邻列车的到发和发到时间间隔应不小于hj
4.根据权利要求1所述的基于Q学习的高速列车运行调整方法,其特征在于,所述步骤3包括如下步骤:
步骤3.1:将二维Q(S,A)表初始化为0,并设定最大迭代次数、学习率α、折扣因子γ、ε值、常数C;
步骤3.2:获取初始状态向量S0
当监测到晚点信息时,获取当前时刻下列车运行位置和路网的区间、股道占用情况的数据,得到初始状态向量S0
为了便于描述Q学习算法的基本要素,对铁路基础设施中的车站
Figure FDA0003193683650000029
区间
Figure FDA00031936836500000210
统一称为资源,设共有R=B+M个资源,编号为
Figure FDA0003193683650000031
从理论上可以将调度时间范围[t1,t2]进行离散化处理得到集合
Figure FDA0003193683650000032
根据步骤1中获取到的列车调度场景中的相关数据,定义Q学习算法中的状态向量St如式(12)所示:
Figure FDA0003193683650000033
其中,t表示当前事件触发的时刻;ki,t∈R为列车i在时刻t所在的资源编号即列车的相对位置;k1,t表示列车1在t时刻停留/运行的资源编号;k2,t表示列车2在t时刻停留/运行的资源编号;kn,t表示列车n在t时刻停留/运行的资源编号;
Figure FDA0003193683650000034
表示当前时刻t所有列车占用资源的集合;
Figure FDA0003193683650000035
表示当前时刻t每辆列车前进方向上的下一个资源的集合;
Figure FDA0003193683650000036
表示调度时间范围的集合;c1,t为当前列车1在时刻t所在的资源的临近资源编号;ci,t为当前列车i在时刻t所在的资源的临近资源编号;cn,t为当前列车n在时刻t所在的资源的临近资源编号;
Figure FDA0003193683650000037
代表在时刻t资源c1,t的拥挤程度;
Figure FDA0003193683650000038
代表在时刻t资源ci,t的拥挤程度;
Figure FDA0003193683650000039
代表在时刻t资源cn,t的拥挤程度;其中资源状态rk,t
Figure FDA00031936836500000310
用来表达资源k的拥挤程度,定义为当前时刻t下占用当前资源k的列车数量Tnum与资源容量Ck的比值,从0到100%划分成m个等级,因此对于
Figure FDA00031936836500000311
其中m为用户自定义的定值常量;
步骤3.3:根据当前状态St,利用ε-greedy策略从预先设置的动作集A(St)中选择一个可行的动作;
根据当前状态St,采用公式(13)所示的ε-greedy策略从预先设置的动作集A(St)中选择可行的动作at∈A(St),具体内容为:首先产生一个随机数rand∈(0,1),如果该随机数小于ε,从可行的动作集中随机选择一个动作,反之选择Q(St,A(St))最大的那个动作;
Figure FDA00031936836500000312
其中,π(at|St)为在状态St下选择动作at的概率;ε可以为一个定量也可以为一个随时间变化的函数值;
步骤3.4:根据所选择的动作下达列车进站/出站作业调度命令并更新离散事件表;
步骤3.5:当离散事件表发生更新时,根据更新事件对铁路基础设施占用状态和列车运行过程相关数据进行更新,且通过奖励函数计算奖励值,并获取下一个时刻的铁路基础设施占用状态和列车运行过程相关数据,得到一个新的状态向量St+1
所述奖励函数是用于判断所选择的动作是否有益于调度优化目标的实现,包括延时奖励函数rT和即时奖励函数rt,列车的总晚点时间越大越偏离计划时刻表,奖励函数越小;所述延时奖励函数rT按照式(14)进行定义:
Figure FDA0003193683650000041
其中,C为一个常量;Di,j表示列车i实际到达车站j的时刻;DPi,j表示列车i计划到达车站j的时刻;Fi,j表示列车i实际从车站j发车的时刻;FPi,j表示列车i计划从车站j发车的时刻;
所述即时奖励函数rt按照式(15)进行定义:
Figure FDA0003193683650000042
其中,D为用户自定义的常量;
步骤3.6:根据步骤3.5得到的奖励值r,通过公式(16)更新状态-动作对的Q值;
Figure FDA0003193683650000043
其中,St为当前时刻t下的列车运行位置和路网的区间、股道占用情况;St+1为t+1时刻下的列车运行位置和路网的区间、股道占用情况;at表示根据当前状态St选择的动作;Q(St,at)表示在当前时刻t的状态St采取动作at的效用函数,用来评价所选动作的优劣;α表示步长因子,又被称为学习率,取值范围为α∈[0,1];γ∈[0,1]表示折扣因子,γ→0说明Q学习智能主体最大化当前的奖励值,γ→1说明Q学习智能主体对未来的奖励值更加注重;r为在当前状态下采取一个动作得到的奖励值;
步骤3.7:令St=St+1,判断是否满足所有的列车都到达终点站,如果不满足则转至步骤3.3,如果满足则判断Q值是否收敛或者是否达到最大迭代次数,如果满足则终止学习,反之则转至步骤3.2直到Q值收敛或者达到最大迭代次数,得到最优的列车调整策略。
5.一种基于Q学习的高速列车运行调整系统,其特征在于,包括:
参数配置模块:用于配置高速列车运行场景中铁路基础设施初始化参数、高速列车车次号、列车的计划到发时刻表、列车的最大运行速度、经停方案和保证列车安全运行的约束条件参数;并将所配置的参数均发送至人-机交互接口模块;所述列车运行场景中铁路基础设施初始化参数包括车站、股道数量、车站的里程、区间、道岔和信号灯;所述保证列车安全运行的约束条件参数包括车站容量、列车启动附加时间、列车停车附加时间、相邻列车到站/发车最小间隔时间、所有列车在各个区间的最小运行时间,每辆列车的最小停站时间以及列车到发和发到最小间隔时间;
第一人-机交互接口模块:用于接收参数配置模块发送的数据并转发给列车运行仿真模块,且向列车运行仿真模块下达参数配置命令;根据铁路基础设施初始化参数以图形方式显示初始的路网布局图;以图形方式对列车运行过程中铁路基础设施的状态变化数据和列车运行过程相关数据进行显示;设置晚点信息以模拟突发事件的发生;并将设置的晚点信息发送至列车运行仿真模块,并对晚点信息进行显示提醒;
列车运行仿真模块:用于接收第一人-机交互接口模块发送的参数配置命令,根据铁路基础设施初始化参数对列车运行场景中涉及的车站、区间、信号灯和道岔均初始化为空闲状态;依据列车的计划到发时刻表和经停方案创建一个离散事件表,表中每个事件均包含以下信息:处理事件时间、事件对应列车编号、列车所在资源块;根据保证列车安全运行的约束条件,采用离散事件驱动的方式以分钟级仿真精度模拟高速列车信号与控制系统的运行,同时监测和更新铁路基础设施的状态变化数据和列车运行过程相关数据并将这些数据发送给第一人-机交互接口模块;当判断出列车运行至车站时,将根据股道的占用情况和列车的最小停站时间自动进行进路安排;当判断出列车运行至区间时,在保证区间最小运行时间前提下按照经停方案运行;当接收到第一人-机交互接口模块发送的晚点信息或者接收到机-机交互接口模块下达的进站/出站作业调度命令时,相应地将会根据晚点信息或者调度命令更新离散事件表,进而更新铁路基础设施的状态变化数据和列车运行过程相关数据;当每一个事件触发时,计算列车晚点时间,即列车实际到达车站的时间与计划到达车站的时间之差;在列车运行过程中,按照分钟调度精度采集铁路基础设施的状态变化数据和列车运行过程相关数据发送给数据采集模块;
数据采集模块:用于在列车运行仿真模块和调度方案自动生成模块之间传输和共享数据,从列车运行仿真模块中接收并存储铁路基础设施的状态变化数据、列车运行过程相关数据以及作业调度命令;
调度方案自动生成模块:用于监测数据采集模块中的列车晚点信息;当监测到列车晚点信息时,从数据采集模块中获取当前时刻下的列车运行位置和路网的区间、股道占用情况的数据,得到Q学习算法所需的状态数据;根据当前的状态数据,通过Q学习算法生成列车的调度命令,并同时下达至第二人-机交互接口模块和机-机交互接口模块;
第二人-机交互接口模块:用于显示Q学习算法的求解结果;辅助调度员查看调度方案自动生成模块所生成的调度命令是否出现列车冲突或者违反保证列车安全运行的约束条件,若是,则调度员在该模块对调度命令进行编辑、修改以消解冲突,得到新的调度命令并下达至机-机交互接口模块;
机-机交互接口模块:将调度方案自动生成模块生成的调度命令或者将第二人-机交互接口模块生成的新的调度命令转换成列车运行仿真模块可以识别的行车调度命令并传递至列车运行仿真模块。
CN202110884976.XA 2021-08-03 2021-08-03 一种基于q学习的高速列车运行调整方法与系统 Expired - Fee Related CN113415322B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110884976.XA CN113415322B (zh) 2021-08-03 2021-08-03 一种基于q学习的高速列车运行调整方法与系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110884976.XA CN113415322B (zh) 2021-08-03 2021-08-03 一种基于q学习的高速列车运行调整方法与系统

Publications (2)

Publication Number Publication Date
CN113415322A true CN113415322A (zh) 2021-09-21
CN113415322B CN113415322B (zh) 2022-08-30

Family

ID=77719665

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110884976.XA Expired - Fee Related CN113415322B (zh) 2021-08-03 2021-08-03 一种基于q学习的高速列车运行调整方法与系统

Country Status (1)

Country Link
CN (1) CN113415322B (zh)

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114030508A (zh) * 2021-11-05 2022-02-11 上海简苏网络科技有限公司 基于智能合约的列车调控方法、电子设备及可读存储介质
CN114044031A (zh) * 2021-12-21 2022-02-15 卡斯柯信号有限公司 列车运行图的自动调整方法、存储介质和电子设备
CN114312926A (zh) * 2021-12-03 2022-04-12 北京交通大学 一种城市轨道交通列车运行调整方案优化方法和系统
CN114368421A (zh) * 2022-01-11 2022-04-19 北京交通大学 一种列车运行的模拟方法及辅助运行图优化方法
CN114368417A (zh) * 2022-01-18 2022-04-19 连云港职业技术学院 一种基于机器学习的列车进路智能安排方法及系统
CN115049162A (zh) * 2022-08-15 2022-09-13 中国铁道科学研究院集团有限公司通信信号研究所 基于混合编码的列车晚点下高铁车站到发线运用调整方法
CN115230777A (zh) * 2022-06-21 2022-10-25 中国科学院自动化研究所 调度策略调整方法、装置、电子设备及存储介质
CN115871755A (zh) * 2022-08-04 2023-03-31 交控科技股份有限公司 一种基于运行图的列车运行仿真方法及系统
CN116985875A (zh) * 2023-05-30 2023-11-03 宁波市轨道交通集团有限公司智慧运营分公司 用于提升交通效率的城市轨道交通的信号指引系统
CN117875674A (zh) * 2024-03-11 2024-04-12 西北大学 一种基于Q-learning的公交调度方法

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006228154A (ja) * 2005-02-21 2006-08-31 Navitime Japan Co Ltd 情報配信システム、情報配信サーバ、通信端末及びそのプログラム
CN101125554A (zh) * 2007-06-22 2008-02-20 南京恩瑞特实业有限公司 时空二维列车跟踪方法
CN104192177A (zh) * 2014-08-07 2014-12-10 国电南瑞科技股份有限公司 一种基于离散事件模型的城市轨道交通列车运行的自动调整方法
CN106802553A (zh) * 2017-01-13 2017-06-06 清华大学 一种基于强化学习的铁路机车运行操控系统混合任务调度方法
CN109740839A (zh) * 2018-11-23 2019-05-10 北京交通大学 一种突发事件下的列车动态调整方法及系统
CN110341763A (zh) * 2019-07-19 2019-10-18 东北大学 一种快速恢复高铁列车准点运行的智能调度系统及方法
CN112232552A (zh) * 2020-09-27 2021-01-15 中国铁道科学研究院集团有限公司通信信号研究所 面向突发事件不确定性的列车运行计划调整风险控制方法
CN112776858A (zh) * 2021-03-17 2021-05-11 湖南中车时代通信信号有限公司 一种基于运行图的非货运铁路自动控车方法、装置、设备
CN113128774A (zh) * 2021-04-26 2021-07-16 北京交通大学 一种固定列车运行线顺序下的列车运行调整优化方法

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006228154A (ja) * 2005-02-21 2006-08-31 Navitime Japan Co Ltd 情報配信システム、情報配信サーバ、通信端末及びそのプログラム
CN101125554A (zh) * 2007-06-22 2008-02-20 南京恩瑞特实业有限公司 时空二维列车跟踪方法
CN104192177A (zh) * 2014-08-07 2014-12-10 国电南瑞科技股份有限公司 一种基于离散事件模型的城市轨道交通列车运行的自动调整方法
CN106802553A (zh) * 2017-01-13 2017-06-06 清华大学 一种基于强化学习的铁路机车运行操控系统混合任务调度方法
CN109740839A (zh) * 2018-11-23 2019-05-10 北京交通大学 一种突发事件下的列车动态调整方法及系统
CN110341763A (zh) * 2019-07-19 2019-10-18 东北大学 一种快速恢复高铁列车准点运行的智能调度系统及方法
CN112232552A (zh) * 2020-09-27 2021-01-15 中国铁道科学研究院集团有限公司通信信号研究所 面向突发事件不确定性的列车运行计划调整风险控制方法
CN112776858A (zh) * 2021-03-17 2021-05-11 湖南中车时代通信信号有限公司 一种基于运行图的非货运铁路自动控车方法、装置、设备
CN113128774A (zh) * 2021-04-26 2021-07-16 北京交通大学 一种固定列车运行线顺序下的列车运行调整优化方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
张淼 等: "基于 Q 学习算法的高速铁路列车节能优化研究", 《环保与能耗铁道运输与经济》 *
韩忻辰 等: "基于Q-learning的高速铁路列车动态调度方法", 《控制理论与应用》 *

Cited By (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114030508A (zh) * 2021-11-05 2022-02-11 上海简苏网络科技有限公司 基于智能合约的列车调控方法、电子设备及可读存储介质
CN114312926A (zh) * 2021-12-03 2022-04-12 北京交通大学 一种城市轨道交通列车运行调整方案优化方法和系统
CN114312926B (zh) * 2021-12-03 2022-12-16 北京交通大学 一种城市轨道交通列车运行调整方案优化方法和系统
CN114044031A (zh) * 2021-12-21 2022-02-15 卡斯柯信号有限公司 列车运行图的自动调整方法、存储介质和电子设备
CN114044031B (zh) * 2021-12-21 2024-01-30 卡斯柯信号有限公司 列车运行图的自动调整方法、存储介质和电子设备
CN114368421B (zh) * 2022-01-11 2022-10-21 北京交通大学 一种列车运行的模拟方法及辅助运行图优化方法
CN114368421A (zh) * 2022-01-11 2022-04-19 北京交通大学 一种列车运行的模拟方法及辅助运行图优化方法
CN114368417A (zh) * 2022-01-18 2022-04-19 连云港职业技术学院 一种基于机器学习的列车进路智能安排方法及系统
CN115230777A (zh) * 2022-06-21 2022-10-25 中国科学院自动化研究所 调度策略调整方法、装置、电子设备及存储介质
CN115230777B (zh) * 2022-06-21 2024-01-16 中国科学院自动化研究所 调度策略调整方法、装置、电子设备及存储介质
CN115871755A (zh) * 2022-08-04 2023-03-31 交控科技股份有限公司 一种基于运行图的列车运行仿真方法及系统
CN115049162A (zh) * 2022-08-15 2022-09-13 中国铁道科学研究院集团有限公司通信信号研究所 基于混合编码的列车晚点下高铁车站到发线运用调整方法
CN116985875A (zh) * 2023-05-30 2023-11-03 宁波市轨道交通集团有限公司智慧运营分公司 用于提升交通效率的城市轨道交通的信号指引系统
CN116985875B (zh) * 2023-05-30 2024-03-26 宁波市轨道交通集团有限公司智慧运营分公司 用于提升交通效率的城市轨道交通的信号指引系统
CN117875674A (zh) * 2024-03-11 2024-04-12 西北大学 一种基于Q-learning的公交调度方法

Also Published As

Publication number Publication date
CN113415322B (zh) 2022-08-30

Similar Documents

Publication Publication Date Title
CN113415322B (zh) 一种基于q学习的高速列车运行调整方法与系统
CN110341763B (zh) 一种快速恢复高铁列车准点运行的智能调度方法
Yin et al. Research and development of automatic train operation for railway transportation systems: A survey
CN108528477B (zh) 一种地铁车辆段/停车场综合自动化系统
CN111353705B (zh) 一种城市轨道交通多场段进路管理系统及综合管控系统
CN106741019B (zh) 一种用于自动编制地铁车辆段列车发车计划的系统及方法
Guo et al. Timetable coordination of first trains in urban railway network: a case study of Beijing
Lüthi Improving the efficiency of heavily used railway networks through integrated real-time rescheduling
CN111232024A (zh) 高速铁路智能行车调度系统及方法
RU2500563C1 (ru) Система для оперативного управления поездной работой направления железнодорожной сети
JP2023552233A (ja) 列車が本線運行から退出する条件における地下鉄の走行調整方法及びシステム
CN114202101A (zh) 一种网络化列车运行图智能编制及评估优化系统
Dai et al. Dynamic scheduling, operation control and their integration in high-speed railways: A review of recent research
CN111137328B (zh) 一种有轨电车行车调度管理系统
CN114312926A (zh) 一种城市轨道交通列车运行调整方案优化方法和系统
Ghasempour et al. Distributed approximate dynamic control for traffic management of busy railway networks
CN111645733A (zh) 一种列车股道的自动调整方法
WO2018007345A1 (de) Verfahren und einrichtung zur überwachung einer energieversorgungseinrichtung einer verkehrstechnischen anlage
Ding et al. Key technologies and applications of intelligent dispatching command for high-speed railway in China
Luethi et al. Increasing railway capacity and reliability through integrated real-time rescheduling
CN102955985A (zh) 一种调度日班计划协同编制平台系统及编制方法
CN116443080B (zh) 一种轨道交通行车调度指挥方法、系统、设备及介质
US11926356B1 (en) Method and device for multi-train operation trend deduction
Liebhold et al. Onboard train speed optimization for energy saving using the prediction of block clearing times under real-time rescheduling
JP2017132361A (ja) ダイヤ作成システム及び方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20220830

CF01 Termination of patent right due to non-payment of annual fee