CN113537603B - 一种高速列车智能调度控制方法和系统 - Google Patents
一种高速列车智能调度控制方法和系统 Download PDFInfo
- Publication number
- CN113537603B CN113537603B CN202110825368.1A CN202110825368A CN113537603B CN 113537603 B CN113537603 B CN 113537603B CN 202110825368 A CN202110825368 A CN 202110825368A CN 113537603 B CN113537603 B CN 113537603B
- Authority
- CN
- China
- Prior art keywords
- layer
- train
- output
- value
- action
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 47
- 230000009471 action Effects 0.000 claims abstract description 151
- 238000012549 training Methods 0.000 claims abstract description 23
- 210000002569 neuron Anatomy 0.000 claims description 45
- 230000033001 locomotion Effects 0.000 claims description 26
- 230000008901 benefit Effects 0.000 claims description 17
- 238000004364 calculation method Methods 0.000 claims description 13
- 238000007726 management method Methods 0.000 claims description 13
- 239000013598 vector Substances 0.000 claims description 13
- 238000011156 evaluation Methods 0.000 claims description 11
- 230000009466 transformation Effects 0.000 claims description 8
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 claims description 5
- 230000000644 propagated effect Effects 0.000 claims description 4
- 238000004705 quadratic configuration interaction calculation Methods 0.000 claims description 4
- 238000013500 data storage Methods 0.000 claims description 2
- 230000006870 function Effects 0.000 description 15
- 238000013528 artificial neural network Methods 0.000 description 11
- 238000010586 diagram Methods 0.000 description 7
- 230000008569 process Effects 0.000 description 7
- 238000002474 experimental method Methods 0.000 description 4
- 238000006243 chemical reaction Methods 0.000 description 3
- 230000002787 reinforcement Effects 0.000 description 3
- 238000012360 testing method Methods 0.000 description 3
- 238000004422 calculation algorithm Methods 0.000 description 2
- 230000001934 delay Effects 0.000 description 2
- 230000003111 delayed effect Effects 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000005457 optimization Methods 0.000 description 2
- 230000002035 prolonged effect Effects 0.000 description 2
- 230000004913 activation Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 238000004904 shortening Methods 0.000 description 1
- 238000004088 simulation Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
- 238000012418 validation experiment Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/04—Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/06—Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
- G06Q10/063—Operations research, analysis or management
- G06Q10/0631—Resource planning, allocation, distributing or scheduling for enterprises or organisations
- G06Q10/06312—Adjustment or analysis of established resource schedule, e.g. resource or task levelling, or dynamic rescheduling
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/40—Business processes related to the transportation industry
Landscapes
- Engineering & Computer Science (AREA)
- Business, Economics & Management (AREA)
- Human Resources & Organizations (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Strategic Management (AREA)
- Economics (AREA)
- General Physics & Mathematics (AREA)
- General Business, Economics & Management (AREA)
- Tourism & Hospitality (AREA)
- Marketing (AREA)
- Entrepreneurship & Innovation (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Software Systems (AREA)
- Computational Linguistics (AREA)
- General Engineering & Computer Science (AREA)
- Computing Systems (AREA)
- Molecular Biology (AREA)
- Evolutionary Computation (AREA)
- Development Economics (AREA)
- Data Mining & Analysis (AREA)
- Life Sciences & Earth Sciences (AREA)
- Mathematical Physics (AREA)
- Game Theory and Decision Science (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Operations Research (AREA)
- Quality & Reliability (AREA)
- Artificial Intelligence (AREA)
- Educational Administration (AREA)
- Primary Health Care (AREA)
- Train Traffic Observation, Control, And Security (AREA)
Abstract
本发明涉及一种高速列车智能调度控制方法和系统,属于高速列车调度领域,方法包括:获取并存储列车的历史运行数据;根据所述历史运行数据建立Q‑Evaluate Net结构模型;根据所述历史运行数据建立Q‑Target Net结构模型;对由所述Q‑Evaluate Net结构模型和所述Q‑Target Net结构模型形成的DDDQN模型进行训练,得到优化后的DDDQN模型;将列车的当前状态信息输入至所述优化后的DDDQN模型,得到列车在当前状态下的最优执行动作,根据所述最优执行动作对列车进行调度调整,从而避免了发生列车冲突和死锁的情况,有效缩短列车的延误时间,提升了乘客的出行感受。
Description
技术领域
本发明涉及高速列车调度领域,特别是涉及一种基于神经网络强化学习的高速列车智能调度控制方法和系统。
背景技术
近年来,我国高速铁路系统迅猛发展,运营里程、客货运量节节攀升。随着我国高速铁路网建设速度的逐步加快,对高铁运量的需求也在迅速提高,使得线路上列车的运行更加密集。而列车的运行难免会因为恶劣天气、机械故障等意外事件造成延误,导致原有的列车进路计划、到发时间、对区段占用的时间发生变化。在这种条件下,一列车出现延误往往会造成多趟列车的晚点,尤其在站内等线路布置复杂的区段,还有可能造成列车冲突或死锁的情况。
现有的高铁调度指挥系统中,列车运行管理调度子系统负责监控列车运行,并在出现列车晚点时,编制列车运行调整计划,下达调整命令。但目前无法实现系统自动编制调整计划,仍需人工进行调度调整,采用的方法一般是平移时刻表,将延误列车及其后续列车顺延排序。当列车出现大面积的晚点时,人工的调度方法基本无法及时做出有效的调度调整,还会导致更大面积的列车晚点,同时还会存在列车冲突和死锁的问题,极大延长了列车的延误时间,给人们出行带来不便。
基于此,目前亟需一种更加智能化的高速列车调度控制方法和系统,以解决现有人工调度方法容易造成列车冲突和死锁,并扩大列车延误范围,延长列车的延误时间的问题。
发明内容
本发明的目的是提供一种高速列车智能调度控制方法和系统,可智能化地输出列车的最优调度调整策略,当发生列车延误的情况时,根据该最优调度调整策略对列车进行调度控制,可缩短列车的延误时间,有效解决现有人工调度方法容易造成列车冲突和死锁,并扩大列车延误范围,延长列车的延误时间的问题,提升乘客的出行感受。
为实现上述目的,本发明提供了如下方案:
一种高速列车智能调度控制方法,包括:
获取并存储列车的历史运行数据;
根据所述历史运行数据建立Q-Evaluate Net结构模型;
根据所述历史运行数据建立Q-TargetNet结构模型;
对由所述Q-Evaluate Net结构模型和所述Q-Target Net结构模型形成的DDDQN模型进行训练,得到优化后的DDDQN模型;
将列车的当前状态信息输入至所述优化后的DDDQN模型,得到列车在当前状态下的最优执行动作,根据所述最优执行动作对列车进行调度调整。
一种高速列车智能调度控制系统,包括:
历史运行数据获取和存储模块,用于获取并存储列车的历史运行数据;
Q-Evaluate Net结构模型建立模块,用于根据所述历史运行数据建立Q-EvaluateNet结构模型;
Q-TargetNet结构模型建立模块,用于根据所述历史运行数据建立Q-Target Net结构模型;
DDDQN模型训练模块,用于对由所述Q-Evaluate Net结构模型和所述Q-TargetNet结构模型形成的DDDQN模型进行训练,得到优化后的DDDQN模型;
最优调度策略输出模块,用于将列车的当前状态信息输入至所述优化后的DDDQN模型,得到列车在当前状态下的最优执行动作,根据所述最优执行动作对列车进行调度调整。
根据本发明提供的具体实施例,本发明公开了以下技术效果:
本发明提出了一种高速列车智能调度控制方法,首先获取并存储列车的历史运行数据;然后根据历史运行数据分别建立Q-Evaluate Net结构模型和Q-TargetNet结构模型并形成DDDQN模型;再对DDDQN模型进行训练,得到优化后的DDDQN模型;最终将列车的当前状态信息输入至所述优化后的DDDQN模型,智能化地自动输出各辆列车的最优调度调整策略。当列车出现延误时,根据最优调度调整策略动态调整列车运行图,代替传统人工完全凭经验调度的方式,可调整各列车在站内的运行路径、通行顺序和停站时间等,从而避免了发生列车冲突和死锁的情况,有效缩短列车的延误时间,进而提升了乘客的出行感受,解决了传统人工调度方式容易出现更大面积列车延误、延长延误时间的问题。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例1提供的密集列车延误时的运行情况的示意图;
图2为本发明实施例1提供的高速列车智能调度控制方法的流程图;
图3为本发明实施例1提供的高速列车运行管理调度子系统中调度调整的示意图;
图4为本发明实施例1提供的DDDQN模型的训练过程的流程图;
图5为本发明实施例1提供的DDDQN模型的高速列车智能调度控制方法的原理图;
图6为本发明实施例1提供的DDDQN模型的结构示意图;
图7为本发明实施例1提供的神经网络强化学习方法和传统人工调度方法的列车运行时间对比图;
图8为本发明实施例1提供的高速列车智能调度控制系统的结构框图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明的目的是提出一种高速列车智能调度控制方法和系统,通过分别建立的Q-Evaluate Net结构模型和Q-TargetNet结构模型并形成DDDQN模型,采用深度强化学习的方法对DDDQN模型进行训练优化,将列车的当前状态信息输入至优化后的对DDDQN模型中,即可智能化地输出每辆列车的最优调度调整策略。根据该最优调度调整策略对各辆列车进行调度控制,从而避免发生列车冲突和死锁的情况,有效缩短列车的延误时间,提升乘客的出行感受。
为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本发明作进一步详细的说明。
实施例1
图1描述了一种出现延误时列车较为密集的站内运行场景。此时,列车k1只能选择驶入左前方的区段ii,而k2必须等待k1驶离区段i后才能继续前进。另外,虽然此时区段iii空闲,但k5必须等待k6先通过区段iii之后再驶入,否则会造成死锁。可以看出,当出现列车延误导致站内列车运行密集时,列车调度的复杂性有明显提升。在出现如图1所示的情况时,调度调整不能仅考虑相邻区段的占用情况而直接调度列车,还需要考虑周围多个区段上多列车之间运行路径的相互影响。如果这一过程仅通过人工凭经验进行调度控制,很难保证效率,也不易直接找出最优的调度方案,从而更容易出现列车冲突和死锁的情况,还可能会造成更大面积的列车的集体延误。
基于此,本实施例提出了一种高速列车智能调度控制方法,利用列车运行管理调度子系统存储的列车实绩运行数据训练调度算法模型即DDDQN模型,实现在列车出现晚点的情况下,自动调整列车的运行路径及停站时间,并生成列车运行调整计划,以达到减小列车延误时间并避免列车潜在冲突的目标。如图2所示,该方法具体包括以下步骤:
步骤S1、获取并存储列车的历史运行数据。具体包括:
步骤S1.1、利用列车运行管理调度子系统获取列车的实绩运行信息。
列车运行管理调度子系统实时监控列车运行,并获取从轨道信号系统传输的列车的实绩运行数据,实绩运行数据包括列车当前所在的车站或区间、轨道电路状态、道岔位置以及列车计划运行时刻等多种信息。
步骤S1.2、将所述实绩运行信息分类处理为四部分,即(Sk,Ai,R,Sk′),并进行存储,得到所述历史运行数据。
其中,(Sk,Ai,R,Sk′)表示列车k在当前状态Sk执行调度员下达的调度动作Ai后进入下一个状态Sk′并得到一个回报值R,Sk表示列车的当前状态,Ai表示动作空间,Sk′表示列车的下一个状态,R表示根据回报函数规则反馈的回报值。
如图3所示,列车运行管理调度子系统在实时接收到从轨道信号系统传输的每辆列车的实绩运行数据后,将实绩运行信息分类处理为(Sk,Ai,R,Sk′)四部分,作为列车的历史运行数据,用于模型训练。例如,列车当前所在股道的占用信息以及相邻股道的占用信息,通过轨道电路传递给列车运行管理调度子系统,用以描述列车当前状态Sk,调度员下达的指令作为动作Ai,列车执行指令继续运行并进入下一状态Sk′。之后,根据制定的回报函数规则反馈一个回报值R。本发明中将(Sk,Ai,R,Sk′)视为一条列车历史运行数据并存储于数据库中,用于DDDQN模型的训练过程,再经过本发明构成的智能调度调整模块后自动生成列车运行调度计划,铁道部调度中心、调度所或管辖范围车站根据生成的列车运行调度计划下达调度指令,调度员根据指令对各个列车进行调度,可以最快的速度解决列车的交汇拥堵问题,缩短列车的延误时间,使各个线路上的列车在自己线路上有序行驶,防止列车冲突或死锁情况的发生。
对于列车的当前状态Sk而言,列车的当前状态Sk分为三个部分,共包括11个信息:列车当前可选择的路径Ska,列车前方区段的占用情况Sks和列车与终点站的距离Skd。以上信息可以通过列车运行管理调度子系统根据实际情况实时获取,其中,Ska和Sks可直接用布尔值{0,1}表示。为使行向量中各元素的数值范围尽量接近以准确地进行后续的数值估计,故Skd需要通过公式进行转化,使得Skd∈(0,1),转化公式为:
其中,Skd表示列车与终点站的距离,d∈R表示列车与终点站的距离;L∈R表示列车本次运行从始发站到终点站的总距离,R为实数符号。
以上列车状态信息汇总并处理成行向量的形式Sk=[Sk0,Sk1,Sk2,…,Sk10]。其具体的定义方式如表1所示。
表1列车状态向量Sk具体定义方式
对于动作空间Ai而言,动作空间Ai指的是列车在不同状态下可选择的运行路径。理论上,列车共有四个可执行动作Ai={Aj|j∈{0,1,2,3}},分别对应:停车(A0)、直行(A1)、驶入左侧线(A2)和驶入右侧线(A3)。动作的定义均以列车的运行方向为基准。此外,由于列车运行方向的不同和道岔的设置,列车在每个区段上实际可执行的动作不会超过三个,且任何区段都可以执行停车的动作。列车可执行动作与不同类型区段的对应关系如表2所示。
表2本发明中各区段类型及列车可选的运行路径
对于回报函数R(Sk,Ai)而言,列车执行过动作Ai后,进入下一状态Sk′并获得一个回报值R,回报值将指导算法模型的收敛方向。回报函数设置的总体原则是:列车向终点站方向运行和到达终点站时给予奖励,列车的动作可能引发冲突或产生更长时间延误时惩罚。例如,当前方区段有车占用时,列车若选择驶入则给予惩罚R0,选择避让则给予奖励R1,具体的设置方案如表3所示。此外,为引导列车一直向着终点站的方向运行并减小整体的晚点时间,故列车只要未到达车站时就会得到惩罚R5,保持运行就会得到奖励R4;当列车到达终点站和经停站时,会分别给予数值较大的奖励R2和R3。本发明中设置R0=-25,R1=5,R2=50,R3=30,R4=15,R5=-100。但需要说明,本发明设置的上述奖励的具体数值仅仅是一组优选值,并不是固定的、唯一的,该具体数值可根据实际情况自行设定。
表3本发明中不同列车区段下动作空间Ai和回报值R的对应关系
步骤S1.3、将包括(Sk,Ai,R,Sk′)这四种信息的所述历史运行数据存储于数据库中,用于所述DDDQN模型的训练和参数更新。
本实施例中,所述DDDQN模型是一种基于双神经网络强化学习的高速列车智能调度控制模型,此模型可以估计出列车在某个状态下执行各个动作的价值,价值越高则动作越优。此DDDQN模型中包括两个结构完全相同的神经网络:Q-Evaluate Net和Q-TargetNet,由这两个神经网络的模型组合形成DDDQN模型,所述DDDQN模型的训练过程和对高速列车智能调度控制的作用机理如图4和图5所示,下面分别介绍Q-Evaluate Net结构模型和Q-TargetNet结构模型的搭建过程。
步骤S2、根据所述历史运行数据建立Q-Evaluate Net结构模型。所述Q-EvaluateNet结构模型包括第一输入层、第一隐藏层、第一状态价值层、第一动作优势层和第一输出层。
所述步骤S2具体包括以下步骤:
步骤S2.1、在建立所述第一输入层时,输入列车k的当前状态Sk,以1*N的行向量的方式呈现,表示列车运行中N种不同的信息,所述第一输入层包括N个输入节点。本实施例中,Sk的表示方式为1*11的行向量,代表了列车运行中11种不同的信息,具体形式为Sk=[Sk0,Sk1,Sk2,…,Sk10]。因此,Q-Evaluate Net结构模型的输入层包括11个输入节点。
步骤S2.2、在建立所述第一隐藏层时,所述第一隐藏层完成输入数据到输出的非线性变换,所述第一隐藏层具有1-3层,每层设置有128-256个神经元,本实施例中,共设置了2层第一隐藏层,即第一隐藏层1和第一隐藏层2。其中,第一隐藏层1包括256个神经元,第一隐藏层2包括128个神经元。不同层的所述神经元之间采用全连接的连接方式,同层的所述神经元之间不可连接;所述神经元之间的连接表示上一层输出变量的权重ωi,且每层所述神经元均设置偏置项bi。隐藏层用于完成输入信息的提取和数据维度的转换。设第i层隐藏层中包含ni个神经元,xi-1表示第i层隐藏层的输入,x0表示输入层,yi为第i层隐藏层的输出,其表示式为:
yi=f(xi-1ωi+bi),i∈N+;
步骤S2.3、在建立所述第一状态价值层时,由于第一状态价值层反应了某个状态自身具有的价值,故所述第一状态价值层仅包括一个输出节点。
步骤S2.4、在建立所述第一动作优势层时,第一动作优势层反应了在某个状态下,执行不同动作的优势价值。此结构可以更明显的区分出不同动作的质量。第一动作优势层的输出维度与所述动作空间Ai中包括的动作数量相等,所述动作空间Ai中包括四个动作,所述第一动作优势层也包括四个输出节点。
本发明中,状态价值层和动作优势层在本质上为神经网络层级相同但维度不同的输出层,与隐藏层之间采用全连接的连接方式。其中,状态价值层反应了某个状态自身具有的价值,故产生一维输出值。而动作优势层反应了在某个状态下,执行不同动作的优势价值,本实施例中的动作空间中共包括四个动作,故产生四维输出值。最终用于选择动作的Q值将通过状态价值层和动作优势层两部分计算得出。
步骤S2.5、在建立所述第一输出层时,由于模型最终的应用场景是根据列车的当前状态估计出执行不同动作的价值,动作价值越高表示动作越优,列车会选取最高价值对应的最优动作执行。所述第一输出层的维度和动作空间中包括的动作数量相等,故输出层包括四个输出值QE,表示为{QE0,QE1,QE2,QE3},并计其中最大值为QE;
所述第一输出层表示所述Q-EvaluateNet结构模型估计出的各动作的价值,动作的价值与当前的状态价值和动作优势值有关,其中,状态价值描述了某个状态自身具有的价值;动作优势值反应了在某个状态下,执行不同动作的优势价值。通过公式计算得到:
其中,QEi(Sk,Ai)表示列车k在当前状态Sk时通过所述Q-Evaluate Net结构模型估计出的执行动作Ai的价值,V(Sk)表示当前状态Sk具有的价值,a(Sk,Ai)表示在当前状态下执行动作Ai的动作优势值。
本发明中,最终输出层输出的是Q-Evaluate Net在列车某状态下估计出的各动作的价值,列车将选取最高价值对应的最优动作执行。输出层和神经网络不存在连接关系,仅依靠状态价值层和动作优势层产生的输出值并根据公式计算得到最终的四维输出值。
步骤S3、根据所述历史运行数据建立Q-TargetNet结构模型。
所述步骤S3具体包括以下步骤:
步骤S3.1、在建立所述第二输入层时,输入列车k的下一个状态Sk′,以1*N的行向量的方式呈现,表示列车运行中N种不同的信息,所述第二输入层包括N个输入节点;
步骤S3.3、在建立所述第二隐藏层时,所述第二隐藏层完成输入数据到输出的非线性变换,所述第二隐藏层具有1-3层,每层设置有128-256个神经元,本实施例中,共设置了2层第二隐藏层,即第二隐藏层1和第二隐藏层2。其中,第二隐藏层1包括256个神经元,第二隐藏层2包括128个神经元。不同层的所述神经元之间采用全连接的连接方式,同层的所述神经元之间不可连接;所述神经元之间的连接表示上一层输出变量的权重ωi,且每层所述神经元均设置偏置项bi;
步骤S3.3、在建立所述第二状态价值层时,所述第二状态价值层包括一个输出节点;
步骤S3.4、在建立所述第二动作优势层时,所述第二动作优势层的输出维度与所述动作空间Ai中包括的动作数量相等,所述动作空间Ai中包括四个动作,所述第二动作优势层也包括四个输出节点;
步骤S3.5、在建立所述第二输出层时,所述第二输出层的维度和动作空间中包括的动作数量相等,故输出层包括四个输出值QC,表示为{QC0,QC1,QC2,QC3};同时,将列车k的下一个状态Sk′输入到所述Q-Evaluate Net结构模型中得到四维输出{QE0,QE1,QE2,QE3},取其中最大值输出对应的动作,并找到该动作在所述Q-TargetNet结构模型中对应的输出QC,并通过公式计算得到目标值QT:
其中,QT(Sk,Ai)表示在当前状态Sk下,选择动作Ai的目标值;R(Sk,Ai)表示列车运行数据中记录的回报值;γ为衰减系数,γ越大,模型则会更多考虑长期回报带来的影响,本实施例中γ取值为0.9,这是一个优选值,还可以设置为其他值;argmaxQ(Sk′,Ai;θt)表示取Sk′输入到所述Q-Evaluate Net结构模型后得到的四维输出值中,最大值所对应的动作;θt表示所述Q-Evaluate Net结构模型的参数,包括所有的输出变量的权重ωi和偏置项bi;表示所述Q-Target Net结构模型的参数。
应说明的是,本发明中,Q-Evaluate Net结构模型包括第一输入层、第一隐藏层、第一状态价值层、第一动作优势层和第一输出层。而Q-TargetNet结构模型包括第二输入层、第二隐藏层、第二状态价值层、第二动作优势层和第二输出层。实际上,Q-TargetNet结构模型的各部分结构与Q-Evaluate Net结构模型完全相同,但两者的输入和输出不同。Q-Evaluate Net结构模型输入的是列车k的当前状态Sk,输出的是四维输出{QE0,QE1,QE2,QE3},而Q-Target Net结构模型输入的是列车k的下一个状态Sk′,输出的是四维输出{QC0,QC1,QC2,QC3}。另外,Q-TargetNet结构模型的参数更新频率低于Q-Evaluate Net结构模型。最终由两者构成的DDDQN模型的结构如图6所示。
本发明中,Q-Evaluate Net结构模型用于估计各动作的价值,并取其中的最高值记为QE。而Q-TargetNet结构模型用于计算Q-Evaluate Net结构模型中估计出的QE的目标值QT,以指导神经网络的收敛方向,使得QE的值更加准确地描述最优动作的价值。神经网络训练的目标是使QE的数值不断向QT逼近,即最小化二者之间的损失值。
简单来说,QE的计算过程为:将列车历史运行数据中的当前状态Sk输入到Q-Evaluate Net结构模型中得到四维输出{QE0,QE1,QE2,QE3},并选取最大值QE。而QT的计算过程为:将列车历史运行数据中的下一状态Sk′输入到Q-TargetNet结构模型中,得到一组四维输出{QC0,QC1,QC2,QC3}。同时,Sk′也被输入到Q-Evaluate Net结构模型中得到四维输出,取其输出最大值对应的动作在Q-TargetNet结构模型中的输出QCi,并通过公式计算进一步得到QT。
步骤S4、对由所述Q-Evaluate Net结构模型和所述Q-TargetNet结构模型形成的DDDQN模型进行训练,得到优化后的DDDQN模型。具体包括:
步骤S4.1、从数据库中随机抽取M条历史运行数据,分别计算得到所述Q-EvaluateNet结构模型的输出值QE={QE1,QE2,QE3,…,QEM}和所述Q-Target Net结构模型的输出值计算得到的目标值QT={QT1,QT2,QT3,…,QTM};
步骤S4.2、定义损失函数。损失函数反映了QE与QT之间的误差和神经网络参数的关系。本发明中采用均方损失函数J(ωi,bi),将QE和QT带入损失函数中计算得到损失值,所述损失函数计算公式为:
其中,J(ωi,bi)表示损失函数计算得到的损失值,ωi表示输出变量的权重,bi表示偏置项;M表示输出值的总个数;QEi表示所述Q-Evaluate Net结构模型的输出值,i=1,2,…,M;QTi表示所述Q-TargetNet结构模型的输出值计算得到的目标值,i=1,2,…M。
步骤S4.3、定义优化器。优化器的作用是以最快速度找到最小损失值对应的神经网络参数。Adam优化器是应用较为广泛的优化器类型之一,其利用一阶矩估计(即梯度的均值)和二阶矩估计(即梯度的未中心化的方差),动态调整每个参数的学习率,适用于大多非凸优化和高维空间。利用Adam优化器得到损失值最小时对应的参数θt,反向传播回所述Q-Evaluate Net结构模型完成θt的更新;参数θt更新后不会反向传播回所述Q-TargetNet结构模型,所述Q-TargetNet结构模型的参数将在θt每迭代更新10次后,直接复制θt以完成参数的更新。本实施例中将学习率设置为0.00025,但需要说明,这个值仅是一个优选值,并不是固定的、唯一的,可根据实际情况自行设置。
应说明的是,本实施例中,Q-Evaluate Net结构模型和Q-Target Net结构模型以及结合后的DDDQN模型均是采用Python编程语言中的Pytorch模块搭建的,还可以采用其他的建模编程软件进行模块搭建。将计算得到的QE和QT值作为估计值和目标值进行训练,使得估计值向目标值收敛,以更加准确地描述不同状态下执行各动作的价值,并根据损失函数的变化确定最佳的DDDQN模型。并且,本发明利用现有的列车的实绩运行数据对DDDQN模型进行训练,有效节约了训练和测试成本,提升了模型的测试精度,保证了基于对DDDQN模型生成的最佳调度方案的有效性、可靠性。
步骤S5、将列车的当前状态信息输入至所述优化后的DDDQN模型,得到列车在当前状态下的最优执行动作,根据最优执行动作对列车进行调度调整,达到缩短延误时间的目的。
当管辖范围内的列车出现大面积晚点时,将各辆列车的当前状态Sk分别输入到深度学习优化后的DDDQN模型中,即可得到各辆列车在当前状态下可执行的最优执行动作,调度员按此动作向列车下达调度调整命令,使列车尽快恢复正常的运行秩序,有效缩减列车的晚点时间,保障列车的正常运营,提升了乘客的出行体验。同时,利用DDDQN模型自动生成列车的最佳调度控制方案,根据最佳调度控制方案对列车进行调度调整,从而大幅减小调度员的工作量,降低了工作强度,提高了调度系统的智能化程度和调度效率。
为了验证本发明的性能及效果,同时设计了近似于人工调度经验的贪心策略,以对比两种方法的列车运行时间及列车冲突情况,并以京张高铁线路以及其中站内布置较为复杂的三站:北京北站、清河站、张家口站作为原型搭建了仿真环境进行测试。共进行了八组实验,实验1到实验8的列车运行密度依次递减。实验结果如图7和表4所示。实验结果表明,基于DDDQN模型的高速列车智能调度控制方法(简称DDDDDQN方法)在列车晚点、运行密度较高的情况下,可以有效的缩短延列车误时间。并且,在部分实验中,贪心策略的调度方案出现了死锁的情况,而本发明的方法仍然可以给出避免列车死锁的调度方案,说明本发明的DDDDDQN方法可以避免列车的潜在冲突,在每个状态下均能选择最优动作执行。
表4贪心策略法和DDDDDQN方法的验证实验结果
本发明提出了一种高速列车智能调度控制方法,提出了一种基于Q-Evaluate Net和Q-Target Net构成的DDDQN模型,利用列车运行管理调度子系统上现有的列车实绩运行数据对该DDDQN模型进行训练,实现在列车出现晚点的情况下,自动调整列车的运行路径及停站时间,并生成列车运行调整计划,以达到减小列车延误时间并避免列车潜在冲突的目标,有效提升了列车的调度管理效率,缩短了列车的延误时间,对延误列车做出快速响应以及及时调度的同时,提升了乘客的出行感受,解决了传统人工凭经验调度列车的方式容易出现更大面积列车延误的问题,保证了每条路线上的每辆列车的有序行驶,有利于我国交通运输行业的发展。
实施例2
如图8所示,本实施例示出了一种高速列车智能调度控制系统,该系统具体包括:
历史运行数据获取和存储模块M1,用于获取并存储列车的历史运行数据;具体包括:
实绩运行信息获取单元M1-1,用于利用列车运行管理调度子系统获取列车的实绩运行信息;
历史运行数据获取单元M1-2,用于将所述实绩运行信息分类处理为四部分,即(Sk,Ai,R,Sk′),并进行存储,得到所述历史运行数据;
其中,(Sk,Ai,R,Sk′)表示列车k在当前状态Sk执行调度员下达的调度动作Ai后进入下一个状态Sk′并得到一个回报值R,Sk表示列车的当前状态,Ai表示动作空间,Sk′表示列车的下一个状态,R表示根据回报函数规则反馈的回报值;
历史运行数据存储单元M1-3,用于将所述历史运行数据存储于数据库中,用于所述DDDQN模型的训练和参数更新。
Q-Evaluate Net结构模型建立模块M2,用于根据所述历史运行数据建立Q-Evaluate Net结构模型;具体包括:
第一输入层建立单元M2-1,用于在建立所述第一输入层时,输入列车k的当前状态Sk,以1*N的行向量的方式呈现,表示列车运行中N种不同的信息,所述第一输入层包括N个输入节点;
第一隐藏层建立单元M2-2,用于在建立所述第一隐藏层时,所述第一隐藏层完成输入数据到输出的非线性变换,所述第一隐藏层具有1-3层,每层设置有128-256个神经元,不同层的所述神经元之间采用全连接的连接方式,同层的所述神经元之间不可连接;所述神经元之间的连接表示上一层输出变量的权重ωi,且每层所述神经元均设置偏置项bi;
第一状态价值层建立单元M2-3,用于在建立所述第一状态价值层时,所述第一状态价值层包括一个输出节点;
第一动作优势层建立单元M2-4,用于在建立所述第一动作优势层时,所述第一动作优势层的输出维度与所述动作空间Ai中包括的动作数量相等,所述动作空间Ai中包括四个动作,所述第一动作优势层也包括四个输出节点;
第一输出层建立单元M2-5,用于在建立所述第一输出层时,所述第一输出层的维度和动作空间中包括的动作数量相等,故输出层包括四个输出值QE,表示为{QE0,QE1,QE2,QE3},并计其中最大值为QE;
所述第一输出层表示所述Q-Evaluate Net结构模型估计出的各动作的价值,动作的价值与当前的状态价值和动作优势值有关,通过公式计算得到:
其中,QEi(Sk,Ai)表示列车k在当前状态Sk时通过所述Q-Evaluate Net结构模型估计出执行动作Ai的价值,V(Sk)表示当前状态Sk具有的价值,a(Sk,Ai)表示在当前状态下执行动作Ai的动作优势值。
Q-Target Net结构模型建立模块M3,用于根据所述历史运行数据建立Q-TargetNet结构模型;具体包括:
第二输入层建立单元M3-1,用于在建立所述第二输入层时,输入列车k的下一个状态Sk′,以1*N的行向量的方式呈现,表示列车运行中N种不同的信息,所述第二输入层包括N个输入节点;
第二隐藏层建立单元M3-2,用于在建立所述第二隐藏层时,所述第二隐藏层完成输入数据到输出的非线性变换,所述第二隐藏层具有1-3层,每层设置有128-256个神经元,不同层的所述神经元之间采用全连接的连接方式,同层的所述神经元之间不可连接;所述神经元之间的连接表示上一层输出变量的权重ωi,且每层所述神经元均设置偏置项bi;
第二状态价值层建立单元M3-3,用于在建立所述第二状态价值层时,所述第二状态价值层包括一个输出节点;
第二动作优势层建立单元M3-4,用于在建立所述第二动作优势层时,所述第二动作优势层的输出维度与所述动作空间Ai中包括的动作数量相等,所述动作空间Ai中包括四个动作,所述第二动作优势层也包括四个输出节点;
第二输出层建立单元M3-5,用于在建立所述第二输出层时,所述第二输出层的维度和动作空间中包括的动作数量相等,故输出层包括四个输出值QC,表示为{QC0,QC1,QC2,QC3};同时,将列车k的下一个状态Sk′输入到所述Q-Evaluate Net结构模型中得到四维输出{QE0,QE1,QE2,QE3},取其中最大值输出对应的动作,并找到该动作在所述Q-Target Net结构模型中对应的输出QC,并通过公式计算得到目标值QT:
其中,QT(Sk,Ai)表示在当前状态Sk下,选择动作Ai的目标值;R(Sk,Ai)表示列车运行数据中记录的回报值;γ为衰减系数;argmaxQ(Sk′,Ai;θt)表示取Sk′输入到所述Q-Evaluate Net结构模型后得到的四维输出值中,最大值所对应的动作;θt表示所述Q-Evaluate Net结构模型的参数,包括所有的输出变量的权重ωi和偏置项bi;表示所述Q-Target Net结构模型的参数。
DDDQN模型训练模块M4,用于对由所述Q-Evaluate Net结构模型和所述Q-TargetNet结构模型形成的DDDQN模型进行训练,得到优化后的DDDQN模型;具体包括:
数据选择计算单元M4-1,用于从数据库中随机抽取M条历史运行数据,分别计算得到所述Q-Evaluate Net结构模型的输出值QE={QE1,QE2,QE3,…,QEM}和所述Q-Target Net结构模型的输出值计算得到的目标值QT={QT1,QT2,QT3,…,QTM};
损失值计算单元M4-2,用于将QE和QT带入损失函数中计算得到损失值,所述损失函数计算公式为:
其中,J(ωi,bi)表示损失函数计算得到的损失值,ωi表示输出变量的权重,bi表示偏置项;M表示输出值的总个数;QEi表示所述Q-Evaluate Net结构模型的输出值,i=1,2,…,M;QTi表示所述Q-Target Net结构模型的输出值计算得到的目标值,i=1,2,…M;
模型参数更新单元M4-3,用于利用Adam优化器得到损失值最小时对应的参数θt,反向传播回所述Q-Evaluate Net结构模型完成θt的更新;参数θt更新后不会反向传播回所述Q-Target Net结构模型,所述Q-Target Net结构模型的参数将在θt每迭代更新10次后,直接复制θt以完成参数的更新。
最优调度策略输出模块M5,用于将列车的当前状态信息输入至所述优化后的DDDQN模型,得到列车在当前状态下的最优执行动作,根据所述最优执行动作对列车进行调度调整。
本发明提出了一种高速列车智能调度控制方法和系统,首先获取并存储列车的历史运行数据;然后根据历史运行数据分别建立Q-Evaluate Net结构模型和Q-TargetNet结构模型并形成DDDQN模型;再对DDDQN模型进行训练,得到优化后的DDDQN模型;最终将列车的当前状态信息输入至所述优化后的DDDQN模型,智能化地自动输出各辆列车的最优调度调整策略。当列车出现延误时,根据最优调度调整策略动态调整列车运行图,代替传统人工完全凭经验调度的方式,可调整各列车在站内的运行路径、通行顺序和停站时间等,从而避免了发生列车冲突和死锁的情况,有效缩短列车的延误时间,解决了传统人工调度方式容易出现更大面积列车延误的问题,进而提升了乘客的出行感受。
以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭示的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的包括范围应该以权利要求的保护范围为准。
本说明书中各个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。本说明书中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处。综上所述,本说明书内容不应理解为对本发明的限制。
Claims (6)
1.一种高速列车智能调度控制方法,其特征在于,包括:
获取并存储列车的历史运行数据;
根据所述历史运行数据建立Q-Evaluate Net结构模型;
所述Q-Evaluate Net结构模型包括第一输入层、第一隐藏层、第一状态价值层、第一动作优势层和第一输出层;
所述根据所述历史运行数据建立Q-Evaluate Net结构模型,具体包括:
在建立所述第一输入层时,输入列车k的当前状态Sk,以1*N的行向量的方式呈现,表示列车运行中N种不同的信息,所述第一输入层包括N个输入节点;
在建立所述第一隐藏层时,所述第一隐藏层完成输入数据到输出的非线性变换,所述第一隐藏层具有1-3层,每层设置有128-256个神经元,不同层的所述神经元之间采用全连接的连接方式,同层的所述神经元之间不连接;所述神经元之间的连接表示上一层输出变量的权重ωi,且每层所述神经元均设置偏置项bi;
在建立所述第一状态价值层时,所述第一状态价值层包括一个输出节点;
在建立所述第一动作优势层时,所述第一动作优势层的输出维度与动作空间Ai中包括的动作数量相等,所述动作空间Ai中包括四个动作,所述第一动作优势层也包括四个输出节点;
在建立所述第一输出层时,所述第一输出层的维度和动作空间中包括的动作数量相等,故输出层包括四个输出值QE,表示为{QE0,QE1,QE2,QE3},并计其中最大值为QE;
所述第一输出层表示所述Q-Evaluate Net结构模型估计出的各动作的价值,动作的价值与当前的状态价值和动作优势值有关,通过公式计算得到:
其中,QEi(Sk,Ai)表示列车k在当前状态Sk时通过所述Q-Evaluate Net结构模型估计出的执行动作Ai的价值,V(Sk)表示当前状态Sk具有的价值,a(Sk,Ai)表示在当前状态下执行动作Ai的动作优势值;
根据所述历史运行数据建立Q-Target Net结构模型;
所述Q-Target Net结构模型包括第二输入层、第二隐藏层、第二状态价值层、第二动作优势层和第二输出层;
所述根据所述历史运行数据建立Q-Target Net结构模型,具体包括:
在建立所述第二输入层时,输入列车k的下一个状态Sk′,以1*N的行向量的方式呈现,表示列车运行中N种不同的信息,所述第二输入层包括N个输入节点;
在建立所述第二隐藏层时,所述第二隐藏层完成输入数据到输出的非线性变换,所述第二隐藏层具有1-3层,每层设置有128-256个神经元,不同层的所述神经元之间采用全连接的连接方式,同层的所述神经元之间不连接;所述神经元之间的连接表示上一层输出变量的权重ωi,且每层所述神经元均设置偏置项bi;
在建立所述第二状态价值层时,所述第二状态价值层包括一个输出节点;
在建立所述第二动作优势层时,所述第二动作优势层的输出维度与动作空间Ai中包括的动作数量相等,所述动作空间Ai中包括四个动作,所述第二动作优势层也包括四个输出节点;
在建立所述第二输出层时,所述第二输出层的维度和动作空间中包括的动作数量相等,故输出层包括四个输出值QC,表示为{QC0,QC1,QC2,QC3};同时,将列车k的下一个状态Sk′输入到所述Q-Evaluate Net结构模型中得到四维输出{QE0,QE1,QE2,QE3},取其中最大值输出对应的动作,并找到该动作在所述Q-Target Net结构模型中对应的输出QC,并通过公式计算得到目标值QT:
其中,QT(Sk,Ai)表示在当前状态Sk下,选择动作Ai的目标值;R(Sk,Ai)表示列车运行数据中记录的回报值;γ为衰减系数;argmaxQ(Sk′,Ai;θt)表示取Sk′输入到所述Q-EvaluateNet结构模型后得到的四维输出值中,最大值所对应的动作;θt表示所述Q-Evaluate Net结构模型的参数,包括所有的输出变量的权重ωi和偏置项bi;表示所述Q-Target Net结构模型的参数;
对由所述Q-Evaluate Net结构模型和所述Q-Target Net结构模型形成的DDDQN模型进行训练,得到优化后的DDDQN模型;
将列车的当前状态信息输入至所述优化后的DDDQN模型,得到列车在当前状态下的最优执行动作,根据所述最优执行动作对列车进行调度调整。
2.根据权利要求1所述的高速列车智能调度控制方法,其特征在于,所述获取并存储列车的历史运行数据,具体包括:
利用列车运行管理调度子系统获取列车的实绩运行信息;
将所述实绩运行信息分类处理为(Sk,Ai,R,Sk′)四部分,得到所述历史运行数据;
其中,(Sk,Ai,R,Sk′)表示列车k在当前状态Sk执行调度员下达的调度动作Ai后进入下一个状态Sk′并得到一个回报值R,Sk表示列车的当前状态,Ai表示动作空间,Sk′表示列车的下一个状态,R表示根据回报函数规则反馈的回报值;
将所述历史运行数据存储于数据库中,用于所述DDDQN模型的训练和参数更新。
3.根据权利要求1所述的高速列车智能调度控制方法,其特征在于,所述对由所述Q-Evaluate Net结构模型和所述Q-Target Net结构模型形成的DDDQN模型进行训练,得到优化后的DDDQN模型,具体包括:
从数据库中随机抽取M条历史运行数据,分别计算得到所述Q-Evaluate Net结构模型的输出值QE={QE1,QE2,QE3,…,QEM}和所述Q-Target Net结构模型的输出值计算得到的目标值QT={QT1,QT2,QT3,…,QTM};
将QE和QT带入损失函数中计算得到损失值,所述损失函数计算公式为:
其中,J(ωi,bi)表示损失函数计算得到的损失值,ωi表示输出变量的权重,bi表示偏置项;M表示输出值的总个数;QEi表示所述Q-Evaluate Net结构模型的输出值,i=1,2,…,M;QTi表示所述Q-Target Net结构模型的输出值计算得到的目标值,i=1,2,…M;
4.一种高速列车智能调度控制系统,其特征在于,包括:
历史运行数据获取和存储模块,用于获取并存储列车的历史运行数据;
Q-Evaluate Net结构模型建立模块,用于根据所述历史运行数据建立Q-Evaluate Net结构模型;
所述Q-Evaluate Net结构模型包括第一输入层、第一隐藏层、第一状态价值层、第一动作优势层和第一输出层;
所述Q-Evaluate Net结构模型建立模块,具体包括:
第一输入层建立单元,用于在建立所述第一输入层时,输入列车k的当前状态Sk,以1*N的行向量的方式呈现,表示列车运行中N种不同的信息,所述第一输入层包括N个输入节点;
第一隐藏层建立单元,用于在建立所述第一隐藏层时,所述第一隐藏层完成输入数据到输出的非线性变换,所述第一隐藏层具有1-3层,每层设置有128-256个神经元,不同层的所述神经元之间采用全连接的连接方式,同层的所述神经元之间不连接;所述神经元之间的连接表示上一层输出变量的权重ωi,且每层所述神经元均设置偏置项bi;
第一状态价值层建立单元,用于在建立所述第一状态价值层时,所述第一状态价值层包括一个输出节点;
第一动作优势层建立单元,用于在建立所述第一动作优势层时,所述第一动作优势层的输出维度与动作空间Ai中包括的动作数量相等,所述动作空间Ai中包括四个动作,所述第一动作优势层也包括四个输出节点;
第一输出层建立单元,用于在建立所述第一输出层时,所述第一输出层的维度和动作空间中包括的动作数量相等,故输出层包括四个输出值QE,表示为{QE0,QE1,QE2,QE3},并计其中最大值为QE;
所述第一输出层表示所述Q-Evaluate Net结构模型估计出的各动作的价值,动作的价值与当前的状态价值和动作优势值有关,通过公式计算得到:
其中,QEi(Sk,Ai)表示列车k在当前状态Sk时通过所述Q-Evaluate Net结构模型估计出的执行动作Ai的价值,V(Sk)表示当前状态Sk具有的价值,a(Sk,Ai)表示在当前状态下执行动作Ai的动作优势值;
Q-Target Net结构模型建立模块,用于根据所述历史运行数据建立Q-Target Net结构模型;
所述Q-Target Net结构模型包括第二输入层、第二隐藏层、第二状态价值层、第二动作优势层和第二输出层;
所述Q-Target Net结构模型建立模块,具体包括:
第二输入层建立单元,用于在建立所述第二输入层时,输入列车k的下一个状态Sk′,以1*N的行向量的方式呈现,表示列车运行中N种不同的信息,所述第二输入层包括N个输入节点;
第二隐藏层建立单元,用于在建立所述第二隐藏层时,所述第二隐藏层完成输入数据到输出的非线性变换,所述第二隐藏层具有1-3层,每层设置有128-256个神经元,不同层的所述神经元之间采用全连接的连接方式,同层的所述神经元之间不连接;所述神经元之间的连接表示上一层输出变量的权重ωi,且每层所述神经元均设置偏置项bi;
第二状态价值层建立单元,用于在建立所述第二状态价值层时,所述第二状态价值层包括一个输出节点;
第二动作优势层建立单元,用于在建立所述第二动作优势层时,所述第二动作优势层的输出维度与动作空间Ai中包括的动作数量相等,所述动作空间Ai中包括四个动作,所述第二动作优势层也包括四个输出节点;
第二输出层建立单元,用于在建立所述第二输出层时,所述第二输出层的维度和动作空间中包括的动作数量相等,故输出层包括四个输出值QC,表示为{QC0,QC1,QC2,QC3};同时,将列车k的下一个状态Sk′输入到所述Q-Evaluate Net结构模型中得到四维输出{QE0,QE1,QE2,QE3},取其中最大值输出对应的动作,并找到该动作在所述Q-Target Net结构模型中对应的输出QC,并通过公式计算得到目标值QT:
其中,QT(Sk,Ai)表示在当前状态Sk下,选择动作Ai的目标值;R(Sk,Ai)表示列车运行数据中记录的回报值;γ为衰减系数;argmaxQ(Sk′,Ai;θt)表示取Sk′输入到所述Q-EvaluateNet结构模型后得到的四维输出值中,最大值所对应的动作;θt表示所述Q-Evaluate Net结构模型的参数,包括所有的输出变量的权重ωi和偏置项bi;表示所述Q-Target Net结构模型的参数;
DDDQN模型训练模块,用于对由所述Q-Evaluate Net结构模型和所述Q-Target Net结构模型形成的DDDQN模型进行训练,得到优化后的DDDQN模型;
最优调度策略输出模块,用于将列车的当前状态信息输入至所述优化后的DDDQN模型,得到列车在当前状态下的最优执行动作,根据所述最优执行动作对列车进行调度调整。
5.根据权利要求4所述的高速列车智能调度控制系统,其特征在于,所述历史运行数据获取和存储模块,具体包括:
实绩运行信息获取单元,用于利用列车运行管理调度子系统获取列车的实绩运行信息;
历史运行数据获取单元,用于将所述实绩运行信息分类处理为(Sk,Ai,R,Sk′)四部分,得到所述历史运行数据;
其中,(Sk,Ai,R,Sk′)表示列车k在当前状态Sk执行调度员下达的调度动作Ai后进入下一个状态Sk′并得到一个回报值R,Sk表示列车的当前状态,Ai表示动作空间,Sk′表示列车的下一个状态,R表示根据回报函数规则反馈的回报值;
历史运行数据存储单元,用于将行向量形式的所述历史运行数据存储于数据库中,用于所述DDDQN模型的训练和参数更新。
6.根据权利要求4所述的高速列车智能调度控制系统,其特征在于,所述DDDQN模型训练模块,具体包括:
数据选择计算单元,用于从数据库中随机抽取M条历史运行数据,分别计算得到所述Q-Evaluate Net结构模型的输出值QE={QE1,QE2,QE3,…,QEM}和所述Q-Target Net结构模型的输出值计算得到的目标值QT={QT1,QT2,QT3,…,QTM};
损失值计算单元,用于将QE和QT带入损失函数中计算得到损失值,所述损失函数计算公式为:
其中,J(ωi,bi)表示损失函数计算得到的损失值,ωi表示输出变量的权重,bi表示偏置项;M表示输出值的总个数;QEi表示所述Q-Evaluate Net结构模型的输出值,i=1,2,…,M;QTi表示所述Q-Target Net结构模型的输出值计算得到的目标值,i=1,2,…M;
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110825368.1A CN113537603B (zh) | 2021-07-21 | 2021-07-21 | 一种高速列车智能调度控制方法和系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110825368.1A CN113537603B (zh) | 2021-07-21 | 2021-07-21 | 一种高速列车智能调度控制方法和系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113537603A CN113537603A (zh) | 2021-10-22 |
CN113537603B true CN113537603B (zh) | 2022-02-01 |
Family
ID=78100780
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110825368.1A Active CN113537603B (zh) | 2021-07-21 | 2021-07-21 | 一种高速列车智能调度控制方法和系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113537603B (zh) |
Family Cites Families (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106842925B (zh) * | 2017-01-20 | 2019-10-11 | 清华大学 | 一种基于深度强化学习的机车智能操纵方法与系统 |
CN112771530B (zh) * | 2018-09-27 | 2024-08-20 | 谷歌有限责任公司 | 用于交互式web文档的自动导航的方法和系统 |
KR101990326B1 (ko) * | 2018-11-28 | 2019-06-18 | 한국인터넷진흥원 | 감가율 자동 조정 방식의 강화 학습 방법 |
CN109508751B (zh) * | 2018-12-06 | 2021-02-09 | 西南交通大学 | 高速铁路列车晚点时间预测的深度神经网络模型建模方法 |
EP3800521B1 (en) * | 2019-10-01 | 2023-07-26 | Elektrobit Automotive GmbH | Deep learning based motion control of a vehicle |
CN111781940B (zh) * | 2020-05-19 | 2022-12-20 | 中车工业研究院有限公司 | 一种基于dqn强化学习的列车姿态控制方法 |
CN111369181B (zh) * | 2020-06-01 | 2020-09-29 | 北京全路通信信号研究设计院集团有限公司 | 一种列车自主调度深度强化学习方法和装置 |
CN112193280B (zh) * | 2020-12-04 | 2021-03-16 | 华东交通大学 | 一种重载列车强化学习控制方法及系统 |
CN112633596B (zh) * | 2020-12-30 | 2022-09-27 | 南京理工大学 | 地铁列车速度曲线和区间运行时间的一体化优化方法 |
-
2021
- 2021-07-21 CN CN202110825368.1A patent/CN113537603B/zh active Active
Also Published As
Publication number | Publication date |
---|---|
CN113537603A (zh) | 2021-10-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN114283607B (zh) | 一种基于分布式群智学习的多车协同规划方法 | |
CN110297494A (zh) | 一种基于滚动博弈的自动驾驶车辆换道决策方法及系统 | |
CN111845773B (zh) | 基于强化学习的自动驾驶车辆微观决策方法 | |
CN111619624B (zh) | 一种基于深度强化学习的有轨电车运行控制方法和系统 | |
CN109508751B (zh) | 高速铁路列车晚点时间预测的深度神经网络模型建模方法 | |
CN107577234A (zh) | 一种驾驶员在环的汽车燃油经济性控制方法 | |
Li et al. | Combining decision making and trajectory planning for lane changing using deep reinforcement learning | |
CN113581182B (zh) | 基于强化学习的自动驾驶车辆换道轨迹规划方法及系统 | |
CN117636661B (zh) | 一种无信号交叉口完全自主交通流通行控制方法 | |
CN111785088B (zh) | 一种网联车辆匝道合并的双层协同优化方法 | |
CN116432454A (zh) | 基于性格选择的自动驾驶汽车决策规划方法 | |
Chen et al. | Efficient speed planning for autonomous driving in dynamic environment with interaction point model | |
Li et al. | Anti-disturbance self-supervised reinforcement learning for perturbed car-following system | |
CN113537603B (zh) | 一种高速列车智能调度控制方法和系统 | |
Gong et al. | Collision-Free Cooperative Motion Planning and Decision-Making for Connected and Automated Vehicles at Unsignalized Intersections | |
Guillen-Perez et al. | Raim: Reinforced autonomous intersection management—aim based on madrl | |
CN115691196B (zh) | 智能网联环境下公交运行多策略融合控制方法 | |
CN114360290B (zh) | 一种基于强化学习的交叉口前车辆群体车道选择方法 | |
CN116090336A (zh) | 基于改进强化学习算法的虚拟编组列车参考曲线计算方法 | |
Wu et al. | A deep reinforcement learning approach for the traffic management of high-speed railways | |
Yu et al. | Mitigating Bus Bunching via Hierarchical Multi-Agent Reinforcement Learning | |
Fan et al. | Deep Reinforcement Learning Based Integrated Eco-driving Strategy for Connected and Automated Electric Vehicles in Complex Urban Scenarios | |
Wu et al. | Lane Change Decision-Making through Deep Reinforcement Learning with Driver’s Inputs | |
CN118289063B (zh) | 一种不确定环境下高铁列车运行调整方法及其应用 | |
CN115782988B (zh) | 列车时刻表确定方法、装置、设备及介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |