CN113537603A

CN113537603A - 一种高速列车智能调度控制方法和系统

Info

Publication number: CN113537603A
Application number: CN202110825368.1A
Authority: CN
Inventors: 阴佳腾; 吴卫; 宿帅; 宁晨鹤; 杨立兴; 唐涛
Original assignee: Beijing Jiaotong University
Current assignee: Beijing Jiaotong University
Priority date: 2021-07-21
Filing date: 2021-07-21
Publication date: 2021-10-22
Anticipated expiration: 2041-07-21
Also published as: CN113537603B

Abstract

本发明涉及一种高速列车智能调度控制方法和系统，属于高速列车调度领域，方法包括：获取并存储列车的历史运行数据；根据所述历史运行数据建立Q‑Evaluate Net结构模型；根据所述历史运行数据建立Q‑TargetNet结构模型；对由所述Q‑Evaluate Net结构模型和所述Q‑TargetNet结构模型形成的双对抗神经网络模型进行训练，得到优化后的双对抗神经网络模型；将列车的当前状态信息输入至所述优化后的双对抗神经网络模型，得到列车在当前状态下的最优执行动作，根据所述最优执行动作对列车进行调度调整，从而避免了发生列车冲突和死锁的情况，有效缩短列车的延误时间，提升了乘客的出行感受。

Description

一种高速列车智能调度控制方法和系统

技术领域

本发明涉及高速列车调度领域，特别是涉及一种基于双对抗神经网络强化学习的高速列车智能调度控制方法和系统。

背景技术

近年来，我国高速铁路系统迅猛发展，运营里程、客货运量节节攀升。随着我国高速铁路网建设速度的逐步加快，对高铁运量的需求也在迅速提高，使得线路上列车的运行更加密集。而列车的运行难免会因为恶劣天气、机械故障等意外事件造成延误，导致原有的列车进路计划、到发时间、对区段占用的时间发生变化。在这种条件下，一列车出现延误往往会造成多趟列车的晚点，尤其在站内等线路布置复杂的区段，还有可能造成列车冲突或死锁的情况。

现有的高铁调度指挥系统中，列车运行管理调度子系统负责监控列车运行，并在出现列车晚点时，编制列车运行调整计划，下达调整命令。但目前无法实现系统自动编制调整计划，仍需人工进行调度调整，采用的方法一般是平移时刻表，将延误列车及其后续列车顺延排序。当列车出现大面积的晚点时，人工的调度方法基本无法及时做出有效的调度调整，还会导致更大面积的列车晚点，同时还会存在列车冲突和死锁的问题，极大延长了列车的延误时间，给人们出行带来不便。

基于此，目前亟需一种更加智能化的高速列车调度控制方法和系统，以解决现有人工调度方法容易造成列车冲突和死锁，并扩大列车延误范围，延长列车的延误时间的问题。

发明内容

本发明的目的是提供一种高速列车智能调度控制方法和系统，可智能化地输出列车的最优调度调整策略，当发生列车延误的情况时，根据该最优调度调整策略对列车进行调度控制，可缩短列车的延误时间，有效解决现有人工调度方法容易造成列车冲突和死锁，并扩大列车延误范围，延长列车的延误时间的问题，提升乘客的出行感受。

为实现上述目的，本发明提供了如下方案：

一种高速列车智能调度控制方法，包括：

获取并存储列车的历史运行数据；

根据所述历史运行数据建立Q-Evaluate Net结构模型；

根据所述历史运行数据建立Q-TargetNet结构模型；

对由所述Q-Evaluate Net结构模型和所述Q-TargetNet结构模型形成的双对抗神经网络模型进行训练，得到优化后的双对抗神经网络模型；

将列车的当前状态信息输入至所述优化后的双对抗神经网络模型，得到列车在当前状态下的最优执行动作，根据所述最优执行动作对列车进行调度调整。

一种高速列车智能调度控制系统，包括：

历史运行数据获取和存储模块，用于获取并存储列车的历史运行数据；

Q-Evaluate Net结构模型建立模块，用于根据所述历史运行数据建立Q-EvaluateNet结构模型；

Q-TargetNet结构模型建立模块，用于根据所述历史运行数据建立Q-Target Net结构模型；

双对抗神经网络模型训练模块，用于对由所述Q-Evaluate Net结构模型和所述Q-TargetNet结构模型形成的双对抗神经网络模型进行训练，得到优化后的双对抗神经网络模型；

最优调度策略输出模块，用于将列车的当前状态信息输入至所述优化后的双对抗神经网络模型，得到列车在当前状态下的最优执行动作，根据所述最优执行动作对列车进行调度调整。

根据本发明提供的具体实施例，本发明公开了以下技术效果：

本发明提出了一种高速列车智能调度控制方法，首先获取并存储列车的历史运行数据；然后根据历史运行数据分别建立Q-Evaluate Net结构模型和Q-TargetNet结构模型并形成双对抗神经网络模型；再对双对抗神经网络模型进行训练，得到优化后的双对抗神经网络模型；最终将列车的当前状态信息输入至所述优化后的双对抗神经网络模型，智能化地自动输出各辆列车的最优调度调整策略。当列车出现延误时，根据最优调度调整策略动态调整列车运行图，代替传统人工完全凭经验调度的方式，可调整各列车在站内的运行路径、通行顺序和停站时间等，从而避免了发生列车冲突和死锁的情况，有效缩短列车的延误时间，进而提升了乘客的出行感受，解决了传统人工调度方式容易出现更大面积列车延误、延长延误时间的问题。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例1提供的密集列车延误时的运行情况的示意图；

图2为本发明实施例1提供的高速列车智能调度控制方法的流程图；

图3为本发明实施例1提供的高速列车运行管理调度子系统中调度调整的示意图；

图4为本发明实施例1提供的双对抗神经网络模型的训练过程的流程图；

图5为本发明实施例1提供的双对抗神经网络模型的高速列车智能调度控制方法的原理图；

图6为本发明实施例1提供的双对抗神经网络模型的结构示意图；

图7为本发明实施例1提供的双对抗神经网络强化学习方法和传统人工调度方法的列车运行时间对比图；

图8为本发明实施例1提供的高速列车智能调度控制系统的结构框图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明的目的是提出一种高速列车智能调度控制方法和系统，通过分别建立的Q-Evaluate Net结构模型和Q-TargetNet结构模型并形成双对抗神经网络模型，采用深度强化学习的方法对双对抗神经网络模型进行训练优化，将列车的当前状态信息输入至优化后的对双对抗神经网络模型中，即可智能化地输出每辆列车的最优调度调整策略。根据该最优调度调整策略对各辆列车进行调度控制，从而避免发生列车冲突和死锁的情况，有效缩短列车的延误时间，提升乘客的出行感受。

为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本发明作进一步详细的说明。

实施例1

图1描述了一种出现延误时列车较为密集的站内运行场景。此时，列车k₁只能选择驶入左前方的区段ii，而k₂必须等待k₁驶离区段i后才能继续前进。另外，虽然此时区段iii空闲，但k₅必须等待k₆先通过区段iii之后再驶入，否则会造成死锁。可以看出，当出现列车延误导致站内列车运行密集时，列车调度的复杂性有明显提升。在出现如图1所示的情况时，调度调整不能仅考虑相邻区段的占用情况而直接调度列车，还需要考虑周围多个区段上多列车之间运行路径的相互影响。如果这一过程仅通过人工凭经验进行调度控制，很难保证效率，也不易直接找出最优的调度方案，从而更容易出现列车冲突和死锁的情况，还可能会造成更大面积的列车的集体延误。

基于此，本实施例提出了一种高速列车智能调度控制方法，利用列车运行管理调度子系统存储的列车实绩运行数据训练调度算法模型即双对抗神经网络模型，实现在列车出现晚点的情况下，自动调整列车的运行路径及停站时间，并生成列车运行调整计划，以达到减小列车延误时间并避免列车潜在冲突的目标。如图2所示，该方法具体包括以下步骤：

步骤S1、获取并存储列车的历史运行数据。具体包括：

步骤S1.1、利用列车运行管理调度子系统获取列车的实绩运行信息。

列车运行管理调度子系统实时监控列车运行，并获取从轨道信号系统传输的列车的实绩运行数据，实绩运行数据包括列车当前所在的车站或区间、轨道电路状态、道岔位置以及列车计划运行时刻等多种信息。

步骤S1.2、将所述实绩运行信息分类处理为四部分，即(S_k，A_i，R，S_k′)，并进行存储，得到所述历史运行数据。

其中，(S_k，A_i，R，S_k′)表示列车k在当前状态S_k执行调度员下达的调度动作A_i后进入下一个状态S_k′并得到一个回报值R，S_k表示列车的当前状态，A_i表示动作空间，S_k′表示列车的下一个状态，R表示根据回报函数规则反馈的回报值。

如图3所示，列车运行管理调度子系统在实时接收到从轨道信号系统传输的每辆列车的实绩运行数据后，将实绩运行信息分类处理为(S_k，A_i，R，S_k′)四部分，作为列车的历史运行数据，用于模型训练。例如，列车当前所在股道的占用信息以及相邻股道的占用信息，通过轨道电路传递给列车运行管理调度子系统，用以描述列车当前状态S_k，调度员下达的指令作为动作A_i，列车执行指令继续运行并进入下一状态S_k′。之后，根据制定的回报函数规则反馈一个回报值R。本发明中将(S_k，A_i，R，S_k′)视为一条列车历史运行数据并存储于数据库中，用于双对抗神经网络模型的训练过程，再经过本发明构成的智能调度调整模块后自动生成列车运行调度计划，铁道部调度中心、调度所或管辖范围车站根据生成的列车运行调度计划下达调度指令，调度员根据指令对各个列车进行调度，可以最快的速度解决列车的交汇拥堵问题，缩短列车的延误时间，使各个线路上的列车在自己线路上有序行驶，防止列车冲突或死锁情况的发生。

对于列车的当前状态S_k而言，列车的当前状态S_k分为三个部分，共包括11个信息：列车当前可选择的路径S_ka，列车前方区段的占用情况S_ks和列车与终点站的距离S_kd。以上信息可以通过列车运行管理调度子系统根据实际情况实时获取，其中，S_ka和S_ks可直接用布尔值{0，1}表示。为使行向量中各元素的数值范围尽量接近以准确地进行后续的数值估计，故S_kd需要通过公式进行转化，使得S_kd∈(0，1)，转化公式为：

其中，S_kd表示列车与终点站的距离，d∈R表示列车与终点站的距离；L∈R表示列车本次运行从始发站到终点站的总距离，R为实数符号。

以上列车状态信息汇总并处理成行向量的形式S_k＝[S_k0，S_k1，S_k2，…，S_k10]。其具体的定义方式如表1所示。

表1列车状态向量S_k具体定义方式

对于动作空间A_i而言，动作空间A_i指的是列车在不同状态下可选择的运行路径。理论上，列车共有四个可执行动作A_i＝{A_j|j∈{0，1，2，3}}，分别对应：停车(A₀)、直行(A₁)、驶入左侧线(A₂)和驶入右侧线(A₃)。动作的定义均以列车的运行方向为基准。此外，由于列车运行方向的不同和道岔的设置，列车在每个区段上实际可执行的动作不会超过三个，且任何区段都可以执行停车的动作。列车可执行动作与不同类型区段的对应关系如表2所示。

表2本发明中各区段类型及列车可选的运行路径

对于回报函数R(S_k，A_i)而言，列车执行过动作A_i后，进入下一状态S_k′并获得一个回报值R，回报值将指导算法模型的收敛方向。回报函数设置的总体原则是：列车向终点站方向运行和到达终点站时给予奖励，列车的动作可能引发冲突或产生更长时间延误时惩罚。例如，当前方区段有车占用时，列车若选择驶入则给予惩罚R₀，选择避让则给予奖励R₁，具体的设置方案如表3所示。此外，为引导列车一直向着终点站的方向运行并减小整体的晚点时间，故列车只要未到达车站时就会得到惩罚R₅，保持运行就会得到奖励R₄；当列车到达终点站和经停站时，会分别给予数值较大的奖励R₂和R₃。本发明中设置R₀＝-25，R₁＝5，R₂＝50，R₃＝30，R₄＝15，R₅＝-100。但需要说明，本发明设置的上述奖励的具体数值仅仅是一组优选值，并不是固定的、唯一的，该具体数值可根据实际情况自行设定。

表3本发明中不同列车区段下动作空间A_i和回报值R的对应关系

步骤S1.3、将包括(S_k，A_i，R，S_k′)这四种信息的所述历史运行数据存储于数据库中，用于所述双对抗神经网络模型的训练和参数更新。

本实施例中，所述双对抗神经网络模型是一种基于双对抗神经网络强化学习的高速列车智能调度控制模型，此模型可以估计出列车在某个状态下执行各个动作的价值，价值越高则动作越优。此双对抗神经网络模型中包括两个结构完全相同的对抗神经网络：Q-Evaluate Net和Q-TargetNet，由这两个对抗神经网络的模型组合形成双对抗神经网络模型，所述双对抗神经网络模型的训练过程和对高速列车智能调度控制的作用机理如图4和图5所示，下面分别介绍Q-Evaluate Net结构模型和Q-TargetNet结构模型的搭建过程。

步骤S2、根据所述历史运行数据建立Q-Evaluate Net结构模型。所述Q-EvaluateNet结构模型包括第一输入层、第一隐藏层、第一状态价值层、第一动作优势层和第一输出层。

所述步骤S2具体包括以下步骤：

步骤S2.1、在建立所述第一输入层时，输入列车k的当前状态S_k，以1*N的行向量的方式呈现，表示列车运行中N种不同的信息，所述第一输入层包括N个输入节点。本实施例中，S_k的表示方式为1*11的行向量，代表了列车运行中11种不同的信息，具体形式为S_k＝[S_k0，S_k1，S_k2，…，S_k10]。因此，Q-Evaluate Net结构模型的输入层包括11个输入节点。

步骤S2.2、在建立所述第一隐藏层时，所述第一隐藏层完成输入数据到输出的非线性变换，所述第一隐藏层具有1-3层，每层设置有128-256个神经元，本实施例中，共设置了2层第一隐藏层，即第一隐藏层1和第一隐藏层2。其中，第一隐藏层1包括256个神经元，第一隐藏层2包括128个神经元。不同层的所述神经元之间采用全连接的连接方式，同层的所述神经元之间不可连接；所述神经元之间的连接表示上一层输出变量的权重ω_i，且每层所述神经元均设置偏置项b_i。隐藏层用于完成输入信息的提取和数据维度的转换。设第i层隐藏层中包含n_i个神经元，x_i-1表示第i层隐藏层的输入，x₀表示输入层，y_i为第i层隐藏层的输出，其表示式为：

y_i＝f(x_i-1ω_i+b_i),i∈N⁺；

其中，

表示第i-1层到第i层的权重值矩阵；b_i表示第i层的偏置项；f()表示激活函数。

步骤S2.3、在建立所述第一状态价值层时，由于第一状态价值层反应了某个状态自身具有的价值，故所述第一状态价值层仅包括一个输出节点。

步骤S2.4、在建立所述第一动作优势层时，第一动作优势层反应了在某个状态下，执行不同动作的优势价值。此结构可以更明显的区分出不同动作的质量。第一动作优势层的输出维度与所述动作空间A_i中包括的动作数量相等，所述动作空间A_i中包括四个动作，所述第一动作优势层也包括四个输出节点。

本发明中，状态价值层和动作优势层在本质上为神经网络层级相同但维度不同的输出层，与隐藏层之间采用全连接的连接方式。其中，状态价值层反应了某个状态自身具有的价值，故产生一维输出值。而动作优势层反应了在某个状态下，执行不同动作的优势价值，本实施例中的动作空间中共包括四个动作，故产生四维输出值。最终用于选择动作的Q值将通过状态价值层和动作优势层两部分计算得出。

步骤S2.5、在建立所述第一输出层时，由于模型最终的应用场景是根据列车的当前状态估计出执行不同动作的价值，动作价值越高表示动作越优，列车会选取最高价值对应的最优动作执行。所述第一输出层的维度和动作空间中包括的动作数量相等，故输出层包括四个输出值Q_E，表示为{Q_E0，Q_E1，Q_E2，Q_E3}，并计其中最大值为Q_E；

所述第一输出层表示所述Q-Evaluate Net结构模型估计出的各动作的价值，动作的价值与当前的状态价值和动作优势值有关，其中，状态价值描述了某个状态自身具有的价值；动作优势值反应了在某个状态下，执行不同动作的优势价值。通过公式计算得到：

其中，Q_Ei(S_k,A_i)表示列车k在当前状态S_k时通过所述Q-Evaluate Net结构模型估计出的执行动作A_i的价值，V(S_k)表示当前状态S_k具有的价值，a(S_k,A_i)表示在当前状态下执行动作A_i的动作优势值。

本发明中，最终输出层输出的是Q-Evaluate Net在列车某状态下估计出的各动作的价值，列车将选取最高价值对应的最优动作执行。输出层和神经网络不存在连接关系，仅依靠状态价值层和动作优势层产生的输出值并根据公式计算得到最终的四维输出值。

步骤S3、根据所述历史运行数据建立Q-TargetNet结构模型。

所述步骤S3具体包括以下步骤：

步骤S3.1、在建立所述第二输入层时，输入列车k的下一个状态S_k′，以1*N的行向量的方式呈现，表示列车运行中N种不同的信息，所述第二输入层包括N个输入节点；

步骤S3.3、在建立所述第二隐藏层时，所述第二隐藏层完成输入数据到输出的非线性变换，所述第二隐藏层具有1-3层，每层设置有128-256个神经元，本实施例中，共设置了2层第二隐藏层，即第二隐藏层1和第二隐藏层2。其中，第二隐藏层1包括256个神经元，第二隐藏层2包括128个神经元。不同层的所述神经元之间采用全连接的连接方式，同层的所述神经元之间不可连接；所述神经元之间的连接表示上一层输出变量的权重ω_i，且每层所述神经元均设置偏置项b_i；

步骤S3.3、在建立所述第二状态价值层时，所述第二状态价值层包括一个输出节点；

步骤S3.4、在建立所述第二动作优势层时，所述第二动作优势层的输出维度与所述动作空间A_i中包括的动作数量相等，所述动作空间A_i中包括四个动作，所述第二动作优势层也包括四个输出节点；

步骤S3.5、在建立所述第二输出层时，所述第二输出层的维度和动作空间中包括的动作数量相等，故输出层包括四个输出值Q_C，表示为{Q_C0，Q_C1，Q_C2，Q_C3}；同时，将列车k的下一个状态S_k′输入到所述Q-Evaluate Net结构模型中得到四维输出{Q_E0，Q_E1，Q_E2，Q_E3}，取其中最大值输出对应的动作，并找到该动作在所述Q-TargetNet结构模型中对应的输出Q_C，并通过公式计算得到目标值Q_T：

其中，Q_T(S_k,A_i)表示在当前状态S_k下，选择动作A_i的目标值；R(S_k,A_i)表示列车运行数据中记录的回报值；γ为衰减系数，γ越大，模型则会更多考虑长期回报带来的影响，本实施例中γ取值为0.9，这是一个优选值，还可以设置为其他值；argmaxQ(S_k′,A_i；θ_t)表示取S_k′输入到所述Q-Evaluate Net结构模型后得到的四维输出值中，最大值所对应的动作；θ_t表示所述Q-Evaluate Net结构模型的参数，包括所有的输出变量的权重ω_i和偏置项b_i；

表示所述Q-Target Net结构模型的参数。

应说明的是，本发明中，Q-Evaluate Net结构模型包括第一输入层、第一隐藏层、第一状态价值层、第一动作优势层和第一输出层。而Q-TargetNet结构模型包括第二输入层、第二隐藏层、第二状态价值层、第二动作优势层和第二输出层。实际上，Q-TargetNet结构模型的各部分结构与Q-Evaluate Net结构模型完全相同，但两者的输入和输出不同。Q-Evaluate Net结构模型输入的是列车k的当前状态S_k，输出的是四维输出{Q_E0，Q_E1，Q_E2，Q_E3}，而Q-Target Net结构模型输入的是列车k的下一个状态S_k′，输出的是四维输出{Q_C0，Q_C1，Q_C2，Q_C3}。另外，Q-TargetNet结构模型的参数更新频率低于Q-Evaluate Net结构模型。最终由两者构成的双对抗神经网络模型的结构如图6所示。

本发明中，Q-Evaluate Net结构模型用于估计各动作的价值，并取其中的最高值记为Q_E。而Q-TargetNet结构模型用于计算Q-Evaluate Net结构模型中估计出的Q_E的目标值Q_T，以指导神经网络的收敛方向，使得Q_E的值更加准确地描述最优动作的价值。神经网络训练的目标是使Q_E的数值不断向Q_T逼近，即最小化二者之间的损失值。

简单来说，Q_E的计算过程为：将列车历史运行数据中的当前状态S_k输入到Q-Evaluate Net结构模型中得到四维输出{Q_E0，Q_E1，Q_E2，Q_E3}，并选取最大值Q_E。而Q_T的计算过程为：将列车历史运行数据中的下一状态S_k′输入到Q-TargetNet结构模型中，得到一组四维输出{Q_C0，Q_C1，Q_C2，Q_C3}。同时，S_k′也被输入到Q-Evaluate Net结构模型中得到四维输出，取其输出最大值对应的动作在Q-TargetNet结构模型中的输出Q_Ci，并通过公式计算进一步得到Q_T。

步骤S4、对由所述Q-Evaluate Net结构模型和所述Q-TargetNet结构模型形成的双对抗神经网络模型进行训练，得到优化后的双对抗神经网络模型。具体包括：

步骤S4.1、从数据库中随机抽取M条历史运行数据，分别计算得到所述Q-EvaluateNet结构模型的输出值Q_E＝{Q_E1，Q_E2，Q_E3，…，Q_EM}和所述Q-Target Net结构模型的输出值计算得到的目标值Q_T＝{Q_T1，Q_T2，Q_T3，…，Q_TM}；

步骤S4.2、定义损失函数。损失函数反映了Q_E与Q_T之间的误差和神经网络参数的关系。本发明中采用均方损失函数J(ω_i,b_i)，将Q_E和Q_T带入损失函数中计算得到损失值，所述损失函数计算公式为：

其中，J(ω_i,b_i)表示损失函数计算得到的损失值，ω_i表示输出变量的权重，b_i表示偏置项；M表示输出值的总个数；Q_Ei表示所述Q-Evaluate Net结构模型的输出值，i＝1，2，…，M；Q_Ti表示所述Q-TargetNet结构模型的输出值计算得到的目标值，i＝1，2，…M。

步骤S4.3、定义优化器。优化器的作用是以最快速度找到最小损失值对应的神经网络参数。Adam优化器是应用较为广泛的优化器类型之一，其利用一阶矩估计(即梯度的均值)和二阶矩估计(即梯度的未中心化的方差)，动态调整每个参数的学习率，适用于大多非凸优化和高维空间。利用Adam优化器得到损失值最小时对应的参数θ_t，反向传播回所述Q-Evaluate Net结构模型完成θ_t的更新；参数θ_t更新后不会反向传播回所述Q-TargetNet结构模型，所述Q-TargetNet结构模型的参数

将在θ_t每迭代更新10次后，直接复制θ_t以完成参数的更新。本实施例中将学习率设置为0.00025，但需要说明，这个值仅是一个优选值，并不是固定的、唯一的，可根据实际情况自行设置。

应说明的是，本实施例中，Q-Evaluate Net结构模型和Q-Target Net结构模型以及结合后的双对抗神经网络模型均是采用Python编程语言中的Pytorch模块搭建的，还可以采用其他的建模编程软件进行模块搭建。将计算得到的Q_E和Q_T值作为估计值和目标值进行训练，使得估计值向目标值收敛，以更加准确地描述不同状态下执行各动作的价值，并根据损失函数的变化确定最佳的双对抗神经网络模型。并且，本发明利用现有的列车的实绩运行数据对双对抗神经网络模型进行训练，有效节约了训练和测试成本，提升了模型的测试精度，保证了基于对双对抗神经网络模型生成的最佳调度方案的有效性、可靠性。

步骤S5、将列车的当前状态信息输入至所述优化后的双对抗神经网络模型，得到列车在当前状态下的最优执行动作，根据最优执行动作对列车进行调度调整，达到缩短延误时间的目的。

当管辖范围内的列车出现大面积晚点时，将各辆列车的当前状态S_k分别输入到深度学习优化后的双对抗神经网络模型中，即可得到各辆列车在当前状态下可执行的最优执行动作，调度员按此动作向列车下达调度调整命令，使列车尽快恢复正常的运行秩序，有效缩减列车的晚点时间，保障列车的正常运营，提升了乘客的出行体验。同时，利用双对抗神经网络模型自动生成列车的最佳调度控制方案，根据最佳调度控制方案对列车进行调度调整，从而大幅减小调度员的工作量，降低了工作强度，提高了调度系统的智能化程度和调度效率。

为了验证本发明的性能及效果，同时设计了近似于人工调度经验的贪心策略，以对比两种方法的列车运行时间及列车冲突情况，并以京张高铁线路以及其中站内布置较为复杂的三站：北京北站、清河站、张家口站作为原型搭建了仿真环境进行测试。共进行了八组实验，实验1到实验8的列车运行密度依次递减。实验结果如图7和表4所示。实验结果表明，基于双对抗神经网络模型的高速列车智能调度控制方法(简称DDDQN方法)在列车晚点、运行密度较高的情况下，可以有效的缩短延列车误时间。并且，在部分实验中，贪心策略的调度方案出现了死锁的情况，而本发明的方法仍然可以给出避免列车死锁的调度方案，说明本发明的DDDQN方法可以避免列车的潜在冲突，在每个状态下均能选择最优动作执行。

表4贪心策略法和DDDQN方法的验证实验结果

本发明提出了一种高速列车智能调度控制方法，提出了一种基于Q-Evaluate Net和Q-Target Net构成的双对抗神经网络模型，利用列车运行管理调度子系统上现有的列车实绩运行数据对该双对抗神经网络模型进行训练，实现在列车出现晚点的情况下，自动调整列车的运行路径及停站时间，并生成列车运行调整计划，以达到减小列车延误时间并避免列车潜在冲突的目标，有效提升了列车的调度管理效率，缩短了列车的延误时间，对延误列车做出快速响应以及及时调度的同时，提升了乘客的出行感受，解决了传统人工凭经验调度列车的方式容易出现更大面积列车延误的问题，保证了每条路线上的每辆列车的有序行驶，有利于我国交通运输行业的发展。

实施例2

如图8所示，本实施例示出了一种高速列车智能调度控制系统，该系统具体包括：

历史运行数据获取和存储模块M1，用于获取并存储列车的历史运行数据；具体包括：

实绩运行信息获取单元M1-1，用于利用列车运行管理调度子系统获取列车的实绩运行信息；

历史运行数据获取单元M1-2，用于将所述实绩运行信息分类处理为四部分，即(S_k，A_i，R，S_k′)，并进行存储，得到所述历史运行数据；

其中，(S_k，A_i，R，S_k′)表示列车k在当前状态S_k执行调度员下达的调度动作A_i后进入下一个状态S_k′并得到一个回报值R，S_k表示列车的当前状态，A_i表示动作空间，S_k′表示列车的下一个状态，R表示根据回报函数规则反馈的回报值；

历史运行数据存储单元M1-3，用于将所述历史运行数据存储于数据库中，用于所述双对抗神经网络模型的训练和参数更新。

Q-Evaluate Net结构模型建立模块M2，用于根据所述历史运行数据建立Q-Evaluate Net结构模型；具体包括：

第一输入层建立单元M2-1，用于在建立所述第一输入层时，输入列车k的当前状态S_k，以1*N的行向量的方式呈现，表示列车运行中N种不同的信息，所述第一输入层包括N个输入节点；

第一隐藏层建立单元M2-2，用于在建立所述第一隐藏层时，所述第一隐藏层完成输入数据到输出的非线性变换，所述第一隐藏层具有1-3层，每层设置有128-256个神经元，不同层的所述神经元之间采用全连接的连接方式，同层的所述神经元之间不可连接；所述神经元之间的连接表示上一层输出变量的权重ω_i，且每层所述神经元均设置偏置项b_i；

第一状态价值层建立单元M2-3，用于在建立所述第一状态价值层时，所述第一状态价值层包括一个输出节点；

第一动作优势层建立单元M2-4，用于在建立所述第一动作优势层时，所述第一动作优势层的输出维度与所述动作空间A_i中包括的动作数量相等，所述动作空间A_i中包括四个动作，所述第一动作优势层也包括四个输出节点；

第一输出层建立单元M2-5，用于在建立所述第一输出层时，所述第一输出层的维度和动作空间中包括的动作数量相等，故输出层包括四个输出值Q_E，表示为{Q_E0，Q_E1，Q_E2，Q_E3}，并计其中最大值为Q_E；

所述第一输出层表示所述Q-Evaluate Net结构模型估计出的各动作的价值，动作的价值与当前的状态价值和动作优势值有关，通过公式计算得到：

其中，Q_Ei(S_k,A_i)表示列车k在当前状态S_k时通过所述Q-Evaluate Net结构模型估计出执行动作A_i的价值，V(S_k)表示当前状态S_k具有的价值，a(S_k,A_i)表示在当前状态下执行动作A_i的动作优势值。

Q-Target Net结构模型建立模块M3，用于根据所述历史运行数据建立Q-TargetNet结构模型；具体包括：

第二输入层建立单元M3-1，用于在建立所述第二输入层时，输入列车k的下一个状态S_k′，以1*N的行向量的方式呈现，表示列车运行中N种不同的信息，所述第二输入层包括N个输入节点；

第二隐藏层建立单元M3-2，用于在建立所述第二隐藏层时，所述第二隐藏层完成输入数据到输出的非线性变换，所述第二隐藏层具有1-3层，每层设置有128-256个神经元，不同层的所述神经元之间采用全连接的连接方式，同层的所述神经元之间不可连接；所述神经元之间的连接表示上一层输出变量的权重ω_i，且每层所述神经元均设置偏置项b_i；

第二状态价值层建立单元M3-3，用于在建立所述第二状态价值层时，所述第二状态价值层包括一个输出节点；

第二动作优势层建立单元M3-4，用于在建立所述第二动作优势层时，所述第二动作优势层的输出维度与所述动作空间A_i中包括的动作数量相等，所述动作空间A_i中包括四个动作，所述第二动作优势层也包括四个输出节点；

第二输出层建立单元M3-5，用于在建立所述第二输出层时，所述第二输出层的维度和动作空间中包括的动作数量相等，故输出层包括四个输出值Q_C，表示为{Q_C0，Q_C1，Q_C2，Q_C3}；同时，将列车k的下一个状态S_k′输入到所述Q-Evaluate Net结构模型中得到四维输出{Q_E0，Q_E1，Q_E2，Q_E3}，取其中最大值输出对应的动作，并找到该动作在所述Q-TargetNet结构模型中对应的输出Q_C，并通过公式计算得到目标值Q_T：

其中，Q_T(S_k,A_i)表示在当前状态S_k下，选择动作A_i的目标值；R(S_k,A_i)表示列车运行数据中记录的回报值；γ为衰减系数；argmaxQ(S_k′,A_i；θ_t)表示取S_k′输入到所述Q-Evaluate Net结构模型后得到的四维输出值中，最大值所对应的动作；θ_t表示所述Q-Evaluate Net结构模型的参数，包括所有的输出变量的权重ω_i和偏置项b_i；

表示所述Q-TargetNet结构模型的参数。

双对抗神经网络模型训练模块M4，用于对由所述Q-Evaluate Net结构模型和所述Q-TargetNet结构模型形成的双对抗神经网络模型进行训练，得到优化后的双对抗神经网络模型；具体包括：

数据选择计算单元M4-1，用于从数据库中随机抽取M条历史运行数据，分别计算得到所述Q-Evaluate Net结构模型的输出值Q_E＝{Q_E1，Q_E2，Q_E3，…，Q_EM}和所述Q-TargetNet结构模型的输出值计算得到的目标值Q_T＝{Q_T1，Q_T2，Q_T3，…，Q_TM}；

损失值计算单元M4-2，用于将Q_E和Q_T带入损失函数中计算得到损失值，所述损失函数计算公式为：

其中，J(ω_i,b_i)表示损失函数计算得到的损失值，ω_i表示输出变量的权重，b_i表示偏置项；M表示输出值的总个数；Q_Ei表示所述Q-Evaluate Net结构模型的输出值，i＝1，2，…，M；Q_Ti表示所述Q-TargetNet结构模型的输出值计算得到的目标值，i＝1，2，…M；

模型参数更新单元M4-3，用于利用Adam优化器得到损失值最小时对应的参数θ_t，反向传播回所述Q-Evaluate Net结构模型完成θ_t的更新；参数θ_t更新后不会反向传播回所述Q-TargetNet结构模型，所述Q-TargetNet结构模型的参数

将在θ_t每迭代更新10次后，直接复制θ_t以完成参数的更新。

最优调度策略输出模块M5，用于将列车的当前状态信息输入至所述优化后的双对抗神经网络模型，得到列车在当前状态下的最优执行动作，根据所述最优执行动作对列车进行调度调整。

本发明提出了一种高速列车智能调度控制方法和系统，首先获取并存储列车的历史运行数据；然后根据历史运行数据分别建立Q-Evaluate Net结构模型和Q-TargetNet结构模型并形成双对抗神经网络模型；再对双对抗神经网络模型进行训练，得到优化后的双对抗神经网络模型；最终将列车的当前状态信息输入至所述优化后的双对抗神经网络模型，智能化地自动输出各辆列车的最优调度调整策略。当列车出现延误时，根据最优调度调整策略动态调整列车运行图，代替传统人工完全凭经验调度的方式，可调整各列车在站内的运行路径、通行顺序和停站时间等，从而避免了发生列车冲突和死锁的情况，有效缩短列车的延误时间，解决了传统人工调度方式容易出现更大面积列车延误的问题，进而提升了乘客的出行感受。

以上所述，仅为本发明较佳的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭示的技术范围内，可轻易想到的变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的包括范围应该以权利要求的保护范围为准。

本说明书中各个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。本说明书中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处。综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种高速列车智能调度控制方法，其特征在于，包括：

获取并存储列车的历史运行数据；

根据所述历史运行数据建立Q-Evaluate Net结构模型；

根据所述历史运行数据建立Q-Target Net结构模型；

对由所述Q-Evaluate Net结构模型和所述Q-Target Net结构模型形成的双对抗神经网络模型进行训练，得到优化后的双对抗神经网络模型；

2.根据权利要求1所述的高速列车智能调度控制方法，其特征在于，所述获取并存储列车的历史运行数据，具体包括：

利用列车运行管理调度子系统获取列车的实绩运行信息；

将所述实绩运行信息分类处理为(S_k，A_i，R，S_k′)四部分，得到所述历史运行数据；

将所述历史运行数据存储于数据库中，用于所述双对抗神经网络模型的训练和参数更新。

3.根据权利要求2所述的高速列车智能调度控制方法，其特征在于，所述Q-EvaluateNet结构模型包括第一输入层、第一隐藏层、第一状态价值层、第一动作优势层和第一输出层；

所述根据所述历史运行数据建立Q-Evaluate Net结构模型，具体包括：

在建立所述第一输入层时，输入列车k的当前状态S_k，以1*N的行向量的方式呈现，表示列车运行中N种不同的信息，所述第一输入层包括N个输入节点；

在建立所述第一隐藏层时，所述第一隐藏层完成输入数据到输出的非线性变换，所述第一隐藏层具有1-3层，每层设置有128-256个神经元，不同层的所述神经元之间采用全连接的连接方式，同层的所述神经元之间不连接；所述神经元之间的连接表示上一层输出变量的权重ω_i，且每层所述神经元均设置偏置项b_i；

在建立所述第一状态价值层时，所述第一状态价值层包括一个输出节点；

在建立所述第一动作优势层时，所述第一动作优势层的输出维度与所述动作空间A_i中包括的动作数量相等，所述动作空间A_i中包括四个动作，所述第一动作优势层也包括四个输出节点；

在建立所述第一输出层时，所述第一输出层的维度和动作空间中包括的动作数量相等，故输出层包括四个输出值Q_E，表示为{Q_E0，Q_E1，Q_E2，Q_E3}，并计其中最大值为Q_E；

其中，Q_Ei(S_k，A_i)表示列车k在当前状态S_k时通过所述Q-Evaluate Net结构模型估计出的执行动作A_i的价值，V(S_k)表示当前状态S_k具有的价值，a(S_k，A_i)表示在当前状态下执行动作A_i的动作优势值。

4.根据权利要求3所述的高速列车智能调度控制方法，其特征在于，所述Q-Target Net结构模型包括第二输入层、第二隐藏层、第二状态价值层、第二动作优势层和第二输出层；

所述根据所述历史运行数据建立Q-Target Net结构模型，具体包括：

在建立所述第二输入层时，输入列车k的下一个状态S_k′，以1*N的行向量的方式呈现，表示列车运行中N种不同的信息，所述第二输入层包括N个输入节点；

在建立所述第二隐藏层时，所述第二隐藏层完成输入数据到输出的非线性变换，所述第二隐藏层具有1-3层，每层设置有128-256个神经元，不同层的所述神经元之间采用全连接的连接方式，同层的所述神经元之间不连接；所述神经元之间的连接表示上一层输出变量的权重ω_i，且每层所述神经元均设置偏置项b_i；

在建立所述第二状态价值层时，所述第二状态价值层包括一个输出节点；

在建立所述第二动作优势层时，所述第二动作优势层的输出维度与所述动作空间A_i中包括的动作数量相等，所述动作空间A_i中包括四个动作，所述第二动作优势层也包括四个输出节点；

在建立所述第二输出层时，所述第二输出层的维度和动作空间中包括的动作数量相等，故输出层包括四个输出值Q_C，表示为{Q_C0，Q_C1，Q_C2，Q_C3}；同时，将列车k的下一个状态S_k′输入到所述Q-Evaluate Net结构模型中得到四维输出{Q_E0，Q_E1，Q_E2，Q_E3}，取其中最大值输出对应的动作，并找到该动作在所述Q-Target Net结构模型中对应的输出Q_C，并通过公式计算得到目标值Q_T：

其中，Q_T(S_k，A_i)表示在当前状态S_k下，选择动作A_i的目标值；R(S_k，A_i)表示列车运行数据中记录的回报值；γ为衰减系数；argmaxQ(S_k′，A_i；θ_t)表示取S_k′输入到所述Q-EvaluateNet结构模型后得到的四维输出值中，最大值所对应的动作；θ_t表示所述Q-Evaluate Net结构模型的参数，包括所有的输出变量的权重ω_i和偏置项b_i；

表示所述Q-Target Net结构模型的参数。

5.根据权利要求4所述的高速列车智能调度控制方法，其特征在于，所述对由所述Q-Evaluate Net结构模型和所述Q-Target Net结构模型形成的双对抗神经网络模型进行训练，得到优化后的双对抗神经网络模型，具体包括：

从数据库中随机抽取M条历史运行数据，分别计算得到所述Q-Evaluate Net结构模型的输出值Q_E＝{Q_E1，Q_E2，Q_E3，…，Q_EM}和所述Q-Target Net结构模型的输出值计算得到的目标值Q_T＝{Q_T1，Q_T2，Q_T3，…，Q_TM}；

将Q_E和Q_T带入损失函数中计算得到损失值，所述损失函数计算公式为：

其中，J(ω_i，b_i)表示损失函数计算得到的损失值，ω_i表示输出变量的权重，b_i表示偏置项；M表示输出值的总个数；Q_Ei表示所述Q-Evaluate Net结构模型的输出值，i＝1，2，…，M；Q_Ti表示所述Q-Target Net结构模型的输出值计算得到的目标值，i＝1，2，…M；

利用Adam优化器得到损失值最小时对应的参数θ_t，反向传播回所述Q-Evaluate Net结构模型完成θ_t的更新；参数θ_t更新后不会反向传播回所述Q-Target Net结构模型，所述Q-Target Net结构模型的参数

将在θ_t每迭代更新10次后，直接复制θ_t以完成参数的更新。

6.一种高速列车智能调度控制系统，其特征在于，包括：

Q-Evaluate Net结构模型建立模块，用于根据所述历史运行数据建立Q-Evaluate Net结构模型；

Q-Target Net结构模型建立模块，用于根据所述历史运行数据建立Q-TargetNet结构模型；

双对抗神经网络模型训练模块，用于对由所述Q-Evaluate Net结构模型和所述Q-Target Net结构模型形成的双对抗神经网络模型进行训练，得到优化后的双对抗神经网络模型；

7.根据权利要求6所述的高速列车智能调度控制系统，其特征在于，所述历史运行数据获取和存储模块，具体包括：

实绩运行信息获取单元，用于利用列车运行管理调度子系统获取列车的实绩运行信息；

历史运行数据获取单元，用于将所述实绩运行信息分类处理为(S_k，A_i，R，S_k′)四部分，得到所述历史运行数据；

历史运行数据存储单元，用于将行向量形式的所述历史运行数据存储于数据库中，用于所述双对抗神经网络模型的训练和参数更新。

8.根据权利要求7所述的高速列车智能调度控制系统，其特征在于，所述Q-EvaluateNet结构模型包括第一输入层、第一隐藏层、第一状态价值层、第一动作优势层和第一输出层；

所述Q-Evaluate Net结构模型建立模块，具体包括：

第一输入层建立单元，用于在建立所述第一输入层时，输入列车k的当前状态S_k，以1*N的行向量的方式呈现，表示列车运行中N种不同的信息，所述第一输入层包括N个输入节点；

第一隐藏层建立单元，用于在建立所述第一隐藏层时，所述第一隐藏层完成输入数据到输出的非线性变换，所述第一隐藏层具有1-3层，每层设置有128-256个神经元，不同层的所述神经元之间采用全连接的连接方式，同层的所述神经元之间不连接；所述神经元之间的连接表示上一层输出变量的权重ω_i，且每层所述神经元均设置偏置项b_i；

第一状态价值层建立单元，用于在建立所述第一状态价值层时，所述第一状态价值层包括一个输出节点；

第一动作优势层建立单元，用于在建立所述第一动作优势层时，所述第一动作优势层的输出维度与所述动作空间A_i中包括的动作数量相等，所述动作空间A_i中包括四个动作，所述第一动作优势层也包括四个输出节点；

第一输出层建立单元，用于在建立所述第一输出层时，所述第一输出层的维度和动作空间中包括的动作数量相等，故输出层包括四个输出值Q_E，表示为{Q_E0，Q_E1，Q_E2，Q_E3}，并计其中最大值为Q_E；

9.根据权利要求8所述的高速列车智能调度控制系统，其特征在于，所述Q-Target Net结构模型包括第二输入层、第二隐藏层、第二状态价值层、第二动作优势层和第二输出层；

所述Q-Target Net结构模型建立模块，具体包括：

第二输入层建立单元，用于在建立所述第二输入层时，输入列车k的下一个状态S_k′，以1*N的行向量的方式呈现，表示列车运行中N种不同的信息，所述第二输入层包括N个输入节点；

第二隐藏层建立单元，用于在建立所述第二隐藏层时，所述第二隐藏层完成输入数据到输出的非线性变换，所述第二隐藏层具有1-3层，每层设置有128-256个神经元，不同层的所述神经元之间采用全连接的连接方式，同层的所述神经元之间不连接；所述神经元之间的连接表示上一层输出变量的权重ω_i，且每层所述神经元均设置偏置项b_i；

第二状态价值层建立单元，用于在建立所述第二状态价值层时，所述第二状态价值层包括一个输出节点；

第二动作优势层建立单元，用于在建立所述第二动作优势层时，所述第二动作优势层的输出维度与所述动作空间A_i中包括的动作数量相等，所述动作空间A_i中包括四个动作，所述第二动作优势层也包括四个输出节点；

第二输出层建立单元，用于在建立所述第二输出层时，所述第二输出层的维度和动作空间中包括的动作数量相等，故输出层包括四个输出值Q_C，表示为{Q_C0，Q_C1，Q_C2，Q_C3}；同时，将列车k的下一个状态S_k′输入到所述Q-Evaluate Net结构模型中得到四维输出{Q_E0，Q_E1，Q_E2，Q_E3}，取其中最大值输出对应的动作，并找到该动作在所述Q-Target Net结构模型中对应的输出Q_C，并通过公式计算得到目标值Q_T：

其中，Q_r(S_k，A_i)表示在当前状态S_k下，选择动作A_i的目标值；R(S_k，A_i)表示列车运行数据中记录的回报值；γ为衰减系数；argmaxQ(S_k′，A_i；θ_t)表示取S_k′输入到所述Q-EvaluateNet结构模型后得到的四维输出值中，最大值所对应的动作；θ_t表示所述Q-Evaluate Net结构模型的参数，包括所有的输出变量的权重ω_i和偏置项b_i；

表示所述Q-Target Net结构模型的参数。

10.根据权利要求9所述的高速列车智能调度控制系统，其特征在于，所述双对抗神经网络模型训练模块，具体包括：

数据选择计算单元，用于从数据库中随机抽取M条历史运行数据，分别计算得到所述Q-Evaluate Net结构模型的输出值Q_E＝{Q_E1，Q_E2，Q_E3，…，Q_EM}和所述Q-Target Net结构模型的输出值计算得到的目标值Q_T＝{Q_T1，Q_T2，Q_T3，…，Q_TM}；

损失值计算单元，用于将Q_E和Q_T带入损失函数中计算得到损失值，所述损失函数计算公式为：

其中，J(ω_i，b_i)表示损失函数计算得到的损失值，ω_i表示输出变量的权重，b_i表示偏置项；M表示输出值的总个数；Q_Ei表示所述Q-Evaluate Net结构模型的输出值，i＝1，2，…，M；Q_Ti表示所述Q-TargetNet结构模型的输出值计算得到的目标值，i＝1，2，…M；

模型参数更新单元，用于利用Adam优化器得到损失值最小时对应的参数θ_t，反向传播回所述Q-Evaluate Net结构模型完成θ_t的更新；参数θ_t更新后不会反向传播回所述Q-TargetNet结构模型，所述Q-Target Net结构模型的参数

将在θ_t每迭代更新10次后，直接复制θ_t以完成参数的更新。