CN111369181A

CN111369181A - 一种列车自主调度深度强化学习方法和模块

Info

Publication number: CN111369181A
Application number: CN202010481727.1A
Authority: CN
Inventors: 韦伟; 刘岭; 张�杰; 李擎; 王舟帆
Original assignee: CRSC Research and Design Institute Group Co Ltd
Current assignee: CRSC Research and Design Institute Group Co Ltd
Priority date: 2020-06-01
Filing date: 2020-06-01
Publication date: 2020-07-03
Anticipated expiration: 2040-06-01
Also published as: CN111369181B

Abstract

本发明提出一种列车自主调度深度强化学习方法和模块，基于轨道交通数据，以列车运行状态S、列车动作A、根据列车运行状态S和列车动作A组成的回报R（S，A）、采取动作后达到的后续状态S´建立N个单列列车四元组（S，A，R，S´），选择n个四元组（S，A，R，S´），计算梯度值，利用梯度值更新值函数神经网络参数，判断值函数神经网络参数是否达到预定条件，若值函数神经网络参数达到预定条件，停止更新值函数神经网络参数，若值函数神经网络参数未达到预定条件，重新选择n个四元组（S，A，R，S´），继续更新值函数神经网络参数，得到训练好的值函数神经网络，训练好的值函数神经网络可用于列车调度。

Description

一种列车自主调度深度强化学习方法和模块

技术领域

本发明属于轨道交通领域，特别涉及一种列车自主调度深度强化学习方法和模块。

背景技术

既有运输组织模式下，运输计划通常是基于阶段的客流需求预测进行编制。在短时间内，由于实时客流需求的波动，运输供给和运输需求存在一定不匹配关系，从而导致运输系统服务水平降低。同时，由于列车在运行过程中受到各种外部因素的影响，列车运行逐渐偏离运行时刻表和既定节能操纵曲线，列车运行的准点性和节能性难以保证。因此，针对实际运行情况进行列车运行调度是解决这一问题的重要手段。

既有的关于列车运行调度的研究主要为集中式调度。集中式调度方法通过建立列车调度的优化模型并进行求解，从而生成列车运行调度方案。然而，在列车运行过程中，需要考虑的周边环境和运输需求异常复杂且呈现较强的动态时变特性，而集中式调度方法往往难以适应实时性和灵活性要求较高的应用场景。在轨道交通系统调度任务的非线性和实时性要求下，其不仅存在求解时间过长的问题，在动态调度场景下其灵活性也受到制约。

发明内容

针对上述问题，本发明提出一种列车自主调度深度强化学习方法，基于轨道交通数据，以列车运行状态S、列车动作A、根据列车运行状态S和列车动作A组成的回报R（S，A）、采取动作后达到的后续状态S´建立N个单列列车四元组（S，A，R，S´）；

选择n个四元组（S，A，R，S´），计算所述n个四元组（S，A，R，S´）的梯度值，利用梯度值更新值函数神经网络参数；

判断值函数神经网络参数是否达到预定条件，若值函数神经网络参数达到预定条件，停止更新值函数神经网络参数，若值函数神经网络参数未达到预定条件，重新选择n个四元组（S，A，R，S´），继续更新值函数神经网络参数。

优选地，所述列车运行状态S在t时刻具体包括：

L_t为列车在t时刻与其前车间的间隔时间，

Ps_t为列车根据时刻表到达前方所有车站时，在t时刻所预测的这些车站的单位时间产生的候车客流量向量，

Pt_t为列车在t时刻的实时载客量，

T_t为列车从出发开始到达目前为止的运行时间，

l_t为列车t时刻所在线路，

y_t为列车在所在线路上的里程位置，

v_t为列车在t时刻的运行速度，

z_t为列车在t时刻的加速度，

σ_t为列车在t时刻是否在车站停靠（0表示未停靠，1表示停靠）。

优选地，基于ε-greedy策略生成列车动作A，具体包括以下步骤：

初始化列车运行状态；

确定ε数值；

产生一个区间[0，1]之内的随机数；

若该随机数小于ε，则从所有可能的动作中随机选择一个动作；

若该随机数大于等于ε，则将当前列车运行状态S输入值函数神经网络，选择值函数最大的动作

，作为当前采取的动作A。

优选地，基于旅客等待时间成本、列车采用动作A_t的能耗成本、列车在状态S_t下的安全间隔超限成本和列车在状态S_t下的准点超限成本获取t时刻回报R（S_t，A_t）。

优选地，基于单位旅客候车时间成本、列车与前车实时间隔时间、列车位于运行线路第几个车站、候车客流量获取旅客等待时间成本。

优选地，基于列车t时刻牵引功率、决策过程离散时间长度、单位能耗成本、工况转换固定成本获取列车采用动作A_t的能耗成本。

优选地，基于列车间隔时间超限的单位经济成本系数、列车在t时刻与其前车间的间隔时间和列车之间的最小安全间隔时间获取安全间隔超限成本。

优选地，基于目前为止的总运行时间、列车到达当前位置允许的最短时间、列车到达当前位置允许的最长时间和列车不准点的单位经济成本系数获取准点超限成本。

优选地，存储建立后的N个单列列车四元组（S，A，R，S´）。

优选地，随机选择n个四元组（S，A，R，S´），计算所述n个四元组（S，A，R，S´）的梯度值，利用梯度值更新值函数神经网络参数。

优选地，所述选择n个四元组（S，A，R，S´），计算所述n个四元组（S，A，R，S´）的梯度值，利用梯度值更新值函数神经网络参数具体包括：

将列车状态S输入目标值函数神经网络Q^-，计算时间差分目标：

γ为回报函数的折扣系数，

Q表示当前值函数神经网络，

θ为当前值函数神经网络参数，

θ^-为目标值函数神经网络参数，

计算损失函数：

利用第i个四元组更新参数θ：

优选地，基于优先经验回放机制选择n个四元组（S，A，R，S´），则

其中，η为梯度下降步长，

ω_i为重要性采样系数，

P（i）为采样概率

u为防止除零而添加的参数。

优选地，建立N个单列列车四元组（S，A，R，S´）后，对N个单列列车四元组（S，A，R，S´）进行规则化处理。

本发明还一种列车自主调度深度强化学习模块，包括：

学习型智能体，用于探索基于轨道交通数据，以列车运行状态S、列车动作A、根据状态和动作组成的回报R（S，A）、采取动作后达到的后续状态S´建立的N个单列列车四元组（S，A，R，S´）；用于判断值函数神经网络参数是否达到预定条件，若值函数神经网络参数达到预定条件，停止更新值函数神经网络参数，若值函数神经网络参数未达到预定条件，继续更新值函数神经网络参数；

深度神经网络，用于选择n个四元组（S，A，R，S´），计算所述n个四元组（S，A，R，S´）的梯度值，利用梯度值更新值函数神经网络参数；

回报函数单元，用于计算回报R（S，A）。

优选地，还包括：

数据规则化处理单元，用于对四元组（S，A，R，S´）进行规则化处理；

缓存回放记忆器，用于存储经规则化处理后的四元组（S，A，R，S´）；

数据传输单元，用于建立深度强化学习模块内部实时通信。

本发明的列车自主调度深度强化学习方法和模块，利用轨道交通数据构成的四元组对值函数神经网络进行训练，得到训练好的值函数神经网络，训练好的值函数神经网络可用于列车调度，输入当前列车运行状态至值函数神经网络，即可得到列车当前最优动作，从而提高调度的实时性和灵活性。

本发明的其它特征和优点将在随后的说明书中阐述，并且，部分地从说明书中变得显而易见，或者通过实施本发明而了解。本发明的目的和其他优点可通过在说明书、权利要求书以及附图中所指出的结构来实现和获得。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1示出了列车自主调度原理示意图；

图2示出了深度强化学习模块与仿真模块交互示意图；

图3示出了列车自主调度原理示意图；

图4示出了枢纽/车站仿真内容关系图；

图5示出了线网运输过程仿真内容关系图；

图6示出了基于OD-SpaseSTnet的旅客等待时间成本计算示意图；

图7示出了列车采用动作A_t的能耗成本计算示意图；

图8示出了安全间隔超限成本计算示意图；

图9示出了准点超限成本计算示意图；

图10示出了值函数神经网络结构示意图；

图11示出了考虑优先经验回放的DDQN详细流程图；

图12示出了列车自主调度系统结构示意图；

图13示出了仿真模块的结构示意图；

图14示出了轨道交通网络列车自主调度分布式实施架构图；

图15示出了仿真模块和深度强化学习模块部分结构示意图；

图16示出了仿真模块和深度强化学习模块部分结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地说明，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

为解决集中式调度模式所存在的问题，本发明的实施例提出一种列车自主调度的方法，其原理如图1所示。在列车自主调度模式中，每列车根据列车自身状态、既定运输计划、与其他列车关系、列车自身运行能耗、车站客流进行列车操纵策略的调整，从而在保证列车运行安全和准点的前提下，降低列车运行能耗和旅客等待时间。相对于传统的集中式调度，分布式列车调度具备以下优势：

调度决策针对单列车进行，调度的实时性和灵活性较高，能够适应复杂场景下的调度任务，同时有助于简化列车调度系统，降低系统建设成本；

根据列车运行环境直接生成列车操纵策略，可实现列车运行调度策略的生成和实施的高度耦合，减少中间过程，提高列车运行调度的可靠性。

根据列车自主调度原理，首先需要构建一种列车智能调度仿真模块，利用仿真模块仿真实际轨道交通系统，利用DDQN算法（深度强化学习算法），以保证列车运行安全性和准点性、降低列车运行能耗和旅客等待时间为目标，对列车自主调度决策智能体进行训练，经过深度强化学习训练的列车自主调度决策模型，即可用于在实际运行环境中动态生成列车自主调度方案。

在强化学习中，深度强化学习模块是以“试错”的方式进行学习，并通过与仿真模块进行交互获得的回报来指导行为，从而实现既定目标任务的一种决策主体。强化学习中深度强化学习模块与仿真模块的交互过程如图2所示。深度强化学习模块在完成某项任务时，首先通过动作与仿真模块进行交互，在动作和环境的作用下，仿真模块会产生新的状态，同时仿真模块会给出一个立即回报。如此循环下去，深度强化学习模块与环境不断地交互从而产生很多数据。深度强化学习算法利用产生的数据修改自身的动作策略，再与仿真模块交互，产生新的数据，并利用新的数据进一步改善自身的行为，经过数次迭代学习后，深度强化学习模块最终能够学到完成相应任务的最优动作（即产生最优动作的最优策略）。

利用深度强化学习方法对列车自主调度问题中的列车调度进行建模，首先需要对仿真模块和列车调度智能体设计。在列车运行调度仿真模块中，涉及到的实体较多，不是所有实体都需要进行抽象。列车是铁路路网系统中最主要的元素，也是列车运行智能调度研究的主体。因此，本实施例将单列列车作为列车自主调度的主体单元，在仿真模块中，仿真得到的线路、车站、设施设备以及旅客等其它对象均与列车自主调度智能体进行交互。

列车自主调度智能体作为高度自治的实体，能够根据设计的规则动态获取外部环境信息，并且拥有自己的知识和在特殊情况下的决策判断能力，所以能够适应复杂的路网环境。列车自主调度智能体结构如图3所示。列车调度智能决策模块是列车自主调度智能体的核心部分，通过该模块，列车自主调度智能体根据列车动力学特性、列车运行计划、固定设备状态、通过通信模块获知与其他列车之间关系，实时进行智能判断决策，从而保证列车运行的安全性和准点性，同时进一步降低列车运行能耗与旅客等待时间。

利用深度强化学习进行列车自主调度模型和调度方案研究，除了需要对轨道交通的列车自主调度智能体进行建模之外，还需对整个实际轨道交通系统进行仿真模拟。轨道交通系统仿真模拟包括枢纽/车站仿真和线网运输过程仿真两个部分。对实际轨道交通系统进行模拟仿真，可以在列车自主调度模型中考虑列车与列车、列车与运输计划、列车与客流之间的相互影响关系，从而通过对列车自主调度方案的优化来保证列车运行的安全性和准点性，并降低列车运行能耗和旅客候车时间。

1、枢纽/车站仿真

枢纽/车站仿真包括枢纽/车站模型搭建、列车进出站作业仿真、枢纽/车站内流线仿真、枢纽/车站旅客微观行为仿真等几个部分。枢纽/车站仿真的主要仿真模拟内容如图4所示。

环境搭建：枢纽网络搭建搭建

枢纽网络搭建主要根据枢纽拓扑网络图和枢纽内主要设施设备布局实现枢纽网络搭建，搭建的枢纽网络需反映枢纽内部设施设备相对关系、主要功能间逻辑关系以及枢纽内部与整体网络的逻辑关系。

列车流仿真：列车进出站仿真

列车进出站作业仿真需实现枢纽内列车严格地按照列车进出站时刻信息和接发车进路计划完成在枢纽的进出站作业。该功能需以列车时刻表和接发车作业计划为基础，列车在车站的运行需实现接发车进路计划和枢纽中车场的拓扑结构的匹配。

客流仿真：枢纽内流线仿真，枢纽旅客微观出行链仿真

根据枢纽网络结构和旅客在枢纽内主要的出行环节（包括进站、出站、安检、检票、乘降、等待、走行等），设计枢纽内主要的客流流线。该功能实现客流流线与构建的枢纽网络的匹配，根据实际客流需求实现客流在枢纽内的动态仿真评估。

根据旅客的出行属性、枢纽特征以及引导信息，获取旅客在枢纽中完整的出行过程并进行评估，出行过程包括完整的出行信息以及每个出行环节和枢纽内设施设备、车流的对应关系。

2、线网运输过程仿真

线网运输过程仿真是对列车运行的线路、区间、线网客流进行综合仿真模拟。其主要包括运输网络搭建、运输网络列车流仿真、列车区间追踪运行仿真、网络客流宏观态势仿真以及网络旅客微观出行链仿真。线网运输过程仿真的主要仿真模拟内容如图5所示。

环境搭建：运输网络环境搭建

运输网络环境搭建可根据交通线网拓扑结构和列车时刻表信息实现符合研究需求的时空拓展网络搭建。运输网络包含节点和弧段的主要属性信息，同时可清晰表示运输网络中节点间、弧段间、节点和弧段间的关系。

列车流仿真：列车进出站作业仿真，列车区间追踪运行仿真

列车运行仿真可实现网络中所有列车严格按照列车时刻表中的到发信息和列车运行径路在网络中运行。列车运行的仿真需要列车时刻表信息和列车运行径路，列车运行径路需要以运输网络为基础。

列车区间追踪仿真是以列车运行控制技术为核心实现列车在区间的安全、高效运行。该功能可仿真不同闭塞制式下的列车追踪运行并得到最小追踪列车间隔时间。

客流仿真：网络客流宏观态势仿真，网络旅客微观出行链仿真

该功能以实时客流量为输入，实现实时客流与运输网络、车流的时空匹配，预测当前和未来一段时间内客流在网络中的分布状态。该功能的实现以运输网络环境搭建和运输网络列车流仿真为基础。

根据旅客的出行属性、运输网络特征以及外界信息，通过仿真获取旅客在网络中完整的出行过程，出行过程包括完整的出行信息以及每个出行环节和运输网络、车流的对应关系，根据仿真结果进行出行链评估。

传统DQN算法在进行值函数拟合过程中，存在过估计的缺陷，即网络逼近得到的动作值函数比真实的动作值函数要大。而DDQN（Double DQN）算法可以有效的解决DQN算法中出现的过估计问题。DDQN算法在轨道交通系统的应用可以进一步优化轨道交通的自主调度策略。在基于深度强化学习对深度强化学习模块进行训练时，其目标是在确保每列车安全和准点的前提下，降低列车自身的能量消耗并减少旅客的候车时间。为简化所研究的列车自主调度过程，便于进行深度强化学习建模，本实施例引入如下假设：

列车运行过程中不考虑空气、弯道、坡道等附加作用力的影响，本实施例将列车看作运行在平直轨道上、且除牵引力之外不受其他外力作用的运动实体。

轨道交通线网中旅客的路径选择服从最短路原则，本实施例根据最短路径原则，将线网OD客流量（Original Destination,始发地和目的地客流）矩阵预测值在路网上进行分配，从而获得各线路各车站的进站客流量与换入客流量，从而作为基于列车自主调度方案的决策依据。

本实施例以单列列车为研究对象，对每辆列车的运行状态进行属性定义，其属性包括：列车运行的线路信息（列车与前车的实时距离和所在线路车站的实时客流）、车辆自身属性（列车当前载客量、重量、最大牵引力和最大制动力）和实时运行状态（列车的位置、速度、加速度），对于单列列车，t时刻的运行状态S_t如下式所表示：

其中，L_t表示列车在t时刻与其前车间的间隔时间；Ps_t表示列车根据时刻表到达前方所有车站时，在t时刻所预测的这些车站的单位时间产生的候车客流量向量；Pt_t表示列车在t时刻的实时载客量；T_t表示列车从出发开始、到达目前为止的总运行时间；l_t表示列车在t时刻所在线路(one-hot编码)；y_t表示列车在所在线路上的里程位置；v_t表示列车在t时刻的运行速度；z_t表示列车在t时刻的加速度；σ_t表示列车在t时刻是否在车站停靠（0表示未停靠，1表示停靠）。

在Ps_t中，设Ps_t ^h表示列车到达车站h时，t时刻所预测的前方车站h单位时间内产生的候车客流量（包括进站量和换入量），当列车已经过车站h时，Ps_t ^h为0。则Ps_t与Ps_t ^h关系为

。

回报函数构建

针对列车，在t时刻的回报函数R（S，A）在状态S_t下，采取动作A_t得到的回报函数R（S_t，A_t）如下所。本实施例将列车运行的回报值设为各种类型运行成本（或惩罚值）的相反数，

其中，D（S_t）为旅客等待时间成本，C（A_t）为列车采用动作A_t的能耗成本，F（S_t）为列车在状态S_t下的安全间隔超限成本，B（S_t）为列车在状态S_t下的列车准点超限成本。

对于旅客等待时间成本D（S_t），首先在t时刻对网络OD客流矩阵进行预测。然后，根据客流分配确定列车按照时刻表到达沿线所有站台时的候车客流量Ps_t ^h（进站量和换入量），其详细过程如图6所示。因此，t时刻状态下的旅客等待时间成本函数D（S_t），如下式所示：

其中，ω为单位旅客候车时间所造成的经济成本，L_t为t时刻列车与前车实时间隔时间。R_h代表车站h位于列车运行线路第几个车站。若列车h位于列车前方第1个车站，则R_h取值为1，依此类推；若列车已经经过列车车站h，则R_h取值为0。

设列车在t时刻状态S_t下，采取的动作可表示为A_t；根据列车车型及其自动驾驶系统（ATO）相关参数，设列车操纵（列车牵引或制动）的工况级位有n个级别，则列车在任意时刻可采取的驾驶工况

可取正整数集合

之内数值；列车在某一驾驶工况

，列车具有特定的牵引或制动加速度。因此，A_t表示的是列车从t时刻的工况

转移到t +1时刻工况

的状态转移动作，该动作的能耗成本函数C（A_t）可表示在下式中表示，

其中，

是列车在t时刻列车的牵引功率，为决策过程离散时段长度，为单位能耗成本，K为一个极大的正实数（可取

），为列车转换一次工况所导致损耗的固定经济成本，简称工况转换固定成本，函数

明确了在时刻t列车处于工况时，基于列车运行稳定性和乘客舒适考虑，是否禁止转换到工况

，若禁止转换

为1，可以转换为0。

当从t时刻到t+1时刻的工况保持不变且列车为加速运动时，该离散时间段内的列车运行能耗为

。当从t时刻到t+1时刻列车的工况发生变化，则列车运行能耗成本可仅仅只有工况转换成本（列车减速或匀速运动）

，或列车牵引能耗和工况转换能耗之和（列车加速运动）

，图7示出了列车运行过程中的能耗成本设置原理。

研究列车在状态S_t下的安全间隔超限成本F(S_t)的如下式所示，其中，L_t为研究列车在t时刻与其前车间的间隔时间，Md为列车之间的最小安全间隔时间，

为列车间隔时间超限的单位经济成本系数，K为一个极大的正实数。

列车在追踪运行过程中，安全间隔超限成本设置如图8所示。当列车间距小于等于列车之间的最小安全间隔时间Md时，列车运行的安全间隔超限成本为极大值K。而当列车间距大于最小安全间隔时间Md时，列车运行的安全间隔超限成本呈现出随冗余间隔L_t-Md增加逐渐降低的趋势。

研究列车在状态S_t下的列车准点超限成本B(S_t)，其计算方法如下式表示。其中，T_t 表示研究列车从出发开始、到达目前为止的总运行时间，

为研究列车到达当前位置允许的最短时间，

为研究列车到达当前位置允许的最长时间，

为列车不准点的单位经济成本系数。

当列车到达车站的时间位于最短时间

和最长时间

之间时，列车的准点成本为0。当列车到达车站的时间早于

时，列车运行准点成本随提前时间

-T_t线性增加；当列车到达车站的时间晚于

时，则列车运行准点成本同样随滞后时间T_t-

线性增加。通过这种方式，可将列车到达车站的时间约束在可接受范围内。列车运行的准点成本设置原理如图9示。

初始化仿真模块，也即初始化列车运行状态，利用ε-greedy策略，探索并搜集仿真模块不断产生的系统状态S_t、研究列车采取的动作A_t、根据状态和动作组成的回报函数R (S_t,A_t)以及列车采取动作后达到的状态S_t+1。对四者分别去掉时间信息后得到第i个由当前状态S、当前动作A、当前回报R以及后续状态S´构成的四元组

。

其中，ε-greedy策略可随机产生一个区间[0,1]之内的随机数，若该随机数小于ε，则从所有可能的动作中随机选择一个动作，在仿真模块中执行该动作，获取该动作的回报值和下一个状态；若该随机数不小于ε，则将当前列车运行状态输入当前值函数神经网络，选择值函数最大的动作

，作为当前采取的动作A。

在DDQN中，动作选择与动作评估分别采用不同的值函数神经网络，其中，动作选择采用当前值函数神经网络，而动作评估则采用目标值函数神经网络，如下式所示。其中，γ 为回报函数的折扣系数，为区间(0,1)之内的正实数。本实施例借助当前值函数神经网络Q 中的当前参数选择最优动作，之后通过目标值函数神经网络

中的参数

评估时间差分目标。

训练DDQN的深度学习神经网络时，通常假设训练数据是独立同分布的，但是通过强化学习采集的数据之间存在强关联性，利用这些数据进行顺序训练，神经网络很不稳定。因此，需要利用经验回放的方式从探索的经验集合中选取四元组记录

。

优先经验回放（Prioritized Experience Replay）是一种常用的采样方法。优先经验回放通过赋予学习效率高的样本更大的采样权重，有效提高经验数据的利用效率。优先经验回放所使用的采样权重值是根据时间差分误差来确定的。设样本i处的时间差分误差为

，在样本处的采样概率如下式所示。

α为优先回放因子，其取值为0表示不使用优先级经验回放，1表示完全使用优先级经验回放。n为当前经验数据队列的大小，P_i由δ_i决定，在实现过程中，我们采用比例型优先经验回放（Proportional PER）。在下式中，u为防止除零而添加的参数。

当使用优先回放经验的概率分布时，因为经验数据的概率分布与动作值函数的概率分布是两个完全不同的分布，为了弥补这个估计偏差，需要使用重要性采样系数（ImportanceSampling weights），下式定义了重要性采样系数。

其中，N为经验回放队列大小；β为重要性采样补偿系数，其取值为0表示不进行重要性采样补偿偏差，1表示完全使用重要性补偿偏差。

利用深度神经网络对所研究问题的值函数进行描述。该网络如图10所示，包含输入层、输出层及多层隐藏层，隐藏层的数目可根据实际需要灵活配置，输入为当前状态S，输出为当前所有可能的列车动作值函数

的集合。A_i为当前第i个可能的列车动作。如前文所述，在DDQN中的值函数网络训练的目标（标签）与DQN存在很大差异，为当前值函数神经网络所选择的最佳动作在目标值函数神经网络中的评估值Y_t ^DDQN(在训练中进行one-hot编码)。根据值函数深度神经网络的输出值与评估值，值函数神经网络的损失函数Loss(S_t,A_t) 如下式表示。

设值函数神经网络的参数集合为θ，根据值函数神经网络结构，利用链式求导法则获取值函数神经网络的损失函数L对参数集合θ的梯度函数∆L，该梯度函数的具体形式与值函数神经网络结构的层数与结构有关。利用经验回放将训练样本中的时间顺序打乱，则可利用第i个样本更新值函数神经网络参数θ，如下式所示。

在采用优先经验回放时，需要对值函数神经网络参数θ的更新公式进行修正，修正后的值函数神经网络参数θ更新公式如下式所示：

综上所述，考虑优先经验回放的DDQN算法详细流程可参考图11，根据该算法对基于深度强化学习的列车自主调度值函数神经网络进行训练完毕后，即得到训练好的调度决策模型，即可利用调度决策模型进行列车自主调度方案的生成。

仿真模块的准确性对于模型训练非常重要。在数字孪生中，仿真模块与实际轨道交通系统始终保持高度一致，便于利用仿真模拟对实际轨道交通系统状态进行预测和分析。

基于数字孪生的理念，设计了如图12-图13所示的自主调度系统。系统主要包括实时数据采集接口、仿真模块、深度强化学习模块（包括学习型智能体、深度神经网络、缓存回放记忆器、回报函数单元、数据规则化处理单元）以及调度方案模块。

其中，实时数据采集接口主要从实际轨道交通系统中采集列车运行实时数据，作为仿真模块的数据基础。仿真模块则根据实时采集的实际系统运营数据，对实际轨道交通系统开展仿真模拟。由于基于实际的运行数据进行建模和运行参数标定，仿真模块与实际轨道交通系统之间存在着较高的一致性。这种高一致性体现了数字孪生的理念，便于利用仿真模块对实际轨道交通系统进行预测分析。深度强化学习模块中包含了学习型智能体及其他训练辅助功能，学习型智能体通过与仿真模块进行交互训练，获得列车自主调度决策模型。深度强化学习模块将训练好的列车自主调度决策模型输出到调度方案模块，从而在列车运行过程中自动生成自主调度方案。

实际轨道交通系统中包含有列车运行状态、沿线设施设备状态、车站/枢纽进出站客流量和车站/枢纽客流聚集状态；实时数据采集接口主要从实际轨道交通系统中采集实时列车设备监测数据、实时车站客流聚集数据、实时车站进出站流量。其中，列车设备状态数据用于为设施设备的故障过程对列车运行影响的仿真模拟提供基础，实时车站客流聚集数据为客流态势的仿真提供数据支撑，实时列车运行实绩则将实际的列车运行状况（包括位置、速度、加速度、与其他车之间位置关系及时刻表等信息）传递给仿真模块进行列车运行仿真。

仿真模块是整个列车自主调度系统的重要支撑，主要是对实际轨道交通系统状态进行模拟等。其中，系统综合数据库存储有历史数据、实时数据、设备数据、模型数据、地理信息数据和线网三维模型。系统将设施设备、列车与旅客看成具有独立行为和属性的智能体。设施设备是整个轨道交通系统运营的基础，设施设备状态演化仿真实现了设施设备故障对列车运行情况的模拟，包括车、机、电、工、系统设施设备等行为功能仿真和车、机、电、工、系统设施设备等行为状态仿真，以便于开展复杂运营场景下的列车调度模型训练。列车动态运行仿真实现了列车运行时刻表、列车动力学以及驾驶控制过程等的仿真。车站/枢纽交通客流仿真则实现了客流进出站、站台客流量、线路宏观客流等过程的仿真模拟。仿真模块的详细设计见后文。

深度强化学习模块的核心是学习型智能体，其能够通过与仿真模块进行虚拟交互训练，实现列车自主调度模型的不断训练和完善。为便于开展深度强化学习训练，其详细构成和设计将在后文进行阐述。

调度方案模块主要包括列车自主调度方案生成模块以及列车自主调度方案传输模块。基于深度强化学习模块训练完成的列车自主调度模型，列车自主调度方案生成模块生成实时的列车自主调度方案，列车自主调度方案传输模块将调度方案传输到实际轨道交通系统中实施运行调度，在保证列车运行安全性和准点性的前提下，降低列车运行能耗和旅客等待时间。

在列车自主调度系统主要工作流程中，首先，由实时数据采集接口从实际轨道交通系统中采集列车运行实时数据，作为仿真模块的数据基础，以保证仿真模块与实际轨道交通系统的高度一致性。其次，利用仿真模块与深度强化学习模块进行不断交互训练，不断提升列车自主调度模型的决策能力。同时也可利用仿真模块对训练好的列车自主调度模型进行评估。最后将深度强化学习模块训练好的模型输出给调度方案模块，调度方案模块基于列车自主调度方案决策模型所生成的调度方案传输到实际轨道交通系统进行调度方案的落实。

另外，与传统的集中式调度机制不同，本实施例所提出的智能调度方法和系统主要基于列车的自主调度模式进行。列车自主调度分布式实施架构如图14所示。在自主调度模式下，列车的调度由各列车的自主调度智能体负责完成。每个车载自主调度智能体为一套基于数字孪生的列车自主调度系统，该系统具备调度算法的自主进化能力。在自主调度分布式实施架构中，原有集中式调度的中心功能被进一步弱化，仅承担全局信息共享功能。全局信息共享服务整合轨道线网范围内的运输方案、设施设备状态、车站/枢纽客流状态、运行环境、故障与应急以及旅客服务等多种信息，形成信息共享资源池，并共享给轨道交通线网范围内的所有列车作为数字孪生仿真模型完善和训练的基础。在线路范围内，多列车之间还可通过车联网进行实时信息的交互，进一步提升线路范围内局部信息的实时性和准确性。

另外，数据采集接口不仅仅将采集的数据发送至仿真模块，还直接将数据发送至深度强化学习模块，深度强化学习模块基于数据采集接口发送过来的实时数据进行离线训练，并且离线训练、深度强化学习模块与仿真模块之间的虚拟交互训练同步进行，实现列车自主调度模型的不断进化。

数据采集接口内还包括实时系统运输态势预测模块，仿真模块将与深度强化学习模块交互得到的新的列车运行状态发送至实时系统运输态势预测模块，经实时系统运输态势预测模块预测，将预测得到的结果发送至实际轨道交通系统。

仿真模块是列车自主调度系统的重要支撑，其主要是由仿真引擎、轨道交通系统仿真内核、仿真数据采集与监测单元、列车调度方案仿真实现接口、技术指标统计与评价单元、调度策略回报评价单元以及三维展示单元等构成。仿真模块详细结构如图15-图16所示。为了说明仿真模块与深度强化学习模块的关系，图15-图16中也包括了深度强化学习模块及二者之间的交互接口和关系。

其中，仿真引擎是仿真模块运行的底层支撑，主要包括仿真模块运行控制、界面交互和基础数据。仿真模块运行控制主要包括系统运行时的一些资源配置、通信管理、节奏控制以及场景带入，制定仿真模块运行的运行标准。界面交互主要是进行参数调整、事件输入以及系统编辑，主要由仿真人员进行控制。基础数据包括复合网络三维模型数据、复合网络拓扑数据、设施设备属性数据、评价与分析场景数据和宏观实时客流需求数据。

轨道交通系统仿真内核主要包括运输与客流运行演化仿真模块和设施设备状态演化仿真模块两个部分，两部分之间存在频繁的交互作用，在仿真运行过程中不断相互影响，以模拟实际轨道交通系统运行过程。运输与客流运行演化仿真主要是针对列车运行、实时客流和车站进行的仿真，包括网络客流宏观态势仿真、枢纽内部客流仿真、个体微观出行链仿真、列车追踪运行仿真、列车运行时刻表仿真和列车停站及乘降仿真。设施设备状态演化仿真模块主要包括列车、机、电、工、系统设施全局功能行为仿真以及状态演化过程。

仿真数据采集与监测单元，是对轨道交通系统仿真内核中模拟的“轨道交通系统”进行全方位的数据采集，监测列车运行状态、旅客出行链、设施设备状态和车站/枢纽客流，将采集的数据进行汇集，以支撑技术指标统计与评价及调度策略回报评价功能，并作为深度强化学习模块的训练数据支撑。

列车调度方案仿真实现接口承接深度强化学习模块中学习型智能体所探索的调度方案，并将调度方案在轨道交通系统仿真内核中予以实施。

技术指标统计与评价单元则根据数据采集与监测单元所提供的仿真内核中模拟的“轨道交通系统”运行状态数据，对列车正点率、运行安全性、列车运行能耗和旅客候车时间等技术指标进行统计和评价。

列车调度策略回报评价单元，根据列车调度方案仿真实现接口所注入的列车调度方案在仿真模块中的实施结构，从数据采集与监测单元中提取相关数据，开展列车调度方案的正点回报、安全回报、能耗回报及旅客等待时间回报的计算，这里计算得到的回报进入深度强化学习模块中的回报函数计算单元再次进行计算，即得到列车准点超限成本、安全间隔超限成本、能耗成本和旅客等待时间成本。

三维展示单元则直接与仿真引擎、轨道交通仿真内核相连，通过三维模型，实时展示设施设备状态及行为、车站/枢纽内部客流/旅客行为和列车运行过程三维仿真，方便研究人员能够直观地对仿真过程进行观察和分析。

仿真模块的构建和运行过程离不开仿真引擎的支撑，仿真模块可将Anylogic等仿真软件作为平台基础，在软件平台的基础上，为了实现包含轨道交通系统模拟仿真，仿真引擎需要具备复合网络、客流、设施设备属性等大量基础数据的输入和管理功能，同时，仿真模块各功能之间的通信管理、资源调度等机制也需要在仿真运行控制中予以明确，仿真引擎还需要提供友好便捷的交互界面，便于研究人员进行仿真模型编辑修改。

轨道交通系统仿真内核主要是对实际轨道交通系统运行状况的模拟，如列车运行过程、设施设备功能与状态演化、旅客微观出行链、宏观客流态势、车站或枢纽内部客流组织等。其中，设施设备状态与功能的仿真，是运输与客流仿真的基础，决定了轨道交通系统的功能发挥，运输与客流状态则会反过来影响设施设备的负荷度，从而影响其状态和功能。可以说，二者在仿真过程中存在相互影响、相互制约的关系。

在仿真过程中，针对轨道交通系统仿真内核中模拟的“轨道交通系统”运行状态，由数据采集与监测单元进行全方位的数据采集，将数据进行汇集之后，一方面支撑技术指标统计评价与调度策略回报评价，另一方面可作为深度强化学习模块中学习型智能体的训练输入。仿真模块中的这一过程称为：数据采集、指标与回报评价及列车自主调度模型训练过程，构成了仿真系统中“数据采集-数据汇集-指标与回报评价-自主调度模型训练”的“上行回路”。

仿真模块中，由数据采集-数据汇集-指标与回报评价-自主调度模型训练构成了“上行回路”。同时，由深度强化学习模块中学习型智能体、调度方案模块和列车调度方案仿真实现接口，则构成了仿真模块的“下行回路”。调度方案实现控制接口是仿真模块“下行回路”的核心，其主要任务是将深度强化学习所探索的列车调度方案输入仿真模块中，并开展相应的运行效果评估与分析。

仿真模块的“上行回路”与“下行回路”构成了整个深度强化学习自主调度模型仿真训练的框架。首先，数据采集与监测单元可为深度强化学习列车调度模型的训练提供训练数据输入，便于其更加深入地识别轨道交通运输态势，从而开展具有针对性的调度方案决策。其次，将深度强化学习所探索的列车调度方案输入仿真模块实施落实，并对其在仿真模块中的实施效果进行仿真模拟。最后，仿真数据采集与监测单元通过采集仿真模块中“轨道交通系统”的运行情况数据，开展列车调度方案的回报评价，可得到列车调度方案的回报反馈信号，从而支撑列车自主调度模型的迭代循环训练和优化演进。

深度强化学习模块是整个列车自主调度系统的核心。其主要包括学习型智能体、深度神经网络、缓存回放记忆器、回报函数单元、数据规则化处理单元及数据传输单元六个部分。其中，深度强化学习模块的核心是学习型智能体。

在深度神经网络的训练过程中，学习型智能体首先在仿真模块中进行探索，并将从仿真数据采集与监测单元所采集的数据集（包括当前状态S、当前动作A、当前回报R以及后续状态S´）数据进行规则化处理操作，并将规则化后的数据自动导入到缓存回放记忆器中。从缓存回放器中随机抽取数据进行深度神经网络的训练，判断值函数神经网络参数是否达到预定条件，若值函数神经网络参数达到预定条件，停止更新值函数神经网络参数，若值函数神经网络参数未达到预定条件，继续更新值函数神经网络参数，从而提升学习型智能体的决策能力。后续智能体将在更新后的神经网络值函数下，进行新一轮的探索、数据采集和训练，从而实现不断优化自身决策能力的过程。在这个过程中，学习型智能体和仿真模块之间的通讯框架设置能够促进学习型智能体和仿真模块之间的状态、行动和收益的通讯。

学习型智能体能够通过与仿真模块进行交互，从而实现列车自主调度算法的训练。学习型智能体的演化过程及采用什么动作，与最终的训练目标有关。也就是说当前采用什么动作，可以使得整个任务序列达到最优。而如何使整个任务序列达到最优，就需要学习型智能体不断地与仿真模块交互，不断尝试，因为学习型智能体刚开始也不知道在当前状态下哪个动作有利于实现目标。在本实施例中，学习型智能体的目标，是在保证列车运行安全和准点的情况下，降低列车运行能耗和旅客的等待时间，从而在提升用户体验的同时，降低运营单位成本。

深度神经网络是深度强化学习的重要组成部分，是对值函数进行拟合的重要手段，用于选择n个四元组（S，A，R，S´），计算所述n个四元组（S，A，R，S´）的梯度值，利用梯度值更新值函数神经网络参数。深度强化学习即是深度学习与强化学习相结合的产物。在深度强化学习模块中，深度神经网络用于存储值函数神经网络结构及相关参数状态。学习型智能体所学到的有效表示，都存储在值函数的深度神经网络中。

训练值函数的深度神经网络时，前提假设是训练数据是独立同分布的，但是通过强化学习采集的数据之间存在着关联性，利用这些数据进行顺序训练，深度神经网络存在不稳定性。因此，学习型智能体可将观测到的数据存储在缓存回放记忆器的数据库中，在训练时从缓存回放记忆器中利用随机采样的方法抽取数据，然后利用抽取的数据训练深度神经网络。这种方式打破了数据之间存在的关联性，有效提升深度神经网络的稳定性和描述能力。

回报函数单元明确了深度强化学习中学习型智能体所需要完成的具体任务。所以，强化学习所学到的最优策略是与具体的任务相对应的，回报函数单元的设置也决定了学习型智能体的具体行为和决策模式。在本实施例中，回报函数单元包括旅客等待时间成本、列车采用动作的能耗成本、安全间隔超限成本以及准点超限成本计算工程,最终得到总回报R（S，A），该回报函数单元明确了学习型智能体的训练目标是在保证列车运行安全性和准点性的情况下，降低列车的运行能耗和旅客等待时间。

在深度强化学习中，数据规则化处理单元主要是对输入训练数据进行规则化处理。由于值函数深度学习网络要求将输入变量进行/规则化（数据取值和维度满足某一要求），因此需要对输入数据进行规则化处理（包括对数据进行标准化、降维、补全等操作），从而提升深度神经网络的训练和描述效果。

另外，在整个深度强化学习模块中，各功能单元之间需要进行实时的通信。因此，数据传输单元可满足学习型智能体与仿真模块之间，学习型智能体与缓存回放记忆器、深度强化学习与回报函数单元等单元之间的实时通信。在数据传输单元的保障下，学习型智能体能够通过与仿真模块进行高效交互，同时进行实时训练和数据参数存储，从而实现列车自主调度模型的不断训练和演化完善。

在基于数字孪生的列车自主调度系统中，基于深度强化学习的列车自主调度模型是深度强化学习模块的训练目标，是该系统的核心。列车自主调度模型的训练过程主要基于仿真模块与深度强化学习模块的动态交互。在模型训练过程中，首先需要对列车运行过程进行仿真建模或对实际轨道交通系统列车运行过程进行监测，实时采集列车运行过程中与调度决策相关的运行状态数据，作为列车自主调度模型的决策基础。

列车运行状态数据主要包括列车编号、列车距前车距离、前方车站候车人数、列车载客量、总运行时间、列车所在线路、列车运行里程、列车运行速度、列车加速度以及列车是否在站停靠等详细信息。这些数据主要来源于仿真模块或实际轨道交通系统的列车运行数据，并经过深度强化学习模块中的规则化处理单元进行预处理。

列车自主调度模型的回报函数相关数据，用于描述列车自主调度模型的训练目标，由深度强化学习模块中的回报函数单元进行计算、存储与管理。列车自主调度回报函数相关数据包括旅客等待时间成本、列车采用动作的能耗成本、安全间隔超限成本以及准点超限成本几种类型。这些数据来源于仿真模块中的调度方案回报评价功能模块进行数据汇集和初步计算，并由深度强化学习模块中的回报函数单元进行最终计算。

列车自主调度模型相关数据主要用于存储基于深度强化学习的值函数神经网络相关的训练数据及模型参数集合。如前文所述，用于训练值函数神经网络的输入数据为一种四元组数据集，是由系统当前状态、所采取行动、总回报值以及下一步状态所构成的数据集合。值函数神经网络参数集合则用于动态存储训练过程中的模型参数取值，是模型进行自主调度决策方案生成的关键。由于所提出的基于数字孪生的列车自主调度系统中，列车自主调度模型存在不断优化的过程，因此所存储的模型参数也是动态更新的。

尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种列车自主调度深度强化学习方法，其特征在于，

基于轨道交通数据，以列车运行状态S、列车动作A、根据列车运行状态S和列车动作A组成的回报R（S，A）、采取动作后达到的后续状态S´建立N个单列列车四元组（S，A，R，S´）；

2.根据权利要求1所述的列车自主调度深度强化学习方法，其特征在于，所述列车运行状态S在t时刻具体包括：

L_t为列车在t时刻与其前车间的间隔时间，

Pt_t为列车在t时刻的实时载客量，

T_t为列车从出发开始到达目前为止的运行时间，

l_t为列车t时刻所在线路，

y_t为列车在所在线路上的里程位置，

v_t为列车在t时刻的运行速度，

z_t为列车在t时刻的加速度，

σ_t为列车在t时刻是否在车站停靠。

3.根据权利要求1所述的列车自主调度深度强化学习方法，其特征在于，基于ε-greedy策略生成列车动作A，具体包括以下步骤：

初始化列车运行状态；

确定ε数值；

产生一个区间[0，1]之内的随机数；

，作为当前采取的动作A。

4.根据权利要求1-3中任一项所述的列车自主调度深度强化学习方法，其特征在于，基于旅客等待时间成本、列车采用动作A_t的能耗成本、列车在状态S_t下的安全间隔超限成本和列车在状态S_t下的准点超限成本获取t时刻回报R（S_t，A_t）。

5.根据权利要求4所述的列车自主调度深度强化学习方法，其特征在于，基于单位旅客候车时间成本、列车与前车实时间隔时间、列车位于运行线路第几个车站、候车客流量获取旅客等待时间成本。

6.根据权利要求4所述的列车自主调度深度强化学习方法，其特征在于，基于列车t时刻牵引功率、决策过程离散时间长度、单位能耗成本、工况转换固定成本获取列车采用动作A_t的能耗成本。

7.根据权利要求4所述的列车自主调度深度强化学习方法，其特征在于，基于列车间隔时间超限的单位经济成本系数、列车在t时刻与其前车间的间隔时间和列车之间的最小安全间隔时间获取安全间隔超限成本。

8.根据权利要求4所述的列车自主调度深度强化学习方法，其特征在于，基于目前为止的总运行时间、列车到达当前位置允许的最短时间、列车到达当前位置允许的最长时间和列车不准点的单位经济成本系数获取准点超限成本。

9.根据权利要求1-3中任一项所述的列车自主调度深度强化学习方法，其特征在于，存储建立后的N个单列列车四元组（S，A，R，S´）。

10.根据权利要求1-3中任一项所述的列车自主调度深度强化学习方法，其特征在于，随机选择n个四元组（S，A，R，S´），计算所述n个四元组（S，A，R，S´）的梯度值，利用梯度值更新值函数神经网络参数。

11.根据权利要求10所述的列车自主调度深度强化学习方法，其特征在于，所述选择n个四元组（S，A，R，S´），计算所述n个四元组（S，A，R，S´）的梯度值，利用梯度值更新值函数神经网络参数具体包括：

γ为回报函数的折扣系数，

Q表示当前值函数神经网络，

θ为当前值函数神经网络参数，

θ^-为目标值函数神经网络参数，

计算损失函数：

利用第i个四元组更新参数θ：

。

12.根据权利要求11所述的列车自主调度深度强化学习方法，其特征在于，基于优先经验回放机制选择n个四元组（S，A，R，S´），则

其中，η为梯度下降步长，

ω_i为重要性采样系数，

P（i）为采样概率

u为防止除零而添加的参数。

13.根据权利要求1-3中任一项所述的列车自主调度深度强化学习方法，其特征在于，建立N个单列列车四元组（S，A，R，S´）后，对N个单列列车四元组（S，A，R，S´）进行规则化处理。

14.一种列车自主调度深度强化学习模块，其特征在于，包括：

回报函数单元，用于计算回报R（S，A）。

15.根据权利要求14所述的列车自主调度深度强化学习模块，其特征在于，还包括：

数据传输单元，用于建立深度强化学习模块内部实时通信。