CN116513273A

CN116513273A - 基于深度强化学习的列车运行调度优化方法

Info

Publication number: CN116513273A
Application number: CN202310001599.XA
Authority: CN
Inventors: 李丽娟; 杨雪; 王欢; 张印强; 杨世品
Original assignee: Nanjing Tech University
Current assignee: Nanjing Tech University
Priority date: 2023-01-03
Filing date: 2023-01-03
Publication date: 2023-08-01

Abstract

本发明提供一种基于深度强化学习的列车运行调度优化方法，包括如下步骤：建立系统模型；马尔可夫决策过程的深度强化；结果和分析。本发明针对突发事件的不确定性会对列车造成时间延误影响，造成严重的社会影响和巨大的经济效益损失，根据列车运行特性，建立了列车动力学模型和列车运行调度系统马尔可夫模型。考虑列车总晚点时间和能源消耗最小，提出了一种基于深度确定性策略梯度算法的列车运行调度策略。通过在训练动作中加入噪声，提高了方法在不确定环境下的泛化能力和鲁棒性。本发明提出的调度策略有效地减小了列车运行总晚点时间，降低了能源消耗。

Description

基于深度强化学习的列车运行调度优化方法

技术领域

本发明涉及列车运行调度优化，具体涉及一种基于深度强化学习的列车运行调度优化方法。

背景技术

随着中国高速铁路的飞跃发展，中国高速铁路的调度指挥问题变得极为重要。高铁路网规模扩大化,路网结构复杂化,其强耦合、快演变、多约束等特点也越来越明显。加之，恶劣天气、设备故障等突发事件的不可预知性，可能会导致单列车或多列车出现延误晚点现象，造成严重的社会影响和巨大的经济效益损失，因此对列车运行实时调度优化的研究具有非常重要的现实意义。

当列车晚点现象随着路网不断扩散，将造成大面积的列车无法按照计划运行。因此需要对运行计划进行动态调度，更好地协调各列车尽快恢复有序运行、减小延误时间、缩小影响范围,从而实现高速铁路列车运行快速、运营安全、到站准时、旅客舒适。针对高速铁路列车动态调度问题的研究,其方法大致可分为仿真方法、运筹学方法和智能算法3类。仿真方法是对研究对象进行建模,能够较详尽的描述复杂系统。针对随机扰动交通条件下最优调度方案的稳定性,一种将基于替代图的铁路优化系统(railway optimization bymeans of alternative graphs,ROMA)与路网设计微观仿真环境(environment for thedesign and simulation of railway network,EGTRAIN)相结合的框架被提出了。贾智龙等人基于建立的仿真平台，对随机条件下的列车流调整进行仿真。基于部件组合思想和考虑线路双向运行以及列车运行过程中随机扰动建立的列车运行仿真模型，可根据需要模拟的列车运行计划及关联路网的数据，快速生成与列车运行环境和列车运行规则对应的仿真框架，并且在最终的仿真验证中也证实了该模型的有效性。仿真方法存在不足，模型的优劣和数据对仿真结果影响较大，且该方法对复杂系统的仿真难度较大，难以应对逻辑判断步骤较多的系统，不能进行复杂的分析。然而，运筹学方法在解决调度问题时一般先建立数学模型，之后使用适合的算法对其进行求解，准确性较高。Luan等采用混合整数非线性规划(MINLP)和混合整数线性规划(MILP)方法研究实时交通管理与列车控制的集成问题，并进一步考虑同时以列车运行晚点最小和列车在区间运行的能耗最小为优化目标，生成运行图与速度曲线。LAN等以总到达晚点最小为调整目标，研究了一种基于分支定价的求解算法，通过与GUROBI求解器求解对比验证方法的优越性。高速列车动态调度优化问题属大规模组合优化问题，问题的复杂性高，采用运筹学方法会使搜索效率低下。而智能算法能够应对复杂的系统模型，很好的应用计算机强大的运算能力。针对突发事件的影响，提出了调整策略控制参数的粒子群优化算法，并同常规的遗传算法(genetic algorithm，GA)与粒子群优化(particle swarm optimization，PSO)算法进行了比较。Fan等人采用了蚁群优化算法与遗传算法,其最终结果显示该两种算法的延迟成本比先进先出(first input first output，FIFO)的方法降低了30％和28％。Xu通过改进萤火虫算法(improved firefly algorithm，IFA)优化调整列车调度，在保证列车安全运行的情况下，可将列车晚点产生的不利影响控制在很小的范围内。

上述研究主要从常见的仿真方法、运筹学方法和智能算法3类方法来对列车运行进行调度优化。然而仿真方法所构建的模型较为直观，其基于一定的假设条件之上，遇到大规模问题难以解决，模型的结果与现实情况有很大的差距。运筹学方法缺乏实时性和适应性，无法满足实际列车动态调整的需要。智能算法容易陷入局部最优，且在多约束条件下，为求得更好更优的解，需要大量增加迭代次数，导致计算时间过长。而深度强化学习将深度学习的感知能力和强化学习的决策能力相结合，可处理涉及高维变量的复杂调度问题。采用强化学习求解组合优化问题，通过奖励函数的合理引导可以取得比人工调度更好的解决方法。因此，本文针对突发事件对高速铁路列车造成的延误影响，结合深度强化学习中智能体与环境不断交互、不断试错的特点，建立了以各列车延误时间总和与列车总能源消耗最小为目标的高速铁路列车动态调度模型，引入双经验回放池，采用基于奖励的优先经验回放池，采用改进的DDPG方法进行调度策略的优化。

发明内容

本发明提供一种基于深度强化学习的列车运行调度优化方法，以解决现有技术中的问题。

本发明所解决的技术问题采用以下技术方案来实现：

本发明提供一种基于深度强化学习的列车运行调度优化方法，包括如下步骤：

步骤一：建立系统模型

1.1列车运行控制系统：根据目标距离、目标速度及列车本身的性能确定列车制动曲线，不设定每个闭塞分区速度等级；通过与列车调度系统结合，实现对列车的优化调度；

1.2动态模型公式：确定列车运行的动力学模型，对列车进行调度优化；

1.3建立列车运行调度系统的马尔可夫模型

步骤二、马尔可夫决策过程的深度强化

采用深度神经网络(DNN)逼近强化学习函数，使其适用于连续状态和动作空间中的列车运行调度问题，选择基于actor-criticism框架的深度确定性策略梯度(DDPG)算法；进而通过深度神经网络估计最优策略函数，求解基于MDP的列车运行策略模型，以适应列车运行过程中的不确定性；

步骤三、结果和分析

验证列车运行调度系统优化调度策略的有效性。

与现有技术相比，本发明具备以下有益效果：

1、本发明研究了高速列车运行实时调度策略。针对突发事件的不确定性会对列车造成时间延误影响，造成严重的社会影响和巨大的经济效益损失，根据列车运行特性，建立了列车动力学模型和列车运行调度系统马尔可夫模型。考虑列车总晚点时间和能源消耗最小，提出了一种基于深度确定性策略梯度算法的列车运行调度策略。通过在训练动作中加入噪声，提高了方法在不确定环境下的泛化能力和鲁棒性。本发明提出的调度策略有效地减小了列车运行总晚点时间，降低了能源消耗。

2、高速铁路作为国家综合交通运输体系的骨干核心，近十年来取得了飞速蓬勃的发展。其飞速发展的同时也引发了路网复杂化、分布区域广等现象，这些现象对高铁动态调度提出了更高的要求。突发事件的不确定性会对列车造成时间延误影响,甚者时间延误会沿路网传播,造成大面积列车到发晚点，造成严重的社会影响和巨大的经济效益损失。而目前对于此问题的人工调度方式，前瞻性及针对性较差，难以对受影响列车进行迅速调整。针对上述问题，本文建立了以各列车延误时间总和与列车总的能源消耗最小为目标的高速铁路列车动态调度模型，采用了深度强化学习中的DDPG算法对模型进行求解。为了加快算法网络收敛速度，算法引入双经验回放池，采用基于奖励的优先经验回放池，将多个连续样本组成一个基础单元进行存储，同时增加一个经验回放池，采用重抽样优选机制来存储学习价值更大的样本。最后通过实验验证了改进的DDPG算法用于高铁动态调度的有效性，为高铁调度员做出优化决策提供了良好的依据。

附图说明

为了更清楚地说明本发明实施方案或现有技术中的技术方案，下面将对实施方案或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施方案，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例目标距离速度控制曲线；

图2为本发明实施例基于DDPG算法的列车运行调度框架；

图3为本发明实施例多步优先经验回放池结构；

图4为本发明实施例训练过程奖励曲线；

图5为本发明实施例列车运行图；

图6为本发明实施例速度-距离曲线。

具体实施方式

为了使本发明实现的技术手段、创作特征、达成目的与功效易于明白了解，下面结合具体图示，进一步阐述本发明。

本发明的实施例提供一种技术方案：一种基于深度强化学习的列车运行调度优化方法，包括如下步骤：

一、系统模型

1.1列车运行控制系统

列车运行控制系统是保证列车安全、快速运行的系统。列车运行控制系统的主要作用是完成列车的间隔控制和速度控制。当前中国高铁采用目标距离速度控制曲线控制的列车运行控制系统，其采取的制动模式为连续式一次制动速度控制的方式如图1所示，根据目标距离、目标速度及列车本身的性能确定列车制动曲线，不设定每个闭塞分区速度等级。

列车可根据目标距离速度控制曲线实现对列车速度实时控制，实现列车超速防护，实现对列车的减速、缓解、加速的自动控制。通过与列车调度系统结合，实现对列车的优化调度。

1.2动态模型公式

要对列车进行调度优化，首先要知道列车运行的动力学模型，列车的动力学方程可以由Lomonossoff方程表示：

式中，M_train表示列车质量；s_tr表示列车位置；t表示列车运行时间；F_tr表示牵引力或者制动力；R_vr表示机械阻力；F_gr表示附加阻力。其中：

式中，v表示列车运行速度；μ_f表示列车牵引力系数；μ_b表示列车制动力系数；b[v(t)]表示列车当前速度v(t)下的制动力；g(s_tr)表示梯度力；r(v)表示当前速度下的基本阻力可用包含常数B,C,D的戴维斯方程表示为：

r(v)＝B+Cv+Dv² (3)

根据上述各列车延误时间总和T为

式中，t_a(ij)、t_d(ij)分别为列车i在车站j的实际到达与离开时间，而为列车i在车站j的计划到达与离开时间。a_i(t)为列车i在t时刻加速度，v_i(t)为列车i在t时刻速度，s_j为第j站与起始站距离，t_i ^*为列车i计划的总运行时间。

列车总的能源消耗E为

其中，f[v_i(t)]为列车i速度为v_i(t)时的牵引力。

根据上述建立包含各列车延误时间总和与列车总的能源消耗的目标函数J为

J＝ω_tF_tT+ω_eF_eE (6)

其中ω_t、ω_e表示权重系数，F_t表示每秒单位延迟成本，F_e表示每千瓦时单位能源成本。

1.3列车运行调度系统的马尔可夫模型

强化学习是智能体在与未知环境持续交互的过程中，采取一定的行动来最大化累积奖励的一种机器学习方法，可用马尔可夫决策过程(MDP)表示。具体形式可用五元组<s,a,p,r,γ>表示，其中，s代表所有的状态，a表示的智能体可以采取的所有行动，p表示状态转移概率，r表示特定状态和动作下的即时奖励，γ表示返回的折扣。以各列车延误时间总和与列车总的能源消耗最小为目标，建立列车运行调度优化的马尔可夫模型：

6)状态：s_t＝{t,s_tr,s_j,f}，观察到的列车运行调度系统状态包括时间、列车位置、所处车站距起始站距离以及当前牵引力。

7)动作：a_t＝{v_i(t)、a_i(t)}，执行的动作是agent在当前时刻t观察到环境的状态后对环境的反应。

8)奖励：奖励函数作为agent制定策略的指导，它代表了期望的控制目标。考虑最优动作引导列车运行调度系统进行合理调度，奖励函数设置为系统的目标函数J为

r(s_t,a_t)＝ω_tF_tT(s_t,a_t)+ω_eF_eE(s_t,a_t) (7)

舒适度影响乘车质量和安全，当列车加速度变化超过一定值δ时给定一个额外的奖励函数r₂以满足乘客对舒适度的需求：

9)策略：在马尔可夫决策过程中，策略定义为系统从观察状态到动作状态的转移概率，其策略定义为

π(a∣s)＝P[a_t＝a∣s_t＝s] s∈S,a∈A (9)

10)回报：状态动作值函数Q_π(s,a)表示在状态s执行动作a后的预期累积收益，状态动作价值函数Bellman方程表示为:

Qπ(s_t,a_t)＝Eπ[r_t+γQπ(s_t+1,a_t+1)∣s_t,a_t] (10)

Bellman方程表明，当前状态的动作值只与当前的奖惩值和下一个状态的动作值有关，可以通过迭代求解。求解系统最优策略等价于求解最优状态动作值函数，即:

π^*＝argmaxQ_π(s,a) (11)

则对应的Bellman方程为：

二、马尔可夫决策过程的深度强化学习

在深度强化学习中，用强化学习来定义问题和优化目标，用深度学习来求解策略函数或价值函数。传统的强化学习方法在小规模离散空间问题中表现良好。然而，当我们处理连续状态变量时，随着空间维数的增加，离散状态的数量呈指数增长。这将导致维度爆炸和无效的学习。在分析本文研究的列车运行调度问题时，由于状态空间中的变量均为连续量，传统的强化学习方法往往无法有效求解。针对这一问题，我们采用深度神经网络(DNN)逼近强化学习函数，使其适用于连续状态和动作空间中的列车运行调度问题，选择了基于actor-criticism框架的深度确定性策略梯度(DDPG)算法。进而通过深度神经网络估计最优策略函数，求解基于MDP的列车运行策略模型，以适应列车运行过程中的不确定性。

2.1基于ddpg的列车运行调度框架

基于DDPG(Deep deterministic policy gradient)算法建立列车运行调度框架，如图2所示。对于DDPG算法，目标网络的输入是一个4维状态向量，输出是一个2维动作向量。主网络的输入是状态向量s_t和动作向量a_t，输出是动作值函数Q(s_t,a_t)。在学习过程中，DDPG算法采用深Q网络中的经验回放机制，通过存储agent在每个时间段的经验，形成回放缓冲区。在训练agent时，每次随机提取重放缓冲区中的小批量经验样本，并根据梯度规则更新网络参数。

利用历史数据作为环境状态，离线训练DDPG算法网络。然后，对训练好的DDPG算法参数进行固定，求解列车运行调度问题。对于列车运行调度系统，当调度任务在每个周期时，根据当前系统状态s_t，利用训练好的DDPG算法目标网络和主网络选择调度动作。agent采取行动进入下一个环境状态并获得奖励。然后，收集t+1时间段的系统状态信息作为新样本，得出该时间段的决策。通过这种方式，代理将获得动态的调度策略。

2.2奖励指导的双优先经验回放池

算法中最关键的技术就是经验回放，即设置经验池。将每个时间步中智能体与环境交互得到的转移样本(s,a,r,s')储存到回放记忆单元，然后随机取出一些样本进行训练，来更新参数。优先经验回放池是通过TD-error，即目标Q值和估计Q值的差值来评判样本的价值。TD-error越大，则该样本的优先级p越高。样本i的采样概率P(i)为:

其中p(i)＝|δ_i|+ε为样本i的优先性，δ_i为样本TD误差，用于调节重要性程度，其值为0时为均匀采样。

如果采样样本TD误差较大，就代表智能体的预测精度还具有很大的提升空间，那么此样本就值得神经网络去训练。在列车运行调度系统调度过程中，系统获取的奖励回报大小和采取的动作优劣成正相关的，因此可以用奖励来指导动作的选择，提出的奖励指导的优先级经验回放机制：

其中奖励值越大，动作优先权重就大，当奖励小于0时，减弱选取动作重要性程度，ε为偏移。

传统算法仅仅采用一个经验池存储数据来更新网络参数，本文使用两个经验回放池B₁和B₂。B₁为多步优先经验回放池，B₂为单步优先经验回放池。B₁无差别存储样本，B₂采用重抽样机制来存储样本，以概率P(i)将样本存入。训练时，每局结束后网络开始迭代更新参数，样本从B₁中获取。在模型已能取得较好的回报之后，改为每局中单步迭代更新参数，样本从B₂中获取。通过更好的训练样本，增加迭代次数以提升网络性能。

多步优先经验回放池B₁如图3所示，样本无差别存入经验池，按P(i)更新q队列优先级。

2.3ddp-g算法的具体步骤

DDPG算法使用两个独立的网络逼近critic函数和actor函数，每个网络都有自己的目标网络参数θ^Q'和θ^π'，其中Q'和π'分别为目标Q值和目标策略。

在价值网络中，使用损失函数Loss(θ^Q)对参数进行优化:

其中

y_t＝r_t+γQ'(s_t+1,π'(s_t+1|θ^π')|θ^Q') (16)

y_t是通过目标值网络得到的目标动作值，r_t是在状态s_t采取行动后获得的瞬时奖励，γ是折扣因子，Q(s_t,a_t|θ^Q)是在采取行动后通过在线价值网络评估的动作值。损失函数Loss(θ^Q)对θ^Q的梯度为

采用沿损失函数递减方向的梯度下降算法更新网络参数值：

其中μ_Q为价值网络的学习率。

在策略网络中，为动作执行方向的梯度，采用策略梯度法更新策略网络：

然后根据确定性策略梯度更新策略网络参数θ^π：

其中为μ_π策略网络学习率。

目标价值网络和目标策略网络的参数更新方式为:

θ^Q'←τθ^Q+(1-τ)θ^Q'(21)

θ^π'←τθ^π+(1-τ)θ^π'(22)

其中，τ为软更新系数通过调节τ来控制神经网络的更新速度，使目标网络缓慢地跟踪在线网络，提高学习的稳定性。

三、结果和分析

在本节中，为了验证本文提出的基于改进DDPG算法的列车运行调度系统优化调度策略的有效性，本文以京沪高速铁路为原型进行分析，并对求解结果进行了合理的可行性分析。

3.1算法验证与分析

为了验证算法调度的可行性，本文以京沪高速铁路为原型进行分析。京沪高速铁路北起北京南站，南至上海虹桥站，具体线路信息如表1所示，沿线经过21个车站，这23个车站将京沪铁路线划分成22个区间。京沪高铁线日列车开行量在100列以上，实验将选取京沪线实际运行的100列高速列车的进行调度优化。

表1京沪高铁基本运行数据

列车自动运行速度曲线的优化由列车本身结构参数和所运行的线路决定，本文选取的CRH某型高速列车基本参数、计算公式如下。

牵引力计算公式(v的单位：km/h)：

基本阻力计算公式：

r(v)＝8.63+0.7295v+0.0012v² (24)

利用上述方法对列车运行调度系统深度强化学习模型进行训练。在agent的训练中，反复调整DDPG的网络参数，直到最终获得最大的奖励。算法中主网络和目标网络的隐含层数为2层，每层有100个神经元，隐含层的激活函数为ReLU。对于DDPG，奖励折扣因子γ为0.98，批次大小为128，经验池大小设置为2000。主网络和目标网络的学习率均为0.0001，软更新系数为0.001。agent经过不断训练，训练结果如图4所示。

如图4所示为agent训练过程中奖励值曲线。对算法进行连续测试，从图中可看出，由于agent刚开始对环境不熟悉，在早期阶段获得的奖励值较小。随着训练过程的继续，agent继续与环境交互以获得经验并最终达到收敛，证明了算法的可行性。

3.2调度结果分析

为了展示列车调度的优化过程，模拟了100辆列车运行调度过程。京沪高铁线某年13时29分G138次(上海虹桥-北京南)司机报告列车运行在常州北站至丹阳北站间上行线1123km处07车受电弓自动降弓的影响，该列车在丹阳北站至镇江南站间被迫停车，14时59分恢复常速运行，造成后续列车不同程度的晚点。基于此随机选取3辆列车的运行调度结果进行分析。如图5所示为所选取的列车的调度后与原计划的运行图对比。由于受电弓出现故障导致G138次列车临时停车，造成其晚点以及后续G140次列车晚点35分钟。现行铁路大多采用人工调度依赖调度员经验，调度过程效率低。本文采用DDPG算法对列车运行进行调度优化以应对突发状况产生的列车，图中所示G138和G140次列车调度后总晚点时间由原来的1小时缩短为43分钟，运行晚点损失降低，列车准点率提高。

由于列车要同时满足准点率以及能源消耗低的要求，在调度过程中对列车速度进行控制，如图6所示，为列车G138解除行车限制后的列车运行速度距离控制曲线，为尽量满足准点运行，列车在满足最小能源消耗情况下以最快速度运行，与原计划速度运行相比，能源消耗降低了22.81％。

四、结论

本发明研究了高速列车运行实时调度策略。针对突发事件的不确定性会对列车造成时间延误影响，造成严重的社会影响和巨大的经济效益损失，根据列车运行特性，建立了列车动力学模型和列车运行调度系统马尔可夫模型。考虑列车总晚点时间和能源消耗最小，提出了一种基于深度确定性策略梯度算法的列车运行调度策略。通过在训练动作中加入噪声，提高了方法在不确定环境下的泛化能力和鲁棒性。本文提出的调度策略有效地减小了列车运行总晚点时间，降低了能源消耗。

以上显示和描述了本发明的基本原理和主要特征和本发明的优点。本行业的技术人员应该了解，本发明不受上述实施例的限制，上述实施例和说明书中描述的只是说明本发明的原理，在不脱离本发明精神和范围的前提下，本发明还会有各种变化和改进，这些变化和改进都落入要求保护的本发明范围内。本发明要求保护范围由所附的权利要求书及其等效物界定。

Claims

1.一种基于深度强化学习的列车运行调度优化方法，包括如下步骤：

步骤一：建立系统模型

1.3建立列车运行调度系统的马尔可夫模型

步骤二、马尔可夫决策过程的深度强化

步骤三、结果和分析

验证列车运行调度系统优化调度策略的有效性。

2.根据权利要求1所述的一种基于深度强化学习的列车运行调度优化方法，其特征在于，所述步骤1.2包括：

式中，M_train表示列车质量；s_tr表示列车位置；t表示列车运行时间；F_tr表示牵引力或者制动力；R_vr表示机械阻力；F_gr表示附加阻力；其中：

r(v)＝B+Cv+Dv² (3)

根据上述各列车延误时间总和T为

式中，t_a(ij)、t_d(ij)分别为列车i在车站j的实际到达与离开时间，而为列车i在车站j的计划到达与离开时间；a_i(t)为列车i在t时刻加速度，v_i(t)为列车i在t时刻速度，s_j为第j站与起始站距离，/>为列车i计划的总运行时间；

列车总的能源消耗E为

其中，f[v_i(t)]为列车i速度为v_i(t)时的牵引力；

J＝ω_tF_tT+ω_eF_eE (6)

3.根据权利要求1所述的一种基于深度强化学习的列车运行调度优化方法，其特征在于，所述步骤1.3包括：

强化学习可用马尔可夫决策过程(MDP)表示；具体形式可用五元组<s,a,p,r,γ>表示，其中，s代表所有的状态，a表示的智能体可以采取的所有行动，p表示状态转移概率，r表示特定状态和动作下的即时奖励，γ表示返回的折扣；以各列车延误时间总和与列车总的能源消耗最小为目标，建立列车运行调度优化的马尔可夫模型：

1)状态：s_t＝{t,s_tr,s_j,f}，观察到的列车运行调度系统状态包括时间、列车位置、所处车站距起始站距离以及当前牵引力；

2)动作：a_t＝{v_i(t)、a_i(t)}，执行的动作是agent在当前时刻t观察到环境的状态后对环境的反应；

3)奖励：奖励函数作为agent制定策略的指导，它代表了期望的控制目标；考虑最优动作引导列车运行调度系统进行合理调度，奖励函数设置为系统的目标函数J为

r(s_t,a_t)＝ω_tF_tT(s_t,a_t)+ω_eF_eE(s_t,a_t) (7)

4)策略：在马尔可夫决策过程中，策略定义为系统从观察状态到动作状态的转移概率，其策略定义为

π(a∣s)＝P[a_t＝a∣s_t＝s]s∈S,a∈A (9)

5)回报：状态动作值函数Q_π(s,a)表示在状态s执行动作a后的预期累积收益，状态动作价值函数Bellman方程表示为：

Q_π(s_t,a_t)＝E_π[r_t+γQ_π(s_t+1,a_t+1)∣s_t,a_t] (10)

Bellman方程表明，当前状态的动作值只与当前的奖惩值和下一个状态的动作值有关，可以通过迭代求解；求解系统最优策略等价于求解最优状态动作值函数，即：

π^*＝argmaxQ_π(s,a) (11)

则对应的Bellman方程为：

4.根据权利要求1所述的一种基于深度强化学习的列车运行调度优化方法，其特征在于，所述步骤二包括：

2.1基于ddpg的列车运行调度框架

基于DDPG(Deep deterministic policy gradient)算法建立列车运行调度框架，对于DDPG算法，目标网络的输入是一个4维状态向量，输出是一个2维动作向量；主网络的输入是状态向量s_t和动作向量a_t，输出是动作值函数Q(s_t,a_t)；在学习过程中，DDPG算法采用深Q网络中的经验回放机制，通过存储agent在每个时间段的经验，形成回放缓冲区；在训练agent时，每次随机提取重放缓冲区中的小批量经验样本，并根据梯度规则更新网络参数；

利用历史数据作为环境状态，离线训练DDPG算法网络；然后，对训练好的DDPG算法参数进行固定，求解列车运行调度问题；对于列车运行调度系统，当调度任务在每个周期时，根据当前系统状态s_t，利用训练好的DDPG算法目标网络和主网络选择调度动作；agent采取行动进入下一个环境状态并获得奖励；然后，收集t+1时间段的系统状态信息作为新样本，得出该时间段的决策；通过这种方式，代理将获得动态的调度策略；

2.2奖励指导的双优先经验回放池

如果采样样本TD误差较大，就代表智能体的预测精度还具有很大的提升空间，那么此样本就值得神经网络去训练。在列车运行调度系统调度过程中，系统获取的奖励回报大小和采取的动作优劣成正相关的，因此可以用奖励来指导动作的选择，提出的奖励指导的优先级经验回放机制

样本无差别存入经验池，按P(i)更新q队列优先级；

2.3ddp-g算法的具体步骤

DDPG算法使用两个独立的网络逼近critic函数和actor函数，每个网络都有自己的目标网络参数θ^Q'和θ^π'，其中Q'和π'分别为目标Q值和目标策略；

在价值网络中，使用损失函数Loss(θ^Q)对参数进行优化：

其中

y_t＝r_t+γQ'(s_t+1,π'(s_t+1|θ^π')|θ^Q') (16)

y_t是通过目标值网络得到的目标动作值，r_t是在状态s_t采取行动后获得的瞬时奖励，γ是折扣因子，Q(s_t,a_t|θ^Q)是在采取行动后通过在线价值网络评估的动作值；损失函数Loss(θ^Q)对θ^Q的梯度为

采用沿损失函数递减方向的梯度下降算法更新网络参数值：

其中μ_Q为价值网络的学习率；

然后根据确定性策略梯度更新策略网络参数θ^π：

其中为μ_π策略网络学习率；

目标价值网络和目标策略网络的参数更新方式为:

θ^Q'←τθ^Q+(1-τ)θ^Q' (21)

θ^π'←τθ^π+(1-τ)θ^π' (22)