CN114202316A

CN114202316A - 基于深度强化学习的城市轨道交通列车时刻表优化方法

Info

Publication number: CN114202316A
Application number: CN202111556696.2A
Authority: CN
Inventors: 胡文斌; 吴承泽; 秦建楠; 耿路路
Original assignee: Nanjing University of Science and Technology
Current assignee: Nanjing University of Science and Technology
Priority date: 2021-12-17
Filing date: 2021-12-17
Publication date: 2022-03-18

Abstract

本发明公开了一种基于深度强化学习的城市轨道交通列车时刻表优化方法，具体为：建立基本数据模块；建立列车牵引能耗计算模块，包括神经网络能耗拟合模块与时间‑能耗曲线拟合模块；神经网络能耗拟合模块使用线路数据和列车速度数据作为输入量，使用实测的能耗数据作为期望输出量，经过学习训练，确定与最小误差相对应的网络参数；时间‑能耗曲线拟合模块使用实测速度曲线和训练后的网络，对能耗进行拟合获得时间与能耗的关系曲线；列车区间运行时间优化模块采用深度强化学习算法，综合考虑列车全线能耗、乘客旅行体验和运营管理要求，设计目标函数，通过调整各个区间的运行时间，最大化该目标函数的值。本发明方法具有科学、精确、可靠的优点。

Description

基于深度强化学习的城市轨道交通列车时刻表优化方法

技术领域

本发明涉及城市轨道交通技术领域，特别是一种基于深度强化学习的城市轨道交通列车时刻表优化方法。

背景技术

随着我国经济的快速发展以及城市化的进程不断加快，城市人口急剧增加，人们对城市交通的需求量也不断提升。城市轨道交通作为一种新型交通方式，因具有运量大、准点率高、安全可靠、节能环保等优点，受到世界各国人们的青睐。在城市轨道交通快速发展的同时，其运行维护成本非常大，尤其足以线路耗电费用最为严重，具有较大的节能潜力。通过调整单区间的速度曲线、调整各个区间的运行时间以达到降低地铁列车能耗的效果，已经成为轨道交通领域研究的热点。

现有的地铁列车的节能策略的研究仍存在一定的问题，存在以下不足：

(1)现有的地铁列车仿真大多是对列车进行动力学建模，利用该模型对列车只在单区间内的速度曲线进行优化，然而由于难以进行精确建模，以及列车可能无法按照指定的速度曲线来运行，仿真得到的能耗与实测能耗差距较大；

(2)现有多区间的运行时间的调整多采用遍历或者动态规划等算法，当站点较多或者调整精度要求较高时，容易出现维度灾难的问题。

(3)现有的多区间运行时间的调整大多只考虑能耗的降低，而很少考虑地铁公司的运营管理要求以及乘客的旅行体验，导致得出的优化方案缺乏实用价值。

发明内容

本发明的目的在于提供一种科学、精确、可靠的基于深度强化学习的城市轨道交通列车时刻表优化方法。

实现本发明目的的技术解决方案为：一种基于深度强化学习的城市轨道交通列车时刻表优化方法，包括以下步骤：

步骤1，建立基本数据模块，包括线路数据模块、列车运行数据模块、地铁运营数据模块、优化参数模块；

步骤2，建立列车牵引能耗计算模块，包括神经网络能耗拟合模块与时间-能耗曲线拟合模块；

步骤3，使用神经网络能耗拟合模块，将线路数据和列车速度数据作为输入量，使用实测的能耗数据作为期望输出量，通过调节网络参数取值，使误差沿梯度方向下降，经过反复学习训练，确定与最小误差相对应的网络参数；

步骤4，使用时间-能耗曲线拟合模块，用实测速度曲线和训练后的网络，对对应的能耗进行拟合，并获得时间与能耗的关系曲线；

步骤5，使用列车区间运行时间优化模块，采用深度强化学习算法，综合考虑列车全线能耗、乘客旅行体验和运营管理要求，设计目标函数，通过调整各个区间的运行时间，最大化该目标函数的值。

本发明与现有技术相比，其显著优点是：

(1)使用神经网络，基于实测数据对不同区间运行时间下列车运行能耗进行拟合，拟合所用的速度曲线是列车实际运行得到的数据，可以确保列车可以按该速度曲线运行，且拟合的误差较小；

(2)将深度强化学习算法应用到各区间运行时间优化中，设计了双分支网络来进行决策，将列车在每个区间的运行时间调整量作为网络的输入，容错率更高，且不会出现维度灾难等问题；

(3)在区间运行时间优化的过程中，综合考虑了全线能耗、服务水平以及运营管理要求，更具实际应用价值。

本发明方法为工程项目中列车的运行规划提供数据和理论支撑，具有较高的使用价值和应用前景。

附图说明

图1为本发明基于深度强化学习的城市轨道交通列车时刻表优化方法的流程示意图。

图2为本发明中列车区间运行时间优化模块的算法流程示意图。

图3为本发明中列车区间运行时间优化模块的网络结构。

具体实施方式

本发明基于深度强化学习的城市轨道交通时刻表优化方法，包括以下步骤：

进一步地，步骤1所述的基本数据模块包括线路数据模块、列车运行数据模块、地铁运营数据模块、优化参数模块，该四个模块均为数据输入模块，为列车牵引能耗计算模块和列车区间运行时间优化模块提供初始参数，其中：

线路数据模块，分为车站数据、坡道数据、弯道数据；

列车运行数据模块，提供列车运行时的实测数据，包括列车速度、牵引电流、辅变电流；

地铁运营数据模块，提供列车每个运行区间的客流、列车原始的时刻表和换乘站数据；

优化参数模块，用于神经网络能耗拟合的参数设置，包括神经网络层数、每层神经元个数、激活函数种类、迭代次数；还用于深度强化学习算法的参数设置，包括深度强化学习算法种类、神经网络层数、每层神经元个数、激活函数种类、迭代次数、奖励函数各个组成部分的比重及所选算法对应的超参数。

进一步地，步骤2所述的建立列车牵引能耗计算模块，包括神经网络能耗拟合模块与时间-能耗曲线拟合模块，其中：

神经网络能耗拟合模块：利用线路数据、列车实测速度、实测能耗对神经网络进行训练，更新网络参数，获得能耗拟合模型；

时间-能耗曲线拟合模块：将更多的实测速度曲线作为训练后的神经网络的输入，计算列车区间运行能耗，获得时间-能耗曲线。

进一步地，步骤3所述神经网络能耗拟合模块，使用的列车实测速度、牵引电流、辅变电流、制动电阻电流均为间隔为0.1s的离散的点，对于每个时刻，输入量为当前时刻及前后各10个时刻的速度值、列车当前位置的坡道参数、列车当前位置的弯道参数，期望输出量为列车在该时刻的功率，利用误差反向传播算法对网络的参数进行更新，具体步骤如下：

(1)确定网络参数：包括网络层数、每层神经元个数、激活函数种类；

(2)确定训练参数：包括参数的更新方法、更新步长、终止条件；

(3)计算列车时间-位置曲线：根据实测的列车速度曲线，将速度对时间进行积分运算，得到列车的时间-位置曲线；

(4)计算每个时刻列车所处位置的线路参数：根据列车时间-位置曲线，以0.1s为间隔，获得列车在每个时刻的位置，查表获得该位置的坡道参数(坡度)和弯道参数(曲率半径)；

(5)计算每个时刻列车的功率：根据实测的网压u、牵引电流i_dr、辅变电流i_aux，以0.1s为间隔，计算列车在每个时刻的功率，计算方法如下：

p＝u(n_dri_dr-n_auxi_aux)

其中n_dr为列车上的牵引变压器数量，n_aux为列车上的辅助变压器数量。

(6)训练网络：以一个时刻前后各10个时刻的速度值、该时刻列车所在位置的坡度、该时刻列车所在位置的曲率半径、该时刻的功率作为一组数据，每次将多组数据作为一个小批量，将速度、坡度、曲率半径作为输入，将功率作为期望输出值，使用均方差作为损失函数，并进行误差的反向传播。不断训练，直至终止条件达成。

进一步地，步骤4所述时间-能耗曲线拟合模块，利用神经网络能耗拟合模块所训练出的网络参数，将不同的速度曲线作为网络的输入，计算对应的能耗值，将时间和能耗的关系绘制在二维坐标系上，得到时间与能耗的关系曲线，具体步骤如下：

(1)计算列车时间-位置曲线：根据实测的列车速度曲线，将速度对时间进行积分运算，得到列车的时间-位置曲线；

(2)计算每个时刻列车所处位置的线路参数：根据列车时间-位置曲线，以0.1s为间隔，获得列车在每个时刻的位置，查表获得该位置的坡道参数(坡度)和弯道参数(曲率半径)；

(3)预测功率：以一个时刻前后各10个时刻的速度值、该时刻列车所在位置的坡度、该时刻列车所在位置的曲率半径、该时刻的功率作为一组数据，作为网络的输入，得到该时刻的功率预测值；

(4)计算能耗：将列车在一个区间的功率预测值对时间积分，得到列车在这个区间的能耗；

(5)绘制时间-能耗曲线：对一个区间的多条速度曲线进行以上(1)～(4)步骤的操作，每条速度曲线都对应一个运行时间和拟合能耗，将运行时间和拟合能耗的关系绘制在二维坐标系上，得到时间与能耗的关系曲线。

进一步地，步骤5所述列车区间运行时间优化模块，在时间-能耗曲线拟合模块求解的基础上，采用深度强化学习算法综合考虑列车全线能耗、乘客旅行体验和运营管理要求，设计目标函数，通过调整各个区间的运行时间，最大化该目标函数的值，具体步骤如下：

(1)选择算法：选择深度强化学习中基于策略的方法中的一种，包括策略梯度(VPG)、优势行动器-评判器(A2C)、近端策略优化(PPO)；

(2)建立网络：使用的神经网络有两个，一个为行动网络，用来确定一个状态下，应该增加运行时间的区间和应该减少运行时间的区间；另一个为评判网络，用来估算一个状态的价值；VPG仅使用了行动网络，而A2C和PPO使用了行动网络和评判网络；如果轨道交通线路全线区间数为n，则行动网络的输入神经元数量为n，输出分为增分支和减分支，每个分支的输出神经元数量为n+1；评判网络的输入神经元数量为n，输出神经元数量为1；行动网络的两个输出分支之前均使用softmax函数，使得输出神经元输出值之和为1；其余部分每两层之间使用ReLU作为激活函数；

(3)初始化网络参数和训练相关参数：初始化行动网络的参数，包括公共部分的参数θ、确定增加运行时间的区间的分支参数α^inc和确定减少运行时间的区间的分支参数α^dec；初始化评判网络的参数φ；初始化经验重放区R；初始化迭代回合数；

(4)开始一个回合：将长度为n的零向量作为初始状态s_t，输入给行动网络。向量中的的每个值代表一个区间的运行时间相对原时刻表的变化量，单位为秒。初始状态为零向量，即列车按原时刻表运行；

(5)网络前向传播：根据网络的参数，计算行动网络两个分支的输出。以每个输出神经元的输出量作为概率，从增分支和减分支各选择一个神经元，分别代表应该增加运行时间的区间编号

应该减少运行时间的区间编号

以输入的向量为基准，对这两个区间的运行时间分别增加和减少1秒，获得新的状态s_t+1。如果任意一个分支选择了多余的一个神经元，则当前回合结束；

(6)计算奖励：对于一个状态，目标函数为

其中E_i代表列车在第i个区间的能耗，k₁E_i代表能耗对目标函数的影响，能耗越低，奖励函数越大；p_i代表第i个区间客流量的归一化值，δt_ri代表第i个区间的运行时间相对于原时刻表的调整量，k₂p_iδt_ri表示乘客旅行体验对目标函数的影响，该项与乘客平均旅行时间变化量正相关，乘客平均旅行时间越短，该项越小，奖励函数越大；F_i是一个标志位，如果编号为i的站是换乘站或终点站，它的值为1，否则为0，该项代表运营管理对目标函数的影响，此处主要考虑换乘站的影响，列车到达换乘站的准时程度影响地铁公司的运营管理压力，列车到达换乘站越准时，该项越小，目标函数越大。目标函数三项前面的系数k₁、k₂、k₃，表示三项在目标函数中的权重，可以根据实际情况自行设定，权重越大，该项对目标函数的影响就越大。

函数的自变量δt_r是由所有区间的运行时间调整量组成的一个向量。式子中的能耗数据E和客流数据p均经过了标准化处理。奖励值r为前后两个状态下，目标函数之差，即

r＝f(s_t+1)-f(s_t)

检查新的状态s_t+1下目标函数值是否为历史最高值，如果是则将新状态和对应的目标函数值保存；

(7)保存状态转换情况：将(s_t,

r_t+1,s_t+1)保存到经验重放区R内；

(8)循环迭代：将更新后的状态s_t+1作为网络的输入，不断重复步骤(5)～(7)，直至一个回合结束；

(9)更新网络参数：使用步骤(1)中选择的深度强化学习算法更新网络参数，更新完成后，清空经验重放区；

(10)开始下一回合：循环执行(4)～(9)，直到达到终止回合数，结束训练；

(11)输出结果：输出最高的目标函数值及其对应的状态。

实施例1

本实施例结合图1～图3，以城市轨道交通中某条地铁列车线路为例，其速度曲线和区间运行时间的一体化优化方法的设计步骤如下：

首先，输入线路数据，包括车站数据、坡道数据、弯道数据；输入列车运行数据，包括列车速度、牵引电流、辅变电流；输入地铁运行数据，包括列车每个运行区间的客流、列车原始的时刻表和换乘站数据；输入优化参数，包括神经网络能耗拟合参数和深度强化学习算法的参数。计算机根据输入的数据，对基本数据模块进行初始化。

进入神经网络能耗拟合模块，具体步骤包括：

步骤一、确定网络参数：包括网络层数、每层神经元个数、激活函数种类；

步骤二、确定训练参数：包括参数的更新方法、更新步长、终止条件；

步骤三、计算列车时间-位置曲线：根据实测的列车速度曲线，将速度对时间进行积分运算，得到列车的时间-位置曲线；

步骤四、计算每个时刻列车所处位置的线路参数：根据列车时间-位置曲线，以0.1s为间隔，获得列车在每个时刻的位置，查表获得该位置的坡道参数(坡度)和弯道参数(曲率半径)；

步骤五、计算每个时刻列车的功率：根据实测的网压u、牵引电流i_dr、辅变电流i_aux，以0.1s为间隔，计算列车在每个时刻的功率，计算方法如下：

p＝u(n_dri_dr-n_auxi_aux)

步骤六、训练网络：以一个时刻前后各10个时刻的速度值、该时刻列车所在位置的坡度、该时刻列车所在位置的曲率半径、该时刻的功率作为一组数据，每次将多组数据作为一个小批量，将速度、坡度、曲率半径作为输入，将功率作为期望输出值，使用均方差作为损失函数，并进行误差的反向传播。不断训练，直至终止条件达成。

进入时间-能耗曲线拟合模块，具体步骤包括：

步骤一、计算列车时间-位置曲线：根据实测的列车速度曲线，将速度对时间进行积分运算，得到列车的时间-位置曲线；

步骤二、计算每个时刻列车所处位置的线路参数：根据列车时间-位置曲线，以0.1s为间隔，获得列车在每个时刻的位置，查表获得该位置的坡道参数(坡度)和弯道参数(曲率半径)；

步骤三、预测功率：以一个时刻前后各10个时刻的速度值、该时刻列车所在位置的坡度、该时刻列车所在位置的曲率半径、该时刻的功率作为一组数据，作为网络的输入，得到该时刻的功率预测值；

步骤四、计算能耗：将列车在一个区间的功率预测值对时间积分，得到列车在这个区间的能耗；

步骤五、绘制时间-能耗曲线：对一个区间的多条速度曲线进行以上(1)～(4)步骤的操作，每条速度曲线都对应一个运行时间和拟合能耗，将运行时间和拟合能耗的关系绘制在二维坐标系上，得到时间与能耗的关系曲线。

进入列车区间运行时间优化模块，具体步骤包括：

步骤一、选择算法：可以选择深度强化学习中基于策略的方法中的一种，包括策略梯度(VPG)、优势行动器-评判器(A2C)、近端策略优化(PPO)；

步骤二、建立网络：使用的神经网络有两个，一个为行动网络，用来确定一个状态下，应该增加运行时间的区间和应该减少运行时间的区间；另一个为评判网络，用来估算一个状态的价值；VPG仅使用了行动网络，而A2C和PPO使用了行动网络和评判网络；如果轨道交通线路全线区间数为n，则行动网络的输入神经元数量为n，输出分为增分支和减分支，每个分支的输出神经元数量为n+1；评判网络的输入神经元数量为n，输出神经元数量为1；行动网络的两个输出分支之前均使用softmax函数，使得输出神经元输出值之和为1；其余部分每两层之间使用ReLU作为激活函数；

步骤三、初始化网络参数和训练相关参数：初始化行动网络的参数，包括公共部分的参数θ、确定增加运行时间的区间的分支参数α^inc和确定减少运行时间的区间的分支参数α^dec；初始化评判网络的参数φ；初始化经验重放区R；初始化迭代回合数；

步骤四、开始一个回合：将长度为n的零向量作为初始状态s_t，输入给行动网络。向量中的的每个值代表一个区间的运行时间相对原时刻表的变化量，单位为秒。初始状态为零向量，即列车按原时刻表运行；

步骤五、网络前向传播：根据网络的参数，计算行动网络两个分支的输出。以每个输出神经元的输出量作为概率，从增分支和减分支各选择一个神经元，分别代表应该增加运行时间的区间编号

应该减少运行时间的区间编号

步骤六、计算奖励：对于一个状态，目标函数为

r＝f(s_t+1)-f(s_t)

步骤七、保存状态转换情况：将(s_t,

r_t+1,s_t+1)保存到经验重放区R内；

步骤八、循环迭代：将更新后的状态s_t+1作为网络的输入，不断重复步骤五至七，直至一个回合结束；

步骤九、更新网络参数：使用步骤一中选择的深度强化学习算法更新网络参数，更新完成后，清空经验重放区；

步骤十、开始下一回合：循环执行步骤四至九，直到达到终止回合数，结束训练；

步骤十一、输出结果：输出最高的目标函数值及其对应的状态。

综上所述，本发明方法可以较为精确地拟合出列车区间运行时间与能耗的关系，并综合考虑节能效果、乘客的旅行体验以及地铁公司的运营管理要求，得到合适的列车时刻表，为列车的运行规划提供数据和理论支撑，具有较高的使用价值和应用前景。

Claims

1.一种基于深度强化学习的城市轨道交通列车时刻表优化方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的基于深度强化学习的城市轨道交通列车时刻表优化方法，其特征在于，步骤1所述的基本数据模块包括线路数据模块、列车运行数据模块、地铁运营数据模块、优化参数模块，该四个模块均为数据输入模块，为列车牵引能耗计算模块和列车区间运行时间优化模块提供初始参数，其中：

线路数据模块，分为车站数据、坡道数据、弯道数据；

3.根据权利要求1所述的基于深度强化学习的城市轨道交通列车时刻表优化方法，其特征在于，步骤2所述的建立列车牵引能耗计算模块，包括神经网络能耗拟合模块与时间-能耗曲线拟合模块，其中：

4.根据权利要求1所述的基于深度强化学习的城市轨道交通列车时刻表优化方法，其特征在于，步骤3所述神经网络能耗拟合模块，使用的列车实测速度、牵引电流、辅变电流、制动电阻电流均为间隔为0.1s的离散的点，对于每个时刻，输入量为当前时刻及前后各10个时刻的速度值、列车当前位置的坡道参数、列车当前位置的弯道参数，期望输出量为列车在该时刻的功率，利用误差反向传播算法对网络的参数进行更新，具体步骤如下：

(4)计算每个时刻列车所处位置的线路参数：根据列车时间-位置曲线，以0.1s为间隔，获得列车在每个时刻的位置，查表获得该位置的坡道参数和弯道参数；

(5)计算每个时刻列车的功率：根据实测的网压u、牵引电流i_dr、辅变电流i_aux，以0.1s为间隔，计算列车在每个时刻的功率p，计算方法如下：

p＝u(n_dri_dr-n_auxi_aux)

其中n_dr为列车上的牵引变压器数量，n_aux为列车上的辅助变压器数量；

(6)训练网络：以一个时刻前后各10个时刻的速度值、该时刻列车所在位置的坡度、该时刻列车所在位置的曲率半径、该时刻的功率作为一组数据，每次将多组数据作为一个小批量，将速度、坡度、曲率半径作为输入，将功率作为期望输出值，使用均方差作为损失函数，并进行误差的反向传播；不断训练，直至终止条件达成。

5.根据权利要求1所述的基于深度强化学习的城市轨道交通列车时刻表优化方法，其特征在于，步骤4所述时间-能耗曲线拟合模块，利用神经网络能耗拟合模块所训练出的网络参数，将不同的速度曲线作为网络的输入，计算对应的能耗值，将时间和能耗的关系绘制在二维坐标系上，得到时间与能耗的关系曲线，具体步骤如下：

(2)计算每个时刻列车所处位置的线路参数：根据列车时间-位置曲线，以0.1s为间隔，获得列车在每个时刻的位置，查表获得该位置的坡道参数和弯道参数；

6.根据权利要求1所述的基于深度强化学习的城市轨道交通列车时刻表优化方法，其特征在于，步骤5所述列车区间运行时间优化模块，在时间-能耗曲线拟合模块求解的基础上，采用深度强化学习算法综合考虑列车全线能耗、乘客旅行体验和运营管理要求，设计目标函数，通过调整各个区间的运行时间，最大化该目标函数的值，具体步骤如下：

(1)选择算法：选择深度强化学习中基于策略的方法中的一种，包括策略梯度VPG、优势行动器-评判器A2C、近端策略优化PPO；

(4)开始一个回合：将长度为n的零向量作为初始状态s_t，输入给行动网络；向量中的每个值代表一个区间的运行时间相对原时刻表的变化量，单位为秒；初始状态为零向量，即列车按原时刻表运行；

(5)网络前向传播：根据网络的参数，计算行动网络两个分支的输出；以每个输出神经元的输出量作为概率，从增分支和减分支各选择一个神经元，分别代表应该增加运行时间的区间编号

应该减少运行时间的区间编号

以输入的向量为基准，对这两个区间的运行时间分别增加和减少1秒，获得新的状态s_t+1；如果任意一个分支选择了多余的一个神经元，则当前回合结束；

(6)计算奖励：对于一个状态，目标函数为

其中E_i代表列车在第i个区间的能耗，k₁E_i代表能耗对目标函数的影响，能耗越低，奖励函数越大；p_i代表第i个区间客流量的归一化值，δt_ri代表第i个区间的运行时间相对于原时刻表的调整量，k₂p_iδt_ri表示乘客旅行体验对目标函数的影响，该项与乘客平均旅行时间变化量正相关，乘客平均旅行时间越短，该项越小，奖励函数越大；F_i是一个标志位，如果编号为i的站是换乘站或终点站，它的值为1，否则为0，该项代表运营管理对目标函数的影响，此处考虑换乘站的影响，列车到达换乘站的准时程度影响地铁公司的运营管理压力，列车到达换乘站越准时，该项越小，目标函数越大；目标函数三项前面的系数k₁、k₂、k₃，表示三项在目标函数中的权重，根据实际情况设定，权重越大，该项对目标函数的影响就越大；

函数的自变量δt_r是由所有区间的运行时间调整量组成的一个向量，式子中的能耗数据E和客流数据p均经过了标准化处理；奖励值r为前后两个状态下，目标函数之差，即

r＝f(s_t+1)-f(s_t)

(7)保存状态转换情况：将

保存到经验重放区R内；

(11)输出结果：输出最高的目标函数值及其对应的状态。