CN114202316A - 基于深度强化学习的城市轨道交通列车时刻表优化方法 - Google Patents

基于深度强化学习的城市轨道交通列车时刻表优化方法 Download PDF

Info

Publication number
CN114202316A
CN114202316A CN202111556696.2A CN202111556696A CN114202316A CN 114202316 A CN114202316 A CN 114202316A CN 202111556696 A CN202111556696 A CN 202111556696A CN 114202316 A CN114202316 A CN 114202316A
Authority
CN
China
Prior art keywords
train
energy consumption
time
network
module
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111556696.2A
Other languages
English (en)
Inventor
胡文斌
吴承泽
秦建楠
耿路路
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing University of Science and Technology
Original Assignee
Nanjing University of Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing University of Science and Technology filed Critical Nanjing University of Science and Technology
Priority to CN202111556696.2A priority Critical patent/CN114202316A/zh
Publication of CN114202316A publication Critical patent/CN114202316A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/10Office automation; Time management
    • G06Q10/109Time management, e.g. calendars, reminders, meetings or time accounting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/047Probabilistic or stochastic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/04Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/40Business processes related to the transportation industry

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Business, Economics & Management (AREA)
  • Theoretical Computer Science (AREA)
  • Human Resources & Organizations (AREA)
  • General Physics & Mathematics (AREA)
  • Strategic Management (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Economics (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Marketing (AREA)
  • Biomedical Technology (AREA)
  • General Business, Economics & Management (AREA)
  • Artificial Intelligence (AREA)
  • Tourism & Hospitality (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Molecular Biology (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Operations Research (AREA)
  • Quality & Reliability (AREA)
  • Probability & Statistics with Applications (AREA)
  • Game Theory and Decision Science (AREA)
  • Development Economics (AREA)
  • Primary Health Care (AREA)
  • Train Traffic Observation, Control, And Security (AREA)

Abstract

本发明公开了一种基于深度强化学习的城市轨道交通列车时刻表优化方法,具体为:建立基本数据模块;建立列车牵引能耗计算模块,包括神经网络能耗拟合模块与时间‑能耗曲线拟合模块;神经网络能耗拟合模块使用线路数据和列车速度数据作为输入量,使用实测的能耗数据作为期望输出量,经过学习训练,确定与最小误差相对应的网络参数;时间‑能耗曲线拟合模块使用实测速度曲线和训练后的网络,对能耗进行拟合获得时间与能耗的关系曲线;列车区间运行时间优化模块采用深度强化学习算法,综合考虑列车全线能耗、乘客旅行体验和运营管理要求,设计目标函数,通过调整各个区间的运行时间,最大化该目标函数的值。本发明方法具有科学、精确、可靠的优点。

Description

基于深度强化学习的城市轨道交通列车时刻表优化方法
技术领域
本发明涉及城市轨道交通技术领域,特别是一种基于深度强化学习的城市轨道交通列车时刻表优化方法。
背景技术
随着我国经济的快速发展以及城市化的进程不断加快,城市人口急剧增加,人们对城市交通的需求量也不断提升。城市轨道交通作为一种新型交通方式,因具有运量大、准点率高、安全可靠、节能环保等优点,受到世界各国人们的青睐。在城市轨道交通快速发展的同时,其运行维护成本非常大,尤其足以线路耗电费用最为严重,具有较大的节能潜力。通过调整单区间的速度曲线、调整各个区间的运行时间以达到降低地铁列车能耗的效果,已经成为轨道交通领域研究的热点。
现有的地铁列车的节能策略的研究仍存在一定的问题,存在以下不足:
(1)现有的地铁列车仿真大多是对列车进行动力学建模,利用该模型对列车只在单区间内的速度曲线进行优化,然而由于难以进行精确建模,以及列车可能无法按照指定的速度曲线来运行,仿真得到的能耗与实测能耗差距较大;
(2)现有多区间的运行时间的调整多采用遍历或者动态规划等算法,当站点较多或者调整精度要求较高时,容易出现维度灾难的问题。
(3)现有的多区间运行时间的调整大多只考虑能耗的降低,而很少考虑地铁公司的运营管理要求以及乘客的旅行体验,导致得出的优化方案缺乏实用价值。
发明内容
本发明的目的在于提供一种科学、精确、可靠的基于深度强化学习的城市轨道交通列车时刻表优化方法。
实现本发明目的的技术解决方案为:一种基于深度强化学习的城市轨道交通列车时刻表优化方法,包括以下步骤:
步骤1,建立基本数据模块,包括线路数据模块、列车运行数据模块、地铁运营数据模块、优化参数模块;
步骤2,建立列车牵引能耗计算模块,包括神经网络能耗拟合模块与时间-能耗曲线拟合模块;
步骤3,使用神经网络能耗拟合模块,将线路数据和列车速度数据作为输入量,使用实测的能耗数据作为期望输出量,通过调节网络参数取值,使误差沿梯度方向下降,经过反复学习训练,确定与最小误差相对应的网络参数;
步骤4,使用时间-能耗曲线拟合模块,用实测速度曲线和训练后的网络,对对应的能耗进行拟合,并获得时间与能耗的关系曲线;
步骤5,使用列车区间运行时间优化模块,采用深度强化学习算法,综合考虑列车全线能耗、乘客旅行体验和运营管理要求,设计目标函数,通过调整各个区间的运行时间,最大化该目标函数的值。
本发明与现有技术相比,其显著优点是:
(1)使用神经网络,基于实测数据对不同区间运行时间下列车运行能耗进行拟合,拟合所用的速度曲线是列车实际运行得到的数据,可以确保列车可以按该速度曲线运行,且拟合的误差较小;
(2)将深度强化学习算法应用到各区间运行时间优化中,设计了双分支网络来进行决策,将列车在每个区间的运行时间调整量作为网络的输入,容错率更高,且不会出现维度灾难等问题;
(3)在区间运行时间优化的过程中,综合考虑了全线能耗、服务水平以及运营管理要求,更具实际应用价值。
本发明方法为工程项目中列车的运行规划提供数据和理论支撑,具有较高的使用价值和应用前景。
附图说明
图1为本发明基于深度强化学习的城市轨道交通列车时刻表优化方法的流程示意图。
图2为本发明中列车区间运行时间优化模块的算法流程示意图。
图3为本发明中列车区间运行时间优化模块的网络结构。
具体实施方式
本发明基于深度强化学习的城市轨道交通时刻表优化方法,包括以下步骤:
步骤1,建立基本数据模块,包括线路数据模块、列车运行数据模块、地铁运营数据模块、优化参数模块;
步骤2,建立列车牵引能耗计算模块,包括神经网络能耗拟合模块与时间-能耗曲线拟合模块;
步骤3,使用神经网络能耗拟合模块,将线路数据和列车速度数据作为输入量,使用实测的能耗数据作为期望输出量,通过调节网络参数取值,使误差沿梯度方向下降,经过反复学习训练,确定与最小误差相对应的网络参数;
步骤4,使用时间-能耗曲线拟合模块,用实测速度曲线和训练后的网络,对对应的能耗进行拟合,并获得时间与能耗的关系曲线;
步骤5,使用列车区间运行时间优化模块,采用深度强化学习算法,综合考虑列车全线能耗、乘客旅行体验和运营管理要求,设计目标函数,通过调整各个区间的运行时间,最大化该目标函数的值。
进一步地,步骤1所述的基本数据模块包括线路数据模块、列车运行数据模块、地铁运营数据模块、优化参数模块,该四个模块均为数据输入模块,为列车牵引能耗计算模块和列车区间运行时间优化模块提供初始参数,其中:
线路数据模块,分为车站数据、坡道数据、弯道数据;
列车运行数据模块,提供列车运行时的实测数据,包括列车速度、牵引电流、辅变电流;
地铁运营数据模块,提供列车每个运行区间的客流、列车原始的时刻表和换乘站数据;
优化参数模块,用于神经网络能耗拟合的参数设置,包括神经网络层数、每层神经元个数、激活函数种类、迭代次数;还用于深度强化学习算法的参数设置,包括深度强化学习算法种类、神经网络层数、每层神经元个数、激活函数种类、迭代次数、奖励函数各个组成部分的比重及所选算法对应的超参数。
进一步地,步骤2所述的建立列车牵引能耗计算模块,包括神经网络能耗拟合模块与时间-能耗曲线拟合模块,其中:
神经网络能耗拟合模块:利用线路数据、列车实测速度、实测能耗对神经网络进行训练,更新网络参数,获得能耗拟合模型;
时间-能耗曲线拟合模块:将更多的实测速度曲线作为训练后的神经网络的输入,计算列车区间运行能耗,获得时间-能耗曲线。
进一步地,步骤3所述神经网络能耗拟合模块,使用的列车实测速度、牵引电流、辅变电流、制动电阻电流均为间隔为0.1s的离散的点,对于每个时刻,输入量为当前时刻及前后各10个时刻的速度值、列车当前位置的坡道参数、列车当前位置的弯道参数,期望输出量为列车在该时刻的功率,利用误差反向传播算法对网络的参数进行更新,具体步骤如下:
(1)确定网络参数:包括网络层数、每层神经元个数、激活函数种类;
(2)确定训练参数:包括参数的更新方法、更新步长、终止条件;
(3)计算列车时间-位置曲线:根据实测的列车速度曲线,将速度对时间进行积分运算,得到列车的时间-位置曲线;
(4)计算每个时刻列车所处位置的线路参数:根据列车时间-位置曲线,以0.1s为间隔,获得列车在每个时刻的位置,查表获得该位置的坡道参数(坡度)和弯道参数(曲率半径);
(5)计算每个时刻列车的功率:根据实测的网压u、牵引电流idr、辅变电流iaux,以0.1s为间隔,计算列车在每个时刻的功率,计算方法如下:
p=u(ndridr-nauxiaux)
其中ndr为列车上的牵引变压器数量,naux为列车上的辅助变压器数量。
(6)训练网络:以一个时刻前后各10个时刻的速度值、该时刻列车所在位置的坡度、该时刻列车所在位置的曲率半径、该时刻的功率作为一组数据,每次将多组数据作为一个小批量,将速度、坡度、曲率半径作为输入,将功率作为期望输出值,使用均方差作为损失函数,并进行误差的反向传播。不断训练,直至终止条件达成。
进一步地,步骤4所述时间-能耗曲线拟合模块,利用神经网络能耗拟合模块所训练出的网络参数,将不同的速度曲线作为网络的输入,计算对应的能耗值,将时间和能耗的关系绘制在二维坐标系上,得到时间与能耗的关系曲线,具体步骤如下:
(1)计算列车时间-位置曲线:根据实测的列车速度曲线,将速度对时间进行积分运算,得到列车的时间-位置曲线;
(2)计算每个时刻列车所处位置的线路参数:根据列车时间-位置曲线,以0.1s为间隔,获得列车在每个时刻的位置,查表获得该位置的坡道参数(坡度)和弯道参数(曲率半径);
(3)预测功率:以一个时刻前后各10个时刻的速度值、该时刻列车所在位置的坡度、该时刻列车所在位置的曲率半径、该时刻的功率作为一组数据,作为网络的输入,得到该时刻的功率预测值;
(4)计算能耗:将列车在一个区间的功率预测值对时间积分,得到列车在这个区间的能耗;
(5)绘制时间-能耗曲线:对一个区间的多条速度曲线进行以上(1)~(4)步骤的操作,每条速度曲线都对应一个运行时间和拟合能耗,将运行时间和拟合能耗的关系绘制在二维坐标系上,得到时间与能耗的关系曲线。
进一步地,步骤5所述列车区间运行时间优化模块,在时间-能耗曲线拟合模块求解的基础上,采用深度强化学习算法综合考虑列车全线能耗、乘客旅行体验和运营管理要求,设计目标函数,通过调整各个区间的运行时间,最大化该目标函数的值,具体步骤如下:
(1)选择算法:选择深度强化学习中基于策略的方法中的一种,包括策略梯度(VPG)、优势行动器-评判器(A2C)、近端策略优化(PPO);
(2)建立网络:使用的神经网络有两个,一个为行动网络,用来确定一个状态下,应该增加运行时间的区间和应该减少运行时间的区间;另一个为评判网络,用来估算一个状态的价值;VPG仅使用了行动网络,而A2C和PPO使用了行动网络和评判网络;如果轨道交通线路全线区间数为n,则行动网络的输入神经元数量为n,输出分为增分支和减分支,每个分支的输出神经元数量为n+1;评判网络的输入神经元数量为n,输出神经元数量为1;行动网络的两个输出分支之前均使用softmax函数,使得输出神经元输出值之和为1;其余部分每两层之间使用ReLU作为激活函数;
(3)初始化网络参数和训练相关参数:初始化行动网络的参数,包括公共部分的参数θ、确定增加运行时间的区间的分支参数αinc和确定减少运行时间的区间的分支参数αdec;初始化评判网络的参数φ;初始化经验重放区R;初始化迭代回合数;
(4)开始一个回合:将长度为n的零向量作为初始状态st,输入给行动网络。向量中的的每个值代表一个区间的运行时间相对原时刻表的变化量,单位为秒。初始状态为零向量,即列车按原时刻表运行;
(5)网络前向传播:根据网络的参数,计算行动网络两个分支的输出。以每个输出神经元的输出量作为概率,从增分支和减分支各选择一个神经元,分别代表应该增加运行时间的区间编号
Figure BDA0003418974650000051
应该减少运行时间的区间编号
Figure BDA0003418974650000052
以输入的向量为基准,对这两个区间的运行时间分别增加和减少1秒,获得新的状态st+1。如果任意一个分支选择了多余的一个神经元,则当前回合结束;
(6)计算奖励:对于一个状态,目标函数为
Figure BDA0003418974650000053
其中Ei代表列车在第i个区间的能耗,k1Ei代表能耗对目标函数的影响,能耗越低,奖励函数越大;pi代表第i个区间客流量的归一化值,δtri代表第i个区间的运行时间相对于原时刻表的调整量,k2piδtri表示乘客旅行体验对目标函数的影响,该项与乘客平均旅行时间变化量正相关,乘客平均旅行时间越短,该项越小,奖励函数越大;Fi是一个标志位,如果编号为i的站是换乘站或终点站,它的值为1,否则为0,该项代表运营管理对目标函数的影响,此处主要考虑换乘站的影响,列车到达换乘站的准时程度影响地铁公司的运营管理压力,列车到达换乘站越准时,该项越小,目标函数越大。目标函数三项前面的系数k1、k2、k3,表示三项在目标函数中的权重,可以根据实际情况自行设定,权重越大,该项对目标函数的影响就越大。
函数的自变量δtr是由所有区间的运行时间调整量组成的一个向量。式子中的能耗数据E和客流数据p均经过了标准化处理。奖励值r为前后两个状态下,目标函数之差,即
r=f(st+1)-f(st)
检查新的状态st+1下目标函数值是否为历史最高值,如果是则将新状态和对应的目标函数值保存;
(7)保存状态转换情况:将(st,
Figure BDA0003418974650000061
rt+1,st+1)保存到经验重放区R内;
(8)循环迭代:将更新后的状态st+1作为网络的输入,不断重复步骤(5)~(7),直至一个回合结束;
(9)更新网络参数:使用步骤(1)中选择的深度强化学习算法更新网络参数,更新完成后,清空经验重放区;
(10)开始下一回合:循环执行(4)~(9),直到达到终止回合数,结束训练;
(11)输出结果:输出最高的目标函数值及其对应的状态。
实施例1
本实施例结合图1~图3,以城市轨道交通中某条地铁列车线路为例,其速度曲线和区间运行时间的一体化优化方法的设计步骤如下:
首先,输入线路数据,包括车站数据、坡道数据、弯道数据;输入列车运行数据,包括列车速度、牵引电流、辅变电流;输入地铁运行数据,包括列车每个运行区间的客流、列车原始的时刻表和换乘站数据;输入优化参数,包括神经网络能耗拟合参数和深度强化学习算法的参数。计算机根据输入的数据,对基本数据模块进行初始化。
进入神经网络能耗拟合模块,具体步骤包括:
步骤一、确定网络参数:包括网络层数、每层神经元个数、激活函数种类;
步骤二、确定训练参数:包括参数的更新方法、更新步长、终止条件;
步骤三、计算列车时间-位置曲线:根据实测的列车速度曲线,将速度对时间进行积分运算,得到列车的时间-位置曲线;
步骤四、计算每个时刻列车所处位置的线路参数:根据列车时间-位置曲线,以0.1s为间隔,获得列车在每个时刻的位置,查表获得该位置的坡道参数(坡度)和弯道参数(曲率半径);
步骤五、计算每个时刻列车的功率:根据实测的网压u、牵引电流idr、辅变电流iaux,以0.1s为间隔,计算列车在每个时刻的功率,计算方法如下:
p=u(ndridr-nauxiaux)
其中ndr为列车上的牵引变压器数量,naux为列车上的辅助变压器数量。
步骤六、训练网络:以一个时刻前后各10个时刻的速度值、该时刻列车所在位置的坡度、该时刻列车所在位置的曲率半径、该时刻的功率作为一组数据,每次将多组数据作为一个小批量,将速度、坡度、曲率半径作为输入,将功率作为期望输出值,使用均方差作为损失函数,并进行误差的反向传播。不断训练,直至终止条件达成。
进入时间-能耗曲线拟合模块,具体步骤包括:
步骤一、计算列车时间-位置曲线:根据实测的列车速度曲线,将速度对时间进行积分运算,得到列车的时间-位置曲线;
步骤二、计算每个时刻列车所处位置的线路参数:根据列车时间-位置曲线,以0.1s为间隔,获得列车在每个时刻的位置,查表获得该位置的坡道参数(坡度)和弯道参数(曲率半径);
步骤三、预测功率:以一个时刻前后各10个时刻的速度值、该时刻列车所在位置的坡度、该时刻列车所在位置的曲率半径、该时刻的功率作为一组数据,作为网络的输入,得到该时刻的功率预测值;
步骤四、计算能耗:将列车在一个区间的功率预测值对时间积分,得到列车在这个区间的能耗;
步骤五、绘制时间-能耗曲线:对一个区间的多条速度曲线进行以上(1)~(4)步骤的操作,每条速度曲线都对应一个运行时间和拟合能耗,将运行时间和拟合能耗的关系绘制在二维坐标系上,得到时间与能耗的关系曲线。
进入列车区间运行时间优化模块,具体步骤包括:
步骤一、选择算法:可以选择深度强化学习中基于策略的方法中的一种,包括策略梯度(VPG)、优势行动器-评判器(A2C)、近端策略优化(PPO);
步骤二、建立网络:使用的神经网络有两个,一个为行动网络,用来确定一个状态下,应该增加运行时间的区间和应该减少运行时间的区间;另一个为评判网络,用来估算一个状态的价值;VPG仅使用了行动网络,而A2C和PPO使用了行动网络和评判网络;如果轨道交通线路全线区间数为n,则行动网络的输入神经元数量为n,输出分为增分支和减分支,每个分支的输出神经元数量为n+1;评判网络的输入神经元数量为n,输出神经元数量为1;行动网络的两个输出分支之前均使用softmax函数,使得输出神经元输出值之和为1;其余部分每两层之间使用ReLU作为激活函数;
步骤三、初始化网络参数和训练相关参数:初始化行动网络的参数,包括公共部分的参数θ、确定增加运行时间的区间的分支参数αinc和确定减少运行时间的区间的分支参数αdec;初始化评判网络的参数φ;初始化经验重放区R;初始化迭代回合数;
步骤四、开始一个回合:将长度为n的零向量作为初始状态st,输入给行动网络。向量中的的每个值代表一个区间的运行时间相对原时刻表的变化量,单位为秒。初始状态为零向量,即列车按原时刻表运行;
步骤五、网络前向传播:根据网络的参数,计算行动网络两个分支的输出。以每个输出神经元的输出量作为概率,从增分支和减分支各选择一个神经元,分别代表应该增加运行时间的区间编号
Figure BDA0003418974650000081
应该减少运行时间的区间编号
Figure BDA0003418974650000082
以输入的向量为基准,对这两个区间的运行时间分别增加和减少1秒,获得新的状态st+1。如果任意一个分支选择了多余的一个神经元,则当前回合结束;
步骤六、计算奖励:对于一个状态,目标函数为
Figure BDA0003418974650000083
其中Ei代表列车在第i个区间的能耗,k1Ei代表能耗对目标函数的影响,能耗越低,奖励函数越大;pi代表第i个区间客流量的归一化值,δtri代表第i个区间的运行时间相对于原时刻表的调整量,k2piδtri表示乘客旅行体验对目标函数的影响,该项与乘客平均旅行时间变化量正相关,乘客平均旅行时间越短,该项越小,奖励函数越大;Fi是一个标志位,如果编号为i的站是换乘站或终点站,它的值为1,否则为0,该项代表运营管理对目标函数的影响,此处主要考虑换乘站的影响,列车到达换乘站的准时程度影响地铁公司的运营管理压力,列车到达换乘站越准时,该项越小,目标函数越大。目标函数三项前面的系数k1、k2、k3,表示三项在目标函数中的权重,可以根据实际情况自行设定,权重越大,该项对目标函数的影响就越大。
函数的自变量δtr是由所有区间的运行时间调整量组成的一个向量。式子中的能耗数据E和客流数据p均经过了标准化处理。奖励值r为前后两个状态下,目标函数之差,即
r=f(st+1)-f(st)
检查新的状态st+1下目标函数值是否为历史最高值,如果是则将新状态和对应的目标函数值保存;
步骤七、保存状态转换情况:将(st,
Figure BDA0003418974650000091
rt+1,st+1)保存到经验重放区R内;
步骤八、循环迭代:将更新后的状态st+1作为网络的输入,不断重复步骤五至七,直至一个回合结束;
步骤九、更新网络参数:使用步骤一中选择的深度强化学习算法更新网络参数,更新完成后,清空经验重放区;
步骤十、开始下一回合:循环执行步骤四至九,直到达到终止回合数,结束训练;
步骤十一、输出结果:输出最高的目标函数值及其对应的状态。
综上所述,本发明方法可以较为精确地拟合出列车区间运行时间与能耗的关系,并综合考虑节能效果、乘客的旅行体验以及地铁公司的运营管理要求,得到合适的列车时刻表,为列车的运行规划提供数据和理论支撑,具有较高的使用价值和应用前景。

Claims (6)

1.一种基于深度强化学习的城市轨道交通列车时刻表优化方法,其特征在于,包括以下步骤:
步骤1,建立基本数据模块,包括线路数据模块、列车运行数据模块、地铁运营数据模块、优化参数模块;
步骤2,建立列车牵引能耗计算模块,包括神经网络能耗拟合模块与时间-能耗曲线拟合模块;
步骤3,使用神经网络能耗拟合模块,将线路数据和列车速度数据作为输入量,使用实测的能耗数据作为期望输出量,通过调节网络参数取值,使误差沿梯度方向下降,经过反复学习训练,确定与最小误差相对应的网络参数;
步骤4,使用时间-能耗曲线拟合模块,用实测速度曲线和训练后的网络,对对应的能耗进行拟合,并获得时间与能耗的关系曲线;
步骤5,使用列车区间运行时间优化模块,采用深度强化学习算法,综合考虑列车全线能耗、乘客旅行体验和运营管理要求,设计目标函数,通过调整各个区间的运行时间,最大化该目标函数的值。
2.根据权利要求1所述的基于深度强化学习的城市轨道交通列车时刻表优化方法,其特征在于,步骤1所述的基本数据模块包括线路数据模块、列车运行数据模块、地铁运营数据模块、优化参数模块,该四个模块均为数据输入模块,为列车牵引能耗计算模块和列车区间运行时间优化模块提供初始参数,其中:
线路数据模块,分为车站数据、坡道数据、弯道数据;
列车运行数据模块,提供列车运行时的实测数据,包括列车速度、牵引电流、辅变电流;
地铁运营数据模块,提供列车每个运行区间的客流、列车原始的时刻表和换乘站数据;
优化参数模块,用于神经网络能耗拟合的参数设置,包括神经网络层数、每层神经元个数、激活函数种类、迭代次数;还用于深度强化学习算法的参数设置,包括深度强化学习算法种类、神经网络层数、每层神经元个数、激活函数种类、迭代次数、奖励函数各个组成部分的比重及所选算法对应的超参数。
3.根据权利要求1所述的基于深度强化学习的城市轨道交通列车时刻表优化方法,其特征在于,步骤2所述的建立列车牵引能耗计算模块,包括神经网络能耗拟合模块与时间-能耗曲线拟合模块,其中:
神经网络能耗拟合模块:利用线路数据、列车实测速度、实测能耗对神经网络进行训练,更新网络参数,获得能耗拟合模型;
时间-能耗曲线拟合模块:将更多的实测速度曲线作为训练后的神经网络的输入,计算列车区间运行能耗,获得时间-能耗曲线。
4.根据权利要求1所述的基于深度强化学习的城市轨道交通列车时刻表优化方法,其特征在于,步骤3所述神经网络能耗拟合模块,使用的列车实测速度、牵引电流、辅变电流、制动电阻电流均为间隔为0.1s的离散的点,对于每个时刻,输入量为当前时刻及前后各10个时刻的速度值、列车当前位置的坡道参数、列车当前位置的弯道参数,期望输出量为列车在该时刻的功率,利用误差反向传播算法对网络的参数进行更新,具体步骤如下:
(1)确定网络参数:包括网络层数、每层神经元个数、激活函数种类;
(2)确定训练参数:包括参数的更新方法、更新步长、终止条件;
(3)计算列车时间-位置曲线:根据实测的列车速度曲线,将速度对时间进行积分运算,得到列车的时间-位置曲线;
(4)计算每个时刻列车所处位置的线路参数:根据列车时间-位置曲线,以0.1s为间隔,获得列车在每个时刻的位置,查表获得该位置的坡道参数和弯道参数;
(5)计算每个时刻列车的功率:根据实测的网压u、牵引电流idr、辅变电流iaux,以0.1s为间隔,计算列车在每个时刻的功率p,计算方法如下:
p=u(ndridr-nauxiaux)
其中ndr为列车上的牵引变压器数量,naux为列车上的辅助变压器数量;
(6)训练网络:以一个时刻前后各10个时刻的速度值、该时刻列车所在位置的坡度、该时刻列车所在位置的曲率半径、该时刻的功率作为一组数据,每次将多组数据作为一个小批量,将速度、坡度、曲率半径作为输入,将功率作为期望输出值,使用均方差作为损失函数,并进行误差的反向传播;不断训练,直至终止条件达成。
5.根据权利要求1所述的基于深度强化学习的城市轨道交通列车时刻表优化方法,其特征在于,步骤4所述时间-能耗曲线拟合模块,利用神经网络能耗拟合模块所训练出的网络参数,将不同的速度曲线作为网络的输入,计算对应的能耗值,将时间和能耗的关系绘制在二维坐标系上,得到时间与能耗的关系曲线,具体步骤如下:
(1)计算列车时间-位置曲线:根据实测的列车速度曲线,将速度对时间进行积分运算,得到列车的时间-位置曲线;
(2)计算每个时刻列车所处位置的线路参数:根据列车时间-位置曲线,以0.1s为间隔,获得列车在每个时刻的位置,查表获得该位置的坡道参数和弯道参数;
(3)预测功率:以一个时刻前后各10个时刻的速度值、该时刻列车所在位置的坡度、该时刻列车所在位置的曲率半径、该时刻的功率作为一组数据,作为网络的输入,得到该时刻的功率预测值;
(4)计算能耗:将列车在一个区间的功率预测值对时间积分,得到列车在这个区间的能耗;
(5)绘制时间-能耗曲线:对一个区间的多条速度曲线进行以上(1)~(4)步骤的操作,每条速度曲线都对应一个运行时间和拟合能耗,将运行时间和拟合能耗的关系绘制在二维坐标系上,得到时间与能耗的关系曲线。
6.根据权利要求1所述的基于深度强化学习的城市轨道交通列车时刻表优化方法,其特征在于,步骤5所述列车区间运行时间优化模块,在时间-能耗曲线拟合模块求解的基础上,采用深度强化学习算法综合考虑列车全线能耗、乘客旅行体验和运营管理要求,设计目标函数,通过调整各个区间的运行时间,最大化该目标函数的值,具体步骤如下:
(1)选择算法:选择深度强化学习中基于策略的方法中的一种,包括策略梯度VPG、优势行动器-评判器A2C、近端策略优化PPO;
(2)建立网络:使用的神经网络有两个,一个为行动网络,用来确定一个状态下,应该增加运行时间的区间和应该减少运行时间的区间;另一个为评判网络,用来估算一个状态的价值;VPG仅使用了行动网络,而A2C和PPO使用了行动网络和评判网络;如果轨道交通线路全线区间数为n,则行动网络的输入神经元数量为n,输出分为增分支和减分支,每个分支的输出神经元数量为n+1;评判网络的输入神经元数量为n,输出神经元数量为1;行动网络的两个输出分支之前均使用softmax函数,使得输出神经元输出值之和为1;其余部分每两层之间使用ReLU作为激活函数;
(3)初始化网络参数和训练相关参数:初始化行动网络的参数,包括公共部分的参数θ、确定增加运行时间的区间的分支参数αinc和确定减少运行时间的区间的分支参数αdec;初始化评判网络的参数φ;初始化经验重放区R;初始化迭代回合数;
(4)开始一个回合:将长度为n的零向量作为初始状态st,输入给行动网络;向量中的每个值代表一个区间的运行时间相对原时刻表的变化量,单位为秒;初始状态为零向量,即列车按原时刻表运行;
(5)网络前向传播:根据网络的参数,计算行动网络两个分支的输出;以每个输出神经元的输出量作为概率,从增分支和减分支各选择一个神经元,分别代表应该增加运行时间的区间编号
Figure FDA0003418974640000041
应该减少运行时间的区间编号
Figure FDA0003418974640000042
以输入的向量为基准,对这两个区间的运行时间分别增加和减少1秒,获得新的状态st+1;如果任意一个分支选择了多余的一个神经元,则当前回合结束;
(6)计算奖励:对于一个状态,目标函数为
Figure FDA0003418974640000043
其中Ei代表列车在第i个区间的能耗,k1Ei代表能耗对目标函数的影响,能耗越低,奖励函数越大;pi代表第i个区间客流量的归一化值,δtri代表第i个区间的运行时间相对于原时刻表的调整量,k2piδtri表示乘客旅行体验对目标函数的影响,该项与乘客平均旅行时间变化量正相关,乘客平均旅行时间越短,该项越小,奖励函数越大;Fi是一个标志位,如果编号为i的站是换乘站或终点站,它的值为1,否则为0,该项代表运营管理对目标函数的影响,此处考虑换乘站的影响,列车到达换乘站的准时程度影响地铁公司的运营管理压力,列车到达换乘站越准时,该项越小,目标函数越大;目标函数三项前面的系数k1、k2、k3,表示三项在目标函数中的权重,根据实际情况设定,权重越大,该项对目标函数的影响就越大;
函数的自变量δtr是由所有区间的运行时间调整量组成的一个向量,式子中的能耗数据E和客流数据p均经过了标准化处理;奖励值r为前后两个状态下,目标函数之差,即
r=f(st+1)-f(st)
检查新的状态st+1下目标函数值是否为历史最高值,如果是则将新状态和对应的目标函数值保存;
(7)保存状态转换情况:将
Figure FDA0003418974640000044
保存到经验重放区R内;
(8)循环迭代:将更新后的状态st+1作为网络的输入,不断重复步骤(5)~(7),直至一个回合结束;
(9)更新网络参数:使用步骤(1)中选择的深度强化学习算法更新网络参数,更新完成后,清空经验重放区;
(10)开始下一回合:循环执行(4)~(9),直到达到终止回合数,结束训练;
(11)输出结果:输出最高的目标函数值及其对应的状态。
CN202111556696.2A 2021-12-17 2021-12-17 基于深度强化学习的城市轨道交通列车时刻表优化方法 Pending CN114202316A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111556696.2A CN114202316A (zh) 2021-12-17 2021-12-17 基于深度强化学习的城市轨道交通列车时刻表优化方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111556696.2A CN114202316A (zh) 2021-12-17 2021-12-17 基于深度强化学习的城市轨道交通列车时刻表优化方法

Publications (1)

Publication Number Publication Date
CN114202316A true CN114202316A (zh) 2022-03-18

Family

ID=80655244

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111556696.2A Pending CN114202316A (zh) 2021-12-17 2021-12-17 基于深度强化学习的城市轨道交通列车时刻表优化方法

Country Status (1)

Country Link
CN (1) CN114202316A (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115062731A (zh) * 2022-08-16 2022-09-16 广州地铁设计研究院股份有限公司 一种基于集成学习的地铁列车牵引能耗异常监测方法
CN115115352A (zh) * 2022-08-29 2022-09-27 山东中鲁实业有限公司 基于数字化城市运行管理服务的公共设备运行控制系统
CN115860339A (zh) * 2023-02-17 2023-03-28 天津津轨汇海科技发展有限公司 基于大数据分析的轨道交通能耗管理方法及相关组件
CN116451085A (zh) * 2023-06-19 2023-07-18 中铁电气化勘测设计研究院有限公司 一种基于轨道交通电力监控平台的供电潮流实时计算方法
CN117829378A (zh) * 2024-03-04 2024-04-05 华东交通大学 一种基于时空数据的轨道交通能耗预测方法
CN117849449A (zh) * 2024-03-06 2024-04-09 同济大学 一种城市轨道交通能耗测量装置

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115062731A (zh) * 2022-08-16 2022-09-16 广州地铁设计研究院股份有限公司 一种基于集成学习的地铁列车牵引能耗异常监测方法
CN115115352A (zh) * 2022-08-29 2022-09-27 山东中鲁实业有限公司 基于数字化城市运行管理服务的公共设备运行控制系统
CN115115352B (zh) * 2022-08-29 2022-11-08 山东中鲁实业有限公司 基于数字化城市运行管理服务的公共设备运行控制系统
CN115860339A (zh) * 2023-02-17 2023-03-28 天津津轨汇海科技发展有限公司 基于大数据分析的轨道交通能耗管理方法及相关组件
CN115860339B (zh) * 2023-02-17 2023-05-05 天津津轨汇海科技发展有限公司 基于大数据分析的轨道交通能耗管理方法及装置
CN116451085A (zh) * 2023-06-19 2023-07-18 中铁电气化勘测设计研究院有限公司 一种基于轨道交通电力监控平台的供电潮流实时计算方法
CN117829378A (zh) * 2024-03-04 2024-04-05 华东交通大学 一种基于时空数据的轨道交通能耗预测方法
CN117829378B (zh) * 2024-03-04 2024-05-14 华东交通大学 一种基于时空数据的轨道交通能耗预测方法
CN117849449A (zh) * 2024-03-06 2024-04-09 同济大学 一种城市轨道交通能耗测量装置
CN117849449B (zh) * 2024-03-06 2024-05-14 同济大学 一种城市轨道交通能耗测量装置

Similar Documents

Publication Publication Date Title
CN114202316A (zh) 基于深度强化学习的城市轨道交通列车时刻表优化方法
CN108197739B (zh) 一种城市轨道交通乘客流量预测方法
CN104875774B (zh) 一种基于城市轨道交通运行图的列车延迟调整方法及系统
US11708098B2 (en) Method and device for optimizing target operation speed curve in ATO of train
CN112700663A (zh) 基于深度强化学习策略的多智能体智能信号灯路网控制方法
CN104881527B (zh) 城市轨道交通列车ato速度命令优化方法
CN111582691B (zh) 基于双层规划的客运枢纽多交通方式的运力匹配方法
CN107368920B (zh) 一种非高峰时段多列车运行节能优化方法
CN102044149B (zh) 一种基于时变客流的城市公交运营协调方法与装置
CN109508751B (zh) 高速铁路列车晚点时间预测的深度神经网络模型建模方法
CN109815523B (zh) 基于分解的列车运行多目标差分进化算法
CN109300326B (zh) 一种基于实时gps的公交短时动态调度方法
CN113222387B (zh) 面向氢燃料车辆的多目标调度与协同优化方法
CN107194491A (zh) 一种基于公交客流和站间行程时间预测的动态调度方法
CN103879414B (zh) 一种基于自适应A-Star算法的铁路机车优化操纵方法
Qu et al. Robust optimization of train timetable and energy efficiency in urban rail transit: A two-stage approach
CN101789178A (zh) 街区路口交通信号优化控制方法
CN108417032A (zh) 一种城市中心区路边停车需求分析预测方法
CN106777717A (zh) 一种考虑载客量变化的ato速度命令节能优化方法
CN106056238B (zh) 列车区间运行轨迹的规划方法
CN112686453A (zh) 机车能耗智能预测方法及系统
CN103955135A (zh) 一种基于双层模式曲线的机车优化操纵序列计算方法
CN111680413B (zh) 基于双层算法的有轨电车定时节能运行优化方法及其系统
CN112633596B (zh) 地铁列车速度曲线和区间运行时间的一体化优化方法
CN114298385A (zh) 考虑客流影响和再生制动能利用的地铁列车延误调整方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination