CN111619624B

CN111619624B - 一种基于深度强化学习的有轨电车运行控制方法和系统

Info

Publication number: CN111619624B
Application number: CN202010481726.7A
Authority: CN
Inventors: 韦伟; 刘岭; 刘军; 王莹; 石晶
Original assignee: CRSC Research and Design Institute Group Co Ltd
Current assignee: CRSC Research and Design Institute Group Co Ltd
Priority date: 2020-06-01
Filing date: 2020-06-01
Publication date: 2022-06-21
Anticipated expiration: 2040-06-01
Also published as: CN111619624A

Abstract

本发明提出一种基于深度强化学习的有轨电车运行控制方法和系统，仿真模块仿真实际有轨电车运输系统并生成有轨电车运行状态S，基于ε‑greedy策略生成有轨电车动作A，深度强化学习模块获得有轨电车动作回报R（S，A），仿真模块生成后续有轨电车运行状态S´，构建有轨电车四元组（S，A，R，S´），利用四元组（S，A，R，S´）更新值函数神经网络参数，得到训练好的自动驾驶模型，将训练好的自动驾驶模型输送至自动驾驶模块，仿真模块生成当前有轨电车运行状态，并将当前有轨电车运行状态输出至自动驾驶模块，自动驾驶模块基于当前有轨电车运行状态上生成自动驾驶方案，自动驾驶模块将自动驾驶方案输送至实际有轨电车运输系统。

Description

一种基于深度强化学习的有轨电车运行控制方法和系统

技术领域

本发明属于轨道交通领域，特别涉及一种基于深度强化学习的有轨电车运行控制方法和系统。

背景技术

现代有轨电车交叉口信号优先控制策略主要包括被动优先、主动优先和实时优先。主动优先方案由于对道路交通通行效率影响较大，因此在很多繁忙干线被限制使用。而被动信号优先采用固定信号配时，通过协调干线上各交叉口的信号方案实现干线协调控制。在被动信号策略下，由于受到的干扰较多，有轨电车往往难以按照约定时间到达交叉口，容易错过预定的通过时间窗(又称为有轨电车绿波带)，导致有轨电车运行不连续，运行速度低，能耗大等问题。上述控制策略在控制有轨电车时,没有综合考虑有轨列车当前状态、实时客流、能否准点进站、启停所消耗的能量等等，从而导致控制策略只是局部最佳，影响有轨电车不停车通过交叉口以及导致乘客候车时间过长，降低出行满意度与服务水平。

发明内容

针对上述问题，本发明提出一种基于深度强化学习的有轨电车运行控制方法和系统，仿真模块接收轨道交通数据，仿真实际有轨电车运输系统；

仿真模块生成有轨电车运行状态S；

基于ε-greedy策略生成有轨电车动作A；

深度强化学习模块基于当前有轨电车运行状态S和有轨电车动作A计算有轨电车动作回报R(S，A)；

所述计算有轨电车动作回报R(S，A)具体包括:

获取旅客候车时间成本、动作成本、安全距离超限成本和准点进站超限成本和启停成本，基于旅客候车时间成本、动作成本、安全距离超限成本、准点进站超限成本和启停成本之和获得有轨电车动作回报R(S，A)；

仿真模块基于当前有轨电车运行状态S和有轨电车动作A生成后续有轨电车运行状态S′；

构建N个有轨电车四元组(S，A，R，S′)；

利用N个四元组(S，A，R，S′)更新值函数神经网络参数，直到值函数神经网络参数达到预定条件，得到训练好的自动驾驶模型；

深度强化学习模块将训练好的自动驾驶模型输送至自动驾驶模块；

仿真模块生成当前有轨电车运行状态，并将当前有轨电车运行状态输出至自动驾驶模块；

自动驾驶模块基于当前有轨电车运行状态上生成自动驾驶方案；

自动驾驶模块将自动驾驶方案输送至实际有轨电车运输系统。

优选地，获取旅客候车时间成本具体包括：

获取当前候车人数；

获取决策过程中每个离散时段的长度；

获取单位旅客候车时间经济成本；

基于当前候车人数、有轨电车决策过程时间长度和单位旅客候车时间经济成本计算旅客候车时间成本。

优选地，旅客候车时间成本基于下式计算：

D(S_t)＝Ps_tΔtω

D(St)为旅客候车时间成本，

Ps_t为有轨电车在t时刻前方车站的实时候车旅客人数，

Δt为决策过程中每个离散时段的长度，

ω是单位旅客候车时间产生的经济成本。

优选地，获取动作成本具体包括：

判断有轨电车工况是否改变，以及有轨电车处于加速或减速状态；

有轨电车工况不变及处于加速状态下，基于有轨电车当前加速度、有轨电车重量、有轨电车速度、有轨电车工作单位能耗经济成本和挡位切换动作时间间隔计算动作成本；

有轨电车工况不变及处于减速状态下，动作成本为零；

有轨电车工况改变及处于加速状态下，判断能否进行挡位切换，若挡位能切换，基于有轨电车当前加速度、有轨电车重量、有轨电车速度、有轨电车工作单位能耗经济成本、挡位切换动作时间间隔和挡位切换成本计算动作成本；

有轨电车工况改变及处于减速状态下，判断能否进行挡位切换，若挡位能切换，基于挡位切换成本计算动作成本。

优选地，动作成本基于下式计算：

C(A_t)为有轨电车动作成本，

u_t为有轨电车在t时刻的加速度，

M_t为有轨电车在t时刻的重量，

v_t为有轨电车在t时刻的速度，

Δt为挡位切换动作时间间隔，

λ为有轨电车工作单位能耗经济成本，

δ(ψ_t，ψ_t+1)为基于有轨电车运行稳定性和乘客舒适考虑，是否禁止转换到工况ψ_t+1，若禁止转换δ(ψ_t，ψ_t+1)为1，否则为0，

K为一个正实数，

b_ij为挡位切换所造成的固定损耗成本。

优选地，获取安全距离超限成本具体包括：

获取当前有轨电车与前车实际距离；

判断所述实际距离是否大于最小安全距离；

若所述实际距离是大于最小安全距离，基于有轨电车距离超限单位经济成本系数、所述实际距离和所述最小安全距离计算安全距离超限成本；

若所述实际距离是小于等于最小安全距离，安全距离超限成本为固定值。

优选地，安全距离超限成本基于下式计算：

F(S_t)为安全距离超限成本，

χ为有轨电车距离超限单位经济成本系数，

L_t为有轨电车在t时刻与前车之间的实际距离，

Md为有轨电车之间的最小安全距离，

K为一个正实数。

优选地，获取准点进站超限成本具体包括：

获取当前有轨电车运行时长；

若所述运行时长小于有轨电车到达当前站台所需要最短时间，基于当前有轨电车运行时长、有轨电车到达当前站台所需要最短时间和有轨电车不准点单位经济成本系数计算准点进站超限成本；

若所述运行时长大于有轨电车到达当前站台所需要最长时间，基于当前有轨电车运行时长、有轨电车到达当前站台所需要最长时间和有轨电车不准点单位经济成本系数计算准点进站超限成本；

若所述运行时长大于等于有轨电车到达当前站台所需要最短时间，且所述运行时长小于等于有轨电车到达当前站台所需要最长时间，准点进站超限成本为零。

优选地，准点进站超限成本基于下式计算：

B(S_t)为有轨电车准点进站超限成本，

T_t为有轨电车从出发开始到目前为止的运行时间，

Tmi(β_t)为有轨电车到达当前站台所需要的最短时间，

Tma(β_t)为有轨电车到达当前站台需要的最长时间，

ζ为有轨电车不准点单位经济成本系数。

优选地，获取启停成本具体包括：

判断有轨电车当前是否经过交叉口决策点，以及有轨电车能否通过前方交叉口；

若有轨电车位于交叉口决策点，但不能通过前方交叉口，基于有轨电车启停一次能耗和有轨电车工作单位能耗经济成本计算启停成本；

若有轨电车未经过交叉口决策点，或有轨电车位于交叉口决策点，并且能通过前方交叉口，启停成本为零。

优选地，启停成本基于下式计算：

H(S_t)为有轨电车在状态S_t下的启停成本，

λ为有轨电车工作单位能耗经济成本，

W_t有轨电车启停一次的能耗，

x_t＝0表示有轨电车位于交叉口的决策点，有轨电车无法通过交叉口，

x_t＝-1表示有轨电车未经过交叉口的决策点，

x_t＝1表示有轨电车位于交叉口的决策点，有轨电车可以顺利通过交叉口。

本发明还提出了一种基于深度强化学习的有轨电车运行控制系统，包括：

仿真模块，用于接收轨道交通数据，仿真实际有轨电车运输系统，生成有轨电车运行状态S，基于ε-greedy策略生成有轨电车动作A，基于当前有轨电车运行状态S和有轨电车动作A生成后续有轨电车运行状态S′，生成当前有轨电车运行状态，并将当前有轨电车运行状态输出至自动驾驶模块；

深度强化学习模块，用于基于当前有轨电车运行状态S和有轨电车动作A计算有轨电车动作回报R(S，A)，所述计算有轨电车动作回报R(S，A)具体包括:

构建N个有轨电车四元组(S，A，R，S′)；

利用四元组(S，A，R，S′)更新值函数神经网络参数，直到值函数神经网络参数达到预定条件，得到训练好的自动驾驶模型；

将训练好的自动驾驶模型输送至自动驾驶模块；

自动驾驶模块，用于基于当前有轨电车运行状态上生成自动驾驶方案，将自动驾驶方案输送至实际有轨电车运输系统。

本发明的基于深度强化学习的有轨电车运行控制方法和系统，有轨电车控制策略综合考虑了旅客候车时间成本、动作成本、安全距离超限成本和准点进站超限成本和启停成本，提高有轨电车运行效率，降低能耗。同时，使其在一定程度上适应车站实时客流，从而减少旅客候车时间，提高服务水平。

本发明的其它特征和优点将在随后的说明书中阐述，并且，部分地从说明书中变得显而易见，或者通过实施本发明而了解。本发明的目的和其他优点可通过在说明书、权利要求书以及附图中所指出的结构来实现和获得。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1示出了深度强化学习训练示意图；

图2示出了深度强化学习训练示意图；

图3示出了交叉口信号周期长度、交叉口红绿信号灯状态和有效绿灯时间状态关系图；

图4示出了有轨电车线路划分示意图；

图5示出了动作成本计算示意图；

图6示出了安全距离超限成本计算示意图；

图7示出了准点进站超限成本计算示意图；

图8示出了运行控制系统示意图。

图9示出了仿真模块示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地说明，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明实施例的目的是提出一种基于深度强化学习的有轨电车运行控制方法，根据实时更新策略，在有轨电车运行过程中可实时获取到车站交叉口信号灯信息，实时调整有轨电车运行环境，通过挡位的调整确保有轨电车可以不停车的通过交叉口。在保证有轨电车平稳、准点运行和乘客舒适度的前提下，该实施例可以有效减少有轨电车的启停次数，从而实现能源损耗和时间成本的有效控制，提高有轨电车运行效率，降低有轨电车能耗和乘客候车时间。

设计基于强化学习及智能体仿真的有轨电车运行控制系统，能够将仿真环境与实际有轨电车运输系统进行统一，并基于与实际有轨电车运输系统相统一的仿真模块进行强化学习模型训练，并不断优化强化学习的有轨电车自动驾驶模型，将训练完成的有轨电车自动驾驶模型应用于实际有轨电车运输系统，可提高有轨电车运行效率，降低有轨电车能耗和乘客候车时间。具体设计过程包括以下步骤。

参照图1，首先，根据有轨电车自身属性、运行状态、线路信息的基本相关数据，构建具有多智能体的仿真模块，基于多智能体模块、基本相关数据和有轨电车之间的相关联系，确定仿真模块的结构。

通过仿真模块与深度强化学习模块之间的信息传递和反馈，进行虚拟交互训练，具体是采取ε-greedy策略创建四元组数据(S，A，R，S′)。S表示有轨电车当前状态，A表示有轨电车当前动作，R表示有轨电车执行动作A所获得的回报，S’表示执行动作A后有轨电车的下一状态，在实验中，多次运行仿真模块，得到具有最大数量为N的样本集D。

根据样本集D对深度强化学习模块进行训练(主要针对的是值函数神经网络进行训练)，随机选取一个四元组(S，A，R，S′)，输入到当前神经网络和目标神经网络并计算网络输出的最大值Max[Q(S，A，θ)]。

最后，将状态和动作输入到神经网络之后，基于梯度下降策略对损失函数完成更新操作。评估有轨电车运行自动驾驶模型的拟合程度，并确定该模型最优的参数，有轨电车智能体获取自动驾驶方案，损失函数的更新公式如下式所示。

其中，α表示学习因子，γ表示动作回报的折旧因子，θ表示值函数神经网络参数，▽表示梯度算子。

参照图2，对深度强化学习模块的训练方法包括如下步骤。

对每辆有轨电车的运行状态以及信号设备状态进行属性定义，其属性包括：车辆的自身属性(有轨电车的重量、最大牵引力和最大制动力)、实时运行状态(有轨电车速度、有轨电车加速度、有轨电车是否处于交叉口决策点以及能否通过决策点的标记、有轨电车与前一车之间的距离、有轨电车到达当前交叉口决策点的距离、有轨电车当前是否进站的标记、有轨电车到达下一交叉口的距离、有轨电车当前所处动作，图2中只图示了部分实时运行状态参数)、有轨电车运行时的线路信息(前方站台的实时候车旅客人数、当前有轨电车的旅客人数、交叉口信号的周期长度、交叉口红灯和绿灯的状态、有效绿灯时间的状态、当前信号灯相位至绿灯相位的时间、途径车站的实时客流、有轨电车到达下一交叉口决策点之前的待停站总时间，图2中只图示了部分有轨电车运行时的线路信息参数)，有轨电车在t时刻的运行状态S_t如下式表示：

其中，M_t表示有轨电车在t时刻的重量、F_Max表示有轨电车的最大牵引力、B_Max表示有轨电车的最大制动力、v_t表示有轨电车t时刻的速度、u_t表示有轨电车在t时刻的加速度、x_t是对有轨电车在t时刻是否处于交叉口决策点以及能否通过决策点的标记x_t∈{-1，0，1}、l_t表示有轨电车在t时刻与其前一辆车之间的距离、ε_t表示有轨电车在t时刻与交叉口决策点的距离、β_t表示t时刻有轨电车是否进站的标记、Ps_t表示有轨电车在t时刻前方车站的实时候车旅客人数、Pt_t表示有轨电车在t时刻的旅客数量、C表示交叉口信号的周期长度、σ_t表示t时刻交叉口红绿信号灯的状态(σ_t∈(0，1))、α_t表示t时刻有效绿灯时间的状态，

是t时刻有轨电车到达下一交叉口决策点之前的待停站总时间。

对状态x_t详细说明，当x_t为负数时，即x_t＝-1，此时有轨电车未经过交叉口的决策点；当x_t为非负数时，此时有轨电车位于交叉口的决策点；进一步，如果此时x_t＝0，代表有轨电车无法通过交叉口，有轨电车需要采取制动措施；如果此时x_t＝1，说明有轨电车可以顺利通过交叉口，无需采取制动等措施。

为更好的解释交叉口信号的周期长度C，交叉口红绿信号灯状态σ_t，有效绿灯的时间状态α_t的关系，图3示出了三者的关系，图3中的横轴为时间轴。

为了解释β_t和

的关系，参照图4，根据有轨电车沿线交叉口和车站的布设以及地形等相关因素，将单方向上的有轨电车线路以车站和交叉口为分界点划分为多个区段。由于有轨电车在车站的起停时间将直接影响有轨电车是否能够在绿灯相位下通过下一交叉口，所以在划分区段时应当考虑：有轨电车在各个车站的停站时间(受各个车站的客流量影响)、各个车站距离下一交叉口的距离以及沿线的线路状况。

区段i：起始点为有轨电车进入车站2，终止点为离开交叉口2；

区段i+1：起始点为有轨电车离开交叉口2，终止点为有轨电车进入车站3；

当有轨电车离开行进方向的上一交叉口之后，除了有轨电车的运行速度和与交叉口的距离外，假设有轨电车的停靠站时间是固定的，下一车站的停站时间等参数将影响有轨电车是否能在下一交叉口的绿灯相位通过。有轨电车到达下一交叉口决策点之前等待的停站总时间

是根据区段长度的划分和有轨电车行驶的速度所决定。判断有轨电车是否顺利进站的依据是通过标记β_t，根据有轨电车运行计划查询可以确定有轨电车到站的最早和最晚时间，该时间段进站的有轨电车均为准点进站，β_t被标记为正整数分别代表此时有轨电车所进入的具体车站台，例如：当有轨电车根据有轨电车计划顺利进入车站1，此时β_t＝1；当有轨电车根据有轨电车计划顺利进入车站2，此时β_t＝2，后续进站过程依此类推。反之，如果有轨电车未在运行计划规定的时间进站，那么此时β_t被标记为负数，此时β_t＝-1。

基于有轨电车在t时刻执行动作A_t，t时刻的回报函数为R(S_t，A_t)，在不同的文章中回报函数又被称为奖赏函数、奖励函数等等。在状态S_t，采取动作A_t获得奖赏值的回报函数如下式所示：

R(S_t，A_t)＝-「Ps_t·Δt·ω+C(A_t)+F(S_t)+B(S_t)+H(S_t)]

其中，Ps_t·Δt·ω是当前状态下旅客候车时间成本，可以用D(S_t)表示，C(A_t)为分析有轨电车采用动作A_t的动作成本(考虑能耗)，F(S_t)为有轨电车在状态S_t下的安全距离超限成本，B(S_t)为有轨电车在状态S_t下的是否按照有轨电车计划进站的超限成本，简称为准点进站超限成本，H(S_t)为研究有轨电车在状态S_t下的启停成本。

旅客候车时间成本计算公式中，Ps_t表示有轨电车在t时刻前方车站的实时候车旅客人数，ω是单位旅客候车时间产生的经济成本，Δt为决策过程中每个离散时段的长度。

根据有轨电车的物理性质和相关驾驶参数，假设有轨电车具有n个驾驶挡位。分析有轨电车在t时刻可采取的驾驶挡位时，可以采用的挡位ψ_t为正整数集合{1，2，…，n}中的任意值，挡位之间的动作At切换是指有轨电车在t时刻的挡位ψ_t转换到t+1时刻的挡位ψ_t+1，动作成本函数表示为：

上式中，u_t表示有轨电车当前加速度，M_t表示有轨电车当前重量，v_t表示有轨电车当前速度，μ_t·M_t·v_t是有轨电车在t时刻牵引力的功率，Δt是挡位切换动作时间间隔，λ为有轨电车工作单位能耗经济成本，K是一个极大的正实数(可取10⁹)，b_ij是挡位切换所造成的固定损耗成本，函数δ(ψ_t，ψ_t+1)解释了在t时刻有轨电车处于挡位ψ_t时，从有轨电车的平稳行驶和旅客舒适体验的角度考虑，在t+1时刻，有轨电车是否可以切换挡位至ψ_t+1。判断条件为：如果禁止挡位转换，δ(ψ_t，ψ_t+1)＝1，否则δ(ψ_t，ψ_t+1)＝0。图5示出了动作成本计算原理。

安全距离超限成本F(S_t)计算公式如下：

其中，L_t为有轨电车在t时刻与前车之间的实际距离，Md是有轨电车之间的最小安全距离，χ是有轨电车距离超限单位经济成本系数，K是一个极大的正实数。

有轨电车在追踪运行过程中，安全间隔超限成本设置如图6所示。当有轨电车间距小于等于有轨电车之间的最小安全间距Md时，有轨电车运行的安全间隔超限成本为极大值K。而当有轨电车间距大于最小安全间距Md时，有轨电车运行的安全间隔超限成本呈现出随冗余间隔L_t-Md增加逐渐降低的趋势。

B(S_t)为有轨电车在状态S_t下的是否按照有轨电车计划进站的超限成本，计算公式如下式所示：

其中，T_t为有轨电车从出发开始到目前为止的运行时间，Tmi(β_t)是有轨电车到达当前站台所需要的最短时间，Tma(β_t)是有轨电车到达当前站台需要的最长时间，ζ是有轨电车不准点单位经济成本系数。

当有轨电车到达车站的时间位于最短时间Tmi(β_t)和最长时间Tma(β_t)之间时，有轨电车的准点成本为0。当有轨电车到达车站的时间早于Tmi(β_t)时，有轨电车运行准点成本随提前时间Tmi(β_t)-T_t线性增加；当有轨电车到达车站的时间晚于Tma(β_t)时，则有轨电车运行准点成本同样随滞后时间T_t-Tma(β_t)线性增加。通过这种方式，可将有轨电车到达车站的时间约束在可接受范围内。有轨电车运行的准点成本设置原理如图7示。

H(S_t)为有轨电车在状态S_t下的启停成本，计算公式如下所示，W_t表示有轨电车启停一次的能耗，λ为有轨电车工作单位能耗经济成本。

对仿真模块完成初始的配置，基于ε-greedy策略，根据有轨电车运行状态S_t、有轨电车采取的动作A_t、由状态和动作构成的回报函数R(S_t，A_t)以及有轨电车经过动作之后的状态S_t+1。将初始信息预处理信息去除时间信息后组成四元组信息(S，A，R，S′)，并存储到缓存回放记忆器中，组成一个训练样本集D，其最大可容纳的样本数量为N；

在ε-greedy策略中，首先随机的生成一个位于[0，1]区间的ε值。之后，在每一次的试验中，基于ε的概率值随机的择取一个动作，该动作被选择的概率是平均的。最后，根据1-ε的概率值完成当前最优动作的选择和利用。ε-greedy策略的核心是每个动作获得的平均奖励和被选中的次数需要被存储和记忆，之后可以通过增量运算的方法完成更新操作。

根据ε-greedy策略在缓存回放记忆器中随机选取一个四元组，输入到当前神经网络和目标神经网络中并计算网络输出的最大值Max[Q(S，A，θ)]，其表达式为：

其中j∈{0，1，2，...，N-1}，A为状态S带入神经网络后对应最大Q值的动作，θ为权重；进一步，将状态S在四元组中所对应的动作A的状态-动作值Q更新为R(S，A)+γMax[Q(S，A，θ)]，其中γ为折旧因子。

将状态和动作输入到神经网络之后，运用梯度下降法更新损失函数，损失函数的更新公式为：

之后更新动作值函数逼近网络参数θ＝θ+Δθ，同时每隔C步更新一次目标网络的权值，令θ^-＝θ，不断循环，直至找到最优解。

循环结束，神经网络训练完成后，学习型智能体将获得自动驾驶方案。

本发明的实施例还提出一种有轨电车动作回报获取装置，包括：

旅客候车时间成本模块，用于获取旅客候车时间成本；

动作成本模块，用于获取动作成本；

安全距离超限成本模块，用于获取安全距离超限成本；

准点进站超限成本模块，用于获取准点进站超限成本；

启停成本模块，启停成本模块用于获取启停成本；

求和模块，用于将旅客候车时间成本、动作成本、安全距离超限成本、准点进站超限成本、启停成本求和。

其中，旅客候车时间成本模块具体包括：

候车人数单元，用于获取当前候车人数；

决策过程时间长度单元，用于获取有轨电车决策过程时间长度；

单位旅客候车时间经济成本单元，用于获取单位旅客候车时间经济成本；

第一计算单元，用于基于当前候车人数、有轨电车决策过程时间长度和单位旅客候车时间经济成本计算旅客候车时间成本。

其中，动作成本模块具体包括：

第一判断单元，用于判断有轨电车工况是否改变，以及有轨电车处于加速或减速状态；

加速度单元，用于获取有轨电车当前加速度；

重量单元，用于获取有轨电车重量；

速度单元，用于获取有轨电车速度；

有轨电车工作单位能耗经济成本单元，用于获取有轨电车工作单位能耗经济成本；

挡位切换动作时间间隔单元，用于获取挡位切换动作时间间隔；

第二判断单元，用于判断能否进行挡位切换；

挡位切换成本单元，用于获取挡位切换成本；

第二计算单元，用于基于第一判断单元和第二判断单元判断结果，基于有轨电车当前加速度、有轨电车重量、有轨电车速度、有轨电车工作单位能耗经济成本、挡位切换动作时间间隔和挡位切换成本计算动作成本。

其中，安全距离超限成本模块具体包括：

实际距离单元，用于获取当前有轨电车与前车实际距离；

第三判断单元，用于判断所述实际距离是否大于最小安全距离；

第三计算单元，用于基于第三判断单元判断结果，基于有轨电车距离超限单位经济成本系数、所述实际距离和所述最小安全距离计算安全距离超限成本

其中，准点进站超限成本模块具体包括：

运行时长单元，用于获取当前有轨电车运行时长；

第四判断单元，用于判断所述运行时长是否小于有轨电车到达当前站台所需要最短时间，以及判断所述运行时长是否大于有轨电车到达当前站台所需要最长时间；

第四计算单元，用于基于第四判断单元判断结果，基于当前有轨电车运行时长、有轨电车到达当前站台所需要最短时间或有轨电车到达当前站台所需要最长时间、有轨电车不准点单位经济成本系数计算准点进站超限成本；

其中，启停成本模块具体包括：

第五判断单元，用于判断有轨电车当前是否经过交叉口决策点，以及判断有轨电车能否通过前方交叉口；

第五计算单元，用于基于第五判断单元判断结果，基于有轨电车启停一次能耗和有轨电车工作单位能耗经济成本计算启停成本。

仿真模块接收轨道交通数据，仿真实际有轨电车运输系统；

仿真模块生成有轨电车运行状态S；

基于ε-greedy策略生成有轨电车动作A；

深度强化学习模块基于当前有轨电车运行状态S和有轨电车动作A计算有轨电车动作回报R(S，A)，即基于旅客候车时间成本、动作成本、安全距离超限成本、准点进站超限成本、启停成本计算回报；

构建N个有轨电车四元组(S，A，R，S′)；

基于数字孪生的理念，设计了如图8-图9所示的有轨电车运行控制系统。系统主要包括数据接口、仿真模块、深度强化学习模块(包括学习型智能体、深度神经网络、缓存回放记忆器、回报函数单元和数据传输单元)以及自动驾驶模块。

其中，数据接口主要从实际有轨电车运输系统中采集有轨电车运行实时数据，作为仿真模块的数据基础。仿真模块则根据实时采集的实际系统运营数据，对实际有轨电车运输系统开展仿真模拟。由于基于实际的运行数据进行建模和运行参数标定，仿真模块与实际有轨电车运输系统之间存在着较高的一致性。这种高一致性体现了数字孪生的理念，便于利用仿真模块对实际有轨电车运输系统进行预测分析。深度强化学习模块中包含了学习型智能体及其他训练辅助功能，学习型智能体通过与仿真模块进行交互训练，获得有轨电车自主调度决策模型。深度强化学习模块将训练好的有轨电车自主调度决策模型发送到自动驾驶模块，从而在有轨电车运行过程中自动生成自主自动驾驶方案。

数据接口主要从实际有轨电车运输系统中采集有轨电车设备数据、实时车站客流数据、实时有轨电车载客量数据、实时有轨电车沿线交叉口信号灯数据、有轨电车运行实绩数据、有轨电车沿线交叉口交通流数据。

另外，数据接口不仅仅将采集的数据发送至仿真模块，还直接将数据发送至深度强化学习模块，深度强化学习模块基于数据采集接口发送过来的实时数据进行实绩离线训练，并且离线训练、深度强化学习模块与仿真模块之间的虚拟交互训练同步进行，实现有轨电车自动驾驶模型的不断进化。

数据接口内还包括实时系统运输态势预测模块，仿真模块将与深度强化学习模块交互得到的新的列车运行状态发送至实时系统运输态势预测模块，经实时系统运输态势预测模块预测，将预测得到的结果发送至实际有轨电车运输系统。

仿真模块是整个有轨电车运行控制系统的重要支撑，主要是对有轨电车运输系统状态进行模拟等。其中，系统综合数据库不仅存储了线网三维模型、地理信息数据及模型数据等静态数据，同时还存储了由实时数据接口所采集的历史数据和实时数据。系统将设施设备、有轨电车与旅客看成具有独立行为和属性的智能体。设施设备是整个轨道交通运输系统运营的基础，其状态演化仿真实现了设施设备故障对有轨电车运行情况的模拟，以便于开展复杂运营场景下的有轨电车自动驾驶模型训练。有轨电车动态运行仿真实现了有轨电车运行时刻表、自动驾驶控制过程、运行动力学等过程的仿真。站台客流量和线路交通状况仿真则实现了客流进出站、走行、候车和乘降等过程的仿真模拟。深度强化学习模块的核心是学习型智能体，其能够通过与仿真模块进行交互，实现有轨电车自主自动驾驶模型的不断训练和完善。为便于开展深度强化学习训练，该模块还包括数据规则化处理单元，数据传输单元，缓存回放记忆器及深度神经网络和回报函数单元等功能单元；上述有轨电车动作回报获取装置位于回报函数单元内。

自动驾驶模块主要包括有轨电车自动驾驶方案生成模块以及有轨电车自动驾驶方案传输模块。基于深度强化学习模块训练完成的有轨电车自主自动驾驶模型，自动驾驶模块生成实时的有轨电车自主自动驾驶方案，有轨电车自动驾驶方案传输模块将自动驾驶方案传输到实际有轨电车运输系统中实施运行调度，在保证有轨电车运行安全性和准点性的前提下，降低有轨电车运行能耗和旅客等待时间。

在有轨电车自主调度系统主要工作流程中，首先，由数据接口从实际有轨电车运输系统中采集有轨电车运行实时数据，作为仿真模块的数据基础，以保证仿真模块与实际有轨电车运输系统的高度一致性。其次，利用仿真模块与深度强化学习模块进行不断交互训练，不断提升有轨电车自主自动驾驶模型的决策能力。同时也可利用仿真模块对训练好的有轨电车自主自动驾驶模型进行评估。最后将深度强化学习模块训练好的模型输出给自动驾驶模块，自动驾驶模块基于有轨电车自主自动驾驶方案决策模型所生成的自动驾驶方案传输到实际的轨道交通系统进行自动驾驶方案的落实。

尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种基于深度强化学习的有轨电车运行控制方法，其特征在于，仿真模块接收轨道交通数据，仿真实际有轨电车运输系统；

仿真模块生成有轨电车运行状态S；

基于ε-greedy策略生成有轨电车动作A；

所述计算有轨电车动作回报R(S，A)具体包括:

获取启停成本具体包括：判断有轨电车当前是否经过交叉口决策点，以及有轨电车能否通过前方交叉口；若有轨电车位于交叉口决策点，但不能通过前方交叉口，基于有轨电车启停一次能耗和有轨电车工作单位能耗经济成本计算启停成本；若有轨电车未经过交叉口决策点，或有轨电车位于交叉口决策点，并且能通过前方交叉口，启停成本为零；

构建N个有轨电车四元组(S，A，R，S′)；

2.根据权利要求1所述的基于深度强化学习的有轨电车运行控制方法，其特征在于，获取旅客候车时间成本具体包括：

获取当前候车人数；

获取决策过程中每个离散时段的长度；

获取单位旅客候车时间经济成本；

3.根据权利要求2所述的基于深度强化学习的有轨电车运行控制方法，其特征在于，旅客候车时间成本基于下式计算：

D(S_t)＝Ps_tΔtω

D(St)为旅客候车时间成本，

Ps_t为有轨电车在t时刻前方车站的实时候车旅客人数，

Δt为决策过程中每个离散时段的长度，

ω是单位旅客候车时间产生的经济成本。

4.根据权利要求1所述的基于深度强化学习的有轨电车运行控制方法，其特征在于，获取动作成本具体包括：

有轨电车工况不变及处于减速状态下，动作成本为零；

5.根据权利要求4所述的基于深度强化学习的有轨电车运行控制方法，其特征在于，动作成本基于下式计算：

C(A_t)为有轨电车动作成本，

u_t为有轨电车在t时刻的加速度，

M_t为有轨电车在t时刻的重量，

v_t为有轨电车在t时刻的速度，

Δt为挡位切换动作时间间隔，

λ为有轨电车工作单位能耗经济成本，

K为一个正实数，

b_ij为挡位切换所造成的固定损耗成本。

6.根据权利要求1所述的基于深度强化学习的有轨电车运行控制方法，其特征在于，获取安全距离超限成本具体包括：

获取当前有轨电车与前车实际距离；

判断所述实际距离是否大于最小安全距离；

7.根据权利要求6所述的基于深度强化学习的有轨电车运行控制方法，其特征在于，安全距离超限成本基于下式计算：

F(S_t)为安全距离超限成本，

χ为有轨电车距离超限单位经济成本系数，

L_t为有轨电车在t时刻与前车之间的实际距离，

Md为有轨电车之间的最小安全距离，

K为一个正实数。

8.根据权利要求1所述的基于深度强化学习的有轨电车运行控制方法，其特征在于，获取准点进站超限成本具体包括：

获取当前有轨电车运行时长；

9.根据权利要求8所述的基于深度强化学习的有轨电车运行控制方法，其特征在于，准点进站超限成本基于下式计算：

B(S_t)为有轨电车准点进站超限成本，

T_t为有轨电车从出发开始到目前为止的运行时间，

Tmi(β_t)为有轨电车到达当前站台所需要的最短时间，

Tma(β_t)为有轨电车到达当前站台需要的最长时间，

ζ为有轨电车不准点单位经济成本系数。

10.根据权利要求1所述的基于深度强化学习的有轨电车运行控制方法，其特征在于，启停成本基于下式计算：

H(S_t)为有轨电车在状态S_t下的启停成本，

λ为有轨电车工作单位能耗经济成本，

W_t有轨电车启停一次的能耗，

x_t＝-1表示有轨电车未经过交叉口的决策点，

11.一种基于深度强化学习的有轨电车运行控制系统，其特征在于，包括：

构建N个有轨电车四元组(S，A，R，S′)；

将训练好的自动驾驶模型输送至自动驾驶模块；