CN113269963B

CN113269963B - 一种基于强化学习的网联车辆信号灯控路口经济通行方法

Info

Publication number: CN113269963B
Application number: CN202110554621.4A
Authority: CN
Inventors: 殷国栋; 丁昊楠; 董昊轩
Original assignee: Southeast University
Current assignee: Southeast University
Priority date: 2021-05-20
Filing date: 2021-05-20
Publication date: 2021-12-10
Anticipated expiration: 2041-05-20
Also published as: CN113269963A

Abstract

本发明涉及一种基于强化学习的网联车辆信号灯控路口经济通行方法，包括以下步骤：获取车辆以及路侧环境状态信息；搭建路口通行生态驾驶模型：包括搭建整车纵向动力学模型和搭建路侧信号灯状态交通环境模型；利用深度确定性策略梯度算法构建纯电动网联汽车路口通行生态驾驶策略，求解包含整车电池能耗最小通行时间最短的多目标优化问题，得出最优通行速度谱，从而得出通过路口的最优能耗水平。本发明将深度强化学习算法应用于实际车辆路口通行控制中，针对信号灯剩余时间动态变化场景具有良好的泛化性能与优化效果。

Description

一种基于强化学习的网联车辆信号灯控路口经济通行方法

技术领域

本发明涉及智慧交通智能网联车辆控制技术领域，尤其是一种基于强化学习的网联车辆信号灯控路口经济通行方法。

背景技术

城市化快速发展为道路交通环境带来了极大的考验，日趋拥挤的信号灯交通路口产生了大量不必要的能耗。经济性路口进出一直以来是城市交通路口通行决策的主要研究热点。从车辆角度出发，智能网联汽车的出现为提高通行效率、缓解城市灯控路口停车等待现象提供了新的解决方案。智能电动汽车除了采用新能源驱动，基于5G/LTE通信网络低延迟与云端服务实时交互，提前获取视野外道路信息，给予驾驶员精准有利通行条件，有效降低事故发生率的同时也可有效降低车辆的能量消耗，减少对环境的污染。

从控制角度出发，生态驾驶策略可以分为以下两类，一是基于规则的方法，二是基于优化的方法。基于规则的方法采用模糊逻辑控制策略，针对信号灯动态调节控制车速，该算法计算简单直观，所以是工程中最为常见的控制策略。但是该方法依赖经验的总结，并不能从理论上进行机理分析，控制效率差，鲁棒性差等问题，因此在路口处的节能表现有限。基于优化理论的控制策略一般可分为解析优化法、数值计算优化法、瞬时优化策略、基于简化模型的优化策略与基于预测方法的控制策略等。基于动态规划算法是典型的解析优化法，利用动态规划算法研究了燃油车与电动车的不同节能特性，求解混合动力汽车的最优控制律，获得了出色的燃油经济性。但是该策略对于状态空间较大、且多维复杂动态场景时，这些算法无法实时计算出最佳策略。

深度确定性策略梯度算法(deep deterministic policy gradient，简称DDPG)，是一种具有Actor-Critic架构的用于解决连续控制型问题的一种算法，Actor-Critic架构简称AC，设计有四个网络，其中Actor网络包含动作估计网络和动作目标网络，而Critic网络包含价值估计网络与价值目标网络。Actor-Critic架构可直接输出动作信息，具有强大的寻优能力，在生态驾驶策略方便的应用研究尚未成熟。

发明内容

针对现有技术的缺陷，本发明提供了一种基于强化学习的网联车辆信号灯控路口经济通行方法，实现网联车辆路口通行控制决策的实时性优化。

本发明采用的技术方案如下：

一种基于强化学习的网联车辆信号灯控路口经济通行方法，包括以下步骤：

获取车辆以及路侧环境状态信息；

搭建路口通行生态驾驶模型：包括搭建整车纵向动力学模型和搭建路侧信号灯状态交通环境模型；

利用深度确定性策略梯度算法构建纯电动网联汽车路口通行生态驾驶策略，求解包含整车电池能耗最小通行时间最短的多目标优化问题，得出最优通行速度谱。

其进一步技术方案为：

所述利用深度确定性策略梯度算法构建纯电动网联汽车路口通行生态驾驶策略，求解包含整车电池能耗与通行效率多目标优化问题，包括：

S1：根据所述获取车辆以及路侧环境状态信息、以及所述路口通行生态驾驶模型，确定当前驾驶环境状态S_t，下标t代表t时刻；

S2：根据所述当前驾驶环境状态S_t，由深度确定性策略梯度算法的Actor-Critic架构中动作估计网络，实时输出策略动作A_t＝μ(S_t|θ_μ)，其中，θ_μ为动作估计网络参数，θ是每层网络的权重，μ为动作估计网络输出的加速度策略；车辆执行A_t，获得奖励值R_t，并进入下一时刻，产生新的驾驶环境状态S_t+1，并将S_t,A_t,R_t,S_t+1信息记录至经验缓存池中；

S3：所述动作估计网络由所述经验缓存池中采样状态数据S_i，计算出由Actor-Critic架构中动作目标网络输出的策略动作μ′(S_i|θ_μ′)，其中，μ′为动作估计网络输出的加速度策略，θ_μ′为动作估计网络参数；

S4：Actor-Critic架构中的价值目标网络利用所述策略动作μ′(S_i|θ_μ′)和从所述经验缓存池中采样的状态数据集(S_i,A_i,R_i,S_i+1)，输出价值函数目标值y_i；

y_i＝R_i+Q′(S_i+1,μ′(S_i+1|θ_μ′)|θ_Q′)，其中Q′为所述价值目标网络计算的行为-动作函数值，θ_Q′为价值目标网络参数；

S5：Actor-Critic架构中的价值估计网络利用所述动作估计网络输出的所述策略动作A_t、以及所述当前驾驶环境状态S_t，计算当前动作下的状态-动作累计期望价值Q_Π(s,a)表示为：

其中Π是当前采取的加速度策略，E_Π为系统在策略Π下的期望，γ为折扣率；

通过所述价值函数目标值y_i计算损失函数值L(θ_Q)：

计算策略动作的A_t梯度

更新价值估计网络参数θ_Q：

其中α为学习率；

S6：利用所述价值估计网络计算的梯度G_t更新动作估计网络的参数θ_μ；

S7：更新所述动作估计网络参数

和所述价值目标网络参数

τ为更新权重；

S8：当车辆进入路口时，交通环境被初始化，同时初始化各个网络参数，并在第一个步长内选取随机策略，经过循环步骤S1至S7，直至车辆走完当前路口，获得一次训练的回报值

其中T为车辆从路口初始位置到通过路口时所花费的时间；

S9：重复步骤S8，经过若干次训练后，将最大化回报值maxReturn_i，并不断更新网络参数，直至每次通过路口时获得的回报值收敛，完成整个车辆在灯控信号灯路口下经济通行学习过程。

所述奖励值

α,β,γ,A,B为权重系数，J_t为在单位步长内车辆运动所消耗的瞬时能量，v_e为当前车速与当前路口信号灯周期内最大通行车速的误差，a_t-1为上一步长智能体输出的加速度，M_v，M_red为阶跃函数，分别为当车速误差在0.5m/s内可获得奖励与车辆到达路口时闯红灯需得到的惩罚；

式中“+”表示奖励，“-”表示惩罚。

所述当前驾驶环境状态S_t＝{ΔJen_b,Δs,S_signal,T_left,v_error,v_ego}；其中，ΔJen_b为当前时刻步长内电池消耗的能量，Δs为单步长内车辆的位移，S_signal为信号灯的当前状态，T_left为当前信号灯状态下剩余的时间，v_ego为当前车速，v_error为当前路口下可以通行最大的速度与当前车速的差值。

所述获取车辆以及路侧环境状态信息，包括：

基于无线短波通讯或5G/LTE通讯与路侧设施信息交互，获取信号灯当前状态信息，结合定位系统对车辆实时精准定位；

通过车载传感器检测车辆状态信息，将所述车辆状态信息上传至车载控制单元。

根据车辆纵向动力学分析得出纯电动汽车在行驶过程中所受到的加速阻力、坡道阻力、滚动阻力以及空气阻力，搭建所述整车纵向动力学模型：

其中，m为车辆的质量；δ为汽车旋转换算系数，v为车速；t为进入路口开始所用时间；T_p为电机驱动转矩；i₀为主减速器传动比；η_T为传动效率；r_d为车轮滚动半径；ρ为车辆周围空气密度；A为车辆迎风面积；C_D为空气阻力系数；g为重力加速度；α为地面的倾斜角；f_r为路面滚动阻力系数；

所述路侧信号灯状态交通环境模型对信号灯的相位周期进行描述，表达式如下：

t_r,t_g,t_y分别表示红灯、绿灯和黄灯的相位时间，π表示圆周率。

本发明的有益效果如下：

1)本发明采用了深度强化学习算法进行智能网联汽车的路口通行决策，实现了纯电动汽车路口通行控制决策的实时性与最优性。

2)本发明摆脱了传统的规划控制策略对环境信息需要已知的不可实现性，通过不断学习，基于当前状态实现对不同路况下的控制，具有较好的泛化能力。

3)本发明在考虑节能的同时，使得车辆以较快的速度通过路口而不需要停车等待红绿灯，可以达到高效出行的目的。

附图说明

图1为本发明方法的系统流程图。

图2为本发明利用深度确定性策略梯度算法实现绿色路口通行决策的计算原理图。

图3为本发明具体实施例的路侧信号灯状态交通环境模型示意图。

图4为本发明具体实施例的通行决策算法仿真效果图。

具体实施方式

以下结合附图说明本发明的具体实施方式。

本实施例的一种基于强化学习的网联车辆信号灯控路口经济通行方法，可参考图1，基于的计算系统包括信息获取模块、环境模型模块、车速优化模块，其中信息获取模块包括基于无线短波通讯或5G\LTE协议通信OBU/RSU获取路侧单元信息、获取车辆运行状态信息；环境模型模块包括搭建整车模型，路侧信号灯与前车交通环境模型；车速优化模块包括利用深度强化学习算法构建纯电动汽车信号灯控路口通行策略，求解包含信号灯电池能耗与路口高效通行多目标优化问题，从而得出最优的能耗水平通过路口。本发明将深度强化学习算法应用于实际车辆路口通行控制中，针对信号灯剩余时间动态变化场景具有良好的泛化性能与优化效果。

本实施例的方法包括以下步骤：

一、获取车辆以及路侧环境状态信息，包括：

基于无线短波通讯或5G/LTE通讯与路侧设施信息交互，获取信号灯当前状态信息，结合如北斗等定位系统对车辆实时精准定位；

通过车载传感器检测车辆状态信息，将车辆状态信息上传至车载控制单元。

车辆状态信息包括车辆速度、电机转速和电池输出功率。

二、搭建路口通行生态驾驶模型：包括搭建整车纵向动力学模型和搭建路侧信号灯状态交通环境模型。具体包括：

根据车辆纵向动力学分析得出纯电动汽车在行驶过程中所受到的加速阻力、坡道阻力、滚动阻力以及空气阻力，搭建整车纵向动力学模型：

其中，m为车辆的质量(kg)；δ为汽车旋转换算系数，v为车速(m/s)；t为进入路口开始所用时间；T_p为电机驱动转矩(N·m)；i₀为主减速器传动比；η_T为传动效率；r_d为车轮滚动半径(m)；ρ为车辆周围空气密度(kg/m³)；A为车辆迎风面积(m²)；C_D为空气阻力系数；g为重力加速度(m/s²)；α为地面的倾斜角(°)，f_r为路面滚动阻力系数。

据整车纵向动力学模型，算出轮毂电机电动汽车的功率需求，计及轮毂电机工作中的铁损等建立电机效率损耗模型，绘出电机效率MAP图与功率损失图。

如图3所示，为本实施例搭建路侧信号灯状态交通环境模型示意图，路侧信号灯状态交通环境模型对信号灯的相位周期进行描述，表达式如下：

三、利用深度确定性策略梯度算法构建纯电动网联汽车路口通行生态驾驶策略，求解包含整车电池能耗最小、通行时间最短的多目标优化问题，得出最优通行速度谱。由深度确定性策略梯度算法采用动作-评价(Actor-Critic，AC)架构设计有四个网络，如图2所示，其中Actor网络包含动作估计网络(对应图中在线策略网络)和动作目标网络(对应图中目标策略网络)，而Critic网络包含价值估计网络(对应图中在线价值网络)与价值目标网络(对应图中目标价值网络)。

具体包括以下流程：

S1：根据获取车辆以及路侧环境状态信息、以及路口通行生态驾驶模型，确定当前驾驶环境状态S_t，下标t代表t时刻；

S_t＝{ΔJen_b,Δs,S_signal,T_left,v_error,v_ego}；其中，ΔJen_b为当前时刻步长内电池消耗的能量，Δs为单步长内车辆的位移，S_signal为信号灯的当前状态，T_left为当前信号灯状态下剩余的时间，v_ego为当前车速，v_error为当前路口下可以通行最大的速度与当前车速的差值；

S2：根据当前驾驶环境状态S_t，由深度确定性策略梯度算法的Actor-Critic架构中动作估计网络，实时输出策略动作A_t＝μ(S_t|θ_μ)，其中，μ为动作估计网络输出的加速度策略，θ_μ为动作估计网络参数，θ是每层网络的权重；车辆执行A_t，获得奖励值R_t，并进入下一时刻，产生新的驾驶环境状态S_t+1，并将S_t,A_t,R_t,S_t+1信息记录至经验缓存池中；上述A_t可理解为加速度；

奖励值

式中“+”表示奖励，“-”表示惩罚；

S3：动作估计网络由经验缓存池中采样状态数据S_i，计算出由Actor-Critic架构中动作目标网络输出的策略动作μ′(S_i|θ_μ′)，其中，μ′为动作目标网络输出的加速度策略，θ_μ′为动作估计网络参数；

S4：Actor-Critic架构中的价值目标网络利用策略动作μ′(S_i|θ_μ′)和从经验缓存池中采样的状态数据集(S_i,A_i,R_i,S_i+1)，输出价值函数目标值y_i，y_i＝R_i+Q′(S_i+1,μ′(S_i+1|θ_μ′)|θ_Q′)，其中Q′为价值目标网络计算的行为-动作函数值，θ_Q′为动作估计网络参数；

S5：Actor-Critic架构中的价值估计网络利用动作估计网络输出的策略动作A_t、以及当前驾驶环境状态S_t，计算当前动作下的状态-动作累计期望价值Q_Π(s,a)，表示为：

其中，Π是当前采取的加速度策略，E_Π为系统在策略Π下的期望，γ为折扣率；

通过价值函数目标值y_i计算损失函数值L(θ_Q)：

计算策略动作的A_t梯度

更新价值估计网络参数θ_Q：

其中α为学习率；

S6：利用价值估计网络计算的梯度G_t更新动作估计网络的参数θ_μ，更新的梯度公式为：

S7：更新动作估计网络参数θ_μ′、价值目标网络参数θ_Q′，

其中，τ为更新权重；

其中T为车辆从路口初始位置到通过路口时所花费的时间；

S9：重复步骤S8，经过1000次训练后，将最大化回报值maxReturn_i，并不断更新网络参数，直至每次通过路口时获得的回报值逐渐收敛至某一个值附近，完成整个车辆在灯控信号灯路口下经济通行学习过程。在训练中设置不同的初始环境，将使得智能体学会在不同的交通状态下找到优解。

训练得到的策略可进一步策略部署至实车平台，通过车载传感器获取真实道路交通场景信息，输入策略开放端口，并由训练策略实时计算当前时刻的最佳通行速度，通过智能网联车辆与环境实时交互在线控制车辆实现灯控信号灯路口下经济通行。如图4所示为本实施例的通行决策算法仿真效果图。

本发明的发明目的和技术效果基于对下文的考察研究对本领域技术人员而言将是显而易见的，或者可以从本发明的实践中得到验证。

Claims

1.一种基于强化学习的网联车辆信号灯控路口经济通行方法，其特征在于，包括以下步骤：

获取车辆以及路侧环境状态信息，具体包括：

通过车载传感器检测车辆状态信息，将所述车辆状态信息上传至车载控制单元；

搭建路口通行生态驾驶模型：包括搭建整车纵向动力学模型和搭建路侧信号灯状态交通环境模型，具体包括：

路侧信号灯状态交通环境模型对信号灯的相位周期进行描述，表达式如下：

t_r,t_g,t_y分别表示红灯、绿灯和黄灯的相位时间；π表示圆周率；

利用深度确定性策略梯度算法构建纯电动网联汽车路口通行生态驾驶策略，求解包含整车电池能耗最小通行时间最短的多目标优化问题，得出最优通行速度谱，具体包括：

S3：所述动作估计网络由所述经验缓存池中采样状态数据S_i，计算出由Actor-Critic架构中动作目标网络输出的策略动作μ′(S_i|θ_μ′)，其中，θ_μ′为动作估计网络参数，μ′为动作目标网络输出的加速度策略；

S4：Actor-Critic架构中的价值目标网络利用所述策略动作μ′(S_i|θ_μ′)和从步骤S2所述经验缓存池中采样的状态数据集(S_i,A_i,R_i,S_i+1)，输出价值函数目标值y_i；

S5：Actor-Critic架构中的价值估计网络利用所述动作估计网络输出的所述策略动作A_t、以及所述当前驾驶环境状态S_t，计算当前动作下的状态-动作累计期望价值Q_Π(s,a)，表示为：

通过所述价值函数目标值y_i计算损失函数值L(θ_Q)：

计算策略动作的A_t梯度

更新价值估计网络参数θ_Q：

其中α为学习率；

S7：更新所述动作估计网络参数

和所述价值目标网络参数

τ为更新权重；

其中T为车辆从路口初始位置到通过路口时所花费的时间；

S9：重复步骤S8，经过若干次训练后，将最大化回报值max Return_i，并不断更新网络参数，直至每次通过路口时获得的回报值收敛，完成整个车辆在灯控信号灯路口下经济通行学习过程。

2.根据权利要求1所述的基于强化学习的网联车辆信号灯控路口经济通行方法，其特征在于，所述奖励值

式中“+”表示奖励，“-”表示惩罚。

3.根据权利要求1所述的基于强化学习的网联车辆信号灯控路口经济通行方法，其特征在于，所述当前驾驶环境状态S_t＝{ΔJen_b,Δs,S_signal,T_left,v_error,v_ego}；其中，ΔJen_b为当前时刻步长内电池消耗的能量，Δs为单步长内车辆的位移，S_signal为信号灯的当前状态，T_left为当前信号灯状态下剩余的时间，v_ego为当前车速，v_error为当前路口下可以通行最大的速度与当前车速的差值。