CN113269963B - 一种基于强化学习的网联车辆信号灯控路口经济通行方法 - Google Patents

一种基于强化学习的网联车辆信号灯控路口经济通行方法 Download PDF

Info

Publication number
CN113269963B
CN113269963B CN202110554621.4A CN202110554621A CN113269963B CN 113269963 B CN113269963 B CN 113269963B CN 202110554621 A CN202110554621 A CN 202110554621A CN 113269963 B CN113269963 B CN 113269963B
Authority
CN
China
Prior art keywords
vehicle
intersection
action
value
signal lamp
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110554621.4A
Other languages
English (en)
Other versions
CN113269963A (zh
Inventor
殷国栋
丁昊楠
董昊轩
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Southeast University
Original Assignee
Southeast University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Southeast University filed Critical Southeast University
Priority to CN202110554621.4A priority Critical patent/CN113269963B/zh
Publication of CN113269963A publication Critical patent/CN113269963A/zh
Application granted granted Critical
Publication of CN113269963B publication Critical patent/CN113269963B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G08SIGNALLING
    • G08GTRAFFIC CONTROL SYSTEMS
    • G08G1/00Traffic control systems for road vehicles
    • G08G1/01Detecting movement of traffic to be counted or controlled
    • G08G1/0104Measuring and analyzing of parameters relative to traffic conditions
    • G08G1/0108Measuring and analyzing of parameters relative to traffic conditions based on the source of data
    • G08G1/0112Measuring and analyzing of parameters relative to traffic conditions based on the source of data from the vehicle, e.g. floating car data [FCD]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F30/00Computer-aided design [CAD]
    • G06F30/20Design optimisation, verification or simulation
    • GPHYSICS
    • G07CHECKING-DEVICES
    • G07CTIME OR ATTENDANCE REGISTERS; REGISTERING OR INDICATING THE WORKING OF MACHINES; GENERATING RANDOM NUMBERS; VOTING OR LOTTERY APPARATUS; ARRANGEMENTS, SYSTEMS OR APPARATUS FOR CHECKING NOT PROVIDED FOR ELSEWHERE
    • G07C5/00Registering or indicating the working of vehicles
    • G07C5/08Registering or indicating performance data other than driving, working, idle, or waiting time, with or without registering driving, working, idle or waiting time
    • G07C5/0808Diagnosing performance data
    • GPHYSICS
    • G07CHECKING-DEVICES
    • G07CTIME OR ATTENDANCE REGISTERS; REGISTERING OR INDICATING THE WORKING OF MACHINES; GENERATING RANDOM NUMBERS; VOTING OR LOTTERY APPARATUS; ARRANGEMENTS, SYSTEMS OR APPARATUS FOR CHECKING NOT PROVIDED FOR ELSEWHERE
    • G07C5/00Registering or indicating the working of vehicles
    • G07C5/08Registering or indicating performance data other than driving, working, idle, or waiting time, with or without registering driving, working, idle or waiting time
    • G07C5/0841Registering performance data
    • GPHYSICS
    • G08SIGNALLING
    • G08GTRAFFIC CONTROL SYSTEMS
    • G08G1/00Traffic control systems for road vehicles
    • G08G1/01Detecting movement of traffic to be counted or controlled
    • G08G1/0104Measuring and analyzing of parameters relative to traffic conditions
    • G08G1/0108Measuring and analyzing of parameters relative to traffic conditions based on the source of data
    • G08G1/0116Measuring and analyzing of parameters relative to traffic conditions based on the source of data from roadside infrastructure, e.g. beacons
    • GPHYSICS
    • G08SIGNALLING
    • G08GTRAFFIC CONTROL SYSTEMS
    • G08G1/00Traffic control systems for road vehicles
    • G08G1/01Detecting movement of traffic to be counted or controlled
    • G08G1/0104Measuring and analyzing of parameters relative to traffic conditions
    • G08G1/0125Traffic data processing
    • GPHYSICS
    • G08SIGNALLING
    • G08GTRAFFIC CONTROL SYSTEMS
    • G08G1/00Traffic control systems for road vehicles
    • G08G1/01Detecting movement of traffic to be counted or controlled
    • G08G1/0104Measuring and analyzing of parameters relative to traffic conditions
    • G08G1/0137Measuring and analyzing of parameters relative to traffic conditions for specific applications
    • GPHYSICS
    • G08SIGNALLING
    • G08GTRAFFIC CONTROL SYSTEMS
    • G08G1/00Traffic control systems for road vehicles
    • G08G1/09Arrangements for giving variable traffic instructions
    • G08G1/0962Arrangements for giving variable traffic instructions having an indicator mounted inside the vehicle, e.g. giving voice messages
    • G08G1/0967Systems involving transmission of highway information, e.g. weather, speed limits
    • G08G1/096766Systems involving transmission of highway information, e.g. weather, speed limits where the system is characterised by the origin of the information transmission
    • G08G1/096783Systems involving transmission of highway information, e.g. weather, speed limits where the system is characterised by the origin of the information transmission where the origin of the information is a roadside individual element
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W4/00Services specially adapted for wireless communication networks; Facilities therefor
    • H04W4/02Services making use of location information
    • H04W4/025Services making use of location information using location based information parameters
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W4/00Services specially adapted for wireless communication networks; Facilities therefor
    • H04W4/02Services making use of location information
    • H04W4/025Services making use of location information using location based information parameters
    • H04W4/027Services making use of location information using location based information parameters using movement velocity, acceleration information
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W4/00Services specially adapted for wireless communication networks; Facilities therefor
    • H04W4/30Services specially adapted for particular environments, situations or purposes
    • H04W4/40Services specially adapted for particular environments, situations or purposes for vehicles, e.g. vehicle-to-pedestrians [V2P]
    • H04W4/44Services specially adapted for particular environments, situations or purposes for vehicles, e.g. vehicle-to-pedestrians [V2P] for communication between vehicles and infrastructures, e.g. vehicle-to-cloud [V2C] or vehicle-to-home [V2H]
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D30/00Reducing energy consumption in communication networks
    • Y02D30/70Reducing energy consumption in communication networks in wireless communication networks

Landscapes

  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Engineering & Computer Science (AREA)
  • Analytical Chemistry (AREA)
  • Chemical & Material Sciences (AREA)
  • Signal Processing (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Geometry (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Atmospheric Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Computer Hardware Design (AREA)
  • Traffic Control Systems (AREA)

Abstract

本发明涉及一种基于强化学习的网联车辆信号灯控路口经济通行方法,包括以下步骤:获取车辆以及路侧环境状态信息;搭建路口通行生态驾驶模型:包括搭建整车纵向动力学模型和搭建路侧信号灯状态交通环境模型;利用深度确定性策略梯度算法构建纯电动网联汽车路口通行生态驾驶策略,求解包含整车电池能耗最小通行时间最短的多目标优化问题,得出最优通行速度谱,从而得出通过路口的最优能耗水平。本发明将深度强化学习算法应用于实际车辆路口通行控制中,针对信号灯剩余时间动态变化场景具有良好的泛化性能与优化效果。

Description

一种基于强化学习的网联车辆信号灯控路口经济通行方法
技术领域
本发明涉及智慧交通智能网联车辆控制技术领域,尤其是一种基于强化学习的网联车辆信号灯控路口经济通行方法。
背景技术
城市化快速发展为道路交通环境带来了极大的考验,日趋拥挤的信号灯交通路口产生了大量不必要的能耗。经济性路口进出一直以来是城市交通路口通行决策的主要研究热点。从车辆角度出发,智能网联汽车的出现为提高通行效率、缓解城市灯控路口停车等待现象提供了新的解决方案。智能电动汽车除了采用新能源驱动,基于5G/LTE通信网络低延迟与云端服务实时交互,提前获取视野外道路信息,给予驾驶员精准有利通行条件,有效降低事故发生率的同时也可有效降低车辆的能量消耗,减少对环境的污染。
从控制角度出发,生态驾驶策略可以分为以下两类,一是基于规则的方法,二是基于优化的方法。基于规则的方法采用模糊逻辑控制策略,针对信号灯动态调节控制车速,该算法计算简单直观,所以是工程中最为常见的控制策略。但是该方法依赖经验的总结,并不能从理论上进行机理分析,控制效率差,鲁棒性差等问题,因此在路口处的节能表现有限。基于优化理论的控制策略一般可分为解析优化法、数值计算优化法、瞬时优化策略、基于简化模型的优化策略与基于预测方法的控制策略等。基于动态规划算法是典型的解析优化法,利用动态规划算法研究了燃油车与电动车的不同节能特性,求解混合动力汽车的最优控制律,获得了出色的燃油经济性。但是该策略对于状态空间较大、且多维复杂动态场景时,这些算法无法实时计算出最佳策略。
深度确定性策略梯度算法(deep deterministic policy gradient,简称DDPG),是一种具有Actor-Critic架构的用于解决连续控制型问题的一种算法,Actor-Critic架构简称AC,设计有四个网络,其中Actor网络包含动作估计网络和动作目标网络,而Critic网络包含价值估计网络与价值目标网络。Actor-Critic架构可直接输出动作信息,具有强大的寻优能力,在生态驾驶策略方便的应用研究尚未成熟。
发明内容
针对现有技术的缺陷,本发明提供了一种基于强化学习的网联车辆信号灯控路口经济通行方法,实现网联车辆路口通行控制决策的实时性优化。
本发明采用的技术方案如下:
一种基于强化学习的网联车辆信号灯控路口经济通行方法,包括以下步骤:
获取车辆以及路侧环境状态信息;
搭建路口通行生态驾驶模型:包括搭建整车纵向动力学模型和搭建路侧信号灯状态交通环境模型;
利用深度确定性策略梯度算法构建纯电动网联汽车路口通行生态驾驶策略,求解包含整车电池能耗最小通行时间最短的多目标优化问题,得出最优通行速度谱。
其进一步技术方案为:
所述利用深度确定性策略梯度算法构建纯电动网联汽车路口通行生态驾驶策略,求解包含整车电池能耗与通行效率多目标优化问题,包括:
S1:根据所述获取车辆以及路侧环境状态信息、以及所述路口通行生态驾驶模型,确定当前驾驶环境状态St,下标t代表t时刻;
S2:根据所述当前驾驶环境状态St,由深度确定性策略梯度算法的Actor-Critic架构中动作估计网络,实时输出策略动作At=μ(Stμ),其中,θμ为动作估计网络参数,θ是每层网络的权重,μ为动作估计网络输出的加速度策略;车辆执行At,获得奖励值Rt,并进入下一时刻,产生新的驾驶环境状态St+1,并将St,At,Rt,St+1信息记录至经验缓存池中;
S3:所述动作估计网络由所述经验缓存池中采样状态数据Si,计算出由Actor-Critic架构中动作目标网络输出的策略动作μ′(Siμ′),其中,μ′为动作估计网络输出的加速度策略,θμ′为动作估计网络参数;
S4:Actor-Critic架构中的价值目标网络利用所述策略动作μ′(Siμ′)和从所述经验缓存池中采样的状态数据集(Si,Ai,Ri,Si+1),输出价值函数目标值yi
yi=Ri+Q′(Si+1,μ′(Si+1μ′)|θQ′),其中Q′为所述价值目标网络计算的行为-动作函数值,θQ′为价值目标网络参数;
S5:Actor-Critic架构中的价值估计网络利用所述动作估计网络输出的所述策略动作At、以及所述当前驾驶环境状态St,计算当前动作下的状态-动作累计期望价值QΠ(s,a)表示为:
Figure GDA0003343120480000021
其中Π是当前采取的加速度策略,EΠ为系统在策略Π下的期望,γ为折扣率;
通过所述价值函数目标值yi计算损失函数值L(θQ):
Figure GDA0003343120480000022
计算策略动作的At梯度
Figure GDA0003343120480000023
更新价值估计网络参数θQ
Figure GDA0003343120480000024
其中α为学习率;
S6:利用所述价值估计网络计算的梯度Gt更新动作估计网络的参数θμ
S7:更新所述动作估计网络参数
Figure GDA0003343120480000025
和所述价值目标网络参数
Figure GDA0003343120480000026
τ为更新权重;
S8:当车辆进入路口时,交通环境被初始化,同时初始化各个网络参数,并在第一个步长内选取随机策略,经过循环步骤S1至S7,直至车辆走完当前路口,获得一次训练的回报值
Figure GDA0003343120480000027
其中T为车辆从路口初始位置到通过路口时所花费的时间;
S9:重复步骤S8,经过若干次训练后,将最大化回报值maxReturni,并不断更新网络参数,直至每次通过路口时获得的回报值收敛,完成整个车辆在灯控信号灯路口下经济通行学习过程。
所述奖励值
Figure GDA0003343120480000031
α,β,γ,A,B为权重系数,Jt为在单位步长内车辆运动所消耗的瞬时能量,ve为当前车速与当前路口信号灯周期内最大通行车速的误差,at-1为上一步长智能体输出的加速度,Mv,Mred为阶跃函数,分别为当车速误差在0.5m/s内可获得奖励与车辆到达路口时闯红灯需得到的惩罚;
Figure GDA0003343120480000032
Figure GDA0003343120480000033
式中“+”表示奖励,“-”表示惩罚。
所述当前驾驶环境状态St={ΔJenb,Δs,Ssignal,Tleft,verror,vego};其中,ΔJenb为当前时刻步长内电池消耗的能量,Δs为单步长内车辆的位移,Ssignal为信号灯的当前状态,Tleft为当前信号灯状态下剩余的时间,vego为当前车速,verror为当前路口下可以通行最大的速度与当前车速的差值。
所述获取车辆以及路侧环境状态信息,包括:
基于无线短波通讯或5G/LTE通讯与路侧设施信息交互,获取信号灯当前状态信息,结合定位系统对车辆实时精准定位;
通过车载传感器检测车辆状态信息,将所述车辆状态信息上传至车载控制单元。
根据车辆纵向动力学分析得出纯电动汽车在行驶过程中所受到的加速阻力、坡道阻力、滚动阻力以及空气阻力,搭建所述整车纵向动力学模型:
Figure GDA0003343120480000034
其中,m为车辆的质量;δ为汽车旋转换算系数,v为车速;t为进入路口开始所用时间;Tp为电机驱动转矩;i0为主减速器传动比;ηT为传动效率;rd为车轮滚动半径;ρ为车辆周围空气密度;A为车辆迎风面积;CD为空气阻力系数;g为重力加速度;α为地面的倾斜角;fr为路面滚动阻力系数;
所述路侧信号灯状态交通环境模型对信号灯的相位周期进行描述,表达式如下:
Figure GDA0003343120480000035
tr,tg,ty分别表示红灯、绿灯和黄灯的相位时间,π表示圆周率。
本发明的有益效果如下:
1)本发明采用了深度强化学习算法进行智能网联汽车的路口通行决策,实现了纯电动汽车路口通行控制决策的实时性与最优性。
2)本发明摆脱了传统的规划控制策略对环境信息需要已知的不可实现性,通过不断学习,基于当前状态实现对不同路况下的控制,具有较好的泛化能力。
3)本发明在考虑节能的同时,使得车辆以较快的速度通过路口而不需要停车等待红绿灯,可以达到高效出行的目的。
附图说明
图1为本发明方法的系统流程图。
图2为本发明利用深度确定性策略梯度算法实现绿色路口通行决策的计算原理图。
图3为本发明具体实施例的路侧信号灯状态交通环境模型示意图。
图4为本发明具体实施例的通行决策算法仿真效果图。
具体实施方式
以下结合附图说明本发明的具体实施方式。
本实施例的一种基于强化学习的网联车辆信号灯控路口经济通行方法,可参考图1,基于的计算系统包括信息获取模块、环境模型模块、车速优化模块,其中信息获取模块包括基于无线短波通讯或5G\LTE协议通信OBU/RSU获取路侧单元信息、获取车辆运行状态信息;环境模型模块包括搭建整车模型,路侧信号灯与前车交通环境模型;车速优化模块包括利用深度强化学习算法构建纯电动汽车信号灯控路口通行策略,求解包含信号灯电池能耗与路口高效通行多目标优化问题,从而得出最优的能耗水平通过路口。本发明将深度强化学习算法应用于实际车辆路口通行控制中,针对信号灯剩余时间动态变化场景具有良好的泛化性能与优化效果。
本实施例的方法包括以下步骤:
一、获取车辆以及路侧环境状态信息,包括:
基于无线短波通讯或5G/LTE通讯与路侧设施信息交互,获取信号灯当前状态信息,结合如北斗等定位系统对车辆实时精准定位;
通过车载传感器检测车辆状态信息,将车辆状态信息上传至车载控制单元。
车辆状态信息包括车辆速度、电机转速和电池输出功率。
二、搭建路口通行生态驾驶模型:包括搭建整车纵向动力学模型和搭建路侧信号灯状态交通环境模型。具体包括:
根据车辆纵向动力学分析得出纯电动汽车在行驶过程中所受到的加速阻力、坡道阻力、滚动阻力以及空气阻力,搭建整车纵向动力学模型:
Figure GDA0003343120480000041
其中,m为车辆的质量(kg);δ为汽车旋转换算系数,v为车速(m/s);t为进入路口开始所用时间;Tp为电机驱动转矩(N·m);i0为主减速器传动比;ηT为传动效率;rd为车轮滚动半径(m);ρ为车辆周围空气密度(kg/m3);A为车辆迎风面积(m2);CD为空气阻力系数;g为重力加速度(m/s2);α为地面的倾斜角(°),fr为路面滚动阻力系数。
据整车纵向动力学模型,算出轮毂电机电动汽车的功率需求,计及轮毂电机工作中的铁损等建立电机效率损耗模型,绘出电机效率MAP图与功率损失图。
如图3所示,为本实施例搭建路侧信号灯状态交通环境模型示意图,路侧信号灯状态交通环境模型对信号灯的相位周期进行描述,表达式如下:
Figure GDA0003343120480000042
tr,tg,ty分别表示红灯、绿灯和黄灯的相位时间,π表示圆周率。
三、利用深度确定性策略梯度算法构建纯电动网联汽车路口通行生态驾驶策略,求解包含整车电池能耗最小、通行时间最短的多目标优化问题,得出最优通行速度谱。由深度确定性策略梯度算法采用动作-评价(Actor-Critic,AC)架构设计有四个网络,如图2所示,其中Actor网络包含动作估计网络(对应图中在线策略网络)和动作目标网络(对应图中目标策略网络),而Critic网络包含价值估计网络(对应图中在线价值网络)与价值目标网络(对应图中目标价值网络)。
具体包括以下流程:
S1:根据获取车辆以及路侧环境状态信息、以及路口通行生态驾驶模型,确定当前驾驶环境状态St,下标t代表t时刻;
St={ΔJenb,Δs,Ssignal,Tleft,verror,vego};其中,ΔJenb为当前时刻步长内电池消耗的能量,Δs为单步长内车辆的位移,Ssignal为信号灯的当前状态,Tleft为当前信号灯状态下剩余的时间,vego为当前车速,verror为当前路口下可以通行最大的速度与当前车速的差值;
S2:根据当前驾驶环境状态St,由深度确定性策略梯度算法的Actor-Critic架构中动作估计网络,实时输出策略动作At=μ(Stμ),其中,μ为动作估计网络输出的加速度策略,θμ为动作估计网络参数,θ是每层网络的权重;车辆执行At,获得奖励值Rt,并进入下一时刻,产生新的驾驶环境状态St+1,并将St,At,Rt,St+1信息记录至经验缓存池中;上述At可理解为加速度;
奖励值
Figure GDA0003343120480000051
α,β,γ,A,B为权重系数,Jt为在单位步长内车辆运动所消耗的瞬时能量,ve为当前车速与当前路口信号灯周期内最大通行车速的误差,at-1为上一步长智能体输出的加速度,Mv,Mred为阶跃函数,分别为当车速误差在0.5m/s内可获得奖励与车辆到达路口时闯红灯需得到的惩罚;
Figure GDA0003343120480000052
Figure GDA0003343120480000053
式中“+”表示奖励,“-”表示惩罚;
S3:动作估计网络由经验缓存池中采样状态数据Si,计算出由Actor-Critic架构中动作目标网络输出的策略动作μ′(Siμ′),其中,μ′为动作目标网络输出的加速度策略,θμ′为动作估计网络参数;
S4:Actor-Critic架构中的价值目标网络利用策略动作μ′(Siμ′)和从经验缓存池中采样的状态数据集(Si,Ai,Ri,Si+1),输出价值函数目标值yi,yi=Ri+Q′(Si+1,μ′(Si+1μ′)|θQ′),其中Q′为价值目标网络计算的行为-动作函数值,θQ′为动作估计网络参数;
S5:Actor-Critic架构中的价值估计网络利用动作估计网络输出的策略动作At、以及当前驾驶环境状态St,计算当前动作下的状态-动作累计期望价值QΠ(s,a),表示为:
Figure GDA0003343120480000054
其中,Π是当前采取的加速度策略,EΠ为系统在策略Π下的期望,γ为折扣率;
通过价值函数目标值yi计算损失函数值L(θQ):
Figure GDA0003343120480000061
计算策略动作的At梯度
Figure GDA0003343120480000062
更新价值估计网络参数θQ
Figure GDA0003343120480000063
其中α为学习率;
S6:利用价值估计网络计算的梯度Gt更新动作估计网络的参数θμ,更新的梯度公式为:
Figure GDA0003343120480000064
S7:更新动作估计网络参数θμ′、价值目标网络参数θQ′
Figure GDA0003343120480000065
Figure GDA0003343120480000066
其中,τ为更新权重;
S8:当车辆进入路口时,交通环境被初始化,同时初始化各个网络参数,并在第一个步长内选取随机策略,经过循环步骤S1至S7,直至车辆走完当前路口,获得一次训练的回报值
Figure GDA0003343120480000067
其中T为车辆从路口初始位置到通过路口时所花费的时间;
S9:重复步骤S8,经过1000次训练后,将最大化回报值maxReturni,并不断更新网络参数,直至每次通过路口时获得的回报值逐渐收敛至某一个值附近,完成整个车辆在灯控信号灯路口下经济通行学习过程。在训练中设置不同的初始环境,将使得智能体学会在不同的交通状态下找到优解。
训练得到的策略可进一步策略部署至实车平台,通过车载传感器获取真实道路交通场景信息,输入策略开放端口,并由训练策略实时计算当前时刻的最佳通行速度,通过智能网联车辆与环境实时交互在线控制车辆实现灯控信号灯路口下经济通行。如图4所示为本实施例的通行决策算法仿真效果图。
本发明的发明目的和技术效果基于对下文的考察研究对本领域技术人员而言将是显而易见的,或者可以从本发明的实践中得到验证。

Claims (3)

1.一种基于强化学习的网联车辆信号灯控路口经济通行方法,其特征在于,包括以下步骤:
获取车辆以及路侧环境状态信息,具体包括:
基于无线短波通讯或5G/LTE通讯与路侧设施信息交互,获取信号灯当前状态信息,结合定位系统对车辆实时精准定位;
通过车载传感器检测车辆状态信息,将所述车辆状态信息上传至车载控制单元;
搭建路口通行生态驾驶模型:包括搭建整车纵向动力学模型和搭建路侧信号灯状态交通环境模型,具体包括:
根据车辆纵向动力学分析得出纯电动汽车在行驶过程中所受到的加速阻力、坡道阻力、滚动阻力以及空气阻力,搭建所述整车纵向动力学模型:
Figure FDA0003343120470000011
其中,m为车辆的质量;δ为汽车旋转换算系数,v为车速;t为进入路口开始所用时间;Tp为电机驱动转矩;i0为主减速器传动比;ηT为传动效率;rd为车轮滚动半径;ρ为车辆周围空气密度;A为车辆迎风面积;CD为空气阻力系数;g为重力加速度;α为地面的倾斜角;fr为路面滚动阻力系数;
路侧信号灯状态交通环境模型对信号灯的相位周期进行描述,表达式如下:
Figure FDA0003343120470000012
tr,tg,ty分别表示红灯、绿灯和黄灯的相位时间;π表示圆周率;
利用深度确定性策略梯度算法构建纯电动网联汽车路口通行生态驾驶策略,求解包含整车电池能耗最小通行时间最短的多目标优化问题,得出最优通行速度谱,具体包括:
S1:根据所述获取车辆以及路侧环境状态信息、以及所述路口通行生态驾驶模型,确定当前驾驶环境状态St,下标t代表t时刻;
S2:根据所述当前驾驶环境状态St,由深度确定性策略梯度算法的Actor-Critic架构中动作估计网络,实时输出策略动作At=μ(Stμ),其中,θμ为动作估计网络参数,θ是每层网络的权重,μ为动作估计网络输出的加速度策略;车辆执行At,获得奖励值Rt,并进入下一时刻,产生新的驾驶环境状态St+1,并将St,At,Rt,St+1信息记录至经验缓存池中;
S3:所述动作估计网络由所述经验缓存池中采样状态数据Si,计算出由Actor-Critic架构中动作目标网络输出的策略动作μ′(Siμ′),其中,θμ′为动作估计网络参数,μ′为动作目标网络输出的加速度策略;
S4:Actor-Critic架构中的价值目标网络利用所述策略动作μ′(Siμ′)和从步骤S2所述经验缓存池中采样的状态数据集(Si,Ai,Ri,Si+1),输出价值函数目标值yi
yi=Ri+Q′(Si+1,μ′(Si+1μ′)|θQ′),其中Q′为所述价值目标网络计算的行为-动作函数值,θQ′为价值目标网络参数;
S5:Actor-Critic架构中的价值估计网络利用所述动作估计网络输出的所述策略动作At、以及所述当前驾驶环境状态St,计算当前动作下的状态-动作累计期望价值QΠ(s,a),表示为:
Figure FDA0003343120470000021
其中,Π是当前采取的加速度策略,EΠ为系统在策略Π下的期望,γ为折扣率;
通过所述价值函数目标值yi计算损失函数值L(θQ):
Figure FDA0003343120470000022
计算策略动作的At梯度
Figure FDA0003343120470000023
更新价值估计网络参数θQ
Figure FDA0003343120470000024
其中α为学习率;
S6:利用所述价值估计网络计算的梯度Gt更新动作估计网络的参数θμ
S7:更新所述动作估计网络参数
Figure FDA0003343120470000025
和所述价值目标网络参数
Figure FDA0003343120470000026
τ为更新权重;
S8:当车辆进入路口时,交通环境被初始化,同时初始化各个网络参数,并在第一个步长内选取随机策略,经过循环步骤S1至S7,直至车辆走完当前路口,获得一次训练的回报值
Figure FDA0003343120470000027
其中T为车辆从路口初始位置到通过路口时所花费的时间;
S9:重复步骤S8,经过若干次训练后,将最大化回报值max Returni,并不断更新网络参数,直至每次通过路口时获得的回报值收敛,完成整个车辆在灯控信号灯路口下经济通行学习过程。
2.根据权利要求1所述的基于强化学习的网联车辆信号灯控路口经济通行方法,其特征在于,所述奖励值
Figure FDA0003343120470000028
α,β,γ,A,B为权重系数,Jt为在单位步长内车辆运动所消耗的瞬时能量,ve为当前车速与当前路口信号灯周期内最大通行车速的误差,at-1为上一步长智能体输出的加速度,Mv,Mred为阶跃函数,分别为当车速误差在0.5m/s内可获得奖励与车辆到达路口时闯红灯需得到的惩罚;
Figure FDA0003343120470000029
Figure FDA00033431204700000210
式中“+”表示奖励,“-”表示惩罚。
3.根据权利要求1所述的基于强化学习的网联车辆信号灯控路口经济通行方法,其特征在于,所述当前驾驶环境状态St={ΔJenb,Δs,Ssignal,Tleft,verror,vego};其中,ΔJenb为当前时刻步长内电池消耗的能量,Δs为单步长内车辆的位移,Ssignal为信号灯的当前状态,Tleft为当前信号灯状态下剩余的时间,vego为当前车速,verror为当前路口下可以通行最大的速度与当前车速的差值。
CN202110554621.4A 2021-05-20 2021-05-20 一种基于强化学习的网联车辆信号灯控路口经济通行方法 Active CN113269963B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110554621.4A CN113269963B (zh) 2021-05-20 2021-05-20 一种基于强化学习的网联车辆信号灯控路口经济通行方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110554621.4A CN113269963B (zh) 2021-05-20 2021-05-20 一种基于强化学习的网联车辆信号灯控路口经济通行方法

Publications (2)

Publication Number Publication Date
CN113269963A CN113269963A (zh) 2021-08-17
CN113269963B true CN113269963B (zh) 2021-12-10

Family

ID=77232243

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110554621.4A Active CN113269963B (zh) 2021-05-20 2021-05-20 一种基于强化学习的网联车辆信号灯控路口经济通行方法

Country Status (1)

Country Link
CN (1) CN113269963B (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6744597B1 (ja) * 2019-10-18 2020-08-19 トヨタ自動車株式会社 車両用制御データの生成方法、車両用制御装置、車両用制御システム、および車両用学習装置
CN114973650B (zh) * 2022-04-13 2023-05-23 东南大学 车辆匝道入口合流控制方法、车辆、电子设备及存储介质
CN114707560B (zh) * 2022-05-19 2024-02-09 北京闪马智建科技有限公司 数据信号的处理方法及装置、存储介质、电子装置
CN115100866B (zh) * 2022-07-18 2023-08-18 北京邮电大学 一种基于分层强化学习的车路协同自动驾驶决策方法
CN117062280B (zh) * 2023-08-17 2024-03-08 北京美中爱瑞肿瘤医院有限责任公司 一种神经外科自助式手术灯自动跟随系统

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110341690A (zh) * 2019-07-22 2019-10-18 北京理工大学 一种基于确定性策略梯度学习的phev能量管理方法
CN111731303A (zh) * 2020-07-09 2020-10-02 重庆大学 一种基于深度强化学习a3c算法的hev能量管理方法
CN112158189A (zh) * 2020-09-30 2021-01-01 东南大学 基于机器视觉和深度学习的混合动力汽车能量管理方法
CN112201060A (zh) * 2020-09-27 2021-01-08 航天科工广信智能技术有限公司 一种基于Actor-Critic的单交叉口交通信号控制方法
CN112488310A (zh) * 2020-11-11 2021-03-12 厦门渊亭信息科技有限公司 一种多智能体群组协作策略自动生成方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110341690A (zh) * 2019-07-22 2019-10-18 北京理工大学 一种基于确定性策略梯度学习的phev能量管理方法
CN111731303A (zh) * 2020-07-09 2020-10-02 重庆大学 一种基于深度强化学习a3c算法的hev能量管理方法
CN112201060A (zh) * 2020-09-27 2021-01-08 航天科工广信智能技术有限公司 一种基于Actor-Critic的单交叉口交通信号控制方法
CN112158189A (zh) * 2020-09-30 2021-01-01 东南大学 基于机器视觉和深度学习的混合动力汽车能量管理方法
CN112488310A (zh) * 2020-11-11 2021-03-12 厦门渊亭信息科技有限公司 一种多智能体群组协作策略自动生成方法

Also Published As

Publication number Publication date
CN113269963A (zh) 2021-08-17

Similar Documents

Publication Publication Date Title
CN113269963B (zh) 一种基于强化学习的网联车辆信号灯控路口经济通行方法
CN110775065B (zh) 一种基于工况识别的混合动力汽车电池寿命预测方法
Wang et al. Hybrid electric vehicle energy management with computer vision and deep reinforcement learning
CN110264757B (zh) 基于连续信号灯信息的智能网联汽车分层速度规划方法
CN106740846B (zh) 一种双模式切换的电动汽车自适应巡航控制方法
CN114241778B (zh) 高速公路网联车协同匝道汇入多目标优化控制方法和系统
CN111439260B (zh) 面向个性化需求的网联商用柴油车巡航行驶优化控制系统
CN110992695B (zh) 基于冲突消解的车辆城市交叉口通行决策多目标优化方法
CN111267831A (zh) 一种混合动力车辆智能变时域模型预测能量管理方法
CN113788021B (zh) 一种结合前车速度预测的自适应跟车巡航控制方法
CN111959492B (zh) 一种网联环境下考虑换道行为的hev能量管理分层控制方法
CN106870099A (zh) 一种基于固定路谱的混合动力车辆热管理系统的控制方法
CN103914985A (zh) 一种混合动力客车未来车速轨迹预测方法
CN108973998A (zh) 一种基于mpc的异质车辆队列分布式节能控制方法
CN105501216A (zh) 基于车联网的混合动力汽车的分层能量管理控制方法
CN107818377A (zh) 基于云计算平台的车辆全局优化控制方法、系统、车辆和云计算平台
CN112286212B (zh) 一种车网协同节能控制方法
CN112477846B (zh) 一种兼顾稳定性和节能的智能网联电动汽车队列控制方法
CN115158094A (zh) 基于长短期soc规划的插电式混合动力汽车能量管理方法
CN114103924A (zh) 一种混合动力车辆能量管理控制方法及装置
CN115534929A (zh) 基于多元信息融合的插电式混合动力汽车能量管理方法
CN112255918A (zh) 汽车队列优化控制的方法及系统
CN109064760B (zh) 一种数据驱动的智能鲁棒车速实时规划方法及系统
Huang et al. Energy saving performance improvement of intelligent connected PHEVs via NN-based lane change decision
CN113135113B (zh) 一种全局soc规划方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
EE01 Entry into force of recordation of patent licensing contract
EE01 Entry into force of recordation of patent licensing contract

Application publication date: 20210817

Assignee: Zhishan Intelligent Transport Equipment (Yancheng) Co.,Ltd.

Assignor: SOUTHEAST University

Contract record no.: X2024320000006

Denomination of invention: A reinforcement learning based economic traffic method for networked vehicle signal controlled intersections

Granted publication date: 20211210

License type: Common License

Record date: 20240116