CN114312845A - 基于地图数据的深度强化学习型混合动力汽车控制方法 - Google Patents

基于地图数据的深度强化学习型混合动力汽车控制方法 Download PDF

Info

Publication number
CN114312845A
CN114312845A CN202210009502.5A CN202210009502A CN114312845A CN 114312845 A CN114312845 A CN 114312845A CN 202210009502 A CN202210009502 A CN 202210009502A CN 114312845 A CN114312845 A CN 114312845A
Authority
CN
China
Prior art keywords
vehicle
target
angle
real
hybrid
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210009502.5A
Other languages
English (en)
Inventor
唐小林
陈佳信
杨凯
邓忠伟
杨为
胡晓松
李佳承
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chongqing University
Original Assignee
Chongqing University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chongqing University filed Critical Chongqing University
Priority to CN202210009502.5A priority Critical patent/CN114312845A/zh
Publication of CN114312845A publication Critical patent/CN114312845A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Hybrid Electric Vehicles (AREA)
  • Control Of Driving Devices And Active Controlling Of Vehicle (AREA)
  • Electric Propulsion And Braking For Vehicles (AREA)

Abstract

本发明涉及一种基于地图数据的深度强化学习型混合动力汽车控制方法,属于新能源汽车与智能网联汽车的交叉领域。该方法包括:处理地图数据,建立环境模型;预规划目标速度轨迹;建立车身模型与混合动力系统模型,根据整车动力学对行驶过程进行受力分析并且确定混合动力系统功率平衡关系;车辆转向控制影响分析;建立基于深度确定性策略梯度的混合动力汽车控制策略训练模型,以整车的加速度与转向角以及混合动力系统的发动机与变速器为控制对象,建立控制策略的状态空间、动作空间以及奖励函数,并且进行阶梯式迭代训练过程。本发明能实现混合动力汽车的智能网联化自动驾驶。

Description

基于地图数据的深度强化学习型混合动力汽车控制方法
技术领域
本发明属于新能源汽车与智能网联汽车的交叉领域,涉及一种基于地图数据的深度强化学习型混合动力汽车控制方法。
背景技术
随着汽车工业向智能化、网联化与新能源化的发展。一方面,作为解决目前单车自动驾驶的有效途径,基于信息与通讯技术的智能网联汽车实现了人、车、路、云等的信息交换与信息共享。通过车辆、交通基础设施、通信技术与计算服务等核心领域的技术研发,促进了智能网联汽车与智能交通系统的协同发展。另一方面,车辆动力系统的新能源化,能够对全球的气候条件与能源结构做出重大调整。纯电动汽车、混合动力汽与燃料电池汽车作为三类代表性产品,未来将占据市场的主要份额。相比之下,混合动力汽车拥有更加成熟的技术条件。以常见的油电混动系统为例,在电机的辅助作用下,不但可以改善发动机运行条件、优化油耗与排放,还能够通过再生制动模式回收多余的能量。同时,在拥堵工况下切换纯电动模式可以避免发动机的频繁启停以及相应的油耗代价。
混合动力汽车的研发路线包括构型筛选、参数匹配与能量管理。前两者需要根据实际的应用条件对混合动力系统部件参数进行筛选与优化,而能量管理策略需要在满足整车需求功率与系统约束的条件下,通过合理分配混合动力系统的功率流,实现最佳的燃油经济性与驾乘舒适性等。在智能网联的发展背景下,混合动力汽车能量管理需要结合更多的环境信息对控制策略进行不断地完善与优化,并且未来混合动力汽车同样可以实现智能网联化自动驾驶。
因此,亟需一种新的混合动力汽车控制方法来解决上述问题。
发明内容
有鉴于此,本发明的目的在于提供一种基于地图数据的深度强化学习型混合动力汽车控制方法,针对智能网联型混合动力汽车,结合车道级高精度地图以及深度强化学习算法,实现混合动力汽车的智能网联化自动驾驶。为达到上述目的,本发明提供如下技术方案:
一种基于地图数据的深度强化学习型混合动力汽车控制方法,具体包括以下步骤:
S1:处理地图数据,建立环境模型:通过车道级高精地图确定车辆行驶起点与目标终点间的最优路径方案,提取目标路径的经纬度与海拔数据进行处理,获取全程路径的行驶里程、坡度角、车道曲率与转向度数等信息;
S2:预规划目标速度轨迹:以驾驶舒适性为优化目标规划全程车速,通过当前路段的交通管理信息,在非转角时刻以道路最高限速行驶,而在转角时刻以安全过弯速度行驶;
S3:基于CATIA建立车身模型与基于Python建立混合动力系统模型,根据整车动力学对行驶过程进行受力分析并且确定混合动力系统功率平衡关系;
S4:车辆转向控制影响分析:结合车辆定位与气象信息,通过车路融合感知修正车道级高精地图的道路曲率误差,同时在掌握实时风向风速的情况下确定车辆迎风面面积与空气阻力变化情况;
S5:建立基于深度确定性策略梯度(DDPG)的混合动力汽车控制策略训练模型,以整车的加速度与转向角以及混合动力系统的发动机与变速器为控制对象,分别设计用于学习四种控制策略的状态空间、动作空间以及奖励函数,并且进行阶梯式迭代训练过程;
S6:在训练结束后,保存用于拟合四种控制策略的神经网络文件,随后加载到边缘设备 NVIDIA Jetson AGX Xavier进行测试与验证,最终对整车实现边缘计算与边缘控制。
进一步,步骤S1中,计算车道曲率:首先对相邻三个坐标点进行二次拟合,然后依据曲率公式确定中点的曲率与曲率半径;
Figure RE-GDA0003527958390000021
Figure RE-GDA0003527958390000022
Figure RE-GDA0003527958390000023
Figure RE-GDA0003527958390000024
Figure RE-GDA0003527958390000025
其中,lat是纬度数据,lon是经度数据,V是坐标向量,Angle是A、B两坐标向量之间的向量夹角,Rearth是地球半径,i是坡度,θ是坡度角,h是邻点海拔差,Dbet是邻点距离,K 是曲率,ρ是地图道路轨迹的曲率半径,y是经坐标点拟合的二次函数;
进一步,步骤S2中,根据车辆过弯时受力分析,得到能够保证车辆始终安全行驶在车道内的曲线速度v与重力加速度g、车道曲线半径Rroad即地图道路轨迹的曲率半径ρ,以及路面倾角
Figure RE-GDA0003527958390000026
的关系为:
Figure RE-GDA0003527958390000027
其中,v是车辆行驶速度,即车道内的曲线速度。
进一步,步骤S3中,建立车身模型与混合动力系统模型,具体包括以下步骤:
S31:通过三维建模软件CATIA建立整车车身模型并测量不同角度的车身表面积;
S32:根据动力学分析,在行驶时的整车受力与混合动力系统功率平衡关系如下;
Figure RE-GDA0003527958390000031
Figure RE-GDA0003527958390000032
其中,Ff是滚动阻力,Fw是空气阻力,Fi是坡度阻力,Fj是加速阻力,g是重力加速度, f是滚动阻力系数,θ是道路坡度角,ρair是空气密度,CD是空气阻力系数,Acar是迎风面积, ur是相对速度,δ是汽车旋转质量换算系数,mcar是整车质量,acc是加速度,Pdemand表示需求功率,ηT表示机械传动效率,Peng是发动机功率,Pmg是电动机功率;
S33:采用准静态map图方式建立发动机油耗模型、发动机效率模型以及电机效率模型,通过基于内阻的一阶等效电路模型表示锂离子动力电池组的电池电荷状态变化;
Figure RE-GDA0003527958390000033
其中,
Figure RE-GDA0003527958390000034
是锂离子动力电池组的电池电荷状态变化,Voc是开路电压,Rint是电池内阻, Pbatt表示电池功率,Qbatt表示电池标称容量。
进一步,步骤S4中,车辆转向控制影响分析,具体包括以下步骤:
S41:结合当前车辆行驶方向与实时风向,确定整车迎风面面积Acar,再根据当前风速与车速确定相对行驶速度ur,由此计算对整车所受空气阻力Fw以及需求功率的变化;
S42:融合车载感知与路段感知信息对前方道路转向角进行检测,修正车道级高精地图的曲率数据误差,保证车辆安全平稳地行驶在车道线范围之内。
进一步,步骤S5中,建立基于深度确定性策略梯度(DDPG)的混合动力汽车控制策略训练模型,具体包括以下步骤:
S511:建立基于深度确定性策略梯度(DDPG)的混合动力汽车控制策略训练模型,实现智能体模块与环境模块的交互式学习模式,定义所有全连接型神经网络均在三层结构且每层均包含100个神经元,定义算法的超参数并且初始化经验池容量与神经网络参数;
S512:混合动力汽车集成控制策略包含四种控制对象:加速度、转向角、变速器传动比以及发动机功率;针对以上控制目标设计的状态空间S、动作空间A与奖励函数R定义如下:
①车辆加速度控制策略
SAcc=(VelReal,VelTarget,ΔVel)
AAcc=Acc=[-1.5m/s2,1.5m/s2]
RAcc=-1×(VelReal-VelTarget)2
其中,VelReal是实时速度,VelTarget是规划速度,ΔVel是速度差,动作Acc是加速度;
②车辆转向角控制策略
SSte=(AngleReal,AngleTarget,ΔAngle)
ASte=ΔSte=[-15°,15°]
RSte=-1×(AngleReal-Angletarget)2
其中,AngleReal是实时转角,AngleTarget是道路转角,ΔAngle是角度差,动作ΔSte是转向角变化量;
③变速器传动比控制策略
SCVT=(VelReal,Acc,RatioCVT,θ)
ACVT=ΔRatioCVT=[-0.5,0.5]
RCVT=-1×(RatioCVT-RatioTarget)2
其中,RatioCVT是CVT实时传动比,θ是道路坡度角,RatioTarget是参考传动比,动作ΔRatioCVT是CVT传动比变化量;
④发动机功率控制策略
Seng=(VelReal,Acc,soc,Peng)
Aeng=ΔPeng=[-5kW,5kW]
Figure RE-GDA0003527958390000041
其中,α、β与σ是三个优化项的权重系数,soc是电池电荷状态,soctarget是目标电荷状态 (非插电式混合动力汽车目标电荷为初始电荷状态),Peng是发动机功率,
Figure RE-GDA0003527958390000042
是瞬时油耗, Teng是发动机转矩,Neng是发动机转速,ηeng是发动机效率,动作ΔPeng是发动机功率变化量。
进一步,步骤S5中,训练基于深度确定性策略梯度(DDPG)的混合动力汽车控制策略训练模型,具体包括以下步骤:
S521:采用阶梯式学习方法对混合动力汽车控制策略进行迭代试错式训练,当所有控制策略的总累计奖励轨迹保持稳定的收敛状态后训练结束;
S522:在训练过程中当需要更新DDPG算法的神经网络时,采用从经验池中随机小批量抽取的方式选择训练样本,并且按照如下公式分别对在线评论家网络、在线演员网络、目标评论家网络以及目标演员网络参数进行实时软更新;
Figure RE-GDA0003527958390000051
Figure RE-GDA0003527958390000052
Figure RE-GDA0003527958390000053
Figure RE-GDA0003527958390000054
Figure RE-GDA0003527958390000055
其中,N是小批量样本数,i是小批量训练样本的序列号,
Figure RE-GDA0003527958390000056
是在线演员网络参数,
Figure RE-GDA0003527958390000057
是目标演员网络参数,
Figure RE-GDA0003527958390000058
是在线评论家网络参数,
Figure RE-GDA0003527958390000059
是目标评论家网络参数,k是学习率,τ是跟踪率,s是状态,a是动作,r是奖励,t是时间,γ是折扣因子,
Figure RE-GDA00035279583900000510
是目标动作值,
Figure RE-GDA00035279583900000511
是预测动作值,也是折扣未来累计奖励的期望值,s′表示下一时刻状态, a′表示下一时刻动作,LQ是用于更新在线评论家网络的损失函数,
Figure RE-GDA00035279583900000512
表示目标演员网络当前拟合的控制策略,
Figure RE-GDA00035279583900000513
是评论家网络更新梯度,
Figure RE-GDA00035279583900000514
是演员网络的更新梯度,
Figure RE-GDA00035279583900000515
是动作值函数对在线演员网络参数的更新梯度,
Figure RE-GDA00035279583900000516
是策略梯度,
Figure RE-GDA00035279583900000517
表示期望值,J是目标函数。
本发明的有益效果在于:本发明将车辆工程领域的新能源化与智能网络化相结合,实现了隶属于新能源类型的混合动力汽车在网联环境下以车道级高精度地图数据为驱动的智能化自动驾驶。本发明方法具体是通过目标路径的交通全要素数字映射,实现从整车层的加速度、转向角到混合动力系统层的变速器传动比、发动机功率的综合控制。
本发明的其他优点、目标和特征在某种程度上将在随后的说明书中进行阐述,并且在某种程度上,基于对下文的考察研究对本领域技术人员而言将是显而易见的,或者可以从本发明的实践中得到教导。本发明的目标和其他优点可以通过下面的说明书来实现和获得。
附图说明
为了使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明作优选的详细描述,其中:
图1是本发明基于地图数据的深度强化学习型混合动力汽车控制方法流程图;
图2是混合动力系统结构图;
图3是CATIA车身建模与不同角度下迎风面面积变化示意图;
图4是深度确定性策略梯度算法框架图;
图5是总累计奖励变化轨迹示意图;
图6是速度轨迹示意图;
图7是转向角控制及迎风面面积变化关系图;
图8是功率分配图;
图9是SOC轨迹示意图;
图10是CVT传动比序列及发动机转速示意图;
图11是四种能量管理策略的发动机工作点分布图。
具体实施方式
以下通过特定的具体实例说明本发明的实施方式,本领域技术人员可由本说明书所揭露的内容轻易地了解本发明的其他优点与功效。本发明还可以通过另外不同的具体实施方式加以实施或应用,本说明书中的各项细节也可以基于不同观点与应用,在没有背离本发明的精神下进行各种修饰或改变。需要说明的是,以下实施例中所提供的图示仅以示意方式说明本发明的基本构想,在不冲突的情况下,以下实施例及实施例中的特征可以相互组合。
请参阅图1~图11,图1为一种基于地图数据的深度强化学习型混合动力汽车控制方法流程图,该方法具体包括以下步骤:
S1:通过车道级高精地图确定行驶起点与终点间的最优路径方案,提取目标路径的经纬度与海拔数据进行处理,获取全程路径的行驶里程、坡度角、车道曲率与转向度数等信息。
步骤S1中,处理地图数据与建立环境模型按照如下方法进行:
S11:根据目标起点与目标终点,由车道级高精地图规划最优路径方案;
S12:车道级高精地图提供目标路径的经纬度与海拔数据,针对目标路径进行数据处理,根据以下公式获取行驶里程、坡度角、车道曲率与转向度数等关键信息。其中,道路曲率的计算首先对相邻三个坐标点进行二次拟合,然后依据曲率公式确定中点的曲率与曲率半径。
Figure RE-GDA0003527958390000071
Figure RE-GDA0003527958390000072
Figure RE-GDA0003527958390000073
Figure RE-GDA0003527958390000074
Figure RE-GDA0003527958390000075
其中,lat是纬度数据,lon是经度数据,V是坐标向量,Angle是A、B两坐标向量之间的向量夹角,Rearth是地球半径,i是坡度,θ是坡度角,h是邻点海拔差,Dbet是邻点距离,K 是曲率,ρ是地图道路轨迹的曲率半径,y是经坐标点拟合的二次函数;
S13:基于以上数据信息,建立目标路径的参数化道路环境模型。
S2:以驾驶舒适性为优化目标规划全程车速,通过当前路段的交通管理信息,在非转角时刻以道路最高限速行驶,而在转角时刻以安全过弯速度行驶。
步骤S2中,规划目标速度轨迹按照如下方法进行:
S21:根据车辆过弯时受力分析可知,能够保证始终安全行驶在车道内的曲线速度v与重力加速度g、车道曲线半径Rroad(即曲率半径ρ)及路面倾角
Figure RE-GDA0003527958390000077
直接相关。
Figure RE-GDA0003527958390000076
其中,v是车辆行驶速度。
S22:在掌握当前车道的限速标准与车辆过弯的安全速度后,以驾乘舒适性为指标,定义车辆全程的加速度与减速度均保持为1.5m/s2,由此预先规划全程速度轨迹。
S3:基于CATIA建立车身模型与基于Python建立混合动力系统模型,根据整车动力学对行驶过程进行受力分析并且确定混合动力系统功率平衡关系。
步骤S3中,车身与动力系统建模按照如下方法进行:
S31:通过三维建模软件CATIA建立整车车身模型并测量不同角度的车身表面积;
S32:根据动力学分析,在行驶时的整车受力与混合动力系统功率平衡关系如下;
Figure RE-GDA0003527958390000081
Figure RE-GDA0003527958390000082
其中,Ff是滚动阻力,Fw是空气阻力,Fi是坡度阻力,Fj是加速阻力,g是重力加速度, f是滚动阻力系数,θ是道路坡度角,ρair是空气密度,CD是空气阻力系数,Acar是迎风面积, ur是相对速度,δ是汽车旋转质量换算系数,mcar是整车质量,acc是加速度,Pdemand表示需求功率,ηT表示机械传动效率,Peng是发动机功率,Pmg是电动机功率;
通过图3所示的由CATIA建立的整车车身模型可知,行驶角度的变化可引起车身迎风面积的显著改变,车身模型不同角度下迎风面面积的变化趋势。
S33:采用准静态map图方式建立发动机油耗模型、发动机效率模型以及电机效率模型,通过基于内阻的一阶等效电路模型表示锂离子动力电池组的电池电荷状态变化
Figure RE-GDA0003527958390000083
其中,
Figure RE-GDA0003527958390000084
是锂离子动力电池组的电池电荷状态变化,Voc是开路电压,Rint是电池内阻, Pbatt表示电池功率,Qbatt表示电池标称容量。
S4:结合车辆定位与气象信息,通过车路融合感知修正车道级高精地图的道路曲率误差,同时在掌握实时风向风速的情况下确定车辆迎风面面积与空气阻力变化情况。
步骤S4中,车辆转向控制影响分析按照如下方法进行:
S41:当控制车辆转向角时结合气象条件所提供的实时风向与风速,由当前车辆行驶方向与实时风向确定实际迎风面面积Acar,再根据风速与车速确定相对速度ur,由此计算对整车所受空气阻力Fw以及需求功率的变化进行精确计算;
S42:融合车载感知与路段感知信息对前方道路转向角进行检测,修正车道级高精地图的曲率数据误差,保证车辆安全平稳地行驶在车道线范围之内。
S5:建立基于深度确定性策略梯度(DDPG)的混合动力汽车控制策略训练框架(如图4 所示),以整车的加速度与转向角以及混合动力系统的发动机与变速器为控制对象,分别设计用于学习四种控制策略的状态空间、动作空间与奖励函数,并且进行阶梯式迭代训练过程。
步骤S5中,所述集成控制策略训练方案按照如下方法进行:
S51:建立基于深度确定性策略梯度(DDPG)的混合动力汽车控制策略训练框架,实现智能体模块与环境模块的交互式学习模式,定义所有全连接型神经网络均在三层结构且每层均包含100个神经元,定义算法的超参数并且初始化经验池容量与神经网络参数;
S52:混合动力汽车集成控制策略包含四种控制对象:加速度、转向角、变速器传动比以及发动机功率。针对以上控制目标设计的状态空间S、动作空间A与奖励函数R定义如下:
①车辆加速度控制策略
SAcc=(VelReal,VelTarget,ΔVel)
AAcc=Acc=[-1.5m/s2,1.5m/s2]
RAcc=-1×(VelReal-VelTarget)2
其中,VelReal是实时速度,VelTarget是规划速度,ΔVel是速度差,动作Acc是加速度;
②车辆转向角控制策略
SSte=(AngleReal,AngleTarget,ΔAngle)
ASte=ΔSte=[-15°,15°]
RSte=-1×(AngleReal-Angletarget)2
其中,AngleReal是实时转角,AngleTarget是道路转角,ΔAngle是角度差,动作ΔSte是转向角变化量;
③变速器传动比控制策略
SCVT=(VelReal,Acc,RatioCVT,θ)
ACVT=ΔRatioCVT=[-0.5,0.5]
RCVT=-1×(RatioCVT-RatioTarget)2
其中,RatioCVT是CVT实时传动比,θ是道路坡度角,RatioTarget是参考传动比,动作ΔRatioCVT是CVT传动比变化量;
④发动机功率控制策略
Seng=(VelReal,Acc,soc,Peng)
Aeng=ΔPeng=[-5kW,5kW]
Figure RE-GDA0003527958390000091
其中,α、β与σ是三个优化项的权重系数,soc是电池电荷状态,soctarget是目标电荷状态 (非插电式混合动力汽车目标电荷为初始电荷状态),Peng是发动机功率,
Figure RE-GDA0003527958390000092
是瞬时油耗, Teng是发动机转矩,Neng是发动机转速,ηeng是发动机效率,动作ΔPeng是发动机功率变化量。
S53:采用阶梯式学习方法对混合动力汽车控制策略进行迭代试错式训练,当所有控制策略的总累计奖励轨迹保持稳定的收敛状态后训练结束;
S54:在训练过程中当需要更新DDPG算法的神经网络时,采用从经验池中随机小批量抽取的方式选择训练样本,并且按照如下公式分别对在线评论家网络、在线演员网络、目标评论家网络以及目标演员网络参数进行实时软更新;
Figure RE-GDA0003527958390000101
Figure RE-GDA0003527958390000102
Figure RE-GDA0003527958390000103
Figure RE-GDA0003527958390000104
Figure RE-GDA0003527958390000105
其中,N是小批量样本数,i是小批量训练样本的序列号,
Figure RE-GDA0003527958390000106
是在线演员网络参数,
Figure RE-GDA0003527958390000107
是目标演员网络参数,
Figure RE-GDA0003527958390000108
是在线评论家网络参数,
Figure RE-GDA0003527958390000109
是目标评论家网络参数,k是学习率,τ是跟踪率,s是状态,a是动作,r是奖励,t是时间,γ是折扣因子,
Figure RE-GDA00035279583900001010
是目标动作值,
Figure RE-GDA00035279583900001011
是预测动作值,也是折扣未来累计奖励的期望值,s′表示下一时刻状态, a′表示下一时刻动作,LQ是用于更新在线评论家网络的损失函数,
Figure RE-GDA00035279583900001012
表示目标演员网络当前拟合的控制策略,
Figure RE-GDA00035279583900001013
是评论家网络更新梯度,
Figure RE-GDA00035279583900001014
是演员网络的更新梯度,
Figure RE-GDA00035279583900001015
是动作值函数对在线演员网络参数的更新梯度,
Figure RE-GDA00035279583900001016
是策略梯度,
Figure RE-GDA00035279583900001017
表示期望值,J是目标函数。
S6:在训练结束后,保存用于拟合四种控制策略的神经网络文件,随后加载到边缘设备 NVIDIA Jetson AGX Xavier进行测试与验证控制策略的有效性、优化性与实时性等关键指标,最终对整车实现边缘计算与边缘控制。
验证实验
1、实验设置
首先,基于深度强化学习的混合动力汽车集成控制策略将在搭载I7-10700K CPU处理器的计算机上进行为期400个回合的迭代试错式离线训练,并在训练结束后将用于拟合控制策略的所有神经网络参数文件进行保存,以备之后的处理器在环测试。
其次,设置了三种用于对比的能量管理策略,命名方案与具体设置如表1所示。三种控制策略以基础算法(DP与Q-Learning)及发动机控制对象(节气门开度与发动机功率变化量) 的不同,与本发明所提出的集成控制策略从燃油经济性与计算效率等方面进行全面对比。
表1能量管理策略对比方案设置
Figure RE-GDA0003527958390000111
aT表示控制对象为节气门开度;b△表示控制对象为发动机功率变化量。
最后,通过基于NVIDIA Jetson AGX Xavier边缘设备的嵌入式处理器在环实验对集成控制策略的实时性进行测试。NVIDIA Jetson AGX Xavier模块在边缘云能提供高级别的计算能效以及推理能力。在嵌入式应用领域,通过CPU、GPU与深度学习加速器等硬件的作用下,可以实现每秒32万亿次运算的峰值计算能力和750Gbps的高速I/O性能,有助于训练与部署神经网络,并且能够高效运行视觉测距、路径规划等智能算法。在接通电源后,通过显示器、鼠标键盘以及HDMI视频线与模组相连并完成测试。
2、离线训练
深度强化学习的训练目标是将累计奖励最大化,因此训练完成的标志就是总累计奖励或损失值已经保持稳定的收敛状态。在基于深度强化学习的混合动力汽车集成控制策略中,需要同时控制整车的加速度与转向角以及混合动力系统的发动机与变速器。但是在训练阶段需要注意的是,当加速度与转向角控制效果未处于稳定状态之前,需求功率以及速度轨迹的随机波动将直接干扰后续混合动力系统的控制策略。也就是说,当上层控制策略的随机波动将导致下层策略均处于无效学习环境。因此,本发明在实际的离线训练中采用了阶梯式训练方法,总累计奖励变化轨迹如图5所示。
在前100个迭代回合,只有加速度与转向角的控制策略保持学习更新状态,而发动机与变速器的控制策略均处于随机波动阶段。在上层策略稳定后,整车的速度轨迹与需求功率也保持相对的稳定,而基于深度强化学习的CVT传动比控制策略在第100个回合正式开始学习更新,而发动机功率控制策略则在第200个回合开始更新。通过累计400个迭代训练过程,四种控制策略的总奖励均保持稳定收敛状态。其中,发动机功率控制策略的奖励函数中由于存在SOC偏差的优化项,因此相对而言累计奖励的轨迹波动更加剧烈。
3、处理器在环测试结果
整车加速度与转向角控制结果如图6~图7所示。在通过车道级地图获取目标路径的具体数据以及交通限速信息后,即可通过预规划的目标车速以及车道角度为基于深度强化学习的控制策略提供数据参考。图6所示速度轨迹表示深度强化学习能够将车辆的实时速度有效地维持在目标车速附近,并且当遇到转角后需要车速大幅变化时也能够取得良好的控制效果。图7所示为转向控制结果分别包括了车道角度、目标转向轮角度、实时转向轮角度以及车身实时的迎风面面积变化。通过高精地图能够获取车道级地图数据,并利用车路融合感知技术能够将车道线的实时曲率变化掌握得更加精确。以车道角度作为车身的需求转角,智能网联汽车的转向轮实时转向角就需要根据轴距等整车参数进行转换,由此才能确定转向轮的调整角度。结果显示,以正东方向为0度角。深度强化学习能够以有效的控制行为保持实时转角与车道角度的近似吻合。同时,车辆迎风面面积也随着转向控制产生了明显变化。此时,速度轨迹、迎风面面积对后续以需求功率为基础数据信息的能量管理策略将产生重要的影响。
以并联式混合动力系统为环境的能量管理策略控制结果包括需求功率与功率流分配结果 (图8)、SOC轨迹(图9)、CVT换挡序列(图10)以及发动机工作点(图11)。
由于非插电式混合动力汽车不能连接外部充电设备,因此在消耗电能后恢复SOC状态的能量均来自于发动机或者再生制动。同时,在经过长时间的驾驶后依旧要求电池SOC能够维持在初始值附近。图9所示四种能量管理策略的SOC轨迹均能满足以上要求,并且SOC始终维持在预定义阈值范围内,但是根据图8所示的需求功率在行程结束前存在较大需求功率现象,因此四种控制策略的终值SOC下降至0.55附件。结合SOC轨迹与功率分配情况可知,在四种类型的能量管理策略中,在绝大多数的运行时间段内车辆均处于混合驱动模式,发动机稳定输出驱动功率,而电机则主要承担着功率补偿以及回收能量的作用。
结合图10所示CVT换挡序列以及图11所示发动机工作点的结果分析可知,以 DP(T)/DP-based EMS的CVT换挡结果为参考序列时,基于DRL的CVT传动比控制策略取得了理想的学习效果,无论CVT传动比序列还是发动机转速,两种结果均保持近似的变化状态。此外,由发动机工作点分布可以发现由于车辆长期处于120km/h的行驶速度,四种控制策略的工作点均较为集中1500r/min的附近。但是,以节气门为控制对象的 DP(T)/DP-based EMS同时存在着大量工作点集中在高效率区,从而应对大需求功率的驾驶场景,而在低转速低转矩的区域分布较少。因此,该类型策略存在更多转矩突变的不良现象。图11(b~d)所示发动机工作点的总体变化趋势具有更好的连续性。与此同时,两种学习型能量管理策略的发动机工作点分布范围更加广泛,由此来补偿需要发动机大功率输出的时刻。
四种能量管理策略的数据结果如表2所示。根据基础算法、换挡策略以及发动机控制对象的不同,燃油经济性与计算效率均呈现显著差异。两种基于DP的控制策略分别取得了 6738.37g(5.39L/100km)与5711.05g(5.37L/100km)的燃油消耗量,但是根据计算时间可以发现,由于变量维度以及离散度过大,运行过程分别消耗2171.8s与73496.12s,因此基于DP的能量管理策略虽然能够取得理论最优的燃油经济性,但是该结果只存在作为基准的对比意义。相比之下,基于RL的控制策略在实现近优燃油经济性的同时也取得了杰出的控制效率,两种学习型能量管理策略分别取得了7275.30g(5.82L/100km)与6907.69g(5.53L/100km)的燃油消耗量。需要特别注的是,在变量空间仅包含一种状态与一种动作的条件下,基于QL的能量管理策略在高性能计算机上运行一次全程速度轨迹所消耗的时间为7.32s,而基于DRL的能量管理策略具有14个的状态变量与4个的动作变量,在NVIDIA Jetson AGXXavier边缘设备进行的处理器在环测试仅消耗了104.14s。
表2能量管理策略结果对比
Figure RE-GDA0003527958390000131
综合上述分析可知,深度强化学习算法在混合动力汽车能量管理策略领域具有显著的应用潜力,能够确保学习型控制策略的优化性与实时性。
本发明在智能网联汽车云控系统的背景下,以资源平台的高精度、增强定位、气象条件等信息为基础搭建了环境模型,即本发明提出的基于深度学习的混合动力汽车集成控制策略,利用了DDPG算法控制整车层的加速度与转向角以及DQN算法控制混合动力系统层的CVT 传动比与发动机功率。通过基于NVIDIA Jetson AGX Xavier边缘设备进行的处理器在环测试结果分析,在对整车速度与转向角实现有效控制的同时取得了6907.69g(5.53L/100km)的燃油消耗量,并且涉及14个状态变量与4个控制变量的条件下,运行一次5158s的行驶工况仅消耗104.14s的计算时间,充分验证了本发明所提深度强化学习型集成控制的控制性能、优化效果与计算效率。
由结果分析可知,基于DRL的CVT传动比控制策略取得了理想的控制效果,能够将发动机的工作转速维持在合理范围内。此外,由于车辆长期处于120km/h的行驶速度,发动机工作点均较为集中1500r/min的附近,同时以功率变化量为控制目标时,让发动机工作性能具有更好的连续性。
综合上述分析可知,深度强化学习算法在混合动力汽车能量管理策略领域具有显著的应用潜力,能够确保学习型控制策略的优化性与实时性。
最后说明的是,以上实施例仅用以说明本发明的技术方案而非限制,尽管参照较佳实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改或者等同替换,而不脱离本技术方案的宗旨和范围,其均应涵盖在本发明的权利要求范围当中。

Claims (8)

1.一种基于地图数据的深度强化学习型混合动力汽车控制方法,其特征在于,该方法具体包括以下步骤:
S1:处理地图数据,建立环境模型:通过车道级地图确定车辆行驶起点与目标终点间的最优路径方案,提取目标路径的经纬度与海拔数据进行处理,获取全程路径的行驶里程、坡度角、车道曲率与转向度数;
S2:预规划目标速度轨迹:以驾驶舒适性为优化目标规划全程车速,通过当前路段的交通管理信息,在非转角时刻以道路最高限速行驶,在转角时刻以安全过弯速度行驶;
S3:建立车身模型与混合动力系统模型,根据整车动力学对行驶过程进行受力分析并且确定混合动力系统功率平衡关系;
S4:车辆转向控制影响分析:结合车辆定位与气象信息,通过车路融合感知修正车道级高精地图的道路曲率误差,同时在掌握实时风向风速的情况下确定车辆迎风面面积与空气阻力变化情况;
S5:建立基于深度确定性策略梯度的混合动力汽车控制策略训练模型,以整车的加速度与转向角以及混合动力系统的发动机与变速器为控制对象,建立控制策略的状态空间、动作空间以及奖励函数,并且进行阶梯式迭代训练过程。
2.根据权利要求1所述的混合动力汽车控制方法,其特征在于,步骤S1中,计算车道曲率:首先对相邻三个坐标点进行二次拟合,然后依据曲率公式确定中点的曲率与曲率半径;
Figure FDA0003458438380000011
Figure FDA0003458438380000012
Figure FDA0003458438380000013
Figure FDA0003458438380000014
Figure FDA0003458438380000015
其中,lat是纬度数据,lon是经度数据,V是坐标向量,Angle是A、B两坐标向量之间的向量夹角,Rearth是地球半径,i是坡度,θ是坡度角,h是邻点海拔差,Dbet是邻点距离,K是曲率,ρ是地图道路轨迹的曲率半径,y是经坐标点拟合的二次函数。
3.根据权利要求1所述的混合动力汽车控制方法,其特征在于,步骤S2中,根据车辆过弯时受力分析,得到能够保证车辆始终安全行驶在车道内的曲线速度v与重力加速度g、车道曲线半径Rroad即地图道路轨迹的曲率半径ρ,以及路面倾角
Figure FDA0003458438380000026
的关系为:
Figure FDA0003458438380000021
其中,v是车辆行驶速度,即车道内的曲线速度。
4.根据权利要求1所述的混合动力汽车控制方法,其特征在于,步骤S3中,建立车身模型与混合动力系统模型,具体包括以下步骤:
S31:通过三维建模软件CATIA建立整车车身模型并测量不同角度的车身表面积;
S32:根据动力学分析,在行驶时的整车受力与混合动力系统功率平衡关系如下;
Figure FDA0003458438380000022
Figure FDA0003458438380000023
其中,Ff是滚动阻力,Fw是空气阻力,Fi是坡度阻力,Fj是加速阻力,g是重力加速度,f是滚动阻力系数,θ是道路坡度角,ρair是空气密度,CD是空气阻力系数,Acar是迎风面积,ur是相对速度,δ是汽车旋转质量换算系数,mcar是整车质量,acc是加速度,Pdemand表示需求功率,ηT表示机械传动效率,Peng是发动机功率,Pmg是电动机功率;
S33:采用准静态map图方式建立发动机油耗模型、发动机效率模型以及电机效率模型,通过基于内阻的一阶等效电路模型表示锂离子动力电池组的电池电荷状态变化;
Figure FDA0003458438380000024
其中,
Figure FDA0003458438380000025
是锂离子动力电池组的电池电荷状态变化,Voc是开路电压,Rint是电池内阻,Pbatt表示电池功率,Qbatt表示电池标称容量。
5.根据权利要求1所述的混合动力汽车控制方法,其特征在于,步骤S4中,车辆转向控制影响分析,具体包括以下步骤:
S41:结合当前车辆行驶方向与实时风向,确定整车迎风面面积Acar,再根据当前风速与车速确定相对行驶速度ur,由此计算对整车所受空气阻力Fw以及需求功率的变化;
S42:融合车载感知与路段感知信息对前方道路转向角进行检测,修正车道级高精地图的曲率数据误差,保证车辆安全平稳地行驶在车道线范围之内。
6.根据权利要求1所述的混合动力汽车控制方法,其特征在于,步骤S5中,建立基于深度确定性策略梯度的混合动力汽车控制策略训练模型,具体包括以下步骤:
S511:建立基于深度确定性策略梯度的混合动力汽车控制策略训练模型,实现智能体模块与环境模块的交互式学习模式,定义所有全连接型神经网络均在三层结构且每层均包含100个神经元,定义算法的超参数并且初始化经验池容量与神经网络参数;
S512:混合动力汽车集成控制策略包含四种控制对象:加速度、转向角、变速器传动比以及发动机功率;针对以上控制目标设计的状态空间S、动作空间A与奖励函数R定义如下:
①车辆加速度控制策略
SAcc=(VelReal,VelTarget,ΔVel)
AAcc=Acc=[-1.5m/s2,1.5m/s2]
RAcc=-1×(VelReal-VelTarget)2
其中,VelReal是实时速度,VelTarget是规划速度,ΔVel是速度差,动作Acc是加速度;
②车辆转向角控制策略
SSte=(AngleReal,AngleTarget,ΔAngle)
ASte=ΔSte=[-15°,15°]
RSte=-1×(AngleReal-Angletarget)2
其中,AngleReal是实时转角,AngleTarget是道路角度,ΔAngle是角度差,动作ΔSte是转角变化量;
③变速器传动比控制策略
SCVT=(VelReal,Acc,RatioCVT,θ)
ACVT=ΔRatioCVT=[-0.5,0.5]
RCVT=-1×(RatioCVT-RatioTarget)2
其中,RatioCVT是CVT实时传动比,θ是道路坡度角,RatioTarget是参考传动比,动作ΔRatioCVT是CVT传动比变化量;
④发动机功率控制策略
Seng=(VelReal,Acc,soc,Peng)
Aeng=ΔPeng=[-5kW,5kW]
Figure FDA0003458438380000031
其中,α、β与σ是三个优化项的权重系数,soc是电池电荷状态,soctarget是目标电荷状态,Peng是发动机功率,
Figure FDA0003458438380000032
是瞬时油耗,Teng是发动机转矩,Neng是发动机转速,ηeng是发动机效率,动作ΔPeng是发动机功率变化量。
7.根据权利要求1所述的混合动力汽车控制方法,其特征在于,步骤S5中,训练基于深度确定性策略梯度的混合动力汽车控制策略训练模型,具体包括以下步骤:
S521:采用阶梯式学习方法对混合动力汽车控制策略进行迭代试错式训练,当所有控制策略的总累计奖励轨迹保持稳定的收敛状态后训练结束;
S522:在训练过程中当需要更新DDPG算法的神经网络时,采用从经验池中随机小批量抽取的方式选择训练样本,并且按照如下公式分别对在线评论家网络、在线演员网络、目标评论家网络以及目标演员网络参数进行实时软更新;
Figure FDA0003458438380000041
Figure FDA0003458438380000042
Figure FDA0003458438380000043
Figure FDA0003458438380000044
Figure FDA0003458438380000045
其中,N是小批量样本数,i是小批量训练样本的序列号,
Figure FDA0003458438380000046
是在线演员网络参数,
Figure FDA0003458438380000047
是目标演员网络参数,
Figure FDA0003458438380000048
是在线评论家网络参数,
Figure FDA0003458438380000049
是目标评论家网络参数,k是学习率,v是跟踪率,s是状态,a是动作,r是奖励,t是时间,γ是折扣因子,
Figure FDA00034584383800000410
是目标动作值,
Figure FDA00034584383800000411
是预测动作值,也是折扣未来累计奖励的期望值,s′表示下一时刻状态,a′表示下一时刻动作,LQ是用于更新在线评论家网络的损失函数,
Figure FDA00034584383800000412
表示目标演员网络当前拟合的控制策略,
Figure FDA00034584383800000413
是评论家网络更新梯度,
Figure FDA00034584383800000414
是演员网络的更新梯度,
Figure FDA00034584383800000415
是动作值函数对在线演员网络参数的更新梯度,
Figure FDA00034584383800000416
是策略梯度,
Figure FDA00034584383800000417
表示期望值,J是目标函数。
8.根据权利要求1所述的混合动力汽车控制方法,其特征在于,该方法还包括步骤S6,在训练结束后,保存用于拟合四种控制策略的神经网络文件,随后加载到边缘设备NVIDIAJetson AGX Xavier进行测试与验证,最终对整车实现边缘计算与边缘控制。
CN202210009502.5A 2022-01-06 2022-01-06 基于地图数据的深度强化学习型混合动力汽车控制方法 Pending CN114312845A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210009502.5A CN114312845A (zh) 2022-01-06 2022-01-06 基于地图数据的深度强化学习型混合动力汽车控制方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210009502.5A CN114312845A (zh) 2022-01-06 2022-01-06 基于地图数据的深度强化学习型混合动力汽车控制方法

Publications (1)

Publication Number Publication Date
CN114312845A true CN114312845A (zh) 2022-04-12

Family

ID=81025658

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210009502.5A Pending CN114312845A (zh) 2022-01-06 2022-01-06 基于地图数据的深度强化学习型混合动力汽车控制方法

Country Status (1)

Country Link
CN (1) CN114312845A (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115424429A (zh) * 2022-08-30 2022-12-02 浙江绿色慧联有限公司 基于深度强化学习的eco-cacc控制方法及系统
CN115632179A (zh) * 2022-12-20 2023-01-20 国网天津市电力公司电力科学研究院 一种锂离子电池智能快速充电方法及系统
CN115793445A (zh) * 2022-11-16 2023-03-14 重庆大学 一种基于多智能体深度强化学习的混合动力汽车控制方法
CN116108720A (zh) * 2023-02-17 2023-05-12 国家海洋环境预报中心 基于scvt网格的海浪数值模式的海浪预报方法及系统
WO2024022141A1 (zh) * 2022-07-28 2024-02-01 乾碳国际公司 智能多模混动总成及智能网联电动重卡

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2024022141A1 (zh) * 2022-07-28 2024-02-01 乾碳国际公司 智能多模混动总成及智能网联电动重卡
CN115424429A (zh) * 2022-08-30 2022-12-02 浙江绿色慧联有限公司 基于深度强化学习的eco-cacc控制方法及系统
CN115793445A (zh) * 2022-11-16 2023-03-14 重庆大学 一种基于多智能体深度强化学习的混合动力汽车控制方法
CN115793445B (zh) * 2022-11-16 2023-09-05 重庆大学 一种基于多智能体深度强化学习的混合动力汽车控制方法
CN115632179A (zh) * 2022-12-20 2023-01-20 国网天津市电力公司电力科学研究院 一种锂离子电池智能快速充电方法及系统
CN116108720A (zh) * 2023-02-17 2023-05-12 国家海洋环境预报中心 基于scvt网格的海浪数值模式的海浪预报方法及系统
CN116108720B (zh) * 2023-02-17 2023-08-25 国家海洋环境预报中心 基于scvt网格的海浪数值模式的海浪预报方法及系统

Similar Documents

Publication Publication Date Title
CN110696815B (zh) 一种网联式混合动力汽车的预测能量管理方法
CN114312845A (zh) 基于地图数据的深度强化学习型混合动力汽车控制方法
Sciarretta et al. Energy-efficient driving of road vehicles
WO2021103625A1 (zh) 一种基于前车与自车互动的短期车速工况实时预测方法
CN105216782B (zh) 基于能量预测的插电式混合动力汽车能量管理方法
CN103863318B (zh) 一种基于跟车模型的混合动力汽车节能预测控制方法
CN107284441A (zh) 实时工况自适应的插电式混合动力汽车能量优化管理方法
Wang et al. Research on speed optimization strategy of hybrid electric vehicle queue based on particle swarm optimization
Panday et al. Energy management strategy implementation for hybrid electric vehicles using genetic algorithm tuned Pontryagin’s minimum principle controller
CN115158094A (zh) 基于长短期soc规划的插电式混合动力汽车能量管理方法
Shi et al. Multi-objective tradeoff optimization of predictive adaptive cruising control for autonomous electric buses: A cyber-physical-energy system approach
CN113135113B (zh) 一种全局soc规划方法及装置
Yu et al. Model predictive control of hybrid electric vehicles for improved fuel economy
Guo et al. Self-learning enhanced energy management for plug-in hybrid electric bus with a target preview based SOC plan method
Daoud et al. Path-following and adjustable driving behavior of autonomous vehicles using dual-objective nonlinear MPC
Guo et al. Deep reinforcement learning-based hierarchical energy control strategy of a platoon of connected hybrid electric vehicles through cloud platform
Xia et al. A predictive energy management strategy for multi-mode plug-in hybrid electric vehicle based on long short-term memory neural network
CN115534929A (zh) 基于多元信息融合的插电式混合动力汽车能量管理方法
Wang et al. Ecological cruising control of connected electric vehicle: a deep reinforcement learning approach
Chen et al. Deep reinforcement learning-based integrated control of hybrid electric vehicles driven by lane-level high definition map
Huang et al. Energy saving performance improvement of intelligent connected PHEVs via NN-based lane change decision
Zhang et al. A Novel Model Predictive Control Based Co-Optimization Strategy for Velocity Planning and Energy Management of Intelligent PHEVs
Xue et al. Predictive hierarchical eco-driving control involving speed planning and energy management for connected plug-in hybrid electric vehicles
Li et al. A comparative study of energy-oriented driving strategy for connected electric vehicles on freeways with varying slopes
CN112124298B (zh) 一种基于快速求解算法的混合动力车辆跟车巡航能量管理方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination