CN114312845A

CN114312845A - 基于地图数据的深度强化学习型混合动力汽车控制方法

Info

Publication number: CN114312845A
Application number: CN202210009502.5A
Authority: CN
Inventors: 唐小林; 陈佳信; 杨凯; 邓忠伟; 杨为; 胡晓松; 李佳承
Original assignee: Chongqing University
Current assignee: Chongqing University
Priority date: 2022-01-06
Filing date: 2022-01-06
Publication date: 2022-04-12

Abstract

本发明涉及一种基于地图数据的深度强化学习型混合动力汽车控制方法，属于新能源汽车与智能网联汽车的交叉领域。该方法包括：处理地图数据，建立环境模型；预规划目标速度轨迹；建立车身模型与混合动力系统模型，根据整车动力学对行驶过程进行受力分析并且确定混合动力系统功率平衡关系；车辆转向控制影响分析；建立基于深度确定性策略梯度的混合动力汽车控制策略训练模型，以整车的加速度与转向角以及混合动力系统的发动机与变速器为控制对象，建立控制策略的状态空间、动作空间以及奖励函数，并且进行阶梯式迭代训练过程。本发明能实现混合动力汽车的智能网联化自动驾驶。

Description

基于地图数据的深度强化学习型混合动力汽车控制方法

技术领域

本发明属于新能源汽车与智能网联汽车的交叉领域，涉及一种基于地图数据的深度强化学习型混合动力汽车控制方法。

背景技术

随着汽车工业向智能化、网联化与新能源化的发展。一方面，作为解决目前单车自动驾驶的有效途径，基于信息与通讯技术的智能网联汽车实现了人、车、路、云等的信息交换与信息共享。通过车辆、交通基础设施、通信技术与计算服务等核心领域的技术研发，促进了智能网联汽车与智能交通系统的协同发展。另一方面，车辆动力系统的新能源化，能够对全球的气候条件与能源结构做出重大调整。纯电动汽车、混合动力汽与燃料电池汽车作为三类代表性产品，未来将占据市场的主要份额。相比之下，混合动力汽车拥有更加成熟的技术条件。以常见的油电混动系统为例，在电机的辅助作用下，不但可以改善发动机运行条件、优化油耗与排放，还能够通过再生制动模式回收多余的能量。同时，在拥堵工况下切换纯电动模式可以避免发动机的频繁启停以及相应的油耗代价。

混合动力汽车的研发路线包括构型筛选、参数匹配与能量管理。前两者需要根据实际的应用条件对混合动力系统部件参数进行筛选与优化，而能量管理策略需要在满足整车需求功率与系统约束的条件下，通过合理分配混合动力系统的功率流，实现最佳的燃油经济性与驾乘舒适性等。在智能网联的发展背景下，混合动力汽车能量管理需要结合更多的环境信息对控制策略进行不断地完善与优化，并且未来混合动力汽车同样可以实现智能网联化自动驾驶。

因此，亟需一种新的混合动力汽车控制方法来解决上述问题。

发明内容

有鉴于此，本发明的目的在于提供一种基于地图数据的深度强化学习型混合动力汽车控制方法，针对智能网联型混合动力汽车，结合车道级高精度地图以及深度强化学习算法，实现混合动力汽车的智能网联化自动驾驶。为达到上述目的，本发明提供如下技术方案：

一种基于地图数据的深度强化学习型混合动力汽车控制方法，具体包括以下步骤：

S1：处理地图数据，建立环境模型：通过车道级高精地图确定车辆行驶起点与目标终点间的最优路径方案，提取目标路径的经纬度与海拔数据进行处理，获取全程路径的行驶里程、坡度角、车道曲率与转向度数等信息；

S2：预规划目标速度轨迹：以驾驶舒适性为优化目标规划全程车速，通过当前路段的交通管理信息，在非转角时刻以道路最高限速行驶，而在转角时刻以安全过弯速度行驶；

S3：基于CATIA建立车身模型与基于Python建立混合动力系统模型，根据整车动力学对行驶过程进行受力分析并且确定混合动力系统功率平衡关系；

S4：车辆转向控制影响分析：结合车辆定位与气象信息，通过车路融合感知修正车道级高精地图的道路曲率误差，同时在掌握实时风向风速的情况下确定车辆迎风面面积与空气阻力变化情况；

S5：建立基于深度确定性策略梯度(DDPG)的混合动力汽车控制策略训练模型，以整车的加速度与转向角以及混合动力系统的发动机与变速器为控制对象，分别设计用于学习四种控制策略的状态空间、动作空间以及奖励函数，并且进行阶梯式迭代训练过程；

S6：在训练结束后，保存用于拟合四种控制策略的神经网络文件，随后加载到边缘设备 NVIDIA Jetson AGX Xavier进行测试与验证，最终对整车实现边缘计算与边缘控制。

进一步，步骤S1中，计算车道曲率：首先对相邻三个坐标点进行二次拟合，然后依据曲率公式确定中点的曲率与曲率半径；

其中，lat是纬度数据，lon是经度数据，V是坐标向量，Angle是A、B两坐标向量之间的向量夹角，R_earth是地球半径，i是坡度，θ是坡度角，h是邻点海拔差，D_bet是邻点距离，K 是曲率，ρ是地图道路轨迹的曲率半径，y是经坐标点拟合的二次函数；

进一步，步骤S2中，根据车辆过弯时受力分析，得到能够保证车辆始终安全行驶在车道内的曲线速度v与重力加速度g、车道曲线半径R_road即地图道路轨迹的曲率半径ρ，以及路面倾角

的关系为：

其中，v是车辆行驶速度，即车道内的曲线速度。

进一步，步骤S3中，建立车身模型与混合动力系统模型，具体包括以下步骤：

S31：通过三维建模软件CATIA建立整车车身模型并测量不同角度的车身表面积；

S32：根据动力学分析，在行驶时的整车受力与混合动力系统功率平衡关系如下；

其中，F_f是滚动阻力，F_w是空气阻力，F_i是坡度阻力，F_j是加速阻力，g是重力加速度， f是滚动阻力系数，θ是道路坡度角，ρ_air是空气密度，C_D是空气阻力系数，A_car是迎风面积， u_r是相对速度，δ是汽车旋转质量换算系数，m_car是整车质量，acc是加速度，P_demand表示需求功率，η_T表示机械传动效率，P_eng是发动机功率，P_mg是电动机功率；

S33：采用准静态map图方式建立发动机油耗模型、发动机效率模型以及电机效率模型，通过基于内阻的一阶等效电路模型表示锂离子动力电池组的电池电荷状态变化；

其中，

是锂离子动力电池组的电池电荷状态变化，V_oc是开路电压，R_int是电池内阻， P_batt表示电池功率，Q_batt表示电池标称容量。

进一步，步骤S4中，车辆转向控制影响分析，具体包括以下步骤：

S41：结合当前车辆行驶方向与实时风向，确定整车迎风面面积A_car，再根据当前风速与车速确定相对行驶速度u_r，由此计算对整车所受空气阻力F_w以及需求功率的变化；

S42：融合车载感知与路段感知信息对前方道路转向角进行检测，修正车道级高精地图的曲率数据误差，保证车辆安全平稳地行驶在车道线范围之内。

进一步，步骤S5中，建立基于深度确定性策略梯度(DDPG)的混合动力汽车控制策略训练模型，具体包括以下步骤：

S511：建立基于深度确定性策略梯度(DDPG)的混合动力汽车控制策略训练模型，实现智能体模块与环境模块的交互式学习模式，定义所有全连接型神经网络均在三层结构且每层均包含100个神经元，定义算法的超参数并且初始化经验池容量与神经网络参数；

S512：混合动力汽车集成控制策略包含四种控制对象：加速度、转向角、变速器传动比以及发动机功率；针对以上控制目标设计的状态空间S、动作空间A与奖励函数R定义如下：

①车辆加速度控制策略

S_Acc＝(Vel_Real,Vel_Target,ΔVel)

A_Acc＝Acc＝[-1.5m/s²,1.5m/s²]

R_Acc＝-1×(Vel_Real-Vel_Target)²

其中，Vel_Real是实时速度，Vel_Target是规划速度，ΔVel是速度差，动作Acc是加速度；

②车辆转向角控制策略

S_Ste＝(Angle_Real,Angle_Target,ΔAngle)

A_Ste＝ΔSte＝[-15°,15°]

R_Ste＝-1×(Angle_Real-Angle_target)²

其中，Angle_Real是实时转角，Angle_Target是道路转角，ΔAngle是角度差，动作ΔSte是转向角变化量；

③变速器传动比控制策略

S_CVT＝(Vel_Real,Acc,Ratio_CVT,θ)

A_CVT＝ΔRatio_CVT＝[-0.5,0.5]

R_CVT＝-1×(Ratio_CVT-Ratio_Target)²

其中，Ratio_CVT是CVT实时传动比，θ是道路坡度角，Ratio_Target是参考传动比，动作ΔRatio_CVT是CVT传动比变化量；

④发动机功率控制策略

S_eng＝(Vel_Real,Acc,soc,P_eng)

A_eng＝ΔP_eng＝[-5kW,5kW]

其中，α、β与σ是三个优化项的权重系数，soc是电池电荷状态，soc_target是目标电荷状态 (非插电式混合动力汽车目标电荷为初始电荷状态)，P_eng是发动机功率，

是瞬时油耗， T_eng是发动机转矩，N_eng是发动机转速，η_eng是发动机效率，动作ΔP_eng是发动机功率变化量。

进一步，步骤S5中，训练基于深度确定性策略梯度(DDPG)的混合动力汽车控制策略训练模型，具体包括以下步骤：

S521：采用阶梯式学习方法对混合动力汽车控制策略进行迭代试错式训练，当所有控制策略的总累计奖励轨迹保持稳定的收敛状态后训练结束；

S522：在训练过程中当需要更新DDPG算法的神经网络时，采用从经验池中随机小批量抽取的方式选择训练样本，并且按照如下公式分别对在线评论家网络、在线演员网络、目标评论家网络以及目标演员网络参数进行实时软更新；

其中，N是小批量样本数，i是小批量训练样本的序列号，

是在线演员网络参数，

是目标演员网络参数，

是在线评论家网络参数，

是目标评论家网络参数，k是学习率，τ是跟踪率，s是状态，a是动作，r是奖励，t是时间，γ是折扣因子，

是目标动作值，

是预测动作值，也是折扣未来累计奖励的期望值，s′表示下一时刻状态， a′表示下一时刻动作，L_Q是用于更新在线评论家网络的损失函数，

表示目标演员网络当前拟合的控制策略，

是评论家网络更新梯度，

是演员网络的更新梯度，

是动作值函数对在线演员网络参数的更新梯度，

是策略梯度，

表示期望值，J是目标函数。

本发明的有益效果在于：本发明将车辆工程领域的新能源化与智能网络化相结合，实现了隶属于新能源类型的混合动力汽车在网联环境下以车道级高精度地图数据为驱动的智能化自动驾驶。本发明方法具体是通过目标路径的交通全要素数字映射，实现从整车层的加速度、转向角到混合动力系统层的变速器传动比、发动机功率的综合控制。

本发明的其他优点、目标和特征在某种程度上将在随后的说明书中进行阐述，并且在某种程度上，基于对下文的考察研究对本领域技术人员而言将是显而易见的，或者可以从本发明的实践中得到教导。本发明的目标和其他优点可以通过下面的说明书来实现和获得。

附图说明

为了使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明作优选的详细描述，其中：

图1是本发明基于地图数据的深度强化学习型混合动力汽车控制方法流程图；

图2是混合动力系统结构图；

图3是CATIA车身建模与不同角度下迎风面面积变化示意图；

图4是深度确定性策略梯度算法框架图；

图5是总累计奖励变化轨迹示意图；

图6是速度轨迹示意图；

图7是转向角控制及迎风面面积变化关系图；

图8是功率分配图；

图9是SOC轨迹示意图；

图10是CVT传动比序列及发动机转速示意图；

图11是四种能量管理策略的发动机工作点分布图。

具体实施方式

以下通过特定的具体实例说明本发明的实施方式，本领域技术人员可由本说明书所揭露的内容轻易地了解本发明的其他优点与功效。本发明还可以通过另外不同的具体实施方式加以实施或应用，本说明书中的各项细节也可以基于不同观点与应用，在没有背离本发明的精神下进行各种修饰或改变。需要说明的是，以下实施例中所提供的图示仅以示意方式说明本发明的基本构想，在不冲突的情况下，以下实施例及实施例中的特征可以相互组合。

请参阅图1～图11，图1为一种基于地图数据的深度强化学习型混合动力汽车控制方法流程图，该方法具体包括以下步骤：

S1：通过车道级高精地图确定行驶起点与终点间的最优路径方案，提取目标路径的经纬度与海拔数据进行处理，获取全程路径的行驶里程、坡度角、车道曲率与转向度数等信息。

步骤S1中，处理地图数据与建立环境模型按照如下方法进行：

S11：根据目标起点与目标终点，由车道级高精地图规划最优路径方案；

S12：车道级高精地图提供目标路径的经纬度与海拔数据，针对目标路径进行数据处理，根据以下公式获取行驶里程、坡度角、车道曲率与转向度数等关键信息。其中，道路曲率的计算首先对相邻三个坐标点进行二次拟合，然后依据曲率公式确定中点的曲率与曲率半径。

S13：基于以上数据信息，建立目标路径的参数化道路环境模型。

S2：以驾驶舒适性为优化目标规划全程车速，通过当前路段的交通管理信息，在非转角时刻以道路最高限速行驶，而在转角时刻以安全过弯速度行驶。

步骤S2中，规划目标速度轨迹按照如下方法进行：

S21：根据车辆过弯时受力分析可知，能够保证始终安全行驶在车道内的曲线速度v与重力加速度g、车道曲线半径R_road(即曲率半径ρ)及路面倾角

直接相关。

其中，v是车辆行驶速度。

S22：在掌握当前车道的限速标准与车辆过弯的安全速度后，以驾乘舒适性为指标，定义车辆全程的加速度与减速度均保持为1.5m/s²，由此预先规划全程速度轨迹。

S3：基于CATIA建立车身模型与基于Python建立混合动力系统模型，根据整车动力学对行驶过程进行受力分析并且确定混合动力系统功率平衡关系。

步骤S3中，车身与动力系统建模按照如下方法进行：

通过图3所示的由CATIA建立的整车车身模型可知，行驶角度的变化可引起车身迎风面积的显著改变，车身模型不同角度下迎风面面积的变化趋势。

S33：采用准静态map图方式建立发动机油耗模型、发动机效率模型以及电机效率模型，通过基于内阻的一阶等效电路模型表示锂离子动力电池组的电池电荷状态变化

其中，

S4：结合车辆定位与气象信息，通过车路融合感知修正车道级高精地图的道路曲率误差，同时在掌握实时风向风速的情况下确定车辆迎风面面积与空气阻力变化情况。

步骤S4中，车辆转向控制影响分析按照如下方法进行：

S41：当控制车辆转向角时结合气象条件所提供的实时风向与风速，由当前车辆行驶方向与实时风向确定实际迎风面面积A_car，再根据风速与车速确定相对速度u_r，由此计算对整车所受空气阻力F_w以及需求功率的变化进行精确计算；

S5：建立基于深度确定性策略梯度(DDPG)的混合动力汽车控制策略训练框架(如图4 所示)，以整车的加速度与转向角以及混合动力系统的发动机与变速器为控制对象，分别设计用于学习四种控制策略的状态空间、动作空间与奖励函数，并且进行阶梯式迭代训练过程。

步骤S5中，所述集成控制策略训练方案按照如下方法进行：

S51：建立基于深度确定性策略梯度(DDPG)的混合动力汽车控制策略训练框架，实现智能体模块与环境模块的交互式学习模式，定义所有全连接型神经网络均在三层结构且每层均包含100个神经元，定义算法的超参数并且初始化经验池容量与神经网络参数；

S52：混合动力汽车集成控制策略包含四种控制对象：加速度、转向角、变速器传动比以及发动机功率。针对以上控制目标设计的状态空间S、动作空间A与奖励函数R定义如下：

①车辆加速度控制策略

S_Acc＝(Vel_Real,Vel_Target,ΔVel)

A_Acc＝Acc＝[-1.5m/s²,1.5m/s²]

R_Acc＝-1×(Vel_Real-Vel_Target)²

②车辆转向角控制策略

S_Ste＝(Angle_Real,Angle_Target,ΔAngle)

A_Ste＝ΔSte＝[-15°,15°]

R_Ste＝-1×(Angle_Real-Angle_target)²

③变速器传动比控制策略

S_CVT＝(Vel_Real,Acc,Ratio_CVT,θ)

A_CVT＝ΔRatio_CVT＝[-0.5,0.5]

R_CVT＝-1×(Ratio_CVT-Ratio_Target)²

④发动机功率控制策略

S_eng＝(Vel_Real,Acc,soc,P_eng)

A_eng＝ΔP_eng＝[-5kW,5kW]

S53：采用阶梯式学习方法对混合动力汽车控制策略进行迭代试错式训练，当所有控制策略的总累计奖励轨迹保持稳定的收敛状态后训练结束；

S54：在训练过程中当需要更新DDPG算法的神经网络时，采用从经验池中随机小批量抽取的方式选择训练样本，并且按照如下公式分别对在线评论家网络、在线演员网络、目标评论家网络以及目标演员网络参数进行实时软更新；

其中，N是小批量样本数，i是小批量训练样本的序列号，

是在线演员网络参数，

是目标演员网络参数，

是在线评论家网络参数，

是目标动作值，

表示目标演员网络当前拟合的控制策略，

是评论家网络更新梯度，

是演员网络的更新梯度，

是动作值函数对在线演员网络参数的更新梯度，

是策略梯度，

表示期望值，J是目标函数。

S6：在训练结束后，保存用于拟合四种控制策略的神经网络文件，随后加载到边缘设备 NVIDIA Jetson AGX Xavier进行测试与验证控制策略的有效性、优化性与实时性等关键指标，最终对整车实现边缘计算与边缘控制。

验证实验

1、实验设置

首先，基于深度强化学习的混合动力汽车集成控制策略将在搭载I7-10700K CPU处理器的计算机上进行为期400个回合的迭代试错式离线训练，并在训练结束后将用于拟合控制策略的所有神经网络参数文件进行保存，以备之后的处理器在环测试。

其次，设置了三种用于对比的能量管理策略，命名方案与具体设置如表1所示。三种控制策略以基础算法(DP与Q-Learning)及发动机控制对象(节气门开度与发动机功率变化量) 的不同，与本发明所提出的集成控制策略从燃油经济性与计算效率等方面进行全面对比。

表1能量管理策略对比方案设置

^aT表示控制对象为节气门开度；^b△表示控制对象为发动机功率变化量。

最后，通过基于NVIDIA Jetson AGX Xavier边缘设备的嵌入式处理器在环实验对集成控制策略的实时性进行测试。NVIDIA Jetson AGX Xavier模块在边缘云能提供高级别的计算能效以及推理能力。在嵌入式应用领域，通过CPU、GPU与深度学习加速器等硬件的作用下，可以实现每秒32万亿次运算的峰值计算能力和750Gbps的高速I/O性能，有助于训练与部署神经网络，并且能够高效运行视觉测距、路径规划等智能算法。在接通电源后，通过显示器、鼠标键盘以及HDMI视频线与模组相连并完成测试。

2、离线训练

深度强化学习的训练目标是将累计奖励最大化，因此训练完成的标志就是总累计奖励或损失值已经保持稳定的收敛状态。在基于深度强化学习的混合动力汽车集成控制策略中，需要同时控制整车的加速度与转向角以及混合动力系统的发动机与变速器。但是在训练阶段需要注意的是，当加速度与转向角控制效果未处于稳定状态之前，需求功率以及速度轨迹的随机波动将直接干扰后续混合动力系统的控制策略。也就是说，当上层控制策略的随机波动将导致下层策略均处于无效学习环境。因此，本发明在实际的离线训练中采用了阶梯式训练方法，总累计奖励变化轨迹如图5所示。

在前100个迭代回合，只有加速度与转向角的控制策略保持学习更新状态，而发动机与变速器的控制策略均处于随机波动阶段。在上层策略稳定后，整车的速度轨迹与需求功率也保持相对的稳定，而基于深度强化学习的CVT传动比控制策略在第100个回合正式开始学习更新，而发动机功率控制策略则在第200个回合开始更新。通过累计400个迭代训练过程，四种控制策略的总奖励均保持稳定收敛状态。其中，发动机功率控制策略的奖励函数中由于存在SOC偏差的优化项，因此相对而言累计奖励的轨迹波动更加剧烈。

3、处理器在环测试结果

整车加速度与转向角控制结果如图6～图7所示。在通过车道级地图获取目标路径的具体数据以及交通限速信息后，即可通过预规划的目标车速以及车道角度为基于深度强化学习的控制策略提供数据参考。图6所示速度轨迹表示深度强化学习能够将车辆的实时速度有效地维持在目标车速附近，并且当遇到转角后需要车速大幅变化时也能够取得良好的控制效果。图7所示为转向控制结果分别包括了车道角度、目标转向轮角度、实时转向轮角度以及车身实时的迎风面面积变化。通过高精地图能够获取车道级地图数据，并利用车路融合感知技术能够将车道线的实时曲率变化掌握得更加精确。以车道角度作为车身的需求转角，智能网联汽车的转向轮实时转向角就需要根据轴距等整车参数进行转换，由此才能确定转向轮的调整角度。结果显示，以正东方向为0度角。深度强化学习能够以有效的控制行为保持实时转角与车道角度的近似吻合。同时，车辆迎风面面积也随着转向控制产生了明显变化。此时，速度轨迹、迎风面面积对后续以需求功率为基础数据信息的能量管理策略将产生重要的影响。

以并联式混合动力系统为环境的能量管理策略控制结果包括需求功率与功率流分配结果 (图8)、SOC轨迹(图9)、CVT换挡序列(图10)以及发动机工作点(图11)。

由于非插电式混合动力汽车不能连接外部充电设备，因此在消耗电能后恢复SOC状态的能量均来自于发动机或者再生制动。同时，在经过长时间的驾驶后依旧要求电池SOC能够维持在初始值附近。图9所示四种能量管理策略的SOC轨迹均能满足以上要求，并且SOC始终维持在预定义阈值范围内，但是根据图8所示的需求功率在行程结束前存在较大需求功率现象，因此四种控制策略的终值SOC下降至0.55附件。结合SOC轨迹与功率分配情况可知，在四种类型的能量管理策略中，在绝大多数的运行时间段内车辆均处于混合驱动模式，发动机稳定输出驱动功率，而电机则主要承担着功率补偿以及回收能量的作用。

结合图10所示CVT换挡序列以及图11所示发动机工作点的结果分析可知，以 DP(T)/DP-based EMS的CVT换挡结果为参考序列时，基于DRL的CVT传动比控制策略取得了理想的学习效果，无论CVT传动比序列还是发动机转速，两种结果均保持近似的变化状态。此外，由发动机工作点分布可以发现由于车辆长期处于120km/h的行驶速度，四种控制策略的工作点均较为集中1500r/min的附近。但是，以节气门为控制对象的 DP(T)/DP-based EMS同时存在着大量工作点集中在高效率区，从而应对大需求功率的驾驶场景，而在低转速低转矩的区域分布较少。因此，该类型策略存在更多转矩突变的不良现象。图11(b～d)所示发动机工作点的总体变化趋势具有更好的连续性。与此同时，两种学习型能量管理策略的发动机工作点分布范围更加广泛，由此来补偿需要发动机大功率输出的时刻。

四种能量管理策略的数据结果如表2所示。根据基础算法、换挡策略以及发动机控制对象的不同，燃油经济性与计算效率均呈现显著差异。两种基于DP的控制策略分别取得了 6738.37g(5.39L/100km)与5711.05g(5.37L/100km)的燃油消耗量，但是根据计算时间可以发现，由于变量维度以及离散度过大，运行过程分别消耗2171.8s与73496.12s，因此基于DP的能量管理策略虽然能够取得理论最优的燃油经济性，但是该结果只存在作为基准的对比意义。相比之下，基于RL的控制策略在实现近优燃油经济性的同时也取得了杰出的控制效率，两种学习型能量管理策略分别取得了7275.30g(5.82L/100km)与6907.69g(5.53L/100km)的燃油消耗量。需要特别注的是，在变量空间仅包含一种状态与一种动作的条件下，基于QL的能量管理策略在高性能计算机上运行一次全程速度轨迹所消耗的时间为7.32s，而基于DRL的能量管理策略具有14个的状态变量与4个的动作变量，在NVIDIA Jetson AGXXavier边缘设备进行的处理器在环测试仅消耗了104.14s。

表2能量管理策略结果对比

综合上述分析可知，深度强化学习算法在混合动力汽车能量管理策略领域具有显著的应用潜力，能够确保学习型控制策略的优化性与实时性。

本发明在智能网联汽车云控系统的背景下，以资源平台的高精度、增强定位、气象条件等信息为基础搭建了环境模型，即本发明提出的基于深度学习的混合动力汽车集成控制策略，利用了DDPG算法控制整车层的加速度与转向角以及DQN算法控制混合动力系统层的CVT 传动比与发动机功率。通过基于NVIDIA Jetson AGX Xavier边缘设备进行的处理器在环测试结果分析，在对整车速度与转向角实现有效控制的同时取得了6907.69g(5.53L/100km)的燃油消耗量，并且涉及14个状态变量与4个控制变量的条件下，运行一次5158s的行驶工况仅消耗104.14s的计算时间，充分验证了本发明所提深度强化学习型集成控制的控制性能、优化效果与计算效率。

由结果分析可知，基于DRL的CVT传动比控制策略取得了理想的控制效果，能够将发动机的工作转速维持在合理范围内。此外，由于车辆长期处于120km/h的行驶速度，发动机工作点均较为集中1500r/min的附近，同时以功率变化量为控制目标时，让发动机工作性能具有更好的连续性。

最后说明的是，以上实施例仅用以说明本发明的技术方案而非限制，尽管参照较佳实施例对本发明进行了详细说明，本领域的普通技术人员应当理解，可以对本发明的技术方案进行修改或者等同替换，而不脱离本技术方案的宗旨和范围，其均应涵盖在本发明的权利要求范围当中。

Claims

1.一种基于地图数据的深度强化学习型混合动力汽车控制方法，其特征在于，该方法具体包括以下步骤：

S1：处理地图数据，建立环境模型：通过车道级地图确定车辆行驶起点与目标终点间的最优路径方案，提取目标路径的经纬度与海拔数据进行处理，获取全程路径的行驶里程、坡度角、车道曲率与转向度数；

S2：预规划目标速度轨迹：以驾驶舒适性为优化目标规划全程车速，通过当前路段的交通管理信息，在非转角时刻以道路最高限速行驶，在转角时刻以安全过弯速度行驶；

S3：建立车身模型与混合动力系统模型，根据整车动力学对行驶过程进行受力分析并且确定混合动力系统功率平衡关系；

S5：建立基于深度确定性策略梯度的混合动力汽车控制策略训练模型，以整车的加速度与转向角以及混合动力系统的发动机与变速器为控制对象，建立控制策略的状态空间、动作空间以及奖励函数，并且进行阶梯式迭代训练过程。

2.根据权利要求1所述的混合动力汽车控制方法，其特征在于，步骤S1中，计算车道曲率：首先对相邻三个坐标点进行二次拟合，然后依据曲率公式确定中点的曲率与曲率半径；

其中，lat是纬度数据，lon是经度数据，V是坐标向量，Angle是A、B两坐标向量之间的向量夹角，R_earth是地球半径，i是坡度，θ是坡度角，h是邻点海拔差，D_bet是邻点距离，K是曲率，ρ是地图道路轨迹的曲率半径，y是经坐标点拟合的二次函数。

3.根据权利要求1所述的混合动力汽车控制方法，其特征在于，步骤S2中，根据车辆过弯时受力分析，得到能够保证车辆始终安全行驶在车道内的曲线速度v与重力加速度g、车道曲线半径R_road即地图道路轨迹的曲率半径ρ，以及路面倾角

的关系为：

其中，v是车辆行驶速度，即车道内的曲线速度。

4.根据权利要求1所述的混合动力汽车控制方法，其特征在于，步骤S3中，建立车身模型与混合动力系统模型，具体包括以下步骤：

其中，F_f是滚动阻力，F_w是空气阻力，F_i是坡度阻力，F_j是加速阻力，g是重力加速度，f是滚动阻力系数，θ是道路坡度角，ρ_air是空气密度，C_D是空气阻力系数，A_car是迎风面积，u_r是相对速度，δ是汽车旋转质量换算系数，m_car是整车质量，acc是加速度，P_demand表示需求功率，η_T表示机械传动效率，P_eng是发动机功率，P_mg是电动机功率；