CN115495997B

CN115495997B - 一种基于异构多智能体深度强化学习的新能源汽车生态驾驶方法

Info

Publication number: CN115495997B
Application number: CN202211334615.9A
Authority: CN
Inventors: 彭剑坤; 陈伟琪; 周嘉璇; 何洪文; 范毅; 魏中宝; 马春野
Original assignee: Southeast University
Current assignee: Southeast University
Priority date: 2022-10-28
Filing date: 2022-10-28
Publication date: 2024-01-30
Anticipated expiration: 2042-10-28
Also published as: CN115495997A

Abstract

本发明公开了一种基于异构多智能体深度强化学习的新能源汽车生态驾驶方法，针对串联式新能源汽车，基于多智能体深度确定性策略梯度算法，融合自适应巡航控制（ACC）和能量管理策略（EMS），开发了一种集成式的生态驾驶框架。主要步骤包括构建仿真环境，加载训练数据；构建两个智能体ACC和EMS，并搭建Actor、Critic网络及目标网络；训练生态驾驶策略，获得可继承的网络参数；加载网络参数至整车控制器，实现在线应用。本方法利用两个异构智能体解耦并优化不同领域的目标，避免权重不协调的负面影响；采用改进的优先经验回放技术，提高了算法的性能；对多种交通工况具有良好的适应性；在实现最佳跟驰性能的前提下降低了综合行驶成本。

Description

一种基于异构多智能体深度强化学习的新能源汽车生态驾驶方法

技术领域

本发明属于新能源汽车生态驾驶领域，具体涉及一种基于异构多智能体深度强化学习的新能源汽车生态驾驶方法。

背景技术

随着汽车保有量的增加，化石燃料危机和环境污染问题不断加剧，交通行业迫切需要探索节能减排的有效解决方案。车辆的技术和使用是影响车辆排放和油耗的两个主要因素，而具有内燃机和动力电池组双能源的新能源汽车(HEV)，相比于传统的燃油车具有碳排放量更少、燃油经济效益更高的优点，已经成为交通领域实现节能减排的首选方案。

生态驾驶(Eco-driving)是汽车的一种高级应用方式。在完成特定场景下交通任务的前提下，通过改善驾驶行为实现节油减排和维持HEV车载动力电池组健康，其节能潜力高达15％。可见，生态驱动在混合动力电动汽车中的应用对于节约能源和延长动力电池组寿命具有重要意义。

新能源汽车(HEV)作为一种重要的新能源汽车类型，其能量源包括化石燃料产生的热能和电池存储的电能两部分，能量管理策略目的是在车辆运行期间提高燃油经济性并维持电池电量状态。自适应巡航控制用于城市道路和高速公路的车辆巡航跟驰场景，目的在于提高跟驰车辆的运行效率和燃油经济性。当前，深度强化学习分别被用于能量管理策略的优化和巡航跟驰的动力学控制，但两者是针对同一问题的两个不同模型，时间和空间尺度上的维度不同，无法实现全局最优。

发明内容

为了解决上述背景技术提到的技术问题，本发明提出了一种基于异构多智能体深度强化学习的新能源汽车生态驾驶方法。

为了实现上述技术目的，本发明的技术方案为：

一种基于异构多智能体深度强化学习的新能源汽车生态驾驶方法，包括以下步骤：

S1、构建仿真环境和跟驰模型，预加载动力电池特性曲线和最佳燃油经济曲线作为先验知识以搭建新能源汽车模型；输入混合工况下的车辆行驶数据；用作跟驰模型中领航车的行驶数据；

S2、基于MADDPG算法创建自适应巡航控制智能体和能量管理智能体，并分别为每个智能体创建Actor网络、Critic网络以及Actor网络和Critic网络的各自对应的目标网络，设定状态空间、动作空间和奖励函数；

S3、智能体与环境交互，基于步骤S2中构建的智能体网络和奖励函数，通过改进的MADDPG算法对神经网络进行离线训练：每个智能体根据当前环境状态同时选择并同步执行控制动作，环境进入新的状态，并反馈奖励给各智能体，最终获得可继承的参数化生态驾驶策略；

S4、将步骤S3中得到的参数化神经网络策略加载到新能源汽车的整车控制器中，目标域新能源汽车执行训练完成的生态驾驶策略，即在跟驰场景下的自适应巡航控制策略和能量管理策略。

优选地，步骤S1具体包括以下步骤：

S11、用PYTHON语言搭建跟驰模型和能量管理策略仿真环境，通过交互接口获取并控制仿真场景中车辆的速度和加速度，并通过由二阶RC电模型、双态热模型和能量吞吐老化组成的电-热-老化模型来模拟车载锂离子电池组，求解任意时刻锂离子电池组的电池健康度SoH值；

二阶RC电和双态热模型被耦合以预测LIB的电热动力学，其中电模型的电压源描述了取决于荷电状态SoC的开路电压，而Rs是总等效欧姆电阻；LIB在工作时内部存在极化效应和电极上的钝化层效应；两个RC支路用于模拟上述情况，电模型的控制方程由给出:

V_t(t)＝V_oc(SoC)+V_p1(t)+V_p2(t)+R_s(t)I(t)(4)

其中，I(t)和V_t(t)是时间步t时的负载电流和端电压，V_p1和V_p2分别是RC支路两端的极化电压；

S12、对能量管理策略仿真环境输入先验知识包括电池特性曲线和最佳燃油经济曲线，通过对电池特性曲线和最佳燃油经济曲线插值拟合的方法获得显式函数关系，包括发动机转速、扭矩与效率的函数关系和开路电压与SoC值的函数关系，利用上述函数关系求解任意时刻和状态下的电池开路电压值和发动机效率；

S13、输入混合工况数据作为跟驰模型中领航车的行驶信息，并创建一种融合中国轻型汽车试验循环-乘用车和公路燃油经济性试验循环的混合循环以测试步骤S3中获得的经过训练获得参数化生态驾驶策略的鲁棒性。优选地，所述混合工况包括低到中速和高速条件的混合循环、由城郊循环工况、美国西弗吉尼亚大学制定的郊区和洲际循环工况，平均速度为33km/h，最大速度为98km/h，持续时长为4619s。

优选地，步骤S2中自适应巡航控制智能体公式表达如下：

式中，v_h(t)为跟驰模型中的主车速度，v_l(t)为跟驰模型中的领航车速度，a_l(t)为跟驰模型中的领航车加速度，L_l(t)为领航车的行驶里程，L_h(t)为主车的行驶里程，D_h,l(t)为领航车和主车之间的距离；D_max为领航车和主车的最大距离，D_safe为领航车和主车的安全距离；D_h,l(t)≥D_safe，t_d是驻车制动延迟和反应时间之和，取值为1.5s，d₀是主车停止后与前车的安全距离，取值为3m，a_max是紧急情况下的最大加速度，取值为6.68m/s²。优选地，步骤S2中能量管理智能体包括发动机发电机组子模型和车载锂离子电池组子模型，设置电机驱动力在两个车轴之间均匀分配，根据车辆的加速度和速度计算需求的总功率P_req，公式表达如下：

式中，v为车辆的速度，F_req为车辆所需的总牵引力，F_a为惯性力，F_r为滚动阻力，F_i为道路坡度阻力，F_w为空气阻力，m为车辆的质量，a为车辆的加速度，μ为滚动阻力系数，μ取值为0.01，C_d为空气阻力系数，取值为0.65，θ为道路坡度，设置为0；

发动机发电机组子模型在接收到控制信号后根据效率图建立准静态燃油和功率消耗模型，发动机和发电机之间的转换公式表达如下：

T_eng＝T_gen,W_eng＝W_gen (8)

式中，T_eng和T_gen分别为发动机和发电机的扭矩，W_eng和W_gen分别为发动机和发电机的转速；

根据当前的扭矩和转速，分别通过效率图得到发动机燃油消耗和发电机的效率，进而计算出输出功率值，公式表达如下：

式中，P_eng为发动机功率，P_gen为发电机的功率，η_gen为发电机的效率；

发动机的燃油消耗率公式表达为：

式中，G汽油热值，取值为4.25×10⁷J/kg；

发动机和发电机还满足转矩和转速的边界约束，公式表达如下：

式中，和/>分别为发动机扭矩的最小值和最大值，/>和/>分别为发电机扭矩的最小值和最大值，/>和/>分别为发动机转速的最小值和最大值，/>和分别为发电机转速的最小值和最大值；

电力牵引所需的动力来自发电机和锂离子电池组，通过能量管理策略在满足以下条件的前提下协调EGS和LIB之间的功率P_req分配，公式表达如下：

P_req＝(P_batt+P_gen)·η_inv (12)

式中，η_inv表示假设完全采用再生制动时逆变器的效率；

构建双态热模型，公式表达如下：

式中，T_s(t)、T_c(t)、T_a(t)和T_f(t)分别为电池表面温度、核心温度、内部平均温度和环境温度；

计算欧姆热、极化热和不可逆熵热共同影响的生热率由H(t)，公式表达如下：

H(t)＝

T(t)[V_p1(t)+V_p2(t)+R_s(t)I(t)]+I(t)[T_a(t)+273]E_n(SoC,t) (16)

式中，E_n表示电化学反应过程中的熵变；

构建能量吞吐模型评估锂离子电池组退化情况，电池动态健康度公式表达如下：

其中N(c,T_a)是车载锂离子电池组达到其寿命终点之前的等效周期数，c为放电倍率，将公式(17)改变成离散形式，公式表达如下：

其中Δt是当前持续时间；

基于Arrhenius方程的容量损失经验模型计算放电倍率和内部温度的影响，公式表达如下：

其中ΔC_n是容量损失的百分比，B(c)表示指前因子，R是等于8.314J/(mol·K)的理想气体常数，z是等于0.55的幂律因子，Ah表示安时通过量；E_a表示活化能，单位为J/mol，公式表达如下：

E_a(c)＝31700-370.3·c (20)

当C_n下降20％时，车载锂离子电池组达到其寿命终点，此时安时通过量和车载锂离子电池组达到其寿命终点之前的等效周期数公式表达如下：

N(c,T_a)＝3600·Ah(c,T_a)/C_n (22)

通过公式(18)结合给定的电流、温度和电池动态计算电池的电池健康度；综合自适应巡航控制和能量管理策略之中速度、加速度、两车间距和电池健康度信息，定义状态空间公式表达如下：

式中，v_h和a_h分别为主车的速度与加速度，D_h,l为车辆间距，即主车到领航车车尾的距离，v_l和a_l分别为领航车的速度与加速度，I为当前的电流值，SoC为电池的荷电状态，T_a为内部平均温度，P_req为需求的总功率；

定义动作空间公式表达如下：

其中，a_h为智能体ACC的控制动作，即主车加速度；P_eng为智能体EMS的控制动作，即发动机功率。

优选地，步骤S2中使用MADDPG算法将自适应巡航控制和汽车能量管理策略融合在一起，总奖励函数包含跟驰控制的奖励和能量管理策略的奖励两个部分，定义总奖励函数如下：

r(t)＝-[K₁(t)+K₂(t)] (25)

其中，t是时间步；智能体ACC的目的是在保持与前车的安全距离的同时，保持舒适的加速度；智能体ACC通过最小化成本K₁(t)来实现这些目标，如下所示：

K₁(t)＝ω₁C_s(t)+ω₂C_c(t) (26)

其中，ω_j(j＝1,2)代表定义不同主体的权重，C_s(t)是安全成本，C_c(t)表示舒适成本，使用距离来衡量跟车安全性，公式表达如下：

在仿真环境中，当D_h,l(t)≤0即主车与领先车发生碰撞时，主车应受到惩罚，此时最大速度被视为安全成本；当距离D_h,l(t)小于安全距离D_safe时，主车的速度v_h被视为安全成本，即速度越慢，成本越小；当跟车距离D_h,l(t)大于最大跟车距离D_max(t)时，两者之差D_h,l(t)-D_max(t)视为安全成本；

此外，自适应巡航控制智能体通过控制加速度的变化率确保乘坐舒适性，公式表达如下：

C_c(t)＝|jerk(t)|/a_r (28)

其中a_r表示主车辆加速度的取值范围，jerk为加加速度；其值为5m/s²；能量管理智能体以能量流的形式与新能源汽车的动力系统和车载锂离子电池组进行交互，通过减少燃料的消耗、控制电荷和减少LIB的损耗降低驾驶成本，公式表达如下：

式中，K₂(t)为驾驶成本，为油耗，C_soc(t)为荷电状态SoC损耗，C_soh(t)为电池健康度SoH损耗，ω₃为每千克燃油的货币费用，ω₄是转换系数以使其与奖励函数中的其它项目相匹配，ω₅被定义为电池更换成本与每千克汽油成本的比率，SoC_tar是荷电状态SoC的目标值。

优选地，步骤S3具体包括以下步骤：

S31、初始化自适应巡航控制智能体和能量管理智能体的Actor网络、Critic网络以及Actor网络和Critic网络的各自对应的目标网络，定义并初始化一个存储空间M作为经验回放池；

S32、使用奥恩斯坦-乌伦贝克随机分布引入动作噪声，以寻找和学习潜在的更优策略：根据动作策略，结合当前状态sⁱ，获得动作向量a_i；公式表达如下：

其中，当i＝1时，a_i为自适应巡航控制智能体的动作向量，i＝2时，a_i为能量管理智能体的动作向量，σ_t表示随机噪声的标准偏差，并且在训练期间持续衰减，σ_t的初始值为0.25，每一回合以指数衰减，衰减率为0.999；执行动作a＝[a₁,a₂]，获得当前时刻的奖励r＝[r₁,r₂]和下一时刻的状态向量s′＝[s′₁,s′₂]，将经验(s,a,r,s′)保存到经验回放池M，并更新状态矩阵s←s′；

S33、从经验回放池M中根据采样概率进行随机抽样，获得N(s^k,a^k,r^k,s′^k)的小批量样本，据此定义采样概率，公式表达如下：

式中，α为优先级，其值为0.4；k为在样本中的位次；P为采样概率；

S34、定义采样重要性权重增加经验池的多样性，公式表达如下：

式中，β为采样权重系数，N为样本数量，ω_i代表不同智能体的权重，i＝1,2，当i＝1时，a_i为自适应巡航控制智能体的权重，i＝2时，a_i为能量管理智能体的权重；

S35、更新时序误差δ_i，公式表达如下：

式中，γ是衰减率，是目标Q值，s′是下一个状态，a′_i是智能体的下一个动作，o′_i是智能体的下一个观测值；

使用自适应矩阵估计算法更新Critic网络的参数θ^π，其损失函数L(θ^π)公式表达如下：

式中，N为样本数量，W_i为采样重要性权重，δ_i为时序误差；

S36、使用自适应矩阵估计算法更新Actor网络的参数θ^Q，并计算更新Actor网络的梯度，公式表达如下：

式中，是梯度运算符，J是算法的目标函数，a代表动作，s代表状态，o_i代表智能体的观测值；

S37、使用改进的优先经验回放更新k转换的优先级，公式表达如下：

式中，α为优先级,∈为一个较小的正值常量，以防止优先级为零，α＝0.4，∈＝1e-6；

S38、使用软更新的方法更新Actor和Critic网络的目标网络参数，公式表达如下：

式中，τ为更新幅度的软因子；

S39、重复步骤S32至步骤S38，直到训练结束，然后输出、保存并下载最终的神经网络π作为参数化生态驾驶策略。

采用上述技术方案带来的有益效果：

1.本发明提出了一种基于异构多智能体深度确定性策略梯度算法的新能源汽车生态驾驶集成式框架。

2.本发明通过应用两个智能体，将自适应巡航控制ACC和能量管理策略EMS两个不同的优化控制问题解耦合，从而避免了不适当的权重对优化性能的负面影响，这也使得本发明能够兼容不同的新能源汽车。

3.本发明构建了两种包含多种工况的混合循环，一个用以网络策略训练，一个用以策略验证，使得本发明对城市、郊区和高速公路等多种工况具有良好的适应性。

4.本发明实现了对优先经验回放技术的改进，以获得更好的优化性能。

附图说明

图1是基于异构多智能体深度强化学习的新能源生态驾驶算法框架；

图2是电池模型图；

图3是发动机效率图；

图4是动力电池特性曲线图；

图5是混合循环图；其中图5(a)是用以训练混合循环(Mix-train)，图5(b)是用以验证的混合循环(Mix-valid)；

图6是MADDPG算法的流程图/伪代码图。

具体实施方式

以下将结合附图，对本发明的技术方案进行详细说明。

本专利提出了一种基于异构多智能体深度强化学习的新能源汽车生态驾驶方法，流程框架如图1所示。具体步骤如下：

步骤一、构建仿真环境：预加载动力电池特性曲线和最佳燃油经济曲线作为先验知识以搭建跟驰模型和新能源汽车模型；构建两种混合循环，一种作为跟驰模型中领航车的行驶数据用于训练神经网络，一种用于测试训练后获得的生态驾驶策略的鲁棒性。

步骤二、基于MADDPG算法创建两个异构智能体：ACC智能体和EMS智能体，并分别为每个智能体创建Actor网络、Critic网络以及Actor网络和Critic网络各自对应的目标(Target)网络，设定状态空间、动作空间和奖励函数。

步骤三、通过改进的MADDPG算法对神经网络进行离线训练：每个智能体根据当前环境状态同时选择并同步执行控制动作，环境进入新的状态，并反馈奖励给各智能体，最终获得可继承的参数化生态驾驶策略。

步骤四、将离线训练得到的参数化生态驾驶策略加载到新能源汽车的整车控制器中，实现实时在线应用：目标域新能源汽车执行训练完成的生态驾驶策略，即在跟驰场景下的自适应巡航控制策略和能量管理策略。

在本发明的一个优选实施例中，所述步骤一具体包括以下步骤：

步骤1、输入先验知识至仿真环境，包括电池特性曲线和最佳燃油经济曲线，通过插值拟合的方法处理曲线获得显式函数关系，包括两组函数关系：(1)发动机转速、扭矩与效率的函数关系；(2)开路电压与SoC值的函数关系。并绘制图像，如图2和图3所示，上述函数关系用于求解任意时刻和状态下的电池开路电压值和发动机效率。

步骤2、使用PYTHON语言搭建包括跟驰模型和新能源汽车模型的仿真环境，通过交互接口获取并控制仿真场景中车辆的速度和加速度，并通过由二阶RC电模型、双态热模型和能量吞吐老化组成的电-热-老化模型来模拟车载锂离子电池组，求解任意时刻车载锂离子电池组的电池健康度SoH值；

跟驰模型公式表达如下：

式中，t为时间步，v_h(t)为主车速度，v_l(t)为领航车速度，a_l(t)为领航车加速度，L_l(t),L_h(t)分别为领航车和主车各自的行驶里程以及两车之间的距离D_h,l(t)。领航车在每个时间步的速度和加速度以及两车之间的间距，通过主车的激光和超声波雷达检测，领航车的速度遵循预先定义的混合循环。

通过控制主车的加速度，智能体ACC在关注乘坐舒适性的同时，在跟驰过程中必须保持一个安全和适当的距离。最大距离D_max和安全距离D_safe都是根据主车速度v_h(t)计算的，安全距离D_safe被视为两车间距D_h,l的最小值：

此处t_d是制动延迟和反应时间之和，其值为1.5s；d₀是主车停止后与前车的安全距离，为3m；a_max是紧急情况下的最大加速度，等于6.68m/s²。

新能源汽车模型包括发动机发电机组(EGS)模型和车载锂离子电池组(LIB)模型。

发动机发电机组模型中，给定车辆的加速度和速度，需求的总功率P_req如下：

式中，v为车辆的速度，F_req为车辆所需的总牵引力，F_a为惯性力，F_r为滚动阻力，F_i为道路坡度阻力，F_w为空气阻力，m为车辆的质量，a为车辆的加速度，μ为滚动阻力系数，μ取值为0.01，C_d为空气阻力系数，取值为0.65，θ为道路坡度，设置为0，g是重力加速度，取值为9.8m/s²；

根据效率图建立准静态燃油和功率消耗模型。扭矩和转速平衡方程用以描述发动机和发电机之间的转换：

T_eng＝T_gen,W_eng＝W_gen#(4)

式中T_eng和T_gen分别为发动机和发电机的扭矩，W_eng和W_gen分别为发动机和发电机的转速。

根据当前的扭矩和转速，通过效率图得到发电机的效率η_gen，进而计算出输出的发动机和发电机的功率值，公式表达如下：

给定汽油较低的热值用G(4.25×10⁷J/kg)表示，发动机的燃油消耗率为：

同时，发动机和发电机都必须满足转矩和转速的边界约束：

电力牵引所需的动力来自发电机和车载锂离子电池组，而能量管理策略的主要功能是在满足以下条件的前提下协调EGS和LIB之间的功率P_req分配，其中P_batt为车载锂离子电池组的功率，η_inv为假设完全采用再生制动时逆变器的效率：

P_req＝(P_batt+P_gen)·η_inv#(8)

车载锂离子电池组模型的特性由电-热-老化模型模拟，该模型包括三个子模型，二阶RC电模型、双态热模型和能量吞吐老化模型，其车载锂离子电池组模型如图4所示。

二阶RC电和双态热模型被耦合以预测车载锂离子电池组的电热动力学，其中电模型的电压源描述了取决于荷电状态SoC的开路电压，而Rs是总等效欧姆电阻。车载锂离子电池组在工作时内部存在一些极化效应，如电荷转移、扩散现象和电极上的钝化层效应。两个RC支路用于模拟上述情况，电模型的控制方程由给出：

V_t(t)＝V_oc(SoC)+V_p1(t)+V_p2(t)+R_s(t)I(t)#(12)

其中I(t)和V_t(t)是时间步t时的负载电流和端电压，V_p1和V_p2是RC支路两端的极化电压，由电容C_p1、C_p2和电阻R_p1、R_p2参数化。

构建双态热模型，公式表达如下：

式中，T_s(t)、T_c(t)、T_a(t)和T_f(t)分别为电池表面温度、核心温度、内部平均温度和环境温度，单位均为℃。R_c和R_u是由电池内部的热传导和电池表面的对流引起的热阻。C_c和C_s是电池芯和电池表面的等效热电容。欧姆热、极化热和不可逆熵热共同影响的生热率由H(t)表示，可通过以下等式计算：

H(t)＝T(t)[V_p1(t)+V_p2(t)+R_s(t)I(t)]+I(t)[T_a(t)+273]E_n(SoC,t)#(16)

其中E_n表示电化学反应过程中的熵变。

评估车载锂离子电池组退化的能量吞吐模型，假设车载锂离子电池组在报废之前能够承受一定量的累积电荷流。因此，电池健康度(SoH)的动态由下式给出：

其中N(c,T_a)是车载锂离子电池组达到其寿命终点(EOL)之前的等效周期数，c为放电倍率。为了便于计算，c为放电倍率，等式(17)可以以离散时间形式重写，即：

其中Δt是当前持续时间。基于Arrhenius方程的容量损失经验模型考虑了放电倍率C-rate(c)和内部温度的影响，方程如下：

其中ΔC_n是容量损失的百分比，B(c)表示指前因子，R是等于8.314J/(mol·K)的理想气体常数，z是等于0.55的幂律因子，Ah表示安时通过量，E_a表示活化能，单位为J/mol：

E_a(c)＝31700-370.3·c#(20)

当C_n下降20％时，车载锂离子电池组达到其寿命终点。Ah和N可以推导为：

N(c,T_a)＝3600·Ah(c,T_a)/C_n#(22)

最后，可以通过等式(18)根据给定的电流、温度进而计算SoH的变化量。

步骤3、构建了一种包括低到中速和高速条件的混合循环(Mix-train)，如图5(a)所示，由城郊循环工况(CTUDC)、美国西弗吉尼亚大学(WVU)制定的郊区(WVU-SUB)和洲际循环工况(WVU-INTER)组成，平均速度是33km/h，最大速度是98km/h，持续时长4619s。作为跟驰模型中领航车的行驶信息，用于训练神经网络，从而使得本发明的生态驾驶策略可应用于各种道路。

步骤4、构建一种为融合中国轻型汽车试验循环-乘用车(CLTC-P)和公路燃油经济性试验循环(HWFET)的混合循环(Mix-valid)，如图5(b)所示，平均速度是43km/h，最大速度是114km/h，持续时长2566s。用于测试训练后获得的生态驾驶策略的鲁棒性。

在本发明的一个优选实施例中，所述步骤二具体包括以下步骤：

步骤1、基于跟驰模型和新能源汽车模型，使用MADDPG算法构建自适应巡航控制ACC和能量管理策略EMS两个智能体网络，即为每一个智能体：构建Actor网络，记为其中θ^π是网络参数，Actor网络的输入为当前状态s，输出为确定性的动作a；构建Critic网络，记为Q(s,a|θ^Q)，θ^Q是网络参数，Critic网络的输入是当前状态s和Actor网络输出的确定性动作a，输出是值函数和梯度信息；分别构建Actor网络和Critic网络的各自对应的目标网络/> 目标网络的网络结构和参数结构与对应网络相同，记θ^Q′为Actor目标网络的参数，θ^π′为Critic目标网络的参数。

步骤2、综合跟驰模型和新能源汽车模型之中速度、加速度、两车间距和荷电状态SoC等信息，定义状态空间如下：

其中，v_h和a_h分别是主车的速度与加速度，D_h,l是车辆间距，即主车到领航车车尾的距离，v_l和a_l分别是领航车的速度与加速度，I是当前的电流值，SoC是电池的荷电状态，T_a为内部平均温度，P_req是需求的总功率。定义动作空间如下：

其中，a_h是智能体ACC的控制动作，主车加速度；P_eng是智能体EMS的控制动作，发动机功率。

本发明所述的基于异构多智能体深度强化学习的新能源汽车生态驾驶能量管理策略，创新性地适用MADDPG算法将自适应巡航控制和汽车能量管理策略融合在一起，总奖励函数包含跟驰控制的奖励和能量管理策略的奖励两个部分，定义总奖励函数如下：

r(t)＝-[K₁(t)+K₂(t)]#(25)

其中，t是时间步。智能体ACC的目的是在保持与前车的安全距离的同时，保持舒适的加速度。智能体ACC通过最小化成本K₁(t)来实现这些目标，如下所示：

K₁(t)＝ω₁C_s(t)+ω₂C_c(t)#(26)

其中ω_j(j＝1,2)代表定义不同主体的权重，C_s(t)是安全成本，C_c(t)表示舒适成本。在驾驶时安全性是最重要的，使用距离来衡量跟车安全性。

在仿真环境中，当D_h,l(t)≤0即主车与领先车发生碰撞时，主车应受到严厉的惩罚，此时最大速度被视为安全成本；当距离D_h,l(t)小于安全距离D_safe时，主车的速度v_h被视为安全成本，即速度越慢，成本越小。当跟车距离D_h,l(t)大于最大跟车距离D_max(t)时，两者之差D_h,l(t)-D_max(t)视为安全成本。此外，智能体ACC控制加速度的变化率(加加速度jerk)，以确保乘坐舒适性：

C_c(t)＝|jerk(t)|/a_r#(28)

其中a_r表示主车辆加速度的取值范围，其值为5m/s²。

EMS智能体以能量流的形式与新能源汽车的动力系统和车载锂离子电池组进行交互。为了以最低的驾驶成本实现能量管理策略，有三个优化任务：1)减少燃料的消耗，2)将电荷保持在合理的范围内，3)减少LIB的损耗。

相应的，它的成本K₂(t)来自于三个部分，油耗荷电状态SoC损耗C_soc(t)和电池损耗C_soh(t)。

其中，表示ω₃每千克燃油的货币费用，ω₄是转换系数以使其与奖励函数中的其它项目相匹配，ω₅被定义为电池更换成本与每千克汽油成本的比率，SoC_tar是荷电状态SoC的目标值。

在本发明的一个优选实施例中，所述MADDPG算法流程如图6所示：

在本发明的一个优选实施例中，所述步骤三具体包括以下步骤：

步骤1、初始化自适应巡航控制ACC和能量管理策略EMS两个智能体的Actor网络、Critic网络及Actor网络、Critic网络分别对应的目标网络，定义并初始化一个存储空间M作为经验回放池。

步骤2、使用奥恩斯坦-乌伦贝克(Ornstein-Uhlenbeck)随机分布引入动作噪声，以寻找和学习潜在的更优策略：根据动作策略，结合当前状态sⁱ，获得动作向量a_i：

其中，i＝1时，为自适应巡航控制ACC智能体，i＝2时，为能量管理策略EMS，σ_t表示随机噪声的标准偏差，并且在训练期间持续衰减，以平衡探索和开发。σ_t的初始值为0.25，每一回合以指数衰减，衰减率为0.999。

执行动作a＝[a₁,a₂]，获得当前时刻的奖励r＝[r₁,r₂]和下一时刻的状态向量s′＝[s′₁,s′₂]，将经验(s,a,r,s′)保存到经验回放池M，并更新状态矩阵s←s′。

步骤3、从经验回放池M中根据采样概率进行随机抽样，获得N(s^k,a^k,r^k,s′^k)的小批量样本，据此定义经验t的采样概率：

用于训练Actor和Critic网络。

步骤4、为了增加经验池的多样性，避免网络陷入过拟合状态，定义采样重要性权重：

其中，β是采样权重系数，N为样本数量，ω_i(i＝1,2)代表不同智能体的权重，i＝1时，为自适应巡航控制ACC智能体，i＝2时，为能量管理策略EMS。

步骤5、更新时序误差δ_t：

其中：

式中γ是衰减率，是目标Q值，s′是下一个状态，a′_i是智能体的下一个动作，o′_i是智能体的下一个观测值。

使用自适应矩阵估计算法(Adam)更新Critic网络的参数θ^π，其损失函数L(θ^π)：

步骤6、使用自适应矩阵估计算法(Adam)更新Actor网络的参数θ^Q，并计算更新Actor网络的梯度：

/>

式中是梯度运算符，J是算法的目标函数，a代表动作，s代表状态，o_i代表智能体的观测值。

步骤7、使用改进的优先经验回放(Improved PER)更新k转换的优先级：

α决定使用多少的优先级,∈是一个较小的正值常量，以防止优先级为零。此处设定，α＝0.4，∈＝1e-6。

步骤8、使用软更新的方法更新Actor和Critic网络的目标网络参数，即在每个时间步内都小幅度更新Actor和Critic的目标网络：

式中τ为更新幅度的软因子。

步骤9、重复步骤2至步骤8，直到训练结束，然后输出、保存并下载最终的神经网络π作为参数化生态驾驶策略。

在本发明的一个优选实施例中，所述步骤四具体为：将离线训练得到的参数化生态驾驶策略下载到新能源汽车的整车控制器中，实现实时在线应用：目标域新能源汽车执行训练完成的能量管理策略和自适应巡航控制。

以上所述仅为本发明的具体实施方式，并不用于限制本发明，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。本申请实施例中的方案可以采用各种计算机语言实现，例如，面向对象的程序设计语言Java和直译式脚本语言JavaScript等。

本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

尽管已描述了本申请的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例作出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本申请范围的所有变更和修改。

显然，本领域的技术人员可以对本申请进行各种改动和变型而不脱离本申请的精神和范围。这样，倘若本申请的这些修改和变型属于本申请权利要求及其等同技术的范围之内，则本申请也意图包含这些改动和变型在内。

Claims

1.一种基于异构多智能体深度强化学习的新能源汽车生态驾驶方法，其特征在于，包括以下步骤：

S1、构建仿真环境和跟驰模型，预加载动力电池特性曲线和最佳燃油经济曲线作为先验知识以搭建新能源汽车模型；输入混合工况下的车辆行驶数据；用作跟驰模型中领航车的行驶数据；具体包括以下步骤：

二阶RC电模型和双态热模型被耦合以预测LIB的电热动力学，其中电模型的电压源描述了取决于荷电状态SoC的开路电压，而Rs是总等效欧姆电阻；LIB在工作时内部存在极化效应和电极上的钝化层效应；两个RC支路用于模拟上述情况，电模型的控制方程由给出:

V_t(t)＝V_oc(SoC)+V_p1(t)+V_p2(t)+R_s(t)I(t)(4)

S13、输入混合工况数据作为跟驰模型中领航车的行驶信息，并创建一种融合中国轻型汽车试验循环-乘用车和公路燃油经济性试验循环的混合循环以测试步骤S3中获得的经过训练获得参数化生态驾驶策略的鲁棒性；

S4、将步骤S3中得到的参数化生态驾驶策略加载到新能源汽车的整车控制器中，目标域新能源汽车执行训练完成的生态驾驶策略，即在跟驰场景下的自适应巡航控制策略和能量管理策略。

2.根据权利要求1所述一种基于异构多智能体深度强化学习的新能源汽车生态驾驶方法，其特征在于，步骤S2中，所述能量管理智能体包括发动机发电机组子模型和车载锂离子电池组子模型，设置电机驱动力在两个车轴之间均匀分配，根据车辆的加速度和速度计算需求的总功率P_req，公式表达如下：

T_eng＝T_gen，W_eng＝W_gen (8)

发动机的燃油消耗率公式表达为：

式中，G汽油热值，取值为4.25×10⁷J/kg；

式中，和/>分别为发动机扭矩的最小值和最大值，/>和/>分别为发电机扭矩的最小值和最大值，/>和/>分别为发动机转速的最小值和最大值，/>和/>分别为发电机转速的最小值和最大值；

电力牵引所需的动力来自发电机和锂离子电池组，通过能量管理策略在满足以下条件的前提下协调EGS和LIB之间的功率分配，公式表达如下：

P_req＝(P_batt+P_gen)·η_inv (12)

式中，η_inv表示假设完全采用再生制动时逆变器的效率；

构建双态热模型，公式表达如下：

H(t)＝I(t)[V_p1(t)+V_p2(t)+R_s(t)I(t)]+I(t)[T_a(t)+273]E_n(SoC，t) (16)

式中，E_n表示电化学反应过程中的熵变；

其中N(c，T_a)是车载锂离子电池组达到其寿命终点之前的等效周期数，c为放电倍率，将公式(17)改变成离散形式，公式表达如下：

其中Δt是当前持续时间；

E_a(c)＝31700-370.3·c (20)

N(c，T_a)＝3600·Ah(c，T_a)/C_n (22)

通过公式(18)结合给定的电流、温度和电池动态计算电池的电池健康度；

综合自适应巡航控制和能量管理策略之中速度、加速度、两车间距和电池健康度信息，定义状态空间公式表达如下：

式中，v_h和a_h分别为主车的速度与加速度，D_h，l为车辆间距，即主车到领航车车尾的距离，v_l和a_l分别为领航车的速度与加速度，I为当前的电流值，SoC为电池的荷电状态，T_a为内部平均温度，P_req为需求的总功率；

定义动作空间公式表达如下：

3.根据权利要求1所述一种基于异构多智能体深度强化学习的新能源汽车生态驾驶方法，其特征在于，所述混合工况包括低到中速和高速条件的混合循环、城郊循环工况、美国西弗吉尼亚大学制定的郊区和洲际循环工况，平均速度为33km/h，最大速度为98km/h，持续时长为4619s。

4.根据权利要求1所述一种基于异构多智能体深度强化学习的新能源汽车生态驾驶方法，其特征在于，步骤S2中自适应巡航控制智能体公式表达如下：

式中，v_h(t)为跟驰模型中的主车速度，v_l(t)为跟驰模型中的领航车速度，a_l(t)为跟驰模型中的领航车加速度，L_l(t)为领航车的行驶里程，L_h(t)为主车的行驶里程，D_h，l(t)为领航车和主车之间的距离；D_max为领航车和主车的最大距离，D_saf为领航车和主车的安全距离；D_h，l(t)≥D_safe，t_d是驻车制动延迟和反应时间之和，取值为1.5s，d₀是主车停止后与前车的安全距离，取值为3m，a_max是紧急情况下的最大加速度，取值为6.68m/s²。

5.根据权利要求1所述一种基于异构多智能体深度强化学习的新能源汽车生态驾驶方法，其特征在于，步骤S2中使用MADDPG算法将自适应巡航控制和汽车能量管理策略融合在一起，总奖励函数包含跟驰控制的奖励和能量管理策略的奖励两个部分，定义总奖励函数如下：

r(t)＝-[K₁(t)+K₂(t)] (25)

K₁(t)＝ω₁C_s(t)+ω₂C_c(t) (26)

其中，ω_j(j＝1，2)代表定义不同主体的权重，C_s(t)是安全成本，C_c(t)表示舒适成本，使用距离来衡量跟车安全性，公式表达如下：

在仿真环境中，当D_h，l(t)≤0即主车与领先车发生碰撞时，主车应受到惩罚，此时最大速度被视为安全成本；当距离D_h，l(t)小于安全距离D_safe时，主车的速度v_h被视为安全成本，即速度越慢，成本越小；当跟车距离D_h，l(t)大于最大跟车距离D_max(t)时，两者之差D_h，l(t)-D_max(t)视为安全成本；

C_c(t)＝|jerk(t)|/a_r (28)

其中a_r表示主车辆加速度的取值范围，jerk为加速度变化率；其值为5m/s²；能量管理智能体以能量流的形式与新能源汽车的动力系统和车载锂离子电池组进行交互，通过减少燃料的消耗、控制电荷和减少LIB的损耗降低驾驶成本，公式表达如下：

6.根据权利要求1所述一种基于异构多智能体深度强化学习的新能源汽车生态驾驶方法，其特征在于，步骤S3具体包括以下步骤：

其中，当i＝1时，a_i为自适应巡航控制智能体的动作向量，i＝2时，a_i为能量管理智能体的动作向量，σ_t表示随机噪声的标准偏差，并且在训练期间持续衰减，σ_t的初始值为0.25，每一回合以指数衰减，衰减率为0.999；执行动作a＝[a₁，a₂]，获得当前时刻的奖励r＝[r₁，r₂]和下一时刻的状态向量s′＝[s′₁，s′₂]，将经验(s，a，r，s′)保存到经验回放池M，并更新状态矩阵s←s′；

S33、从经验回放池M中根据采样概率进行随机抽样，获得N(s^k，a^k，r^k，s′^k)的小批量样本，据此定义采样概率，公式表达如下：

式中，α为优先级，其值为0.4；k为在样本中的位次；P为采样概率

式中，β为采样权重系数，N为样本数量，ω_i代表不同智能体的权重，i＝1，2，当i＝1时，ω_i为自适应巡航控制智能体的权重，i＝2时，ω_i为能量管理智能体的权重；

S35、更新时序误差δ_i，公式表达如下：

式中，γ是衰减率，是目标Q值，s′是下一个状态，a′_i是智能体的下一个动作，o′_i是智能体的下一个观测值；使用自适应矩阵估计算法更新Critic网络的参数θ^π，其损失函数L(θ^π)公式表达如下：

式中，τ为更新幅度的软因子；