CN116461391A

CN116461391A - 一种燃料电池混动汽车能量管理方法

Info

Publication number: CN116461391A
Application number: CN202310661463.1A
Authority: CN
Inventors: 彭剑坤; 陈伟琪; 任廷辉; 陈峻; 周嘉璇; 丁璠; 韩雨; 马春野
Original assignee: Southeast University
Current assignee: Southeast University
Priority date: 2023-06-06
Filing date: 2023-06-06
Publication date: 2023-07-21

Abstract

本发明公开了一种燃料电池混动汽车能量管理方法，主要步骤包括构建仿真环境、构建训练工况和验证工况；搭建Actor、Critic网络及其目标网络；训练能量管理策略，获得可继承的网络参数；加载网络参数至整车控制器，实现在线应用。本方法采用了Beta策略来改进标准SAC算法来提高优化性能；经过多次仿真实验，确定了合适的权重系数，并强调了健康约束，以降低驾驶成本，延长燃料电池混动汽车（FCHEV）的使用寿命；实现了与动态规划（DP）基准非常接近的性能，并且在不同驾驶循环中的仿真结果表明了良好的适应性。

Description

一种燃料电池混动汽车能量管理方法

技术领域

本发明涉及一种燃料电池混动汽车能量管理方法，尤其涉及一种基于深度强化学习并考虑能源系统健康状态的能量管理策略开发。

背景技术

传统交通行业约占全球温室气体排放和空气污染的20％，这对环境保护和能量安全是一个沉重的负担。汽车公司和研究机构一直在努力开发新型汽车，以取代传统的内燃机汽车。目前，主流技术有三种：混合动力电动汽车(HEV)、燃料电池电动汽车和纯电动汽车。

近年来，燃料电池以其高效、无污染、快速加油和低噪音等优点受到越来越多的关注。然而，燃料电池在快速功率需求条件下具有动态响应慢和稳定性差的缺点。为了确保输出功率的可持续性，通常配备高能量密度的动力电池，与燃料电池一起用作辅助能量。动力电池组提供峰值功率，以平滑燃料电池输出功率的波动。然而，混合动力储能使车辆的动力和能量流更加复杂，因此制定高效合理的能量管理和优化策略，以充分发挥燃料电池混动汽车(FCHEV)的性能和优势具有重要意义。

随着人工智能技术的发展，基于强化学习(RL)和深度强化学习(DRL)算法的能量管理策略(EMS)得到了广泛的研究。作为一种先进的DRL算法，Soft Actor Critic(SAC)算法显示出比其他算法更好的收敛性和更低的超参数灵敏度。SAC基于最大熵DRL框架，其中Actor在最大化预期收益的同时将熵也最大化，以增强探索。现有技术中标准SAC算法中采用的高斯策略会不可避免地引入估计偏差，这会减慢训练过程甚至导致收敛性变差，因此，消除偏差对算法性能的影响有着的重要的实际应用意义。

发明内容

本发明所要解决的技术问题是：在标准SAC算法的基础上，提出一种基于改进型SAC算法的考虑健康的燃料电池混动汽车能量管理方法，使用Beta策略来替代标准SAC算法中的高斯策略获得更好的优化性能。

本发明采用如下技术方案：

一种燃料电池混动汽车能量管理方法，包括步骤如下：

S1、构建仿真环境，预加载准稳态电动机模型的效率图和燃料电池输出特性曲线作为先验知识，以搭建燃料电池混动汽车FCHEV模型，该模型包括FCHEV的动力系统结构、燃料电池氢耗模型和寿命模型以及动力电池电-热-寿命耦合模型；输入构建的训练工况，用作FCHEV的行驶数据；

S2、基于SAC算法和神经网络创建Actor网络和Critic网络，构建FCHEV模型与燃料电池混动汽车健康约束能量管理策略的训练网络，设定状态空间、动作空间和奖励函数；

S3、SAC智能体与仿真环境互动，基于已构建的Actor网络和Critic网络及奖励函数，通过引入Beta策略提出改进的SAC算法对燃料电池混动汽车健康约束能量管理策略进行离线训练，获得可继承的参数化神经网络策略；

S4、将离线训练得到的参数化神经网络策略加载到混合动力汽车的整车控制器中，实现实时在线应用；目标域FCHEV执行训练完成的能量管理策略。

作为更进一步的优选方案，所述步骤S1包括以下子步骤：

S101、使用PYTHON语言搭建FCHEV模型和能量管理策略的仿真环境，通过交互接口获取仿真场景中车辆的速度和加速度；

S102、输入准稳态电动机模型的效率图与燃料电池输出特性曲线，其中准稳态电动机模型的效率图用于构建电动机效率和车轮转速与转矩之间的关系，通过插值获得相应的电动机效率，从而获得任意时刻车辆的所需功率；燃料电池输出特性曲线用于构建燃料电池功率和氢气消耗率与燃料电池组效率之间的关系，从而求解任意时刻的氢气消耗率；

S103、输入FCHEV行驶数据集，该数据集由高速公路工况和城市道路工况组成，构建包括低速至高速条件的混合循环用于各种道路。

作为更进一步的优选方案，所述步骤S2包括以下子步骤：

S201、构建FCHEV模型的动力系统结构；

S202、构建FCHEV模型的燃料电池氢耗模型和寿命模型：

S203、构建FCHEV模型的动力电池电-热-寿命耦合模型；

S204、定义状态空间、动作空间及奖励函数；

S205、构建Actor网络和Critic网络的目标网络，对燃料电池混动汽车FCHEV的能量管理策略进行训练。

进一步地，在步骤S201中，基于燃料电池混合动力电动客车，

在时间步t，车辆的纵向牵引力计算如下所示：

此处m是车辆的总质量；f是滚动阻力系数；θ是道路坡度，A是车辆前部区域，C_D是空气阻力系数，δ是转动质量系数，g是重力加速度；

车轮转速W_w和驱动轴扭矩T_w如下表示：

此处r_w是车轮半径；

电动机的转速W_m和转矩T_m如下计算：

此处R_fd是最终传动齿轮比，η_fd是驱动轴的效率；

通过准稳态电动机的效率图插值得到车辆所需的功率如下计算：

此处η_m是电动机效率；

P_req如下表示：

P_req＝P_DC/DC+P_bat (5)

此处P_DC/DC是DC/DC转换器的输出功率，P_bat是锂电子动力电池组的功率，包含充电与放电过程。

进一步地，在所述的步骤S202中，采用燃料电池氢耗模型和寿命模型构建燃料电池组，燃料电池组的氢气消耗率如下计算：

此处L_v表示氢气的低热值，等于120kJ/g，η_fcs表示燃料电池组的效率，功率P_fcs和氢气燃烧率与效率η_fcs之间的关系由燃料电池组输出特性曲线表示；

燃料电池系统的总体性能退化用关于四种不同类型的不利驾驶条件负载变化循环的离散表达式表示为：

此处n为时间步的数量，d_ss(t)，d_low(t)，d_high(t)，d_cha(t)分别是t时刻的启停工况、低功率工况、高功率负载和负载变化工况引起的性能退化。

进一步地，在所述的步骤S203中，采用电-热-寿命耦合模型构建动力电池系统，该模型包含三个子模型：二阶RC电模型、双态热模型和能量吞吐量老化模型，具体为：

(1)在二阶RC电模型中，利用两个RC分支模拟极化效应，其控制方程如下所示：

V_t(t)＝V_oc(SoC)+V_p1(t)+V_p2(t)+R_SI(t) (11)

其中I(t)和V_t(t)是时间步t时的负载电流和端电压，V_p1和V_p2是RC支路两端的极化电压，由电容C_p1和C_p2和电阻R_p1、R_P2参数化；

(2)在双态热模型中，根据热能守恒原理，给出以下方程：

式中，T_s(t)、T_c(t)T_a(t)、T_f(t)分别为电池表面温度、核心温度、内部平均温度和环境温度，单位均为℃；R_c和R_u是电池内部的热传导和电池表面的对流引起的热阻；C_c和C_s是电池芯和电池表面的等效热电容；欧姆热、极化热和不可逆熵热共同影响的生热率由H(t)表示，通过以下等式计算：

H(t)＝I(t)[V_p1(t)+V_p2(t)+R_s(t)I(t)]+I(t)[T_a(t)+273]E_n(SoC,t) (15)

其中E_n表示电化学反应过程中的熵变；

(3)采用能量吞吐量模型评估电池退化，基于电池在报废前能承受一定量的累计电荷流，电池健康度SOH的动态计算如下：

其中△t是当前持续时间，N(c,T_a)是直到电池系统达到其寿命终点为止的等效循环次数；基于Arrhenius方程的容量损失经验模型，考虑放电倍率C-rate(c)和内部温度的影响，方程如下所示：

其中△C_n是容量损失的百分比，B(c)表示指前因子，R是等于8.314J/(mol·K)的理想气体常数，z是等于0.55的幂律因子，Ah表示安时通过量，E_a表示活化能，单位为J/mol：

E_a(c)＝31700-370.3·c (18)

当C_n下降20％时，电池将达到寿命终点，Ah和N的推导如下所示：

N(c,T_a)＝3600·Ah(c,T_a)/C_n (20)

最后，通过式(16)根据给定的电流、温度和电池动态来计算SoH变化，以了解电池组的老化情况。

进一步地，在所述的步骤S204中，综合FCHEV模型和能量管理策略之中速度、加速度和电池SoC信息，定义状态空间如下：

s＝[SOC,SOH_bat,SOH_fcs,P_bat,P_fcs,v,a] (21)

其中，SOC是电池的荷电状态，SOH_bat是动力电池的健康状态，SOH_fcs是燃料电池组的健康状态，P_bat动力电池功率，P_fcs是燃料电池组的功率，v是车辆速度，a是车辆加速度；

定义动作空间为燃料电池系统的输出功率：

a＝P_fcs∈[0,60]kW (22)

基于减少燃料电池系统的氢气消耗、减少动力电池和燃料电池系统的健康退化以及将电池SOC保持在合理的余量内，奖励函数定义如下：

式中ρ₁,ρ₂,ρ₃分别为氢气价格、燃料电池系统更换价格和动力电池组更换价格，权重系数ω用于确定资金成本相对于电池SOC值的相对重要性，SOC_ref代表SOC的参考值。

作为更进一步的优选方案，在所述步骤S3中SAC智能体与仿真环境进行互动，智能体获得当前环境状态信息，根据策略选择动作并执行，进入新的环境状态，并获得环境反馈的奖励，与此同时存储状态、动作、奖励信息，如此循环往复。

作为更进一步的优选方案，在所述步骤S3中，采用改进的SAC算法应用于智能体与仿真环境进行互动模型，具体地，引入Beta策略，采用Beta分布以减少偏差对算法性能的影响，根据Beta分布的定义，策略表示如下：

式中α和β是Beta分布的形状参数，φ为神经网络参数，Γ(n)＝(n-1)！是将阶乘扩展到实数的伽玛函数，其中只考虑α,β>1，对应于Beta分布是凹形和单峰的情况。

作为更进一步的优选方案，步骤S3中基于改进的SAC算法对燃料电池混动汽车健康约束能量管理策略进行离线训练步骤如下：

S301、初始化能量管理策略EMS的Actor网络和Critic网络及其目标网络；定义一个存储空间M作为经验回放池，并初始化；

S302、从当前策略π_φ(x|s)中采样并执行动作a，获得当前时刻的奖励r和下一时刻的状态s′，将经验(s,a,r,s′)保存到经验回放池M中，并更新状态s←s′；

S303、从经验回放池M中进行随机抽样，获得N(s,a,r,s′)的小批量样本；

S304、通过最小化软贝尔曼残差方程训练Critic网络：

其中，M是经验回放池，(s_t,a_t,r_t,s_t+1)是从中随机抽取的小批次样本；

S305、通过最小化Kullback-Leibler散度的期望训练Actor网络：

在每个时间步，动作由当前策略决定，当前策略通过策略网络的输出构造的如式(24)所示的Beta分布得到，在该Beta分布上进行随机采样得到当前动作a_t；

S306、自动调节温度系数，其梯度的计算目标如下：

其中目标熵是动作维度的负数；

S307、对带参数θ′的目标Critic网络进行软更新，软更新由步长因子τ控制：

θ′←(1-τ)θ′+τθ (28)

S308、重复步骤S302至S307，直到达到预先设定的最大迭代次数，训练结束，然后输出、保存并下载最终的参数化神经网络π作为学习策略。

本发明采用以上技术方案与现有技术相比，具有以下技术效果：

1.考虑到燃料电池系统和动力电池组的健康退化，本发明提出了一种基于改进型SAC算法的考虑能源系统健康状态的燃料电池混动汽车能量管理方法。

2.考虑到标准SAC方法的高斯分布引起的估计偏差，本发明采用Beta分布来提高优化性能。

3.通过大量仿真实验确定合适的权重系数，并强调健康约束，以降低驾驶成本，延长FCHEV的使用寿命。

4.本发明所提出的策略实现了与动态规划(DP)基准非常接近的性能，并且在不同驾驶循环中的仿真结果表明了良好的适应性，优于其他DRL方法。

附图说明

图1是基于改进型SAC方法的考虑能源系统健康状态的燃料电池混动汽车能量管理框架；

图2是动力电池模型图；

图3是电动机效率图；

图4是燃料电池系统输出特性曲线；

图5(a)是用以训练混合循环(Mix-train)图；

图5(b)是用以验证的混合循环(Mix-valid)图；

图6是燃料电池混动汽车动力系统结构图；

图7(a)是高斯分布的概率密度函数图；

图7(b)是Beta分布的概率密度函数图；

图8是燃料电池混动汽车能量管理模块关系示意图。

具体实施方式

为了使本发明的目的、技术方案和优点更加清楚，下面结合附图对申请的技术方案做进一步地详尽阐述，所描述的实施例，也只是本发明所涉及实施例的一部分。本领域其他研究人员在该实施例上的所有非创新型实施例，都属于本发明的保护范围。

本发明提出了一种燃料电池混动汽车能量管理方法，如图1所示，具体步骤如下：

步骤S1、构建仿真环境，预加载准稳态电动机模型的效率图和燃料电池输出特性曲线作为先验知识，以搭建燃料电池混动汽车FCHEV模型，该模型包括FCHEV的动力系统结构、燃料电池氢耗模型和寿命模型以及动力电池电-热-寿命耦合模型；输入构建的训练工况，用作FCHEV的行驶数据；

步骤S2、基于SAC算法和神经网络创建Actor网络和Critic网络，构建FCHEV模型与燃料电池混动汽车健康约束能量管理策略的训练网络，设定状态空间、动作空间和奖励函数；

步骤S3、SAC智能体与仿真环境互动，基于已构建的Actor网络和Critic网络及奖励函数，通过引入Beta策略提出改进的SAC算法对燃料电池混动汽车健康约束能量管理策略进行离线训练，获得可继承的参数化神经网络策略；

步骤S4、将离线训练得到的参数化神经网络策略加载到混合动力汽车的整车控制器中，实现实时在线应用；目标域FCHEV执行训练完成的能量管理策略。

在本发明的一个优选实施例中，所述步骤S1具体包括以下步骤：

步骤S101、使用PYTHON语言搭建FCHEV模型和能量管理策略的仿真环境，通过交互接口获取仿真场景中车辆的速度和加速度，并通过由二阶RC电模型、双态热模型和能量吞吐老化模型组成的电-热-老化模型来模拟锂电子电池组，从而可以求解任意时刻电池的SoH值，其动力电池模型如图2所示。

步骤S102、输入准稳态电动机模型的效率图与燃料电池输出特性曲线，其中准稳态电动机模型的效率图用于构建电动机效率和车轮转速与转矩之间的关系，通过插值获得相应的电动机效率，从而获得任意时刻车辆的所需功率；燃料电池输出特性曲线用于构建燃料电池功率和氢气消耗率与燃料电池组效率之间的关系，从而求解任意时刻的氢气消耗率；

具体地，输入准稳态电动机模型的效率图与燃料电池输出特性曲线等先验知识，通过插值拟合的方法获得显示函数关系，包括两组函数关系：(1)电动机转速、扭矩与效率的函数关系；(2)燃料电池功率、氢气消耗率与燃料电池组效率之间的关系。并绘制图像，如图3和图4所示，上述函数关系用于求解任意时刻车辆的所需功率和氢气消耗率。

步骤S103、输入FCHEV行驶数据集，该数据集由高速公路工况和城市道路工况组成，构建了如图5(a)所示的包括低速至高速条件的混合循环(Mix-train)，从而使得本发明的训练成果可以用于各种道路。实验表明，该循环包括中国轻型汽车试验循环-乘用车(CLTC-P)和西弗吉尼亚大学州际公路(WVU-INTER)循环，这组数据中行驶距离为39.438公里。

此外，还构建了一种如图5(b)所示的包括西弗吉尼亚大学城(WVU-city)和高速公路燃油经济性试验循环(HWFET)的混合循环(Mix-valid)，用于测试已获得策略的鲁棒性，这组数据中行驶距离为21.822公里。

在本发明的一个优选实施例中，所述步骤S2包括以下子步骤：

步骤S201、构建FCHEV模型的动力系统结构；

步骤S202、构建FCHEV模型的燃料电池氢耗模型和寿命模型：

步骤S203、构建FCHEV模型的动力电池电-热-寿命耦合模型；

步骤S204、定义状态空间、动作空间及奖励函数；

步骤S205、构建Actor网络和Critic网络的目标网络，对燃料电池混动汽车FCHEV的能量管理策略进行训练。

具体来说，首先，在步骤S201中，本发明的研究对象是一辆燃料电池混合动力电动客车，其动力系统结构如图6所示。在时间步t，车辆的纵向牵引力计算如下所示：

此处m是车辆的总质量；f是滚动阻力系数；θ是道路坡度，A是车辆前部区域，C_D是空气阻力系数，δ是转动质量系数，g是重力加速度。

然后车轮转速W_w和驱动轴扭矩T_w可以如下表示：

此处r_w是车轮半径。

电动机的转速W_m和转矩T_m之后可以如下计算出：

此处R_fd是最终传动齿轮比，η_fd是驱动轴的效率。

车辆所需的功率可以如下计算：

此处η_m是电动机效率，通过准稳态电动机的效率图插值得到。

对应地，P_req可以被如下表示：

P_req＝P_DC/DC+P_bat (33)

进一步地，在所述的步骤S202构建FCHEV模型的燃料电池氢耗模型和寿命模型中，

燃料电池作为FCHEV的主要电源，将氢气和氧气的化学能转换为电能。采用燃料电池氢耗模型和寿命模型构建燃料电池组。燃料电池组的氢气消耗率可以被如下计算：

此处L_v表示氢气的低热值，等于120kJ/g，η_fcs表示燃料电池组的效率。功率P_fcs和氢气燃烧率与效率η_fcs之间的关系由燃料电池组输出特性曲线表示。

燃料电池系统的总体性能退化可以用关于四种不同类型的不利驾驶条件负载变化循环的离散表达式表示：

接着，在所述的步骤S203构建FCHEV模型的动力电池电-热-寿命耦合模型中，

动力电池组作为FCHEV的第二个储能装置，可以为车辆提供峰值功率，平顺燃料电池系统的输出。

采用电-热-寿命耦合模型构建动力电池系统，该模型包含三个子模型：二阶RC电模型、双态热模型和能量吞吐量老化模型。

(1)在二阶RC电模型中，利用两个RC分支来模拟极化效应，其控制方程如下所示：

V_t(t)＝V_oc(SoC)+V_p1(t)+V_p2(t)+R_SI(t) (39)

其中I(t)和V_t(t)是时间步t时的负载电流和端电压，V_p1和V_p2是RC支路两端的极化电压，由电容C_p1和C_p2和电阻R_p1、R_P2参数化。

(2)在双态热模型中，根据热能守恒原理，给出以下方程：

式中，T_s(t)、T_c(t)T_a(t)、T_f(t)分别为电池表面温度、核心温度、内部平均温度和环境温度，单位均为℃。R_c和R_u是电池内部的热传导和电池表面的对流引起的热阻。C_c和C_s是电池芯和电池表面的等效热电容。欧姆热、极化热和不可逆熵热共同影响的生热率由H(t)表示，可通过以下等式计算：

H(t)＝I(t)[V_p1(t)+V_p2(t)+R_s(t)I(t)]+I(t)[T_a(t)+273]E_n(SoC,t) (43)

其中E_n表示电化学反应过程中的熵变。

(3)采用能量吞吐量模型评估电池退化，基于电池在报废前能承受一定量的累计电荷流。电池健康度(SOH)的动态计算如下：

其中△t当前持续时间，N(c,T_a)是直到电池系统达到其寿命终点为止的等效循环次数。基于Arrhenius方程的容量损失经验模型考虑了放电倍率C-rate(c)和内部温度的影响，方程如下所示：

E_a(c)＝31700-370.3·c (46)

当C_n下降20％时，电池将达到寿命终点。Ah和N的推导如下所示：

N(c,T_a)＝3600·Ah(c,T_a)/C_n (48)

最后，可以通过式(16)根据给定的电流、温度和电池动态来计算SoH变化，以了解电池组的老化情况。

更进一步地，在所述的步骤S204中，综合FCHEV模型和能量管理策略之中速度、加速度和电池SoC等信息，定义状态空间如下：

s＝[SOC,SOH_bat,SOH_fcs,P_bat,P_fcs,v,a] (49)

其中，SOC是电池的荷电状态，SOH_bat是动力电池的健康状态，SOH_fcs是燃料电池组的健康状态，P_bat动力电池功率，P_fcs是燃料电池组的功率，v是车辆速度，a是车辆加速度。定义动作空间为燃料电池系统的输出功率：

a＝P_fcs∈[0,60]kW (50)

本发明所述的基于改进型SAC算法的考虑健康的燃料电池混动汽车能量管理方法，能量管理策略有三个优化目标：1)减少燃料电池系统的氢气消耗；2)减少动力电池和燃料电池系统的健康退化；3)将电池SOC保持在合理的余量内。因此，奖励函数定义如下：

式中ρ₁,ρ₂,ρ₃分别为氢气价格、燃料电池系统更换价格和动力电池组更换价格。这意味着前两个目标可以通过资金成本来规范化。权重系数ω确定了资金成本相对于电池SOC值的相对重要性，并且应该充分探索以获得更好的优化性能。SOC_ref是SOC的参考值，取0.5。

最后，在所述的步骤S205中，构建Actor网络，记为

其中θ^π为网络参数，Actor网络的输入为当前状态s，输出为动作a的概率分布。

构建Critic网络，记为Q(s,a|θ^Q)，θ^Q是网络参数，Critic网络的输入是当前状态s和对Actor网络输出的概率分布进行重参数化表示的动作a，输出是值函数。

建立Critic网络的目标网络目标网络的网络结构和参数与对应网络相同，记θ_i ^Q′为Critic目标网络的参数。

应用构建的Actor网络和Critic网络的目标网络对燃料电池混动汽车(FCHEV)的能量管理策略进行训练。

在本发明的一个优选实施例中，所述步骤S3，SAC框架中的智能体与仿真环境进行互动，智能体获得当前环境状态信息，根据策略选择动作并执行，进入新的环境状态，并获得环境反馈的奖励，与此同时存储状态、动作、奖励等信息，如此循环往复。

为使模型更快收敛并达到更好的训练效果，在所述步骤S3中对SAC算法进行了改进，采用改进的SAC算法，用Beta策略替代标准SAC算法中的高斯策略，具体说明如下：

标准SAC算法的高斯策略定义如下：

式中和/>分别是正态分布的均值和标准差，它们是策略π_φ(x∣s)的输出。但是EMS的动作空间是有限的，而高斯策略对应于无限的支持概率分布，从而引入了偏差。为了充分挖掘训练初期的策略空间，一个较大的σ值是必需的，但这将导致更大的偏差。此外，高斯策略输出的动作只有在截断操作之后才能由DRL代理执行。截断动作还用于计算状态值函数和对数概率梯度。它不仅存在同样的偏差问题，还通过减去基线函数引入了另一个偏差。

考虑到标准SAC方法的高斯分布引起的估计偏差，为了消除偏差对算法性能的影响，需要一种支持概率分布有限的策略。因此，本发明采用Beta分布来提高优化性能。

我们引入了Beta策略，根据Beta分布的定义，策略表示如下：

式中α和β是Beta分布的形状参数，它们是带有参数φ的策略神经网络的输出而Γ(n)＝(n-1)！是将阶乘扩展到实数的伽玛函数。

Beta策略和高斯策略之间最显著的区别在于，Beta分布具有有界区间，它描述了成功的概率，其中α-1和β-1可以被认为是成功和失败的计数。Beta策略是无偏的，因为没有概率密度落在边界之外。我们只考虑α,β>1，对应于Beta分布是凹形和单峰的情况。高斯分布的概率密度函数图如图7(a)所示，Beta分布的概率密度函数图如图7(b)所示。

在本发明的一个优选实施例中，如图8所示，燃料电池混动汽车能量管理系统，包括深度强化学习智能体和交互环境，所述步骤S3智能体与环境互动，基于已构建的SAC网络和奖励函数，通过改进的SAC算法对健康约束能量管理策略进行离线训练，获得可继承的参数化神经网络策略，具体包括以下步骤：

步骤S301、初始化能量管理策略EMS的Actor网络和Critic网络及其目标网络；定一个存储空间M作为经验回放池，并初始化。

步骤S302、从当前策略π_φ(x|s)中采样并执行动作a，获得当前时刻的奖励r和下一时刻的状态s′，将经验(s,a,r,s′)保存到经验回放池M中，并更新状态s←s′。

步骤S303、从经验回放池M中进行随机抽样，获得N(s,a,r,s′)的小批量样本

步骤S304、通过最小化软贝尔曼残差方程训练Critic网络：

其中，M是经验回放池，(s_t,a_t,r_t,s_t+1)是从中随机抽取的小批次样本。

步骤S305、通过最小化Kullback-Leibler散度的期望训练Actor网络：

在每个时间步，动作由当前策略决定，当前策略通过策略网络的输出构造的如式(24)所示的Beta分布得到，在该Beta分布上进行随机采样得到当前动作a_t。

步骤S306、自动调节温度系数，其梯度的计算目标如下：

其中目标熵是动作维度的负数。

步骤S307、对带参数θ′的目标Critic网络进行软更新，软更新由步长因子τ控制：

θ′←(1-τ)θ′+τθ (57)

步骤S308、重复步骤2至7，直到训练结束，然后输出、保存并下载最终的参数化神经网络π作为学习策略。

比较实验表明，本发明所提出的燃料电池混动汽车(FCHEV)的深度强化学习能量管理策略在驱动成本方面与基于动态规划的能量管理策略有5.12％的性能差距，但在等效氢消耗方面好4.72％。

此外，该发明在验证循环中具有类似的性能，这表明本发明所提出的能量管理策略具有良好的适应性。

以上所述仅为本发明的具体实施方式，并不用于限制本发明，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种燃料电池混动汽车能量管理方法，其特征在于，步骤如下：

S3、SAC智能体与仿真环境互动，基于已构建的Actor网络和Critic网络及奖励函数，通过引入Beta策略提出SAC算法对燃料电池混动汽车健康约束能量管理策略进行离线训练，获得可继承的参数化神经网络策略；

2.根据权利要求1所述的一种燃料电池混动汽车能量管理方法，其特征在于，所述步骤S1包括以下子步骤：

3.根据权利要求1所述的一种燃料电池混动汽车能量管理方法，其特征在于，所述步骤S2包括以下子步骤：

S201、构建FCHEV模型的动力系统结构；

S202、构建FCHEV模型的燃料电池氢耗模型和寿命模型：

S203、构建FCHEV模型的动力电池电-热-寿命耦合模型；

S204、定义状态空间、动作空间及奖励函数；

4.根据权利要求3所述的一种燃料电池混动汽车能量管理方法，其特征在于，在步骤S201中，基于燃料电池混合动力电动客车，

在时间步t，车辆的纵向牵引力计算如下所示：

车轮转速W_w和驱动轴扭矩T_w如下表示：

此处r_w是车轮半径；

电动机的转速W_m和转矩T_m如下计算：

此处R_fd是最终传动齿轮比，η_fd是驱动轴的效率；

此处η_m是电动机效率；

P_req如下表示：

P_req＝P_DC/DC+P_bat (5)

5.根据权利要求3所述的一种燃料电池混动汽车能量管理方法，其特征在于，在所述的步骤S202中，采用燃料电池氢耗模型和寿命模型构建燃料电池组，燃料电池组的氢气消耗率如下计算：

6.根据权利要求3所述的一种燃料电池混动汽车能量管理方法，其特征在于：在所述的步骤S203中，采用电-热-寿命耦合模型构建动力电池系统，该模型包含三个子模型：二阶RC电模型、双态热模型和能量吞吐量老化模型，具体为：

V_t(t)＝V_oc(SoC)+V_p1(t)+V_p2(t)+R_SI(t) (11)

(2)在双态热模型中，根据热能守恒原理，给出以下方程：

H(t)＝I(t)[V_p1(t)+V_p2(t)+R_s(t)I(t)]+I(t)[T_a(t)+273]E_n(SoC,t) (15)

其中E_n表示电化学反应过程中的熵变；

E_a(c)＝31700-370.3·c (18)

N(c,T_a)＝3600·Ah(c,T_a)/C_n (20)

通过式(16)根据给定的电流、温度和电池动态计算SoH变化，以了解电池组的老化情况。

7.根据权利要求3所述的一种燃料电池混动汽车能量管理方法，其特征在于，在所述的步骤S204中，综合FCHEV模型和能量管理策略之中速度、加速度和电池SoC信息，定义状态空间如下：

s＝[SOC,SOH_bat,SOH_fcs,P_bat,P_fcs,v,a] (21)

定义动作空间为燃料电池系统的输出功率：

a＝P_fcs∈[0,60]kW (22)

式中r₁,r₂,r₃分别为氢气价格、燃料电池系统更换价格和动力电池组更换价格，权重系数ω用于确定资金成本相对于电池SOC值的相对重要性，SOC_ref代表SOC的参考值。

8.根据权利要求1所述的一种燃料电池混动汽车能量管理方法，其特征在于，在所述步骤S3中SAC智能体与仿真环境进行互动，智能体获得当前环境状态信息，根据策略选择动作并执行，进入新的环境状态，并获得环境反馈的奖励，与此同时存储状态、动作、奖励信息，如此循环往复。

9.根据权利要求8所述的一种燃料电池混动汽车能量管理方法，其特征在于，在所述步骤S3中，引入Beta策略采用SAC算法应用于智能体与仿真环境进行互动模型，根据Beta分布的定义，策略表示如下：

10.根据权利要求1所述的一种燃料电池混动汽车能量管理方法，其特征在于，步骤S3中对燃料电池混动汽车健康约束能量管理策略进行离线训练步骤如下：

S304、通过最小化软贝尔曼残差方程训练Critic网络：

S305、通过最小化Kullback-Leibler散度的期望训练Actor网络：

S306、自动调节温度系数，其梯度的计算目标如下：

其中目标熵是动作维度的负数；

θ′←(1-τ)θ′+τθ (28)