CN114969982B

CN114969982B - 一种基于策略迁移的燃料电池汽车深度强化学习能量管理方法

Info

Publication number: CN114969982B
Application number: CN202210671055.XA
Authority: CN
Inventors: 徐达; 周健豪; 赵万忠; 李超雄; 吴旭阳
Original assignee: Nanjing University of Aeronautics and Astronautics
Current assignee: Nanjing University of Aeronautics and Astronautics
Priority date: 2022-06-14
Filing date: 2022-06-14
Publication date: 2024-08-09
Anticipated expiration: 2042-06-14
Also published as: CN114969982A

Abstract

本发明公开了一种基于策略迁移的燃料电池汽车深度强化学习能量管理方法，属于燃料电池混合动力能量管理领域，所构建的策略迁移技术可以有效利用其他车型的车辆能量管理策略，提高迁移后代理模型的训练收敛速度和汽车燃油经济性。本发明方法主要包括：建立两种显著不同的燃料电池汽车模型；建立基于策略迁移的深度确定性策略梯度代理模型；针对一种车型，训练DDPG代理模型，获取训练后DDPG代理模型的网络策略；迁移策略至新的车型上，继续训练DDPG代理模型，利用最终训练完成的DDPG代理进行新车型的能量管理。

Description

一种基于策略迁移的燃料电池汽车深度强化学习能量管理方法

技术领域

本发明属于燃料电池混合动力能量管理领域，尤其涉及一种基于策略迁移的燃料电池汽车深度强化学习能量管理方法。

背景技术

随着化石燃料的消耗与CO₂排放总量快速上升，由于全球石油储量不断减少，环境污染问题和能源短缺问题日益严重，导致全球各地的排放规定日益严格，迫切需要生产更多的节能汽车。燃料电池汽车将燃料中的自由能量直接转化为电能，具有行驶里程长、充电周期短的优点。燃料电池混合动力汽车具有多种输入能量来源和工作模式的多样性的特点。因此，实现燃料电池混合动力汽车高效的能量管理至关重要。

混合动力车辆能量管理算法主要可以分为基于规则的策略、基于优化的策略和基于学习的策略三个大类。基于规则的策略计算量小，在工程实践中应用广泛，但其过于依赖工程师经验，且对不同驾驶工况和车型的可移植性差；基于优化的策略可分为全局优化和实时优化，前者不适合应用在实时控制的场景，后者仍依赖于未来工况信息等先验知识和参数的调节，且易于陷入局部最优。

目前深度强化学习在燃料电池能量管理方面是一种较有潜力的机器学习方法，然而现有技术中的方法存在一些缺点。这类能量管理策略研究基本集中于对某一特定车型的特定目标的案例研究，难以适应其它车型，同时所需训练时间较长，所以为了加速混合动力汽车能量管理策略的开发，提高训练效率，减少成本，能量管理策略的可移植性对车企具有重要意义。

发明内容

本发明提供了一种基于策略迁移的燃料电池汽车深度强化学习能量管理方法，通过策略迁移方法有效利用其他车型车辆的能量管理策略，加速车辆能量管理策略的开发速度，而且可以提升汽车燃油经济性和在不同工况下的泛化性能。

为了实现以上目的，本发明采用以下技术方案：

一种基于策略迁移的燃料电池汽车深度强化学习能量管理方法，包括以下步骤：

步骤1：模拟实际开发情况，建立两种显著不同的燃料电池汽车模型；

步骤2：建立基于策略迁移的DDPG代理模型，设置DDPG代理模型的状态、动作和奖励，得到设置后的DDPG代理模型；

步骤3：针对目标域车型，训练DDPG代理模型，获取训练后DDPG代理模型的网络策略；

步骤4：迁移源域车型策略至目标域车型上，继续训练DDPG代理模型，获取基于策略迁移的DDPG代理模型；

步骤5：利用步骤4得到的基于策略迁移的DDPG代理模型进行新车型的能量管理。

以上所述步骤中，步骤1中所述两种显著不同的燃料电池汽车模型分别为以燃料电池/电池/超级电容的物流卡车与以燃料电池/电池的b级轿车，前者作为源域，后者作为目标域，两个模型均包括汽车动力学模型、燃料电池、电机及电池，不同的是物流卡车模型多包含了超级电容。

所述汽车动力学模型如下公式所示：

其中，v为车辆的速度；f为滚动电阻系数；C_D为气动阻力系数；A为车辆前部区域；ρ为空气密度；a为物流车辆的加速度；α是道路的坡度；m是车辆质量；

所述燃料电池模型采用Amphlett静态模型进行描述。过电位损耗由激活过电位Vact、欧姆过电位Vohm和浓度过电位Vcon三部分组成，其计算公式为：

其中ξ₁，ξ₂，ξ₃，ξ₄和B是由制造商提供的预校准系数；T是温度；I_st是当前堆栈值；是阴极催化剂层的氧浓度；R_st为堆叠的等效电阻；J和J_max分别表示电流密度的实际极限和最大极限；

所述电机模型如下公式所示：

η_m＝LUT(T_mot,ω_mot)

其中，P_req是牵引功率；P_mot是MFC和锂离子电池提供的电机功率；T_mot和ω_mot分别为电机的转矩和转速；LUT代表采用查表法，利用T_mot和ω_mot的实验数据确定效率η_m；

所述电池模型如下公式所示：

式中，R_bat、U_ref、V_oc、I_bat、R_int分别表示电池的开路电阻、额定电压、开路电压、电流、内阻；P_bat为要求电池功率，放电功率为正值，充电功率为负值；P_loss为损失功率；

所述超级电容模型如下公式所示：

其中，N为单元的个数；Q_cell为每个单元的电量；SOC_SC(t_k)、SOC_SC(t_k-1)分别为超级电容瞬时SOC变化、当前SOC和上一时刻SOC；I_SC为超级电容电流；

步骤2中所述基于策略迁移的DDPG代理模型的状态量为：汽车车速v、汽车加速度acc、动力电池SOC和超级电容SOC；动作变量为燃料电池功率P_FC和动力电池功率P_bat，状态变量和动作变量设置如下所示：

奖励函数被用于评价在当前状态下执行动作的表现性能，本发明中越小越好，为行驶成本C和SOC惩罚项之和，奖励函数如下公式所示：

其中，C为车辆行驶成本，α和β为权重因子；SOC_bat和SOC_SC分别为动力电池SOC和超级电容SOC；SOC_{bat_ref}和分别为动力电池SOC和超级电容SOC的参考值；

上述步骤中采用了一种虚拟变量的方法，以满足在迁移策略时，两种车型车辆的DDPG代理模型的状态量、动作量必须相同的条件，此方法为b级轿车的状态量、动作量增加了一个虚拟维度，并用一个定值来替代原本的超级电容SOC和动力电池功率P_bat；

步骤3针对目标域车型，训练DDPG代理模型，获取训练后DDPG代理模型的网络策略，具体包括以下步骤：

步骤A：初始化所述设置后的DDPG代理模型；

步骤B：将初始化后的DDPG代理模型与驾驶循环和燃料电池汽车进行交互，得到训练数据集；

步骤C：使用训练数据集对DDPG代理模型进行训练，得到训练后的DDPG代理模型。

上述步骤A具体包括：用权重θ_Q和θ_μ分别初始化DDPG代理模型中的当前Actor网络参数与Critic网络参数；用权重θ_Q′和θ_μ′初始化目标Actor网络参数与Critic网络参数；累计梯度θ_Qi′←θ_Qi，θ_μ′←θ_μ，最终得到初始化后的DDPG代理模型；

上述步骤B将初始化后的DDPG代理模型与驾驶循环和燃料电池汽车进行交互，得到训练数据集，具体包括：当前神经网络与环境进行交互，将当前状态集合s_t＝{v,acc,SOC_SC,SOC_bat}^T输入当前神经网络，根据当前策略π(a_t|s_t；θ′)得到动作a_t；为了更好的进行探索，控制信号a_t在拉普拉斯分布中随机采样获得，将当前动作a_t作用于燃料电池汽车得到当前回报r_t以及下一时刻的状态集合s_t+1；最后，根据上述的相关数据s_t,a,r_t和s_t+1，得到训练数据集(s_t,a_t,r_t,s_t+1)，用于神经网络的训练过程；

上述步骤C使用训练数据集对DDPG代理模型进行训练，得到训练后的DDPG代理模型，具体包括以下几个步骤：

步骤①：从优先经验回放集合D中采样m个样本，并计算当前目标Q值，采用的公式为：

其中，y_i为当前目标Q值，r_i为当前奖励；s_i为当前状态；γ为衰减因子；Q_j′(s′,a′)为目标Q值；

步骤②：通过均方差损失函数和L2正则更新critic网络，采用的公式为：

其中，L_k为总损失函数；M为采样经验池大小；Q(s_j,a_j)为当前Q值；L₂为L2正则损失函数。

步骤③：使用梯度策略更新actor策略，采用的公式为：

其中，J是目标函数；θ_μ是当前actor网络参数；

步骤④：为所有采样的经验重新计算TD-error δ_i＝y_i-Q(S_i,A_i|θ_Q)，更新经验池中各经验优先级；

步骤⑤：采用平滑的方式更新目标网络参数:

其中，τ是软更新权重；θ_Q、θ_Qi′、θ_μ、θ_μ′分别代表当前critic网络、目标critic网络、当前actor网络、目标actor网络的参数；

步骤⑥：如此重复步骤①至步骤⑤，直至达到训练要求，最后得到训练后的物流轻型卡车DDPG代理模型。

上述步骤4迁移源域车型策略至目标域车型上，继续训练DDPG代理模型，获取基于策略迁移的DDPG代理模型，所述迁移源域车型策略，其具体方法为：以一部分或者全部的源域训练完成的DDPG代理模型的网络策略参数，替代目标域初始化后的网络策略参数，具体迁移的网络层数可自由调整，在此基础上进行后续部分，步骤4的后续部分与步骤3相同。

上述步骤5利用最终训练完成的DDPG代理进行新车型的能量管理，具体包括以下步骤：

第一步：通过相关传感器获取目标域汽车当前状态量集合

s_t＝{v,acc,SOC_SC,SOC_bat}^T，其中SOC_SC为设置好的虚拟变量；

第二步：将获取的汽车当前状态量集合s_t＝{v,acc,SOC_SC,SOC_bat}^T输入训练后的基于迁移策略的DDPG代理模型，进而输出控制量燃料电池功率P_FC；

第三步：将所获得的控制量燃料电池功率P_FC作用于汽车，驱动汽车行驶，进而得到下一时刻汽车状态量集合s_t+1＝{v,acc,SOC_SC,SOC_bat}^T；

第四步：如此重复第一步至第三步，直至汽车完成行驶任务。

以上所述的基于策略迁移的燃料电池车辆能量管理方法理论上是数据驱动和无模型的，对燃料电池混合动力系统的任何特定拓扑不敏感，可应用于各种复合电源燃料电池系统。

有益效果：本发明提供了一种基于策略迁移的燃料电池汽车深度强化学习能量管理方法。首先，为了模拟实际开发情况，建立两种显著不同的燃料电池汽车模型，以燃料电池/电池/超级电容为动力源的物流卡车作为源域车型，以燃料电池/电池为动力源的b级轿车作为目标域车型；其次，建立基于策略迁移的DDPG代理模型，设置DDPG代理模型的状态、动作和奖励；然后，针对目标域车型，训练DDPG代理模型，获取训练后DDPG代理模型的网络策略；再次，迁移源域车型策略至目标域车型上，继续训练DDPG代理模型，获取基于策略迁移的DDPG代理模型；最后利用最终训练完成的DDPG代理进行新车型的能量管理，以获取更好的控制效果。采用本发明的方法可以有效解决能量管理策略只针对某一特定车型的特定目标的案例研究，难以适应其它车型，且所需训练时间长的问题，可以有效利用其他车型的车辆能量管理策略，能够通过在不同类型的燃料电池汽车之间迁移数据，加速车辆能量管理策略的开发速度，提高迁移后代理模型的训练收敛速度、汽车燃油经济性、泛化性能和算法鲁棒性，而且可以提升汽车燃油经济性和在不同工况下的泛化性能。本发明基于策略迁移的燃料电池车辆能量管理方法理论上是数据驱动和无模型的，对燃料电池混合动力系统的任何特定拓扑不敏感，可应用于各种复合电源燃料电池系统。

附图说明

图1是本发明实施例中源域燃料电池汽车的结构图；

图2是本发明实施例中目标域燃料电池汽车的结构图；

图3是本发明实施例中基于策略迁移的能量管理策略设计方法流程示意图；

图4是本发明实施例中虚拟变量方法示意图；

图5是本发明实施例中未迁移DDPG和迁移策略DDPG的平均奖励随训练时间变化曲线图；

图6是本发明实施例中未迁移DDPG和迁移策略DDPG的燃油经济性对比。

具体实施方式

下面结合附图和具体实施例对本发明进行详细说明：

如图1所示，根据结构图可以看出源域燃料电池汽车(物流卡车)主要由燃料电池、电池、电机、超级电容、主减速器和能量管理系统控制器组成，燃料电池、电池和超级电容组成燃料汽车的动力源。其中燃料电池和超级电容分别通过DC/DC转换器连接到母线上。

如图2所示，根据结构图可以看出目标域燃料电池汽车(b级轿车)主要由燃料电池、电池、电机、主减速器和能量管理系统控制器组成，燃料电池和电池组成燃料汽车的动力源。其中燃料电池通过DC/DC转换器连接到母线上。目标域汽车与源域汽车结构上唯一的区别是去掉了超级电容及其连接的DC/DC转换器。因此，所述两种汽车动力学模型如下公式所示：

其中，v为车辆的速度；f为滚动电阻系数；C_D为气动阻力系数；A为车辆前部区域；ρ为空气密度；a为物流车辆的加速度；α是道路的坡度；m为车辆质量；

所述燃料电池模型采用Amphlett静态模型进行描述，过电位损耗由激活过电位Vact、欧姆过电位Vohm和浓度过电位Vcon三部分组成，其计算公式为：

所述电机模型如下公式所示：

η_m＝LUT(T_mot,ω_mot)

所述电池模型如下公式所示：

所述超级电容模型如下公式所示：

其中，N为单元的个数；Q_cell为每个单元的电量；SOC_SC(t_k)、SOC_SC(t_k-1)分别为超级电容瞬时SOC变化、当前SOC和上一时刻SOC；I_SC为超级电容电流。

图3是本发明实施例中提供的基于策略迁移的能量管理策略设计方法流程示意图,按照流程示意图，完成对基于策略迁移的车辆能量管理结构系统的设计。

如图3所示，基于策略迁移的燃料电池汽车深度强化学习能量管理方法，其流程包括：模拟实际开发情况，建立两种显著不同的燃料电池汽车模型；建立基于策略迁移的DDPG代理模型，设置DDPG代理模型的状态、动作和奖励，得到设置后的DDPG代理模型；针对目标域车型，训练DDPG代理模型，获取训练后DDPG代理模型的网络策略；迁移源域车型策略至目标域车型上，继续训练DDPG代理模型，获取基于策略迁移的DDPG代理模型；利用最终训练完成的DDPG代理进行新车型的能量管理。

所述基于策略迁移的DDPG代理模型的状态量为：汽车车速v、汽车加速度acc、动力电池SOC和超级电容SOC；动作变量为燃料电池功率P_FC和动力电池功率P_bat。状态变量和动作变量设置如下所示：

奖励函数被用于评价在当前状态下执行动作的表现性能，本发明中越小越好，为行驶成本C和SOC惩罚项之和。奖励函数如下公式所示：

其中，C为车辆行驶成本，α和β为权重因子，SOC_{bat_ref}和分别为动力电池SOC和超级电容SOC的参考值；

图4是本发明实施例中提供的虚拟变量方法示意图，用以满足在迁移策略时，两种车型车辆的DDPG代理模型的状态量、动作量必须相同的条件。上述步骤中为b级轿车的状态量、动作量增加了一个虚拟维度，并用一个定值来替代原本的超级电容SOC和动力电池功率P_bat。

如图4所示，虚拟变量方法包括Actor网络和Critic网络两个部分，其中橙色节点代表所增加的虚拟变量。新增的虚拟状态变量对应着源域中的超级电容SOC，为了使虚拟状态变量不影响agent的输出，一般将其设为0到1间的一个常量。在增加虚拟状态变量后，Actor网络将产生一个虚拟动作变量，对应源域中的电池功率，但在输出动作时并不会被用到。然后两个虚拟变量将作为Critic网络的输入节点参与q值的拟合。

针对目标域车型，训练DDPG代理模型，获取训练后DDPG代理模型的网络策略，具体包括以下步骤：

步骤A：初始化所述设定后的DDPG代理模型；

上述步骤A具体包括：用权重θ_Q和θ_μ分别初始化DDPG代理模型中的当前Actor网络参数与Critic网络参数；用权重θ_Q′和θ_μ′初始化目标Actor网络参数与Critic网络参数；累计梯度θ_Qi′←θ_Qi，θ_μ′←θ_μ，最终得到初始化后的DDPG代理模型。

上述步骤B将初始化后的DDPG代理模型与驾驶循环和燃料电池汽车进行交互，得到训练数据集，具体包括：当前神经网络与环境进行交互，将当前状态集合s_t＝{v,acc,SOC_SC,SOC_bat}^T输入当前神经网络，根据当前策略π(a_t|s_t；θ′)得到动作a_t；为了更好的进行探索，控制信号a_t在拉普拉斯分布中随机采样获得，将当前动作a_t作用于燃料电池汽车得到当前回报r_t以及下一时刻的状态集合s_t+1；最后，根据上述的相关数据s_t,a,r_t和s_t+1，得到训练数据集(s_t,a_t,r_t,s_t+1)，用于神经网络的训练过程。

其中，y_i为当前目标Q值，r_i为当前奖励；s_i为当前状态；γ为衰减因子；

Q_j′(s′,a′)为目标Q值；

步骤②：通过均方差损失函数函数和L2正则更新critic网络，采用的公式为：

其中，L_k为总损失函数；M为采样经验池大小；Q(s_j,a_j)为当前Q值；L₂为

L2正则损失函数；

步骤③：使用梯度策略更新actor策略，采用的公式为：

其中，J是目标函数；θ_μ是当前actor；

步骤⑤：采用平滑的方式更新目标网络参数:

上述步骤4迁移源域车型策略至目标域车型上，继续训练DDPG代理模型，获取基于策略迁移的DDPG代理模型，所述迁移源域车型策略，其具体方法为，以一部分或者全部的源域训练完成的DDPG代理模型的网络策略参数，替代目标域初始化后的网络策略参数，具体迁移的网络层数可自由调整。在此基础上进行后续部分，步骤4的后续部分与步骤3相同。

第一步：通过相关传感器获取目标域汽车当前状态量集合s_t＝{v,acc,SOC_SC,SOC_bat}^T，其中SOC_SC为设置好的虚拟变量；

图5是本发明实施例中提供的未迁移DDPG和迁移策略DDPG的平均奖励随训练时间变化曲线图，从图中可以看出基于迁移策略的DDPG能量管理策略在训练收敛速度有一定提升，收敛步数从52步缩短为44步，同时基于迁移策略的DDPG的收敛后平均奖励也比未迁移DDPG更低，表明其燃油经济性提高了。

图6是本发明实施例中提供的未迁移DDPG和迁移策略DDPG的燃油经济性对比。其中各条依次为为总成本，氢耗成本，燃料电池退化成本和电池退化成本。由图可以得出，基于迁移策略DDPG的能量管理策略的氢耗成本和电池退化成本对比未迁移DDPG有明显下降，使得总成本下降，基于迁移策略DDPG的燃油经济性提高了约5％。

本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成，也可以通过程序来指令相关的硬件完成，该程序可以存储于一种计算机可读存储介质中，上述提到的存储介质可以是只读存储器，磁盘或光盘等。

以上仅是本发明的优选实施方式，熟悉本领域技术的人员可以对这些实施例做出各种修改，并把在此说明的一般原理应用到其他实施例中而不经过创造性的劳动，因此本发明不限于上述实施例，本领域技术人员根据本发明的揭示，不脱离本发明范畴所做出的改进和修改都在本发明的保护范围之内。

Claims

1.一种基于策略迁移的燃料电池汽车深度强化学习能量管理方法，其特征在于，包括以下步骤：

步骤1：建立两种显著不同的燃料电池汽车模型，分别为源域燃料电池汽车和目标域燃料电池汽车，所述源域燃料电池汽车模型均包括汽车动力学模型、燃料电池、电机、电池、超级电容；所述目标域燃料电池汽车包括汽车动力学模型、燃料电池、电机及电池；

步骤4：迁移源域车型策略至目标域车型上，继续训练DDPG代理模型，获取基于策略迁移的DDPG代理模型；具体包括以下步骤：以一部分或者全部的源域训练完成的DDPG代理模型的网络策略参数，替代目标域初始化后的网络策略参数，具体迁移的网络层数可自由调整，在此基础上进行与步骤3相同的后续部分；

步骤5：利用步骤4得到的基于策略迁移的DDPG代理模型进行新车型的能量管理；具体包括以下步骤：

2.根据权利要求1所述的基于策略迁移的燃料电池汽车深度强化学习能量管理方法，其特征在于，所述汽车动力学模型如下公式所示：

其中ξ₁，ξ₂，ξ₃，ξ₄和B是由制造商提供的预校准系数；T是温度；I_st是当前堆栈值；C_O2是阴极催化剂层的氧浓度；R_st为堆叠的等效电阻；J和J_max分别表示电流密度的实际极限和最大极限；

所述电机模型如下公式所示：

η_m＝LUT(T_mot,ω_mot)

所述电池模型如下公式所示：

所述超级电容模型如下公式所示：

3.根据权利要求1所述的基于策略迁移的燃料电池汽车深度强化学习能量管理方法，其特征在于，步骤2中所述基于策略迁移的DDPG代理模型的状态量为：汽车车速v、汽车加速度acc、动力电池SOC和超级电容SOC；动作变量为燃料电池功率P_FC和动力电池功率P_bat，状态变量和动作变量设置如下所示：

奖励函数被用于评价在当前状态下执行动作的表现性能，越小越好，为行驶成本C和SOC惩罚项之和，奖励函数如下公式所示：

其中，C为车辆行驶成本，α和β为权重因子，；SOC_bat和SOC_SC分别为动力电池SOC和超级电容SOC；SOC_{bat_ref}和分别为动力电池SOC和超级电容SOC的参考值。

4.根据权利要求1所述的基于策略迁移的燃料电池汽车深度强化学习能量管理方法，其特征在于，步骤3具体包括以下步骤：

步骤A：初始化所述设置后的DDPG代理模型；

5.根据权利要求4所述的基于策略迁移的燃料电池汽车深度强化学习能量管理方法，其特征在于，步骤A具体包括：用权重θ_Q和θ_μ分别初始化DDPG代理模型中的当前Actor网络参数与Critic网络参数；用权重θ_Q′和θ_μ′初始化目标Actor网络参数与Critic网络参数；累计梯度θ_Qi′←θ_Qi，θ_μ′←θ_μ，最终得到初始化后的DDPG代理模型。

6.根据权利要求4所述的基于策略迁移的燃料电池汽车深度强化学习能量管理方法，其特征在于，步骤B将初始化后的DDPG代理模型与驾驶循环和燃料电池汽车进行交互，得到训练数据集，具体包括：当前神经网络与环境进行交互，将当前状态集合s_t＝{v,acc,SOC_SC,SOC_bat}^T输入当前神经网络，根据当前策略π(a_t|s_t；θ′)得到动作a_t；控制信号a_t在拉普拉斯分布中随机采样获得，将当前动作a_t作用于燃料电池汽车得到当前回报r_t以及下一时刻的状态集合s_t+1；最后，根据上述的相关数据s_t,a,r_t和s_t+1，得到训练数据集(s_t,a_t,r_t,s_t+1)。

7.根据权利要求4所述的基于策略迁移的燃料电池汽车深度强化学习能量管理方法，其特征在于，步骤C具体包括以下几个步骤：

步骤②：通过均方差损失函数和L2正则更新critic网络，采用的公式为：:

其中，L_k为总损失函数；M为采样经验池大小；Q(s_j,a_j)为当前Q值；L₂为L2正则损失函数；

步骤③：使用梯度策略更新actor策略，采用的公式为：

其中，J是目标函数；θ_μ是当前actor网络参数；

步骤④：为所有采样的经验重新计算TD-errorδ_i＝y_i-Q(S_i,A_i|θ_Q)，更新经验池中各经验优先级；

步骤⑤：采用平滑的方式更新目标网络参数: