CN114969982B - 一种基于策略迁移的燃料电池汽车深度强化学习能量管理方法 - Google Patents

一种基于策略迁移的燃料电池汽车深度强化学习能量管理方法 Download PDF

Info

Publication number
CN114969982B
CN114969982B CN202210671055.XA CN202210671055A CN114969982B CN 114969982 B CN114969982 B CN 114969982B CN 202210671055 A CN202210671055 A CN 202210671055A CN 114969982 B CN114969982 B CN 114969982B
Authority
CN
China
Prior art keywords
ddpg
fuel cell
model
soc
strategy
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202210671055.XA
Other languages
English (en)
Other versions
CN114969982A (zh
Inventor
徐达
周健豪
赵万忠
李超雄
吴旭阳
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing University of Aeronautics and Astronautics
Original Assignee
Nanjing University of Aeronautics and Astronautics
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing University of Aeronautics and Astronautics filed Critical Nanjing University of Aeronautics and Astronautics
Priority to CN202210671055.XA priority Critical patent/CN114969982B/zh
Publication of CN114969982A publication Critical patent/CN114969982A/zh
Application granted granted Critical
Publication of CN114969982B publication Critical patent/CN114969982B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F30/00Computer-aided design [CAD]
    • G06F30/10Geometric CAD
    • G06F30/15Vehicle, aircraft or watercraft design
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60WCONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
    • B60W50/00Details of control systems for road vehicle drive control not related to the control of a particular sub-unit, e.g. process diagnostic or vehicle driver interfaces
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F30/00Computer-aided design [CAD]
    • G06F30/20Design optimisation, verification or simulation
    • G06F30/27Design optimisation, verification or simulation using machine learning, e.g. artificial intelligence, neural networks, support vector machines [SVM] or training a model
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60WCONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
    • B60W50/00Details of control systems for road vehicle drive control not related to the control of a particular sub-unit, e.g. process diagnostic or vehicle driver interfaces
    • B60W2050/0001Details of the control system
    • B60W2050/0019Control system elements or transfer functions
    • B60W2050/0028Mathematical models, e.g. for simulation
    • B60W2050/0031Mathematical model of the vehicle
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2119/00Details relating to the type or aim of the analysis or the optimisation
    • G06F2119/06Power analysis or power optimisation
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T90/00Enabling technologies or technologies with a potential or indirect contribution to GHG emissions mitigation
    • Y02T90/40Application of hydrogen technology to transportation, e.g. using fuel cells

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • General Physics & Mathematics (AREA)
  • Geometry (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Software Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Biomedical Technology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Automation & Control Theory (AREA)
  • General Health & Medical Sciences (AREA)
  • Computer Hardware Design (AREA)
  • Mechanical Engineering (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Medical Informatics (AREA)
  • Transportation (AREA)
  • Human Computer Interaction (AREA)
  • Aviation & Aerospace Engineering (AREA)
  • Computational Mathematics (AREA)
  • Mathematical Analysis (AREA)
  • Mathematical Optimization (AREA)
  • Pure & Applied Mathematics (AREA)
  • Fuel Cell (AREA)
  • Electric Propulsion And Braking For Vehicles (AREA)

Abstract

本发明公开了一种基于策略迁移的燃料电池汽车深度强化学习能量管理方法,属于燃料电池混合动力能量管理领域,所构建的策略迁移技术可以有效利用其他车型的车辆能量管理策略,提高迁移后代理模型的训练收敛速度和汽车燃油经济性。本发明方法主要包括:建立两种显著不同的燃料电池汽车模型;建立基于策略迁移的深度确定性策略梯度代理模型;针对一种车型,训练DDPG代理模型,获取训练后DDPG代理模型的网络策略;迁移策略至新的车型上,继续训练DDPG代理模型,利用最终训练完成的DDPG代理进行新车型的能量管理。

Description

一种基于策略迁移的燃料电池汽车深度强化学习能量管理 方法
技术领域
本发明属于燃料电池混合动力能量管理领域,尤其涉及一种基于策略迁移的燃料电池汽车深度强化学习能量管理方法。
背景技术
随着化石燃料的消耗与CO2排放总量快速上升,由于全球石油储量不断减少,环境污染问题和能源短缺问题日益严重,导致全球各地的排放规定日益严格,迫切需要生产更多的节能汽车。燃料电池汽车将燃料中的自由能量直接转化为电能,具有行驶里程长、充电周期短的优点。燃料电池混合动力汽车具有多种输入能量来源和工作模式的多样性的特点。因此,实现燃料电池混合动力汽车高效的能量管理至关重要。
混合动力车辆能量管理算法主要可以分为基于规则的策略、基于优化的策略和基于学习的策略三个大类。基于规则的策略计算量小,在工程实践中应用广泛,但其过于依赖工程师经验,且对不同驾驶工况和车型的可移植性差;基于优化的策略可分为全局优化和实时优化,前者不适合应用在实时控制的场景,后者仍依赖于未来工况信息等先验知识和参数的调节,且易于陷入局部最优。
目前深度强化学习在燃料电池能量管理方面是一种较有潜力的机器学习方法,然而现有技术中的方法存在一些缺点。这类能量管理策略研究基本集中于对某一特定车型的特定目标的案例研究,难以适应其它车型,同时所需训练时间较长,所以为了加速混合动力汽车能量管理策略的开发,提高训练效率,减少成本,能量管理策略的可移植性对车企具有重要意义。
发明内容
本发明提供了一种基于策略迁移的燃料电池汽车深度强化学习能量管理方法,通过策略迁移方法有效利用其他车型车辆的能量管理策略,加速车辆能量管理策略的开发速度,而且可以提升汽车燃油经济性和在不同工况下的泛化性能。
为了实现以上目的,本发明采用以下技术方案:
一种基于策略迁移的燃料电池汽车深度强化学习能量管理方法,包括以下步骤:
步骤1:模拟实际开发情况,建立两种显著不同的燃料电池汽车模型;
步骤2:建立基于策略迁移的DDPG代理模型,设置DDPG代理模型的状态、动作和奖励,得到设置后的DDPG代理模型;
步骤3:针对目标域车型,训练DDPG代理模型,获取训练后DDPG代理模型的网络策略;
步骤4:迁移源域车型策略至目标域车型上,继续训练DDPG代理模型,获取基于策略迁移的DDPG代理模型;
步骤5:利用步骤4得到的基于策略迁移的DDPG代理模型进行新车型的能量管理。
以上所述步骤中,步骤1中所述两种显著不同的燃料电池汽车模型分别为以燃料电池/电池/超级电容的物流卡车与以燃料电池/电池的b级轿车,前者作为源域,后者作为目标域,两个模型均包括汽车动力学模型、燃料电池、电机及电池,不同的是物流卡车模型多包含了超级电容。
所述汽车动力学模型如下公式所示:
其中,v为车辆的速度;f为滚动电阻系数;CD为气动阻力系数;A为车辆前部区域;ρ为空气密度;a为物流车辆的加速度;α是道路的坡度;m是车辆质量;
所述燃料电池模型采用Amphlett静态模型进行描述。过电位损耗由激活过电位Vact、欧姆过电位Vohm和浓度过电位Vcon三部分组成,其计算公式为:
其中ξ1,ξ2,ξ3,ξ4和B是由制造商提供的预校准系数;T是温度;Ist是当前堆栈值;是阴极催化剂层的氧浓度;Rst为堆叠的等效电阻;J和Jmax分别表示电流密度的实际极限和最大极限;
所述电机模型如下公式所示:
ηm=LUT(Tmotmot)
其中,Preq是牵引功率;Pmot是MFC和锂离子电池提供的电机功率;Tmot和ωmot分别为电机的转矩和转速;LUT代表采用查表法,利用Tmot和ωmot的实验数据确定效率ηm
所述电池模型如下公式所示:
式中,Rbat、Uref、Voc、Ibat、Rint分别表示电池的开路电阻、额定电压、开路电压、电流、内阻;Pbat为要求电池功率,放电功率为正值,充电功率为负值;Ploss为损失功率;
所述超级电容模型如下公式所示:
其中,N为单元的个数;Qcell为每个单元的电量;SOCSC(tk)、SOCSC(tk-1)分别为超级电容瞬时SOC变化、当前SOC和上一时刻SOC;ISC为超级电容电流;
步骤2中所述基于策略迁移的DDPG代理模型的状态量为:汽车车速v、汽车加速度acc、动力电池SOC和超级电容SOC;动作变量为燃料电池功率PFC和动力电池功率Pbat,状态变量和动作变量设置如下所示:
奖励函数被用于评价在当前状态下执行动作的表现性能,本发明中越小越好,为行驶成本C和SOC惩罚项之和,奖励函数如下公式所示:
其中,C为车辆行驶成本,α和β为权重因子;SOCbat和SOCSC分别为动力电池SOC和超级电容SOC;SOCbat_ref分别为动力电池SOC和超级电容SOC的参考值;
上述步骤中采用了一种虚拟变量的方法,以满足在迁移策略时,两种车型车辆的DDPG代理模型的状态量、动作量必须相同的条件,此方法为b级轿车的状态量、动作量增加了一个虚拟维度,并用一个定值来替代原本的超级电容SOC和动力电池功率Pbat
步骤3针对目标域车型,训练DDPG代理模型,获取训练后DDPG代理模型的网络策略,具体包括以下步骤:
步骤A:初始化所述设置后的DDPG代理模型;
步骤B:将初始化后的DDPG代理模型与驾驶循环和燃料电池汽车进行交互,得到训练数据集;
步骤C:使用训练数据集对DDPG代理模型进行训练,得到训练后的DDPG代理模型。
上述步骤A具体包括:用权重θQ和θμ分别初始化DDPG代理模型中的当前Actor网络参数与Critic网络参数;用权重θQ′和θμ′初始化目标Actor网络参数与Critic网络参数;累计梯度θQi′←θQi,θμ′←θμ,最终得到初始化后的DDPG代理模型;
上述步骤B将初始化后的DDPG代理模型与驾驶循环和燃料电池汽车进行交互,得到训练数据集,具体包括:当前神经网络与环境进行交互,将当前状态集合st={v,acc,SOCSC,SOCbat}T输入当前神经网络,根据当前策略π(at|st;θ′)得到动作at;为了更好的进行探索,控制信号at在拉普拉斯分布中随机采样获得,将当前动作at作用于燃料电池汽车得到当前回报rt以及下一时刻的状态集合st+1;最后,根据上述的相关数据st,a,rt和st+1,得到训练数据集(st,at,rt,st+1),用于神经网络的训练过程;
上述步骤C使用训练数据集对DDPG代理模型进行训练,得到训练后的DDPG代理模型,具体包括以下几个步骤:
步骤①:从优先经验回放集合D中采样m个样本,并计算当前目标Q值,采用的公式为:
其中,yi为当前目标Q值,ri为当前奖励;si为当前状态;γ为衰减因子;Qj′(s′,a′)为目标Q值;
步骤②:通过均方差损失函数和L2正则更新critic网络,采用的公式为:
其中,Lk为总损失函数;M为采样经验池大小;Q(sj,aj)为当前Q值;L2为L2正则损失函数。
步骤③:使用梯度策略更新actor策略,采用的公式为:
其中,J是目标函数;θμ是当前actor网络参数;
步骤④:为所有采样的经验重新计算TD-error δi=yi-Q(Si,AiQ),更新经验池中各经验优先级;
步骤⑤:采用平滑的方式更新目标网络参数:
其中,τ是软更新权重;θQ、θQi′、θμ、θμ′分别代表当前critic网络、目标critic网络、当前actor网络、目标actor网络的参数;
步骤⑥:如此重复步骤①至步骤⑤,直至达到训练要求,最后得到训练后的物流轻型卡车DDPG代理模型。
上述步骤4迁移源域车型策略至目标域车型上,继续训练DDPG代理模型,获取基于策略迁移的DDPG代理模型,所述迁移源域车型策略,其具体方法为:以一部分或者全部的源域训练完成的DDPG代理模型的网络策略参数,替代目标域初始化后的网络策略参数,具体迁移的网络层数可自由调整,在此基础上进行后续部分,步骤4的后续部分与步骤3相同。
上述步骤5利用最终训练完成的DDPG代理进行新车型的能量管理,具体包括以下步骤:
第一步:通过相关传感器获取目标域汽车当前状态量集合
st={v,acc,SOCSC,SOCbat}T,其中SOCSC为设置好的虚拟变量;
第二步:将获取的汽车当前状态量集合st={v,acc,SOCSC,SOCbat}T输入训练后的基于迁移策略的DDPG代理模型,进而输出控制量燃料电池功率PFC
第三步:将所获得的控制量燃料电池功率PFC作用于汽车,驱动汽车行驶,进而得到下一时刻汽车状态量集合st+1={v,acc,SOCSC,SOCbat}T
第四步:如此重复第一步至第三步,直至汽车完成行驶任务。
以上所述的基于策略迁移的燃料电池车辆能量管理方法理论上是数据驱动和无模型的,对燃料电池混合动力系统的任何特定拓扑不敏感,可应用于各种复合电源燃料电池系统。
有益效果:本发明提供了一种基于策略迁移的燃料电池汽车深度强化学习能量管理方法。首先,为了模拟实际开发情况,建立两种显著不同的燃料电池汽车模型,以燃料电池/电池/超级电容为动力源的物流卡车作为源域车型,以燃料电池/电池为动力源的b级轿车作为目标域车型;其次,建立基于策略迁移的DDPG代理模型,设置DDPG代理模型的状态、动作和奖励;然后,针对目标域车型,训练DDPG代理模型,获取训练后DDPG代理模型的网络策略;再次,迁移源域车型策略至目标域车型上,继续训练DDPG代理模型,获取基于策略迁移的DDPG代理模型;最后利用最终训练完成的DDPG代理进行新车型的能量管理,以获取更好的控制效果。采用本发明的方法可以有效解决能量管理策略只针对某一特定车型的特定目标的案例研究,难以适应其它车型,且所需训练时间长的问题,可以有效利用其他车型的车辆能量管理策略,能够通过在不同类型的燃料电池汽车之间迁移数据,加速车辆能量管理策略的开发速度,提高迁移后代理模型的训练收敛速度、汽车燃油经济性、泛化性能和算法鲁棒性,而且可以提升汽车燃油经济性和在不同工况下的泛化性能。本发明基于策略迁移的燃料电池车辆能量管理方法理论上是数据驱动和无模型的,对燃料电池混合动力系统的任何特定拓扑不敏感,可应用于各种复合电源燃料电池系统。
附图说明
图1是本发明实施例中源域燃料电池汽车的结构图;
图2是本发明实施例中目标域燃料电池汽车的结构图;
图3是本发明实施例中基于策略迁移的能量管理策略设计方法流程示意图;
图4是本发明实施例中虚拟变量方法示意图;
图5是本发明实施例中未迁移DDPG和迁移策略DDPG的平均奖励随训练时间变化曲线图;
图6是本发明实施例中未迁移DDPG和迁移策略DDPG的燃油经济性对比。
具体实施方式
下面结合附图和具体实施例对本发明进行详细说明:
如图1所示,根据结构图可以看出源域燃料电池汽车(物流卡车)主要由燃料电池、电池、电机、超级电容、主减速器和能量管理系统控制器组成,燃料电池、电池和超级电容组成燃料汽车的动力源。其中燃料电池和超级电容分别通过DC/DC转换器连接到母线上。
如图2所示,根据结构图可以看出目标域燃料电池汽车(b级轿车)主要由燃料电池、电池、电机、主减速器和能量管理系统控制器组成,燃料电池和电池组成燃料汽车的动力源。其中燃料电池通过DC/DC转换器连接到母线上。目标域汽车与源域汽车结构上唯一的区别是去掉了超级电容及其连接的DC/DC转换器。因此,所述两种汽车动力学模型如下公式所示:
其中,v为车辆的速度;f为滚动电阻系数;CD为气动阻力系数;A为车辆前部区域;ρ为空气密度;a为物流车辆的加速度;α是道路的坡度;m为车辆质量;
所述燃料电池模型采用Amphlett静态模型进行描述,过电位损耗由激活过电位Vact、欧姆过电位Vohm和浓度过电位Vcon三部分组成,其计算公式为:
其中ξ1,ξ2,ξ3,ξ4和B是由制造商提供的预校准系数;T是温度;Ist是当前堆栈值;是阴极催化剂层的氧浓度;Rst为堆叠的等效电阻;J和Jmax分别表示电流密度的实际极限和最大极限;
所述电机模型如下公式所示:
ηm=LUT(Tmotmot)
其中,Preq是牵引功率;Pmot是MFC和锂离子电池提供的电机功率;Tmot和ωmot分别为电机的转矩和转速;LUT代表采用查表法,利用Tmot和ωmot的实验数据确定效率ηm
所述电池模型如下公式所示:
式中,Rbat、Uref、Voc、Ibat、Rint分别表示电池的开路电阻、额定电压、开路电压、电流、内阻;Pbat为要求电池功率,放电功率为正值,充电功率为负值;Ploss为损失功率;
所述超级电容模型如下公式所示:
其中,N为单元的个数;Qcell为每个单元的电量;SOCSC(tk)、SOCSC(tk-1)分别为超级电容瞬时SOC变化、当前SOC和上一时刻SOC;ISC为超级电容电流。
图3是本发明实施例中提供的基于策略迁移的能量管理策略设计方法流程示意图,按照流程示意图,完成对基于策略迁移的车辆能量管理结构系统的设计。
如图3所示,基于策略迁移的燃料电池汽车深度强化学习能量管理方法,其流程包括:模拟实际开发情况,建立两种显著不同的燃料电池汽车模型;建立基于策略迁移的DDPG代理模型,设置DDPG代理模型的状态、动作和奖励,得到设置后的DDPG代理模型;针对目标域车型,训练DDPG代理模型,获取训练后DDPG代理模型的网络策略;迁移源域车型策略至目标域车型上,继续训练DDPG代理模型,获取基于策略迁移的DDPG代理模型;利用最终训练完成的DDPG代理进行新车型的能量管理。
所述基于策略迁移的DDPG代理模型的状态量为:汽车车速v、汽车加速度acc、动力电池SOC和超级电容SOC;动作变量为燃料电池功率PFC和动力电池功率Pbat。状态变量和动作变量设置如下所示:
奖励函数被用于评价在当前状态下执行动作的表现性能,本发明中越小越好,为行驶成本C和SOC惩罚项之和。奖励函数如下公式所示:
其中,C为车辆行驶成本,α和β为权重因子,SOCbat_ref分别为动力电池SOC和超级电容SOC的参考值;
图4是本发明实施例中提供的虚拟变量方法示意图,用以满足在迁移策略时,两种车型车辆的DDPG代理模型的状态量、动作量必须相同的条件。上述步骤中为b级轿车的状态量、动作量增加了一个虚拟维度,并用一个定值来替代原本的超级电容SOC和动力电池功率Pbat
如图4所示,虚拟变量方法包括Actor网络和Critic网络两个部分,其中橙色节点代表所增加的虚拟变量。新增的虚拟状态变量对应着源域中的超级电容SOC,为了使虚拟状态变量不影响agent的输出,一般将其设为0到1间的一个常量。在增加虚拟状态变量后,Actor网络将产生一个虚拟动作变量,对应源域中的电池功率,但在输出动作时并不会被用到。然后两个虚拟变量将作为Critic网络的输入节点参与q值的拟合。
针对目标域车型,训练DDPG代理模型,获取训练后DDPG代理模型的网络策略,具体包括以下步骤:
步骤A:初始化所述设定后的DDPG代理模型;
步骤B:将初始化后的DDPG代理模型与驾驶循环和燃料电池汽车进行交互,得到训练数据集;
步骤C:使用训练数据集对DDPG代理模型进行训练,得到训练后的DDPG代理模型。
上述步骤A具体包括:用权重θQ和θμ分别初始化DDPG代理模型中的当前Actor网络参数与Critic网络参数;用权重θQ′和θμ′初始化目标Actor网络参数与Critic网络参数;累计梯度θQi′←θQi,θμ′←θμ,最终得到初始化后的DDPG代理模型。
上述步骤B将初始化后的DDPG代理模型与驾驶循环和燃料电池汽车进行交互,得到训练数据集,具体包括:当前神经网络与环境进行交互,将当前状态集合st={v,acc,SOCSC,SOCbat}T输入当前神经网络,根据当前策略π(at|st;θ′)得到动作at;为了更好的进行探索,控制信号at在拉普拉斯分布中随机采样获得,将当前动作at作用于燃料电池汽车得到当前回报rt以及下一时刻的状态集合st+1;最后,根据上述的相关数据st,a,rt和st+1,得到训练数据集(st,at,rt,st+1),用于神经网络的训练过程。
上述步骤C使用训练数据集对DDPG代理模型进行训练,得到训练后的DDPG代理模型,具体包括以下几个步骤:
步骤①:从优先经验回放集合D中采样m个样本,并计算当前目标Q值,采用的公式为:
其中,yi为当前目标Q值,ri为当前奖励;si为当前状态;γ为衰减因子;
Qj′(s′,a′)为目标Q值;
步骤②:通过均方差损失函数函数和L2正则更新critic网络,采用的公式为:
其中,Lk为总损失函数;M为采样经验池大小;Q(sj,aj)为当前Q值;L2
L2正则损失函数;
步骤③:使用梯度策略更新actor策略,采用的公式为:
其中,J是目标函数;θμ是当前actor;
步骤④:为所有采样的经验重新计算TD-error δi=yi-Q(Si,AiQ),更新经验池中各经验优先级;
步骤⑤:采用平滑的方式更新目标网络参数:
其中,τ是软更新权重;θQ、θQi′、θμ、θμ′分别代表当前critic网络、目标critic网络、当前actor网络、目标actor网络的参数;
步骤⑥:如此重复步骤①至步骤⑤,直至达到训练要求,最后得到训练后的物流轻型卡车DDPG代理模型。
上述步骤4迁移源域车型策略至目标域车型上,继续训练DDPG代理模型,获取基于策略迁移的DDPG代理模型,所述迁移源域车型策略,其具体方法为,以一部分或者全部的源域训练完成的DDPG代理模型的网络策略参数,替代目标域初始化后的网络策略参数,具体迁移的网络层数可自由调整。在此基础上进行后续部分,步骤4的后续部分与步骤3相同。
上述步骤5利用最终训练完成的DDPG代理进行新车型的能量管理,具体包括以下步骤:
第一步:通过相关传感器获取目标域汽车当前状态量集合st={v,acc,SOCSC,SOCbat}T,其中SOCSC为设置好的虚拟变量;
第二步:将获取的汽车当前状态量集合st={v,acc,SOCSC,SOCbat}T输入训练后的基于迁移策略的DDPG代理模型,进而输出控制量燃料电池功率PFC
第三步:将所获得的控制量燃料电池功率PFC作用于汽车,驱动汽车行驶,进而得到下一时刻汽车状态量集合st+1={v,acc,SOCSC,SOCbat}T
第四步:如此重复第一步至第三步,直至汽车完成行驶任务。
以上所述的基于策略迁移的燃料电池车辆能量管理方法理论上是数据驱动和无模型的,对燃料电池混合动力系统的任何特定拓扑不敏感,可应用于各种复合电源燃料电池系统。
图5是本发明实施例中提供的未迁移DDPG和迁移策略DDPG的平均奖励随训练时间变化曲线图,从图中可以看出基于迁移策略的DDPG能量管理策略在训练收敛速度有一定提升,收敛步数从52步缩短为44步,同时基于迁移策略的DDPG的收敛后平均奖励也比未迁移DDPG更低,表明其燃油经济性提高了。
图6是本发明实施例中提供的未迁移DDPG和迁移策略DDPG的燃油经济性对比。其中各条依次为为总成本,氢耗成本,燃料电池退化成本和电池退化成本。由图可以得出,基于迁移策略DDPG的能量管理策略的氢耗成本和电池退化成本对比未迁移DDPG有明显下降,使得总成本下降,基于迁移策略DDPG的燃油经济性提高了约5%。
本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成,也可以通过程序来指令相关的硬件完成,该程序可以存储于一种计算机可读存储介质中,上述提到的存储介质可以是只读存储器,磁盘或光盘等。
以上仅是本发明的优选实施方式,熟悉本领域技术的人员可以对这些实施例做出各种修改,并把在此说明的一般原理应用到其他实施例中而不经过创造性的劳动,因此本发明不限于上述实施例,本领域技术人员根据本发明的揭示,不脱离本发明范畴所做出的改进和修改都在本发明的保护范围之内。

Claims (7)

1.一种基于策略迁移的燃料电池汽车深度强化学习能量管理方法,其特征在于,包括以下步骤:
步骤1:建立两种显著不同的燃料电池汽车模型,分别为源域燃料电池汽车和目标域燃料电池汽车,所述源域燃料电池汽车模型均包括汽车动力学模型、燃料电池、电机、电池、超级电容;所述目标域燃料电池汽车包括汽车动力学模型、燃料电池、电机及电池;
步骤2:建立基于策略迁移的DDPG代理模型,设置DDPG代理模型的状态、动作和奖励,得到设置后的DDPG代理模型;
步骤3:针对目标域车型,训练DDPG代理模型,获取训练后DDPG代理模型的网络策略;
步骤4:迁移源域车型策略至目标域车型上,继续训练DDPG代理模型,获取基于策略迁移的DDPG代理模型;具体包括以下步骤:以一部分或者全部的源域训练完成的DDPG代理模型的网络策略参数,替代目标域初始化后的网络策略参数,具体迁移的网络层数可自由调整,在此基础上进行与步骤3相同的后续部分;
步骤5:利用步骤4得到的基于策略迁移的DDPG代理模型进行新车型的能量管理;具体包括以下步骤:
第一步:通过相关传感器获取目标域汽车当前状态量集合st={v,acc,SOCSC,SOCbat}T,其中SOCSC为设置好的虚拟变量;
第二步:将获取的汽车当前状态量集合st={v,acc,SOCSC,SOCbat}T输入训练后的基于迁移策略的DDPG代理模型,进而输出控制量燃料电池功率PFC
第三步:将所获得的控制量燃料电池功率PFC作用于汽车,驱动汽车行驶,进而得到下一时刻汽车状态量集合st+1={v,acc,SOCSC,SOCbat}T
第四步:如此重复第一步至第三步,直至汽车完成行驶任务。
2.根据权利要求1所述的基于策略迁移的燃料电池汽车深度强化学习能量管理方法,其特征在于,所述汽车动力学模型如下公式所示:
其中,v为车辆的速度;f为滚动电阻系数;CD为气动阻力系数;A为车辆前部区域;ρ为空气密度;a为物流车辆的加速度;α是道路的坡度;m为车辆质量;
所述燃料电池模型采用Amphlett静态模型进行描述,过电位损耗由激活过电位Vact、欧姆过电位Vohm和浓度过电位Vcon三部分组成,其计算公式为:
其中ξ1,ξ2,ξ3,ξ4和B是由制造商提供的预校准系数;T是温度;Ist是当前堆栈值;CO2是阴极催化剂层的氧浓度;Rst为堆叠的等效电阻;J和Jmax分别表示电流密度的实际极限和最大极限;
所述电机模型如下公式所示:
ηm=LUT(Tmotmot)
其中,Preq是牵引功率;Pmot是MFC和锂离子电池提供的电机功率;Tmot和ωmot分别为电机的转矩和转速;LUT代表采用查表法,利用Tmot和ωmot的实验数据确定效率ηm
所述电池模型如下公式所示:
式中,Rbat、Uref、Voc、Ibat、Rint分别表示电池的开路电阻、额定电压、开路电压、电流、内阻;Pbat为要求电池功率,放电功率为正值,充电功率为负值;Ploss为损失功率;
所述超级电容模型如下公式所示:
其中,N为单元的个数;Qcell为每个单元的电量;SOCSC(tk)、SOCSC(tk-1)分别为超级电容瞬时SOC变化、当前SOC和上一时刻SOC;ISC为超级电容电流。
3.根据权利要求1所述的基于策略迁移的燃料电池汽车深度强化学习能量管理方法,其特征在于,步骤2中所述基于策略迁移的DDPG代理模型的状态量为:汽车车速v、汽车加速度acc、动力电池SOC和超级电容SOC;动作变量为燃料电池功率PFC和动力电池功率Pbat,状态变量和动作变量设置如下所示:
奖励函数被用于评价在当前状态下执行动作的表现性能,越小越好,为行驶成本C和SOC惩罚项之和,奖励函数如下公式所示:
其中,C为车辆行驶成本,α和β为权重因子,;SOCbat和SOCSC分别为动力电池SOC和超级电容SOC;SOCbat_ref分别为动力电池SOC和超级电容SOC的参考值。
4.根据权利要求1所述的基于策略迁移的燃料电池汽车深度强化学习能量管理方法,其特征在于,步骤3具体包括以下步骤:
步骤A:初始化所述设置后的DDPG代理模型;
步骤B:将初始化后的DDPG代理模型与驾驶循环和燃料电池汽车进行交互,得到训练数据集;
步骤C:使用训练数据集对DDPG代理模型进行训练,得到训练后的DDPG代理模型。
5.根据权利要求4所述的基于策略迁移的燃料电池汽车深度强化学习能量管理方法,其特征在于,步骤A具体包括:用权重θQ和θμ分别初始化DDPG代理模型中的当前Actor网络参数与Critic网络参数;用权重θQ′和θμ′初始化目标Actor网络参数与Critic网络参数;累计梯度θQi′←θQi,θμ′←θμ,最终得到初始化后的DDPG代理模型。
6.根据权利要求4所述的基于策略迁移的燃料电池汽车深度强化学习能量管理方法,其特征在于,步骤B将初始化后的DDPG代理模型与驾驶循环和燃料电池汽车进行交互,得到训练数据集,具体包括:当前神经网络与环境进行交互,将当前状态集合st={v,acc,SOCSC,SOCbat}T输入当前神经网络,根据当前策略π(at|st;θ′)得到动作at;控制信号at在拉普拉斯分布中随机采样获得,将当前动作at作用于燃料电池汽车得到当前回报rt以及下一时刻的状态集合st+1;最后,根据上述的相关数据st,a,rt和st+1,得到训练数据集(st,at,rt,st+1)。
7.根据权利要求4所述的基于策略迁移的燃料电池汽车深度强化学习能量管理方法,其特征在于,步骤C具体包括以下几个步骤:
步骤①:从优先经验回放集合D中采样m个样本,并计算当前目标Q值,采用的公式为:
其中,yi为当前目标Q值,ri为当前奖励;si为当前状态;γ为衰减因子;Qj′(s′,a′)为目标Q值;
步骤②:通过均方差损失函数和L2正则更新critic网络,采用的公式为::
其中,Lk为总损失函数;M为采样经验池大小;Q(sj,aj)为当前Q值;L2为L2正则损失函数;
步骤③:使用梯度策略更新actor策略,采用的公式为:
其中,J是目标函数;θμ是当前actor网络参数;
步骤④:为所有采样的经验重新计算TD-errorδi=yi-Q(Si,AiQ),更新经验池中各经验优先级;
步骤⑤:采用平滑的方式更新目标网络参数:
其中,τ是软更新权重;θQ、θQi′、θμ、θμ′分别代表当前critic网络、目标critic网络、当前actor网络、目标actor网络的参数;
步骤⑥:如此重复步骤①至步骤⑤,直至达到训练要求,最后得到训练后的物流轻型卡车DDPG代理模型。
CN202210671055.XA 2022-06-14 2022-06-14 一种基于策略迁移的燃料电池汽车深度强化学习能量管理方法 Active CN114969982B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210671055.XA CN114969982B (zh) 2022-06-14 2022-06-14 一种基于策略迁移的燃料电池汽车深度强化学习能量管理方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210671055.XA CN114969982B (zh) 2022-06-14 2022-06-14 一种基于策略迁移的燃料电池汽车深度强化学习能量管理方法

Publications (2)

Publication Number Publication Date
CN114969982A CN114969982A (zh) 2022-08-30
CN114969982B true CN114969982B (zh) 2024-08-09

Family

ID=82961355

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210671055.XA Active CN114969982B (zh) 2022-06-14 2022-06-14 一种基于策略迁移的燃料电池汽车深度强化学习能量管理方法

Country Status (1)

Country Link
CN (1) CN114969982B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115730529B (zh) * 2022-12-16 2024-02-27 长安大学 基于工况识别的phet能量管理策略生成方法及系统
CN117984983B (zh) * 2024-04-03 2024-06-21 中汽研汽车检验中心(天津)有限公司 混合动力车能量实时控制方法、车辆控制器以及混合动力车

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116001655A (zh) * 2022-11-15 2023-04-25 南京航空航天大学 一种基于经验池迁移的燃料电池汽车深度强化学习能量管理方法

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112464577B (zh) * 2021-01-25 2021-04-20 魔门塔(苏州)科技有限公司 车辆动力学模型的构建及车辆状态信息预测方法、装置
CN112884125A (zh) * 2021-02-25 2021-06-01 中国海洋大学 迁移强化学习控制方法、系统、存储介质、设备及应用
CN113051667B (zh) * 2021-03-29 2024-02-02 东南大学 一种混合动力汽车能量管理策略的加速学习方法
CN113085665B (zh) * 2021-05-10 2022-02-11 重庆大学 一种基于td3算法的燃料电池汽车能量管理方法
CN114162146B (zh) * 2022-02-09 2022-04-29 苏州浪潮智能科技有限公司 行驶策略模型训练方法以及自动驾驶的控制方法

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116001655A (zh) * 2022-11-15 2023-04-25 南京航空航天大学 一种基于经验池迁移的燃料电池汽车深度强化学习能量管理方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
"Energy management strategy of fuel cell vehicles with hybrid energy sources: A novel framework via deep reinforcement learning and transfer learning";Jianhao Zhou;《Proceedings of the Institution of Mechanical Engineers, Part D: Journal or Automobile Engineering》;20230905;第1-7页 *

Also Published As

Publication number Publication date
CN114969982A (zh) 2022-08-30

Similar Documents

Publication Publication Date Title
CN114969982B (zh) 一种基于策略迁移的燃料电池汽车深度强化学习能量管理方法
CN111731303A (zh) 一种基于深度强化学习a3c算法的hev能量管理方法
Singh et al. Fuzzy logic and Elman neural network tuned energy management strategies for a power-split HEVs
CN111267831A (zh) 一种混合动力车辆智能变时域模型预测能量管理方法
CN109552079B (zh) 一种基于规则与Q-learning增强学习的电动汽车复合能量管理方法
WO2021159660A1 (zh) 一种混合动力汽车能量管理方法和系统
CN102729991B (zh) 一种混合动力公交车能量分配方法
Qi et al. Self-supervised reinforcement learning-based energy management for a hybrid electric vehicle
CN113554337B (zh) 融合交通信息的插电式混动汽车能量管理策略构建方法
Lin et al. Intelligent energy management strategy based on an improved reinforcement learning algorithm with exploration factor for a plug-in PHEV
Vignesh et al. Intelligent energy management through neuro-fuzzy based adaptive ECMS approach for an optimal battery utilization in plugin parallel hybrid electric vehicle
CN112757922B (zh) 一种车用燃料电池混合动力能量管理方法及系统
CN111301397B (zh) 一种插电混合动力汽车变时域模型预测能量管理方法
Shen et al. Two-level energy control strategy based on ADP and A-ECMS for series hybrid electric vehicles
CN112765723A (zh) 好奇心驱动的混合动力系统深度强化学习能量管理方法
CN111731262A (zh) 插电混合动力汽车变时域模型预测能量管理方法
CN110077389B (zh) 一种插电式混合动力电动汽车能量管理方法
Huang et al. A novel data-driven energy management strategy for fuel cell hybrid electric bus based on improved twin delayed deep deterministic policy gradient algorithm
CN115805840A (zh) 一种增程式电动装载机能耗控制方法及系统
CN116001655A (zh) 一种基于经验池迁移的燃料电池汽车深度强化学习能量管理方法
Wu et al. Multi-objective reinforcement learning-based energy management for fuel cell vehicles considering lifecycle costs
CN114291067A (zh) 基于预测的混合动力汽车凸优化能量控制方法及系统
CN112498332A (zh) 一种并联式混合动力汽车模糊自适应能量管理控制方法
CN116552338A (zh) 一种氢燃料电池客车节能驾驶控制方法及系统
CN116811836A (zh) 基于双延迟q学习的插电式混合动力汽车能量管理方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant