CN110341690B - 一种基于确定性策略梯度学习的phev能量管理方法 - Google Patents

一种基于确定性策略梯度学习的phev能量管理方法 Download PDF

Info

Publication number
CN110341690B
CN110341690B CN201910659905.2A CN201910659905A CN110341690B CN 110341690 B CN110341690 B CN 110341690B CN 201910659905 A CN201910659905 A CN 201910659905A CN 110341690 B CN110341690 B CN 110341690B
Authority
CN
China
Prior art keywords
soc
network
state
energy management
training
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910659905.2A
Other languages
English (en)
Other versions
CN110341690A (zh
Inventor
何洪文
李岳骋
彭剑坤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Institute of Technology BIT
Original Assignee
Beijing Institute of Technology BIT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Institute of Technology BIT filed Critical Beijing Institute of Technology BIT
Priority to CN201910659905.2A priority Critical patent/CN110341690B/zh
Publication of CN110341690A publication Critical patent/CN110341690A/zh
Application granted granted Critical
Publication of CN110341690B publication Critical patent/CN110341690B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60WCONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
    • B60W20/00Control systems specially adapted for hybrid vehicles
    • B60W20/10Controlling the power contribution of each of the prime movers to meet required power demand
    • B60W20/11Controlling the power contribution of each of the prime movers to meet required power demand using model predictive control [MPC] strategies, i.e. control methods based on models predicting performance
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60WCONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
    • B60W50/00Details of control systems for road vehicle drive control not related to the control of a particular sub-unit, e.g. process diagnostic or vehicle driver interfaces
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60WCONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
    • B60W50/00Details of control systems for road vehicle drive control not related to the control of a particular sub-unit, e.g. process diagnostic or vehicle driver interfaces
    • B60W2050/0001Details of the control system
    • B60W2050/0002Automatic control, details of type of controller or control system architecture
    • B60W2050/0008Feedback, closed loop systems or details of feedback error signal
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T90/00Enabling technologies or technologies with a potential or indirect contribution to GHG emissions mitigation
    • Y02T90/10Technologies relating to charging of electric vehicles
    • Y02T90/14Plug-in electric vehicles

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Mechanical Engineering (AREA)
  • Transportation (AREA)
  • Automation & Control Theory (AREA)
  • Theoretical Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Mathematical Physics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Software Systems (AREA)
  • Biomedical Technology (AREA)
  • Artificial Intelligence (AREA)
  • Human Computer Interaction (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Electric Propulsion And Braking For Vehicles (AREA)

Abstract

本发明提供了一种基于确定性策略梯度学习的PHEV能量管理方法,实现了基于确定性策略梯度学习的PHEV能量管理中包括策略训练、在线应用、效果检测、反馈更新等多个方面的闭环应用,相对于现有技术具有更高的精确度,大大提高了PHEV能量管理的效率与可靠性,具有当前的诸多管理策略所不具备的有益效果。

Description

一种基于确定性策略梯度学习的PHEV能量管理方法
技术领域
本发明涉及插电式混合动力汽车(Plug-in Hybrid Electric Vehicle,简称PHEV)能量管理技术,尤其涉及一种基于确定性策略梯度学习算法对PHEV能量进行包括策略训练、在线应用、效果检测、反馈更新等的闭环管理方法及其应用。
背景技术
对于城市工况而言,插电式混合动力汽车(Plug-in Hybrid Electric Vehicle,简称PHEV)的节能减排优势非常突出,而如何协调各车载动力源间的能量分配,实现高效能量管理,对其优势发挥至关重要。由于PHEV装备有大容量动力电池,且能及时通过电网充电,故其动力电池荷电状态(State of charge,SoC)可在较大范围内变动,稳持能量管理策略难以充分发挥PHEV的节能优势。目前商业应用中采用较多的规则式纯电动-电量稳持模式,电量消耗较快,且进入电量稳持模式后,燃油经济性提升空间将大幅受限。对于基于优化的PHEV能量管理策略,最具代表性的为基于动态规划的能量管理,通常可以获得全局最优的能量分配策略,但要求全局工况已知、计算资源需求大,难以在线应用。因此,许多能量管理策略基于或结合全局最优策略进行拓展,以在实时能量管理中复现全局最优策略的效果,例如,基于动态规划策略标定发动机经济性工作区域、设计规则式能量管理策略;利用全局最优策略得到的最优控制序列,利用有监督学习训练神经网络,然而此类策略容易受限于样本数据,在复杂工况下的泛化能力具有局限性。另一方面,为获取实际车辆行驶工况先验知识,一些能量管理策略通过行驶工况预测模型或智能交通系统,获取部分或全局PHEV行驶工况先验信息,结合模型预测控制、自适应最小燃油消耗策略设计响应的实时能量管理策略,或结合云端计算解决动态规划能量管理策略计算量大的问题。
相比于动态规划全局最优能量管理策略,对于同样采用马尔可夫决策过程(Markov Decision Process,MDP)对能量管理问题进行建模的强化学习能量管理方法而言,其采用了迭代学习的方式以解决全局最优能量管理策略的复现,不依赖于未来行驶工况等先验信息,可实际应用的场景更广泛。然而,基于基本强化学习算法的能量管理策略,特别是采用表格式策略表征的强化学习算法,其训练效率和策略泛化能力仍有待提高。近年来,一些快速发展的深度强化学习方法,如确定性策略梯度算法、深层动作价值网络算法等,结合了深度学习强大的非线性表征能力,学习最优策略的效率和效果更好,并逐步在实际物理系统中取得突破性进展,显示了深度强化学习在复杂控制问题上的应用潜力。与此同时,逐渐出现的深度强化学习能量管理策略也展示了其良好的燃油经济性和鲁棒性。但是,目前基于深度强化学习方法的PHEV能量管理策略仍停留于训练和策略评估两个阶段,其策略训练、在线应用、效果检测、反馈更新的完整闭环应用体系尚未形成,这也是本领域亟待解决的问题,解决此问题对提高深度强化学习能量管理策略实际应用的可靠性也有着积极的意义。
发明内容
针对上述本领域中存在的技术问题,本发明提供了一种基于确定性策略梯度学习算法对PHEV能量进行包括策略训练、在线应用、效果检测、反馈更新等的闭环管理方法,该方法具体包括以下步骤:
步骤一、利用深层神经网络(DNN)分别搭建动作网络(Actor)和动作价值网络(Critic),共同组成确定性策略梯度学习算法的基本网络框架(AC网络),以构建PHEV能量管理策略学习网络;并对所述AC网络参数进行初始化和状态数据的归一化处理;
步骤二、对所述动作价值网络进行预训练,定义并初始化用于存储后续训练产生的状态转移样本的存储空间作为经验池,获取初始时刻的状态向量,采用∈退火贪婪策略选择当前状态下的动作向量,存储当前时刻的状态转移样本,并对所述动作价值网络进行更新;以网络更新迭代次数作为Critic网络预训练和AC网络训练是否满足要求的依据;
步骤三、基于所述步骤二中所选择的当前状态下的动作向量,获取动力系统的控制动作量和驾驶需求,计算PHEV动力系统的动力响应,并评估发动机燃油消耗水平,计算动力电池的状态转移,获取下一时刻状态向量并计算奖赏信号;
步骤四、对动力电池SOC参考值初始化并更新SOC偏差,并依次对累积行驶距离以及所述动力电池参考值进行更新;
步骤五、获取当前时刻状态向量并计算当前时刻动作向量,调整动作向量输出频率,动力系统响应动作向量后对下一时刻重复该步骤的能量管理策略在线应用过程;
步骤六、根据实时行驶车速更新速度转移概率矩阵,记录瞬时燃油消耗率,更新油耗移动平均值,检测是否需要更新能量管理策略;如需要更新,则执行生成新的训练工况,用于所述步骤一与步骤二对所建立的PHEV能量管理策略模型网络进行训练,从而实现所述模型网络的更新。
进一步地,所述步骤一为PHEV能量管理策略建模阶段,以确定性策略梯度算法为基础,分别建立能量管理参数化策略网络模型Actor,和用于策略评估改进的动作价值函数参数化网络模型Critic,并完成训练数据预处理。
此外,根据动力电池SoC水平,需分别训练电量消耗阶段的能量管理策略πBM=μBM(s|θμ),和电量稳持阶段的能量管理策略πCS=μCS(s|θμ)。具体步骤如下:
(1.1)定义状态空间,建立电量消耗阶段能量管理策略πBM并训练,其状态空间维数为Nstate=7,状态空间S和状态向量s(k)分别定义如下:
S={SoC,ΔSoC,Treq,Preq,acc,v,d}
s(k)=[SoC(k),ΔSoC(k),Treq(k),Preq(k),acc(k),v(k),d(k)],s(k)∈S
其中,ΔSoC为SoC偏差值,Treq为需求驱动转矩,需求驱动功率Preq=Wreq·Treq,Wreq为需求驱动转速,acc为车辆加速度,v为车速,d为行驶距离,k为当前时刻。
(1.2)建立PHEV能量管理策略模型网络(Actor网络),记为a=μ(s|θμ),μ表示Actor网络,其网络参数为θμ,以状态向量s为输入,输出动作向量为a,策略网络结构为:输入层(输入维数与状态空间维数Nstate相同)-全连接层(共三层,每层100个神经元,以线性整流函数为激活函数)-输出层(输出维数与动作空间维数Naction相同,以Sigmoid为激活函数);
(1.3)建立用于评估所述模型网络的动作价值网络(Critic网络),具有两路支流的深层全连接神经网络,记为q=Q(s,a|θQ)=V(s|θV)+A(a|θA),Q表示动作价值网络,其参数集合和动作价值输出分别为为θQ和q,具体分为以θV为参数的状态价值网络支流V和以θA为参数的动作优势网络支流A;两路支流具有相同的隐含层结构(三层全连接层,每层100个神经元,以线性整流函数为激活函数);状态价值网络支流输入层输入维数与状态空间维数Nstate相同,输出层为线性标量输出;动作优势网络支流输入层输入维数与动作空间维数Naction相同,输出层为线性标量输出;
(1.4)初始化网络参数,采用Xavier初始化方法,产生Actor和Critic网络的初始网络权重和偏置,具体地,产生区间
Figure GDA0002182094710000031
中的均匀分布产生网络初始化参数,其中fanin和fanout分别为所需初始化参数层的输入和输出神经元个数;
(1.5)建立用于稳定训练的目标网络,复制一套与步骤(1.2)-(1.4)所建立的Actor和Critic网络结构和参数均相同的网络,记为目标Actor网络
Figure GDA0002182094710000032
Figure GDA0002182094710000033
和目标Critic网络
Figure GDA0002182094710000034
其中μT表示目标Actor网络,其参数为
Figure GDA0002182094710000035
QT表示目标Critic网络,其参数为
Figure GDA0002182094710000036
(1.6)训练数据归一化预处理,选定训练工况,计算获得其速度序列、加速度序列、以及需求转矩和功率序列,并分别计算其均值和标准差并保存,按照标准归一化通用公式进行归一化处理
Figure GDA0002182094710000037
其中,mean(X)和std(X)分别表示输入数据X的均值和标准差。
当且仅当此时为电量消耗阶段策略训练,需对行驶距离d按最大行驶里程进行线性归一化。
进一步地,所述步骤二基于确定性策略梯度算法、优先经验回放的PHEV能量管理策略离线训练:
此步骤为基于确定性策略梯度算法的PHEV能量管理策略离线训练过程,主要涉及∈退火贪婪算法、优先经验回放、Adam神经网络优化算法,以及对步骤三和步骤四的调用和交互;根据动力电池SoC水平,分为电量消耗阶段的能量管理策略πBM=μBM(s|θμ),和电量稳持阶段的能量管理策略πCS=μCS(s|θμ)。以电量消耗阶段能量管理策略πBM的训练为例进行说明,其具体步骤如下:
(2.1)动作价值网络预训练,按训练工况时序,基于动态规划最优能量管理策略,产生最优状态转移样本数据,其中k时刻的转移样本记为e(k)={s(k),a(k),r(k),s(k+1)},其中s(k)为k时刻的状态向量,a(k)为动作向量,r(k)为奖赏,s(k+1)为k+1采样时刻的状态向量;冻结Actor网络和目标Actor网络参数,从所有最优样本数据中随机采样得到小批量样本,依据式以下公式计算Critic网络更新梯度
Figure GDA0002182094710000041
仅更新Critic网络参数θQ和目标Critic网络参数
Figure GDA0002182094710000042
其中,学习率α根据Adam优化算法计算得到(Adam基本学习率设为0.01)。重复此步骤,迭代更新5000次,使Critic网络参数基本收敛
Figure GDA0002182094710000043
Figure GDA0002182094710000044
其中,s表示s(k),以s′表示s(k+1),r表示r(k),γ为未来奖赏折扣系数,
Figure GDA0002182094710000045
表示通过梯度反向传播计算动作价值q对Critic参数θQ的梯度,τ为跟随率(0.01);
(2.2)经验池初始化:定义存储空间以存储后续训练产生的状态转移样本ek,记作经验池D;定义随机过程
Figure GDA0002182094710000047
用于产生随机动作向量,并初始化探索率为∈=1;训练回合次数初始化为i=0,上限为N,训练工况长度为L;
(2.3)设k=0,获取初始时刻的状态向量s(0)=[SoC(0),ΔSoC(0),Treq(0),Preq(0),acc(0),v(k),d(0)];更新训练回合数i=i+1;
(2.4)采用∈退火贪婪策略选择当前状态s(k)下的动作向量a(k)=[We(k),Te(k)],以∈的概率选择使用随机过程
Figure GDA0002182094710000046
产生动作向量a(k),否则选择采用当前的能量管理策略网络产生动作向量a(k)=μBM(s(k)|θμ)=[We(k),Te(k)]。μBM表示电量消耗阶段的能量管理策略网络。
(2.5)存储当前时刻的状态转移样本e(k),以当前时刻动作向量a(k)作为输入,执行步骤三一次,获取e(k)={s(k),a(k),r(k),s(k+1)),并计算其采样概率P(k),若经验池中样本数量尚未达到上限,则将该样本e(k)存储入经验池D,返回执行步骤(2.4);否则删除最旧的转移样本,存入新产生的转移样本e(k),执行步骤(2.6)
Figure GDA0002182094710000051
其中,样本优先级pk=|δk|+ε,δk为时间差分误差:
Figure GDA0002182094710000052
Figure GDA0002182094710000053
ε为非零常数,保证优先级非零,β为调节优先采样程度的系数;
(2.6)更新能量管理策略网络与动作价值网络,即更新AC网络;从经验池D中,服从样本采样概率,采样得到一小批量样本(32个),此过程记为优先经验回放;根据确定性策略梯度学习原理,以及各个样本,分别计算用于策略网络参数更新的梯度
Figure GDA0002182094710000054
和Critic网络参数更新的梯度
Figure GDA0002182094710000055
将所得梯度取平均,作为最终更新梯度,更新Critic网络和能量管理策略网络
Figure GDA0002182094710000056
Figure GDA0002182094710000057
其中,
Figure GDA0002182094710000058
表示通过梯度反向传播计算动作价值q对Critic网络输入a的梯度,
Figure GDA0002182094710000059
表示通过梯度反向传播计算策略网络输出对其参数θμ的梯度,学习率α同样根据Adam优化算法计算得到(Adam基本学习率设为0.01);
(2.7)探索率衰减,将∈以线性规律衰减:
Figure GDA00021820947100000510
(2.8)若k<L-1,则k=k+1,并返回执行步骤(2.4),否则执行步骤(2.9);
(2.9)若i≤N,返回执行步骤(2.3),否则,终止训练,保存模型网络及其参数,作为训练好的能量管理策略模型网络;
(2.10)若尚未训练电量稳持阶段能量管理策略,执行此步骤,训练电量稳持阶段的能量管理策略πCS=μCS(s|θμ),μCS表示电量稳持阶段的能量管理策略网络:
针对电量稳持阶段的策略训练,其状态空间维数为Nstate=6,状态空间S和状态向量s(k)分别如下式所示;之后,执行步骤(1.2)。
S={SoC,ΔSoC,Treq,Preq,acc,v}
s(k)=[SoC(k),ΔSoC(k),Treq(k),Preq(k),acc(k),v(k)],s(k)∈S
否则,若此时训练不在云端服务器中执行,则将训练所得能量管理策略下载至车辆控制器,转向步骤五,否则转向步骤六的更新过程。
进一步地,用于完善PHEV能量管理策略的交互训练:实时评估策略的燃油经济性,提供用于策略更新的奖励信号。以功率分流式PHEV能量管理中,控制发动机转速We(k)和转矩Te(k)为例,进行说明。具体实施方法如下:
(3.1)获取动力系统的控制动作量和驾驶需求,获取来自步骤(2.5)的动作量输入We(k)和Te(k),即动作向量a(k)=[We(k),Te(k)];获取来自驾驶员或既定工况的需求驱动转速Wreq(k)和需求驱动转矩Treq(k);对于初始时刻(k=0),有a(0)=[0,0],Wreq(k)=0,Treq(0)=0。
(3.2)计算PHEV动力系统的动力响应,并评估发动机燃油消耗水平,根据给定的动作向量,以行星排的力平衡和运动特性为基础,分别计算驱动电机的转速Wmot(k)和转矩Tmot(k),发电机的转速Wgen(k)和转矩Tgen(k);以发动机万有特性图为依据,计算发动机瞬时油耗
Figure GDA0002182094710000061
(3.3)计算动力电池状态转移,以动力电池内阻模型为基础,结合驱动电机和发电机台架试验效率特性,计算动力电池的放电或充电功率Pbatt(k),从而计算动力电池下一采样时刻的荷电状态SoC(k+1);
(3.4)获取下一时刻状态向量s(k+1),依据训练工况,获得下一时刻车辆行驶需求车速v(k+1)、加速度acc(k+1)、需求驱动转矩Treq(k+1)、需求驱动功率Preq(k+1);
若此时为电量消耗阶段能量管理策略训练,转入执行步骤四一次,获得更新后的空间域索引动力电池SoC参考值SoCref(k+1)、行驶距离信息d(k+1)、SoC偏差值ΔSoC(k+1);否则,计算SoCref(k+1)=SoCsust,ΔSoC(k+1)=SoC(k)-SoCsust,其中SoCsust为SoC稳持值;
之后,将上述各状态变量值合并作为下一时刻的状态向量s(k+1);
(3.5)计算奖赏信号,依据步骤(3.4)所得SoC参考值SoCref(k+1),按照如下公式计算奖赏信号r(k):
Figure GDA0002182094710000062
其中,
Figure GDA0002182094710000063
和χ分别为奖赏信号中SoC项与燃油消耗项的权重系数。
进一步地,所述步骤四用于完善PHEV能量管理策略的交互训练:计算空间域索引的动力电池SoC参考值用于引导策略训练。具体实施方法如下:
(4.1)初始化SoC参考值,以PHEV充满电的时刻为起始时刻(k=0),若此时为初始时刻,此时的行驶距离记为d(0)=0,动力电池SoC为初始值SoCinit,SoC参考值初始化为SoCref(0)=SoCinit;否则,转到步骤(4.2);
(4.2)更新SoC偏差:获取当前时刻的动力电池SoC(k),计算SoC偏差值为ΔSoC(k+1)=SoC(k)-SoCref(k);
(4.3)更新累积行驶距离信息。记控制器采样周期为Tsample,当前时刻车速和行驶距离分别为v(k)和d(k),新的行驶距离信息更新为d(k+1)=d(k)+v(k)·Tsample
(4.4)更新动力电池SoC参考值。SoCref(k+1)=SoCinit-λ·d(k+1),其中动力电池SoC在最大续驶里程(L=100km)内的期望下降速率为λ=(SoCinit-SoCsust)/L,SoCsust为动力电池电量预期稳持水平。
进一步地,所述步骤五为步骤(2)训练所得能量管理策略的在线应用,于实际PHEV动力系统中实现,具体包括以下步骤:
(5.1)获取当前时刻状态向量:若SoC高于维持水平,从车辆实际动力系统获取状态向量s(k)=[SoC(k),ΔSoC(k),Treq(k),Preq(k),acc(k),v(k),d(k)]并执行步骤(1.6)进行归一化,选择电量消耗阶段能量管理策略作为当前策略π=πBM=μBM(s(k)|θμ),其中,状态量ΔSoC(k)和d(k)通过执行步骤四获得;否则,获取状态向量s(k)=[SoC(k),ΔSoC(k),Treq(k),Preq(k),acc(k),v(k)]并执行步骤(1.6)进行归一化,选择电量稳持能量管理策略π=πCS=μCS(s(k)|θμ),其中,状态量ΔSoC(k)=SoC(k)-SoCsust
(5.2)计算当前时刻动作向量:将步骤(5.1)所得状态向量输入相应的能量管理策略π,进行网络正向传播计算,输出当前时刻的实际动作向量areal,如下式所示:
areal(k)=Z·μ(s(k)|θμ)
其中,μ为表征当前能量管理策略π的Actor网络,其参数为θμ;向量Z表示相应动作量的缩放系数,将网络输出的信号(范围0-1)映射到实际发动机转速、转矩区间;
(5.3)动作向量输出频率调整:鉴于实际车辆控制器采样频率较高,将动作向量输入采样保持器再输出,以降低动作向量变化频率,避免发动机频繁启停;
(5.4)动力系统响应:将步骤(5.3)输出的动作向量,发送至动力系统,动力系统响应动作向量,并发生状态转移;
(5.5)转向步骤(5.1),进行下一时刻车辆能量管理控制,直到行驶结束,车辆动力系统下电,结束能量管理进程。
进一步地,所述步骤六为能量管理策略的实时检测与训练更新,步骤(6.1)-(6.3)于车辆控制器中执行,步骤(6.3)-(6.4)于云端服务器中完成计算,预设衡量实际行驶工况与策略训练工况差异度的阈值Dthreshold,以及燃油消耗水平上限Ethreshold。具体包括如下步骤:
(6.1)根据实时行驶车速更新速度转移概率矩阵P:控制器采集并记录车辆行驶速度工况,每当行驶速度工况时长达到一小时,即Time=3600s,根据此时长为Time的实时工况,应用以下公式更新速度转移概率矩阵P:
Figure GDA0002182094710000071
Ni(k)=Ni(k-1)+Δi
Figure GDA0002182094710000072
其中,速度状态空间以1m/s作为离散精度,状态数量共计M=20;k表示概率矩阵P的更新迭代次数;Pij表示车速在1s后,由状态i转移至状态j的概率;Δi表示在时长为Time的行驶工况内,速度状态i的出现频数;δi(t)为布尔值,若t时刻的速度状态为状态i则为1,否则为0;Δij表示在时长为Time的行驶工况内,速度状态由i转移至j所出现的频数;δij(t)为布尔值,若t时刻的速度状态将由状态i转移至状态,则为1,否则为0;Ni表示出现速度状态i的历史累积频数;
(6.2)记录瞬时燃油消耗率,更新油耗移动平均值E:与步骤(6.1)同步执行,记录瞬时燃油消耗率,每当记录时长为Time后,利用以下公式更新空间距离上的油耗移动平均值E:
Figure GDA0002182094710000081
其中,
Figure GDA0002182094710000082
为t时刻的瞬时燃油消耗率,v(t)为t时刻的行驶车速;
(6.3)检测是否需要更新能量管理策略:在步骤(6.1)和(6.2)完成一次更新后,计算实际工况速度转移概率矩阵P与训练工况速度状态转移矩阵T的KL散度DKL,作为实际工况与训练工况的差异度指标,如以下公式所示:
Figure GDA0002182094710000083
其中,T为根据训练工况计算所得速度状态转移概率矩阵;
若DKL(P||T)>Dthreshold即训练工况差异度的阈值,且燃油消耗率移动平均值E>Ethreshold即燃油消耗水平上限,则向云端服务器发送请求,从计算云端执行步骤(6.4)至步骤(6.6),以更新能量管理策略;同时,车辆控制器返回继续执行步骤(6.1);
(6.4)生成新的训练工况:云端服务器获取当前的实际工况速度状态转移概率矩阵P,将车辆行驶速度状态转移视为马尔科夫过程,采用马尔科夫链蒙特卡洛模拟方法,生成与原始训练工况时长相同的新工况;
(6.5)策略训练:以新生成的训练工况为输入,于云端服务器中执行步骤一至步骤二,重新训练新的电量消耗阶段能量管理策略πBM和电量稳持阶段能量管理策略πCS
(6.6)策略更新:通过车载无线通讯,将新策略从云端下载至整车控制器以更新旧策略,同时更新控制器中的速度状态转移概率矩阵T=P;此时,步骤五将正常执行,当且仅当步骤(5.1)被执行时,新策略生效。
通过上述本发明所提供的方法,实现了基于确定性策略梯度学习的PHEV能量管理中包括策略训练、在线应用、效果检测、反馈更新等多个方面的闭环应用,相对于现有技术具有更高的精确度,大大提高了PHEV能量管理的效率与可靠性,具有当前的诸多管理策略所不具备的有益效果。
附图说明
图1为本发明所提供方法的流程示意图
图2为Actor网络与Critic网络结构示意图
图3为基于确定性策略梯度方法的PHEV能量管理策略离线训练过程示意图
图4为PHEV能量管理策略的在线应用
图5为能量管理策略实时检测及更新
具体实施方式
下面将结合附图对本发明的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明所提供的一种基于确定性策略梯度学习的PHEV能量管理方法,如图1所示,具体包括以下步骤:
步骤一、利用深层神经网络(DNN)分别搭建动作网络(Actor)和动作价值网络(Critic),共同组成确定性策略梯度学习算法的基本网络框架(AC网络),以构建PHEV能量管理策略模型学习;并对所述AC网络参数进行初始化和状态数据的归一化处理;
步骤二、对所述动作价值网络进行预训练,定义并初始化用于存储后续训练产生的状态转移样本的存储空间作为经验池,获取初始时刻的状态向量,采用∈退火贪婪策略选择当前状态下的动作向量,存储当前时刻的状态转移样本,并对所述动作价值网络进行更新;以网络更新迭代次数作为Critic网络预训练和AC网络训练是否满足要求的依据;
步骤三、基于所述步骤二中所选择的当前状态下的动作向量,获取动力系统的控制动作量和驾驶需求,计算PHEV动力系统的动力响应,并评估发动机燃油消耗水平,计算动力电池的状态转移,获取下一时刻状态向量并计算奖赏信号;
步骤四、对动力电池SOC参考值初始化并更新SOC偏差,并依次对累积行驶距离以及所述动力电池参考值进行更新;
步骤五、获取当前时刻状态向量并计算当前时刻动作向量,调整动作向量输出频率,动力系统响应动作向量后对下一时刻重复该步骤的能量管理策略在线应用过程;
步骤六、根据实时行驶车速更新速度转移概率矩阵,记录瞬时燃油消耗率,更新油耗移动平均值,检测是否需要更新能量管理策略;如需要更新,则执行生成新的训练工况,用于所述步骤一与步骤二对所建立的PHEV能量管理策略模型网络进行训练,从而实现所述模型网络的更新。
进一步地,所述步骤一为PHEV能量管理策略建模阶段,以确定性策略梯度算法为基础,分别建立如图2所示的能量管理参数化策略网络模型Actor,和用于策略评估改进的动作价值函数参数化网络模型Critic,并完成训练数据预处理。
此外,根据动力电池SoC水平,需分别训练电量消耗阶段的能量管理策略πBM=μBM(s|θμ),和电量稳持阶段的能量管理策略πCS=μCS(s|θμ)。具体步骤如下:
(1.1)定义状态空间,建立电量消耗阶段能量管理策略πBM并训练,其状态空间维数为Nstate=7,状态空间S和状态向量s(k)分别定义如下:
S={SoC,ΔSoC,Treq,Preq,acc,v,d}
s(k)=[SoC(k),ΔSoC(k),Treq(k),Preq(k),acc(k),v(k),d(k)],s(k)∈S
其中,ΔSoC为SoC偏差值,Treq为需求转矩,需求驱动功率Preq=Wreq·Treq,Wreq为需求驱动转速,acc为车辆加速度,v为车速,d为行驶距离,k为当前时刻。
(1.2)建立PHEV能量管理策略模型网络(Actor网络),记为a=μ(s|θμ),μ表示Actor网络,其网络参数为θμ,以状态向量s为输入,输出动作向量为a,策略网络结构为:输入层(输入维数与状态空间维数Nstate相同)-全连接层(共三层,每层100个神经元,以线性整流函数为激活函数)-输出层(输出维数与动作空间维数Naction相同,以Sigmoid为激活函数);
(1.3)建立用于评估所述模型网络的动作价值网络(Critic网络),具有两路支流的深层全连接神经网络,记为q=Q(s,a|θQ)=V(s|θV)+A(a|θA),Q表示动作价值网络,其参数集合和动作价值输出分别为θQ和q,具体分为以θV为参数的状态价值网络支流V和以θA为参数的动作优势网络支流A;两路支流具有相同的隐含层结构(三层全连接层,每层100个神经元,以线性整流函数为激活函数);状态价值网络支流输入层输入维数与状态空间维数Nstate相同,输出层为线性标量输出;动作优势网络支流输入层输入维数与动作空间维数Naction相同,输出层为线性标量输出;
(1.4)初始化网络参数,采用Xavier初始化方法,产生Actor和Critic网络的初始网络权重和偏置,具体地,产生区间
Figure GDA0002182094710000101
中的均匀分布产生网络初始化参数,其中fanin和fanout分别为所需初始化参数层的输入和输出神经元个数;
(1.5)建立用于稳定训练的目标网络,复制一套与步骤(1.2)-(1.4)所建立的Actor和Critic网络结构和参数均相同的网络,记为目标Actor网络a=
Figure GDA0002182094710000102
和目标Critic网络
Figure GDA0002182094710000103
其中μT表示目标Actor网络,其参数为
Figure GDA0002182094710000104
QT表示目标Critic网络,其参数为
Figure GDA0002182094710000105
(1.6)训练数据归一化预处理,选定训练工况,计算获得其速度序列、加速度序列、以及需求转矩和功率序列,并分别计算其均值和标准差并保存,按照标准归一化通用公式进行归一化处理
Figure GDA0002182094710000106
其中,mean(X)和std(X)分别表示输入数据X的均值和标准差。
当且仅当此时为电量消耗阶段策略训练,需对行驶距离d按最大行驶里程进行线性归一化。
进一步地,所述步骤二为基于确定性策略梯度算法的PHEV能量管理策略离线训练过程,主要涉及∈退火贪婪算法、优先经验回放、Adam神经网络优化算法,以及对步骤三和步骤四的调用和交互;根据动力电池SoC水平,分为电量消耗阶段的能量管理策略πBM=μBM(s|θμ),和电量稳持阶段的能量管理策略πCS=μCS(s|θμ)。以电量消耗阶段能量管理策略πBM的训练为例进行说明,如图3所示,其具体步骤如下:
(2.1)动作价值网络预训练,按训练工况时序,基于动态规划最优能量管理策略,产生最优状态转移样本数据,其中k时刻的转移样本记为e(k)={s(k),a(k),r(k),s(k+1)},其中s(k)为k时刻的状态向量,a(k)为动作向量,r(k)为奖赏,s(k+1)为k+1采样时刻的状态向量;冻结Actor网络和目标Actor网络参数,从所有最优样本数据中随机采样得到小批量样本,依据式以下公式计算Critic网络更新梯度
Figure GDA0002182094710000111
仅更新Critic网络参数θQ和目标Critic网络参数
Figure GDA0002182094710000112
其中,学习率α根据Adam优化算法计算得到(Adam基本学习率设为0.01)。重复此步骤,迭代更新5000次,使Critic网络参数基本收敛
Figure GDA0002182094710000113
Figure GDA0002182094710000114
其中,s表示s(k),以s′表示s(k+1),r表示r(k),y为未来奖赏折扣系数,
Figure GDA0002182094710000115
表示通过梯度反向传播计算动作价值q对Critic参数θQ的梯度,τ为跟随率(0.01);
(2.2)经验池初始化:定义存储空间以存储后续训练产生的状态转移样本ek,记作经验池D;定义随机过程
Figure GDA0002182094710000117
用于产生随机动作向量,并初始化探索率为∈=1;训练回合次数初始化为i=0,上限为N,训练工况长度为L;
(2.3)设k=0,获取初始时刻的状态向量s(0)=[SoC(0),ΔSoC(0),Treq(0),Preq(0),acc(0),v(k),d(0)];更新训练回合数i=i+1;
(2.4)采用∈退火贪婪策略选择当前状态s(k)下的动作向量a(k)=[We(k),Te(k)],以∈的概率选择使用随机过程
Figure GDA0002182094710000116
产生动作向量a(k),否则选择采用当前的能量管理策略网络产生动作向量a(k)=μBM(s(k)|θμ)=[We(k),Te(k)]。μBM表示电量消耗阶段的能量管理策略网络。
(2.5)存储当前时刻的状态转移样本e(k),以当前时刻动作向量a(k)作为输入,执行步骤三一次,获取e(k)={s(k),a(k),r(k),s(k+1)},并计算其采样概率P(k),若经验池中样本数量尚未达到上限,则将该样本e(k)存储入经验池D,返回执行步骤(2.4);否则删除最旧的转移样本,存入新产生的转移样本e(k),执行步骤(2.6)
Figure GDA0002182094710000121
其中,样本优先级pk=|δk|+ε,δk为时间差分误差:
Figure GDA0002182094710000122
Figure GDA0002182094710000123
ε为非零常数,保证优先级非零,β为调节优先采样程度的系数;
(2.6)更新能量管理策略网络与动作价值网络,即更新AC网络;从经验池D中,服从样本采样概率,采样得到一小批量样本(32个),此过程记为优先经验回放;根据确定性策略梯度学习原理,以及各个样本,分别计算用于策略网络参数更新的梯度
Figure GDA0002182094710000124
和Critic网络参数更新的梯度
Figure GDA0002182094710000125
将所得梯度取平均,作为最终更新梯度,更新Critic网络和能量管理策略网络
Figure GDA0002182094710000126
Figure GDA0002182094710000127
其中,
Figure GDA0002182094710000128
表示通过梯度反向传播计算动作价值q对Critic网络输入a的梯度,
Figure GDA0002182094710000129
表示通过梯度反向传播计算策略网络输出对其参数θμ的梯度,学习率α同样根据Adam优化算法计算得到(Adam基本学习率设为0.01);
(2.7)探索率衰减,将∈以线性规律衰减:
Figure GDA00021820947100001210
(2.8)若k<L-1,则k=k+1,并返回执行步骤(2.4),否则执行步骤(2.9);
(2.9)若i≤N,返回执行步骤(2.3),否则,终止训练,保存模型网络及其参数,作为训练好的能量管理策略模型网络;
(2.10)若尚未训练电量稳持阶段能量管理策略,执行此步骤,训练电量稳持阶段的能量管理策略πCS=μCS(s|θμ),μCS表示电量稳持阶段的能量管理策略网络:
针对电量稳持阶段的策略训练,其状态空间维数为Nstate=6,状态空间S和状态向量s(k)分别如下式所示;之后,执行步骤(1.2)。
S={SoC,ΔSoC,Treq,Preq,acc,v}
s(k)=[SoC(k),ΔSoC(k),Treq(k),Preq(k),acc(k),v(k)],s(k)∈S
否则,若此时训练不在云端服务器中执行,则将训练所得能量管理策略下载至车辆控制器,转向步骤五,否则转向步骤六的更新过程。
进一步地,用于完善PHEV能量管理策略的交互训练:实时评估策略的燃油经济性,提供用于策略更新的奖励信号。以功率分流式PHEV能量管理中,控制发动机转速We(k)和转矩Te(k)为例,进行说明。具体实施方法如下:
(3.1)获取动力系统的控制动作量和驾驶需求,获取来自步骤(2.5)的动作量输入We(k)和Te(k),即动作向量a(k)=[We(k),Te(k)];获取来自驾驶员或既定工况的需求驱动转速Wreq(k)和需求驱动转矩Treq(k);对于初始时刻(k=0),有a(0)=[0,0],Wreq(k)=0,Treq(0)=0。
(3.2)计算PHEV动力系统的动力响应,并评估发动机燃油消耗水平,根据给定的动作向量,以行星排的力平衡和运动特性为基础,分别计算驱动电机的转速Wmot(k)和转矩Tmot(k),发电机的转速Wgen(k)和转矩Tgen(k);以发动机万有特性图为依据,计算发动机瞬时油耗
Figure GDA0002182094710000131
(3.3)计算动力电池状态转移,以动力电池内阻模型为基础,结合驱动电机和发电机台架试验效率特性,计算动力电池的放电或充电功率Pbatt(k),从而计算动力电池下一采样时刻的荷电状态SoC(k+1);
(3.4)获取下一时刻状态向量s(k+1),依据训练工况,获得下一时刻车辆行驶需求车速v(k+1)、加速度acc(k+1)、需求驱动转矩Treq(k+1)、需求驱动功率Preq(k+1);
若此时为电量消耗阶段能量管理策略训练,转入执行步骤四一次,获得更新后的空间域索引动力电池SoC参考值SoCref(k+1)、行驶距离信息d(k+1)、SoC偏差值ΔSoC(k+1);否则,计算SoCref(k+1)=SoCsust,ΔSoC(k+1)=SoC(k)-SoCsust,其中SoCsust为SoC稳持值;
之后,将上述各状态变量值合并作为下一时刻的状态向量s(k+1);
(3.5)计算奖赏信号,依据步骤(3.4)所得SoC参考值SoCref(k+1),按照如下公式计算奖赏信号r(k):
Figure GDA0002182094710000132
其中,
Figure GDA0002182094710000133
和χ分别为奖赏信号中SoC项与燃油消耗项的权重系数。
进一步地,所述步骤四用于完善PHEV能量管理策略的交互训练:计算空间域索引的动力电池SoC参考值用于引导策略训练。具体实施方法如下:
(4.1)初始化SoC参考值,以PHEV充满电的时刻为起始时刻(k=0),若此时为初始时刻,此时的行驶距离记为d(0)=0,动力电池SoC为初始值SoCinit,SoC参考值初始化为SoCref(0)=SoCinit;否则,转到步骤(4.2);
(4.2)更新SoC偏差:获取当前时刻的动力电池SoC(k),计算SoC偏差值为ΔSoC(k+1)=SoC(k)-SoCref(k);
(4.3)更新累积行驶距离信息。记控制器采样周期为Tsample,当前时刻车速和行驶距离分别为v(k)和d(k),新的行驶距离信息更新为d(k+1)=d(k)+v(k)·Tsample
(4.4)更新动力电池SoC参考值。SoCref(k+1)=SoCinit-λ·d(k+1),其中动力电池SoC在最大续驶里程(L=100km)内的期望下降速率为λ=(SoCinit-SoCsust)/L,SoCsust为动力电池电量预期稳持水平。
进一步地,所述步骤五为步骤(2)训练所得能量管理策略的在线应用,于实际PHEV动力系统中实现,如图4所示,具体包括以下步骤:
(5.1)获取当前时刻状态向量:若SoC高于维持水平,从车辆实际动力系统获取状态向量s(k)=[SoC(k),ΔSoC(k),Treq(k),Preq(k),acc(k),v(k),d(k)]并执行步骤(1.6)进行归一化,选择电量消耗阶段能量管理策略作为当前策略π=πBM=μBM(s(k)|θμ),其中,状态量ΔSoC(k)和d(k)通过执行步骤四获得;否则,获取状态向量s(k)=[SoC(k),ΔSoC(k),Treq(k),Preq(k),acc(k),v(k)]并执行步骤(1.6)进行归一化,选择电量稳持能量管理策略π=πCS=μCS(s(k)|θμ),其中,状态量ΔSoC(k)=SoC(k)-SoCsust
(5.2)计算当前时刻动作向量:将步骤(5.1)所得状态向量输入相应的能量管理策略π,进行网络正向传播计算,输出当前时刻的实际动作向量areal,如下式所示:
areal(k)=Z·μ(s(k)|θμ)
其中,μ为表征当前能量管理策略π的Actor网络,其参数为θμ;向量Z表示相应动作量的缩放系数,将网络输出的信号(范围0-1)映射到实际发动机转速、转矩区间;
(5.3)动作向量输出频率调整:鉴于实际车辆控制器采样频率较高,将动作向量输入采样保持器再输出,以降低动作向量变化频率,避免发动机频繁启停;
(5.4)动力系统响应:将步骤(5.3)输出的动作向量,发送至动力系统,动力系统响应动作向量,并发生状态转移;
(5.5)转向步骤(5.1),进行下一时刻车辆能量管理控制,直到行驶结束,车辆动力系统下电,结束能量管理进程。
进一步地,所述步骤六为能量管理策略的实时检测与训练更新,步骤(6.1)-(6.3)于车辆控制器中执行,步骤(6.3)-(6.4)于云端服务器中完成计算,预设衡量实际行驶工况与策略训练工况差异度的阈值Dthreshold,以及燃油消耗水平上限Ethreshold。具体包括如下步骤:
(6.1)根据实时行驶车速更新速度转移概率矩阵P:控制器采集并记录车辆行驶速度工况,每当行驶速度工况时长达到一小时,即Time=3600s,根据此时长为Time的实时工况,应用以下公式更新速度转移概率矩阵P:
Figure GDA0002182094710000141
Ni(k)=Ni(k-1)+Δi
Figure GDA0002182094710000142
其中,速度状态空间以1m/s作为离散精度,状态数量共计M=20;k表示概率矩阵P的更新迭代次数;Pij表示车速在1s后,由状态i转移至状态j的概率;Δi表示在时长为Time的行驶工况内,速度状态i的出现频数;δi(t)为布尔值,若t时刻的速度状态为状态i则为1,否则为0;Δij表示在时长为Time的行驶工况内,速度状态由i转移至j所出现的频数;δij(t)为布尔值,若t时刻的速度状态将由状态i转移至状态j则为1,否则为0;Ni表示出现速度状态i的历史累积频数;
(6.2)记录瞬时燃油消耗率,更新油耗移动平均值E:与步骤(6.1)同步执行,记录瞬时燃油消耗率,每当记录时长为Time后,利用以下公式更新空间距离上的油耗移动平均值E:
Figure GDA0002182094710000151
其中,
Figure GDA0002182094710000152
为t时刻的瞬时燃油消耗率,v(t)为t时刻的行驶车速;
(6.3)检测是否需要更新能量管理策略:在步骤(6.1)和(6.2)完成一次更新后,计算实际工况速度转移概率矩阵P与训练工况速度状态转移矩阵T的KL散度DKL,作为实际工况与训练工况的差异度指标,如以下公式所示:
Figure GDA0002182094710000153
其中,T为根据训练工况计算所得速度状态转移概率矩阵;
若DKL(P||T)>Dthreshold即训练工况差异度的阈值,且燃油消耗率移动平均值E>Ethreshold即燃油消耗水平上限,则向云端服务器发送请求,从计算云端执行步骤(6.4)至步骤(6.6),以更新能量管理策略;同时,车辆控制器返回继续执行步骤(6.1);
(6.4)生成新的训练工况:云端服务器获取当前的实际工况速度状态转移概率矩阵P,将车辆行驶速度状态转移视为马尔科夫过程,采用马尔科夫链蒙特卡洛模拟方法,生成与原始训练工况时长相同的新工况;
(6.5)策略训练:以新生成的训练工况为输入,于云端服务器中执行步骤一至步骤二,重新训练新的电量消耗阶段能量管理策略πBM和电量稳持阶段能量管理策略πCS
(6.6)策略更新:通过车载无线通讯,将新策略从云端下载至整车控制器以更新旧策略,同时更新控制器中的速度状态转移概率矩阵T=P;此时,步骤五将正常执行,当且仅当步骤(5.1)被执行时,新策略生效。
尽管已经示出和描述了本发明的实施例,对于本领域的普通技术人员而言,可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由所附权利要求及其等同物限定。

Claims (7)

1.一种基于确定性策略梯度学习的PHEV能量管理方法,其特征在于:具体包括以下步骤:
步骤一、利用深层神经DNN网络分别搭建动作Actor网络和动作价值Critic网络,共同组成确定性策略梯度学习算法的基本网络框架即AC网络,以构建PHEV能量管理策略学习网络;并对所述AC网络参数进行初始化和状态数据的归一化处理;
步骤二、对所述动作价值Critic网络进行预训练,定义并初始化用于存储后续训练产生的状态转移样本的存储空间作为经验池,获取初始时刻的状态向量,采用∈退火贪婪策略选择当前状态下的动作向量,存储当前时刻的状态转移样本,并对所述动作价值Critic网络进行更新;以网络更新迭代次数作为Critic网络预训练和AC网络训练是否满足要求的依据;
步骤三、基于所述步骤二中所选择的当前状态下的动作向量,获取动力系统的控制动作量和驾驶需求,计算PHEV动力系统的动力响应,并评估发动机燃油消耗水平,计算动力电池的状态转移,获取下一时刻状态向量并计算奖赏信号;
步骤四、对动力电池荷电状态SOC参考值初始化并更新SOC偏差,并依次对累积行驶距离以及所述动力电池参考值进行更新;
步骤五、获取当前时刻状态向量并计算当前时刻动作向量,调整动作向量输出频率,动力系统响应动作向量后对下一时刻重复本步骤的能量管理策略在线应用过程直到行驶结束;
步骤六、根据实时行驶车速更新速度转移概率矩阵,记录瞬时燃油消耗率,更新油耗移动平均值,检测是否需要更新能量管理策略;如需要更新,则执行生成新的训练工况,用于所述步骤一与步骤二对所建立的PHEV能量管理策略模型网络进行训练,从而实现所述模型网络的更新。
2.如权利要求1所述的方法,其特征在于:所述步骤一具体包括以下步骤:
(1.1)定义状态空间,建立电量消耗阶段能量管理策略πBM并训练,其状态空间维数为Nstate=7,状态空间S和状态向量s(k)分别定义如下:
S={SoC,ΔSoC,Treq,Preq,acc,v,d}
s(k)=[SoC(k),ΔSoC(k),Treq(k),Preq(k),acc(k),v(k),d(k)],s(k)∈S
其中,ΔSoC为SoC偏差值,Treq为需求驱动转矩,需求驱动功率Preq=Wreq·Treq,Wreq为需求驱动转速,acc为车辆加速度,v为车速,d为行驶距离,k为当前时刻;
(1.2)建立Actor网络,记为a=μ(s|θμ),μ表示Actor网络,其网络参数为θμ,以状态向量s为输入,输出动作向量为a,策略网络结构为:输入层-全连接层-输出层;
(1.3)建立Critic网络,具有两路支流的深层全连接神经网络,记为q=Q(s,a|θQ)=V(s|θV)+A(a|θA),Q表示Critic网络,其参数集合和动作价值输出分别为θQ和q,具体分为以θV为参数的状态价值网络支流V和以θA为参数的动作优势网络支流A;两路支流具有相同的隐含层结构;状态价值网络支流输入层输入维数与状态空间维数Nstate相同,输出层为线性标量输出;动作优势网络支流输入层输入维数与动作空间维数Naction相同,输出层为线性标量输出;
(1.4)初始化网络参数:采用Xavier初始化方法,产生Actor和Critic网络的初始网络权重和偏置,具体地,产生区间
Figure FDA0002511004790000021
中的均匀分布产生网络初始化参数,其中fanin和fanout分别为所需初始化参数层的输入和输出神经元个数;
(1.5)建立用于稳定训练的目标网络:复制一套与步骤(1.2)-(1.4)所建立的Actor和Critic网络结构和参数均相同的网络,记为目标Actor网络a=
Figure FDA0002511004790000022
和目标Critic网络
Figure FDA0002511004790000023
其中μT表示目标Actor网络,其参数为
Figure FDA0002511004790000024
QT表示目标Critic网络,其参数为
Figure FDA0002511004790000025
(1.6)训练数据归一化预处理:选定训练工况,计算获得其速度序列、加速度序列、以及需求转矩和功率序列,并分别计算其均值和标准差并保存,按照标准归一化通用公式进行归一化处理
Figure FDA0002511004790000026
其中,mean(X)和std(X)分别表示输入数据X的均值和标准差;
当且仅当此时为电量消耗阶段策略训练,需对行驶距离d按最大行驶里程进行线性归一化。
3.如权利要求2所述的方法,其特征在于:所述步骤二具体包括以下步骤:
(2.1)Actor网络预训练,按训练工况时序,基于动态规划最优能量管理策略,产生最优状态转移样本数据,其中k时刻的转移样本记为e(k)={s(k),a(k),r(k),s(k+1)},其中s(k)为k时刻的状态向量,a(k)为动作向量,r(k)为奖赏,s(k+1)为k+1采样时刻的状态向量;冻结Actor网络和目标Actor网络参数,从所有最优样本数据中随机采样得到小批量样本,依据式以下公式计算Critic网络更新梯度
Figure FDA0002511004790000027
仅更新Critic网络参数θQ和目标Critic网络参数
Figure FDA0002511004790000028
其中,学习率α根据Adam优化算法计算得到,重复此步骤,迭代更新5000次,使Critic网络参数基本收敛;网络更新梯度
Figure FDA0002511004790000029
的计算公式和网络更新公式分别为:
Figure FDA0002511004790000031
Figure FDA0002511004790000032
其中,s表示s(k),以s′表示s(k+1),r表示r(k),γ为未来奖赏折扣系数,
Figure FDA0002511004790000033
表示通过梯度反向传播计算动作价值q对Critic参数θQ的梯度,τ为跟随率;
(2.2)经验池初始化:定义存储空间以存储后续训练产生的状态转移样本ek,记作经验池D;定义随机过程
Figure FDA0002511004790000034
用于产生随机动作向量,并初始化探索率为∈=1;训练回合次数初始化为i=0,上限为N,训练工况长度为L;
(2.3)设k=0,获取初始时刻的状态向量s(0)=[SoC(0),ΔSoC(0),Treq(0),Preq(0),acc(0),v(k),d(0)];更新训练回合数i=i+1;
(2.4)采用∈退火贪婪策略选择当前状态s(k)下的动作向量a(k)=[We(k),Te(k)],以∈的概率选择使用随机过程
Figure FDA00025110047900000313
产生动作向量a(k),否则选择采用当前的能量管理策略网络产生动作向量a(k)=μBM(s(k)|θμ)=[We(k),Te(k)];μBM表示电量消耗阶段的能量管理策略网络;
(2.5)存储当前时刻的状态转移样本e(k),以当前时刻动作向量a(k)作为输入,执行步骤三一次,获取e(k)={s(k),a(k),r(k),s(k+1)},并计算其采样概率P(k),若经验池中样本数量尚未达到上限,则将该样本e(k)存储入经验池D,返回执行步骤(2.4);否则删除最旧的转移样本,存入新产生的转移样本e(k),执行步骤(2.6)
Figure FDA0002511004790000035
其中,样本优先级pk=|δk|+ε,δk为时间差分误差:
Figure FDA0002511004790000036
Figure FDA0002511004790000037
ε为非零常数,保证优先级非零,β为调节优先采样程度的系数;
(2.6)更新能量管理策略网络与动作价值网络,即更新AC网络;从经验池D中,服从样本采样概率,采样得到一小批量样本,此过程记为优先经验回放;根据确定性策略梯度学习原理,以及各个样本,分别计算用于策略网络参数更新的梯度
Figure FDA0002511004790000038
和Critic网络参数更新的梯度
Figure FDA0002511004790000039
将所得梯度取平均,作为最终更新梯度,更新Critic网络和能量管理策略网络
Figure FDA00025110047900000310
Figure FDA00025110047900000311
其中,
Figure FDA00025110047900000312
表示通过梯度反向传播计算动作价值q对Critic网络输入a的梯度,
Figure FDA0002511004790000041
表示通过梯度反向传播计算策略网络输出对其参数θμ的梯度,学习率α同样根据Adam优化算法计算得到;
(2.7)探索率衰减,将∈以线性规律衰减:
Figure FDA0002511004790000042
(2.8)若k<L-1,则k=k+1,并返回执行步骤(2.4),否则执行步骤(2.9);
(2.9)若i≤N,返回执行步骤(2.3),否则,终止训练,保存模型网络及其参数,作为训练好的能量管理策略模型网络;
(2.10)若尚未训练电量稳持阶段能量管理策略,执行此步骤,训练电量稳持阶段的能量管理策略πCS=μCS(s|θμ),μCS表示电量稳持阶段的能量管理策略网络:
针对电量稳持阶段的策略训练,其状态空间维数为Nstate=6,状态空间S和状态向量s(k)分别如下式所示;
S={Soc,ΔSoC,Treq,Preq,acc,v}
s(k)=[SoC(k),ΔSoC(k),Treq(k),Preq(k),acc(k),v(k)],s(k)∈S之后,执行步骤(1.2);
否则,若此时训练不在云端服务器中执行,则将训练所得能量管理策略下载至车辆控制器,转向步骤五,否则转向步骤六的更新过程。
4.如权利要求3所述的方法,其特征在于:所述步骤三具体包括以下步骤:
(3.1)获取动力系统的控制动作量和驾驶需求:获取来自步骤(2.5)的动作量输入We(k)和Te(k),即动作向量a(k)=[We(k),Te(k)];获取来自驾驶员或既定工况的需求驱动转速Wreq(k)和需求驱动转矩Treq(k);对于初始时刻k=0,有a(0)=[0,0],Wreq(k)=0,Treq(0)=0;
(3.2)计算PHEV动力系统的动力响应,并评估发动机燃油消耗水平,根据给定的动作向量,以行星排的力平衡和运动特性为基础,分别计算驱动电机的转速Wmot(k)和转矩Tmot(k),发电机的转速Wgen(k)和转矩Tgen(k);以发动机万有特性图为依据,计算发动机瞬时油耗
Figure FDA0002511004790000043
(3.3)计算动力电池状态转移:以动力电池内阻模型为基础,结合驱动电机和发电机台架试验效率特性,计算动力电池的放电或充电功率Pbatt(k),从而计算动力电池下一采样时刻的荷电状态SoC(k+1);
(3.4)获取下一时刻状态向量s(k+1):依据训练工况,获得下一时刻车辆行驶需求车速v(k+1)、加速度acc(k+1)、需求驱动转矩Treq(k+1)、需求驱动功率Preq(k+1);
若此时为电量消耗阶段能量管理策略训练,转入执行步骤四一次,获得更新后的空间域索引动力电池SoC参考值SoCref(k+1)、行驶距离信息d(k+1)、SoC偏差值ΔSoC(k+1);否则,计算SoCref(k+1)=SoCsust,ΔSoC(k+1)=SoC(k)-SoCsust,其中SoCsust为SoC稳持值;
之后,将上述荷电状态Soc(k+1)、加速度acc(k+1)、需求驱动转矩Treq(k+1)、需求驱动功率Preq(k+1)、SoC偏差值ΔSoC(k+1)、车辆行驶需求车速v(k+1)合并作为下一时刻的状态向量s(k+1);
(3.5)计算奖赏信号,依据步骤(3.4)所得SoC参考值SoCref(k+1),按照如下公式计算奖赏信号r(k):
Figure FDA0002511004790000051
其中,
Figure FDA0002511004790000052
和χ分别为奖赏信号中SoC项与燃油消耗项的权重系数。
5.如权利要求4所述的方法,其特征在于:所述步骤四具体包括以下步骤:
(4.1)初始化SoC参考值,以PHEV充满电的时刻为起始时刻,若此时为初始时刻,此时的行驶距离记为d(0)=0,动力电池SoC为初始值SoCinit,SoC参考值初始化为SoCref(0)=SoCinit;否则,转到步骤(4.2);
(4.2)更新SoC偏差:获取当前时刻的动力电池SoC(k),计算SoC偏差值为ΔSoC(k+1)=SoC(k)-SoCref(k);
(4.3)更新累积行驶距离信息:记控制器采样周期为Tsample,当前时刻车速和行驶距离分别为v(k)和d(k),新的行驶距离信息更新为d(k+1)=d(k)+v(k)·Tsample
(4.4)更新动力电池SoC参考值:SoCref(k+1)=SoCinit-λ·d(k+1),其中动力电池SoC在最大续驶里程内的期望下降速率为λ=(SoCinit-SoCsust)/L,SoCsust为动力电池电量预期稳持水平。
6.如权利要求5所述的方法,其特征在于:所述步骤五具体包括以下步骤:
(5.1)获取当前时刻状态向量:若SoC高于维持水平,从车辆实际动力系统获取状态向量s(k)=[SoC(k),ΔSoC(k),Treq(k),Preq(k),acc(k),v(k),d(k)]并执行步骤(1.6)进行归一化,选择电量消耗阶段能量管理策略作为当前策略π=πBM=μBM(s(k)|θμ),其中,状态量ΔSoC(k)和d(k)通过执行步骤四获得;否则,获取状态向量s(k)=[SoC(k),ΔSoC(k),Treq(k),Preq(k),acc(k),v(k)]并执行步骤(1.6)进行归一化,选择电量稳持能量管理策略π=πCS=μCS(s(k)|θμ),其中,状态量ΔSoC(k)=Soc(k)-SoCsust
(5.2)计算当前时刻动作向量:将步骤(5.1)所得状态向量输入相应的能量管理策略π,进行网络正向传播计算,输出当前时刻的实际动作向量areal,如下式所示:
areal(k)=Z·μ(s(k)|θμ)
其中,μ为表征当前能量管理策略π的Actor网络,其参数为θμ;向量Z表示相应动作量的缩放系数,将网络输出的信号映射到实际发动机转速、转矩区间;
(5.3)动作向量输出频率调整:鉴于实际车辆控制器采样频率较高,将动作向量输入采样保持器再输出,以降低动作向量变化频率,避免发动机频繁启停;
(5.4)动力系统响应:将步骤(5.3)输出的动作向量,发送至动力系统,动力系统响应动作向量,并发生状态转移;
(5.5)转向步骤(5.1),进行下一时刻车辆能量管理控制,直到行驶结束,车辆动力系统下电,结束能量管理进程。
7.如权利要求6所述的方法,其特征在于:所述步骤六具体包括以下步骤:
(6.1)根据实时行驶车速更新速度转移概率矩阵P:控制器采集并记录车辆行驶速度工况,每当行驶速度工况时长达到一小时,即Time=3600s,根据此时长为Time的实时工况,应用以下公式更新速度转移概率矩阵P:
Figure FDA0002511004790000061
Ni(k)=Ni(k-1)+Δi
Figure FDA0002511004790000062
其中,速度状态空间以1m/s作为离散精度,状态数量共计M=20;k表示概率矩阵P的更新迭代次数;Pij表示车速在1s后,由状态i转移至状态j的概率;Δi表示在时长为Time的行驶工况内,速度状态i的出现频数;δi(t)为布尔值,若t时刻的速度状态为状态i则为1,否则为0;Δij表示在时长为Time的行驶工况内,速度状态由i转移至j所出现的频数;δij(t)为布尔值,若t时刻的速度状态将由状态i转移至状态j则为1,否则为0;Ni表示出现速度状态i的历史累积频数;
(6.2)记录瞬时燃油消耗率,更新油耗移动平均值E:与步骤(6.1)同步执行,记录瞬时燃油消耗率,每当记录时长为Time后,利用以下公式更新空间距离上的油耗移动平均值E:
Figure FDA0002511004790000063
其中,
Figure FDA0002511004790000064
为t时刻的瞬时燃油消耗率,v(t)为t时刻的行驶车速;
(6.3)检测是否需要更新能量管理策略:在步骤(6.1)和(6.2)完成一次更新后,计算实际工况速度转移概率矩阵P与训练工况速度状态转移矩阵T的KL散度DKL,作为实际工况与训练工况的差异度指标,如以下公式所示:
Figure FDA0002511004790000065
其中,T为根据训练工况计算所得速度状态转移概率矩阵;
若DKL(P||T)>Dthreshold即训练工况差异度的阈值,且燃油消耗率移动平均值E>Ethreshold即燃油消耗水平上限,则向云端服务器发送请求,从计算云端执行步骤(6.4)至步骤(6.6),以更新能量管理策略;同时,车辆控制器返回继续执行步骤(6.1);
(6.4)生成新的训练工况:云端服务器获取当前的实际工况速度状态转移概率矩阵P,将车辆行驶速度状态转移视为马尔科夫过程,采用马尔科夫链蒙特卡洛模拟方法,生成与原始训练工况时长相同的新工况;
(6.5)策略训练:以新生成的训练工况为输入,于云端服务器中执行步骤一至步骤二,重新训练新的电量消耗阶段能量管理策略πBM和电量稳持阶段能量管理策略πCS
(6.6)策略更新:通过车载无线通讯,将新策略从云端下载至整车控制器以更新旧策略,同时更新控制器中的速度状态转移概率矩阵T=P;此时,步骤五将正常执行,当且仅当步骤(5.1)被执行时,新策略生效。
CN201910659905.2A 2019-07-22 2019-07-22 一种基于确定性策略梯度学习的phev能量管理方法 Active CN110341690B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910659905.2A CN110341690B (zh) 2019-07-22 2019-07-22 一种基于确定性策略梯度学习的phev能量管理方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910659905.2A CN110341690B (zh) 2019-07-22 2019-07-22 一种基于确定性策略梯度学习的phev能量管理方法

Publications (2)

Publication Number Publication Date
CN110341690A CN110341690A (zh) 2019-10-18
CN110341690B true CN110341690B (zh) 2020-08-04

Family

ID=68179589

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910659905.2A Active CN110341690B (zh) 2019-07-22 2019-07-22 一种基于确定性策略梯度学习的phev能量管理方法

Country Status (1)

Country Link
CN (1) CN110341690B (zh)

Families Citing this family (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110780203B (zh) * 2019-11-11 2020-11-27 北京理工大学 一种纯电动汽车电池组soc在线估值方法
CN110696815B (zh) * 2019-11-21 2020-10-09 北京理工大学 一种网联式混合动力汽车的预测能量管理方法
CN110993992B (zh) * 2019-11-22 2020-09-08 清华大学 燃料电池系统万有特性图的生成方法
CN111152780B (zh) * 2020-01-08 2021-06-25 吉林大学 一种基于“信息层-物质层-能量层”框架的车辆全局能量管理方法
CN111267830B (zh) * 2020-02-10 2021-07-09 南京航空航天大学 一种混合动力公交车能量管理方法、设备和存储介质
CN111367172B (zh) * 2020-02-28 2021-09-21 华南理工大学 一种基于逆向深度强化学习的混动系统能量管理策略
CN111267831B (zh) * 2020-02-28 2023-09-26 南京航空航天大学 一种混合动力车辆智能变时域模型预测能量管理方法
CN111679576B (zh) * 2020-05-21 2021-07-16 大连理工大学 一种基于改进确定性策略梯度算法的变循环发动机控制器设计方法
CN111775925B (zh) * 2020-06-09 2021-09-03 同济大学 一种功率分流混合动力汽车的工作模式决策方法和装置
CN111731303B (zh) * 2020-07-09 2021-04-23 重庆大学 一种基于深度强化学习a3c算法的hev能量管理方法
CN111845701B (zh) * 2020-08-05 2021-03-30 重庆大学 一种跟车环境下基于深度强化学习的hev能量管理方法
CN112249002B (zh) * 2020-09-23 2022-06-28 南京航空航天大学 一种基于td3的启发式串并联混合动力能量管理方法
CN112440974B (zh) * 2020-11-27 2021-11-02 武汉理工大学 基于分布式深度确定性策略梯度的hev能量管理方法
CN112498334B (zh) * 2020-12-15 2022-03-11 清华大学 智能网联混合动力汽车的鲁棒能量管理方法及系统
CN113032934B (zh) * 2021-03-10 2022-09-20 东北电力大学 基于me-td3算法的风电场动态参数智能校核方法
CN113269963B (zh) * 2021-05-20 2021-12-10 东南大学 一种基于强化学习的网联车辆信号灯控路口经济通行方法
CN113071508B (zh) * 2021-06-07 2021-08-20 北京理工大学 一种dcps架构下的车辆协同能量管理方法和系统
CN113246958B (zh) * 2021-06-11 2022-06-14 武汉理工大学 基于td3多目标hev能量管理方法及系统
CN113428049B (zh) * 2021-08-26 2021-11-09 北京理工大学 一种考虑电池老化抑制的燃料电池混动汽车能量管理方法
CN114202229B (zh) * 2021-12-20 2023-06-30 南方电网数字电网研究院有限公司 基于深度强化学习的微电网的能量管理策略的确定方法
CN114741970B (zh) * 2022-04-29 2024-05-24 广州大学 一种改进的深度确定性策略梯度算法的电路参数优化方法
CN117184095B (zh) * 2023-10-20 2024-05-14 燕山大学 基于深度强化学习的混合动力电动车系统控制方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104071161A (zh) * 2014-04-29 2014-10-01 福州大学 一种插电式混合动力汽车工况识别及能量管控的方法
CN105644548A (zh) * 2015-12-28 2016-06-08 中国科学院深圳先进技术研究院 混合动力汽车的能量控制方法及装置
CN107284441A (zh) * 2017-06-07 2017-10-24 同济大学 实时工况自适应的插电式混合动力汽车能量优化管理方法
CN108177648A (zh) * 2018-01-02 2018-06-19 北京理工大学 一种基于智能预测的插电式混合动力车辆的能量管理方法
CN108427985A (zh) * 2018-01-02 2018-08-21 北京理工大学 一种基于深度强化学习的插电式混合动力车辆能量管理方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7076350B2 (en) * 2003-12-19 2006-07-11 Lear Corporation Vehicle energy management system using prognostics

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104071161A (zh) * 2014-04-29 2014-10-01 福州大学 一种插电式混合动力汽车工况识别及能量管控的方法
CN105644548A (zh) * 2015-12-28 2016-06-08 中国科学院深圳先进技术研究院 混合动力汽车的能量控制方法及装置
CN107284441A (zh) * 2017-06-07 2017-10-24 同济大学 实时工况自适应的插电式混合动力汽车能量优化管理方法
CN108177648A (zh) * 2018-01-02 2018-06-19 北京理工大学 一种基于智能预测的插电式混合动力车辆的能量管理方法
CN108427985A (zh) * 2018-01-02 2018-08-21 北京理工大学 一种基于深度强化学习的插电式混合动力车辆能量管理方法

Also Published As

Publication number Publication date
CN110341690A (zh) 2019-10-18

Similar Documents

Publication Publication Date Title
CN110341690B (zh) 一种基于确定性策略梯度学习的phev能量管理方法
CN111267831B (zh) 一种混合动力车辆智能变时域模型预测能量管理方法
Wu et al. Continuous reinforcement learning of energy management with deep Q network for a power split hybrid electric bus
Lian et al. Rule-interposing deep reinforcement learning based energy management strategy for power-split hybrid electric vehicle
WO2022077693A1 (zh) 负荷预测模型的训练方法及训练装置、存储介质、设备
Liu et al. Reinforcement learning optimized look-ahead energy management of a parallel hybrid electric vehicle
Liu et al. Parallel reinforcement learning-based energy efficiency improvement for a cyber-physical system
Liessner et al. Deep reinforcement learning for advanced energy management of hybrid electric vehicles.
Zhao et al. A deep reinforcement learning framework for optimizing fuel economy of hybrid electric vehicles
CN113051667B (zh) 一种混合动力汽车能量管理策略的加速学习方法
CN111047085B (zh) 一种基于元学习的混合动力车辆工况预测方法
CN112668799A (zh) 基于行驶大数据的phev的智能能量管理方法和存储介质
Guo et al. Transfer deep reinforcement learning-enabled energy management strategy for hybrid tracked vehicle
CN105644548A (zh) 混合动力汽车的能量控制方法及装置
Wu et al. An online correction predictive EMS for a hybrid electric tracked vehicle based on dynamic programming and reinforcement learning
Song et al. A power management strategy for parallel PHEV using deep Q-networks
CN111547039B (zh) 基于深度强化学习的混合动力车辆油门控制方法及系统
CN110007235A (zh) 一种电动汽车蓄电池soc在线预测方法
Zhang et al. Tackling SOC long-term dynamic for energy management of hybrid electric buses via adaptive policy optimization
CN115107733A (zh) 一种混合动力汽车的能量管理方法及系统
CN117131606A (zh) 一种可跨运动维度迁移的混合动力履带车辆能量管理方法
Liu et al. Parallel distance: A new paradigm of measurement for parallel driving
Zhou et al. Multi-objective real-time energy management for series–parallel hybrid electric vehicles considering battery life
CN111516702B (zh) 一种混合动力车辆在线实时分层能量管理方法和系统
CN112084700A (zh) 一种基于a3c算法的混合动力系统能量管理方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant