CN114670803A - 基于自我监督学习的并联式混合动力汽车能量管理方法 - Google Patents

基于自我监督学习的并联式混合动力汽车能量管理方法 Download PDF

Info

Publication number
CN114670803A
CN114670803A CN202111586195.9A CN202111586195A CN114670803A CN 114670803 A CN114670803 A CN 114670803A CN 202111586195 A CN202111586195 A CN 202111586195A CN 114670803 A CN114670803 A CN 114670803A
Authority
CN
China
Prior art keywords
self
vehicle
model
reward
formula
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111586195.9A
Other languages
English (en)
Inventor
齐春阳
肖峰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
JIANGSU HAOFENG AUTO PARTS CO Ltd
Original Assignee
JIANGSU HAOFENG AUTO PARTS CO Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by JIANGSU HAOFENG AUTO PARTS CO Ltd filed Critical JIANGSU HAOFENG AUTO PARTS CO Ltd
Priority to CN202111586195.9A priority Critical patent/CN114670803A/zh
Publication of CN114670803A publication Critical patent/CN114670803A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60WCONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
    • B60W20/00Control systems specially adapted for hybrid vehicles
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60WCONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
    • B60W20/00Control systems specially adapted for hybrid vehicles
    • B60W20/10Controlling the power contribution of each of the prime movers to meet required power demand
    • B60W20/15Control strategies specially adapted for achieving a particular effect
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60WCONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
    • B60W50/00Details of control systems for road vehicle drive control not related to the control of a particular sub-unit, e.g. process diagnostic or vehicle driver interfaces
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60WCONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
    • B60W50/00Details of control systems for road vehicle drive control not related to the control of a particular sub-unit, e.g. process diagnostic or vehicle driver interfaces
    • B60W2050/0001Details of the control system
    • B60W2050/0019Control system elements or transfer functions
    • B60W2050/0028Mathematical models, e.g. for simulation

Abstract

本发明涉及一种基于自我监督学习的并联式混合动力汽车能量管理方法,属于混合动力汽车控制技术领域。本发明用自监督学习的方法,提出一种分层强化学习结构,用来解决稀疏奖励的问题,提高车辆的燃油经济性的同时,能适应不同的工况,实现HEV的优化能量控制。本发明的管理方法相较于传统强化学习算法提高了燃油经济性;提出的算法接近最佳燃油消耗曲线,在转速增大时,能尽力保证发动机在低油耗,高功率区工作;能更好的维护电池SOC值,减少充放电次数,保证了电池的使用寿命。

Description

基于自我监督学习的并联式混合动力汽车能量管理方法
技术领域
本发明涉及一种基于自我监督学习的并联式混合动力汽车能量管理方法, 属于混合动力汽车控制技术领域。
背景技术
目前,随着汽车产量的快速增加,汽车在给人们日常出行生活带来很大便 利的同时,也产生了日益严峻的环境问题和能源问题。混合动力汽车凭借其低 能耗和长续航里程的优势成为适合公共交通的解决方案。能量管理控制策略的 目的是协调发动机和电机之间的功率分配,从而实现经济性最大化和保持荷电 状态(SOC)的稳定。
能量管理控制策略一般可以分为基于规则,基于优化和基于学习的方法。 基于规则的方法,简单、可靠性高和适应性强。但是对于不同的控制目标,基 于规则的能量管理控制策略往往也达不到最优。
基于优化的能量管理控制策略有全局整体优化和瞬时局部优化两种。瞬时 优化的能量管理策略主要是依据车辆的实时需求功率进行动力分配的。全局优 化策略,是在车辆行驶工况已知的前提条件下,依据该工况的行驶特性,建立 优化的目标函数(一般为油耗值),算法求解达到优化目标函数的目的。
随着人工智能技术的发展,将一些智能算法引入HEV的能量管理领域成为 了新的研究热点,由此诞生了基于学习的能量管理策略。强化学习也被视为智 能系统的核心技术之一。应用强化学习进行能量管理控制也逐渐成为热门研究 方向。目前应用强化学习算法的能量管理控制策略有一些优势,但是缺乏在奖 励稀疏条件下的研究。
有鉴于上述的缺陷,本发明以期创设一种基于自我监督学习的并联式混合 动力汽车能量管理方法,使其更具有产业上的利用价值。
发明内容
为解决上述技术问题,本发明用自监督学习的方法,提出一种分层强化学 习结构,用来解决稀疏奖励的问题,提高车辆的燃油经济性的同时,能适应不 同的工况,实现HEV的优化能量控制。
本发明的一种基于自我监督学习方法的的并联式混合动力汽车能量管理方 法,包括:
S1:建立并联式汽车的仿真模型;
S2:以车辆模型本身为环境,以发动机转速、发动机转矩和电池soc值为 状态值,车辆发动机功率为执行动作构建能量管理控制模型;
S3:提出用分层强化学习的方式设置奖励函数,分层结构包括外部奖励层 和内部奖励层。外部奖励层由燃油消耗值和电池SOC值组成。内部奖励层是本 文提出的一种自监督方式产生的内部奖励;
S4:强化学习校准;
S5:应用DQL算法计算总奖励值。
优选地,所述步骤S1中并联式汽车的仿真模型包括整车动力纵向动力学模 型、发动机模型、电机模型、变速箱CVT模型和电池模型;
其中,车辆行驶时受到车辆的驱动力Ff和行驶阻力,行驶阻力包括滚动阻力 Ff,空气阻力Fw,坡度阻力Fi,和加速阻力Fj;所述整车动力纵向动力学建模如 下:
Ft=Ff+Fw+Fi+Fj (1)
在不考虑坡度阻力的情况下(α=0),公式(1)可以变换为公式(2)。
Figure BDA0003425388050000031
公式(2)中,m为汽车整备质量,g为重力加速度,f为滚动阻力系数,α为 道路坡度。,CD为空气阻力系数,A为迎风面积(m2),ρ为空气密度(kg·m-3),ua为车速(m/s),δ主要与飞轮的转动惯量、车轮的转动惯量和传动系的传动比有 关。
最终可以计算出车辆需求功率和车轮转速分别为:
Figure BDA0003425388050000032
Figure BDA0003425388050000033
发动机是混合动力汽车的核心动力源,但由于自身特性的显著非线性,真 实模型非常复杂,所以在整车仿真模型开发中发动机模型采用实验建模为主, 理论建模为辅的混合建模方法。所述发动机模型的燃油消耗量如下:
Figure BDA0003425388050000034
Te=f(θ,n) (6)
公式(5)中,Te为发动机转矩(N·m),θ为节气门开度,n为发动机转速 (r/min),mf为燃油消耗量(g/s),
Figure RE-GDA0003607462420000035
为发动机单位时间的燃油消耗量,f(θ,n) 为根据Te和n两变量的二维查表函数。
电机是混合动力汽车能量转换中的关键动力部件,与发动机建模方法类似, 采用实验建模法。所述电机计算模型如下:
Tm=γTm_max (7)
Figure BDA0003425388050000041
Figure BDA0003425388050000042
ηm=f(Tm,ωm) (10)
其中,Tm为电机输出转矩(N·m),Tm_max为电机最大转矩(N·m),γ为电 机转矩控制指令,Im为电机控制器母线端子电流(A),Pm为电机输入(电动) 或输出(发电),U为电源总线电压(v),ωm为电机转速,ηm为电机效率。 f(Tm,ωm)根据查表得到。
所述变速箱CVT计算模型如下:
Figure BDA0003425388050000043
公式(11)中,Tin为CVT主动带轮端输入转矩(N·m),Tout为CVT从动带 轮端输出转矩(N·m),Ie为飞轮和主动带轮在CVT输入轴上的等价转动惯量(kg·m2);Is从动带轮和主减速器在CVT从动轴上的等价转动惯量(kg·m2); icvt带传动速比;i0主减速器速比;ωs从动带轮转速(rad/s),η为金属带传 动效率。
所述电池计算模型如下所示:
Figure BDA0003425388050000051
Figure BDA0003425388050000052
公式(12)中,SOCinit为初始SOC,Qcap为电池安时容量,Quse为用掉的电 量,I为回路电流,ηess为充放电效率。
优选地,所述步骤S2中能量管理控制模型如公式(14)所示:
s=[nt,Tt,soc] (14)
action=Engine power (15)
公式(14)中,s表示在车辆在t时刻的状态,action表示车辆在t时刻的 发动机的需求功率,nt表示t时刻的发动机转速,Tt表示t时刻的发动机转矩, soc表示t时刻电池状态值。
优选地,所述步骤S3中分层强化学习的结构包括外部奖励和内部奖励。奖 励函数如公式(16)所示
rtotal=rinternal+rexternal (16)
其中,所述外部奖励由两个部分组成:第一部分表示燃油消耗mf是瞬时燃 油消耗率,第二部分表示当前时刻和初始时刻SOC的差值,表示电池SOC维持 的性能。α和β为两个常数因子,通过调整这两个参数,能量管理策略可以在 燃油经济性和电池SOC维持上取得一定的平衡。如公式(17)所示:
Figure BDA0003425388050000061
所述内部奖励由自我监督模型的损失函数构建,用于填充外部奖励函数。 自监督内部奖励函数如公式(18)所示:
Figure BDA0003425388050000062
Figure BDA0003425388050000063
优选地,所述步骤S4中强化学习校准公式如式(20)所示:
Figure BDA0003425388050000064
将强化学习校准和自我监督产生的内部奖励进行整合,得到新的内部奖励 函数(公式),解决了自监督模型过度自信(错误)预测的问题。如公式(21) 所示:
Figure BDA0003425388050000065
优选地,所述步骤S5中应用DQL算法计算总奖励值,DQL算法是Q-learning 算法的一种改进算法,它以神经网络作为状态-动作值函数的载体,用参数为θ 的f网络来近似替代状态-动作值函数,公式如式(22)所示:
f(s,a,θ)≈Q*(s,a) (22)
其中,f(s,a,θ)可以式任何类型的函数,通过函数来近似替代Q值表,无论 输入空间有多大,都能够用神经网络的输出值计算Q值。在深度Q网络中,存 在两个网络,分别为估计网络和目标网络,两个网络的结构完全相同,不同之 处在于网络参数。总奖励值可以用公式(23)所示:
Figure BDA0003425388050000071
其中r表示即使奖励,γ为折旧因子。
网络参数的更新规则为,估计网络中的参数实时进行更新,在经过C步之后, 估计网络的参数会复制到目标网络中。DQN网络更新是利用TD误差进行参数更 新。公式如式(24)所示:
Figure BDA0003425388050000074
公式(24)中,
Figure RE-GDA0003607462420000073
和θt分别表示t时刻目标网络的参数和估计网络的参数,
Figure RE-GDA0003607462420000074
为在状态处所对应的最大Q值的相应动作,rt+1为执行动作后 所获得的奖赏值。
借由上述方案,本发明至少具有以下优点:
(1)相较于传统强化学习算法提高了燃油经济性;
(2)提出的算法接近最佳燃油消耗曲线,在转速增大时,能尽力保证发动 机在低油耗,高功率区工作;
(3)能更好的维护电池SOC值,减少充放电次数,保证了电池的使用寿命。
上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术 手段,并可依照说明书的内容予以实施,以下以本发明的较佳实施例并配合附 图详细说明如后。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例中所需要使 用的附图作简单地介绍,应当理解,以下附图仅示出了本发明的某个实施例, 因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创 造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1是本发明实施例1的并联式混合动力汽车原理图;
图2是本发明实施例1的强化学习算法的基本原理图;
图3是本发明实施例1的算法流程图,右侧部分为DQL的通用算法;
图4是本发明实施例1的分层强化学习的分层结构图;
图5是对比实验1的燃油经济性比较柱状图;
图6是在DQN算法下发动机的工作区域;
图7是在DDPG算法下发动机的工作区域;
图8是在本发明算法下发动机的工作区域;
图9是三种算法在工况下SOC的变化值;
其中,实线对应本发明方法,点线对应DQN,长点线对应DDPG;
图10本发明算法最终训练奖励值;
其中,实线对应本发明方法,点线对应DQN,长点线对应DDPG。
具体实施方式
下面结合附图和实施例,对本发明的具体实施方式作进一步详细描述。以 下实施例用于说明本发明,但不用来限制本发明的范围。
实施例1选取普锐斯并联式HEV作为研究对象,其结构和工作原理如图1 所示。在并联式混合动力电动汽车的驱动系统中,原动机与电动机可以共同或 分别独立的向汽车传动系提供扭矩,且没有发电机,并联混合动力汽车的整车 参数如表1所示:
表1为普锐斯并联式HEV的整车参数
Figure BDA0003425388050000091
S1:根据普锐斯并联式HEV的整车参数以及汽车结构原理,建立并联式汽 车的整车纵向动力学模型、发动机模型、电机模型、变速箱CVT模型和电池模 型。
当车辆行驶时,会受到阻碍其运动的阻力作用该阻力主要包括滚动阻力、 空气阻力、坡度阻力、加速阻力。按照汽车理论的知识,可以得出汽车的行驶 方程式如下:
Ft=Ff+Fw+Fi+Fj (1)
式中,Ft表示车辆的驱动力,Ff表示滚动阻力,Fw表示空气阻力,Fi表示坡 度阻力,Fj表示加速阻力。
在不考虑坡度阻力的情况下(α=0),公式(1)可以变换为公式(2)。
Figure BDA0003425388050000101
式(2)中,m为汽车整备质量,g为重力加速度,f为滚动阻力系数,α为 道路坡度。,CD为空气阻力系数,A为迎风面积(m2),ρ为空气密度(kg·m-3),ua为车速(m/s),δ主要与飞轮的转动惯量、车轮的转动惯量和传动系的传动比有 关。
最终可以计算出车辆需求功率和车轮转速分别为:
Figure BDA0003425388050000102
Figure BDA0003425388050000103
发动机是混合动力汽车的核心动力源,但由于自身特性的显著非线性,真 实模型非常复杂,不同节气门开度对应的发动机输出转矩特性曲线各不相同。 在混合动力系统中,发动机模型的重点是输入输出,其内部可以尽量简化,所 以在整车仿真模型开发中发动机模型采用实验建模为主,理论建模为辅的混合 建模方法。
发动机模型的燃油消耗量计算如下:
Figure BDA0003425388050000111
Te=f(θ,n) (6)
式(5)中,Te为发动机转矩(N·m),θ为节气门开度,n为发动机转速 (r/min),mf为燃油消耗量(g/s),
Figure BDA0003425388050000114
为发动机单位时间的燃油消耗量,f(θ,n) 为根据Te和n两变量的二维查表函数。
电机是混合动力汽车能量转换中的关键动力部件,它既可以运行在电动机 状态,又可以运行在发电机状态。它的最大功率及其在不同转速和转矩下的效 率直接影响了混合动力汽车的工作模式。电机的输出性能是电机和电机控制器 的综合性能,所以在建模中要把电机及其控制器作为一个整体考虑。与发动机 建模一样,电机的模型也不能直接从理论建模,需要采用实验建模法,需要测 得电机的外特性数据,电机的输出转矩计算如下:
Tm=γTm_max (7)
电机的电流计算如下:
Figure BDA0003425388050000112
Figure BDA0003425388050000113
电机效率由电机性能试验得到,即
ηm=f(Tm,ωm) (10)
式(10)中,Tm为电机输出转矩(N·m),Tm_max为电机最大转矩(N·m),γ 为电机转矩控制指令,Im为电机控制器母线端子电流(A),Pm为电机输入(电 动)或输出(发电),U为电源总线电压(v),ωm为电机转速,ηm为电机效率。 f(Tm,ωm)根据查表得到。
变速箱CVT模型反应了变速器的输入端和输出端的动态特性,在保持驱动性 能和燃油经济性的前提条件下,我们对CVT模型进行简要简化,忽略了CVT传动 特性的影响,而且不考虑液压执行机构的动力学特性的影响,将速比与速比变 化率之间用一个简单的积分器表示,即:
Figure BDA0003425388050000121
式(11)中,Tin为CVT主动带轮端输入转矩(N·m),Tout为CVT从动带轮 端输出转矩(N·m),Ie为飞轮和主动带轮在CVT输入轴上的等价转动惯量 (kg·m2);Is从动带轮和主减速器在CVT从动轴上的等价转动惯量(kg·m2); icvt带传动速比;i0主减速器速比;ωs从动带轮转速(rad/s),η为金属带传动 效率。
电池是混合动力汽车的电力能源储存设备,在驱动行驶时可以提供必要的 辅助动力,在减速和制动过程中则可以进行能量回收。
电池soc采用安时累计法计算:
Figure BDA0003425388050000131
用掉的电量计算如下:
Figure BDA0003425388050000132
式(13)中,SOCinit为初始SOC,Qcap为电池安时容量,Quse为用掉的电量, I为回路电流,ηess为充放电效率。
S2:以车辆模型本身为环境,以发动机转速、发动机转矩和电池soc值为 状态值,车辆发动机功率为执行动作构建能量管理控制模型。
能量管理控制策略的本质是求解带约束的优化问题,即在满足循环工况下 驾驶需求功率、动力总成各部件物理约束情况下,求解出最优策略使得整车油 耗最优。基于之前的车辆模型,我们把车辆当做强化学习的环境,从车辆身上 获取在行驶中的状态(发动机转速,发动机转矩,soc值为状态值)。强化学习 算法的基本原理图如图3所示。其中,能量管理控制模型如公式(14)所示:
Figure BDA0003425388050000133
公式(14)中,s表示在车辆在t时刻的状态,action表示车辆在t时刻 的发动机的需求功率,nt表示t时刻的发动机转速,Tt表示t时刻的发动机转矩,SOC表示t时刻电池状态值;
S3:提出用分层强化学习的方式设置奖励函数,分层结构包括外部奖励层 和内部奖励层。外部奖励层由燃油消耗值和电池SOC值组成。内部奖励层是本 文提出的一种自监督方式产生的内部奖励。奖励函数如公式(15)所示:
rtotal=rinternal+rexternal (15)
能量管理策略中,我们不仅仅要考虑车辆所处的环境,而且还要考虑车辆 本身,仅靠外部奖励来运转强化学习框架是远远不够的。此外,由于强化学习 本身还是存在稀疏奖励的问题。所以,要使得智能体能很好的理解环境是非常 困难的。更何况是较为复杂的车辆环境,每一个时刻车辆的状态都是千变万化。 所以我们提出用一种分层强化学习的方式来产生内部奖励,使得车辆更有效的 探索环境。分层结构如图3所示。
外部奖励层由两个部分组成:第一部分表示燃油消耗mf是瞬时燃油消耗率, 第二部分表示当前时刻和初始时刻SOC的差值,表示电池SOC维持的性能。α 和β为两个常数因子,通过调整这两个参数,能量管理策略可以在燃油经济性 和电池SOC维持上取得一定的平衡。如公式(16)所示
Figure BDA0003425388050000141
内部奖励层是本文提出的一种自监督方式产生的内部奖励。自我监督学习 是无监督学习的一个子集,是利用数据的内在联系来实现自我监督的。自监督 学习是不需要大规模数据集合大量的标注的。在能量管理控制策略中,我们需 要通过伪标签的自动生成来构建内部奖励。简单来说就是,根据当前的状态和 动作来预测下一个状态。由于添加了自监督模块,所以模型存在一定的泛化能 力。自监督内部奖励函数如公式(17)所示
Figure BDA0003425388050000151
Figure BDA0003425388050000152
S4:强化学习校准。由于自监督学习容易陷入“自我良好”的情况,这就 会导致过度自信(错误)预测,因此,我们提出了一种强化学习校准方法来解 决这个问题。强化学习的精髓就是通过当前的状态预测下一刻的动作。执行下 一个时刻的动作,得到下一个时刻的状态。本文中强化学习校准根据下一个时 刻的状态,通过神经网络生成下一个时刻的动作
Figure BDA0003425388050000153
和真的a做损失,填补内 部奖励。如公式(19)所示:
Figure BDA0003425388050000154
我们将强化学习校准和自监督产生的内部奖励进行整合,得到新的内部奖 励函数(公式),解决了自监督模型过度自信(错误)预测的问题。
Figure BDA0003425388050000155
S5:DQL应用。DQL算法是Q-learning算法的一种改进算法,它以神经网 络作为状态-动作值函数的载体,用参数为θ的f网络来近似替代状态-动作值函 数,公式如式(21)所示:
f(s,a,θ)≈Q*(s,a) (21)
其中,f(s,a,θ)可以式任何类型的函数,通过函数来近似替代Q值表,无论 输入空间有多大,都能够用神经网络的输出值计算Q值。在深度Q网络中,存 在两个网络,分别为估计网络和目标网络,两个网络的结构完全相同,不同之 处在于网络参数。总奖励值可以用公式1表示。
Figure BDA0003425388050000161
其中r表示即使奖励,γ为折旧因子。
网络参数的更新规则为,估计网络中的参数实时进行更新,在经过C步之后, 估计网络的参数会复制到目标网络中。DQN网络更新是利用TD误差进行参数 更新。公式如式(23)所示。
Figure BDA0003425388050000162
其中,
Figure BDA0003425388050000163
和θt分别表示t时刻目标网络的参数和估计网络的参数,
Figure BDA0003425388050000164
为在状态处所对应的最大Q值的相应动作,rt+1为执行动作后 所获得的奖赏值。
本实施1中,强化学习算法(DQN)利用深度卷积神经网络逼近值函数, 同时利用经验回放训练强化学习的学习过程。
对比实验1:
在本节我们在现有的行驶工况基础上,构建了一个新的行驶工况。运动学 片段是指汽车从怠速状态开始至相邻的下一个怠速状态开始之间的车速变化状 况的连续过程,因此新的行驶工况是可以由很多运动学片段组建而成。
将上述运动学片段中的几种运动学状态进行划分如下:
(1)怠速工况:发动机工作,且车辆速度V为0的状态。
(2)匀速工况:车辆加速度a小于0.10m/s2并大于-0.10m/s2,且V不为0的状态。
(3)加速工况:车辆加速度a大于0.10m/s2,且V不为0的状态。
(4)减速工况:车辆减速度a小于-0.10m/s2
我们将NEDC,UDDS,IM240,JN1015四种典型工况中抽取一些运动片段组建 成新的行驶工况。行驶工况如图5所示。构建新的工况之后,我们可以从燃油 经济性,发动机工作点,强化学习奖励值,新建工况的泛化能力方面对策略性 能进行评价。
建立好能量管理策略之后,针对NEDC,LA92_2,FTP75,UDDS, WVUINTER,JN1015,六种典型工况进行验证。燃油经济性比较如表3所示。为 了更加直观的展示,我们将数据用柱状图的方式进行表达,具体如图6所示。 从图中我们可以看出相较于DQN算法,我们的算法大约可以提高6%的燃油经 济性,相较于DDPG算法,可以提高大约10%的燃油经济性。
表3为燃油经济性仿真结果表
Figure BDA0003425388050000171
Figure BDA0003425388050000181
图7,图8,图9显示了在不同算法下发动机的工作区域,其中棕色的线代 表了最佳的燃油消耗。我们的算法相较于其他两种强化学习算法来说,更加接 近于最佳燃油消耗曲线,也说明了该算法使得发动机工作在低功耗区和高效率 区。在转速增大时,我们的算法相较于其他算法也能尽力地保证发动机在低油 耗,高功率区工作。其中图10显示了三种算法在工况下soc的变化值。为了更 准确的评价燃油经济性,我们将算法中相同的soc终止值提取出来进行分析。 在图中可以看出我们的算法更好的维护了soc值,没有多次的充放电次数,保 证了电池的使用寿命。另外,在表3中,新建工况与相比具有较强的适应性。 在DQN和DDPG算法的多步循环下的综合油耗。用训练好的模型在新工况下的单 步循环的综合油耗。
在强化学习的训练过程中,一般不以loss值作为评价指标,而是将奖励值 最大化作为训练的方向。最终的训练奖励值如图10所示。由于强化学习训练数 据太过繁多,而且再加上自监督学习网络,会引起计算资源满载,无法继续的 地步。因此,我们并不是每一步都产生内部奖励,而是通过采样的方式产生奖 励。在图1中。棕色显示了本文算法的奖励值,奖励值普遍大于DQN和DDPG算 法,可以更快的达到收敛性,同时也一步一步地修正收敛的方向。智能体在该 算法下能更明确探索的方向,在训练50步之后,算法的波动较小,基本达到稳 定。
以上所述仅是本发明的优选实施方式,并不用于限制本发明,应当指出, 对于本技术领域的普通技术人员来说,在不脱离本发明技术原理的前提下,还 可以做出若干改进和变型,这些改进和变型也应视为本发明的保护范围。

Claims (6)

1.一种基于自我监督学习的并联式混合动力汽车能量管理方法,其特征在于:具体步骤为:
S1:建立并联式汽车的仿真模型;
S2:以车辆模型本身为环境,以发动机转速、发动机转矩和电池soc值为状态值,车辆发动机功率为执行动作构建能量管理控制模型;
S3:提出用分层强化学习的方式设置奖励函数,分层结构包括外部奖励层和内部奖励层;外部奖励层由燃油消耗值和电池SOC值组成;内部奖励层是自监督方式产生的内部奖励;
S4:强化学习校准;
S5:应用强化学习算法计算总奖励值。
2.根据权利要求1所述的基于自我监督学习的并联式混合动力汽车能量管理方法,其特征在于:所述步骤S1中并联式汽车的仿真模型包括整车动力纵向动力学模型、发动机模型、电机模型、变速箱CVT模型和电池模型;
其中,车辆行驶时受到车辆的驱动力Ff和行驶阻力,行驶阻力包括滚动阻力Ff,空气阻力Fw,坡度阻力Fi,和加速阻力Fj;所述整车动力纵向动力学建模如下:
Ft=Ff+Fw+Fi+Fj (1)
在不考虑坡度阻力的情况下(α=0),公式(1)可以变换为公式(2);
Figure FDA0003425388040000011
公式(2)中,m为汽车整备质量,g为重力加速度,f为滚动阻力系数,α为道路坡度;CD为空气阻力系数,A为迎风面积(m2),ρ为空气密度(kg·m-3),ua为车速(m/s),δ主要与飞轮的转动惯量、车轮的转动惯量和传动系的传动比有关;
最终可以计算出车辆需求功率和车轮转速分别为:
Figure FDA0003425388040000021
Figure FDA0003425388040000022
发动机是混合动力汽车的核心动力源,但由于自身特性的显著非线性,真实模型非常复杂,所以在整车仿真模型开发中发动机模型采用实验建模为主,理论建模为辅的混合建模方法;
所述发动机模型的燃油消耗量如下:
Figure FDA0003425388040000023
Te=f(θ,n) (6)
公式(5)中,Te为发动机转矩(N·m),θ为节气门开度,n为发动机转速(r/min),mf为燃油消耗量(g/s),
Figure FDA0003425388040000024
为发动机单位时间的燃油消耗量,f(θ,n)为根据Te和n两变量的二维查表函数;
电机是混合动力汽车能量转换中的关键动力部件,与发动机建模方法类似;
所述电机计算模型如下:
Tm=γTm_max (7)
Figure FDA0003425388040000031
Figure FDA0003425388040000032
ηm=f(Tm,ωm) (10)
公式(7)中,Tm为电机输出转矩(N·m),Tm_max为电机最大转矩(N·m),γ为电机转矩控制指令,Im为电机控制器母线端子电流(A),Pm为电机输入(电动)或输出(发电),U为电源总线电压(v),ωm为电机转速,ηm为电机效率;f(Tm,ωm)根据查表得到;
所述变速箱CVT计算模型如下:
Figure FDA0003425388040000033
公式(11)中,Tin为CVT主动带轮端输入转矩(N·m),Tout为CVT从动带轮端输出转矩(N·m),Ie为飞轮和主动带轮在CVT输入轴上的等价转动惯量(kg·m2);Is从动带轮和主减速器在CVT从动轴上的等价转动惯量(kg·m2);
icvt带传动速比;i0主减速器速比;ωs从动带轮转速(rad/s),η为金属带传动效率;
所述电池计算模型如下所示:
Figure FDA0003425388040000041
Figure FDA0003425388040000042
公式(12)中,SOCinit为初始SOC,Qcap为电池安时容量,Quse为用掉的电量,I为回路电流,ηess为充放电效率。
3.根据权利要求2所述的基于自我监督学习的并联式混合动力汽车能量管理方法,其特征在于:所述步骤S2中能量管理控制模型如公式(14)(15)所示:
s=[nt,Tt,soc] (14)
action=Engine power (15)
公式中,s表示在车辆在t时刻的状态,action表示车辆在t时刻的发动机的需求功率,nt表示t时刻的发动机转速,Tt表示t时刻的发动机转矩,SOCt表示t时刻电池状态值。
4.根据权利要求3所述的基于自我监督学习的并联式混合动力汽车能量管理方法,其特征在于:所述步骤S3中分层强化学习的结构包括外部奖励和内部奖励,奖励函数如公式(16)所示:
rtotal=rinternal+rexternal (16)
其中所述外部奖励由两个部分组成:第一部分表示燃油消耗mf是瞬时燃油消耗率,第二部分表示当前时刻和初始时刻SOC的差值,表示电池SOC维持的性能;α和β为两个常数因子,通过调整这两个参数,能量管理策略可以在燃油经济性和电池SOC维持上取得一定的平衡,如公式(17)所示:
Figure FDA0003425388040000051
所述内部奖励由自我监督模型的损失函数构建,用于填充外部奖励函数;自监督内部奖励函数如公式(19)所示:
Figure FDA0003425388040000052
Figure FDA0003425388040000053
5.根据权利要求4所述的基于自我监督学习的并联式混合动力汽车能量管理方法,其特征在于:所述步骤S4中强化学习校准公式如式(20)所示:
Figure FDA0003425388040000054
将强化学习校准和自我监督产生的内部奖励进行整合,得到新的内部奖励函数(公式),解决了自监督模型过度自信(错误)预测的问题;公式如式(21)所示:
Figure FDA0003425388040000055
6.根据权利要求5所述的基于自我监督学习的并联式混合动力汽车能量管理方法,其特征在于:所述步骤S5中应用DQL算法计算总奖励值,DQL算法是Q-learning算法的一种改进算法,它以神经网络作为状态-动作值函数的载体,用参数为θ的f网络来近似替代状态-动作值函数,公式如式(22)所示:
f(s,a,θ)≈Q*(s,a) (22)
其中,f(s,a,θ)可以式任何类型的函数,通过函数来近似替代Q值表,无论输入空间有多大,都能够用神经网络的输出值计算Q值;在深度Q网络中,存在两个网络,分别为估计网络和目标网络,两个网络的结构完全相同,不同之处在于网络参数,总奖励值可以用公式(23)表示:
Figure FDA0003425388040000061
其中r表示即使奖励,γ为折旧因子;
网络参数的更新规则为,估计网络中的参数实时进行更新,在经过C步之后,估计网络的参数会复制到目标网络中;DQN网络更新是利用TD误差进行参数更新;公式如式(24)所示:
Figure FDA0003425388040000062
其中,
Figure FDA0003425388040000063
和θt分别表示t时刻目标网络的参数和估计网络的参数,
Figure FDA0003425388040000064
为在状态处所对应的最大Q值的相应动作,rt+1为执行动作后所获得的奖赏值。
CN202111586195.9A 2021-12-22 2021-12-22 基于自我监督学习的并联式混合动力汽车能量管理方法 Pending CN114670803A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111586195.9A CN114670803A (zh) 2021-12-22 2021-12-22 基于自我监督学习的并联式混合动力汽车能量管理方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111586195.9A CN114670803A (zh) 2021-12-22 2021-12-22 基于自我监督学习的并联式混合动力汽车能量管理方法

Publications (1)

Publication Number Publication Date
CN114670803A true CN114670803A (zh) 2022-06-28

Family

ID=82071089

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111586195.9A Pending CN114670803A (zh) 2021-12-22 2021-12-22 基于自我监督学习的并联式混合动力汽车能量管理方法

Country Status (1)

Country Link
CN (1) CN114670803A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115495997A (zh) * 2022-10-28 2022-12-20 东南大学 一种基于异构多智能体深度强化学习的新能源汽车生态驾驶方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115495997A (zh) * 2022-10-28 2022-12-20 东南大学 一种基于异构多智能体深度强化学习的新能源汽车生态驾驶方法
CN115495997B (zh) * 2022-10-28 2024-01-30 东南大学 一种基于异构多智能体深度强化学习的新能源汽车生态驾驶方法

Similar Documents

Publication Publication Date Title
Lian et al. Rule-interposing deep reinforcement learning based energy management strategy for power-split hybrid electric vehicle
Chen et al. Optimal strategies of energy management integrated with transmission control for a hybrid electric vehicle using dynamic particle swarm optimization
Li et al. Adaptive energy management strategy for fuel cell/battery hybrid vehicles using Pontryagin's Minimal Principle
Tian et al. Data-driven hierarchical control for online energy management of plug-in hybrid electric city bus
Li et al. Real-time optimal energy management strategy for a dual-mode power-split hybrid electric vehicle based on an explicit model predictive control algorithm
Khayyam et al. Adaptive intelligent energy management system of plug-in hybrid electric vehicle
Wu et al. Fuzzy energy management strategy for a hybrid electric vehicle based on driving cycle recognition
CN111731303A (zh) 一种基于深度强化学习a3c算法的hev能量管理方法
Qi et al. Self-supervised reinforcement learning-based energy management for a hybrid electric vehicle
CN105868942A (zh) 电动汽车的有序充电调度方法
CN110717218B (zh) 一种电驱动车辆分布式动力驱动系统重构控制方法及车辆
CN113554337B (zh) 融合交通信息的插电式混动汽车能量管理策略构建方法
CN112009456A (zh) 一种网联混合动力汽车能量管理方法
CN103863087A (zh) 一种基于发动机最优工作线的插电式混合动力汽车节能预测控制方法
Chen et al. Power reserve predictive control strategy for hybrid electric vehicle using recognition-based long short-term memory network
CN113479186A (zh) 一种混合动力汽车能量管理策略优化方法
Yan et al. Design of a deep inference framework for required power forecasting and predictive control on a hybrid electric mining truck
Li et al. A deep reinforcement learning based energy management strategy for hybrid electric vehicles in connected traffic environment
CN114670803A (zh) 基于自我监督学习的并联式混合动力汽车能量管理方法
CN113815437A (zh) 燃料电池混合动力汽车的预测性能量管理方法
CN117131606A (zh) 一种可跨运动维度迁移的混合动力履带车辆能量管理方法
Dorri et al. Design of an optimal control strategy in a parallel hybrid vehicle in order to simultaneously reduce fuel consumption and emissions
CN114291067B (zh) 基于预测的混合动力汽车凸优化能量控制方法及系统
Xie et al. Control strategy of hybrid power system for Fuel Cell Electric Vehicle based on neural network optimization
Yadav et al. Fuzzy control implementation for energy management in hybrid electric vehicle

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination