CN114670803A

CN114670803A - 基于自我监督学习的并联式混合动力汽车能量管理方法

Info

Publication number: CN114670803A
Application number: CN202111586195.9A
Authority: CN
Inventors: 齐春阳; 肖峰
Original assignee: JIANGSU HAOFENG AUTO PARTS CO Ltd
Current assignee: JIANGSU HAOFENG AUTO PARTS CO Ltd
Priority date: 2021-12-22
Filing date: 2021-12-22
Publication date: 2022-06-28

Abstract

本发明涉及一种基于自我监督学习的并联式混合动力汽车能量管理方法，属于混合动力汽车控制技术领域。本发明用自监督学习的方法，提出一种分层强化学习结构，用来解决稀疏奖励的问题，提高车辆的燃油经济性的同时，能适应不同的工况，实现HEV的优化能量控制。本发明的管理方法相较于传统强化学习算法提高了燃油经济性；提出的算法接近最佳燃油消耗曲线，在转速增大时，能尽力保证发动机在低油耗，高功率区工作；能更好的维护电池SOC值，减少充放电次数，保证了电池的使用寿命。

Description

基于自我监督学习的并联式混合动力汽车能量管理方法

技术领域

本发明涉及一种基于自我监督学习的并联式混合动力汽车能量管理方法，属于混合动力汽车控制技术领域。

背景技术

目前，随着汽车产量的快速增加，汽车在给人们日常出行生活带来很大便利的同时，也产生了日益严峻的环境问题和能源问题。混合动力汽车凭借其低能耗和长续航里程的优势成为适合公共交通的解决方案。能量管理控制策略的目的是协调发动机和电机之间的功率分配，从而实现经济性最大化和保持荷电状态(SOC)的稳定。

能量管理控制策略一般可以分为基于规则，基于优化和基于学习的方法。基于规则的方法，简单、可靠性高和适应性强。但是对于不同的控制目标，基于规则的能量管理控制策略往往也达不到最优。

基于优化的能量管理控制策略有全局整体优化和瞬时局部优化两种。瞬时优化的能量管理策略主要是依据车辆的实时需求功率进行动力分配的。全局优化策略，是在车辆行驶工况已知的前提条件下，依据该工况的行驶特性，建立优化的目标函数(一般为油耗值)，算法求解达到优化目标函数的目的。

随着人工智能技术的发展，将一些智能算法引入HEV的能量管理领域成为了新的研究热点，由此诞生了基于学习的能量管理策略。强化学习也被视为智能系统的核心技术之一。应用强化学习进行能量管理控制也逐渐成为热门研究方向。目前应用强化学习算法的能量管理控制策略有一些优势，但是缺乏在奖励稀疏条件下的研究。

有鉴于上述的缺陷，本发明以期创设一种基于自我监督学习的并联式混合动力汽车能量管理方法，使其更具有产业上的利用价值。

发明内容

为解决上述技术问题，本发明用自监督学习的方法，提出一种分层强化学习结构，用来解决稀疏奖励的问题，提高车辆的燃油经济性的同时，能适应不同的工况，实现HEV的优化能量控制。

本发明的一种基于自我监督学习方法的的并联式混合动力汽车能量管理方法，包括：

S1：建立并联式汽车的仿真模型；

S2：以车辆模型本身为环境，以发动机转速、发动机转矩和电池soc值为状态值，车辆发动机功率为执行动作构建能量管理控制模型；

S3：提出用分层强化学习的方式设置奖励函数，分层结构包括外部奖励层和内部奖励层。外部奖励层由燃油消耗值和电池SOC值组成。内部奖励层是本文提出的一种自监督方式产生的内部奖励；

S4：强化学习校准；

S5：应用DQL算法计算总奖励值。

优选地，所述步骤S1中并联式汽车的仿真模型包括整车动力纵向动力学模型、发动机模型、电机模型、变速箱CVT模型和电池模型；

其中，车辆行驶时受到车辆的驱动力F_f和行驶阻力，行驶阻力包括滚动阻力 F_f，空气阻力F_w，坡度阻力F_i，和加速阻力F_j；所述整车动力纵向动力学建模如下：

F_t＝F_f+F_w+F_i+F_j (1)

在不考虑坡度阻力的情况下(α＝0)，公式(1)可以变换为公式(2)。

公式(2)中，m为汽车整备质量，g为重力加速度，f为滚动阻力系数，α为道路坡度。，C_D为空气阻力系数，A为迎风面积(m²)，ρ为空气密度(kg·m^-3),u_a为车速(m/s)，δ主要与飞轮的转动惯量、车轮的转动惯量和传动系的传动比有关。

最终可以计算出车辆需求功率和车轮转速分别为：

发动机是混合动力汽车的核心动力源，但由于自身特性的显著非线性，真实模型非常复杂，所以在整车仿真模型开发中发动机模型采用实验建模为主，理论建模为辅的混合建模方法。所述发动机模型的燃油消耗量如下：

T_e＝f(θ，n) (6)

公式(5)中，T_e为发动机转矩(N·m)，θ为节气门开度，n为发动机转速 (r/min)，m_f为燃油消耗量(g/s)，

为发动机单位时间的燃油消耗量，f(θ，n) 为根据T_e和n两变量的二维查表函数。

电机是混合动力汽车能量转换中的关键动力部件，与发动机建模方法类似，采用实验建模法。所述电机计算模型如下：

T_m＝γT_{m_max} (7)

η_m＝f(T_m，ω_m) (10)

其中，T_m为电机输出转矩(N·m)，T_{m_max}为电机最大转矩(N·m)，γ为电机转矩控制指令，I_m为电机控制器母线端子电流(A)，P_m为电机输入(电动) 或输出(发电)，U为电源总线电压(v)，ω_m为电机转速，η_m为电机效率。 f(T_m，ω_m)根据查表得到。

所述变速箱CVT计算模型如下：

公式(11)中，T_in为CVT主动带轮端输入转矩(N·m)，T_out为CVT从动带轮端输出转矩(N·m)，I_e为飞轮和主动带轮在CVT输入轴上的等价转动惯量(kg·m2)；I_s从动带轮和主减速器在CVT从动轴上的等价转动惯量(kg·m2)； i_cvt带传动速比；i₀主减速器速比；ω_s从动带轮转速(rad/s)，η为金属带传动效率。

所述电池计算模型如下所示：

公式(12)中，SOC_init为初始SOC,Q_cap为电池安时容量，Q_use为用掉的电量，I为回路电流，η_ess为充放电效率。

优选地，所述步骤S2中能量管理控制模型如公式(14)所示：

s＝[n_t，T_t，soc] (14)

action＝Engine power (15)

公式(14)中，s表示在车辆在t时刻的状态，action表示车辆在t时刻的发动机的需求功率，n_t表示t时刻的发动机转速，T_t表示t时刻的发动机转矩， soc表示t时刻电池状态值。

优选地，所述步骤S3中分层强化学习的结构包括外部奖励和内部奖励。奖励函数如公式(16)所示

r_total＝r_internal+r_external (16)

其中，所述外部奖励由两个部分组成：第一部分表示燃油消耗m_f是瞬时燃油消耗率，第二部分表示当前时刻和初始时刻SOC的差值，表示电池SOC维持的性能。α和β为两个常数因子，通过调整这两个参数，能量管理策略可以在燃油经济性和电池SOC维持上取得一定的平衡。如公式(17)所示:

所述内部奖励由自我监督模型的损失函数构建，用于填充外部奖励函数。自监督内部奖励函数如公式(18)所示：

优选地，所述步骤S4中强化学习校准公式如式(20)所示：

将强化学习校准和自我监督产生的内部奖励进行整合，得到新的内部奖励函数(公式)，解决了自监督模型过度自信(错误)预测的问题。如公式(21) 所示：

优选地，所述步骤S5中应用DQL算法计算总奖励值，DQL算法是Q-learning 算法的一种改进算法，它以神经网络作为状态-动作值函数的载体，用参数为θ 的f网络来近似替代状态-动作值函数，公式如式(22)所示：

f(s，a，θ)≈Q*(s，a) (22)

其中，f(s，a，θ)可以式任何类型的函数，通过函数来近似替代Q值表，无论输入空间有多大，都能够用神经网络的输出值计算Q值。在深度Q网络中，存在两个网络，分别为估计网络和目标网络，两个网络的结构完全相同，不同之处在于网络参数。总奖励值可以用公式(23)所示：

其中r表示即使奖励，γ为折旧因子。

网络参数的更新规则为，估计网络中的参数实时进行更新，在经过C步之后，估计网络的参数会复制到目标网络中。DQN网络更新是利用TD误差进行参数更新。公式如式(24)所示：

公式(24)中，

和θ_t分别表示t时刻目标网络的参数和估计网络的参数，

为在状态处所对应的最大Q值的相应动作，r_t+1为执行动作后所获得的奖赏值。

借由上述方案，本发明至少具有以下优点：

(1)相较于传统强化学习算法提高了燃油经济性；

(2)提出的算法接近最佳燃油消耗曲线，在转速增大时，能尽力保证发动机在低油耗，高功率区工作；

(3)能更好的维护电池SOC值，减少充放电次数，保证了电池的使用寿命。

上述说明仅是本发明技术方案的概述，为了能够更清楚了解本发明的技术手段，并可依照说明书的内容予以实施，以下以本发明的较佳实施例并配合附图详细说明如后。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本发明的某个实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1是本发明实施例1的并联式混合动力汽车原理图；

图2是本发明实施例1的强化学习算法的基本原理图；

图3是本发明实施例1的算法流程图，右侧部分为DQL的通用算法；

图4是本发明实施例1的分层强化学习的分层结构图；

图5是对比实验1的燃油经济性比较柱状图；

图6是在DQN算法下发动机的工作区域；

图7是在DDPG算法下发动机的工作区域；

图8是在本发明算法下发动机的工作区域；

图9是三种算法在工况下SOC的变化值；

其中，实线对应本发明方法，点线对应DQN，长点线对应DDPG；

图10本发明算法最终训练奖励值；

其中，实线对应本发明方法，点线对应DQN，长点线对应DDPG。

具体实施方式

下面结合附图和实施例，对本发明的具体实施方式作进一步详细描述。以下实施例用于说明本发明，但不用来限制本发明的范围。

实施例1选取普锐斯并联式HEV作为研究对象，其结构和工作原理如图1 所示。在并联式混合动力电动汽车的驱动系统中，原动机与电动机可以共同或分别独立的向汽车传动系提供扭矩，且没有发电机，并联混合动力汽车的整车参数如表1所示：

表1为普锐斯并联式HEV的整车参数

S1：根据普锐斯并联式HEV的整车参数以及汽车结构原理，建立并联式汽车的整车纵向动力学模型、发动机模型、电机模型、变速箱CVT模型和电池模型。

当车辆行驶时，会受到阻碍其运动的阻力作用该阻力主要包括滚动阻力、空气阻力、坡度阻力、加速阻力。按照汽车理论的知识，可以得出汽车的行驶方程式如下：

F_t=F_f+F_w+F_i+F_j (1)

式中，F_t表示车辆的驱动力，F_f表示滚动阻力，F_w表示空气阻力，F_i表示坡度阻力，F_j表示加速阻力。

式(2)中，m为汽车整备质量，g为重力加速度，f为滚动阻力系数，α为道路坡度。，C_D为空气阻力系数，A为迎风面积(m²)，ρ为空气密度(kg·m^-3),u_a为车速(m/s)，δ主要与飞轮的转动惯量、车轮的转动惯量和传动系的传动比有关。

最终可以计算出车辆需求功率和车轮转速分别为：

发动机是混合动力汽车的核心动力源，但由于自身特性的显著非线性，真实模型非常复杂，不同节气门开度对应的发动机输出转矩特性曲线各不相同。在混合动力系统中，发动机模型的重点是输入输出，其内部可以尽量简化，所以在整车仿真模型开发中发动机模型采用实验建模为主，理论建模为辅的混合建模方法。

发动机模型的燃油消耗量计算如下：

T_e＝f(θ，n) (6)

式(5)中，T_e为发动机转矩(N·m),θ为节气门开度，n为发动机转速 (r/min),m_f为燃油消耗量(g/s),

电机是混合动力汽车能量转换中的关键动力部件，它既可以运行在电动机状态，又可以运行在发电机状态。它的最大功率及其在不同转速和转矩下的效率直接影响了混合动力汽车的工作模式。电机的输出性能是电机和电机控制器的综合性能，所以在建模中要把电机及其控制器作为一个整体考虑。与发动机建模一样，电机的模型也不能直接从理论建模，需要采用实验建模法，需要测得电机的外特性数据，电机的输出转矩计算如下：

T_m＝γT_{m_max} (7)

电机的电流计算如下：

电机效率由电机性能试验得到，即

η_m＝f(T_m，ω_m) (10)

式(10)中，T_m为电机输出转矩(N·m)，T_{m_max}为电机最大转矩(N·m)，γ 为电机转矩控制指令，I_m为电机控制器母线端子电流(A)，P_m为电机输入(电动)或输出(发电)，U为电源总线电压(v)，ω_m为电机转速，η_m为电机效率。 f(T_m，ω_m)根据查表得到。

变速箱CVT模型反应了变速器的输入端和输出端的动态特性,在保持驱动性能和燃油经济性的前提条件下,我们对CVT模型进行简要简化，忽略了CVT传动特性的影响，而且不考虑液压执行机构的动力学特性的影响，将速比与速比变化率之间用一个简单的积分器表示，即：

式(11)中，T_in为CVT主动带轮端输入转矩(N·m)，T_out为CVT从动带轮端输出转矩(N·m)，I_e为飞轮和主动带轮在CVT输入轴上的等价转动惯量 (kg·m²)；I_s从动带轮和主减速器在CVT从动轴上的等价转动惯量(kg·m²)； i_cvt带传动速比；i₀主减速器速比；ω_s从动带轮转速(rad/s)，η为金属带传动效率。

电池是混合动力汽车的电力能源储存设备，在驱动行驶时可以提供必要的辅助动力，在减速和制动过程中则可以进行能量回收。

电池soc采用安时累计法计算：

用掉的电量计算如下：

式(13)中，SOC_init为初始SOC,Q_cap为电池安时容量，Q_use为用掉的电量， I为回路电流，η_ess为充放电效率。

S2：以车辆模型本身为环境，以发动机转速、发动机转矩和电池soc值为状态值，车辆发动机功率为执行动作构建能量管理控制模型。

能量管理控制策略的本质是求解带约束的优化问题，即在满足循环工况下驾驶需求功率、动力总成各部件物理约束情况下，求解出最优策略使得整车油耗最优。基于之前的车辆模型，我们把车辆当做强化学习的环境，从车辆身上获取在行驶中的状态(发动机转速，发动机转矩，soc值为状态值)。强化学习算法的基本原理图如图3所示。其中，能量管理控制模型如公式(14)所示：

公式(14)中，s表示在车辆在t时刻的状态，action表示车辆在t时刻的发动机的需求功率，n_t表示t时刻的发动机转速，T_t表示t时刻的发动机转矩，SOC表示t时刻电池状态值；

S3:提出用分层强化学习的方式设置奖励函数，分层结构包括外部奖励层和内部奖励层。外部奖励层由燃油消耗值和电池SOC值组成。内部奖励层是本文提出的一种自监督方式产生的内部奖励。奖励函数如公式(15)所示：

r_total＝r_internal+r_external (15)

能量管理策略中，我们不仅仅要考虑车辆所处的环境，而且还要考虑车辆本身，仅靠外部奖励来运转强化学习框架是远远不够的。此外，由于强化学习本身还是存在稀疏奖励的问题。所以，要使得智能体能很好的理解环境是非常困难的。更何况是较为复杂的车辆环境，每一个时刻车辆的状态都是千变万化。所以我们提出用一种分层强化学习的方式来产生内部奖励，使得车辆更有效的探索环境。分层结构如图3所示。

外部奖励层由两个部分组成：第一部分表示燃油消耗m_f是瞬时燃油消耗率，第二部分表示当前时刻和初始时刻SOC的差值，表示电池SOC维持的性能。α 和β为两个常数因子，通过调整这两个参数，能量管理策略可以在燃油经济性和电池SOC维持上取得一定的平衡。如公式(16)所示

内部奖励层是本文提出的一种自监督方式产生的内部奖励。自我监督学习是无监督学习的一个子集，是利用数据的内在联系来实现自我监督的。自监督学习是不需要大规模数据集合大量的标注的。在能量管理控制策略中，我们需要通过伪标签的自动生成来构建内部奖励。简单来说就是，根据当前的状态和动作来预测下一个状态。由于添加了自监督模块，所以模型存在一定的泛化能力。自监督内部奖励函数如公式(17)所示

S4：强化学习校准。由于自监督学习容易陷入“自我良好”的情况，这就会导致过度自信(错误)预测，因此，我们提出了一种强化学习校准方法来解决这个问题。强化学习的精髓就是通过当前的状态预测下一刻的动作。执行下一个时刻的动作，得到下一个时刻的状态。本文中强化学习校准根据下一个时刻的状态，通过神经网络生成下一个时刻的动作

和真的a做损失，填补内部奖励。如公式(19)所示：

我们将强化学习校准和自监督产生的内部奖励进行整合，得到新的内部奖励函数(公式)，解决了自监督模型过度自信(错误)预测的问题。

S5：DQL应用。DQL算法是Q-learning算法的一种改进算法，它以神经网络作为状态-动作值函数的载体，用参数为θ的f网络来近似替代状态-动作值函数，公式如式(21)所示：

f(s，a，θ)≈Q*(s，a) (21)

其中，f(s，a，θ)可以式任何类型的函数，通过函数来近似替代Q值表，无论输入空间有多大，都能够用神经网络的输出值计算Q值。在深度Q网络中，存在两个网络，分别为估计网络和目标网络，两个网络的结构完全相同，不同之处在于网络参数。总奖励值可以用公式1表示。

其中r表示即使奖励，γ为折旧因子。

网络参数的更新规则为，估计网络中的参数实时进行更新，在经过C步之后，估计网络的参数会复制到目标网络中。DQN网络更新是利用TD误差进行参数更新。公式如式(23)所示。

其中，

和θ_t分别表示t时刻目标网络的参数和估计网络的参数，

本实施1中，强化学习算法(DQN)利用深度卷积神经网络逼近值函数，同时利用经验回放训练强化学习的学习过程。

对比实验1：

在本节我们在现有的行驶工况基础上，构建了一个新的行驶工况。运动学片段是指汽车从怠速状态开始至相邻的下一个怠速状态开始之间的车速变化状况的连续过程，因此新的行驶工况是可以由很多运动学片段组建而成。

将上述运动学片段中的几种运动学状态进行划分如下：

(1)怠速工况:发动机工作，且车辆速度V为0的状态。

(2)匀速工况:车辆加速度a小于0.10m/s2并大于－0.10m/s2，且V不为0的状态。

(3)加速工况:车辆加速度a大于0.10m/s²，且V不为0的状态。

(4)减速工况:车辆减速度a小于－0.10m/s²

我们将NEDC,UDDS,IM240,JN1015四种典型工况中抽取一些运动片段组建成新的行驶工况。行驶工况如图5所示。构建新的工况之后，我们可以从燃油经济性，发动机工作点，强化学习奖励值，新建工况的泛化能力方面对策略性能进行评价。

建立好能量管理策略之后，针对NEDC,LA92_2,FTP75,UDDS, WVUINTER,JN1015,六种典型工况进行验证。燃油经济性比较如表3所示。为了更加直观的展示，我们将数据用柱状图的方式进行表达，具体如图6所示。从图中我们可以看出相较于DQN算法，我们的算法大约可以提高6％的燃油经济性，相较于DDPG算法，可以提高大约10％的燃油经济性。

表3为燃油经济性仿真结果表

图7，图8，图9显示了在不同算法下发动机的工作区域，其中棕色的线代表了最佳的燃油消耗。我们的算法相较于其他两种强化学习算法来说，更加接近于最佳燃油消耗曲线，也说明了该算法使得发动机工作在低功耗区和高效率区。在转速增大时，我们的算法相较于其他算法也能尽力地保证发动机在低油耗，高功率区工作。其中图10显示了三种算法在工况下soc的变化值。为了更准确的评价燃油经济性，我们将算法中相同的soc终止值提取出来进行分析。在图中可以看出我们的算法更好的维护了soc值，没有多次的充放电次数，保证了电池的使用寿命。另外，在表3中，新建工况与相比具有较强的适应性。在DQN和DDPG算法的多步循环下的综合油耗。用训练好的模型在新工况下的单步循环的综合油耗。

在强化学习的训练过程中，一般不以loss值作为评价指标，而是将奖励值最大化作为训练的方向。最终的训练奖励值如图10所示。由于强化学习训练数据太过繁多，而且再加上自监督学习网络，会引起计算资源满载，无法继续的地步。因此，我们并不是每一步都产生内部奖励，而是通过采样的方式产生奖励。在图1中。棕色显示了本文算法的奖励值，奖励值普遍大于DQN和DDPG算法，可以更快的达到收敛性，同时也一步一步地修正收敛的方向。智能体在该算法下能更明确探索的方向，在训练50步之后，算法的波动较小，基本达到稳定。

以上所述仅是本发明的优选实施方式，并不用于限制本发明，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明技术原理的前提下，还可以做出若干改进和变型，这些改进和变型也应视为本发明的保护范围。

Claims

1.一种基于自我监督学习的并联式混合动力汽车能量管理方法，其特征在于：具体步骤为：

S1：建立并联式汽车的仿真模型；

S3：提出用分层强化学习的方式设置奖励函数，分层结构包括外部奖励层和内部奖励层；外部奖励层由燃油消耗值和电池SOC值组成；内部奖励层是自监督方式产生的内部奖励；

S4：强化学习校准；

S5：应用强化学习算法计算总奖励值。

2.根据权利要求1所述的基于自我监督学习的并联式混合动力汽车能量管理方法，其特征在于：所述步骤S1中并联式汽车的仿真模型包括整车动力纵向动力学模型、发动机模型、电机模型、变速箱CVT模型和电池模型；

其中，车辆行驶时受到车辆的驱动力F_f和行驶阻力，行驶阻力包括滚动阻力F_f，空气阻力F_w，坡度阻力F_i，和加速阻力F_j；所述整车动力纵向动力学建模如下：

F_t＝F_f+F_w+F_i+F_j (1)

在不考虑坡度阻力的情况下(α＝0)，公式(1)可以变换为公式(2)；

公式(2)中，m为汽车整备质量，g为重力加速度，f为滚动阻力系数，α为道路坡度；C_D为空气阻力系数，A为迎风面积(m²)，ρ为空气密度(kg·m^-3)，u_a为车速(m/s)，δ主要与飞轮的转动惯量、车轮的转动惯量和传动系的传动比有关；

最终可以计算出车辆需求功率和车轮转速分别为：

发动机是混合动力汽车的核心动力源，但由于自身特性的显著非线性，真实模型非常复杂，所以在整车仿真模型开发中发动机模型采用实验建模为主，理论建模为辅的混合建模方法；

所述发动机模型的燃油消耗量如下：

T_e＝f(θ，n) (6)

公式(5)中，T_e为发动机转矩(N·m)，θ为节气门开度，n为发动机转速(r/min)，m_f为燃油消耗量(g/s)，

为发动机单位时间的燃油消耗量，f(θ，n)为根据T_e和n两变量的二维查表函数；

电机是混合动力汽车能量转换中的关键动力部件，与发动机建模方法类似；

所述电机计算模型如下：

T_m＝γT_{m_max} (7)

η_m＝f(T_m，ω_m) (10)

公式(7)中，T_m为电机输出转矩(N·m)，T_{m_max}为电机最大转矩(N·m)，γ为电机转矩控制指令，I_m为电机控制器母线端子电流(A)，P_m为电机输入(电动)或输出(发电)，U为电源总线电压(v)，ω_m为电机转速，η_m为电机效率；f(T_m，ω_m)根据查表得到；

所述变速箱CVT计算模型如下：

公式(11)中，T_in为CVT主动带轮端输入转矩(N·m)，T_out为CVT从动带轮端输出转矩(N·m)，I_e为飞轮和主动带轮在CVT输入轴上的等价转动惯量(kg·m2)；I_s从动带轮和主减速器在CVT从动轴上的等价转动惯量(kg·m2)；

i_cvt带传动速比；i₀主减速器速比；ω_s从动带轮转速(rad/s)，η为金属带传动效率；

所述电池计算模型如下所示：

公式(12)中，SOC_init为初始SOC，Q_cap为电池安时容量，Q_use为用掉的电量，I为回路电流，η_ess为充放电效率。

3.根据权利要求2所述的基于自我监督学习的并联式混合动力汽车能量管理方法，其特征在于：所述步骤S2中能量管理控制模型如公式(14)(15)所示：

s＝[n_t，T_t，soc] (14)

action＝Engine power (15)

公式中，s表示在车辆在t时刻的状态，action表示车辆在t时刻的发动机的需求功率，n_t表示t时刻的发动机转速，T_t表示t时刻的发动机转矩，SOC_t表示t时刻电池状态值。

4.根据权利要求3所述的基于自我监督学习的并联式混合动力汽车能量管理方法，其特征在于：所述步骤S3中分层强化学习的结构包括外部奖励和内部奖励，奖励函数如公式(16)所示：

r_total＝r_internal+r_external (16)

其中所述外部奖励由两个部分组成：第一部分表示燃油消耗m_f是瞬时燃油消耗率，第二部分表示当前时刻和初始时刻SOC的差值，表示电池SOC维持的性能；α和β为两个常数因子，通过调整这两个参数，能量管理策略可以在燃油经济性和电池SOC维持上取得一定的平衡，如公式(17)所示：

所述内部奖励由自我监督模型的损失函数构建，用于填充外部奖励函数；自监督内部奖励函数如公式(19)所示：

5.根据权利要求4所述的基于自我监督学习的并联式混合动力汽车能量管理方法，其特征在于：所述步骤S4中强化学习校准公式如式(20)所示：

将强化学习校准和自我监督产生的内部奖励进行整合，得到新的内部奖励函数(公式)，解决了自监督模型过度自信(错误)预测的问题；公式如式(21)所示：

6.根据权利要求5所述的基于自我监督学习的并联式混合动力汽车能量管理方法，其特征在于：所述步骤S5中应用DQL算法计算总奖励值，DQL算法是Q-learning算法的一种改进算法，它以神经网络作为状态-动作值函数的载体，用参数为θ的f网络来近似替代状态-动作值函数，公式如式(22)所示：

f(s，a，θ)≈Q*(s，a) (22)

其中，f(s，a，θ)可以式任何类型的函数，通过函数来近似替代Q值表，无论输入空间有多大，都能够用神经网络的输出值计算Q值；在深度Q网络中，存在两个网络，分别为估计网络和目标网络，两个网络的结构完全相同，不同之处在于网络参数，总奖励值可以用公式(23)表示：

其中r表示即使奖励，γ为折旧因子；

网络参数的更新规则为，估计网络中的参数实时进行更新，在经过C步之后，估计网络的参数会复制到目标网络中；DQN网络更新是利用TD误差进行参数更新；公式如式(24)所示：

其中，

和θ_t分别表示t时刻目标网络的参数和估计网络的参数，