CN113511082A

CN113511082A - 基于规则和双深度q网络的混合动力汽车能量管理方法

Info

Publication number: CN113511082A
Application number: CN202110602198.0A
Authority: CN
Inventors: 郑春花; 许德州
Original assignee: Shenzhen Institute of Advanced Technology of CAS
Current assignee: Shenzhen Institute of Advanced Technology of CAS
Priority date: 2021-05-31
Filing date: 2021-05-31
Publication date: 2021-10-19
Anticipated expiration: 2041-05-31
Also published as: CN113511082B; WO2022252559A1

Abstract

本发明公开了一种基于规则和双深度Q网络的混合动力汽车能量管理方法。该方法包括：检测设有复合储能系统的车辆能量源，该复合储能系统包括锂电池和超级电容；当锂电池在预设的正常约束工作范围时，利用经训练的深度强化学习模型确定锂电池的输出功率，当锂电池没有处于正常约束工作范围时，则使用设定规则对锂电池进行保护，其中深度强化学习模型的智能体包括评估Q网络和目标Q网络，环境的状态观测量是锂电池的剩余电量、超级电容的剩余电量以及整车需求功率，锂电池输出功率作为输出动作，并以最小化复合储能系统的能量损失作为目标，设置奖励函数。利用本发明能够实现能量的全范围管理、最优性和实时性的有机统一。

Description

基于规则和双深度Q网络的混合动力汽车能量管理方法

技术领域

本发明涉及车辆能量管理技术领域，更具体地，涉及一种基于规则和双深度Q网络的混合动力汽车能量管理方法。

背景技术

随着人工智能和计算机技术的快速发展，大量的机器学习算法已被应用到实际生活中，其中以深度强化学习算法为代表的机器学习更是受到了关注，并被广泛用于如机器视觉、自动驾驶、机器人控制、智能交通等领域。近年来，深度强化学习被逐渐应用于混合动力汽车能量管理研究中，并取得了较好的效果。双深度Q网络算法(double deep Q-network，双深度Q网络，简称DDQN)也属于深度强化学习算法，无需先验知识或模型已知，经过恰当的奖励函数、超参数设计和学习训练过程即可获得较理想的优化控制效果。

在碳达峰、碳中和的目标驱动下，在节能减排和可持续发展的时代要求下，可有效实现节能减排的新能源汽车，在各国得以大力发展，是未来技术和行业发展的主要方向。然而拥有不同工作性质能量源的新能源汽车亟需解决能量分配的问题，以达到节能、提高系统效率和延长主能量源使用寿命等目标。新能源汽车包括混合动力汽车、电动汽车和燃料电池汽车，能量管理问题是当前新能源汽车亟待解决的控制优化问题之一。

对于混合动力汽车，其能量管理问题是一个时变、复杂、非线性的决策控制问题，而现有的基于深度强化学习的能量管理方法，存在优化效果欠佳、实时性不足和控制范围不够全面等缺陷。

在现有技术中，针对新能源汽车的能量管理问题，研究者们提出了许多能量管理方法，例如包括基于规则的能量管理方法、基于优化的能量管理方法和基于学习的能量管理方法。其中基于规则的能量管理方法包括确定性规则控制、模糊逻辑控制等，其实时性较强，但难以达到最优的控制效果；基于优化的能量管理方法虽可得到较优的控制效果，但要求工况预知且计算量大，难以实时应用。

因此，基于规则和基于优化的能量管理方法难以同时实现实时性和最优性的统一，近年来，可实现最优性和实时性权衡的基于(机器)学习的能量管理方法受到大量研究者的关注，主要包括基于深度学习(deep learning)、强化学习(reinforcement learning)和深度强化学习(deep reinforcement learning)的能量管理方法，特别地，以基于深度强化学习为代表的能量管理方法，在计算机技术快速发展背景下成为新的研究热点。

现有基于深度强化学习的方法，尤其是基于传统深度Q网络(deep Q-network，深度Q网络，简称DQN)的能量管理方法，由于动作选择和策略评估均在同一个神经网络进行，容易导致Q值的过高估计而使得控制效果欠佳，同时还具有收敛速度慢、实时性差等缺陷，而新能源汽车在实际的运行过程中，对于控制方法的实时性和工况适应性要求较高，故需设计既能满足实际应用需求又具有优秀控制效果的能量管理方法。

此外，目前的基于深度强化学习的能量管理方法，往往是在所预设的约束范围内，如锂电池SOC(state of charge，当前剩余电量)不高于0.9且不低于0.3实现控制，然而在实际行车时，相关状态量并不能一直保持在约束范围内，并且，若锂电池经常过充、过放电会导致其使用寿命迅速衰减，进而显著减少新能源汽车的续航里程、增加使用成本，因此，需要额外制定在约束范围外的控制方法，以获得更全面、更稳定的控制方法，以在尽可能节能的同时尽量延长锂电池的使用寿命，从而降低新能源汽车的使用成本，有利于新能源汽车的大规模推广。

发明内容

本发明的目的是克服上述现有技术的缺陷，提供一种基于规则和双深度Q网络的混合动力汽车能量管理方法，是通过改进深度Q网络，实现最优性、实时性和工况适应性综合的新技术方案，适用于具有不同工作特性的多能量源混合动力汽车的能量管理。

本发明的技术方案是，提供一种基于规则和双深度Q网络的混合动力汽车能量管理方法。该方法包括以下步骤：

检测设有复合储能系统的车辆能量源，该复合储能系统包括锂电池能量源和超级电容能量源；

在检测到锂电池处于预设的正常约束工作范围的情况下，利用经训练的深度强化学习模型确定锂电池的输出功率，在检测到锂电池没有处于正常约束工作范围的情况下，则使用设定规则对锂电池进行保护；

其中，对于所述深度强化学习模型，其智能体包括评估Q网络和目标Q网络，环境的状态观测量是锂电池的剩余电量、超级电容的剩余电量以及整车需求功率，锂电池输出功率作为输出动作，并以最小化所述复合储能系统的能量损失作为目标，设置相应的奖励函数。

与现有技术相比，本发明的优点在于，为在节能的同时尽量延长锂电池等的使用寿命从而有效降低新能源汽车的使用成本，并同时兼顾控制方法的实时性和最优性，本发明应用前沿的双深度Q网络算法，与基于规则的能量管理方法结合，形成适用于混合动力汽车的能量管理方法，能够实现全范围控制、最优性和实时性的有机统一

通过以下参照附图对本发明的示例性实施例的详细描述，本发明的其它特征及其优点将会变得清楚。

附图说明

被结合在说明书中并构成说明书的一部分的附图示出了本发明的实施例，并且连同其说明一起用于解释本发明的原理。

图1是根据本发明一个实施例的电动汽车复合储能系统动力架构；

图2是根据本发明一个实施例的基于双深度Q网络的能量管理方法的原理图；

图3是根据本发明一个实施例的基于规则和双深度Q网络的能量管理方法的控制逻辑示意图；

图4是根据本发明一个实施例的基于规则和双深度Q网络的混合能量管理方法的过程示意图；

图5是根据本发明一个实施例的基于规则和双深度Q网络的混合动力汽车能量管理方法的流程图。

具体实施方式

现在将参照附图来详细描述本发明的各种示例性实施例。应注意到：除非另外具体说明，否则在这些实施例中阐述的部件和步骤的相对布置、数字表达式和数值不限制本发明的范围。

以下对至少一个示例性实施例的描述实际上仅仅是说明性的，决不作为对本发明及其应用或使用的任何限制。

对于相关领域普通技术人员已知的技术、方法和设备可能不作详细讨论，但在适当情况下，所述技术、方法和设备应当被视为说明书的一部分。

在这里示出和讨论的所有例子中，任何具体值应被解释为仅仅是示例性的，而不是作为限制。因此，示例性实施例的其它例子可以具有不同的值。

应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步讨论。

在进行能量管理方法的设计时，通常需要先搭建相关车辆的模型，这些模型包括车辆动力学模型，电机模型、能量源模型和传动系统模型等。在本发明实施例中，基于准静态准则及车辆动力学利用相关建模软件如Matlab/Simulink建立相关模型。应理解的是，除Matlab外，也可采用其他的计算程序或工具实现本发明。

深度强化学习由3要素组成：环境、智能体和奖励函数。在混合动力汽车能量管理问题中，环境为对应的车辆模型或无模型，智能体则为执行相关控制的待训练方法，而奖励函数需要针对具体问题设置，设置的好坏会影响智能体学习的效果，即训练、收敛过程。同时需特别注意稀疏奖励的问题，即大量的执行动作没有获得奖励，在具体设置时需要根据实际训练情况不断调整奖励函数的各项和相关系数。

此外，对于智能体的状态观测量和输出动作的属性及维数都需要进行恰当的设置，这也会较大的影响学习训练效果。由于DDQN的方法需要对输出的动作进行离散化处理，故存在着动作间隔、输出动作的区间设置等问题。并且，DDQN的能量管理方法设计涉及神经网络、状态观测量、动作量和奖励函数的设计、以及一些超参数的设定等。特别地，对于神经网络的设计，涉及到网络层数、神经元个数、连接方式和激活函数等的选择和设计。DDQN算法使得当前动作选择和策略评估分开，进而可降低过于乐观的方法估计以提高控制效果，可以说其是对DQN算法的改进。对于智能体最优控制动作区间和各动作间隔的选择，也需要仔细的设置以获得理想的收敛速度和控制效果，本发明将通过融入动态规划的最优结果进行动作的设置。

在深度强化学习中，为提高学习效率，会引入经验回放的技巧，其通过存储过去的经验样本数组，在学习训练时智能体通过随机抽样(减少样本之间的关联性)从过去的经验中进行学习。然而在实际训练中，很多样本获得的是较低奖励甚至没有奖励，那么这些样本的学习参考价值就不大，为进一步提高学习效率，加速学习收敛过程，在经验回放技巧的基础上提出了优先经验回放的技巧，通过优先抽取有较大价值(即能获得较大奖励)的样本进行学习，从而实现更快速的收敛，本发明实施例引入优先经验回放的技巧以加速DDQN算法的收敛，增强方法的实时性。

在下文中，以电动汽车复合储能系统为例，详细说明本发明的方案，图1是电动汽车复合储能系统的动力传动系统架构，该复合储能系统包括锂电池和超级电容两个不同的能量源，二者均可作为能量源进行充放电，即驱动车辆行驶或吸收制动能量，超级电容作为辅助能量源，目的是降低锂电池的充放电频率以及放电电流大小。锂电池和超级电容的协同工作需制定恰当的能量管理方法以合理地分配二者的输入输出功率。特别地，DCDC转换器负责升高超级电容的输出电压或降低来自母线的电压，从而降低对超级电容配置的要求。

为模拟实际电动汽车复合储能系统的状态变化，在相关建模软件如Matlab/Simulink中按照准静态原则和车辆动力学建立车辆的模型，这些模型包括：需求功率计算模型，锂电池等效电路模型、超级电容等效电路模型、DCDC转换器效率模型、电机逆变器总成效率模型、传动模型等，模型建立完成之后，经过仿真无误后即完成搭建该车辆模型。

简言之，本发明提供的基于规则和双深度Q网络的混合动力汽车能量管理方法，在正常锂电池SOC约束范围，使用基于DDQN的能量管理方法，而在约束范围之外，则使用基于规则的能量管理方法进行控制。以下将具体介绍基于DDQN的能量管理方法、基于规则和双深度Q网络的能量管理方法。

一、设计基于DDQN的能量管理方法。

如图2所示，环境和智能体的交互过程为：每个时间步长，在环境状态s_t下，智能体从已设定好的动作集中随机选取一个动作输出到环境中，环境的状态随即从s_t转变为s_t+1，与此同时，根据所设计的奖励函数将该动作相应的奖励反馈给智能体，智能体根据追求最大累计奖励的原则，不断地调整选取的输出动作以获得最大的累计奖励，该过程将一直重复至奖励函数收敛。DDQN算法通过将动作选择和策略评估分开，避免陷入过高估计Q值而影响收敛速度和控制效果。优选地，本发明还加入优先经验回放的技巧加速训练学习过程，即增大重要的、有价值的样本被抽取的频率，这可有效促使算法训练、收敛时间进一步缩短，有利于该算法的实际推广和应用。

总的来说，在一个实施例中，设计的基于DDQN的能量管理方法包括2部分，一部分是在Simulink中搭建的车辆模型以及联合Simulink强化学习工具箱(reinforcementlearning toolbox)RL agent模块搭建的闭环智能体-环境(车辆)模型；另一部分是针对基于DDQN能量管理方法，设计神经网络和训练指令等，例如，建立Matlab的m文件来实现。

具体地，基于DDQN的能量管理方法设计过程如下。

1、确定关键元素

1)状态向量：

将锂电池的SOC_b、超级电容SOC_sc和整车需求功率P_dem作为环境的状态观测量，表示为：

其中，S表示状态观测量集合，s(t)表示t时刻的状态观测量。

为缩小计算量，加快训练速度，优选地，对整车需求功率P_dem进行归一化处理，即把需求功率P_dem缩小到[-1，1]之间，计算其算术平均值mean(x)和标准差std(x)，按照标准归一化通用公式计算，表示为：

其中，mean(x)和std(x)分别表示输入状态数据的算术平均值和标准差。算术平均值mean(x)和标准差std(x)的计算如下：

2)动作向量：

为加快基于DDQN的能量管理方法的收敛速度以及增强方法的控制效果，优选地，以基于动态规划的全局最优控制结果来对智能体输出动作的可行动作输出区间进行设定，将锂电池输出功率P_batt定义为输出动作。由于DDQN算法需要对输出动作进行离散化处理，即将一个可行的动作区间分成n份。而基于优化的能量管理方法中，动态规划的控制结果具有全局全优的优点，且其结果也是一个离散的最优控制动作序列，故参考相同优化目标和控制对象的基于动态规划能量管理方法的最优控制动作序列结果，恰当地将输出动作区间设置为n份，即动作间隔为

P_{batt_max}和P_{batt_min}分别表示锂电池输出功率的最大值和最小值。

其中，A表示输出动作集合，a(t)表示t时刻输出的动作。

3)奖励函数：

在一个实施例中，为了提高系统效率，将最小化复合储能系统的能量损失作为优化目标，由此出发，设置相应的奖励函数r(t)，该奖励函数通过在Simulink中建立相应的数学模型实现，例如表示为：

E_loss＝L_sc+L_batt+L_dcdc (7)

其中，E_loss表示复合储能系统整体的能量损耗；SOC_{b_tgt}表示锂电池SOC_b的目标值；SOC_sc-tgt表示超级电容SOC_sc的目标值；L_sc，L_batt，L_dcdc分别表示超级电容、锂电池和DCDC转换器的能量损失；m表示能量损失项的系数，n和p分别表示平衡锂电池和超级电容的SOC变化的系数，这三个系数需在训练过程中进行调整。

进一步地，能量管理优化问题需在一定的约束下寻找最优解，例如约束条件表示为：

其中，I_b为锂电池的电流，I_sc为超级电容的电流，I_{b_min}和I_{b_max}分别表示锂电池电流的最小和最大值；I_{sc_min}和I_{sc_max}分别表示超级电容电流的最小和最大值，P_dem表示整车需求功率，P_min和P_max分别表示车辆需求功率的最小和最大值。

2、设计神经网络

DDQN的神经网络涉及到结构、层数、神经元个数和激活函数的设计和选择，均需根据实际训练情况进行恰当的设置和调整。例如，通过在Matlab的m文件编写代码以调用神经网络相关函数的方式设计DDQN的神经网络，并利用全连接方式进行神经网络各层之间的连接，对于各层网络神经元个数(几十个至几百个不等)以及层数(通常为几层)，则需要根据实际数据量和训练结果进行设计，而中间层的激活函数例如设置为线性整流函数ReLU，网络输出层的激活函数则设置为tanh，使得输出值约束到[-1，1]之间。这两种激活函数的原理如下：

线性整流函数(ReLU)

tanh激活函数

3、DDQN算法的更新原理

首先，定义DDQN评估Q网络的参数为θ，目标Q网络的参数则为θ′，出于收敛和增强训练效果的考虑，在训练过程中，评估Q网络的网络参数θ会每隔一定的时间步长复制给目标Q网络θ′。强化学习和深度强化学习均是基于贝尔曼原理的算法，DDQN算法Q值的计算方式表示为：

其中，

表示期望；r_t+1表示t+1时刻的奖励；γ表示折扣因子，是出于算法收敛的角度考虑；s_t，s_t+1分别表示t和t+1时刻的状态，a_t，a_t+1分别表示t和t+1时刻输出的动作；

表示在状态动作对(s_t，a_t)时由网络参数θ′估计的在s_t+1采取动作a_t+1的Q值。

根据DDQN算法的机制，Q值的更新为：

其中，η表示学习率，会对训练速度及学习效果有较大的影响，其他项的符号意义同公式(11)。

为使得算法收敛，在一个实施例中，定义损失函数L(θ)为评估网络Q值和目标网络Q′值的差值的平方，DDQN算法的训练过程即最小化损失L(θ)至某一定值的过程，表示为：

其中，

表示由之前的网络参数θ′估计得出的目标Q值；Q(s_t，a_t，θ)则表示由网络参数θ估计的Q值。其他项的符号意义同公式(11)，r_t表示t时刻的奖励。

Q网络参数θ在损失函数L(θ)上以梯度下降进行更新：

其中，

表示对网络参数θ的梯度，其他项的符号意义同公式(11)和(13)。

4、探索和应用的算法

深度强化学习的探索和应用是一个需要权衡的问题，既要避免过多的探索也要避免过多的应用。在一个实施例中，利用贪心算法(ε-greedy)平衡智能体的探索和应用，即以ε的概率随机选择执行动作，以(1-ε)的概率选择当前状态下对应最大Q值的动作，在训练开始时需先定义一个恰当的ε初始值，以及终止探索的ε值。ε的初始值和终止值会较大地影响训练效果和收敛速度，故需要在训练时在相关代码文件如Matlab m文件中仔细地进行设置、调整。

5、设计优先经验回放

DDQN算法属于离策略(off-policy)的深度强化学习算法，即经验样本的生成与当前策略无关，故可考虑从过去的经验样本中进行学习以提高学习效率，一般会引入经验回放的技巧，同时为减少样本之间的关联度以随机抽样的方式抽取经验样本。在一个实施例中，在Matlab的m文件中设定经验回放池的大小为D，最小批采样数为N*(s_t，a_t，r_t，s_t+1)。经验回放的流程为，先定义经验池的大小为D，在每个时间步长，在经验池中存储一个样本数组(s_t，a_t，r_t，s_t+1)，当存储了一定量的样本后，智能体从经验池中随机抽取一小批样本数组N*(s_t，a_t，r_t，s_t+1)，以便从过去的样本中进行学习。对于经验样本数组(s_t，a_t，r_t，s_t+1)的利用，如图2所示，具体过程是：将状态s_t、动作a_t输入到实际的评估Q网络以估算出Q值，而s_t+1则输入到目标Q网络得到目标Q值Q′，并与r_t相加后与评估Q网络估计的Q值进行均方根误差的计算，若误差较大，则说明还需要进行较多次的参数更新，以减少误差。

然而，经验回放是均匀分布采样，即所有经验样本被采样到的概率相同，为进一步提高有价值样本(s_t，a_t，r_t，s_t+1)的采样概率，进而提高学习效率，加速算法的收敛过程，优选地，引入优先经验回放的技巧，其是原有经验回放技巧的改进。优先经验回放主要是增大有价值(即能获得较大奖励)样本被采样的概率，优先抽取最有价值的样本进行学习，从而可更高效更快速地学习。因此，要进行优先经验回放的操作，需要首先衡量经验样本的价值，可通过TD error来判断，由Q值的更新公式可得到：

其中，δ_t表示TD error值，其他项的符号意义同公式(11)。

DDQN算法的优化目标之一是让TD error尽可能小，若TD error较大，则说明当前的Q函数距离目标的Q函数差距较大，需要更多的进行参数更新来减小TD error，因此用TDerror来衡量经验的价值。此外，为了避免神经网络过拟合，还通过随机概率的方式抽取经验样本，以保证即使是奖励为0的样本也有概率被抽取到，令每个样本经验的优先概率值为：

其中，p_i＝|δ_t|+∈＞0，∈是一个很小的正数，目的是防止奖励为0的样本被抽取到的概率为0。优先级因子λ决定优先经验回放的程度，该值需恰当的设置以达到较好的训练效果，当λ＝0时，表示不采用优先经验回放，使用正常的经验回放进行训练。同时还需要对p_i做出限制，以保证无论极值是何值时采样的稳定性，优先经验回放的概率计算也在相关代码文件如Matlab m文件中进行设置。

6、设置其他关键参数

在训练开始前，还需要在相关代码文件如Matlab m文件中初始化一些关键的参数，例如包括学习率(一般小于1)、训练的回合数(一般在1000回合以内)、每回合的最大时间或周期T，一般等于训练数据集的时间、数据采集的时间间隔Ts(0.1s-1s)和训练的时间步长，一般等于(每回合周期T)/(数据采集的时间间隔Ts)。为避免出现锂电池和超级电容的状态(如SOC)超过约束的范围时仍处于训练的情况，还需要设置每回合训练的终止条件，以重新开始下一回合的训练并使得所训练得到方法符合预期。

7、选取训练数据

例如，通过在Simulink模型中使用Drive cycle source模块并从其自带的开源标准驾驶循环工况中选取如欧洲标准驾驶循环工况NEDC(new European driving cycle)、WLTC(worldwide harmonized light vehicle test procedure cycle)或将不同的标准驾驶循环重新有机组合在一起成为混合驾驶循环工况等，作为基于DDQN能量管理方法训练的数据集。

8、基于DDQN能量管理方法的训练过程

在相关代码文件如Matlab m文件中设置调用Simulink智能体-环境(车辆)模型的指令并经上述设计完成之后的DDQN方法即可开始训练，在一个实施例中，还通过使用Matlab自带的并行计算工具箱(parallel computing toolbox)的并行计算功能加速基于DDQN的能量管理方法的训练、收敛过程，从而显著缩短训练时间。

如图2所示，基于DDQN的能量管理方法的具体训练过程如下，在每个时间步长，根据用来训练的标准驾驶循环工况计算得出需求功率以及选定的相关车辆状态输入到智能体中，其中输入的状态观测量分别会输入到经验池中存储以及估计Q值的评估网络中，该网络按照已有方法并依据ε-greedy原则选择输出动作a_t到环境(车辆)中，一方面，环境(车辆)的状态随之由s_t变成s_t+1，另一方面，环境(车辆)则根据奖励函数将相应动作a_t的奖励立即反馈到智能体的经验池中。评估Q网络的网络参数θ会以一个特定的频率复制到目标Q网络中，成为目标Q网络的网络参数θ′，当经验池中存储了一定的经验样本后，利用优先经验回放技巧从经验池中提取一小批量的样本分别输入到评估Q网络和目标Q网络中，目标Q网络输出下一时刻s_t+1对应的目标Q值，其与经验样本中的奖励r_t相加后，再与估计的Q值一同计算均方根值，即为网络的损失L(公式(13))，计算该损失L对网络参数θ的偏微分

即为损失梯度，将该值反馈到估计Q网络中，依据最小化损失的原则评估Q网络会不断地更新网络参数θ，以使得输出的动作能获得最大累计奖励，该过程将一直在每个训练回合重复，直至最终收敛。

二、设计基于规则和双深度Q网络的能量管理方法

参见图3的基于规则和双深度Q网络的混合能量管理方法的控制逻辑以及图4的混合能量管理方法的设计流程，在本实施例中，训练完成的基于DDQN的能量管理方法，可通过代码指令在Simulink中的环境(车辆)模型中的RL agent模块中生成已训练完成并可随时仿真使用的控制方法。此外，例如利用Simulink/State flow设计基于规则的方法，并将其与DDQN的方法整合到一起，形成混合能量管理方法。

在完成上述设计后，在实际应用中，参见图5所示，所提供的基于规则和双深度Q网络的混合动力汽车能量管理方法包括：步骤S510，检测设有复合储能系统的车辆能量源，该复合储能系统包括锂电池能量源和超级电容能量源；步骤S520，当锂电池在预设的正常约束工作范围的情况下，利用经训练的深度强化学习模型确定锂电池的输出功率，当锂电池没有处于正常约束工作范围时，则使用基于规则的方法对锂电池进行保护。其中深度强化学习模型即根据上文设计和训练的双深度Q网络。

具体地，结合图3所示，所提出的混合动力汽车能量管理方法的控制逻辑为：当锂电池在预设的正常约束工作范围(SOC_{_min}≤SOC_batt≤SOC_{_max})时，使用基于双深度Q网络的能量管理方法，而当锂电池的SOC超出正常的约束范围时(SOC＜SOC_{_min}&SOC＞SOC_{_max})，则使用基于规则的方法对锂电池进行保护，从而避免锂电池的过充过放，以延长锂电池的使用寿命。具体包括：1)当锂电池SOC_batt低于设定的下限值SOC_{_min}，令锂电池停止放电，只接受充电；再判断超级电容SOC_sc是否高于限制的下限值SOC_{c_min}，若高于，则令超级电容根据车辆需求功率短时放电；若低于，则只能提醒驾驶员停止行驶，尽快找充电桩充电；2)若锂电池的SOC_batt高于上限值SOC_{_max}，则令锂电池不再充电，只进行放电；判断此时超级电容SOC_sc是否高于限制的上限SOC_{c_max}，若高于，则放弃制动能量回收；若低于，则超级电容吸收全部的制动能量回收功率。

综上所述，本发明提供的基于规则和双深度Q网络的混合能量管理方法，利用动态规划最优结果和优先经验回放技巧，实现了以下优势：不依赖于已知条件(车速、路况等)和已有的模型；可实现更快的收敛速度，更好的优化效果；可实现更全面的控制范围，例如锂电池SOC在[0，1]之间都有相应的控制方法进行能量的管理，有效解决锂电池由于频繁过充电、过放电而导致使用寿命骤减的问题。

本发明可以是系统、方法和/或计算机程序产品。计算机程序产品可以包括计算机可读存储介质，其上载有用于使处理器实现本发明的各个方面的计算机可读程序指令。

计算机可读存储介质可以是可以保持和存储由指令执行设备使用的指令的有形设备。计算机可读存储介质例如可以是——但不限于——电存储设备、磁存储设备、光存储设备、电磁存储设备、半导体存储设备或者上述的任意合适的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括：便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、静态随机存取存储器(SRAM)、便携式压缩盘只读存储器(CD-ROM)、数字多功能盘(DVD)、记忆棒、软盘、机械编码设备、例如其上存储有指令的打孔卡或凹槽内凸起结构、以及上述的任意合适的组合。这里所使用的计算机可读存储介质不被解释为瞬时信号本身，诸如无线电波或者其他自由传播的电磁波、通过波导或其他传输媒介传播的电磁波(例如，通过光纤电缆的光脉冲)、或者通过电线传输的电信号。

这里所描述的计算机可读程序指令可以从计算机可读存储介质下载到各个计算/处理设备，或者通过网络、例如因特网、局域网、广域网和/或无线网下载到外部计算机或外部存储设备。网络可以包括铜传输电缆、光纤传输、无线传输、路由器、防火墙、交换机、网关计算机和/或边缘服务器。每个计算/处理设备中的网络适配卡或者网络接口从网络接收计算机可读程序指令，并转发该计算机可读程序指令，以供存储在各个计算/处理设备中的计算机可读存储介质中。

用于执行本发明操作的计算机程序指令可以是汇编指令、指令集架构(ISA)指令、机器指令、机器相关指令、微代码、固件指令、状态设置数据、或者以一种或多种编程语言的任意组合编写的源代码或目标代码，所述编程语言包括面向对象的编程语言—诸如Smalltalk、C++、Python等，以及常规的过程式编程语言—诸如“C”语言或类似的编程语言。计算机可读程序指令可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络—包括局域网(LAN)或广域网(WAN)—连接到用户计算机，或者，可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。在一些实施例中，通过利用计算机可读程序指令的状态信息来个性化定制电子电路，例如可编程逻辑电路、现场可编程门阵列(FPGA)或可编程逻辑阵列(PLA)，该电子电路可以执行计算机可读程序指令，从而实现本发明的各个方面。

这里参照根据本发明实施例的方法、装置(系统)和计算机程序产品的流程图和/或框图描述了本发明的各个方面。应当理解，流程图和/或框图的每个方框以及流程图和/或框图中各方框的组合，都可以由计算机可读程序指令实现。

这些计算机可读程序指令可以提供给通用计算机、专用计算机或其它可编程数据处理装置的处理器，从而生产出一种机器，使得这些指令在通过计算机或其它可编程数据处理装置的处理器执行时，产生了实现流程图和/或框图中的一个或多个方框中规定的功能/动作的装置。也可以把这些计算机可读程序指令存储在计算机可读存储介质中，这些指令使得计算机、可编程数据处理装置和/或其他设备以特定方式工作，从而，存储有指令的计算机可读介质则包括一个制造品，其包括实现流程图和/或框图中的一个或多个方框中规定的功能/动作的各个方面的指令。

也可以把计算机可读程序指令加载到计算机、其它可编程数据处理装置、或其它设备上，使得在计算机、其它可编程数据处理装置或其它设备上执行一系列操作步骤，以产生计算机实现的过程，从而使得在计算机、其它可编程数据处理装置、或其它设备上执行的指令实现流程图和/或框图中的一个或多个方框中规定的功能/动作。

附图中的流程图和框图显示了根据本发明的多个实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段或指令的一部分，所述模块、程序段或指令的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个连续的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或动作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。对于本领域技术人员来说公知的是，通过硬件方式实现、通过软件方式实现以及通过软件和硬件结合的方式实现都是等价的。

以上已经描述了本发明的各实施例，上述说明是示例性的，并非穷尽性的，并且也不限于所披露的各实施例。在不偏离所说明的各实施例的范围和精神的情况下，对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。本文中所用术语的选择，旨在最好地解释各实施例的原理、实际应用或对市场中的技术改进，或者使本技术领域的其它普通技术人员能理解本文披露的各实施例。本发明的范围由所附权利要求来限定。

Claims

1.一种基于规则和双深度Q网络的混合动力汽车能量管理方法，包括以下步骤：

2.根据权利要求1所述的方法，其特征在于，将所述深度强化学习模型的输出动作区间设置为n份，表示为：

其中，动作间隔为

P_{batt_max}和P_{batt_min}分别表示锂电池输出功率的最大值和最小值，A表示输出动作集合，a(t)表示t时刻输出的动作。

3.根据权利要求1所述的方法，其特征在于，在训练所述深度强化学习模型过程中，包括通过随机概率的方式抽取经验样本，每个样本经验的优先概率值表示为：

其中，p_i＝|δ_t|+∈＞0，∈是设定的正数，优先级因子λ用于决定优先经验回放的程度，δ_t是经验样本的价值，表示为：

其中，r_t+1表示t+1时刻的奖励，γ表示折扣因子，a_t，a_t+1分别表示t和t+1时刻输出的动作，s_t，s_t+1分别表示t和t+1时刻的状态观察值，

表示在状态s_t+1采取动作a_t+1时估计的Q值，Q(s_t，a_t)表示t时刻的Q值。

4.根据权利要求1所述的方法，其特征在于，所述奖励函数设置为：

E_loss＝L_sc+L_batt+L_dcdc

其中，E_loss表示复合储能系统整体的能量损耗，SOC_{b_tgt}表示锂电池剩余电量SOC_b的目标值，SOC_sc-tgt表示超级电容剩余电量SOC_sc的目标值，L_sc，L_batt，L_dcdc分别表示超级电容、锂电池和复合储能系统中DCDC转换器的能量损失，m表示能量损失项的系数，n和p分别表示平衡锂电池和超级电容的剩余电量变化的系数；

利用所述深度强化学习模型求解能量优化问题的约束设置为：

其中，I_b为锂电池的电流，I_sc为超级电容的电流，I_{b_min}和I_{b_max}分别表示锂电池电流的最小和最大值；I_{sc_min}和I_{sc_max}分别表示超级电容电流的最小和最大值，P_dem表示整车需求功率，P_min和P_max分别表示整车需求功率的最小和最大值，P_batt表示锂电池输出功率，P_{batt_min}和P_{batt_max}分别表示锂电池输出功率的最小和最大值。

5.根据权利要求1所述的方法，其特征在于，所述使用设定规则对锂电池进行保护包括以下步骤：

当锂电池剩余电量SOC_batt低于设定的下限值SOC_{_min}时，令锂电池停止放电，只接受充电；并判断超级电容剩余电量SOC_sc是否高于限制的下限值SOC_{c_min}，若高于，则令超级电容根据车辆需求功率短时放电；若低于，则提醒驾驶员停止行驶；

若锂电池的剩余电量SOC_batt高于上限值SOC_{_max}，则令锂电池不再充电，只进行放电；并判断超级电容剩余电量SOC_sc是否高于限制的上限SOC_{c_max}，若高于，则放弃制动能量回收；若低于，则超级电容吸收全部的制动能量回收功率。

6.根据权利要求1所述的方法，其特征在于，所述状态观测量表示为：

其中，S表示状态观测量集合，s(t)表示t时刻的状态观测量，SOC_b表示锂电池的剩余电量，SOC_sc表示超级电容的剩余电量，P_dem表示整车需求功率且该整车需求功率是经归一化处理的值。

7.根据权利要求1所述的方法，其中，训练所述深度强化学习模型的损失函数L(θ)设置为评估网络Q值和目标网络Q′值的差值的平方，表示为：

其中，

表示由之前的网络参数θ′估计得出的目标Q值；Q(s_t，a_t，θ)则表示由网络参数θ估计的Q值，s_t和s_t+1分别表示t和t+1时刻的状态，a_t和a_t+1分别表示t和t+1时刻输出的动作，γ表示折扣因子，r_t表示t时刻的奖励。

8.根据权利要求1所述的方法，其特征在于，所述深度强化学习模型的训练过程包括：

在每个时间步长，根据用于训练的标准驾驶循环工况计算得出需求功率和选定的相关车辆状态输入到智能体中，其中输入的状态观测量分别输入到经验池中存储以及评估Q网络中，该评估Q网络依据ε-greedy原则选择输出动作a_t到环境中，环境的状态由s_t变成s_t+1；

环境根据奖励函数将相应动作a_t的奖励反馈到智能体的经验池中，在该过程中，评估Q网络的网络参数θ以设定的频率复制到目标Q网络中，成为目标Q网络的网络参数θ′；

当经验池中存储一定的经验样本后，从经验池中提取一小批量的样本分别输入到评估Q网络和目标Q网络中，目标Q网络输出下一时刻s_t+1对应的目标Q值，基于目标Q值和估计的Q值计算损失值及其对评估Q网络参数的损失梯度，并该值反馈到估计Q网络中，估计Q网络依据最小化损失的原则更新网络参数θ，以使输出的动作获得最大累计奖励。

9.一种计算机可读存储介质，其上存储有计算机程序，其中，该程序被处理器执行时实现根据权利要求1至8中任一项所述方法的步骤。

10.一种计算机设备，包括存储器和处理器，在所述存储器上存储有能够在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现权利要求1至8中任一项所述的方法的步骤。