CN115648973A

CN115648973A - 基于局部敏感哈希的改良ddpg强化学习混合能源管理方法

Info

Publication number: CN115648973A
Application number: CN202211406989.7A
Authority: CN
Inventors: 陶吉利; 张靖怡; 徐鸣; 马龙华
Original assignee: Zhejiang University of Science and Technology ZUST
Current assignee: Zhejiang University of Science and Technology ZUST
Priority date: 2022-11-10
Filing date: 2022-11-10
Publication date: 2023-01-31
Anticipated expiration: 2042-11-10
Also published as: CN115648973B

Abstract

本发明公开一种基于局部敏感哈希的改良DDPG强化学习混合能源管理方法，属于自动化技术领域。本发明提出的改良DDPG算法针对传统DDPG算法对环境探索效率低的缺点，进行了基于局部敏感哈希的探索能力优化。本发明通过局部敏感哈希中的SimHsah算法将混合能源系统的状态量映射成指定比特值的哈希码，通过哈希表对哈希码进行模糊计数，并在DDPG算法奖励函数设计中，加入了计数的结果项，用以激励算法产生和已有状态不同的新状态。本发明相比于传统DDPG算法，有更好的环境探索效率，从而能够更好地突破局部最优解，得到更优的控制器。并且本发明在控制性能方面，能够通过超级电容回收更多电量，节约锂电池用电量，降低输出电流波动，保护电池健康程度。

Description

基于局部敏感哈希的改良DDPG强化学习混合能源管理方法

技术领域

本发明属于自动化技术领域，涉及一种基于局部敏感哈希的改良DDPG强化学习混合能源管理方法。

背景技术

与传统汽车相比，新能源汽车能够更好地适应当前的社会环境，其中混合动力汽车(Hybrid Electric Vehicle,HEV)兼顾了节能和续航。

混合能源管理策略(Energy Management System,EMS)是混合动力汽车中的关键技术，主要包括基于规则的控制方法和基于优化的控制方法两类。前者依靠规则的设计来实现控制，优点主要为实时性良好，规则确立后能够通过较小的计算量实现对象控制。而近年来基于优化的控制方法得到了更多的研究，其中依托于神经网络和人工智能算法的兴起，各类基于人工智能的控制算法得到了更好的发展。

其中，DDPG(Deep Deterministic Policy Gradient)是一种离线学习的无模型深度强化学习算法，在前沿控制领域起着重要的作用，特别是面向控制量连续的控制场景。并且，无模型的控制算法能够针对难以建模的高耦合、非线性系统进行相对精准的控制。离线学习的算法能够保证数据的充分利用，能够更好地适用于数据量不是特别多的控制对象。但是DDPG连同其它确定性策略强化学习算法均存在缺乏对环境的探索能力的主要缺陷。也即，算法对状态空间的利用率低，很容易收敛到一个局部最优解中。因此，如何改良DDPG算法来实现完善DDPG算法对环境的探索能力，是目前亟待解决的技术问题。

发明内容

本发明的目的是解决现有技术中传统DDPG算法对环境探索效率低的缺陷，并提供一种基于局部敏感哈希的改良DDPG强化学习混合能源管理方法。本发明采用基于局部敏感哈希的改良DDPG强化学习算法对混合能源车辆进行能量管理方法设计，从而能够实现更为精确的实时连续性能量管理。与其它传统强化学习方法(例如Q学习、DQN算法)相比，DDPG的算法的动作空间从离散扩展到了连续空间，从而能够实现更精确的控制。并且，本发明采用了同结构双神经网络的形式，能够解决其它无模型深度强化学习算法中学习效率低和收敛性脆弱的问题。而和传统DDPG算法相比，在混合能源管理测量中采用基于局部敏感哈希的改良DDPG强化学习算法提升了算法对环境的探索效率，增加了算法对状态空间的利用率，具有更强的鲁棒性和更好的控制性能。

本发明中基于局部敏感哈希的改良DDPG强化学习管理方法的管理目标是：能够满足车辆功率需求的基础上，能够降低车辆的整体能耗，减少锂电池主能源损耗，尽可能通过超级电容回收电量，降低锂电池输出电流波动，最终达到增加锂电池使用寿命。

本发明具体采用的技术方案如下：

一种基于局部敏感哈希的改良DDPG强化学习混合能源管理方法，用于对由锂电池和超级电容构成的混合能源系统进行管理，其步骤如下：

S1：结合DDPG强化学习模块和局部敏感哈希模糊计数模块，构建基于局部敏感哈希的改良DDPG强化学习混合能源控制器；

所述DDPG强化学习模块由在线动作网络、目标动作网络、在线评价网络和目标评价网络组成，作为混合能源系统的主控制器；

所述局部敏感哈希模糊计数模块中，输入是控制器输出的动作量作用于环境后得到的混合能源系统的状态量，输出是在哈希表内查询得到的状态量对应的计数结果；模块中先通过SimHsah算法把混合能源系统的状态量新映射成哈希特征码，并利用一张存储已有类别哈希特征码的哈希表，对新映射的哈希特征码进行模糊计数，得到与新映射的哈希特征码匹配的类别数量作为计数结果，用于计算DDPG强化学习模块的奖励函数子部分；

S2：获取车辆在不同路况下行驶的实时功率需求数据，并将其作为训练数据对改良DDPG强化学习混合能源控制器进行离线训练，最终训练获得一个确定性的最终控制策略，用于对混合能源系统进行实时能量管理。

作为优选，所述DDPG强化学习模块中，两个动作网络的输入为状态量s_t，输出是动作量a_t，而两个评价网络的输入为分批输入的状态量s_t和a_t，输出为奖励Q值；

所述状态量为车辆的行驶需求功率p_demt、锂电池的荷电量BSOC_t和超级电容的荷电量USOC_t构成的向量s_t＝(p_demt,BSOC_t,USOC_t)；所述动作量为锂电池提供的功率p_bt和超级电容提供的功率p_ct构成的向量a_t＝(p_bt,p_ct)，p_bt和p_ct之和为混合能源系统提供的总功率p_t。

作为优选，所述DDPG强化学习模块中，奖励函数r_t设计为：

r_t＝ω₁r₁+ω₂r₂+ω₃r₃+ω₄r₄+ω₅r₅+r_count

r₂＝BSOC_t-BSOC₀

其中：ω₁～ω₅为奖励函数中各分项的权重设置，r₁～r₅为5个中间量，r_co_unt为由计数结果d_co_unt计算的奖励函数子部分，T是指整个训练所用的驾驶过程的总时长，

为t时刻车辆的行驶需求功率，BSOC_t和USOC_t分别表示t时刻锂电池和超级电容的荷电量，BSOC₀为电池初始荷电量，

和

分别表示t时刻和t-1时刻的锂电池输出电流，p_t为t时刻混合能源系统提供的总功率，而

为中间量，其计算式为：

整个驾驶周期T内的奖励函数R为周期内所有时刻的奖励函数r_t的累加量。

作为优选，所述局部敏感哈希模糊计数模块中，利用SimHash算法根据海明距离判定状态量相似度，并将满足预设相似度的状态量作为同类状态量进行计数，具体过程为：

S11：获取当前t时刻的状态量s_t，将状态量中的分量进行关键字划分，划分成为有l个分量的关键字向量A＝(a₁,a₂,...,a_l)，同时对每一个分量a_i设定对应权值ω_i；

S12：使用哈希算法对关键字向量A＝(a₁,a₂,...,a_l)中的每个分量a_i映射成为由n位0和1二进制数序列组成的哈希码a′_i，从而将关键字向量A转变为由l个哈希码组成的新向量A′＝(a′₁,a′₂,...,a′_l)；

S13：利用l个预先设定的权值ω₁,ω₂,...,ω_l，分别对向量A′中的对应哈希码a′_i进行加权计算，加权计算时先用第i个权值ω_i对第i个由n位0和1组成的哈希码a′_i进行逐位计算，若当前位为0，则当前位的加权运算结果为负权值-ω_i，若当前位为1，则当前位的运算结果为正权值ω_i；最终将A′的l个加权计算后的哈希码分量依次按位相加，得到一个总的n位加权和序列；

S14：对加权和序列逐位进行降维处理，若当前位大于零，则将当前位设为1，若当前位小于零，则将当前位设为0，最终得到一个n位的SimHash特征码；

S15：基于一张预先维护的存储已有类别的SimHash特征码的哈希表，对于n位的SimHash特征码进行模糊计数；在模糊计数时，将S14中得到的n位的SimHash特征码与哈希表中各类别SimHash特征码分别进行海明距离计算，统计海明距离小于等于m的类别数量并作为计数结果d_count，若哈希表中不存在海明距离小于等于m的类别，则在哈希表中建立新类别存储S14中得到的SimHash特征码并设置计数结果d_count为1。

作为优选，在局部敏感哈希模糊计数模块中，通过所述计数结果d_count计算DDPG强化学习模块的奖励函数子部分r_count的公式为：

其中β是一个带权重的并且随迭代次数衰减的衰减因子，计算式为：

其中ω_count为权重，而γ_count为衰减因子，γ_count∈(0，1)，n为当前迭代次数。

作为优选，所述S11中，对状态量进行关键字划分时，将状态量

中的

以小数点为界划分为小数点前和小数点后两个新分量P_I和P_D，其余两各分量BSOC_t,USOC_t分别单独构成一个分量，从而划分得到的关键字向量为A＝(P_I,P_D,BSOC_t,USOC_t)，A共有l＝4个分量；优选的设定4个分量对应的权值ω₁,ω₂,ω₃,ω₄分别为5、1、5和5。

作为优选，所述S12中，哈希算法采用单向散列函数snefru算法，且哈希码长度n为64，用于判断同类SimHash特征码的m取值为3。

作为优选，所述S2中，对改良DDPG控制器进行离线训练的具体做法为：

S21：随机初始化DDPG强化学习模块中在线动作网络u以及目标动作网络u′的网络参数为θ^Q和θ^Q′，且初始网络参数θ^Q和θ^Q′保持相同；同样初始化DDPG强化学习模块中在线评价网络Q以及目标评价网络Q′的网络参数为θ^u和θ^u′，且初始网络参数θ^u和θ^u′保持相同；

S22：获取车辆在四种不同路况下行驶的实时功率需求数据，进而迭代下列训练步骤：

1)通过混合能源系统得到状态量s_t，并输入在线动作网络u后，对在线动作网络u的输出加上噪声量，得到动作量a_t；

2)对混合能源系统执行动作量a_t，获得下一时刻新的状态量s_t+1，并且根据考虑状态计数结果的奖励函数计算得到当前奖励值r_t；

3)将数据组(s_t,a_t,r_t,s_t+1)存储在数据记忆池中，再从已有的记忆池中选取k个样本(s_i,a_i,r_i,s_i+1),i∈[1,k]，用于模型训练及网络参数更新；若当前记忆池中不足k个样本时，用全零的数据组进行补足；

4)利用目标动作网络u′计算得到状态量s_t+1对应的目标动作量a′＝u′(s_i+1|θ^u′)，进而根据目标评价网络Q′输出对a′和s_i+1的评价值Q′(s_i+1,a′|θ^Q′)，并根据下式分别计算样本组中任意第i个样本对应的目标评估值y_i：

根据在线评价网络Q输出对第i个样本对应的动作量a_i和状态量s_i的评价值Q(s_i,a_i|θ^Q)，再计算所有k个样本的目标评估值和在线评价值间的总代价函数：

5)通过最小化上述的总代价函数L，通过梯度下降法更新在线动作网络参数θ^u和在线评价网络参数θ^Q；

6)通过软更新方式更新目标动作网络参数θ^Q′和目标评价网络参数θ^u′；

7)循环迭代上述1)～6)的训练过程，直至满足设定的收敛条件后结束离线训练。

S23、将离线训练完毕后得到的最优网络参数θ^u下的在线动作网络作为最终的控制器，用于对混合能源系统进行实时能量管理。

作为优选，所述S22中，使用以下四种经典驾驶工况下的车辆功率需求数据进行控制器训练：拥堵城市道路(Manhattan bus drive cycle,MBDC),一般城市道路(Urbandynamometer driving schedule,UDDS),城郊道路(West Virginia suburban drivingschedule,WVUSUB)和高速公路(Highway fuel economy certification test,HWFET)。

作为优选，步骤S22中，从数据记忆池中抽取数据时，用等概率方式从记忆池中采样，每次抽取k＝64组样本数据用于网络参数的更新。

本发明提出的基于局部敏感哈希的改良DDPG强化学习的混合能源管理方法相较于传统DDPG管理策略拥有更强的环境探索能力，能够更好地突破局部最优解，找到更好的控制算法。以管理锂电池电池和超级电容混合动力车为例，本发明能够在工作全时间满足车辆行驶的功率需求，并且超级电容的电量回收效率高，能够降低锂电池总消耗能源，节约系统能耗；同时锂电池的输出电流变化频率低、幅度小，能够延长锂电池的使用寿命，总体控制表现优良。

附图说明

图1为本发明实施例中采用的动作网络结构图；

图2为本发明实施例中采用的评价网络结构图；

图3为基于局部敏感哈希的改良DDPG强化学习混合能源管理方法框架图；

图4为本发明实施例中改良和传统DDPG算法奖励函数值随训练次数变化对比图；

图5为本发明实施例中改良和传统DDPG算法电池用电量管理对比图；

图6为本发明实施例中改良和传统DDPG算法超级电容电量回收对比图；

图7为本发明实施例中改良和传统DDPG算法电池输出电流瞬时改变量对比图。

具体实施方式

下面结合附图和具体实施方式对本发明做进一步阐述和说明。

在本发明中的一种较佳实现方式中，提出了一种基于局部敏感哈希的改良DDPG强化学习混合能源管理方法，用于对由锂电池和超级电容构成的混合能源系统进行管理，其管理步骤如下：

S1：结合DDPG强化学习模块和局部敏感哈希模糊计数模块，构建基于局部敏感哈希的改良DDPG强化学习混合能源控制器。

下面对该基于局部敏感哈希的改良DDPG强化学习混合能源控制器的具体构建过程进行展开描述。

1、DDPG强化学习模块的构建：

上述DDPG强化学习模块由在线动作网络、目标动作网络、在线评价网络和目标评价网络组成，作为锂电池和超级电容的混合能源系统的主控制器。

动作网络和评价网络属于现有技术。本发明中四个网络均可采用神经网络形式，主要由输入层、全连接层、ReLU层、tanh层和缩放层组成。构建时，可先随机初始化强化学习在线动作网络和在线评价网络及其参数，再进一步将两个网络分别复制一份，构成目标动作网络和目标评价网络；最终构建得到的四个神经网络，两两对应，结构和初始参数均相同。

上述四个网络中，两个动作网络的输入为状态量s_t，输出是动作量a_t，而两个评价网络的输入为分批输入的状态量s_t和a_t，输出为奖励Q值。

在该DDPG强化学习模块中，状态空间、动作空间、奖励函数的具体设置如下：

状态空间设计为：

状态量为车辆的行驶需求功率p_demt、锂电池的荷电量BSOC_t和超级电容的荷电量USOC_t构成的向量s_t＝(p_demt,BSOC_t,USOC_t)。

动作空间设计为：

动作量为锂电池提供的功率p_bt和超级电容提供的功率p_ct构成的向量a_t＝(p_bt,p_ct)，p_bt和p_ct之和为混合能源系统提供的总功率p_t。

奖励函数r_t设计为：

r_t＝ω₁r₁+ω₂r₂+ω₃r₃+ω₄r₄+ω₅r₅+r_count

r₂＝BSOC_t-BSOC₀

其中：ω₁～ω₅为奖励函数中各分项的权重设置，r₁～r₅为5个中间量，r_count为由计数结果d_count计算的奖励函数子部分，T是指整个训练所用的驾驶过程的总时长，

和

为中间量，其计算式为：

另外，为了实现网络训练，根据控制对象设立DDPG强化学习模块的主要超参数，例如动作网络和评价网络的学习率L_actor和L_critic、奖励衰减量γ、软更新迭代量τ、记忆池最大容量Memory_max、批量大小bath_size、奖励函数值波动终止阈值e和最大迭代次数iter_max。

2、局部敏感哈希模糊计数模块的构建：

局部敏感哈希模糊计数模块的构建，主要包含几个方面：构建SimHash算法框架；设立状态量s_t的进一步向量分割规则，并且设定每一分量的权值；确定模糊计数中对状态量进行哈希映射选取的具体哈希函数；确立模糊计数中判定状态量相似的规则。

上述局部敏感哈希模糊计数模块中，输入是控制器输出的动作量作用于环境后得到的混合能源系统的状态量，输出是在哈希表内查询得到的状态量对应的计数结果。局部敏感哈希模糊计数模块中，先通过SimHsah算法把混合能源系统的状态量新映射成哈希特征码，并利用一张存储已有类别哈希特征码的哈希表，对新映射的哈希特征码进行模糊计数，得到与新映射的哈希特征码匹配的类别数量作为计数结果，用于计算DDPG强化学习模块的奖励函数子部分。

上述局部敏感哈希模糊计数模块中，局部敏感哈希主要用于数据间相似度快速比较，本质是根据选定的相似度来查询最近邻状态。局部敏感哈希采用不同的哈希函数形成不同的细化算法，其中本发明使用的SimHsah算法是一种通过海明距离得到两个样本的相似度的算法。局部敏感哈希模糊计数模块中利用SimHash算法根据海明距离判定状态量相似度，并将满足预设相似度的状态量作为同类状态量进行计数，具体过程为：

S11：获取当前t时刻的状态量s_t，将状态量中的分量进行关键字划分，划分成为有l个分量的关键字向量A＝(a₁,a₂,...,a_l)，同时对每一个分量a_i设定对应权值ω_i。

在本发明的S11中，对状态量进行关键字划分时，将状态量

中的

以小数点为界划分为小数点前和小数点后两个新分量P_I和P_D，其余两各分量BSOC_t,USOC_t分别单独构成一个分量，从而划分得到的关键字向量为A＝(P_I,P_D,BSOC_t,USOC_t)。因此，A共有l＝4个分量；优选的设定4个分量对应的权值ω₁,ω₂,ω₃,ω₄分别为5、1、5和5。

S12：使用哈希算法对关键字向量A＝(a₁,a₂,...,a_l)中的每个分量a_i映射成为由n位0和1二进制数序列组成的哈希码a′_i，从而将关键字向量A转变为由l个哈希码组成的新向量A′＝(a′₁,a′₂,...,a′_l)。

在本发明的步骤S12中，哈希算法采用单向散列函数snefru算法，且哈希码长度n为64，每个状态量映射得到的哈希码为64位0、1组成的序列。另外，用于判断同类SimHash特征码的m取值为3，即设定模糊计数中判定状态量同类的规则为即两个状态量的SimHash特征码中有至少3个对应位相等，也即两个SimHash特征哈希码间的海明距离小于等于3。

S13：利用l个预先设定的权值ω₁,ω₂,...,ω_l，分别对向量A′中的对应哈希码a′_i进行加权计算，加权计算时先用第i个权值ω_i对第i个由n位0和1组成的哈希码a′_i进行逐位计算，若当前位为0，则当前位的加权运算结果为负权值-ω_i，若当前位为1，则当前位的运算结果为正权值ω_i；哈希码a′_i进行加权计算后得到哈希码分量a_i″，最终将A′的l个加权计算后的哈希码分量a₁″～a_l″依次按位相加，得到一个总的n位加权和序列。

S14：对加权和序列逐位进行降维处理，即对每一位进行如下处理：若当前位大于零，则将当前位设为1，若当前位小于零，则将当前位设为0，最终得到一个n位的SimHash特征码。

在具体统计时，对状态量新映射得到的SimHash特征码在哈希表中进行检索，判断是否能够被归入已存在哈希表类别，即是否归入某一现存SimHash特征码类别的海明距离小于等于设定值3；若能够归入，则被归入类别计数值加1；若不能归入，则创立新类别，计数值记为1。由此，读取更新后的类别计数结果即为d_count。

获得上述计数结果d_count后，即可用于设计改良DDPG算法的奖励函数中的一部分，计算DDPG强化学习模块的奖励函数子部分r_count的计算公式为：

其中ω_count为权重，而γ_count为衰减因子，γ_count∈(0，1)，n为当前迭代次数。根据奖励函数子部分r_count，即可计算奖励函数r_t。

结合前述构建的DDPG强化学习模块和局部敏感哈希模糊计数模块，即可建立基于局部敏感哈希的改良DDPG强化学习混合能源控制器。

在本发明的步骤S2中，对改良DDPG控制器进行离线训练的具体做法为：

S21：随机初始化DDPG强化学习模块中在线动作网络u以及目标动作网络u′的网络参数为θ^Q和θ^Q′，且初始网络参数θ^Q和θ^Q′保持相同；同样初始化DDPG强化学习模块中在线评价网络Q以及目标评价网络Q′的网络参数为θ^u和θ^u′，且初始网络参数θ^u和θ^u′保持相同。

另外，为了参照常规的网络训练方式，还需要初始化DDPG强化学习模块的主要超参数，包括各动作网络和评价网络的学习率L_actor和L_critic、奖励衰减量γ、软更新迭代量τ、记忆池最大容量Memory_max、批量大小bath_size、奖励函数值波动终止阈值e和最大迭代次数iter_max。

1)对车辆行驶周期T中的t时刻，通过混合能源系统得到状态量

并输入在线动作网络u后，对在线动作网络u的输出加上噪声量，得到动作量a_t＝(p_bt,p_ct)。

2)对混合能源系统(可采用仿真车辆混合能源系统模型)执行动作量a_t，根据考虑状态计数结果的奖励函数计算得到当前奖励值r_t，并且由锂电池和超级电容根据动作量a_t提供相应的功率，获得下一时刻新的状态量s_t+1。

此处，根据考虑状态计数结果的奖励函数计算得到当前奖励值r_t的具体做法可参见前述S11～S15，先得到计数结果d_count，再计算奖励函数子部分r_count，最后即可按照奖励函数r_t的计算式计算当前奖励值。

3)将数据组(s_t,a_t,r_t,s_t+1)存储在数据记忆池中，再从已有的记忆池中选取k个样本，用于模型训练及网络参数更新；若当前记忆池中不足k个样本时，用全零的数据组进行补足。

在本发明中，从数据记忆池中抽取数据时，可用等概率方式从记忆池中采样，每次抽取k＝64组样本数据用于网络参数的更新。即从已有的记忆池集中等概率随机采样64个样本组(s_i,a_i,r_i,s_i+1),i∈[1,64]。若当前记忆池中不足64个样本时，用全零数据组进行补足。

5)通过最小化上述的总代价函数L，通过梯度下降法更新在线动作网络参数θ^u和在线评价网络参数θ^Q。

梯度下降法属于现有技术，具体方式不再赘述。本发明中，更新在线动作网络参数θ^u和在线评价网络参数θ^Q时可先使用梯度下降法更新在线评价网络参数θQ，再根据下式使用梯度下降法优化负的累积期望回报值，更新在线动作网络参数θu，其中η＝0.5：

6)通过软更新方式更新目标动作网络参数θQ′和目标评价网络参数θu′：

θ^Q′←τθ^Q+(1-τ)θ^Q′

θ^μ′←τθ^μ+(1-τ)θ^μ′

7)循环迭代上述1)～6)的训练过程，直至满足设定的收敛条件后结束离线训练。其中，结束训练的收敛条件需要根据实际需要进行优化，此处可设置为：判断五次迭代间的输出奖励函数值间的差距均小于设定阈值e，或者迭代总次数小于设定最大迭代阈值iter_max。

在本发明中，训练数据可根据实际需要进行选择，此处可使用以下四种经典驾驶工况下的车辆功率需求数据进行控制器训练：拥堵城市道路(Manhattan bus drivecycle,MBDC),一般城市道路(Urban dynamometer driving schedule,UDDS),城郊道路(West Virginia suburban driving schedule,WVUSUB)和高速公路(Highway fueleconomy certification test,HWFET)。

S23、用学习得到的网络参数构成的最终控制策略对混合能源系统进行实时能量管理，具体方式为：将离线训练完毕后得到的最优网络参数θ^u下的在线动作网络作为最终的控制器，用于对混合能源系统进行实时能量管理。在进行应用时，可对在线动作网络输入当前状态量s_t，得到输出量a_t直接作为动作量，无需再增加随机噪声；根据a_t控制混合能源系统中锂电池和超级电容提供指定的功率。

下面将上述方法应用于一个具体实施例中，以展示其技术效果的实现。

实施例

本实施例针对锂电池和超级电容混合动力车进行能源管理。

混合动力车能源系统主要包括锂电池、超级电容以及各类DC/DC和DC/AC变换器。车辆的主能源为锂电池，超级电容为辅电源，车辆的驾驶需求功率由超级电容和锂电池混合输出。超级电容以其良好的快充快放性能作为辅助能源，能够回收锂电池输出的能量，并在合适的时刻辅助锂电池提供车辆所需的能量。本实施例主要对混合能源系统进行建模仿真管理。

其中，选用戴维南等效电路模型来分析锂电池的动态特性，模型包括理想电压源、锂电池的等效内阻以及RC网络。该模型中，电池状态量的计算如下：

P_b＝U_tbi_b

U_tb＝U_ob-i_bR_b-U_D

其中P_b是电池提供的功率，U_tb是端电压，i_b是输出电流，U_ob是理想电压源的开路电压，R_b是等效内阻，R_d是扩散电阻，C_d是扩散电容，U_d表示扩散电压。本发明将电池模型理想化，也即取U_ob为定值，同时取U_d为0。由此可根据每一时刻电池提供的功率，计算出电池的输出电流和端电压如下：

而进一步，根据电池的输出电流，可以计算得到电池的电量变化如下：

其中，BSOC表示电池的电量，k表示离散化的某一时刻，Q_b表示电池的最大电量。电池电量的初始状态设定为BSOC_init。

对超级电容则采用RC电路模型进行等效分析，也即将超级电容理想化为一个理想电容和一个理想电阻。

模型的数学描述如下：

P_c＝U_tci_c

U_tc＝U_oc-i_cR_c

其中P_c表示超级电容的输出功率表，U_oc,U_tc分别表示理想电容器两端电压和端电压，i_c是输出电流，R_c表示超级电容等效内阻。而由此可以通过电容提供的功率计算得到电容的输出电流如下：

而其中电容理想电容的电压两端电压值和电容带有的电量值有关，计算如下：

U_oc(k+1)＝USOC(k+1)U_max

其中U_max代表的是电容提供的最大电压，Q_c代表的是电容的最大荷电量。电容荷电量的初始状态设定为USOC_init。

实施例针对的混合能源系统中的重要参数列举在表1中。

表1混合能源系统主要参数

参数类型	设置值	参数类型	设置值
				R<sub>b</sub>	0.012	Q<sub>b</sub>	2000
R<sub>d</sub>	0	R<sub>c</sub>	0.006
				C<sub>d</sub>	2000	U<sub>max</sub>	48.6
U<sub>ob</sub>	0.1	Q<sub>c</sub>	7920
				BSOC<sub>init</sub>	0.8	USOC<sub>init</sub>	66

以FTP-75工况(又称UDDS)、WVUSUB工况、HWFET工况及MANHATTAN工况4种典型驾驶工况为例，建立车辆实时能源管理系统。

步骤(1)：从Advisor软件中导出车辆在上述工况下的实时功率需求P_dem，一个形式周期即行程时长记为T。

步骤(2)：对控制对象建立DDPG强化学习控制模块；

a.设计状态空间。状态量选取为车辆需求功p_demt、锂电池和超级电容的荷电状态BSOC_t和USOC_t组成的向量s_t＝(p_demt,BSOC_t,USOC_t)。

b.设计动作空间。动作量设计为锂电池输出功率p_bt和超级电容输出功率p_ct组成的向量a_t＝(p_bt,p_ct)。

c.设计奖励函数为：

r_t＝ω₁r₁+ω₂r₂+ω₃r₃+ω₄r₄+ω₅r₅+r_co_unt

r₂＝BSOC_t-BSOC₀

其中：ω₁～ω₅是奖励函数中各分项的权重设置，T是指整个训练所用的驾驶过程的总时长，p_demt为车辆的行驶需求功率，BSOC_t和USOC_t表示锂电池和超级电容的荷电量，p_t为混合能量系统提供的总功率，而

d.构建DDPG模块的网络架构：构建在线动作网络，输入为状态量s_t＝(p_demt,BSOC_t,USOC_t)，输出量为动作量a_t＝(p_bt,p_ct)，并随机初始化网络参数；将在线动作网络及其网络参数复制为一个相同的网络作为目标动作网络。构建在线评价网络，以状态量s_t＝(p_demt,BSOC_t,USOC_t)和动作量a_t＝(p_bt,p_ct)分批作为输入，输出为奖励值Q，随机初始网络参数；同样复制成为相同的目标评价网络。四个网络主要由输入层、全连接层、ReLU层、tanh层和缩放层组成，本实施例中动作网络和评价网络的具体网络结构见附图1和2。

步骤(3)：初始化局部敏感哈希模糊计数模块

a.构建SimHash算法框架；设立状态量s_t的进一步向量分割规则为：将s_t＝(p_demt,BSOC_t,USOC_t)中的

分量划分为小数点前和小数点后两新分量P_I和P_D，其余两分量分别单独构成一个分量；最终划分得到的关键字向量为A＝(P_I,P_D,BSOC_t,USOC_t)；

b.设定关键字向量中的分量对应的权值分别为：5、1、5和5；

c.设定模糊计数中对状态量进行映射的具体哈希算法为：snefru算法，每个状态量映射得到的哈希码为64位0、1组成的序列；

d.设定模糊计数中判定状态量相似的规则为状态量的SimHash特征哈希码中有至少3个对应位相等，也即两个SimHash特征哈希码间的海明距离小于等于3；

步骤(4)：结合步骤(2)中构建的DDPG强化学习模块和步骤(3)中构建的局部敏感哈希模糊计数模块，建立基于局部敏感哈希的改良DDPG强化学习混合能源管理系统，系统结构图如附图3所示；通过步骤(1)中获取的数据对系统进行离线训练，具体过程为：

步骤41)：初始化DDPG强化学习模块的主要超参数，包括动作网络和评价网络的学习率L_actor和L_critic、奖励衰减量γ、软更新迭代量τ、记忆池最大容量Memory_max、批量大小bath_size、奖励函数值波动终止阈值e和最大迭代次数iter_max；

步骤42：对车辆行驶周期T中的t时刻，获取车辆混合能源系统的状态量s_t＝(p_demt,BSOC_t,USOC_t)；将状态量输入在线动作网络，并对网络输出量加上随机高斯噪声量，最终得到动作量a_t＝(p_bt,p_ct)；

步骤43)：对仿真车辆混合能源系统模型执行动作量a_t，由锂电池和超级电容根据动作量提供相应的功率，得到此时更新后的状态量s_t+1；

步骤44)：将此时的状态量s_t+1输入局部敏感哈希模糊计数模块，使用SimHash算法具体实现局部敏感哈希算法，从而获取计数结果，其具体过程为：

(1)进行向量分割，将状态向量s_t+1中的分量做进一步的关键字分割；即划分得到的关键字向量为

共有4个分量；设定分量对应的权值ω₁～ω₄分别为5、1、5和5。

(2)使用选定哈希算法将特征向量

中的每个分量映射成为二进制数的哈希码，结果为64位0、1组成的序列；从而原向量A映射成为由四个哈希码组成的新向量

(3)根据设定权值ω₁～ω₄对4个哈希值分量分别进行加权计算，加权计算方法为：对第i个64位0、1组成的哈希码分量的每一位分别与权值ω_i进行加权计算；若该位为0，则该位加权运算结果为负权值-ω_i；若该位为1，则该位运算结果为正权值ω_i；最终将A′向量4个加权计算后的哈希码分量

BSOC″_t+1和USOC″_t+1按位分别相加，得到一个总的加权和哈希码序列；

(4)对加权和哈希码序列降维，也即对每一位进行如下处理：若当前位大于0，则该位记为1，当前位小于0，则该位记为0。这样就得到了最终计算得到的SimHash特征码；

(5)对新得到的状态SimHash特征码在哈希表中进行检索，判断是否能够被归入已存在哈希表类别，即是否和某一现存SimHash码类别的海明距离小于等于设定值3；若能够归入，则被归入类别计数结果值加1；若不能归入，则创立新类别，计数结果值记为1。最后，读取更新后的类别计数结果d_count；

步骤45)：计数结果d_count用于设计改良DDPG算法的奖励函数中的一部分：

其中，β是一个带权重的并且随迭代次数衰减的衰减因子，主要形式为：

其中ω_count为权重设置，而γ_count为衰减因子，γ_count∈(0，1)，n为迭代次数。

步骤46)：进一步奖励函数计算状态对应的奖励函数r_t；

步骤47)：将(s_t,a_t,r_t,s_t+1)数据组存储在数据记忆池中，从已有的记忆池集中等概率随机采样64个样本组(s_i,a_i,r_i,s_i+1),i∈[1,64]。若当前记忆池中不足64个样本时，用全零数据组进行补足。利用目标动作网络计算得到s_i+1状态下对应的目标动作量a′＝u′(s_i+1|θ^u′)，进而根据目标评价网络输出对a′和s_i+1的评价值Q′(s_i+1,a′|θ^Q′)，并根据下式计算分别计算样本组中每个样本对应的目标评估值y_i，其中γ＝0.99：

并且根据y_i，构建目标评估值和在线评价值间的总代价函数：

步骤48)：通过最小化上述的L，使用梯度下降法优化在线评价网络参数θ^Q，同时通过梯度下降法更新在线动作网络参数θ^u。更新在线动作网络参数θ^u时可根据下式，使用梯度下降法优化负的累积期望回报值，其中η＝0.5：

最后，通过软更新方式分别更新目标评价和动作网络参数θ^Q′和θ^u′：

θ^Q′←τθ^Q+(1-τ)θ^Q′

θ^μ′←τθμ+(1-τ)θ^μ′

步骤49)：不断重复迭代上述步骤42)至步骤48)，至满足设定的收敛条件后结束离线训练。其中，结束训练的收敛条件为：判断五次迭代间的输出奖励函数值间的差距均小于设定阈值e，或者迭代总次数小于设定最大迭代阈值iter_max。

步骤(5)：用学习得到的网络参数构成的最终控制策略对混合能源系统进行实时能量管理，具体方式为：以训练完成后的在线动作网络作为控制器，获取并输入当前混合能源系统的状态量s_t，得到输出量a_t直接作为动作量，无需再增加随机噪声；根据动作量a_t控制锂电池和超级电容提供指定的功率p_bt和p_ct。

根据上述步骤(1)～(5)给出的基于局部敏感哈希的改良DDPG强化学习策略，从ADVISOR获得数据后，用python语言进行代码编写，在其编译器中对所设计的混合能源管理策略进行仿真。表2给出了基于局部敏感哈希的改良DDPG强化学习策略的主要参数，其中大部分数值是通过反复试验得出的。

表2算法主要参数设置

为便于对本发明提出的能量管理策略的性能进行评价，将提出方法和传统DDPG算法行对比。传统DDPG算法仿真实验中的奖励函数，和改良DDPG算法奖励函数中的r_t中除了r_count的部分计算方法保持一致，其余网络结构、初始参数等均相同，两者同样迭代学习150次。图4展示了两种算法在离线训练过程中的奖励函数值的变化过程。图5到图7显示了测试周期下，两种算法实时能量管理结果。

图4反映本发明提出的管理策略算法最终能够收敛，并且收敛于优于传统DDPG算法的位置，证明其有较好的探索能力。图5可以看出，在本发明提出的算法的管理下，锂电池消耗了更少的电量；相较于传统DDPG算法，节约6.98％的电量，证明本算法有利于混合动力车辆的续航能力提升。图6展示了两种算法管理下，超级电容在仿真驾驶过程中累计回收的电量，该图证明提出的算法能够通过超级电容回收更多的电量，侧面印证了改良DDPG算法能够减少锂电池电量消耗。图7是两种算法管理下，锂电池输出电流的瞬时改变量对比图。锂电池输出电流的突变会影响电池的健康，从而缩短锂电池的使用寿命。图中看出，相较于传统DDPG算法，本发明提出的管理策略能够一定程度降低输出电流的突变，利于维护锂电池健康。综上所述，相较于传统DDPG管理策略，基于局部敏感哈希的改良DDPG强化学习混合能源管理策略在各个期望控制目标的方面都有更好的表现。表3列举了两种管理策略各方面的性能数据，便于对比。

表3：两种管理策略性能数据

以上所述的实施例只是本发明的一种较佳的方案，然其并非用以限制本发明。有关技术领域的普通技术人员，在不脱离本发明的精神和范围的情况下，还可以做出各种变化和变型。因此凡采取等同替换或等效变换的方式所获得的技术方案，均落在本发明的保护范围内。

Claims

1.一种基于局部敏感哈希的改良DDPG强化学习混合能源管理方法，用于对由锂电池和超级电容构成的混合能源系统进行管理，其特征在于，步骤如下：

2.如权利要求1所述的基于局部敏感哈希的改良DDPG强化学习混合能源管理方法，其特征在于，所述DDPG强化学习模块中，两个动作网络的输入为状态量s_t，输出是动作量a_t，而两个评价网络的输入为分批输入的状态量s_t和a_t，输出为奖励Q值；

3.根据权利要求2所述的基于局部敏感哈希的改良DDPG强化学习混合能源管理方法，其特征在于，所述DDPG强化学习模块中，奖励函数r_t设计为：

r_t＝ω₁r₁+ω₂r₂+ω₃r₃+ω₄r₄+ω₅r₅+r_count

r₂＝BSOC_t-BSOC₀

和

为中间量，其计算式为：

4.如权利要求3所述的基于局部敏感哈希的改良DDPG强化学习混合能源管理方法，其特征在于，所述局部敏感哈希模糊计数模块中，利用SimHash算法根据海明距离判定状态量相似度，并将满足预设相似度的状态量作为同类状态量进行计数，具体过程为：

5.根据权利要求1所述的基于局部敏感哈希的改良DDPG强化学习混合能源管理方法，其特征在于，在局部敏感哈希模糊计数模块中，通过所述计数结果d_count计算DDPG强化学习模块的奖励函数子部分r_count的公式为：

其中ω_count为权重，而γ_counr为衰减因子，γ_xount∈(0，1)，n为当前迭代次数。

6.根据权利要求4所述的基于局部敏感哈希的改良DDPG强化学习混合能源管理方法，其特征在于，所述S11中，对状态量进行关键字划分时，将状态量

中的

7.根据权利要求4所述的基于局部敏感哈希的改良DDPG强化学习混合能源管理方法，其特征在于，所述S12中，哈希算法采用单向散列函数snefru算法，且哈希码长度n为64，用于判断同类SimHash特征码的m取值为3。

8.根据权利要求1所述的基于局部敏感哈希的改良DDPG强化学习混合能源管理方法，其特征在于，所述S2中，对改良DDPG控制器进行离线训练的具体做法为：

9.根据权利要求8所述的基于局部敏感哈希的改良DDPG强化学习混合能源管理方法，其特征在于，所述S22中，使用以下四种经典驾驶工况下的车辆功率需求数据进行控制器训练：拥堵城市道路(Manhattan bus drive cycle,MBDC),一般城市道路(Urbandynamometer driving schedule,UDDS),城郊道路(West Virginia suburban drivingschedule,WVUSUB)和高速公路(Highway fuel economy certification test,HWFET)。

10.根据权利要求8所述的基于局部敏感哈希的改良DDPG强化学习混合能源管理方法，其特征在于，步骤S22中，从数据记忆池中抽取数据时，用等概率方式从记忆池中采样，每次抽取k＝64组样本数据用于网络参数的更新。