CN115648973A - 基于局部敏感哈希的改良ddpg强化学习混合能源管理方法 - Google Patents

基于局部敏感哈希的改良ddpg强化学习混合能源管理方法 Download PDF

Info

Publication number
CN115648973A
CN115648973A CN202211406989.7A CN202211406989A CN115648973A CN 115648973 A CN115648973 A CN 115648973A CN 202211406989 A CN202211406989 A CN 202211406989A CN 115648973 A CN115648973 A CN 115648973A
Authority
CN
China
Prior art keywords
hash
hybrid energy
reinforcement learning
network
ddpg
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202211406989.7A
Other languages
English (en)
Other versions
CN115648973B (zh
Inventor
陶吉利
张靖怡
徐鸣
马龙华
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang University of Science and Technology ZUST
Original Assignee
Zhejiang University of Science and Technology ZUST
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang University of Science and Technology ZUST filed Critical Zhejiang University of Science and Technology ZUST
Priority to CN202211406989.7A priority Critical patent/CN115648973B/zh
Publication of CN115648973A publication Critical patent/CN115648973A/zh
Application granted granted Critical
Publication of CN115648973B publication Critical patent/CN115648973B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开一种基于局部敏感哈希的改良DDPG强化学习混合能源管理方法,属于自动化技术领域。本发明提出的改良DDPG算法针对传统DDPG算法对环境探索效率低的缺点,进行了基于局部敏感哈希的探索能力优化。本发明通过局部敏感哈希中的SimHsah算法将混合能源系统的状态量映射成指定比特值的哈希码,通过哈希表对哈希码进行模糊计数,并在DDPG算法奖励函数设计中,加入了计数的结果项,用以激励算法产生和已有状态不同的新状态。本发明相比于传统DDPG算法,有更好的环境探索效率,从而能够更好地突破局部最优解,得到更优的控制器。并且本发明在控制性能方面,能够通过超级电容回收更多电量,节约锂电池用电量,降低输出电流波动,保护电池健康程度。

Description

基于局部敏感哈希的改良DDPG强化学习混合能源管理方法
技术领域
本发明属于自动化技术领域,涉及一种基于局部敏感哈希的改良DDPG强化学习混合能源管理方法。
背景技术
与传统汽车相比,新能源汽车能够更好地适应当前的社会环境,其中混合动力汽车(Hybrid Electric Vehicle,HEV)兼顾了节能和续航。
混合能源管理策略(Energy Management System,EMS)是混合动力汽车中的关键技术,主要包括基于规则的控制方法和基于优化的控制方法两类。前者依靠规则的设计来实现控制,优点主要为实时性良好,规则确立后能够通过较小的计算量实现对象控制。而近年来基于优化的控制方法得到了更多的研究,其中依托于神经网络和人工智能算法的兴起,各类基于人工智能的控制算法得到了更好的发展。
其中,DDPG(Deep Deterministic Policy Gradient)是一种离线学习的无模型深度强化学习算法,在前沿控制领域起着重要的作用,特别是面向控制量连续的控制场景。并且,无模型的控制算法能够针对难以建模的高耦合、非线性系统进行相对精准的控制。离线学习的算法能够保证数据的充分利用,能够更好地适用于数据量不是特别多的控制对象。但是DDPG连同其它确定性策略强化学习算法均存在缺乏对环境的探索能力的主要缺陷。也即,算法对状态空间的利用率低,很容易收敛到一个局部最优解中。因此,如何改良DDPG算法来实现完善DDPG算法对环境的探索能力,是目前亟待解决的技术问题。
发明内容
本发明的目的是解决现有技术中传统DDPG算法对环境探索效率低的缺陷,并提供一种基于局部敏感哈希的改良DDPG强化学习混合能源管理方法。本发明采用基于局部敏感哈希的改良DDPG强化学习算法对混合能源车辆进行能量管理方法设计,从而能够实现更为精确的实时连续性能量管理。与其它传统强化学习方法(例如Q学习、DQN算法)相比,DDPG的算法的动作空间从离散扩展到了连续空间,从而能够实现更精确的控制。并且,本发明采用了同结构双神经网络的形式,能够解决其它无模型深度强化学习算法中学习效率低和收敛性脆弱的问题。而和传统DDPG算法相比,在混合能源管理测量中采用基于局部敏感哈希的改良DDPG强化学习算法提升了算法对环境的探索效率,增加了算法对状态空间的利用率,具有更强的鲁棒性和更好的控制性能。
本发明中基于局部敏感哈希的改良DDPG强化学习管理方法的管理目标是:能够满足车辆功率需求的基础上,能够降低车辆的整体能耗,减少锂电池主能源损耗,尽可能通过超级电容回收电量,降低锂电池输出电流波动,最终达到增加锂电池使用寿命。
本发明具体采用的技术方案如下:
一种基于局部敏感哈希的改良DDPG强化学习混合能源管理方法,用于对由锂电池和超级电容构成的混合能源系统进行管理,其步骤如下:
S1:结合DDPG强化学习模块和局部敏感哈希模糊计数模块,构建基于局部敏感哈希的改良DDPG强化学习混合能源控制器;
所述DDPG强化学习模块由在线动作网络、目标动作网络、在线评价网络和目标评价网络组成,作为混合能源系统的主控制器;
所述局部敏感哈希模糊计数模块中,输入是控制器输出的动作量作用于环境后得到的混合能源系统的状态量,输出是在哈希表内查询得到的状态量对应的计数结果;模块中先通过SimHsah算法把混合能源系统的状态量新映射成哈希特征码,并利用一张存储已有类别哈希特征码的哈希表,对新映射的哈希特征码进行模糊计数,得到与新映射的哈希特征码匹配的类别数量作为计数结果,用于计算DDPG强化学习模块的奖励函数子部分;
S2:获取车辆在不同路况下行驶的实时功率需求数据,并将其作为训练数据对改良DDPG强化学习混合能源控制器进行离线训练,最终训练获得一个确定性的最终控制策略,用于对混合能源系统进行实时能量管理。
作为优选,所述DDPG强化学习模块中,两个动作网络的输入为状态量st,输出是动作量at,而两个评价网络的输入为分批输入的状态量st和at,输出为奖励Q值;
所述状态量为车辆的行驶需求功率pdemt、锂电池的荷电量BSOCt和超级电容的荷电量USOCt构成的向量st=(pdemt,BSOCt,USOCt);所述动作量为锂电池提供的功率pbt和超级电容提供的功率pct构成的向量at=(pbt,pct),pbt和pct之和为混合能源系统提供的总功率pt
作为优选,所述DDPG强化学习模块中,奖励函数rt设计为:
rt=ω1r12r23r34r45r5+rcount
Figure BDA0003936972110000038
r2=BSOCt-BSOC0
Figure BDA0003936972110000031
Figure BDA0003936972110000039
Figure BDA0003936972110000032
其中:ω1~ω5为奖励函数中各分项的权重设置,r1~r5为5个中间量,rcount为由计数结果dcount计算的奖励函数子部分,T是指整个训练所用的驾驶过程的总时长,
Figure BDA0003936972110000033
为t时刻车辆的行驶需求功率,BSOCt和USOCt分别表示t时刻锂电池和超级电容的荷电量,BSOC0为电池初始荷电量,
Figure BDA0003936972110000034
Figure BDA0003936972110000035
分别表示t时刻和t-1时刻的锂电池输出电流,pt为t时刻混合能源系统提供的总功率,而
Figure BDA0003936972110000036
为中间量,其计算式为:
Figure BDA0003936972110000037
整个驾驶周期T内的奖励函数R为周期内所有时刻的奖励函数rt的累加量。
作为优选,所述局部敏感哈希模糊计数模块中,利用SimHash算法根据海明距离判定状态量相似度,并将满足预设相似度的状态量作为同类状态量进行计数,具体过程为:
S11:获取当前t时刻的状态量st,将状态量中的分量进行关键字划分,划分成为有l个分量的关键字向量A=(a1,a2,...,al),同时对每一个分量ai设定对应权值ωi
S12:使用哈希算法对关键字向量A=(a1,a2,...,al)中的每个分量ai映射成为由n位0和1二进制数序列组成的哈希码a′i,从而将关键字向量A转变为由l个哈希码组成的新向量A′=(a′1,a′2,...,a′l);
S13:利用l个预先设定的权值ω12,...,ωl,分别对向量A′中的对应哈希码a′i进行加权计算,加权计算时先用第i个权值ωi对第i个由n位0和1组成的哈希码a′i进行逐位计算,若当前位为0,则当前位的加权运算结果为负权值-ωi,若当前位为1,则当前位的运算结果为正权值ωi;最终将A′的l个加权计算后的哈希码分量依次按位相加,得到一个总的n位加权和序列;
S14:对加权和序列逐位进行降维处理,若当前位大于零,则将当前位设为1,若当前位小于零,则将当前位设为0,最终得到一个n位的SimHash特征码;
S15:基于一张预先维护的存储已有类别的SimHash特征码的哈希表,对于n位的SimHash特征码进行模糊计数;在模糊计数时,将S14中得到的n位的SimHash特征码与哈希表中各类别SimHash特征码分别进行海明距离计算,统计海明距离小于等于m的类别数量并作为计数结果dcount,若哈希表中不存在海明距离小于等于m的类别,则在哈希表中建立新类别存储S14中得到的SimHash特征码并设置计数结果dcount为1。
作为优选,在局部敏感哈希模糊计数模块中,通过所述计数结果dcount计算DDPG强化学习模块的奖励函数子部分rcount的公式为:
Figure BDA0003936972110000041
其中β是一个带权重的并且随迭代次数衰减的衰减因子,计算式为:
Figure BDA0003936972110000042
其中ωcount为权重,而γcount为衰减因子,γcount∈(0,1),n为当前迭代次数。
作为优选,所述S11中,对状态量进行关键字划分时,将状态量
Figure BDA0003936972110000043
中的
Figure BDA0003936972110000044
以小数点为界划分为小数点前和小数点后两个新分量PI和PD,其余两各分量BSOCt,USOCt分别单独构成一个分量,从而划分得到的关键字向量为A=(PI,PD,BSOCt,USOCt),A共有l=4个分量;优选的设定4个分量对应的权值ω1234分别为5、1、5和5。
作为优选,所述S12中,哈希算法采用单向散列函数snefru算法,且哈希码长度n为64,用于判断同类SimHash特征码的m取值为3。
作为优选,所述S2中,对改良DDPG控制器进行离线训练的具体做法为:
S21:随机初始化DDPG强化学习模块中在线动作网络u以及目标动作网络u′的网络参数为θQ和θQ′,且初始网络参数θQ和θQ′保持相同;同样初始化DDPG强化学习模块中在线评价网络Q以及目标评价网络Q′的网络参数为θu和θu′,且初始网络参数θu和θu′保持相同;
S22:获取车辆在四种不同路况下行驶的实时功率需求数据,进而迭代下列训练步骤:
1)通过混合能源系统得到状态量st,并输入在线动作网络u后,对在线动作网络u的输出加上噪声量,得到动作量at
2)对混合能源系统执行动作量at,获得下一时刻新的状态量st+1,并且根据考虑状态计数结果的奖励函数计算得到当前奖励值rt
3)将数据组(st,at,rt,st+1)存储在数据记忆池中,再从已有的记忆池中选取k个样本(si,ai,ri,si+1),i∈[1,k],用于模型训练及网络参数更新;若当前记忆池中不足k个样本时,用全零的数据组进行补足;
4)利用目标动作网络u′计算得到状态量st+1对应的目标动作量a′=u′(si+1u′),进而根据目标评价网络Q′输出对a′和si+1的评价值Q′(si+1,a′|θQ′),并根据下式分别计算样本组中任意第i个样本对应的目标评估值yi
Figure BDA0003936972110000051
根据在线评价网络Q输出对第i个样本对应的动作量ai和状态量si的评价值Q(si,aiQ),再计算所有k个样本的目标评估值和在线评价值间的总代价函数:
Figure BDA0003936972110000061
5)通过最小化上述的总代价函数L,通过梯度下降法更新在线动作网络参数θu和在线评价网络参数θQ
6)通过软更新方式更新目标动作网络参数θQ′和目标评价网络参数θu′
7)循环迭代上述1)~6)的训练过程,直至满足设定的收敛条件后结束离线训练。
S23、将离线训练完毕后得到的最优网络参数θu下的在线动作网络作为最终的控制器,用于对混合能源系统进行实时能量管理。
作为优选,所述S22中,使用以下四种经典驾驶工况下的车辆功率需求数据进行控制器训练:拥堵城市道路(Manhattan bus drive cycle,MBDC),一般城市道路(Urbandynamometer driving schedule,UDDS),城郊道路(West Virginia suburban drivingschedule,WVUSUB)和高速公路(Highway fuel economy certification test,HWFET)。
作为优选,步骤S22中,从数据记忆池中抽取数据时,用等概率方式从记忆池中采样,每次抽取k=64组样本数据用于网络参数的更新。
本发明提出的基于局部敏感哈希的改良DDPG强化学习的混合能源管理方法相较于传统DDPG管理策略拥有更强的环境探索能力,能够更好地突破局部最优解,找到更好的控制算法。以管理锂电池电池和超级电容混合动力车为例,本发明能够在工作全时间满足车辆行驶的功率需求,并且超级电容的电量回收效率高,能够降低锂电池总消耗能源,节约系统能耗;同时锂电池的输出电流变化频率低、幅度小,能够延长锂电池的使用寿命,总体控制表现优良。
附图说明
图1为本发明实施例中采用的动作网络结构图;
图2为本发明实施例中采用的评价网络结构图;
图3为基于局部敏感哈希的改良DDPG强化学习混合能源管理方法框架图;
图4为本发明实施例中改良和传统DDPG算法奖励函数值随训练次数变化对比图;
图5为本发明实施例中改良和传统DDPG算法电池用电量管理对比图;
图6为本发明实施例中改良和传统DDPG算法超级电容电量回收对比图;
图7为本发明实施例中改良和传统DDPG算法电池输出电流瞬时改变量对比图。
具体实施方式
下面结合附图和具体实施方式对本发明做进一步阐述和说明。
在本发明中的一种较佳实现方式中,提出了一种基于局部敏感哈希的改良DDPG强化学习混合能源管理方法,用于对由锂电池和超级电容构成的混合能源系统进行管理,其管理步骤如下:
S1:结合DDPG强化学习模块和局部敏感哈希模糊计数模块,构建基于局部敏感哈希的改良DDPG强化学习混合能源控制器。
下面对该基于局部敏感哈希的改良DDPG强化学习混合能源控制器的具体构建过程进行展开描述。
1、DDPG强化学习模块的构建:
上述DDPG强化学习模块由在线动作网络、目标动作网络、在线评价网络和目标评价网络组成,作为锂电池和超级电容的混合能源系统的主控制器。
动作网络和评价网络属于现有技术。本发明中四个网络均可采用神经网络形式,主要由输入层、全连接层、ReLU层、tanh层和缩放层组成。构建时,可先随机初始化强化学习在线动作网络和在线评价网络及其参数,再进一步将两个网络分别复制一份,构成目标动作网络和目标评价网络;最终构建得到的四个神经网络,两两对应,结构和初始参数均相同。
上述四个网络中,两个动作网络的输入为状态量st,输出是动作量at,而两个评价网络的输入为分批输入的状态量st和at,输出为奖励Q值。
在该DDPG强化学习模块中,状态空间、动作空间、奖励函数的具体设置如下:
状态空间设计为:
状态量为车辆的行驶需求功率pdemt、锂电池的荷电量BSOCt和超级电容的荷电量USOCt构成的向量st=(pdemt,BSOCt,USOCt)。
动作空间设计为:
动作量为锂电池提供的功率pbt和超级电容提供的功率pct构成的向量at=(pbt,pct),pbt和pct之和为混合能源系统提供的总功率pt
奖励函数rt设计为:
rt=ω1r12r23r34r45r5+rcount
Figure BDA0003936972110000088
r2=BSOCt-BSOC0
Figure BDA0003936972110000081
Figure BDA0003936972110000089
Figure BDA0003936972110000082
其中:ω1~ω5为奖励函数中各分项的权重设置,r1~r5为5个中间量,rcount为由计数结果dcount计算的奖励函数子部分,T是指整个训练所用的驾驶过程的总时长,
Figure BDA0003936972110000083
为t时刻车辆的行驶需求功率,BSOCt和USOCt分别表示t时刻锂电池和超级电容的荷电量,BSOC0为电池初始荷电量,
Figure BDA0003936972110000084
Figure BDA0003936972110000085
分别表示t时刻和t-1时刻的锂电池输出电流,pt为t时刻混合能源系统提供的总功率,而
Figure BDA0003936972110000086
为中间量,其计算式为:
Figure BDA0003936972110000087
整个驾驶周期T内的奖励函数R为周期内所有时刻的奖励函数rt的累加量。
另外,为了实现网络训练,根据控制对象设立DDPG强化学习模块的主要超参数,例如动作网络和评价网络的学习率Lactor和Lcritic、奖励衰减量γ、软更新迭代量τ、记忆池最大容量Memory_max、批量大小bath_size、奖励函数值波动终止阈值e和最大迭代次数iter_max。
2、局部敏感哈希模糊计数模块的构建:
局部敏感哈希模糊计数模块的构建,主要包含几个方面:构建SimHash算法框架;设立状态量st的进一步向量分割规则,并且设定每一分量的权值;确定模糊计数中对状态量进行哈希映射选取的具体哈希函数;确立模糊计数中判定状态量相似的规则。
上述局部敏感哈希模糊计数模块中,输入是控制器输出的动作量作用于环境后得到的混合能源系统的状态量,输出是在哈希表内查询得到的状态量对应的计数结果。局部敏感哈希模糊计数模块中,先通过SimHsah算法把混合能源系统的状态量新映射成哈希特征码,并利用一张存储已有类别哈希特征码的哈希表,对新映射的哈希特征码进行模糊计数,得到与新映射的哈希特征码匹配的类别数量作为计数结果,用于计算DDPG强化学习模块的奖励函数子部分。
上述局部敏感哈希模糊计数模块中,局部敏感哈希主要用于数据间相似度快速比较,本质是根据选定的相似度来查询最近邻状态。局部敏感哈希采用不同的哈希函数形成不同的细化算法,其中本发明使用的SimHsah算法是一种通过海明距离得到两个样本的相似度的算法。局部敏感哈希模糊计数模块中利用SimHash算法根据海明距离判定状态量相似度,并将满足预设相似度的状态量作为同类状态量进行计数,具体过程为:
S11:获取当前t时刻的状态量st,将状态量中的分量进行关键字划分,划分成为有l个分量的关键字向量A=(a1,a2,...,al),同时对每一个分量ai设定对应权值ωi
在本发明的S11中,对状态量进行关键字划分时,将状态量
Figure BDA0003936972110000091
中的
Figure BDA0003936972110000092
以小数点为界划分为小数点前和小数点后两个新分量PI和PD,其余两各分量BSOCt,USOCt分别单独构成一个分量,从而划分得到的关键字向量为A=(PI,PD,BSOCt,USOCt)。因此,A共有l=4个分量;优选的设定4个分量对应的权值ω1234分别为5、1、5和5。
S12:使用哈希算法对关键字向量A=(a1,a2,...,al)中的每个分量ai映射成为由n位0和1二进制数序列组成的哈希码a′i,从而将关键字向量A转变为由l个哈希码组成的新向量A′=(a′1,a′2,...,a′l)。
在本发明的步骤S12中,哈希算法采用单向散列函数snefru算法,且哈希码长度n为64,每个状态量映射得到的哈希码为64位0、1组成的序列。另外,用于判断同类SimHash特征码的m取值为3,即设定模糊计数中判定状态量同类的规则为即两个状态量的SimHash特征码中有至少3个对应位相等,也即两个SimHash特征哈希码间的海明距离小于等于3。
S13:利用l个预先设定的权值ω12,...,ωl,分别对向量A′中的对应哈希码a′i进行加权计算,加权计算时先用第i个权值ωi对第i个由n位0和1组成的哈希码a′i进行逐位计算,若当前位为0,则当前位的加权运算结果为负权值-ωi,若当前位为1,则当前位的运算结果为正权值ωi;哈希码a′i进行加权计算后得到哈希码分量ai″,最终将A′的l个加权计算后的哈希码分量a1″~al″依次按位相加,得到一个总的n位加权和序列。
S14:对加权和序列逐位进行降维处理,即对每一位进行如下处理:若当前位大于零,则将当前位设为1,若当前位小于零,则将当前位设为0,最终得到一个n位的SimHash特征码。
S15:基于一张预先维护的存储已有类别的SimHash特征码的哈希表,对于n位的SimHash特征码进行模糊计数;在模糊计数时,将S14中得到的n位的SimHash特征码与哈希表中各类别SimHash特征码分别进行海明距离计算,统计海明距离小于等于m的类别数量并作为计数结果dcount,若哈希表中不存在海明距离小于等于m的类别,则在哈希表中建立新类别存储S14中得到的SimHash特征码并设置计数结果dcount为1。
在具体统计时,对状态量新映射得到的SimHash特征码在哈希表中进行检索,判断是否能够被归入已存在哈希表类别,即是否归入某一现存SimHash特征码类别的海明距离小于等于设定值3;若能够归入,则被归入类别计数值加1;若不能归入,则创立新类别,计数值记为1。由此,读取更新后的类别计数结果即为dcount
获得上述计数结果dcount后,即可用于设计改良DDPG算法的奖励函数中的一部分,计算DDPG强化学习模块的奖励函数子部分rcount的计算公式为:
Figure BDA0003936972110000111
其中β是一个带权重的并且随迭代次数衰减的衰减因子,计算式为:
Figure BDA0003936972110000112
其中ωcount为权重,而γcount为衰减因子,γcount∈(0,1),n为当前迭代次数。根据奖励函数子部分rcount,即可计算奖励函数rt
结合前述构建的DDPG强化学习模块和局部敏感哈希模糊计数模块,即可建立基于局部敏感哈希的改良DDPG强化学习混合能源控制器。
S2:获取车辆在不同路况下行驶的实时功率需求数据,并将其作为训练数据对改良DDPG强化学习混合能源控制器进行离线训练,最终训练获得一个确定性的最终控制策略,用于对混合能源系统进行实时能量管理。
在本发明的步骤S2中,对改良DDPG控制器进行离线训练的具体做法为:
S21:随机初始化DDPG强化学习模块中在线动作网络u以及目标动作网络u′的网络参数为θQ和θQ′,且初始网络参数θQ和θQ′保持相同;同样初始化DDPG强化学习模块中在线评价网络Q以及目标评价网络Q′的网络参数为θu和θu′,且初始网络参数θu和θu′保持相同。
另外,为了参照常规的网络训练方式,还需要初始化DDPG强化学习模块的主要超参数,包括各动作网络和评价网络的学习率Lactor和Lcritic、奖励衰减量γ、软更新迭代量τ、记忆池最大容量Memory_max、批量大小bath_size、奖励函数值波动终止阈值e和最大迭代次数iter_max。
S22:获取车辆在四种不同路况下行驶的实时功率需求数据,进而迭代下列训练步骤:
1)对车辆行驶周期T中的t时刻,通过混合能源系统得到状态量
Figure BDA0003936972110000113
并输入在线动作网络u后,对在线动作网络u的输出加上噪声量,得到动作量at=(pbt,pct)。
2)对混合能源系统(可采用仿真车辆混合能源系统模型)执行动作量at,根据考虑状态计数结果的奖励函数计算得到当前奖励值rt,并且由锂电池和超级电容根据动作量at提供相应的功率,获得下一时刻新的状态量st+1
此处,根据考虑状态计数结果的奖励函数计算得到当前奖励值rt的具体做法可参见前述S11~S15,先得到计数结果dcount,再计算奖励函数子部分rcount,最后即可按照奖励函数rt的计算式计算当前奖励值。
3)将数据组(st,at,rt,st+1)存储在数据记忆池中,再从已有的记忆池中选取k个样本,用于模型训练及网络参数更新;若当前记忆池中不足k个样本时,用全零的数据组进行补足。
在本发明中,从数据记忆池中抽取数据时,可用等概率方式从记忆池中采样,每次抽取k=64组样本数据用于网络参数的更新。即从已有的记忆池集中等概率随机采样64个样本组(si,ai,ri,si+1),i∈[1,64]。若当前记忆池中不足64个样本时,用全零数据组进行补足。
4)利用目标动作网络u′计算得到状态量st+1对应的目标动作量a′=u′(si+1u′),进而根据目标评价网络Q′输出对a′和si+1的评价值Q′(si+1,a′|θQ′),并根据下式分别计算样本组中任意第i个样本对应的目标评估值yi
Figure BDA0003936972110000121
根据在线评价网络Q输出对第i个样本对应的动作量ai和状态量si的评价值Q(si,aiQ),再计算所有k个样本的目标评估值和在线评价值间的总代价函数:
Figure BDA0003936972110000122
5)通过最小化上述的总代价函数L,通过梯度下降法更新在线动作网络参数θu和在线评价网络参数θQ
梯度下降法属于现有技术,具体方式不再赘述。本发明中,更新在线动作网络参数θu和在线评价网络参数θQ时可先使用梯度下降法更新在线评价网络参数θQ,再根据下式使用梯度下降法优化负的累积期望回报值,更新在线动作网络参数θu,其中η=0.5:
Figure BDA0003936972110000131
Figure BDA0003936972110000132
6)通过软更新方式更新目标动作网络参数θQ′和目标评价网络参数θu′:
θQ′←τθQ+(1-τ)θQ′
θμ′←τθμ+(1-τ)θμ′
7)循环迭代上述1)~6)的训练过程,直至满足设定的收敛条件后结束离线训练。其中,结束训练的收敛条件需要根据实际需要进行优化,此处可设置为:判断五次迭代间的输出奖励函数值间的差距均小于设定阈值e,或者迭代总次数小于设定最大迭代阈值iter_max。
在本发明中,训练数据可根据实际需要进行选择,此处可使用以下四种经典驾驶工况下的车辆功率需求数据进行控制器训练:拥堵城市道路(Manhattan bus drivecycle,MBDC),一般城市道路(Urban dynamometer driving schedule,UDDS),城郊道路(West Virginia suburban driving schedule,WVUSUB)和高速公路(Highway fueleconomy certification test,HWFET)。
S23、用学习得到的网络参数构成的最终控制策略对混合能源系统进行实时能量管理,具体方式为:将离线训练完毕后得到的最优网络参数θu下的在线动作网络作为最终的控制器,用于对混合能源系统进行实时能量管理。在进行应用时,可对在线动作网络输入当前状态量st,得到输出量at直接作为动作量,无需再增加随机噪声;根据at控制混合能源系统中锂电池和超级电容提供指定的功率。
下面将上述方法应用于一个具体实施例中,以展示其技术效果的实现。
实施例
本实施例针对锂电池和超级电容混合动力车进行能源管理。
混合动力车能源系统主要包括锂电池、超级电容以及各类DC/DC和DC/AC变换器。车辆的主能源为锂电池,超级电容为辅电源,车辆的驾驶需求功率由超级电容和锂电池混合输出。超级电容以其良好的快充快放性能作为辅助能源,能够回收锂电池输出的能量,并在合适的时刻辅助锂电池提供车辆所需的能量。本实施例主要对混合能源系统进行建模仿真管理。
其中,选用戴维南等效电路模型来分析锂电池的动态特性,模型包括理想电压源、锂电池的等效内阻以及RC网络。该模型中,电池状态量的计算如下:
Pb=Utbib
Utb=Uob-ibRb-UD
Figure BDA0003936972110000141
其中Pb是电池提供的功率,Utb是端电压,ib是输出电流,Uob是理想电压源的开路电压,Rb是等效内阻,Rd是扩散电阻,Cd是扩散电容,Ud表示扩散电压。本发明将电池模型理想化,也即取Uob为定值,同时取Ud为0。由此可根据每一时刻电池提供的功率,计算出电池的输出电流和端电压如下:
Figure BDA0003936972110000142
Figure BDA0003936972110000143
而进一步,根据电池的输出电流,可以计算得到电池的电量变化如下:
Figure BDA0003936972110000144
其中,BSOC表示电池的电量,k表示离散化的某一时刻,Qb表示电池的最大电量。电池电量的初始状态设定为BSOCinit
对超级电容则采用RC电路模型进行等效分析,也即将超级电容理想化为一个理想电容和一个理想电阻。
模型的数学描述如下:
Pc=Utcic
Utc=Uoc-icRc
其中Pc表示超级电容的输出功率表,Uoc,Utc分别表示理想电容器两端电压和端电压,ic是输出电流,Rc表示超级电容等效内阻。而由此可以通过电容提供的功率计算得到电容的输出电流如下:
Figure BDA0003936972110000151
而其中电容理想电容的电压两端电压值和电容带有的电量值有关,计算如下:
Uoc(k+1)=USOC(k+1)Umax
Figure BDA0003936972110000152
其中Umax代表的是电容提供的最大电压,Qc代表的是电容的最大荷电量。电容荷电量的初始状态设定为USOCinit
实施例针对的混合能源系统中的重要参数列举在表1中。
表1混合能源系统主要参数
参数类型 设置值 参数类型 设置值
R<sub>b</sub> 0.012 Q<sub>b</sub> 2000
R<sub>d</sub> 0 R<sub>c</sub> 0.006
C<sub>d</sub> 2000 U<sub>max</sub> 48.6
U<sub>ob</sub> 0.1 Q<sub>c</sub> 7920
BSOC<sub>init</sub> 0.8 USOC<sub>init</sub> 66
以FTP-75工况(又称UDDS)、WVUSUB工况、HWFET工况及MANHATTAN工况4种典型驾驶工况为例,建立车辆实时能源管理系统。
步骤(1):从Advisor软件中导出车辆在上述工况下的实时功率需求Pdem,一个形式周期即行程时长记为T。
步骤(2):对控制对象建立DDPG强化学习控制模块;
a.设计状态空间。状态量选取为车辆需求功pdemt、锂电池和超级电容的荷电状态BSOCt和USOCt组成的向量st=(pdemt,BSOCt,USOCt)。
b.设计动作空间。动作量设计为锂电池输出功率pbt和超级电容输出功率pct组成的向量at=(pbt,pct)。
c.设计奖励函数为:
rt=ω1r12r23r34r45r5+rcount
Figure BDA0003936972110000161
r2=BSOCt-BSOC0
Figure BDA0003936972110000162
Figure BDA0003936972110000163
Figure BDA0003936972110000164
其中:ω1~ω5是奖励函数中各分项的权重设置,T是指整个训练所用的驾驶过程的总时长,pdemt为车辆的行驶需求功率,BSOCt和USOCt表示锂电池和超级电容的荷电量,pt为混合能量系统提供的总功率,而
Figure BDA0003936972110000165
d.构建DDPG模块的网络架构:构建在线动作网络,输入为状态量st=(pdemt,BSOCt,USOCt),输出量为动作量at=(pbt,pct),并随机初始化网络参数;将在线动作网络及其网络参数复制为一个相同的网络作为目标动作网络。构建在线评价网络,以状态量st=(pdemt,BSOCt,USOCt)和动作量at=(pbt,pct)分批作为输入,输出为奖励值Q,随机初始网络参数;同样复制成为相同的目标评价网络。四个网络主要由输入层、全连接层、ReLU层、tanh层和缩放层组成,本实施例中动作网络和评价网络的具体网络结构见附图1和2。
步骤(3):初始化局部敏感哈希模糊计数模块
a.构建SimHash算法框架;设立状态量st的进一步向量分割规则为:将st=(pdemt,BSOCt,USOCt)中的
Figure BDA0003936972110000166
分量划分为小数点前和小数点后两新分量PI和PD,其余两分量分别单独构成一个分量;最终划分得到的关键字向量为A=(PI,PD,BSOCt,USOCt);
b.设定关键字向量中的分量对应的权值分别为:5、1、5和5;
c.设定模糊计数中对状态量进行映射的具体哈希算法为:snefru算法,每个状态量映射得到的哈希码为64位0、1组成的序列;
d.设定模糊计数中判定状态量相似的规则为状态量的SimHash特征哈希码中有至少3个对应位相等,也即两个SimHash特征哈希码间的海明距离小于等于3;
步骤(4):结合步骤(2)中构建的DDPG强化学习模块和步骤(3)中构建的局部敏感哈希模糊计数模块,建立基于局部敏感哈希的改良DDPG强化学习混合能源管理系统,系统结构图如附图3所示;通过步骤(1)中获取的数据对系统进行离线训练,具体过程为:
步骤41):初始化DDPG强化学习模块的主要超参数,包括动作网络和评价网络的学习率Lactor和Lcritic、奖励衰减量γ、软更新迭代量τ、记忆池最大容量Memory_max、批量大小bath_size、奖励函数值波动终止阈值e和最大迭代次数iter_max;
步骤42:对车辆行驶周期T中的t时刻,获取车辆混合能源系统的状态量st=(pdemt,BSOCt,USOCt);将状态量输入在线动作网络,并对网络输出量加上随机高斯噪声量,最终得到动作量at=(pbt,pct);
步骤43):对仿真车辆混合能源系统模型执行动作量at,由锂电池和超级电容根据动作量提供相应的功率,得到此时更新后的状态量st+1
步骤44):将此时的状态量st+1输入局部敏感哈希模糊计数模块,使用SimHash算法具体实现局部敏感哈希算法,从而获取计数结果,其具体过程为:
(1)进行向量分割,将状态向量st+1中的分量做进一步的关键字分割;即划分得到的关键字向量为
Figure BDA0003936972110000171
共有4个分量;设定分量对应的权值ω1~ω4分别为5、1、5和5。
(2)使用选定哈希算法将特征向量
Figure BDA0003936972110000172
中的每个分量映射成为二进制数的哈希码,结果为64位0、1组成的序列;从而原向量A映射成为由四个哈希码组成的新向量
Figure BDA0003936972110000173
(3)根据设定权值ω1~ω4对4个哈希值分量分别进行加权计算,加权计算方法为:对第i个64位0、1组成的哈希码分量的每一位分别与权值ωi进行加权计算;若该位为0,则该位加权运算结果为负权值-ωi;若该位为1,则该位运算结果为正权值ωi;最终将A′向量4个加权计算后的哈希码分量
Figure BDA0003936972110000181
BSOC″t+1和USOC″t+1按位分别相加,得到一个总的加权和哈希码序列;
(4)对加权和哈希码序列降维,也即对每一位进行如下处理:若当前位大于0,则该位记为1,当前位小于0,则该位记为0。这样就得到了最终计算得到的SimHash特征码;
(5)对新得到的状态SimHash特征码在哈希表中进行检索,判断是否能够被归入已存在哈希表类别,即是否和某一现存SimHash码类别的海明距离小于等于设定值3;若能够归入,则被归入类别计数结果值加1;若不能归入,则创立新类别,计数结果值记为1。最后,读取更新后的类别计数结果dcount
步骤45):计数结果dcount用于设计改良DDPG算法的奖励函数中的一部分:
Figure BDA0003936972110000182
其中,β是一个带权重的并且随迭代次数衰减的衰减因子,主要形式为:
Figure BDA0003936972110000183
其中ωcount为权重设置,而γcount为衰减因子,γcount∈(0,1),n为迭代次数。
步骤46):进一步奖励函数计算状态对应的奖励函数rt
步骤47):将(st,at,rt,st+1)数据组存储在数据记忆池中,从已有的记忆池集中等概率随机采样64个样本组(si,ai,ri,si+1),i∈[1,64]。若当前记忆池中不足64个样本时,用全零数据组进行补足。利用目标动作网络计算得到si+1状态下对应的目标动作量a′=u′(si+1u′),进而根据目标评价网络输出对a′和si+1的评价值Q′(si+1,a′|θQ′),并根据下式计算分别计算样本组中每个样本对应的目标评估值yi,其中γ=0.99:
Figure BDA0003936972110000184
并且根据yi,构建目标评估值和在线评价值间的总代价函数:
Figure BDA0003936972110000191
步骤48):通过最小化上述的L,使用梯度下降法优化在线评价网络参数θQ,同时通过梯度下降法更新在线动作网络参数θu。更新在线动作网络参数θu时可根据下式,使用梯度下降法优化负的累积期望回报值,其中η=0.5:
Figure BDA0003936972110000192
Figure BDA0003936972110000193
最后,通过软更新方式分别更新目标评价和动作网络参数θQ′和θu′
θQ′←τθQ+(1-τ)θQ′
θμ′←τθμ+(1-τ)θμ′
步骤49):不断重复迭代上述步骤42)至步骤48),至满足设定的收敛条件后结束离线训练。其中,结束训练的收敛条件为:判断五次迭代间的输出奖励函数值间的差距均小于设定阈值e,或者迭代总次数小于设定最大迭代阈值iter_max。
步骤(5):用学习得到的网络参数构成的最终控制策略对混合能源系统进行实时能量管理,具体方式为:以训练完成后的在线动作网络作为控制器,获取并输入当前混合能源系统的状态量st,得到输出量at直接作为动作量,无需再增加随机噪声;根据动作量at控制锂电池和超级电容提供指定的功率pbt和pct
根据上述步骤(1)~(5)给出的基于局部敏感哈希的改良DDPG强化学习策略,从ADVISOR获得数据后,用python语言进行代码编写,在其编译器中对所设计的混合能源管理策略进行仿真。表2给出了基于局部敏感哈希的改良DDPG强化学习策略的主要参数,其中大部分数值是通过反复试验得出的。
表2算法主要参数设置
Figure BDA0003936972110000201
为便于对本发明提出的能量管理策略的性能进行评价,将提出方法和传统DDPG算法行对比。传统DDPG算法仿真实验中的奖励函数,和改良DDPG算法奖励函数中的rt中除了rcount的部分计算方法保持一致,其余网络结构、初始参数等均相同,两者同样迭代学习150次。图4展示了两种算法在离线训练过程中的奖励函数值的变化过程。图5到图7显示了测试周期下,两种算法实时能量管理结果。
图4反映本发明提出的管理策略算法最终能够收敛,并且收敛于优于传统DDPG算法的位置,证明其有较好的探索能力。图5可以看出,在本发明提出的算法的管理下,锂电池消耗了更少的电量;相较于传统DDPG算法,节约6.98%的电量,证明本算法有利于混合动力车辆的续航能力提升。图6展示了两种算法管理下,超级电容在仿真驾驶过程中累计回收的电量,该图证明提出的算法能够通过超级电容回收更多的电量,侧面印证了改良DDPG算法能够减少锂电池电量消耗。图7是两种算法管理下,锂电池输出电流的瞬时改变量对比图。锂电池输出电流的突变会影响电池的健康,从而缩短锂电池的使用寿命。图中看出,相较于传统DDPG算法,本发明提出的管理策略能够一定程度降低输出电流的突变,利于维护锂电池健康。综上所述,相较于传统DDPG管理策略,基于局部敏感哈希的改良DDPG强化学习混合能源管理策略在各个期望控制目标的方面都有更好的表现。表3列举了两种管理策略各方面的性能数据,便于对比。
表3:两种管理策略性能数据
Figure BDA0003936972110000211
以上所述的实施例只是本发明的一种较佳的方案,然其并非用以限制本发明。有关技术领域的普通技术人员,在不脱离本发明的精神和范围的情况下,还可以做出各种变化和变型。因此凡采取等同替换或等效变换的方式所获得的技术方案,均落在本发明的保护范围内。

Claims (10)

1.一种基于局部敏感哈希的改良DDPG强化学习混合能源管理方法,用于对由锂电池和超级电容构成的混合能源系统进行管理,其特征在于,步骤如下:
S1:结合DDPG强化学习模块和局部敏感哈希模糊计数模块,构建基于局部敏感哈希的改良DDPG强化学习混合能源控制器;
所述DDPG强化学习模块由在线动作网络、目标动作网络、在线评价网络和目标评价网络组成,作为混合能源系统的主控制器;
所述局部敏感哈希模糊计数模块中,输入是控制器输出的动作量作用于环境后得到的混合能源系统的状态量,输出是在哈希表内查询得到的状态量对应的计数结果;模块中先通过SimHsah算法把混合能源系统的状态量新映射成哈希特征码,并利用一张存储已有类别哈希特征码的哈希表,对新映射的哈希特征码进行模糊计数,得到与新映射的哈希特征码匹配的类别数量作为计数结果,用于计算DDPG强化学习模块的奖励函数子部分;
S2:获取车辆在不同路况下行驶的实时功率需求数据,并将其作为训练数据对改良DDPG强化学习混合能源控制器进行离线训练,最终训练获得一个确定性的最终控制策略,用于对混合能源系统进行实时能量管理。
2.如权利要求1所述的基于局部敏感哈希的改良DDPG强化学习混合能源管理方法,其特征在于,所述DDPG强化学习模块中,两个动作网络的输入为状态量st,输出是动作量at,而两个评价网络的输入为分批输入的状态量st和at,输出为奖励Q值;
所述状态量为车辆的行驶需求功率pdemt、锂电池的荷电量BSOCt和超级电容的荷电量USOCt构成的向量st=(pdemt,BSOCt,USOCt);所述动作量为锂电池提供的功率pbt和超级电容提供的功率pct构成的向量at=(pbt,pct),pbt和pct之和为混合能源系统提供的总功率pt
3.根据权利要求2所述的基于局部敏感哈希的改良DDPG强化学习混合能源管理方法,其特征在于,所述DDPG强化学习模块中,奖励函数rt设计为:
rt=ω1r12r23r34r45r5+rcount
Figure FDA0003936972100000021
r2=BSOCt-BSOC0
Figure FDA0003936972100000022
Figure FDA0003936972100000023
Figure FDA0003936972100000024
其中:ω1~ω5为奖励函数中各分项的权重设置,r1~r5为5个中间量,rcount为由计数结果dcount计算的奖励函数子部分,T是指整个训练所用的驾驶过程的总时长,
Figure FDA0003936972100000029
为t时刻车辆的行驶需求功率,BSOCt和USOCt分别表示t时刻锂电池和超级电容的荷电量,BSOC0为电池初始荷电量,
Figure FDA0003936972100000025
Figure FDA0003936972100000026
分别表示t时刻和t-1时刻的锂电池输出电流,pt为t时刻混合能源系统提供的总功率,而
Figure FDA0003936972100000027
为中间量,其计算式为:
Figure FDA0003936972100000028
整个驾驶周期T内的奖励函数R为周期内所有时刻的奖励函数rt的累加量。
4.如权利要求3所述的基于局部敏感哈希的改良DDPG强化学习混合能源管理方法,其特征在于,所述局部敏感哈希模糊计数模块中,利用SimHash算法根据海明距离判定状态量相似度,并将满足预设相似度的状态量作为同类状态量进行计数,具体过程为:
S11:获取当前t时刻的状态量st,将状态量中的分量进行关键字划分,划分成为有l个分量的关键字向量A=(a1,a2,...,al),同时对每一个分量ai设定对应权值ωi
S12:使用哈希算法对关键字向量A=(a1,a2,...,al)中的每个分量ai映射成为由n位0和1二进制数序列组成的哈希码a′i,从而将关键字向量A转变为由l个哈希码组成的新向量A′=(a′1,a′2,...,a′l);
S13:利用l个预先设定的权值ω12,...,ωl,分别对向量A′中的对应哈希码a′i进行加权计算,加权计算时先用第i个权值ωi对第i个由n位0和1组成的哈希码a′i进行逐位计算,若当前位为0,则当前位的加权运算结果为负权值-ωi,若当前位为1,则当前位的运算结果为正权值ωi;最终将A′的l个加权计算后的哈希码分量依次按位相加,得到一个总的n位加权和序列;
S14:对加权和序列逐位进行降维处理,若当前位大于零,则将当前位设为1,若当前位小于零,则将当前位设为0,最终得到一个n位的SimHash特征码;
S15:基于一张预先维护的存储已有类别的SimHash特征码的哈希表,对于n位的SimHash特征码进行模糊计数;在模糊计数时,将S14中得到的n位的SimHash特征码与哈希表中各类别SimHash特征码分别进行海明距离计算,统计海明距离小于等于m的类别数量并作为计数结果dcount,若哈希表中不存在海明距离小于等于m的类别,则在哈希表中建立新类别存储S14中得到的SimHash特征码并设置计数结果dcount为1。
5.根据权利要求1所述的基于局部敏感哈希的改良DDPG强化学习混合能源管理方法,其特征在于,在局部敏感哈希模糊计数模块中,通过所述计数结果dcount计算DDPG强化学习模块的奖励函数子部分rcount的公式为:
Figure FDA0003936972100000031
其中β是一个带权重的并且随迭代次数衰减的衰减因子,计算式为:
Figure FDA0003936972100000032
其中ωcount为权重,而γcounr为衰减因子,γxount∈(0,1),n为当前迭代次数。
6.根据权利要求4所述的基于局部敏感哈希的改良DDPG强化学习混合能源管理方法,其特征在于,所述S11中,对状态量进行关键字划分时,将状态量
Figure FDA0003936972100000033
中的
Figure FDA0003936972100000034
以小数点为界划分为小数点前和小数点后两个新分量PI和PD,其余两各分量BSOCt,USOCt分别单独构成一个分量,从而划分得到的关键字向量为A=(PI,PD,BSOCt,USOCt),A共有l=4个分量;优选的设定4个分量对应的权值ω1234分别为5、1、5和5。
7.根据权利要求4所述的基于局部敏感哈希的改良DDPG强化学习混合能源管理方法,其特征在于,所述S12中,哈希算法采用单向散列函数snefru算法,且哈希码长度n为64,用于判断同类SimHash特征码的m取值为3。
8.根据权利要求1所述的基于局部敏感哈希的改良DDPG强化学习混合能源管理方法,其特征在于,所述S2中,对改良DDPG控制器进行离线训练的具体做法为:
S21:随机初始化DDPG强化学习模块中在线动作网络u以及目标动作网络u′的网络参数为θQ和θQ′,且初始网络参数θQ和θQ′保持相同;同样初始化DDPG强化学习模块中在线评价网络Q以及目标评价网络Q′的网络参数为θu和θu′,且初始网络参数θu和θu′保持相同;
S22:获取车辆在四种不同路况下行驶的实时功率需求数据,进而迭代下列训练步骤:
1)通过混合能源系统得到状态量st,并输入在线动作网络u后,对在线动作网络u的输出加上噪声量,得到动作量at
2)对混合能源系统执行动作量at,获得下一时刻新的状态量st+1,并且根据考虑状态计数结果的奖励函数计算得到当前奖励值rt
3)将数据组(st,at,rt,st+1)存储在数据记忆池中,再从已有的记忆池中选取k个样本(si,ai,ri,si+1),i∈[1,k],用于模型训练及网络参数更新;若当前记忆池中不足k个样本时,用全零的数据组进行补足;
4)利用目标动作网络u′计算得到状态量st+1对应的目标动作量a′=u′(si+1u′),进而根据目标评价网络Q′输出对a′和si+1的评价值Q′(si+1,a′|θQ′),并根据下式分别计算样本组中任意第i个样本对应的目标评估值yi
Figure FDA0003936972100000041
根据在线评价网络Q输出对第i个样本对应的动作量ai和状态量si的评价值Q(si,aiQ),再计算所有k个样本的目标评估值和在线评价值间的总代价函数:
Figure FDA0003936972100000051
5)通过最小化上述的总代价函数L,通过梯度下降法更新在线动作网络参数θu和在线评价网络参数θQ
6)通过软更新方式更新目标动作网络参数θQ′和目标评价网络参数θu′
7)循环迭代上述1)~6)的训练过程,直至满足设定的收敛条件后结束离线训练。
S23、将离线训练完毕后得到的最优网络参数θu下的在线动作网络作为最终的控制器,用于对混合能源系统进行实时能量管理。
9.根据权利要求8所述的基于局部敏感哈希的改良DDPG强化学习混合能源管理方法,其特征在于,所述S22中,使用以下四种经典驾驶工况下的车辆功率需求数据进行控制器训练:拥堵城市道路(Manhattan bus drive cycle,MBDC),一般城市道路(Urbandynamometer driving schedule,UDDS),城郊道路(West Virginia suburban drivingschedule,WVUSUB)和高速公路(Highway fuel economy certification test,HWFET)。
10.根据权利要求8所述的基于局部敏感哈希的改良DDPG强化学习混合能源管理方法,其特征在于,步骤S22中,从数据记忆池中抽取数据时,用等概率方式从记忆池中采样,每次抽取k=64组样本数据用于网络参数的更新。
CN202211406989.7A 2022-11-10 2022-11-10 基于局部敏感哈希的改良ddpg强化学习混合能源管理方法 Active CN115648973B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211406989.7A CN115648973B (zh) 2022-11-10 2022-11-10 基于局部敏感哈希的改良ddpg强化学习混合能源管理方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211406989.7A CN115648973B (zh) 2022-11-10 2022-11-10 基于局部敏感哈希的改良ddpg强化学习混合能源管理方法

Publications (2)

Publication Number Publication Date
CN115648973A true CN115648973A (zh) 2023-01-31
CN115648973B CN115648973B (zh) 2024-06-21

Family

ID=85020636

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211406989.7A Active CN115648973B (zh) 2022-11-10 2022-11-10 基于局部敏感哈希的改良ddpg强化学习混合能源管理方法

Country Status (1)

Country Link
CN (1) CN115648973B (zh)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20200108732A1 (en) * 2018-10-09 2020-04-09 Regents Of The University Of Minnesota Physical model-guided machine learning framework for energy management of vehicles
CN111340211A (zh) * 2020-02-19 2020-06-26 腾讯科技(深圳)有限公司 一种动作控制模型的训练方法、相关装置及存储介质
US10909461B1 (en) * 2020-05-08 2021-02-02 Google Llc Attention neural networks with locality-sensitive hashing
CN114475280A (zh) * 2022-03-01 2022-05-13 武汉理工大学 一种电动汽车混合动力系统能量管理方法及系统

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20200108732A1 (en) * 2018-10-09 2020-04-09 Regents Of The University Of Minnesota Physical model-guided machine learning framework for energy management of vehicles
CN111340211A (zh) * 2020-02-19 2020-06-26 腾讯科技(深圳)有限公司 一种动作控制模型的训练方法、相关装置及存储介质
US10909461B1 (en) * 2020-05-08 2021-02-02 Google Llc Attention neural networks with locality-sensitive hashing
CN114475280A (zh) * 2022-03-01 2022-05-13 武汉理工大学 一种电动汽车混合动力系统能量管理方法及系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
刘昊淼;王瑞平;山世光;陈熙霖;: "基于离散优化的哈希编码学习方法", 计算机学报, no. 05, 27 March 2019 (2019-03-27) *

Also Published As

Publication number Publication date
CN115648973B (zh) 2024-06-21

Similar Documents

Publication Publication Date Title
CN108181591B (zh) 一种基于改进型bp神经网络的电池soc值的预测方法
CN112131733B (zh) 计及电动汽车充电负荷影响的分布式电源规划方法
CN111680848A (zh) 基于预测模型融合的电池寿命预测方法及存储介质
CN108091135A (zh) 基于优化小波神经网络的停车泊位多步预测方法
CN113253116A (zh) 锂离子电池荷电状态估计方法、存储介质
CN105644548A (zh) 混合动力汽车的能量控制方法及装置
CN111458646A (zh) 一种基于pso-rbf神经网络的锂电池soc估算方法
CN112215434A (zh) 一种lstm模型的生成方法、充电时长预测方法及介质
CN112883632B (zh) 一种基于改进蚁群算法的锂电池等效电路模型参数辨识方法
CN112307667A (zh) 一种蓄电池的荷电状态估算方法、装置、电子设备及存储介质
CN116449218B (zh) 一种锂电池健康状态的估计方法
CN116774088A (zh) 基于多目标优化的锂离子电池健康状态估计方法
CN113687242A (zh) 基于ga算法优化改进gru神经网络的锂离子电池soh估计方法
CN116804706A (zh) 一种电动汽车锂电池温度预测方法及装置
CN114384435A (zh) 一种基于wsa-lstm算法的新能源汽车动力电池剩余使用寿命自适应预测方法
CN112731183A (zh) 一种基于改进的elm的锂离子电池寿命预测方法
CN111260015A (zh) 一种基于混沌猫群算法的锂离子电池模型参数辨识方法
CN115586444A (zh) 一种基于vmd与bp神经网络的锂电池剩余寿命预测方法
CN113762591B (zh) 一种基于gru和多核svm对抗学习的短期电量预测方法及系统
CN111976543B (zh) 电动汽车电池组充放电控制方法
CN117150334A (zh) 一种基于优化后的BiLSTM神经网络的锂电池多状况预测方法和装置
CN113761789A (zh) 基于萤火虫群算法优化后的bp神经网络估算电池soc的方法
Xu et al. Short-term electricity consumption forecasting method for residential users based on cluster classification and backpropagation neural network
Zhang et al. An energy management strategy based on DDPG with improved exploration for battery/supercapacitor hybrid electric vehicle
CN115963407A (zh) 一种基于icgwo优化elm的锂电池soc估计方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant