CN113110052B - 一种基于神经网络和强化学习的混合能量管理方法 - Google Patents

一种基于神经网络和强化学习的混合能量管理方法 Download PDF

Info

Publication number
CN113110052B
CN113110052B CN202110403508.6A CN202110403508A CN113110052B CN 113110052 B CN113110052 B CN 113110052B CN 202110403508 A CN202110403508 A CN 202110403508A CN 113110052 B CN113110052 B CN 113110052B
Authority
CN
China
Prior art keywords
neural network
action
lithium battery
energy management
state
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110403508.6A
Other languages
English (en)
Other versions
CN113110052A (zh
Inventor
陶吉利
李央
张靖妮
马龙华
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang University of Science and Technology ZUST
Original Assignee
Zhejiang University of Science and Technology ZUST
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang University of Science and Technology ZUST filed Critical Zhejiang University of Science and Technology ZUST
Priority to CN202110403508.6A priority Critical patent/CN113110052B/zh
Publication of CN113110052A publication Critical patent/CN113110052A/zh
Application granted granted Critical
Publication of CN113110052B publication Critical patent/CN113110052B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05BCONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
    • G05B13/00Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion
    • G05B13/02Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric
    • G05B13/04Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric involving the use of models or simulators
    • G05B13/042Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric involving the use of models or simulators in which a parameter or coefficient is automatically adjusted to optimise the performance

Landscapes

  • Engineering & Computer Science (AREA)
  • Software Systems (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Automation & Control Theory (AREA)
  • Charge And Discharge Circuits For Batteries Or The Like (AREA)
  • Secondary Cells (AREA)
  • Electric Propulsion And Braking For Vehicles (AREA)

Abstract

本发明公开了一种基于神经网络和强化学习的混合能量管理方法,属于自动化技术领域。本发明采用模糊控制器的输出作为神经网络初始的离线数据集来进行训练,应用学习得到的神经网络产生新的数据加入至原有的数据集中,并反复更迭这两个过程。针对每个时刻的状态,采用训练之后的神经网络来预测当前状态在采取相应动作之后转移到的下一状态,根据累计奖励最大化的原则选择一定长度的最优动作序列,选取动作序列的第一个动作作为当前状态的最优控制动作。利用该方法可有效减少能量的浪费并且通过超级电容辅助锂电池供电,减少了锂电池的使用,达到了延长锂电池寿命的目标。

Description

一种基于神经网络和强化学习的混合能量管理方法
技术领域
本发明属于自动化技术领域,涉及一种基于神经网络和强化学习的锂电池和超级电容混合能量在线管理策略。
背景技术
目前,强化学习算法一般可以分为两大类:无模型的方法和基于模型的方法,无模型方法的核心是学习一个策略或价值函数,而基于模型方法的核心是学习一个动态模型。尽管无模型的深度强化学习算法可以学习很多内容,例如在机器人领域,强化学习智能体可以学习不同类型的机器人技能。虽然学习的结果是很不错的,但这样的算法没有把数据高效地利用起来,需要极大规模的样本才能学习达到不错的效果,相当于是在无数次的试错过程中进行学习,并且通常一次只能学习一个任务,当任务改变时,需要重新进行相应的学习,因此这种方法难以在真实场景中大量地应用。在实际应用中,由于车辆在真实运行场景下会处于各种各样不同的驾驶工况,而无模型算法不够灵活,并且它们对样本的要求使得它们难以被用在真实场景下学习能量分配的策略。
相比之下,基于模型的强化学习算法就具备了较大优势的样本高效性,它们能够在已有的样本基础上,结合模型进行快速的学习。在以往的研究中,为了实现优良的样本效率,基于模型的算法使用了相对简单的函数近似器或者抵抗过度拟合的贝叶斯模型,使得算法能够使用少量的样本进行有效的学习。但这会导致它们难以很好地泛化到复杂度高和维度高的任务。为了应对真实世界中任务的复杂性,有很多研究使用大规模的深度神经网络(NN)来模拟深度强化学习的复杂动态系统,但此类模型通常存在一些问题,例如训练样本太少容易引起过拟合,复杂的模型对于相对简单的低维任务会显得计算冗余等等。
发明内容
为了克服现有技术中对建立模型所要求的数据量庞大、并且对数据利用效率低的缺陷,提出一种基于神经网络模型的强化学习方法。本发明的技术方案是通过数据生成、模型建立及在线训练,确立了一种基于神经网络和强化学习的锂电池和超级电容混合能量在线管理策略。利用该方法可有效减少能量的浪费并且通过超级电容辅助锂电池供电,减少了锂电池的使用,达到了延长锂电池寿命的目标。
为了实现上述目的,本发明具体采用的技术方案如下:
一种基于神经网络和强化学习的混合能量管理方法,用于对由锂电池和超级电容构成的混合能源系统进行功率分配控制,其具体做法如下:基于预先构建的神经网络,使用自适应模糊能量管理控制器的输出作为神经网络模型初始的离线训练数据,采用强化学习方法学习得到的神经网络用来产生新的数据以增加到原有的神经网络训练数据中继续进行神经网络的学习,不断更迭完成对神经网络的训练;利用训练完毕的神经网络预测当前状态在采取相应动作之后转移到的下一状态,根据累计奖励最大化的原则选择最优动作序列,选取动作序列的第一个动作作为当前状态的最优控制动作,得到锂电池和超级电容各自的输出功率。
作为优选,混合能量管理方法的具体步骤如下:
S1、利用双输入、单输出的自适应模糊控制能量管理控制器模拟控制车辆在不同驾驶工况下的锂电池输出比例,所述自适应模糊控制能量管理控制器以车辆运行所需功率Pdem和超级电容荷电状态USOC作为输入,以锂电池输出功率占总需求功率的比例为输出ub
S2、基于自适应模糊控制能量管理控制器的模拟数据构建第一训练数据集Dinit,数据集中每个样本(st,at,st+1)由输入数据(st,at)和输出标签为下一时刻与当前时刻的荷电状态变化量st+1-st,其中st表示当前时刻t的车辆运行所需功率Pdemt和超级电容荷电状态USOCt,st+1表示下一时刻t+1的车辆运行所需功率Pdemt+1和超级电容荷电状态USOCt+1,at表示当前时刻t的锂电池输出功率占总需求功率的比例ubt
S3、以第一训练数据集Dinit和初始为空集的第二训练数据集DRL作为神经网络模型的训练数据集D,训练得到以(st,at)为输入来预测st+1-st的预测模型
Figure GDA0003689874890000021
S4、基于最新的预测模型
Figure GDA0003689874890000022
使用随机打靶法结合预设的奖励函数针对所有待选择动作序列计算累计奖励值,以累计奖励最大化的原则选出长度为H的最优动作序列
Figure GDA0003689874890000031
执行该最优动作序列的第一个动作at,通过锂电池和超级电容的等效模型计算st在经过动作at之后的下一个时刻的状态st+1;在总长度为T的时段内不断迭代每个时刻,得到T个新的样本(st,at,st+1),将这T个新的样本更新到第二训练数据集DRL中,并使用更新后的训练数据集D再次训练神经网络模型得到更新后的预测模型;
S5、不断重复S4,直至预测模型达到收敛条件,得到最终预测模型;
S6、在每个时刻对混合能源系统进行功率分配控制时,基于所述最终预测模型,使用随机打靶法结合预设的奖励函数针对所有待选择动作序列计算累计奖励值,以累计奖励最大化的原则选出最优动作序列,执行该最优动作序列的第一个动作,得到锂电池和超级电容各自的输出功率。
进一步的,数据集中每个样本(st,at,st+1)均需要进行零均值归一化处理。
作为优选,所述自适应模糊能量管理控制器中,将车辆运行所需功率Pdem和超级电容的SOC荷电状态USOC模糊化为I1和I2,作为模糊控制器的输入,通过去模糊化求得模糊控制器的输出ub;针对不同的驾驶工况选择不同的自适应增益k,根据下面公式计算锂电池的输出功率Pb:
Pb=(ub+k(i))Pdem,i=1,…,I
式中:I为驾驶工况的总数,k(i)表示第i种驾驶工况的自适应增益。
作为优选,所述的奖励函数中,按一定的权重进行累加计算得到从当前状态往后的累计奖励Rt,越近的动作对应的权重γ越大,奖励函数的形式为:
Figure GDA0003689874890000032
Figure GDA0003689874890000033
式中:Rb为锂电池等效内阻,Rc为超级电容等效内阻,ibt为当前时刻t的锂电池电流,ict为当前时刻t的超级电容电流,Δibt为锂电池的电流变化量,USOCt+1为t+1时刻的超级电容荷电量;SOCmin和SOCmax分别是超级电容荷电量的下限和上限;rt是在t时刻执行动作at后所获得的即时奖励;γt′-t表示权重γ的t′-t次方;Rt为t′>t时的累计奖励;未来时刻t'>t的状态st'通过预测模型预测得到。
作为优选,所述神经网络模型在训练过程中,通过随机梯度下降方法最小化误差ε(θ)进行参数优化,其中误差函数定义如下:
Figure GDA0003689874890000041
式中:|D|表示训练数据集D中的样本个数。
作为优选,所述用随机打靶法结合预设的奖励函数针对所有待选择动作序列计算累计奖励值的具体方法为:
首先随机生成K条候选的动作序列,使用最新的预测模型
Figure GDA0003689874890000042
预测每条动作序列对应的状态序列,根据预设的奖励函数计算所有状态序列的奖励值,最终选择累计奖励值最高的动作序列作为最优动作序列
Figure GDA0003689874890000043
H为最优动作序列的长度。
作为优选,所述收敛条件为神经网络模型训练轮数达到最大值。
相对于现有技术而言,本发明的有益效果是:
(1)采用模糊控制器的输出作为神经网络初始的离线数据集来进行训练,解决了神经网络训练数据集来源的问题。
(2)对输入数据进行零均值归一化处理,防止某些变量的值较大而对模型产生影响,降低数据噪声的影响,使结果更具有鲁棒性。
(3)根据系统的能量损耗、锂电池输出电流变化率以及USOC的状态来设计奖励函数,从而保证结果能够在满足基本的车辆功率需求前提下,维持超级电容USOC在安全范围,同时减少功耗。
(4)在选取长度为H的动作序列
Figure GDA0003689874890000044
时,采用随机打靶的方法,随机生成K条候选的动作序列,使用学习的神经网络模型预测对应的状态序列,计算所有序列的奖励值,最终选择累计的奖励值最高的动作序列,从而降低了计算复杂度。
(5)在实现为车辆驾驶提供所需功率的基础上,超级电容能够充分地吸收车辆在制动过程中释放的能量,避免了能量浪费。
(6)合理使用超级电容辅助锂电池供电,减少了锂电池的使用,达到了延长锂电池寿命的目标。
附图说明
下面结合附图和实施例对本发明进一步说明。
图1为基于神经网络和强化学习的控制器总体结构。
图2为自适应模糊能量管理控制器结构。
图3为神经网络的结构。
图4为实时测试中混合工况模式的驾驶速度。
图5为实时测试中的需求功率。
图6为实时测试中的功率分配误差。
图7为实时测试中锂电池的输出功率。
图8为实时测试中超级电容的输出功率。
图9为实时测试中锂电池的BSOC。
图10为实时测试中超级电容的荷电状态USOC。
具体实施方式
下面结合附图和具体实施方式对本发明做进一步阐述和说明。
本发明中,提供了一种基于神经网络和强化学习的混合能量管理方法,用于对车用混合动力系统中由锂电池和超级电容构成的混合能源系统进行功率分配控制。该方法的基本构思是基于预先构建的神经网络,使用自适应模糊能量管理控制器的输出作为神经网络模型初始的离线训练数据,采用强化学习方法学习得到的神经网络用来产生新的数据以增加到原有的神经网络训练数据中继续进行神经网络的学习,不断更迭完成对神经网络的训练;利用训练完毕的神经网预测当前状态在采取相应动作之后转移到的下一状态,根据累计奖励最大化的原则选择最优动作序列,选取动作序列的第一个动作作为当前状态的最优控制动作,得到锂电池和超级电容各自的输出功率。
在本发明的一个较佳实施例中,提供了一种实现上述混合能量管理方法的具体步骤,下面详述如下:
S1、利用双输入、单输出的自适应模糊控制能量管理控制器模拟控制车辆在不同驾驶工况下的锂电池输出比例,所述自适应模糊控制能量管理控制器以车辆运行所需功率Pdem和超级电容荷电状态USOC作为输入,以锂电池输出功率占总需求功率的比例为输出ub
在该自适应模糊能量管理控制器中,将车辆运行所需功率Pdem和超级电容的SOC荷电状态USOC模糊化为I1和I2,作为模糊控制器的输入,通过去模糊化求得模糊控制器的输出ub;针对不同的驾驶工况选择不同的自适应增益k,根据下面公式计算锂电池的输出功率Pb:
Pb=(ub+k(i))Pdem,i=1,…,I
式中:I为驾驶工况的总数,k(i)表示第i种驾驶工况的自适应增益。
S2、基于自适应模糊控制能量管理控制器的模拟数据构建第一训练数据集Dinit,数据集中每个样本(st,at,st+1)由输入数据(st,at)和输出标签为下一时刻与当前时刻的荷电状态变化量st+1-st,其中st表示当前时刻t的车辆运行所需功率Pdemt和超级电容荷电状态USOCt,st+1表示下一时刻t+1的车辆运行所需功率Pdemt+1和超级电容荷电状态USOCt+1,at表示当前时刻t的锂电池输出功率占总需求功率的比例ubt。须注意是的是,在用于进行神经网络训练前,数据集中每个样本(st,at,st+1)均需要进行零均值归一化处理。
S3、以第一训练数据集Dinit和初始为空集的第二训练数据集DRL作为神经网络模型的训练数据集D,训练得到以(st,at)为输入来预测st+1-st的预测模型
Figure GDA0003689874890000061
S4、基于最新的预测模型
Figure GDA0003689874890000062
使用随机打靶法结合预设的奖励函数针对所有待选择动作序列计算累计奖励值,以累计奖励最大化的原则选出长度为H的最优动作序列
Figure GDA0003689874890000063
执行该最优动作序列的第一个动作at,通过锂电池和超级电容的等效模型计算st在经过动作at之后的下一个时刻的状态st+1;在总长度为T的时段内不断迭代每个时刻,得到T个新的样本(st,at,st+1),将这T个新的样本更新到第二训练数据集DRL中,并使用更新后的训练数据集D再次训练神经网络模型得到更新后的预测模型。
在本实施例中,用随机打靶法结合预设的奖励函数针对所有待选择动作序列计算累计奖励值的具体方法为:
首先随机生成K条候选的动作序列,使用最新的预测模型
Figure GDA0003689874890000064
预测每条动作序列对应的状态序列,根据预设的奖励函数计算所有状态序列的奖励值,最终选择累计奖励值最高的动作序列作为最优动作序列
Figure GDA0003689874890000071
H为最优动作序列的长度。
在本实施例中,对于前述预设的奖励函数,按一定的权重进行累加计算得到从当前状态往后的累计奖励Rt,越近的动作对应的权重γ越大,奖励函数的形式为:
Figure GDA0003689874890000072
Figure GDA0003689874890000073
式中:Rb为锂电池等效内阻,Rc为超级电容等效内阻,ibt为当前时刻t的锂电池电流,ict为当前时刻t的超级电容电流,Δibt为锂电池的电流变化量,USOCt+1为t+1时刻的超级电容荷电量;SOCmin和SOCmax分别是超级电容荷电量的下限和上限;rt是在t时刻执行动作at后所获得的即时奖励;γt′-t表示权重γ的t′-t次方;Rt为t′>t时的累计奖励;未来时刻t'>t的状态st'通过预测模型预测得到。
S5、不断重复S4,直至预测模型达到收敛条件,得到最终预测模型。收敛条件可以设为神经网络模型训练轮数达到最大值。
在上述神经网络模型在训练过程中,通过随机梯度下降方法最小化误差ε(θ)进行参数优化,其中误差函数定义如下:
Figure GDA0003689874890000074
式中:|D|表示训练数据集D中的样本个数。
S6、在每个时刻对混合能源系统进行功率分配控制时,基于所述最终预测模型,使用随机打靶法结合预设的奖励函数针对所有待选择动作序列计算累计奖励值,以累计奖励最大化的原则选出最优动作序列,执行该最优动作序列的第一个动作,得到锂电池和超级电容各自的输出功率。
下面将上述方法应用于一个具体实施例中,具体的参数计算公式以及步骤的实现过程如前所述,不再赘述。下面主要展示其具体实现细节以及技术效果。
实施例
本实施例中,基于神经网络和强化学习的混合能量管理方法具体实现过程如下:
步骤(1),获取神经网络的输入数据。
a.针对由锂电池和超级电容构成的混合能源系统(HPS),设计一个双输入、单输出的自适应模糊控制能量管理控制器。其中,将车辆运行所需功率Pdem和超级电容的荷电状态(SOC)作为输入,输出是锂电池输出功率占总需求功率的比例。选取四种具有不同特点的代表性驾驶工况,分别为:拥堵城市道路、一般城市道路、城郊道路和高速公路。根据车辆行驶所需的功率和超级电容的荷电状态USOC,使用自适应模糊能量管理控制器进行锂电池和超级电容的功率分配。采用遗传算法针对4个标准驾驶工况优化关键参数,包括自适应增益以及模糊隶属函数的中心点等参数。
b.根据专家经验和遗传算法优化得到的参数设计模糊逻辑规则,将车辆所需功率、超级电容的SOC以及输出变量都划分为模糊子集。在本实施例中,车辆所需功率被划分为4个模糊子集(VL,L,H,VH),分别对应非常低、低、高和非常高的含义;超级电容的SOC被划分为3个模糊子集(L,M,H),分别对应低、中、高;输出变量被划分为6个模糊子集(VL,L,ML,MH,H,VH),分别对应非常低、低、较低、较高、高和非常高的含义。将车辆运行所需功率Pdem和超级电容的USOC模糊化为I1和I2,作为模糊控制器的输入,去模糊化求得模糊控制器的输出ub。然后根据不同的工况取不同的自适应增益k的值,本实施例中针对四种不同的工况,自适应增益k分别选取为0.3070、0.5095、0.5005、0.5725,从而计算锂电池的输出功率:
Pb=(ub+k(i))Pdem,i=1,…,4
c.以车辆所需功率和当前超级电容的USOC得到输入(st,at),并且将st+1-st作为对应的输出标签。为了消除不同指标之间的量纲影响,需要对数据进行标准化处理,对需求功率和超级电容的USOC两个输入,分别将数据减去均值并除以标准差,进行零均值归一化处理,这可以防止某些变量的值较大而对模型产生影响。另外,将处理后得到的数据存在数据集Dinit中作为神经网络的训练数据集。
步骤(2),设计动态神经网络算法,具体方法是:
选定3层神经网络预测状态变化量,包括输入层、隐含层和输出层。在本实施例中,神经网络包括3个节点的输入层、10个节点的隐含层和2个节点的输出层。将当前的状态st和采取的动作at作为网络的输入量,分别是车辆需求功率Pdemt、超级电容的SOC(USOCt)和锂电池的输出功率比例ubt,网络的输出是预测的状态变化量st+1-st,分别是Pdemt+1-Pdemt和USOCt+1-USOCt。即本实施例中选取t时刻的车辆需求功率Pdemt和超级电容的SOC(USOCt)作为状态量,将锂电池的输出功率比例ubt作为在当前状态下的动作量,即:
st=[Pdemt,USOCt]
at=ubt
步骤(3),神经网络模型训练,具体方法是:
a.将在步骤(1)中通过模糊能量管理控制器离线训练会得到对于不同的驾驶工况,不同车辆行驶所需的功率下锂电池和超级电容的功率分配数据。因此将对数据进行零均值归一化处理得到的标准化数据集Dinit=(st,at,st+1),和初始为空的增强学习数据集DRL作为输入。学习一个神经网络模型
Figure GDA0003689874890000093
并通过SGD方法最小化前述公式2的误差ε(θ)从而进行训练。
b.根据系统的能量损耗、锂电池输出电流变化率以及USOC的状态来设计奖励函数,按一定的权重进行累加计算得到从当前状态往后的累计奖励Rt,越近的动作对应的权重γ越大,奖励函数的公式(记为公式1)为:
Figure GDA0003689874890000091
Figure GDA0003689874890000092
式中:Rb为锂电池等效内阻,Rc为超级电容等效内阻,ibt为当前时刻t的锂电池电流,ict为当前时刻t的超级电容电流,Δibt为锂电池的电流变化量,USOCt+1为t+1时刻的超级电容荷电量;SOCmin和SOCmax分别是超级电容荷电量的下限和上限;rt是在t时刻执行动作at后所获得的即时奖励;γt′-t表示权重γ的t′-t次方;Rt为t′>t时的累计奖励;未来时刻t'>t的状态st'通过预测模型预测得到。
c.采用数据集Dinit和DRL,学习一个模型
Figure GDA0003689874890000101
并通过随机梯度下降(SGD)方法最小化误差ε(θ),其中误差函数定义公式(记为公式2)如下:
Figure GDA0003689874890000102
式中:|D|表示训练数据集D中的样本个数。
d.对于总时间长度为T的数据集,记当前时刻为t,获取当前的状态st,使用
Figure GDA0003689874890000103
根据随机打靶法来根据c中奖励函数选择长度为H的最优动作序列
Figure GDA0003689874890000104
首先随机生成K条候选的动作序列,使用学习的
Figure GDA0003689874890000105
预测对应的状态序列,计算所有序列的奖励值,最终选择累计的奖励值最高的动作序列。所得到长度为H的动作序列并不是全部采用,而是采用该动作序列的第1个动作作为最终的执行动作,记为at,通过锂电池和超级电容的等效模型更新的状态st+1,在下一个时间点重复以上步骤,计算得到新的最优动作。
e.执行该动作序列的第一个动作at。通过锂电池和超级电容的等效模型计算st在经过动作at之后的下一个状态st+1。计算得到新的最优动作,并重复以上操作,由此得到T个新的样本(st,at),将这T个样本加入到DRL数据集中。
f.回到c步骤,重复步骤c-e,循环max_iter次迭代后结束训练
在本实施例中,通过上述步骤a-f可以实现对于神经网络模型的训练。对于1:T长度的每一步的t,获取当前的状态st,随机生成K条候选的动作序列,使用学习的
Figure GDA0003689874890000106
预测对应的状态序列,根据前述公式1的奖励函数计算得到的累积奖励值选择长度为15的最优动作序列
Figure GDA0003689874890000107
其中T=4612,K=50。执行该动作序列的第一个动作at。通过锂电池和超级电容的等效模型计算st在经过动作at之后的下一个状态st+1。重复以上操作,由此得到T个新的样本(st,at),将这T个样本加入到DRL数据集中。不断循环迭代max_iter次后结束训练,其中max_iter=10。为了便于叙述,将最终训练完毕的神经网络模型记为最终预测模型。
步骤(4),实现能量分配。
根据学习得到的神经网络模型作为控制器,来实现在线实时控制,在四种不同的工况下分配锂电池和超级电容的能量,实现能量管理。具体而言,在每个时刻对混合能源系统进行功率分配控制时,基于前述的最终预测模型,使用随机打靶法结合预设的奖励函数针对所有待选择动作序列计算累计奖励值,以累计奖励最大化的原则选出最优动作序列,执行该最优动作序列的第一个动作,得到锂电池和超级电容各自的输出功率。
结果显示,本发明公开的方法在测试中所分配的混合能量实现了满足车辆驾驶的需求功率的目标。相较于传统的深度Q网络(DQN)管理策略,在控制过程中,本发明的超级电容的输出功率更高,并且同时本发明超级电容USOC也更高。这表明本发明的管理策略中超级电容吸收了更多的制动能量,具有更好的节能效果。另外,本发明验证了在保证节能效果的同时,基于神经网络和强化学习的混合能量管理策略能够保证与传统DQN管理策略相近的锂电池电量管理效果,最终两者对锂电池SOC控制结果具有不超过1%的差距。
以上所述的实施例只是本发明的一种较佳的方案,然其并非用以限制本发明。有关技术领域的普通技术人员,在不脱离本发明的精神和范围的情况下,还可以做出各种变化和变型。因此凡采取等同替换或等效变换的方式所获得的技术方案,均落在本发明的保护范围内。

Claims (7)

1.一种基于神经网络和强化学习的混合能量管理方法,用于对由锂电池和超级电容构成的混合能源系统进行功率分配控制,其特征在于:基于预先构建的神经网络,使用自适应模糊能量管理控制器的输出作为神经网络模型初始的离线训练数据,采用强化学习方法学习得到的神经网络用来产生新的数据以增加到原有的神经网络训练数据中继续进行神经网络的学习,不断更迭完成对神经网络的训练;利用训练完毕的神经网络预测当前状态在采取相应动作之后转移到的下一状态,根据累计奖励最大化的原则选择最优动作序列,选取动作序列的第一个动作作为当前状态的最优控制动作,得到锂电池和超级电容各自的输出功率;
混合能量管理方法的具体步骤如下:
S1、利用双输入、单输出的自适应模糊控制能量管理控制器模拟控制车辆在不同驾驶工况下的锂电池输出比例,所述自适应模糊控制能量管理控制器以车辆运行所需功率Pdem和超级电容荷电状态USOC作为输入,以锂电池输出功率占总需求功率的比例为输出ub
S2、基于自适应模糊控制能量管理控制器的模拟数据构建第一训练数据集Dinit,数据集中每个样本(st,at,st+1)由输入数据(st,at)和输出标签组成,输出标签为下一时刻与当前时刻的荷电状态变化量st+1-st,其中st表示当前时刻t的车辆运行所需功率Pdemt和超级电容荷电状态USOCt,st+1表示下一时刻t+1的车辆运行所需功率Pdemt+1和超级电容荷电状态USOC++1,at表示当前时刻t的锂电池输出功率占总需求功率的比例ubt
S3、以第一训练数据集Dinit和初始为空集的第二训练数据集DRL作为神经网络模型的训练数据集D,训练得到以(st,at)为输入来预测st+1-st的预测模型
Figure FDA0003689874880000011
S4、基于最新的预测模型
Figure FDA0003689874880000012
使用随机打靶法结合预设的奖励函数针对所有待选择动作序列计算累计奖励值,以累计奖励最大化的原则选出长度为H的最优动作序列
Figure FDA0003689874880000013
执行该最优动作序列的第一个动作at,通过锂电池和超级电容的等效模型计算st在经过动作at之后的下一个时刻的状态st+1;在总长度为T的时段内不断迭代每个时刻,得到T个新的样本(st,at,st+1),将这T个新的样本更新到第二训练数据集DRL中,并使用更新后的训练数据集D再次训练神经网络模型得到更新后的预测模型;
S5、不断重复S4,直至预测模型达到收敛条件,得到最终预测模型;
S6、在每个时刻对混合能源系统进行功率分配控制时,基于所述最终预测模型,使用随机打靶法结合预设的奖励函数针对所有待选择动作序列计算累计奖励值,以累计奖励最大化的原则选出最优动作序列,执行该最优动作序列的第一个动作,得到锂电池和超级电容各自的输出功率。
2.如权利要求1所述的基于神经网络和强化学习的混合能量管理方法,其特征在于,数据集中每个样本(st,at,st+1)均需要进行零均值归一化处理。
3.如权利要求1所述的基于神经网络和强化学习的混合能量管理方法,其特征在于,所述自适应模糊能量管理控制器中,将车辆运行所需功率Pdem和超级电容的SOC荷电状态USOC模糊化为I1和I2,作为模糊控制器的输入,通过去模糊化求得模糊控制器的输出ub;针对不同的驾驶工况选择不同的自适应增益k,根据下面公式计算锂电池的输出功率Pb:
Pb=(ub+k(i))Pdem,i=1,…,I
式中:I为驾驶工况的总数,k(i)表示第i种驾驶工况的自适应增益。
4.如权利要求1所述的基于神经网络和强化学习的混合能量管理方法,其特征在于,所述的奖励函数中,按一定的权重进行累加计算得到从当前状态往后的累计奖励Rt,越近的动作对应的权重γ越大,奖励函数的形式为:
Figure FDA0003689874880000021
Figure FDA0003689874880000022
式中:Rb为锂电池等效内阻,Rc为超级电容等效内阻,ibt为当前时刻t的锂电池电流,ict为当前时刻t的超级电容电流,Δibt为锂电池的电流变化量,USOCt+1为t+1时刻的超级电容荷电量;SOCmin和SOCmax分别是超级电容荷电量的下限和上限;rt是在t时刻执行动作at后所获得的即时奖励;γt′-t表示权重γ的t′-次方;Rt为t′>时的累计奖励;未来时刻t'>t的状态st'通过预测模型预测得到。
5.如权利要求1所述的基于神经网络和强化学习的混合能量管理方法,其特征在于,所述神经网络模型在训练过程中,通过随机梯度下降方法最小化误差ε(θ)进行参数优化,其中误差函数定义如下:
Figure FDA0003689874880000031
式中:|D|表示训练数据集D中的样本个数。
6.如权利要求1所述的基于神经网络和强化学习的混合能量管理方法,其特征在于,所述用随机打靶法结合预设的奖励函数针对所有待选择动作序列计算累计奖励值的具体方法为:
首先随机生成K条候选的动作序列,使用最新的预测模型
Figure FDA0003689874880000032
预测每条动作序列对应的状态序列,根据预设的奖励函数计算所有状态序列的奖励值,最终选择累计奖励值最高的动作序列作为最优动作序列
Figure FDA0003689874880000033
H为最优动作序列的长度。
7.如权利要求1所述的基于神经网络和强化学习的混合能量管理方法,其特征在于,所述收敛条件为神经网络模型训练轮数达到最大值。
CN202110403508.6A 2021-04-15 2021-04-15 一种基于神经网络和强化学习的混合能量管理方法 Active CN113110052B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110403508.6A CN113110052B (zh) 2021-04-15 2021-04-15 一种基于神经网络和强化学习的混合能量管理方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110403508.6A CN113110052B (zh) 2021-04-15 2021-04-15 一种基于神经网络和强化学习的混合能量管理方法

Publications (2)

Publication Number Publication Date
CN113110052A CN113110052A (zh) 2021-07-13
CN113110052B true CN113110052B (zh) 2022-07-26

Family

ID=76716985

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110403508.6A Active CN113110052B (zh) 2021-04-15 2021-04-15 一种基于神经网络和强化学习的混合能量管理方法

Country Status (1)

Country Link
CN (1) CN113110052B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114083997A (zh) * 2021-11-30 2022-02-25 四川轻化工大学 一种考虑温度影响的电动汽车能量管理策略优化方法
CN115071449B (zh) * 2022-07-20 2024-04-19 无锡军工智能电气股份有限公司 一种基于多模糊控制器的复合电源能量管理方法
CN116599061B (zh) * 2023-07-18 2023-10-24 国网浙江省电力有限公司宁波供电公司 一种基于强化学习的电网运行控制方法

Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107748498A (zh) * 2017-10-09 2018-03-02 上海海事大学 一种基于模型预测控制的混合动力船舶的能量管理方法
CN108312870A (zh) * 2018-02-02 2018-07-24 杭州电子科技大学 一种混合动力汽车氢耗与负载变化的能源管理方法
CN108427985A (zh) * 2018-01-02 2018-08-21 北京理工大学 一种基于深度强化学习的插电式混合动力车辆能量管理方法
CN109552079A (zh) * 2019-01-28 2019-04-02 浙江大学宁波理工学院 一种基于规则与Q-learning增强学习的电动汽车复合能量管理方法
CN110850720A (zh) * 2019-11-26 2020-02-28 国网山东省电力公司电力科学研究院 一种基于dqn算法的区域自动发电动态控制方法
CN111367172A (zh) * 2020-02-28 2020-07-03 华南理工大学 一种基于逆向深度强化学习的混动系统能量管理策略
CN111552185A (zh) * 2020-05-19 2020-08-18 重庆大学 一种基于pmp的插电式混合动力汽车模型预测控制的能量管理方法
CN112035949A (zh) * 2020-08-14 2020-12-04 浙大宁波理工学院 一种结合q增强学习的实时模糊能源管理方法
CN112287463A (zh) * 2020-11-03 2021-01-29 重庆大学 一种基于深度强化学习算法的燃料电池汽车能量管理方法
CN112488452A (zh) * 2020-11-06 2021-03-12 中国电子科技集团公司第十八研究所 一种基于深度强化学习的能源系统管理多时间尺度最优决策方法
CN112614009A (zh) * 2020-12-07 2021-04-06 国网四川省电力公司电力科学研究院 一种基于深度期望q-学习的电网能量管理方法及系统

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2539725A1 (en) * 2010-02-24 2013-01-02 The Trustees of Columbia University in the City of New York Adaptive stochastic controller for distributed electrical energy storage management
US10538174B2 (en) * 2017-09-29 2020-01-21 Nio Usa, Inc. Real-time nonlinear receding horizon control of batteries for power systems

Patent Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107748498A (zh) * 2017-10-09 2018-03-02 上海海事大学 一种基于模型预测控制的混合动力船舶的能量管理方法
CN108427985A (zh) * 2018-01-02 2018-08-21 北京理工大学 一种基于深度强化学习的插电式混合动力车辆能量管理方法
CN108312870A (zh) * 2018-02-02 2018-07-24 杭州电子科技大学 一种混合动力汽车氢耗与负载变化的能源管理方法
CN109552079A (zh) * 2019-01-28 2019-04-02 浙江大学宁波理工学院 一种基于规则与Q-learning增强学习的电动汽车复合能量管理方法
CN110850720A (zh) * 2019-11-26 2020-02-28 国网山东省电力公司电力科学研究院 一种基于dqn算法的区域自动发电动态控制方法
CN111367172A (zh) * 2020-02-28 2020-07-03 华南理工大学 一种基于逆向深度强化学习的混动系统能量管理策略
CN111552185A (zh) * 2020-05-19 2020-08-18 重庆大学 一种基于pmp的插电式混合动力汽车模型预测控制的能量管理方法
CN112035949A (zh) * 2020-08-14 2020-12-04 浙大宁波理工学院 一种结合q增强学习的实时模糊能源管理方法
CN112287463A (zh) * 2020-11-03 2021-01-29 重庆大学 一种基于深度强化学习算法的燃料电池汽车能量管理方法
CN112488452A (zh) * 2020-11-06 2021-03-12 中国电子科技集团公司第十八研究所 一种基于深度强化学习的能源系统管理多时间尺度最优决策方法
CN112614009A (zh) * 2020-12-07 2021-04-06 国网四川省电力公司电力科学研究院 一种基于深度期望q-学习的电网能量管理方法及系统

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
Frequency Decoupling-Based Energy Management Strategy for Fuel Cell/Battery/Ultracapacitor Hybrid Vehicle Using Fuzzy Control Method;Fazhan Tao;《IEEE Access》;20200911;第8卷;第166491-166502页 *
Fuzzy Optimal Energy Management for Fuel Cell and Supercapacitor Systems Using Neural Network Based Driving Pattern Recognition;Ridong Zhang;《 IEEE Transactions on Fuzzy Systems》;20180313;第27卷(第1期);第45-57页 *
Neural Network Dynamics for Model-Based Deep Reinforcement Learning with Model-Free Fine-Tuning;Anusha Nagabandi;《2018 IEEE International Conference on Robotics and Automation》;20180913;第7579-7586页 *

Also Published As

Publication number Publication date
CN113110052A (zh) 2021-07-13

Similar Documents

Publication Publication Date Title
CN113110052B (zh) 一种基于神经网络和强化学习的混合能量管理方法
CN111934335B (zh) 一种基于深度强化学习的集群电动汽车充电行为优化方法
CN111267831B (zh) 一种混合动力车辆智能变时域模型预测能量管理方法
Wu et al. Continuous reinforcement learning of energy management with deep Q network for a power split hybrid electric bus
CN111731303B (zh) 一种基于深度强化学习a3c算法的hev能量管理方法
CN110341690B (zh) 一种基于确定性策略梯度学习的phev能量管理方法
CN105644548B (zh) 混合动力汽车的能量控制方法及装置
CN110406526A (zh) 基于自适应动态规划的并联混合动力汽车能量管理方法
CN113479186B (zh) 一种混合动力汽车能量管理策略优化方法
CN112035949B (zh) 一种结合q增强学习的实时模糊能源管理方法
CN113627993A (zh) 一种基于深度强化学习的智能电动汽车充放电决策方法
CN115793445A (zh) 一种基于多智能体深度强化学习的混合动力汽车控制方法
CN112757922A (zh) 一种车用燃料电池混合动力能量管理方法及系统
CN112765723A (zh) 好奇心驱动的混合动力系统深度强化学习能量管理方法
CN113780576A (zh) 基于奖励自适应分配的合作多智能体强化学习方法
CN115107733A (zh) 一种混合动力汽车的能量管理方法及系统
CN117644783A (zh) 结合工况预测与强化学习的燃料电池汽车能量管理方法
CN114969982A (zh) 一种基于策略迁移的燃料电池汽车深度强化学习能量管理方法
CN112440974B (zh) 基于分布式深度确定性策略梯度的hev能量管理方法
Wang et al. Deep reinforcement learning with deep-Q-network based energy management for fuel cell hybrid electric truck
Zhang et al. An optimal vehicle speed planning algorithm for regenerative braking at traffic lights intersections based on reinforcement learning
CN116552338A (zh) 一种氢燃料电池客车节能驾驶控制方法及系统
CN111401769A (zh) 一种基于深度强化学习的配电网故障智能抢修方法及装置
CN116843500A (zh) 充电站规划方法、神经网络模型训练方法、装置和设备
CN115140059A (zh) 一种基于多目标优化的混合动力汽车能量管理方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant