CN113511082A - 基于规则和双深度q网络的混合动力汽车能量管理方法 - Google Patents

基于规则和双深度q网络的混合动力汽车能量管理方法 Download PDF

Info

Publication number
CN113511082A
CN113511082A CN202110602198.0A CN202110602198A CN113511082A CN 113511082 A CN113511082 A CN 113511082A CN 202110602198 A CN202110602198 A CN 202110602198A CN 113511082 A CN113511082 A CN 113511082A
Authority
CN
China
Prior art keywords
lithium battery
network
value
soc
energy
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110602198.0A
Other languages
English (en)
Other versions
CN113511082B (zh
Inventor
郑春花
许德州
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Institute of Advanced Technology of CAS
Original Assignee
Shenzhen Institute of Advanced Technology of CAS
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Institute of Advanced Technology of CAS filed Critical Shenzhen Institute of Advanced Technology of CAS
Priority to CN202110602198.0A priority Critical patent/CN113511082B/zh
Publication of CN113511082A publication Critical patent/CN113511082A/zh
Priority to PCT/CN2021/137803 priority patent/WO2022252559A1/zh
Application granted granted Critical
Publication of CN113511082B publication Critical patent/CN113511082B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60LPROPULSION OF ELECTRICALLY-PROPELLED VEHICLES; SUPPLYING ELECTRIC POWER FOR AUXILIARY EQUIPMENT OF ELECTRICALLY-PROPELLED VEHICLES; ELECTRODYNAMIC BRAKE SYSTEMS FOR VEHICLES IN GENERAL; MAGNETIC SUSPENSION OR LEVITATION FOR VEHICLES; MONITORING OPERATING VARIABLES OF ELECTRICALLY-PROPELLED VEHICLES; ELECTRIC SAFETY DEVICES FOR ELECTRICALLY-PROPELLED VEHICLES
    • B60L50/00Electric propulsion with power supplied within the vehicle
    • B60L50/40Electric propulsion with power supplied within the vehicle using propulsion power supplied by capacitors
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60LPROPULSION OF ELECTRICALLY-PROPELLED VEHICLES; SUPPLYING ELECTRIC POWER FOR AUXILIARY EQUIPMENT OF ELECTRICALLY-PROPELLED VEHICLES; ELECTRODYNAMIC BRAKE SYSTEMS FOR VEHICLES IN GENERAL; MAGNETIC SUSPENSION OR LEVITATION FOR VEHICLES; MONITORING OPERATING VARIABLES OF ELECTRICALLY-PROPELLED VEHICLES; ELECTRIC SAFETY DEVICES FOR ELECTRICALLY-PROPELLED VEHICLES
    • B60L15/00Methods, circuits, or devices for controlling the traction-motor speed of electrically-propelled vehicles
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60LPROPULSION OF ELECTRICALLY-PROPELLED VEHICLES; SUPPLYING ELECTRIC POWER FOR AUXILIARY EQUIPMENT OF ELECTRICALLY-PROPELLED VEHICLES; ELECTRODYNAMIC BRAKE SYSTEMS FOR VEHICLES IN GENERAL; MAGNETIC SUSPENSION OR LEVITATION FOR VEHICLES; MONITORING OPERATING VARIABLES OF ELECTRICALLY-PROPELLED VEHICLES; ELECTRIC SAFETY DEVICES FOR ELECTRICALLY-PROPELLED VEHICLES
    • B60L50/00Electric propulsion with power supplied within the vehicle
    • B60L50/50Electric propulsion with power supplied within the vehicle using propulsion power supplied by batteries or fuel cells
    • B60L50/60Electric propulsion with power supplied within the vehicle using propulsion power supplied by batteries or fuel cells using power supplied by batteries
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60LPROPULSION OF ELECTRICALLY-PROPELLED VEHICLES; SUPPLYING ELECTRIC POWER FOR AUXILIARY EQUIPMENT OF ELECTRICALLY-PROPELLED VEHICLES; ELECTRODYNAMIC BRAKE SYSTEMS FOR VEHICLES IN GENERAL; MAGNETIC SUSPENSION OR LEVITATION FOR VEHICLES; MONITORING OPERATING VARIABLES OF ELECTRICALLY-PROPELLED VEHICLES; ELECTRIC SAFETY DEVICES FOR ELECTRICALLY-PROPELLED VEHICLES
    • B60L58/00Methods or circuit arrangements for monitoring or controlling batteries or fuel cells, specially adapted for electric vehicles
    • B60L58/10Methods or circuit arrangements for monitoring or controlling batteries or fuel cells, specially adapted for electric vehicles for monitoring or controlling batteries
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/60Other road transportation technologies with climate change mitigation effect
    • Y02T10/70Energy storage systems for electromobility, e.g. batteries

Landscapes

  • Engineering & Computer Science (AREA)
  • Power Engineering (AREA)
  • Transportation (AREA)
  • Mechanical Engineering (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Sustainable Development (AREA)
  • Sustainable Energy (AREA)
  • Electric Propulsion And Braking For Vehicles (AREA)

Abstract

本发明公开了一种基于规则和双深度Q网络的混合动力汽车能量管理方法。该方法包括:检测设有复合储能系统的车辆能量源,该复合储能系统包括锂电池和超级电容;当锂电池在预设的正常约束工作范围时,利用经训练的深度强化学习模型确定锂电池的输出功率,当锂电池没有处于正常约束工作范围时,则使用设定规则对锂电池进行保护,其中深度强化学习模型的智能体包括评估Q网络和目标Q网络,环境的状态观测量是锂电池的剩余电量、超级电容的剩余电量以及整车需求功率,锂电池输出功率作为输出动作,并以最小化复合储能系统的能量损失作为目标,设置奖励函数。利用本发明能够实现能量的全范围管理、最优性和实时性的有机统一。

Description

基于规则和双深度Q网络的混合动力汽车能量管理方法
技术领域
本发明涉及车辆能量管理技术领域,更具体地,涉及一种基于规则和双深度Q网络的混合动力汽车能量管理方法。
背景技术
随着人工智能和计算机技术的快速发展,大量的机器学习算法已被应用到实际生活中,其中以深度强化学习算法为代表的机器学习更是受到了关注,并被广泛用于如机器视觉、自动驾驶、机器人控制、智能交通等领域。近年来,深度强化学习被逐渐应用于混合动力汽车能量管理研究中,并取得了较好的效果。双深度Q网络算法(double deep Q-network,双深度Q网络,简称DDQN)也属于深度强化学习算法,无需先验知识或模型已知,经过恰当的奖励函数、超参数设计和学习训练过程即可获得较理想的优化控制效果。
在碳达峰、碳中和的目标驱动下,在节能减排和可持续发展的时代要求下,可有效实现节能减排的新能源汽车,在各国得以大力发展,是未来技术和行业发展的主要方向。然而拥有不同工作性质能量源的新能源汽车亟需解决能量分配的问题,以达到节能、提高系统效率和延长主能量源使用寿命等目标。新能源汽车包括混合动力汽车、电动汽车和燃料电池汽车,能量管理问题是当前新能源汽车亟待解决的控制优化问题之一。
对于混合动力汽车,其能量管理问题是一个时变、复杂、非线性的决策控制问题,而现有的基于深度强化学习的能量管理方法,存在优化效果欠佳、实时性不足和控制范围不够全面等缺陷。
在现有技术中,针对新能源汽车的能量管理问题,研究者们提出了许多能量管理方法,例如包括基于规则的能量管理方法、基于优化的能量管理方法和基于学习的能量管理方法。其中基于规则的能量管理方法包括确定性规则控制、模糊逻辑控制等,其实时性较强,但难以达到最优的控制效果;基于优化的能量管理方法虽可得到较优的控制效果,但要求工况预知且计算量大,难以实时应用。
因此,基于规则和基于优化的能量管理方法难以同时实现实时性和最优性的统一,近年来,可实现最优性和实时性权衡的基于(机器)学习的能量管理方法受到大量研究者的关注,主要包括基于深度学习(deep learning)、强化学习(reinforcement learning)和深度强化学习(deep reinforcement learning)的能量管理方法,特别地,以基于深度强化学习为代表的能量管理方法,在计算机技术快速发展背景下成为新的研究热点。
现有基于深度强化学习的方法,尤其是基于传统深度Q网络(deep Q-network,深度Q网络,简称DQN)的能量管理方法,由于动作选择和策略评估均在同一个神经网络进行,容易导致Q值的过高估计而使得控制效果欠佳,同时还具有收敛速度慢、实时性差等缺陷,而新能源汽车在实际的运行过程中,对于控制方法的实时性和工况适应性要求较高,故需设计既能满足实际应用需求又具有优秀控制效果的能量管理方法。
此外,目前的基于深度强化学习的能量管理方法,往往是在所预设的约束范围内,如锂电池SOC(state of charge,当前剩余电量)不高于0.9且不低于0.3实现控制,然而在实际行车时,相关状态量并不能一直保持在约束范围内,并且,若锂电池经常过充、过放电会导致其使用寿命迅速衰减,进而显著减少新能源汽车的续航里程、增加使用成本,因此,需要额外制定在约束范围外的控制方法,以获得更全面、更稳定的控制方法,以在尽可能节能的同时尽量延长锂电池的使用寿命,从而降低新能源汽车的使用成本,有利于新能源汽车的大规模推广。
发明内容
本发明的目的是克服上述现有技术的缺陷,提供一种基于规则和双深度Q网络的混合动力汽车能量管理方法,是通过改进深度Q网络,实现最优性、实时性和工况适应性综合的新技术方案,适用于具有不同工作特性的多能量源混合动力汽车的能量管理。
本发明的技术方案是,提供一种基于规则和双深度Q网络的混合动力汽车能量管理方法。该方法包括以下步骤:
检测设有复合储能系统的车辆能量源,该复合储能系统包括锂电池能量源和超级电容能量源;
在检测到锂电池处于预设的正常约束工作范围的情况下,利用经训练的深度强化学习模型确定锂电池的输出功率,在检测到锂电池没有处于正常约束工作范围的情况下,则使用设定规则对锂电池进行保护;
其中,对于所述深度强化学习模型,其智能体包括评估Q网络和目标Q网络,环境的状态观测量是锂电池的剩余电量、超级电容的剩余电量以及整车需求功率,锂电池输出功率作为输出动作,并以最小化所述复合储能系统的能量损失作为目标,设置相应的奖励函数。
与现有技术相比,本发明的优点在于,为在节能的同时尽量延长锂电池等的使用寿命从而有效降低新能源汽车的使用成本,并同时兼顾控制方法的实时性和最优性,本发明应用前沿的双深度Q网络算法,与基于规则的能量管理方法结合,形成适用于混合动力汽车的能量管理方法,能够实现全范围控制、最优性和实时性的有机统一
通过以下参照附图对本发明的示例性实施例的详细描述,本发明的其它特征及其优点将会变得清楚。
附图说明
被结合在说明书中并构成说明书的一部分的附图示出了本发明的实施例,并且连同其说明一起用于解释本发明的原理。
图1是根据本发明一个实施例的电动汽车复合储能系统动力架构;
图2是根据本发明一个实施例的基于双深度Q网络的能量管理方法的原理图;
图3是根据本发明一个实施例的基于规则和双深度Q网络的能量管理方法的控制逻辑示意图;
图4是根据本发明一个实施例的基于规则和双深度Q网络的混合能量管理方法的过程示意图;
图5是根据本发明一个实施例的基于规则和双深度Q网络的混合动力汽车能量管理方法的流程图。
具体实施方式
现在将参照附图来详细描述本发明的各种示例性实施例。应注意到:除非另外具体说明,否则在这些实施例中阐述的部件和步骤的相对布置、数字表达式和数值不限制本发明的范围。
以下对至少一个示例性实施例的描述实际上仅仅是说明性的,决不作为对本发明及其应用或使用的任何限制。
对于相关领域普通技术人员已知的技术、方法和设备可能不作详细讨论,但在适当情况下,所述技术、方法和设备应当被视为说明书的一部分。
在这里示出和讨论的所有例子中,任何具体值应被解释为仅仅是示例性的,而不是作为限制。因此,示例性实施例的其它例子可以具有不同的值。
应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步讨论。
在进行能量管理方法的设计时,通常需要先搭建相关车辆的模型,这些模型包括车辆动力学模型,电机模型、能量源模型和传动系统模型等。在本发明实施例中,基于准静态准则及车辆动力学利用相关建模软件如Matlab/Simulink建立相关模型。应理解的是,除Matlab外,也可采用其他的计算程序或工具实现本发明。
深度强化学习由3要素组成:环境、智能体和奖励函数。在混合动力汽车能量管理问题中,环境为对应的车辆模型或无模型,智能体则为执行相关控制的待训练方法,而奖励函数需要针对具体问题设置,设置的好坏会影响智能体学习的效果,即训练、收敛过程。同时需特别注意稀疏奖励的问题,即大量的执行动作没有获得奖励,在具体设置时需要根据实际训练情况不断调整奖励函数的各项和相关系数。
此外,对于智能体的状态观测量和输出动作的属性及维数都需要进行恰当的设置,这也会较大的影响学习训练效果。由于DDQN的方法需要对输出的动作进行离散化处理,故存在着动作间隔、输出动作的区间设置等问题。并且,DDQN的能量管理方法设计涉及神经网络、状态观测量、动作量和奖励函数的设计、以及一些超参数的设定等。特别地,对于神经网络的设计,涉及到网络层数、神经元个数、连接方式和激活函数等的选择和设计。DDQN算法使得当前动作选择和策略评估分开,进而可降低过于乐观的方法估计以提高控制效果,可以说其是对DQN算法的改进。对于智能体最优控制动作区间和各动作间隔的选择,也需要仔细的设置以获得理想的收敛速度和控制效果,本发明将通过融入动态规划的最优结果进行动作的设置。
在深度强化学习中,为提高学习效率,会引入经验回放的技巧,其通过存储过去的经验样本数组,在学习训练时智能体通过随机抽样(减少样本之间的关联性)从过去的经验中进行学习。然而在实际训练中,很多样本获得的是较低奖励甚至没有奖励,那么这些样本的学习参考价值就不大,为进一步提高学习效率,加速学习收敛过程,在经验回放技巧的基础上提出了优先经验回放的技巧,通过优先抽取有较大价值(即能获得较大奖励)的样本进行学习,从而实现更快速的收敛,本发明实施例引入优先经验回放的技巧以加速DDQN算法的收敛,增强方法的实时性。
在下文中,以电动汽车复合储能系统为例,详细说明本发明的方案,图1是电动汽车复合储能系统的动力传动系统架构,该复合储能系统包括锂电池和超级电容两个不同的能量源,二者均可作为能量源进行充放电,即驱动车辆行驶或吸收制动能量,超级电容作为辅助能量源,目的是降低锂电池的充放电频率以及放电电流大小。锂电池和超级电容的协同工作需制定恰当的能量管理方法以合理地分配二者的输入输出功率。特别地,DCDC转换器负责升高超级电容的输出电压或降低来自母线的电压,从而降低对超级电容配置的要求。
为模拟实际电动汽车复合储能系统的状态变化,在相关建模软件如Matlab/Simulink中按照准静态原则和车辆动力学建立车辆的模型,这些模型包括:需求功率计算模型,锂电池等效电路模型、超级电容等效电路模型、DCDC转换器效率模型、电机逆变器总成效率模型、传动模型等,模型建立完成之后,经过仿真无误后即完成搭建该车辆模型。
简言之,本发明提供的基于规则和双深度Q网络的混合动力汽车能量管理方法,在正常锂电池SOC约束范围,使用基于DDQN的能量管理方法,而在约束范围之外,则使用基于规则的能量管理方法进行控制。以下将具体介绍基于DDQN的能量管理方法、基于规则和双深度Q网络的能量管理方法。
一、设计基于DDQN的能量管理方法。
如图2所示,环境和智能体的交互过程为:每个时间步长,在环境状态st下,智能体从已设定好的动作集中随机选取一个动作输出到环境中,环境的状态随即从st转变为st+1,与此同时,根据所设计的奖励函数将该动作相应的奖励反馈给智能体,智能体根据追求最大累计奖励的原则,不断地调整选取的输出动作以获得最大的累计奖励,该过程将一直重复至奖励函数收敛。DDQN算法通过将动作选择和策略评估分开,避免陷入过高估计Q值而影响收敛速度和控制效果。优选地,本发明还加入优先经验回放的技巧加速训练学习过程,即增大重要的、有价值的样本被抽取的频率,这可有效促使算法训练、收敛时间进一步缩短,有利于该算法的实际推广和应用。
总的来说,在一个实施例中,设计的基于DDQN的能量管理方法包括2部分,一部分是在Simulink中搭建的车辆模型以及联合Simulink强化学习工具箱(reinforcementlearning toolbox)RL agent模块搭建的闭环智能体-环境(车辆)模型;另一部分是针对基于DDQN能量管理方法,设计神经网络和训练指令等,例如,建立Matlab的m文件来实现。
具体地,基于DDQN的能量管理方法设计过程如下。
1、确定关键元素
1)状态向量:
将锂电池的SOCb、超级电容SOCsc和整车需求功率Pdem作为环境的状态观测量,表示为:
Figure BDA0003093061370000071
其中,S表示状态观测量集合,s(t)表示t时刻的状态观测量。
为缩小计算量,加快训练速度,优选地,对整车需求功率Pdem进行归一化处理,即把需求功率Pdem缩小到[-1,1]之间,计算其算术平均值mean(x)和标准差std(x),按照标准归一化通用公式计算,表示为:
Figure BDA0003093061370000072
其中,mean(x)和std(x)分别表示输入状态数据的算术平均值和标准差。算术平均值mean(x)和标准差std(x)的计算如下:
Figure BDA0003093061370000073
Figure BDA0003093061370000074
2)动作向量:
为加快基于DDQN的能量管理方法的收敛速度以及增强方法的控制效果,优选地,以基于动态规划的全局最优控制结果来对智能体输出动作的可行动作输出区间进行设定,将锂电池输出功率Pbatt定义为输出动作。由于DDQN算法需要对输出动作进行离散化处理,即将一个可行的动作区间分成n份。而基于优化的能量管理方法中,动态规划的控制结果具有全局全优的优点,且其结果也是一个离散的最优控制动作序列,故参考相同优化目标和控制对象的基于动态规划能量管理方法的最优控制动作序列结果,恰当地将输出动作区间设置为n份,即动作间隔为
Figure BDA0003093061370000075
Pbatt_max和Pbatt_min分别表示锂电池输出功率的最大值和最小值。
Figure BDA0003093061370000076
其中,A表示输出动作集合,a(t)表示t时刻输出的动作。
3)奖励函数:
在一个实施例中,为了提高系统效率,将最小化复合储能系统的能量损失作为优化目标,由此出发,设置相应的奖励函数r(t),该奖励函数通过在Simulink中建立相应的数学模型实现,例如表示为:
Figure BDA0003093061370000081
Eloss=Lsc+Lbatt+Ldcdc (7)
其中,Eloss表示复合储能系统整体的能量损耗;SOCb_tgt表示锂电池SOCb的目标值;SOCsc-tgt表示超级电容SOCsc的目标值;Lsc,Lbatt,Ldcdc分别表示超级电容、锂电池和DCDC转换器的能量损失;m表示能量损失项的系数,n和p分别表示平衡锂电池和超级电容的SOC变化的系数,这三个系数需在训练过程中进行调整。
进一步地,能量管理优化问题需在一定的约束下寻找最优解,例如约束条件表示为:
Figure BDA0003093061370000082
其中,Ib为锂电池的电流,Isc为超级电容的电流,Ib_min和Ib_max分别表示锂电池电流的最小和最大值;Isc_min和Isc_max分别表示超级电容电流的最小和最大值,Pdem表示整车需求功率,Pmin和Pmax分别表示车辆需求功率的最小和最大值。
2、设计神经网络
DDQN的神经网络涉及到结构、层数、神经元个数和激活函数的设计和选择,均需根据实际训练情况进行恰当的设置和调整。例如,通过在Matlab的m文件编写代码以调用神经网络相关函数的方式设计DDQN的神经网络,并利用全连接方式进行神经网络各层之间的连接,对于各层网络神经元个数(几十个至几百个不等)以及层数(通常为几层),则需要根据实际数据量和训练结果进行设计,而中间层的激活函数例如设置为线性整流函数ReLU,网络输出层的激活函数则设置为tanh,使得输出值约束到[-1,1]之间。这两种激活函数的原理如下:
线性整流函数(ReLU)
Figure BDA0003093061370000091
tanh激活函数
Figure BDA0003093061370000092
3、DDQN算法的更新原理
首先,定义DDQN评估Q网络的参数为θ,目标Q网络的参数则为θ′,出于收敛和增强训练效果的考虑,在训练过程中,评估Q网络的网络参数θ会每隔一定的时间步长复制给目标Q网络θ′。强化学习和深度强化学习均是基于贝尔曼原理的算法,DDQN算法Q值的计算方式表示为:
Figure BDA0003093061370000093
其中,
Figure BDA0003093061370000094
表示期望;rt+1表示t+1时刻的奖励;γ表示折扣因子,是出于算法收敛的角度考虑;st,st+1分别表示t和t+1时刻的状态,at,at+1分别表示t和t+1时刻输出的动作;
Figure BDA0003093061370000095
表示在状态动作对(st,at)时由网络参数θ′估计的在st+1采取动作at+1的Q值。
根据DDQN算法的机制,Q值的更新为:
Figure BDA0003093061370000096
其中,η表示学习率,会对训练速度及学习效果有较大的影响,其他项的符号意义同公式(11)。
为使得算法收敛,在一个实施例中,定义损失函数L(θ)为评估网络Q值和目标网络Q′值的差值的平方,DDQN算法的训练过程即最小化损失L(θ)至某一定值的过程,表示为:
Figure BDA0003093061370000101
其中,
Figure BDA0003093061370000102
表示由之前的网络参数θ′估计得出的目标Q值;Q(st,at,θ)则表示由网络参数θ估计的Q值。其他项的符号意义同公式(11),rt表示t时刻的奖励。
Q网络参数θ在损失函数L(θ)上以梯度下降进行更新:
Figure BDA0003093061370000103
其中,
Figure BDA0003093061370000104
表示对网络参数θ的梯度,其他项的符号意义同公式(11)和(13)。
4、探索和应用的算法
深度强化学习的探索和应用是一个需要权衡的问题,既要避免过多的探索也要避免过多的应用。在一个实施例中,利用贪心算法(ε-greedy)平衡智能体的探索和应用,即以ε的概率随机选择执行动作,以(1-ε)的概率选择当前状态下对应最大Q值的动作,在训练开始时需先定义一个恰当的ε初始值,以及终止探索的ε值。ε的初始值和终止值会较大地影响训练效果和收敛速度,故需要在训练时在相关代码文件如Matlab m文件中仔细地进行设置、调整。
5、设计优先经验回放
DDQN算法属于离策略(off-policy)的深度强化学习算法,即经验样本的生成与当前策略无关,故可考虑从过去的经验样本中进行学习以提高学习效率,一般会引入经验回放的技巧,同时为减少样本之间的关联度以随机抽样的方式抽取经验样本。在一个实施例中,在Matlab的m文件中设定经验回放池的大小为D,最小批采样数为N*(st,at,rt,st+1)。经验回放的流程为,先定义经验池的大小为D,在每个时间步长,在经验池中存储一个样本数组(st,at,rt,st+1),当存储了一定量的样本后,智能体从经验池中随机抽取一小批样本数组N*(st,at,rt,st+1),以便从过去的样本中进行学习。对于经验样本数组(st,at,rt,st+1)的利用,如图2所示,具体过程是:将状态st、动作at输入到实际的评估Q网络以估算出Q值,而st+1则输入到目标Q网络得到目标Q值Q′,并与rt相加后与评估Q网络估计的Q值进行均方根误差的计算,若误差较大,则说明还需要进行较多次的参数更新,以减少误差。
然而,经验回放是均匀分布采样,即所有经验样本被采样到的概率相同,为进一步提高有价值样本(st,at,rt,st+1)的采样概率,进而提高学习效率,加速算法的收敛过程,优选地,引入优先经验回放的技巧,其是原有经验回放技巧的改进。优先经验回放主要是增大有价值(即能获得较大奖励)样本被采样的概率,优先抽取最有价值的样本进行学习,从而可更高效更快速地学习。因此,要进行优先经验回放的操作,需要首先衡量经验样本的价值,可通过TD error来判断,由Q值的更新公式可得到:
Figure BDA0003093061370000111
其中,δt表示TD error值,其他项的符号意义同公式(11)。
DDQN算法的优化目标之一是让TD error尽可能小,若TD error较大,则说明当前的Q函数距离目标的Q函数差距较大,需要更多的进行参数更新来减小TD error,因此用TDerror来衡量经验的价值。此外,为了避免神经网络过拟合,还通过随机概率的方式抽取经验样本,以保证即使是奖励为0的样本也有概率被抽取到,令每个样本经验的优先概率值为:
Figure BDA0003093061370000112
其中,pi=|δt|+∈>0,∈是一个很小的正数,目的是防止奖励为0的样本被抽取到的概率为0。优先级因子λ决定优先经验回放的程度,该值需恰当的设置以达到较好的训练效果,当λ=0时,表示不采用优先经验回放,使用正常的经验回放进行训练。同时还需要对pi做出限制,以保证无论极值是何值时采样的稳定性,优先经验回放的概率计算也在相关代码文件如Matlab m文件中进行设置。
6、设置其他关键参数
在训练开始前,还需要在相关代码文件如Matlab m文件中初始化一些关键的参数,例如包括学习率(一般小于1)、训练的回合数(一般在1000回合以内)、每回合的最大时间或周期T,一般等于训练数据集的时间、数据采集的时间间隔Ts(0.1s-1s)和训练的时间步长,一般等于(每回合周期T)/(数据采集的时间间隔Ts)。为避免出现锂电池和超级电容的状态(如SOC)超过约束的范围时仍处于训练的情况,还需要设置每回合训练的终止条件,以重新开始下一回合的训练并使得所训练得到方法符合预期。
7、选取训练数据
例如,通过在Simulink模型中使用Drive cycle source模块并从其自带的开源标准驾驶循环工况中选取如欧洲标准驾驶循环工况NEDC(new European driving cycle)、WLTC(worldwide harmonized light vehicle test procedure cycle)或将不同的标准驾驶循环重新有机组合在一起成为混合驾驶循环工况等,作为基于DDQN能量管理方法训练的数据集。
8、基于DDQN能量管理方法的训练过程
在相关代码文件如Matlab m文件中设置调用Simulink智能体-环境(车辆)模型的指令并经上述设计完成之后的DDQN方法即可开始训练,在一个实施例中,还通过使用Matlab自带的并行计算工具箱(parallel computing toolbox)的并行计算功能加速基于DDQN的能量管理方法的训练、收敛过程,从而显著缩短训练时间。
如图2所示,基于DDQN的能量管理方法的具体训练过程如下,在每个时间步长,根据用来训练的标准驾驶循环工况计算得出需求功率以及选定的相关车辆状态输入到智能体中,其中输入的状态观测量分别会输入到经验池中存储以及估计Q值的评估网络中,该网络按照已有方法并依据ε-greedy原则选择输出动作at到环境(车辆)中,一方面,环境(车辆)的状态随之由st变成st+1,另一方面,环境(车辆)则根据奖励函数将相应动作at的奖励立即反馈到智能体的经验池中。评估Q网络的网络参数θ会以一个特定的频率复制到目标Q网络中,成为目标Q网络的网络参数θ′,当经验池中存储了一定的经验样本后,利用优先经验回放技巧从经验池中提取一小批量的样本分别输入到评估Q网络和目标Q网络中,目标Q网络输出下一时刻st+1对应的目标Q值,其与经验样本中的奖励rt相加后,再与估计的Q值一同计算均方根值,即为网络的损失L(公式(13)),计算该损失L对网络参数θ的偏微分
Figure BDA0003093061370000131
即为损失梯度,将该值反馈到估计Q网络中,依据最小化损失的原则评估Q网络会不断地更新网络参数θ,以使得输出的动作能获得最大累计奖励,该过程将一直在每个训练回合重复,直至最终收敛。
二、设计基于规则和双深度Q网络的能量管理方法
参见图3的基于规则和双深度Q网络的混合能量管理方法的控制逻辑以及图4的混合能量管理方法的设计流程,在本实施例中,训练完成的基于DDQN的能量管理方法,可通过代码指令在Simulink中的环境(车辆)模型中的RL agent模块中生成已训练完成并可随时仿真使用的控制方法。此外,例如利用Simulink/State flow设计基于规则的方法,并将其与DDQN的方法整合到一起,形成混合能量管理方法。
在完成上述设计后,在实际应用中,参见图5所示,所提供的基于规则和双深度Q网络的混合动力汽车能量管理方法包括:步骤S510,检测设有复合储能系统的车辆能量源,该复合储能系统包括锂电池能量源和超级电容能量源;步骤S520,当锂电池在预设的正常约束工作范围的情况下,利用经训练的深度强化学习模型确定锂电池的输出功率,当锂电池没有处于正常约束工作范围时,则使用基于规则的方法对锂电池进行保护。其中深度强化学习模型即根据上文设计和训练的双深度Q网络。
具体地,结合图3所示,所提出的混合动力汽车能量管理方法的控制逻辑为:当锂电池在预设的正常约束工作范围(SOC_min≤SOCbatt≤SOC_max)时,使用基于双深度Q网络的能量管理方法,而当锂电池的SOC超出正常的约束范围时(SOC<SOC_min&SOC>SOC_max),则使用基于规则的方法对锂电池进行保护,从而避免锂电池的过充过放,以延长锂电池的使用寿命。具体包括:1)当锂电池SOCbatt低于设定的下限值SOC_min,令锂电池停止放电,只接受充电;再判断超级电容SOCsc是否高于限制的下限值SOCc_min,若高于,则令超级电容根据车辆需求功率短时放电;若低于,则只能提醒驾驶员停止行驶,尽快找充电桩充电;2)若锂电池的SOCbatt高于上限值SOC_max,则令锂电池不再充电,只进行放电;判断此时超级电容SOCsc是否高于限制的上限SOCc_max,若高于,则放弃制动能量回收;若低于,则超级电容吸收全部的制动能量回收功率。
综上所述,本发明提供的基于规则和双深度Q网络的混合能量管理方法,利用动态规划最优结果和优先经验回放技巧,实现了以下优势:不依赖于已知条件(车速、路况等)和已有的模型;可实现更快的收敛速度,更好的优化效果;可实现更全面的控制范围,例如锂电池SOC在[0,1]之间都有相应的控制方法进行能量的管理,有效解决锂电池由于频繁过充电、过放电而导致使用寿命骤减的问题。
本发明可以是系统、方法和/或计算机程序产品。计算机程序产品可以包括计算机可读存储介质,其上载有用于使处理器实现本发明的各个方面的计算机可读程序指令。
计算机可读存储介质可以是可以保持和存储由指令执行设备使用的指令的有形设备。计算机可读存储介质例如可以是——但不限于——电存储设备、磁存储设备、光存储设备、电磁存储设备、半导体存储设备或者上述的任意合适的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括:便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、静态随机存取存储器(SRAM)、便携式压缩盘只读存储器(CD-ROM)、数字多功能盘(DVD)、记忆棒、软盘、机械编码设备、例如其上存储有指令的打孔卡或凹槽内凸起结构、以及上述的任意合适的组合。这里所使用的计算机可读存储介质不被解释为瞬时信号本身,诸如无线电波或者其他自由传播的电磁波、通过波导或其他传输媒介传播的电磁波(例如,通过光纤电缆的光脉冲)、或者通过电线传输的电信号。
这里所描述的计算机可读程序指令可以从计算机可读存储介质下载到各个计算/处理设备,或者通过网络、例如因特网、局域网、广域网和/或无线网下载到外部计算机或外部存储设备。网络可以包括铜传输电缆、光纤传输、无线传输、路由器、防火墙、交换机、网关计算机和/或边缘服务器。每个计算/处理设备中的网络适配卡或者网络接口从网络接收计算机可读程序指令,并转发该计算机可读程序指令,以供存储在各个计算/处理设备中的计算机可读存储介质中。
用于执行本发明操作的计算机程序指令可以是汇编指令、指令集架构(ISA)指令、机器指令、机器相关指令、微代码、固件指令、状态设置数据、或者以一种或多种编程语言的任意组合编写的源代码或目标代码,所述编程语言包括面向对象的编程语言—诸如Smalltalk、C++、Python等,以及常规的过程式编程语言—诸如“C”语言或类似的编程语言。计算机可读程序指令可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络—包括局域网(LAN)或广域网(WAN)—连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。在一些实施例中,通过利用计算机可读程序指令的状态信息来个性化定制电子电路,例如可编程逻辑电路、现场可编程门阵列(FPGA)或可编程逻辑阵列(PLA),该电子电路可以执行计算机可读程序指令,从而实现本发明的各个方面。
这里参照根据本发明实施例的方法、装置(系统)和计算机程序产品的流程图和/或框图描述了本发明的各个方面。应当理解,流程图和/或框图的每个方框以及流程图和/或框图中各方框的组合,都可以由计算机可读程序指令实现。
这些计算机可读程序指令可以提供给通用计算机、专用计算机或其它可编程数据处理装置的处理器,从而生产出一种机器,使得这些指令在通过计算机或其它可编程数据处理装置的处理器执行时,产生了实现流程图和/或框图中的一个或多个方框中规定的功能/动作的装置。也可以把这些计算机可读程序指令存储在计算机可读存储介质中,这些指令使得计算机、可编程数据处理装置和/或其他设备以特定方式工作,从而,存储有指令的计算机可读介质则包括一个制造品,其包括实现流程图和/或框图中的一个或多个方框中规定的功能/动作的各个方面的指令。
也可以把计算机可读程序指令加载到计算机、其它可编程数据处理装置、或其它设备上,使得在计算机、其它可编程数据处理装置或其它设备上执行一系列操作步骤,以产生计算机实现的过程,从而使得在计算机、其它可编程数据处理装置、或其它设备上执行的指令实现流程图和/或框图中的一个或多个方框中规定的功能/动作。
附图中的流程图和框图显示了根据本发明的多个实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或指令的一部分,所述模块、程序段或指令的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或动作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。对于本领域技术人员来说公知的是,通过硬件方式实现、通过软件方式实现以及通过软件和硬件结合的方式实现都是等价的。
以上已经描述了本发明的各实施例,上述说明是示例性的,并非穷尽性的,并且也不限于所披露的各实施例。在不偏离所说明的各实施例的范围和精神的情况下,对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。本文中所用术语的选择,旨在最好地解释各实施例的原理、实际应用或对市场中的技术改进,或者使本技术领域的其它普通技术人员能理解本文披露的各实施例。本发明的范围由所附权利要求来限定。

Claims (10)

1.一种基于规则和双深度Q网络的混合动力汽车能量管理方法,包括以下步骤:
检测设有复合储能系统的车辆能量源,该复合储能系统包括锂电池能量源和超级电容能量源;
在检测到锂电池处于预设的正常约束工作范围的情况下,利用经训练的深度强化学习模型确定锂电池的输出功率,在检测到锂电池没有处于正常约束工作范围的情况下,则使用设定规则对锂电池进行保护;
其中,对于所述深度强化学习模型,其智能体包括评估Q网络和目标Q网络,环境的状态观测量是锂电池的剩余电量、超级电容的剩余电量以及整车需求功率,锂电池输出功率作为输出动作,并以最小化所述复合储能系统的能量损失作为目标,设置相应的奖励函数。
2.根据权利要求1所述的方法,其特征在于,将所述深度强化学习模型的输出动作区间设置为n份,表示为:
Figure FDA0003093061360000011
其中,动作间隔为
Figure FDA0003093061360000012
Pbatt_max和Pbatt_min分别表示锂电池输出功率的最大值和最小值,A表示输出动作集合,a(t)表示t时刻输出的动作。
3.根据权利要求1所述的方法,其特征在于,在训练所述深度强化学习模型过程中,包括通过随机概率的方式抽取经验样本,每个样本经验的优先概率值表示为:
Figure FDA0003093061360000013
其中,pi=|δt|+∈>0,∈是设定的正数,优先级因子λ用于决定优先经验回放的程度,δt是经验样本的价值,表示为:
Figure FDA0003093061360000014
其中,rt+1表示t+1时刻的奖励,γ表示折扣因子,at,at+1分别表示t和t+1时刻输出的动作,st,st+1分别表示t和t+1时刻的状态观察值,
Figure FDA0003093061360000021
表示在状态st+1采取动作at+1时估计的Q值,Q(st,at)表示t时刻的Q值。
4.根据权利要求1所述的方法,其特征在于,所述奖励函数设置为:
Figure FDA0003093061360000022
Eloss=Lsc+Lbatt+Ldcdc
其中,Eloss表示复合储能系统整体的能量损耗,SOCb_tgt表示锂电池剩余电量SOCb的目标值,SOCsc-tgt表示超级电容剩余电量SOCsc的目标值,Lsc,Lbatt,Ldcdc分别表示超级电容、锂电池和复合储能系统中DCDC转换器的能量损失,m表示能量损失项的系数,n和p分别表示平衡锂电池和超级电容的剩余电量变化的系数;
利用所述深度强化学习模型求解能量优化问题的约束设置为:
Figure FDA0003093061360000023
其中,Ib为锂电池的电流,Isc为超级电容的电流,Ib_min和Ib_max分别表示锂电池电流的最小和最大值;Isc_min和Isc_max分别表示超级电容电流的最小和最大值,Pdem表示整车需求功率,Pmin和Pmax分别表示整车需求功率的最小和最大值,Pbatt表示锂电池输出功率,Pbatt_min和Pbatt_max分别表示锂电池输出功率的最小和最大值。
5.根据权利要求1所述的方法,其特征在于,所述使用设定规则对锂电池进行保护包括以下步骤:
当锂电池剩余电量SOCbatt低于设定的下限值SOC_min时,令锂电池停止放电,只接受充电;并判断超级电容剩余电量SOCsc是否高于限制的下限值SOCc_min,若高于,则令超级电容根据车辆需求功率短时放电;若低于,则提醒驾驶员停止行驶;
若锂电池的剩余电量SOCbatt高于上限值SOC_max,则令锂电池不再充电,只进行放电;并判断超级电容剩余电量SOCsc是否高于限制的上限SOCc_max,若高于,则放弃制动能量回收;若低于,则超级电容吸收全部的制动能量回收功率。
6.根据权利要求1所述的方法,其特征在于,所述状态观测量表示为:
Figure FDA0003093061360000031
其中,S表示状态观测量集合,s(t)表示t时刻的状态观测量,SOCb表示锂电池的剩余电量,SOCsc表示超级电容的剩余电量,Pdem表示整车需求功率且该整车需求功率是经归一化处理的值。
7.根据权利要求1所述的方法,其中,训练所述深度强化学习模型的损失函数L(θ)设置为评估网络Q值和目标网络Q′值的差值的平方,表示为:
Figure FDA0003093061360000032
其中,
Figure FDA0003093061360000033
表示由之前的网络参数θ′估计得出的目标Q值;Q(st,at,θ)则表示由网络参数θ估计的Q值,st和st+1分别表示t和t+1时刻的状态,at和at+1分别表示t和t+1时刻输出的动作,γ表示折扣因子,rt表示t时刻的奖励。
8.根据权利要求1所述的方法,其特征在于,所述深度强化学习模型的训练过程包括:
在每个时间步长,根据用于训练的标准驾驶循环工况计算得出需求功率和选定的相关车辆状态输入到智能体中,其中输入的状态观测量分别输入到经验池中存储以及评估Q网络中,该评估Q网络依据ε-greedy原则选择输出动作at到环境中,环境的状态由st变成st+1
环境根据奖励函数将相应动作at的奖励反馈到智能体的经验池中,在该过程中,评估Q网络的网络参数θ以设定的频率复制到目标Q网络中,成为目标Q网络的网络参数θ′;
当经验池中存储一定的经验样本后,从经验池中提取一小批量的样本分别输入到评估Q网络和目标Q网络中,目标Q网络输出下一时刻st+1对应的目标Q值,基于目标Q值和估计的Q值计算损失值及其对评估Q网络参数的损失梯度,并该值反馈到估计Q网络中,估计Q网络依据最小化损失的原则更新网络参数θ,以使输出的动作获得最大累计奖励。
9.一种计算机可读存储介质,其上存储有计算机程序,其中,该程序被处理器执行时实现根据权利要求1至8中任一项所述方法的步骤。
10.一种计算机设备,包括存储器和处理器,在所述存储器上存储有能够在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现权利要求1至8中任一项所述的方法的步骤。
CN202110602198.0A 2021-05-31 2021-05-31 基于规则和双深度q网络的混合动力汽车能量管理方法 Active CN113511082B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN202110602198.0A CN113511082B (zh) 2021-05-31 2021-05-31 基于规则和双深度q网络的混合动力汽车能量管理方法
PCT/CN2021/137803 WO2022252559A1 (zh) 2021-05-31 2021-12-14 基于规则和双深度q网络的混合动力汽车能量管理方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110602198.0A CN113511082B (zh) 2021-05-31 2021-05-31 基于规则和双深度q网络的混合动力汽车能量管理方法

Publications (2)

Publication Number Publication Date
CN113511082A true CN113511082A (zh) 2021-10-19
CN113511082B CN113511082B (zh) 2023-06-16

Family

ID=78065129

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110602198.0A Active CN113511082B (zh) 2021-05-31 2021-05-31 基于规则和双深度q网络的混合动力汽车能量管理方法

Country Status (2)

Country Link
CN (1) CN113511082B (zh)
WO (1) WO2022252559A1 (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114489144A (zh) * 2022-04-08 2022-05-13 中国科学院自动化研究所 无人机自主机动决策方法、装置及无人机
CN114475280A (zh) * 2022-03-01 2022-05-13 武汉理工大学 一种电动汽车混合动力系统能量管理方法及系统
CN115001907A (zh) * 2022-05-06 2022-09-02 河北华万电子科技有限公司 一种irs辅助微型配电网智能计算方法
WO2022252559A1 (zh) * 2021-05-31 2022-12-08 深圳先进技术研究院 基于规则和双深度q网络的混合动力汽车能量管理方法
CN116231803A (zh) * 2023-03-02 2023-06-06 深圳市华南英才科技有限公司 一种电容笔快速充电方法、装置及存储介质

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116853073B (zh) * 2023-09-04 2024-01-26 江西五十铃汽车有限公司 一种新能源电动汽车能量管理方法及系统
CN116995641B (zh) * 2023-09-26 2023-12-22 北京交通大学 一种应用于轨道交通储能的能量管理架构及方法
CN116985646B (zh) * 2023-09-28 2024-01-12 江西五十铃汽车有限公司 车辆超级电容器控制方法、设备和介质
CN117058468B (zh) * 2023-10-11 2023-12-19 青岛金诺德科技有限公司 用于新能源汽车锂电池回收的图像识别与分类系统
CN117227700B (zh) * 2023-11-15 2024-02-06 北京理工大学 串联混合动力无人履带车辆的能量管理方法及系统
CN117578679B (zh) * 2024-01-15 2024-03-22 太原理工大学 基于强化学习的锂电池智能充电控制方法
CN117933666A (zh) * 2024-03-21 2024-04-26 壹号智能科技(南京)有限公司 一种密集仓储机器人调度方法、装置、介质、设备及系统

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109552079A (zh) * 2019-01-28 2019-04-02 浙江大学宁波理工学院 一种基于规则与Q-learning增强学习的电动汽车复合能量管理方法
WO2020003181A1 (en) * 2018-06-27 2020-01-02 H3 Dynamics Holdings Pte. Ltd. Distributed electric energy pods network and associated electrically powered vehicle
CN110941202A (zh) * 2019-12-12 2020-03-31 中国科学院深圳先进技术研究院 一种汽车能量管理策略的验证方法和设备
CN111731303A (zh) * 2020-07-09 2020-10-02 重庆大学 一种基于深度强化学习a3c算法的hev能量管理方法
CN112287463A (zh) * 2020-11-03 2021-01-29 重庆大学 一种基于深度强化学习算法的燃料电池汽车能量管理方法
CN112825167A (zh) * 2019-11-05 2021-05-21 丰田自动车株式会社 电池管理系统、电池管理方法以及电池组的制造方法

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3614134B2 (ja) * 2001-12-28 2005-01-26 日産自動車株式会社 ハイブリッド車両の制御装置
CN109657194B (zh) * 2018-12-04 2022-12-27 浙江大学宁波理工学院 一种基于Q-learning和规则的混合动力车辆运行实时能源管理方法
CN110850877A (zh) * 2019-11-19 2020-02-28 北方工业大学 基于虚拟环境和深度双q网络的自动驾驶小车训练方法
CN112670982B (zh) * 2020-12-14 2022-11-08 广西电网有限责任公司电力科学研究院 一种基于奖励机制的微电网有功调度控制方法及系统
CN113511082B (zh) * 2021-05-31 2023-06-16 深圳先进技术研究院 基于规则和双深度q网络的混合动力汽车能量管理方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2020003181A1 (en) * 2018-06-27 2020-01-02 H3 Dynamics Holdings Pte. Ltd. Distributed electric energy pods network and associated electrically powered vehicle
CN109552079A (zh) * 2019-01-28 2019-04-02 浙江大学宁波理工学院 一种基于规则与Q-learning增强学习的电动汽车复合能量管理方法
CN112825167A (zh) * 2019-11-05 2021-05-21 丰田自动车株式会社 电池管理系统、电池管理方法以及电池组的制造方法
CN110941202A (zh) * 2019-12-12 2020-03-31 中国科学院深圳先进技术研究院 一种汽车能量管理策略的验证方法和设备
CN111731303A (zh) * 2020-07-09 2020-10-02 重庆大学 一种基于深度强化学习a3c算法的hev能量管理方法
CN112287463A (zh) * 2020-11-03 2021-01-29 重庆大学 一种基于深度强化学习算法的燃料电池汽车能量管理方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
李央: "基于锂电池和超级电容的车用混合动力系统能量管理研究", 《汽车工业》 *
李央: "基于锂电池和超级电容的车用混合动力系统能量管理研究", 《汽车工业》, 1 January 2021 (2021-01-01) *

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2022252559A1 (zh) * 2021-05-31 2022-12-08 深圳先进技术研究院 基于规则和双深度q网络的混合动力汽车能量管理方法
CN114475280A (zh) * 2022-03-01 2022-05-13 武汉理工大学 一种电动汽车混合动力系统能量管理方法及系统
CN114489144A (zh) * 2022-04-08 2022-05-13 中国科学院自动化研究所 无人机自主机动决策方法、装置及无人机
CN115001907A (zh) * 2022-05-06 2022-09-02 河北华万电子科技有限公司 一种irs辅助微型配电网智能计算方法
CN116231803A (zh) * 2023-03-02 2023-06-06 深圳市华南英才科技有限公司 一种电容笔快速充电方法、装置及存储介质
CN116231803B (zh) * 2023-03-02 2024-01-23 深圳市华南英才科技有限公司 一种电容笔快速充电方法、装置及存储介质

Also Published As

Publication number Publication date
CN113511082B (zh) 2023-06-16
WO2022252559A1 (zh) 2022-12-08

Similar Documents

Publication Publication Date Title
CN113511082B (zh) 基于规则和双深度q网络的混合动力汽车能量管理方法
Wu et al. Continuous reinforcement learning of energy management with deep Q network for a power split hybrid electric bus
Zhao et al. A deep reinforcement learning framework for optimizing fuel economy of hybrid electric vehicles
Sun et al. Investigating adaptive-ECMS with velocity forecast ability for hybrid electric vehicles
Lin et al. Reinforcement learning based power management for hybrid electric vehicles
CN112862281A (zh) 综合能源系统调度模型构建方法、装置、介质及电子设备
Vasanthkumar et al. Improved wild horse optimizer with deep learning enabled battery management system for internet of things based hybrid electric vehicles
CN110481536B (zh) 一种应用于混合动力汽车的控制方法及设备
Wang et al. Parameterized deep Q-network based energy management with balanced energy economy and battery life for hybrid electric vehicles
CN112434463B (zh) 一种车辆复合电源能量管理系统
CN112215434A (zh) 一种lstm模型的生成方法、充电时长预测方法及介质
Zhang et al. State-of-charge estimation of lithium-ion battery pack based on improved RBF neural networks
CN112491094B (zh) 一种混合驱动的微电网能量管理方法、系统及装置
Hu et al. An adaptive hierarchical energy management strategy for hybrid electric vehicles combining heuristic domain knowledge and data-driven deep reinforcement learning
Zhao et al. The li-ion battery state of charge prediction of electric vehicle using deep neural network
Kong et al. A data-driven energy management method for parallel PHEVs based on action dependent heuristic dynamic programming (ADHDP) model
Huang et al. State of charge estimation of li-ion batteries based on the noise-adaptive interacting multiple model
Timilsina et al. Degradation abatement in hybrid electric vehicles using data-driven technique
Eider et al. Dynamic EV battery health recommendations
CN112865221A (zh) 基于经验函数和物联网的汽车锂电池动态充电保护系统
Golchoubian et al. Stochastic nonlinear model predictive control of battery-supercapacitor hybrid energy storage systems in electric vehicles
CN112550050A (zh) 一种电动汽车充电方法和系统
CN112381359A (zh) 一种基于数据挖掘的多critic强化学习的电力经济调度方法
CN112613229B (zh) 混合动力设备的能量管理方法、模型训练方法及装置
CN116454902A (zh) 基于强化学习的配电网调压方法、装置、设备和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant