CN113110052B

CN113110052B - 一种基于神经网络和强化学习的混合能量管理方法

Info

Publication number: CN113110052B
Application number: CN202110403508.6A
Authority: CN
Inventors: 陶吉利; 李央; 张靖妮; 马龙华
Original assignee: Zhejiang University of Science and Technology ZUST
Current assignee: Zhejiang University of Science and Technology ZUST
Priority date: 2021-04-15
Filing date: 2021-04-15
Publication date: 2022-07-26
Anticipated expiration: 2041-04-15
Also published as: CN113110052A

Abstract

本发明公开了一种基于神经网络和强化学习的混合能量管理方法，属于自动化技术领域。本发明采用模糊控制器的输出作为神经网络初始的离线数据集来进行训练，应用学习得到的神经网络产生新的数据加入至原有的数据集中，并反复更迭这两个过程。针对每个时刻的状态，采用训练之后的神经网络来预测当前状态在采取相应动作之后转移到的下一状态，根据累计奖励最大化的原则选择一定长度的最优动作序列，选取动作序列的第一个动作作为当前状态的最优控制动作。利用该方法可有效减少能量的浪费并且通过超级电容辅助锂电池供电，减少了锂电池的使用，达到了延长锂电池寿命的目标。

Description

一种基于神经网络和强化学习的混合能量管理方法

技术领域

本发明属于自动化技术领域，涉及一种基于神经网络和强化学习的锂电池和超级电容混合能量在线管理策略。

背景技术

目前，强化学习算法一般可以分为两大类：无模型的方法和基于模型的方法，无模型方法的核心是学习一个策略或价值函数，而基于模型方法的核心是学习一个动态模型。尽管无模型的深度强化学习算法可以学习很多内容，例如在机器人领域，强化学习智能体可以学习不同类型的机器人技能。虽然学习的结果是很不错的，但这样的算法没有把数据高效地利用起来，需要极大规模的样本才能学习达到不错的效果，相当于是在无数次的试错过程中进行学习，并且通常一次只能学习一个任务，当任务改变时，需要重新进行相应的学习，因此这种方法难以在真实场景中大量地应用。在实际应用中，由于车辆在真实运行场景下会处于各种各样不同的驾驶工况，而无模型算法不够灵活，并且它们对样本的要求使得它们难以被用在真实场景下学习能量分配的策略。

相比之下，基于模型的强化学习算法就具备了较大优势的样本高效性，它们能够在已有的样本基础上，结合模型进行快速的学习。在以往的研究中，为了实现优良的样本效率，基于模型的算法使用了相对简单的函数近似器或者抵抗过度拟合的贝叶斯模型，使得算法能够使用少量的样本进行有效的学习。但这会导致它们难以很好地泛化到复杂度高和维度高的任务。为了应对真实世界中任务的复杂性，有很多研究使用大规模的深度神经网络(NN)来模拟深度强化学习的复杂动态系统，但此类模型通常存在一些问题，例如训练样本太少容易引起过拟合，复杂的模型对于相对简单的低维任务会显得计算冗余等等。

发明内容

为了克服现有技术中对建立模型所要求的数据量庞大、并且对数据利用效率低的缺陷，提出一种基于神经网络模型的强化学习方法。本发明的技术方案是通过数据生成、模型建立及在线训练，确立了一种基于神经网络和强化学习的锂电池和超级电容混合能量在线管理策略。利用该方法可有效减少能量的浪费并且通过超级电容辅助锂电池供电，减少了锂电池的使用，达到了延长锂电池寿命的目标。

为了实现上述目的，本发明具体采用的技术方案如下：

一种基于神经网络和强化学习的混合能量管理方法，用于对由锂电池和超级电容构成的混合能源系统进行功率分配控制，其具体做法如下：基于预先构建的神经网络，使用自适应模糊能量管理控制器的输出作为神经网络模型初始的离线训练数据，采用强化学习方法学习得到的神经网络用来产生新的数据以增加到原有的神经网络训练数据中继续进行神经网络的学习，不断更迭完成对神经网络的训练；利用训练完毕的神经网络预测当前状态在采取相应动作之后转移到的下一状态，根据累计奖励最大化的原则选择最优动作序列，选取动作序列的第一个动作作为当前状态的最优控制动作，得到锂电池和超级电容各自的输出功率。

作为优选，混合能量管理方法的具体步骤如下：

S1、利用双输入、单输出的自适应模糊控制能量管理控制器模拟控制车辆在不同驾驶工况下的锂电池输出比例，所述自适应模糊控制能量管理控制器以车辆运行所需功率Pdem和超级电容荷电状态USOC作为输入，以锂电池输出功率占总需求功率的比例为输出u_b；

S2、基于自适应模糊控制能量管理控制器的模拟数据构建第一训练数据集D_init，数据集中每个样本(s_t,a_t,s_t+1)由输入数据(s_t,a_t)和输出标签为下一时刻与当前时刻的荷电状态变化量s_t+1-s_t，其中s_t表示当前时刻t的车辆运行所需功率Pdem_t和超级电容荷电状态USOC_t，s_t+1表示下一时刻t+1的车辆运行所需功率Pdem_t+1和超级电容荷电状态USOC_t+1，a_t表示当前时刻t的锂电池输出功率占总需求功率的比例u_bt；

S3、以第一训练数据集D_init和初始为空集的第二训练数据集D_RL作为神经网络模型的训练数据集D，训练得到以(s_t,a_t)为输入来预测s_t+1-s_t的预测模型

S4、基于最新的预测模型

使用随机打靶法结合预设的奖励函数针对所有待选择动作序列计算累计奖励值，以累计奖励最大化的原则选出长度为H的最优动作序列

执行该最优动作序列的第一个动作a_t，通过锂电池和超级电容的等效模型计算s_t在经过动作a_t之后的下一个时刻的状态s_t+1；在总长度为T的时段内不断迭代每个时刻，得到T个新的样本(s_t,a_t,s_t+1)，将这T个新的样本更新到第二训练数据集D_RL中，并使用更新后的训练数据集D再次训练神经网络模型得到更新后的预测模型；

S5、不断重复S4，直至预测模型达到收敛条件，得到最终预测模型；

S6、在每个时刻对混合能源系统进行功率分配控制时，基于所述最终预测模型,使用随机打靶法结合预设的奖励函数针对所有待选择动作序列计算累计奖励值，以累计奖励最大化的原则选出最优动作序列，执行该最优动作序列的第一个动作，得到锂电池和超级电容各自的输出功率。

进一步的，数据集中每个样本(s_t,a_t,s_t+1)均需要进行零均值归一化处理。

作为优选，所述自适应模糊能量管理控制器中，将车辆运行所需功率Pdem和超级电容的SOC荷电状态USOC模糊化为I₁和I₂，作为模糊控制器的输入，通过去模糊化求得模糊控制器的输出u_b；针对不同的驾驶工况选择不同的自适应增益k，根据下面公式计算锂电池的输出功率Pb：

Pb＝(u_b+k(i))Pdem,i＝1,…,I

式中：I为驾驶工况的总数，k(i)表示第i种驾驶工况的自适应增益。

作为优选，所述的奖励函数中，按一定的权重进行累加计算得到从当前状态往后的累计奖励R_t，越近的动作对应的权重γ越大，奖励函数的形式为：

式中：R_b为锂电池等效内阻，R_c为超级电容等效内阻，i_bt为当前时刻t的锂电池电流，i_ct为当前时刻t的超级电容电流，Δi_bt为锂电池的电流变化量，USOC_t+1为t+1时刻的超级电容荷电量；SOC_min和SOC_max分别是超级电容荷电量的下限和上限；r_t是在t时刻执行动作a_t后所获得的即时奖励；γ^t′-t表示权重γ的t′-t次方；R_t为t′＞t时的累计奖励；未来时刻t'>t的状态s_t'通过预测模型预测得到。

作为优选，所述神经网络模型在训练过程中，通过随机梯度下降方法最小化误差ε(θ)进行参数优化，其中误差函数定义如下：

式中：|D|表示训练数据集D中的样本个数。

作为优选，所述用随机打靶法结合预设的奖励函数针对所有待选择动作序列计算累计奖励值的具体方法为：

首先随机生成K条候选的动作序列，使用最新的预测模型

预测每条动作序列对应的状态序列，根据预设的奖励函数计算所有状态序列的奖励值，最终选择累计奖励值最高的动作序列作为最优动作序列

H为最优动作序列的长度。

作为优选，所述收敛条件为神经网络模型训练轮数达到最大值。

相对于现有技术而言，本发明的有益效果是：

(1)采用模糊控制器的输出作为神经网络初始的离线数据集来进行训练，解决了神经网络训练数据集来源的问题。

(2)对输入数据进行零均值归一化处理，防止某些变量的值较大而对模型产生影响，降低数据噪声的影响，使结果更具有鲁棒性。

(3)根据系统的能量损耗、锂电池输出电流变化率以及USOC的状态来设计奖励函数，从而保证结果能够在满足基本的车辆功率需求前提下，维持超级电容USOC在安全范围，同时减少功耗。

(4)在选取长度为H的动作序列

时，采用随机打靶的方法，随机生成K条候选的动作序列，使用学习的神经网络模型预测对应的状态序列，计算所有序列的奖励值，最终选择累计的奖励值最高的动作序列，从而降低了计算复杂度。

(5)在实现为车辆驾驶提供所需功率的基础上，超级电容能够充分地吸收车辆在制动过程中释放的能量，避免了能量浪费。

(6)合理使用超级电容辅助锂电池供电，减少了锂电池的使用，达到了延长锂电池寿命的目标。

附图说明

下面结合附图和实施例对本发明进一步说明。

图1为基于神经网络和强化学习的控制器总体结构。

图2为自适应模糊能量管理控制器结构。

图3为神经网络的结构。

图4为实时测试中混合工况模式的驾驶速度。

图5为实时测试中的需求功率。

图6为实时测试中的功率分配误差。

图7为实时测试中锂电池的输出功率。

图8为实时测试中超级电容的输出功率。

图9为实时测试中锂电池的BSOC。

图10为实时测试中超级电容的荷电状态USOC。

具体实施方式

下面结合附图和具体实施方式对本发明做进一步阐述和说明。

本发明中，提供了一种基于神经网络和强化学习的混合能量管理方法，用于对车用混合动力系统中由锂电池和超级电容构成的混合能源系统进行功率分配控制。该方法的基本构思是基于预先构建的神经网络，使用自适应模糊能量管理控制器的输出作为神经网络模型初始的离线训练数据，采用强化学习方法学习得到的神经网络用来产生新的数据以增加到原有的神经网络训练数据中继续进行神经网络的学习，不断更迭完成对神经网络的训练；利用训练完毕的神经网预测当前状态在采取相应动作之后转移到的下一状态，根据累计奖励最大化的原则选择最优动作序列，选取动作序列的第一个动作作为当前状态的最优控制动作，得到锂电池和超级电容各自的输出功率。

在本发明的一个较佳实施例中，提供了一种实现上述混合能量管理方法的具体步骤，下面详述如下：

S1、利用双输入、单输出的自适应模糊控制能量管理控制器模拟控制车辆在不同驾驶工况下的锂电池输出比例，所述自适应模糊控制能量管理控制器以车辆运行所需功率Pdem和超级电容荷电状态USOC作为输入，以锂电池输出功率占总需求功率的比例为输出u_b。

在该自适应模糊能量管理控制器中，将车辆运行所需功率Pdem和超级电容的SOC荷电状态USOC模糊化为I₁和I₂，作为模糊控制器的输入，通过去模糊化求得模糊控制器的输出u_b；针对不同的驾驶工况选择不同的自适应增益k，根据下面公式计算锂电池的输出功率Pb：

Pb＝(u_b+k(i))Pdem,i＝1,…,I

S2、基于自适应模糊控制能量管理控制器的模拟数据构建第一训练数据集D_init，数据集中每个样本(s_t,a_t,s_t+1)由输入数据(s_t,a_t)和输出标签为下一时刻与当前时刻的荷电状态变化量s_t+1-s_t，其中s_t表示当前时刻t的车辆运行所需功率Pdem_t和超级电容荷电状态USOC_t，s_t+1表示下一时刻t+1的车辆运行所需功率Pdem_t+1和超级电容荷电状态USOC_t+1，a_t表示当前时刻t的锂电池输出功率占总需求功率的比例u_bt。须注意是的是，在用于进行神经网络训练前，数据集中每个样本(s_t,a_t,s_t+1)均需要进行零均值归一化处理。

S4、基于最新的预测模型

执行该最优动作序列的第一个动作a_t，通过锂电池和超级电容的等效模型计算s_t在经过动作a_t之后的下一个时刻的状态s_t+1；在总长度为T的时段内不断迭代每个时刻，得到T个新的样本(s_t,a_t,s_t+1)，将这T个新的样本更新到第二训练数据集D_RL中，并使用更新后的训练数据集D再次训练神经网络模型得到更新后的预测模型。

在本实施例中，用随机打靶法结合预设的奖励函数针对所有待选择动作序列计算累计奖励值的具体方法为：

首先随机生成K条候选的动作序列，使用最新的预测模型

H为最优动作序列的长度。

在本实施例中，对于前述预设的奖励函数，按一定的权重进行累加计算得到从当前状态往后的累计奖励R_t，越近的动作对应的权重γ越大，奖励函数的形式为：

式中：R_b为锂电池等效内阻，R_c为超级电容等效内阻，i_bt为当前时刻t的锂电池电流，i_ct为当前时刻t的超级电容电流，Δi_bt为锂电池的电流变化量，USOC_t+1为t+1时刻的超级电容荷电量；SOC_min和SOC_max分别是超级电容荷电量的下限和上限；r_t是在t时刻执行动作a_t后所获得的即时奖励；γ^t′-t表示权重γ的t′-t次方；R_t为t′>t时的累计奖励；未来时刻t'>t的状态s_t'通过预测模型预测得到。

S5、不断重复S4，直至预测模型达到收敛条件，得到最终预测模型。收敛条件可以设为神经网络模型训练轮数达到最大值。

在上述神经网络模型在训练过程中，通过随机梯度下降方法最小化误差ε(θ)进行参数优化，其中误差函数定义如下：

式中：|D|表示训练数据集D中的样本个数。

下面将上述方法应用于一个具体实施例中，具体的参数计算公式以及步骤的实现过程如前所述，不再赘述。下面主要展示其具体实现细节以及技术效果。

实施例

本实施例中，基于神经网络和强化学习的混合能量管理方法具体实现过程如下：

步骤(1)，获取神经网络的输入数据。

a.针对由锂电池和超级电容构成的混合能源系统(HPS)，设计一个双输入、单输出的自适应模糊控制能量管理控制器。其中，将车辆运行所需功率Pdem和超级电容的荷电状态(SOC)作为输入，输出是锂电池输出功率占总需求功率的比例。选取四种具有不同特点的代表性驾驶工况，分别为：拥堵城市道路、一般城市道路、城郊道路和高速公路。根据车辆行驶所需的功率和超级电容的荷电状态USOC，使用自适应模糊能量管理控制器进行锂电池和超级电容的功率分配。采用遗传算法针对4个标准驾驶工况优化关键参数，包括自适应增益以及模糊隶属函数的中心点等参数。

b.根据专家经验和遗传算法优化得到的参数设计模糊逻辑规则，将车辆所需功率、超级电容的SOC以及输出变量都划分为模糊子集。在本实施例中，车辆所需功率被划分为4个模糊子集(VL，L，H，VH)，分别对应非常低、低、高和非常高的含义；超级电容的SOC被划分为3个模糊子集(L，M，H)，分别对应低、中、高；输出变量被划分为6个模糊子集(VL，L，ML，MH，H，VH)，分别对应非常低、低、较低、较高、高和非常高的含义。将车辆运行所需功率Pdem和超级电容的USOC模糊化为I1和I2，作为模糊控制器的输入，去模糊化求得模糊控制器的输出u_b。然后根据不同的工况取不同的自适应增益k的值，本实施例中针对四种不同的工况，自适应增益k分别选取为0.3070、0.5095、0.5005、0.5725，从而计算锂电池的输出功率：

Pb＝(u_b+k(i))_Pdem,i＝1,…,4

c.以车辆所需功率和当前超级电容的USOC得到输入(s_t,a_t)，并且将s_t+1-s_t作为对应的输出标签。为了消除不同指标之间的量纲影响，需要对数据进行标准化处理，对需求功率和超级电容的USOC两个输入，分别将数据减去均值并除以标准差，进行零均值归一化处理，这可以防止某些变量的值较大而对模型产生影响。另外，将处理后得到的数据存在数据集D_init中作为神经网络的训练数据集。

步骤(2)，设计动态神经网络算法，具体方法是：

选定3层神经网络预测状态变化量，包括输入层、隐含层和输出层。在本实施例中，神经网络包括3个节点的输入层、10个节点的隐含层和2个节点的输出层。将当前的状态s_t和采取的动作a_t作为网络的输入量，分别是车辆需求功率Pdem_t、超级电容的SOC(USOC_t)和锂电池的输出功率比例u_bt，网络的输出是预测的状态变化量s_t+1-s_t，分别是Pdem_t+1-Pdem_t和USOC_t+1-USOC_t。即本实施例中选取t时刻的车辆需求功率Pdem_t和超级电容的SOC(USOC_t)作为状态量，将锂电池的输出功率比例u_bt作为在当前状态下的动作量，即：

s_t＝[Pdem_t,USOC_t]

a_t＝u_bt

步骤(3)，神经网络模型训练，具体方法是：

a.将在步骤(1)中通过模糊能量管理控制器离线训练会得到对于不同的驾驶工况，不同车辆行驶所需的功率下锂电池和超级电容的功率分配数据。因此将对数据进行零均值归一化处理得到的标准化数据集D_init＝(s_t,a_t,s_t+1)，和初始为空的增强学习数据集D_RL作为输入。学习一个神经网络模型

并通过SGD方法最小化前述公式2的误差ε(θ)从而进行训练。

b.根据系统的能量损耗、锂电池输出电流变化率以及USOC的状态来设计奖励函数，按一定的权重进行累加计算得到从当前状态往后的累计奖励R_t，越近的动作对应的权重γ越大，奖励函数的公式(记为公式1)为：

c.采用数据集D_init和D_RL，学习一个模型

并通过随机梯度下降(SGD)方法最小化误差ε(θ)，其中误差函数定义公式(记为公式2)如下：

式中：|D|表示训练数据集D中的样本个数。

d.对于总时间长度为T的数据集，记当前时刻为t，获取当前的状态s_t，使用

根据随机打靶法来根据c中奖励函数选择长度为H的最优动作序列

首先随机生成K条候选的动作序列，使用学习的

预测对应的状态序列，计算所有序列的奖励值，最终选择累计的奖励值最高的动作序列。所得到长度为H的动作序列并不是全部采用，而是采用该动作序列的第1个动作作为最终的执行动作，记为a_t，通过锂电池和超级电容的等效模型更新的状态s_t+1，在下一个时间点重复以上步骤，计算得到新的最优动作。

e.执行该动作序列的第一个动作a_t。通过锂电池和超级电容的等效模型计算s_t在经过动作a_t之后的下一个状态s_t+1。计算得到新的最优动作，并重复以上操作，由此得到T个新的样本(s_t,a_t)，将这T个样本加入到D_RL数据集中。

f.回到c步骤，重复步骤c-e，循环max_iter次迭代后结束训练

在本实施例中，通过上述步骤a-f可以实现对于神经网络模型的训练。对于1:T长度的每一步的t，获取当前的状态s_t，随机生成K条候选的动作序列，使用学习的

预测对应的状态序列，根据前述公式1的奖励函数计算得到的累积奖励值选择长度为15的最优动作序列

其中T＝4612，K＝50。执行该动作序列的第一个动作a_t。通过锂电池和超级电容的等效模型计算s_t在经过动作a_t之后的下一个状态s_t+1。重复以上操作，由此得到T个新的样本(s_t,a_t)，将这T个样本加入到D_RL数据集中。不断循环迭代max_iter次后结束训练，其中max_iter＝10。为了便于叙述，将最终训练完毕的神经网络模型记为最终预测模型。

步骤(4)，实现能量分配。

根据学习得到的神经网络模型作为控制器，来实现在线实时控制，在四种不同的工况下分配锂电池和超级电容的能量，实现能量管理。具体而言，在每个时刻对混合能源系统进行功率分配控制时，基于前述的最终预测模型,使用随机打靶法结合预设的奖励函数针对所有待选择动作序列计算累计奖励值，以累计奖励最大化的原则选出最优动作序列，执行该最优动作序列的第一个动作，得到锂电池和超级电容各自的输出功率。

结果显示，本发明公开的方法在测试中所分配的混合能量实现了满足车辆驾驶的需求功率的目标。相较于传统的深度Q网络(DQN)管理策略，在控制过程中，本发明的超级电容的输出功率更高，并且同时本发明超级电容USOC也更高。这表明本发明的管理策略中超级电容吸收了更多的制动能量，具有更好的节能效果。另外，本发明验证了在保证节能效果的同时，基于神经网络和强化学习的混合能量管理策略能够保证与传统DQN管理策略相近的锂电池电量管理效果，最终两者对锂电池SOC控制结果具有不超过1％的差距。

以上所述的实施例只是本发明的一种较佳的方案，然其并非用以限制本发明。有关技术领域的普通技术人员，在不脱离本发明的精神和范围的情况下，还可以做出各种变化和变型。因此凡采取等同替换或等效变换的方式所获得的技术方案，均落在本发明的保护范围内。

Claims

1.一种基于神经网络和强化学习的混合能量管理方法，用于对由锂电池和超级电容构成的混合能源系统进行功率分配控制，其特征在于：基于预先构建的神经网络，使用自适应模糊能量管理控制器的输出作为神经网络模型初始的离线训练数据，采用强化学习方法学习得到的神经网络用来产生新的数据以增加到原有的神经网络训练数据中继续进行神经网络的学习，不断更迭完成对神经网络的训练；利用训练完毕的神经网络预测当前状态在采取相应动作之后转移到的下一状态，根据累计奖励最大化的原则选择最优动作序列，选取动作序列的第一个动作作为当前状态的最优控制动作，得到锂电池和超级电容各自的输出功率；

混合能量管理方法的具体步骤如下：

S2、基于自适应模糊控制能量管理控制器的模拟数据构建第一训练数据集D_init，数据集中每个样本(s_t,a_t,s_t+1)由输入数据(s_t,a_t)和输出标签组成，输出标签为下一时刻与当前时刻的荷电状态变化量s_t+1-s_t，其中s_t表示当前时刻t的车辆运行所需功率Pdem_t和超级电容荷电状态USOC_t，s_t+1表示下一时刻t+1的车辆运行所需功率Pdem_t+1和超级电容荷电状态USOC₊₊₁，a_t表示当前时刻t的锂电池输出功率占总需求功率的比例u_bt；

S4、基于最新的预测模型

2.如权利要求1所述的基于神经网络和强化学习的混合能量管理方法，其特征在于，数据集中每个样本(s_t,a_t,s_t+1)均需要进行零均值归一化处理。

3.如权利要求1所述的基于神经网络和强化学习的混合能量管理方法，其特征在于，所述自适应模糊能量管理控制器中，将车辆运行所需功率Pdem和超级电容的SOC荷电状态USOC模糊化为I₁和I₂，作为模糊控制器的输入，通过去模糊化求得模糊控制器的输出u_b；针对不同的驾驶工况选择不同的自适应增益k，根据下面公式计算锂电池的输出功率Pb：

Pb＝(u_b+k(i))Pdem,i＝1,…,I

4.如权利要求1所述的基于神经网络和强化学习的混合能量管理方法，其特征在于，所述的奖励函数中，按一定的权重进行累加计算得到从当前状态往后的累计奖励R_t，越近的动作对应的权重γ越大，奖励函数的形式为：

式中：R_b为锂电池等效内阻，R_c为超级电容等效内阻，i_bt为当前时刻t的锂电池电流，i_ct为当前时刻t的超级电容电流，Δi_bt为锂电池的电流变化量，USOC_t+1为t+1时刻的超级电容荷电量；SOC_min和SOC_max分别是超级电容荷电量的下限和上限；r_t是在t时刻执行动作a_t后所获得的即时奖励；γ^t′-t表示权重γ的t′-次方；R_t为t′>时的累计奖励；未来时刻t'>t的状态s_t'通过预测模型预测得到。

5.如权利要求1所述的基于神经网络和强化学习的混合能量管理方法，其特征在于，所述神经网络模型在训练过程中，通过随机梯度下降方法最小化误差ε(θ)进行参数优化，其中误差函数定义如下：

式中：|D|表示训练数据集D中的样本个数。

6.如权利要求1所述的基于神经网络和强化学习的混合能量管理方法，其特征在于，所述用随机打靶法结合预设的奖励函数针对所有待选择动作序列计算累计奖励值的具体方法为：

首先随机生成K条候选的动作序列，使用最新的预测模型

H为最优动作序列的长度。

7.如权利要求1所述的基于神经网络和强化学习的混合能量管理方法，其特征在于，所述收敛条件为神经网络模型训练轮数达到最大值。