CN113837443B

CN113837443B - 基于深度BiLSTM的变电站线路负载预测方法

Info

Publication number: CN113837443B
Application number: CN202110990820.XA
Authority: CN
Inventors: 韩胜峰; 靳伟; 王文宾; 李会彬; 郑永强; 李征; 徐华博; 唐超; 谷莹; 韩天华; 白莉妍; 卫丹; 董小虎; 韩秀娟; 范曾; 郭彬; 张俊; 钟成; 路鹏程; 李彦龙
Original assignee: Xiongan New Area Power Supply Company State Grid Hebei Electric Power Co; State Grid Corp of China SGCC; Xingtai Power Supply Co of State Grid Hebei Electric Power Co Ltd
Current assignee: Xiongan New Area Power Supply Company State Grid Hebei Electric Power Co; State Grid Corp of China SGCC; Xingtai Power Supply Co of State Grid Hebei Electric Power Co Ltd
Priority date: 2021-08-26
Filing date: 2021-08-26
Publication date: 2023-12-05
Anticipated expiration: 2041-08-26
Also published as: CN113837443A

Abstract

本发明公开了一种基于深度BiLSTM的变电站线路负载预测方法，步骤包括：收集变电站线路负载数据并进行数据预处理，形成时间序列数据集；以时间序列数据集为模型训练样本，构建深度BiLSTM模型；对深度BiLSTM模型，采用改进后的Adam算法对其进行优化，输出模型的最优参数，对深度BiLSTM模型进行迭代更新训练；将实时采集的变电站线路负载数据输入到完成训练的深度BiLSTM模型中，模型预测输出变电站线路的负载情况。本发明能够快速且准确地预测变电站线路负载情况，为供电线路检修留出了足够的时间，有利于确保供电线路能够长期稳定可靠运行。

Description

基于深度BiLSTM的变电站线路负载预测方法

技术领域

本发明涉及供电能力预测技术领域，具体涉及一种基于深度BiLSTM的变电站线路负载预测方法。

背景技术

近些年，逐年攀升的居民用电需求对供电安全性、稳定性和可靠性提出了更高要求。为了确保供电线路的长期稳定运行，供电企业希望有一套预判方法，能够快速且准确地对变电站线路未来是否可能出现过载作出提前判断，以便于检修人员能够及时或提早介入对线路进行维护或检修。

但目前，供电企业对于变电站线路是否过载的判断方法主要依靠相关的评估指标，通过收集变电站线路运行数据计算相关评估指标的指标值，以对线路发生过载的可能性进行评估。但这种评估方法对数据的统计和计算存在一定的滞后性，难以对线路是否过载进行实时评估，更无法对线路未来是否会发生过载进行提前预判。另外，目前多采用人为方式对线路是否过载进行评估，人为评估方式依赖于评估人员自身的评估水平，具有相当的主观性，评估结果不够科学、客观、准确。所以大多时候，供电企业只能等到线路故障真实发生了才能安排检修，难以满足人们对于长期供电稳定性、可靠性的普遍要求。

发明内容

本发明以快速且准确地预测变电站线路负载情况，确保供电线路长期稳定可靠运行为目的，提供了一种基于深度BiLSTM的变电站线路负载预测方法。

为达此目的，本发明采用以下技术方案：

提供一种基于深度BiLSTM的变电站线路负载预测方法，步骤包括：

1)收集变电站线路负载数据并进行数据预处理，形成时间序列数据集；

2)以所述时间序列数据集为模型训练样本，构建深度BiLSTM模型；

3)对所述深度BiLSTM模型，采用改进后的Adam算法对其进行优化，输出模型的最优参数，对所述深度BiLSTM模型进行迭代更新训练；

4)将实时采集的变电站线路负载数据输入到完成训练的所述深度BiLSTM模型中，模型预测输出变电站线路的负载情况。

作为本发明的一种优选方案，所述步骤1)中，对所述变电站线路负载数据进行预处理的步骤包括：

1.1)对所述变电站线路负载数据进行清洗；

1.2)按时间序列顺序对清洗后的所述变电站线路负载数据进行排序；

1.3)对完成时间序列排序后的所述变电站线路负载数据进行归一化处理，最终形成所述时间序列数据集。

作为本发明的一种优选方案，所述步骤2)中的所述深度BiLSTM模型包括依序连接的输入层、多个级联的BiLSTM层、全连接层和输出层；

每个所述BiLSTM层包括正向LSTM层和反向LSTM层，通过正向LSTM层St，t∈(1，T]和反向LSTM层St′，t∈[T，1)，得到具有相反时间序列的两个隐层状态，然后将两个隐层状态连接起来，以得到相同的输出；所述正向LSTM层St和所述反向LSTM层St′可分别获得输入序列的过去信息和未来信息；t表示时间步，T表示时间序列的长度，

在t时刻，所述深度BiLSTM模型的隐层状态h_t包括正向状态和反向状态/>

所述全连接层用于对所述BiLSTM层最终输出的非线性特征进行加权。

作为本发明的一种优选方案，改进后的所述Adam算法对所述深度BiLSTM模型的模型参数θ和每个所述模型参数θ的学习率α进行优化，对所述模型参数θ进行优化的方法为：

参数初始化：初始化Adam算法和所述BiLSTM模型的参数，包括：学习率衰减率d、步长β、衰减次数n₁、矩估计的指数衰减速度v₁和v₂、模型梯度的一阶矩估计δ、二阶矩估计γ，并初始化所述深度BiLSTM模型的所述模型参数θ、每个所述模型参数θ的学习率α、模型迭代次数n₂、时间步t；

完成参数初始化后，所述深度BiLSTM模型开始对输入的时间序列数据进行学习，并通过以下公式(1)更新优化所述模型参数θ；

公式(1)中，Δθ表示所述模型参数θ的更新量；

β表示所述步长；

γ表示所述二阶矩估计；

δ表示所述一阶矩估计；

表示经误差修复后的所述一阶矩估计。

作为本发明的一种优选方案，公式(1)中的所述一阶矩估计δ通过以下公式(2)动态更新而得：

δ←v₁δ+(1-v₁)G 公式(2)

公式(2)中，v₁表示所述指数衰减速度；

G表示所述深度BiLSTM模型的梯度，梯度G通过以下公式(3)计算而得：

公式(3)中，表示对参数求偏导；

m表示所述深度BiLSTM模型的样本数据量；

i表示第i个模型学习样本；

L表示模型损失函数；

f(x_i；θ)表示模型对第i个样本的预测值；

x_i表示第i个模型输入数据；

y_i表示与所述输入数据x_i具有映射关系的所述深度BiLSTM模型的目标输出变量。

作为本发明的一种优选方案，公式(1)中的所述二阶矩估计γ通过以下公式(4)动态更新而得：

公式(4)中，v₂表示所述指数衰减速度。

作为本发明的一种优选方案，公式(1)中的经误差修复后的所述一阶矩估计通过以下公式(5)动态更新而得：

作为本发明的一种优选方案，所述指数衰减速度v₁、v₂∈[0，1)。

作为本发明的一种优选方案，改进后的所述Adam算法通过以下公式(6)对所述学习率α进行优化：

公式(1)中，α^t表示所述模型参数θ在t时刻的学习率；

α^t+1表示优化后的t+1时刻的所述学习率；

d为预设的所述衰减率；

n₂为预设的模型迭代次数；

n₁为预设的所述衰减次数。

作为本发明的一种优选方案，经误差修复后的模型梯度的二阶矩估计的估计量不超过 10^-8时，改进后的所述Adam算法对所述模型参数θ和所述学习率α进行优化。

作为本发明的一种优选方案，训练所述深度BiLSTM模型的方法步骤包括：

4.1)初始化所述BiLSTM层中的神经元状态和隐层状态，然后将时间序列数据X_t输入到所述BiLSTM层中，X_t表示t时刻输入的时间序列数据；

4.2)计算当前BiLSTM层中的神经元在t时刻的输入门状态i_t、输出门状态O_t、遗忘门状态f_t、记忆候选值和记忆状态值C_t；

4.3)根据所述神经元所对应的所述记忆状态值C_t、所述输出门状态O_t，计算所述神经元在t时刻输出的隐层状态h_t；

4.4)利用所述记忆状态值C_t和所述隐层状态h_t，计算所述神经元在t+1时刻的记忆状态值C_t+1和隐层状态h_t+1；

4.5)重复执行所述步骤4.2)-步骤4.4)，直至所述当前BiLSTM层中的所有所述神经元完成对输入的所述时间序列数据集的学习，然后进入所述当前BiLSTM层的下一所述BiLSTM 层继续对所述时间序列数据集进行学习；

4.6)重复执行所述步骤4.2)-步骤4.5)，直至所有所述BiLSTM层中的所有所述神经元完成对输入的所述时间序列数据集的学习，所述BiLSTM层最终输出与所述时间序列数据X_t具有映射关系的非线性特征feat给所述全连接层；

4.7)所述全连接层对所述非线性特征feat进行加权后输出特征feat′，由所述输出层根据输入的所述特征feat′最终输出对变电站线路负载情况的预测结果y_p；

4.8)根据所述预测值y_p计算所述深度BiLSTM模型的预测损失，并根据模型损失调整模型训练参数完成对所述深度BiLSTM模型的迭代更新。

作为本发明的一种优选方案，所述步骤4.3)中，通过以下公式(7)计算所述神经元在 t时刻输出的所述隐层状态h_t：

公式(7)中，tanh表示双曲函数；

公式(7)中的O_t通过以下公式(8)计算而得：

O_t＝σ(w_oh_t-1+w_oX_t-1+b_o) 公式(8)

公式(8)中，σ表示sigma函数；

w_o表示权值矩阵；

h_t-1表示所述神经元在t-1时刻的所述隐层状态；

X_t-1表示t-1时刻的模型输入；

b_o表示偏移量；

公式(7)中的C_t通过以下公式(9)计算而得：

公式(9)中的C_t-1表示t-1时刻所述神经元的记忆状态值；

公式(9)中的所述遗忘门状态f_t通过以下公式(10)计算而得：

f_t＝σ(w_fh_t-1+w_fX_t+b_f) 公式(10)

公式(10)中，w_f表示权值矩阵；

b_f表示偏移量；

公式(9)中的所述记忆候选值通过以下公式(11)计算而得：

公式(11)中，w_C表示权值矩阵；

b_C表示偏移量；

公式(9)中的所述输入门状态i_t通过以下公式(12)计算而得：

i_t＝σ(w_th_t-1+w_iX_t+b_i) 公式(12)

公式(12)中，w_t表示权值矩阵；

w_i表示权值矩阵；

b_i表示偏移量；

公式(7)和公式(9)中的符号表示矩阵与矩阵相乘。

本发明具有以下有益效果：

1、本发明利用深度BiLSTM模型去学习变电站线路各运行特征指标变化所导致线路轻载、中载、重载的内在规律，从而能够利用学习到的模型去精准预测未来各条线路可能出现的过载问题，给检修人员留出足够的检修时间，以确保配电线路长期安全、稳定、可靠地运行；

2、通过深度BiLSTM模型实现了对线路负载情况的自动预测、评估，相比于以往的人为评估方式，模型所作出的预测结果更加客观、科学，能够为供电企业的运维决策提供有力的数据支持；

3、相比于传统的循环神经网络，本发明优化的深度BiLSTM模型能够学到更长时间序列的特征信息，预测精度更高，而且能有效防止梯度爆炸和梯度消失的问题；

4、本发明通过在学习率上增加指数衰减因子，既保证了模型的快速收敛，又防止了收敛过程中的震荡现象。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对本发明实施例中所需要使用的附图作简单地介绍。显而易见地，下面所描述的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明一实施例提供的基于深度BiLSTM的变电站线路负载预测方法的实现步骤图；

图2是对变电站线路负载数据进行预处理的方法步骤图；

图3是训练深度BiLSTM模型的方法步骤图；

图4是LSTM循环神经网络的框架结构图；

图5是经本发明优化的深度BiLSTM模型的结构示意图。

具体实施方式

下面结合附图并通过具体实施方式来进一步说明本发明的技术方案。

其中，附图仅用于示例性说明，表示的仅是示意图，而非实物图，不能理解为对本专利的限制；为了更好地说明本发明的实施例，附图某些部件会有省略、放大或缩小，并不代表实际产品的尺寸；对本领域技术人员来说，附图中某些公知结构及其说明可能省略是可以理解的。

本发明实施例的附图中相同或相似的标号对应相同或相似的部件；在本发明的描述中，需要理解的是，若出现术语“上”、“下”、“左”、“右”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此附图中描述位置关系的用语仅用于示例性说明，不能理解为对本专利的限制，对于本领域的普通技术人员而言，可以根据具体情况理解上述术语的具体含义。

在本发明的描述中，除非另有明确的规定和限定，若出现术语“连接”等指示部件之间的连接关系，该术语应做广义理解，例如，可以是固定连接，也可以是可拆卸连接，或成一体；可以是机械连接，也可以是电连接；可以是直接相连，也可以通过中间媒介间接相连，可以是两个部件内部的连通或两个部件的相互作用关系。对于本领域的普通技术人员而言，可以具体情况理解上述术语在本发明中的具体含义。

本发明利用双向循环神经网络模型即深度BiLSTM(Bi-directional Long Short-Term Memory)模型预测变电站线路负载情况的总体思路为：按照变电站线路的拓扑结构处理样本的维度数据(包括各变电站的用电负荷、用电量、线路电流、电压、变电站所处环境温度、湿度、天气情况等)。然后将这些数据以一定的时间节点，通过时间序列的形式输入给深度 BiLSTM模型，通过有标签的学习这些数据，根据输出结果的线路轻载、中载、重载情况来学习到模型输入数据对最终结果影响的内在规律，从而可以根据深度BiLSTM模型学习到的内在规律和根据实时采集的变电站线路运行数据来预测变电站线路是否可能发生过载。供电企业可根据预测结果及时发现可能发生的变电站线路故障，把这些可能发生的故障及时通知给检修人员，为检修人员留出足够的检修时间，以确保供电线路长期稳定、可靠运行。

在具体阐述本发明提供的基于深度BiLSTM的变电站线路负载预测方法之前，首先对循环神经网络LSTM和本发明改进的深度BiLSTM模型的结构作简要介绍。

LSTM(Long Short-Term Memory)是RNN(Recurrent Neural Network)循环神经网络的一种。LSTM循环神经网络的设计初衷主要是为了解决长序列训练过程中产生的梯度爆炸和梯度消失等问题。LSTM相对于RNN而言，在长序列训练中的表现更好。LSTM的巧妙之处在于通过增加输入门限、遗忘门限和输出门限，使得自循环的权重是变化的，这样一来在模型参数固定的情况下，不同时刻的积分尺度可以动态改变，从而避免了梯度消失或者梯度爆炸的问题。

LSTM模型是由t时刻的输入X_t、细胞状态C_t、临时细胞状态隐层状态h_t、遗忘门f_t、记忆门i_t、输出门O_t组成。LSTM的计算过程可以概括为，通过对细胞状态中的信息遗忘和记忆新的信息使得对后续时刻计算有用的信息得以传递，而无用的信息被丢弃，并在每个时间步都会输出隐层状态h_t，其中遗忘、记忆的输出通过上个时刻的隐层状态h_t-1和当前输入X_t计算出来的遗忘门f_t、记忆门i_t、输出门O_t来控制。LSTM模型的框架结构图请参见图4。

本发明改进的深度BiLSTM模型结构相较于普通的RNN模型，有明显的优势，克服了普通RNN模型在学习长队列时序数据中容易产生的梯度爆炸和梯度消失的问题，能够充分学习时间序列中的长期依赖信息。为了更好地进行数据的深层特征挖掘，如图5所示，本发明采用多个BiLSTM层进行叠加学习时间序列的深层特征。另外通过使用全连接层，能够对BiLSTM 输出的非线性特征进行加权，让模型具有更好地非线性映射能力。由于BiLSTM层数较多且结构复杂，会导致过拟合或收敛过慢等问题，本发明还提供了一系列防止过拟合的策略以解决该问题，具体地防拟合策略在下述的预测方法中进行阐述。另外，本发明还通过在学习率上增加指数衰减因子，既保证了模型的快速收敛，又防止了收敛过程中的震荡现象。

以下对本发明实施例提供的基于深度BiLSTM的变电站负载预测方法进行具体阐述，如图1所示，该预测方法包括：

步骤1)收集变电站线路负载数据并进行数据预处理，形成时间序列数据集；变电站线路负载数据包括线路运行数据和负载结果数据，线路运行数据包括线路历史运行数据和线路实时运行数据，线路运行数据数据包括变电站线路的供电负荷、用电量、输出电压、输出电流、变电站所处环境温度、湿度、天气情况等；负载结果分为三种：轻载、中载、重载。

如图2所示，对变电站负载数据进行预处理包括：

步骤1.1)对变电站线路负载数据进行清洗；

步骤1.2)按时间序列顺序对清洗后的变电站线路负载数据进行排序；

步骤1.3)对完成时间序列排序后的变电站线路负载数据进行归一化处理，最终形成时间序列数据集。

步骤2)以时间序列数据集为模型训练样本，构建深度BiLSTM模型，所构建的深度BiLSTM 模型的模型结构如图5所示，包括输入层、多个级联的BiLSTM层、全连接层和输出层，输入层将时间序列数据集输入给BiLSTM层，多个BiLSTM层叠加学习时间序列数据的深层特征，全连接层对BiLSTM层输出的非线性特征进行加权，以提高模型的非线性映射能力；

每个BiLSTM层包括正向LSTM层和反向LSTM层，通过正向LSTM层St，t∈(1，T]和反向 LSTM层St′，t∈[T，1)，得到具有相反时间序列的两个隐层状态，然后将两个隐层状态连接起来，以得到相同的输出；正向LSTM层St和反向LSTM层St′可分别获得输入序列的过去信息和未来信息；t表示时间步，T表示时间序列的长度，

在t时刻，深度BiLSTM模型的隐层状态ht包括正向状态(由正向LSTM层产生)和反向状态/>(由反向LSTM层产生)；T表示时间序列的长度；

步骤3)对深度BiLSTM模型，采用改进后的Adam算法对其进行优化，输出模型的最优参数，对深度BiLSTM模型进行迭代更新训练；

步骤4)将实时采集的变电站线路负载数据输入(以时间序列数据形式)到完成训练的深度BiLSTM模型中，模型预测输出变电站线路的负载情况。

步骤3)中，改进的Adam算法对深度BiLSTM模型的模型参数θ和每个模型参数的学习率α进行优化，对模型参数θ进行优化的方法为：

参数初始化：初始化Adam算法和BiLSTM模型的参数，包括：学习率衰减率d、步长β、衰减次数n₁、矩估计的指数衰减速度v₁和v₂(优选地，v₁、v₂∈[0，1))、模型梯度的一阶矩估计δ、二阶矩估计γ、模型参数θ、模型参数θ的学习率α、模型迭代次数n₂、时间步t；

完成参数初始化后，深度BiLSTM模型开始对输入的时间序列数据进行学习，并通过以下公式(1)更新优化模型参数θ：

公式(1)中，Δθ表示模型参数θ的更新量；

β表示步长，在深度学习领域，步长就是学习率，神经网络正向传播说学习率(学习率α)，反向传播说步长(β)；

γ表示二阶矩估计；

δ表示一阶矩估计；

表示经误差修复后的一阶矩估计。

公式(1)中的一阶矩估计δ通过以下公式(2)动态更新而得：

δ←v₁δ+(1-v₁)G 公式(2)

公式(2)中，v₁表示指数衰减速度；

G表示深度BiLSTM模型的梯度，梯度G通过以下公式(3)计算而得：

公式(3)中，表示对参数求偏导；

m表示深度BiLSTM模型的学习数据量；

i表示第i个学习数据；

L表示损失函数；

f(x_i；θ)表示模型对第i个样本的预测值；

x_i表示第i个模型输入数据；

y_i表示与输入数据x_i具有映射关系的深度BiLSTM模型的目标输出变量。

公式(1)中的二阶矩估计γ通过以下公式(4)动态更新而得：

公式(4)中，v₂表示指数衰减速度。

公式(1)中的经误差修复后的一阶矩估计通过以下公式(5)动态更新而得：

预设的指数衰减速度v₁、v₂∈[0，1)。

Adam算法由于是利用梯度的一阶、二阶矩估计动态的更新每个模型参数的学习率，因此它每次校正偏置后学习率都有个确定的范围，但在某些时候，依然会出现收敛震荡的现象。为此，本发明提出了一种学习率指数衰减的方法，随着模型迭代次数的增加，学习率会随之减小，使得后面学习更加精细，能有效避免收敛后期出现震荡现象。

本发明通过改进的Adam算法优化学习率的方法可通过以下公式(6)表达：

公式(1)中，α^t表示模型参数θ在t时刻的学习率；

α^t+1表示优化后的t+1时刻的学习率；

d为预设的衰减率；

n₂为预设的模型迭代次数；

n₁为预设的衰减次数。

需要说明的是，为了确保模型预测精度，利用改进的Adam算法去优化模型参数θ和学习率α有一个前提，经误差修复后的模型梯度的二阶矩估计的估计量不超过10^-8。/>通过以下公式计算而得：

以下对本发明更新训练深度BiLSTM模型的过程进行具体阐述：

如图3所示，更新训练深度BiLSTM模型的方法包括：

步骤4.1)初始化BiLSTM层中的神经元状态和隐层状态，然后将时间序列数据X_t输入到通过模型的输入层输入到BiLSTM层中，X_t表示t时刻输入的时间序列数据；

步骤4.2)计算当前BiLSTM层中的神经元在t时刻的输入门状态i_t(主要负责当前位置的输入，决定将多少新的信息加入到神经元状态中)、输出门状态O_t(主要作用是控制当前位置的输出，在得到隐层状态C_t后，就开始对信息进行更新、输出)、遗忘门状态f_t(主要功能是用来控制是否要遗忘上一层的隐层状态)、记忆候选值(主要为更新隐层状态)和记忆状态值C_t(即为隐层状态)；

步骤4.3)根据神经元所对应的记忆状态值C_t、输出门状态O_t，通过以下公式(7)计算神经元在t时刻输出的隐层状态h_t；

公式(7)中，tanh表示双曲函数；

公式(7)中的O_t通过以下公式(8)计算而得：

O_t＝σ(w_oh_t-1+w_oX_t-₁+b_o) 公式(8)

公式(8)中，σ表示sigma函数；

w_o表示权值矩阵；

h_t-1表示神经元在t-1时刻的所述隐层状态；

X_t-1表示t-1时刻的模型输入；

b_o表示偏移量；

公式(7)中的C_t通过以下公式(9)计算而得：

公式(9)中的C_t-1表示t-1时刻神经元的记忆状态值；

公式(9)中的遗忘门状态f_t通过以下公式(10)计算而得：

f_t＝σ(w_fh_t-1+w_fX_t+b_f) 公式(10)

公式(10)中，w_f表示权值矩阵；

b_f表示偏移量；

公式(9)中的记忆候选值通过以下公式(11)计算而得：

公式(11)中，w_C表示权值矩阵；

b_C表示偏移量；

公式(9)中的输入门状态i_t通过以下公式(12)计算而得：

i_t＝σ(w_th_t-1+w_iX_t+b_i) 公式(12)

公式(12)中，w_t表示权值矩阵；

w_i表示权值矩阵；

b_i表示偏移量；

公式(7)和公式(9)中的符号表示矩阵与矩阵相乘；

至此，完成了对BiLSTM层的输入输出推导过程的阐述；

步骤4.4)利用记忆状态值C_t和隐层状态h_t，计算神经元在t+1时刻的记忆状态值C_t+1和隐层状态h_t+1；

步骤4.5)重复执行步骤4.2)-步骤4.4)，直至当前BiLSTM层中的所有神经元完成对输入的时间序列数据集的学习，然后进入当前BiLSTM层的下一BiLSTM层继续对时间序列数据集进行学习；

步骤4.6)重复执行步骤4.2)-步骤4.5)，直至所有BiLSTM层中的所有神经元完成对输入的时间序列数据集的学习，BiLSTM层最终输出与时间序列数据X_t具有映射关系的非线性特征feat给全连接层；

步骤4.7)全连接层对非线性特征feat进行加权后输出特征feat′，由所述输出层根据输入的特征feat′最终输出对变电站线路负载情况的预测结果y_p；

步骤4.8)根据预测值y_p计算深度BiLSTM模型的预测损失，并根据模型损失调整模型训练参数并完成对深度BiLSTM模型的迭代更新。

过拟合是模型训练过程中较为普遍存在的问题。由于训练数据可能包含抽样误差，训练时，复杂的模型将抽样误差也考虑在内，将抽样误差也进行了很好地拟合。具体表现为最终模型在训练集上预测效果较好，在测试集上效果较差，模型泛化能力较弱。在深度学习领域，随着网络结构的复杂化和网络深度的加深，往往在训练集上的效果表现得越来越好，但在测试集上的效果却不尽如人意，这就表现出模型的过拟合现象，如果不能很好地解决过拟合问题，那么模型在实际预测中的效果将大打折扣。

在训练BiLSTM模型中，本发明主要利用以下几种方式，防止模型出现过拟合：

方式一：获取更多训练数据

本发明主要通过数据增强方法，通过一定规则扩充数据，比如特征衍生等。

方式二：选择合适的模型

1、网络结构裁剪。过拟合主要由两个原因造成：训练数据过少、模型结构过于复杂。数据过少可通过数据扩充方法解决。模型结构过于复杂则可通过选择合适复杂度的模型来防止过拟合，使得模型足够拟合真正的规则，同时又不至于拟合太多的抽样误差。本发明采用减少模型网络层数或者减少网络中的神经元个数来防止模型出现过拟合。

2、减少模型训练时间。对于每个神经元而言，其激活函数在不同区间的性能是不同的，当网络权值较小时，神经元的激活函数工作在线性区，此时神经元的拟合能力较弱(类似线性神经元)。在初始化网络的时候一般都是初始为较小的权值，训练时间越长，部分网络权值可能越大，所以我们如果在合适的时间停止训练，就可以将网络的拟合能力限制在一定范围内。

3、正则化。正则化防过拟合方法是直接将权值的大小加入到代价函数里，在训练的时候限制权值变大。常见的正则有L2正则和L2正则。

4、增加噪声。常见给网络增加噪声以防止过拟合的方法有，在模型输入数据中增加噪声，在网络权值上增加噪声以及对网络的响应增加噪声。

5、多种模型混用。常见的混用方法有串行和并行两种方法。串行混用即把前一个模型的输出作为后一个模型的输入，最终得到输出结果。并行混用即多种网络模型同时预测，最终以简单平均或加权平均或少数服从多数的方法输出模型的最终预测结果。

6、Dropout策略。Dropout与正则化不同的是它改变的是神经网络模型本身的结构，而不是损失函数，它是深度学习领域较为高效地解决过拟合的方法。Dropout使模型在每次训练时都以相同的概率随机屏蔽一部分隐藏层节点。因为每次随机忽略的隐藏层节点的不同，保证任意2个隐层节点每次不同时出现，阻止了某些特征仅在其他特定特征作用下才有效果的情况，增强了网络模型的鲁棒性。

综上，本发明对Adam算法进行改进，提出了指数衰减学习率的优化方法，既保证了模型的快速收敛，又有效防止了模型在收敛过程中可能出现的震荡现象。另外，本发明在训练 BiLSTM模型前，首先对模型输入数据进行预处理和清洗，去除数据中的非法字符、异常值，对空值进行替换等，然后对清洗完成的数据进行归一化处理，进一步加速了模型收敛的速度。本发明提出以BiLSTM深度网络去训练模型，相比较传统的循环神经网络，BiLSTM能够学到更长时间序列的特征信息，而且能够有效防止梯度爆炸和梯度消失的问题。并且在BiLSTM 模型中加入全连接层，通过全连接对BiLSTM层最终输出的非线性特征进行加权，使得模型具有更好地非线性映射能力，训练而得的模型也更具预测精度。

需要声明的是，上述具体实施方式仅仅为本发明的较佳实施例及所运用技术原理。本领域技术人员应该明白，还可以对本发明做各种修改、等同替换、变化等等。但是，这些变换只要未背离本发明的精神，都应在本发明的保护范围之内。另外，本申请说明书和权利要求书所使用的一些术语并不是限制，仅仅是为了便于描述。

Claims

1.一种基于深度BiLSTM的变电站线路负载预测方法，其特征在于，步骤包括：

4)将实时采集的变电站线路负载数据输入到完成训练的所述深度BiLSTM模型中，模型预测输出变电站线路的负载情况；

所述步骤2)中的所述深度BiLSTM模型包括依序连接的输入层、多个级联的BiLSTM层、全连接层和输出层；

每个所述BiLSTM层包括正向LSTM层和反向LSTM层，通过正向LSTM层St，t∈(1,T]和反向LSTM层St^′，t∈[T,1)，得到具有相反时间序列的两个隐层状态，然后将两个隐层状态连接起来，以得到相同的输出；所述正向LSTM层St和所述反向LSTM层St^′可分别获得输入序列的过去信息和未来信息；t表示时间步，T表示时间序列的长度，

所述全连接层用于对所述BiLSTM层最终输出的非线性特征进行加权；

改进后的所述Adam算法对所述深度BiLSTM模型的模型参数θ和每个所述模型参数θ的学习率α进行优化，对所述模型参数θ进行优化的方法为：

公式(1)中，Δθ表示所述模型参数θ的更新量；

β表示所述步长；

γ表示所述二阶矩估计；

δ表示所述一阶矩估计；

表示经误差修复后的所述一阶矩估计。

2.根据权利要求1所述的基于深度BiLSTM的变电站线路负载预测方法，其特征在于，所述步骤1)中，对所述变电站线路负载数据进行预处理的步骤包括：

1.1)对所述变电站线路负载数据进行清洗；

3.根据权利要求1所述的基于深度BiLSTM的变电站线路负载预测方法，其特征在于，公式(1)中的所述一阶矩估计δ通过以下公式(2)动态更新而得：

δ←v₁δ+(1-v₁)G 公式(2)

公式(2)中，v₁表示所述指数衰减速度；

公式(3)中，表示对参数求偏导；

m表示所述深度BiLSTM模型的样本数据量；

i表示第i个模型学习样本；

L表示模型损失函数；

f(x_i；θ)表示模型对第i个样本的预测值；

x_i表示第i个模型输入数据；

4.根据权利要求3所述的基于深度BiLSTM模型的变电站线路负载预测方法，其特征在于，公式(1)中的所述二阶矩估计γ通过以下公式(4)动态更新而得：

公式(4)中，v₂表示所述指数衰减速度。

5.根据权利要求3所述的基于深度BiLSTM模型的变电站线路负载预测方法，其特征在于，公式(1)中的经误差修复后的所述一阶矩估计通过以下公式(5)动态更新而得：

6.根据权利要求1所述的基于深度BiLSTM的变电站线路负载预测方法，其特征在于，所述指数衰减速度v₁、v₂∈[0,1)。

7.根据权利要求1所述的基于深度BiLSTM模型的变电站线路负载预测方法，其特征在于，改进后的所述Adam算法通过以下公式(6)对所述学习率α进行优化：

公式(1)中，α^t表示所述模型参数θ在t时刻的学习率；

α^t+1表示优化后的t+1时刻的所述学习率；

d为预设的所述衰减率；

n₂为预设的模型迭代次数；

n₁为预设的所述衰减次数。

8.根据权利要求1所述的基于深度BiLSTM的变电站线路负载预测方法，其特征在于，经误差修复后的模型梯度的二阶矩估计的估计量不超过10^-8时，改进后的所述Adam算法对所述模型参数θ和所述学习率α进行优化。

9.根据权利要求1所述的基于深度BiLSTM的变电站线路负载预测方法，其特征在于，训练所述深度BiLSTM模型的方法步骤包括：

4.5)重复执行所述步骤4.2)-步骤4.4)，直至所述当前BiLSTM层中的所有所述神经元完成对输入的所述时间序列数据集的学习，然后进入所述当前BiLSTM层的下一所述BiLSTM层继续对所述时间序列数据集进行学习；

10.根据权利要求9所述的基于深度BiLSTM模型的变电站线路负载预测方法，其特征在于，所述步骤4.3)中，通过以下公式(7)计算所述神经元在t时刻输出的所述隐层状态h_t：

公式(7)中，tanh表示双曲函数；

公式(7)中的O_t通过以下公式(8)计算而得：

O_t＝σ(w_oh_t-1+w_oX_t-1+b_o) 公式(8)

公式(8)中，σ表示sigma函数；

w_o表示权值矩阵；

h_t-1表示所述神经元在t-1时刻的所述隐层状态；

X_t-1表示t-1时刻的模型输入；

b_o表示偏移量；

公式(7)中的C_t通过以下公式(9)计算而得：

公式(9)中的C_t-1表示t-1时刻所述神经元的记忆状态值；

公式(9)中的所述遗忘门状态f_t通过以下公式(10)计算而得：

f_t＝σ(w_fh_t-1+w_fX_t+b_f) 公式(10)

公式(10)中，w_f表示权值矩阵；

b_f表示偏移量；

公式(9)中的所述记忆候选值通过以下公式(11)计算而得：

公式(11)中，w_C表示权值矩阵；

b_C表示偏移量；

公式(9)中的所述输入门状态i_t通过以下公式(12)计算而得：

i_t＝σ(w_th_t-1+w_iX_t+b_i) 公式(12)

公式(12)中，w_t表示权值矩阵；

w_i表示权值矩阵；

b_i表示偏移量；

公式(7)和公式(9)中的符号表示矩阵与矩阵相乘。