CN114219139B

CN114219139B - 基于注意力机制的dwt-lstm电力负荷预测方法

Info

Publication number: CN114219139B
Application number: CN202111487298.XA
Authority: CN
Inventors: 李黄强; 贺菲; 姚钦; 刘辉; 王涛
Original assignee: Yichang Power Supply Co of State Grid Hubei Electric Power Co Ltd
Current assignee: Yichang Power Supply Co of State Grid Hubei Electric Power Co Ltd
Priority date: 2021-12-07
Filing date: 2021-12-07
Publication date: 2023-10-03
Anticipated expiration: 2041-12-07
Also published as: CN114219139A

Abstract

基于注意力机制的DWT‑LSTM电力负荷预测方法，采用离散小波分解方法对采集到的原始负荷数据进行分解，得到不同尺度负荷分量；引入注意力机制，根据各尺度负荷分量的重要程度进行自适应赋权，完成负荷数据的预处理；利用改进的PSO粒子群算法对LSTM长短期记忆神经网络模型参数进行寻优，得到优化后的LSTM模型；将赋权后的各负荷分量分别代入优化后的LSTM模型进行训练，得到各个负荷分量的LSTM负荷预测模型；将注意力机制处理后得到的负荷分量作为输入，输入到相应分量的LSTM负荷预测模型，即得到各个分量的负荷预测值，然后将各个分量的负荷预测值累加，即为下一时刻电力负荷的预测值。本发明方法能够在多因素交互影响的情况下，准确的预测电力负荷数据。

Description

基于注意力机制的DWT-LSTM电力负荷预测方法

技术领域

本发明属于电力系统负荷人工智能技术预测技术领域，具体涉及一种基于注意力机制的DWT-LSTM电力负荷预测方法。

背景技术

准确的电力负荷预测有利于电网安全、经济运行，为电网规划提供基础数据依据，对现代电力系统发展起着重要作用，对电网规划的质量有决定性影响。如何提高负荷预测的准确率一直以来是学者们研究的热点问题。

目近年来人工智能技术凭借其非线性拟合的优势，其已被广泛应用于电力负荷预测场景中。伴随着智能电网的发展，电网数据变得丰富，越来越多的影响因素受到考虑，但影响因素的数据出现越来越多的时间尺度，数据颗粒度更细，以及非等时间间隔采集的特征。需探索多时间尺度数据的处理方法来实现将这些数据融入一个模型中。

电力负荷预测方法的发展趋势是将越来越多的因素纳入考虑。在较多因素交互影响的情况下，从解析的方法向非解析的、智能的方向发展。当前常用的负荷预测方法存在以下问题：伴随着智能电网的快速发展，电网组成更加丰富，影响电力负荷的因素也呈现于更多时间尺度，且其对于负荷的影响程度不一致。

神经网络越深，表达能力越强，允许在更大的函数空间中寻找对真实规律的近似映射。在一个合适的优化方法的辅助下，神经网络能够收敛到良好的预测效果。

发明内容

考虑不同时间尺度因素的重要程度，本发明提供一种基于注意力机制的DWT-LSTM电力负荷预测方法，首先，利用离散小波分解将历史负荷数据分解至不同频率尺度，为使预测模型更好的把握长、中、短期因素对电力负荷的影响程度，在模型中引入注意力机制，在提升关键信息的被关注程度的同时，抑制噪声干扰；然后，利用改进的粒子群算法对长短期记忆神经网络模型参数进行寻优，进一步提升模型预测精度。该方法能在多因素交互影响的情况下，准确的预测电力负荷数据。可以为电力部门制定检修计划、进行决策规划的提供重要数据，对于保障电力系统的安全、经济运行具有重要意义。

本发明采取的技术方案为：

基于注意力机制的DWT-LSTM电力负荷预测方法，包括以下步骤：

步骤一：采用离散小波分解方法对采集到的原始负荷数据进行分解，得到不同尺度负荷分量；

步骤二：引入注意力机制，根据各尺度负荷分量的重要程度进行自适应赋权，完成负荷数据的预处理；

步骤三：利用改进的PSO粒子群算法对LSTM长短期记忆神经网络模型参数进行寻优，得到优化后的LSTM模型；

步骤四：将赋权后的各负荷分量分别代入优化后的LSTM模型进行训练，得到各个负荷分量的LSTM负荷预测模型；

步骤五：将注意力机制处理后得到的负荷分量作为输入，输入到相应分量的LSTM负荷预测模型，即得到各个分量的负荷预测值，然后将各个分量的负荷预测值累加，即为下一时刻电力负荷的预测值。

所述步骤一中，离散小波分解方法在保留时域信息的前提下，能够对原始负荷数据中具有特征差异的各个分量进行有效分离，即每一层小波分解都将得到高频分量D和低频分量A两个部分：

离散小波变换是将原始负荷序列X_t通过一系列半带宽的低通滤波器H和高通滤波器G，将原始数据分解成不同频率的信号:

式(1)中，j＝1,2，…,J为当前小波分解层数，J为小波分解总层数；k为时间序号，即第k个小波系数；H为低通滤波系数，G为高通滤波系数，A_n ^j为n维信号在第j层分解出的近似分量；的n维信号在第j层分解出的细节分量。

为n维信号在第1层的分解出的近似分量；H_n-2k为n维信号在第k维时间序列上的低通滤波系数；X_k为原始信号在第k维时间序列上的大小；/>为n维信号在第1层的分解出的近似分量；G_n-2k为n维信号在第k个时间序列上的高通滤波系数；/>为第k维时间序列在第j-1层分解出的近似分量；

小波分解后的输出为:

式(2)中，X为原始负荷数据；A₁ ^J为第J层的分解出的第1维近似分量；A₂ ^J为第J层的分解出的第2维近似分量；为第J层的分解出的第T维近似分量；D₁ ¹为第1层的分解出的第1维细节分量；D₂ ¹为第1层的分解出的第2维细节分量；D_T ¹为第1层的分解出的第T维细节分量；D₁ ^J为第J层的分解出的第1维细节分量；/>为第J层的分解出的第2维细节分量；/>为第J层的分解出的第T维细节分量。

所述步骤二包括以下步骤：

第一步、求解权重得分：

计算各频率分量Xⁱ _t与原始负荷序列X_t的相关性。

式(3)中，S(Xⁱ _t，X_t)是评价各频率分量与原始序列相关性的函数；V^T和b均为超参数，W_a、W_b、为注意力机制中的权重矩阵，维度为h×d，d代表样本维度，即样本的时间跨度，h为LSTM中隐藏层神经元个数；tanh为双曲正切激活函数；Xⁱ _t为X_t的第i行。

第二步、对第一步中的的原始分值进行归一化处理，即求解加权系数：

式(4)中，为第i个分量Xⁱ _t与X_t的加权系数，X_t为Xⁱ _t为X_t的第i行,X_t为原始序列。

为经过小波分解后的第i个分量；/>为经过小波分解后的第i个分量与原始序列的相关性函数；

注意力权重系数由分解出来的各频率分量与原始序列决定，表明了不同频率分量对其贡献程度，考虑加注意力权重系数后的小波分解结果为：

式(5)中,为第1个分量的加权系数；/>为第2个分量的加权系数；/>为第J+1个分量的加权系数；/>为第J层的分解出的第t-d+1维近似分量；/>为第J层的分解出的第t-d+2维近似分量；/>为第J层的分解出的第t维近似分量；/>为第1层的分解出的第t-d+1维细节分量；/>为第1层的分解出的第t-d+2维细节分量；/>为第1层的分解出的第t维细节分量；/>为第J层的分解出的第t-d+1维细节分量；/>为第J层的分解出的第t-d+2维细节分量；/>为第J层的分解出的第t维细节分量；

所述步骤三中，改进后的PSO算法寻优步骤如下：

步骤3.1：初始化粒子群，包括群体规模N，每个粒子的位置x_i和速度v_i；

步骤3.2：计算每个粒子的适应度值F(i)；

步骤3.3：对每个粒子，用它的适应度值F(i)和个体极值P_i比较，如果F(i)>P_i，则用F(i)替换掉P_i；

步骤3.4：对每个粒子，用它的适应度值F(i)和全局极值P_g比较，如果F(i)>P_g则用F(i)代替P_g；

步骤3.5：根据公式(10)，(11)更新粒子的速度V_i和位置S_i；

S_i(j+1)＝S_i(j)+V_i(j+1) (11)

式(10)、(11)中,c₃为加速度常数；r₃是区间[0,1]上的随机数；S_i(j)为粒子i在j次迭代后的空间位置。

式(10)中，c₃r₃(P_r(j)-S_i(j))部分表示为当前粒子位置与在群体中随机选择的粒子P_r之间的距离。

式(10)、(11)中,S_i和V_i分别为粒子i的当前位置向量和速度向量，j为迭代次数，ω为惯性权重；c₁、c₂、c₃为加速度常数；r₁、r₂、r₃为区间[0,1]上的随机数；P_i(j)为在第j次迭代更新后该粒子找到的个体最优解；P_g(j)为在第j次迭代更新后所有粒子中选出的全局最优解；P_r(j)为在第j次迭代更新后随机选择的粒子；S_i(j)为粒子i在j次迭代更新后的空间位置，V_i(j)为粒子i在j次迭代更新后的速度大小，S_i(j+1)为粒子i在j+1次迭代更新后的空间位置，V_i(j+1)为粒子i在j+1次迭代更新后的速度大小。c₁r₁(P_i(j)-S_i(j))描述了粒子当前位置与其已知的最佳位置之间的距离；c₂r₂(P_g(j)-S_i(j))为当前位置与全局最佳位置之间的距离；c₃r₃(P_r(j)-S_i(j))部分表示为当前粒子位置与在群体中随机选择的粒子P_r之间的距离。

步骤3.6：如果满足结束条件退出，否则返回步骤3.2。

所述步骤四包括以下步骤：

步骤4.1：网络超参数初始化：

设置的超参数包括：输入节点数m，隐藏节点数k，输出节点数n，误差阈值cost，最大迭代次数s；LSTM的两个隐藏层神经元节点数L₁、L₂以及学习率yita则采用改进PSO算法进行寻优得到；

步骤4.2、权重偏置初始化：

LSTM神经网络前向计算公式如下所示：

式(12)表示t时刻LSTM的前向计算公式。为t时刻网络的三个输入，/>为网络的最终输出。其中/>为t-1时刻的负荷输出值，其为一个n维行向量，n表示需要预测的负荷个数，即输出节点数；/>为t时刻的网络输入值，其为一个m维的行向量，m为单个样本的维数，即输入节点数；/>为当前输入单元状态；/>为t-1时刻网络的单元状态；/>为t时刻的电负荷输出值，也是一个n维行向量。/>分别表示t时刻的遗忘门输出，输入门输出，输出门输出和单元状态。σ和tanh均为激活函数，其中σ为sigmoid函数，tanh为双曲正切函数，二者计算公式分别如下：

表示按元素乘，当/>作用于两个向量时，运算如下：

式(14)中,为任意向量；a₁、a₂、a₃、a_n为/>的第1、2、3、n个元素；b₁、b₂、b₃、b_n为的第1、2、3、n个元素。

当作用于一个向量和一个矩阵时，运算如下：

式(15)中,为任意的n维向量；a₁、a₂、a₃、a_n为/>的第1、2、3、n个元素；X为n阶的任意矩阵，x_ij表示X的第i行、第j列元素。

当作用于两个矩阵时，两个矩阵对应位置的元素相乘即可。

W_f、W_i、W_c、W_o分别代表遗忘门、输入门、当前输入单元状态和输出门的权重矩阵，b_f、b_i、b_c、b_o则表示遗忘门、输入门、当前输入单元状态和输出门的偏置矩阵，此8个参数是由网络训练而来，无需人为设置具体数值，但需人为指定矩阵维度，并由计算机产生0～1之间的随机数作为其初值。事实上，每个权重矩阵W都是两个矩阵拼接而成的，以W_f为例，它可看作是W_fh和W_fx两个矩阵拼接而成，即

式(16)中，为t-1时刻的负荷输出值，/>为t时刻的网络输入值，W_f为遗忘门的权重矩阵，W_fh和W_fx两个矩阵可拼接成W_f。；

故网络需要训练的参数包括W_fh，W_fx，W_ih，W_ix，W_ch，W_cx，W_oh，W_ox，b_f，b_i，b_c，b_o共12个参数。

指定W_fx，W_ix，W_cx，W_ox为m*k的矩阵，W_fh，W_ih，W_ch，W_oh为n*k的矩阵，b_f，b_i，b_c，b_o为1*k的矩阵。

步骤4.3、根据损失函数C更新网络权重和偏置。损失函数C表示网络的误差大小，其值越小，则模型越精确，反之模型越不精确。其计算公式如下：

式(17)中，L表示训练样本总数，h(b)表示第b个训练样本的网络输出电压或内阻值，a(b)表示第b个训练样本对应的实际电压或内阻值。改变权重偏置值，就可改变C的大小，利用梯度下降算法可快速找到合适的权重和偏置，使C最小化，以达到误差阈值cost，加快网络收敛速度。

步骤4.4、重复步骤4.2～步骤4.3，直到迭代次数等于s或误差小于误差阈值cost，停止训练。

所述步骤四中，采用统计误差评估LSTM神经网络的性能，采用的统计误差为均方根误差，计算公式分别如下：

式(18)中，y_es,y为网络预测值，y_a,v为实际值，M为网络预测值个数。若统计误差满足实际需求，则LSTM模型精确，可投入实际，若不满足实际需求，则需重新训练网络模型。

本发明一种基于注意力机制的DWT-LSTM电力负荷预测方法，技术效果如下：

1)本发明利用离散小波分解将原始电力负荷数据分解至不同频率尺度，引入注意力机制来衡量各尺度频率分量在原始数据中的重要程度，使得模型在训练时能够自适应的关注重要分量。

2)本发明利用改进的粒子群算法对长短期记忆神经网络模型参数进行寻优，降低模型训练成本，提高预测精度。在对粒子速度更新时，添加随机粒子信息。使其在优化LSTM模型超参数时避免陷入局部极值，具有更快的收敛速度和更好的搜索能力。

3)本发明通过注意力机制使得模型在训练和预测时，更加关注重要信息，将不同频率尺度的影响因素分别考虑。

4)本发明方法能够在多因素交互影响的情况下，准确的预测电力负荷数据。

附图说明

图1为本发明方法流程示意图。

图2为粒子群算法寻优流程图。

图3为负荷数据预处理流程图。

图4为负荷预测流程图。

图5为小波分解示意图。

具体实施方式

如图1所示，基于注意力机制的DWT-LSTM电力负荷预测方法，包括以下步骤：

具体如下：

(一)、基于注意力机制的DWT数据预处理：

电力负荷数据是在多种复杂因素综合因素作用下的结果，单一的预测模型无法直观体现出相应序列的非线性特征。而小波变换是通过对信号的伸缩和平移实现了对其多尺度分解，能展示目标原始信号各分量的频率信息，非常适合对非平稳信号进行分析。

为此本发明在进行负荷预测前，利用小波变换将原始数分解至不同频率尺度。同时，引入注意力机制，根据各尺度频率分量的重要程度进行自适应赋权，完成负荷数据的预处理。

1.对原始负荷数据进行离散小波分解：

小波分解在保留时域信息的前提下，可对信号中具有特征差异的各个分量进行有效分离，即每一层小波分解都将得到高频分量D和低频分量A两个部分，如图5所示。

离散小波变换是将原始时间序列X_t通过一系列半带宽的低通滤波器H和高通滤波器G，将原始数据分解成不同频率的信号:

式(1)中，j＝1,2，…,J为当前小波分解层数，J为小波分解总层数；k为时间序号；A_n ^j为第j层的低频分量的第n个小波系数；D_n ^j为第j层的高频分量第n个小波系数。

式(1)中，j＝1,2，…,J为当前小波分解层数，J为小波分解总层数；k为时间序号，即第k个小波系数；H为低通滤波系数，G为高通滤波系数，A_n ^j为n维信号在第j层的近似分量；D_n ^j的n维信号在第j层的细节分量。小波分解后的输出为:

小波分解后的输出为:

式(2)中，X_T为原始负荷数据；为第J层的分解出的第T维近似分量；/>为第J层的分解出的第T维细节分量。

2.通过注意力机制对各分量赋权：

引入注意力机制，对各频率分量进行关注度分配，突出对重要特征信息的关注，削弱对次要特征或噪声信息的资源倾斜，使得模型能够自适应的关注重要分量，提高模型预测精度。

在本发明中Attention机制的计算过程可以归纳为两个阶段：

第一步、求解权重得分：在本发明中即计算各频率分量Xⁱ _t与原始负荷序列X_t的相关性。

第二步：对上一步中的的原始分值进行归一化处理，即求解加权系数。

注意力权重系数由分解出来的各频率分量与原始序列决定，表明了不同频率分量对其贡献程度。考虑注意力权重系数后的小波分解结果为:

式(5)中，X′_t为考虑注意力机制后的数据；d为滑动窗口的时间跨度，为第J层分解出的第t-d+1维近似分量；/>为第J层分解出的第t-d+1维细节分量,/>为通过式(4)得到的加权系数。如图3所示，基于注意力机制和小波分解的电力负荷数据预处理具体步骤为：

步骤①：采用Matlab中的小波工具箱将收集到的电力负荷数据分解为不同尺度的频率分量。

步骤②：对分解后得到的高频率A和若干低频分量D分别带入式(3)、(4)中求解注意力权重。整理为式(5)的形式后，进行归一化处理。

(二)、PSO算法优化：

LSTM模型在训练与预测过程当中，其隐藏层神经元节点数、迭代次数和学习率等模型参数的选取多依赖实际经验，缺乏科学的确定方法。针对该问题，本发明提出一种应用于LSTM模型参数寻优的改进PSO算法。

粒子群算法(PSO)是受到鸟类在觅食过程中根据目标食物修正飞行方向和飞行速度的启发，产生的一种拟生物算法。该算法需要调整的参数少、鲁棒性高且易实现，但存在易陷入局部极值的缺点。PSO中粒子的速度、位置更新公式为：

S_i(j+1)＝S_i(j)+V_i(j+1) (9)

式(8)、式(9)中，S_i和V_i分别为粒子i的当前位置向量和速度向量，j为迭代次数，ω为惯性权重；c₁、c₂为加速度常数；r₁、r₂为区间[0,1]上的随机数；P_i为该粒子找到的个体最优解；P_g为在所有粒子中选出的全局最优解；S_i(j)为粒子i在j次迭代更新后的空间位置，V_i(j)为粒子i在j次迭代更新后的速度大小。

在PSO的速度更新公式中，ωV_i(j)是通过ω控制全局和局部搜索能力；c₁r₁(P_i(j)-S_i(j))描述了粒子当前位置与其已知的最佳位置之间的距离；c₂r₂(P_g(j)-S_i(j))为当前位置与全局最佳位置之间的距离，即认为粒子的移动还取决于种群其余粒子的影响，P_g提高收敛速度的同时会减小搜索时的种群多样性，导致搜索结果容易陷入局部极值。

为了防止搜索结果陷入局部极值并提高搜索能力，改进的PSO算法在对粒子速度更新时，添加随机粒子信息。考虑随机粒子后的粒子速度、方向更新公式如下：

S_i(j+1)＝S_i(j)+V_i(j+1) (11)

式(10)、(11)中，c₃为加速度常数；r₃是区间[0,1]上的随机数；P_r为随机选择的粒子；S_i(j)为粒子i在j次迭代后的空间位置。

式(10)中，c₃r₃(P_r(j)-S_i(j))部分表示为当前粒子位置与在群体中随机选择的粒子P_r之间的距离。添加随机粒子P_r可为每一次群体搜索提供额外的参考信息，这一步骤可以有效避免某个局部极值对全剧最佳位置吸引力过大，从而陷入局部最优的情况，丰富粒子种群多样性的同时，提高粒子的全局搜索能力。

如图2所示，改进后的PSO算法寻优步骤如下：

步骤1：初始化粒子群，包括群体规模N，每个粒子的位置x_i和速度v_i；

步骤2：计算每个粒子的适应度值F(i)；

步骤3：对每个粒子，用它的适应度值F(i)和个体极值P_i比较，如果F(i)>P_i，则用F(i)替换掉P_i；

步骤4：对每个粒子，用它的适应度值F(i)和全局极值P_g比较，如果F(i)>P_g则用F(i)代替P_g；

步骤5：根据公式(10)，(11)更新粒子的速度V_i和位置S_i；

步骤6：如果满足结束条件退出，结束条件包括误差足够好或到达最大循环次数，否则返回步骤2。

(三)、LSTM的模型训练及验证：

1、LSTM的模型训练：

将预处理后得到的数据分为A、B两组，A组作为训练样本，B组作为测试样本，训练样本组数A一般要大于测试样本组数B。例如，比例可以为70％、30％。训练样本用作LSTM网络的输入，测试样本用于检验网络模型的性能。

步骤一、网络超参数初始化：

本发明需人为设置的超参数包括：输入节点数m，隐藏节点数k，输出节点数n，误差阈值cost，最大迭代次数s；LSTM的两个隐藏层神经元节点数L₁、L₂以及学习率yita则采用改进PSO算法进行寻优得到。

步骤二、权重偏置初始化：

LSTM神经网络前向计算公式如下所示：

式(12)表示t时刻LSTM的前向计算公式。为t时刻网络的三个输入，/>为网络的最终输出。其中/>为t-1时刻的负荷输出值，其为一个n维行向量，n表示需要预测的负荷个数，即输出节点数；/>为t时刻的网络输入值，其为一个m维的行向量，m为单个样本的维数，即输入节点数；/>为当前输入单元状态；/>为t-1时刻网络的单元状态；/>为t时刻的电负荷输出值，也是一个n维行向量。/>分别表示t时刻的遗忘门输出，输入门输出，输出门输出和单元状态。σ和tanh均为激活函数，其中，σ为sigmoid函数，tanh为双曲正切函数，二者计算公式分别如下：

表示按元素乘，当/>作用于两个向量时，运算如下：

当作用于一个向量和一个矩阵时，运算如下：

当作用于两个矩阵时，两个矩阵对应位置的元素相乘即可。

式(16)中，为t-1时刻的负荷输出值，/>为t时刻的网络输入值，W_f为遗忘门的权重矩阵，W_fh和W_fx两个矩阵可拼接成W_f。

本发明指定W_fx，W_ix，W_cx，W_ox为m*k的矩阵，W_fh，W_ih，W_ch，W_oh为n*k的矩阵，b_f，b_i，b_c，b_o为1*k的矩阵。

LSTM的前向计算如式(12)所示，前向计算可得到每个神经元的输出值，即五个向量的值。通过前向计算，LSTM能更加有效地决定哪些信息被遗忘，哪些信息被保留，更加高效的处理长时间序列。

步骤四：根据损失函数C更新网络权重和偏置。损失函数C表示网络的误差大小，其值越小，则模型越精确，反之模型越不精确。其计算公式如下：

步骤四：重复步骤三，直到迭代次数等于s或误差小于误差阈值cost，停止训练。

步骤五：将DWT各个分量的预测值相加，即为网络最终负荷预测结果。

2.LSTM的精度验证：

LSTM网络训练完成后，采用测试样本B进行测试，将网络模型的最终预测值与真实值进行比较。本发明采用统计误差评估LSTM神经网络的性能，本方法中采用的统计误差为均方根误差，计算公式分别如下：

式(18)中，y_es,y为网络预测值，y_a,v为实际值，M为网络预测值个数。若统计误差满足实际需求，则LSTM模型精确，可投入实际，若不满足实际需求，则需重新训练网络模型。如图4所示，基于注意力机制的DWT-LSTM电力负荷预测具体步骤为：

步骤(1):通过离散小波分解和注意力机制对原始负荷数据进行预处理。

步骤(2):对粒子群参数进行初始化。包括确定种群规模、迭代次数、学习因子以及粒子位置、速度的取值区间。

步骤(3):初始化LSTM负荷预测模型的关参数。生成随机粒子种群，其中，LSTM模型神经元数量、训练迭代次数和学习率作为参数变量，同时设置各参数寻优空间。

步骤(4):确定评价函数。将包含LSTM模型参数的种群个体适应度值f_fit定义为：

式(19)中，h_t表示实际负荷,h′_t表示LSTM网络计算出的预测负荷；N表示训练样本个数。

步骤(5):计算粒子适应度大小并相互比较，从而确定粒子全局最优位置P_g与局部最优位置P_i。

步骤(6):根据公式(10)、(11)更新粒子的速度与位置。

步骤(7)：判断是否满足循环终止条件。若达到最大迭代次数，则得到优化后的模型参数；否则返回步骤(6)。

步骤(8)：将优化的参数赋值给模型，并利用训练好的LSTM模型进行负荷预测。

综上可以看出，本发明针对复杂的电力负荷数据，提了出基于注意力机制的DWT-LSTM的电力负荷预测方法。通过注意力机制与离散小波分解算法的结合，减小训练样本中的高频、低幅值噪声的干扰，提高了对重要分量的关注度。在确定LSTM模型参数时，采用改进的PSO寻找最优参数。本发明所提方法对于中长期负荷预测具有较好的适应性和准确性，对电力部门制定检修计划、进行决策规划的重要基础，对于保障电力系统的安全、经济运行具有重要意义。

Claims

1.基于注意力机制的DWT-LSTM电力负荷预测方法，其特征在于包括以下步骤：

式(1)中，j＝1,2，…,J为当前小波分解层数，J为小波分解总层数；k为时间序号，即第k个小波系数；H为低通滤波系数，G为高通滤波系数，为n维信号在第j层的近似分量；/>的n维信号在第j层的细节分量；

小波分解后的输出为:

式(2)中，X为原始负荷数据；为第J层的分解出的第T维近似分量；/>为第J层的分解出的第T维细节分量；

所述步骤二包括以下步骤：

第一步、求解权重得分：

计算各频率分量Xⁱ _t与原始负荷序列X_t的相关性；

式(3)中，S(Xⁱ _t，X_t)是评价各频率分量与原始序列相关性的函数；V^T和b均为超参数，W_a、W_b、为注意力机制中的权重矩阵，维度为h×d，d代表样本维度，即样本的时间跨度，h为LSTM中隐藏层神经元个数；tanh为双曲正切激活函数；Xⁱ _t为X_t的第i行；

第二步、对第一步中的原始分值进行归一化处理，即求解加权系数：

式(4)中，为第i个分量Xⁱ _t与X_t的加权系数，X_t为Xⁱ _t为X_t的第i行,X_t为原始序列；注意力权重系数由分解出来的各频率分量与原始序列决定，表明了不同频率分量对其贡献程度，考虑加注意力权重系数后的小波分解结果为：

所述步骤四包括以下步骤：

步骤4.1：网络超参数初始化：

步骤4.2、权重偏置初始化：

LSTM神经网络前向计算公式如下所示：

式(12)表示t时刻LSTM的前向计算公式；为t时刻网络的三个输入，/>为网络的最终输出；其中/>为t-1时刻的负荷输出值，其为一个n维行向量，n表示需要预测的负荷个数，即输出节点数；/>为t时刻的网络输入值，其为一个m维的行向量，m为单个样本的维数，即输入节点数；/>为当前输入单元状态；/>为t-1时刻网络的单元状态；/>为t时刻的电负荷输出值，也是一个n维行向量；/>分别表示t时刻的遗忘门输出，输入门输出，输出门输出和单元状态；σ和tanh均为激活函数，其中σ为sigmoid函数，tanh为双曲正切函数，二者计算公式分别如下：

表示按元素乘，当/>作用于两个向量时，运算如下：

当作用于一个向量和一个矩阵时，运算如下：

当作用于两个矩阵时，两个矩阵对应位置的元素相乘即可；

W_f、W_i、W_c、W_o分别代表遗忘门、输入门、当前输入单元状态和输出门的权重矩阵，b_f、b_i、b_c、b_o则表示遗忘门、输入门、当前输入单元状态和输出门的偏置矩阵，此8个参数是由网络训练而来，无需人为设置具体数值，但需人为指定矩阵维度，并由计算机产生0～1之间的随机数作为其初值；事实上，每个权重矩阵W都是两个矩阵拼接而成的，以W_f为例，它可看作是W_fh和W_fx两个矩阵拼接而成，即

式(16)中，为t-1时刻的负荷输出值，/>为t时刻的网络输入值，W_f为遗忘门的权重矩阵，W_fh和W_fx两个矩阵可拼接成W_f；

故网络需要训练的参数包括W_fh，W_fx，W_ih，W_ix，W_ch，W_cx，W_oh，W_ox，b_f，b_i，b_c，b_o共12个参数；

指定W_fx，W_ix，W_cx，W_ox为m*k的矩阵，W_fh，W_ih，W_ch，W_oh为n*k的矩阵，b_f，b_i，b_c，b_o为1*k的矩阵；

步骤4.3、根据损失函数C更新网络权重和偏置；损失函数C表示网络的误差大小，其值越小，则模型越精确，反之模型越不精确；其计算公式如下：

式(17)中，L表示训练样本总数，h(b)表示第b个训练样本的网络输出电压或内阻值，a(b)表示第b个训练样本对应的实际电压或内阻值；改变权重偏置值，就可改变C的大小，利用梯度下降算法可快速找到合适的权重和偏置，使C最小化，以达到误差阈值cost，加快网络收敛速度；

步骤4.4、重复步骤4.2～步骤4.3，直到迭代次数等于s或误差小于误差阈值cost，停止训练；

2.根据权利要求1所述基于注意力机制的DWT-LSTM电力负荷预测方法，其特征在于：所述步骤三中，改进后的PSO算法寻优步骤如下：

步骤3.2：计算每个粒子的适应度值F(i)；

步骤3.5：根据公式(10)，(11)更新粒子的速度V_i和位置S_i；

S_i(j+1)＝S_i(j)+V_i(j+1) (11)

式(10)、(11)中c₃为加速度常数；r₃是区间[0,1]上的随机数；P_r为随机选择的粒子；S_i(j)为粒子i在j次迭代后的空间位置；

式(10)中，c₃r₃(P_r(j)-S_i(j))部分表示为当前粒子位置与在群体中随机选择的粒子P_r之间的距离；

步骤3.6：如果满足结束条件退出，否则返回步骤3.2。

3.根据权利要求1所述基于注意力机制的DWT-LSTM电力负荷预测方法，其特征在于：所述步骤四中，采用统计误差评估LSTM神经网络的性能，采用的统计误差为均方根误差，计算公式分别如下：

式(18)中，y_es,y为网络预测值，y_a,v为实际值，M为网络预测值个数；若统计误差满足实际需求，则LSTM模型精确，可投入实际，若不满足实际需求，则需重新训练网络模型。