CN113095596A

CN113095596A - 基于多级Gate-SA-TCN的光伏功率预测方法

Info

Publication number: CN113095596A
Application number: CN202110496086.1A
Authority: CN
Inventors: 周艳婷; 邹苏郦; 马中静
Original assignee: Beijing Institute of Technology BIT
Current assignee: Beijing Institute of Technology BIT
Priority date: 2021-05-07
Filing date: 2021-05-07
Publication date: 2021-07-09
Anticipated expiration: 2041-05-07
Also published as: CN113095596B

Abstract

本发明公开的基于多级Gate‑SA‑TCN的光伏功率预测方法，属于电气工程领域。本发明在TCN的基础上引入注意力机制，得到数据加权处理后的特征提取结果，将处理后的特征向量展开成一维向量输入全连接层，预测光伏发电功率；多级门控正向优化网络根据校正结果和门控权重，对前一阶段的预测结果进行优化，并计算均方误差RMSE作为损失函数；最后，基于该模型对光伏发电功率进行实时预测。本发明通过注意力机制提高神经网络处理信息的能力以实现实时预测，并采用一种多级门控正向优化网络，通过较小的门控权重滤除前几级的累积误差，从而提高预测的准确性，可应用在光伏发电领域。

Description

基于多级Gate-SA-TCN的光伏功率预测方法

技术领域

本发明属于电气工程技术领域，涉及到一种用于预测的深度学习方法，特别涉及到一种对光伏发电功率预测的方法。

背景技术

风能和太阳能等分布式能源在世界各地迅速发展，在电力系统中发挥着重要作用。为了提高未来智能电网中太阳能发电的普及率，全世界已经采取了许多能源立法和激励措施。然而，太阳能的随机性和间歇性给电网的稳定运行和管理带来了困难。这些不确定性也会降低实时控制性能和经济效益，不利于光伏电厂的大规模扩建。准确预测光伏功率的方法已成为解决光伏规划和建模问题的重要工具，可以减轻对整个电力系统的负面影响，提高系统的稳定性。随着目前电网的发展，利用更丰富的能源数据构建更精密的预测模型，实现更精确的光伏发电预测在智能电网中已成为迫切需要。

在光伏功率预测方法中，TCN网络可以取代RNN作为处理序列任务的首选，TCN使用1D卷积，与基于RNN的方法相反，TCN计算是按层执行的，这意味着在每个时间步数中，其权重都会同时更新，从而允许TCN处理长期序列。由于CNN内核的接受领域有限，TCN在处理长序列依赖关系时仍有局限性。目前常用的MS-TCN(Multistage-TCN)只是顺序堆叠了多个单级TCN，这些TCN直接对前一个TCN的输出进行操作以获得最终预测。简单的MS-TCN只是将前一阶段的输出馈送到下一阶段以完善预测。这种优化引起的误差在几个优化阶段之后被累积，并且显著影响最终预测结果。

发明内容

本发明针对上述现有技术存在的问题，提出了基于多级Gate-SA-TCN(Gate-Self-Attention Temporal Convolutional Network)的光伏功率预测方法，以提升神经网络处理信息的能力，提高预测的准确性。

本发明的目的是通过如下技术方案实现的：

S1对历史光伏发电功率数据进行预处理，包括对异常数据的删除，对缺失数据的补充，最后进行归一化处理。

S2通过输入层将预处理后的数据输入到多级Gate-SA-TCN进行大规模的网络训练，所述预处理后的数据包括：不同温度，光照，风速条件下的历史光伏发电功率数据。

S3 TCN基本块堆叠了膨胀残差层和注意力机制层，用于对光伏发电站采集的数据进行特征提取。

膨胀残差层由因果卷积层，扩张卷积层，残差连接块组成；注意力机制层从TCN隐藏层的大量信息中选择出对当前任务目标更关键的信息，赋予更大的权值，进而得到特征数据加权处理后的结果。

具体来说，因果卷积层的输出首先传递到扩张卷积层中，然后通过1×1卷积对其输出进行处理，再采用残差连接来促进梯度反向传播。扩张卷积使得有效窗口的大小随着层数呈指数型增长，残差块可以保证TCN网络的稳定性，因此卷积网络用比较少的层，就可以获得很大的感受野。每个膨胀残差层的操作可以描述如下：

其中l∈[1,L]是层数，H_l是第l个膨胀残差层的输出，

表示扩张时间卷积和1×1卷积层中的卷积算子。W_l∈R和W₂∈R是可学习的权重，而b₁，b₂∈R是卷积层的偏置矢量。

注意力机制目的是在所有时刻之间建立一对一的关联，我们不依赖任何外部信息，因此称为自我关注。注意力机制层包括softmax函数和乘法器，softmax函数对注意力分数进行归一化得到直接可用的权重，乘法器将采集的数据和权重进行加权求和来得到注意力加权特征Att。用X＝[X₁,…,X_N]表示H_l中N个特征，经过注意力机制得到单元输出：

H_L＝γ×Att+X

其中，γ表示可学习的参数。

在最后一个膨胀残差层的输出上应用1×1卷积，然后进行RELU激活，即

Y是TCN基本块的输出，H_L是最后一个膨胀残差层的输出，W和b是1×1卷积层的学习权重和偏差。

S4将处理后的特征向量展开成一维向量输入全连接层，预测光伏发电功率。

S5多级门控正向优化网络，包括门控单元、校正单元和损失函数，根据校正结果和门控单元输出的权重，对前一阶段的预测结果进行优化，并计算均方误差RMSE作为损失函数。

多级门控正向优化网络由两个子网络组成，一个是校正单元将上一阶段的预测作为输入并生成校正的结果，另一个是门控单元输入前一阶段的隐藏层特征表示和预测结果，并输出门控权重以使用来自校正单元的校正结果来完善先前的预测。校正单元和门控单元仅包含时间卷积层，并且校正单元具有与TCN基本块相同的网络体系结构。具体来说，校正单元由L个扩张的残差层组成，其操作表示如下：

R_S＝F(Y_s-1)

其中，R_s是在s阶段先前预测的校正结果，是该阶段的输出，F是TCN基本块用到的函数。除特征表示外，对先前的预测结果进行操作有助于捕获时间序列之间的依赖关系。此外，由于输入输出维度相差较大，两个连续阶段之间存在瓶颈层，这有助于缓解过度拟合的问题。

对于门控单元，阶段s的门控单元将前一阶段s-1的预测结果Y_s-1和特征表示H_s-1作为其输入。H_s-1中的特征表示连续时刻之间的相似性和差异性，而上一阶段的输出Y_s-1捕捉到了预测序列结果。合并Y_s-1和H_s-1的是为了将具有相似特征表示的两个连续时刻预测结果标记为相似数据。在softmax激活函数后执行一系列操作，首先，我们分别对两个输入进行带有D个卷积滤波器的1×1卷积，完成这些操作后，将两个输出进行级联并馈入内核大小为3的全连接层。

最后，使用另一个具有softmax激活的卷积层来获得门控优化权重M_s，门控单元中的操作公式可以写成如下：

其中，W_h，W_y是卷积权重，b_h，b_y，b是偏差矢量。W_g连接输出g_h，g_y，然后将输出g馈入时间卷积，最后进行softmax激活，输出门控权重M_s以控制优化过程。

给定上一阶段的预测结果Y_s-1，校正结果R_s和门控优化权重M_s，优化单元R可以将对先前预测进行优化，得到校正后的预测结果Y_s：

Y_s＝M_s⊙R_s+M_s⊙Y_s-1

其中⊙表示元素乘积。

为了使模型最优，对于每一步的预测值都需要计算均方误差RMSE作为损失函数，再通过优化网络使损失函数值最小化，损失函数Loss为：

其中，Y_real为光伏发电功率真实值。

S6输出层输出光伏发电功率训练结果，通过大量数据参与训练，从而构建得到多级Gate-SA-TCN网络模型。

S7基于该模型对实时获取的数据进行光伏预测，输出实时预测结果。

有益效果

1、本发明通过引入注意力机制，侧重于场景相对于目标任务的主要部分，迫使网络建立一对一的时间关系，以捕获远程时间依赖关系，可以有效缓解模型复杂度和表达能力之间的矛盾，能够提高神经网络处理信息的能力，实现实时预测。

2、本发明通过一种多级门控正向优化网络，可以通过较小的门控权重滤除前几级的累积误差，从而提高预测的准确性。

附图说明

附图1为本发明实施例提供的基于多级Gate-SA-TCN的光伏功率预测方法的流程示意图；

附图2为本发明实施例提供的基于多级Gate-SA-TCN的光伏功率预测方法的框架图；

附图3为本发明实施例提供的基于多级Gate-SA-TCN的光伏功率预测装置的结构图。

附图4为本发明实施例提供的TCN的扩张卷积层结构图；

附图5为本发明实施例提供的TCN的残差连接块结构图；

附图6为本发明实施例提供的注意力机制图；

附图7为本发明实施例提供的多级门控正向优化网络图；

附图8为本发明实施例提供的Gate机制图。

具体实施方式

下面将结合附图和实施例对本发明加以详细说明。同时也叙述了本发明技术方案解决的技术问题及有益效果，需要指出的是，所描述的实施例仅旨在便于对本发明的理解，而对其不起任何限定作用。

基于多级Gate-SA-TCN的光伏功率预测装置的结构如图3所示，具体包括：传感器采集模块，数据预处理模块，上位机训练模块，远程预测模块。采用的服务器配置为NVIDIAGeForce RTX 2060，基于Python3.7和Tensorflow框架实现了该模型。采用的数据集来源于北京某光伏电站，其中历史数据集的前70％作为训练集，后30％作为测试集。另外，采用实时获取的数据进行实时光伏预测。

步骤一：通过传感器采集模块采集得到光伏电站的发电功率，再经过数据预处理模块，去除冗余数据，进行数据清洗工作。对输入光伏发电功率数据进行预处理，包括对异常数据的删除，对缺失数据的补充，最后进行归一化处理。

通过原始数据的均值μ和标准差σ进行数据的标准化，经过处理的数据符合标准正态分布，即均值为0，标准差为1，转化函数为：

步骤二：通过输入层将预处理后的数据输入到多级Gate-SA-TCN进行大规模的网络训练，所述预处理后的数据包括：不同温度，光照，风速条件下的历史光伏发电功率数据。

步骤三：TCN基本块包括膨胀残差层和注意力机制层，用于对光伏发电站采集的数据进行特征提取。

具体来说，因果卷积层的输出首先传递到扩张卷积层中，然后通过1×1卷积对其输出进行处理，再采用残差连接来促进梯度反向传播。扩张卷积允许卷积时的输入存在间隔采样，采样率受膨胀因子d控制，图4显示了不同比例因子的感受野的大小。通过增加膨胀因子d，顶层的输出可以代表更广泛的输入，而不会增加滤波器大小或网络深度，从而有效地避免了网络层太多的问题，扩张卷积使得有效窗口的大小随着层数呈指数型增长。因此，卷积网络用比较少的层，就可以获得很大的感受野。

同时，即使我们使用了膨胀因果卷积，有时模型可能仍然很深，较深的网络结构可能会引起梯度消失等问题，为了确保TCN网络的稳定性，TCN网络使用残差块代替TCN层与层之间的简单连接，结构如图5所示。在残差块中，TCN网络包含两个用于卷积操作的膨胀因果卷积、两个非线性激活函数ReLU层，在每层中还加入了权重归一化WeightNorm和Dropout来正则化网络。

每个膨胀残差层的操作可以描述如下：

其中l∈[1,L]是层数，H_l是第l个膨胀残差层的输出，

注意力机制目的是在所有时刻之间建立一对一的关联，我们不依赖任何外部信息，因此称为自我关注。注意力机制包括三个要素Query、Key、Value，用X＝[X₁,…,X_N]表示H_l中N个特征，通过线性变换得到Query，Key，Value：

Q(X)＝W_QX

K(X)＝W_KX

V(X)＝W_VX

其中，W_Q、W_K、W_V分别为权重，在计算Attention时主要分为四步，如图6所示。

首先，将Query和每个Key进行相似度计算得到注意力分数，常用的打分机制有点积、双线性、缩放点积、感知机等，自注意力模型中，本发明使用缩放点积来作为注意力打分函数：

其次，一般是使用softmax函数对注意力分数进行归一化得到直接可用的权重：

然后，乘法器将采集的数据Value和权重进行加权求和来得到注意力加权特征：

最后，添加输入以获得输出结果，本发明经过注意力机制得到单元输出：

H_L＝γ×Att+H_l

其中，γ表示可学习的参数。

在最后一个扩张的残差层的输出上应用1×1卷积，然后进行RELU激活，即

步骤四：将处理后的特征向量展开成一维向量输入全连接层，预测光伏发电功率。

步骤五：多级门控正向优化网络包括门控单元、校正单元和损失函数，根据校正结果和门控单元输出的权重，对前一阶段的预测结果进行优化，并计算均方误差RMSE作为损失函数。

如图7所示，多级门控正向优化网络由两个子网络组成，一个是校正单元将上一阶段的预测作为输入并生成校正的结果，另一个是门控单元输入前一阶段的隐藏层特征表示和预测结果，并输出门控权重以使用来自校正单元的校正结果来完善先前的预测。校正单元和门控单元仅包含时间卷积层，并且校正单元具有与TCN基本块相同的网络体系结构。具体来说，校正单元由L个扩张的残差层组成，其操作表示如下：

R_s＝F(Y_s-1)

图8说明了所提出的门控单元的架构细节。具体而言，阶段s的门控单元将前一阶段s-1的预测结果Y_s-1和特征表示H_s-1作为其输入。H_s-1中的特征表示连续时刻之间的相似性和差异性，而上一阶段的输出Y_s-1捕捉到了预测序列结果。合并Y_s-1和H_s-1的是为了将具有相似特征表示的两个连续时刻预测结果标记为相似数据。在softmax激活函数后执行一系列操作，首先，我们分别对两个输入进行带有D个卷积滤波器的1×1卷积，完成这些操作后，将两个输出进行级联并馈入内核大小为3的全连接层。

Y_s＝M_s⊙R_s+M_s⊙Y_s-1

其中⊙表示元素乘积。

其中，Y_real为光伏发电功率真实值。

步骤六：输出层输出光伏发电功率训练结果，通过大量数据参与训练，从而构建得到多级Gate-SA-TCN网络模型。

步骤七：通过远程预测模块，基于该模型对实时获取的数据进行光伏预测，输出实时预测结果。

本发明通过均方根误差能较好地反应模型的稳定性，因为标准差容易受数据中离群值的影响，当数据中含有较大或者较小的数据时，对整体的估计会产生较大影响，而均方根误差则可以消除该影响，所以，均方根误差能够很好地反映出整体的测量精度。另外，本发明引入R²系数又称为决定系数来反映模型对数据的解释能力，R²决定系数的取值范围为0到1，其值越接近于1表明模型的预测效果越好，计算公式为：

光伏发电功率预测精度对比图如表1所示。

表1光伏发电功率预测精度对比

从上表可以看出，基于多级Gate-SA-TCN的光伏发电功率预测方法的均方误差最低，稳定性最好。

以上所述的具体描述，对发明的目的、技术方案和有益效果进行进一步详细说明，所应理解的是，以上所述仅为本发明的具体实施例而已，并不用于限定本发明的保护范围，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.基于多级Gate-SA-TCN的光伏功率预测方法，其特征在于，包括如下步骤：

S1对历史光伏发电功率数据进行预处理，包括对异常数据的删除，对缺失数据的补充，最后进行归一化处理；

S2通过输入层将预处理后的数据输入到多级Gate-SA-TCN进行大规模的网络训练，所述预处理后的数据包括：不同温度，光照，风速条件下的历史光伏发电功率数据；

S3 TCN基本块堆叠了膨胀残差层和注意力机制层，用于对光伏发电站采集的数据进行特征提取；

S4将处理后的特征向量展开成一维向量输入全连接层，预测光伏发电功率；

S5多级门控正向优化网络，包括门控单元、校正单元和损失函数，根据校正结果和门控单元输出的权重，对前一阶段的预测结果进行优化，并计算均方误差RMSE作为损失函数；

S6输出层输出光伏发电功率训练结果，通过大量数据参与训练，从而构建得到多级Gate-SA-TCN网络模型；

2.如权利要求1所述，基于多级Gate-SA-TCN的光伏功率预测方法，其特征在于，步骤S3的具体实现方法为：

3.如权利要求1或2所述，基于多级Gate-SA-TCN的光伏功率预测方法，其特征在于：

因果卷积层的输出首先传递到扩张卷积层中，然后通过1×1卷积对其输出进行处理，再采用残差连接来促进梯度反向传播；扩张卷积使得有效窗口的大小随着层数呈指数型增长，残差块可以保证TCN网络的稳定性，因此卷积网络用比较少的层，就可以获得很大的感受野；每个膨胀残差层的操作可以描述如下：

其中l∈[1,L]是层数，H_l是第l个膨胀残差层的输出，

表示扩张时间卷积和1×1卷积层中的卷积算子；W_l∈R和W₂∈R是可学习的权重，而b₁，b₂∈R是卷积层的偏置矢量；

注意力机制目的是在所有时刻之间建立一对一的关联，我们不依赖任何外部信息，因此称为自我关注；注意力机制层包括softmax函数和乘法器，softmax函数对注意力分数进行归一化得到直接可用的权重，乘法器将采集的数据和权重进行加权求和来得到注意力加权特征Att；用X＝[X₁,…,X_N]表示H_l中N个特征，经过注意力机制得到单元输出：

H_L＝γ×Att+X

其中，γ表示可学习的参数；

4.如权利要求1所述，基于多级Gate-SA-TCN的光伏功率预测方法，其特征在于，步骤S5的实现方式为：

多级门控正向优化网络由两个子网络组成，一个是校正单元将上一阶段的预测作为输入并生成校正的结果，另一个是门控单元输入前一阶段的隐藏层特征表示和预测结果，并输出门控权重以使用来自校正单元的校正结果来完善先前的预测；校正单元和门控单元仅包含时间卷积层，并且校正单元具有与TCN基本块相同的网络体系结构；具体来说，校正单元由L个扩张的残差层组成，其操作表示如下：

R_S＝F(Y_s-1)

其中，R_s是在s阶段先前预测的校正结果，是该阶段的输出，F是TCN基本块用到的函数；除特征表示外，对先前的预测结果进行操作有助于捕获时间序列之间的依赖关系；此外，由于输入输出维度相差较大，两个连续阶段之间存在瓶颈层，这有助于缓解过度拟合的问题；

对于门控单元，阶段s的门控单元将前一阶段s-1的预测结果Y_s-1和特征表示H_s-1作为其输入；H_s-1中的特征表示连续时刻之间的相似性和差异性，而上一阶段的输出Y_s-1捕捉到了预测序列结果；合并Y_s-1和H_s-1的是为了将具有相似特征表示的两个连续时刻预测结果标记为相似数据；在softmax激活函数后执行一系列操作，首先，我们分别对两个输入进行带有D个卷积滤波器的1×1卷积，完成这些操作后，将两个输出进行级联并馈入内核大小为3的全连接层；

其中，W_h，W_y是卷积权重，b_h，b_y，b是偏差矢量；W_g连接输出g_h，g_y，然后将输出g馈入时间卷积，最后进行softmax激活，输出门控权重M_s以控制优化过程；

Y_s＝M_s⊙R_s+M_s⊙Y_s-1

其中⊙表示元素乘积；

其中，Y_real为光伏发电功率真实值。