CN113988449A

CN113988449A - 基于Transformer模型的风电功率预测方法

Info

Publication number: CN113988449A
Application number: CN202111307838.1A
Authority: CN
Inventors: 程松; 任景; 周鑫; 张小东; 褚云龙; 马晓伟; 董丹; 王鹏; 李俊; 薛斌; 李宁
Original assignee: Northwest Branch Of State Grid Corp Of China
Current assignee: Northwest Branch Of State Grid Corp Of China
Priority date: 2021-11-05
Filing date: 2021-11-05
Publication date: 2022-01-28
Anticipated expiration: 2041-11-05
Also published as: CN113988449B

Abstract

本发明公开了一种基于Transformer模型的风电功率预测方法，具体包括如下步骤：步骤1，对风电功率进行数据预处理，得到风电功率时间序列数据；步骤2，将步骤1所得的风电功率时间序列数据经过嵌入式操作和位置编码，然后输入到Nx层编码器中，最终输出K和V向量；步骤3，将步骤2所得的K、V向量输入到解码器中进行解码操作，输出训练时的预测结果；步骤4，通过Adam优化算法对步骤2所用到的权值矩阵进行更新，得到新的权值矩阵后再循环进行步骤2、步骤3，达到预定的迭代次数后输出最终的风电功率预测值。采用本发明能够实现风电场发电功率预测。

Description

基于Transformer模型的风电功率预测方法

技术领域

本发明属于新能源中的风力发电技术领域，涉及一种基于Transformer模型的风电功率预测方法。

背景技术

当今世界，由于化石能源之类的不可再生资源的过分开发与利用，能源与环境问题日益严重。在该战略背景之下，我国天然风能资源储量大、分布广，因此近年来风力发电产业规模发展迅速，已经成为新能源发展的重要支撑领域之一。在实际的生产活动中，我们需要对风电功率进行预测活动，从而尽量减少风电企业因为发电量波动、环境变化等所造成的经济财产损失。

风力发电功率预测问题是一种典型的时间序列预测问题，这类问题如果用人脑的思维方式解决，会首先对过去的一段时间内的数据进行记忆，并分析出数据本身的特征规律，然后根据这些历史数据对未来的数据做出预测。因此，如果应用到计算机中，深度神经网络模型是比较适合解决时间序列预测问题的一类模型，而这种运用神经网络模型的方法一般属于统计方法。

统计方法是需要通过对不同历史样本数据进行分析，从而建立不同样本之间的非映射关系。常见的时序外推办法有持续法、移动平均法等等，还有人工神经网络(ANN)、支持向量机(SVM)等其他人工智能方法，然而因为风电功率预估属动态的时间序列难题，系统的输入与如今及过去的输出都相关，前述办法的预测精确度有限且预测性能逐渐不能达到实际生产需求，因此基于长短期神经网络(LSTM)的模型，甚至是在此基础上的LSTM-Attention和LSTM-VMD等组合神经网络因其较高的预测性能广受欢迎。

时间序列预测问题最近一直是一些深度神经网络模型重点解决的实际问题，这类问题的主要任务是根据历史时间段内某对象或者事件的特征来预测未来某一时刻或者某一时间段内该对象或者事件的特征。在早期研究中，人们往往采用循环神经网络(RNN)模型进行预测，因为RNN网络与之前的深度神经网络最大的不同就在于它具有记忆功能，当前的输出与之前的输出是有关系的。但是RNN在处理比较长的序列时会“记忆力衰减”，影响预测效果。所以随着长短期记忆人工神经网络模型(LSTM)的出现，甚至后面在此基础上又结合了注意力机制(Attention)，明显推动了时间序列预测问题的研究。

发明内容

本发明的目的是提供一种基于Transformer模型的风电功率预测方法，采用该方法能够实现风电场发电功率预测。

本发明所采用的技术方案是，基于Transformer模型的风电功率预测方法，具体包括如下步骤：

步骤1，对风电功率进行数据预处理，得到风电功率时间序列数据；

步骤2，将步骤1所得的风电功率时间序列数据经过嵌入式操作和位置编码，然后输入到Nx层编码器中，最终输出K和V向量；

步骤3，将步骤2所得的K、V向量输入到解码器中进行解码操作，输出训练时的预测结果；

步骤4，通过Adam优化算法对步骤2所用到的权值矩阵进行更新，得到新的权值矩阵后再循环进行步骤2、步骤3，达到预定的迭代次数后输出最终的风电功率预测值。

本发明的特点还在于：

步骤1的具体过程为：

步骤1.1，获取风电功率数据：

通过现有数据库或者实际风电场获得风电功率时间序列数据；

步骤1.2，对步骤1.1获取的风电功率数据进行归一化处理与数据划分：

对风电功率时间序列进行归一化，将风电数据集统一映射到[0，1]区间上，按9:1的比列划分成训练集和测试集，得到归一化后的风电时间序列训练集和测试集。

步骤2的具体过程为：

步骤2.1，通过Input Embedding操作，将步骤1所得的风电功率时间序列数据转化为稀疏矩阵X₁形式，经过Embedding后进行位置编码；

步骤2.2，将步骤2.1所得稀疏矩阵X₁以及位置编码送入第一层编码器中的多头注意力机制层，与若干组权值矩阵W^Q、W^K、W^V相乘，转化为计算注意力值所需的若干组Q、K、V向量；每组向量计算得到一个Z矩阵，把得到的若干个Z矩阵通过多头注意力机制进行拼接；

步骤2.3，将稀疏矩阵X₁与步骤2.2得到的矩阵Z经过残差连接与归一化处理，得到X₁与Z的归一化连接值；

步骤2.4，将步骤2.3所得结果输入到全连接前馈神经网络层中进行特征提取；

步骤2.5，步骤2.4提取得到的特征再次进行Add&Normalize操作，然后输入到下一层解码器中；

步骤2.6，重复执行步骤2.2～2.5，直至将步骤1所得的风电功率时间序列训练集经过Nx层编码器编码，得到最终输出的K、V向量。

步骤3的具体过程为：

步骤3.1，初始阶段输入起始符，后续输入上一时刻transformer的输出，通过Embedding后获得稀疏矩阵X₂,并进行位置编码；

步骤3.2，步骤3.1得到的经过位置编码后的稀疏矩阵X₂输入到Masked Multi-HeadAttention模块，对输入的稀疏矩阵X₂进行对齐，输出Q向量后，经过Add&Normal输入下一层多头注意力机制；

步骤3.3，步骤3.2所得结果和步骤2的编码器最后一层的输出K和V向量输入到第二层多头注意力机制层中得到输出序列；

步骤3.4，步骤3.3得到的结果与稀疏矩阵X₂进行残差连接与归一化，得到归一化连接值；

步骤3.5，将步骤3.4得到的归一化连接值经过全连接前馈神经网络提取特征向量，再进行一次残差连接与归一化得到结果向量；

步骤3.6，将得到的结果向量继续传给下一层解码器，重复步骤3.2～3.5，经过N_X层解码器解码后，最后一层解码器输出最终向量。

步骤3.7，将最后一层解码器输出的向量经过线性层，映射到一个logits向量；

步骤3.8，将logits向量经过softmax层将相关性得分的分数转换为风电功率预测值出现的概率，选择概率最高的那个数字对应的风电功率的值。

步骤4的具体过程为：

步骤4.1，通过步骤1、2得到初始权重下的损失函数，将损失函数作为目标函数计算相应梯度值；

步骤4.2，根据步骤4.1所得梯度值对transformer模型权值进行迭代更新，完成最后一次迭代训练后终止优化训练，获得最优transformer模型与权重；

步骤4.3，将步骤1中所得的测试集输入到4.2所得的最优transformer模型当中，得到风电功率最优预测结果。

本发明的有益效果如下：

1.本发明设计了近年来在自然语言处理领域比较流行的基于Transformer算法的模型，创新性地来对风电功率进行短期预测。

2.考虑了外部因素和内部因素对预测结果的影响。内因是模型本身结构的特点所导致的误差，外因则属于气象因素，是风电场周围风速、风向、温度等环境因素造成的预测误差。

附图说明

图1是本发明基于Transformer模型的风电功率预测方法的总体流程图；

图2是本发明基于Transformer模型的风电功率预测方法中Encoder-Decoder的整体结构图；

图3是本发明基于Transformer模型的风电功率预测方法中Transformer模型总体结构图。

具体实施方式

下面结合附图和具体实施方式对本发明进行详细说明。

本发明基于Transformer模型的风电功率预测方法，其流程图如图1所示，具体按照如下步骤实施。

步骤1，对风电功率数据进行归一化预处理以及进行数据划分，得到一个时间序列数据，具体为：

步骤1.1，获取风电功率数据；

通过现有数据库或者实际风电场获得风电功率时间序列数据。

步骤1.2，进行归一化与数据划分；

对风电功率时间序列进行归一化，将风电数据集统一映射到[0，1]区间上，按9:1的比列划分成训练集和测试集，其中训练集用于前期调整模型的参数，测试集用于最后测试模型的效果，得到归一化后的风电时间序列训练集和测试集。

归一化公式：

其中，X_normal是归一化之后的数据，X为原始风电功率数据，X_max、X_min分别为原始数据的最大值和最小值。该方法也称为线性函数归一化法。

如图2左部分所示，为transformer中的Encoder结构图。

步骤2，将步骤1所得的风电功率时间序列的训练集经过嵌入式操作和位置编码，然后输入Encoder编码器中，通过多头注意力机制层进行特征提取，将提取的特征表示输入到下一层Encoder编码器(共有Nx层编码器，其中Nx＝6)，每一层Encoder的工作过程相同，如步骤2.2到步骤2.5所示，最终输出K和V向量；步骤2的具体过程为：

步骤2.1，通过Input Embedding(嵌入式)操作，把将步骤1所得的风电功率时间序列的训练集数据转换为稀疏矩阵(X₁)的形式，将稀疏矩阵(X₁)经过Embedding后进行positional encoding(位置编码)。使用正余弦位置编码，通过不同频率的正弦、余弦函数生成，然后和对应的位置向量相加，PE(位置编码，positional encoding)计算公式如下：

其中，pos表示该元素在序列向量中的绝对位置；d_model表示该向量的维度；2i和2i+1表示奇偶性。

步骤2.2，如图3所示，将2.1得到的经过位置编码后的稀疏矩阵(X₁)送入多头注意力机制层，通过与多头注意力机制中的多组(本发明中选用8组)权值矩阵W^Q、W^K、W^V相乘，转变为计算attenton值所需要的多组Query(Q)、Keys(K)、Values(V)向量。每组分别计算得到一个z矩阵，把得到的多个z矩阵进行拼接(concact)得到矩阵Z。

步骤2.2.1，由步骤1得到的稀疏矩阵(X₁)与权值矩阵W^Q、W^K、W^V相乘得到Q、K、V向量：

Q＝X1*W^Q (4)；

K＝X1*W^K (5)；

V＝X1*W^V (6)；

步骤2.2.2，计算每个风电功率序列之间的相关性得分score，用Q中每一个向量与K中每一个向量计算点积，具体到矩阵形式公式如下：

score＝Q·K^T (7)；

其中，d_k是K向量的维度。

对于相关性得分进行归一化，目的是为了训练时梯度更加稳定，归一化公式如下公式(3)所示：

其中d_k是K向量的维度。

步骤2.2.3，通过softmax函数，将每个风电功率时间序列之间的得分向量转换成[0,1]之间的概率分布，同时更加凸显向量之间的关系，同时也将softmax函数作为损失函数，经过softmax后，score转换成一个值分布在[0,1]之间的概率分布矩阵α；

步骤2.2.4，根据每个向量之间的概率分布矩阵，然后乘上Values值，即将α与V进行点积，得到单个的z矩阵。

z＝soft max(score)·V (9)；

步骤2.2.5，通过concact操作把多个z矩阵拼接起来，得到矩阵Z。

在本次发明专利中，是将8个z矩阵拼接，得到Z矩阵。

步骤2.3，得到矩阵Z之后，将稀疏矩阵X₁与矩阵Z进行残差连接与归一化处理(Add&Normalize)。

步骤2.3.1，在矩阵Z的基础上加一个残差块X(防止在深度神经网络训练中发生退化，避免了梯度消失的问题，也就是为了防止深度神经网络通过增加网络的层数，Loss逐渐减小，然后趋于稳定达到饱和，然后再继续增加网络层数，Loss反而增大。)

步骤2.3.2，对2.3.1得到的结果进行归一化(Normalize)，得到归一化连接值(加快模型收敛速度)。

sub_layer_output＝LayerNorm(X₁+Z) (10)；

步骤2.4，将归一化得到的每个特征的向量经过全连接前馈神经网络(FNN)，该过程分为一次线性变换，然后进行一次ReLU非线性，再进行一次线性变换，得到特征提取。

FNN(全连接前馈升级网络)层的公式如下：

FNN(x)＝max(0，XW₁+b₁)W₂+b₂ (11)；

其中max函数表示ReLU非线性变换，X为步骤2.4的输出，W1、b1分别为第一次线性变换所乘的系数和常数项，b2为第二次线性变化所加的常数项

步骤2.5，步骤2.4提取得到的特征再次进行Add&Normalize操作，然后输入到下一层Encoder(编码器)。

步骤2.6，重复执行步骤2.2-步骤2.5，直至经过Nx(Nx＝6)层Encoder(编码器)，得到最终输出的K、V向量。

如图2右半部分所示为Decoder的结构图。

步骤3，将步骤2所得的K、V向量输入到Decoder解码器(Decoder解码器和编码器一样也有N_X层，其中N_X＝6)进行解码操作，经过多头注意力机制，最后输出训练时的预测结果。(Decoder(解码器)中包含两个多头注意力机制层，第一个多头注意力机制层用来记录的当前的输入之间的信息，第二个多头注意力机制是为了预测输出。同时Decoder的输入分为两类，一类是预测时的输入，初始阶段输入的是起始符，然后每次输入时上一时刻transformer的输出，第二类是训练时的输入(步骤2的encoder最终所得到的结果)。)

步骤3.1：初始阶段输入起始符，后续输入上一时刻transformer的输出(第一类输入)，通过Embedding(嵌入式操作)后获得稀疏矩阵X₂,并进行位置编码(PositionalEncoding)。

步骤3.2：步骤3.1得到的经过位置编码后的稀疏矩阵X₂输入到Masked Multi-HeadAttention(带mask的多头注意力机制，即第一个多头注意力机制层)模块，对输入的稀疏矩阵X₂进行对齐(同时防止Decoder中可以看到后面需要预测的内容)，输出Q(Query)后经过Add&Normal后输入下一层多头注意力机制。

步骤3.3，步骤3.2得到的输出和步骤2的encoder(编码器)最后一层的输出K(keys)和V(Values)(第二类输入)输入到第二层多头注意力机制层中得到输出序列。

步骤3.4，步骤3.3得到的结果与输入(X₂)进行残差连接与归一化(Add&Normal)，得到归一化连接值。

步骤3.5：将步骤3.4得到的归一化连接值经过全连接前馈神经网络(FeedForwardNet)提取特征向量，再进行一次残差连接与归一化(Add&Normal)得到结果向量。

步骤3.6：将得到的结果向量继续传给下一层decoder，重复步骤3.2-步骤3.5，经过N_X(N_X＝6)层decoder(解码器)后，最后一层decoder输出最终向量。

步骤3.7：最后一层Decoder输出的向量经过线性层，映射到一个更长的向量(logits向量)。

步骤3.8：logits向量经过softmax层将相关性得分的分数转换为风电功率预测值出现的概率，选择概率最高的那个数字对应的风电功率的值。

步骤4，通过Adam优化算法对步骤2所用到的权值矩阵进行更新，得到新的权值矩阵后再循环进行步骤2、步骤3，达到预定的迭代次数后输出最终的风电功率预测值。(在transformer模型的训练过程中使用优化算法来提升整个模型的学习效率，即使用梯度下降方法，通过Adam梯度下降算法对损失函数进行反向传播，计算相应的梯度值，然后以这个梯度值对模型的权重不断进行更新，在最后一次迭代训练完成后停止整个模型的训练过程。)

步骤4.1：通过步骤1、2得到初始权重下的损失函数(softmax函数)，将损失函数作为目标函数计算相应梯度值：

g(t)＝f(x(t-1)) (12)

其中，f(x)为损失函数(softmax函数)，g(t)为相应的梯度值。

步骤4.2，根据所得梯度值对模型权值进行迭代更新，完成最后一次迭代训练后终止优化训练，获得最优模型与权重。

步骤4.2.1，对于作为搜索一部分而被优化的每个参数，必须维持一个矩矢量和指数加权无穷大范数，分别称为m和v。在搜索开始时将它们初始化为m＝0,v＝0；

步骤4.2.2，该算法从t＝1开始的时间t内迭代执行，并且每次迭代都涉及计算一组新的参数x,通过矢量运算来更新所有参数。

步骤4.2.3，使用梯度和超参数beta1更新第一时刻。

m(t)＝beta1*m(t-1)+(1-beta1)*g(t) (13)；

其中beta1是一阶矩估计的指数衰减率(取0.9)，m(t)为指数移动均值。

步骤4.2.4，使用平方梯度和超参数beta2更新第二时刻。

v(t)＝beta2*v(t-1)+(1-beta2)*g(t)^2 (14)；

其中beta2是二阶矩估计的指数衰减率(取0.999)，v(t)为平方梯度。

(由于第一和第二力矩是用零值初始化的，所以它们是有偏的。)

步骤4.2.5，对第一力矩和第二力矩进行偏差校正，并以第一力矩为起点：

然后第二个时刻：

其中，beta1(t)和beta2(t)指的是beta1和beta2超参数，它们在算法的迭代过程中按时间表衰减。mhat(t)、m(t)分别表示校正后指数移动均值和校正前的指数移动均值，vhat(t)、v(t)分别表示校正前的平方梯度和校正后的平方梯度。

步骤4.2.6，为该迭代计算参数的值：

其中，alpha是步长超参数(学习率)，eps是一个较小的值(epsilon)，例如1e-8，可确保不会遇到被零除的误差，x(t)为更新后的损失函数，x(t-1)为上一时刻的损失函数。

根据所得梯度值对transformer模型权值进行迭代更新，设定迭代次数为50次，完成第50次迭代训练后终止优化训练，获得最优模型与权重。

步骤4.3，将测试集输入到4.2的模型当中，得到风电功率最优预测结果。

Claims

1.基于Transformer模型的风电功率预测方法，其特征在于：具体包括如下步骤：

2.根据权利要求1所述的基于Transformer模型的风电功率预测方法，其特征在于：所述步骤1的具体过程为：

步骤1.1，获取风电功率数据：

3.根据权利要求2所述的基于Transformer模型的风电功率预测方法，其特征在于：所述步骤2的具体过程为：

4.根据权利要求3所述的基于Transformer模型的风电功率预测方法，其特征在于：所述步骤3的具体过程为：

步骤3.6，将得到的结果向量继续传给下一层解码器，重复步骤3.2～3.5，经过N_X层解码器解码后，最后一层解码器输出最终向量；

5.根据权利要求4所述的基于Transformer模型的风电功率预测方法，其特征在于：所述步骤4的具体过程为：