CN116050621A

CN116050621A - 一种集成提升模式的多头自注意力海上风电超短时功率预测方法

Info

Publication number: CN116050621A
Application number: CN202310049281.9A
Authority: CN
Inventors: 骆钊; 吴谕侯; 朱家祥; 王钢; 沈鑫; 杨林燕; 田肖; 董晨鸣; 聂灵峰; 罗蒙顺; 黎博文
Original assignee: Kunming University of Science and Technology
Current assignee: Kunming University of Science and Technology
Priority date: 2023-02-01
Filing date: 2023-02-01
Publication date: 2023-05-02

Abstract

本发明属于风电功率预测的技术领域，提供了一种集成提升模式的多头自注意力海上风电超短时功率预测方法，进一步提升海上风电超短期功率预测精度；采用的技术方案包括如下步骤：S1、数据收集及预处理，S2、引入多尺度时间块自编码机制作为嵌入层来构建风电功率预测模型，S3、使用Adaboost集成学习方法对预测模型进行提升，S4、算例分析验证；本发明所构建的预测模型具有优秀的泛化性和可移植性，相较于传统预测模型，在海上风电超短期功率预测精度中有进一步的提升；集成学习能进一步提升模型预测性能，且综合优于传统的包裹式稀疏约束算法预测效能。

Description

一种集成提升模式的多头自注意力海上风电超短时功率预测方法

技术领域

本发明一种集成提升模式的多头自注意力海上风电超短时功率预测方法属于风电功率预测的技术领域。

背景技术

相对于陆上风电，海上风电存在更多不确定性及不稳定性因素，这会对电力系统的稳定性运行造成一定的影响。与此同时海上复杂的气候条件也限制了海上风电功率预测的精度，海汽浪耦合作用强烈，因此亟需完成对海上风电超短期功率的准确预测，以保证电网的稳定运行。

一般意义上，风电功率预测可分为物理模型和统计模型两类。其中，物理方法主要是根据风电场周边的气压、气温等环境情况，结合数值天气预报(NWP)模型预测风速，从而完成新建风电场的功率预测，此方法成本高昂且需要大量的前置假设难以在短时间内进行规模化应用推广。统计模型则是数据驱动型研究，其核心在于构建已采集的数据中自变量与因变量之间的映射关系，进一步泛化至对未知数据的预测中。根据模型构建与求解方法，统计模型也可以大致分为两类：传统统计分析法以及人工智能法。前者包括多元线性回归、偏最小二乘法等；后者包括支持向量机回归、决策树、随机森林等。它们在风电预测场景中已得到相关的应用，由于这些模型在构建时未充分考虑风电功率时空变化模式，因此需要进一步的突破。

得益于传感器、通讯及存储技术的发展，我们已经可以获得海量高时间分辨率的风电监测数据，这为深度学习时间序列模型的构建提供了可能，从而有望对风电功率时间依赖性进行建模，使得在海上风电超短期功率预测精度中能进一步的提升。

发明内容

本发明克服现有技术存在的不足，所要解决的技术问题为：提供一种集成提升模式的多头自注意力海上风电超短时功率预测方法，进一步提升海上风电超短期功率预测精度。

为了解决上述技术问题，本发明采用的技术方案为：一种集成提升模式的多头自注意力海上风电超短时功率预测方法，包括如下步骤：

S1、数据收集及预处理；

S2、引入多尺度时间块自编码机制作为嵌入层来构建风电功率预测模型；

S3、使用Adaboosts集成学习方法对预测模型进行提升；

S4、算例分析验证。

有益效果：

本发明所构建的预测模型具有优秀的泛化性和可移植性，相较于传统预测模型，在海上风电超短期功率预测精度中有进一步的提升；集成学习能进一步提升模型预测性能，且综合优于传统的包裹式稀疏约束算法预测效能。

附图说明

下面结合附图对本发明做进一步详细的说明；

图1为本发明的预测流程示意图；

图2为本发明算例分析中的随机采样点模型预测表现图；

图3为本发明算例分析中的不同基学习器交叉验证得分图；

图4为本发明算例分析中的集成学习算法交叉验证得分图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明中的实施例，对本发明的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明的一部分实施例，而不是全部的实施例；基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明一种集成提升模式的多头自注意力海上风电超短时功率预测方法，包括如下步骤：

S1、数据收集及预处理；

S3、使用Adaboost集成学习方法对预测模型进行提升；

S4、算例分析验证。

所述步骤S1数据收集及预处理的内容为：对收集整理的风电场功率数据按5秒时间分辨率进行时序化，去除无效及缺失数据，以优选隐空间维度进行稀疏自编码半监督学习。

所述步骤S2引入多尺度时间块自编码机制作为嵌入层来构建风电功率预测模型的步骤如下：

S21、稀疏时间块自编码网络

稀疏时间块自编码网络稀疏时间块自编码网络是对传统意义的稀疏自编码器网络(Sparse Autoencoder，SAE)的调整，其核心区别在于输入层需要使用扁平化层对不等长序列向量以邻域块为基本单位进行扁平化，并通过不足补零的方式将序列单元数补充至2048，记编码器输入为X，且X∈R^(2048×N)，接下来，网络沿用了SAE的编码器(记为A₀)—解码器(记为A₂)结构，同时，记解码器输出为

有：

式中，解码器和编码器均为全连接层，激活函数为sigmoid，因此：

式中，A₁为编码器的输出，同时是解码器的输入，位于编码器与解码器之间，于模型架构中隐式表达，因此也称为隐空间，在本发明所提出的约束条件下，隐空间是对原数据的低秩近似，即低秩特征表达；W₁、W₂分别代表编码器及解码器的权重；b₁、b₂分别代表编码器及解码器的偏置；

sigmoid(z)＝(1+e^-z)^-1 (3)

式中，z代表实数域通用向量，-z表示z的负值；z∈Rⁿ表示实数域任意向量；

公式(3)为公式(2)服务，用于解释说明公式2中的sigmoid的操作；

IAE网络的训练目标是最小化重构损失，同时引入稀疏约束，由此可得IAE损失函数为：

式中，J代表IAE网络总损失函数；M代表参与IAE网络训练的有效时序样本总数；x⁽ⁱ⁾代表第i个样本真实风电功率值、

代表第i个样本解码器输出的风电功率值；λ为给定的正则化稀疏、β为给定的稀疏约束稀疏；、F表示矩阵Frobenius范数；D表示隐空间维度；p、

为中间变量，其具体计算方式在公式(5)给出；

式中，

表示隐空间A₁的第i个样本的第j个神经元的输出值；

表示编码器A₀的第i个样本的第j个神经元的输入值；

以公式(4)作为优化目标，采用随机梯度下降法将稀疏时间块自编码网络训练完成后，所得隐空间A₁即为等长自编码映射结果；

S22、多头注意力架构

经典的多头注意力架构包含一个解码器和编码器，且解码器和编码器都包含多头自注意力网路以完成序列至序列建模；本发明预测模型为时间序列多头注意力架构，其任务核心为超短期风电功率预测，因此，本发明对经典多头注意力架构中的解码器进行整体上的调整，将其替换为单线性层网络，对编码器位于预测头位置的编码结果进行转化，风电功率预测值即为输出；

除此之外，对架构中的编码器结构也进行调整，编码器由L个基本单元堆叠而成，每个基本单元包含一个多头自注意力网路(Multi-head self-attention，MSA)、多层感知机(Multilayer perceptron，MLP)以及层归一化(Layer norm，LN)。MSA由多个自注意力网络(self-attention，SA)嵌合而成：

MSA(z)＝［SA₁(z)；SA₂(z)；...；SA_k(z)]U_msa (6)

其中，k为多头总数；U_msa为多头映射参数，是模型中待学习变量；

每个SA则通过查询(q)、键(k)、值(v)机制对输入序列每个元素相对于序列中其他元素的相关性以值的形式进行返回，其计算公式如下：

[q，k，v］＝zU_qkv (8)

其中，U_qkv为映射参数，是模型中待学习变量；q表示查询向量、T表示矩阵转置操作、D_h表示序列向量长度、v表示值向量。

集成学习(ensemble learning，EL)包括boosting类和bagging类集成。两者分别从学习器的提升和数据有效性提升方面进行模型的增强。Boosting类集成学习是通过对弱学习器进行投票，增强基于弱可学习可以堆叠成为强可学习的潜质假设理论，从而使得整体模型的精度和性能得到提升。其中，Adaboost(AB)作为boosting类集成学习经典方法之一，泛化能力方面表现优秀。本发明将使用Adaboosts集成学习方法对预测模型进行提升。

所述步骤S3使用Adaboost集成学习方法对预测模型进行提升是将弱可学习器提升为强可学习器，集成提升前，需给定集成次数T，其具体步骤如下：

S31、以正态初始化参数在原训练样本集中训练一个基准模型作为基学习器；

S32、计算当前学习器在训练集中每一个样本的均方误差MSE，并依照MSE对样本从大至小排序；

S33、选取MSE较大的数量一半(向下取整)的样本，在该样本中重新训练一个基学习器；

S34、按照加性模型法则将新基学习器与原基学习器进行加权平均，加权参数为基学习器所对应训练样本的MSE值百分比权重；

S35、重复S32-S34直至迭代次数达到集成学习次数上限。

本发明提供的集成提升模式的多头自注意力海上风电超短时功率预测模型框架整体上包括三个部分完成对超短期风电功率的模型预测，其中，各部分完成的步骤如下：

1)时间系数约束

模型对收集整理的风电场功率数据按5秒时间分辨率进行时序化，去除无效及缺失数据，以优选隐空间维度进行稀疏自编码半监督学习；

2)时间块嵌入

模型对所得隐空间张量作为前项，以风电功率全连接层输出作为后项进行时空位置编码，并将输出扁平化嵌入多头注意力架构的编码器中；

3)多头注意力架构

以多头自注意力为基本单元，对嵌入层向量空间进行编码及解码，最终得到预测功率。

实验流程包括数据准备收集阶段和实验阶段。

实验流程如图1所示。

准备收集阶段即本发明步骤S1的数据收集及预处理。

数据准备收集具体内容包括：

S11、海上风电机组数据记录入库

所述海上风电场机组已安装具有标准化功率监控传感器，所述传感器在本发明规定的时间分辨率1分钟下进行平行数据采集，数字信号通过物联网与数据库联结，进而完成特定机组风电功率实时记录入库。

S12、库内数据预处理

预处理阶段输入数据形式为步骤A1采集记录于数据库内的原始数据，输出为经过数据清洗、序列化后的时序数据样本。具体步骤包括：

(1)数据清洗

机组进行风电功率采集过程及数字信号传输与储存过程会不定期出现信号中断或遗失现象，表现在库内数据的形式则是空缺值或为异常值代码。数据清洗步骤则是对上述空缺值及异常代码值进行剔除，保留有效信号。

(2)样本序列化

本发明旨在对海上风电功率时间依赖模式进行建模，具体所属技术细节为超短时预测。样本序列化则是将独立离散样本点重组为序列形式，包括5条历史监测值作为模型自变量以及下一节点的功率值作为预测目标。

实验阶段如下：

基于准备收集阶段的完成，本发明继续研究模型中稀疏自编码尺度约束下模型精度的变化及其分析。最后，本发明使用集成算法Adaboost对模型进行增强，并与相关基学习器及其对应的集成学习进行对比证明模型的稳定性和可靠性，完成模型的海上风电超短期功率预测。

以下根据具体数据对算例分析验证进行具体说明。

所述步骤S4算例分析验证的内容包括：

S41、确定预测结果评估指标

选择某海上风力发电场集群进行算例分析，数据样本来源于该风电场的历史功率数据集，单机组容量为1.5MW，采用的时间分辨率为1min，完成整理后，数据依照风机编号入库存储。

深度学习模型各神经元节点量纲及范围的统一有助于避免网络权重偏置；基于此，使用公式(1)将数据归一化转换至区间(0,1)，即：

式中：x为样本中实际最优原始海上风电输入功率值；x_t为样本中归一化完成后的最优海上风电功率值；x_min为样本中原始海上风电功率最小值；x_max为样本中原始海上风电功率最大值；

以平均绝对误差(mean absolute error，MAE)，均方误差(Mean Square Error,MSE)以及平均绝对百分比误差(Mean Absolute Percentage Error，MAPE)对海上风电超短期功率实验预测结果进行评估，三种表达式如下所示：

并选取决定系数R²评价预测模型的预测质量，R²的取值范围为(0,1)，其结果越接近于1，则反映出模型拟合数据的准确度越高，模型质量越好，公式如下：

其中，Z_i为海上风电功率样本实际值；

为海上风电功率预测值；

为海上风电功率样本实际值的平均值；m为海上风电功率样本总数值；

S42、基准模型搭建及实验优化

S421、对输入序列数据进行时间块切分，以使之匹配多头自注意力模块的输入形式，时间块切分前需要对包含有时间信息及其对应的变量属性信息进行清洗和整理，重点在于将原始数据按照等时间步长间隔组织整理成顺序序列对：

S＝{(t₁,s₁),(t₂,s₂),...,(t_N,s_N)}

其中，N为有效样本总数，t_k,1≤k≤N代表t_k时刻记录值属性信息为s_k；

S422、指定多尺度时间块尺寸数组

实验目标是完成超短期风电功率预测，因此默认指定时间块尺寸组为A＝{1,2,3,4,5,6,7,8,9}，接着，按照A中各元素作为时间邻域大小对初始序列S分别进行重组，获得序列组：

{B₁,B₂,...,B₉}

其中，B_k(1≤k≤9)表示以A_k为邻域大小对X进行序列化；A_k表示A的第k个元素，其默认值恰好为k；

经过时间块切分，初始序列X已重组为9个不等长序列组，为将重组后的序列组和嵌入层进行对接，对{B₁,B₂,...,B₉}进行稀疏自编码，将其映射至隐空间A₁∈R^d，其中d为隐空间维度；

按照表1所示的模型网络结构配置表搭建多尺度隐空间稀疏约束条件下本发明模型组；

表1本发明模型网络结构配置表

Table 1 models structure configuration table

随着隐空间维度提升，模型对时间块稀疏约束性减弱，神经元节点数也呈上升趋势，其中，模型的存储空间开销及训练时间与约束空间维度三者之间存在关联关系，模型对预测序列中未来功率值进行掩码操作，防止自回归中带入预测信息，从而增强模型鲁棒性，对此配置下基于样本中数据完成模型进行训练，使用Adam优化器进行训练；

为综合分析基准模型的预测能力，随机抽取该海上风电场集群样本中某日9:00-17:00范围内的原始数据进行实验分析，按照5min预测步长进行实验，风电功率预测值及真实值如图2所示，在稳定期采样点位置，显示本发明预测模型具有优秀预测精度和能力，由此说明，该预测模型在功率稳定变化期预测性能优秀；

S423、模型性能校验

根据概率近似正确学习框架(probably approximately correct，PAC)，弱可学习可提升为强可学习；为进一步对本发明模型进行增强，最后，将进行集成学习实验；为验证本发明模型的综合能力，同步设置一组基学习器LASSO回归、LSTM、GRU(K-NearestNeighbor，KNN)，分类回归树(classification and regression tree,CART)，支持向量机(Support Vector Machine,SVM)与本发明预测模型进行交叉验证。交叉验证能有效评估本发明模型在海上风电场集群的样本数据中的预测性能的优劣性，并在一定程度上减小过拟合。本发明使用k-折交叉验证，其思想是将风电原始样本数据不重复抽样随机分成k份，每次挑选其中一份风电样本数据作为测试集，剩余k-1份样本数据作为训练集用于模型的训练，直到全部数据完成实验测试。实验过程中将样本设置k＝5。交叉验证可反映模型泛化能力，本发明实验设置评估准则为负均方误差，结果如图3所示。

六种模型的验证得分趋势如图3，综合分析，预测性能最优且最稳定的基学习器为本发明模型，LASSO回归模型预测性能仅次于本发明预测模型。LASSO回归与我们的时间块稀疏自编码类似，都是通过l₁范数对学习变量维度进行正则化约束从而达到特征降维的效果。将本发明预测模型、LASSO回归模型与其他模型进行横向对比，可发现经过稀疏约束后模型表现性能相较于一般模型在风电超短期功率预测场景更为稳定。LASSO回归模型的稀疏约束是非自主训练过程，对隐空间维度及概率分布无法进行人为干预。本发明预测模型中的稀疏时间块自编码，则通过KL散度对隐空间进行低秩近似约束，从而使得本发明预测模型最终性能上更优于LASSO回归模型。

AdaBoost是一种能够将弱可学习器提升为强可学习器的集成学习算法。本组实验在上一阶段基学习器基础上分别进行AdaBoost提升，并对其进行交叉验证，结果如图4所示。

如图4可以看到，六种横向对比模型中，表现最为优异及稳定的模型依然是AB-本发明预测模型及AB-LASSO模型，且通过集成后的本发明模型依旧在稳定性和预测性能上要优于同样集成后的AB-LASSO模型。为了进一步验证本发明预测模型进行集成学习效果后对海上风电超短期功率预测的性能，同时证明本发明所构建的预测模型的泛化能力，本发明最后随机选取该海上风电场集群样本数据里某日中四个小时风电功率，分别使用本发明预测模型、LASSO回归模型、AB-本发明预测模型、AB-LASSO模型进行海上风电超短期功率的预测，最终预测结果如表2所示。

表2集成学习及基学习器功率预测精度表

Table 5 Power forecasting accuracy table of ensemble learning andbasic learning

由表可知，本发明模型集成后的新模型要稍优于本发明基准模型。且集成后的AB-LASSO模型也同样优于LASSO模型。综合数值分析比对中，集成后的本发明模型相较于本发明原始模型e_MSE提升了3.16％，决定系数R²提升了0.81％；AB-LASSO相较于LASSO模型MSE提升了2.59％，决定系数R²提升了1.01％，由此说明在海上风电超短期功率预测中，集成学习AB算法可以对选定预测的基学习器性能进行有效提升。基于此，本发明能够进一步获得本发明的集成化提升模型。另一方面，集成后的预测模型相较于AB-LASSO模型MSE提升了13.26％，决定系数R²提升了3.12％，由此进一步证明了本发明预测模型中的稀疏时间块自编码在风电功率时序预测模型中相较于传统的包裹式稀疏约束具有更优性能。

算例分析验证总结论如下：

本发明所构建的模型具有优秀的泛化性和可移植性，相较于传统预测模型，在海上风电超短期功率预测精度中有进一步的提升；集成学习能进一步提升模型预测性能，且我们的模型综合优于传统的包裹式稀疏约束算法预测效能。

最后应说明的是：以上各实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述各实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。