CN116702831A

CN116702831A - 一种考虑数据大量丢失的混合短期风电功率预测方法

Info

Publication number: CN116702831A
Application number: CN202310657081.1A
Authority: CN
Inventors: 代伟; 丁春阳; 文方均; 李珂强; 曾志红; 石博臣
Original assignee: Guangxi University
Current assignee: Guangxi University
Priority date: 2023-06-05
Filing date: 2023-06-05
Publication date: 2023-09-05

Abstract

本发明公开一种考虑数据大量丢失的混合短期风电功率预测方法，包括以下步骤：1)建立基于GAN和BiLSTM的数据修复模型；2)获取风电数据序列，并输入至基于GAN和BiLSTM的数据修复模型中，对风电数据序列进行数据增强，得到风电数据增强序列；3)利用变分模态分解算法对风电数据增强序列进行分解，得到低波动性风电功率子序列；4)建立基于注意力机制的改进CNN‑BiGRU混合预测模型；5)将低波动性风电功率子序列输入至基于注意力机制的改进CNN‑BiGRU混合预测模型中，得到下一时刻风电功率预测结果。在数据质量较差的情况下，本发明可以保证预测精度满足电力系统运行的要求。

Description

一种考虑数据大量丢失的混合短期风电功率预测方法

技术领域

本发明涉及人工智能算法在电力系统的应用技术领域，具体是一种考虑数据大量丢失的混合短期风电功率预测方法。

背景技术

为了减少碳排放，可再生能源的发展因其绿色无污染的特点而受到全世界的关注。然而，大规模随机且波动的风电入网会影响电力系统的稳定性。而且，在监控系统运行过程中，通信网络的不稳定或采集设备发生故障都会造成相当比例的数据丢失。大量的数据丢失降低了数据驱动模型的预测精度，进一步阻碍了风电的并网。因此，为数据缺失的风电场提供有效的数据修复模型和预测模型至关重要。

在数据修复方面，国内外学者通常采用插值填补方法(平均值填补和中位数填补)以及基于人工智能的填补方法(KNN)来对缺失数据进行修复。这些人工智能方法都是根据完整数据的静态概率分布对缺失数据进行填补，虽然在一定程度上提高了后续预测模型的精度。然而，当面对复杂的时间序列时，这些数据修复模型生成的数据可能无法反映变量之间的隐藏关系，限制了后续预测模型准确性的进一步提高。数据缺失的问题解决后，如果直接使用生成的数据来训练预测模型，则也会产生一定的误差。因此，需要通过VMD实现对风电序列的处理，降低其随机性和波动性带来的影响。如何利用包含生成数据的数据集建立准确的预测模型也成为一种迫切需要。

在算法预测方面，与基于物理和统计方法的预测模型相比，深度学习技术，特别是循环神经网络(RNN)变体，由于其强大的时间序列特征提取能力，在发电功率预测和负荷预测方面都取得了显著的进展。然而，当数据量很大时，RNN在处理这些庞大的数据时，很容易发生梯度爆炸，最终导致训练失败。而且，单一的深度学习预测模型由于其泛化能力低，已经无法满足现代电力系统的要求。

发明内容

本发明的目的是提供一种考虑数据大量丢失的混合短期风电功率预测方法，包括以下步骤：

1)建立基于GAN和BiLSTM的数据修复模型；

2)获取风电数据序列，并输入至基于GAN和BiLSTM的数据修复模型中，对风电数据序列进行数据增强，得到风电数据增强序列；

3)利用变分模态分解算法对风电数据增强序列进行分解，得到低波动性风电功率子序列；

4)建立基于注意力机制的改进CNN-BiGRU混合预测模型；

5)将低波动性风电功率子序列输入至基于注意力机制的改进CNN-BiGRU混合预测模型中，得到下一时刻风电功率预测结果。

进一步，所述基于GAN和BiLSTM的数据修复模型包括生成器和判别器；

所述生成器用于生成风电功率样本；

所述判别器用于计算所述风电功率样本符合风电功率真实分布的概率。

进一步，生成器在时间点t，生成的样本y_t如下所示：

y_t＝g(W₄h_t+W₆h_t′) (1)

h_t＝f(W₁x_t+W₂h_t-1) (2)

h_t′＝f(W₃x_t+W₅h_t+1) (3)

式中，W₁、W₂、W₃、W₄、W₅、W₆为权重；x_t是时刻t的输入；h_t-1为隐藏在t-1时刻的输出；h_t+1为隐藏在t+1时刻的输出；h_t、h_t′是BiLSTM的前向传播层和反向传播层的输出；f()为传播函数；g()为样本生成函数。

进一步，所述生成器和判别器的参数通过交叉熵损失函数更新；

交叉熵损失函数如下所示：

式中，L_temporal _GAN表示交叉熵损失；为期望分布；G(y_t)为生成器生成的数据；D(x)是判别器的输出；p_data、p_z为风电数据序列的真实分布、高斯分布。

进一步，所述生成器的输入包括采样自高斯分布的噪声。

进一步，利用变分模态分解算法对风电数据增强序列进行分解的步骤包括：

3.1)构建变分模态分解目标函数和约束条件，即：

式中，u_k为本征模分量集；ω_k是中心频率的集合；δ(t)表示脉冲信号；K表示模态数；f(t)为风电数据增强序列；*表示卷积算子；表示偏导；t表示时间；j表示虚数；

3.2)引入拉格朗日乘法算子，建立增广拉格朗日L({u_k},{ω_k},λ)的表达式，即：

式中，α是惩罚因子；λ为拉格朗日乘子；

3.3)结合交替方向乘子法和傅里叶变换，对公式(5)-(6)进行迭代求解，得到模态分量和中心频率；

其中，模态分量和中心频率的迭代更新公式如下所示

式中，分别表示/> 的傅里叶变换；ω_k是第n+1次迭代时中心频率的集合；/>是第n+1次迭代时本征模分量；是t时刻本征模分量；上标∧表示迭代。ω是频率。

进一步，所述模态数K与惩罚因子α通过遗传算法优化得到；

遗传算法对模态数K与惩罚因子α进行优化的步骤包括编码、初始化种群、适应度评价、选择和交叉；

其中，适应度评价利用包络熵确定个体与最优值之间的距离；

包络熵E_P如下所示：

式中，N为采样点的个数；P_j是a(j)的归一化形式；a(j)为包络信号。

进一步，所述基于注意力机制的改进CNN-BiGRU混合预测模型包括输入层、CNN层、BiGRU层、注意力机制层和输出层。

进一步，基于注意力机制的改进CNN-BiGRU混合预测模型的输入层根据低波动性风电功率子序列构建输入矩阵X，并输入至CNN层；

所述CNN层包括卷积层、池化层和全连接层；

所述CNN层输出的特征向量H_C如下所示：

P＝max(C)+b₂ (11)

H_C＝σ(P×W₈+b₃) (12)

式中，C是卷积层的输出；P是池化层的输出；W₇和W₈是权重矩阵；b₁、b₂、b₃是偏差；σ是sigmoid函数；Max()为最大值函数；是卷积算子；X为卷积层的输入；

所述BiGRU层学习CNN层输出的特征向量，提取时间序列的动态特征，得到输出y_t，即：

式中，分别表示前向传播层和反向传播层的输出；

所述注意力机制层的输出如下所示：

e_t＝vtanh(wh_t+b) (14)

式中，e_t为t时刻根据BiGRU层输出向量h_t计算出的注意力概率分布值；v和w是权重；b是偏置；s_t是t时刻注意力层的输出；α_t为注意力机制所分配的权重值；

输出层的输出Y_t如下所示：

Y_t＝σ(w_os_t+b_o) (17)

式中，Y_t为t时刻的预测值；w_o和b_o分别为权重和偏差。

进一步，所述风电数据包括风速、风向、温度和风电功率。

本发明的技术效果是毋庸置疑的，本发明的有益效果如下：

1)本发明提出了一种基于双向长短期记忆网络和生成对抗网络的数据修复反复，在数据质量较差的情况下，本发明可以保证预测精度满足电力系统运行的要求。

本发明通过将双向长短期记忆网络嵌入到原始的生成对抗网络结构中，可以捕捉现有的数据的时序动态特征。利用对抗博弈性训练产生更逼近真实数据分布的样本对缺失值进行填补，从而为后续预测模型提供高质量数据。对数据集进行修复后，经遗传算法优化的变分模态分解可以更高效的对风电序列进行分解，从而避免经验设置的随机性。

2)在预测阶段，本发明提出了一种基于注意力机制的CNN-BiGRU混合预测模型。CNN用于提取历史信息的特征，BiGRU在学习时序动态特性时利用注意力机制强化重要信息的表达实现最终预测。该混合模型的预测结果比传统预测模型的预测结果更准确，具有更广阔的应用领域。

附图说明

图1为考虑重大数据丢失的风电场功率预测框架；

图2为时序GAN的框架图；

图3基于注意机制的CNN-BiGRU模型结构图；

图4为数据丢失40％的数据集(风速、风向、温度、风力功率)；

图5为风电场信息关联性分析的热力图；

图6为不同填补方法修复数据集的CDF曲线；

图7为不同预测模型下的风电功率曲线；

图8为不同模型的可视化预测结果。

具体实施方式

下面结合实施例对本发明作进一步说明，但不应该理解为本发明上述主题范围仅限于下述实施例。在不脱离本发明上述技术思想的情况下，根据本领域普通技术知识和惯用手段，做出各种替换和变更，均应包括在本发明的保护范围内。

实施例1：

参见图1至图8，一种考虑数据大量丢失的混合短期风电功率预测方法，包括以下步骤：

1)建立基于GAN和BiLSTM的数据修复模型；

4)建立基于注意力机制的改进CNN-BiGRU混合预测模型；

实施例2：

一种考虑数据大量丢失的混合短期风电功率预测方法，技术内容同实施例1，进一步的，所述基于GAN和BiLSTM的数据修复模型包括生成器和判别器；

实施例3：

一种考虑数据大量丢失的混合短期风电功率预测方法，技术内容同实施例1-2任一项，进一步的，所述生成器用于生成风电功率样本；

实施例4：

一种考虑数据大量丢失的混合短期风电功率预测方法，技术内容同实施例1-3任一项，进一步的，所述判别器用于计算所述风电功率样本符合风电功率真实分布的概率。

实施例5：

一种考虑数据大量丢失的混合短期风电功率预测方法，技术内容同实施例1-4任一项，进一步的，生成器在时间点t，生成的样本y_t如下所示：

y_t＝g(W₄h_t+W₆h_t′) (1)

h_t＝f(W₁x_t+W₂h_t-1) (2)

h_t′＝f(W₃x_t+W₅h_t+1) (3)

实施例6：

一种考虑数据大量丢失的混合短期风电功率预测方法，技术内容同实施例1-5任一项，进一步的，所述生成器和判别器的参数通过交叉熵损失函数更新；

实施例7：

一种考虑数据大量丢失的混合短期风电功率预测方法，技术内容同实施例1-6任一项，进一步的，交叉熵损失函数如下所示：

实施例8：

一种考虑数据大量丢失的混合短期风电功率预测方法，技术内容同实施例1-7任一项，进一步的，所述生成器的输入包括采样自高斯分布的噪声。

实施例9：

一种考虑数据大量丢失的混合短期风电功率预测方法，技术内容同实施例1-8任一项，进一步的，利用变分模态分解算法对风电数据增强序列进行分解的步骤包括：

3.1)构建变分模态分解目标函数和约束条件，即：

式中，α是惩罚因子；λ为拉格朗日乘子；

其中，模态分量和中心频率的迭代更新公式如下所示

式中，分别表示/> 的傅里叶变换；ω_k是第n+1次迭代时中心频率的集合；/>是第n+1次迭代时本征模分量；是t时刻本征模分量；上标∧表示迭代，含有上标∧的参数是在求解模态分量和中心频率的过程中不断迭代而计算出来的。ω是频率。

实施例10：

一种考虑数据大量丢失的混合短期风电功率预测方法，技术内容同实施例1-9任一项，进一步的，所述模态数K与惩罚因子α通过遗传算法优化得到；

实施例11：

一种考虑数据大量丢失的混合短期风电功率预测方法，技术内容同实施例1-10任一项，进一步的，遗传算法对模态数K与惩罚因子α进行优化的步骤包括编码、初始化种群、适应度评价、选择和交叉；

实施例12：

一种考虑数据大量丢失的混合短期风电功率预测方法，技术内容同实施例1-11任一项，进一步的，适应度评价利用包络熵确定个体与最优值之间的距离；

实施例13：

一种考虑数据大量丢失的混合短期风电功率预测方法，技术内容同实施例1-12任一项，进一步的，包络熵E_P如下所示：

实施例14：

一种考虑数据大量丢失的混合短期风电功率预测方法，技术内容同实施例1-13任一项，进一步的，所述基于注意力机制的改进CNN-BiGRU混合预测模型包括输入层、CNN层、BiGRU层、注意力机制层和输出层。

实施例15：

一种考虑数据大量丢失的混合短期风电功率预测方法，技术内容同实施例1-14任一项，进一步的，基于注意力机制的改进CNN-BiGRU混合预测模型的输入层根据低波动性风电功率子序列构建输入矩阵X，并输入至CNN层；

实施例16：

一种考虑数据大量丢失的混合短期风电功率预测方法，技术内容同实施例1-5任一项，进一步的，所述CNN层包括卷积层、池化层和全连接层；

实施例17：

一种考虑数据大量丢失的混合短期风电功率预测方法，技术内容同实施例1-16任一项，进一步的，所述CNN层输出的特征向量H_C如下所示：

P＝max(C)+b₂ (11)

H_C＝f(P×W₈+b₃)＝σ(P×W₈+b₃) (12)

实施例18：

一种考虑数据大量丢失的混合短期风电功率预测方法，技术内容同实施例1-17任一项，进一步的，所述BiGRU层学习CNN层输出的特征向量，提取时间序列的动态特征，得到输出y_t，即：

式中，分别表示前向传播层和反向传播层的输出；

实施例19：

一种考虑数据大量丢失的混合短期风电功率预测方法，技术内容同实施例1-8任一项，进一步的，所述注意力机制层的输出如下所示：

e_t＝vtanh(wh_t+b) (14)

实施例20：

一种考虑数据大量丢失的混合短期风电功率预测方法，技术内容同实施例1-19任一项，进一步的，输出层的输出Y_t如下所示：

Y_t＝σ(w_os_t+b_o) (17)

式中，Y_t为t时刻的预测值；w_o和b_o分别为权重和偏差。

所述风电数据包括风速、风向、温度和风电功率。

实施例21：

参见图1至图3，一种考虑数据大量丢失的混合短期风电功率预测方法，包括以下内容：

本方法实现了数据的有效增强，在数据缺失的条件下克服了预测精度不高的问题。

在数据预处理阶段，本实施例提出了一种基于双向长短期记忆(BiLSTM)和生成对抗网络(GAN)的数据修复方法。通过遗传算法(GA)优化变分模态分解(VMD)，将高波动率的风电序列分解为一组具有规律性的子序列，消除了依据经验设置参数的随机性。

在预测阶段，本实施例提出了一种基于注意力机制的卷积神经网络-双向门控循环单元(CNN-BiGRU)混合预测模型。混合预测模型通过简化高维特征，重点关注对风电功率作用更大的特征来提高预测精度。

具体步骤概括如下：

1)导入目标数据集后修复数据

在基于GAN和BiLSTM的数据修复模型中，加载部分数据集。然后，利用GAN的生成器(G)与判别器(D)之间的对抗性训练生成具有时序多样性的新样本。其中，生成器生成数据，判别器根据缺失部分前后一段时间的真实数据来判断它是真还是假。

2)分解包含生成数据的数据集

在对风电功率进行分解前，采用遗传算法对VMD中的参数(K,α)进行优化。最优的(K,α)组合可以减小重构误差，防止模态混叠的发生。然后，利用优化后的VMD将原始风电序列进行分解。

3)构建混合预测模型进行风电预测

结合数据修复策略和分解技术，利用CNN从修复后数据集中提取天气信息和风电功率的特征。然后，通过基于注意力机制的BiGRU对未来风电功率进行预测。

实施例22：

在数据预处理阶段，首先，提出了一种基于双向长短期记忆网络和生成对抗网络的数据增强方法，该方法能够捕获完整数据中的时间特征以生成高质量数据。其次，采用遗传算法对变分模态分解算法中的参数进行优化，消除了经验设置参数的随机性，并将高波动率的风电序列分解为具有低波动性的子序列。在预测阶段，提出了一种基于注意力机制的改进CNN-BiGRU混合预测模型。首先，通过CNN简化高维特征。其次，利用注意力机制，重点加强对风电功率影响更大的特征的表达来提高BiGRU的预测精度。

具体包括以下步骤：

1)基于时序GAN的数据修复模型

GAN由生成器和判别器组成，在图像合成和图像修复方面表现出色。图像生成和图像修复过程类似于矩阵的生成和修复，而风电场中的信息作为时间序列数据可以看作是一个矩阵。因此，GAN具有修复风电场缺失数据的能力。具体而言，生成器生成的数据样本应尽可能逼近历史训练数据的分布，而判别器则将生成的数据样本与实际数据样本区分开来。通过迭代训练生成器和判别器，最终实现判别器无法区分生成样本和历史样本真实性的纳什均衡，这表明生成的数据样本和历史数据样本的分布极其相似。

1-1)生成器

通过对生成器进行训练使其学习到风电场中完整数据的分布p_r(x)。生成数据的输入是采样自高斯分布的噪声z～p_g(z)。为了使生成器生成的新样本无限接近p_r(x)，本发明将生成器在训练过程中的损失函数L_G1和L_G2分别设置为式(1)和式(2)。L_G越小，表示生成器生成的数据越逼近真实样本。

1-2)判别器

判别器的输入是真实数据样本和生成的数据样本。其的输出是一个标量p_real，表示输入样本符合真实分布p_r(x)的概率。判别器训练过程中的损失函数如式(3)。L_D越小，判别器区分数据真实性的能力越强。为了建立生成器和判别器之间的博弈，使它们可以同时训练，本发明用函数V(G,D)来建立生成器和判别器之间的最大-最小博弈，如式(4)所示。在训练过程中，生成器和判别器中的参数不断调整，以达到最终的纳什均衡。

其中，E为期望分布；G(z)为生成器生成的数据；D(.)是判别器的输出。

1-3)基于BiLSTM的生成抗网络

考虑到风电场数据具有较强的时间序列特性，典型的删除法、插值填补法等会导致数据修复的质量不高。此外，原始生成对抗网络在生成数据的过程中是基于整个完整数据集的静态分布特征，这表明它在时间序列生成能力上是有限的。为了解决上述问题，本发明采用BiLSTM作为生成对抗网络的生成器和判别器。BiLSTM的前向传播层和反向传播层的状态单元同时连接于输出层，以捕获风电序列中的双向传播特征后进行输出，如式(5)-(7)所示。正向传播层能够考虑到历史数据对该时刻输出的影响，计算该时刻的输出h_t并存储结果。相反，反向传播层考虑未来时刻对当前时刻的影响，其输出h_t'是通过反向计算得到的。综上所述，正向层输出和反向层输出共同决定了BiLSTM的输出。在时间点t，生成的样本y_t由正向传播状态h_1:t＝(h₁，…，h_t-1)和反向传播状态h_t+1决定，如图2所示。

h_t＝f(W₁x_t+W₂h_t-1) (5)

h_t′＝f(W₃x_t+W₅h_t+1) (6)

O_t＝g(W₄h_t+W₆h_t′) (7)

其中，W₁-W₆为权重；x_t是时刻t的输入；h_t-1为隐藏在t-1时刻的输出；h_t+1为隐藏在t+1时刻的输出；O_t为BiGRU的输出。

为了进一步加强生成对抗网络对时间序列的生成能力，本专利改进了上述原始生成对抗网络的训练过程，提出了如式(8)的损失函数。具体来说，利用sigmoid激活函数的输出来评估生成数据的真实性，并通过交叉熵损失函数更新生成器和判别器的参数。最终，改进后的生成对抗网络克服了传统生成对抗网络和循环神经网络对更长时间序列的不灵活性，收集了过去和未来的状态信息，有效地对原始风电序列中的缺失值进行填补。

2)基于参数优化的变分模态分解模型

2-1)变分模态分解算法

变分模态分解算法可以将原始的高波动信号分解为简单且具有一般规律的子模态分量。具体计算过程可分为以下三个步骤:

a)构建变分问题，变分问题的目标是使本征模态分量估计带宽的和最小；约束条件是原始信号与本征模态分量的和相等。

其中，u_k为本征模分量集；ω_k是中心频率的集合；δ(t)表示脉冲信号；K表示模态数；f(t)为原始信号；*表示卷积算子。

b)为了求解式(9)，引入拉格朗日乘法算子，将变分问题转化为无约束问题，得到增广拉格朗日表达式(10)。

其中，α是惩罚因子。

c)使用交替方向乘子法(ADMM)结合傅里叶变换对模态分量和中心频率迭代计算进行求解。模态分量和中心频率的迭代更新公式分别由式(11)和式(12)表示。

其中，分别是/>的傅里叶变换。

2-2)遗传算法优化过程

遗传算法起源于对生物系统所进行的计算机模拟研究，是模仿自然界生物进化机制发展起来的随机全局搜索和优化方法，借鉴了达尔文的进化论和孟德尔的遗传学说。其本质是一种高效、并行、全局搜索的非线性优化方法，能在搜索过程中自动获取和积累有关搜索空间的知识，并自适应地控制搜索过程以求得最佳解。该方法在通用性和全局优化方面优于蚁群算法和粒子群算法。在遗传算法中，用“染色体”表示待优化问题的解，并用二进制进行编码。在算法执行过程中，通过对初始群体的选择、交叉、变异等步骤产生新一代群体。随着迭代计算的运行，种群被优化至包含最优解的状态。本专利采用遗传算法确定变分模态分解算法中K与α的理想组合。遗传算法包括六个步骤:编码、初始化种群、适应度评价、选择和交叉。其中最重要的是适应度评价。熵常被用来表示序列的无序性和随机性。熵值越小，不确定性越小，序列的周期性越强。然而，熵值越大表明序列的无序性和不确定性越大。在计算适应度值来确定个体与最优值之间的距离时，本专利使用包络熵来准确地描述风电序列的稀疏性和不可预测性。风电序列的包络熵不仅可以反映其随机性，还可以反映子序列中包含的原始序列特征的程度。包络熵通过稀疏性度量风电序列的特征。子序列越稀疏，其熵值越低，说明其包含的原始风电序列比例越大。相反，子序列的稀疏性越弱，熵值越大，说明子序列中含有大量的噪声，从而掩盖了风电序列中的原始信息。因此，选择包络熵作为遗传算法的适应度函数。此外，解的适应度越高，其传递给下一代的可能性就越大。风电序列x(j)(j＝1,2,…,N)的包络熵E_p计算公式为(13)。

其中N为采样点的个数；P_j是a(j)的归一化形式；a(j)为包络信号。

3)基于注意力机制的CNN-BiGRU预测模型

预测模型由输入层、CNN层、BiGRU层、注意力机制层和输出层组成，如图3所示。将修复后的风电功率数据(WS、WD、WP、T)作为输入，通过CNN的卷积和池化操作进行特征提取。然后，利用全连接层将提取到的特征转化为一维结构。为了实现高精度预测功能，BiGRU层和注意力机制层对提取到的特征进行学习，挖掘输入信息的变化规律。最后，通过输出层得到预测结果。具体步骤描述如下：

a)输入层。构建了一个由风力功率和与其高度相关的特征组成的输入矩阵X。

b)1DCNN层。它主要由卷积层、池化层和全连接层组成，以便从输入矩阵中提取特征。CNN层输出的特征向量H_C由式(14)-(16)计算得到。

P＝max(C)+b₂ (15)

H_C＝f(P×W₂+b₃)＝σ(P×W₂+b₃) (16)

其中，C是卷积层的输出；P是池化层的输出；W₁和W₂是权重矩阵；b₁、b₂、b₃是偏差；σ是sigmoid函数；Max()为最大值函数；是卷积算子。

c)BiGRU层。主要学习CNN层提取的特征，进一步提取时间序列的动态特征。BiGRU在t时刻的输出y_t如式(17)所示。

d)注意力机制层。注意力层的输入向量就是BiGRU层的输出。其主要根据权重分布，计算各特征信息对风电功率重要程度的概率分布值，以反映信息的重要程度。注意层权重的计算公式如下:

e_t＝vtanh(wh_t+b) (18)

其中，e_t为t时刻根据BiGRU层输出向量h_t计算出的注意力概率分布值；v和w是权重；b是偏置；s_t是t时刻注意力层的输出。

e)输出层。输出层是一个全连接层，它集成了注意力层的输出，得到最终的预测输出Y_t，如式(21)所示。

Y_t＝σ(w_os_t+b_o) (21)

式中，Y_t为t时刻的预测值；w_o和b_o分别为权重和偏差。

实施例23：

一种考虑数据大量丢失的混合短期风电功率预测方法的验证实验，内容如下：

本发明的技术路线可分为两个阶段，其中，在数据处理阶段，提出基于BiLSTM的生成对抗网络用来生成数据对缺失数据进行修复，提取真实数据中的动态特征与静态特征，为后续预测模型提供高质量数据集。随后，利用遗传算法对VMD的参数进行优化，将风电功率分解为9个相对稳定的子序列。克服了经验设置带来的随机性。在预测算法创新阶段，串行组合预测模型利用CNN提取输入信息的特征后进行简化。随后，在BiGRU预测过程中嵌入注意力机制加强对重要信息的表达以实现最终的预测。经实验仿真证明，混合预测模型的预测精度相较于传统模型有显著地提高。结合具体实施方案，进一步说明如下。

1)基础数据准备

本发明在技术实施过程中采用的数据来自广西壮族自治区的一座风电场。采集日期为2021年1月1日至12月31日，其数据丢失率为40％，如图4所示。数据采集频率为15min/次，涵盖了风电功率和气象信息。然而，不同的气象特征对风电出力的影响程度不同。因此，在仿真过程中，利用Pearson系数计算风电功率与其他特征的关联程度。其公式如下：

选用图5中Pearson系数大于0.5的特征作为输入数据。最终，选择风速(WS)、风向(WD)、温度(T)和风电功率(WP)作为输入。训练集与测试集的比例设置为8:2。

为了消除变量维度的影响，防止各个模型在训练过程中受到奇异值的影响，本文采用式(23)的min-max归一化方法，将上述数据映射到区间[-1,1]。使用平均绝对百分比误差(MAPE)和均方根误差(RMSE)如式(25)所示，作为评价指标来衡量真实值与预测值之间的差异。但是，由于本专利所使用的数据中存在风电出力为0的情况，因此使用了平均绝对误差(MAE)作为代替，如式(24)所示。此外，增加如式(26)所示的决定系数R²以反映预测值与实际值之间的线性相关性。

/>

2)建立基于BiLSTM和GAN的数据修模型

为了验证缺失数据修复后的数据集质量，将均值填补(M1)，KNN填补(M2)，和原始GAN填补(M3)作为对比。采用累积分布函数(CDF)欧氏距离(EDD)来衡量真实数据集与包含生成数据的数据集的分布差异(统计相似性)。其中，CDF可以描述风电场信息(WS,WD,WP,T)之间的概率分布(p)，如式(27)所示。EDD能够计算出空间中两点之间的真实距离来区分两个数据集间的差异，如式(28)所示。从表1可以看出，与均值填补、KNN填补和原始GAN填补方法相比，时序GAN填补的EDD值最低。在WP、WS、WD和T方面，GAN的EDD值较原始GAN分别降低了91.2％、73.5％、63.8％和64.8％。与均值填补、KNN填补和原始GAN填补方法相比，时序GAN修复数据集的CDF曲线与真实数据集的CDF曲线拟合得最好，如图6所示。

表1不同填补方法修复的数据集EDD值

为了进一步验证所提数据修复模型对预测模型性能的作用，分别对未填充的数据和上述四种方法填充的数据应用BP、CNN、LSTM、GRU和BiGRU。预测结果见表2，从中可以看出结构简单的BP神经网络的MAE和RMSE分别为2.756和2.127，受缺失数据的影响比深度学习模型小。但数据修复后，BP预测性能的改善同样有限。使用时序GAN修复的数据集，BP的RMSE和MAE分别降低了27.01％和23.86％。如表2所示，在缺失数据修复后，深度神经网络的误差降低更大。特别是使用时序GAN进行缺失值填补时，CNN的MAE和RMSE仅为1.981和1.532。与其他三种填补方法(M1,M2,M3)相比，CNN的MAE和RMSE分别降低了33.14％、21.61％、20.85％和35.82、22.35％、22.19％。从表2还可以看出，用经过时序GAN修复的数据集，高级的深度学习算法具有更高的预测精度。例如，BiGRU模型的预测结果中，M4的RMSE和MAE相对M1、M2和M3分别降低了53.16％、46.74％和39.27％，58.18％、53.30％和53.18％。显然，数据的质量和数量对最终预测模型的效果有显著影响，M4能够准确捕捉数据内部的规律性和时间序列分布，实现对数据的有效修复。

表2应用不同填补方法的预测结果比较

3)基于GA和VMD数据分解模型

虽然数据修复模型解决了数据丢失的问题，但包含生成数据的数据集与真实数据集一样具有极强的波动性。因此，使用VMD将风电序列分解为9个不同的模态，以克服这种波动性给预测模型带来的挑战。在上述仿真的基础上，利用VMD-BP、VMD-CNN、VMD-LSTM-VMD-GRU、VMD-BiGRU5个预测模型验证分解算法的有效性。将分解后每个模态的预测结果叠加得到预测值，每个模型的RMSE、MAE和R²的比较结果见表3。数据分解技术的应用显著降低了BP、CNN、LSTM、GRU和BiGRU的预测误差。其中，VMD-LSTM的RMSE和MAE分别比LSTM小0.264和0.452，说明VMD算法可以降低风电的不稳定性，提高预测精度。此外，与未进行数据分解的情况相比，经过数据分解的BiGRU神经网络预测的RMSE和MAE分别降低了13.6％和5.48％。而且，R²提高了4.25％。综上所述，分解方法使预测模型能够捕捉到风电功率序列中各子序列的动态特性，从而提高了风电功率预测的精度。

表3不同评价指标的比较

不同的分解个数会对后续预测模型的精度造成较大的干扰。因此，为了验证遗传算法优化VMD后的优势，本发明比较了不同分解个数下的预测效果。表4显示了时态GAN-VMD-BiGRU在不同分解次数下的预测结果。一般来说，分解技术的应用能够提高预测精度。然而，当分解数设置为2或3时，预测模型的结果反而变差。表x的结果也表明，通过遗传算法优化的分解数9可以获得最高的预测精度。与分解数设置为8的相比，RMSE减小了1.17％，MAE减小了3.90％，R²增大了3.54％。这进一步证明了遗传算法可以避免经验设置VMD参数的随机性，选择出最优的分解参数。

表4不同分解个数下的时序GAN-VMD-BiGRU模型预测结果

基于注意力机制和CNN-BiGRU预测模型

为了证明本专利所提预测模型的有效性，使用了CNN、LSTM、GRU、BiGRU、CNN-LSTM和CNN-BiGRU作为对比模型。在经过时序GAN方法修复和VMD分解的数据集上，进行了风电功率预测的仿真实验。所选模型在测试集上的预测曲线如图7所示。为了更加直观地展示本文预测方法的优越性，图8给出了CNN-BiGRU-Attention(本专利所提模型)模型与不同预测模型比较的预测指标。

从图7和图8可得，LSTM和GRU的预测效果优于CNN，这表明循环神经网络在时间序列建模方面具有更大的优势。因为BiGRU可以捕捉神经元正向和反向两个方向的状态信息，所以BiGRU在预测精度方面优于LSTM和GRU。仿真结果表明，与传统深度学习模型相比，CNN-BiGRU和基于注意机制的CNN-BiGRU具有更高的预测精度。其中，与BiGRU相比，CNN-BiGRU的RMSE降低了28.9％，MAE降低了34.8％，R²提高了3.7％。这是因为CNN-BiGRU模型使用CNN提取输入特征，然后结合BiGRU预测风力。其预测精度的提高验证了特征提取的必要性。具有注意机制的CNN-BiGRU的RMSE和MAE分别比BiGRU降低了48.8％和46.1％，R²也比BiGRU大得多。这是因为注意机制依据依据对最终预测结果的重要性为每个时刻分配权重，通过防止信息丢失和加强关键信息的表达来降低预测误差。因此，如图7所示，在风功率变化显著的峰谷阶段，本专利所提的模型也优于现有模型。

Claims

1.一种考虑数据大量丢失的混合短期风电功率预测方法，其特征在于，包括以下步骤：

1)建立基于GAN和BiLSTM的所述数据修复模型。

4)建立基于注意力机制的改进CNN-BiGRU混合预测模型；

2.根据权利要求1所述的一种考虑数据大量丢失的混合短期风电功率预测方法，其特征在于，所述基于GAN和BiLSTM的数据修复模型包括生成器和判别器；

所述生成器用于生成风电功率样本；

3.根据权利要求2所述的一种考虑数据大量丢失的混合短期风电功率预测方法，其特征在于，生成器在时间点t，生成的样本y_t如下所示：

y_t＝g(W₄h_t+W₆h_t′) (1)

h_t＝f(W₁x_t+W₂h_t-1) (2)

h_t′＝f(W₃x_t+W₅h_t+1) (3)

4.根据权利要求2所述的一种考虑数据大量丢失的混合短期风电功率预测方法，其特征在于，所述生成器和判别器的参数通过交叉熵损失函数更新；

交叉熵损失函数如下所示：

式中，L_{temporal GAN}表示交叉熵损失；为期望分布；G(y_t)为生成器生成的数据；D(x)是判别器的输出；p_data、p_z为风电数据序列的真实分布、高斯分布。

5.根据权利要求2所述的一种考虑数据大量丢失的混合短期风电功率预测方法，其特征在于，所述生成器的输入包括采样自高斯分布的噪声。

6.根据权利要求1所述的一种考虑数据大量丢失的混合短期风电功率预测方法，其特征在于，利用变分模态分解算法对风电数据增强序列进行分解的步骤包括：

3.1)构建变分模态分解目标函数和约束条件，即：

式中，α是惩罚因子；λ为拉格朗日乘子；

其中，模态分量和中心频率的迭代更新公式如下所示

式中，分别表示/> 的傅里叶变换；ω_k是第n+1次迭代时中心频率的集合；/>是第n+1次迭代时本征模分量；/>是t时刻本征模分量；上标∧表示迭代；ω是频率。

7.根据权利要求6所述的一种考虑数据大量丢失的混合短期风电功率预测方法，其特征在于，所述模态数K与惩罚因子α通过遗传算法优化得到；

包络熵E_P如下所示：

8.根据权利要求1所述的一种考虑数据大量丢失的混合短期风电功率预测方法，其特征在于，所述基于注意力机制的改进CNN-BiGRU混合预测模型包括输入层、CNN层、BiGRU层、注意力机制层和输出层。

9.根据权利要求8所述的一种考虑数据大量丢失的混合短期风电功率预测方法，其特征在于，基于注意力机制的改进CNN-BiGRU混合预测模型的输入层根据低波动性风电功率子序列构建输入矩阵X，并输入至CNN层；

所述CNN层包括卷积层、池化层和全连接层；

所述CNN层输出的特征向量H_C如下所示：

P＝max(C)+b₂ (11)

H_C＝σ(P×W₈+b₃) (12)

式中，分别表示前向传播层和反向传播层的输出；

所述注意力机制层的输出如下所示：

e_t＝vtanh(wh_t+b) (14)

输出层的输出Y_t如下所示：

Y_t＝σ(w_os_t+b_o) (17)

式中，Y_t为t时刻的预测值；w_o和b_o分别为权重和偏差。

10.根据权利要求1所述的一种考虑数据大量丢失的混合短期风电功率预测方法，其特征在于，所述风电数据包括风速、风向、温度和风电功率。