CN114238297A

CN114238297A - 一种风机运行缺失数据填补方法、装置、电子设备及介质

Info

Publication number: CN114238297A
Application number: CN202111539787.5A
Authority: CN
Inventors: 胡阳; 杨泽; 候文昌; 房方; 刘吉臻
Original assignee: North China Electric Power University; Huaneng Group Technology Innovation Center Co Ltd
Current assignee: North China Electric Power University; Huaneng Group Technology Innovation Center Co Ltd
Priority date: 2021-12-15
Filing date: 2021-12-15
Publication date: 2022-03-25

Abstract

本申请提供了一种风机运行缺失数据填补方法、装置、电子设备及介质，其中，该方法包括：获取风电场的实测运行数据样本；针对需要填补的连续缺失数据，利用剩余数据提取风电场运行相似条件；采用k折交叉验证法训练得到k1个GPR数据填补模型，进行缺失数据填补并求取k1个GPR数据填补值的平均值，得到GPR数据填补平均值并计算其标准偏差；采用k折交叉验证法训练得到k2个LSTM数据填补模型，进行缺失数据填补并求取k2个LSTM数据填补值的平均值，得到LSTM数据填补平均值并计算其标准偏差；对GPR数据填补平均值的标准偏差和LSTM数据填补平均值的标准偏差进行加权计算得到填补结果，对连续缺失数据进行填补，可在大范围连续数据缺失情况下具有较高的缺失值填补精度。

Description

一种风机运行缺失数据填补方法、装置、电子设备及介质

技术领域

本申请涉及风机运行缺失数据填补技术领域，尤其是涉及一种风机运行缺失数据填补方法、装置、电子设备及介质。

背景技术

在风机记录的运行数据中，受传感器故障，存储器故障，运行条件随机干扰等原因，异常值普遍存在。清洗异常数据后出现了大长度连续数据缺失情况，留下了许多小长度的连续数据，缺失数据的比例很高，剩余数据被严重破坏。同时，由于风机的主动风能捕获以及一些诱发的随机气流影响(例如尾流效应、风剪切和塔影效应)，风机与其相邻风机之间流场的耦合效应是可变、复杂和不确定的，它们的输出功率之间会产生各种复杂的耦合效应。因此，风机输出功率之间的空间相关性难以提供有效的辅助信息以插补大长度缺失的数据。即使考虑了空间相关性，由于巨大的不确定性也无法实现较高精度的插补。此外，剩余的时间序列被破坏后，使用时间相关性进行插补建模就非常困难。由于缺失数据主要是由堆积的异常值造成的，因此插补的缺失数据应该反映风机最大功率输出特性，该特性在一段时间内保持一致，缺失数据还与剩余数据有关，因此填补缺失数据时应该利用剩余数据。

在现有的缺失数据填补方案中，插值法以及回归法是较为常用的手段。例如拉格朗日插值法和牛顿插值法，这些插值方法都存在高阶插值大幅度波动现象，数据填补精度较差，特别是需要填补的数据段较长时。分段插值在一定程度上能提高填补的精确性和稳定性，如分段线性或三次哈密特插值法。对于单变量或多变量插补方案，可以使用回归插补，滤波插补和最大期望插补。除此之外，采用神经网络算法所构建的模型需要大量的历史数据，并且针对大范围连续数据缺失的情况是不适用的。此外，没有考虑到需要填补的变量与其他影响因素在时间、空间等方面的相关性。

发明内容

有鉴于此，本申请的目的在于提供一种风机运行缺失数据填补方法、装置、电子设备及介质，在大范围连续数据缺失(即风电场极端数据缺失)情况下具有较高的缺失值填补精度。

第一方面，本申请实施例提供了一种风机运行缺失数据填补方法，包括：

获取风电场的实测运行数据样本；

针对所述实测运行数据样本中需要填补的连续缺失数据，利用所述实测运行数据样本中的剩余数据提取风电场运行相似条件；

基于所述风电场运行相似条件，采用k折交叉验证法训练得到第一数量的高斯过程回归数据填补模型，基于所述第一数量的高斯过程回归数据填补模型进行缺失数据填补，求取第一数量的高斯过程回归数据填补值的平均值，得到高斯过程回归数据填补平均值，并计算所述高斯过程回归数据填补平均值的标准偏差；

基于所述风电场运行相似条件，采用k折交叉验证法训练得到第二数量的长短期记忆神经网络数据填补模型，基于所述第二数量的长短期记忆神经网络数据填补模型进行缺失数据填补，求取第二数量的长短期记忆神经网络数据填补值的平均值，得到长短期记忆神经网络数据填补平均值，并计算所述长短期记忆神经网络数据填补平均值的标准偏差；

对所述高斯过程回归数据填补平均值的标准偏差和长短期记忆神经网络数据填补平均值的标准偏差进行加权计算，得到填补结果，并利用所述填补结果对所述连续缺失数据进行填补。

在一种可能的实施方式中，针对所述实测运行数据样本中需要填补的连续缺失数据，利用所述实测运行数据样本中的剩余数据提取风电场运行相似条件，包括：

针对所述实测运行数据样本中需要填补的连续缺失数据，在第一输入特征向量的条件下，根据所述第一输入特征向量对应的时间序列计算包括均值、标准差、中位数和中位数绝对偏差的特征值，构建第一特征矩阵；

针对所述实测运行数据样本中的剩余数据，在第二输入特征向量的条件下，根据所述第二输入特征向量对应的时间序列计算包括均值、标准差、中位数和中位数绝对偏差的特征值，构建第二特征矩阵；

针对任一变量，计算该变量对应的第一特征矩阵中的特征向量和第二特征矩阵中的特征向量之间的欧氏距离；

针对所有变量，若每个变量对应的所述欧氏距离均小于预设正标量，则确定所述连续缺失数据对应的风电场运行相似条件为所述第二输入特征向量。

在一种可能的实施方式中，基于所述风电场运行相似条件，采用k折交叉验证法训练得到第一数量的高斯过程回归数据填补模型，基于所述第一数量的高斯过程回归数据填补模型进行缺失数据填补，求取第一数量的高斯过程回归数据填补值的平均值，得到高斯过程回归数据填补平均值，包括：

以风速数据的时间序列为输入向量，以需要填补的风功率数据、转子转速数据和桨距角数据的时间序列为输出向量，构建高斯过程回归数据填补模型，并设置所述高斯过程回归数据填补模型中的协方差函数的结构和超参数；

基于所述风电场运行相似条件，采用k折交叉验证法训练所述高斯过程回归数据填补模型；

针对每个训练好的所述高斯过程回归数据填补模型，采用滚动的方式，将训练好的所述高斯过程回归数据填补模型输出的当前时刻的插补值作为插补下一时刻的缺失值的输入向量，直至所有缺失数据填补完成；

针对第一数量的训练好的所述高斯过程回归数据填补模型，在所有缺失数据填补完成后，得到第一数量的高斯过程回归数据填补值；

计算所述第一数量的高斯过程回归数据填补值的算数平均值，得到高斯过程回归数据填补平均值。

在一种可能的实施方式中，针对每个训练好的所述高斯过程回归数据填补模型，采用滚动的方式，将训练好的所述高斯过程回归数据填补模型输出的当前时刻的插补值作为插补下一时刻的缺失值的输入向量，直至所有缺失数据填补完成，包括：

若训练好的所述高斯过程回归数据填补模型为前向模型，则针对每个前向模型，采用滚动的方式，将风速数据的历史时间序列输入至训练好的所述高斯过程回归数据填补模型中，输出当前时刻的插补值作为插补下一时刻的缺失值的输入向量，直至所有缺失数据填补完成；

若训练好的所述高斯过程回归数据填补模型为后向模型，则针对每个后向模型，采用滚动的方式，将风速数据的未来时刻的时间序列输入至训练好的所述高斯过程回归数据填补模型中，输出当前时刻的插补值作为插补下一时刻的缺失值的输入向量，直至所有缺失数据填补完成；

针对第一数量的训练好的所述高斯过程回归数据填补模型，在所有缺失数据填补完成后，得到第一数量的高斯过程回归数据填补值，包括：

针对前向数量的所述高斯过程回归数据填补模型，在所有缺失数据填补完成后，得到前向数量的高斯过程回归数据填补值；

针对后向数量的所述高斯过程回归数据填补模型，在所有缺失数据填补完成后，得到后向数量的高斯过程回归数据填补值；

将所述前向数量的高斯过程回归数据填补值和后向数量的高斯过程回归数据填补值进行加权处理，得到第一数量的高斯过程回归数据填补值。

在一种可能的实施方式中，基于所述风电场运行相似条件，采用k折交叉验证法训练得到第二数量的长短期记忆神经网络数据填补模型，基于所述第二数量的长短期记忆神经网络数据填补模型进行缺失数据填补，求取第二数量的长短期记忆神经网络数据填补值的平均值，得到长短期记忆神经网络数据填补平均值，包括：

以风速数据的时间序列为输入向量，以需要填补的风功率数据、转子转速数据和桨距角数据的时间序列为输出向量，构建长短期记忆神经网络数据填补模型；

基于所述风电场运行相似条件，采用k折交叉验证法训练所述长短期记忆神经网络数据填补模型，确定所述长短期记忆神经网络数据填补模型的包括输入参数、隐含层层数、隐含层神经元个数、迭代次数和优化算法中至少一项的超参数；

针对每个训练好的所述长短期记忆神经网络数据填补模型，采用滚动的方式，将训练好的所述长短期记忆神经网络数据填补模型输出的当前时刻的插补值作为插补下一时刻的缺失值的输入向量，直至所有缺失数据填补完成；

针对第二数量的训练好的所述长短期记忆神经网络数据填补模型，在所有缺失数据填补完成后，得到第二数量的长短期记忆神经网络数据填补值；

计算所述第二数量的长短期记忆神经网络数据填补值的算数平均值，得到长短期记忆神经网络数据填补平均值。

在一种可能的实施方式中，针对每个训练好的所述长短期记忆神经网络数据填补模型，采用滚动的方式，将训练好的所述长短期记忆神经网络数据填补模型输出的当前时刻的插补值作为插补下一时刻的缺失值的输入向量，直至所有缺失数据填补完成，包括：

若训练好的所述长短期记忆神经网络数据填补模型为前向模型，则针对每个前向模型，采用滚动的方式，将风速数据的历史时间序列输入至训练好的所述长短期记忆神经网络数据填补模型中，输出当前时刻的插补值作为插补下一时刻的缺失值的输入向量，直至所有缺失数据填补完成；

若训练好的所述长短期记忆神经网络数据填补模型为后向模型，则针对每个后向模型，采用滚动的方式，将风速数据的未来时刻的时间序列输入至训练好的所述长短期记忆神经网络数据填补模型中，输出当前时刻的插补值作为插补下一时刻的缺失值的输入向量，直至所有缺失数据填补完成；

针对第二数量的训练好的所述长短期记忆神经网络数据填补模型，在所有缺失数据填补完成后，得到第二数量的长短期记忆神经网络数据填补值，包括：

针对前向数量的所述长短期记忆神经网络数据填补模型，在所有缺失数据填补完成后，得到前向数量的长短期记忆神经网络数据填补值；

针对后向数量的所述长短期记忆神经网络数据填补模型，在所有缺失数据填补完成后，得到后向数量的长短期记忆神经网络数据填补值；

将所述前向数量的长短期记忆神经网络数据填补值和后向数量的长短期记忆神经网络数据填补值进行加权处理，得到第二数量的长短期记忆神经网络数据填补值。

在一种可能的实施方式中，对所述高斯过程回归数据填补平均值的标准偏差和长短期记忆神经网络数据填补平均值的标准偏差进行加权计算，得到填补结果，包括：

计算所述高斯过程回归数据填补平均值与所述高斯过程回归数据填补平均值的标准偏差之间的商值，得到第一数值；

计算所述长短期记忆神经网络数据填补平均值与所述长短期记忆神经网络数据填补平均值的标准偏差之间的商值，得到第二数值；

计算所述第一数值和第二数值的和，作为被除数；

计算所述高斯过程回归数据填补平均值的标准偏差的倒数，得到第三数值；

计算所述长短期记忆神经网络数据填补平均值的标准偏差的倒数，得到第四数值；

计算所述第三数值和第四数值的和，作为除数；

将所述被除数和除数之间的商值确定为填补结果。

第二方面，本申请实施例还提供一种风机运行缺失数据填补装置，包括：

样本获取模块，用于获取风电场的实测运行数据样本；

条件提取模块，用于针对所述实测运行数据样本中需要填补的连续缺失数据，利用所述实测运行数据样本中的剩余数据提取风电场运行相似条件；

第一计算模块，用于基于所述风电场运行相似条件，采用k折交叉验证法训练得到第一数量的高斯过程回归数据填补模型，基于所述第一数量的高斯过程回归数据填补模型进行缺失数据填补，求取第一数量的高斯过程回归数据填补值的平均值，得到高斯过程回归数据填补平均值，并计算所述高斯过程回归数据填补平均值的标准偏差；

第二计算模块，用于基于所述风电场运行相似条件，采用k折交叉验证法训练得到第二数量的长短期记忆神经网络数据填补模型，基于所述第二数量的长短期记忆神经网络数据填补模型进行缺失数据填补，求取第二数量的长短期记忆神经网络数据填补值的平均值，得到长短期记忆神经网络数据填补平均值，并计算所述长短期记忆神经网络数据填补平均值的标准偏差；

加权填补模块，用于对所述高斯过程回归数据填补平均值的标准偏差和长短期记忆神经网络数据填补平均值的标准偏差进行加权计算，得到填补结果，并利用所述填补结果对所述连续缺失数据进行填补。

第三方面，本申请实施例还提供一种电子设备，包括：处理器、存储器和总线，所述存储器存储有所述处理器可执行的机器可读指令，当电子设备运行时，所述处理器与所述存储器之间通过总线通信，所述机器可读指令被所述处理器执行时执行上述第一方面，或第一方面中任一种可能的实施方式中的步骤。

第四方面，本申请实施例还提供一种计算机可读存储介质，该计算机可读存储介质上存储有计算机程序，该计算机程序被处理器运行时执行上述第一方面，或第一方面中任一种可能的实施方式中的步骤。

本申请实施例提供的一种风机运行缺失数据填补方法，首先获取风电场的实测运行数据样本，针对所述实测运行数据样本中需要填补的连续缺失数据，利用所述实测运行数据样本中的剩余数据提取风电场运行相似条件，可以充分地利用剩余数据，提高高斯过程回归数据填补模型和长短期记忆神经网络数据填补模型的精度；而后，提出多算法(高斯过程回归算法和长短期记忆神经网络算法)加权填补的方法，具体地，基于所述风电场运行相似条件，采用k折交叉验证法训练得到第一数量的高斯过程回归数据填补模型，基于所述第一数量的高斯过程回归数据填补模型进行缺失数据填补，求取第一数量的高斯过程回归数据填补值的平均值，得到高斯过程回归数据填补平均值，并计算所述高斯过程回归数据填补平均值的标准偏差；基于所述风电场运行相似条件，采用k折交叉验证法训练得到第二数量的长短期记忆神经网络数据填补模型，基于所述第二数量的长短期记忆神经网络数据填补模型进行缺失数据填补，求取第二数量的长短期记忆神经网络数据填补值的平均值，得到长短期记忆神经网络数据填补平均值，并计算所述长短期记忆神经网络数据填补平均值的标准偏差；对所述高斯过程回归数据填补平均值的标准偏差和长短期记忆神经网络数据填补平均值的标准偏差进行加权计算，得到填补结果，并利用所述填补结果对所述连续缺失数据进行填补。本申请实施例中，第一方面，针对风电场缺失数据填补具有普适性，可以针对风功率、转子转速、桨距角等风机运行状态数据进行缺失值填补；第二方面，利用所述实测运行数据样本中的剩余数据提取风电场运行相似条件，可以充分地利用剩余数据，提高高斯过程回归数据填补模型和长短期记忆神经网络数据填补模型的精度；第三方面，不仅适用于小范围的连续数据缺失情况，针对大范围连续数据缺失的情况具有较高的填补精度，可应用于风电场极端数据缺失的填补。第四方面，为了避免单个算法与模型进行填补时产生的误差，采用k折交叉验证训练模型，在此基础上提出了高斯过程回归与长短期记忆神经网络组合填补的方式提高填补精度。

为使本申请的上述目的、特征和优点能更明显易懂，下文特举较佳实施例，并配合所附附图，作详细说明如下。

附图说明

为了更清楚地说明本申请实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本申请的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1示出了本申请实施例所提供的一种风机运行缺失数据填补方法的流程图；

图2示出了长短期记忆神经网络数据填补模型的示意图；

图3示出了缺失值填补结果示意图；

图4示出了本申请实施例所提供的一种风机运行缺失数据填补装置的结构示意图；

图5示出了本申请实施例所提供的一种电子设备的结构示意图。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例中附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。因此，以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围，而是仅仅表示本申请的选定实施例。基于本申请的实施例，本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本申请保护的范围。

考虑到在现有的缺失数据填补方案中，插值法以及回归法是较为常用的手段。例如拉格朗日插值法和牛顿插值法，这些插值方法都存在高阶插值大幅度波动现象，数据填补精度较差，特别是需要填补的数据段较长时。分段插值在一定程度上能提高填补的精确性和稳定性，如分段线性或三次哈密特插值法。对于单变量或多变量插补方案，可以使用回归插补，滤波插补和最大期望插补。除此之外，采用神经网络算法所构建的模型需要大量的历史数据，并且针对大范围连续数据缺失的情况是不适用的。此外，没有考虑到需要填补的变量与其他影响因素在时间、空间等方面的相关性。基于此，本申请实施例提供了一种风机运行缺失数据填补方法、装置、电子设备及介质，下面通过实施例进行描述。

为便于对本实施例进行理解，首先对本申请实施例所公开的一种风机运行缺失数据填补方法进行详细介绍。

请参照图1，图1为本申请实施例所提供的一种风机运行缺失数据填补方法的流程图。如图1所示，所述方法可以包括以下步骤：

S101、获取风电场的实测运行数据样本；

S102、针对所述实测运行数据样本中需要填补的连续缺失数据，利用所述实测运行数据样本中的剩余数据提取风电场运行相似条件；

S103、基于所述风电场运行相似条件，采用k折交叉验证法训练得到第一数量的高斯过程回归数据填补模型，基于所述第一数量的高斯过程回归数据填补模型进行缺失数据填补，求取第一数量的高斯过程回归数据填补值的平均值，得到高斯过程回归数据填补平均值，并计算所述高斯过程回归数据填补平均值的标准偏差；

S104、基于所述风电场运行相似条件，采用k折交叉验证法训练得到第二数量的长短期记忆神经网络数据填补模型，基于所述第二数量的长短期记忆神经网络数据填补模型进行缺失数据填补，求取第二数量的长短期记忆神经网络数据填补值的平均值，得到长短期记忆神经网络数据填补平均值，并计算所述长短期记忆神经网络数据填补平均值的标准偏差；

S105、对所述高斯过程回归数据填补平均值的标准偏差和长短期记忆神经网络数据填补平均值的标准偏差进行加权计算，得到填补结果，并利用所述填补结果对所述连续缺失数据进行填补。

步骤S101中，风电场的实测运行数据样本可以包括风电场的实测风速数据、实测风功率数据、实测转子转速数据、实测桨距角数据等。在本实施例中，以1.5MW风电机组为例，风电场的实测运行数据样本的采样间隔为10分钟，由于外部因素，测量和传输故障，存在许多稀疏的异常值，特别是由于风速的限制也可能存在堆积的异常值。在数据清洗后存在风功率最大连续缺失长度200个数据，属于极端数据缺失的情况。

步骤S102中，可以通过以下子步骤提取风电场运行相似条件：

S1021、针对所述实测运行数据样本中需要填补的连续缺失数据，在第一输入特征向量的条件下，根据所述第一输入特征向量对应的时间序列计算包括均值、标准差、中位数和中位数绝对偏差的特征值，构建第一特征矩阵；

S1022、针对所述实测运行数据样本中的剩余数据，在第二输入特征向量的条件下，根据所述第二输入特征向量对应的时间序列计算包括均值、标准差、中位数和中位数绝对偏差的特征值，构建第二特征矩阵；

S1023、针对任一变量，计算该变量对应的第一特征矩阵中的特征向量和第二特征矩阵中的特征向量之间的欧氏距离；

S1024、针对所有变量，若每个变量对应的所述欧氏距离均小于预设正标量，则确定所述连续缺失数据对应的风电场运行相似条件为所述第二输入特征向量。

步骤S1021中，将所述实测运行数据样本中需要填补的连续缺失数据定义为目标数据段y_T，在第一输入特征向量x_T＝[x(k),x(k+1),…,x(k+n_T)]，(i＝1,2,…,m)的条件下，y_T＝[y(k),y(k+1),…,y(k+n_T)]，n_T是缺失数据长度。对于第一输入特征向量x_T，根据第一输入特征向量x_T对应的时间序列[x_i(k),x_i(k+1),…,x_i(k+n_T)]计算包括均值、标准差、中位数和中位数绝对偏差的特征值，构建第一特征矩阵F_x＝[f_x1；…；f_xi；…；f_xm]_m×4。

步骤S1022中，将所述实测运行数据样本中的剩余数据定义为辅助数据段y_A,j＝[y(k+τ_j),y(k+τ_j+1),…,y(k+τ_j+n_A,j)]，在第二输入特征向量x_A,j＝[x(k+τ_j),x(k+τ_j+1),…,x(k+τ_j+n_A,j)](j＝1,2,…,N_A，τ_j表示起点时间，n_A,j表示第j个辅助段长度，N_A为辅助段数量)的条件下，根据第二输入特征向量x_A,j对应的时间序列计算包括均值、标准差、中位数和中位数绝对偏差的特征值，构建第二特征矩阵F_x,j＝[f_x1,j；…；f_xi,j；…；f_xm,j]_m×4。

步骤S1023中，针对任一变量x_i，计算该变量x_i对应的第一特征矩阵中的特征向量f_xi和第二特征矩阵中的特征向量f_xi,j之间的欧氏距离dist(f_xi,f_xi,j)。

步骤S1024中，当变量x_i对应的所述欧氏距离dist(f_xi,f_xi,j)小于预设正标量δ_Fij时，可以找到位于fxi邻近区域的f_xi,j。如果所有变量x_i对应的所述欧氏距离dist(f_xi,f_xi,j)均小于预设正标量δ_Fij，便可以找到对应x_T的相似条件区域x_A,j。通过风电场运行相似条件的筛选为后续缺失数据填补提供条件。

下面以风功率的缺失数据填补为例，对上述子步骤进行说明：

步骤S1021中，定义输入为风速V，输出为功率P。目标数据段为P_T＝[P(k),P(k+1),…,P(k+n_T)]，在第一输入特征向量V_T＝[V(k),V(k+1),...,V(k+n_T)]的条件下，根据第一输入特征向量V_T对应的时间序列计算包括均值、标准差、中位数和中位数绝对偏差的特征值，构建第一特征矩阵F_x＝[f_v1；…；f_vi；…；f_vm]_m×4。

步骤S1022中，辅助数据段为P_A,j＝[P(k+τj),P(k+τj+1),…,P(k+τj+n_A,j)]，在第二输入特征向量V_A,j＝[V(k+τj),V(k+τ_j+1),…,V(k+τ_j+n_A,j)]的条件下，根据第二输入特征向量V_A,j对应的时间序列计算包括均值、标准差、中位数和中位数绝对偏差的特征值，构建第二特征矩阵F_v,j＝[f_v1,j；…；f_vi,j；…；f_vm,j]_m×4。

步骤S1023和S1024中，计算F_V和F_V,j之间的欧几里德距离dist(F_V,F_V,j)。当dist(F_V,F_V,j)小于δ_F时，可以找到位于V_T附近风速区的V_A,j，通过选取的风电场运行相似条件，训练功率P的填补模型，具有更高的准确性。

步骤S103中，通过以下子步骤求取高斯过程回归数据填补平均值：

S1031、以风速数据的时间序列为输入向量，以需要填补的风功率数据、转子转速数据和桨距角数据的时间序列为输出向量，构建高斯过程回归数据填补模型，并设置所述高斯过程回归数据填补模型中的协方差函数的结构和超参数；

S1032、基于所述风电场运行相似条件，采用k折交叉验证法训练所述高斯过程回归数据填补模型；

S1033、针对每个训练好的所述高斯过程回归数据填补模型，采用滚动的方式，将训练好的所述高斯过程回归数据填补模型输出的当前时刻的插补值作为插补下一时刻的缺失值的输入向量，直至所有缺失数据填补完成；

S1034、针对第一数量的训练好的所述高斯过程回归数据填补模型，在所有缺失数据填补完成后，得到第一数量的高斯过程回归数据填补值；

S1035、计算所述第一数量的高斯过程回归数据填补值的算数平均值，得到高斯过程回归数据填补平均值。

步骤S1031中，针对风功率的缺失数据填补，输入向量为风速数据的时间序列z＝[y(k-1),…,y(k-n_y),x(k-n_d),x(k-n_d-1),…,x(k-n_d-n_x)]^T，n_d为输入输出延迟阶次，n_a和n_b为自回归阶次，输出向量为风功率y＝P(k)，对于模型阶次的估计，选择最佳ARX模型的参数n_d,n_x和n_y来对模型阶次进行最佳估计。通过设置协方差函数K(·)的结构和超参数选择高斯过程回归数据填补模型。

步骤S1032中，选择与V_T相似的V_A,j和P_A,j训练高斯过程回归数据填补模型，为了减少单次训练填补模型的随机性，采用k折交叉验证来进行训练和测试高斯过程回归数据填补模型。

步骤S1033中，由于高斯过程回归数据填补模型每次只会产生一个输出，因此采用滚动的方式，将k时刻的插补值用来作为插补k+1时刻缺失值的对应输入向量，重复该过程直至所有缺失数据填补完成。

步骤S1034和S1035中，用完所有的k个高斯过程回归数据填补模型后获得了y_T的k组插补值。根据Rubin规则，将k个值的算术平均值作为最终插补值。

在一种可能的实施方式中，步骤S1033可以包括：若训练好的所述高斯过程回归数据填补模型为前向模型，则针对每个前向模型，采用滚动的方式，将风速数据的历史时间序列输入至训练好的所述高斯过程回归数据填补模型中，输出当前时刻的插补值作为插补下一时刻的缺失值的输入向量，直至所有缺失数据填补完成；若训练好的所述高斯过程回归数据填补模型为后向模型，则针对每个后向模型，采用滚动的方式，将风速数据的未来时刻的时间序列输入至训练好的所述高斯过程回归数据填补模型中，输出当前时刻的插补值作为插补下一时刻的缺失值的输入向量，直至所有缺失数据填补完成。步骤S1034可以包括：针对前向数量k_for个所述高斯过程回归数据填补模型，在所有缺失数据填补完成后，得到前向数量k_for个高斯过程回归数据填补值；针对后向数量k_back个所述高斯过程回归数据填补模型，在所有缺失数据填补完成后，得到后向数量k_back的高斯过程回归数据填补值；将所述前向数量k_for个高斯过程回归数据填补值和后向数量k_back个高斯过程回归数据填补值进行加权处理，得到第一数量的高斯过程回归数据填补值。本实施例采用双向填补法提高填补精度。

步骤S104中，可以通过以下子步骤求取长短期记忆神经网络数据填补值的平均值：

S1041、以风速数据的时间序列为输入向量，以需要填补的风功率数据、转子转速数据和桨距角数据的时间序列为输出向量，构建长短期记忆神经网络数据填补模型；

S1042、基于所述风电场运行相似条件，采用k折交叉验证法训练所述长短期记忆神经网络数据填补模型，确定所述长短期记忆神经网络数据填补模型的包括输入参数、隐含层层数、隐含层神经元个数、迭代次数和优化算法中至少一项的超参数；

S1043、针对每个训练好的所述长短期记忆神经网络数据填补模型，采用滚动的方式，将训练好的所述长短期记忆神经网络数据填补模型输出的当前时刻的插补值作为插补下一时刻的缺失值的输入向量，直至所有缺失数据填补完成；

S1044、针对第二数量的训练好的所述长短期记忆神经网络数据填补模型，在所有缺失数据填补完成后，得到第二数量的长短期记忆神经网络数据填补值；

S1045、计算所述第二数量的长短期记忆神经网络数据填补值的算数平均值，得到长短期记忆神经网络数据填补平均值。

步骤S1041中，应用于风功率缺失数据填补时，由于长短期记忆神经网络可以学习输入和输出之间的时间依赖性，因此无需估计时间延迟和自回归阶数，输入向量为z＝[P(k-1),V(k)]^T，输出向量为y＝[P(k)]。长短期记忆神经网络数据填补模型如图2所示。

步骤S1042中，选择与V_T相似的V_A,j和P_A,j训练长短期记忆神经网络数据填补模型。在训练过程中，采用均方误差作为损失函数来评估模型性能，采用交叉验证法确定长短期记忆神经网络数据填补模型的输入参数、隐含层层数、隐含层神经元个数、迭代次数、优化算法等超参数。

步骤S1043-S1045中，使用Adam算法进行随机优化，由于长短期记忆神经网络数据填补模型每次只会产生一个输出，采用滚动插补，直到插补完所有的缺失数据为止。并根据Rubin规则将其算术平均值计算为最终插补值。

在一种可能的实施方式中，步骤S1043可以包括：若训练好的所述长短期记忆神经网络数据填补模型为前向模型，则针对每个前向模型，采用滚动的方式，将风速数据的历史时间序列输入至训练好的所述长短期记忆神经网络数据填补模型中，输出当前时刻的插补值作为插补下一时刻的缺失值的输入向量，直至所有缺失数据填补完成；若训练好的所述长短期记忆神经网络数据填补模型为后向模型，则针对每个后向模型，采用滚动的方式，将风速数据的未来时刻的时间序列输入至训练好的所述长短期记忆神经网络数据填补模型中，输出当前时刻的插补值作为插补下一时刻的缺失值的输入向量，直至所有缺失数据填补完成。步骤S1044可以包括：针对前向数量k_for个所述长短期记忆神经网络数据填补模型，在所有缺失数据填补完成后，得到前向数量k_for个长短期记忆神经网络数据填补值；针对后向数量k_back个所述长短期记忆神经网络数据填补模型，在所有缺失数据填补完成后，得到后向数量k_back个长短期记忆神经网络数据填补值；将所述前向数量k_for个长短期记忆神经网络数据填补值和后向数量k_back个长短期记忆神经网络数据填补值进行加权处理，得到第二数量的长短期记忆神经网络数据填补值。

步骤S105中，可以通过以下子步骤得到填补结果：

S1051、计算所述高斯过程回归数据填补平均值y_T,GPR与所述高斯过程回归数据填补平均值的标准偏差Std_T,GPR之间的商值，得到第一数值；

S1052、计算所述长短期记忆神经网络数据填补平均值y_T,LSTM与所述长短期记忆神经网络数据填补平均值的标准偏差Std_T,LSTM之间的商值，得到第二数值；

S1053、计算所述第一数值和第二数值的和，作为被除数；

S1054、计算所述高斯过程回归数据填补平均值的标准偏差Std_T,GPR的倒数，得到第三数值；

S1055、计算所述长短期记忆神经网络数据填补平均值的标准偏差Std_T,LSTM的倒数，得到第四数值；

S1056、计算所述第三数值和第四数值的和，作为除数；

S1057、将所述被除数和除数之间的商值确定为填补结果。

填补结果如图3所示，可以采用平均绝对误差(MAE)、均方根误差(RMSE)作为模型准确性的评价指标，由以下表达式计算：

由仿真结果图结合评价指标来看，当存在大范围连续数据缺失时，采用GPR-LSTM的方法进行风电机组缺失数据的填补具有良好的效果，解决了风电场运行过程中极端数据缺失情况下的缺失数据填补，其RMSE＝0.0619，MAE＝0.0457，具有较高的精度，表明了本申请实施例的方法的有效性。

基于相同的技术构思，本申请实施例还提供一种风机运行缺失数据填补装置、电子设备、以及计算机存储介质等，具体可参见以下实施例。

请参照图4，图4为本申请实施例所提供的一种风机运行缺失数据填补装置的结构示意图。如图4所示，所述装置可以包括：

样本获取模块10，用于获取风电场的实测运行数据样本；

条件提取模块20，用于针对所述实测运行数据样本中需要填补的连续缺失数据，利用所述实测运行数据样本中的剩余数据提取风电场运行相似条件；

第一计算模块30，用于基于所述风电场运行相似条件，采用k折交叉验证法训练得到第一数量的高斯过程回归数据填补模型，基于所述第一数量的高斯过程回归数据填补模型进行缺失数据填补，求取第一数量的高斯过程回归数据填补值的平均值，得到高斯过程回归数据填补平均值，并计算所述高斯过程回归数据填补平均值的标准偏差；

第二计算模块40，用于基于所述风电场运行相似条件，采用k折交叉验证法训练得到第二数量的长短期记忆神经网络数据填补模型，基于所述第二数量的长短期记忆神经网络数据填补模型进行缺失数据填补，求取第二数量的长短期记忆神经网络数据填补值的平均值，得到长短期记忆神经网络数据填补平均值，并计算所述长短期记忆神经网络数据填补平均值的标准偏差；

加权填补模块50，用于对所述高斯过程回归数据填补平均值的标准偏差和长短期记忆神经网络数据填补平均值的标准偏差进行加权计算，得到填补结果，并利用所述填补结果对所述连续缺失数据进行填补。

在一种可能的实施方式中，条件提取模块20包括：

第一矩阵构建单元，用于针对所述实测运行数据样本中需要填补的连续缺失数据，在第一输入特征向量的条件下，根据所述第一输入特征向量对应的时间序列计算包括均值、标准差、中位数和中位数绝对偏差的特征值，构建第一特征矩阵；

第二矩阵构建单元，用于针对所述实测运行数据样本中的剩余数据，在第二输入特征向量的条件下，根据所述第二输入特征向量对应的时间序列计算包括均值、标准差、中位数和中位数绝对偏差的特征值，构建第二特征矩阵；

欧氏距离计算单元，用于针对任一变量，计算该变量对应的第一特征矩阵中的特征向量和第二特征矩阵中的特征向量之间的欧氏距离；

相似条件确定单元，用于针对所有变量，若每个变量对应的所述欧氏距离均小于预设正标量，则确定所述连续缺失数据对应的风电场运行相似条件为所述第二输入特征向量。

在一种可能的实施方式中，第一计算模块30包括：

第一模型构建单元，用于以风速数据的时间序列为输入向量，以需要填补的风功率数据、转子转速数据和桨距角数据的时间序列为输出向量，构建高斯过程回归数据填补模型，并设置所述高斯过程回归数据填补模型中的协方差函数的结构和超参数；

第一模型训练单元，用于基于所述风电场运行相似条件，采用k折交叉验证法训练所述高斯过程回归数据填补模型；

第一数据填补单元，用于针对每个训练好的所述高斯过程回归数据填补模型，采用滚动的方式，将训练好的所述高斯过程回归数据填补模型输出的当前时刻的插补值作为插补下一时刻的缺失值的输入向量，直至所有缺失数据填补完成；

第一填补值确定单元，用于针对第一数量的训练好的所述高斯过程回归数据填补模型，在所有缺失数据填补完成后，得到第一数量的高斯过程回归数据填补值；

第一均值计算单元，用于计算所述第一数量的高斯过程回归数据填补值的算数平均值，得到高斯过程回归数据填补平均值。

在一种可能的实施方式中，第一数据填补单元具体用于：

第一填补值确定单元具体用于：

在一种可能的实施方式中，第二计算模块40包括：

第二模型构建单元，用于以风速数据的时间序列为输入向量，以需要填补的风功率数据、转子转速数据和桨距角数据的时间序列为输出向量，构建长短期记忆神经网络数据填补模型；

第二模型训练单元，用于基于所述风电场运行相似条件，采用k折交叉验证法训练所述长短期记忆神经网络数据填补模型，确定所述长短期记忆神经网络数据填补模型的包括输入参数、隐含层层数、隐含层神经元个数、迭代次数和优化算法中至少一项的超参数；

第二数据填补单元，用于针对每个训练好的所述长短期记忆神经网络数据填补模型，采用滚动的方式，将训练好的所述长短期记忆神经网络数据填补模型输出的当前时刻的插补值作为插补下一时刻的缺失值的输入向量，直至所有缺失数据填补完成；

第二填补值确定单元，用于针对第二数量的训练好的所述长短期记忆神经网络数据填补模型，在所有缺失数据填补完成后，得到第二数量的长短期记忆神经网络数据填补值；

第二均值计算单元，用于计算所述第二数量的长短期记忆神经网络数据填补值的算数平均值，得到长短期记忆神经网络数据填补平均值。

在一种可能的实施方式中，第二数据填补单元具体用于：

第二填补值确定单元具体用于：

在一种可能的实施方式中，加权填补模块50包括：

第一数值计算单元，用于计算所述高斯过程回归数据填补平均值与所述高斯过程回归数据填补平均值的标准偏差之间的商值，得到第一数值；

第二数值计算单元，用于计算所述长短期记忆神经网络数据填补平均值与所述长短期记忆神经网络数据填补平均值的标准偏差之间的商值，得到第二数值；

被除数计算单元，用于计算所述第一数值和第二数值的和，作为被除数；

第三数值计算单元，用于计算所述高斯过程回归数据填补平均值的标准偏差的倒数，得到第三数值；

第四数值计算单元，用于计算所述长短期记忆神经网络数据填补平均值的标准偏差的倒数，得到第四数值；

除数计算单元，用于计算所述第三数值和第四数值的和，作为除数；

填补结果确定单元，用于将所述被除数和除数之间的商值确定为填补结果。

本申请实施例公开了一种电子设备，如图5所示，包括：处理器501、存储器502和总线503，所述存储器502存储有所述处理器501可执行的机器可读指令，当电子设备运行时，所述处理器501与所述存储器502之间通过总线503通信。所述机器可读指令被所述处理器501执行时执行前面方法实施例中所述的方法，具体实现可参见方法实施例，在此不再赘述。

本申请实施例所提供的一种风机运行缺失数据填补方法的计算机程序产品，包括存储了处理器可执行的非易失的程序代码的计算机可读存储介质，所述程序代码包括的指令可用于执行前面方法实施例中所述的方法，具体实现可参见方法实施例，在此不再赘述。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统、装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的几个实施例中，应该理解到，所揭露的系统、装置和方法，可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，又例如，多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个处理器可执行的非易失的计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(Read-OnlyMemory，ROM)、随机存取存储器(Random Access Memory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

最后应说明的是：以上所述实施例，仅为本申请的具体实施方式，用以说明本申请的技术方案，而非对其限制，本申请的保护范围并不局限于此，尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化，或者对其中部分技术特征进行等同替换；而这些修改、变化或者替换，并不使相应技术方案的本质脱离本申请实施例技术方案的精神和范围，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应所述以权利要求的保护范围为准。

Claims

1.一种风机运行缺失数据填补方法，其特征在于，包括：

获取风电场的实测运行数据样本；

2.根据权利要求1所述的方法，其特征在于，针对所述实测运行数据样本中需要填补的连续缺失数据，利用所述实测运行数据样本中的剩余数据提取风电场运行相似条件，包括：

3.根据权利要求1所述的方法，其特征在于，基于所述风电场运行相似条件，采用k折交叉验证法训练得到第一数量的高斯过程回归数据填补模型，基于所述第一数量的高斯过程回归数据填补模型进行缺失数据填补，求取第一数量的高斯过程回归数据填补值的平均值，得到高斯过程回归数据填补平均值，包括：

4.根据权利要求3所述的方法，其特征在于，针对每个训练好的所述高斯过程回归数据填补模型，采用滚动的方式，将训练好的所述高斯过程回归数据填补模型输出的当前时刻的插补值作为插补下一时刻的缺失值的输入向量，直至所有缺失数据填补完成，包括：

5.根据权利要求1所述的方法，其特征在于，基于所述风电场运行相似条件，采用k折交叉验证法训练得到第二数量的长短期记忆神经网络数据填补模型，基于所述第二数量的长短期记忆神经网络数据填补模型进行缺失数据填补，求取第二数量的长短期记忆神经网络数据填补值的平均值，得到长短期记忆神经网络数据填补平均值，包括：

6.根据权利要求5所述的方法，其特征在于，针对每个训练好的所述长短期记忆神经网络数据填补模型，采用滚动的方式，将训练好的所述长短期记忆神经网络数据填补模型输出的当前时刻的插补值作为插补下一时刻的缺失值的输入向量，直至所有缺失数据填补完成，包括：

7.根据权利要求1所述的方法，其特征在于，对所述高斯过程回归数据填补平均值的标准偏差和长短期记忆神经网络数据填补平均值的标准偏差进行加权计算，得到填补结果，包括：

计算所述第一数值和第二数值的和，作为被除数；

计算所述第三数值和第四数值的和，作为除数；

将所述被除数和除数之间的商值确定为填补结果。

8.一种风机运行缺失数据填补装置，其特征在于，包括：

样本获取模块，用于获取风电场的实测运行数据样本；

9.一种电子设备，其特征在于，包括：处理器、存储器和总线，所述存储器存储有所述处理器可执行的机器可读指令，当电子设备运行时，所述处理器与所述存储器之间通过总线通信，所述处理器执行所述机器可读指令，以执行如权利要求1至7任一所述方法的步骤。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器运行时执行如权利要求1至7任一所述方法的步骤。