CN116680567A

CN116680567A - 一种风力发电机的缺失状态变量填补方法及装置

Info

Publication number: CN116680567A
Application number: CN202310684853.0A
Authority: CN
Inventors: 陶建权; 胡阳; 何璇; 赵经玮; 冉军
Original assignee: North China Electric Power University; CSIC Haizhuang Windpower Co Ltd
Current assignee: North China Electric Power University; CSIC Haizhuang Windpower Co Ltd
Priority date: 2023-06-09
Filing date: 2023-06-09
Publication date: 2023-09-01

Abstract

本申请提供了一种风力发电机的缺失状态变量填补方法及装置，其中，利用随机森林算法从待选特征变量集中确定出至少一个特征输入变量；利用整体训练样本集对用于对风力发电状态的缺失数据进行填补的第一初始模型进行模型训练得到第一目标模型；利用整体测试样本集对第一目标模型进行测试得到第一目标模型的缺失数据填补准确率；判断第一目标模型的缺失数据填补准确率是否超过标准准确率；若超过，则将目标风力发电机的参考状态变量输入至第一目标模型得到待填补状态变量的预测值；将待填补状态变量的预测值填补至待填补状态变量中得到目标风力发电机的完整预测状态信息。采用上述方法，以实现对风力发电机的缺失状态变量进行填补。

Description

一种风力发电机的缺失状态变量填补方法及装置

技术领域

本发明涉及风力发电机状态管理领域，具体而言，涉及一种风力发电机的缺失状态变量填补方法及装置。

背景技术

近年来风电产业迅速发展，规模逐年增长。为了提高电能质量和风电机组利用效能，需要对数据采集与监视控制系统采集到的风力发电机的状态变量和数据进行各类研究分析，如风电功率预测、风电机组性能评价等。然而，在风电机组的实际运行过程中，由于各种人为因素、极端天气和仪器故障，记录的数据不可避免地存在缺失。

而在研究中发现，风力发电机的缺失状态变量破坏了风力发电机的状态数据的完整性，直接影响了对风力发电机的状态变量和数据进行各类研究分析的质量和结果，使得无法对风力发电机的状态进行正常检测。因此，如何对风力发电机的缺失状态变量进行填补成为了一个亟待解决的问题。

发明内容

有鉴于此，本发明的目的在于提供一种风力发电机的缺失状态变量填补方法及装置，以实现对风力发电机的缺失状态变量进行填补。

第一方面，本申请实施例提供了一种风力发电机的缺失状态变量填补方法，所述方法包括：

根据预先配置的特征输出变量，利用随机森林算法从待选特征变量集中确定出至少一个特征输入变量，其中，所述待选特征变量集中包括目标风力发电机的至少一个状态特征变量，至少一个所述特征输入变量为所述特征输出变量的强相关变量；

利用整体训练样本集对用于对风力发电状态的缺失数据进行填补的第一初始模型进行模型训练得到第一目标模型，其中，所述整体训练样本集中的训练输出样本为至少一个所述特征输出变量中的满足预设数量的特征输出变量，所述整体训练样本集中的训练输入样本为所述整体训练样本集中的训练输出样本的强相关变量；

利用整体测试样本集对所述第一目标模型进行测试得到所述第一目标模型的缺失数据填补准确率，其中，所述整体测试样本集中的测试输出样本为至少一个所述特征输出变量中除所述训练输出样本以外的其余特征输出变量，所述整体测试样本集中的测试输入样本为所述整体测试样本集中的测试输出样本的强相关变量；

判断所述第一目标模型的缺失数据填补准确率是否超过标准准确率；

若所述第一目标模型的缺失数据填补准确率超过标准准确率，则将所述目标风力发电机的参考状态变量输入至所述第一目标模型得到所述目标风力发电机的待填补状态变量的预测值，其中，所述参考状态变量为所述目标风力发电机的状态特征变量中未缺失的特征变量，所述待填补状态变量为所述目标风力发电机的状态特征变量中存在缺失的特征变量；

将所述待填补状态变量的预测值填补至所述待填补状态变量中得到所述目标风力发电机的完整预测状态信息。

可选地，在判断所述第一目标模型的缺失数据填补准确率是否超过标准准确率后，所述方法还包括；

若所述第一目标模型的缺失数据填补准确率未超过所述标准准确率，则利用赤池信息量准则确定出至少一个所述特征输入变量和所述特征输出变量之间的延迟阶次；

根据所述延迟阶次将至少一个所述特征输入变量进行作用域划分得到至少一组特征输入变量组，其中，每组所述特征输入变量组中的特征输入变量均落入相同的变量区间内；

对于每组所述特征输入变量组，将该特征输入变量组中的每个特征输入变量作为第二初始模型的模型输入，将该特征输入变量组中的每个特征输入变量的强相关变量作为第二初始模型的模型输出，对所述第二初始模型进行模型训练得到通过该特征输入变量组训练得到的第二目标模型；

利用第三目标模型对所述目标风力发电机的待填补状态变量进行填补，其中，所述第三目标模型为利用目标特征输入变量组训练得到的第二目标模型，所述目标特征输入变量组为所包含的特征输入变量落入目标区间内的特征输入变量组，所述目标区间为所述目标风力发电机的缺失状态数据的强相关变量所落入的变量区间。

可选地，所述根据所述延迟阶次将至少一个所述特征输入变量进行作用域划分得到至少一组特征输入变量组，包括：

根据所述延迟阶次建立至少一个所述特征输入变量的有限差分回归向量；

根据至少一个所述特征输入变量的有限差分回归向量的聚类将至少一个所述特征输入变量进行作用域划分得到至少一组特征输入变量组。

可选地，在将所述待填补状态变量的预测值填补至所述待填补状态变量中得到所述目标风力发电机的完整预测状态信息后，所述方法还包括：

对于每个所述参考状态变量，计算该参考状态变量与用于对其进行填补的待填补状态变量的预测值之间的第一自相关系数；

计算该参考状态变量与用于对其进行填补的待填补状态变量的观测值之间的第二自相关系数；

判断所述第一自相关系数和所述第二自相关系数之间的差值是否在预设阈值范围内；

若所述第一自相关系数和所述第二自相关系数之间的差值在预设阈值范围内，则将对该待填补状态变量进行填补后得到的完整预测状态信息标记为填补成功。

可选地，在判断所述第一自相关系数和所述第二自相关系数之间的差值是否在预设阈值范围内后，所述方法还包括：

若所述第一自相关系数和所述第二自相关系数之间的差值不在预设阈值范围内，则将对该待填补状态变量进行填补后得到的完整预测状态信息标记为填补失败。

可选地，在将对该待填补状态变量进行填补后得到的完整预测状态信息标记为填补成功后，所述方法还包括；

根据所述第一目标模型的填补率、所述第一目标模型的填补精确度和所述第一目标模型的填补时间对所述第一目标模型的模型预测效果进行评估，其中，所述第一目标模型的填补率为通过利用第一目标模型进行填补后得到的被标记为填补成功的完整预测状态信息的数量与所有完整预测状态信息的数量的比例，所述第一目标模型的填补精确度为利用第一目标模型进行填补后的被标记为填补成功的完整预测状态信息与完整仿真状态变量之间的差异度，所述完整仿真状态变量为对通过仿真算法得到的所述目标风力发电机的完整状态变量，所述第一目标模型的填补时间为利用第一目标模型进行填补时单个完整预测状态信息的填补时长。

可选地，所述根据所述第一目标模型的填补率、所述第一目标模型的填补精确度和所述第一目标模型的填补时间对所述第一目标模型的模型预测效果进行评估，包括：

将所述根据所述第一目标模型的填补率、所述第一目标模型的填补精确度和所述第一目标模型的填补时间，利用DBSCAN聚类算法进行密度聚类确定出利用第一目标模型进行填补后被标记为填补成功的完整预测状态信息中的异常值；

判断所述异常值的数量是否超过预设数量；

若所述异常值的数量未超过预设数量，则将所述第一目标模型的模型预测效果评估为合格；

若所述异常值的数量超过预设数量，则将所述第一目标模型的模型预测效果评估为不合格。

第二方面，本申请实施例提供了一种风力发电机的缺失状态变量填补装置，所述装置包括：

特征输入变量确定模块，用于根据预先配置的特征输出变量，利用随机森林算法从待选特征变量集中确定出至少一个特征输入变量，其中，所述待选特征变量集中包括目标风力发电机的至少一个状态特征变量，至少一个所述特征输入变量为所述特征输出变量的强相关变量；

第一目标模型确定模块，用于利用整体训练样本集对用于对风力发电状态的缺失数据进行填补的第一初始模型进行模型训练得到第一目标模型，其中，所述整体训练样本集中的训练输出样本为至少一个所述特征输出变量中的满足预设数量的特征输出变量，所述整体训练样本集中的训练输入样本为所述整体训练样本集中的训练输出样本的强相关变量；

缺失数据填补准确率确定模块，用于利用整体测试样本集对所述第一目标模型进行测试得到所述第一目标模型的缺失数据填补准确率，其中，所述整体测试样本集中的测试输出样本为至少一个所述特征输出变量中除所述训练输出样本以外的其余特征输出变量，所述整体测试样本集中的测试输入样本为所述整体测试样本集中的测试输出样本的强相关变量；

第一判断模块，用于判断所述第一目标模型的缺失数据填补准确率是否超过标准准确率；

预测值确定模块，用于若所述第一目标模型的缺失数据填补准确率超过标准准确率，则将所述目标风力发电机的参考状态变量输入至所述第一目标模型得到所述目标风力发电机的待填补状态变量的预测值，其中，所述参考状态变量为所述目标风力发电机的状态特征变量中未缺失的特征变量，所述待填补状态变量为所述目标风力发电机的状态特征变量中存在缺失的特征变量；

完整预测状态信息确定模块，用于将所述待填补状态变量的预测值填补至所述待填补状态变量中得到所述目标风力发电机的完整预测状态信息。

可选地，所述装置还包括：

延迟阶次确定模块，用于在所述第一判断模块判断所述第一目标模型的缺失数据填补准确率是否超过标准准确率后，若所述第一目标模型的缺失数据填补准确率未超过所述标准准确率，则利用赤池信息量准则确定出至少一个所述特征输入变量和所述特征输出变量之间的延迟阶次；

特征输入变量组确定模块，用于根据所述延迟阶次将至少一个所述特征输入变量进行作用域划分得到至少一组特征输入变量组，其中，每组所述特征输入变量组中的特征输入变量均落入相同的变量区间内；

第二目标模型确定模块，用于对于每组所述特征输入变量组，将该特征输入变量组中的每个特征输入变量作为第二初始模型的模型输入，将该特征输入变量组中的每个特征输入变量的强相关变量作为第二初始模型的模型输出，对所述第二初始模型进行模型训练得到通过该特征输入变量组训练得到的第二目标模型；

待填补状态变量填补模块，用于利用第三目标模型对所述目标风力发电机的待填补状态变量进行填补，其中，所述第三目标模型为利用目标特征输入变量组训练得到的第二目标模型，所述目标特征输入变量组为所包含的特征输入变量落入目标区间内的特征输入变量组，所述目标区间为所述目标风力发电机的缺失状态数据的强相关变量所落入的变量区间。

可选地，所述特征输入变量组确定模块在用于根据所述延迟阶次将至少一个所述特征输入变量进行作用域划分得到至少一组特征输入变量组时，具体用于：

可选地，所述装置还包括：

第一自相关系数确定模块，用于在所述完整预测状态信息确定模块将所述待填补状态变量的预测值填补至所述待填补状态变量中得到所述目标风力发电机的完整预测状态信息后，对于每个所述参考状态变量，计算该参考状态变量与用于对其进行填补的待填补状态变量的预测值之间的第一自相关系数；

第二自相关系数确定模块，用于计算该参考状态变量与用于对其进行填补的待填补状态变量的观测值之间的第二自相关系数；

第二判断模块，用于判断所述第一自相关系数和所述第二自相关系数之间的差值是否在预设阈值范围内；

第一标记模块，用于若所述第一自相关系数和所述第二自相关系数之间的差值在预设阈值范围内，则将对该待填补状态变量进行填补后得到的完整预测状态信息标记为填补成功。

可选地，所述装置还包括：

第二标记模块，用于在所述第二判断模块判断所述第一自相关系数和所述第二自相关系数之间的差值是否在预设阈值范围内后，若所述第一自相关系数和所述第二自相关系数之间的差值不在预设阈值范围内，则将对该待填补状态变量进行填补后得到的完整预测状态信息标记为填补失败。

可选地，所述装置还包括：

模型预测效果评估模块，用于在所述第一标记模块将对该待填补状态变量进行填补后得到的完整预测状态信息标记为填补成功后，根据所述第一目标模型的填补率、所述第一目标模型的填补精确度和所述第一目标模型的填补时间对所述第一目标模型的模型预测效果进行评估，其中，所述第一目标模型的填补率为通过利用第一目标模型进行填补后得到的被标记为填补成功的完整预测状态信息的数量与所有完整预测状态信息的数量的比例，所述第一目标模型的填补精确度为利用第一目标模型进行填补后的被标记为填补成功的完整预测状态信息与完整仿真状态变量之间的差异度，所述完整仿真状态变量为对通过仿真算法得到的所述目标风力发电机的完整状态变量，所述第一目标模型的填补时间为利用第一目标模型进行填补时单个完整预测状态信息的填补时长。

可选地，所述模型预测效果评估模块在用于根据所述第一目标模型的填补率、所述第一目标模型的填补精确度和所述第一目标模型的填补时间对所述第一目标模型的模型预测效果进行评估时，具体用于：

判断所述异常值的数量是否超过预设数量；

本申请提供的技术方案包括但不限于以下有益效果：

根据预先配置的特征输出变量，利用随机森林算法从待选特征变量集中确定出至少一个特征输入变量，其中，所述待选特征变量集中包括目标风力发电机的至少一个状态特征变量，至少一个所述特征输入变量为所述特征输出变量的强相关变量；通过上述步骤，能够得到与特征输出变量具有强相关关系的特征输入变量，以为后续的模型训练提供训练样本。

利用整体训练样本集对用于对风力发电状态的缺失数据进行填补的第一初始模型进行模型训练得到第一目标模型，其中，所述整体训练样本集中的训练输出样本为至少一个所述特征输出变量中的满足预设数量的特征输出变量，所述整体训练样本集中的训练输入样本为所述整体训练样本集中的训练输出样本的强相关变量；通过上述步骤，能够根据特征输出变量与特征输出变量的强相关变量对第一初始模型进行训练，得到用于对风力发电状态的缺失数据进行填补的第一目标模型。

利用整体测试样本集对所述第一目标模型进行测试得到所述第一目标模型的缺失数据填补准确率，其中，所述整体测试样本集中的测试输出样本为至少一个所述特征输出变量中除所述训练输出样本以外的其余特征输出变量，所述整体测试样本集中的测试输入样本为所述整体测试样本集中的测试输出样本的强相关变量；判断所述第一目标模型的缺失数据填补准确率是否超过标准准确率；通过上述步骤，能够对训练得到的第一目标模型的预测准确率进行检测，以确定第一目标模型是否能够用于进行实际的预测值预测。

若所述第一目标模型的缺失数据填补准确率超过标准准确率，则将所述目标风力发电机的参考状态变量输入至所述第一目标模型得到所述目标风力发电机的待填补状态变量的预测值，其中，所述参考状态变量为所述目标风力发电机的状态特征变量中未缺失的特征变量，所述待填补状态变量为所述目标风力发电机的状态特征变量中存在缺失的特征变量；通过上述步骤，能够利用预测准确率满足要求的第一目标模型确定出待填补状态变量的预测值。

将所述待填补状态变量的预测值填补至所述待填补状态变量中得到所述目标风力发电机的完整预测状态信息；通过上述步骤，能够利用得到的待填补状态变量的预测值对待填补状态变量进行填补得到目标风力发电机的完整预测状态信息。

采用上述方法，通过利用随机森林算法确定出用于进行模型训练的训练输入样本和训练输出样本后，利用由训练输入样本和训练输出样本组成的训练样本集对第一初始模型进行训练得到第一目标模型，然后利用由测试输入样本和测试输出样本组成的测试样本集对第一目标模型进行预测准确率测试，当测试通过时，使用第一目标模型确定出所述目标风力发电机的待填补状态变量的预测值，然后再利用得到的待填补状态变量的预测值对待填补状态变量进行填补得到目标风力发电机的完整预测状态信息，以实现对风力发电机的缺失状态变量进行填补。

为使本发明的上述目的、特征和优点能更明显易懂，下文特举较佳实施例，并配合所附附图，作详细说明如下。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本发明的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1示出了本发明实施例一所提供的一种风力发电机的缺失状态变量填补方法的流程图；

图2示出了本发明实施例一所提供的第二种风力发电机的缺失状态变量填补方法的流程图；

图3示出了本发明实施例一所提供的一种特征输入变量组确定方法的流程图；

图4示出了本发明实施例一所提供的一种完整预测状态信息标记方法的流程图；

图5示出了本发明实施例一所提供的一种第一目标模型预测效果评估方法的流程图；

图6示出了本发明实施例二所提供的一种风力发电机的缺失状态变量填补装置。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。因此，以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围，而是仅仅表示本发明的选定实施例。基于本发明的实施例，本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本发明保护的范围。

实施例一

为便于对本申请进行理解，下面结合图1示出的本发明实施例一所提供的一种风力发电机的缺失状态变量填补方法的流程图描述的内容对本申请实施例一进行详细说明。

参见图1所示，图1示出了本发明实施例一所提供的一种风力发电机的缺失状态变量填补方法的流程图，其中，所述方法包括步骤S101～S106：

S101：根据预先配置的特征输出变量，利用随机森林算法从待选特征变量集中确定出至少一个特征输入变量，其中，所述待选特征变量集中包括目标风力发电机的至少一个状态特征变量，至少一个所述特征输入变量为所述特征输出变量的强相关变量。

具体的，状态特征变量为目标风力发电机的状态特征数据，包括但不限于输出功率、风机转速、机舱温度、主轴承温度、发电机轴承温度、齿轮箱温度等风机在运行时的运行参数以及本身固有的设备属性。

在待选特征变量集(其中包括的状态特征变量包括环境量：塔基温度，环境温度，瞬时风速、瞬时风向；机械量：风轮转速，发电机转速，叶片变桨角，齿轮箱油泵出口压力，齿轮箱进口油压；电气量：电网三相电压，电网三相电流，有功功率；温度量：齿轮箱进口油温，齿轮箱油池温度，轮毂温度，塔基控制柜温度)中利用随机森林算法选取与预先配置的特征输出变量强相关的至少一个特征输入变量。

随机森林是一个由一组决策树分类器{h(X,θ_k),k＝1,2,3,…,K}组成的集成分类器，其中θ_k是服从独立同分布的随机向量，K表示随机森林中决策树的个数，在给定自变量X下，每个决策树分类器通过投票来决定最优的分类结果。其中：

给定一组分类器h₁(X),h₂(X),…,h_k(X)，每个分类器的训练集都是从原始的服从随机分布的数据集(,X)中随机取样所得，余量函数mg(,Y)定义为

式中，I(·)是示性函数，av_k(·)表示取平均，j为泛化误差的上界。余量函数用于度量平均正确分类数超过平均错误分类数的程度，余量值越大，分类预测越可靠。

泛化误差PE^*定义为：

PE^*＝_X,Y((X,Y)<0)

式中，P_X,Y为覆盖X,Y空间的概率，下标X,Y表示概率P覆盖X,Y空间。

随机森林算法的分类准确率Accuracy定义为：

式中，TP(true positive)代表正确的肯定；TN(true negative)代表正确的否定；FP(falsepositive)代表错误的肯定；FN(false negative)代表错误的否定。

采用基于随机森林的Wrapper特征选择方法(RFFS)，利用随机森林算法的变量重要性度量对特征进行排序，然后采用序列后向搜索方法，每次从特征集合中去掉一个最不重要(重要性得分最小)的特征，逐次进行迭代，并计算分类正确率，最终得到变量个数最少、分类正确率最高的特征集合作为特征选择结果。

设定生成树数量为300棵，改变特征参数数量，分别对33、23、13个特征参数进行对比分析，得到如下表所示结果。可知以下6个特征：风速、功率、发电机转速、环境温度、齿轮箱油温、发电机定子线圈温度对机舱温度、主轴承温度、发电机轴承温度、齿轮箱温度的综合评价最高，且没有随着特征的筛选出现重要性减弱的迹象，虽然前6个特征的重要性排序稍有变化，但是总体趋势没有变化。其中尤其是风速影响最大。

主导特征变量相关性较高的状态特征参数的重要性评分如下述表格所示：

状态参量	重要性评分
		风速	0.876651
功率	0.801122
		发电机转速	0.695477
环境温度	0.446921
		齿轮箱油温	0.412265
发电机定子线圈温度	0.398651

S102：利用整体训练样本集对用于对风力发电状态的缺失数据进行填补的第一初始模型进行模型训练得到第一目标模型，其中，所述整体训练样本集中的训练输出样本为至少一个所述特征输出变量中的满足预设数量的特征输出变量，所述整体训练样本集中的训练输入样本为所述整体训练样本集中的训练输出样本的强相关变量。

具体的，第一初始模型为Block Recurrent Transformer多输入多输出模型建模(BRT)，BRT是一种结合了Transformer和RNN结构的深度学习模型，能够同时捕捉长期依赖关系和局部依赖关系，并且利用了Transformer的self-attention机制，具有很好的建模能力和计算效率。在BRT中，Transformer Encoder主要负责捕捉输入序列中的全局依赖关系，而RNN则主要负责捕捉输入序列中的局部依赖关系。通过将Transformer和RNN结构相结合，BRT可以同时捕捉长期依赖关系和局部依赖关系，从而更好地建模序列数据。此外，BRT还利用了Transformer的self-attention机制，可以在不需要遍历整个序列的情况下计算序列中每个元素的表征，从而提高了模型的计算效率。

实际建模过程中，首先需要对数据进行预处理，通过步骤S101得到的特征输出变量和特征输入变量在高维空间中进行归一化，并随机选取满足预设数量(或者预设百分比，例如70％)的特征输出变量作为训练输出样本(其余的用于进行后续的模型验证)，并将步骤S101中利用随机森林变量获得的训练输出样本的强相关变量作为整体训练样本集中的训练输入样本对第一初始模型进行模型训练。根据BRT神经网络的结构设计训练过程及参数：具体来说，BRT是由多个Block组成的，每个Block包含一个Transformer Encoder和一个RNN。在每个Block中，输入序列首先经过Transformer Encoder，得到一个新的表征，然后将这个新的表征输入到RNN中，RNN内部维护一个状态向量，并将新的表征与之前的状态向量结合起来，得到一个新的状态向量。这个新的状态向量会被传递到下一个Block中，用于处理下一个输入序列。因此，需要在神经网络设置参数的基础上，对Block数量、Embedding维度进行调试。

S103：利用整体测试样本集对所述第一目标模型进行测试得到所述第一目标模型的缺失数据填补准确率，其中，所述整体测试样本集中的测试输出样本为至少一个所述特征输出变量中除所述训练输出样本以外的其余特征输出变量，所述整体测试样本集中的测试输入样本为所述整体测试样本集中的测试输出样本的强相关变量。

具体的，将步骤S102中没有被选入特征输入变量和特征输出变量作为用于进行模型测试的样本，构成整体测试样本集。使用整体测试样本集评估模型的性能，每次选取整体测试样本集中不同的测试样本进行模型测试，判断在每次向模型输入测试输入样本后所得到的结果是否与测试输出样本相同，若相同则将该次测试标记为测试成功，若不同则将次测试标记为测试不成功。

统计测试成功的次数，并计算测试成功的次数与总的测试次数的比值，将该比值确定为第一目标模型的缺失数据填补准确率。

S104：判断所述第一目标模型的缺失数据填补准确率是否超过标准准确率。

具体的，根据用户需求预先配置标准准确率，用于对第一目标模型的模型预测准确率进行评估。

S105：若所述第一目标模型的缺失数据填补准确率超过标准准确率，则将所述目标风力发电机的参考状态变量输入至所述第一目标模型得到所述目标风力发电机的待填补状态变量的预测值，其中，所述参考状态变量为所述目标风力发电机的状态特征变量中未缺失的特征变量，所述待填补状态变量为所述目标风力发电机的状态特征变量中存在缺失的特征变量的填补值。

具体的，若所述第一目标模型的缺失数据填补准确率超过标准准确率，说明第一目标模型的预测效果达到标准，满足用户需求，能够用于进行实际的缺失数据填补，则利用第一目标模型进行目标风力发电机的确实状态数据的填补。

具体使用过程为：将所述目标风力发电机的参考状态变量输入至所述第一目标模型得到所述目标风力发电机的待填补状态变量的预测值，其中，所述参考状态变量为所述目标风力发电机的状态特征变量中未缺失的特征变量，所述待填补状态变量为所述目标风力发电机的状态特征变量中存在缺失的特征变量的填补值。

例如，辐射量和温度值是未缺失的特征输入变量，有功功率是缺失的特征输出变量，辐射量和温度值是有功功率的强相关变量，则将辐射量和温度值输入至所述第一目标模型得到所述目标风力发电机的有功功率的预测值。

S106：将所述待填补状态变量的预测值填补至所述待填补状态变量中得到所述目标风力发电机的完整预测状态信息。

具体的，将缺失部分的预测值填入缺失部分能够得到完整预测状态信息，例如，将有功功率的预测值填补入有功功率的部分，得到未缺失的目标风力发电机的“辐射量-温度值-有功功率”的完整预测状态信息。

在一个可行的实施方案中，参见图2所示，图2示出了本发明实施例一所提供的第二种风力发电机的缺失状态变量填补方法的流程图，其中，在判断所述第一目标模型的缺失数据填补准确率是否超过标准准确率后，所述方法包括步骤S201～S206：

S201：若所述第一目标模型的缺失数据填补准确率未超过所述标准准确率，则利用赤池信息量准则确定出至少一个所述特征输入变量和所述特征输出变量之间的延迟阶次。

S202：根据所述延迟阶次将至少一个所述特征输入变量进行作用域划分得到至少一组特征输入变量组，其中，每组所述特征输入变量组中的特征输入变量均落入相同的变量区间内。

具体的，若所述第一目标模型的缺失数据填补准确率未超过所述标准准确率，说明第一目标模型无法按照要求完成缺失数据的填补，因此需要在每个工作域下采用差分动态回归向量建立多输入多输出神经网络模型。

通过系统辨识的方法，选择赤池信息量准则(Akaike information criterion，AIC)来确定模型延迟阶次。AIC从K-L距离(相对熵)出发，在估计模型的复杂性和拟合模型数据的优劣之间提供了一种折衷处理。AIC值的定义如下：

式中，AIC表示模型延迟阶次，N是估计数据集中的值的个数；ε(t，θ_N)是预测误差向量；t表示选定的变量序列数；θ_N表示估计的参数；n_p是估计参数的个数；n_y是模型输出的数量。通过选择具有最小AIC值的模型来确定阶数n_a和n_b。

考虑输入输出变量的延迟特性，建立有限差分回归向量：

x(k)＝[y^T(k-1)y^T(k-2)...y^T(k-n_a)u^T(k-1)…u^T(k-n_b)]

式中，x(k)为所建立的有限差分回归向量，k为自变量，y(k)为输出，u(k)为输入，n_a和n_b分别是输入和输出的延迟阶次，T为转置符号。考虑数据点(x(k)，y(k))的空间分布特征和参数向量间的相似性，在每个局部数据集中形成一个特征向量，根据特征向量的聚类对有限差分作用空间进行划分。将每个数据点(x(k)，y(k))作为一个数据中心，建立局部数据集C_k，C_k包含数据中心(x(k)，y(k))及其相邻(k-1)个数据点(x_Ck(j)，y_Ck(j))(j＝1,2，...，k-1)，其中(x_Ck(j)，y_Ck(j))表示该数据集中与数据中心相邻的数据点。最后，根据C_k中的数据点计算经验协方差P_k的协方差矩阵V_k。并计算散度矩阵Q_k来衡量C_k中数据点的类内离散度如下所示：

其中，M_k为C_k中每个数据点的输入向量的均值。

特征向量可以看作是服从高斯分布的随机向量。根据高斯分布的特点，其方差R_k可以表示为R_k＝[V_k 0；0 Q_k]，特征向量作为平均值M_k的置信度可以通过公式来衡量：

其中，n＝n_an_y+n_bn_u，n_a和n_b分别是输入和输出的延迟阶次，n_y和n_u为输出和输入向量维数。

选择K-Means算法对局部数据子集的特征向量进行聚类，并将局部特征向量对应的数据点划分为S组，代表S个有限差分作用域。聚类属于非监督学习，K均值聚类是最基础常用的聚类算法。它的基本思想是，通过迭代寻找K个簇(Cluster)的一种划分方案，使得聚类结果对应的损失函数最小。其中，损失函数可以定义为各个样本距离所属簇中心点的误差平方和J(c，μ)：

式中，x_i代表第i个样本，c_i是x_i所属的簇，代表c_i簇对应的中心点，M是样本总数。

K-Means的核心目标是将给定的数据集划分成K个簇，并给出每个样本数据对应的中心点。具体步骤可以分为4步：

数据预处理，主要是标准化、异常点过滤；

随机选取K个中心，分别记为

定义损失函数：

令t＝0，1，2，...为迭代步数，重复如下过程直到J(c，μ)收敛；

对于每一个样本x_i，将其分配到距离最近的中心

其中，是x_i所属的簇，k为数据集序列号，/>代表第k个数据集的聚类中心的第t次迭代。

对于每一个类中心k，重新计算该类的中心

其中，代表第k个数据集的聚类中心的第t+1次迭代，μ为选取的聚类中心。

为了清楚地表示每个作用域，研究了作用域之间的超平面估计，并使用支持向量机分类得到每个超平面方程的系数。由于无法确定数据是否完全线性可分，因此采用软间隔支持向量机进行分类得到每个超平面方程的系数。其相较于硬间隔支持向量机具有更好的鲁棒性能和泛化能力。

式中，J为超平面系数，x_k为自变量，ζ_k为各方程反映数据不满足硬间隔约束程度的松弛变量，φ为不同作用域切换面的法向量，φ^T为φ的转置矩阵；d为偏移量；ζ为反映数据不满足硬间隔约束程度的松弛变量；γ表示可从0调整到1的惩罚系数；y_k是值为1和-1的数据分类标签，定义为y_k(x_k)＝sgn(φ^Tx_k+d)；m为数据总量；s.t.表示约束条件。

S203：对于每组所述特征输入变量组，将该特征输入变量组中的每个特征输入变量作为第二初始模型的模型输入，将该特征输入变量组中的每个特征输入变量的强相关变量作为第二初始模型的模型输出，对所述第二初始模型进行模型训练得到通过该特征输入变量组训练得到的第二目标模型。

具体的，由于每组所述特征输入变量组中的特征输入变量均落入相同的变量区间内，则对于每组包含落入同一变量区间内的特征输入变量的特征输入变量组，将该特征输入变量组中的每个特征输入变量作为第二初始模型的模型输入，将该特征输入变量组中的每个特征输入变量的强相关变量作为第二初始模型的模型输出，对所述第二初始模型进行模型训练得到通过该特征输入变量组训练得到的第二目标模型。也就是说，有多少组特征输入变量组就能训练得到多少个第二目标模型。

S204：利用第三目标模型对所述目标风力发电机的待填补状态变量进行填补，其中，所述第三目标模型为利用目标特征输入变量组训练得到的第二目标模型，所述目标特征输入变量组为所包含的特征输入变量落入目标区间内的特征输入变量组，所述目标区间为所述目标风力发电机的缺失状态数据的强相关变量所落入的变量区间。

具体的，由于用于训练不同第二目标模型的特征输入变量组中的特征输入变量所落入的变量区间不同，所以不同的第二目标模型用于对落入不同的变量区间的待填补状态变量的预测值进行填补，也就是用于对落入用于对其进行训练的特征输入变量组中的特征输入变量所落入的变量区间的待填补状态变量进行预测值的预测。

在一个可行的实施方案中，参见图3所示，图3示出了本发明实施例一所提供的一种特征输入变量组确定方法的流程图，其中，所述根据所述延迟阶次将至少一个所述特征输入变量进行作用域划分得到至少一组特征输入变量组，包括步骤S301～S302：

S301：根据所述延迟阶次建立至少一个所述特征输入变量的有限差分回归向量。

S302：根据至少一个所述特征输入变量的有限差分回归向量的聚类将至少一个所述特征输入变量进行作用域划分得到至少一组特征输入变量组。

在一个可行的实施方案中，参见图4所示，图4示出了本发明实施例一所提供的一种完整预测状态信息标记方法的流程图，其中，在将所述待填补状态变量的预测值填补至所述待填补状态变量中得到所述目标风力发电机的完整预测状态信息后，所述方法还包括步骤S401～S404：

S401：对于每个所述参考状态变量，计算该参考状态变量与用于对其进行填补的待填补状态变量的预测值之间的第一自相关系数。

具体的，通过步骤S105能够得到所述目标风力发电机的待填补状态变量的预测值，对于每个所述参考状态变量，计算该参考状态变量与用于对其进行填补的待填补状态变量的预测值之间的第一自相关系数。

S402：计算该参考状态变量与用于对其进行填补的待填补状态变量的观测值之间的第二自相关系数。

具体的，通过风力发电机上的传感器或者数据采集系统获取该参考状态变量与用于对其进行填补的待填补状态变量的观测值，然后计算该参考状态变量与用于对其进行填补的待填补状态变量的观测值之间的第二自相关系数。

其中，自相关系数acf(x)的计算式如下

/>

其中，N为序列长度，k为序列间隔，t为选定的变量序列数，x_t为选定的变量，为完整序列的均值，x_t-k为代入计算的参考变量。

S403：判断所述第一自相关系数和所述第二自相关系数之间的差值是否在预设阈值范围内。

具体的，或者判断第一自相关系数相较于第二自相关系数是否升高。

S404：若所述第一自相关系数和所述第二自相关系数之间的差值在预设阈值范围内，则将对该待填补状态变量进行填补后得到的完整预测状态信息标记为填补成功。

具体的，或者若第一自相关系数相较于第二自相关系数升高，则将对该待填补状态变量进行填补后得到的完整预测状态信息标记为填补成功。

在一个可行的实施方案中，在判断所述第一自相关系数和所述第二自相关系数之间的差值是否在预设阈值范围内后，所述方法还包括：

具体的，或者若第一自相关系数相较于第二自相关系数下降，则将对该待填补状态变量进行填补后得到的完整预测状态信息标记为填补失败。

在一个可行的实施方案中，在将对该待填补状态变量进行填补后得到的完整预测状态信息标记为填补成功后，所述方法还包括；

具体的，填补率定义为被标记为填补成功完整预测状态信息的数量占总的完整预测状态信息的数量的比率，该指标评价了填补算法的适用性，依据如下公式进行计算：

式中，PCE(％)为填补率，N_SI被标记为填补成功完整预测状态信息的数量，N_I表示总的完整预测状态信息的数量。

填补精确度的评价方法分为：直接评价方法和分类性能评价方法。

直接评价方法通过计算仿真数据集中的虚拟缺失数据的原始值和缺失填补算法得出的估计值之间的差异度来进行填补精确度评价。对于离散数据，通常采用正确预测比率作为评价指标,使用如下公式计算。

式中，PCE(％)为填补率，N_CE为被标记为填补成功的完整预测状态信息所使用的待填补状态变量的预测值的个数，N_E表示待填补状态变量的预测值的总个数。

对于连续数据，通常采用均方根误差作为评价指标，使用如下公式计算。

式中，RMSE为均方根误差，N_MV表示待填补状态变量的总个数，V_A表待填补状态变量的观测值，V_E表示待填补状态变量的预测值。

也可以采用平均绝对错误比率作为评价指标，使用如下公式计算。

式中，MAPE为平均绝对错误比率，N_MV表示待填补状态变量的总个数，V_A表待填补状态变量的观测值，V_E表示待填补状态变量的预测值。

分类性能评价方法是一种与后继数据应用相结合的填补算法性能评价方法，适用于支撑

分类应用的数据集缺失数据填补算法。首先将原始数据集进行虚拟缺失后得到不完全数据集，然后把通过缺失填补算法处理后得到的完全数据集划分训练集和测试集合。训练集用于训练分类器，测试集则用于测试分类器的分类性能。通过评价不同的缺失填补算法采用同一种分类器的分类性能，以及原始完全数据集上该分类器的分类性能进行比较可以获得对缺失填补算法的精确度性能度量。

填补时间为对传感器网络数据集中的单个缺失数据，从开始填补到结束填补所花费的时间。根据填补算法的不同，具体这一时间的计算方法也会有差异。在实际测量中，由于单个缺失数据的填补时间往往比较小，一般会测量多个缺失数据的填补时间总和，用平均时间来进行时间性能的评价。

在一个可行的实施方案中，参见图5所示，图5示出了本发明实施例一所提供的一种第一目标模型预测效果评估方法的流程图，其中，所述根据所述第一目标模型的填补率、所述第一目标模型的填补精确度和所述第一目标模型的填补时间对所述第一目标模型的模型预测效果进行评估，包括步骤S501～S504：

S501：将所述根据所述第一目标模型的填补率、所述第一目标模型的填补精确度和所述第一目标模型的填补时间，利用DBSCAN聚类算法进行密度聚类确定出利用第一目标模型进行填补后被标记为填补成功的完整预测状态信息中的异常值。

具体的，对填补率、填补精确度和填补时间三个指标在三维空间中通过DBSCAN进行密度聚类。DBSCAN算法是一种基于密度聚类的非监督机器学习方法，无需提前设定聚类簇的个数，通过半径ε和邻域密度阈值Z两个重要参数来反映数据分布的紧密程度，并找出形状不规则的簇。DBSCAN算法在确定簇时会对数据集中每个测试对象的邻域进行搜索，如果邻域包含对象的数量超过邻域密度阈值Z，就会创建一个以该对象为核心的新簇。然后该算法从核心对象出发，找到所有密度可达的对象，并将其合并为一个簇。直到数据集中的点不能再被添加到任何簇中，进程将终止。不落在任何簇中的点被认为是异常值。

S502：判断所述异常值的数量是否超过预设数量。

S503：若所述异常值的数量未超过预设数量，则将所述第一目标模型的模型预测效果评估为合格。

S504：若所述异常值的数量超过预设数量，则将所述第一目标模型的模型预测效果评估为不合格。

具体的，当异常值未达到一定比例(未超过预设数量)时，证明通过BRT神经网络对多元异构异常数据填补的效果较佳，则将所述第一目标模型的模型预测效果评估为合格；反之，若所述异常值的数量达到一定比例(超过预设数量)时，则将所述第一目标模型的模型预测效果评估为不合格，需要重新确定BRT神经网络参数。

除此之外，可以将本申所提供的一种风力发电机的缺失状态变量填补方法应用于边缘智能感知装置的方法，边缘智能感知装置是指一种能够在离数据源较近的位置对数据进行处理和分析的设备，它可以将处理后的数据发送给云端或其他系统进行进一步的处理。在海上风电项目中，将数据填补方法应用于边缘化感知装置可以提高系统的效率和可靠性。

海上风电项目中，边缘智能感知装置可以安装在风力涡轮机上，采集各种传感器数据，包括温度、风速、振动等信息。将所提出的缺失值填补算法集成到边缘智能感知装置的模块上，包括异常值识别模块、随机森林特征选择模块、有限差分回归向量工作域划分模块、BRT神经网络多输入多输出建模模块以及填补效果评价模块等，涵盖包括数据分析与处理、缺失值填补等功能在内的主体功能，可以在保证数据质量的同时大幅度减少边缘服务器与中心服务器的交互内容、降低运算、传输时间。

本发明提出的一种风力发电机的缺失状态变量填补方法针对风力发电机组的异常数据，经过特征变量选取、相似工况划分后，采用正常数据进行神经网络模型训练，将缺失值通过神经网络算法进行有效预测与填补，十分优质地完成对风力发电中异常数据的填补，可以使风力发电运行控制更加精确；所提出的BRT神经网络缺失值填补方法，可以减少由于数据相关性而产生的填补误差，且相比于一般的数据填补方法，BRT神经网络建立的多输入多输出模型可以同时处理多个变量，并且可以利用不同变量之间的相互关系来填充缺失值。这使得BRT在数据填补任务中具有更好的表现。采用自适应DBSCAN密度聚类方法对模型的填补效果进行评价，模型填补效果不佳时可自动更改模型参数以获得更好的填补效果。

实施例二

参见图6所示，图6示出了本发明实施例二所提供的一种风力发电机的缺失状态变量填补装置，其中，所述装置包括

特征输入变量确定模块601，用于根据预先配置的特征输出变量，利用随机森林算法从待选特征变量集中确定出至少一个特征输入变量，其中，所述待选特征变量集中包括目标风力发电机的至少一个状态特征变量，至少一个所述特征输入变量为所述特征输出变量的强相关变量；

第一目标模型确定模块602，用于利用整体训练样本集对用于对风力发电状态的缺失数据进行填补的第一初始模型进行模型训练得到第一目标模型，其中，所述整体训练样本集中的训练输出样本为至少一个所述特征输出变量中的满足预设数量的特征输出变量，所述整体训练样本集中的训练输入样本为所述整体训练样本集中的训练输出样本的强相关变量；

缺失数据填补准确率确定模块603，用于利用整体测试样本集对所述第一目标模型进行测试得到所述第一目标模型的缺失数据填补准确率，其中，所述整体测试样本集中的测试输出样本为至少一个所述特征输出变量中除所述训练输出样本以外的其余特征输出变量，所述整体测试样本集中的测试输入样本为所述整体测试样本集中的测试输出样本的强相关变量；

第一判断模块604，用于判断所述第一目标模型的缺失数据填补准确率是否超过标准准确率；

预测值确定模块605，用于若所述第一目标模型的缺失数据填补准确率超过标准准确率，则将所述目标风力发电机的参考状态变量输入至所述第一目标模型得到所述目标风力发电机的待填补状态变量的预测值，其中，所述参考状态变量为所述目标风力发电机的状态特征变量中未缺失的特征变量，所述待填补状态变量为所述目标风力发电机的状态特征变量中存在缺失的特征变量的填补值；

完整预测状态信息确定模块606，用于将所述待填补状态变量的预测值填补至所述待填补状态变量中得到所述目标风力发电机的完整预测状态信息。

在一个可行的实施方案中，所述装置还包括：

延迟阶次确定模块，用于在判断所述第一目标模型的缺失数据填补准确率是否超过标准准确率后，若所述第一目标模型的缺失数据填补准确率未超过所述标准准确率，则利用赤池信息量准则确定出至少一个所述特征输入变量和所述特征输出变量之间的延迟阶次；

在一个可行的实施方案中，所述特征输入变量组确定模块在用于根据所述延迟阶次将至少一个所述特征输入变量进行作用域划分得到至少一组特征输入变量组时，具体用于：

在一个可行的实施方案中，所述装置还包括：

在一个可行的实施方案中，所述模型预测效果评估模块在用于根据所述第一目标模型的填补率、所述第一目标模型的填补精确度和所述第一目标模型的填补时间对所述第一目标模型的模型预测效果进行评估时，具体用于：

判断所述异常值的数量是否超过预设数量；

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统和装置的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

本发明实施例所提供的风力发电机的缺失状态变量填补装置可以为设备上的特定硬件或者安装于设备上的软件或固件等。本发明实施例所提供的装置，其实现原理及产生的技术效果和前述方法实施例相同，为简要描述，装置实施例部分未提及之处，可参考前述方法实施例中相应内容。所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，前述描述的系统、装置和单元的具体工作过程，均可以参考上述方法实施例中的对应过程，在此不再赘述。

在本发明所提供的实施例中，应该理解到，所揭露装置和方法，可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，又例如，多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明提供的实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。

应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步定义和解释，此外，术语“第一”、“第二”、“第三”等仅用于区分描述，而不能理解为指示或暗示相对重要性。

最后应说明的是：以上所述实施例，仅为本发明的具体实施方式，用以说明本发明的技术方案，而非对其限制，本发明的保护范围并不局限于此，尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化，或者对其中部分技术特征进行等同替换；而这些修改、变化或者替换，并不使相应技术方案的本质脱离本发明实施例技术方案的精神和范围。都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应所述以权利要求的保护范围为准。

Claims

1.一种风力发电机的缺失状态变量填补方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，在判断所述第一目标模型的缺失数据填补准确率是否超过标准准确率后，所述方法还包括；

3.根据权利要求2所述的方法，其特征在于，所述根据所述延迟阶次将至少一个所述特征输入变量进行作用域划分得到至少一组特征输入变量组，包括：

4.根据权利要求1所述的方法，其特征在于，在将所述待填补状态变量的预测值填补至所述待填补状态变量中得到所述目标风力发电机的完整预测状态信息后，所述方法还包括：

5.根据权利要求4所述的方法，其特征在于，在判断所述第一自相关系数和所述第二自相关系数之间的差值是否在预设阈值范围内后，所述方法还包括：

6.根据权利要求4所述的方法，其特征在于，在将对该待填补状态变量进行填补后得到的完整预测状态信息标记为填补成功后，所述方法还包括；

7.根据权利要求6所述的方法，其特征在于，所述根据所述第一目标模型的填补率、所述第一目标模型的填补精确度和所述第一目标模型的填补时间对所述第一目标模型的模型预测效果进行评估，包括：

判断所述异常值的数量是否超过预设数量；

8.一种风力发电机的缺失状态变量填补装置，其特征在于，所述装置包括：

9.根据权利要求8所述的装置，其特征在于，所述装置还包括：

10.根据权利要求9所述的装置，其特征在于，所述特征输入变量组确定模块在用于根据所述延迟阶次将至少一个所述特征输入变量进行作用域划分得到至少一组特征输入变量组时，具体用于：