CN114548843B

CN114548843B - 风力发电机功率数据的处理方法、计算机设备及介质

Info

Publication number: CN114548843B
Application number: CN202210447626.1A
Authority: CN
Inventors: 时培昕; 付炳瑞; 傅若玮; 刘艳林; 李晰; 赵逸凡
Original assignee: Beijing Neucloud Dingcheng Technology Co ltd
Current assignee: Beijing Neucloud Dingcheng Technology Co ltd
Priority date: 2022-04-25
Filing date: 2022-04-25
Publication date: 2022-07-15
Anticipated expiration: 2042-04-25
Also published as: CN114548843A

Abstract

本发明实施例公开一种风力发电机功率数据的处理方法、计算机设备及介质。在一具体实施方式中，该方法包括：获取风力发电机功率数据，并依据风速将获取的风力发电机功率数据划分为多个区间；对每个区间中的风力发电机功率数据进行基于四分位数法的第一次标记，以标记出每个区间中的功率值异常大的异常功率数据；对每个区间中的未标记功率数据进行基于阈值自适应设置的组内最优方差法的第二次标记，以标记出每个区间中功率值异常小的异常功率数据，得到由每个区间的未标记功率数据组成的正常功率数据。该实施方式可精确高效地实现对风力发电机功率数据的数据清洗。

Description

风力发电机功率数据的处理方法、计算机设备及介质

技术领域

本发明涉及数据处理技术领域。更具体地，涉及一种风力发电机功率数据的处理方法、计算机设备及介质。

背景技术

每台风力发电机都有各自的风机功率曲线（风速-风机功率散点图），需要根据采集得到的风力发电机的功率数据（不同风速对应的功率）绘制。对于采集得到的风力发电机的功率数据，由于受到人为（如维修，限电等）和非人为（天气、空气密度、环境温度等）等一系列因素的影响，采集到的风力发电机的原始功率数据的数据点分布杂乱无序，无法直接用于风力发电机的风机功率曲线绘制及风力发电机机组的性能分析。因此，需要对风力发电机的原始功率数据进行异常检测或者说筛选，即，对异常功率数据进行清洗或者说异常剔除的处理。

发明内容

本发明的目的在于提供一种风力发电机功率数据的处理方法、计算机设备及介质，以解决现有技术存在的问题中的至少一个。

为达到上述目的，本发明采用下述技术方案：

本发明第一方面提供了一种风力发电机功率数据的处理方法，包括：

获取风力发电机功率数据，并依据风速将获取的风力发电机功率数据划分为多个区间；

对每个区间中的风力发电机功率数据进行基于四分位数法的第一次标记，以标记出每个区间中的功率值异常大的异常功率数据；

对每个区间中的未标记功率数据进行基于阈值自适应设置的组内最优方差法的第二次标记，以标记出每个区间中功率值异常小的异常功率数据，得到由每个区间的未标记功率数据组成的正常功率数据。

可选地，所述对每个区间中的未标记功率数据进行基于阈值自适应设置的组内最优方差法的第二次标记包括：

对于每一待进行第二次标记的区间，对所述区间中的未标记功率数据根据功率值进行降序排序；

计算降序排序后的未标记功率数据的功率值累计方差以得到方差向量序列，对所述方差向量序列进行一阶差分处理，确定所述方差向量序列的差分最大值；

将功率值小于等于第一功率值的功率数据标记为功率值异常小的异常功率数据，所述第一功率值为所述差分最大值所对应的功率值。

可选地，

所述对每个区间中的未标记功率数据进行基于阈值自适应设置的组内最优方差法的第二次标记包括：

判断所述区间中的未标记功率数据中的最大功率值与所述差分最大值之间的差值是否小于等于预设功率阈值：

若是，则将功率值小于等于第一功率值的功率数据标记为功率值异常小的异常功率数据，所述第一功率值为所述差分最大值所对应的功率值；

若否，则基于聚类算法对所述区间中的未标记数据及所述区间的已完成第二次标记的相邻区间中的正常功率数据进行聚类处理，根据所述聚类处理的结果标记出所述区间中功率值异常小的异常功率数据。

可选地，所述基于聚类算法对所述区间中的未标记数据及所述区间的已完成第二次标记的相邻区间中的正常功率数据进行聚类处理，根据所述聚类处理的结果标记出所述区间中功率值异常小的异常功率数据包括：

将所述区间中的未标记数据与所述区间的已完成第二次标记的相邻区间中的正常功率数据组成合并数据集；

采用聚类数设为2的K均值聚类算法对所述合并数据集中的功率数据进行聚类处理，以为所述合并数据集中的功率数据赋予标签；

将所述区间中的与所述已完成第二次标记的相邻区间中的标签不同的功率数据标记为功率值异常小的异常功率数据。

可选地，对于所有区间的第二次标记，按区间的风速范围起始值升序排序依次进行。

可选地，所述方法还包括：

若第1个区间中的未标记功率数据中的最大功率值与所述差分最大值之间的差值大于预设功率阈值，则：

生成多个功率值在0至预设功率值之间的虚拟功率数据，以得到虚拟区间；

基于聚类算法对第1个区间中的未标记数据及所述虚拟区间中的虚拟功率数据进行聚类处理，根据所述聚类处理的结果标记出第1个区间中功率值异常小的异常功率数据。

可选地，所述依据风速将获取的风力发电机功率数据划分为多个区间包括：将获取的风力发电机功率数据划分为风速范围0.5m/s的多个区间。

可选地，所述预设功率阈值设置为200W。

本发明第二方面提供了一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现本发明第一方面提供的风力发电机功率数据的处理方法。

本发明第三方面提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现本发明第一方面提供的风力发电机功率数据的处理方法。

本发明的有益效果如下：

本发明所述技术方案可精确高效地实现对风力发电机功率数据的数据清洗。

附图说明

下面结合附图对本发明的具体实施方式作进一步详细的说明。

图1示出本发明实施例提供的风力发电机功率数据的处理方法的流程示意图。

图2示出风力发电机的原始功率数据分布示意图。

图3示出风速范围为5m/s~5.5m/s的区间的箱型图。

图4示出风速范围为5.5 m/s ~6m/s的区间的箱型图。

图5示出风速范围为5m/s~5.5m/s的区间的累计方差曲线图。

图6示出风速范围为5.5 m/s ~6m/s的区间的累计方差曲线图。

图7示出风速范围为5m/s~5.5m/s和5.5 m/s ~6m/s的两个风速区间合并后的异常功率数据标记的示意图。

图8示出本发明实施例提供的风力发电机功率数据的处理方法的细节流程图。

图9示出实现本发明实施例提供风力发电机功率数据的处理装置的计算机系统的结构示意图。

具体实施方式

为了更清楚地说明本发明，下面结合实施例和附图对本发明做进一步的说明。附图中相似的部件以相同的附图标记进行表示。本领域技术人员应当理解，下面所具体描述的内容是说明性的而非限制性的，不应以此限制本发明的保护范围。

每台风力发电机都有各自的风机功率曲线，需要根据采集得到的风力发电机的功率数据（不同风速对应的功率）绘制。对于采集得到的风力发电机的功率数据，由于受到人为（如维修，限电等）和非人为（天气、空气密度、环境温度等）等一系列因素的影响，采集到的风力发电机的原始功率数据的数据点分布杂乱无序，无法直接用于风力发电机的风机功率曲线绘制及风力发电机机组的性能分析。因此，需要对风力发电机的原始功率数据进行异常检测或者说筛选，即，对异常功率数据进行清洗或者说异常剔除的处理。

现有的处理方法精度不高、效率较低等问题，效果不佳。具体而言，发明人发现，对于常用的风力发电机功率数据的清洗方法，例如统计学方法（如统计量分析法、3σ法、四分位数法等）、机器学习方法（支持向量回归法、K最近邻聚类法、组内最优方差法、离群点检测法等），大致存在如下问题：统计学方法往往需要设定固定阈值或假设条件来进行处理，而数据清洗的效果受这些因素的影响很大，例如四分位数法往往假定所有数据服从标准正太分布，一旦数据不符合假设条件，则该方法清洗效果将显著下降；对于机器学习方法来说，存在计算效率低、前期训练工作量大的问题，而且模型参数设置对清洗的效果影响较大，例如支持向量机回归法虽然可以考虑回归曲线的平滑性，从而将异常数据进行分离，但是支持向量机的模型方法需要设置经验参数，而这些参数需要大量训练计算才能得到。

有鉴于此，本发明实施例提供了一种风力发电机功率数据的处理方法，包括：

发明人发现，如果对直接对全部风速区间的数据进行数据清洗，那么准确性是难以得到保证的，因此，本发明实施例提供的风力发电机功率数据的处理方法首先对依据风速将获取的风力发电机功率数据划分为多个区间，然后再对每个区间内的风力发电机功率数据分别进行数据清洗，可提升异常功率数据标记的准确性。

进一步，对于具体的数据清洗方法，发明人发现：一方面，四分位数法适合用于过滤那些由于传感器故障导致的异常功率数据，而通常在风机功率曲线上方异常数据点（即功率值异常大的异常功率数据）大部分都是传感器故障引起的。另一方面，风机功率曲线下方的异常数据点（即功率值异常小的异常功率数据）出现的原因种类很多（如环境变化、人为、风机故障等），采用四分位数法很难区分标记出风机功率曲线下方的异常数据点（即功率值异常小的异常功率数据），而可能适用于标记出风机功率曲线下方的异常数据点（即功率值异常小的异常功率数据）的组内最优方差法需保证数据值一端（大或小）的数据的准确性，在此基础上对数据进行数据值由大至小或由小至大的排序（若可保证数据值大的数据的准确性则对数据进行数据值由大至小的排序，反之，若可保证数据值小的数据的准确性则对数据进行数据值由小至大的排序），且常规的组内最优方差法受到人为设置阈值的限制，精确性难以得到保证。

因此，经过综合考虑，在对区间内的风力发电机功率数据进行数据清洗时，本发明实施例提供的风力发电机功率数据的处理方法，先基于四分位数法进行第一次标记，以标记出每个区间中的功率值异常大的异常功率数据，这样，可精确高效地标记出风机功率曲线上方异常数据点（即功率值异常大的异常功率数据）；然后，在保证数据值一端的数据（功率值大的功率数据）的准确性的基础上，基于改进的阈值自适应设置的组内最优方差法进行第二次标记，以标记出每个区间中功率值异常小的异常功率数据，这样，可在不受人为设置阈值的限制、自动为每个区间设置合适的阈值的情况下，精确高效地标记出风机功率曲线下方异常数据点（即功率值异常小的异常功率数据），从而，完成对风机功率曲线上方、下方的全部异常数据点（即功率值异常大和异常小的全部异常功率数据）的标记，得到由区间的未标记功率数据组成的正常功率数据, 实现对区间内全部功率数据的数据清洗。可见，本发明实施例提供的风力发电机功率数据的处理方法，可精确高效地实现对风力发电机功率数据的数据清洗。

本实施例提供的风力发电机功率数据的处理方法可以通过具有数据处理能力的计算机设备来实现，具体的，该计算机设备可以为具有数据处理能力的计算机，包括个人计算机（PC，Personal Computer）、小型机或者大型机，也可以是具有数据处理能力的服务器或者服务器集群等，本实施例对此不做限定。

接下来，从具有数据处理能力的处理设备的角度，对本实施例提供的风力发电机功率数据的处理方法进行说明。

如图1所示，本发明实施例提供的风力发电机功率数据的处理方法，包括如下步骤：

S110、获取风力发电机功率数据，并依据风速将获取的风力发电机功率数据划分为多个区间。

在一种可能的实现方式中，所述依据风速将获取的风力发电机功率数据划分为多个区间包括：将获取的风力发电机功率数据划分为风速范围0.5m/s的多个区间。风速范围取值过大、过小、或各区间的风速范围不均匀，均不利于后续标记的精确性，经发明人反复实验，上述0.5m/s的风速范围有利于后续标记的精确性。

示例性的，为直观说明，将获取的风力发电机功率数据在横坐标为风速，纵坐标为功率（发电功率）的如图2所示的风力发电机的原始功率数据分布（风速-风机功率散点图）中体现，如图2所示，依据v=0.5m/s的风速值，将获取的风力发电机功率数据划分为多个区间，例如，切入风速（风力发电机开始工作的最低风速）为2.5m/s，则第1个区间为风速在2.5m/s-3m/s之间的功率数据、第2个区间为风速在3m/s-3.5m/s之间的功率数据，以此类推，直至切出风速（风速大于切出风速时功率不再增加），例如切出风速为22m/s，则共包含39个区间。需要说明的时，为避免数据点过多而造成查看的混乱，图2中仅示出了风力发电机的原始功率数据中在风速范围为5m/s~5.5m/s和5.5 m/s ~6m/s这两个区间内的原始功率数据，其中，三条点划线示出了这两个区间的界限，界限中的黑色点示出的是这两个区间中的原始功率数据的数据点。另外，为便于理解，图2还示出了最终根据数据清洗后的正常功率数据所绘制的该风力发电机的风机功率曲线。

在一种可能的实现方式中，步骤S110中的获取风力发电机功率数据进一步包括：对采集的风力发电机数据进行重采样，以得到重采样后的风力发电机功率数据。

由于传感器采集的风力发电机数据的采样分辨率通常为7秒左右（即每隔7秒采集一次风力发电机数据），数据分布散乱，可能存在噪声干扰，因此，可将秒级数据例如按照10分钟的间隔进行重采样处理，即，将10分钟内的秒级数据取均值处理，从而将数据平滑、消除噪声。

S120、对每个区间中的风力发电机功率数据进行基于四分位数法的第一次标记，以标记出每个区间中的功率值异常大的异常功率数据。

其中，功率值异常大的异常功率数据位于例如如图2所示的风力发电机的原始功率数据分布中的正常功率数据分布形成的区域的上方，即，步骤S120为采用四分位法标记每个区间中的风机功率曲线上方异常数据点。

在一种可能的实现方式中，步骤S120进一步包括：将功率值大于（I3+1.5IQR）的功率数据标记为功率值异常大的异常功率数据，其中，I3为上四分位数， IQR为四分位距。上四分位数I3即区间中所有功率数据的功率值由小至大排序（升序排序）后第75%的功率值，四分位距IQR（Inter Quartile Range）即第三四分位数（第三四分位数即上四分位数I3）与第一四分位数（区间中所有功率数据的功率值由小至大排列后第25%的功率值）的差值。例如，图2中风速范围为5m/s~5.5m/s的区间内存在功率值异常大的异常功率数据，通过四分位数法即可将其标记出，如图3所示的箱线图，该区间内存在两个功率值异常大的异常功率数据。风速范围为5.5 m/s ~6m/s的区间的四分位数法的箱线图如图4所示。

S130、对每个区间中的未标记功率数据进行基于阈值自适应设置的组内最优方差法的第二次标记，以标记出每个区间中功率值异常小的异常功率数据，得到由每个区间的未标记功率数据组成的正常功率数据。

在一种可能的实现方式中，步骤S130中的所述对每个区间中的未标记功率数据进行基于阈值自适应设置的组内最优方差法的第二次标记包括：

在一个具体示例中，以一个包含160个功率数据的区间为例，在通过步骤S120标记出20个功率值异常大的异常功率数据之后，对于剩余的140个功率数据根据功率值进行由大至小的降序排序，排序后的140个功率数据的功率值依次设为P₁、P₂、……、P₁₄₀。然后，计算降序排序后的140个功率数据的功率值累计方差以得到方差向量序列，方差向量序列中：第1个方差向量为0，方差向量0对应第1个功率数据，第2个方差向量为D₁，D₁为P₁和P₂的方差，D₁对应第2个功率数据；第3个方差向量为D₃，D₃为P₁、P₂和P₃的方差，D₃对应第3个功率数据；以此类推，得到方差向量序列0、D₁、D₂、……、D₁₃₉。然后，对上述方差向量序列0、D₁、D₂、……、D₁₃₉进行一阶差分处理，即进行一阶位移，得到方差向量序列的差分：方差向量序列的第1个差分值A₁=D₁-0，对应第2个功率数据；方差向量序列的第2个差分值A₂=D₂-D₁，对应第3个功率数据；方差向量序列的第3个差分值A₃=D₃-D₂，对应第4个功率数据；以此类推，得到方差向量序列的差分值A₁、A₂、A₃、……、A₁₃₈；然后确定方差向量序列的差分最大值A_Max，最后将差分最大值A_Max将功率值小于等于差分最大值A_Max所对应的功率值的功率数据标记为功率值异常小的异常功率数据。例如，A₁₀₀为方差向量序列的差分最大值A_Max，则将功率值小于等于差分最大值A₁₀₀所对应的功率值P₁₀₁（第101个功率数据的功率值，即第一功率值）的功率数据标记为功率值异常小的异常功率数据，即，将排序在第101至第140的功率数据，或者说将排序在第100之后的功率数据标记为功率值异常小的异常功率数据，其中，差分最大值A₁₀₀即为本实施例中所述的阈值自适应设置的组内最优方差法中，对于本示例的区间所自适应设置的阈值。

由此，在进行第二次标记时，还可通过基于预设功率阈值的判断而采用聚类算法，应对了极端情况下（例如个别本应被标记为功率值异常小的异常功率数据中与正常功率数据的离散度不显著而与其他功率值异常小的异常功率数据的离散度较为显著）阈值自适应设置的组内最优方差法无法准确标记出风机功率曲线下方异常数据点（即功率值异常小的异常功率数据）的情况，进而保证了第二次标记的精确性。

在一种可能的实现方式中，所述预设功率阈值设置为200W（瓦）。需要说明的是，预设功率阈值设置为200W是与划分区间的风速范围为0.5m/s适配的。

在一种可能的实现方式中，所述基于聚类算法对所述区间中的未标记数据及所述区间的已完成第二次标记的相邻区间中的正常功率数据进行聚类处理，根据所述聚类处理的结果标记出所述区间中功率值异常小的异常功率数据包括：

例如，除K均值（K-Means）聚类算法之外，本实施例中的聚类算法还可采用均值漂移聚类算法、基于密度的聚类方法（DBSCAN）、用高斯混合模型（GMM）的最大期望（EM）聚类算法、凝聚层次聚类、图团体检测（Graph Community Detection）等其他聚类算法。

在一种可能的实现方式中，步骤S130中，对于所有区间的第二次标记，按区间的风速范围起始值升序排序依次进行。这样，可最大程度保证对于待进行第二次标记的区间，存在已完成第二次标记的相邻区间，且假如第1个区间即满足了未标记功率数据中的最大功率值与所述差分最大值之间的差值大于预设功率阈值的条件，也易于进行处理。

进一步，在一种可能的实现方式中，步骤S130还包括：

其中，预设功率值设置为100W，即虚拟功率数据的功率值均在0附近。需要说明的是，预设功率值设置为100W是与划分区间的风速范围为0.5m/s适配的。可理解的是，虚拟区间（可理解为位于切入风速2.5m/s之前的）中的虚拟功率数据在辅助进行对第1个区间的第二次标记时，全部视为正常数据。

接续前述示例，结合上述实现方式，步骤S130的流程例如为：

在第一次标记之后，依序对各区间进行第二次标记，例如当前进行到待对风速范围为5m/s~5.5m/s的区间进行第二次标记，则逐个对风速范围为5m/s~5.5m/s的区间和风速范围为5.5m/s~6m/s的区间进行第二次标记包括：

（1）对风速范围为5m/s~5.5m/s的区间中的未标记功率数据（即第一次标记时未标记为功率值异常大的功率数据）根据功率值进行降序排序，计算降序排序后的未标记功率数据的功率值累计方差以得到方差向量序列，对方差向量序列进行一阶差分处理，确定所述方差向量序列的差分最大值A_Max，5-5.5。

（2）判断风速范围为5m/s~5.5m/s的区间中的未标记功率数据中的最大功率值P_Max，5-5.5与差分最大值A_Max，5-5.5之间的差值（P_Max，5-5.5- A_Max，5-5.5）是否小于等于预设功率阈值200，假如（P_Max，5-5.5- A_Max，5-5.5）≤200，则将未标记的功率数据中，功率值小于等于该方差向量差分最大值A_Max，5-5.5所对应的功率值的功率数据标记为功率值异常小的异常数据。例如图5所示的风速范围为5m/s~5.5m/s的区间中的累计方差曲线图，经过一阶差分即可找到变化（图中体现为曲线的斜率）最大的点位，即最后一个点，说明风速范围为5m/s~5.5m/s的区间中不存在功率值异常小的异常功率数据。

（3）对风速范围为5.5m/s~6m/s的区间中的未标记功率数据（即第一次标记时未标记为功率值异常大的功率数据）根据功率值进行降序排序，计算降序排序后的未标记功率数据的功率值累计方差以得到方差向量序列，对方差向量序列进行一阶差分处理，确定所述方差向量序列的差分最大值A_Max，5.5-6。

（4）判断风速范围为5.5m/s~6m/s的区间中的未标记功率数据中的最大功率值P_Max，5.5-6与差分最大值A_Max，5.5-6之间的差值（P_Max，5.5-6- A_Max，5.5-6）是否小于等于预设功率阈值200：

假如（P_Max，5.5-6- A_Max，5.5-6）≤200，则将未标记的功率数据中，功率值小于等于该方差向量差分最大值A_Max，5.5-6所对应的功率值的功率数据标记为功率值异常小的异常数据。例如图6所示的风速范围为5.5m/s~6m/s的区间中的累计方差曲线图，经过一阶差分即可找到变化（图中体现为曲线的斜率）最大的点位，即左数第18个点，则从该点之后的点均为判定为异常数据点，即标记为功率值异常小的异常功率数据；

假如（P_Max，5.5-6- A_Max，5.5-6）＞200，则基于聚类算法对风速范围为5.5m/s~6m/s的区间中的未标记数据及已完成第二次标记的风速范围为5m/s~5.5m/s的区间中的正常功率数据进行聚类处理，根据所述聚类处理的结果标记出风速范围为5.5m/s~6m/s的区间中功率值异常小的异常功率数据，即，应改用聚类算法辅助标记，可将这两个区间进行合并，采用聚类数n_clusters=2的K-Means聚类算法，将功率数据带入K-Means聚类算法模型进行标签赋值，获取正常和异常两类状态数据标签，其中5m/s~5.5m/s的区间中是正常功率数，则风速范围为5.5m/s~6m/s的区间中的未标记功率数据中，凡是与5m/s~5.5m/s的区间中的正常数据的标签相同的即作为正常功率数据，不相同的则标记为功率值异常小的异常功率数据。

最终，结合前述示例，对风速范围为5m/s~5.5m/s的区间和风速范围为5.5m/s~6m/s的区间的两次标记的结果如图7所示，图7中，空心点表示异常功率数据对应的数据点，实心点表示正常功率数据对应的数据点。

在一种可能的实现方式中，在得到由每个区间的未标记功率数据组成的正常功率数据后，可根据各区间的正常功率数据绘制功率曲线和/或根据异常功率数据进行告警。

进一步，根据异常数据进行告警可包括：查找异常功率数据对应的时间段，对照故障检修、停机记录，过滤已排查的异常功率数据，对其余未排查的异常功率数据进行告警提示，通知运维人员对相应时段内的风机状态进行检查。

进一步，根据各区间的正常功率数据绘制功率曲线包括：根据各区间的正常功率数据，基于随机森林算法绘制功率曲线。

对于数据清洗后的得到的所有区间的正常功率数据，可以采用随机森林算法来构造反映风机真实工作状态的风机功率曲线，更新原有的功率曲线以用于后续的发电量预测或性能评估。

结合上述实现方式及示例的本实施例提供的风力发电机功率数据的处理方法的流程细节如图8所示。

综上，本发明实施例提供的风力发电机功率数据的处理方法的主要优点如下：本发明实施例提供的风力发电机功率数据的处理方法首先对依据风速将获取的风力发电机功率数据划分为多个区间，可提升异常功率数据标记的准确性。进一步，对于具体的数据清洗方法，本发明实施例提供的风力发电机功率数据的处理方法，先基于四分位数法进行第一次标记，以标记出每个区间中的功率值异常大的异常功率数据，这样，可精确高效地标记出风机功率曲线上方异常数据点（即功率值异常大的异常功率数据）；然后，在保证数据值一端的数据（功率值大的功率数据）的准确性的基础上，基于改进的阈值自适应设置的组内最优方差法进行第二次标记，以标记出每个区间中功率值异常小的异常功率数据，这样，可在不受人为设置阈值的限制、自动为每个区间设置合适的阈值的情况下，精确高效地标记出风机功率曲线下方异常数据点（即功率值异常小的异常功率数据）。其中，在进行第二次标记时，还通过基于预设功率阈值的判断而采用聚类算法，应对了极端情况下（例如个别本应被标记为功率值异常小的异常功率数据中与正常功率数据的离散度不显著而与其他功率值异常小的异常功率数据的离散度较为显著）阈值自适应设置的组内最优方差法无法准确标记出风机功率曲线下方异常数据点（即功率值异常小的异常功率数据）的情况，进而保证了第二次标记的精确性。经过两次标记，完成了对风机功率曲线上方、下方的全部异常数据点（即功率值异常大和异常小的全部异常功率数据）的标记，得到由区间的未标记功率数据组成的正常功率数据, 实现对区间内全部功率数据的数据清洗。可见，本发明实施例提供的风力发电机功率数据的处理方法，可精确高效地实现对风力发电机功率数据的数据清洗。

可见，相比现有的例如采用机器学习方法等实现的风力发电机功率数据的清洗方法，本发明实施例提供的风力发电机功率数据的处理方法，可精确高效地实现对风力发电机功率数据的数据清洗，且使用方法简单便捷，进而，可自动化处理风力发电机的功率曲线数据，且可实现实时对异常功率数据进行告警，及能够为精准绘制风机功率曲线提供可靠保障，提升后续的功率预测等工作的准确性。

本发明的另一个实施例提供了一种风力发电机功率数据的处理装置，包括：

划分模块，用于获取风力发电机功率数据，并依据风速将获取的风力发电机功率数据划分为多个区间；

第一标记模块，用于对每个区间中的风力发电机功率数据进行基于四分位数法的第一次标记，以标记出每个区间中的功率值异常大的异常功率数据；

第二标记模块，用于对每个区间中的未标记功率数据进行基于阈值自适应设置的组内最优方差法的第二次标记，以标记出每个区间中功率值异常小的异常功率数据，得到由每个区间的未标记功率数据组成的正常功率数据。

需要说明的是，本实施例提供的风力发电机功率数据的处理装置的原理及工作流程与上述风力发电机功率数据的处理方法相似，相关之处可以参照上述说明，在此不再赘述。

如图9所示，适于用来实现上述实施例提供的风力发电机功率数据的处理装置的计算机系统，包括中央处理模块（CPU），其可以根据存储在只读存储器（ROM）中的程序或者从存储部分加载到随机访问存储器（RAM）中的程序而执行各种适当的动作和处理。在RAM中，还存储有计算机系统操作所需的各种程序和数据。CPU 、ROM以及RAM通过总线被此相连。输入/输入（I/O）接口也连接至总线。

以下部件连接至I/O接口: 包括键盘、鼠标等的输入部分；包括诸如液晶显示器（LCD）等以及扬声器等的输出部分; 包括硬盘等的存储部分；以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分。通信部分经由诸如因特网的网络执行通信处理。驱动器也根据需要连接至I/O接口。可拆卸介质，诸如磁盘、光盘、磁光盘、半导体存储器等等，根据需要安装在驱动器上，以便于从其上读出的计算机程序根据需要被安装入存储部分。

特别地，根据本实施例，上文流程图描述的过程可以被实现为计算机软件程序。例如，本实施例包括一种计算机程序产品，其包括有形地包含在计算机可读介质上的计算机程序，上述计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中，该计算机程序可以通过通信部分从网络上被下载和安装，和/或从可拆卸介质被安装。

附图中的流程图和示意图，图示了本实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或示意图中的每个方框可以代表一个模块、程序段或代码的一部分，上述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，示意图和/或流程图中的每个方框、以及示意和/或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

描述于本实施例中所涉及到的模块可以通过软件的方式实现，也可以通过硬件的方式来实现。所描述的模块也可以设置在处理器中，例如，可以描述为：一种处理器，包括划分模块、第一标记模块和第二标记模块。其中，这些模块的名称在某种情况下并不构成对该模块本身的限定。例如，第一标记模块还可以被描述为“第一筛选模块”。

作为另一方面，本实施例还提供了一种非易失性计算机存储介质，该非易失性计算机存储介质可以是上述实施例中上述装置中所包含的非易失性计算机存储介质，也可以是单独存在，未装配入终端中的非易失性计算机存储介质。上述非易失性计算机存储介质存储有一个或者多个程序，当上述一个或者多个程序被一个设备执行时，使得上述设备：获取风力发电机功率数据，并依据风速将获取的风力发电机功率数据划分为多个区间；对每个区间中的风力发电机功率数据进行基于四分位数法的第一次标记，以标记出每个区间中的功率值异常大的异常功率数据；对每个区间中的未标记功率数据进行基于阈值自适应设置的组内最优方差法的第二次标记，以标记出每个区间中功率值异常小的异常功率数据，得到由每个区间的未标记功率数据组成的正常功率数据。

在本发明的描述中，需要说明的是，术语“上”、“下”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。除非另有明确的规定和限定，术语“安装”、“相连”、“连接”应做广义理解，例如，可以是固定连接，也可以是可拆卸连接，或一体地连接；可以是机械连接，也可以是电连接；可以是直接相连，也可以通过中间媒介间接相连，可以是两个元件内部的连通。对于本领域的普通技术人员而言，可以根据具体情况理解上述术语在本发明中的具体含义。

还需要说明的是，在本发明的描述中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

显然，本发明的上述实施例仅仅是为清楚地说明本发明所作的举例，而并非是对本发明的实施方式的限定，对于本领域的普通技术人员来说，在上述说明的基础上还可以做出其它不同形式的变化或变动，这里无法对所有的实施方式予以穷举，凡是属于本发明的技术方案所引伸出的显而易见的变化或变动仍处于本发明的保护范围之列。

Claims

1.一种风力发电机功率数据的处理方法，其特征在于，包括：

对每个区间中的未标记功率数据进行基于阈值自适应设置的组内最优方差法的第二次标记，以标记出每个区间中功率值异常小的异常功率数据，得到由每个区间的未标记功率数据组成的正常功率数据；

2.根据权利要求1所述的方法，其特征在于，所述基于聚类算法对所述区间中的未标记数据及所述区间的已完成第二次标记的相邻区间中的正常功率数据进行聚类处理，根据所述聚类处理的结果标记出所述区间中功率值异常小的异常功率数据包括：

3.根据权利要求1或2所述的方法，其特征在于，对于所有区间的第二次标记，按区间的风速范围起始值升序排序依次进行。

4.根据权利要求3所述的方法，其特征在于，所述方法还包括：

5.根据权利要求1所述的方法，其特征在于，所述依据风速将获取的风力发电机功率数据划分为多个区间包括：将获取的风力发电机功率数据划分为风速范围0.5m/s的多个区间。

6.根据权利要求5所述的方法，其特征在于，所述预设功率阈值设置为200W。

7.一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1-6中任一项所述的方法。

8.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现如权利要求1-6中任一项所述的方法。