CN111881617B

CN111881617B - 数据处理方法、风力发电机组的性能评估方法及系统

Info

Publication number: CN111881617B
Application number: CN202010634251.0A
Authority: CN
Inventors: 成骁彬; 蒋勇; 陈晓静
Original assignee: Shanghai Electric Wind Power Group Co Ltd
Current assignee: Shanghai Electric Wind Power Group Co Ltd
Priority date: 2020-07-02
Filing date: 2020-07-02
Publication date: 2024-03-26
Anticipated expiration: 2040-07-02
Also published as: CN111881617A; WO2022001379A1

Abstract

本申请提供一种数据处理方法、风力发电机组的性能评估方法及系统。数据处理方法，用于处理SCADA系统采集的风力发电机组的SCADA数据集，包括：获取所述SCADA数据集中的至少部分数据，作为待处理数据集，所述待处理数据集包括多个数据组，每个数据组包括同一时刻下的表征不同信息的多种数据；对所述待处理数据集进行数据筛选处理，得到已处理数据集。所述对所述待处理数据集进行数据筛选处理包括至少一个数据筛选步骤，所述数据筛选步骤包括：采用聚类算法将所述待处理数据集中的数据划分为多个聚类；去除每个所述聚类中的奇异值及包括该奇异值的数据组的其他数据。

Description

数据处理方法、风力发电机组的性能评估方法及系统

技术领域

本申请涉及风力发电机领域，尤其涉及一种数据处理方法、风力发电机组的性能评估方法及系统。

背景技术

风力发电机组SCADA系统在实际生产中获取的数据常常存在大量的散点或者是形态异常，多为不同的控制策略、不同工况以及数据中异常值造成。因此，如何在风机的数据分析中对上述异常数据进行清洗，以消除SCADA数据的波动，提升SCADA数据的质量，是本领域亟待解决的问题。

发明内容

本申请提供一种数据处理方法、风力发电机组的性能评估方法及系统。

根据本申请实施例的第一方面，提供一种数据处理方法，用于处理SCADA系统采集的风力发电机组的SCADA数据集，包括：

获取所述SCADA数据集中的至少部分数据，作为待处理数据集，所述待处理数据集包括多个数据组，每个数据组包括同一时刻下的表征不同信息的多种数据；

对所述待处理数据集进行数据筛选处理，得到已处理数据集；

其中，所述对所述待处理数据集进行数据筛选处理包括至少一个数据筛选步骤，所述数据筛选步骤包括：

采用聚类算法将所述待处理数据集中的数据划分为多个聚类；及

去除每个所述聚类中的奇异值及包括该奇异值的数据组的其他数据。

可选地，所述获取所述SCADA数据集中的至少部分数据，作为待处理数据集，包括：

获取所述SCADA数据集中设定时间维度的至少部分数据，作为所述待处理数据集。

可选地，所述数据筛选步骤还包括：

去除所述待处理数据集中的为缺省值的数据及包括为缺省值的所述数据的数据组的其他数据。

可选地，所述待处理数据集包括表征所述风力发电机组的输出功率的功率数据，所述数据筛选步骤还包括：

去除所述待处理数据集中表征所述输出功率为负数的功率数据及包括该功率数据的数据组的其他数据。

可选地，所述数据筛选步骤还包括：

去除所述待处理数据集中超出报警值的数据及包括该超出报警值的数据的数据组的其他数据。

可选地，所述数据筛选步骤还包括：

采用四分位数法确定所述待处理数据集中的异常数据；

去除所述异常数据和包括该异常数据的数据组的其他数据。

可选地，所述待处理数据集包括风速数据和对应所述风速数据的表征所述风力发电机组的输出功率的功率数据，所述方法还包括：

根据所述功率数据对应的风速数据，将多个所述功率数据按照多个风速段划分为多个功率数据组；

所述采用四分位数法确定所述待处理数据集中的异常数据，包括：

采用四分位数法分别确定多个所述功率数据组中的所述异常数据。

可选地，所述聚类算法包括模糊C均值聚类算法，所述采用聚类算法将所述待处理数据集中的数据划分为多个聚类，包括：

采用模糊C均值聚类算法将所述待处理数据集中的数据划分为多个聚类。

可选地，所述去除每个所述聚类中的奇异值及包括该奇异值的数据组的其他数据，包括：

采用模糊C均值聚类算法确定每个所述聚类的中心；

确定至少一个所述聚类中的数据与对应的所述聚类的中心的欧氏距离；及

采用拉依达准则去除至少一个所述聚类中的所述欧氏距离的距离异常值，并去除所述距离异常值对应的所述奇异值。

可选地，所述采用聚类算法将所述待处理数据集中的数据划分为多个聚类之前，还包括：

对所述待处理数据集中的数据进行标准化处理，得到标准化数据；

所述采用聚类算法将所述待处理数据集中的数据划分为多个聚类，包括：

采用聚类算法将所述标准化数据划分为多个聚类。

可选地，所述去除每个所述聚类中的奇异值及包括该奇异值的数据组的其他数据之后，还包括：

对去除每个所述聚类中的奇异值及包括该奇异值的数据组的其他数据后的所述标准化数据进行逆标准化处理。

可选地，所述采用聚类算法将所述待处理数据集中的数据划分为多个聚类，包括：

采用聚类算法将所述待处理数据集中的每种数据分别划分为多个聚类。

可选地，对所述待处理数据集进行数据筛选处理之后，还包括：

若所述已处理数据集的数据的时间序列非连续，在时间序列非连续的数据之间，回填所缺失时刻的数据。

可选地，所述在时间序列非连续的数据之间，回填所缺失时刻的数据，包括：

若所述时间序列非连续的数据之前的连续多个数据的数量大于2，确定所述时间序列非连续的数据之前的连续多个数据的残差均值及方差，并基于所述残差均值和方差生成随机数，作为所缺失时刻的数据。

若所述时间序列非连续的数据之前的连续多个数据的数量不大于2，选取时间序列非连续的数据之前的时刻所对应的数据，作为所缺失时刻的数据。

根据本申请实施例的第二方面，提供一种风力发电机组的数据处理系统，包括一个或多个处理器，用于实现如上任一实施例所述的数据处理方法。

根据本申请实施例的第三方面，提供一种计算机可读存储介质，其上存储有程序，该程序被处理器执行时，实现如上任一实施例所述的数据处理方法。

根据本申请实施例的第四方面，提供一种风力发电机组的性能评估方法，包括：

通过如上任一实施例所述的数据处理方法对所述待处理数据集进行数据处理；

根据所述已处理数据集和所述待处理数据集对所述风力发电机组进行性能评估。

可选地，所述根据所述已处理数据集和所述待处理数据集对所述风力发电机组进行性能评估，进一步包括：

根据所述已处理数据集的数据量与所述待处理数据集的数据量的比值，确定所述待处理数据集的整体健康度；

根据所述待处理数据集的整体健康度与整体健康度目标阈值的大小关系，对所述风力发电机组进行性能评估，若所述待处理数据集的整体健康度小于所述整体健康度目标阈值，对所述风力发电机组的性能进行根因分析。

可选地，所述方法包括：

多个数据筛选步骤，分别对所述待处理数据集进行筛选处理，得到对应的多个子筛选数据集；及

根据所述子筛选数据集的数据量与所述待处理数据集的数据量的比值，确定对应所述数据筛选步骤的所述待处理数据集的子健康度；

所述若所述待处理数据集的整体健康度小于所述整体健康度目标阈值，对所述风力发电机组的性能进行根因分析，包括：

若所述待处理数据集的整体健康度小于所述整体健康度目标阈值，根据所述待处理数据集的整体健康度与所述待处理数据集的子健康度的比值，确定所述数据筛选步骤对应的风险值；

根据所述风险值的数值大小，选取其中的至少两个风险值对应的所述数据筛选步骤的数据，对所述风力发电机组的性能进行根因分析。

可选地，还包括：

根据所述SCADA数据集的至少部分数据，确定所述整体健康度目标阈值。

可选地，所述确定所述整体健康度目标阈值，包括：执行迭代步骤，直至满足迭代终止条件，所述迭代步骤包括：

自所述SCADA数据集中多次选取部分数据，确定每次选取的数据的子健康度，并根据所述子健康度和子更新条件，确定子健康度中间阈值；其中，所述子健康度为对应的所述筛选处理步骤处理后的数据和处理前的数据的比值；

根据所述子健康度中间阈值，确定整体健康度；

当所述整体健康度满足更新条件，将当前的整体健康度作为整体健康度中间阈值；

在满足迭代终止条件时，将当前的所述整体健康度中间阈值作为所述整体健康度目标阈值。

可选地，所述执行迭代步骤之前，还包括：自所述SCADA数据集中选取第一设定数量的数据，作为第一数据集；

所述自所述SCADA数据集中多次选取部分数据，确定每次选取的数据的子健康度，包括：

自所述第一数据集中多次选取部分数据，确定每次选取的数据的子健康度。

可选地，所述自所述第一数据集中多次选取部分数据，确定每次选取的数据的子健康度，并根据所述子健康度和子更新条件，确定子健康度中间阈值，包括：执行子迭代步骤，直至达到迭代次数，所述子迭代步骤包括：

自所述第一数据集中选取第二设定数量的数据，作为实验数据集；

根据所述多个数据筛选步骤，分别对所述实验数据集进行筛选处理，得到对应的多个筛选实验数据集；

根据所述筛选实验数据集的数据量与所述实验数据集的数据量的比值，确定对应所述数据筛选步骤的所述实验数据集的子健康度；

当所述子健康度满足所述子更新条件，将当前的子健康度作为所述子健康度中间阈值。

可选地，所述执行迭代步骤之前，还包括：

自所述第一数据集中随机选取第三设定数量的数据，作为初始数据集；

根据所述多个数据筛选步骤，对所述初始数据集进行筛选处理，得到对应的整体筛选初始数据集；

根据所述整体筛选初始数据集的数据量与所述初始数据集的数据量的比值，确定所述初始数据集的整体健康度；

根据所述多个数据筛选步骤，分别对所述初始数据集进行筛选处理，得到对应的多个筛选初始数据集；

根据所述筛选初始数据集的数据量与所述初始数据集的数据量的比值，确定对应所述数据筛选步骤的所述初始数据集的子健康度；

所述更新条件包括：所述实验数据集的当前的整体健康度小于上一个所述整体健康度中间阈值且大于第一设定阈值；其中，所述整体健康度中间阈值的初始值为所述初始数据集的整体健康度；

所述子更新条件包括：所述实验数据集的子健康度小于上一个所述子健康度中间阈值且不小于第二设定阈值，所述实验数据集的当前的整体健康度大于等于第三设定阈值；其中，所述子健康度中间阈值的初始值为所述初始数据集的子健康度。

根据本申请实施例的第五方面，提供一种风力发电机组的性能评估系统包括一个或多个处理器，用于实现如上任一实施例所述的性能评估方法。

根据本申请实施例的第六方面，提供一种计算机可读存储介质其上存储有程序，该程序被处理器执行时，实现如上任一实施例所述的性能评估方法。

根据本申请实施例提供的技术方案，通过聚类算法对SCADA数据进行分类，再对分类后的数据进行数据筛选处理，将SCADA数据中的奇异值去除，以及包括该奇异值的同一时刻的其他数据，可以减少SCADA数据中质量较差的数据，提升SCADA数据的质量。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本申请。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本申请的实施例，并与说明书一起用于解释本申请的原理。

图1是本申请一示例性实施例示出的一种数据处理方法的流程示意图。

图2是本申请一示例性实施例示出的一种数据处理方法的数据筛选步骤的流程示意图。

图3是图2所示的数据筛选步骤的细化流程示意图。

图4是本申请另一示例性实施例示出的一种数据处理方法的数据筛选步骤的流程示意图。

图5是本申请又一示例性实施例示出的一种数据处理方法的数据筛选步骤中的标准功率曲线示意图。

图6是本申请一示例性实施例示出的一种数据处理系统的系统框图。

图7是本申请一示例性实施例示出的一种性能评估方法的流程示意图。

图8至图10是图7所示性能评估方法的细化流程示意图。

图11是本申请一示例性实施例示出的一种性能评估方法的迭代步骤的流程示意图。

图12是本申请一示例性实施例示出的一种性能评估方法的子迭代步骤的流程示意图。

图13是本申请一示例性实施例示出的一种性能评估方法的初始数据的确定步骤的流程示意图。

图14是本申请一示例性实施例示出的一种性能评估系统的系统框图。

具体实施方式

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本申请相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本申请的一些方面相一致的装置和方法的例子。

在本申请使用的术语是仅仅出于描述特定实施例的目的，而非旨在限制本申请。在本申请和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式，除非上下文清楚地表示其他含义。还应当理解，本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。

应当理解，尽管在本申请可能采用术语第一、第二、第三等来描述各种信息，但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如，在不脱离本申请范围的情况下，第一信息也可以被称为第二信息，类似地，第二信息也可以被称为第一信息。取决于语境，如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。

本申请提供一种数据处理方法、风力发电机组的性能评估方法及系统。下面结合附图，对本申请的数据处理方法、风力发电机组的性能评估方法及系统进行详细说明。在不冲突的情况下，下述的实施例及实施方式中的特征可以相互组合。

参见图1所示，本申请实施例提供一种数据处理方法，用于处理SCADA系统采集的风力发电机组的SCADA数据集，所述方法包括以下步骤：

步骤S11：获取所述SCADA数据集中的至少部分数据，作为待处理数据集，所述待处理数据集包括多个数据组，每个数据组包括同一时刻下的表征不同信息的多种数据。可以理解的，SCADA数据可以包括温度、风速、功率等监测数据。同一时刻内SCADA系统采集到的全部上述数据，可以划分在同一个数据组内。SCADA系统即数据采集监控系统(SupervisoryControl And Data Acquisition)，SCADA系统可以对现场的风机进行监视和控制，以实现数据采集、设备控制、测量、参数调节以及各类信号报警等各项功能，并以适当的形式如声音、图形、图象等方式显示给用户，最终达到实时感知设备各种参数状态的效果。

步骤S12：对所述待处理数据集进行数据筛选处理，得到已处理数据集。

参见图2所示，其中，所述对所述待处理数据集进行数据筛选处理包括至少一个数据筛选步骤，所述数据筛选步骤包括：

步骤S121：采用聚类算法将所述待处理数据集中的数据划分为多个聚类。聚类算法又称群分析，它是研究(样品或指标)分类问题的一种统计分析方法，同时也是数据挖掘的一个重要算法，具有速度快，计算简便、分析准确性高等优点。在本实施例中，采用聚类算法将待处理数据集中的每笔数据分别划分为多个聚类，可以提高数据处理的准确性，进一步提高SCADA数据的质量。

步骤S122：去除每个所述聚类中的奇异值及包括该奇异值的数据组的其他数据。此数据筛选步骤以下简称为聚类筛选步骤。

通过聚类算法对SCADA数据进行分类，再对分类后的数据进行数据筛选处理，将SCADA数据中的奇异值去除，以及包括该奇异值的同一时刻的其他数据，可以减少SCADA数据中质量较差的数据，提升SCADA数据的质量。

在一些可选的实施例中，所述聚类算法包括模糊C均值聚类算法，在步骤S121中，所述采用聚类算法将所述待处理数据集中的数据划分为多个聚类，包括：采用模糊C均值聚类算法将所述待处理数据集中的数据划分为多个聚类。模糊C均值聚类算法是基于对目标函数的优化基础上的一种数据聚类方法。该算法是一种无监督的模糊聚类方法，在算法实现过程中不需要人为的干预。同时，由于增加模糊技术(fuzzy)，同一笔SCADA数据并不单独属于一个分类，同一个SCADA数据可能同时属于几个分类。因此采用这样的算法，适合风机SCADA数据的多样性的特点。

可以理解的，采用模糊C均值聚类算法将待处理数据集中的数据进行聚类划分，再去除每个所述聚类中的奇异值及包括该奇异值的数据组的其他数据，即包括该奇异值的同一时刻的其他数据，如此可以减少SCADA数据的波动，提升SCADA数据的质量。

参见图3所示，在一些可选的实施例中，在步骤S122中，所述去除每个所述聚类中的奇异值及包括该奇异值的数据组的其他数据，包括以下步骤：

步骤S1221：采用模糊C均值聚类算法确定每个所述聚类的中心。

其中，上述获取的SCADA数据以给定的数据集X＝{X₁,X₂,…,X_n}表示，聚类数目为k，m_j(j＝1,2,…,k)为每个聚类的中心，μ_j(X_i)是第i个样本对应第J类的隶属度函数，表示权重矩阵(可理解为是权重)，则基于隶属度函数的聚类损失函数可以参见下式1：

其中，表示某个数据属于各个聚类的中心的概率，这些概率之和等于1。b表示加权指数，也称为平滑因子，控制模式在模糊类间的分享程度，通常情况下b的取值为2。

令J_f对m_j和μ_j(X_i)的偏导为0，求得式1极小值的必要条件。参见下式2和式3：

采用迭代的方法求解式2和式3，直至满足收敛条件，得到最优解。

在一些实施例中，可以先随机给出一组聚类中心的值，再采用迭代的方法求解式2和式3，直至满足收敛条件，得到最优解。或是先随机给出一组权重矩阵的值，采用迭代的方法求解式2和式3，直至满足收敛条件，得到最优解。

本实施例中，假设在该算法中有10个分类，即k＝10。则通过上述方法，可以最终得到10个分类的中心点，即m₁,m₂,…,m₁₀。X₁,X₂,…,X₁₀表示为训练算法时，不同时间下获取的SCADA数据。μ就是权重，如μ₅(x₃)＝0.8，表明x₃数据属于第5个分类群的权重为0.8。需要说明的是，权重的取值一般在(0，1)范围，权重的值越大，说明该数据属于越贴近于对应分类群。J_f为目标，即算法迭代的目标函数。本实施例中，以先随机给出一组初始权重矩阵为例，并满足权重总和为1，代表每个数据属于各个聚类中心的概率之和等于1。根据初始权重矩阵通过式2求出各个中心点m，再根据求出的各个中心点m通过式3求出权重μ，如此迭代计算直到满足收敛条件。

步骤S1222：确定至少一个所述聚类中的数据与对应的所述聚类的中心的欧氏距离。

通过上述方法，可以得到多个(例如10个)模糊C均值聚类算法的中心，并且根据模糊C均值聚类算法的规则每个SCADA数据均会被进行分组。确定至少一个聚类中的数据与对应的聚类的中心的欧氏距离。在本实施例中，确定每个聚类中的数据与对应的聚类的中心的欧氏距离。可以确定所有聚类中的数据与对应的聚类的中心的欧式距离的均值和均方差。例如，确定全部的10个聚类中的数据与对应的聚类的中心的欧式距离的均值和均方差。

步骤S1223：采用拉依达准则去除至少一个所述聚类中的所述欧氏距离的距离异常值，并去除所述距离异常值对应的所述奇异值。

拉依达准则又称3-sigma准则，由于每个聚类中的数据与对应的聚类的中心的欧式距离的均值和均方差符合正态分布，采用拉依达准则通常可以将每个聚类中的数据与对应的聚类的中心的欧式距离的均值和均方差划分为三个区间，其中位于第二区间的数据可以理解为是符合要求的，位于第一区间和第三区间的数据可以理解为是不符合要求的，其中第二区间位于第一区间和第三区间之间。在本实施例中，将位于第一区间(可理解为是不超过下限的范围)的均值和均方差所对应的SCADA数据和位于第三区间(可理解为是上限以上的范围)的均值和均方差所对应的SCADA数据作为所述距离异常值，再将该距离异常值对应的SCADA数据中的奇异值去除，以及包括该奇异值的同一时刻的其他数据，可以去除数据偏差、噪声、奇异点，减少SCADA数据的波动，提升SCADA数据的质量及数据分析的准确性。可选地，第二区间的百分比为68.27％，第一区间和第三区间的百分比均为15.865％。

在一些可选的实施例中，在步骤S121采用聚类算法将所述待处理数据集中的数据划分为多个聚类之前，还可以对所述待处理数据集中的数据进行标准化处理，得到标准化数据。

通过将数据进行标准化处理，能够提高采用模糊C均值聚类算法对数据进行处理的精度。在本实施例中，通过下式4对数据进行标准化处理：

其中，data表示SCADA数据的原始数据，np.min(data)表示同类SCADA数据中的最小值，np.max(data)表示同类SCADA数据中的最大值。在步骤S121中，采用聚类算法将所述待处理数据集中的数据划分为多个聚类，包括：采用聚类算法将所述标准化数据划分为多个聚类。可选地，可以采用例如归一化等方式将待处理数据集中的数据进行标准化处理，得到标准化数据。

进一步地，采用模糊C均值聚类算法对标准化处理的数据进行处理，采用模糊C均值聚类算法对SCADA数据进行分类，再对分类后的数据进行数据筛选处理，去除每个聚类中的奇异值及包括该奇异值的数据组的其他数据之后，还可以对去除每个聚类中的奇异值及包括该奇异值的数据组的其他数据后的标准化数据进行逆标准化处理，可以理解为将经过模糊C均值聚类算法等处理后的标准化数据还原到初始格式的数据，便于后续对数据进行统计及分析评估。

在一些可选的实施例中，步骤S11中，所述获取所述SCADA数据集中的至少部分数据，作为待处理数据集，包括：获取所述SCADA数据集中设定时间维度的至少部分数据，作为所述待处理数据集。SCADA数据可以分为10min数据和30s数据两种维度的数据。其中10min数据是多个30s数据的均值。考虑到SCADA系统所监测的数据由于风速变动、风机变转速等因素所造成的缓变特性，30s数据的波动较大，可选地，本申请选用10min数据，即设定时间维度是10min，可以减小风机变转速所带来的数据波动，减小对数据分析处理的影响。此外，由于SCADA数据的种类繁多，本申请可以获取全部种类的全部数据进行数据处理，也可以获取其中一部分种类的数据进行数据处理，例如对风机影响较大的几类数据，如风速、温度、功率等数据。

在一些可选的实施例中，所述数据筛选步骤还可以包括：去除所述待处理数据集中的为缺省值的数据及包括为缺省值的所述数据的数据组的其他数据。此数据筛选步骤以下简称为去除NA步骤，NA表示缺省值。

在实际风机运行中，由于风机的地理位置可能通讯信号不佳，因此时常有信号中断的状态发生，在SCADA系统中将信号中断时的数据记录为缺省值，此数据筛选步骤的目的是去除待处理数据集中的为缺省值的数据及包括为缺省值的数据的数据组中同一时刻的其他数据，可以减少SCADA数据的波动，提升SCADA数据的质量及数据分析的准确性。

在一些可选的实施例中，所述待处理数据集包括表征所述风力发电机组的输出功率的功率数据，所述数据筛选步骤还可以包括：去除所述待处理数据集中表征所述输出功率为负数的功率数据及包括该功率数据的数据组的其他数据。此数据筛选步骤以下简称为去除负数步骤。

可以理解的，风机的切入风速是针对并网型风机而言的，是指风机达到并网条件的风速，也就是可以发电的最低风速，低于此风速风机会自动停机。风机的切出风速指风机并网发电的最大风速，超过此风速风机将切出电网，也即风机会停机，停止发电。当风机达到切入风速时，风机的发电机可以持续稳定的发电。

在实际风机运行中，由于风机检修、停机或者风速为小风天等因素，当风机没有达到切出风速时，SCADA系统中记录的SCADA数据对应的功率值即为负数，这些数据不利于后续的数据分析，此数据筛选步骤的目的是去除所述待处理数据集中表征所述输出功率为负数的功率数据及包括该功率数据的数据组中同一时刻的其他数据，可以减少SCADA数据的波动，提升SCADA数据的质量及数据分析的准确性。

在一些可选的实施例中，所述数据筛选步骤还可以包括：去除所述待处理数据集中超出报警值的数据及包括该超出报警值的数据的数据组的其他数据。此数据筛选步骤以下简称为去除超差步骤。

在实际风机运行中，每个对应的SCADA数据点位皆可有报警值设定，当监测的数据超过报警值即说明该时间段的数据为超差数据，不是正常的风机状态，不利于后续的数据分析。例如轴承温度的报警值是60°，当监测到的实际轴承温度高于60°时即判断风机状态异常，发出报警。此数据筛选步骤的目的是去除待处理数据集中超出报警值的数据及包括该超出报警值的数据的数据组中同一时刻的其他数据，可以减少SCADA数据的波动，提升SCADA数据的质量及数据分析的准确性。

参见图4所示，在一些可选的实施例中，所述数据筛选步骤还可以包括：

步骤S131：采用四分位数法确定所述待处理数据集中的异常数据。四分位数(Quartile)也称四分位点，是指在统计学中把所有数值由小到大排列并分成四等份，处于三个分割点位置的数值。其中第1四分位数Q1，即第25百分位数。第2四分位数Q2，即第50百分位数。第3四分位数Q3，即第75百分位数。可以结合Q1和Q3比较分析数据变量的趋势。

步骤S132：去除所述异常数据和包括该异常数据的数据组的其他数据。采用四分位数法确定所述待处理数据集中的异常数据，可以提高数据分析的准确性。此数据筛选步骤以下简称为四分位数筛选步骤。

在本实施例中，所述待处理数据集包括风速数据和对应所述风速数据的表征所述风力发电机组的输出功率的功率数据，所述方法还包括：根据所述功率数据对应的风速数据，将多个所述功率数据按照多个风速段划分为多个功率数据组。在步骤S131中，采用四分位数法确定所述待处理数据集中的异常数据，进一步包括：采用四分位数法分别确定多个所述功率数据组中的所述异常数据(可以理解为是功率曲线离散点)。

参见图5所示，在实际风机运行中，每个风机机型都有对应一条标准功率曲线，其横坐标为风速，单位m/s。纵坐标为输出功率，单位KW/h。例如，风速在[4.75m/s，5m/s]的风速段，对应的标准功率为400KW/h。根据功率数据对应的风速数据，将多个功率数据按照多个风速段划分为多个功率数据组，再对每个风速段，采用四分位数法分别确定对应的功率数据组中的异常数据。

其中，根据下式5和式6确定每个风速段对应的功率数据组中的上限值upper和下限值lower：

upper＝Q3+1.5*(Q3-Q1) (5)；

lower＝Q1-1.5*(Q3-Q1) (6)；

其中，Q1表示第1四分位数；Q2表示第2四分位数；Q3表示第3四分位数。

将大于该上限值和小于该下限值的功率数据作为异常数据，去除该异常数据和包括该异常数据的数据组中同一时刻的其他数据，可以减少SCADA数据的波动，提升SCADA数据的质量及数据分析的准确性。

在一些可选的实施例中，对所述待处理数据集进行数据筛选处理之后，若所述已处理数据集的数据的时间序列非连续，在时间序列非连续的数据之间，回填所缺失时刻的数据。可以理解的，在经过上述一个或多个数据筛选步骤对待处理数据集进行数据筛选处理之后，可以过滤和去除掉全部或大部分异常和不良数据，剩下质量相对较高的数据。但是剩下的数据的时间序列可能不会是连续的，此步骤的目的是对数据进行填充，得到时间序列连续的数据，便于后续对数据进行统计及分析评估。

在本实施例中，以已处理数据集中的第一条SCADA数据的时间作为基准，向后查看后续SCADA数据是否为连续，以连续间隔为10min为例，若第一条SCADA数据的时间为2020-01-01-14:00:00，第二条SCADA数据的时间为2020-01-01-14:10:00，则该条数据判为时间序列连续。若第二条SCADA数据的时间为2020-01-01-14:20:00，即超过10min，则该条数据判为时间序列非连续。

在确定了时间序列非连续的数据后，在时间序列非连续的数据之间，回填所缺失时刻的数据，可以包括以下两种情况：

若所述时间序列非连续的数据之前的连续多个数据的数量大于2，那么通过确定所述时间序列非连续的数据之前的连续多个数据的残差均值及方差，并基于随机方程生成随机数，作为所缺失时刻的数据。

若所述时间序列非连续的数据之前的连续多个数据的数量不大于2，那么选取时间序列非连续的数据之前的时刻所对应的数据，作为所缺失时刻的数据。例如，时间为2020-01-01-14:20:00的数据被判断为非连续的，该数据前只有一个时间为2020-01-01-14:00:00的数据被判断为连续的，那么选取时间为2020-01-01-14:00:00的数据，作为所缺失时刻的数据。

本申请的数据处理方法，上述一个或多个数据筛选步骤对待处理数据集进行数据筛选处理之后，可以过滤和去除掉至少大部分异常和不良数据，剩下质量相对较高的数据，可以减少SCADA数据的波动，提升SCADA数据的质量。需要说明的是，当数据处理方法包括多个数据筛选步骤时，可以将多个数据处理步骤对待处理数据集单独进行数据处理，得到各自对应的处理数据集。然后再将得到的全部处理数据集的数据合并得到所述已处理数据。或者，可以用多个数据处理步骤依次对所述待处理数据集进行数据处理，得到所述已处理数据。

参见图6所示，本申请实施例还提供一种风力发电机组的数据处理系统10，包括一个或多个处理器11，用于实现如上任一实施例所述的数据处理方法。

数据处理系统10的实施例可以应用在风力发电机组上。装置实施例可以通过软件实现，也可以通过硬件或者软硬件结合的方式实现。以软件实现为例，作为一个逻辑意义上的装置，是通过其所在风力发电机组的处理器11将非易失性存储器中对应的计算机程序指令读取到内存中运行形成的。从硬件层面而言，如图6所示，为本申请数据处理系统10所在风力发电机组的一种硬件结构图，除了图6所示的处理器11、内部总线12、内存14、网络接口13、以及非易失性存储器15之外，实施例中装置所在的风力发电机组通常根据该风力发电机的实际功能，还可以包括其他硬件，对此不再赘述。

所述处理器11可以是中央处理单元(Central Processing Unit，CPU)，还可以是其他通用处理器、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现场可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器11也可以是任何常规的处理器等。

本申请实施例还提供一种计算机可读存储介质，其上存储有程序，该程序被处理器11执行时，实现如上任一项实施例所述的数据处理方法。

所述计算机可读存储介质可以是前述任一实施例所述的风力发电机组的内部存储单元，例如硬盘或内存。所述计算机可读存储介质也可以是风力发电机的外部存储设备，例如所述设备上配备的插接式硬盘、智能存储卡(Smart Media Card，SMC)、SD卡、闪存卡(Flash Card)等。进一步的，所述计算机可读存储介质还可以既包括风力发电机组的内部存储单元也包括外部存储设备。所述计算机可读存储介质用于存储所述计算机程序以及所述风力发电机组所需的其他程序和数据，还可以用于暂时地存储已经输出或者将要输出的数据。

参见图7所示，本申请实施例还提供一种风力发电机组的性能评估方法，包括以下步骤：

步骤S21：通过如上任一实施例所述的数据处理方法对所述待处理数据集进行数据处理。

步骤S22：根据所述已处理数据集和所述待处理数据集对所述风力发电机组进行性能评估。

需要说明的是，上述实施例和实施方式中，关于数据处理方法的描述，同样适用于本申请的性能评估方法。

本申请的性能评估方法，采用通过上述数据处理方法筛选处理后的数据作为性能评估的参考数据，上述一个或多个数据筛选步骤对待处理数据集进行数据筛选处理之后，数据质量相对较高，可以提高性能评估的准确性，更准确的分析得到风机异常或故障的原因。

参见图8所示，在一些可选的实施方式中，在步骤S22中，根据所述已处理数据集和所述待处理数据集对所述风力发电机组进行性能评估，进一步包括：

步骤S221：根据所述已处理数据集的数据量与所述待处理数据集的数据量的比值，确定所述待处理数据集的整体健康度。在本实施例中，数据处理方法包括上述的全部数据筛选步骤。可以将全部数据处理步骤对待处理数据集单独进行数据处理，得到各自对应的处理数据集。然后再将得到的全部处理数据集的数据合并得到所述已处理数据。或者，可以将多个数据处理步骤依次对所述待处理数据集进行数据处理，得到所述已处理数据。

实际应用中，假设待处理数据集的原始数据的数据量为K个，经过全部数据筛选步骤处理后的已处理数据集的数据量为d个，通过式7计算得到待处理数据集的整体健康度H。

H＝d/K (7)。

需要说明的是，式7可以扩展应用到其他需要计算整体健康度的数据集的使用场景中，即假设数据集的原始数据的数据量为K个，经过全部数据筛选步骤处理后的剩余的数据量为d个，那么均可以采用式7计算该数据集的整体健康度。

步骤S222：根据所述待处理数据集的整体健康度与整体健康度目标阈值的大小关系，对所述风力发电机组进行性能评估，若所述待处理数据集的整体健康度小于所述整体健康度目标阈值，对所述风力发电机组的性能进行根因分析。

实际应用中，根据常见的工业要求将整体健康度目标阈值设定为0.9进行监控，即数据质量健康为90％。也能根据不同的场景进行阈值的设定，本申请对比不作限定。如果待处理数据集的整体健康度大于等于0.9，说明数据质量符合要求。如果待处理数据集的整体健康度小于0.9，说明数据质量不符合要求，需要对风力发电机组的性能进行根因分析。

参见图9所示，在一些可选的实施例中，所述性能评估方法包括：

步骤31：多个数据筛选步骤，分别对所述待处理数据集进行筛选处理，得到对应的多个子筛选数据集。

步骤32：根据所述子筛选数据集的数据量与所述待处理数据集的数据量的比值，确定对应所述数据筛选步骤的所述待处理数据集的子健康度。

实际应用中，假设待处理数据集的原始数据的数据量为K个，经过一个数据筛选步骤处理后剩下的数据的数据量为k个，通过式8计算得到待处理数据集的子健康度H_n。

H_n＝k/K (8)；

其中n为自然数。H_n介于于0-1之间，当数值为1时，说明本数据筛选步骤没有去除任何数据，数据质量高。根据上述式8，可以分别计算得到待处理数据集分别经过去除NA步骤、去除负数步骤、去除超差步骤、四分位数筛选步骤以及聚类筛选步骤后对应的子健康度H1、H2、H3、H4、H5。

需要说明的是，式8可以扩展应用到其他需要计算子健康度的数据集的使用场景中，即假设数据集的原始数据的数据量为K个，经过一个数据筛选步骤处理后的剩余的数据量为k个，那么均可以采用式8计算该数据集经过该数据筛选步骤后的子健康度。

参见图10所示，上述步骤S222，若所述待处理数据集的整体健康度小于所述整体健康度目标阈值，对所述风力发电机组的性能进行根因分析，进一步包括：

步骤S2221：若所述待处理数据集的整体健康度小于所述整体健康度目标阈值，根据所述待处理数据集的整体健康度与所述待处理数据集的子健康度的比值，确定所述数据筛选步骤对应的风险值。

实际应用中，根据常见的工业要求将整体健康度目标阈值设定为0.9进行监控，即数据质量健康为90％。如果待处理数据集的整体健康度大于等于0.9，说明数据质量符合要求。如果待处理数据集的整体健康度小于0.9，说明数据质量不符合要求，需要对风力发电机组的性能进行根因分析。通过式9计算得到各数据筛选步骤对应的风险值R_n。

R_n＝100*(H/H_n) (9)；

其中n为自然数。根据上述式9，可以分别计算得到待处理数据集分别经过去除NA步骤、去除负数步骤、去除超差步骤、四分位数筛选步骤以及聚类筛选步骤后对应的风险值R1、R2、R3、R4、R5。

步骤S2222：根据所述风险值的数值大小，选取其中的至少两个风险值对应的所述数据筛选步骤的数据，对所述风力发电机组的性能进行根因分析。

在本实施例中，整体健康度目标阈值为0.9，待处理数据集的整体健康度H＝0.5，H1＝1，H2＝0.1，H3＝0.5，H4＝0.1，H5＝1，由于处理数据集的整体健康度H没有达到整体健康度目标阈值0.9，则需要对风力发电机组的性能进行根因分析。根据上述式9，可以分别计算得到R1＝50、R2＝500、R3＝100、R4＝100、R5＝50。按风险值的得分，取前三项目最大值进行分析，在本实施例中R2、R3、R4为高风险项目，对应根因分析如下：

H2对应的根因分析为：功率负数数据太多，造成停机频次太长。

H3对应的根因分析为：超过报警点的数据过多，造成部件状态不佳。

H4对应的根因分析为：功率曲线离散点过多，造成发电量状态不稳定。

在其他例子中，R1和R5为高风险项目，对应根因分析如下：

H1对应的根因分析为：数据缺省值过多，造成通讯不良。

H5对应的根因分析为：人工智能算法离散点过多，造成数据质量不稳定/或模型需要更新。

在一些可选的实施例中，所述性能评估方法还可以包括：根据所述SCADA数据集的至少部分数据，确定所述整体健康度目标阈值。对于风场实际来说，盲目得设定一个定阈值，由于风机数据的波动性，往往会造成过多的误报(false alarm)，因此需要确定整体健康度目标阈值，并根据实际情况实时更新该整体健康度目标阈值。

其中，所述确定所述整体健康度目标阈值，包括：执行迭代步骤，直至满足迭代终止条件，参见图11所示，所述迭代步骤包括：

步骤41：自所述SCADA数据集中多次选取部分数据，对选取的数据进行上述数据筛选步骤后确定每次选取的数据的子健康度，并根据所述子健康度和子更新条件，确定子健康度中间阈值。其中，所述子健康度为对应的所述筛选处理步骤处理后的数据和处理前的数据的比值，可以扩展应用上述式8确定每次选取的数据的子健康度。在本实施例中，自所述SCADA数据集中多次选取部分数据，可以是实施100次。

步骤42：根据所述子健康度中间阈值，确定对应的整体健康度，可以扩展应用上述式7确定每次选取的数据的整体健康度。

假设选取的数据的原始数据量为K个，经过去除NA步骤、去除负数步骤、去除超差步骤、四分位数筛选步骤以及聚类筛选步骤后剩余的数据的数量分别为K1、K2、K3、K4、K5个，那么每个步骤中被去除的数据的数据量即为K-K1、K-K2、K-K3、K-K4、K-K5个，那么经过全部数据筛选步骤处理被去除的数据的数据量为5K-K1-K2-K3-K4-K5个，那么扩展应用上述式7确定每次选取的数据的整体健康度，即为H＝(5K-K1-K2-K3-K4-K5)/K。

步骤43：当所述整体健康度满足更新条件，将当前的整体健康度作为整体健康度中间阈值。其中，所述更新条件容下详述。

步骤44：在满足迭代终止条件时，将当前的所述整体健康度中间阈值作为所述整体健康度目标阈值。可选地，迭代终止条件可以是迭代次数，本实施例中的迭代次数为10次，也可以根据实际需要设定迭代次数。

为了提高数据分析的准确性，在执行迭代步骤之前，还可以包括：自所述SCADA数据集中选取第一设定数量的数据，作为第一数据集。可选地，第一设定数量可以是SCADA系统3个月所采集的30000笔数据，即第一数据集包括SCADA系统3个月所采集的30000笔数据。

在步骤S41中，自所述SCADA数据集中多次选取部分数据，确定每次选取的数据的子健康度，包括：自所述第一数据集中多次选取部分数据，确定每次选取的数据的子健康度。可以理解的，在第一数据集的30000笔数据中100次选取部分数据，并确定每次选取的数据的子健康度。

进一步地，上述自所述第一数据集中多次选取部分数据，确定每次选取的数据的子健康度，并根据所述子健康度和子更新条件，确定子健康度中间阈值，包括：执行子迭代步骤，直至达到迭代次数。在本实施例中，迭代次数为100次，也可以根据实际需要设定迭代次数。

参见图12所示，所述子迭代步骤包括：

步骤51：自所述第一数据集中选取第二设定数量的数据，作为实验数据集。在本实施例中，第二设定数量为300笔数据。即在第一数据集的30000笔数据中随机选取300笔数据，作为初始数据集。

步骤52：根据所述多个数据筛选步骤，分别对所述实验数据集进行筛选处理，得到对应的多个筛选实验数据集。

步骤53：根据所述筛选实验数据集的数据量与所述实验数据集的数据量的比值，确定对应所述数据筛选步骤的所述实验数据集的子健康度。可选地，可以扩展应用上述式8确定实验数据集的子健康度。

步骤54：当所述子健康度满足所述子更新条件，将当前的子健康度作为所述子健康度中间阈值。其中，所述子更新条件容下详述。

参见图13所示，对更新条件和所述子更新条件进行详细说明，在执行迭代步骤之前，还包括初始数据的确定步骤，所述初始数据包括整体健康度中间阈值的初始值和子健康度中间阈值的初始值。所述初始数据的确定步骤包括：

步骤S61：自所述第一数据集中随机选取第三设定数量的数据，作为初始数据集。在本实施例中，第三设定数量为1000笔数据。即在第一数据集的30000笔数据中随机选取1000笔数据，作为初始数据集。

步骤S62：根据所述多个数据筛选步骤，对所述初始数据集进行筛选处理，得到对应的整体筛选初始数据集。

步骤S63：根据所述整体筛选初始数据集的数据量与所述初始数据集的数据量的比值，确定所述初始数据集的整体健康度。可选地，可以扩展应用上述式7确定初始数据集的子健康度。

步骤S64：根据所述多个数据筛选步骤，分别对所述初始数据集进行筛选处理，得到对应的多个筛选初始数据集。

步骤S65：根据所述筛选初始数据集的数据量与所述初始数据集的数据量的比值，确定对应所述数据筛选步骤的所述初始数据集的子健康度。可选地，可以扩展应用上述式8确定初始数据集的子健康度。

所述更新条件包括：所述实验数据集的当前的整体健康度小于上一个所述整体健康度中间阈值且大于第一设定阈值。其中，所述整体健康度中间阈值的初始值为所述初始数据集的整体健康度。可选地，所述第一设定阈值为0.7，也可以根据实际需要设定。

所述子更新条件包括：所述实验数据集的子健康度小于上一个所述子健康度中间阈值且不小于第二设定阈值，所述实验数据集的当前的整体健康度大于等于第三设定阈值。其中，所述子健康度中间阈值的初始值为所述初始数据集的子健康度。可选地，所述第二设定阈值为0.7，第三设定阈值为0.9，也可以根据实际需要设定。

在一实施例中，第一数据集为30000笔数据，第三设定数量为1000笔，先从第一数据集的30000笔数据中随机选取1000笔数据，作为初始数据集。扩展应用上述式7和式8，计算得到初始数据集的整体健康度和子健康度，记为(H1,H2,H3,H4,H5,H)初始值，第一设定阈值设定为0.7，第二设定阈值为0.7，第三设定阈值为0.9。那么，所述子健康度中间阈值的初始值为所述初始数据集的子健康度，即(H1,H2,H3,H4,H5)初始值。所述整体健康度中间阈值的初始值为所述初始数据集的整体健康度，即H初始值。

然后自第一数据集的30000笔数据中随机选取300笔数据，作为实验数据集。扩展应用上述式7和式8，计算得到实验数据集的整体健康度和子健康度，记为(H1,H2,H3,H4,H5,H)。当所述子健康度满足所述子更新条件，即(H1,H2,H3,H4,H5)小于(H1,H2,H3,H4,H5)初始值且不小于0.7，H大于等于0.9时，将该实验数据集的子健康度(H1,H2,H3,H4,H5)替换初始数据集的子健康度(H1,H2,H3,H4,H5)初始值，作为最新的子健康度中间阈值，完成一次子迭代步骤。重复此步骤100次，令当前的实验数据集的子健康度(H1,H2,H3,H4,H5)_new稳定。在此过程中，均根据上述步骤42，即根据所述子健康度中间阈值，确定对应的整体健康度H_new。

然后根据上述步骤43，当所述整体健康度满足更新条件，即0.7<H<0.9时，将当前的整体健康度H_new作为整体健康度中间阈值。重复此步骤10次，结束迭代步骤，将当前的整体健康度中间阈值作为所述整体健康度目标阈值。

本申请通过上述方法，形成一种两步的交互式自适应阈值法，实时更新风机的SCADA数据的整体健康度目标阈值，适应风机的工作特性，减少误报次数。可以理解的，假设整体健康度目标阈值的初始设定为0.9，若风机运行初期即监测出整体健康度目标阈值小于0.9，则发出警报需要对风机进行检修。随着风机的零部件老化等特性，结合利用上述两步的交互式自适应阈值法，整体健康度目标阈值会逐渐降低，允许风机的性能有所下降，但是仍需满足下限值为0.7，当监测出整体健康度目标阈值小于0.7时，再发出警报对风机进行检修，可以减小误报以及节省人力。

参见图14所示，本申请实施例还提供一种风力发电机组的性能评估系统20，包括一个或多个处理器21，用于实现如上任一实施例所述的性能评估方法。

性能评估系统20的实施例可以应用在风力发电机组上。装置实施例可以通过软件实现，也可以通过硬件或者软硬件结合的方式实现。以软件实现为例，作为一个逻辑意义上的装置，是通过其所在风力发电机组的处理器21将非易失性存储器中对应的计算机程序指令读取到内存中运行形成的。从硬件层面而言，如图14所示，为本申请性能评估系统20所在风力发电机组的一种硬件结构图，除了图14所示的处理器21、内部总线22、内存24、网络接口23、以及非易失性存储器25之外，实施例中装置所在的风力发电机组通常根据该风力发电机的实际功能，还可以包括其他硬件，对此不再赘述。

所述处理器21可以是中央处理单元(Central Processing Unit，CPU)，还可以是其他通用处理器、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现场可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器21也可以是任何常规的处理器等。

本申请实施例还提供一种计算机可读存储介质，其上存储有程序，该程序被处理器11执行时，实现如上任一项实施例所述的性能评估方法。

以上所述仅为本申请的较佳实施例而已，并不用以限制本申请，凡在本申请的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本申请保护的范围之内。

Claims

1.一种风力发电机组的性能评估方法，其特征在于，包括：

通过数据处理方法对待处理数据集进行数据筛选处理，得到已处理数据集，所述待处理数据集根据获取的SCADA数据集中的至少部分数据确定；

根据所述已处理数据集和所述待处理数据集对所述风力发电机组进行性能评估；

所述根据所述已处理数据集和所述待处理数据集对所述风力发电机组进行性能评估，进一步包括：

多个数据筛选步骤，分别对所述待处理数据集进行筛选处理，得到对应的多个子筛选数据集；

若所述待处理数据集的整体健康度小于整体健康度目标阈值，根据所述待处理数据集的整体健康度与所述待处理数据集的子健康度的比值，确定所述数据筛选步骤对应的风险值；

2.如权利要求1所述的方法，其特征在于，所述根据所述已处理数据集和所述待处理数据集对所述风力发电机组进行性能评估，进一步包括：

3.如权利要求1所述的方法，其特征在于，还包括：

4.如权利要求3所述的方法，其特征在于，所述确定所述整体健康度目标阈值，包括：

执行迭代步骤，直至满足迭代终止条件，所述迭代步骤包括：

根据所述子健康度中间阈值，确定整体健康度；

5.如权利要求4所述的方法，其特征在于，所述执行迭代步骤之前，还包括：自所述SCADA数据集中选取第一设定数量的数据，作为第一数据集；

6.如权利要求5所述的方法，其特征在于，所述自所述第一数据集中多次选取部分数据，确定每次选取的数据的子健康度，并根据所述子健康度和子更新条件，确定子健康度中间阈值，包括：执行子迭代步骤，直至达到迭代次数，所述子迭代步骤包括：

7.如权利要求6所述的方法，其特征在于，所述执行迭代步骤之前，还包括：

8.如权利要求1所述的方法，其特征在于，所述数据处理方法用于处理SCADA系统采集的风力发电机组的SCADA数据集，

所述数据处理方法，包括：

9.如权利要求8所述的方法，其特征在于，所述获取所述SCADA数据集中的至少部分数据，作为待处理数据集，包括：

10.如权利要求8所述的方法，其特征在于，所述数据筛选步骤还包括：

11.如权利要求1所述的方法，其特征在于，所述待处理数据集包括表征所述风力发电机组的输出功率的功率数据，所述数据筛选步骤还包括：

12.如权利要求8所述的方法，其特征在于，所述数据筛选步骤还包括：

13.如权利要求8所述的方法，其特征在于，所述数据筛选步骤还包括：

采用四分位数法确定所述待处理数据集中的异常数据；

去除所述异常数据和包括该异常数据的数据组的其他数据。

14.如权利要求13所述的方法，其特征在于，所述待处理数据集包括风速数据和对应所述风速数据的表征所述风力发电机组的输出功率的功率数据，所述方法还包括：

15.如权利要求8所述的方法，其特征在于，所述聚类算法包括模糊C均值聚类算法，所述采用聚类算法将所述待处理数据集中的数据划分为多个聚类，包括：

16.如权利要求15所述的方法，其特征在于，所述去除每个所述聚类中的奇异值及包括该奇异值的数据组的其他数据，包括：

采用模糊C均值聚类算法确定每个所述聚类的中心；

17.如权利要求8或15所述的方法，其特征在于，所述采用聚类算法将所述待处理数据集中的数据划分为多个聚类之前，还包括：

采用聚类算法将所述标准化数据划分为多个聚类。

18.如权利要求17所述的方法，其特征在于，所述去除每个所述聚类中的奇异值及包括该奇异值的数据组的其他数据之后，还包括：

19.如权利要求8所述的方法，其特征在于，所述采用聚类算法将所述待处理数据集中的数据划分为多个聚类，包括：

20.如权利要求8所述的方法，其特征在于，对所述待处理数据集进行数据筛选处理之后，还包括：

21.如权利要求20所述的方法，其特征在于，所述在时间序列非连续的数据之间，回填所缺失时刻的数据，包括：

22.如权利要求21所述的方法，其特征在于，所述在时间序列非连续的数据之间，回填所缺失时刻的数据，包括：

23.一种风力发电机组的数据处理系统，其特征在于，包括一个或多个处理器，用于实现如权利要求8-22中任一项所述的数据处理方法。

24.一种计算机可读存储介质，其特征在于，其上存储有程序，该程序被处理器执行时，实现如权利要求8-22中任一项所述的数据处理方法。

25.一种风力发电机组的性能评估系统，其特征在于，包括一个或多个处理器，用于实现如权利要求1-7中任一项所述的性能评估方法。

26.一种计算机可读存储介质，其特征在于，其上存储有程序，该程序被处理器执行时，实现如权利要求1-7中任一项所述的性能评估方法。