CN115600119A

CN115600119A - 适用于风力发电的数据处理方法及系统

Info

Publication number: CN115600119A
Application number: CN202211592281.5A
Authority: CN
Inventors: 卜庆凯
Original assignee: Qingdao Zuo'an Data Technology Co ltd
Current assignee: Qingdao Zuo'an Data Technology Co ltd
Priority date: 2022-12-13
Filing date: 2022-12-13
Publication date: 2023-01-13
Anticipated expiration: 2042-12-13
Also published as: CN115600119B

Abstract

本发明涉及数据处理技术领域，具体涉及一种适用于风力发电的数据处理方法及系统，该方法包括：获取风电机组的风速数据以及功率数据；获取目标数据点的邻域数据点在散点图中的分布方向混乱程度，获取每个目标数据点的邻域数据点在散点图中的堆积度，获取目标数据点隶属于每个聚类中心的隶属度影响因子，进行C均值聚类，并获取正常数据点。本发明自适应获取均值聚类算法的隶属度影响因子，从而使得在基于隶属度影响因子利用均值聚类算法进行数据点聚类时，提高分类的精度，实现了正常数据点的精确获取。

Description

适用于风力发电的数据处理方法及系统

技术领域

本发明涉及数据处理技术领域，具体涉及一种适用于风力发电的数据处理方法及系统。

背景技术

在风力发电的过程中，由于风向和风速是随机变化的，因此，产生的风电功率具有随机性和波动性，在现有技术中往往是通过实测的风速和功率获取风电功率曲线来评估风电机组的运行状况。然而在风电场运行过程中，由于风电机组设备以及噪声的影响，会产生大量的异常数据，若对这些异常数据不进行剔除，直接利用获得的数据来对风电机组的运行状况评估，会使得评估产生较大的误差，因此，在进行风电机组的运行状况评估前，需要将数据中的异常数据剔除，以得到精准的数据。

然而，风电数据的异常数据点主要为三类：一类为距离正常数据较近的离散数据点，一类为距离正常数据较远的离散数据点，一类为中部堆积型数据点，故风电数据中的异常数据点的原因不同，其造成的数据分布特征也不同，在利用C均值聚类算法中的隶属度影响因子来对数据点进行分类时，利用固定的隶属度影响因子在数据中的异常数据点和正常数据点区分时会产生误差，使得正常的数据点、异常数据点分类错误，从而导致得到的正常数据并不准确。

发明内容

本发明提供一种适用于风力发电的数据处理方法及系统，以解决现有的C均值聚类算法会使得正常的数据点、异常数据点分类错误，从而导致得到的正常数据并不准确的问题。

本发明的一种适用于风力发电的数据处理方法采用如下技术方案：

获取风电机组的风速数据以及功率数据；

根据风速数据以及功率数据获取风速－功率的散点图；

以散点图中每个数据点为目标数据点，获取目标数据点在其每个不同方向上的每两个相邻数据点的第一欧式距离，根据所有方向上对应的第一欧式距离获取目标数据点的邻域数据点在散点图中的分布方向混乱程度；

预设每个目标数据点的纵坐标值波动范围，获取纵坐标值波动范围内的每个数据点与其所在的纵坐标轴方向上的其他数据点的欧氏距离的第一均值，获取每个目标数据点与其纵坐标轴方向上的每个数据点的欧氏距离的第二均值，根据第一均值、第二均值及预设的纵坐标值波动范围内的数据点的数量获取每个目标数据点的邻域数据点在散点图中的堆积度；

获取数据点隶属于均值聚类算法的每个聚类中心的隶属度，根据堆积度、分布方向混乱程度、目标数据点与其邻域数据点的第二欧式距离、目标数据点的邻域数据点隶属于每个聚类中心的隶属度、目标数据点的邻域数据点与每个聚类中心的第三欧式距离获取目标数据点隶属于每个聚类中心的隶属度影响因子；

根据隶属度影响因子获取均值聚类的目标函数，根据均值聚类的目标函数对所有数据点进行聚类得到多个最终聚类，根据最终聚类中数据点个数获取正常数据点。

优选的，在计算目标数据点隶属于每个聚类中心的隶属度影响因子之前，包括：

获取目标数据点的邻域数据点对应的分布方向混乱程度与在目标数据点的邻域数据点为目标数据点时对应的邻域数据点对应的分布方向混乱程度之间的分布方向混乱程度差值；

根据第二欧式距离、分布方向混乱程度差值绝对值获取目标数据点的邻域数据点在目标数据点的邻域内的参与度；

根据参与度获取目标数据点的邻域数据点中的目标邻域数据点；

将目标邻域数据点作为获取目标数据点隶属于每个聚类中心的隶属度影响因子时的邻域数据点。

优选的，对预设的第二欧式距离权重与第二欧式距离的乘积、分布方向混乱程度差值权重与分布方向混乱程度差值绝对值的乘积进行求和，根据求和后的和值的倒数得到目标数据点的邻域数据点在目标数据点的邻域内的参与度。

优选的，目标数据点隶属于每个聚类中心的隶属度影响因子的计算公式：

式中，

表示第

个目标数据点

隶属于第

个聚类的聚类中心

的隶属度影响因子；

表示第

个目标数据点

对应的邻域数据点的堆积度；

表示第

个目标数据点

对应的邻域数据点的分布方向混乱程度；

表示第

个目标数据点

的邻域中第

个邻域数据点

与第

个聚类的聚类中心

的第三欧式距离；

表示第

个目标数据点

的邻域中第

个邻域数据点

的隶属于第

个聚类的聚类中心的隶属度；

表示第

个聚类的聚类中心；

表示模糊加权指数；

表示第

个目标数据点

与其邻域中第

个邻域数据点

的第二欧式距离；

表示第

个目标数据点

的邻域中的邻域数据点的个数。

优选的，获取目标数据点的邻域数据点在散点图中的分布方向混乱程度包括：

根据在目标数据点的每个方向上的每两个相邻数据点的第一欧式距离获取目标数据点的邻域数据点在目标数据点的每个方向上的分布度；

根据目标数据点在所有方向上的分布度获取分布度熵值，并将分布度熵值作为目标数据点的邻域数据点在散点图中的分布方向混乱程度。

优选的，获取目标数据点的邻域数据点在目标数据点的每个方向上的分布度包括：

以目标数据点为起始点，以起始点在散点图中的每个方向上最后一个数据点为终止点，得到在目标数据点的每个方向上数据点的总数；

获取在目标数据点的每个方向上的所有相邻数据点的第一欧式距离的均值；

根据目标数据点的每个方向上数据点的总数与其在对应方向上的第一欧式距离的均值的倒数的乘积得到目标数据点在每个方向上的邻域数据点的分布度。

优选的，获取每个目标数据点的邻域数据点在散点图中的堆积度包括：

获取每个数据点对应的第一均值与目标数据点对应的第二均值的均值比值，并得到均值比值与1的差值绝对值；

获取目标数据点的纵坐标值波动范围内所有数据点与目标数据点对应差值绝对值的均值；

对差值绝对值的均值进行负相关计算得到每个目标数据点的邻域数据点在散点图中的堆积度。

优选的，预设每个目标数据点的纵坐标值波动范围包括：

将目标数据点的纵坐标值减去预设的纵坐标值阈值作为纵坐标值波动范围的最小值；

将目标数据点的纵坐标值加上预设的纵坐标值阈值作为纵坐标值波动范围的最大值；

根据纵坐标值波动范围的最小值和纵坐标值波动范围的最大值得到每个目标数据点的预设的纵坐标值波动范围。

优选的，将数据点个数最多的最终聚类中的数据点记为正常数据点，除数据点个数最多的最终聚类外的其他最终聚类对应数据点记为异常数据点，并对异常数据点进行剔除。

本发明还提供一种适用于风力发电的数据处理系统，包括：

数据采集模块，用于获取风电机组的风速数据以及功率数据；

第一参数计算模块，用于根据风速数据以及功率数据获取风速－功率的散点图；以散点图中每个数据点为目标数据点，获取目标数据点在其每个不同方向上的每两个相邻数据点的第一欧式距离，根据所有方向上对应的第一欧式距离获取目标数据点的邻域数据点在散点图中的分布方向混乱程度；

第二参数计算模块，用于预设每个目标数据点的纵坐标值波动范围，获取纵坐标值波动范围内的每个数据点与其所在的纵坐标轴方向上的其他数据点的欧氏距离的第一均值，获取每个目标数据点与其纵坐标轴方向上的每个数据点的欧氏距离的第二均值，根据第一均值、第二均值及预设的纵坐标值波动范围内的数据点的数量获取每个目标数据点的邻域数据点在散点图中的堆积度；

影响因子修正模块，用于获取数据点隶属于均值聚类算法的每个聚类中心的隶属度，根据堆积度、分布方向混乱程度、目标数据点与其邻域数据点的第二欧式距离、目标数据点的邻域数据点隶属于每个聚类中心的隶属度、目标数据点的邻域数据点与每个聚类中心的第三欧式距离获取目标数据点隶属于每个聚类中心的隶属度影响因子；

数据点筛选模块，用于根据隶属度影响因子获取均值聚类的目标函数，根据均值聚类的目标函数对所有数据点进行聚类得到多个最终聚类，根据最终聚类中数据点个数获取正常数据点。

本发明的一种适用于风力发电的数据处理方法及系统的有益效果是：

通过对风电机组的风速数据以及功率数据的风速－功率的散点图中的数据点进行分析得到数据点的类型，然后基于数据点的邻域数据点在散点图中的分布方向混乱程度及堆积度来对均值聚类算法的隶属度影响因子进行修正，即通过分析在目标数据点多个方向中的每个方向上每两个相邻数据点的第一欧氏距离，然后基于所有方向上的第一欧氏距离获取表征目标数据点的邻域内的邻数据点的分布度的分布方向混乱程度，结合目标数据点与其他数据点上在纵坐标轴方向上的数据点的相似性来表征目标数据点的邻域数据点的堆积度，由于数据点的局部邻域数据点距离聚类中心的欧式距离以及局部邻域数据点对于聚类中心的隶属度均为影响均值聚类算法的隶属度影响因子的影响参数，且对于正常数据点其邻域内邻域数据点多且每个方向都有分布，而对于异常数据点其邻域数据点在方向分布比较单一，即分布方向混乱程度较小，其且堆积度较大，其次，异常数据点的邻域数据点的隶属度参数对隶属度影响因子的影响也越大，故以堆积度与分布方向混乱程度来自适应的得到每个数据点的隶属度影响因子，进而基于自适应的隶属度影响因子获取均值聚类的目标函数，基于均值聚类的目标函数对数据点进行均值聚类，实现精确分类，进而保证异常数据点准确的从所有数据点中剔除，实现了正常数据点的精确获取。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明的一种适用于风力发电的数据处理方法的实施例的流程图；

图2为本发明的一种适用于风力发电的数据处理方法的实施例中的风速－功率的散点图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明的一种适用于风力发电的数据处理方法的实施例，如图1所示，本实施例具体包括：

S1、获取风电机组的风速数据以及功率数据；

具体的，从风电场的风电机组的系统中采集风电机组的一个月内的运行数据中的风速数据以及功率数据，其中，本实施例中预设时间为一个月，也可以是两个月，具体的可根据实际情况选择预设时间，且在采集过程中保证风电场机组的其他基本参数固定不变。

S2、获取目标数据点的邻域数据点在散点图中的分布方向混乱程度；

在风电机组的数据的处理中，由于产生风电数据的异常数据点的原因不同造成的数据分布特征不同，若仅考虑C均值聚类算法中局部邻域数据点的距离和隶属度，来进行隶属度影响因子的计算时会产生较大的误差，故在隶属度影响因子计算时需要考虑不同的风电数据异常数据点的位置分布特征。

具体的，根据风速数据以及功率数据获取风速－功率的散点图；以散点图中每个数据点为目标数据点，获取在目标数据点的每个方向上的每两个相邻数据点的第一欧式距离，根据所有方向上对应的第一欧式距离获取目标数据点的邻域数据点在散点图中的分布方向混乱程度。

其中，获取目标数据点的邻域数据点在散点图中的分布方向混乱程度包括：

先构建以风速数据为横坐标、功率数据为纵坐标的风速－功率的散点图，风速－功率的散点图如图2所示，从图2中，可得到风电数据异常产生的异常数据点主要为三类：一类为距离正常数据较近的离散数据点，一类为距离正常数据较远的离散数据点，一类为中部堆积型数据点，然后以散点图中每个数据点作为目标数据点，预设每个目标数据点的方向，即本实施例中，以散点图中的第

个数据点为目标数据点，以该目标数据点为起始点设定36个方向（为了方便计算36个方向限制为0-360°，每个方向的夹角相差10°。其中，具体的角度方向可根据实施者具体实施情况而定，本案给出的为经验参考值），在目标数据点的36 个方向上，将散点图中目标数据点与36个方向上的最后一个数据点进行连接，获取每个方向上数据点的个数以及相邻数据点之间的第一欧式距离，然后根据方向上对应的第一欧式距离获取目标数据点的邻域数据点在散点图中的分布方向混乱程度。

具体的，获取目标数据点的邻域数据点在散点图中的分布方向混乱程度时，先根据在目标数据点的每个方向上的每两个相邻数据点的第一欧式距离获取目标数据点在每个方向上的分布度；根据目标数据点在所有方向上的分布度获取分布度熵值，并将分布度熵值作为数据点在散点图中的分布方向混乱程度，其中，获取目标数据点的邻域数据点在目标数据点的每个方向上的分布度包括：以目标数据点为起始点，以起始点在散点图中的每个方向上最后一个数据点为终止点，得到在目标数据点的每个方向上其他数据点的总数及相邻两个数据点组成的数据组的个数；获取在目标数据点的每个方向上数据点的总数与相邻两个数据点组成的数据组的个数的数量乘积；获取在目标数据点的每个方向上的所有数据组的第一欧式距离的和值；根据数量乘积与在目标数据点的对应方向上的第一欧式距离的和值的比值得到目标数据点的邻域数据点在目标数据点的每个方向上的分布度，分布度计算公式为：

式中，

表示目标数据点在第

个方向上的分布度；

表示以目标数据点为起始点，在目标数据点的第

个方向上其他数据点的个数；

表示在目标数据点的第

个方向上目标数据点和其他数据点的总个数；

表示在目标数据点的第

个方向上，第

个数据点和相邻的第

个数据点之间的第一欧式距离，其中，在

=1时，即第

个数据点为目标数据点；

表示线性归一化函数，归一化是为了方便后续计算；

需要说明的是，

表示在目标数据点的第

个方向上相邻两个数据点组成的数据组的个数，通过计算目标数据点的各个方向的数据点的个数，以及各个方向上相邻数据点之间的欧式距离均值，若每个方向上的数据点的个数越多，且该方向上相邻数据点之间的欧式距离均值的倒数越大，则表明该方向上的数据点分布度较大，若方向上的数据点的个数越少，且该方向上相邻数据点之间的欧式距离均值的倒数越小，则表明该方向上的数据点分布度较小。

其中，目标数据点在散点图中的分布方向混乱程度（分布度熵值）的计算公式为：

式中，

表示第

个目标数据点

的邻域数据点的分布方向混乱程度；

表示第

个方向的分布度在所有分布度中出现的概率，即先获取所有分布度中相同的分布度归为一类，每类分布度中的分布度个数与所有方向的分布度值的总个数的占比即为分布度在所有分布度中出现的概率；

表示目标数据点在第

个方向上的分布度；

表示以2为底的对数函数；

表示第

个目标数据点

的方向的个数，本实施例中

取36；

需要说明的是，本实施例中，以相同分布度出现的概率来表示每个方向的分布度在所有分布度的占比，然后获取分布度熵值，即以分布度来反映目标数据点的各个方向数据点的分布方向特征，若目标数据点的各个方向的数据点分布越多，且各个方向数据点的分布特征的差异越大，则表明目标数据点周围邻域数据点的分布信息量越大，即对应的目标数据点的分布方向混乱程度越大，越有可能为数据正常分布的数据点，其中，熵值公式为现有技术公式，本实施例不再赘述。

至此，得到目标数据点的邻域数据点在散点图中的分布方向混乱程度，通过计算目标数据点在各个方向的分布度的差异来表征目标数据点周围邻域数据点的方向分布信息量的大小，对于正常的周围较为密集且均匀分布的数据点可以更好的表征其正常数据点分布的特征，对于异常的周围较为稀疏且非均匀分布的数据点可以更好的表征其异常数据点分布的特征，并且对于不同原因造成的异常数据点的分布特征也可以通过目标数据点的邻域数据点的分布方向混乱程度的大小进行区分，为之后自适应计算的隶属度影响因子提供参考，使得目标数据点的隶属度影响的大小计算更加准确。

S3、获取每个目标数据点的邻域数据点在散点图中的堆积度；

由于风电数据异常产生的异常数据点主要为三类：一类为距离正常数据较近的离散数据点，一类为距离正常数据较远的离散数据点，一类为中部堆积型数据点，因此，在异常数据点的计算过程中，需要结合数据点的堆积度对数据点进行综合判断，即在步骤S2中得到了36个方向上的分布度，即也得到了在

轴方向上的数据点的分布度以及在

轴方向上的数据点的分布度，考虑到数据点的堆积特性，本实施例中以

轴为变化方向，以数据点在

轴方向的波动程度作信息参考来获取每个目标数据点的邻域数据点的堆积度的大小。

故具体的，预设每个目标数据点的纵坐标值波动范围，获取纵坐标值波动范围内的每个数据点与其所在的纵坐标轴方向上的其他数据点的欧氏距离的第一均值，获取每个目标数据点与其纵坐标轴方向上的每个数据点的欧氏距离的第二均值，根据第一均值、第二均值及预设的纵坐标值波动范围内的数据点的数量获取每个目标数据点的邻域数据点在散点图中的堆积度。

其中，预设每个目标数据点的纵坐标值波动范围包括：将目标数据点的纵坐标值减去预设的纵坐标值阈值作为纵坐标值波动范围的最小值；将目标数据点的纵坐标值加上预设的纵坐标值阈值作为纵坐标值波动范围的最大值；根据纵坐标值波动范围的最小值和纵坐标值波动范围的最大值得到每个目标数据点的预设的纵坐标值波动范围，具体的，本实施例中，预设的纵坐标值阈值为

=1，在目标数据点

的纵坐标值为

时，则纵坐标值波动范围为

。

获取目标数据点的邻域数据点在散点图中的堆积度包括：获取纵坐标值波动范围内的每个数据点对应的第一均值与目标数据点对应的第二均值的均值比值，并得到均值比值与1的差值绝对值；获取目标数据点的纵坐标值波动范围内所有数据点与目标数据点对应差值绝对值的均值；对差值绝对值的均值进行负相关计算得到每个目标数据点的邻域数据点在散点图中的堆积度，其中，目标数据点的邻域数据点在散点图中的堆积度的计算公式为：

式中，

表示第

个目标数据点

的堆积度；

表示第

个目标数据点

的纵坐标值波动范围内的数据点的个数；

表示第

个目标数据点

的纵坐标值波动范围内的第

个数据点

的纵坐标方向上，数据点

与第

个数据点

其纵坐标方向的其他数据点之间的欧式距离的第一均值；

表示第

个目标数据点

的纵坐标值波动范围内，目标数据点

与目标数据点

的纵坐标方向的其他数据点之间的欧式距离的第二均值；

表示以自然常数e为底的指数函数；

需要说明的是，由于，考虑到风电数据点的堆积特性，通过计算每个数据点中以y 轴为变化方向，以数据点的y轴方向的波动程度作信息参考，来计算每个数据点的堆积度的大小，其中，

表示目标数据点与其y轴方向上的数据点的欧式距离的第一均值和目标数据点与其他数据点的y轴方向上的数据点的欧式距离的第二均值的均值比值，若均值比值与1越接近，则表明目标数据点与其他数据点上在y轴的分布数据分布相似，则对应的目标数据点的堆积程度就越大，因此，根据弃风限电的原理，通过计算每个目标数据点在y轴的波动范围内数据点的信息分布变化，来获取每个数据点的堆积度的大小，通过堆积度的大小来表征数据点对于表征弃风限电的特征的大小，使得可以在区分异常数据点的原因影响的同时获取更为精确的数据点的分布特征，为之后对数据点聚类时所用的信息分布更加准确，其中，y轴均表示散点图中的y轴。

S4、获取目标数据点隶属于每个聚类中心的隶属度影响因子；

具体的，获取数据点隶属于均值聚类算法的每个聚类中心的隶属度，根据堆积度、分布方向混乱程度、目标数据点与其邻域数据点的第二欧式距离、目标数据点的邻域数据点隶属于每个聚类中心的隶属度、目标数据点的邻域数据点与每个聚类中心的第三欧式距离获取目标数据点隶属于每个聚类中心的隶属度影响因子。

通过考虑每个数据点的分布方向混乱程度和堆积度的大小，以便于在进行隶属度影响因子计算时综合考虑每个数据点的局部邻域数据点的分布的特征，故本实施例以分布方向混乱程度和堆积度获取影响隶属度影响因子计算的影响参数的权重，从而综合考虑计算隶属度影响因子时，来确定是局部邻域数据点与聚类的聚类中心之间的欧式距离的影响还是隶属度的影响，使得在计算数据点的隶属度影响因子更加准确，进而提高续数据点分类的精准性。

具体的，本实施例中利用均值聚类算法选用C均值聚类算法，利用C均值聚类算法的多个初始聚类中心及对应初始隶属度先获取多个对应的聚类中心，然后依据C均值聚类算法中的隶属度计算公式获取数据点与隶属于每个聚类中心的隶属度，然后结合堆积度、分布方向混乱程度、目标数据点与其邻域数据点的第二欧式距离、目标数据点的邻域数据点隶属于每个聚类中心的隶属度、目标数据点的邻域数据点与每个聚类中心的第三欧式距离获取目标数据点隶属于每个聚类中心的隶属度影响因子，即隶属度影响因子的计算公式为：

式中，

表示第

个目标数据点

隶属于第

个聚类的聚类中心

的隶属度影响因子；

表示第

个目标数据点

对应的邻域数据点的堆积度；

表示第

个目标数据点

对应的邻域数据点的分布方向混乱程度；

表示第

个目标数据点

的邻域中第

个邻域数据点

与第

个聚类的聚类中心

的第三欧式距离；

表示第

个目标数据点

的邻域中第

个邻域数据点

的隶属于第

个聚类的聚类中心的隶属度；

表示第

个聚类的聚类中心；

表示模糊加权指数；

表示第

个目标数据点

与其邻域中第

个邻域数据点

的第二欧式距离；

表示第

个目标数据点

的邻域中的邻域数据点的个数；

需要说明的是，为了可以更好区分由于不同类型的异常数据点，使异常数据点分到各自对应的聚类中，故根据每个数据点的邻域数据点的分布方向混乱程度和堆积度对影响隶属度影响因子的影响参数设定权重，其中，对于异常数据点来说，其邻域数据点的分布方向混乱程度较小而堆积度较大，则对应的数据点也应考虑邻域数据点与聚类之间的隶属度的影响越大，则对应的受到的邻域数据点与聚类之间的欧式距离影响越小，即对应的受到

的影响较小，受到

的影响较大；若数据点的堆积度较小，则对应的数据点应考虑邻域数据点的欧式距离的影响越大，受到的邻域数据点与聚类之间的隶属度的影响越小，故通过

来表征

的权重，堆积度

越大，即隶属度影响因子受到

的影响越大。

其中，为了减少计算量，保证隶属度影响因子计算的进度，进而保证C均值聚类的分类精度，将每个目标数据点的邻域内的邻域数据点的分布方向混乱程度与以目标数据点的邻域数据点为目标数据点时对应的分布方向混乱程度相似且距离较近的目标邻域数据点作为目标数据点的隶属度计算所用的邻域数据点，具体的，在计算目标数据点隶属于每个聚类中心的隶属度影响因子之前，包括：获取目标数据点的邻域数据点对应的分布方向混乱程度与在目标数据点的邻域数据点为目标数据点时对应的邻域数据点对应的分布方向混乱程度之间的分布方向混乱程度差值；根据第二欧式距离、分布方向混乱程度差值绝对值获取目标数据点的邻域数据点在目标数据点的邻域内的参与度，对预设的第二欧式距离权重与第二欧式距离的乘积、分布方向混乱程度差值权重与分布方向混乱程度差值绝对值的乘积进行求和，根据求和后的和值的倒数得到目标数据点的邻域数据点在目标数据点的邻域内的参与度；根据参与度获取目标数据点的邻域数据点中的目标邻域数据点；将目标邻域数据点作为获取目标数据点隶属于每个聚类中心的隶属度影响因子时的邻域数据点，即在。

其中，参与度计算公式为：

式中，

表示第

个目标数据点的邻域内第

个数据点在第

个目标数据点邻域内的参与度；

表示第

个目标数据点和其邻域内第

个邻域数据点之间的第二欧式距离；

表示第

个目标数据点的邻域数据点对应的分布方向混乱程度与第

个目标数据点的邻域内第

个邻域数据点为目标数据点时的邻域数据点对应的分布方向混乱程度差值的绝对值；

表示线性归一化函数，目的是为了方便选取参与度阈值，便于后续计算；

本实施例中，认为分布方向混乱程度的差异相比欧式距离更加重要，故第二欧式距离权重取

、分布方向混乱程度差值权重取

，第二欧式距离

越小，且置分布程度差值的绝对值越小，越表明目标数据点与邻域数据点越相似，即表明邻域数据点在目标数据点的邻域内的参与度越大，由于，参与度进行了线性归一化，故本实施例设置参与度阈值

，将参与度大于参与度阈值的邻域数据点作为目标邻域数据点，即目标邻域数据点作为隶属度影响因子计算时的邻域数据点，即以第

个目标数据点为例，其邻域数据点的总数量等于隶属度影响因子的计算公式中的

的大小，即，隶属度影响因子公式中的第三欧式距离、隶属度、第二欧式距离中的邻域数据点均为根据参数度及参与度阈值筛选出的目标邻域数据点。

S5、进行C均值聚类，并获取正常数据点；

具体的，根据隶属度影响因子获取C均值聚类的目标函数，根据C均值聚类的目标函数对所有数据点进行聚类得到多个最终聚类，根据最终聚类中数据点个数获取正常数据点。

具体的，目标函数表达式为：

式中，

表示目标函数的目标值，当目标函数收敛，则目标函数收敛时对应的隶属度即为C均值聚类的最终隶属度，即依据最终隶属度即可得到最终聚类；

表示以第

个目标数据点；

表示所有目标数据点的个数；

表示设置的聚类个数；

表示第

个聚类的聚类中心；

表示目标数据点

隶属于第

个聚类的隶属度；

表示第

个目标数据点

与第

个聚类的聚类中心之间的欧式距离；

表示模糊加权指数，可根据实施者具体实施情况而定，本案给出的为经验参考值，

；

表示第

个目标数据点

隶属于第

个聚类中心的隶属度影响因子；

需要说明的是，C均值聚类的目标函数为现有技术函数，本实施例只是将本发明中自适计算得到的隶属度影响因子将目标函数的隶属度影响因子进行替换，故本实施例不再对C均值聚类的目标函数进行赘述。

在步骤S4中得到每个目标数据点的自适应的隶属度影响因子后，根据隶属度影响因子代入到C均值聚类算法的目标函数中，并对数据点进行C均值聚类，由于在步骤S3中对散点图分析，散点图中共有4类数据点，故本实施例中C均值聚类算法的参数设置为：聚类数量为4，对每个初始聚类进行初始化得到初始化聚类中心及对应的初始隶属度，进行迭代得到每次迭代时的聚类中心及对应的隶属度，迭代停止条件为目标函数收敛，即目标函数值的变化阈值

（即目标函数收敛阈值可根据实施者具体实施情况而定，本案给出的为经验参考值）。

具体的，将数据点个数最多的最终聚类中的数据点记为正常数据点，除数据点个数最多的最终聚类外的其他最终聚类对应数据点记为异常数据点，并对异常数据点进行剔除。

本发明的一种适用于风力发电的数据处理系统，包括：数据采集模块、第一参数计算模块、第二参数计算模块、影响因子修正模块及数据点筛选模块，其中，数据采集模块用于获取风电机组的风速数据以及功率数据；第一参数计算模块用于根据风速数据以及功率数据获取风速－功率的散点图；以散点图中每个数据点为目标数据点，获取目标数据点在其每个不同方向上的每两个相邻数据点的第一欧式距离，根据所有方向上对应的第一欧式距离获取目标数据点的邻域数据点在散点图中的分布方向混乱程度；第二参数计算模块用于预设每个目标数据点的纵坐标值波动范围，获取纵坐标值波动范围内的每个数据点与其所在的纵坐标轴方向上的其他数据点的欧氏距离的第一均值，获取每个目标数据点与其纵坐标轴方向上的每个数据点的欧氏距离的第二均值，根据第一均值、第二均值及预设的纵坐标值波动范围内的数据点的数量获取每个目标数据点的邻域数据点在散点图中的堆积度；影响因子修正模块用于获取数据点隶属于C均值聚类算法的每个聚类中心的隶属度，根据堆积度、分布方向混乱程度、目标数据点与其邻域数据点的第二欧式距离、目标数据点的邻域数据点隶属于每个聚类中心的隶属度、目标数据点的邻域数据点与每个聚类中心的第三欧式距离获取目标数据点隶属于每个聚类中心的隶属度影响因子；数据点筛选模块用于根据隶属度影响因子获取C均值聚类的目标函数，根据C均值聚类的目标函数对所有数据点进行聚类得到多个最终聚类，根据最终聚类中数据点个数获取正常数据点。

本发明的一种适用于风力发电的数据处理方法及系统，通过对风电机组的风速数据以及功率数据的风速－功率的散点图中的数据点进行分析得到数据点的类型，然后基于数据点的邻域数据点在散点图中的分布方向混乱程度及堆积度来对C均值聚类算法的隶属度影响因子进行修正，即通过分析在目标数据点多个方向中的每个方向上每两个相邻数据点的第一欧氏距离，然后基于所有方向上的第一欧氏距离获取表征目标数据点的邻域内的邻数据点的分布度的分布方向混乱程度，结合目标数据点与其他数据点上在纵坐标轴方向上的数据点的相似性来表征目标数据点的邻域数据点的堆积度，由于数据点的局部邻域数据点距离聚类中心的欧式距离以及局部邻域数据点对于聚类中心的隶属度均为影响C均值聚类算法的隶属度影响因子的影响参数，且对于正常数据点其邻域内邻域数据点多且每个方向都有分布，而对于异常数据点其邻域数据点在方向分布比较单一，即分布方向混乱程度较小，其且堆积度较大，其次，异常数据点的邻域数据点的隶属度参数对隶属度影响因子的影响也越大，故以堆积度与分布方向混乱程度的比值来表征隶属度的权重、以1减去堆积度与分布方向混乱程度的比值来表征欧式距离的权重，从而自适应的得到每个数据点的隶属度影响因子，进而基于自适应的隶属度影响因子获取C均值聚类的目标函数，基于C均值聚类的目标函数对数据点进行C均值聚类，实现精确分类，进而保证异常数据点准确的从所有数据点中剔除，实现了正常数据点的精确获取。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。