CN110674120A

CN110674120A - 一种风电场数据清洗方法及装置

Info

Publication number: CN110674120A
Application number: CN201910737434.2A
Authority: CN
Inventors: 陈保卫; 李庚达; 胡阳; 段震清; 奚芸华; 潘晨阳; 王昕�; 梁凌; 李雄威; 刘淼
Original assignee: Guodian New Energy Technology Research Institute Co Ltd; North China Electric Power University
Current assignee: Guodian New Energy Technology Research Institute Co Ltd; North China Electric Power University
Priority date: 2019-08-09
Filing date: 2019-08-09
Publication date: 2020-01-10
Anticipated expiration: 2039-08-09
Also published as: CN110674120B

Abstract

本发明提供了一种数据清洗方法及装置，结合风力发电过程运行特性，针对运行数据中存在的异常数据，通过基于噪声鲁棒性聚类的运行数据第一次聚类分析、基于数据分布流形的第二次聚类分析等两阶段聚类算法，能够在时域空间有效识别和剔除异常数据，具有较高的可执行性。同时提供了对异常数据剔除效果的性能评价，通过合理的评价标准优化了剔除堆积型异常数据的方案，保证剩余有效数据占比及有效数据量，能够合理提高堆积型异常数据识别精度和执行效率，有利于异常数据识别的自动化实现和工业应用。

Description

一种风电场数据清洗方法及装置

技术领域

本发明涉及一种数据清洗方法及装置，特别涉及一种风电场数据清洗方法及装置。

背景技术

随着规模化风电的快速发展，同时，受电源结构单一、电力系统有限的调节能力、外送通道容量不足等问题制约，弃风限电现象在中国普遍存在。尤其在中国“三北”地区，风电年利用小时数长期在低位徘徊。目前，风电消纳已成为阻碍中国风电产业健康发展的瓶颈问题，亟需解决。

因长时间限功率运行，大多数风电场SCADA系统的记录数据存在较多的堆积型异常数据，即大量非最大风能利用状态的限功率运行数据。此外，因风机运行性能劣化或故障等同样会产生大量非最大出力性能的运行数据。这些异常数据对后续的风功率曲线建模、理论功率计算、风机运行性能评价、运行状态监测及故障诊断等均有较大影响。然而，堆积型异常数据与有效数据通常混合存在，大大增加了异常数据识别、清洗的难度。因而，引起了学界和工业界的广泛关注。考虑到风力发电过程中大量存在的不确定性以及运行数据的复杂非线性，采用聚类方法进行异常数据清洗是一种可行的解决方案。然而，单一的聚类方法难以得到良好的识别效果；此外，目前大多数据清洗方法仅在时域空间进行数据清洗，缺乏合理评价清洗效果的时域指标，使得清洗过程难以高效率优化。

发明内容

为了能够按需优化堆积型异常数据的清洗效果，本发明提出一种风电场数据清洗方法及装置，通过时域空间聚类识别、概率空间评价、剔除性能优化等步骤改进异常数据的清洗效果。

本发明提供一种风电场数据清洗方法，包括以下步骤：

获取风电场运行数据；

通过聚类分析方法对运行数据进行第一次聚类分析，将运行数据划分为若干组第一数据类C_i＝{C₁，C₂，...，C_i，...，C_m}(i＝1，2，...，m)；

通过聚类分析方法对每一组第一数据类C_i进行第二次聚类分析，获得若干组第二数据类C_ij＝{C_i1，C_i2，...，C_ij，...，C_in}(i＝1，2，...，m；j＝1，2，...，n)；

通过联合概率分布空间的数据分布特性评价及优化两次聚类后的数据清洗结果。

所述风电场数据清洗方法，其中，所述第一次聚类分析采用对噪声数据具有较强适应能力的聚类算法。

优选的，所述第一次聚类分析选取欧式距离作为相似性测度，采用K-medoids聚类算法。

所述风电场数据清洗方法，其中，第一次聚类分析将运行数据分组数量不少于3组且不大于5组。

所述风电场数据清洗方法，其中，第一次聚类分析后根据风电场的特性对第一数据类中的异常数据进行剔除。

优选的，异常数据剔除的数据量应为剔除前数据总量的25％以内。

优选的，第一次聚类分析后剔除异常数据所根据风电场的特性包括风电场风机设计参数或风电场风功率特性。

所述风电场数据清洗方法，其中，第二次聚类分析采用具有非凸聚类能力的聚类算法。

优选的，第二次聚类分析采用流形谱聚类算法。

优选的，所述流形谱聚类算法定义数据点之间的流形距离，并定义流形距离核，建立流形距离核矩阵，以流形距离核矩阵为基础建立拉普拉斯矩阵，计算拉普拉斯矩阵的特征值及其特征列向量建立特征矩阵，基于该特征矩阵进行k均值聚类，获得聚类结果。

所述风电场数据清洗方法，其中，第二次聚类分析的分组数量不少于3组且不大于10组。

所述风电场数据清洗方法，其中，第二次聚类分析后根据风电场风功率特性进行异常数据剔除。

所述风电场数据清洗方法，其中，所述的联合概率分布空间的数据分布特性采用核密度估计法。

优选的，根据风电场风速边缘概率分布与风功率边缘概率分布的联合概率分布特性构建Copula函数，建立数据点在Copula空间的概率分布，基于Copula空间中分段数据点到经过点(0，0)、(1，1)的对称直线的加权距离进行数据清洗结果评价。

优选的，根据风电场风速边缘概率分布与风功率边缘概率分布的联合概率分布特性构建Copula函数，建立数据点在Copula空间的概率分布，基于Copula空间中分段数据点到经过点(0，0)、(1，1)的对称直线的加权距离建立异常数据评价指标目标函数，基于该目标函数采用粒子群优化算法对数据清洗结果进行优化评价。

优选的，根据风电场风速边缘概率分布与风功率边缘概率分布的联合概率分布特性构建Copula函数，建立数据点在Copula空间的概率分布，基于Copula空间中的指标目标函数和目标约束条件判断数据清洗结果是否满足评价优化约束条件，若数据清洗结果不满足约束条件，则从新执行数据清洗方法；若数据清洗结果满足约束条件，则数据清洗结束。

优选的，每次剔除的数据量应为每次剔除前数据总量的25％以内。

本发明另一方面提供一种风电场数据清洗装置，其特征在于：

具有一数据获取接口，用于获取风电场运行数据；

一数据分析模块，包括一第一数据分析子模块和一第二数据分析子模块；

该第一数据分析子模块接收所述数据获取接口获取的运行数据，对运行数据进行第一次聚类分析，将运行数据划分为若干组第一数据类；

该第二数据分析子模块接收第一数据分析子模块的分析结果，通过聚类分析方法对每一组第一数据类进行第二次聚类分析，获得若干组第二数据类；

一执行模块，接收第二数据分析子模块的分析结果，通过联合概率分布空间的数据分布特性评价及优化两次聚类后的数据清结果。

优选的，所述第一数据分析子模块采用K-medoids聚类算法进行聚类分析，选取欧式距离作为数据的相似性测度。

优选的，所述第一数据分析子模块包括一数据聚类分析单元和一数据初步筛选单元，数据聚类分析单元对运行数据聚类分析获得第一数据类，数据初步筛选单元接收第一数据类，并根据风电场的特性对第一数据类中的异常数据进行初步剔除后，传递给第二数据分析子模块。

优选的，所述第二数据分析子模块采用流形谱聚类算法定义数据点之间的流形距离，并定义流形距离核，建立流形距离核矩阵，以流形距离核矩阵为基础建立拉普拉斯矩阵，计算拉普拉斯矩阵的特征值及其特征列向量建立特征矩阵，基于该特征矩阵进行k均值聚类，获得聚类结果，并将与风电场风功率特性差距最远的数据作为异常数据予以剔除。

优选的，所述执行模块进一步包括一评价优化单元，该评价优化单元根据风电场风速边缘概率分布与风功率边缘概率分布的联合概率分布特性构建Copula函数，建立数据点在Copula空间的概率分布，基于Copula空间中分段数据点到经过点(0，0)、(1，1)的对称直线的加权距离建立异常数据评价指标目标函数，基于该目标函数采用粒子群优化算法对执行模块异常数据剔除进行优化。

优选的，所述执行模块进一步包括一评价优化单元，该评价优化单元根据风电场风速边缘概率分布与风功率边缘概率分布的联合概率分布特性构建Copula函数，建立数据点在Copula空间的概率分布，评价优化单元可以预置基于风电场特性的评价优化约束条件，基于Copula空间中的指标目标函数和目标约束条件判断数据清洗结果是否满足评价优化约束条件，若数据清洗结果不满足约束条件，则从新执行数据清洗方法；若数据清洗结果满足约束条件，则数据清洗结束。

通过前述风电场数据清洗方法及装置，在时域空间，通过不同聚类方法的分步执行提高堆积型异常数据识别水平；在概率空间，围绕运行数据的联合概率分布定义评价指标并进行清洗优化，进一步优化清洗效果。最终，通过上述堆积型异常数据清洗方法保证了剩余数据量及其有效性，为后续数据分析奠定坚实基础。

附图说明

图1为本发明一种风电场数据清洗装置的示意图。

1-数据获取接口；2-数据分析模块；21-第一数据分析子模块；22-第二数据分析子模块；211-聚类分析单元；212-数据初步筛选单元；3-执行模块；31-评价优化单元；4--高速数据存取模块；5-高速数据缓存模块；6-数据可视化模块；

图2为本发明一种风电场数据清洗方法的示意图。

图3为本发明一具体实施方式中剔除清洗前的原始数据。

图4为本发明一具体实施方式中第一次聚类分析后的数据示意图。

图5为本发明一具体实施方式中第一次聚类分析初步剔除清洗后的数据示意图。

图6(a)为本发明一具体实施方式中第二次聚类分析后C₂组数据的示意图。

图6(b)为本发明一具体实施方式中第二次聚类分析后C₃组数据的示意图。

图6(c)为本发明一具体实施方式中第二次聚类分析后C₄组数据的示意图。

图7为本发明一具体实施方式中第二次聚类分析后对数据剔除的示意图。

图8为本发明一具体实施方式中优化评价体系后数据剔除清洗的示意图。

具体实施方式

以下配合附图及本发明的优选实施例，进一步阐述本发明为达成预定发明目的所采取的技术手段。

本发明一方面提供一种风电场数据清洗装置，请参阅附图1为本发明一种风电场数据清洗装置的优选实施例，其包括数据获取接口1，该数据获取接口1能够获取风电场运行数据。该数据获取接口1与一数据分析模块2连接，将数据接口1获取的运行数据传递给该数据分析模块2。该数据分析模块2进一步包括一第一数据分析子模块21和一第二数据分析子模块22，该第一数据分析子模块21接收数据接口一传递的运行数据，对运行数据进行第一次聚类分析，并将分析后的数据传递给该第二数据子模块22，优选的，该第一数据分析子模块21可进一步包含一聚类分析单元211和一数据初步筛选单元212；该第二数据分析子模块22接收第一数据分析子模块21的分析结果，通过聚类分析方法对每一组第一数据类进行第二次聚类分析，第二数据分析子模块22将分析后的数据传递给一执行模块3。该执行模块3接收数据分析模块2的分析结果，并对分析结果数据根据标准进行评价后对异常数据进行剔除，该执行模块3可进一步包括一评价优化单元31，用于优化数据评价及剔除算法。另外，该风电场数据清洗装置可进一步包含高速数据存取模块4及高速数据缓存模块5，该高速数据存取模块4，与具有读取、存储、处理数据功能的装置模块、单元等组件相连，用于进行被处理数据的高速存储、读取；该高速数据缓存模块5，具有读取、存储、处理数据功能的装置模块、单元等组件相连，用于中间处理数据的存储和读取。此外，该风电场数据清洗装置可进一步包含一数据可视化模块6，用于将中间或最终处理结果进行可视化展示。

本发明另一方面提供一种风电场数据清洗方法，请参阅附图2，包含如下流程：

流程81，获取风电场运行数据。

流程82，通过聚类分析方法对运行数据进行第一次聚类分析，将运行数据划分为若干组第一数据类C_i＝{C₁，C₂，...，C_i，...，C_m}(i＝1，2，...，m)；

流程83，通过聚类分析方法对每一组第一数据类C_i进行第二次聚类分析，获得若干组第二数据类C_ij＝{C_i1，C_i2，...，C_ij，...，C_in}(i＝1，2，...，m；j＝1，2，...，n)；

流程84，通过Copula空间的数据分布特性评价及优化两次聚类后数据清洗结果；

流程85，根据风电场特性设置约束条件，如果评价及优化后的数据清洗结果符合约束条件则清洗结束，展示该数据清洗结果，如果评价及优化后的数据清洗结果不符合约束条件，则重新执行数据清洗方法。

以下将结合风电场数据清洗装置及方法对本发明的具体实施方式进行进一步阐述：

请参阅附图1及附图2，数据获取接口1执行流程81，获取风电场运行数据，数据获取接口1可以直接与风电场数据库(如风电场SCADA系统数据库)连接，也可以直接与存储有运行数据的存储装置连接，亦可通过网络云，有线无线等连接方式获取风电场的运行数据。数据接口1获取风电场运行数据后，将运行数据传递至数据分析模块2。

数据分析模块2的第一数据分析子模块21接收数据接口1传递的运行数据，执行流程82，通过聚类分析方法对运行数据进行第一次聚类分析，将运行数据划分为若干组第一数据类C_i＝{C₁，C₂，...，C_i，...，C_m}(i＝1，2，...，m)。第一数据分析子模块21采用对噪声数据具有较强适应能力的聚类算法，譬如可选取欧式距离作为相似性测度，采用K-medoids聚类算法进行聚类。优选的，第一数据分析子模块21进行一次聚类分析获得第一数据类的分组数量根据风电机组的运行状态确定，进一步优选的，该分组数量应不少于3组且不大于5组。进一步优选的，执行流程82可进一步包含一初步筛选剔除流程，由一数据分析子模块21的数据聚类分析单元211进行数据聚类分析，数据聚类分析单元211将聚类分析后的数据传递给数据初步筛选单元212，数据初步筛选单元212根据风电场的特性对第一数据类中的异常数据进行剔除，所述风电场特性包括风电场风机设计参数、风电场风功率特性、风机功率特性等信息，优选的，初步筛选剔除的数据量应控制在剔除前数据总量的25％以内，即初步筛选后剩余数据量应为数据总量的75％及以上。

数据分析模块2的第二数据分析子模块22接收来自第一数据分析子模块21执行流程82后划分为若干组第一数据类的数据，执行流程83，对每一组第一数据类C_i进行第二次聚类分析，获得若干组第二数据类C_ij＝{C_i1，C_i2，...，C_ij，...，C_in}(i＝1，2，...，m；j＝1，2，...，n)。第二数据分析子模块22采用具有非凸聚类能力的聚类算法，优选的，可采用流形谱聚类算法，所述流形谱聚类算法定义数据点之间的流形距离，并定义流形距离核，建立流形距离核矩阵，以流形距离核矩阵为基础建立拉普拉斯矩阵，计算拉普拉斯矩阵的特征值及其特征列向量建立特征矩阵，基于该特征矩阵进行k均值聚类，获得聚类结果，并将与风电场风功率特性差距最远的数据作为异常数据予以剔除。进一步优选的，第二数据分析子模块22进行聚类分析的分组数量不少于3组且不大于10组。

数据分析模块2将若干组第二数据类传递给执行模块3，执行模块3执行流程84和流程85，优选的，该执行模块3可进一步包括一评价优化单元31，该评价优化单元31根据风电场风速与风功率的联合概率分布特性对执行模块3所接受的数据进行评价及优化，具体为，评价优化单元31根据风电场风速边缘概率分布与风功率边缘概率分布的联合概率分布特性构建Copula函数，建立数据点在Copula空间的概率分布，基于Copula空间中分段数据点到经过点(0，0)、(1，1)的对称直线的加权距离建立异常数据评价指标目标函数，并基于该目标函数采用粒子群优化算法对执行模块3所接受的数据进行评价及优化。评估优化单元31能够预置根据风电场特性预设的约束条件，并根据Copula空间中的指标目标函数和目标约束条件判断数据清洗结果是否满足该预设的约束条件，若数据清洗结果不满足约束条件，则从新执行数据清洗方法；若数据清洗结果满足约束条件，则数据清洗结束，并将最终优化结果在数据可视化模块6上显示。

下面结合华北某风电场主流1.5MW变速变桨且带双馈感应电机的风机风电场为例，根据2017年1月至4月期间的实测数据进行剔除清洗说明本发明的具体实施方式。

在本实施例中，风机运行数据从风电场SCADA系统中提取，采样周期为10分钟/点。

选取某台风机2017年1-4月的实测运行风速、功率数据，由数据获取接口1提取相关数据，传递给数据分析模块2，数据分析模块2的第一数据分析子模块21在时域空间上根据实测运行风速、功率数据建立如图3所示的风速-功率散点图。选取欧式距离作为相似性测度，采用k-medoids聚类算法对前述原始数据散点图进行第一次聚类分析，得到若干组第一数据类C＝{C₁，C₂，...，C_i，}(i＝1，2，...，i)。结合风机设计参数、出厂风功率曲线等先验知识，判定聚类结果的合理性，不同分类结果的边界可以与变速变桨风机不同运行区域的边界大约接近，由于风电机组的运行状态至少有变转速、恒转速、恒功率三个阶段，则聚类数量应当至少为3组，同时，为了限制聚类总数，聚类数量上限设定为5；筛选后的剩余数据量大于75％。第一次聚类分析后的数据如图4所示，剔除效果如图5所示，本实施例中第一次聚类分组数量i取5。

第一数据分析子模块21分析获取的若干组第一数据类C_i中混杂有异常数据与有效数据，第一数据分析子模块21将若干组第一数据类C_i传递给第二数据分析子模块22，第二数据分析子模块22采用流形谱聚类对若干组第一数据类C_i进行第二次聚类分析，得到若干组第二数据类C_ij＝{C_i1，C_i2，...，C_ij，...，C_in}(j＝1，2，...，n)。现就第二次聚类分析所采用的流形谱聚类算法介绍如下：定义P_kl为时域空间中运行数据点x_k到数据点x_l所有可能的路径集合，则x_k到x_l之间的流形距离定义为：

其中，d_shor(x_k，x_l)是连接数据点x_k和数据点x_l之间的最短路径(k，l＝1，2，...，o)；d_Eucl是数据点x_k到数据点x_l连接路径上任意相邻两点之间的欧式距离；p为连接路径上的顶点数量；ρ为伸缩系数。在此基础上，定义流形距离核为：

其中，σ为核参数。

技术上述数据，流形谱聚类算法执行步骤如下：

第一、对风速、功率数据进行归一化，以消除不同变量数量级的影响，归一化方法如下：

第二、根据公式(3)得到任意两数据点间的流形距离核矩阵K∈R^o×o作为相似矩阵。

第三、建立拉普拉斯矩阵M_Lapl＝J^-1/2KJ^-1/2，其中，J＝diag(J₁，J₂，...，J_n)

第四、计算拉普拉斯矩阵M_Lapl的s个最大特征值及其特征列向量z₁，z₂，...，z_s。建立特征矩阵Z＝[z₁，z₂，...，z_s]^o×s，对该特征矩阵的列向量进行归一化

第五、对特征矩阵Z_norm的每一列视为一个点并采用k均值聚类即可以得到最终流形聚类结果。

结合先验知识，确定最终聚类结果，如可根据即风电机组根据风速的不同，输出功率不同、风电机组的不同阶段运行状态及风电机组出厂时的理论运行功率曲线等因素将聚类筛选后结果要求界定为：剩余数据量在75％以上、第二次聚类分组数量在3到10之间，本实施例中，经过第一次聚类分析和数据剔除后，C₁组的剩余数据及C₅组的剩余数据均符合风电场风速、输出功率、理论运行功率等特性，相关数据可直接予以保留使用，无需再进行第二次聚类分析，因此仅就C₂、C₃、C₄组进行第二次聚类分析及剔除，基于风电场特性，针对C₂组n取6，针对C₃组n取4，针对C₄组n取4，第二次聚类分析后的数据如图6(a)、图6(b)、图6(c)所示。

第二数据分析子模块22将第二次聚类分析的结果以出厂风功率曲线作为参考，计算每一类C_ij中所有点到出厂风功率曲线的平均距离，将平均距离最大的类视为异常类，并进行剔除。该异常类中通常包含大部分堆积型异常数据和部分稀疏型异常数据。数据剔除效果如图7所示。

第二数据分析子模块22将清洗的数据传递给执行模块3，该执行模块3可进一步包括一评价优化单元31，该评价优化单元31能够构建优化评价体系，并根据优化评价体系优化执行模块3的清洗方法，评价及优化数据剔除效果。该评价优化单元31采用核密度估计法分别建立风速数据V、功率数据P的边缘概率分布F_V(V)、F_P(P)，建立其经验Copula函数，从而得到其在Copula空间的概率散点分布。这些散点沿经过(0，0)和(1，1)的对称直线而分布。定义u＝F_V(V)、v＝F_P(P)，则Copula空间的概率散点可表示为(u，v)。在u＝0.8、v＝0.8处，将对称直线分为两段；该点大约额定风速、额定功率对应的概率点。对应每一段，计算概率散点到直线的平均距离d_l1、d_l2，进而得到Copula空间的加权距离d_l＝l₁d_l2+l₂d_l2。以此建立对异常数据的清洗效果优化评价方案。以前述优化评价方案的Copula空间评价指标作为目标函数，采用粒子群优化算法对堆积型异常数据清洗效果进行优化。根据优化后的数据清洗方案，对数据进行清洗剔除后的效果如图8所示。优选的，评价优化单元31设定约束条件为整体剩余数据量大于75％，第一次聚类分析聚类数量在3到5之间，第一次聚类分析剩余数据量大于75％，第二次聚类分析无监督聚类数量在3到10之间，第二次聚类分析剩余数据量大于75％。

本发明通过上述设备、方法结合风力发电过程运行特性，针对其运行数据中存在的异常数据，提出了一种高效的风电运行数据分步清洗方法，能够有效地剔除堆积型异常数据，通过合理评价、优化保证剩余有效数据占比及有效数据量。通过基于噪声鲁棒性聚类的运行数据第一次聚类分析、基于数据分布流形的第二次聚类分析等两阶段聚类算法，能够在时域空间有效识别和剔除异常数据，具有较高的可执行性。同时提供了对异常数据剔除效果的性能评价、优化及其分布式硬件实现，能够合理提高堆积型异常数据识别精度和执行效率，有利于异常数据识别的自动化实现和工业应用。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的程序可存储于一计算机可读取存储介质中，该程序在执行时，可包括上述方法的实施例的流程。其中，所述的存储介质可为磁碟、光盘、只读存储记忆体(ROM)或随机存储记忆体(RAM)。

以上所述仅是本发明的优选实施例而已，并非对本发明做任何形式上的限制，虽然本发明已以优选实施例披露如上，然而并非用以限定本发明，任何本领域的技术人员，在不脱离本发明技术方案的范围内，应当可以利用上述揭示的技术内容作出些许改变或修饰为等同变化的等效实施例，但凡是未脱离本发明技术方案的内容，依据本发明的技术实质对以上实施例所作的任何简单修改、等同变化与修饰，均仍属于本发明技术方案的范围内。

Claims

1.一种风电场数据清洗方法，其特征在于，所述方法包括以下步骤：

获取风电场运行数据；

2.根据权利要求1所述的一种风电场数据清洗方法，其特征在于，所述第一次聚类分析采用对噪声数据具有较强适应能力的聚类算法。

3.根据权利要求1所述的一种风电场数据清洗方法，其特征在于，所述第一次聚类分析选取欧式距离作为相似性测度，采用K-medoids聚类算法。

4.根据权利要求1所述的一种风电场数据清洗方法，其特征在于，第一次聚类分析将运行数据分组数量不少于3组且不大于5组。

5.根据权利要求1所述的一种风电场数据清洗方法，其特征在于，第一次聚类分析后根据风电场的特性对第一数据类中的异常数据进行剔除。

6.根据权利要求5所述的一种风电场数据清洗方法，其特征在于，异常数据剔除的数据量应为剔除前数据总量的25％以内。

7.根据权利要求5所述的一种风电场数据清洗方法，其特征在于，第一次聚类分析后剔除异常数据所根据风电场的特性包括风电场风机设计参数或风电场风功率特性。

8.根据权利要求1所述的一种风电场数据清洗方法，其特征在于，第二次聚类分析采用具有非凸聚类能力的聚类算法。

9.根据权利要求1所述的一种风电场数据清洗方法，其特征在于，第二次聚类分析采用流形谱聚类算法。

10.根据权利要求9所述的一种风电场数据清洗方法，其特征在于，所述流形谱聚类算法定义数据点之间的流形距离，并定义流形距离核，建立流形距离核矩阵，以流形距离核矩阵为基础建立拉普拉斯矩阵，计算拉普拉斯矩阵特征值及其特征列向量建立特征矩阵，基于该特征矩阵进行k均值聚类，获得聚类结果。

11.根据权利要求1所述的一种风电场数据清洗方法，其特征在于，第二次聚类分析的分组数量不少于3组且不大于10组。

12.根据权利要求1所述的一种风电场数据清洗方法，其特征在于，第二次聚类分析后根据风电场风功率特性对第二次聚类中的异常数据进行剔除。

13.根据权利要求1所述的一种风电场数据清洗方法，其特征在于，根据风电场风速边缘概率分布与风功率边缘概率分布的联合概率分布特性构建Copula函数，建立数据点在Copula空间的概率分布，基于Copula空间中分段数据点到经过点(0，0)、(1，1)的对称直线的加权距离进行数据清洗结果评价。

14.根据权利要求1所述的一种风电场数据清洗方法，其特征在于，根据风电场风速边缘概率分布与风功率边缘概率分布的联合概率分布特性构建Copula函数，建立数据点在Copula空间的概率分布，基于Copula空间中分段数据点到经过点(0，0)、(1，1)的对称直线的加权距离建立异常数据评价指标目标函数，基于该目标函数采用粒子群优化算法对数据清洗结果进行优化评价。

15.根据权利要求13或14任一项所述的一种风电场数据清洗方法，其特征在于，根据风电场风速边缘概率分布与风功率边缘概率分布的联合概率分布特性设置约束条件，数据清洗结果符合约束条件，则清洗结束，数据清洗结果不符合约束条件，则重新执行数据清洗。

16.一种风电场数据清洗装置，其特征在于：

具有一数据获取接口，用于获取风电场运行数据；

一执行模块，接收第二数据分析子模块的分析结果，通过联合概率分布空间的数据分布特性评价及优化两次聚类后的数据清洗结果。

17.根据权利要求16所述的风电场数据清洗装置，其特征在于，所述第一数据分析子模块采用K-medoids聚类算法进行聚类分析，选取欧式距离作为数据的相似性测度。

18.根据权利要求16所述的风电场数据清洗装置，其特征在于，所述第一数据分析子模块包括一数据聚类分析单元和一数据初步筛选单元，数据聚类分析单元对运行数据聚类分析获得第一数据类，数据初步筛选单元接收第一数据类，并根据风电场的特性对第一数据类中的异常数据进行初步剔除后，传递给第二数据分析子模块。

19.根据权利要求16所述的风电场数据清洗装置，其特征在于，所述第二数据分析子模块采用流形谱聚类算法定义数据点之间的流形距离，并定义流形距离核，建立流形距离核矩阵，以流形距离核矩阵为基础建立拉普拉斯矩阵，计算拉普拉斯矩阵的特征值及其特征列向量，并建立特征矩阵，基于该特征矩阵进行k均值聚类，获得聚类结果，并将与风电场风功率特性差距最远的数据作为异常数据予以剔除。

20.根据权利要求16所述的风电场数据清洗装置，其特征在于，所述执行模块进一步包括一评价优化单元，该评价优化单元根据风电场风速边缘概率分布与风功率边缘概率分布的联合概率分布特性构建Copula函数，建立数据点在Copula空间的概率分布，基于Copula空间中分段数据点到经过点(0，0)、(1，1)的对称直线的加权距离建立异常数据评价指标目标函数，基于该目标函数采用粒子群优化算法对执行模块异常数据剔除进行优化。

21.根据权利要求20所述的风电场数据清洗装置，其特征在于，该优化评价单元根据设置的约束条件对两次聚类后的数据清洗结果进行优化评价，数据清洗结果满足约束条件则数据清洗结束，数据清洗结果不满足约束条件则重新进行数据清洗。