CN110674120A - 一种风电场数据清洗方法及装置 - Google Patents
一种风电场数据清洗方法及装置 Download PDFInfo
- Publication number
- CN110674120A CN110674120A CN201910737434.2A CN201910737434A CN110674120A CN 110674120 A CN110674120 A CN 110674120A CN 201910737434 A CN201910737434 A CN 201910737434A CN 110674120 A CN110674120 A CN 110674120A
- Authority
- CN
- China
- Prior art keywords
- data
- clustering
- analysis
- cleaning
- wind power
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000004140 cleaning Methods 0.000 title claims abstract description 104
- 238000000034 method Methods 0.000 title claims abstract description 72
- 238000004458 analytical method Methods 0.000 claims abstract description 80
- 238000009826 distribution Methods 0.000 claims abstract description 56
- 230000002159 abnormal effect Effects 0.000 claims abstract description 50
- 238000011156 evaluation Methods 0.000 claims abstract description 35
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 30
- 238000007405 data analysis Methods 0.000 claims description 58
- 239000011159 matrix material Substances 0.000 claims description 37
- 238000005457 optimization Methods 0.000 claims description 36
- 241000039077 Copula Species 0.000 claims description 34
- 230000008030 elimination Effects 0.000 claims description 15
- 238000003379 elimination reaction Methods 0.000 claims description 15
- 238000012216 screening Methods 0.000 claims description 13
- 230000003595 spectral effect Effects 0.000 claims description 10
- 238000007621 cluster analysis Methods 0.000 claims description 8
- 238000011157 data evaluation Methods 0.000 claims description 6
- 238000003064 k means clustering Methods 0.000 claims description 6
- 239000002245 particle Substances 0.000 claims description 6
- 238000011524 similarity measure Methods 0.000 claims description 6
- 238000013461 design Methods 0.000 claims description 4
- 230000005611 electricity Effects 0.000 claims description 2
- 239000013598 vector Substances 0.000 claims description 2
- 230000000694 effects Effects 0.000 abstract description 13
- 238000010248 power generation Methods 0.000 abstract description 3
- 230000006870 function Effects 0.000 description 19
- 238000010586 diagram Methods 0.000 description 11
- 238000012545 processing Methods 0.000 description 4
- 238000013079 data visualisation Methods 0.000 description 3
- 238000003860 storage Methods 0.000 description 3
- 238000009825 accumulation Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 238000005259 measurement Methods 0.000 description 2
- 230000004075 alteration Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000004590 computer program Methods 0.000 description 1
- 230000006866 deterioration Effects 0.000 description 1
- 238000003745 diagnosis Methods 0.000 description 1
- 239000006185 dispersion Substances 0.000 description 1
- 230000006698 induction Effects 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 238000001228 spectrum Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000005406 washing Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/21—Design, administration or maintenance of databases
- G06F16/215—Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/28—Databases characterised by their database models, e.g. relational or object models
- G06F16/284—Relational databases
- G06F16/285—Clustering or classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Systems or methods specially adapted for specific business sectors, e.g. utilities or tourism
- G06Q50/06—Electricity, gas or water supply
Abstract
本发明提供了一种数据清洗方法及装置,结合风力发电过程运行特性,针对运行数据中存在的异常数据,通过基于噪声鲁棒性聚类的运行数据第一次聚类分析、基于数据分布流形的第二次聚类分析等两阶段聚类算法,能够在时域空间有效识别和剔除异常数据,具有较高的可执行性。同时提供了对异常数据剔除效果的性能评价,通过合理的评价标准优化了剔除堆积型异常数据的方案,保证剩余有效数据占比及有效数据量,能够合理提高堆积型异常数据识别精度和执行效率,有利于异常数据识别的自动化实现和工业应用。
Description
技术领域
本发明涉及一种数据清洗方法及装置,特别涉及一种风电场数据清洗方法及装置。
背景技术
随着规模化风电的快速发展,同时,受电源结构单一、电力系统有限的调节能力、外送通道容量不足等问题制约,弃风限电现象在中国普遍存在。尤其在中国“三北”地区,风电年利用小时数长期在低位徘徊。目前,风电消纳已成为阻碍中国风电产业健康发展的瓶颈问题,亟需解决。
因长时间限功率运行,大多数风电场SCADA系统的记录数据存在较多的堆积型异常数据,即大量非最大风能利用状态的限功率运行数据。此外,因风机运行性能劣化或故障等同样会产生大量非最大出力性能的运行数据。这些异常数据对后续的风功率曲线建模、理论功率计算、风机运行性能评价、运行状态监测及故障诊断等均有较大影响。然而,堆积型异常数据与有效数据通常混合存在,大大增加了异常数据识别、清洗的难度。因而,引起了学界和工业界的广泛关注。考虑到风力发电过程中大量存在的不确定性以及运行数据的复杂非线性,采用聚类方法进行异常数据清洗是一种可行的解决方案。然而,单一的聚类方法难以得到良好的识别效果;此外,目前大多数据清洗方法仅在时域空间进行数据清洗,缺乏合理评价清洗效果的时域指标,使得清洗过程难以高效率优化。
发明内容
为了能够按需优化堆积型异常数据的清洗效果,本发明提出一种风电场数据清洗方法及装置,通过时域空间聚类识别、概率空间评价、剔除性能优化等步骤改进异常数据的清洗效果。
本发明提供一种风电场数据清洗方法,包括以下步骤:
获取风电场运行数据;
通过聚类分析方法对运行数据进行第一次聚类分析,将运行数据划分为若干组第一数据类Ci={C1,C2,...,Ci,...,Cm}(i=1,2,...,m);
通过聚类分析方法对每一组第一数据类Ci进行第二次聚类分析,获得若干组第二数据类Cij={Ci1,Ci2,...,Cij,...,Cin}(i=1,2,...,m;j=1,2,...,n);
通过联合概率分布空间的数据分布特性评价及优化两次聚类后的数据清洗结果。
所述风电场数据清洗方法,其中,所述第一次聚类分析采用对噪声数据具有较强适应能力的聚类算法。
优选的,所述第一次聚类分析选取欧式距离作为相似性测度,采用K-medoids聚类算法。
所述风电场数据清洗方法,其中,第一次聚类分析将运行数据分组数量不少于3组且不大于5组。
所述风电场数据清洗方法,其中,第一次聚类分析后根据风电场的特性对第一数据类中的异常数据进行剔除。
优选的,异常数据剔除的数据量应为剔除前数据总量的25%以内。
优选的,第一次聚类分析后剔除异常数据所根据风电场的特性包括风电场风机设计参数或风电场风功率特性。
所述风电场数据清洗方法,其中,第二次聚类分析采用具有非凸聚类能力的聚类算法。
优选的,第二次聚类分析采用流形谱聚类算法。
优选的,所述流形谱聚类算法定义数据点之间的流形距离,并定义流形距离核,建立流形距离核矩阵,以流形距离核矩阵为基础建立拉普拉斯矩阵,计算拉普拉斯矩阵的特征值及其特征列向量建立特征矩阵,基于该特征矩阵进行k均值聚类,获得聚类结果。
所述风电场数据清洗方法,其中,第二次聚类分析的分组数量不少于3组且不大于10组。
所述风电场数据清洗方法,其中,第二次聚类分析后根据风电场风功率特性进行异常数据剔除。
所述风电场数据清洗方法,其中,所述的联合概率分布空间的数据分布特性采用核密度估计法。
优选的,根据风电场风速边缘概率分布与风功率边缘概率分布的联合概率分布特性构建Copula函数,建立数据点在Copula空间的概率分布,基于Copula空间中分段数据点到经过点(0,0)、(1,1)的对称直线的加权距离进行数据清洗结果评价。
优选的,根据风电场风速边缘概率分布与风功率边缘概率分布的联合概率分布特性构建Copula函数,建立数据点在Copula空间的概率分布,基于Copula空间中分段数据点到经过点(0,0)、(1,1)的对称直线的加权距离建立异常数据评价指标目标函数,基于该目标函数采用粒子群优化算法对数据清洗结果进行优化评价。
优选的,根据风电场风速边缘概率分布与风功率边缘概率分布的联合概率分布特性构建Copula函数,建立数据点在Copula空间的概率分布,基于Copula空间中的指标目标函数和目标约束条件判断数据清洗结果是否满足评价优化约束条件,若数据清洗结果不满足约束条件,则从新执行数据清洗方法;若数据清洗结果满足约束条件,则数据清洗结束。
优选的,每次剔除的数据量应为每次剔除前数据总量的25%以内。
本发明另一方面提供一种风电场数据清洗装置,其特征在于:
具有一数据获取接口,用于获取风电场运行数据;
一数据分析模块,包括一第一数据分析子模块和一第二数据分析子模块;
该第一数据分析子模块接收所述数据获取接口获取的运行数据,对运行数据进行第一次聚类分析,将运行数据划分为若干组第一数据类;
该第二数据分析子模块接收第一数据分析子模块的分析结果,通过聚类分析方法对每一组第一数据类进行第二次聚类分析,获得若干组第二数据类;
一执行模块,接收第二数据分析子模块的分析结果,通过联合概率分布空间的数据分布特性评价及优化两次聚类后的数据清结果。
优选的,所述第一数据分析子模块采用K-medoids聚类算法进行聚类分析,选取欧式距离作为数据的相似性测度。
优选的,所述第一数据分析子模块包括一数据聚类分析单元和一数据初步筛选单元,数据聚类分析单元对运行数据聚类分析获得第一数据类,数据初步筛选单元接收第一数据类,并根据风电场的特性对第一数据类中的异常数据进行初步剔除后,传递给第二数据分析子模块。
优选的,所述第二数据分析子模块采用流形谱聚类算法定义数据点之间的流形距离,并定义流形距离核,建立流形距离核矩阵,以流形距离核矩阵为基础建立拉普拉斯矩阵,计算拉普拉斯矩阵的特征值及其特征列向量建立特征矩阵,基于该特征矩阵进行k均值聚类,获得聚类结果,并将与风电场风功率特性差距最远的数据作为异常数据予以剔除。
优选的,所述执行模块进一步包括一评价优化单元,该评价优化单元根据风电场风速边缘概率分布与风功率边缘概率分布的联合概率分布特性构建Copula函数,建立数据点在Copula空间的概率分布,基于Copula空间中分段数据点到经过点(0,0)、(1,1)的对称直线的加权距离建立异常数据评价指标目标函数,基于该目标函数采用粒子群优化算法对执行模块异常数据剔除进行优化。
优选的,所述执行模块进一步包括一评价优化单元,该评价优化单元根据风电场风速边缘概率分布与风功率边缘概率分布的联合概率分布特性构建Copula函数,建立数据点在Copula空间的概率分布,评价优化单元可以预置基于风电场特性的评价优化约束条件,基于Copula空间中的指标目标函数和目标约束条件判断数据清洗结果是否满足评价优化约束条件,若数据清洗结果不满足约束条件,则从新执行数据清洗方法;若数据清洗结果满足约束条件,则数据清洗结束。
通过前述风电场数据清洗方法及装置,在时域空间,通过不同聚类方法的分步执行提高堆积型异常数据识别水平;在概率空间,围绕运行数据的联合概率分布定义评价指标并进行清洗优化,进一步优化清洗效果。最终,通过上述堆积型异常数据清洗方法保证了剩余数据量及其有效性,为后续数据分析奠定坚实基础。
附图说明
图1为本发明一种风电场数据清洗装置的示意图。
1-数据获取接口;2-数据分析模块;21-第一数据分析子模块;22-第二数据分析子模块;211-聚类分析单元;212-数据初步筛选单元;3-执行模块;31-评价优化单元;4--高速数据存取模块;5-高速数据缓存模块;6-数据可视化模块;
图2为本发明一种风电场数据清洗方法的示意图。
图3为本发明一具体实施方式中剔除清洗前的原始数据。
图4为本发明一具体实施方式中第一次聚类分析后的数据示意图。
图5为本发明一具体实施方式中第一次聚类分析初步剔除清洗后的数据示意图。
图6(a)为本发明一具体实施方式中第二次聚类分析后C2组数据的示意图。
图6(b)为本发明一具体实施方式中第二次聚类分析后C3组数据的示意图。
图6(c)为本发明一具体实施方式中第二次聚类分析后C4组数据的示意图。
图7为本发明一具体实施方式中第二次聚类分析后对数据剔除的示意图。
图8为本发明一具体实施方式中优化评价体系后数据剔除清洗的示意图。
具体实施方式
以下配合附图及本发明的优选实施例,进一步阐述本发明为达成预定发明目的所采取的技术手段。
本发明一方面提供一种风电场数据清洗装置,请参阅附图1为本发明一种风电场数据清洗装置的优选实施例,其包括数据获取接口1,该数据获取接口1能够获取风电场运行数据。该数据获取接口1与一数据分析模块2连接,将数据接口1获取的运行数据传递给该数据分析模块2。该数据分析模块2进一步包括一第一数据分析子模块21和一第二数据分析子模块22,该第一数据分析子模块21接收数据接口一传递的运行数据,对运行数据进行第一次聚类分析,并将分析后的数据传递给该第二数据子模块22,优选的,该第一数据分析子模块21可进一步包含一聚类分析单元211和一数据初步筛选单元212;该第二数据分析子模块22接收第一数据分析子模块21的分析结果,通过聚类分析方法对每一组第一数据类进行第二次聚类分析,第二数据分析子模块22将分析后的数据传递给一执行模块3。该执行模块3接收数据分析模块2的分析结果,并对分析结果数据根据标准进行评价后对异常数据进行剔除,该执行模块3可进一步包括一评价优化单元31,用于优化数据评价及剔除算法。另外,该风电场数据清洗装置可进一步包含高速数据存取模块4及高速数据缓存模块5,该高速数据存取模块4,与具有读取、存储、处理数据功能的装置模块、单元等组件相连,用于进行被处理数据的高速存储、读取;该高速数据缓存模块5,具有读取、存储、处理数据功能的装置模块、单元等组件相连,用于中间处理数据的存储和读取。此外,该风电场数据清洗装置可进一步包含一数据可视化模块6,用于将中间或最终处理结果进行可视化展示。
本发明另一方面提供一种风电场数据清洗方法,请参阅附图2,包含如下流程:
流程81,获取风电场运行数据。
流程82,通过聚类分析方法对运行数据进行第一次聚类分析,将运行数据划分为若干组第一数据类Ci={C1,C2,...,Ci,...,Cm}(i=1,2,...,m);
流程83,通过聚类分析方法对每一组第一数据类Ci进行第二次聚类分析,获得若干组第二数据类Cij={Ci1,Ci2,...,Cij,...,Cin}(i=1,2,...,m;j=1,2,...,n);
流程84,通过Copula空间的数据分布特性评价及优化两次聚类后数据清洗结果;
流程85,根据风电场特性设置约束条件,如果评价及优化后的数据清洗结果符合约束条件则清洗结束,展示该数据清洗结果,如果评价及优化后的数据清洗结果不符合约束条件,则重新执行数据清洗方法。
以下将结合风电场数据清洗装置及方法对本发明的具体实施方式进行进一步阐述:
请参阅附图1及附图2,数据获取接口1执行流程81,获取风电场运行数据,数据获取接口1可以直接与风电场数据库(如风电场SCADA系统数据库)连接,也可以直接与存储有运行数据的存储装置连接,亦可通过网络云,有线无线等连接方式获取风电场的运行数据。数据接口1获取风电场运行数据后,将运行数据传递至数据分析模块2。
数据分析模块2的第一数据分析子模块21接收数据接口1传递的运行数据,执行流程82,通过聚类分析方法对运行数据进行第一次聚类分析,将运行数据划分为若干组第一数据类Ci={C1,C2,...,Ci,...,Cm}(i=1,2,...,m)。第一数据分析子模块21采用对噪声数据具有较强适应能力的聚类算法,譬如可选取欧式距离作为相似性测度,采用K-medoids聚类算法进行聚类。优选的,第一数据分析子模块21进行一次聚类分析获得第一数据类的分组数量根据风电机组的运行状态确定,进一步优选的,该分组数量应不少于3组且不大于5组。进一步优选的,执行流程82可进一步包含一初步筛选剔除流程,由一数据分析子模块21的数据聚类分析单元211进行数据聚类分析,数据聚类分析单元211将聚类分析后的数据传递给数据初步筛选单元212,数据初步筛选单元212根据风电场的特性对第一数据类中的异常数据进行剔除,所述风电场特性包括风电场风机设计参数、风电场风功率特性、风机功率特性等信息,优选的,初步筛选剔除的数据量应控制在剔除前数据总量的25%以内,即初步筛选后剩余数据量应为数据总量的75%及以上。
数据分析模块2的第二数据分析子模块22接收来自第一数据分析子模块21执行流程82后划分为若干组第一数据类的数据,执行流程83,对每一组第一数据类Ci进行第二次聚类分析,获得若干组第二数据类Cij={Ci1,Ci2,...,Cij,...,Cin}(i=1,2,...,m;j=1,2,...,n)。第二数据分析子模块22采用具有非凸聚类能力的聚类算法,优选的,可采用流形谱聚类算法,所述流形谱聚类算法定义数据点之间的流形距离,并定义流形距离核,建立流形距离核矩阵,以流形距离核矩阵为基础建立拉普拉斯矩阵,计算拉普拉斯矩阵的特征值及其特征列向量建立特征矩阵,基于该特征矩阵进行k均值聚类,获得聚类结果,并将与风电场风功率特性差距最远的数据作为异常数据予以剔除。进一步优选的,第二数据分析子模块22进行聚类分析的分组数量不少于3组且不大于10组。
数据分析模块2将若干组第二数据类传递给执行模块3,执行模块3执行流程84和流程85,优选的,该执行模块3可进一步包括一评价优化单元31,该评价优化单元31根据风电场风速与风功率的联合概率分布特性对执行模块3所接受的数据进行评价及优化,具体为,评价优化单元31根据风电场风速边缘概率分布与风功率边缘概率分布的联合概率分布特性构建Copula函数,建立数据点在Copula空间的概率分布,基于Copula空间中分段数据点到经过点(0,0)、(1,1)的对称直线的加权距离建立异常数据评价指标目标函数,并基于该目标函数采用粒子群优化算法对执行模块3所接受的数据进行评价及优化。评估优化单元31能够预置根据风电场特性预设的约束条件,并根据Copula空间中的指标目标函数和目标约束条件判断数据清洗结果是否满足该预设的约束条件,若数据清洗结果不满足约束条件,则从新执行数据清洗方法;若数据清洗结果满足约束条件,则数据清洗结束,并将最终优化结果在数据可视化模块6上显示。
下面结合华北某风电场主流1.5MW变速变桨且带双馈感应电机的风机风电场为例,根据2017年1月至4月期间的实测数据进行剔除清洗说明本发明的具体实施方式。
在本实施例中,风机运行数据从风电场SCADA系统中提取,采样周期为10分钟/点。
选取某台风机2017年1-4月的实测运行风速、功率数据,由数据获取接口1提取相关数据,传递给数据分析模块2,数据分析模块2的第一数据分析子模块21在时域空间上根据实测运行风速、功率数据建立如图3所示的风速-功率散点图。选取欧式距离作为相似性测度,采用k-medoids聚类算法对前述原始数据散点图进行第一次聚类分析,得到若干组第一数据类C={C1,C2,...,Ci,}(i=1,2,...,i)。结合风机设计参数、出厂风功率曲线等先验知识,判定聚类结果的合理性,不同分类结果的边界可以与变速变桨风机不同运行区域的边界大约接近,由于风电机组的运行状态至少有变转速、恒转速、恒功率三个阶段,则聚类数量应当至少为3组,同时,为了限制聚类总数,聚类数量上限设定为5;筛选后的剩余数据量大于75%。第一次聚类分析后的数据如图4所示,剔除效果如图5所示,本实施例中第一次聚类分组数量i取5。
第一数据分析子模块21分析获取的若干组第一数据类Ci中混杂有异常数据与有效数据,第一数据分析子模块21将若干组第一数据类Ci传递给第二数据分析子模块22,第二数据分析子模块22采用流形谱聚类对若干组第一数据类Ci进行第二次聚类分析,得到若干组第二数据类Cij={Ci1,Ci2,...,Cij,...,Cin}(j=1,2,...,n)。现就第二次聚类分析所采用的流形谱聚类算法介绍如下:定义Pkl为时域空间中运行数据点xk到数据点xl所有可能的路径集合,则xk到xl之间的流形距离定义为:
其中,dshor(xk,xl)是连接数据点xk和数据点xl之间的最短路径(k,l=1,2,...,o);dEucl是数据点xk到数据点xl连接路径上任意相邻两点之间的欧式距离;p为连接路径上的顶点数量;ρ为伸缩系数。在此基础上,定义流形距离核为:
其中,σ为核参数。
技术上述数据,流形谱聚类算法执行步骤如下:
第一、对风速、功率数据进行归一化,以消除不同变量数量级的影响,归一化方法如下:
第二、根据公式(3)得到任意两数据点间的流形距离核矩阵K∈Ro×o作为相似矩阵。
第三、建立拉普拉斯矩阵MLapl=J-1/2KJ-1/2,其中,J=diag(J1,J2,...,Jn)
第四、计算拉普拉斯矩阵MLapl的s个最大特征值及其特征列向量z1,z2,...,zs。建立特征矩阵Z=[z1,z2,...,zs]o×s,对该特征矩阵的列向量进行归一化
第五、对特征矩阵Znorm的每一列视为一个点并采用k均值聚类即可以得到最终流形聚类结果。
结合先验知识,确定最终聚类结果,如可根据即风电机组根据风速的不同,输出功率不同、风电机组的不同阶段运行状态及风电机组出厂时的理论运行功率曲线等因素将聚类筛选后结果要求界定为:剩余数据量在75%以上、第二次聚类分组数量在3到10之间,本实施例中,经过第一次聚类分析和数据剔除后,C1组的剩余数据及C5组的剩余数据均符合风电场风速、输出功率、理论运行功率等特性,相关数据可直接予以保留使用,无需再进行第二次聚类分析,因此仅就C2、C3、C4组进行第二次聚类分析及剔除,基于风电场特性,针对C2组n取6,针对C3组n取4,针对C4组n取4,第二次聚类分析后的数据如图6(a)、图6(b)、图6(c)所示。
第二数据分析子模块22将第二次聚类分析的结果以出厂风功率曲线作为参考,计算每一类Cij中所有点到出厂风功率曲线的平均距离,将平均距离最大的类视为异常类,并进行剔除。该异常类中通常包含大部分堆积型异常数据和部分稀疏型异常数据。数据剔除效果如图7所示。
第二数据分析子模块22将清洗的数据传递给执行模块3,该执行模块3可进一步包括一评价优化单元31,该评价优化单元31能够构建优化评价体系,并根据优化评价体系优化执行模块3的清洗方法,评价及优化数据剔除效果。该评价优化单元31采用核密度估计法分别建立风速数据V、功率数据P的边缘概率分布FV(V)、FP(P),建立其经验Copula函数,从而得到其在Copula空间的概率散点分布。这些散点沿经过(0,0)和(1,1)的对称直线而分布。定义u=FV(V)、v=FP(P),则Copula空间的概率散点可表示为(u,v)。在u=0.8、v=0.8处,将对称直线分为两段;该点大约额定风速、额定功率对应的概率点。对应每一段,计算概率散点到直线的平均距离dl1、dl2,进而得到Copula空间的加权距离dl=l1dl2+l2dl2。以此建立对异常数据的清洗效果优化评价方案。以前述优化评价方案的Copula空间评价指标作为目标函数,采用粒子群优化算法对堆积型异常数据清洗效果进行优化。根据优化后的数据清洗方案,对数据进行清洗剔除后的效果如图8所示。优选的,评价优化单元31设定约束条件为整体剩余数据量大于75%,第一次聚类分析聚类数量在3到5之间,第一次聚类分析剩余数据量大于75%,第二次聚类分析无监督聚类数量在3到10之间,第二次聚类分析剩余数据量大于75%。
本发明通过上述设备、方法结合风力发电过程运行特性,针对其运行数据中存在的异常数据,提出了一种高效的风电运行数据分步清洗方法,能够有效地剔除堆积型异常数据,通过合理评价、优化保证剩余有效数据占比及有效数据量。通过基于噪声鲁棒性聚类的运行数据第一次聚类分析、基于数据分布流形的第二次聚类分析等两阶段聚类算法,能够在时域空间有效识别和剔除异常数据,具有较高的可执行性。同时提供了对异常数据剔除效果的性能评价、优化及其分布式硬件实现,能够合理提高堆积型异常数据识别精度和执行效率,有利于异常数据识别的自动化实现和工业应用。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括上述方法的实施例的流程。其中,所述的存储介质可为磁碟、光盘、只读存储记忆体(ROM)或随机存储记忆体(RAM)。
以上所述仅是本发明的优选实施例而已,并非对本发明做任何形式上的限制,虽然本发明已以优选实施例披露如上,然而并非用以限定本发明,任何本领域的技术人员,在不脱离本发明技术方案的范围内,应当可以利用上述揭示的技术内容作出些许改变或修饰为等同变化的等效实施例,但凡是未脱离本发明技术方案的内容,依据本发明的技术实质对以上实施例所作的任何简单修改、等同变化与修饰,均仍属于本发明技术方案的范围内。
Claims (21)
1.一种风电场数据清洗方法,其特征在于,所述方法包括以下步骤:
获取风电场运行数据;
通过聚类分析方法对运行数据进行第一次聚类分析,将运行数据划分为若干组第一数据类Ci={C1,C2,...,Ci,...,Cm}(i=1,2,...,M);
通过聚类分析方法对每一组第一数据类Ci进行第二次聚类分析,获得若干组第二数据类Cij={Ci1,Ci2,...,Cij,...,Cin}(i=1,2,...,m;j=1,2,...,n);
通过联合概率分布空间的数据分布特性评价及优化两次聚类后的数据清洗结果。
2.根据权利要求1所述的一种风电场数据清洗方法,其特征在于,所述第一次聚类分析采用对噪声数据具有较强适应能力的聚类算法。
3.根据权利要求1所述的一种风电场数据清洗方法,其特征在于,所述第一次聚类分析选取欧式距离作为相似性测度,采用K-medoids聚类算法。
4.根据权利要求1所述的一种风电场数据清洗方法,其特征在于,第一次聚类分析将运行数据分组数量不少于3组且不大于5组。
5.根据权利要求1所述的一种风电场数据清洗方法,其特征在于,第一次聚类分析后根据风电场的特性对第一数据类中的异常数据进行剔除。
6.根据权利要求5所述的一种风电场数据清洗方法,其特征在于,异常数据剔除的数据量应为剔除前数据总量的25%以内。
7.根据权利要求5所述的一种风电场数据清洗方法,其特征在于,第一次聚类分析后剔除异常数据所根据风电场的特性包括风电场风机设计参数或风电场风功率特性。
8.根据权利要求1所述的一种风电场数据清洗方法,其特征在于,第二次聚类分析采用具有非凸聚类能力的聚类算法。
9.根据权利要求1所述的一种风电场数据清洗方法,其特征在于,第二次聚类分析采用流形谱聚类算法。
10.根据权利要求9所述的一种风电场数据清洗方法,其特征在于,所述流形谱聚类算法定义数据点之间的流形距离,并定义流形距离核,建立流形距离核矩阵,以流形距离核矩阵为基础建立拉普拉斯矩阵,计算拉普拉斯矩阵特征值及其特征列向量建立特征矩阵,基于该特征矩阵进行k均值聚类,获得聚类结果。
11.根据权利要求1所述的一种风电场数据清洗方法,其特征在于,第二次聚类分析的分组数量不少于3组且不大于10组。
12.根据权利要求1所述的一种风电场数据清洗方法,其特征在于,第二次聚类分析后根据风电场风功率特性对第二次聚类中的异常数据进行剔除。
13.根据权利要求1所述的一种风电场数据清洗方法,其特征在于,根据风电场风速边缘概率分布与风功率边缘概率分布的联合概率分布特性构建Copula函数,建立数据点在Copula空间的概率分布,基于Copula空间中分段数据点到经过点(0,0)、(1,1)的对称直线的加权距离进行数据清洗结果评价。
14.根据权利要求1所述的一种风电场数据清洗方法,其特征在于,根据风电场风速边缘概率分布与风功率边缘概率分布的联合概率分布特性构建Copula函数,建立数据点在Copula空间的概率分布,基于Copula空间中分段数据点到经过点(0,0)、(1,1)的对称直线的加权距离建立异常数据评价指标目标函数,基于该目标函数采用粒子群优化算法对数据清洗结果进行优化评价。
15.根据权利要求13或14任一项所述的一种风电场数据清洗方法,其特征在于,根据风电场风速边缘概率分布与风功率边缘概率分布的联合概率分布特性设置约束条件,数据清洗结果符合约束条件,则清洗结束,数据清洗结果不符合约束条件,则重新执行数据清洗。
16.一种风电场数据清洗装置,其特征在于:
具有一数据获取接口,用于获取风电场运行数据;
一数据分析模块,包括一第一数据分析子模块和一第二数据分析子模块;
该第一数据分析子模块接收所述数据获取接口获取的运行数据,对运行数据进行第一次聚类分析,将运行数据划分为若干组第一数据类;
该第二数据分析子模块接收第一数据分析子模块的分析结果,通过聚类分析方法对每一组第一数据类进行第二次聚类分析,获得若干组第二数据类;
一执行模块,接收第二数据分析子模块的分析结果,通过联合概率分布空间的数据分布特性评价及优化两次聚类后的数据清洗结果。
17.根据权利要求16所述的风电场数据清洗装置,其特征在于,所述第一数据分析子模块采用K-medoids聚类算法进行聚类分析,选取欧式距离作为数据的相似性测度。
18.根据权利要求16所述的风电场数据清洗装置,其特征在于,所述第一数据分析子模块包括一数据聚类分析单元和一数据初步筛选单元,数据聚类分析单元对运行数据聚类分析获得第一数据类,数据初步筛选单元接收第一数据类,并根据风电场的特性对第一数据类中的异常数据进行初步剔除后,传递给第二数据分析子模块。
19.根据权利要求16所述的风电场数据清洗装置,其特征在于,所述第二数据分析子模块采用流形谱聚类算法定义数据点之间的流形距离,并定义流形距离核,建立流形距离核矩阵,以流形距离核矩阵为基础建立拉普拉斯矩阵,计算拉普拉斯矩阵的特征值及其特征列向量,并建立特征矩阵,基于该特征矩阵进行k均值聚类,获得聚类结果,并将与风电场风功率特性差距最远的数据作为异常数据予以剔除。
20.根据权利要求16所述的风电场数据清洗装置,其特征在于,所述执行模块进一步包括一评价优化单元,该评价优化单元根据风电场风速边缘概率分布与风功率边缘概率分布的联合概率分布特性构建Copula函数,建立数据点在Copula空间的概率分布,基于Copula空间中分段数据点到经过点(0,0)、(1,1)的对称直线的加权距离建立异常数据评价指标目标函数,基于该目标函数采用粒子群优化算法对执行模块异常数据剔除进行优化。
21.根据权利要求20所述的风电场数据清洗装置,其特征在于,该优化评价单元根据设置的约束条件对两次聚类后的数据清洗结果进行优化评价,数据清洗结果满足约束条件则数据清洗结束,数据清洗结果不满足约束条件则重新进行数据清洗。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910737434.2A CN110674120B (zh) | 2019-08-09 | 2019-08-09 | 一种风电场数据清洗方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910737434.2A CN110674120B (zh) | 2019-08-09 | 2019-08-09 | 一种风电场数据清洗方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110674120A true CN110674120A (zh) | 2020-01-10 |
CN110674120B CN110674120B (zh) | 2024-01-19 |
Family
ID=69068722
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910737434.2A Active CN110674120B (zh) | 2019-08-09 | 2019-08-09 | 一种风电场数据清洗方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110674120B (zh) |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112085115A (zh) * | 2020-09-16 | 2020-12-15 | 华北电力大学 | 高维空间异常数据优化识别方法 |
CN112507616A (zh) * | 2020-12-03 | 2021-03-16 | 重庆大学 | 一种基于谱聚类的风电场旗舰风机优化选取方法 |
CN112765142A (zh) * | 2021-01-18 | 2021-05-07 | 北京易莱信科技有限公司 | 一种基于两步聚类算法的异常数据诊断方法及系统 |
CN112783883A (zh) * | 2021-01-22 | 2021-05-11 | 广东电网有限责任公司东莞供电局 | 一种多源数据接入下电力数据标准化清洗方法和装置 |
CN112950403A (zh) * | 2021-01-29 | 2021-06-11 | 上海电气风电集团股份有限公司 | 风机多工况数据异常处理的方法、装置及计算机可读存储介质 |
CN113505120A (zh) * | 2021-09-10 | 2021-10-15 | 西南交通大学 | 一种大规模人脸数据集的双阶段噪声清洗方法 |
CN116644061A (zh) * | 2023-07-27 | 2023-08-25 | 北京全路通信信号研究设计院集团有限公司 | 一种铁路信号集中监测系统数据清洗方法及系统 |
CN117056758A (zh) * | 2023-10-11 | 2023-11-14 | 中国华能集团清洁能源技术研究院有限公司 | 风电机组运行状态识别方法、装置及设备 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20090132568A1 (en) * | 2007-11-15 | 2009-05-21 | International Business Machines Corporation | Data classification by kernel density shape interpolation of clusters |
CN103136757A (zh) * | 2013-04-02 | 2013-06-05 | 西安电子科技大学 | 基于流形距离的两阶段聚类算法的sar图像分割方法 |
CN109783486A (zh) * | 2019-01-17 | 2019-05-21 | 华北电力大学 | 数据清洗方法、装置及服务器 |
-
2019
- 2019-08-09 CN CN201910737434.2A patent/CN110674120B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20090132568A1 (en) * | 2007-11-15 | 2009-05-21 | International Business Machines Corporation | Data classification by kernel density shape interpolation of clusters |
CN103136757A (zh) * | 2013-04-02 | 2013-06-05 | 西安电子科技大学 | 基于流形距离的两阶段聚类算法的sar图像分割方法 |
CN109783486A (zh) * | 2019-01-17 | 2019-05-21 | 华北电力大学 | 数据清洗方法、装置及服务器 |
Cited By (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112085115A (zh) * | 2020-09-16 | 2020-12-15 | 华北电力大学 | 高维空间异常数据优化识别方法 |
CN112507616A (zh) * | 2020-12-03 | 2021-03-16 | 重庆大学 | 一种基于谱聚类的风电场旗舰风机优化选取方法 |
CN112507616B (zh) * | 2020-12-03 | 2023-02-03 | 重庆大学 | 一种基于谱聚类的风电场旗舰风机优化选取方法 |
CN112765142A (zh) * | 2021-01-18 | 2021-05-07 | 北京易莱信科技有限公司 | 一种基于两步聚类算法的异常数据诊断方法及系统 |
CN112783883A (zh) * | 2021-01-22 | 2021-05-11 | 广东电网有限责任公司东莞供电局 | 一种多源数据接入下电力数据标准化清洗方法和装置 |
CN112950403A (zh) * | 2021-01-29 | 2021-06-11 | 上海电气风电集团股份有限公司 | 风机多工况数据异常处理的方法、装置及计算机可读存储介质 |
CN113505120A (zh) * | 2021-09-10 | 2021-10-15 | 西南交通大学 | 一种大规模人脸数据集的双阶段噪声清洗方法 |
CN116644061A (zh) * | 2023-07-27 | 2023-08-25 | 北京全路通信信号研究设计院集团有限公司 | 一种铁路信号集中监测系统数据清洗方法及系统 |
CN116644061B (zh) * | 2023-07-27 | 2023-10-27 | 北京全路通信信号研究设计院集团有限公司 | 一种铁路信号集中监测系统数据清洗方法及系统 |
CN117056758A (zh) * | 2023-10-11 | 2023-11-14 | 中国华能集团清洁能源技术研究院有限公司 | 风电机组运行状态识别方法、装置及设备 |
CN117056758B (zh) * | 2023-10-11 | 2024-01-30 | 中国华能集团清洁能源技术研究院有限公司 | 风电机组运行状态识别方法、装置及设备 |
Also Published As
Publication number | Publication date |
---|---|
CN110674120B (zh) | 2024-01-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110674120A (zh) | 一种风电场数据清洗方法及装置 | |
CN110410282B (zh) | 基于som-mqe和sfcm的风电机组健康状态在线监测及故障诊断方法 | |
WO2021073462A1 (zh) | 基于相似日负荷曲线的10kV静态负荷模型参数辨识方法 | |
CN104809658B (zh) | 一种低压配网台区线损的快速分析方法 | |
CN111369070B (zh) | 一种基于包络线聚类的多模融合光伏功率预测方法 | |
CN103324980A (zh) | 一种风电场风速预测方法 | |
CN112116058A (zh) | 一种基于粒子群算法优化多粒度级联森林模型的变压器故障诊断方法 | |
CN111722046A (zh) | 一种基于深度森林模型的变压器故障诊断方法 | |
CN110795690A (zh) | 风电场运行异常数据检测方法 | |
CN110909977A (zh) | 基于adasyn-dhsd-et的电网故障诊断方法 | |
CN111525587B (zh) | 一种基于无功负荷态势的电网无功电压控制方法及系统 | |
CN108334894B (zh) | 基于无监督机器学习的变压器油温异常识别方法 | |
CN113177594B (zh) | 基于贝叶斯优化的pca-极限随机树的空调故障诊断方法 | |
CN112186761B (zh) | 一种基于概率分布的风电功率场景生成方法及系统 | |
CN116522268B (zh) | 一种配电网的线损异常识别方法 | |
CN116148753A (zh) | 一种智能电能表运行误差监测系统 | |
CN112990627B (zh) | 电能质量评估方法 | |
CN110705859A (zh) | 基于pca-自组织神经网络的中低压配电网运行状态评估方法 | |
CN112288157A (zh) | 一种基于模糊聚类与深度强化学习的风电场功率预测方法 | |
CN112002949A (zh) | 一种动力电池主动均衡的监测管理方法及系统 | |
CN116771610A (zh) | 一种调整风电机组变桨系统故障评估值的方法 | |
CN113469252A (zh) | 一种考虑不平衡样本的特高压换流阀运行状态评估方法 | |
CN107274025B (zh) | 一种实现用电模式智能识别与管理的系统和方法 | |
CN113379116A (zh) | 基于聚类和卷积神经网络的台区线损预测方法 | |
CN110427019B (zh) | 一种基于多变量判别分析的工业过程故障分类方法及控制装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |