CN109918364A - 一种基于二维概率密度估计和四分位法的数据清洗方法 - Google Patents

一种基于二维概率密度估计和四分位法的数据清洗方法 Download PDF

Info

Publication number
CN109918364A
CN109918364A CN201910149966.4A CN201910149966A CN109918364A CN 109918364 A CN109918364 A CN 109918364A CN 201910149966 A CN201910149966 A CN 201910149966A CN 109918364 A CN109918364 A CN 109918364A
Authority
CN
China
Prior art keywords
data
power
pitch angle
propeller pitch
probability density
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910149966.4A
Other languages
English (en)
Other versions
CN109918364B (zh
Inventor
韩爽
乔延辉
葛畅
刘永前
李莉
阎洁
褚景春
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guodian United Power Technology Co Ltd
North China Electric Power University
Original Assignee
Guodian United Power Technology Co Ltd
North China Electric Power University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guodian United Power Technology Co Ltd, North China Electric Power University filed Critical Guodian United Power Technology Co Ltd
Priority to CN201910149966.4A priority Critical patent/CN109918364B/zh
Publication of CN109918364A publication Critical patent/CN109918364A/zh
Application granted granted Critical
Publication of CN109918364B publication Critical patent/CN109918364B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Wind Motors (AREA)

Abstract

本发明属于风电机组数据测量处理技术领域,尤其涉及一种基于二维概率密度估计和四分位法的数据清洗方法,包括:采集风电机组轮毂高度处风速、功率、桨距角数据后归一化预处理,形成样本数据集;采用二维非参数核密度估计方法计算功率和桨距角的联合概率密度函数,并通过网格划分法确定桨距角分界线位置;基于桨距角分界线,将功率和桨距角数据划分为正常数据和异常数据,并采用数据时间对标法得到正常的风速和功率数据;针对清洗后遗漏异常数据,采用四分位法进行数据再清洗。本方法通用性强,可有效识别过渡区域数据类别和科学地清洗大量堆积型限电数据,为风电机组的效能评估、性能分析、状态诊断、健康管理以及功率预测等提供可靠的数据基础。

Description

一种基于二维概率密度估计和四分位法的数据清洗方法
技术领域
本发明属于风电机组数据测量处理技术领域,尤其涉及一种基于二维概率密度估计和四分位法的数据清洗方法。
背景技术
风电机组实测功率曲线能够表征风电机组实际运行状况,是进行风电机组功率特性评估及预测的前提和关键。风电机组的实测功率曲线是动态的,受气象因素、环境条件、系统控制、设备故障等一系列因素的影响,采集得到的风速功率数据存在大量的异常数据,无法直接用于功率曲线拟合,需要先进行异常数据清洗。考虑到实际功率曲线复杂多变的特点,传统的数据清洗方法普遍缺乏通用性,尤其对于存在大量堆积型限电数据样本,传统的数据清洗方法无法有效识别过渡区域数据类别,容易造成正常数据的错删和异常数据的漏删,影响数据样本的完整性和正确性。
发明内容
针对现有技术的不足,本发明提供一种基于二维概率密度估计和四分位法的数据清洗方法,包括:
步骤1:采集风电机组轮毂高度处风速、功率、桨距角数据后归一化预处理,形成样本数据集;
步骤2:采用二维非参数核密度估计方法计算功率和桨距角的联合概率密度函数,并通过网格划分法确定桨距角分界线位置;
步骤3:基于桨距角分界线,将功率和桨距角数据划分为正常数据和异常数据,并采用数据时间对标法得到正常的风速和功率数据;
步骤4:针对清洗后遗漏异常数据,采用四分位法进行数据再清洗。
所述步骤2包括:
步骤201:设置功率和桨距角联合概率密度阈值,剔除低概率密度异常点;
步骤202:将功率和桨距角为坐标轴划分二维网格,并以每个网格内联合概率密度最大值作为该网格的参考联合概率密度;
步骤203:拟合每个功率区间内参考概率密度随桨距角的变化曲线,取第1个极小值所处网格的功率中心点,桨距角下界作为该区间的桨距角分界点坐标;
步骤203:统计各个功率区间内桨距角分割点坐标,形成桨距角分割点坐标集,通过曲线拟合得到桨距角分界线。
所述步骤4包括:
步骤401:将清洗后的数据根据风速值划分为多个风速区间,采用四分位法求解每个风速区间内功率的异常值内限,剔除内限以外的异常数据,完成纵向异常数据点清洗;
步骤402:基于上述数据,根据功率值划分为多个功率区间,采用四分位法求解每个功率区间内风速的异常值内限,剔除内限以外的异常数据,完成横向异常数据点清洗。
本发明的有益效果:
本发明提供的数据清洗方法通用性强,可以有效识别过渡区域数据类别,能够科学地清洗大量堆积型限电数据,为风电机组运行效能评估、发电性能分析、状态诊断及健康管理以及风电功率预测等领域的研究提供可靠的数据基础。
附图说明
图1是基于二维概率密度估计和四分位法数据清洗流程图;
图2是风电机组实测风速-功率散点图;
图3是风电机组实测功率-桨距角散点图;
图4是实测功率-桨距角二维概率密度分布图;
图5是正常数据和异常数据桨距角分界线示意图;
图6是风电机组正常数据和异常数据识别结果图;
图7是基于四分位法数据清洗结果图。
具体实施方式
下面结合附图,对实施例作详细说明。
本发明涉及一种基于二维概率密度估计和四分位法的数据清洗方法,如图1所示,具体实施步骤如下:
(1)采集风电机组轮毂高度处风速、功率、桨距角等数据,绘制风电机组实测风速-功率散点图,如附图2所示;绘制风电机组实测功率-桨距角散点图,如附图3所示。采用归一化公式(1)对数据进行预处理,形成样本数据集;
(2)采用二维非参数核密度估计方法计算功率和桨距角的联合概率密度函数,如式(2)所示,实测功率-桨距角二维概率密度分布如附图4所示,并通过网格划分法确定桨距角分界线位置;
式(2)中,为基于非参数核密度估计的功率和桨距角联合概率密度函数,核函数选用的是高斯核函数,hP和hβ为窗宽,N为数据样本总数。
1)设置功率和桨距角联合概率密度阈值为3,剔除低概率密度异常点;
2)设置网格,将功率和桨距角划分为100×100个网格,G(i,j)={[Pi-1,Pi],[βj-1j]};i=1,2,…M;j=1,2,…N,M为功率轴区间个数,此处为100,N为桨距角轴区间个数,此处为100,并以每个网格内联合概率密度最大值作为该网格的参考联合概率密度;
3)拟合每个功率区间内参考概率密度随桨距角的变化曲线,取第1个极小值所处网格的功率中心点,桨距角下界作为该区间的桨距角分界点坐标,记为S(i),i=1,2,…M,M=100;
4)统计各个功率区间内桨距角分割点坐标,形成桨距角分割点坐标集S={s(1),s(2),…s(M)},M=100,通过曲线拟合得到桨距角分界线,如附图5所示。
(3)基于桨距角分界线,将功率和桨距角数据划分为正常数据和异常数据,并采用数据时间对标法得到正常的风速和功率数据,如附图6所示;
(4)针对清洗后遗漏异常数据,采用四分位法进行数据再清洗,数据清洗结果如附图7所示,具体清洗步骤如下:
1)将清洗后的数据根据风速值划分为m=44个风速区间,采用四分位法求解每个风速区间内功率的异常值内限,如公式(3)所示,此处m剔除内限以外的异常数据,完成纵向异常数据点清洗;
[Pi l,Pi u]=[Pi1-1.5Ii,Pi3+1.5Ii],i=1,2,…m (3)
式(3)中,Pi l和Pi u为第i个风速区间内功率正常值的上下限,Pi1和Pi3为第i个风速区间内功率数据样本的第1分位数和第3分位数,Ii为第i个风速区间内功率数据样本的四分位距,Ii=Pi3-Pi1
2)基于上述数据,根据功率值划分为n=50个功率区间,采用四分位法求解每个功率区间内风速的异常值内限,如公式(4)所示,剔除内限以外的异常数据,完成横向异常数据点清洗。
[Vi l,Vi u]=[Vi1-1.5Ii,Vi3+1.5Ii],i=1,2,…n (4)
式(4)中,Vi l和Vi u为第i个风速区间内功率正常值的上下限,Vi1和Vi3为第i个风速区间内功率数据样本的第1分位数和第3分位数,Ii为第i个风速区间内功率数据样本的四分位距,Ii=Vi3-Vi1
通过具体实例分析可以看出:本发明提出的基于二维概率密度估计和四分位法的数据清洗方法通用性强,可以有效识别过渡区域数据类别,能够科学地清洗大量堆积型限电数据。
此实施例仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应该以权利要求的保护范围为准。

Claims (3)

1.一种基于二维概率密度估计和四分位法的数据清洗方法,其特征在于,包括:
步骤1:采集风电机组轮毂高度处风速、功率、桨距角数据后归一化预处理,形成样本数据集;
步骤2:采用二维非参数核密度估计方法计算功率和桨距角的联合概率密度函数,并通过网格划分法确定桨距角分界线位置;
步骤3:基于桨距角分界线,将功率和桨距角数据划分为正常数据和异常数据,并采用数据时间对标法得到正常的风速和功率数据;
步骤4:针对清洗后遗漏异常数据,采用四分位法进行数据再清洗。
2.根据权利要求1所述方法,其特征在于,所述步骤2包括:
步骤201:设置功率和桨距角联合概率密度阈值,剔除低概率密度异常点;
步骤202:将功率和桨距角为坐标轴划分二维网格,并以每个网格内联合概率密度最大值作为该网格的参考联合概率密度;
步骤203:拟合每个功率区间内参考概率密度随桨距角的变化曲线,取第1个极小值所处网格的功率中心点,桨距角下界作为该区间的桨距角分界点坐标;
步骤203:统计各个功率区间内桨距角分割点坐标,形成桨距角分割点坐标集,通过曲线拟合得到桨距角分界线。
3.根据权利要求1或2所述方法,其特征在于,所述步骤4包括:
步骤401:将清洗后的数据根据风速值划分为多个风速区间,采用四分位法求解每个风速区间内功率的异常值内限,剔除内限以外的异常数据,完成纵向异常数据点清洗;
步骤402:基于上述数据,根据功率值划分为多个功率区间,采用四分位法求解每个功率区间内风速的异常值内限,剔除内限以外的异常数据,完成横向异常数据点清洗。
CN201910149966.4A 2019-02-28 2019-02-28 一种基于二维概率密度估计和四分位法的数据清洗方法 Active CN109918364B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910149966.4A CN109918364B (zh) 2019-02-28 2019-02-28 一种基于二维概率密度估计和四分位法的数据清洗方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910149966.4A CN109918364B (zh) 2019-02-28 2019-02-28 一种基于二维概率密度估计和四分位法的数据清洗方法

Publications (2)

Publication Number Publication Date
CN109918364A true CN109918364A (zh) 2019-06-21
CN109918364B CN109918364B (zh) 2020-10-27

Family

ID=66962532

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910149966.4A Active CN109918364B (zh) 2019-02-28 2019-02-28 一种基于二维概率密度估计和四分位法的数据清洗方法

Country Status (1)

Country Link
CN (1) CN109918364B (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110795690A (zh) * 2019-10-24 2020-02-14 大唐(赤峰)新能源有限公司 风电场运行异常数据检测方法
CN110955650A (zh) * 2019-11-20 2020-04-03 云南电网有限责任公司电力科学研究院 标准实验室数字式温湿度计超差数据的清洗方法
CN111275570A (zh) * 2020-01-13 2020-06-12 浙江大学 一种基于迭代式统计与假设检验的风电机组功率异常值检测方法
CN112085115A (zh) * 2020-09-16 2020-12-15 华北电力大学 高维空间异常数据优化识别方法
CN112632773A (zh) * 2020-12-21 2021-04-09 北京华能新锐控制技术有限公司 一种风电机组可靠性预测方法
CN112700085A (zh) * 2020-12-11 2021-04-23 华南理工大学 基于关联规则的复杂系统稳态运行参数优化方法、系统和介质

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106355512A (zh) * 2016-08-26 2017-01-25 华北电力大学 一种基于概率密度极大值优化的风电机组功率曲线拟合方法
CN108412710A (zh) * 2018-01-30 2018-08-17 同济大学 一种风电机组风功率数据清洗方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106355512A (zh) * 2016-08-26 2017-01-25 华北电力大学 一种基于概率密度极大值优化的风电机组功率曲线拟合方法
CN108412710A (zh) * 2018-01-30 2018-08-17 同济大学 一种风电机组风功率数据清洗方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
YONGQIAN LIU ET AL.: "A Hybrid Forecasting Method for Wind Power Ramp Based on Orthogonal Test and Support Vector Machine", 《IEEE TRANSACTIONS ON SUSTAINABLE ENERGY》 *
沈小军 等: "风电机组风速-功率异常运行数据特征及清洗方法", 《电工技术学报》 *
甘迪 等: "考虑爬坡特性的短期风电功率概率预测", 《电力自动化设备》 *

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110795690A (zh) * 2019-10-24 2020-02-14 大唐(赤峰)新能源有限公司 风电场运行异常数据检测方法
CN110955650A (zh) * 2019-11-20 2020-04-03 云南电网有限责任公司电力科学研究院 标准实验室数字式温湿度计超差数据的清洗方法
CN110955650B (zh) * 2019-11-20 2023-06-23 云南电网有限责任公司电力科学研究院 标准实验室数字式温湿度计超差数据的清洗方法
CN111275570A (zh) * 2020-01-13 2020-06-12 浙江大学 一种基于迭代式统计与假设检验的风电机组功率异常值检测方法
CN112085115A (zh) * 2020-09-16 2020-12-15 华北电力大学 高维空间异常数据优化识别方法
CN112700085A (zh) * 2020-12-11 2021-04-23 华南理工大学 基于关联规则的复杂系统稳态运行参数优化方法、系统和介质
CN112632773A (zh) * 2020-12-21 2021-04-09 北京华能新锐控制技术有限公司 一种风电机组可靠性预测方法
CN112632773B (zh) * 2020-12-21 2024-04-05 北京华能新锐控制技术有限公司 一种风电机组可靠性预测方法

Also Published As

Publication number Publication date
CN109918364B (zh) 2020-10-27

Similar Documents

Publication Publication Date Title
CN109918364A (zh) 一种基于二维概率密度估计和四分位法的数据清洗方法
CN109740175B (zh) 一种面向风电机组功率曲线数据的离群点判别方法
CN108412710B (zh) 一种风电机组风功率数据清洗方法
CN110410282A (zh) 基于som-mqe和sfcm的风电机组健康状态在线监测及故障诊断方法
CN103631681B (zh) 一种在线修复风电场异常数据的方法
CN102750703B (zh) 一种基于直线分割的遥感图像机场自动检测方法
CN108171400A (zh) 一种基于异常点及离群点检测的风机功率曲线数据预处理方法
CN106321368A (zh) 基于运营风机scada数据的海上风电场尾流损失测量方法
CN103940611B (zh) 一种风电机组变工况下滚动轴承自适应异常检测方法
CN109324241B (zh) 一种变电站接地网腐蚀诊断预警方法及系统
CN111260503B (zh) 一种基于聚类中心优化的风电机组功率曲线离群点检测方法
CN113236508B (zh) 一种用于风力发电机组风速-功率异常数据检测的方法
CN105424105B (zh) 除尘系统主管风量检测方法及在线检测装置
CN109190184A (zh) 一种供热系统历史数据预处理方法
Zhou et al. A semi-supervised anomaly detection method for wind farm power data preprocessing
CN105279384A (zh) 一种基于风力机机舱风速的来流风速计算方法及装置
CN106650977A (zh) 应用于新建风电场的短期功率预测方法
Sun et al. Feature extraction and pattern identification for anemometer condition diagnosis
CN103729810B (zh) 一种嵌入式绿色建筑可视化评价诊断方法
CN107607342A (zh) 空调机房设备群的健康能效检测方法
CN113739082A (zh) 一种基于多区域联合评估的供水管网漏损监测方法
CN107861108A (zh) 一种基于功率谱盒维数的海上目标检测方法
CN108932554A (zh) 一种风电场流场量测点的配置优化方法及装置
CN115063474B (zh) 一种树木迎风面积计算方法及系统
TWI379093B (en) Method and portable device for fault diagnosis of photovoltaic power generating system

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant