CN109918364B - 一种基于二维概率密度估计和四分位法的数据清洗方法 - Google Patents
一种基于二维概率密度估计和四分位法的数据清洗方法 Download PDFInfo
- Publication number
- CN109918364B CN109918364B CN201910149966.4A CN201910149966A CN109918364B CN 109918364 B CN109918364 B CN 109918364B CN 201910149966 A CN201910149966 A CN 201910149966A CN 109918364 B CN109918364 B CN 109918364B
- Authority
- CN
- China
- Prior art keywords
- data
- power
- pitch angle
- probability density
- wind speed
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Landscapes
- Wind Motors (AREA)
Abstract
本发明属于风电机组数据测量处理技术领域,尤其涉及一种基于二维概率密度估计和四分位法的数据清洗方法,包括:采集风电机组轮毂高度处风速、功率、桨距角数据后归一化预处理,形成样本数据集;采用二维非参数核密度估计方法计算功率和桨距角的联合概率密度函数,并通过网格划分法确定桨距角分界线位置;基于桨距角分界线,将功率和桨距角数据划分为正常数据和异常数据,并采用数据时间对标法得到正常的风速和功率数据;针对清洗后遗漏异常数据,采用四分位法进行数据再清洗。本方法通用性强,可有效识别过渡区域数据类别和科学地清洗大量堆积型限电数据,为风电机组的效能评估、性能分析、状态诊断、健康管理以及功率预测等提供可靠的数据基础。
Description
技术领域
本发明属于风电机组数据测量处理技术领域,尤其涉及一种基于二维概率密度估计和四分位法的数据清洗方法。
背景技术
风电机组实测功率曲线能够表征风电机组实际运行状况,是进行风电机组功率特性评估及预测的前提和关键。风电机组的实测功率曲线是动态的,受气象因素、环境条件、系统控制、设备故障等一系列因素的影响,采集得到的风速功率数据存在大量的异常数据,无法直接用于功率曲线拟合,需要先进行异常数据清洗。考虑到实际功率曲线复杂多变的特点,传统的数据清洗方法普遍缺乏通用性,尤其对于存在大量堆积型限电数据样本,传统的数据清洗方法无法有效识别过渡区域数据类别,容易造成正常数据的错删和异常数据的漏删,影响数据样本的完整性和正确性。
发明内容
针对现有技术的不足,本发明提供一种基于二维概率密度估计和四分位法的数据清洗方法,包括:
步骤1:采集风电机组轮毂高度处风速、功率、桨距角数据后归一化预处理,形成样本数据集;
步骤2:采用二维非参数核密度估计方法计算功率和桨距角的联合概率密度函数,并通过网格划分法确定桨距角分界线位置;
步骤3:基于桨距角分界线,将功率和桨距角数据划分为正常数据和异常数据,并采用数据时间对标法得到正常的风速和功率数据;
步骤4:针对清洗后遗漏异常数据,采用四分位法进行数据再清洗。
所述步骤2包括:
步骤201:设置功率和桨距角联合概率密度阈值,剔除低概率密度异常点;
步骤202:将功率和桨距角为坐标轴划分二维网格,并以每个网格内联合概率密度最大值作为该网格的参考联合概率密度;
步骤203:拟合每个功率区间内参考概率密度随桨距角的变化曲线,取第1个极小值所处网格的功率中心点,桨距角下界作为该区间的桨距角分界点坐标;
步骤203:统计各个功率区间内桨距角分割点坐标,形成桨距角分割点坐标集,通过曲线拟合得到桨距角分界线。
所述步骤4包括:
步骤401:将清洗后的数据根据风速值划分为多个风速区间,采用四分位法求解每个风速区间内功率的异常值内限,剔除内限以外的异常数据,完成纵向异常数据点清洗;
步骤402:基于上述数据,根据功率值划分为多个功率区间,采用四分位法求解每个功率区间内风速的异常值内限,剔除内限以外的异常数据,完成横向异常数据点清洗。
本发明的有益效果:
本发明提供的数据清洗方法通用性强,可以有效识别过渡区域数据类别,能够科学地清洗大量堆积型限电数据,为风电机组运行效能评估、发电性能分析、状态诊断及健康管理以及风电功率预测等领域的研究提供可靠的数据基础。
附图说明
图1是基于二维概率密度估计和四分位法数据清洗流程图;
图2是风电机组实测风速-功率散点图;
图3是风电机组实测功率-桨距角散点图;
图4是实测功率-桨距角二维概率密度分布图;
图5是正常数据和异常数据桨距角分界线示意图;
图6是风电机组正常数据和异常数据识别结果图;
图7是基于四分位法数据清洗结果图。
具体实施方式
下面结合附图,对实施例作详细说明。
本发明涉及一种基于二维概率密度估计和四分位法的数据清洗方法,如图1所示,具体实施步骤如下:
(1)采集风电机组轮毂高度处风速、功率、桨距角等数据,绘制风电机组实测风速-功率散点图,如附图2所示;绘制风电机组实测功率-桨距角散点图,如附图3所示。采用归一化公式(1)对数据进行预处理,形成样本数据集;
(2)采用二维非参数核密度估计方法计算功率和桨距角的联合概率密度函数,如式(2)所示,实测功率-桨距角二维概率密度分布如附图4所示,并通过网格划分法确定桨距角分界线位置;
1)设置功率和桨距角联合概率密度阈值为3,剔除低概率密度异常点;
2)设置网格,将功率和桨距角划分为100×100个网格,G(i,j)={[Pi-1,Pi],[βj-1,βj]};i=1,2,…M;j=1,2,…N,M为功率轴区间个数,此处为100,N为桨距角轴区间个数,此处为100,并以每个网格内联合概率密度最大值作为该网格的参考联合概率密度;
3)拟合每个功率区间内参考概率密度随桨距角的变化曲线,取第1个极小值所处网格的功率中心点,桨距角下界作为该区间的桨距角分界点坐标,记为S(i),i=1,2,…M,M=100;
4)统计各个功率区间内桨距角分割点坐标,形成桨距角分割点坐标集S={s(1),s(2),…s(M)},M=100,通过曲线拟合得到桨距角分界线,如附图5所示。
(3)基于桨距角分界线,将功率和桨距角数据划分为正常数据和异常数据,并采用数据时间对标法得到正常的风速和功率数据,如附图6所示;
(4)针对清洗后遗漏异常数据,采用四分位法进行数据再清洗,数据清洗结果如附图7所示,具体清洗步骤如下:
1)将清洗后的数据根据风速值划分为m=44个风速区间,采用四分位法求解每个风速区间内功率的异常值内限,如公式(3)所示,此处m剔除内限以外的异常数据,完成纵向异常数据点清洗;
[Pi l,Pi u]=[Pi1-1.5Ii,Pi3+1.5Ii],i=1,2,…m (3)
式(3)中,Pi l和Pi u为第i个风速区间内功率正常值的上下限,Pi1和Pi3为第i个风速区间内功率数据样本的第1分位数和第3分位数,Ii为第i个风速区间内功率数据样本的四分位距,Ii=Pi3-Pi1。
2)基于上述数据,根据功率值划分为n=50个功率区间,采用四分位法求解每个功率区间内风速的异常值内限,如公式(4)所示,剔除内限以外的异常数据,完成横向异常数据点清洗。
[Vi l,Vi u]=[Vi1-1.5Ii,Vi3+1.5Ii],i=1,2,…n (4)
式(4)中,Vi l和Vi u为第i个风速区间内功率正常值的上下限,Vi1和Vi3为第i个风速区间内功率数据样本的第1分位数和第3分位数,Ii为第i个风速区间内功率数据样本的四分位距,Ii=Vi3-Vi1。
通过具体实例分析可以看出:本发明提出的基于二维概率密度估计和四分位法的数据清洗方法通用性强,可以有效识别过渡区域数据类别,能够科学地清洗大量堆积型限电数据。
此实施例仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应该以权利要求的保护范围为准。
Claims (2)
1.一种基于二维概率密度估计和四分位法的数据清洗方法,其特征在于,包括:
步骤1:采集风电机组轮毂高度处风速、功率、桨距角数据后归一化预处理,形成样本数据集;
步骤2:采用二维非参数核密度估计方法计算功率和桨距角的联合概率密度函数,并通过网格划分法确定桨距角分界线位置;
步骤3:基于桨距角分界线,将功率和桨距角数据划分为正常数据和异常数据,并采用数据时间对标法得到正常的风速和功率数据;
步骤4:针对清洗后遗漏异常数据,采用四分位法进行数据再清洗;
所述步骤2包括:
步骤201:设置功率和桨距角联合概率密度阈值,剔除低概率密度异常点;
步骤202:将功率和桨距角为坐标轴划分二维网格,并以每个网格内联合概率密度最大值作为该网格的参考联合概率密度;
步骤203:拟合每个功率区间内参考概率密度随桨距角的变化曲线,取第1个极小值所处网格的功率中心点,桨距角下界作为该区间的桨距角分界点坐标;
步骤203:统计各个功率区间内桨距角分界点坐标,形成桨距角分界点坐标集,通过曲线拟合得到桨距角分界线。
2.根据权利要求1所述方法,其特征在于,所述步骤4包括:
步骤401:将清洗后的数据根据风速值划分为多个风速区间,采用四分位法求解每个风速区间内功率的异常值内限,剔除内限以外的异常数据,完成纵向异常数据点清洗;
步骤402:基于上述数据,根据功率值划分为多个功率区间,采用四分位法求解每个功率区间内风速的异常值内限,剔除内限以外的异常数据,完成横向异常数据点清洗。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910149966.4A CN109918364B (zh) | 2019-02-28 | 2019-02-28 | 一种基于二维概率密度估计和四分位法的数据清洗方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910149966.4A CN109918364B (zh) | 2019-02-28 | 2019-02-28 | 一种基于二维概率密度估计和四分位法的数据清洗方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109918364A CN109918364A (zh) | 2019-06-21 |
CN109918364B true CN109918364B (zh) | 2020-10-27 |
Family
ID=66962532
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910149966.4A Active CN109918364B (zh) | 2019-02-28 | 2019-02-28 | 一种基于二维概率密度估计和四分位法的数据清洗方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109918364B (zh) |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110795690A (zh) * | 2019-10-24 | 2020-02-14 | 大唐(赤峰)新能源有限公司 | 风电场运行异常数据检测方法 |
CN110955650B (zh) * | 2019-11-20 | 2023-06-23 | 云南电网有限责任公司电力科学研究院 | 标准实验室数字式温湿度计超差数据的清洗方法 |
CN111275570A (zh) * | 2020-01-13 | 2020-06-12 | 浙江大学 | 一种基于迭代式统计与假设检验的风电机组功率异常值检测方法 |
CN112085115A (zh) * | 2020-09-16 | 2020-12-15 | 华北电力大学 | 高维空间异常数据优化识别方法 |
CN112632773B (zh) * | 2020-12-21 | 2024-04-05 | 北京华能新锐控制技术有限公司 | 一种风电机组可靠性预测方法 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106355512A (zh) * | 2016-08-26 | 2017-01-25 | 华北电力大学 | 一种基于概率密度极大值优化的风电机组功率曲线拟合方法 |
CN108412710B (zh) * | 2018-01-30 | 2019-08-06 | 同济大学 | 一种风电机组风功率数据清洗方法 |
-
2019
- 2019-02-28 CN CN201910149966.4A patent/CN109918364B/zh active Active
Also Published As
Publication number | Publication date |
---|---|
CN109918364A (zh) | 2019-06-21 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109918364B (zh) | 一种基于二维概率密度估计和四分位法的数据清洗方法 | |
CN109740175B (zh) | 一种面向风电机组功率曲线数据的离群点判别方法 | |
CN108802535B (zh) | 筛选方法、主干扰源识别方法及装置、服务器及存储介质 | |
CN103631681A (zh) | 一种在线修复风电场异常数据的方法 | |
CN103675354B (zh) | 一种风速仪故障检测的方法和系统 | |
CN109494716B (zh) | 基于Bootstrap的风电输出功率置信区间预测方法 | |
CN105930900A (zh) | 一种混合风力发电的预测方法及系统 | |
CN106971058A (zh) | 一种泵站运行监控数据异常点检测方法 | |
CN110991701A (zh) | 一种基于数据融合的风电场风机风速预测方法及系统 | |
CN115239105A (zh) | 一种在役风电场的风资源的评估方法以及装置 | |
CN103902798B (zh) | 数据预处理方法 | |
CN116502805B (zh) | 基于围区水网提升量化评价模型的调度方案快速筛选方法 | |
CN103559414B (zh) | 一种基于阿伦尼斯模型的环境因子点估计方法 | |
CN115545240A (zh) | 一种低压配电网台区异常线损诊断方法、系统、设备及介质 | |
CN112699609B (zh) | 一种基于振动数据的柴油机可靠性模型构建方法 | |
CN114372047A (zh) | 基于速度关联约束的风电机组风速感知异常数据识别方法 | |
CN114398760A (zh) | 区域植被覆盖度与降水关系非一致性识别方法 | |
CN111120221B (zh) | 风力发电机组的发电性能评估的方法及设备 | |
CN113431800A (zh) | 一种实时判别风机运行状态的方法 | |
CN112749820A (zh) | 一种风电功率预测方法及系统 | |
CN116226606B (zh) | 无人值守自动气象站雨量数据质控方法及系统 | |
CN109670243A (zh) | 一种基于勒贝格空间模型的寿命预测方法 | |
CN115711206B (zh) | 一种基于聚类权重的风力发电机叶片覆冰状态监测系统 | |
CN117932276B (zh) | 一种中压配电网线路节能降损适应性评估方法 | |
CN115951088B (zh) | 一种风电机组风速仪异常分析方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |