CN110134919B - 风电机组异常数据清洗方法 - Google Patents

风电机组异常数据清洗方法 Download PDF

Info

Publication number
CN110134919B
CN110134919B CN201910361399.9A CN201910361399A CN110134919B CN 110134919 B CN110134919 B CN 110134919B CN 201910361399 A CN201910361399 A CN 201910361399A CN 110134919 B CN110134919 B CN 110134919B
Authority
CN
China
Prior art keywords
data
wind speed
power
boundary line
probability density
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910361399.9A
Other languages
English (en)
Other versions
CN110134919A (zh
Inventor
刘永前
王宏钧
李莉
韩爽
阎洁
王其乐
朱志成
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
North China Electric Power University
Zhongneng Power Tech Development Co Ltd
Original Assignee
North China Electric Power University
Zhongneng Power Tech Development Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by North China Electric Power University, Zhongneng Power Tech Development Co Ltd filed Critical North China Electric Power University
Priority to CN201910361399.9A priority Critical patent/CN110134919B/zh
Publication of CN110134919A publication Critical patent/CN110134919A/zh
Application granted granted Critical
Publication of CN110134919B publication Critical patent/CN110134919B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • G06F16/215Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/18Complex mathematical operations for evaluating statistical data, e.g. average values, frequency distributions, probability functions, regression analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Mathematical Analysis (AREA)
  • Mathematical Physics (AREA)
  • General Engineering & Computer Science (AREA)
  • Pure & Applied Mathematics (AREA)
  • Mathematical Optimization (AREA)
  • Computational Mathematics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Operations Research (AREA)
  • Probability & Statistics with Applications (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Algebra (AREA)
  • Quality & Reliability (AREA)
  • Software Systems (AREA)
  • Wind Motors (AREA)

Abstract

本发明属于数据分析与处理技术领域,尤其涉及一种基于最优组内方差与二维概率密度联合的风电机组异常数据清洗方法,包括:风电机组运行数据预处理;采用最优组内方差法剔除限电区域的数据;采用二维概率密度估计法剔除密度稀疏的异常值;通过上下边界线获取正常运行数据。采用最优组内方差和二维概率密度估计结合的方案,既解决了最优组内方差清洗堆积数据会遗留下离散的数据的问题,又解决了二维概率密度估计无法排除高密度限电数据的问题,整体上提高了数据清洗运行工况的适应性。

Description

风电机组异常数据清洗方法
技术领域
本发明属于数据分析与处理技术领域,尤其涉及一种基于最优组内方差与二维概率密度联合的风电机组异常数据清洗方法。
背景技术
风电机组功率曲线是反映其性能的最重要特性。标准功率曲线是在标准条件下测试获得,而风电机组的实际运行条件非常复杂,多数偏离标准测试条件。为了获得准确的风电机组的实际运行功率曲线,必须对这些运行数据进行清洗,剔除不符合条件的数据。因此,风电机组运行数据的清洗是风电大数据分析的核心技术之一。
海量的风电机组运行数据中存在大量的低于机组设计功率的运行数据,称之为降功率数据。其产生原因可能是:人工限负荷、机组健康状态引起的性能降级、传感器失灵、控制系统故障等。目前风电机组运行数据的清洗方法主要有方差阈值、方差变化率和基于概率密度的聚类等。方差阈值和方差变化率对堆积型限电数据清洗效果好,但会遗漏一些低密度稀疏数据;基于密度的聚类对于低密度的稀疏数据清洗效果好,但无法排除高密度限电数据。当前风电机组运行数据清洗技术的主要缺陷是运行工况适应性差。
发明内容
针对上述问题,本发明提出了一种基于最优组内方差与二维概率密度联合的风电机组异常数据清洗方法,包括:
步骤1:风电机组运行数据预处理;
步骤2:采用最优组内方差法剔除限电区域的数据;
步骤3:采用二维概率密度估计法剔除密度稀疏的异常值;
步骤4:通过上下边界线获取正常运行数据。
所述预处理包括:删除机组故障、停机或传感器故障条件下风速和功率数值超范围的原始运行数据。
所述步骤2具体包括:将数据集分为n个风速区间,对每个风速区间内的风速功率组按功率降序排序,并对功率集合做滑动方差得到滑差向量,保留比全局阈值小的元素来作为新的风速功率组。
所述步骤3具体包括:对所述步骤2中新的风速功率组进行归一化处理,然后进行非参数二维核密度估计,应用网格法得到概率密度矩阵;保留概率密度矩阵中小于密度阈值的元素,得到新的概率密度矩阵,并按功率从小到大顺序排序,第一个非零元素作为下边界点,最后一个非零元素作为上边界点,连接所有下边界点和上边界点即可分别获得下、上边界线。
所述步骤4具体包括:对风速功率组的上下边界线进行反归一化,得到实际坐标的上下边界线;保留边界线内的原始数据,删除边界线以外的数据,从而筛选出正常风速功率数据。
本发明的有益效果:本发明采用最优组内方差和二维概率密度估计结合的方案,既解决了最优组内方差清洗堆积数据会遗留下离散的数据的问题,又解决了二维概率密度估计无法排除高密度限电数据的问题,整体上提高了数据清洗运行工况的适应性。本发明只需对风速和功率二维数据进行分析,不仅降低了传统方法对多维数据的依赖性,而且可以准确辨识出风电机组的运行状态,具有较强的通用性。
附图说明
图1为未经处理的风速功率原始数据。
图2为使用最优组内方差进行处理后的数据。
图3为使用二维概率密度清洗后的风速功率密度矩阵。
图4为优化后的风速功率概率密度矩阵。
图5为由风速功率密度矩阵确定的上下边界线。
图6为经上下边界线筛选出正常运行数据。
图7为原始数据分离结果。
图8为密度矩阵的缺失导致上下边界畸形。
图9为本发明的方法流程图。
具体实施方式
下面结合附图,对实施例作详细说明。
本发明提出了一种基于最优组内方差与二维概率密度联合的风电机组异常数据清洗方法,如图9所示,包括:
步骤1:风电机组运行数据预处理;
步骤2:采用最优组内方差法剔除限电区域的数据;
步骤3:采用二维概率密度估计法剔除密度稀疏的异常值;
步骤4:通过上下边界线获取正常运行数据。
1)数据预处理。
原始数据中存在很多停机、故障、传感器失灵等原因造成的异常数据甚至是空数据,即,风速大于切出风速或小于0的,功率小于0的。如图1所示。先删除这些数据,保证数据有效性,得到风速功率数据集X。
2)使用最优组内方差法剔除高密度限电区域。
按照T=0.25m/s的风速区间将步骤1的数据集X分为100个区间,即,X={X1,X2...X100}。以第33个风速区间内有827个风速功率组为例。把这些风速功率组按照功率降序排序,得到X33={(v1,p1),(v2,p2),...(v827,p827)},其中p1>p2>…>p827
然后依次对滑动功率组[p1]、[p1,p2]、[p1,p2,p3]…[p1,p2…p827]求方差,得到第33个风速区间的方差向量
Figure BDA0002046958060000031
设置全局阈值Si=4900,令S33中大于Si的元素置零,得到
Figure BDA0002046958060000032
其中S33中非零元素为698个,过程如表1所示。
然后对该风速区间的风速功率组进行处理:X33中保留前698个风速功率组。即X33={(v1,p1),(v2,p2),…,(v698,p698)}。
同理可得所有风速区间的风速功率组vp={X1,X2,...,X100}。结果如图2所示。
Figure BDA0002046958060000041
表1第33个风速区间按功率大小排列的风速功率组
3)使用二维概率密度估计法对密度稀疏的异常值进行清洗。
①对vp先进行归一化处理,然后对其进行二维核密度估计。对于风速功率组,其二维概率密度函数表示为:
Figure BDA0002046958060000042
式中hv和hp分别为风速和功率的窗宽;n为样本数;Kv(·)和Kp(·)分别为风速和功率的核函数,这里我们取高斯核函数。结果如图3所示。
②由核密度估计得到概率密度矩阵density。设定密度阈值D,density中小于D的元素,全部置为零。得到新的概率密度矩阵Den。
③由于存在正常数据的概率密度低于阈值的情况,尤其在额定风速以后的区域,如果直接求边界线可能会导致密度矩阵的上下边界线产生畸变,如图8。因此需要对额定风速后的密度矩阵进行优化(额定风速到切出风速之间补充密度值),尽量使其边界线连续,从而达到优化边界线的目的。得到den矩阵。如图4。
④在den中每个风速区间内按照功率从小到大的顺序,第一个非零元素作为下边界点,最后一个非零元素作为上边界点,连接这些点即可获得上下边界线,Upperline和Lowerline。如图5。
4)获取风电机组正常运行数据
对风速功率组的上下边界线进行反归一化,得到实际坐标的上下边界线。保留边界线内的原始数据,删除边界线以外的数据,从而筛选出正常风速功率数据。如图6~7所示。
此实施例仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应该以权利要求的保护范围为准。

Claims (2)

1.一种基于最优组内方差与二维概率密度联合的风电机组异常数据清洗方法,其特征在于,包括:
步骤1:风电机组运行数据预处理;
步骤2:采用最优组内方差法剔除限电区域的数据;
步骤3:采用二维概率密度估计法剔除密度稀疏的异常值;
步骤4:通过上下边界线获取正常运行数据;
所述预处理包括:删除机组故障、停机或传感器故障条件下风速和功率数值超范围的原始运行数据;
所述步骤2具体包括:将数据集分为n个风速区间,对每个风速区间内的风速功率组按功率降序排序,并对功率集合做滑动方差得到滑差向量,保留比全局阈值小的元素来作为新的风速功率组;
所述步骤3具体包括:对所述步骤2中新的风速功率组进行归一化处理,然后进行非参数二维核密度估计,应用网格法得到概率密度矩阵;保留概率密度矩阵中小于密度阈值的元素,得到新的概率密度矩阵,并按功率从小到大顺序排序,第一个非零元素作为下边界点,最后一个非零元素作为上边界点,连接所有下边界点和上边界点即可分别获得下、上边界线。
2.根据权利要求1所述风电机组异常数据清洗方法,其特征在于,所述步骤4具体包括:对风速功率组的上下边界线进行反归一化,得到实际坐标的上下边界线;保留边界线内的原始数据,删除边界线以外的数据,从而筛选出正常风速功率数据。
CN201910361399.9A 2019-04-30 2019-04-30 风电机组异常数据清洗方法 Active CN110134919B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910361399.9A CN110134919B (zh) 2019-04-30 2019-04-30 风电机组异常数据清洗方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910361399.9A CN110134919B (zh) 2019-04-30 2019-04-30 风电机组异常数据清洗方法

Publications (2)

Publication Number Publication Date
CN110134919A CN110134919A (zh) 2019-08-16
CN110134919B true CN110134919B (zh) 2020-12-15

Family

ID=67575816

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910361399.9A Active CN110134919B (zh) 2019-04-30 2019-04-30 风电机组异常数据清洗方法

Country Status (1)

Country Link
CN (1) CN110134919B (zh)

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110685857B (zh) * 2019-10-16 2021-10-15 湘潭大学 一种基于集成学习的山地风电机组行为预测模型
CN110795690A (zh) * 2019-10-24 2020-02-14 大唐(赤峰)新能源有限公司 风电场运行异常数据检测方法
CN111145109B (zh) * 2019-12-09 2023-03-31 深圳先进技术研究院 基于图像的风力发电功率曲线异常数据识别与清洗方法
CN111563543B (zh) * 2020-04-26 2023-07-04 国网冀北电力有限公司电力科学研究院 一种风电机组的风速-发电功率数据的清洗方法及装置
CN114037127A (zh) * 2021-10-25 2022-02-11 华能射阳新能源发电有限公司 风电机组的故障预测方法及装置
CN113991855A (zh) * 2021-10-29 2022-01-28 国网上海市电力公司 综合能源系统运行初期的性能监测及故障预警方法、系统
CN114091354B (zh) * 2022-01-07 2022-05-17 国能日新科技股份有限公司 风电机组功率预测模型样本集的获取方法及装置
CN114548843B (zh) * 2022-04-25 2022-07-15 北京寄云鼎城科技有限公司 风力发电机功率数据的处理方法、计算机设备及介质
CN117494618B (zh) * 2024-01-03 2024-04-09 北京亚能电气设备有限公司 一种基于实时网络的风电场智能图像监控系统

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108412710B (zh) * 2018-01-30 2019-08-06 同济大学 一种风电机组风功率数据清洗方法
CN108590982B (zh) * 2018-03-26 2020-08-11 华北电力大学 一种风电机组限功率运行的异常数据处理方法

Also Published As

Publication number Publication date
CN110134919A (zh) 2019-08-16

Similar Documents

Publication Publication Date Title
CN110134919B (zh) 风电机组异常数据清洗方法
CN109461148A (zh) 基于二维Otsu的钢轨缺陷分割自适应快速算法
CN106649579A (zh) 一种用于管网建模的时序数据清洗方法
CN111275307A (zh) 一种水质自动在线站高频连续观测数据质量控制方法
CN107391515A (zh) 基于关联规则分析的电力系统指标分析方法
CN110991527B (zh) 一种考虑电压曲线平均波动率的相似度阈值确定方法
CN106570790B (zh) 一种计及风速数据分段特性的风电场出力数据修复方法
CN111598897B (zh) 基于Otsu和改进Bernsen的红外图像分割方法
CN115935144A (zh) 一种运检维护数据去噪重构方法
CN111275570A (zh) 一种基于迭代式统计与假设检验的风电机组功率异常值检测方法
CN110726898A (zh) 一种配电网故障类型识别方法
CN112101765A (zh) 一种配电网运行指标数据异常数据处理方法及系统
CN111353131B (zh) 一种码载偏离度阈值计算的方法
Jia Fabric defect detection based on open source computer vision library OpenCV
Wang et al. Effective segmentation approach for solar photovoltaic panels in uneven illuminated color infrared images
Sangave et al. Impulse noise detection and removal by modified boundary discriminative noise detection technique
Chen et al. An efficient universal noise removal algorithm combining spatial gradient and impulse statistic
CN110349119B (zh) 基于边缘检测神经网络的路面病害检测方法和装置
Karthikeyan et al. Efficient decision based algorithm for the removal of high density salt and pepper noise in images
Karthikeyan et al. Hybrid approach of efficient decision-based algorithm and fuzzy logic for the removal of high density salt and pepper noise in images
Gajendran et al. Chromosome counting via digital image analysis
CN113821419A (zh) 一种基于svr和高斯函数的云服务器老化预测方法
CN109298999B (zh) 一种基于数据分布特征的核心化软件测试方法和装置
CN108492307B (zh) 一种磁共振adc图像分割方法及使用该方法的磁共振系统
CN112651936A (zh) 基于图像局部熵的钢板表面缺陷图像分割方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant