CN114358176A - 一种基于lof算法的风电站原始风电数据质量控制的方法 - Google Patents
一种基于lof算法的风电站原始风电数据质量控制的方法 Download PDFInfo
- Publication number
- CN114358176A CN114358176A CN202111668876.XA CN202111668876A CN114358176A CN 114358176 A CN114358176 A CN 114358176A CN 202111668876 A CN202111668876 A CN 202111668876A CN 114358176 A CN114358176 A CN 114358176A
- Authority
- CN
- China
- Prior art keywords
- data
- wind power
- point
- lof
- original
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 30
- 238000004422 calculation algorithm Methods 0.000 title claims abstract description 21
- 230000002159 abnormal effect Effects 0.000 claims abstract description 15
- 238000010606 normalization Methods 0.000 claims abstract description 8
- 238000007781 pre-processing Methods 0.000 claims abstract description 5
- 238000007689 inspection Methods 0.000 claims abstract description 4
- 238000004364 calculation method Methods 0.000 claims description 8
- 230000008030 elimination Effects 0.000 claims description 2
- 238000003379 elimination reaction Methods 0.000 claims description 2
- 238000012545 processing Methods 0.000 abstract description 4
- 238000007418 data mining Methods 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 238000003908 quality control method Methods 0.000 description 3
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000013480 data collection Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000005611 electricity Effects 0.000 description 1
- 238000012423 maintenance Methods 0.000 description 1
- 238000005065 mining Methods 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 238000012216 screening Methods 0.000 description 1
- 238000012163 sequencing technique Methods 0.000 description 1
- 238000007619 statistical method Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/06—Energy or water supply
Landscapes
- Engineering & Computer Science (AREA)
- Business, Economics & Management (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Economics (AREA)
- Health & Medical Sciences (AREA)
- General Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Water Supply & Treatment (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Public Health (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Human Resources & Organizations (AREA)
- Marketing (AREA)
- Primary Health Care (AREA)
- Strategic Management (AREA)
- Tourism & Hospitality (AREA)
- General Business, Economics & Management (AREA)
- Wind Motors (AREA)
Abstract
本发明提供一种基于LOF算法的风电站原始风电数据质量控制的方法,属于数据处理技术领域,包括以下步骤:一、收集风电站原始风电数据;二、利用滑动标准差方法识别出受仪器故障影响而出现的连续无变化或者变化很小数据,将其剔除;三、剔除原始风电数据中缺测的数据;四、根据标准文件对风速、实际有功功率数据进行数值范围检验,剔除超出合理范围的数据;五、利用归一化方法对数据进行缩放;六、在以上数据的预处理后,计算数据点的第k距离邻域、第k可达距离、局部可达密度以及局部离群因子LOF值;七、将LOF值高于设定阈值的数据点视作异常点,并将异常值剔除。本发明使用数据本身的属性来检测和分类原始数据,操作容易、方便。
Description
技术领域
本发明涉及数据处理技术领域,具体涉及一种基于LOF算法的风电站原始风电数据质量控制的方法。
背景技术
近年来,风能已成为一种主要的能源。以实测风速和功率为基础建立的风电功率曲线可以用于评价风电机组的性能和运行状态。然而,用于风数据采集和传输的传感器常常位于偏远的站点,暴露在开放、不受控制甚至恶劣的环境中,出现错误数据的概率相对较高。目前,风电机组运行数据的收集、管理、分析和挖掘还存在许多不足,采集到的数据比较粗糙,数据质量无法保证。
由于风速和风向的变化,风电具有波动性、间歇性和随机性等特点,因此数据挖掘的方法相比于传统的统计方法更适合于分析高度非线性的风电数据。
本文提出一种基于LOF算法的风电站原始风电数据质量控制的方法,以解决上述现有存在的问题。
发明内容
有鉴于此,本发明提供一种基于LOF算法的风电站原始风电数据质量控制的方法,提高数据质量控制准确率。
为解决上述技术问题,本发明提供一种基于LOF算法的风电站原始风电数据质量控制的方法,包括以下步骤:
步骤一、收集并整理风电站原始风电数据;
步骤二、利用滑动标准差方法识别出受仪器故障影响而出现的连续无变化或者变化很小数据,并将其剔除;
步骤三、剔除原始风电数据中缺测的数据;
步骤四、根据国家、行业相关标准文件以及风力发电机功率曲线对风速、实际有功功率数据进行数值范围检验,剔除超出合理范围的数据;
步骤五、利用归一化方法对数据进行缩放;
步骤六、在以上数据的预处理后,计算数据点的第k距离邻域、第k可达距离、局部可达密度以及局部离群因子LOF值;
步骤七、将LOF值高于设定阈值的数据点视作异常点,并将异常值剔除。
进一步的,所述步骤二中,对于无变化或者变化很小数据的剔除,采用5点滑动标准差方法进行识别,其计算公式如(1)所示:
其中n=5,识别点为x3,即识别点为5点的中心点;当数据连续无变化时,标准差为0;当数据变化很小时,标准差值也很小。
进一步的,所述步骤五中,计算公式如(2)所示:
其中x为数据原始值,x′为数据归一化之后的值,xmax和xmin都为样本数据的最大值和最小值。
进一步的,所述步骤六中,第k距离,定义dk(O)为点O的第k距离,dk(O)=d(O,P),满足如下条件:在集合中至少存在k个点P′∈D\{O},使得d(O,P′)≤d(O,P);在集合中至多存在k-1个点P′∈D\{O},使得d(O,P′)<d(O,P)。
进一步的,所述步骤六中,第k距离邻域,设Nk(O)为点O的第k距离邻域,满足:Nk(O)={P′∈D\{O}|d(O,P′)≤dk(O)}。
进一步的,所述步骤六中,第k可达距离,以O为中心,点P到点O的第k可达距离定义为:dk(P,O)=max{dk(O),d(O,P)}。
进一步的,所述步骤六中,局部可达密度,点P的局部可达密度表示为点P的第k邻域内点到P的平均可达距离的倒数,其计算公式如下:
进一步的,所述步骤六中,局部离群因子LOF值,点P的局部离群因子LOF表示为点P的邻域点Nk(P)的局部可达密度与点P的局部可达密度之比的平均数,其计算公式如下:
本发明的上述技术方案至少包括以下有益效果:
1、本发明可以使用数据本身的属性来检测和分类原始数据,在实际操作中,特别是在没有操作记录的情况下,操作起来更加容易、方便。
2、本发明不仅能够将数据中的异常点识别出来,同时能够通过调整阈值,在不同严格程度下对异常点进行筛选。因此本发明比较灵活,应用范围较广。
附图说明
图1为本发明实施例中基于LOF算法的风电站原始风电数据质量控制方法的流程图;
图2为本发明实施例中风电站原始风电数据的散点示意图;
图3为本发明实施例中经过预处理的风电数据散点示意图;
图4为本发明实施例中基于LOF算法识别出的异常点示意图;
图5为本发明实施例中经过质量控制后的风电数据的散点示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例的附图1-5,对本发明实施例的技术方案进行清楚、完整地描述。显然,所描述的实施例是本发明的一部分实施例,而不是全部的实施例。基于所描述的本发明的实施例,本领域普通技术人员所获得的所有其他实施例,都属于本发明保护的范围。
如图1所示,一种基于LOF算法的风电站原始风电数据质量控制方法的流程图,包括以下具体步骤:
步骤一、收集并整理风电站原始风电数据;
步骤二、利用滑动标准差方法识别出受仪器故障影响而出现的连续无变化或者变化很小数据,并将其剔除;
步骤三、剔除原始风电数据中缺测的数据;
步骤四、根据国家、行业相关标准文件以及风力发电机功率曲线对风速、实际有功功率数据进行数值范围检验,剔除超出合理范围的数据;
步骤五、利用归一化方法对数据进行缩放;
步骤六、在以上数据的预处理后,计算数据点的第k距离邻域、第k可达距离、局部可达密度以及局部离群因子LOF值;
步骤七、将LOF值高于设定阈值的数据点视作异常点,并将异常值剔除。
本发明实施例的技术方案,不仅能够将数据中的异常点识别出来,同时能够通过调整阈值,在不同严格程度下对异常点进行筛选。因此本发明比较灵活,应用范围较广。
在该实施例中,风电厂家提供了2019年6个月的单站原始风电数据,时间分辨率为15分钟。原始风电数据按日保存在单独的文件中,首先将数据按时间顺序排序,再将逐日的文件合并到一个文件中,形成一个连续的时间序列数据集。该数据集中的风速与实际有功功率的散点图如图2所示。其中,数据集中的无效数据主要包括无变化(变化很小)数据、缺测数据、超界数据。这些无效数据产生的原因主要包括传感器受电磁干扰,机械故障或维护而导致风电设备停机,电力系统对风电的消纳能力有限导致风电场强制弃风等。由于数据挖掘方法对数据质量非常敏感,无效数据会影响数据挖掘的性能。因此在进行LOF算法之前,需要将数据集中的无效数据剔除。
对于无变化(变化很小)数据的剔除,采用5点滑动标准差方法进行识别。其计算公式如(1)所示:
其中n=5,识别点为x3,即识别点为5点的中心点。当数据连续无变化时,标准差为0;当数据变化很小时,标准差值也很小。本实施例中将标准差阈值设为0.1,即标准差小于0.1时,认为数据为无变化(变化很小)数据,并将识别出的数据进行剔除。
接下来,将缺测的数据识别出来,进行剔除。
下一步对数据的合理性进行检验。根据国家、行业相关标准文件,风速的值应为正值,并且应小于60m/s。根据风力发电机功率曲线,风速可分为三个状态:切入风速,额定风速和切出风速。当风速小于切入风速时,由于风轮不能获得足够的能量,因此不启动,机组的输出功率为零。当风速达到切入风速后,风轮开始转动,发电机开始发电,风速的越大,实际输出功率也会越大。当风速大于或等于额定风速时,风力发电机的输出功率将保持在额定功率附近。当风速超过切出风速时,风电机组将停止工作来确保设备不受损坏。一般风电机组的切入风速为3.5m/s,额定风速为11m/s,切出风速为25m/s,由图2可以看出该实施例的额定功率约为29MW。根据以上条件,将存在下列四种情况的数据判定为不合理数据:①风速>60m/s;②风速>3.5m/s,功率=0;③11m/s<风速≤25m/s,功率>29MW;④风速>25m/s,功率≠0。通过筛选,将符合上述情况的数据视为超界数据并进行剔除。
在进行了上述的数据处理后,结果如图3所示,与图2对比,一些明显异常的点已被剔除。
LOF算法作为一种无监督学习,需要将数据的格式和范围调整到统一的维度,这样才能学习出有用的知识。因此下面对数据进行归一化处理,计算公式如(2)所示:
其中x为数据原始值,x′为数据归一化之后的值。xmax和xmin都为样本数据的最大值和最小值。归一化处理后,数据的特征缩放统一映射到[0,1]的区间内,如图4所示。
在LOF方法中,通过给每个数据点分配一个依赖于邻域密度的离群因子,进而判断该数据点是否为离群点。假设对于没有相同点的样本集合D,共有n个样本,样本数据维数为m。LOF的定义主要包括下列几个部分:
1、第k距离,定义dk(O)为点O的第k距离,dk(O)=d(O,P),满足如下条件:在集合中至少存在k个点P′∈D\{O},使得d(O,P′)≤d(O,P);在集合中至多存在k-1个点P′∈D\{O},使得d(O,P′)<d(O,P)。简而言之,点P是距离O最近的第k个点。
2、第k距离邻域,设Nk(O)为点O的第k距离邻域,满足:Nk(O)={P′∈D\{O}|d(O,P′)≤dk(O)}。
3、第k可达距离,以O为中心,点P到点O的第k可达距离定义为:dk(P,O)=max{dk(O),d(O,P)}。
4、局部可达密度,点P的局部可达密度表示为点P的第k邻域内点到P的平均可达距离的倒数,其计算公式如下:
5、局部离群因子LOF值,点P的局部离群因子LOF表示为点P的邻域点Nk(P)的局部可达密度与点P的局部可达密度之比的平均数,其计算公式如下:
通过上述过程,便可计算点P的局部异常因子LOFIk(P),若LOFk(P)>>1,说明点P的密度小于其邻域点密度,P可能为离群点;若LOFk(P)值接近1,说明点P的密度与其邻域点的密度相近,点P可能和邻域同属一簇;若LOFk(P)<<1,说明点P的密度高于其邻域点的密度。
在实施例中选取k=15,通过LOF算法识别出来的异常点如图4中的外围点(异常点的轮廓界线分明)所示。最后我们将筛选出的异常点进行剔除,最终结果如图5所示,原始风电数据质量控制完成。通过对比图1和图5可以看出,本发明可以有效地识别与清除无效数据,得到可靠与有分析价值的数据。
以上是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以作出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。
Claims (8)
1.一种基于LOF算法的风电站原始风电数据质量控制的方法,其特征在于,包括以下步骤:
步骤一、收集并整理风电站原始风电数据;
步骤二、利用滑动标准差方法识别出受仪器故障影响而出现的连续无变化或者变化很小数据,并将其剔除;
步骤三、剔除原始风电数据中缺测的数据;
步骤四、根据国家、行业相关标准文件以及风力发电机功率曲线对风速、实际有功功率数据进行数值范围检验,剔除超出合理范围的数据;
步骤五、利用归一化方法对数据进行缩放;
步骤六、在以上数据的预处理后,计算数据点的第k距离邻域、第k可达距离、局部可达密度以及局部离群因子LOF值;
步骤七、将LOF值高于设定阈值的数据点视作异常点,并将异常值剔除。
4.根据权利要求1所述的基于LOF算法的风电站原始风电数据质量控制的方法,其特征在于,所述步骤六中,第k距离,定义dk(O)为点O的第k距离,dk(O)=d(O,P),满足如下条件:在集合中至少存在k个点P′∈D\{O},使得d(O,P′)≤d(O,P);在集合中至多存在k-1个点P′∈D\{O},使得d(O,P′)<d(O,P)。
5.根据权利要求1所述的基于LOF算法的风电站原始风电数据质量控制的方法,其特征在于,所述步骤六中,第k距离邻域,设Nk(O)为点O的第k距离邻域,满足:Nk(O)={P′∈D\{O}|d(O,P′)≤dk(O)}。
6.根据权利要求1的基于LOF算法的风电站原始风电数据质量控制的方法,其特征在于,所述步骤六中,第k可达距离,以O为中心,点P到点O的第k可达距离定义为:dk(P,O)=max{dk(o),d(O,P)}。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111668876.XA CN114358176A (zh) | 2021-12-30 | 2021-12-30 | 一种基于lof算法的风电站原始风电数据质量控制的方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111668876.XA CN114358176A (zh) | 2021-12-30 | 2021-12-30 | 一种基于lof算法的风电站原始风电数据质量控制的方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114358176A true CN114358176A (zh) | 2022-04-15 |
Family
ID=81106269
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111668876.XA Pending CN114358176A (zh) | 2021-12-30 | 2021-12-30 | 一种基于lof算法的风电站原始风电数据质量控制的方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114358176A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116738353A (zh) * | 2023-08-15 | 2023-09-12 | 安拓思纳米技术(苏州)有限公司 | 基于数据分析的制药车间空气滤芯性能检测方法 |
-
2021
- 2021-12-30 CN CN202111668876.XA patent/CN114358176A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116738353A (zh) * | 2023-08-15 | 2023-09-12 | 安拓思纳米技术(苏州)有限公司 | 基于数据分析的制药车间空气滤芯性能检测方法 |
CN116738353B (zh) * | 2023-08-15 | 2023-10-13 | 安拓思纳米技术(苏州)有限公司 | 基于数据分析的制药车间空气滤芯性能检测方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Cai et al. | Fault detection and diagnostic method of diesel engine by combining rule-based algorithm and BNs/BPNNs | |
CN111562108A (zh) | 一种基于cnn和fcmc的滚动轴承智能故障诊断方法 | |
Li et al. | Joint attention feature transfer network for gearbox fault diagnosis with imbalanced data | |
CN115876258B (zh) | 基于多源数据的畜禽养殖环境异常监测及报警系统 | |
CN111209934A (zh) | 风机故障预报警方法及系统 | |
CN114218872B (zh) | 基于dbn-lstm半监督联合模型的剩余使用寿命预测方法 | |
CN111582298A (zh) | 一种基于人工智能的传感异常数据实时检测方法 | |
CN113670616B (zh) | 一种轴承性能退化状态检测方法及系统 | |
CN117056849B (zh) | 一种无监督的复杂机械设备异常状态监测方法及系统 | |
CN114417971A (zh) | 一种基于k近邻密度峰值聚类的电力数据异常值检测算法 | |
CN111582406A (zh) | 一种电力设备状态监测数据聚类方法和系统 | |
CN115861190A (zh) | 一种基于对比学习的光伏组件无监督缺陷检测方法 | |
CN114358176A (zh) | 一种基于lof算法的风电站原始风电数据质量控制的方法 | |
Wang et al. | A novel tool condition monitoring based on Gramian angular field and comparative learning | |
CN114861778A (zh) | 一种改进宽度迁移学习的不同负载下滚动轴承状态快速分类方法 | |
CN113673442B (zh) | 一种基于半监督单分类网络的变工况故障检测方法 | |
CN112860183B (zh) | 基于高阶矩匹配的多源蒸馏-迁移机械故障智能诊断方法 | |
CN117131022B (zh) | 一种电力信息系统的异构数据迁移方法 | |
CN112215286B (zh) | 基于小波分解重构及近邻算法的磨煤机运行状态判别方法 | |
CN111623905B (zh) | 风电机组轴承温度预警方法及装置 | |
CN111428772B (zh) | 基于k-近邻自适应投票的光伏系统深度异常检测方法 | |
CN117762913A (zh) | 一种海上风电异常功率数据自动识别方法及系统 | |
CN112597607A (zh) | 风力发电机高速轴承的预测性维修方法及系统 | |
CN117093938A (zh) | 一种基于深度学习的风机轴承的故障检测方法和系统 | |
CN114897909A (zh) | 基于无监督学习的曲轴表面裂纹监测方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |