CN114358176A

CN114358176A - 一种基于lof算法的风电站原始风电数据质量控制的方法

Info

Publication number: CN114358176A
Application number: CN202111668876.XA
Authority: CN
Inventors: 冯杉; 魏璐; 孙睿藻; 王丽; 李伊吟; 程凯琪
Original assignee: Henan Meteorological Service Center Henan Meteorological Film And Television And Publicity Center
Current assignee: Henan Meteorological Service Center Henan Meteorological Film And Television And Publicity Center
Priority date: 2021-12-30
Filing date: 2021-12-30
Publication date: 2022-04-15

Abstract

本发明提供一种基于LOF算法的风电站原始风电数据质量控制的方法，属于数据处理技术领域，包括以下步骤：一、收集风电站原始风电数据；二、利用滑动标准差方法识别出受仪器故障影响而出现的连续无变化或者变化很小数据，将其剔除；三、剔除原始风电数据中缺测的数据；四、根据标准文件对风速、实际有功功率数据进行数值范围检验，剔除超出合理范围的数据；五、利用归一化方法对数据进行缩放；六、在以上数据的预处理后，计算数据点的第k距离邻域、第k可达距离、局部可达密度以及局部离群因子LOF值；七、将LOF值高于设定阈值的数据点视作异常点，并将异常值剔除。本发明使用数据本身的属性来检测和分类原始数据，操作容易、方便。

Description

一种基于LOF算法的风电站原始风电数据质量控制的方法

技术领域

本发明涉及数据处理技术领域，具体涉及一种基于LOF算法的风电站原始风电数据质量控制的方法。

背景技术

近年来，风能已成为一种主要的能源。以实测风速和功率为基础建立的风电功率曲线可以用于评价风电机组的性能和运行状态。然而，用于风数据采集和传输的传感器常常位于偏远的站点，暴露在开放、不受控制甚至恶劣的环境中，出现错误数据的概率相对较高。目前，风电机组运行数据的收集、管理、分析和挖掘还存在许多不足，采集到的数据比较粗糙，数据质量无法保证。

由于风速和风向的变化，风电具有波动性、间歇性和随机性等特点，因此数据挖掘的方法相比于传统的统计方法更适合于分析高度非线性的风电数据。

本文提出一种基于LOF算法的风电站原始风电数据质量控制的方法，以解决上述现有存在的问题。

发明内容

有鉴于此，本发明提供一种基于LOF算法的风电站原始风电数据质量控制的方法，提高数据质量控制准确率。

为解决上述技术问题，本发明提供一种基于LOF算法的风电站原始风电数据质量控制的方法，包括以下步骤：

步骤一、收集并整理风电站原始风电数据；

步骤二、利用滑动标准差方法识别出受仪器故障影响而出现的连续无变化或者变化很小数据，并将其剔除；

步骤三、剔除原始风电数据中缺测的数据；

步骤四、根据国家、行业相关标准文件以及风力发电机功率曲线对风速、实际有功功率数据进行数值范围检验，剔除超出合理范围的数据；

步骤五、利用归一化方法对数据进行缩放；

步骤六、在以上数据的预处理后，计算数据点的第k距离邻域、第k可达距离、局部可达密度以及局部离群因子LOF值；

步骤七、将LOF值高于设定阈值的数据点视作异常点，并将异常值剔除。

进一步的，所述步骤二中，对于无变化或者变化很小数据的剔除，采用5点滑动标准差方法进行识别，其计算公式如(1)所示：

其中n＝5，识别点为x₃，即识别点为5点的中心点；当数据连续无变化时，标准差为0；当数据变化很小时，标准差值也很小。

进一步的，所述步骤五中，计算公式如(2)所示：

其中x为数据原始值，x′为数据归一化之后的值，x_max和x_min都为样本数据的最大值和最小值。

进一步的，所述步骤六中，第k距离，定义d_k(O)为点O的第k距离，d_k(O)＝d(O，P)，满足如下条件：在集合中至少存在k个点P′∈D\{O}，使得d(O，P′)≤d(O，P)；在集合中至多存在k-1个点P′∈D\{O}，使得d(O，P′)＜d(O，P)。

进一步的，所述步骤六中，第k距离邻域，设N_k(O)为点O的第k距离邻域，满足：N_k(O)＝{P′∈D\{O}|d(O，P′)≤d_k(O)}。

进一步的，所述步骤六中，第k可达距离，以O为中心，点P到点O的第k可达距离定义为：d_k(P，O)＝max{d_k(O)，d(O，P)}。

进一步的，所述步骤六中，局部可达密度，点P的局部可达密度表示为点P的第k邻域内点到P的平均可达距离的倒数，其计算公式如下：

进一步的，所述步骤六中，局部离群因子LOF值，点P的局部离群因子LOF表示为点P的邻域点N_k(P)的局部可达密度与点P的局部可达密度之比的平均数，其计算公式如下：

本发明的上述技术方案至少包括以下有益效果：

1、本发明可以使用数据本身的属性来检测和分类原始数据，在实际操作中，特别是在没有操作记录的情况下，操作起来更加容易、方便。

2、本发明不仅能够将数据中的异常点识别出来，同时能够通过调整阈值，在不同严格程度下对异常点进行筛选。因此本发明比较灵活，应用范围较广。

附图说明

图1为本发明实施例中基于LOF算法的风电站原始风电数据质量控制方法的流程图；

图2为本发明实施例中风电站原始风电数据的散点示意图；

图3为本发明实施例中经过预处理的风电数据散点示意图；

图4为本发明实施例中基于LOF算法识别出的异常点示意图；

图5为本发明实施例中经过质量控制后的风电数据的散点示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例的附图1-5，对本发明实施例的技术方案进行清楚、完整地描述。显然，所描述的实施例是本发明的一部分实施例，而不是全部的实施例。基于所描述的本发明的实施例，本领域普通技术人员所获得的所有其他实施例，都属于本发明保护的范围。

如图1所示，一种基于LOF算法的风电站原始风电数据质量控制方法的流程图，包括以下具体步骤：

步骤一、收集并整理风电站原始风电数据；

步骤三、剔除原始风电数据中缺测的数据；

步骤五、利用归一化方法对数据进行缩放；

本发明实施例的技术方案，不仅能够将数据中的异常点识别出来，同时能够通过调整阈值，在不同严格程度下对异常点进行筛选。因此本发明比较灵活，应用范围较广。

在该实施例中，风电厂家提供了2019年6个月的单站原始风电数据，时间分辨率为15分钟。原始风电数据按日保存在单独的文件中，首先将数据按时间顺序排序，再将逐日的文件合并到一个文件中，形成一个连续的时间序列数据集。该数据集中的风速与实际有功功率的散点图如图2所示。其中，数据集中的无效数据主要包括无变化(变化很小)数据、缺测数据、超界数据。这些无效数据产生的原因主要包括传感器受电磁干扰，机械故障或维护而导致风电设备停机，电力系统对风电的消纳能力有限导致风电场强制弃风等。由于数据挖掘方法对数据质量非常敏感，无效数据会影响数据挖掘的性能。因此在进行LOF算法之前，需要将数据集中的无效数据剔除。

对于无变化(变化很小)数据的剔除，采用5点滑动标准差方法进行识别。其计算公式如(1)所示：

其中n＝5，识别点为x₃，即识别点为5点的中心点。当数据连续无变化时，标准差为0；当数据变化很小时，标准差值也很小。本实施例中将标准差阈值设为0.1，即标准差小于0.1时，认为数据为无变化(变化很小)数据，并将识别出的数据进行剔除。

接下来，将缺测的数据识别出来，进行剔除。

下一步对数据的合理性进行检验。根据国家、行业相关标准文件，风速的值应为正值，并且应小于60m/s。根据风力发电机功率曲线，风速可分为三个状态：切入风速，额定风速和切出风速。当风速小于切入风速时，由于风轮不能获得足够的能量，因此不启动，机组的输出功率为零。当风速达到切入风速后，风轮开始转动，发电机开始发电，风速的越大，实际输出功率也会越大。当风速大于或等于额定风速时，风力发电机的输出功率将保持在额定功率附近。当风速超过切出风速时，风电机组将停止工作来确保设备不受损坏。一般风电机组的切入风速为3.5m/s，额定风速为11m/s，切出风速为25m/s，由图2可以看出该实施例的额定功率约为29MW。根据以上条件，将存在下列四种情况的数据判定为不合理数据：①风速>60m/s；②风速>3.5m/s，功率＝0；③11m/s<风速≤25m/s，功率>29MW；④风速>25m/s，功率≠0。通过筛选，将符合上述情况的数据视为超界数据并进行剔除。

在进行了上述的数据处理后，结果如图3所示，与图2对比，一些明显异常的点已被剔除。

LOF算法作为一种无监督学习，需要将数据的格式和范围调整到统一的维度，这样才能学习出有用的知识。因此下面对数据进行归一化处理，计算公式如(2)所示：

其中x为数据原始值，x′为数据归一化之后的值。x_max和x_min都为样本数据的最大值和最小值。归一化处理后，数据的特征缩放统一映射到[0，1]的区间内，如图4所示。

在LOF方法中，通过给每个数据点分配一个依赖于邻域密度的离群因子，进而判断该数据点是否为离群点。假设对于没有相同点的样本集合D，共有n个样本，样本数据维数为m。LOF的定义主要包括下列几个部分：

1、第k距离，定义d_k(O)为点O的第k距离，d_k(O)＝d(O，P)，满足如下条件：在集合中至少存在k个点P′∈D\{O}，使得d(O，P′)≤d(O，P)；在集合中至多存在k-1个点P′∈D\{O}，使得d(O，P′)＜d(O，P)。简而言之，点P是距离O最近的第k个点。

2、第k距离邻域，设N_k(O)为点O的第k距离邻域，满足：N_k(O)＝{P′∈D\{O}|d(O，P′)≤d_k(O)}。

3、第k可达距离，以O为中心，点P到点O的第k可达距离定义为：d_k(P，O)＝max{d_k(O)，d(O，P)}。

4、局部可达密度，点P的局部可达密度表示为点P的第k邻域内点到P的平均可达距离的倒数，其计算公式如下：

5、局部离群因子LOF值，点P的局部离群因子LOF表示为点P的邻域点N_k(P)的局部可达密度与点P的局部可达密度之比的平均数，其计算公式如下：

通过上述过程，便可计算点P的局部异常因子LOFI_k(P)，若LOF_k(P)＞＞1，说明点P的密度小于其邻域点密度，P可能为离群点；若LOF_k(P)值接近1，说明点P的密度与其邻域点的密度相近，点P可能和邻域同属一簇；若LOF_k(P)＜＜1，说明点P的密度高于其邻域点的密度。

在实施例中选取k＝15，通过LOF算法识别出来的异常点如图4中的外围点(异常点的轮廓界线分明)所示。最后我们将筛选出的异常点进行剔除，最终结果如图5所示，原始风电数据质量控制完成。通过对比图1和图5可以看出，本发明可以有效地识别与清除无效数据，得到可靠与有分析价值的数据。

以上是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以作出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种基于LOF算法的风电站原始风电数据质量控制的方法，其特征在于，包括以下步骤：

步骤一、收集并整理风电站原始风电数据；

步骤三、剔除原始风电数据中缺测的数据；

步骤五、利用归一化方法对数据进行缩放；

2.根据权利要求1所述的基于LOF算法的风电站原始风电数据质量控制的方法，其特征在于，所述步骤二中，对于无变化或者变化很小数据的剔除，采用5点滑动标准差方法进行识别，其计算公式如(1)所示：

3.根据权利要求1所述的基于LOF算法的风电站原始风电数据质量控制的方法，其特征在于，所述步骤五中，计算公式如(2)所示：

4.根据权利要求1所述的基于LOF算法的风电站原始风电数据质量控制的方法，其特征在于，所述步骤六中，第k距离，定义d_k(O)为点O的第k距离，d_k(O)＝d(O，P)，满足如下条件：在集合中至少存在k个点P′∈D\{O}，使得d(O，P′)≤d(O，P)；在集合中至多存在k-1个点P′∈D\{O}，使得d(O，P′)＜d(O，P)。

5.根据权利要求1所述的基于LOF算法的风电站原始风电数据质量控制的方法，其特征在于，所述步骤六中，第k距离邻域，设N_k(O)为点O的第k距离邻域，满足：N_k(O)＝{P′∈D\{O}|d(O，P′)≤d_k(O)}。

6.根据权利要求1的基于LOF算法的风电站原始风电数据质量控制的方法，其特征在于，所述步骤六中，第k可达距离，以O为中心，点P到点O的第k可达距离定义为：d_k(P，O)＝max{d_k(o)，d(O，P)}。

7.根据权利要求1的基于LOF算法的风电站原始风电数据质量控制的方法，其特征在于，所述步骤六中，局部可达密度，点P的局部可达密度表示为点P的第k邻域内点到P的平均可达距离的倒数，其计算公式如下：

8.根据权利要求1的基于LOF算法的风电站原始风电数据质量控制的方法，其特征在于，所述步骤六中，局部离群因子LOF值，点P的局部离群因子LOF表示为点P的邻域点N_k(P)的局部可达密度与点P的局部可达密度之比的平均数，其计算公式如下：