CN115510043A

CN115510043A - 一种风电功率曲线异常数据剔除方法

Info

Publication number: CN115510043A
Application number: CN202211203369.3A
Authority: CN
Inventors: 陈雷; 战鹏; 张中伟; 连亚龙; 张凯; 赵斌; 刘龙龙; 曹征; 徐启钊; 曹雷; 张睿骁; 张彦琪; 张延凯; 葛智平; 李乔森; 陈军
Original assignee: Lanzhou Longneng Electic Power Science & Technology Co ltd; Gansu Xinquan Wind Power Generation Co ltd
Current assignee: Lanzhou Longneng Electic Power Science & Technology Co ltd; Gansu Xinquan Wind Power Generation Co ltd
Priority date: 2022-09-29
Filing date: 2022-09-29
Publication date: 2022-12-23

Abstract

本发明公开了一种基于分区间孤立森林和均值漂移聚类的风电功率曲线异常数据剔除方法，包括以下步骤：(1)采用分区间孤立森林算法剔除风力曲线中的分散型异常数据和弃风限电数据；(2)判断风力曲线中是否存在弃风数据，若是，转步骤(3)，否则得到符合风电机组运行规律的数据样本；(3)采用均值漂移聚类算法对剩余异常数据进行剔除，得到符合风电机组运行规律的数据样本。本发明通过提出分区间孤立森林和均值漂移聚类组合算法的数据处理手段，该算法不仅对于常规文献着重讨论的风电功率曲线有效，对于发生严重弃风现象的风电机组的功率曲线也能发挥作用，从而在一定程度上缓解风电机组的异常数据问题，为提高风机预测精度提供了方案。

Description

一种风电功率曲线异常数据剔除方法

技术领域

本发明属于新能源大数据分析应用领域，尤其涉及一种基于分区间孤立森林和均值漂移聚类的风电功率曲线异常数据剔除方法。

背景技术

现代社会经济的迅速发展对电能需求日益增多，随着化石燃料消耗殆尽、生态环境恶化问题凸显，现有传统的化石燃料发电方式逐渐受限，而风能、光能、水能等可再生能源发电进而获得了广泛应用。由于风电机组通常在较为恶劣的环境下运行，加之调度人员为了规避风资源的反调峰特性对电力系统可能带来严重危害，导致设备监测到的风速-功率数据中存在大量无用数据，这些数据不符合风机本身运行规律，且会对功率预测造成影响。

目前，风电功率曲线的异常数据识别是新能源研究领域的热点。很多学者已经提出了算法研究，但是现有的研究成果大多只考虑了某一类特定的风电功率曲线，即正常数据比例多于异常数据比例且弃风现象并不严重，鲜有涉及严重弃风数据的风电机组曲线。由于在现有研究中，考虑单一类型风电功率曲线的研究成果较多，这导致其算法通常只能针对这一类别的曲线，难以适应复杂多变的其他场景，不具备良好的工程实用性。

发明内容

为克服现有技术的缺点和不足，本发明的目的在于提供一种基于分区间孤立森林和均值漂移聚类的风电功率曲线异常数据剔除方法。

本发明是这样实现的，一种基于分区间孤立森林和均值漂移聚类的风电功率曲线异常数据剔除方法，该方法包括以下步骤：

(1)采用分区间孤立森林算法剔除风力曲线中的分散型异常数据和弃风限电数据；

(2)判断风力曲线中是否存在弃风数据，若是，转步骤(3)，否则得到符合风电机组运行规律的数据样本；

(3)采用均值漂移聚类算法对剩余异常数据进行剔除，得到符合风电机组运行规律的数据样本。

优选地，在步骤(1)中，所述分区间孤立森林算法剔除风力曲线中的分散型异常数据和弃风限电数据包括以下步骤：

(1-1)对数据进行预处理，包括：剔除风速小于设定切入风速且对应功率大于0的数据，以及剔除风速高于设定切出风速且对应功率为负值的数据；

(1-2)以设定功率取值对风电功率进行功率区间划分，采用孤立森林算法对每个区间内的风速-功率数据进行检测，以进行大部分分散数据和部分偏离正常数据较远的弃风数据的剔除；

(1-3)获得每个功率区间的异常检测结果后，将其绘制到图中并观察结果，判断风电机组是否存在分散型数据，若是，转步骤(1-4)，否则结束孤立森林算法；

(1-4)对设定风速对风速区间进行划分，对区间内的风速-功率数据继续采用孤立森林算法检测异常点以剔除异常数据。

优选地，在步骤(1-2)中，在孤立森林算法中构建每颗树的子样本数量选择区间样本和256中的较小值，异常比例参数根据情况进行相应调整。

优选地，所述异常比例参数根据情况进行相应调整具体为：当分散型数据较多时异常比例参数设置为0.1，当分散型数据分布稀疏或正常数据比例较低时异常比例参数设置为0.05。

优选地，在步骤(1-4)中，孤立森林算法检测异常点的过程中，各区间的异常数据比例参数设置为0.05以避免正常数据被剔除。

优选地，在步骤(3)中，所述采用均值漂移聚类算法对剩余异常数据进行剔除具体为：对划分的每个区间进行聚类处理，保留区间上方数据。

优选地，在均值漂移聚类算法中，设置各区间的带宽参数为135。

作为极其重要的绿色能源，风能已经在世界各国得到了广泛应用。伴随着风电装机容量的增加，风电场的消纳和操控问题得到了人们广泛的关注。为了提高风电机组的稳定运行，人们往往需要借助于高精度的风电功率曲线。随着信息技术的发展，现有的风电机组几乎都安装了数据采集和监视系统。SCADA(数据监视控制及采集系统)广泛应用于风电机组在各种工况下的数据监视。风电机组的功率曲线理论上如图1所示。然而，由于风电机组一般位于户外工作，其运行环境带有很多不确定性因素，所以系统会记录下大量的异常数据。造成异常数据的原因有很多，主要包括风机故障、弃风限电、极端天气条件等等。这些数据会严重影响风电机组的功率预测精度，导致电网调度人员下达不合理的指令，也会浪费大量的资源，因此，准确的识别风电功率曲线中携带的大量异常数据有利于电力系统的整体运行。

风电机组的理想出力函数表达式如(1)所示，其中v_in代表切入风速，v_out代表切出风速：

实际典型风电功率曲线主要包括分散型数据、堆积型数据和负功率数据，其中，堆积数据(即弃风限电数据)占比最高。以实际运行的四台风电机组为例，它们的风速-功率曲线如图2所示，其中，编号1代表负功率数据和部分弃风限电数据，编号2代表限电数据，编号3代表分散型数据。分散型数据往往是由于风机传感器失灵等随机因素造成的；而限电数据是由于风电存在严重的反调峰特性造成的。风电的反调峰性加大了电网的符合峰谷差，加之西北地区电网架构相对脆弱，这使得电力部门在调度决策中往往下发限电的指令，这使得西北地区几乎所有风机都存在堆积型限电数据。当弃风现象尤为严重时，异常数据的含量会远超正常数据，采用已有的算法很难完全清洗所有的异常数据，即便是该领域最近新涌现的图像处理法^[1～3]，无论通过腐蚀膨胀^[1]、垂直-水平最长像素保留法^[2]或是特征图像生成与阈值切割^[3]，也无法处理这种情况。

本发明克服现有技术的不足，本发明首先通过对风机划分功率区间和风速区间，采用孤立森林算法先后检测功率区间和风速区间的异常数据，在这一过程结束后，对剩余的数据采取均值漂移聚类，得到符合风电机组模型的的功率曲线。

相比于现有技术的缺点和不足，本发明具有以下有益效果：本发明通过提出分区间孤立森林和均值漂移聚类组合算法的数据处理手段，该算法不仅对于常规文献着重讨论的风电功率曲线有效，对于发生严重弃风现象的风电机组的功率曲线也能发挥作用，从而在一定程度上缓解风电机组的异常数据问题，为提高风机预测精度提供了方案。

以某风电场四台风力发电机风速-功率散点图为例，在此基础上综合考虑风机的故障数据类型，利用分区间孤立森林和均值漂移聚类的组合算法对风机异常数据进行剔除，采用分区间孤立森林算法剔除了分散型异常数据和部分弃风限电数据；剩余的限电数据可通过均值漂移聚类剔除，从而保留符合风电机组运行规律的数据样本，减少了因数据问题对预测造成的不利影响，提升风电功率预测的精度，切实提高电力系统调度能力。

参考文献：

[1]H.Long,L.Sang,Z.Wu,and W.Gu,“Image-based abnormal data detectionand cleaning algorithm via wind power curve,”IEEE Trans.Sustain.Energy,vol.11,no.2,pp.938–946,Apr.2019.

[2]Wang Z.,Wang L.,Huang C.,“A Fast abnormal data cleaning algorithmfor performance evaluation of wind turbine,”IEEE Trans.Instrum.Meas.2021,70,5006512.

[3]Guoyuan L.,Yahao S.,Fan Chen.,Long,L.and S.Zhe,“Wind power curvedata cleaning by image-thresholding based on class uncertainty and shapedissimilarity,”IEEE Trans.Sustain.Energy,vol.12,no.2,pp.1383–1393,Apr.2021.

附图说明

图1是风电机组理论出力曲线图；

图2是实际风电机组功率曲线图；其中，a～d分别代表No.3～No.6号风机；

图3是基于本发明组合算法的风电功率曲线清洗结果图；

图4是基于四分位k-means算法的风电功率曲线清洗结果图；

图5是基于四分位密度聚类算法的风电功率曲线清洗结果图；

图6是基于腐蚀膨胀算法的风电功率曲线清洗结果图；

图7是基于垂直-水平最长像素保留法的风电功率曲线清洗结果图；

其中，图3～7中，编号No.3～No.6分别代表No.3～No.6号风机。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

本发明首先通过对风机划分功率区间和风速区间，采用孤立森林算法先后检测功率区间和风速区间的异常数据，在这一过程结束后，对剩余的数据采取均值漂移聚类，得到符合风电机组模型的的功率曲线。具体过程为：

1、基于分区间的孤立森林异常检测

本发明实施例采用孤立森林算法(参考文献：Liu,F.T.；Ting,K.M.；Zhou,Z.H.Isolation forest.In Proceedings of the 2008Eighth IEEE InternationalConference on Data Mining,Pisa,Italy,15–19December 2008；pp.413–422)进行异常数据剔除。孤立森林是一种快速检测异常数据的算法，它将异常数据定义为容易被分离的样本。在整批数据样本中，孤立森林默认正常样本占据绝大多数，异常数据只占一小部分；此外，异常数据的数据特征属性和正常数据会有很大的差异，在这两个前提下，本发明将异常数据切割出来的难度比正常数据小；换言之，正常数据需要经过一定量的切分次数才能被孤立出来，而切分异常数据显然容易得多。孤立森林的原理和随机森林类似，一般采用隔离树对样本进行分割。

隔离树本质上是一种随机二叉树，本发明首先从总体中选择n个数据作为子样本，整个子样本作为二叉树的根，每个数据具有d个特征属性。从d个特征中随机选择一种，同时生成对应该特征的一个阈值p，该值介于子样本该属性最大值和最小值之间，因此p可以将子样本分为两类，本发明将子样本中数据对应特征的值小于p的部分放在当前节点的左树枝，其余部分则放在当前节点的右树枝。在该节点的左右分支上递归重复上述步骤。继续创建新节点，直到叶子节点只有一个数据(此时无法切割数据)或树的高度达到设置的限制。由于上述过程中所选择的特征和分割点的值是随机的，因此即使隔离树将某一点判定为异常，也不能将其完全判定为离群点。为了避免偶然性的影响，可以通过训练过程对数据集进行随机重采样，构建多个隔离树。许多树构成了孤立森林。森林构建完成后，样本中的每个点将经历每个隔离树。记录隔离树中每个点的路径长度，然后计算出所有路径长度的期望。每个样本点的异常得分定义如式(2)所示：

其中，h(x)代表每个样本点在每个隔离树上走过的路径长度，E(h(x))是所有路径长度的均值，n代表每个子样本中的数据量，c(n)代表隔离树的平均高度，其计算公式为：

其中，H(i)可以用式(4)估计：

H(i)＝In(i)+0.5772156649 (4)

对于任一数据x_i，其异常得分位于0至1之间，当得分越接近0时，表明该数据在隔离树上经过的路径越短，成为异常数据的可能性就越大。当所有数据的得分都接近0.5时，数据集不含明显的异常数据。

孤立森林在一些文献中被用于风电机组异常数据数别。然而大多数文献是直接采用孤立森林对风电功率曲线进行全局检测。但事实上孤立森林的假设前提是异常数据只占据数据集本身很小的比例，因此在处理弃风限电数据很多的风电功率曲线时，如果直接采用孤立森林对风电功率曲线进行全局检测，容易造成混乱的判断结果。

因此，在使用该方法之前，先建立风电曲线的局部模型，采用区间划分的方法，在对风电功率数据进行划分后分区间进行孤立森林检测，形成适合孤立森林算法的局部检测模型，本发明采用的分区间孤立森林法的实施步骤如下：

(1)考虑风机的切入风速为3m/s，切出风速为25m/s，本发明首先进行数据预处理，剔除风速小于3m/s但对应功率大于0的数据，此外风速高于25m/s的数据和功率为负值的数据也应当剔除；

(2)对风电功率进行区间划分，以25kw为区间间隔，采用孤立森林对每个区间内的风速-功率数据进行检测，为了保证算法效率，构建每颗树的子样本数量选择区间样本和256中的较小值，异常比例可以灵活调整，当分散型数据较多时设置为0.1，当分散型数据分布稀疏或正常数据比例较低时异常比例可设置为0.05；此步骤可剔除大部分分散数据和部分偏离正常数据较远的弃风数据，同时可避免在正常数据比例较低时不发生过度剔除现象；

(3)获得每个功率区间的异常检测结果后，将其绘制到图中并观察结果，若风电机组已经不存在分散型数据，则该算法结束；否则对风速区间进行划分，以0.5m/s为间隔作为一个区间，对区间内的风速-功率数据，继续采用孤立森林算法检测异常点，由于上一步已经剔除大量分散数据，此时应降低各区间的异常数据比例，否则会导致过多的正常数据被剔除，参数可结合此时的风电功率曲线进行设定，通过大量风机的数据分析，将异常数据设置为区间样本的0.05可获得较好的剔除效果。

通过上述步骤，风电机组的负功率数据和分散型异常数据基本得到了剔除，一些堆积型数据也被过滤，如果此时风电曲线已经不存在弃风数据，则不需要进行均值漂移算法。基于上述结果，本发明可采用均值漂移算法完成对剩余异常数据的剔除。

2、均值漂移算法

均值漂移聚类(参考文献：Cheng,Y.Mean Shift,Mode Seeking,andClustering.IEEE Trans.Pattern Anal.Mach.Intell.1995,17,790–799.)主要针对于无监督学习，它通过一个名为带宽的超参数来搜寻在特征空间中数据最密集的区域，带宽内每一点对中心点的偏移向量贡献不同，这可以通过高斯核函数确定，与DBSCAN相比，该算法对分类更为敏感，即使正常数据和异常数据之前不存在很明显的零密度区域，均值漂移也能很好地区分两种数据。而DBSCAN算法的两个超参数的设定在堆积数据和正常数据差值很小的情况下需要不断变化才能适应分类要求；此外风机在高风速下个别区间的数据稀少，采用DBSCAN算法容易出现所有数据判定为异常点的现象。因此当异常数据和正常数据间距很小时，采用均值漂移聚类是比DBSCAN更为有效的算法。此外，为了提升算法的效率，本发明在使用均值漂移时采用离散的方式采样少量的点来初始化数据。

考虑到风电机组在不同风速下数据差距很大，直接将整台风机数据作为同一类数据采用均值漂移处理并不合适。本发明先考虑按之前分区间的处理手段，将风以0.5m/s为间隔划分风速区间。将每个区间作为一个对象，本发明采用的均值漂移法的实施步骤为：对划分的每个区间进行聚类处理，保留区间上方数据，为了增加算法的工程实用性，通过对多台风机进行实验，最终设置各区间的带宽参数为135。

3、结果

为了验证本发明提出的算法工程实用性，采用某风电场收集的四台风电机组运行数据进行算法分析，图3～7分别验证了本发明组合算法、四分位k-means法、四分位密度聚类法、数学形态学法以及像素清洗法的清洗效果，通过实验结果可以发现，本发明的组合算法对四台风电机组均具有较好的清洗效果，而其余算法只能满足部分曲线，其中3号风机和6号风机的功率曲线只有在本发明组合算法中获得了符合实际工程应用的数据，而腐蚀膨胀算法和像素法很难处理密集分布的异常数据。

五种算法的效率和清洗结果如表1所示，主要包括了每台风机的原始数据量，剔除比例R(％)和计算时间T(s)，相比于其他四种算法，本发明所提出的组合算法计算成本会更大，但是对于四种典型风电功率曲线均具有良好的清洗效果。

表1五种算法对比结果

4、结论

本发明针对含有大量异常数据的风电机组，通过区间划分的孤立森林算法进行异常数据局部检测，可结合风电曲线的数据分布灵活调整异常数据比例，该步骤能剔除分散型数据和部分离群的堆积型数据；在此基础上，本发明提出均值漂移的聚类算法剔除剩余的堆积数据，该聚类手段即使在正常数据和异常数据之间不存在明显空白区域的情况下也能起到区分的作用，最后得到了符合风机本身发电规律的正常数据，为后续风电功率预测做好数据准备。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于分区间孤立森林和均值漂移聚类的风电功率曲线异常数据剔除方法，其特征在于，该方法包括以下步骤：

2.如权利要求1所述的方法，其特征在于，在步骤(1)中，所述分区间孤立森林算法剔除风力曲线中的分散型异常数据和弃风限电数据包括以下步骤：

3.如权利要求2所述的方法，其特征在于，在步骤(1-2)中，在孤立森林算法中构建每颗树的子样本数量选择区间样本和256中的较小值，异常比例参数根据情况进行相应调整。

4.如权利要求3所述的方法，其特征在于，所述异常比例参数根据情况进行相应调整具体为：当分散型数据较多时异常比例参数设置为0.1，当分散型数据分布稀疏或正常数据比例较低时异常比例参数设置为0.05。

5.如权利要求2所述的方法，其特征在于，在步骤(1-4)中，孤立森林算法检测异常点的过程中，各区间的异常数据比例参数设置为0.05以避免正常数据被剔除。

6.如权利要求1所述的方法，其特征在于，在步骤(3)中，所述采用均值漂移聚类算法对剩余异常数据进行剔除具体为：对划分的每个区间进行聚类处理，保留区间上方数据。

7.如权利要求6所述的方法，其特征在于，在均值漂移聚类算法中，设置各区间的带宽参数为135。