CN110717610B

CN110717610B - 一种基于数据挖掘的风电功率预测方法

Info

Publication number: CN110717610B
Application number: CN201810815187.9A
Authority: CN
Inventors: 李俊卿; 李秋佳
Original assignee: North China Electric Power University
Current assignee: North China Electric Power University
Priority date: 2018-07-11
Filing date: 2018-07-11
Publication date: 2023-10-31
Anticipated expiration: 2038-07-11
Also published as: CN110717610A

Abstract

本发明提供一种基于数据挖掘的风电功率预测方法，包括以下步骤：a.数据采集与预处理；b.分别使用属性快速约简算法、互信息算法和随机森林算法选出预测模型的输入向量集；c.使用选出的输入向量，基于最小二乘支持向量回归算法初步预测出风电功率；d.算出初步预测功率与实际功率的误差，使用迭代自组织数据分析算法对误差自动分类后基于马尔科夫链原理算出误差的状态转移概率矩阵，进一步得到功率修正值；e.根据误差性能指标择优。本发明考虑了输入向量影响，并首次提出了基于迭代自组织数据分析和马尔科夫链的修正方法，不仅实现了输入向量的有效降维还提高了预测速度和精度。

Description

一种基于数据挖掘的风电功率预测方法

技术领域

本发明涉及一种基于数据挖掘的风电功率预测方法，属于可再生能源领域。

背景技术

风能作为一种清洁的、无污染的可再生能源，必将成为21世纪的主要能源。风电机组是在波动风场环境中，实现风能捕获、传递和转换的复杂机电液一体化装备，其运行工况复杂多变，需要面临高温、高海拔、强沙尘、台风等多种极端恶劣环境条件，导致风电功率具有较高的随机性，将对电网造成不可控的瞬间冲击力，也造成了电网电压质量不可控。风电功率具有间歇性、随机性和波动性，由此给电网安全运行带来了一系列问题的同时也使电网调度缺乏做好各类电源调度计划的依据。因此，及时有效的预测风电功率进行成为了极具研究价值和前景的问题。

基于SCADA系统对风电机组的有功功率(简称风电功率)进行预测是一种潜在的低成本解决方案，不需要额外的传感器，近年来已经开发了一些使用这些数据进行风电功率预测的方法。SCADA系统记录的内容包括风况相关数据、能量转换相关数据、振动和温度数据等参数。而现有的SCADA系统往往缺乏有效的算法来预测风电功率。因此，基于SCADA数据建立准确、有效的功率预测算法成为了极具研究价值和前景的问题，不仅能够指导电力部门的发电计划和并网控制，也为机组的运行状态评估系统提供新的思路

根据预测时间的长短，风电预测一般可分为超短期预测、短期预测、中期预测和长期预测。目前研究主要集中于短期和超短期尺度内，前者可安排机组组合和发电计划，后者主要用于电力系统实时调度。受各种不确定因素影响，中长期尺度的风电预测研究相对较少，其主要用于制定风电场的检修计划。

影响风电功率预测模型的输入向量有许多，而输入向量集的维数过高会削弱模型的泛化能力。因此，如何从众多的输入向量中提取出对风电功率预测结果影响较大的特征向量组成输入向量集，是提高智能方法建立非线性预测即风电功率预测精确度首要考虑的问题。属性约简是粗糙集理论中一项重要的应用，目前已广泛运用于机器学习和数据挖掘等领域中，邻域粗糙集是粗糙集理论中处理连续型数据的一种重要方法，且利用邻域粗糙集模型下正域与属性集的单调关系指导属性选择算法可提高运算速度。而基于随机森林的封装式特征选择算法，也通过实验证明了该算法在分类性能和特征子集选择两方面具有较好的性能。同时，互信息值的高低反映了变量之间相关度的大小，故可以用来衡量某个特征输入向量和风电功率的相关性，如果信息量越大，那么特征向量和风电功率的相关性越大，故也可用来选取与风电功率有关特征变量。

支持向量机克服了人工神经网络训练时间长、泛化能力差、易陷入局部极小的缺点，提高了学习泛化能力，与阈值法、贝叶斯分类算法、秩和等算法相比，具有优越的预测性能，同时还能保持较低的误报率，具有最好的综合性能，但其本身存在求解规模过大和超平面参数选择的问题。最小二乘支持向量回归算法从机器学习损失函数着手，使用二范数优化目标函数，并利用等式约束条件代替支持向量回归标准算法中的不等式约束条件，克服了支持向量回归在大规模问题中存在的训练速度较慢的缺点，并且采用了修剪法，支持稀疏性。虽然最小二乘支持向量机的整体预测精度优于支持向量机和模块概率神经网络，但单一使用最小二乘支持向量回归算法预测风电功率也存在不够精确的问题，可通过与马尔科夫链理论相结合来进行功率的修正，而马尔科夫链必须结合有效的聚类方法才能进一步提高预测精度。常见的动态聚类算法有k均值聚类和迭代自组织数据分析算法，对于非监督分类，事先很难确定待分类的集合中到底有多少类，迭代自组织数据分析算法作为一种无监督分类机器学习方法，相较于传统的k均值算法，该算法不需要人为地指定聚类的数目，能够通过设置阈值参数、动态地进行类的合并或分裂，自动调节聚类的数目，以迭代操作划分为较为理想的聚类结果。

综上所述，尽管目前存在多种功率预测的算法，但由于算法本身的缺陷或局限性，导致预测结果不够精确，本发明结合最小二乘支持向量回归、迭代自组织数据分析和马尔代夫链算法，充分发挥各算法的不同优势以提高预测精度。

发明内容

本发明的目的在于针对现有技术的不足之处，本发明提出一种基于数据挖掘技术的风电功率预测方法，通过分析SCADA系统的实时数据，预测出下一时间段的风电功率。

本发明所述问题是以下技术方案实现的：

首先对SCADA的全部监测量进行预处理，对处理后的监测量使用基于邻域粗糙集的属性快速约简、随机森林和互信息三种特征选择算法筛选出对功率预测有重要影响的向量，并将筛选结果作为预测模型的输入向量集，然后利用最小二乘支持向量回归算法对风电功率做初步预测，最后基于迭代自组织数据分析算法和马尔科夫链理论对预测结果做了修正。

上述基于数据挖掘的风电功率预测方法按以下步骤进行；

a.数据采集与预处理：采集风电机组某一时间段(如12小时)的SCADA系统全部连续监测项目的秒级数据，对数据进行平均化处理(如一分钟)和归一化处理，其中归一化处理数据的公式如下：

式中，x_ij为归一化后的第j个监测向量的第i时刻的值；m为监测向量的维度；n为监测向量的个数；x’_ij为x_ij平均化处理后的值；x’_jmax、x’_jmin分别为第j个监测量的最大值和最小值。

b.输入向量的筛选：使用步骤a得到的数据，分别使用基于邻域粗糙集的属性快速约简算法、互信息算法、随机森林算法对全部连续量监测项目进行筛选，通过设置各个算法的参数分别选出相同数量的与风电功率相关的项目组成功率预测模型的输入向量集；

c.功率初步预测：对步骤b选出的监测量项目的数据进行分段，前5/6作为训练集，后1/6作为测试集，使用最小二乘支持向量回归算法初步预测出测试集所在时间段的风电功率，算法的核函数选用高斯径向基核函数，公式如下：

k(x，x_j)＝exp(-||x-x_j||²/2σ²)

式中，x_j∈Rⁿ为第j个监测向量；σ为宽度参数。

d.功率修正：算出步骤c中的预测功率与实际功率的误差e_i，使用迭代自组织数据分析算法对误差自动分类后，再基于马尔科夫链原理算出误差的状态转移概率矩阵，分别将状态转移概率矩阵中的转移概率与对应的误差相乘并相加后叠加到功率初步预测值上，至此得到最终功率预测值y_ci。其中，

e_i＝y′_i-y_i

式中，y’_i为第i时刻的初步功率预测值；y_i为第i时刻的功率实际值；β是为了调整修正程度引入的修正系数；p_gh为状态转移概率矩阵中的元素(假定i时刻的功率误差值处在状态“g”)；c_k为误差划分的类别数；z_h为第h类误差的聚类中心值。

e.根据误差性能指标择优：分别求取各个输入向量集对应的预测功率与实际功率的误差性能指标均方根误差(RMSE)、标准化均方根误差(NRMSE)和平均绝对误差(MAE)，选取误差指标综合最小的预测值作为本发明预测出的最终风电功率值。误差指标的计算公式如下：

式中，y_max为功率实际值的最大值；y_min为功率实际值的最小值。

附图说明

图1为本发明风电功率预测方法的流程图；

图2为本实施例中SCADA系统的全部连续量监测项目及其对应编号；

图3为基于邻域粗糙集的属性快速约简算法约简后的特征数量以及项目筛选结果；

图4为互信息理论的相关性指标值及项目筛选结果；

图5为随机森林算法的重要性指标值及项目筛选结果；

图6为功率修正方法的流程图。

图7为分别使用上述三种方法筛选出的监测项目再加上监测项目全集作为输入向量集，使用最小二乘支持向量回归预测并修正后的风电功率曲线图。

图8为使用上述各个数据挖掘方法的最终预测功率的误差性能指标对比图。

图中各符号表示为：e_i为初步预测功率与实际功率的误差，c为迭代自组织数据分析算法第一步任选的聚类中心数，c_k为期望的聚类中心数，θ_c为两个聚类中心之间的最小距离阈值，z₁-z_ck为误差的聚类中心值，m_gh和m_g分别为状态“g”转移到状态“h”的次数和状态“g”出现的次数，P为状态转移概率矩阵，β为修正系数，p_gh为状态转移概率矩阵中的元素(假定i时刻的功率误差值处在状态“g”)，z_h为第h类误差的聚类中心值，y’_i为第i时刻的初步功率预测值，y_ci为最终功率预测值。

具体实施方式

下面结合附图对本发明作更进一步的说明。

如图1所述为本发明风电功率预测方法的流程图，包括如下步骤：

a.数据采集与预处理：采集风电机组某一时间段(如12h)的SCADA系统全部连续监测项目的秒级数据，对数据进行平均化处理(如1min)和归一化处理，其中归一化处理数据的公式如下：

b1.上述输入向量的筛选中，基于邻域粗糙集的属性快速约简算法的属性选择过程采取前向贪心搜索策略，步骤如下：

1)选取一个空集作为初始属性子集B；

2)通过新加入属性r引起的粗糙集属性依赖度的变化，来确定属性子集B。若依赖度是增大的，则说明加入该属性后，相应的分类能力增加，即重要性提高，则将该属性加入初始属性集合；否则，重要性降低，则舍弃该属性。定义决策属性D对条件属性B的属性依赖度为：

其中，|.|表示集合的基数；POS_B(D)称为D的B正域，它是指通过现有知识B，能够被D所完全包含的邻域信息粒子的最大并集；U＝{x₁，x₂，...，x_n}是全体样本的集合，称为论域。

3)当属性依赖度最大时，B与全部属性集合C的分类能力相同，此时集合B为C一个属性约简的结果。

在计算属性依赖度时，若样本x为已选条件属性集E上的正域样本，则x也是(E+r)上的正域样本，故只需判断原来负域(与D完全无关的邻域信息粒子)中的样本即可计算决策属性D对(E+r)的属性依赖度时，可大大提高样本判断速度。可通过设置邻域的大小δ和可变精度阈值k的取值来筛选输入变量，即若引入每一个新特征的增值小于k则停止搜索。

b2.上述输入向量的筛选中，互信息指两个事件集合之间的相关性，是shannaon信息熵理论中一种有用的信息度量。它在信息熵的基础上进一步度量了一个变量中含有的关于另一个变量的信息量。因此，互信息值的高低反映了变量之间相关度的大小，故可以用互信息来衡量某个特征输入向量和风电功率的相关性，如果信息量越大，那么特征向量和风电功率的相关性越大，反之也是成立的。通过互信息的大小来确定不同监测量与风电功率间的相关性，从而得出输入向量集。

信息熵理论利用概率统计的方法，将熵作为量化信息的度量。信息熵的计算公式为：

式中：H(x)为x的信息熵，p_i∈[0，1]为x在不同取值下的概率。设向量(x，y)的联合概率分布为p_ij(i＝1，2，...，m；j＝1，2，...，n)，则(x，y)的二维联合熵定义如下：

定义在已知y的条件下，x的条件熵如下，式中p_i.和p._j分别为x和y的边际分布。

若H(x/y)≤H(x)，则说明y中包含了x的某些信息，这部分信息即为互信息I(x，y)。

I(x，y)＝H(x)-H(x/y)

b3.上述输入向量的筛选中，随机森林是一个基于树的非参数组合分类器，能有效处理高维变量问题，一大特点是可以通过对变量的重要性进行排序来实现参数的筛选。筛选的基本思想是当对一个相关特征(即对预测准确率可能起重要作用的特征)加入噪声后，随机森林的分类准确率将显著降低。将这一思想应用于筛选预测模型的输入向量中，使用两种指标来综合考量输入向量的重要性，一种基于袋外数据误差，称为平均精度下降(Meandecrease in Accuracy，MDA)；另一种基于基尼不纯度GI，称为平均基尼指数下降(Meandecrease in Gini，MDG)。两种指标都是下降的越多表示该变量越重要，计算公式如下：

式中：n为树的个数；errOOB为袋外数据误差；Q为目标变量的类别总数；p(k/t)为节点t中目标变量为第k类的条件概率。

根据公式计算出每棵树的GI值，再将所有树的结果进行平均即得到平均基尼指数下降值。通过综合考量MDA和MDG的大小来确定各输入变量对风电功率预测的重要性，进而筛选出输入向量集。

下面以河北某风电场配备的SCADA系统为例，使用本发明提出的方法从中筛选出风电功率预测模型的输入向量集，如图2所示为该SCADA系统的全部连续量监测项目及其编号。

图3为对上述SCADA系统数据使用基于邻域粗糙集的属性快速约简算法约简后的特征数量以及项目筛选结果(邻域大小δ取0.12，可变精度阈值k取0.001)。

图4为对上述SCADA系统数据使用互信息理论的相关性指标值及项目筛选结果(为了采取控制变量法对比各个方法的筛选效果，选出与属性快速约简算法相同数量的相关性指标值较高的监测项目)。

图5为对上述SCADA系统数据使用随机森林算法的重要性指标值及项目筛选结果(为了采取控制变量法对比各个方法的筛选效果，选出与属性快速约简算法相同数量的重要性指标值较高的监测项目)。

c.功率初步预测：对步骤b选出的监测量项目的数据进行分段，前5/6作为训练集，后1/6作为测试集，使用最小二乘支持向量回归算法初步预测出测试集所在时间段的风电功率。

最小二乘支持向量回归问题可以理解为：给定m个输入-输出样本集{(x_i，y_i)|i＝1，2，...，m}，其中，x_i∈Rⁿ为第i个n维输入向量，y_i∈R为第i个标量输出。对于非线性回归问题，回归函数如下：

f(x)＝w^Tg(x)+b

其中，w是l维的权重向量；b为偏置项。通过非线性函数g(x)，将n维的输入向量映射到l(l＞m)维的特征空间。

根据结构化最小风险准则，将上述问题转化为以下约束优化问题：

s.t.y_i＝ξ_i+w^Tg(x_i)+b

式中：ξ_i为误差变量；γ为惩罚系数，且γ＞0，其值大小决定了对误差的惩罚力度。

采用拉格朗日乘子及矩阵变换方法，则上述约束优化问题可转换为无约束问题：

其中：E＝[1，...，1]^T，y＝[y₁，...，y_m]^T，a＝[a₁，...，a_m]^T为拉格朗日乘子，I为单位矩阵，K为满足Mercer条件的核函数，用最小二乘法求出上式中的a和b，得到预测输出：

由于高斯径向基核函数的预测性能优于线性核函数、多项式核函数和sigmoid核函数，故本发明选用宽度参数为σ的高斯核函数：

K(x，x_i)＝exp(-||x-x_i||²/2σ²)

d.功率修正：算出步骤c中的预测功率与实际功率的误差e_i，i＝1，2，...，m，使用迭代自组织数据分析算法对误差自动分类后，再基于马尔科夫链原理算出误差的状态转移概率矩阵，分别将状态转移概率矩阵中的转移概率与对应的误差相乘并相加后叠加到功率初步预测值上，至此得到最终功率预测值y_ci。其中，

e_i＝y′_i-y_i

如图6所示为风电功率预测模块中功率修正方法的流程图。

d1.在使用迭代自组织数据分析算法进行功率修正的过程中，步骤如下：

第一步：任选c个聚类中心z₁，z₂，...，z_c，定义参数k，θ_n，θ_s，θ_c，L，I，t，其中t＝0，c不要求等于期望的聚类中心数c_k；

第二步：分配n_k个样本按最近邻规则分配到c个聚类中。若|e_i-z_k|＜|e_i-z_l|，k，l＝1，2，...，c，i≠j，则e_i∈E_k，其中E_k表示分类到聚类中心z_k的样本子集，n_k为E_k中样本个数；

第三步：若n_k＜θ_n，θ_n为每一类中至少应包含的样本数，则去除E_k，使c＝c-1，也就是将样本数比θ_n少的样本子集删去；

第四步：按下式修正各聚类中心z_k：

第五步：计算E_k中样本与各聚类中心间的平均距离：

第六步：计算总体的平均距离：

第七步：判断分裂、合并及迭代运算步骤：

1)若迭代已达允许迭代的次数I，置θ_c＝0，θ_c为两个聚类中心之间的最小距离值，转到第十一步，算法结束；

2)若c≤c_k/2，即聚类中心小于期望数的一半，转到第八步，将已有类分裂；

3)若迭代次数是偶数，或c≥2c_k，即聚类中心数目大于期望数的两倍，则转到第十一步，进行合并处理；

4)若2)和3)不满足则继续，转入第八步；

第八步：计算各聚类中心对该类误差样本的标准差σ_k。对第E_k类有：

第九步：求出σ_k中最大分量σ_max；

第十步：若σ_max＞θ_s，θ_s为类内样本标准差阈值，且同时满足以下条件之一：

1)和n_k＞2(θ_n+1)，即类内平均距离大于总体平均距离，并且E_k类样本数过大；

2)c≤k/2，即聚类数小于等于期望数的一半；

则将E_k分成两个新的聚类中心，z_k ⁺和z_k ^-，删去z_k，并使c＝c+1，其中z_k ⁺为z_k加上αz_k，z_i ^-为z_i减去z_k，0＜α＜1，选择α的基本要求是，使任意样本到这两个新的聚类中心之间有一个足够可检测的距离差别，但又不能太大；

如果完成分裂，则迭代次数加1，t＝t+1，转到第二步，否则继续进行第十一步；

第十一步：计算全部聚类中心的两两距离d_ij：

d_kl＝|z_k-z_l|，k≠l，k，l＝1，2，...，c

第十二步：如果d_kl＞θ_c，转到第十四步，否则，将d_kl＜θ_c的值升序排列，即d_k1l1＜d_k2l2＜...＜d_ktlt，t＜L，L为一次迭代中允许合并的最多对数；

第十三步：从d_k1l1开始，逐对合并，算出新的聚类中心z_t ^*：

删去z_k和z_l，并使c＝c-1，注意，只允许一对对合并，并且一个聚类中心只能合并一次；

第十四步：迭代处理，若是最后一次迭代，t＝I，I为允许迭代的次数，则算法结束，否则有两种情况：

1)不修改参数，t＝t+1，转到第二步；

2)需要人工修改参数，t＝t+1，转到第一步。

d2.功率修正过程中，马尔可夫链指一类具有马尔科夫性质的离散时间随机过程。在该过程中，若给定当前知识或信息，则过去(即当前以前的历史状态)对于预测将来(即当前以后的未来状态)是无关的。马尔可夫链描述了一种时间和状态都是离散的马尔科夫过程，是聚类中心z_h的一个数列，z_h＝Z(h)，h＝1，2，...，c_k。这些变量的范围，即它们所有可能取值的集合，被称为“状态空间”，也即d1中通过迭代自组织数据分析算法确定下来的聚类中心值的集合，Z_h的值则是在时间n的状态。如果Z_h+1对于过去状态的条件概率分布仅是Z_h的一个函数，即

P(Z_h+1＝z_h+1|Z₁＝z₁，Z₂＝z₂，...，Z_h＝z_h)＝P(Z_h+1＝z_h+1|Z_h＝z_h)

上面这个恒等式可以看作是马尔可夫性质。

条件概率P(Z_i+1＝h|Z_i＝g)表示系统由i时刻状态g转移至i+1时刻状态h的概率，记此条件概率为p_gh(i)，称为马尔科夫链的转移概率，严格定义如下：

p_gh(i)＝P(Z_i+1＝h|Z_i＝g)

由p_gh所组成的矩阵称为一步转移概率矩阵P，表示如下：

其中，p_gh由下式计算：

p_gh＝m_gh/m_g

式中，m_gh为由状态g转移到状态h的次数，m_g为状态g出现的次数。

如图7所示为分别使用上述三种方法筛选出的监测项目再加上监测项目全集作为输入向量集，使用最小二乘支持向量回归预测并修正后的风电功率曲线图。

e.根据误差性能指标择优：分别求取各个输入向量集对应的预测功率与实际功率的误差性能指标均方根误差(RMSE)、标准化均方根误差(NRMSE)和平均绝对误差(MAE)，选取误差最小的预测值作为本发明预测出的最终风电功率值，误差指标的计算公式如下：

式中，y_max为实际功率最大值；y_min为实际功率最小值。

图8为使用上述各个数据挖掘方法的最终预测功率的误差性能指标对比，从图中可以看出：

1)基于三种数据挖掘的筛选方法的误差性能指标均小于基于全集的筛选，证明了三种筛选方法的有效性和可行性；

2)基于随机森林筛选输入向量集的误差性能指标值最小，具有最好的预测精度。

Claims

1.一种基于数据挖掘的风电功率预测方法，其特征在于，它包括以下步骤：

a.首先采集风电机组某一时间段的SCADA系统全部连续监测项目的秒级数据，对数据进行平均化处理和归一化处理；然后分别使用基于邻域粗糙集的属性快速约简算法、互信息算法、随机森林算法对全部连续量监测项目进行筛选，通过设置各个算法的参数分别选出相同数量的与风电功率相关的项目组成功率预测模型的输入向量集；

b.对步骤a选出的监测量项目的数据进行分段，前5/6作为训练集，后1/6作为测试集，使用最小二乘支持向量回归算法初步预测出测试集所在时间段的风电功率；

c.算出步骤b中的预测功率与实际功率的误差，使用迭代自组织数据分析算法对误差自动分类后基于马尔科夫链原理算出误差的状态转移概率矩阵，分别将状态转移概率矩阵中的转移概率与对应的误差相乘并相加后叠加到功率初步预测值上，至此得到功率修正值；

d.分别求取各个输入向量集对应的预测功率与实际功率的误差性能指标均方根误差RMSE、标准化均方根误差NRMSE和平均绝对误差MAE，选取误差指标综合最小的预测值作为预测出的最终风电功率值。

2.根据权利要求1所述的一种基于数据挖掘的风电功率预测方法，其特征在于：

步骤a中归一化处理数据的公式如下：

式中，x_ij为归一化后的第j个监测向量的第i时刻的值；m为监测向量的维度；n为监测向量的个数；x′_ij为x_ij平均化处理后的值；x′_jmax、x′_jmin分别为第j个监测量的最大值和最小值。

3.根据权利要求1所述的一种基于数据挖掘的风电功率预测方法，其特征在于：

步骤b中最小二乘支持向量回归算法的核函数选用高斯径向基核函数，公式如下：

k(x，x_j)＝exp(-||x-x_j||²/2σ²)

式中，x_j∈Rⁿ为第j个监测向量；σ为宽度参数。

4.根据权利要求1所述的一种基于数据挖掘的风电功率预测方法，其特征在于：

步骤c中定义误差e_i，i＝1，2，...，m，功率修正值y_ci如下：

e_i＝y′_i-y_i

式中，y′_i为第i时刻的初步功率预测值；y_i为第i时刻的功率实际值；β是为了调整修正程度引入的修正系数；p_gh为状态转移概率矩阵中的元素，假定i时刻的功率误差值处在状态“g”；c_k为误差划分的类别数；z_h为第h类误差的聚类中心值。

5.根据权利要求1所述的一种基于数据挖掘的风电功率预测方法，其特征在于：

步骤d中使用的误差性能指标均方根误差RMSE、标准化均方根误差NRMSE和平均绝对误差MAE，计算公式如下：