CN110717610B - 一种基于数据挖掘的风电功率预测方法 - Google Patents
一种基于数据挖掘的风电功率预测方法 Download PDFInfo
- Publication number
- CN110717610B CN110717610B CN201810815187.9A CN201810815187A CN110717610B CN 110717610 B CN110717610 B CN 110717610B CN 201810815187 A CN201810815187 A CN 201810815187A CN 110717610 B CN110717610 B CN 110717610B
- Authority
- CN
- China
- Prior art keywords
- power
- algorithm
- value
- wind power
- error
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 44
- 238000007418 data mining Methods 0.000 title claims abstract description 15
- 239000013598 vector Substances 0.000 claims abstract description 64
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 57
- 230000007704 transition Effects 0.000 claims abstract description 24
- 238000012937 correction Methods 0.000 claims abstract description 20
- 239000011159 matrix material Substances 0.000 claims abstract description 14
- 230000009467 reduction Effects 0.000 claims abstract description 14
- 238000007405 data analysis Methods 0.000 claims abstract description 12
- 238000007637 random forest analysis Methods 0.000 claims abstract description 11
- 238000012544 monitoring process Methods 0.000 claims description 27
- 238000012935 Averaging Methods 0.000 claims description 7
- 238000012360 testing method Methods 0.000 claims description 6
- 238000010606 normalization Methods 0.000 claims description 5
- 238000012549 training Methods 0.000 claims description 5
- 238000012216 screening Methods 0.000 description 22
- 230000006870 function Effects 0.000 description 13
- 230000008569 process Effects 0.000 description 5
- 238000011160 research Methods 0.000 description 5
- 238000004364 calculation method Methods 0.000 description 4
- 230000007547 defect Effects 0.000 description 4
- 238000009826 distribution Methods 0.000 description 4
- 238000010801 machine learning Methods 0.000 description 3
- 238000005457 optimization Methods 0.000 description 3
- 238000012545 processing Methods 0.000 description 3
- 238000013528 artificial neural network Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000001914 filtration Methods 0.000 description 2
- 239000002245 particle Substances 0.000 description 2
- 238000010248 power generation Methods 0.000 description 2
- 238000012706 support-vector machine Methods 0.000 description 2
- 230000001174 ascending effect Effects 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 230000015556 catabolic process Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000007635 classification algorithm Methods 0.000 description 1
- 238000006731 degradation reaction Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 239000000428 dust Substances 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 238000003064 k means clustering Methods 0.000 description 1
- 238000012843 least square support vector machine Methods 0.000 description 1
- 239000007788 liquid Substances 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 238000012423 maintenance Methods 0.000 description 1
- 238000013138 pruning Methods 0.000 description 1
- 238000013139 quantization Methods 0.000 description 1
- 239000004576 sand Substances 0.000 description 1
- 238000012163 sequencing technique Methods 0.000 description 1
- 238000007619 statistical method Methods 0.000 description 1
- 238000005309 stochastic process Methods 0.000 description 1
- 238000003786 synthesis reaction Methods 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 238000011426 transformation method Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/04—Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/06—Energy or water supply
Landscapes
- Engineering & Computer Science (AREA)
- Business, Economics & Management (AREA)
- Theoretical Computer Science (AREA)
- Economics (AREA)
- Data Mining & Analysis (AREA)
- Strategic Management (AREA)
- Human Resources & Organizations (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- General Business, Economics & Management (AREA)
- Marketing (AREA)
- Health & Medical Sciences (AREA)
- Tourism & Hospitality (AREA)
- Public Health (AREA)
- Life Sciences & Earth Sciences (AREA)
- Game Theory and Decision Science (AREA)
- Operations Research (AREA)
- Entrepreneurship & Innovation (AREA)
- Water Supply & Treatment (AREA)
- General Health & Medical Sciences (AREA)
- Primary Health Care (AREA)
- Development Economics (AREA)
- Quality & Reliability (AREA)
- Artificial Intelligence (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- General Engineering & Computer Science (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明提供一种基于数据挖掘的风电功率预测方法,包括以下步骤:a.数据采集与预处理;b.分别使用属性快速约简算法、互信息算法和随机森林算法选出预测模型的输入向量集;c.使用选出的输入向量,基于最小二乘支持向量回归算法初步预测出风电功率;d.算出初步预测功率与实际功率的误差,使用迭代自组织数据分析算法对误差自动分类后基于马尔科夫链原理算出误差的状态转移概率矩阵,进一步得到功率修正值;e.根据误差性能指标择优。本发明考虑了输入向量影响,并首次提出了基于迭代自组织数据分析和马尔科夫链的修正方法,不仅实现了输入向量的有效降维还提高了预测速度和精度。
Description
技术领域
本发明涉及一种基于数据挖掘的风电功率预测方法,属于可再生能源领域。
背景技术
风能作为一种清洁的、无污染的可再生能源,必将成为21世纪的主要能源。风电机组是在波动风场环境中,实现风能捕获、传递和转换的复杂机电液一体化装备,其运行工况复杂多变,需要面临高温、高海拔、强沙尘、台风等多种极端恶劣环境条件,导致风电功率具有较高的随机性,将对电网造成不可控的瞬间冲击力,也造成了电网电压质量不可控。风电功率具有间歇性、随机性和波动性,由此给电网安全运行带来了一系列问题的同时也使电网调度缺乏做好各类电源调度计划的依据。因此,及时有效的预测风电功率进行成为了极具研究价值和前景的问题。
基于SCADA系统对风电机组的有功功率(简称风电功率)进行预测是一种潜在的低成本解决方案,不需要额外的传感器,近年来已经开发了一些使用这些数据进行风电功率预测的方法。SCADA系统记录的内容包括风况相关数据、能量转换相关数据、振动和温度数据等参数。而现有的SCADA系统往往缺乏有效的算法来预测风电功率。因此,基于SCADA数据建立准确、有效的功率预测算法成为了极具研究价值和前景的问题,不仅能够指导电力部门的发电计划和并网控制,也为机组的运行状态评估系统提供新的思路
根据预测时间的长短,风电预测一般可分为超短期预测、短期预测、中期预测和长期预测。目前研究主要集中于短期和超短期尺度内,前者可安排机组组合和发电计划,后者主要用于电力系统实时调度。受各种不确定因素影响,中长期尺度的风电预测研究相对较少,其主要用于制定风电场的检修计划。
影响风电功率预测模型的输入向量有许多,而输入向量集的维数过高会削弱模型的泛化能力。因此,如何从众多的输入向量中提取出对风电功率预测结果影响较大的特征向量组成输入向量集,是提高智能方法建立非线性预测即风电功率预测精确度首要考虑的问题。属性约简是粗糙集理论中一项重要的应用,目前已广泛运用于机器学习和数据挖掘等领域中,邻域粗糙集是粗糙集理论中处理连续型数据的一种重要方法,且利用邻域粗糙集模型下正域与属性集的单调关系指导属性选择算法可提高运算速度。而基于随机森林的封装式特征选择算法,也通过实验证明了该算法在分类性能和特征子集选择两方面具有较好的性能。同时,互信息值的高低反映了变量之间相关度的大小,故可以用来衡量某个特征输入向量和风电功率的相关性,如果信息量越大,那么特征向量和风电功率的相关性越大,故也可用来选取与风电功率有关特征变量。
支持向量机克服了人工神经网络训练时间长、泛化能力差、易陷入局部极小的缺点,提高了学习泛化能力,与阈值法、贝叶斯分类算法、秩和等算法相比,具有优越的预测性能,同时还能保持较低的误报率,具有最好的综合性能,但其本身存在求解规模过大和超平面参数选择的问题。最小二乘支持向量回归算法从机器学习损失函数着手,使用二范数优化目标函数,并利用等式约束条件代替支持向量回归标准算法中的不等式约束条件,克服了支持向量回归在大规模问题中存在的训练速度较慢的缺点,并且采用了修剪法,支持稀疏性。虽然最小二乘支持向量机的整体预测精度优于支持向量机和模块概率神经网络,但单一使用最小二乘支持向量回归算法预测风电功率也存在不够精确的问题,可通过与马尔科夫链理论相结合来进行功率的修正,而马尔科夫链必须结合有效的聚类方法才能进一步提高预测精度。常见的动态聚类算法有k均值聚类和迭代自组织数据分析算法,对于非监督分类,事先很难确定待分类的集合中到底有多少类,迭代自组织数据分析算法作为一种无监督分类机器学习方法,相较于传统的k均值算法,该算法不需要人为地指定聚类的数目,能够通过设置阈值参数、动态地进行类的合并或分裂,自动调节聚类的数目,以迭代操作划分为较为理想的聚类结果。
综上所述,尽管目前存在多种功率预测的算法,但由于算法本身的缺陷或局限性,导致预测结果不够精确,本发明结合最小二乘支持向量回归、迭代自组织数据分析和马尔代夫链算法,充分发挥各算法的不同优势以提高预测精度。
发明内容
本发明的目的在于针对现有技术的不足之处,本发明提出一种基于数据挖掘技术的风电功率预测方法,通过分析SCADA系统的实时数据,预测出下一时间段的风电功率。
本发明所述问题是以下技术方案实现的:
首先对SCADA的全部监测量进行预处理,对处理后的监测量使用基于邻域粗糙集的属性快速约简、随机森林和互信息三种特征选择算法筛选出对功率预测有重要影响的向量,并将筛选结果作为预测模型的输入向量集,然后利用最小二乘支持向量回归算法对风电功率做初步预测,最后基于迭代自组织数据分析算法和马尔科夫链理论对预测结果做了修正。
上述基于数据挖掘的风电功率预测方法按以下步骤进行;
a.数据采集与预处理:采集风电机组某一时间段(如12小时)的SCADA系统全部连续监测项目的秒级数据,对数据进行平均化处理(如一分钟)和归一化处理,其中归一化处理数据的公式如下:
式中,xij为归一化后的第j个监测向量的第i时刻的值;m为监测向量的维度;n为监测向量的个数;x’ij为xij平均化处理后的值;x’jmax、x’jmin分别为第j个监测量的最大值和最小值。
b.输入向量的筛选:使用步骤a得到的数据,分别使用基于邻域粗糙集的属性快速约简算法、互信息算法、随机森林算法对全部连续量监测项目进行筛选,通过设置各个算法的参数分别选出相同数量的与风电功率相关的项目组成功率预测模型的输入向量集;
c.功率初步预测:对步骤b选出的监测量项目的数据进行分段,前5/6作为训练集,后1/6作为测试集,使用最小二乘支持向量回归算法初步预测出测试集所在时间段的风电功率,算法的核函数选用高斯径向基核函数,公式如下:
k(x,xj)=exp(-||x-xj||2/2σ2)
式中,xj∈Rn为第j个监测向量;σ为宽度参数。
d.功率修正:算出步骤c中的预测功率与实际功率的误差ei,使用迭代自组织数据分析算法对误差自动分类后,再基于马尔科夫链原理算出误差的状态转移概率矩阵,分别将状态转移概率矩阵中的转移概率与对应的误差相乘并相加后叠加到功率初步预测值上,至此得到最终功率预测值yci。其中,
ei=y′i-yi
式中,y’i为第i时刻的初步功率预测值;yi为第i时刻的功率实际值;β是为了调整修正程度引入的修正系数;pgh为状态转移概率矩阵中的元素(假定i时刻的功率误差值处在状态“g”);ck为误差划分的类别数;zh为第h类误差的聚类中心值。
e.根据误差性能指标择优:分别求取各个输入向量集对应的预测功率与实际功率的误差性能指标均方根误差(RMSE)、标准化均方根误差(NRMSE)和平均绝对误差(MAE),选取误差指标综合最小的预测值作为本发明预测出的最终风电功率值。误差指标的计算公式如下:
式中,ymax为功率实际值的最大值;ymin为功率实际值的最小值。
附图说明
图1为本发明风电功率预测方法的流程图;
图2为本实施例中SCADA系统的全部连续量监测项目及其对应编号;
图3为基于邻域粗糙集的属性快速约简算法约简后的特征数量以及项目筛选结果;
图4为互信息理论的相关性指标值及项目筛选结果;
图5为随机森林算法的重要性指标值及项目筛选结果;
图6为功率修正方法的流程图。
图7为分别使用上述三种方法筛选出的监测项目再加上监测项目全集作为输入向量集,使用最小二乘支持向量回归预测并修正后的风电功率曲线图。
图8为使用上述各个数据挖掘方法的最终预测功率的误差性能指标对比图。
图中各符号表示为:ei为初步预测功率与实际功率的误差,c为迭代自组织数据分析算法第一步任选的聚类中心数,ck为期望的聚类中心数,θc为两个聚类中心之间的最小距离阈值,z1-zck为误差的聚类中心值,mgh和mg分别为状态“g”转移到状态“h”的次数和状态“g”出现的次数,P为状态转移概率矩阵,β为修正系数,pgh为状态转移概率矩阵中的元素(假定i时刻的功率误差值处在状态“g”),zh为第h类误差的聚类中心值,y’i为第i时刻的初步功率预测值,yci为最终功率预测值。
具体实施方式
下面结合附图对本发明作更进一步的说明。
如图1所述为本发明风电功率预测方法的流程图,包括如下步骤:
a.数据采集与预处理:采集风电机组某一时间段(如12h)的SCADA系统全部连续监测项目的秒级数据,对数据进行平均化处理(如1min)和归一化处理,其中归一化处理数据的公式如下:
式中,xij为归一化后的第j个监测向量的第i时刻的值;m为监测向量的维度;n为监测向量的个数;x’ij为xij平均化处理后的值;x’jmax、x’jmin分别为第j个监测量的最大值和最小值。
b.输入向量的筛选:使用步骤a得到的数据,分别使用基于邻域粗糙集的属性快速约简算法、互信息算法、随机森林算法对全部连续量监测项目进行筛选,通过设置各个算法的参数分别选出相同数量的与风电功率相关的项目组成功率预测模型的输入向量集;
b1.上述输入向量的筛选中,基于邻域粗糙集的属性快速约简算法的属性选择过程采取前向贪心搜索策略,步骤如下:
1)选取一个空集作为初始属性子集B;
2)通过新加入属性r引起的粗糙集属性依赖度的变化,来确定属性子集B。若依赖度是增大的,则说明加入该属性后,相应的分类能力增加,即重要性提高,则将该属性加入初始属性集合;否则,重要性降低,则舍弃该属性。定义决策属性D对条件属性B的属性依赖度为:
其中,|.|表示集合的基数;POSB(D)称为D的B正域,它是指通过现有知识B,能够被D所完全包含的邻域信息粒子的最大并集;U={x1,x2,...,xn}是全体样本的集合,称为论域。
3)当属性依赖度最大时,B与全部属性集合C的分类能力相同,此时集合B为C一个属性约简的结果。
在计算属性依赖度时,若样本x为已选条件属性集E上的正域样本,则x也是(E+r)上的正域样本,故只需判断原来负域(与D完全无关的邻域信息粒子)中的样本即可计算决策属性D对(E+r)的属性依赖度时,可大大提高样本判断速度。可通过设置邻域的大小δ和可变精度阈值k的取值来筛选输入变量,即若引入每一个新特征的增值小于k则停止搜索。
b2.上述输入向量的筛选中,互信息指两个事件集合之间的相关性,是shannaon信息熵理论中一种有用的信息度量。它在信息熵的基础上进一步度量了一个变量中含有的关于另一个变量的信息量。因此,互信息值的高低反映了变量之间相关度的大小,故可以用互信息来衡量某个特征输入向量和风电功率的相关性,如果信息量越大,那么特征向量和风电功率的相关性越大,反之也是成立的。通过互信息的大小来确定不同监测量与风电功率间的相关性,从而得出输入向量集。
信息熵理论利用概率统计的方法,将熵作为量化信息的度量。信息熵的计算公式为:
式中:H(x)为x的信息熵,pi∈[0,1]为x在不同取值下的概率。设向量(x,y)的联合概率分布为pij(i=1,2,...,m;j=1,2,...,n),则(x,y)的二维联合熵定义如下:
定义在已知y的条件下,x的条件熵如下,式中pi.和p.j分别为x和y的边际分布。
若H(x/y)≤H(x),则说明y中包含了x的某些信息,这部分信息即为互信息I(x,y)。
I(x,y)=H(x)-H(x/y)
b3.上述输入向量的筛选中,随机森林是一个基于树的非参数组合分类器,能有效处理高维变量问题,一大特点是可以通过对变量的重要性进行排序来实现参数的筛选。筛选的基本思想是当对一个相关特征(即对预测准确率可能起重要作用的特征)加入噪声后,随机森林的分类准确率将显著降低。将这一思想应用于筛选预测模型的输入向量中,使用两种指标来综合考量输入向量的重要性,一种基于袋外数据误差,称为平均精度下降(Meandecrease in Accuracy,MDA);另一种基于基尼不纯度GI,称为平均基尼指数下降(Meandecrease in Gini,MDG)。两种指标都是下降的越多表示该变量越重要,计算公式如下:
式中:n为树的个数;errOOB为袋外数据误差;Q为目标变量的类别总数;p(k/t)为节点t中目标变量为第k类的条件概率。
根据公式计算出每棵树的GI值,再将所有树的结果进行平均即得到平均基尼指数下降值。通过综合考量MDA和MDG的大小来确定各输入变量对风电功率预测的重要性,进而筛选出输入向量集。
下面以河北某风电场配备的SCADA系统为例,使用本发明提出的方法从中筛选出风电功率预测模型的输入向量集,如图2所示为该SCADA系统的全部连续量监测项目及其编号。
图3为对上述SCADA系统数据使用基于邻域粗糙集的属性快速约简算法约简后的特征数量以及项目筛选结果(邻域大小δ取0.12,可变精度阈值k取0.001)。
图4为对上述SCADA系统数据使用互信息理论的相关性指标值及项目筛选结果(为了采取控制变量法对比各个方法的筛选效果,选出与属性快速约简算法相同数量的相关性指标值较高的监测项目)。
图5为对上述SCADA系统数据使用随机森林算法的重要性指标值及项目筛选结果(为了采取控制变量法对比各个方法的筛选效果,选出与属性快速约简算法相同数量的重要性指标值较高的监测项目)。
c.功率初步预测:对步骤b选出的监测量项目的数据进行分段,前5/6作为训练集,后1/6作为测试集,使用最小二乘支持向量回归算法初步预测出测试集所在时间段的风电功率。
最小二乘支持向量回归问题可以理解为:给定m个输入-输出样本集{(xi,yi)|i=1,2,...,m},其中,xi∈Rn为第i个n维输入向量,yi∈R为第i个标量输出。对于非线性回归问题,回归函数如下:
f(x)=wTg(x)+b
其中,w是l维的权重向量;b为偏置项。通过非线性函数g(x),将n维的输入向量映射到l(l>m)维的特征空间。
根据结构化最小风险准则,将上述问题转化为以下约束优化问题:
s.t.yi=ξi+wTg(xi)+b
式中:ξi为误差变量;γ为惩罚系数,且γ>0,其值大小决定了对误差的惩罚力度。
采用拉格朗日乘子及矩阵变换方法,则上述约束优化问题可转换为无约束问题:
其中:E=[1,...,1]T,y=[y1,...,ym]T,a=[a1,...,am]T为拉格朗日乘子,I为单位矩阵,K为满足Mercer条件的核函数,用最小二乘法求出上式中的a和b,得到预测输出:
由于高斯径向基核函数的预测性能优于线性核函数、多项式核函数和sigmoid核函数,故本发明选用宽度参数为σ的高斯核函数:
K(x,xi)=exp(-||x-xi||2/2σ2)
d.功率修正:算出步骤c中的预测功率与实际功率的误差ei,i=1,2,...,m,使用迭代自组织数据分析算法对误差自动分类后,再基于马尔科夫链原理算出误差的状态转移概率矩阵,分别将状态转移概率矩阵中的转移概率与对应的误差相乘并相加后叠加到功率初步预测值上,至此得到最终功率预测值yci。其中,
ei=y′i-yi
式中,y’i为第i时刻的初步功率预测值;yi为第i时刻的功率实际值;β是为了调整修正程度引入的修正系数;pgh为状态转移概率矩阵中的元素(假定i时刻的功率误差值处在状态“g”);ck为误差划分的类别数;zh为第h类误差的聚类中心值。
如图6所示为风电功率预测模块中功率修正方法的流程图。
d1.在使用迭代自组织数据分析算法进行功率修正的过程中,步骤如下:
第一步:任选c个聚类中心z1,z2,...,zc,定义参数k,θn,θs,θc,L,I,t,其中t=0,c不要求等于期望的聚类中心数ck;
第二步:分配nk个样本按最近邻规则分配到c个聚类中。若|ei-zk|<|ei-zl|,k,l=1,2,...,c,i≠j,则ei∈Ek,其中Ek表示分类到聚类中心zk的样本子集,nk为Ek中样本个数;
第三步:若nk<θn,θn为每一类中至少应包含的样本数,则去除Ek,使c=c-1,也就是将样本数比θn少的样本子集删去;
第四步:按下式修正各聚类中心zk:
第五步:计算Ek中样本与各聚类中心间的平均距离:
第六步:计算总体的平均距离:
第七步:判断分裂、合并及迭代运算步骤:
1)若迭代已达允许迭代的次数I,置θc=0,θc为两个聚类中心之间的最小距离值,转到第十一步,算法结束;
2)若c≤ck/2,即聚类中心小于期望数的一半,转到第八步,将已有类分裂;
3)若迭代次数是偶数,或c≥2ck,即聚类中心数目大于期望数的两倍,则转到第十一步,进行合并处理;
4)若2)和3)不满足则继续,转入第八步;
第八步:计算各聚类中心对该类误差样本的标准差σk。对第Ek类有:
第九步:求出σk中最大分量σmax;
第十步:若σmax>θs,θs为类内样本标准差阈值,且同时满足以下条件之一:
1)和nk>2(θn+1),即类内平均距离大于总体平均距离,并且Ek类样本数过大;
2)c≤k/2,即聚类数小于等于期望数的一半;
则将Ek分成两个新的聚类中心,zk +和zk -,删去zk,并使c=c+1,其中zk +为zk加上αzk,zi -为zi减去zk,0<α<1,选择α的基本要求是,使任意样本到这两个新的聚类中心之间有一个足够可检测的距离差别,但又不能太大;
如果完成分裂,则迭代次数加1,t=t+1,转到第二步,否则继续进行第十一步;
第十一步:计算全部聚类中心的两两距离dij:
dkl=|zk-zl|,k≠l,k,l=1,2,...,c
第十二步:如果dkl>θc,转到第十四步,否则,将dkl<θc的值升序排列,即dk1l1<dk2l2<...<dktlt,t<L,L为一次迭代中允许合并的最多对数;
第十三步:从dk1l1开始,逐对合并,算出新的聚类中心zt *:
删去zk和zl,并使c=c-1,注意,只允许一对对合并,并且一个聚类中心只能合并一次;
第十四步:迭代处理,若是最后一次迭代,t=I,I为允许迭代的次数,则算法结束,否则有两种情况:
1)不修改参数,t=t+1,转到第二步;
2)需要人工修改参数,t=t+1,转到第一步。
d2.功率修正过程中,马尔可夫链指一类具有马尔科夫性质的离散时间随机过程。在该过程中,若给定当前知识或信息,则过去(即当前以前的历史状态)对于预测将来(即当前以后的未来状态)是无关的。马尔可夫链描述了一种时间和状态都是离散的马尔科夫过程,是聚类中心zh的一个数列,zh=Z(h),h=1,2,...,ck。这些变量的范围,即它们所有可能取值的集合,被称为“状态空间”,也即d1中通过迭代自组织数据分析算法确定下来的聚类中心值的集合,Zh的值则是在时间n的状态。如果Zh+1对于过去状态的条件概率分布仅是Zh的一个函数,即
P(Zh+1=zh+1|Z1=z1,Z2=z2,...,Zh=zh)=P(Zh+1=zh+1|Zh=zh)
上面这个恒等式可以看作是马尔可夫性质。
条件概率P(Zi+1=h|Zi=g)表示系统由i时刻状态g转移至i+1时刻状态h的概率,记此条件概率为pgh(i),称为马尔科夫链的转移概率,严格定义如下:
pgh(i)=P(Zi+1=h|Zi=g)
由pgh所组成的矩阵称为一步转移概率矩阵P,表示如下:
其中,pgh由下式计算:
pgh=mgh/mg
式中,mgh为由状态g转移到状态h的次数,mg为状态g出现的次数。
如图7所示为分别使用上述三种方法筛选出的监测项目再加上监测项目全集作为输入向量集,使用最小二乘支持向量回归预测并修正后的风电功率曲线图。
e.根据误差性能指标择优:分别求取各个输入向量集对应的预测功率与实际功率的误差性能指标均方根误差(RMSE)、标准化均方根误差(NRMSE)和平均绝对误差(MAE),选取误差最小的预测值作为本发明预测出的最终风电功率值,误差指标的计算公式如下:
式中,ymax为实际功率最大值;ymin为实际功率最小值。
图8为使用上述各个数据挖掘方法的最终预测功率的误差性能指标对比,从图中可以看出:
1)基于三种数据挖掘的筛选方法的误差性能指标均小于基于全集的筛选,证明了三种筛选方法的有效性和可行性;
2)基于随机森林筛选输入向量集的误差性能指标值最小,具有最好的预测精度。
Claims (5)
1.一种基于数据挖掘的风电功率预测方法,其特征在于,它包括以下步骤:
a.首先采集风电机组某一时间段的SCADA系统全部连续监测项目的秒级数据,对数据进行平均化处理和归一化处理;然后分别使用基于邻域粗糙集的属性快速约简算法、互信息算法、随机森林算法对全部连续量监测项目进行筛选,通过设置各个算法的参数分别选出相同数量的与风电功率相关的项目组成功率预测模型的输入向量集;
b.对步骤a选出的监测量项目的数据进行分段,前5/6作为训练集,后1/6作为测试集,使用最小二乘支持向量回归算法初步预测出测试集所在时间段的风电功率;
c.算出步骤b中的预测功率与实际功率的误差,使用迭代自组织数据分析算法对误差自动分类后基于马尔科夫链原理算出误差的状态转移概率矩阵,分别将状态转移概率矩阵中的转移概率与对应的误差相乘并相加后叠加到功率初步预测值上,至此得到功率修正值;
d.分别求取各个输入向量集对应的预测功率与实际功率的误差性能指标均方根误差RMSE、标准化均方根误差NRMSE和平均绝对误差MAE,选取误差指标综合最小的预测值作为预测出的最终风电功率值。
2.根据权利要求1所述的一种基于数据挖掘的风电功率预测方法,其特征在于:
步骤a中归一化处理数据的公式如下:
式中,xij为归一化后的第j个监测向量的第i时刻的值;m为监测向量的维度;n为监测向量的个数;x′ij为xij平均化处理后的值;x′jmax、x′jmin分别为第j个监测量的最大值和最小值。
3.根据权利要求1所述的一种基于数据挖掘的风电功率预测方法,其特征在于:
步骤b中最小二乘支持向量回归算法的核函数选用高斯径向基核函数,公式如下:
k(x,xj)=exp(-||x-xj||2/2σ2)
式中,xj∈Rn为第j个监测向量;σ为宽度参数。
4.根据权利要求1所述的一种基于数据挖掘的风电功率预测方法,其特征在于:
步骤c中定义误差ei,i=1,2,...,m,功率修正值yci如下:
ei=y′i-yi
式中,y′i为第i时刻的初步功率预测值;yi为第i时刻的功率实际值;β是为了调整修正程度引入的修正系数;pgh为状态转移概率矩阵中的元素,假定i时刻的功率误差值处在状态“g”;ck为误差划分的类别数;zh为第h类误差的聚类中心值。
5.根据权利要求1所述的一种基于数据挖掘的风电功率预测方法,其特征在于:
步骤d中使用的误差性能指标均方根误差RMSE、标准化均方根误差NRMSE和平均绝对误差MAE,计算公式如下:
式中,ymax为功率实际值的最大值;ymin为功率实际值的最小值。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810815187.9A CN110717610B (zh) | 2018-07-11 | 2018-07-11 | 一种基于数据挖掘的风电功率预测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810815187.9A CN110717610B (zh) | 2018-07-11 | 2018-07-11 | 一种基于数据挖掘的风电功率预测方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110717610A CN110717610A (zh) | 2020-01-21 |
CN110717610B true CN110717610B (zh) | 2023-10-31 |
Family
ID=69208751
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810815187.9A Active CN110717610B (zh) | 2018-07-11 | 2018-07-11 | 一种基于数据挖掘的风电功率预测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110717610B (zh) |
Families Citing this family (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111414717A (zh) * | 2020-03-02 | 2020-07-14 | 浙江大学 | 一种基于XGBoost-LightGBM的机组功率预测方法 |
CN111353651A (zh) * | 2020-03-12 | 2020-06-30 | 广西电网有限责任公司 | 一种区域功率预测方法、装置、设备和存储介质 |
CN111523646B (zh) * | 2020-04-23 | 2023-06-23 | 国家开放大学 | 基于物联网的远程教育学习中心智慧感知网络及管理方法 |
CN112308293B (zh) * | 2020-10-10 | 2024-07-02 | 北京贝壳时代网络科技有限公司 | 违约概率预测方法及装置 |
CN113723541B (zh) * | 2021-09-02 | 2024-02-09 | 国网福建省电力有限公司电力科学研究院 | 一种基于混合智能算法的边坡位移预测方法 |
CN113837463B (zh) * | 2021-09-22 | 2024-06-07 | 哈尔滨工程大学 | 一种基于改进随机森林的核电站系统运行趋势预测方法 |
CN114066261A (zh) * | 2021-11-18 | 2022-02-18 | 广东电网有限责任公司 | 一种电表的篡改检测方法、装置、计算机设备和存储介质 |
CN115278850B (zh) * | 2022-09-29 | 2022-12-20 | 深圳市广和通无线通信软件有限公司 | 基于通用算法的功率自适应调整方法、装置和计算机设备 |
CN117519449B (zh) * | 2023-10-31 | 2024-08-06 | 深圳壹润科技有限公司 | 一种服务器主板电源控制方法、装置及设备 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102855412A (zh) * | 2012-09-21 | 2013-01-02 | 广西电网公司电力科学研究院 | 一种风电功率预测方法及其装置 |
CN104636823A (zh) * | 2015-01-23 | 2015-05-20 | 中国农业大学 | 一种风电功率预测方法 |
CN105631550A (zh) * | 2015-12-29 | 2016-06-01 | 吉林大学 | 一种短时风电功率的组合预测方法 |
CN106447086A (zh) * | 2016-09-07 | 2017-02-22 | 中国农业大学 | 一种基于风电场数据预处理的风电功率组合预测方法 |
CN107230977A (zh) * | 2017-05-05 | 2017-10-03 | 浙江工商大学 | 基于误差修正和提升小波组合预测模型的风电功率预测方法 |
CN107358060A (zh) * | 2017-09-06 | 2017-11-17 | 大连理工大学 | 一种基于隐马尔科夫模型的对风电功率预测误差区间进行估计的方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103927695B (zh) * | 2014-04-22 | 2017-11-24 | 国家电网公司 | 基于自学习复合数据源的风电功率超短期预测方法 |
-
2018
- 2018-07-11 CN CN201810815187.9A patent/CN110717610B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102855412A (zh) * | 2012-09-21 | 2013-01-02 | 广西电网公司电力科学研究院 | 一种风电功率预测方法及其装置 |
CN104636823A (zh) * | 2015-01-23 | 2015-05-20 | 中国农业大学 | 一种风电功率预测方法 |
CN105631550A (zh) * | 2015-12-29 | 2016-06-01 | 吉林大学 | 一种短时风电功率的组合预测方法 |
CN106447086A (zh) * | 2016-09-07 | 2017-02-22 | 中国农业大学 | 一种基于风电场数据预处理的风电功率组合预测方法 |
CN107230977A (zh) * | 2017-05-05 | 2017-10-03 | 浙江工商大学 | 基于误差修正和提升小波组合预测模型的风电功率预测方法 |
CN107358060A (zh) * | 2017-09-06 | 2017-11-17 | 大连理工大学 | 一种基于隐马尔科夫模型的对风电功率预测误差区间进行估计的方法 |
Non-Patent Citations (4)
Title |
---|
基于数据挖掘和模糊聚类的风电功率实时预测研究;杨茂;熊昊;严干贵;穆钢;;电力系统保护与控制(01);全文 * |
基于长短期记忆网络的风电场发电功率超短期预测;朱乔木;李弘毅;王子琪;陈金富;王博;;电网技术(12);全文 * |
数据挖掘方法在新能源发电中的应用;赵宇思;吴林林;宋玮;任巍曦;;华北电力技术(10);全文 * |
杨茂 ; 熊昊 ; 严干贵 ; 穆钢 ; .基于数据挖掘和模糊聚类的风电功率实时预测研究.电力系统保护与控制.2013,(01),全文. * |
Also Published As
Publication number | Publication date |
---|---|
CN110717610A (zh) | 2020-01-21 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110717610B (zh) | 一种基于数据挖掘的风电功率预测方法 | |
Lipu et al. | Artificial intelligence based hybrid forecasting approaches for wind power generation: Progress, challenges and prospects | |
Wang et al. | Short-term wind power prediction based on multidimensional data cleaning and feature reconfiguration | |
CN110619360A (zh) | 一种考虑历史样本相似性的超短期风功率预测方法 | |
CN111027775A (zh) | 基于长短期记忆网络的梯级水电站发电量预测方法 | |
CN108805213B (zh) | 计及小波熵降维的电力负荷曲线双层谱聚类方法 | |
CN114169434A (zh) | 一种负荷预测方法 | |
CN111815054A (zh) | 基于大数据的工业蒸汽热网短期负荷预测方法 | |
CN114021483A (zh) | 基于时域特征与XGBoost的超短期风电功率预测方法 | |
CN114022311A (zh) | 基于时序条件生成对抗网络的综合能源系统数据补偿方法 | |
CN113128666A (zh) | 基于Mo-S-LSTMs模型的时间序列多步预测方法 | |
Fan et al. | Short-term load forecasting based on empirical wavelet transform and random forest | |
Tuyen et al. | A combination of novel hybrid deep learning model and quantile regression for short‐term deterministic and probabilistic PV maximum power forecasting | |
CN118157127A (zh) | 基于lstm-mm模型的多天气光伏发电功率预测数字孪生系统 | |
CN114154684A (zh) | 基于数据挖掘和多核支持向量机的短期光伏功率预测方法 | |
CN117688362A (zh) | 基于多元数据特征增强的光伏功率区间预测方法及装置 | |
CN113112085A (zh) | 一种基于bp神经网络的新能源场站发电负荷预测方法 | |
CN116307111A (zh) | 一种基于k均值聚类和随机森林算法的无功负荷预测方法 | |
Yuan et al. | Short-term wind speed forecasting using STLSSVM hybrid model | |
CN114997475A (zh) | 一种基于Kmeans的融合模型光伏发电短期预测方法 | |
Chen et al. | Short-term wind speed forecasting based on fuzzy C-means clustering and improved MEA-BP | |
Yuan et al. | A novel hybrid short-term wind power prediction framework based on singular spectrum analysis and deep belief network utilized improved adaptive genetic algorithm | |
Zhang et al. | Ensemble optimization approach based on hybrid mode decomposition and intelligent technology for wind power prediction system | |
CN114548212A (zh) | 一种水质评价方法及系统 | |
KR20230066927A (ko) | 발전량 예측 방법 및 장치 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |