CN115204444A - 基于改进聚类分析和融合集成算法的光伏功率预测方法 - Google Patents

基于改进聚类分析和融合集成算法的光伏功率预测方法 Download PDF

Info

Publication number
CN115204444A
CN115204444A CN202210534698.XA CN202210534698A CN115204444A CN 115204444 A CN115204444 A CN 115204444A CN 202210534698 A CN202210534698 A CN 202210534698A CN 115204444 A CN115204444 A CN 115204444A
Authority
CN
China
Prior art keywords
random forest
prediction
model
data
value
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210534698.XA
Other languages
English (en)
Inventor
夏李立
龙寰
王建华
顾伟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Southeast University
Original Assignee
Southeast University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Southeast University filed Critical Southeast University
Priority to CN202210534698.XA priority Critical patent/CN115204444A/zh
Publication of CN115204444A publication Critical patent/CN115204444A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/04Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • G06N20/20Ensemble learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/06Energy or water supply
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y04INFORMATION OR COMMUNICATION TECHNOLOGIES HAVING AN IMPACT ON OTHER TECHNOLOGY AREAS
    • Y04SSYSTEMS INTEGRATING TECHNOLOGIES RELATED TO POWER NETWORK OPERATION, COMMUNICATION OR INFORMATION TECHNOLOGIES FOR IMPROVING THE ELECTRICAL POWER GENERATION, TRANSMISSION, DISTRIBUTION, MANAGEMENT OR USAGE, i.e. SMART GRIDS
    • Y04S10/00Systems supporting electrical power generation, transmission or distribution
    • Y04S10/50Systems or methods supporting the power network operation or management, involving a certain degree of interaction with the load-side end user applications

Landscapes

  • Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Economics (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Human Resources & Organizations (AREA)
  • Strategic Management (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • General Business, Economics & Management (AREA)
  • Health & Medical Sciences (AREA)
  • Tourism & Hospitality (AREA)
  • Marketing (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • Game Theory and Decision Science (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Data Mining & Analysis (AREA)
  • Operations Research (AREA)
  • Medical Informatics (AREA)
  • Development Economics (AREA)
  • Entrepreneurship & Innovation (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Quality & Reliability (AREA)
  • Public Health (AREA)
  • Water Supply & Treatment (AREA)
  • General Health & Medical Sciences (AREA)
  • Primary Health Care (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种基于改进聚类分析和融合集成算法的光伏功率预测方法,通过改进的k‑means聚类分析方法,计算各类每天与基准日的M I E综合相似度,剔除相似度低的数据,得到更精确的分类结果;通过建立融合随机森林算法和拟合残差算法的拟合残差随机森林预测模型,将前一个随机森林的残差作为下一个随机森林的训练数据,每个新的随机森林的建立都是为了让之前随机森林的残差往梯度方向减少;通过改进拟合残差算法,根据每次迭代后随机森林模型预测误差值的下降幅度,为每个随机森林的输出结果分配相应的权重,最终预测结果为每次迭代后随机森林模型的输出结果的加权累加,大大提高了光伏预测精度。

Description

基于改进聚类分析和融合集成算法的光伏功率预测方法
技术领域
本发明属于光伏功率预测的技术领域,涉及可再生能源出力预测的技术,尤其涉及一种基于改进聚类分析和融合集成算法的光伏功率预测方法。
背景技术
在新时代背景下,减少火电污染、发展清洁能源是当务之急,太阳能光伏发电作为新能源的代表,近年来发展迅速。光伏发电量受到太阳辐射强度、温度、湿度、气压、降水等气象因素及通风条件的影响,具有间歇性、波动性和随机性的特点,随着电网光伏渗透率的不断提高,会对电网安全稳定和经济运行产生日益严峻的负面影响。因此,深入探索研究影响光伏系统输出功率的重要因素,并及时做出精准的功率预测就显得非常重要。
在目前常用的聚类算法中,k-means聚类分析时只考虑了一个特征,未能充分挖掘出其他特征中的信息对预测精度的影响。
并且,目前光伏发电功率预测方法大多是局限于采用单一的预测模型,导致泛化性能有限,或者只是通过简单的算术平均对模型进行组合,缺乏足够的理论支撑。
发明内容
本发明正是针对现有技术中未能充分挖掘其他特征信息对预测精度的影响,且现有预测模型较为单一的问题,提供基于改进聚类分析和融合集成算法的光伏功率预测方法,通过改进的k-means聚类分析方法,计算各类每天与基准日的 MIE综合相似度,剔除相似度低于阈值α的数据,得到更精确的分类结果;通过建立融合随机森林算法和拟合残差算法的拟合残差随机森林预测模型,将前一个随机森林的残差作为下一个随机森林的训练数据,每个新的随机森林的建立都是为了让之前随机森林的残差往梯度方向减少;新的随机森林模型的预测误差较前一个随机森林模型预测误差的下降幅度低于设定的阈值时,拟合残差随机森林模型将终止迭代;通过改进拟合残差算法,根据每次迭代后随机森林模型预测误差值的下降幅度,为每个随机森林的输出结果分配相应的权重,最终预测结果为每次迭代后随机森林模型的输出结果的加权累加,克服了只根据一个特征进行的k-means聚类方法分类不够准确和单一预测模型泛化性能有限的问题,提高了光伏预测精度。
为了实现上述目的,本发明采取的技术方案是:基于改进聚类分析和融合集成算法的光伏功率预测方法,所述预测方法中,通过改进的k-means聚类分析方法,计算各类每天与基准日的MIE综合相似度,剔除相似度低于阈值α的数据,得到更精确的分类结果;
通过建立融合随机森林算法和拟合残差算法的拟合残差随机森林预测模型,将前一个随机森林的残差作为下一个随机森林的训练数据,每个新的随机森林的建立都是为了让之前随机森林的残差往梯度方向减少;新的随机森林模型的预测误差较前一个随机森林模型预测误差的下降幅度低于设定的阈值时,拟合残差随机森林模型将终止迭代;
通过改进拟合残差算法,根据每次迭代后随机森林模型预测误差值的下降幅度,为每个随机森林的输出结果分配相应的权重,最终预测结果为每次迭代后随机森林模型的输出结果的加权累加。
为了实现上述目的,本发明还采取的技术方案是:基于改进聚类分析和融合集成算法的光伏功率预测方法,具体包括如下步骤:
S1,数据预处理、特征相关性分析及特征构建:对光伏的实际功率值及气象数值进行预处理,找出其中的异常值;根据特征之间及特征与标签之间是否存在线性相关来进行相关性分析,根据相关性分析结果去除与标签极弱相关的特征及强线性相关的两个特征中与标签相关度较小的特征,并构建新特征;
S2,基于短波辐射通量的k-means聚类,利用手肘图确定最佳聚类簇数k:对训练集数据做基于短波辐射通量的k-means聚类,并利用下述公式计算簇内误方差SSE,根据簇内误方差SSE与聚类簇数的关系手肘图确定数据最佳聚类簇数k。
Figure BDA0003647309480000031
式中,SSE是簇内误方差;Ci表示第i个簇,i=1,2,3,…,k;p是Ci中的样本的短波辐射通量;mi是Ci的质心,即Ci中所有样本点的短波辐射通量的平均值;
S3,基于互信息熵(Mutual Information Entropy,MIE)综合相似度筛选,得到更精确的聚类结果:计算各类每天与基准日的MIE综合相似度,剔除相似度低于阈值α的数据,得到更精确的分类结果,所述MIE综合相似度计算公式为
Figure BDA0003647309480000032
Figure BDA0003647309480000033
式中,wj为气象因素j与光伏功率的MIE权重因子,W为所有权重因子之和,INM,i,j为各类第i天与该类基准日关于气象因素j的MIE相关系数,MCSi为各类第i 天天气状况与该类基准日天气状况的综合相似度;
S4,建立拟合残差随机森林模型:所述模型为:将前一个随机森林的残差作为下一个随机森林的训练数据,每个新的随机森林的建立都是为了让之前随机森林的残差往梯度方向减少,新的随机森林模型的预测误差较前一个随机森林模型预测误差的下降幅度低于设定的阈值时,拟合残差随机森林模型将终止迭代;
S5,模型训练:将测试数据输入训练好的模型得到测试结果,根据每次迭代后误差值的下降幅度,为每个随机森林的输出结果分配相应的权重,所述权重值ωm计算公式如下:
Dm=(RMSEm-1-RMSEm)/RMSEm-1
Figure BDA0003647309480000034
ωm=θ1Dm/D+θ2
式中,m=2,3,…,itr,itr为迭代次数;Dm为第m次迭代后误差值的下降幅度;D为Dm之和;ωm为第m次迭代输出结果的权重值,其中,由于m=1时无误差梯度,因此设置ω1=1;θ1、θ2为调整系数;
S6,预测结果的加权累加:模型的最终预测结果为每个随机森林预测结果的加权累加,所述拟合残差随机森林模型的最终预测结果计算公式为
Figure BDA0003647309480000041
式中,Sm为第m个随机森林模型的预测结果;Sz为拟合残差随机森林模型的最终预测结果。
与现有技术相比,本案所具有的技术优势为:
(1)、本方法克服了k-means聚类分析时只考虑短波辐射通量一个特征,未考虑其他气象因素及历史功率对预测结果的影响的局限性,通过计算各类中每一天与基准日的主要气象因素及历史功率的MIE综合相似度,剔除每一类中不够相似的那部分数据,从而得到更精确的聚类结果。
(2)、本方法建立了融随机森林算法和拟合残差算法为一体的拟合残差随机森林模型,该模型的优点为:
①、随机森林算法无需特征降维即可处理高维数据,可充分挖掘天气预报特征及光伏场站历史功率数据中的信息,得出隐含其中的非线性关系;
②、拟合残差算法具有出色的灵活性和通用性,利用拟合残差算法优化随机森林模型,降低了发生过拟合的风险,增强了模型的鲁棒性。
③、将拟合残差算法中最终预测结果为每次迭代预测结果累加的方法改为加权累加,即根据每次迭代后模型的预测误差值的下降幅度,为每个随机森林的输出结果分配相应的权重,从而进一步提升了拟合残差随机森林模型的预测精度。
附图说明
图1是本申请实施例1中预测光伏功率的步骤流程图;
图2是本申请实施例2提出的MIE-加权FRRF模型预测值与RF模型预测值及实际功率的对比图。
具体实施方式
下面结合附图和具体实施方式,进一步阐明本发明,应理解下述具体实施方式仅用于说明本发明而不用于限制本发明的范围。
实施例1
基于改进聚类分析和融合集成算法的光伏功率预测方法,如图1所示,具体包括如下步骤:
S1,数据预处理、特征相关性分析及特征构建:对包含24小时后的天气预报数值、当前时刻光伏功率及当前时刻实测气象数值的输入数据依次进行预处理、找出其中的异常值;数据归一化;根据特征之间及特征与标签之间是否存在线性相关来进行相关性分析,根据相关性分析结果去除与标签极弱相关的特征及强线性相关的两个特征中与标签相关度较小的特征,并构建新特征;
S2,基于短波辐射通量的k-means聚类,利用手肘图确定最佳聚类簇数k:对训练集数据做基于短波辐射通量的k-means聚类,并利用下述公式计算簇内误方差SSE,根据簇内误方差SSE与聚类簇数的关系手肘图确定数据最佳聚类簇数k,
Figure BDA0003647309480000051
式中,SSE是簇内误方差;Ci表示第i个簇,i=1,2,3,…,k;p是Ci中的样本点的短波辐射通量;mi是Ci的质心,即Ci中所有样本点的短波辐射通量的平均值;
S3,基于互信息熵(Mutual Information Entropy,MIE)综合相似度筛选,得到更精确的聚类结果:计算各类每天与基准日的MIE综合相似度,剔除每一类中MIE综合相似度值低于0.85均值的数据,得到更精确的分类结果;
①、在k类数据中分别找出与各类簇心欧氏距离最小的那天作为各类的基准日;
②、设定气象因素集合F={T,h,s,sh,c,pr,pp,d,v},其中,T表示2米温度,h表示2米相对湿度,s表示短波辐射通量,sh表示感热通量,c 表示云量,pr表示海平面气压,pp表示前一天光伏功率,d表示10米风向,v 表示10米风速;
③、MIE相关系数INM,i,j的计算:以15min为采样间隔,定义各类中第i天气象因素j为向量Ni,j=[Ni,j,1,…,Ni,j,96],基准日的气象因素j为向量Mj=[Mj,1,…,Mj,96],其中,i=1,2,3,…,n,n为该类天数,j∈F。各类第i天与该类基准日关于气象因素j的MIE相关系数INM,i,j的计算公式为
Figure BDA0003647309480000061
式中,H(Ni,j),H(Mj)为自信息熵,I(Ni,j;Mj)为互信息熵;
④、自信息熵H(Ni,j),H(Mj)与互信息熵I(Ni,j;Mj)的计算:
选取向量Ni,j中的最大值与最小值,即max(Ni,j)和min(Ni,j),将区间 [max(Ni,j),min(Ni,j)]等间距划分为Λ个子区间,定义Nλ i,j为第λ个波动子区间,子区间Nλ i,j的边缘概率密度为
Figure BDA0003647309480000062
式中,Λλ表示向量Ni,j中的元素落入波动子区间Nλ i,j的数据点数。按照上述步骤,同样计算出边缘概率密度P(Mκ j)和联合概率密度P(Nλ i,jMκ j)。在此基础上,按照以下公式计算自信息熵H(Ni,j),H(Mj)与互信息熵I(Ni,j;Mj)的值;
Figure BDA0003647309480000063
Figure BDA0003647309480000064
Figure BDA0003647309480000065
⑤、计算MIE综合相似度:MIE综合相似度计算公式为
Figure BDA0003647309480000066
Figure BDA0003647309480000071
式中,wj为气象因素j与光伏功率的MIE权重因子,W为所有权重因子之和,INM,i,j为各类第i天与该类基准日关于气象因素j的MIE相关系数,MCSi为各类第i 天天气状况与该类基准日天气状况的综合相似度;
S4,建立拟合残差随机森林模型:将前一个随机森林的残差作为下一个随机森林的训练数据,每个新的随机森林的建立都是为了让之前随机森林的残差往梯度方向减少。将包含24小时后的天气预报数值、当前时刻光伏功率及当前时刻实测气象数值的输入数据依次进行预处理、特征构建,然后进行拟合残差随机森林预测模型的训练,利用学习曲线及网格搜索分别对每一次迭代的随机森林模型的超参数进行调优,包括树的个数,树的最大深度,叶节点最小样本数,分裂所需的最小样本数和特征子集的最大特征数。新的随机森林模型的预测误差较前一个随机森林模型预测误差的下降幅度低于设定的阈值时,拟合残差随机森林模型将终止迭代。最终将测试数据依次输入训练好的一组随机森林模型得到预测结果。
S5,模型训练:将测试数据输入训练好的模型得到测试结果,根据每次迭代后误差值的下降幅度,为每个随机森林的输出结果分配相应的权重,所述权重值ωm计算公式如下:
Dm=(RMSEm-1-RMSEm)/RMSEm-1
Figure BDA0003647309480000072
ωm=θ1Dm/D+θ2
其中,m=2,3,…,itr,itr为迭代次数;Dm为第m次迭代后误差值的下降幅度; D为Dm之和;ωm为第m次迭代输出结果的权重值,其中,由于m=1时无误差梯度,因此设置ω1=1;θ1、θ2为调整系数。
S6,预测结果的加权累加:模型的最终预测结果为每个随机森林预测结果的加权累加,所述拟合残差随机森林模型的最终预测结果计算公式为
Figure BDA0003647309480000081
其中,Sm为第m个随机森林模型的预测结果,Sz为拟合残差随机森林模型的最终预测结果。
实施例2
本实施例数据来自于21年9月国家电网调控人工智能创新大赛数据集,选择的光伏电站额定容量为130MW,有2019、2020两年的历史出力数据、实测气象数据(6个特征)及天气预报数据(22个特征),时间步长为15分钟。天气预报数据采用的是起报24小时后一天的天气预报数据。
一种基于改进聚类分析和融合集成算法的光伏概率预测方法,具体包括如下步骤:
S1,数据预处理、特征相关性分析及特征构建:
①、数据预处理
采用实际功率-辐照度联合曲线检验实际功率的异常值,找出数据偏移点及非正常零值功率。采用箱型图进行气象数值的异常值检验,即四分位法,小于 Q1-1.5IQR或大于Q3+1.5IQR的值被定义为异常值,其中,Q1为上四分位数,Q2为中位数,Q3为下四分位数,IQR为四分位距。对于少量的缺失值、异常值采用牛顿插值法处理,如公式(1)所示,大量的则直接删除。对于云量大于100的取 100,小于0的取0,相对湿度大于100的采用前后平均值插入。
Figure BDA0003647309480000082
式中,x0是第0个点的值,x1是第1个点的值,xn-1是第n-1个点的值,xn是第n个点的值,f[x0,x1]是x0和x1的差商。
②、数据归一化
③、特征相关性分析
利用散点图初步判断特征之间及特征与标签之间是否存在线性相关,存在则通过皮尔逊系数度量其相关程度,无明显线性相关的则在皮尔逊的基础上参考互信息法来进行综合度量。皮尔逊公式如公式(2)所示:
Figure BDA0003647309480000091
式中,rxy是相关系数,n是样本个数,xi是第i个样本的特征量,
Figure BDA0003647309480000092
是所有样本的特征量平均值,yi是第i个样本的实际功率,
Figure BDA0003647309480000093
是所有样本的实际功率平均值。
根据相关性分析结果,去除与标签极弱相关的特征及强线性相关(相关性>0.95)的两个特征中与标签相关度较小的一个。经过综合分析,共去除了7 个特征:法向直射辐照度,天气预报中的70米风向,100米风向,100米风速, 30米温度,70米风速,对流降水。
④、构建新特征
特征构建可以给模型提供更多有用的信息,来解决模型解释能力不足的问题。本申请采用特征提取、特征交叉、一阶差分3种方法构建新特征。
对新特征进行对比试验,根据对模型的贡献程度,本申请构建了13个新特征:月、日、时、海平面气压*2米相对湿度、总辐照度*气温、时*日、月*日、月*时、短波辐射一阶差分、10米风速一阶差分、2米温度一阶差分、总降水一阶差分、2米相对湿度一阶差分。
S2,基于短波辐射通量的k-means聚类,利用手肘图确定最佳聚类簇数k:
数据样本共686天数据,划分训练、测试集为训练集617天,测试集69天,其中训练集又分为训练数据和验证数据,训练数据占训练集的70%,验证数据占训练集的30%。对训练集数据做基于天气预报特征短波辐射通量的k-means聚类,并利用公式(3)计算簇内误方差SSE,根据簇内误方差与聚类簇数的关系手肘图可以确定数据最佳聚类簇数k为4,4类分别有143天、164天、149天和161 天数据。利用4类数据分别训练随机森林模型,并通过比较测试集中每一天的短波辐射通量和上述4类簇心的欧氏距离,将69天测试集也分成4类,分别输入四个随机森林模型,得到预测结果。RMSE测试误差值如表1第一行所示。
Figure BDA0003647309480000101
式中,SSE是簇内误方差;Ci表示第i个簇,i=1,2,3,…,k;p是Ci中的样本的短波辐射通量;mi是Ci的质心,即Ci中所有样本的短波辐射通量平均值。
S3,基于互信息熵(Mutual Information Entropy,MIE)综合相似度筛选,得到更精确的聚类结果:
根据短波辐射通量进行的k-means聚类,未考虑其他气象因素及历史功率对预测结果的影响,得到的不一定是最优的结果,存在分类不够准确的数据,本实施例通过MIE综合相似度筛选,剔除每一类中相似度低于0.85均值的数据,具体步骤如下:
①、找出各类的基准日:将四类中每一天的96个短波辐射通量值分别与该类的簇心比较欧氏距离,找出与簇心最接近的一天为基准日,第0类是2019年 8月20日,第1类是2019年11月21日,第2类是2020年6月7日,第3类是2020年10月7日。
②、选取气象因素:设定气象因素集合F={T,h,s,sh,c,pr,pp,d,v},其中,T表示2米温度,h表示2米相对湿度,s表示短波辐射通量,sh表示感热通量,c表示云量,pr表示海平面气压,pp表示前一天光伏功率,d表示10 米风向,v表示10米风速;
③、MIE相关系数INM,i,j的计算(以1类为例):以15min为采样间隔,定义 1类中第i天气象因素j为向量Ni,j=[Ni,j,1,…,Ni,j,96],基准日的气象因素j为向量Mj=[Mj,1,…,Mj,96],其中,i=1,2,3,…,164,164为1类天数,j∈F。1类第 i天与该类基准日关于气象因素j的MIE相关系数INM,i,j的计算公式为
Figure BDA0003647309480000111
式中,H(Ni,j),H(Mj)为自信息熵,I(Ni,j;Mj)为互信息熵。
④、自信息熵H(Ni,j),H(Mj)与互信息熵I(Ni,j;Mj)的计算:
选取向量Ni,j中的最大值与最小值,即max(Ni,j)和min(Ni,j),将区间 [max(Ni,j),min(Ni,j)]等间距划分为Λ个子区间,定义Nλ i,j为第λ个波动子区间,子区间Nλ i,j的边缘概率密度为
Figure BDA0003647309480000112
式中,Λλ表示向量Ni,j中的元素落入波动子区间Nλ i,j的数据点数。按照上述步骤,同样计算出边缘概率密度P(Mκ j)和联合概率密度P(Nλ i,jMκ j)。在此基础上,按照公式(6)、(7)、(8)计算自信息熵H(Ni,j),H(Mj)与互信息熵I(Ni,j;Mj) 的值;
Figure BDA0003647309480000113
Figure BDA0003647309480000114
Figure BDA0003647309480000115
⑤、MIE综合相似度计算:利用公式(12)、(13),计算各类每一天的MIE 综合相似度值
Figure BDA0003647309480000116
Figure BDA0003647309480000117
式中,wj为气象因素j与光伏功率的MIE权重因子,W为所有权重因子之和, INM,i,j为各类第i天与该类基准日关于气象因素j的MIE相关系数,MCSi为各类第i天天气状况与该类基准日天气状况的综合相似度;
⑥、剔除每一类中MIE综合相似度值低于0.85均值的数据,本实施例在4 类617天数据中共剔除了23天数据。用新数据重新训练随机森林模型,并将根据与新质心的对比结果重新分类的4类测试数据,分别输入4个模型,得到预测结果,RMSE测试误差值如表1第二行所示,与未进行MIE综合相似度筛选的情况相比总RMSE测试误差值下降了2.0%。
S4,建立拟合残差随机森林模型:
建立融合随机森林算法和拟合残差算法的拟合残差随机森林预测模型,即将前一个随机森林的残差作为下一个随机森林的训练数据,每个新的随机森林的建立都是为了让之前随机森林的残差往梯度方向减少。该模型用于光伏场站功率的预测,能充分挖掘多维特征中的信息,得出隐含在数据中光伏功率与气象因素间复杂的非线性关系,有效降低过拟合的风险,提高场站光伏功率预测的精度。
当新的随机森林模型的测试误差较前一个随机森林模型测试误差的下降幅度低于0.7%时,拟合残差随机森林模型将终止迭代,最终0类数据进行了5次迭代,1类数据进行了9次迭代,2类数据进行了5次迭代,3类数据进行了6 次迭代。将测试数据输入四组FRRF模型,得到的RMSE测试误差值如表1第三行所示,与单一的随机森林模型相比总RMSE测试误差值下降了3.9%。
S5,模型训练:将测试数据输入训练好的模型得到测试结果,根据每次迭代后误差值的下降幅度,为每个随机森林的输出结果分配相应的权重:
S6,预测结果的加权累加(MIE-加权FRRF):
改进拟合残差算法,根据每次迭代后预测误差值的下降幅度,为每个随机森林的输出结果分配相应的权重,最终预测结果为每次迭代输出结果的加权累加。权重值计算公式如下:
Dm=(RMSEm-1-RMSEm)/RMSEm-1 (11)
Figure BDA0003647309480000121
ωm=θ1Dm/D+θ2 (13)
Figure BDA0003647309480000131
式中,m=2,3,…,itr,itr为迭代次数;Dm为第m次迭代后误差值的下降幅度;D为Dm之和;ωm为第m次迭代输出结果的权重值,其中,由于m=1时无误差梯度,因此设置ω1=1;θ1、θ2为调整系数;Sm为第m个随机森林模型的预测结果;Sz为拟合残差随机森林模型的最终预测结果。将最终预测结果改为加权累加后的RMSE测试误差值如表1第四行所示,与简单累加的方法相比总RMSE 测试误差值下降了1.3%。
采用本申请所公开的预测方法得到的RMSE误差与随机森林模型的RMSE误差对比如表1所示。
表1 RMSE误差对比
Figure BDA0003647309480000132
通过上表可以看出,本申请所公开的预测方法,其总RMSE测试误差值较随机森林模型下降了7%,提高了对场站光伏功率的预测精度。
图2为在18天1类测试数据中选取了2019年1月27日、11月14日、11 月26日、12月7日4天的测试数据,分别输入MIE-加权FRRF模型、RF模型所得到的预测值与实际功率的对比图,直观地展示了MIE-加权FRRF模型对预测精度的提升程度。
需要说明的是,以上内容仅仅说明了本发明的技术思想,不能以此限定本发明的保护范围,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰均落入本发明权利要求书的保护范围之内。

Claims (7)

1.基于改进聚类分析和融合集成算法的光伏功率预测方法,其特征在于:所述预测方法中,通过改进的k-means聚类分析方法,计算各类每天与基准日的MIE综合相似度,剔除相似度低的数据,得到更精确的分类结果;
通过建立融合随机森林算法和拟合残差算法的拟合残差随机森林预测模型,将前一个随机森林的残差作为下一个随机森林的训练数据,每个新的随机森林的建立都是为了让之前随机森林的残差往梯度方向减少;新的随机森林模型的预测误差较前一个随机森林模型预测误差的下降幅度低于设定的阈值时,拟合残差随机森林模型将终止迭代;
通过改进拟合残差算法,根据每次迭代后随机森林模型预测误差值的下降幅度,为每个随机森林的输出结果分配相应的权重,最终预测结果为每次迭代后随机森林模型的输出结果的加权累加。
2.如权利要求1所述的基于改进聚类分析和融合集成算法的光伏功率预测方法,其特征在于,具体包括如下步骤:
S1,数据预处理、特征相关性分析及特征构建:对光伏的实际功率值及气象数值进行预处理,找出其中的异常值;根据特征之间及特征与标签之间是否存在线性相关来进行相关性分析,根据相关性分析结果去除与标签极弱相关的特征及强线性相关的两个特征中与标签相关度较小的特征,并构建新特征;
S2,基于短波辐射通量的k-means聚类,利用手肘图确定最佳聚类簇数k:对训练集数据做基于短波辐射通量的k-means聚类,并利用下述公式计算簇内误方差SSE,根据簇内误方差SSE与聚类簇数的关系手肘图确定数据最佳聚类簇数k。
Figure FDA0003647309470000011
式中,SSE是簇内误方差;Ci表示第i个簇,i=1,2,3,…,k;p是Ci中的样本点的短波辐射通量;mi是Ci的质心,即Ci中所有样本点的短波辐射通量的平均值;
S3,基于MIE综合相似度筛选,得到更精确的聚类结果:计算各类每天与基准日的MIE综合相似度,剔除各类中相似度低于阈值α的数据,得到更精确的分类结果;
S4,建立拟合残差随机森林模型:所述模型为:将前一个随机森林的残差作为下一个随机森林的训练数据,每个新的随机森林的建立都是为了让之前随机森林的残差往梯度方向减少,新的随机森林模型的预测误差较前一个随机森林模型预测误差的下降幅度低于设定的阈值时,拟合残差随机森林模型将终止迭代;
S5,模型训练:将测试数据输入训练好的模型得到测试结果,根据每次迭代后误差值的下降幅度,为每个随机森林的输出结果分配相应的权重,所述权重值ωm计算公式如下:
Dm=(RMSEm-1-RMSEm)/RMSEm-1
Figure FDA0003647309470000021
ωm=θ1Dm/D+θ2
式中,m=2,3,…,itr,itr为迭代次数;Dm为第m次迭代后误差值的下降幅度;D为Dm之和;ωm为第m次迭代输出结果的权重值,其中,由于m=1时无误差梯度,因此设置ω1=1;θ1、θ2为调整系数;
S6,预测结果的加权累加:模型的最终预测结果为每个随机森林预测结果的加权累加,所述拟合残差随机森林模型的最终预测结果计算公式为
Figure FDA0003647309470000022
式中,Sm为第m个随机森林模型的预测结果,Sz为拟合残差随机森林模型的最终预测结果。
3.如权利要求2所述的基于改进聚类分析和融合集成算法的光伏功率预测方法,其特征在于:所述步骤S1中,采用实际功率-辐照度联合曲线检验实际功率值的异常值,找出数据偏移点及非正常零值功率;采用箱型图进行气象数值的异常值检验。
4.如权利要求2所述的基于改进聚类分析和融合集成算法的光伏功率预测方法,其特征在于:所述步骤S1中,采用特征提取或特征交叉或一阶差分方法构建新特征。
5.如权利要求2所述的基于改进聚类分析和融合集成算法的光伏功率预测方法,其特征在于:所述步骤S1中,判断特征之间及特征与标签之间是否存在线性相关,若存在,则通过皮尔逊系数度量其相关程度,具体为:
Figure FDA0003647309470000031
式中,rxy是相关系数,n是样本个数,xi是第i个样本的特征量,
Figure FDA0003647309470000032
是所有样本的特征量平均值,yi是第i个样本的实际功率,
Figure FDA0003647309470000033
是所有样本的实际功率平均值;
若无明显线性相关,则在皮尔逊的基础上参考互信息法来进行综合度量。
6.如权利要求2所述的基于改进聚类分析和融合集成算法的光伏功率预测方法,其特征在于:所述步骤S3进一步包括:
S31,找出各类的基准日:在k类数据中分别找出与各类簇心欧氏距离最小的一天作为各类的基准日;
S32,选取气象因素:设定气象因素集合F={T,h,s,sh,c,pr,pp,d,v},其中,T表示2米温度,h表示2米相对湿度,s表示短波辐射通量,sh表示感热通量,c表示云量,pr表示海平面气压,pp表示前一天光伏功率,d表示10米风向,v表示10米风速;
S33,MIE相关系数INM,i,j的计算:以15min为采样间隔,定义各类中第i天气象因素j为向量Ni,j=[Ni,j,1,…,Ni,j,96],基准日的气象因素j为向量Mj=[Mj,1,…,Mj,96],其中,i=1,2,3,…,n,n为该类天数,j∈F;各类第i天与该类基准日关于气象因素j的MIE相关系数INM,i,j的计算公式为
Figure FDA0003647309470000041
式中,H(Ni,j),H(Mj)为自信息熵,I(Ni,j;Mj)为互信息熵。
S34,自信息熵H(Ni,j),H(Mj)与互信息熵I(Ni,j;Mj)的计算:
选取向量Ni,j中的最大值与最小值,即max(Ni,j)和min(Ni,j),将区间[max(Ni,j),min(Ni,j)]等间距划分为Λ个子区间,定义
Figure FDA0003647309470000042
为第λ个波动子区间,子区间
Figure FDA0003647309470000043
的边缘概率密度为
Figure FDA0003647309470000044
式中,Λλ表示向量Ni,j中的元素落入波动子区间
Figure FDA0003647309470000045
的数据点数;按照上述步骤,同样计算出边缘概率密度P(Mκ j)和联合概率密度
Figure FDA0003647309470000046
在此基础上,按照以下公式计算自信息熵H(Ni,j),H(Mj)与互信息熵I(Ni,j;Mj)的值;
Figure FDA0003647309470000047
Figure FDA0003647309470000048
Figure FDA0003647309470000049
S35,MIE综合相似度的计算:所述MIE综合相似度计算公式为
Figure FDA00036473094700000410
Figure FDA00036473094700000411
式中,wj为气象因素j与光伏功率的MIE权重因子,W为所有权重因子之和,INM,i,j为各类第i天与该类基准日关于气象因素j的MIE相关系数,MCSi为各类第i天天气状况与该类基准日天气状况的综合相似度;
S36,相似度低的数据剔除:所述步骤中,剔除每一类中MIE综合相似度值低于阈值α的数据,得到更精确的分类结果。
7.如权利要求1所述的基于改进聚类分析和融合集成算法的光伏功率预测方法,其特征在于:选用CART树作为基模型,利用学习曲线及网格搜索分别对每一次迭代的随机森林模型的超参数进行调优,所述参数有树的个数,树的最大深度,叶节点最小样本数,分裂所需的最小样本数和特征子集的最大特征数。
CN202210534698.XA 2022-05-17 2022-05-17 基于改进聚类分析和融合集成算法的光伏功率预测方法 Pending CN115204444A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210534698.XA CN115204444A (zh) 2022-05-17 2022-05-17 基于改进聚类分析和融合集成算法的光伏功率预测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210534698.XA CN115204444A (zh) 2022-05-17 2022-05-17 基于改进聚类分析和融合集成算法的光伏功率预测方法

Publications (1)

Publication Number Publication Date
CN115204444A true CN115204444A (zh) 2022-10-18

Family

ID=83575108

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210534698.XA Pending CN115204444A (zh) 2022-05-17 2022-05-17 基于改进聚类分析和融合集成算法的光伏功率预测方法

Country Status (1)

Country Link
CN (1) CN115204444A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115859775A (zh) * 2022-11-07 2023-03-28 国网江苏省电力有限公司镇江供电分公司 一种面向光储虚拟电厂划分的典型日场景提取方法及装置
CN116307269A (zh) * 2023-05-16 2023-06-23 华能山东发电有限公司众泰电厂 一种基于人工智能的光伏发电功率预测方法及装置
CN116754002A (zh) * 2023-08-16 2023-09-15 深蓝(天津)智能制造有限责任公司 一种旋转变压器的测量误差拟合方法及系统

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115859775A (zh) * 2022-11-07 2023-03-28 国网江苏省电力有限公司镇江供电分公司 一种面向光储虚拟电厂划分的典型日场景提取方法及装置
CN116307269A (zh) * 2023-05-16 2023-06-23 华能山东发电有限公司众泰电厂 一种基于人工智能的光伏发电功率预测方法及装置
CN116307269B (zh) * 2023-05-16 2023-10-31 华能山东泰丰新能源有限公司 一种基于人工智能的光伏发电功率预测方法及装置
CN116754002A (zh) * 2023-08-16 2023-09-15 深蓝(天津)智能制造有限责任公司 一种旋转变压器的测量误差拟合方法及系统
CN116754002B (zh) * 2023-08-16 2023-11-14 深蓝(天津)智能制造有限责任公司 一种旋转变压器的测量误差拟合方法及系统

Similar Documents

Publication Publication Date Title
Lai et al. Daily clearness index profiles cluster analysis for photovoltaic system
CN115204444A (zh) 基于改进聚类分析和融合集成算法的光伏功率预测方法
CN107194495B (zh) 一种基于历史数据挖掘的光伏功率纵向预测方法
CN109165774A (zh) 一种短期光伏功率预测方法
CN104573879A (zh) 基于最优相似日集的光伏电站出力预测方法
CN105701572B (zh) 一种基于改进高斯过程回归的光伏短期出力预测方法
CN111753893A (zh) 一种基于聚类和深度学习的风电机组功率集群预测方法
CN112418346B (zh) 一种数值天气预报总辐射系统误差分类计算方法
CN114004139A (zh) 一种光伏发电功率预测方法
CN111626473A (zh) 一种考虑误差修正的两阶段光伏功率预测方法
CN110503153B (zh) 基于差分进化算法和支持向量机的光伏系统故障诊断方法
CN114792156A (zh) 基于曲线特征指标聚类的光伏输出功率预测方法和系统
CN116128150B (zh) 一种基于两级优化的光伏智能出力预测方法
CN109902340A (zh) 一种计及复杂气象耦合特性的多源-荷联合场景生成方法
CN114462718A (zh) 基于时间滑动窗口的cnn-gru风电功率预测方法
CN115829105A (zh) 基于历史数据特征搜索的光伏功率预测方法
CN116911806B (zh) 基于互联网+的电力企业能源信息管理系统
CN116702937A (zh) 一种基于K-means均值聚类及优化BP神经网络的光伏出力日前预测方法
CN115115125A (zh) 基于深度学习融合模型的光伏功率区间概率预测方法
Omar et al. Seasonal clustering forecasting technique for intelligent hourly solar irradiance systems
CN114882373A (zh) 基于深度神经网络的多特征融合沙尘暴预测方法
CN112633565A (zh) 一种光伏功率集合区间预测方法
CN112132344A (zh) 一种基于相似日和frs-svm的短期风电功率预测方法
CN115660132B (zh) 一种光伏发电功率预测方法及系统
CN116663393A (zh) 一种基于随机森林的配电网持续高温下故障风险等级预测方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination