CN115204444A

CN115204444A - 基于改进聚类分析和融合集成算法的光伏功率预测方法

Info

Publication number: CN115204444A
Application number: CN202210534698.XA
Authority: CN
Inventors: 夏李立; 龙寰; 王建华; 顾伟
Original assignee: Southeast University
Current assignee: Southeast University
Priority date: 2022-05-17
Filing date: 2022-05-17
Publication date: 2022-10-18

Abstract

本发明公开了一种基于改进聚类分析和融合集成算法的光伏功率预测方法，通过改进的k‑means聚类分析方法，计算各类每天与基准日的M I E综合相似度，剔除相似度低的数据，得到更精确的分类结果；通过建立融合随机森林算法和拟合残差算法的拟合残差随机森林预测模型，将前一个随机森林的残差作为下一个随机森林的训练数据，每个新的随机森林的建立都是为了让之前随机森林的残差往梯度方向减少；通过改进拟合残差算法，根据每次迭代后随机森林模型预测误差值的下降幅度，为每个随机森林的输出结果分配相应的权重，最终预测结果为每次迭代后随机森林模型的输出结果的加权累加，大大提高了光伏预测精度。

Description

基于改进聚类分析和融合集成算法的光伏功率预测方法

技术领域

本发明属于光伏功率预测的技术领域，涉及可再生能源出力预测的技术，尤其涉及一种基于改进聚类分析和融合集成算法的光伏功率预测方法。

背景技术

在新时代背景下，减少火电污染、发展清洁能源是当务之急，太阳能光伏发电作为新能源的代表，近年来发展迅速。光伏发电量受到太阳辐射强度、温度、湿度、气压、降水等气象因素及通风条件的影响，具有间歇性、波动性和随机性的特点，随着电网光伏渗透率的不断提高，会对电网安全稳定和经济运行产生日益严峻的负面影响。因此，深入探索研究影响光伏系统输出功率的重要因素，并及时做出精准的功率预测就显得非常重要。

在目前常用的聚类算法中，k-means聚类分析时只考虑了一个特征，未能充分挖掘出其他特征中的信息对预测精度的影响。

并且，目前光伏发电功率预测方法大多是局限于采用单一的预测模型，导致泛化性能有限，或者只是通过简单的算术平均对模型进行组合，缺乏足够的理论支撑。

发明内容

本发明正是针对现有技术中未能充分挖掘其他特征信息对预测精度的影响，且现有预测模型较为单一的问题，提供基于改进聚类分析和融合集成算法的光伏功率预测方法，通过改进的k-means聚类分析方法，计算各类每天与基准日的 MIE综合相似度，剔除相似度低于阈值α的数据，得到更精确的分类结果；通过建立融合随机森林算法和拟合残差算法的拟合残差随机森林预测模型，将前一个随机森林的残差作为下一个随机森林的训练数据，每个新的随机森林的建立都是为了让之前随机森林的残差往梯度方向减少；新的随机森林模型的预测误差较前一个随机森林模型预测误差的下降幅度低于设定的阈值时，拟合残差随机森林模型将终止迭代；通过改进拟合残差算法，根据每次迭代后随机森林模型预测误差值的下降幅度，为每个随机森林的输出结果分配相应的权重，最终预测结果为每次迭代后随机森林模型的输出结果的加权累加，克服了只根据一个特征进行的k-means聚类方法分类不够准确和单一预测模型泛化性能有限的问题，提高了光伏预测精度。

为了实现上述目的，本发明采取的技术方案是：基于改进聚类分析和融合集成算法的光伏功率预测方法，所述预测方法中，通过改进的k-means聚类分析方法，计算各类每天与基准日的MIE综合相似度，剔除相似度低于阈值α的数据，得到更精确的分类结果；

通过建立融合随机森林算法和拟合残差算法的拟合残差随机森林预测模型，将前一个随机森林的残差作为下一个随机森林的训练数据，每个新的随机森林的建立都是为了让之前随机森林的残差往梯度方向减少；新的随机森林模型的预测误差较前一个随机森林模型预测误差的下降幅度低于设定的阈值时，拟合残差随机森林模型将终止迭代；

通过改进拟合残差算法，根据每次迭代后随机森林模型预测误差值的下降幅度，为每个随机森林的输出结果分配相应的权重，最终预测结果为每次迭代后随机森林模型的输出结果的加权累加。

为了实现上述目的，本发明还采取的技术方案是：基于改进聚类分析和融合集成算法的光伏功率预测方法，具体包括如下步骤：

S1，数据预处理、特征相关性分析及特征构建：对光伏的实际功率值及气象数值进行预处理，找出其中的异常值；根据特征之间及特征与标签之间是否存在线性相关来进行相关性分析，根据相关性分析结果去除与标签极弱相关的特征及强线性相关的两个特征中与标签相关度较小的特征，并构建新特征；

S2，基于短波辐射通量的k-means聚类，利用手肘图确定最佳聚类簇数k：对训练集数据做基于短波辐射通量的k-means聚类，并利用下述公式计算簇内误方差SSE，根据簇内误方差SSE与聚类簇数的关系手肘图确定数据最佳聚类簇数k。

式中，SSE是簇内误方差；C_i表示第i个簇，i＝1,2,3,…,k；p是C_i中的样本的短波辐射通量；m_i是C_i的质心，即C_i中所有样本点的短波辐射通量的平均值；

S3，基于互信息熵(Mutual Information Entropy,MIE)综合相似度筛选，得到更精确的聚类结果：计算各类每天与基准日的MIE综合相似度，剔除相似度低于阈值α的数据，得到更精确的分类结果，所述MIE综合相似度计算公式为

式中，w_j为气象因素j与光伏功率的MIE权重因子，W为所有权重因子之和，I_NM,i,j为各类第i天与该类基准日关于气象因素j的MIE相关系数，MCS_i为各类第i 天天气状况与该类基准日天气状况的综合相似度；

S4，建立拟合残差随机森林模型：所述模型为：将前一个随机森林的残差作为下一个随机森林的训练数据，每个新的随机森林的建立都是为了让之前随机森林的残差往梯度方向减少，新的随机森林模型的预测误差较前一个随机森林模型预测误差的下降幅度低于设定的阈值时，拟合残差随机森林模型将终止迭代；

S5，模型训练：将测试数据输入训练好的模型得到测试结果，根据每次迭代后误差值的下降幅度，为每个随机森林的输出结果分配相应的权重，所述权重值ω_m计算公式如下：

D_m＝(RMSE_m-1-RMSE_m)/RMSE_m-1，

ω_m＝θ₁D_m/D+θ₂，

式中，m＝2,3,…,itr，itr为迭代次数；D_m为第m次迭代后误差值的下降幅度；D为D_m之和；ω_m为第m次迭代输出结果的权重值，其中，由于m＝1时无误差梯度，因此设置ω₁＝1；θ₁、θ₂为调整系数；

S6，预测结果的加权累加：模型的最终预测结果为每个随机森林预测结果的加权累加，所述拟合残差随机森林模型的最终预测结果计算公式为

式中，S_m为第m个随机森林模型的预测结果；S_z为拟合残差随机森林模型的最终预测结果。

与现有技术相比，本案所具有的技术优势为：

(1)、本方法克服了k-means聚类分析时只考虑短波辐射通量一个特征，未考虑其他气象因素及历史功率对预测结果的影响的局限性，通过计算各类中每一天与基准日的主要气象因素及历史功率的MIE综合相似度，剔除每一类中不够相似的那部分数据，从而得到更精确的聚类结果。

(2)、本方法建立了融随机森林算法和拟合残差算法为一体的拟合残差随机森林模型，该模型的优点为：

①、随机森林算法无需特征降维即可处理高维数据，可充分挖掘天气预报特征及光伏场站历史功率数据中的信息，得出隐含其中的非线性关系；

②、拟合残差算法具有出色的灵活性和通用性，利用拟合残差算法优化随机森林模型，降低了发生过拟合的风险，增强了模型的鲁棒性。

③、将拟合残差算法中最终预测结果为每次迭代预测结果累加的方法改为加权累加，即根据每次迭代后模型的预测误差值的下降幅度，为每个随机森林的输出结果分配相应的权重，从而进一步提升了拟合残差随机森林模型的预测精度。

附图说明

图1是本申请实施例1中预测光伏功率的步骤流程图；

图2是本申请实施例2提出的MIE-加权FRRF模型预测值与RF模型预测值及实际功率的对比图。

具体实施方式

下面结合附图和具体实施方式，进一步阐明本发明，应理解下述具体实施方式仅用于说明本发明而不用于限制本发明的范围。

实施例1

基于改进聚类分析和融合集成算法的光伏功率预测方法，如图1所示，具体包括如下步骤：

S1，数据预处理、特征相关性分析及特征构建：对包含24小时后的天气预报数值、当前时刻光伏功率及当前时刻实测气象数值的输入数据依次进行预处理、找出其中的异常值；数据归一化；根据特征之间及特征与标签之间是否存在线性相关来进行相关性分析，根据相关性分析结果去除与标签极弱相关的特征及强线性相关的两个特征中与标签相关度较小的特征，并构建新特征；

S2，基于短波辐射通量的k-means聚类，利用手肘图确定最佳聚类簇数k：对训练集数据做基于短波辐射通量的k-means聚类，并利用下述公式计算簇内误方差SSE，根据簇内误方差SSE与聚类簇数的关系手肘图确定数据最佳聚类簇数k，

式中，SSE是簇内误方差；C_i表示第i个簇，i＝1,2,3,…,k；p是C_i中的样本点的短波辐射通量；m_i是C_i的质心，即C_i中所有样本点的短波辐射通量的平均值；

S3，基于互信息熵(Mutual Information Entropy,MIE)综合相似度筛选，得到更精确的聚类结果：计算各类每天与基准日的MIE综合相似度，剔除每一类中MIE综合相似度值低于0.85均值的数据，得到更精确的分类结果；

①、在k类数据中分别找出与各类簇心欧氏距离最小的那天作为各类的基准日；

②、设定气象因素集合F＝{T,h,s,sh,c,pr,pp,d,v}，其中，T表示2米温度，h表示2米相对湿度，s表示短波辐射通量，sh表示感热通量，c 表示云量，pr表示海平面气压，pp表示前一天光伏功率，d表示10米风向，v 表示10米风速；

③、MIE相关系数I_NM,i,j的计算：以15min为采样间隔，定义各类中第i天气象因素j为向量N_i,j＝[N_i,j,1,…,N_i,j,96]，基准日的气象因素j为向量M_j＝[M_j,1,…,M_j,96]，其中，i＝1,2,3,…,n，n为该类天数，j∈F。各类第i天与该类基准日关于气象因素j的MIE相关系数I_NM,i,j的计算公式为

式中，H(N_i,j)，H(M_j)为自信息熵，I(N_i,j；M_j)为互信息熵；

④、自信息熵H(N_i,j)，H(M_j)与互信息熵I(N_i,j；M_j)的计算：

选取向量N_i,j中的最大值与最小值，即max(N_i,j)和min(N_i,j),将区间 [max(N_i,j),min(N_i,j)]等间距划分为Λ个子区间,定义N^λ _i,j为第λ个波动子区间，子区间N^λ _i,j的边缘概率密度为

式中，Λ_λ表示向量N_i,j中的元素落入波动子区间N^λ _i,j的数据点数。按照上述步骤，同样计算出边缘概率密度P(M^κ _j)和联合概率密度P(N^λ _i,jM^κ _j)。在此基础上，按照以下公式计算自信息熵H(N_i,j)，H(M_j)与互信息熵I(N_i,j；M_j)的值；

⑤、计算MIE综合相似度：MIE综合相似度计算公式为

S4，建立拟合残差随机森林模型：将前一个随机森林的残差作为下一个随机森林的训练数据，每个新的随机森林的建立都是为了让之前随机森林的残差往梯度方向减少。将包含24小时后的天气预报数值、当前时刻光伏功率及当前时刻实测气象数值的输入数据依次进行预处理、特征构建，然后进行拟合残差随机森林预测模型的训练，利用学习曲线及网格搜索分别对每一次迭代的随机森林模型的超参数进行调优，包括树的个数，树的最大深度，叶节点最小样本数，分裂所需的最小样本数和特征子集的最大特征数。新的随机森林模型的预测误差较前一个随机森林模型预测误差的下降幅度低于设定的阈值时，拟合残差随机森林模型将终止迭代。最终将测试数据依次输入训练好的一组随机森林模型得到预测结果。

D_m＝(RMSE_m-1-RMSE_m)/RMSE_m-1，

ω_m＝θ₁D_m/D+θ₂，

其中，m＝2,3,…,itr，itr为迭代次数；D_m为第m次迭代后误差值的下降幅度； D为D_m之和；ω_m为第m次迭代输出结果的权重值，其中，由于m＝1时无误差梯度，因此设置ω₁＝1；θ₁、θ₂为调整系数。

其中，S_m为第m个随机森林模型的预测结果，S_z为拟合残差随机森林模型的最终预测结果。

实施例2

本实施例数据来自于21年9月国家电网调控人工智能创新大赛数据集，选择的光伏电站额定容量为130MW，有2019、2020两年的历史出力数据、实测气象数据(6个特征)及天气预报数据(22个特征)，时间步长为15分钟。天气预报数据采用的是起报24小时后一天的天气预报数据。

一种基于改进聚类分析和融合集成算法的光伏概率预测方法，具体包括如下步骤：

S1，数据预处理、特征相关性分析及特征构建：

①、数据预处理

采用实际功率-辐照度联合曲线检验实际功率的异常值，找出数据偏移点及非正常零值功率。采用箱型图进行气象数值的异常值检验，即四分位法，小于 Q₁-1.5IQR或大于Q₃+1.5IQR的值被定义为异常值，其中，Q₁为上四分位数，Q₂为中位数，Q₃为下四分位数，IQR为四分位距。对于少量的缺失值、异常值采用牛顿插值法处理，如公式(1)所示，大量的则直接删除。对于云量大于100的取 100，小于0的取0，相对湿度大于100的采用前后平均值插入。

式中，x₀是第0个点的值，x₁是第1个点的值，x_n-1是第n-1个点的值，x_n是第n个点的值，f[x₀,x₁]是x₀和x₁的差商。

②、数据归一化

③、特征相关性分析

利用散点图初步判断特征之间及特征与标签之间是否存在线性相关，存在则通过皮尔逊系数度量其相关程度，无明显线性相关的则在皮尔逊的基础上参考互信息法来进行综合度量。皮尔逊公式如公式(2)所示：

式中，r_xy是相关系数，n是样本个数，x_i是第i个样本的特征量，

是所有样本的特征量平均值，y_i是第i个样本的实际功率，

是所有样本的实际功率平均值。

根据相关性分析结果，去除与标签极弱相关的特征及强线性相关(相关性>0.95)的两个特征中与标签相关度较小的一个。经过综合分析，共去除了7 个特征：法向直射辐照度，天气预报中的70米风向，100米风向，100米风速， 30米温度，70米风速，对流降水。

④、构建新特征

特征构建可以给模型提供更多有用的信息，来解决模型解释能力不足的问题。本申请采用特征提取、特征交叉、一阶差分3种方法构建新特征。

对新特征进行对比试验，根据对模型的贡献程度，本申请构建了13个新特征：月、日、时、海平面气压*2米相对湿度、总辐照度*气温、时*日、月*日、月*时、短波辐射一阶差分、10米风速一阶差分、2米温度一阶差分、总降水一阶差分、2米相对湿度一阶差分。

S2，基于短波辐射通量的k-means聚类，利用手肘图确定最佳聚类簇数k：

数据样本共686天数据，划分训练、测试集为训练集617天，测试集69天，其中训练集又分为训练数据和验证数据，训练数据占训练集的70％，验证数据占训练集的30％。对训练集数据做基于天气预报特征短波辐射通量的k-means聚类，并利用公式(3)计算簇内误方差SSE，根据簇内误方差与聚类簇数的关系手肘图可以确定数据最佳聚类簇数k为4，4类分别有143天、164天、149天和161 天数据。利用4类数据分别训练随机森林模型，并通过比较测试集中每一天的短波辐射通量和上述4类簇心的欧氏距离，将69天测试集也分成4类，分别输入四个随机森林模型，得到预测结果。RMSE测试误差值如表1第一行所示。

式中，SSE是簇内误方差；C_i表示第i个簇，i＝1,2,3,…,k；p是C_i中的样本的短波辐射通量；m_i是C_i的质心，即C_i中所有样本的短波辐射通量平均值。

S3，基于互信息熵(Mutual Information Entropy,MIE)综合相似度筛选，得到更精确的聚类结果：

根据短波辐射通量进行的k-means聚类，未考虑其他气象因素及历史功率对预测结果的影响，得到的不一定是最优的结果，存在分类不够准确的数据，本实施例通过MIE综合相似度筛选，剔除每一类中相似度低于0.85均值的数据，具体步骤如下：

①、找出各类的基准日：将四类中每一天的96个短波辐射通量值分别与该类的簇心比较欧氏距离，找出与簇心最接近的一天为基准日，第0类是2019年 8月20日，第1类是2019年11月21日，第2类是2020年6月7日，第3类是2020年10月7日。

②、选取气象因素：设定气象因素集合F＝{T,h,s,sh,c,pr,pp,d,v}，其中，T表示2米温度，h表示2米相对湿度，s表示短波辐射通量，sh表示感热通量，c表示云量，pr表示海平面气压，pp表示前一天光伏功率，d表示10 米风向，v表示10米风速；

③、MIE相关系数I_NM,i,j的计算(以1类为例)：以15min为采样间隔，定义 1类中第i天气象因素j为向量N_i,j＝[N_i,j,1,…,N_i,j,96]，基准日的气象因素j为向量M_j＝[M_j,1,…,M_j,96]，其中，i＝1,2,3,…,164，164为1类天数，j∈F。1类第 i天与该类基准日关于气象因素j的MIE相关系数I_NM,i,j的计算公式为

式中，H(N_i,j)，H(M_j)为自信息熵，I(N_i,j；M_j)为互信息熵。

④、自信息熵H(N_i,j)，H(M_j)与互信息熵I(N_i,j；M_j)的计算：

式中，Λ_λ表示向量N_i,j中的元素落入波动子区间N^λ _i,j的数据点数。按照上述步骤，同样计算出边缘概率密度P(M^κ _j)和联合概率密度P(N^λ _i,jM^κ _j)。在此基础上，按照公式(6)、(7)、(8)计算自信息熵H(N_i,j)，H(M_j)与互信息熵I(N_i,j；M_j) 的值；

⑤、MIE综合相似度计算：利用公式(12)、(13)，计算各类每一天的MIE 综合相似度值

式中，w_j为气象因素j与光伏功率的MIE权重因子，W为所有权重因子之和， I_NM,i,j为各类第i天与该类基准日关于气象因素j的MIE相关系数，MCS_i为各类第i天天气状况与该类基准日天气状况的综合相似度；

⑥、剔除每一类中MIE综合相似度值低于0.85均值的数据，本实施例在4 类617天数据中共剔除了23天数据。用新数据重新训练随机森林模型，并将根据与新质心的对比结果重新分类的4类测试数据，分别输入4个模型，得到预测结果，RMSE测试误差值如表1第二行所示，与未进行MIE综合相似度筛选的情况相比总RMSE测试误差值下降了2.0％。

S4，建立拟合残差随机森林模型：

建立融合随机森林算法和拟合残差算法的拟合残差随机森林预测模型，即将前一个随机森林的残差作为下一个随机森林的训练数据，每个新的随机森林的建立都是为了让之前随机森林的残差往梯度方向减少。该模型用于光伏场站功率的预测，能充分挖掘多维特征中的信息，得出隐含在数据中光伏功率与气象因素间复杂的非线性关系，有效降低过拟合的风险，提高场站光伏功率预测的精度。

当新的随机森林模型的测试误差较前一个随机森林模型测试误差的下降幅度低于0.7％时，拟合残差随机森林模型将终止迭代，最终0类数据进行了5次迭代，1类数据进行了9次迭代，2类数据进行了5次迭代，3类数据进行了6 次迭代。将测试数据输入四组FRRF模型，得到的RMSE测试误差值如表1第三行所示，与单一的随机森林模型相比总RMSE测试误差值下降了3.9％。

S5，模型训练：将测试数据输入训练好的模型得到测试结果，根据每次迭代后误差值的下降幅度，为每个随机森林的输出结果分配相应的权重：

S6，预测结果的加权累加(MIE-加权FRRF)：

改进拟合残差算法，根据每次迭代后预测误差值的下降幅度，为每个随机森林的输出结果分配相应的权重，最终预测结果为每次迭代输出结果的加权累加。权重值计算公式如下：

D_m＝(RMSE_m-1-RMSE_m)/RMSE_m-1 (11)

ω_m＝θ₁D_m/D+θ₂ (13)

式中，m＝2,3,…,itr，itr为迭代次数；D_m为第m次迭代后误差值的下降幅度；D为D_m之和；ω_m为第m次迭代输出结果的权重值，其中，由于m＝1时无误差梯度，因此设置ω₁＝1；θ₁、θ₂为调整系数；S_m为第m个随机森林模型的预测结果；S_z为拟合残差随机森林模型的最终预测结果。将最终预测结果改为加权累加后的RMSE测试误差值如表1第四行所示，与简单累加的方法相比总RMSE 测试误差值下降了1.3％。

采用本申请所公开的预测方法得到的RMSE误差与随机森林模型的RMSE误差对比如表1所示。

表1 RMSE误差对比

通过上表可以看出，本申请所公开的预测方法，其总RMSE测试误差值较随机森林模型下降了7％，提高了对场站光伏功率的预测精度。

图2为在18天1类测试数据中选取了2019年1月27日、11月14日、11 月26日、12月7日4天的测试数据，分别输入MIE-加权FRRF模型、RF模型所得到的预测值与实际功率的对比图，直观地展示了MIE-加权FRRF模型对预测精度的提升程度。

需要说明的是，以上内容仅仅说明了本发明的技术思想，不能以此限定本发明的保护范围，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰均落入本发明权利要求书的保护范围之内。

Claims

1.基于改进聚类分析和融合集成算法的光伏功率预测方法，其特征在于：所述预测方法中，通过改进的k-means聚类分析方法，计算各类每天与基准日的MIE综合相似度，剔除相似度低的数据，得到更精确的分类结果；

2.如权利要求1所述的基于改进聚类分析和融合集成算法的光伏功率预测方法，其特征在于，具体包括如下步骤：

S3，基于MIE综合相似度筛选，得到更精确的聚类结果：计算各类每天与基准日的MIE综合相似度，剔除各类中相似度低于阈值α的数据，得到更精确的分类结果；

D_m＝(RMSE_m-1-RMSE_m)/RMSE_m-1，

ω_m＝θ₁D_m/D+θ₂，

式中，S_m为第m个随机森林模型的预测结果，S_z为拟合残差随机森林模型的最终预测结果。

3.如权利要求2所述的基于改进聚类分析和融合集成算法的光伏功率预测方法，其特征在于：所述步骤S1中，采用实际功率-辐照度联合曲线检验实际功率值的异常值，找出数据偏移点及非正常零值功率；采用箱型图进行气象数值的异常值检验。

4.如权利要求2所述的基于改进聚类分析和融合集成算法的光伏功率预测方法，其特征在于：所述步骤S1中，采用特征提取或特征交叉或一阶差分方法构建新特征。

5.如权利要求2所述的基于改进聚类分析和融合集成算法的光伏功率预测方法，其特征在于：所述步骤S1中，判断特征之间及特征与标签之间是否存在线性相关，若存在，则通过皮尔逊系数度量其相关程度，具体为：

是所有样本的特征量平均值，y_i是第i个样本的实际功率，

是所有样本的实际功率平均值；

若无明显线性相关，则在皮尔逊的基础上参考互信息法来进行综合度量。

6.如权利要求2所述的基于改进聚类分析和融合集成算法的光伏功率预测方法，其特征在于：所述步骤S3进一步包括：

S31，找出各类的基准日：在k类数据中分别找出与各类簇心欧氏距离最小的一天作为各类的基准日；

S32，选取气象因素：设定气象因素集合F＝{T,h,s,sh,c,pr,pp,d,v}，其中，T表示2米温度，h表示2米相对湿度，s表示短波辐射通量，sh表示感热通量，c表示云量，pr表示海平面气压，pp表示前一天光伏功率，d表示10米风向，v表示10米风速；

S33，MIE相关系数I_NM,i,j的计算：以15min为采样间隔，定义各类中第i天气象因素j为向量N_i,j＝[N_i,j,1,…,N_i,j,96]，基准日的气象因素j为向量M_j＝[M_j,1,…,M_j,96]，其中，i＝1,2,3,…,n，n为该类天数，j∈F；各类第i天与该类基准日关于气象因素j的MIE相关系数I_NM,i,j的计算公式为