CN113313298A

CN113313298A - 一种基于特征选择的混合Kmeans-GRA-SVR光伏发电功率预测方法

Info

Publication number: CN113313298A
Application number: CN202110556679.2A
Authority: CN
Inventors: 林杰民; 李海明
Original assignee: Shanghai University of Electric Power
Current assignee: Shanghai University of Electric Power
Priority date: 2021-05-21
Filing date: 2021-05-21
Publication date: 2021-08-27

Abstract

本发明光伏发电领域，具体涉及一种基于特征选择的混合Kmeans‑GRA‑SVR光伏发电功率预测方法，由于本发明通过K‑means++算法对待用历史光伏输出功率数据集内的数据按季节进行聚类，并分别将各个簇划分为理想天气簇和非理想天气簇，通过GRA算法计算每个预测日与其所属的簇中的每个数据之间的相关度，得到相似日集和最邻近相似日集，将相似日集作为训练集，将最邻近相似日集作为验证集，使用支持向量回归模型，并根据惩罚因子C和核参数γ对支持向量回归模型进行优化，将具有独特功能的不同模型混合在一起来突破单个模型的局限性，从而提高对光伏发电功率的预测准确性和有效性。

Description

一种基于特征选择的混合Kmeans-GRA-SVR光伏发电功率预测方法

技术领域

本发明光伏发电领域，具体涉及一种基于特征选择的混合 Kmeans-GRA-SVR光伏发电功率预测方法。

背景技术

人类对能源的需求一直处于不断上升的状态,但化石能源储量有限，面对有限的化石能源和调整能源结构的需求，光伏发电技术应用越来越广泛。但是，由于天气系统的混沌性，使得光伏能源的生产具有高度随机性、波动性和间歇性，这可能导致电网功率、电压失衡，同时也大大增加了光伏能源大规模应用的难度。为了应对光伏能源大规模应用对电网带来的冲击，提高电力系统对光伏能源的消纳能力，目前的解决方案包括能量存储优化、需求响应策略、潮流优化、独立微电网和光伏发电预测。光伏发电预测是最经济有效的解决方案之一，同时它也是其他光伏发电精细化管理方法的重要技术支撑。较为准确的光伏发电预测可以消除大规模光伏能源并网带来的负面影响，降低辅助设备的损耗。

当前的光伏发电预测技术主要方法有三种：物理方法，统计时间序列方法和混合方法。物理方法不依赖历史数据，根据实时测得的数据进行超短期预测，但是其问题在于气象因素和光伏电站参数较多导致建模困难，并且在不同时间尺度或天气情况下光伏系统参数的不断变化使得模型的抗干扰能力较差。统计方法中的回归模型和自回归模型相对简单，总体预测准确性较差；人工神经网络能够处理非线性问题且具有出色的自学习能力，因此具有较高的预测精度，但人工神经网络的多层网络结构使模型的复杂性大大增加，使得训练和优化模型需要消耗大量的计算资源和较长的训练时间。支持向量机是一种基于结构风险最小化原则,寻找全局最优解的算法。但支持先项向量机在面对规模较大的数据时其性能表现会有所下降，同时对参数和核函数的选择敏感。

另外，许多已提出光伏发电预测模型在对理想天气进行预测时均有较好的性能表现，但在非理想天气预测精度均有较大的下降。许多研究提出使用相似度算法来提取相似天气下的输出特征来提高非理想天气的预测精度。相似度算法可以有效地提取不同天气类型的输出特征。同时，相对于直接使用大量的历史数据对模型进行训练，相似日的使用不仅节约大量的计算资源，还可以提高模型的预测精度。但使用相似日的问题在于：如果相似日和预测日之间的时间间隔过长，虽然天气条件相似但是光伏阵列的特性(表面清洁度，组件老化，转换效率等)已发生很大变化，这将导致预测结果与实际值之间的误差较大。

发明内容

本发明是为了解决上述问题而进行的，目的在于提供一种基于特征选择的混合Kmeans-GRA-SVR光伏发电功率预测方法。

本发明提供了一种基于特征选择的混合Kmeans-GRA-SVR光伏发电功率预测方法，具有这样的特征，包括如下步骤：步骤S1，获取多个历史光伏输出功率数据作为历史光伏输出功率数据集，并对该历史光伏输出功率数据集进行预处理得到待用历史光伏输出功率数据集；步骤S2，获取多个气象因素数据作为气象因素数据集，并对气象因素数据集进行预处理，得到待用气象因素数据集；步骤S3，对待用气象因素数据集进行特征提取，得到气象因素特征值；步骤S4，通过多指标的K-means++算法对待用历史光伏输出功率数据集内的数据按季节进行聚类，得到多个簇，并根据每个簇内的历史光伏输出功率数据的平均值，分别将各个簇划分为理想天气簇和非理想天气簇；步骤S5，从历史光伏输出功率数据集中与四季分别切分出对应的八个预测日，作为待测预测日，并确定每个待测预测日所属的簇；步骤S6，通过GRA算法计算每个待测预测日与其所属的簇中的每个数据之间的相关度，得到相似日集和最邻近相似日集，将相似日集作为训练集，将最邻近相似日集作为验证集；步骤S7，将训练集输入支持向量回归模型，根据训练集确定输入特征并通过网格搜索和交叉验证优化支持向量回归模型的惩罚因子C和核参数γ，并根据惩罚因子C 和核参数γ对支持向量回归模型进行优化，得到优化后的支持向量回归模型；步骤S8，将最邻近相似日集输入优化后的支持向量回归模型进行验证，输出预定结果后，得到光伏发电功率预测模型；步骤 S9，将待测数据输入光伏发电功率预测模型，得到光伏发电功率。

在本发明提供的基于特征选择的混合Kmeans-GRA-SVR光伏发电功率预测方法中，还可以具有这样的特征：其中，输入特征分为理想天气簇的输入特征和非理想天气簇的输入特征，当待测预测日属于理想天气簇时，将最近邻相似日的功率和待测预测日的气象因素特征值作为理想天气簇的输入特征；当待测预测日属于非理想天气簇时，将最近邻相似日GHI、待测预测日GHI和气象因素特征值作为非理想天气的输入特征。

在本发明提供的基于特征选择的混合Kmeans-GRA-SVR光伏发电功率预测方法中，还可以具有这样的特征：其中，GHI为全局水平辐照度。

在本发明提供的基于特征选择的混合Kmeans-GRA-SVR光伏发电功率预测方法中，还可以具有这样的特征：其中，最近邻相似日为在理想天气下，预测日相邻7天内相似度最高的一天作为预测日的最近邻相似日；或非理想天气下，预测日近邻30天内相似度最高的一天最为预测日的最近邻相似日。

在本发明提供的基于特征选择的混合Kmeans-GRA-SVR光伏发电功率预测方法中，还可以具有这样的特征：其中，气象因素特征值包括：全局水平辐照度的最小值、平均值和最大值；水平散射辐照度的最小值、平均值和最大值；相对湿度的最小值、平均值和最大值；温度的最小值、平均值和最大值。

在本发明提供的基于特征选择的混合Kmeans-GRA-SVR光伏发电功率预测方法中，还可以具有这样的特征：其中，在步骤S5中，确定每个待测预测日所属的簇的方法如下：将气象因素特征值作为每个簇的中心值，得到多个簇中心，计算每个待测预测日的气象因素特征值与每个簇中心之间的欧几里得距离、Pearson相关系数和GRA相关度，从而每个待测预测日所属的簇。

发明的作用与效果

根据本发明所涉及的基于特征选择的混合Kmeans-GRA-SVR光伏发电功率预测方法，由于本发明通过多指标的K-means++算法对待用历史光伏输出功率数据集内的数据按季节进行聚类，并分别将各个簇划分为理想天气簇和非理想天气簇，通过GRA算法计算每个预测日与其所属的簇中的每个数据之间的相关度，得到相似日集和最邻近相似日集，将相似日集作为训练集，将最邻近相似日集作为验证集，根据对影响光伏功率因素的分析提出了10种特征组合，针对不同的天气类型选择合适的特征组合作为输入参数以提高预测精度，并分别对四季的理想和非理想天气构建支持向量回归模型用于日前光伏发电功率预测，使用支持向量回归模型，并根据惩罚因子C和核参数γ对支持向量回归模型进行优化，将具有独特功能的不同模型混合在一起来突破单个模型的局限性，从而提高对光伏发电功率的预测准确性。此外，本发明在训练模型的过程中不仅使用最近邻相似日的功率、气象等数据作为输入参数的一部分来提高预测精度，同时还是使用最近邻相似日作为模型的验证集来防止模型过拟合。另外，本发明使用支持向量回归模型能够处理非线性问题，有优秀的学习能力而又不严重依赖于先验知识，训练速度快且有防止过拟合的能力，具有良好的泛化和收敛性。

附图说明

图1是本发明的实施例中光伏阵列的地理位置；

图2是本发明的实施例中基于特征选择的混合Kmeans-GRA-SVR光伏发电功率预测方法的流程图；

图3是本发明的实施例中秋季聚类结果以及评价指标；

图4是本发明的实施例中光伏功率与各气象因素之间的相关分析图；

图5是本发明的实施例中理想天气下各季节一天的预测结果图；

图6是本发明的实施例中非理想天气下各季节一天的预测结果图。

具体实施方式

为了使本发明实现的技术手段、创作特征、达成目的与功效易于明白了解，以下实施例结合附图对本发明一种基于特征选择的混合 Kmeans-GRA-SVR光伏发电功率预测方法作具体阐述。

<实施例>

本实施例以澳大利亚沙漠太阳能研究中心网站上2018年3月1 日至2020年2月29日的历史功率和气象数据为例进行说明。

图1是本发明的实施例中光伏阵列的地理位置。

如图1所示，本实施例中的光伏阵列由22块额定功率为265W的多晶硅光伏面板组成，总额定功率为5.83kW。

图2是本实施例中基于特征选择的混合Kmeans-GRA-SVR光伏发电功率预测方法的流程图。

如图2所示，本实施例提供的基于特征选择的混合Kmeans-GRA-SVR光伏发电功率预测方法包括如下步骤：

步骤S1，获取多个历史光伏输出功率数据作为历史光伏输出功率数据集，并对该历史光伏输出功率数据集进行预处理得到待用历史光伏输出功率数据集。

步骤S2，获取多个气象因素数据作为气象因素数据集，并对气象因素数据集进行预处理，得到待用气象因素数据集。

气象因素特征值包括：全局水平辐照度的最小值、平均值和最大值；水平散射辐照度的最小值、平均值和最大值；相对湿度的最小值、平均值和最大值；温度的最小值、平均值和最大值。

步骤S3，对待用气象因素数据集进行特征提取，得到气象因素特征值。

步骤S4，通过K-means++算法对待用历史光伏输出功率数据集内的数据按季节进行聚类，得到多个簇，并根据每个簇内的历史光伏输出功率数据的平均值，分别将各个簇划分为理想天气簇和非理想天气簇。

历史光伏输出功率数据包含具体光伏阵列在不同天气下的发电模式以及本身随时间连续的变化的特性参数。使用轮廓系数(S)、 Davies-Bouldin指标(DBI)和误差平方和(SSE)的K-means++算法对历史功率数据按季节进行聚类，以获得因天气的多样性而带来的不同发电模式。

在本实施例中，进行聚类时不对历史光伏输出功率数据进行归一化处理，因为功率的大小和曲线的几何形状是区分不同发电模式的重要依据。

本实施例中以秋季为例对使用K-means++算法聚类方法进行说明。

图3是本实施例中秋季聚类结果以及评价指标。

如图3所示，当K值达到3时，SSE的值为15383且下降趋势放缓；DBI在K值为3时有最佳表现；S在簇数为2、3时分别为0.71 和0.64，之后S的值大幅下降。

当选择K值为3，红蓝两簇能较好地分离平滑的弧线和不规则的折线，所以秋季选择K值为3。各个季节的聚类结果评估指标如表2 所示。为了防止出现局部最优或其他异常情况，本实施例进行了100 轮实验。综合考虑所有指标和聚类结果，春季的簇数为3，夏季的簇数为2，秋季的簇数为3，冬季的簇数为3。

本实施例中其他季节的聚类评价指标(见表1)，评价方法与秋季相同在此不再赘述。

表1各个季节的聚类评价指标

对于各个季节的聚类的结果，根据每个簇发电功率的平均值 (如表2所示)和几何形状分为理想天气簇和非理想天气簇，以选择不同的特征组合作为输入参数。由表2可以看出，一般平滑弧线聚集的簇(如秋季簇1)的平均发电功率较大。而不规则的折线聚集的簇(如秋季的簇2和簇3)的平均发电功率较小。所以将春季的簇1、夏季的簇1、秋季的簇1、冬季的簇2和簇3划分为理想天气簇，其余的划分为非理想天气簇。

表2四季各簇发电功率的平均值(kW)

步骤S5，从历史光伏输出功率数据集中与四季分别切分出对应的八个预测日，作为待测预测日，并确定每个待测预测日所属的簇。确定每个待测预测日所属的簇的方法如下：将气象因素特征值作为每个簇的中心值，得到多个簇中心，计算每个待测预测日与每个簇中心之间的欧几里得距离、Pearson相关系数和GRA相关度，从而每个待测预测日所属的簇。

步骤S6，通过GRA算法计算每个预测日与其所属的簇中的每个数据之间的相关度，得到相似日集和最邻近相似日集，将相似日集作为训练集，将最邻近相似日集作为验证集。

最近邻相似日指的是：在理想天气下，预测日相邻7天内相似度最高的一天作为预测日的最近邻相似日；非理想天气下，预测日近邻30天内相似度最高的一天最为预测日的最近邻相似日。

选取每日T、RH、GHI、DHI的最小值、平均值和最大值作为每天的气象特征值。选择该特征值的原因是GRA算法是通过数据列之间的几何相似性来判断相关度，最小值、平均值、最大值能保持原数据一定的几何特征。然后通过GRA算法计算预测日与所属的簇中的样本的相似度，然后选择合适相似度阈值来获得待测预测日对应的相似日和最近邻相似日。这里不对数据进行归一化的原因是GRA算法本身有一个无量纲化的过程。

本实施例中选取了待测预测日、相似日阈值、最近邻相似日及其与待测预测日的相关度，见表3、表4。

表3理想天气的预测日、相似日阈值、最近邻相似日及其与预测日的相关度

表4非理想天气的预测日、相似日阈值、最近邻相似日及其与预测日的相关度

如表3、4所示，理想天气的最近邻相似日大多都是相邻的一天，而非理想天气的最近邻相似日的时间间隔都比较长，能够节约计算资源、加快模型训练速度，提高预测精度，必须选择适当的相似日阈值。较高的阈值可以提高预测准确性，但是若阈值太高导致训练样本太少可能会引起过拟合。

图4是本实施例中光伏功率与各气象因素之间的相关分析图。

如图4所示，光伏发电功率与T、RH、GHI、DHI之间的皮尔逊相关系数分别为0.35、-0.41、0.97和0.35。GHI对光伏输出功率为极强相关，T和DHI均为弱相关，而相对湿度与光伏功率之间存在负相关关系。光伏发电功率与T、RH、GHI、DHI之间的GRA相关度分别为 0.69、0.60、0.87和0.64，GHI对光伏输出的影响仍为最大。根据相关性分析，提出了10种特征组合。前缀N代表最近的相似日，P、 G和M分别代表功率、GHI和12气象因子特征值。如NG_MG即代表最近邻相似日GHI和预测日的气象因素特征值与GHI作为输出参数。

对于理想天气，由于其预测精度较高，所以对于其特征的选取主要考虑的因素是在保证有足够的预测精度的情况下，选择更容易获取且对数据精度要求较低的特征组合。在本实施中，理想天气的输入特征为最近邻相似日功率和预测日的12气象因素特征值(NP_M)。

对于各季节非理想天气10种特征组合的评估如表5和表6所示，对表中评估指标的最优值以粗体显示。

表5 MAE(kW)评估10个特征组合

表6 R²评估10个特征组合

从表5和表6可以看出，NG_MG特征组合在每个季节的MAE分别为1.3733、2.0817、1.6475和2.2323kW，MAE的平均值为1.8337kW，在所有特征组合中最小。NG_MG特征组合在各个季节的RMSE分别为 1.4699、2.6625、1.8700、2.5492kW，RMSE的平均值为2.1379kW，在所有特征组合中表现最佳。NG_MG特征组合各个季节的R²为 99.18％、97.31％、99.26％和98.14％，平均值为98.47％，在所有特征组合中拟合度最高。从综合表现来看，NG_MG特征组合具有更高的预测精度和鲁棒性，因此本实施例中选择NG_MG作为非理想天气的输入特征。

步骤S7，将训练集输入支持向量回归模型，根据训练集确定输入特征并通过网格搜索和交叉验证确定支持向量回归模型的惩罚因子C和核参数γ，并根据惩罚因子C和核参数γ对支持向量回归模型进行优化，得到优化后的支持向量回归模型。

本实施例中，在Intel核心i5-3230CPU、2.60GHz处理器和4GB RAM的Win7系统的个人计算机使用PyCharm(python3.6)进行相关工作。在scikit-learn环境中搭建模型，网格搜索和交叉验证用于搜索惩罚因子C和核参数γ的最优值。理想天气和非理想天气最佳的C、γ和训练优化时间如表7和表8所示。

表7理想天气模型参数和训练优化时间

表8非理想天气模型参数和训练优化时间

由表7和表8可知，理想天气各季节模型训练优化时间分别为 2.0342、1.9506、2.3272、0.6826秒，平均时间1.74865秒。而非理想天气各季节模型训练优化时间为0.2490、0.2400、0.2240、0.2060 秒，平均时间为0.22975秒，显然匹配到的相似天数的多少对训练优化时间有较大影响。

对比表7与表8可知，由于非理想天气数据复杂度比理想天气高，非理想天气的惩罚因子C普遍比理想天气大，非理想天气核参数γ普遍比理想天气的核参数小。

图5是本实施例中理想天气下各季节一天的预测结果图，图6是本实施例中非理想天气下各季节一天的预测结果图。

如图4所示，在理想天气下，所提出方法在各季节均有较高的拟合度，其四季平均拟合优度(R²)达到了99.66％。四季的平均MAE和 RMSE分别为0.8101kW和0.9608kW，有较高的预测精度和良好的泛化性能。

如图5所示，在非理想天气下，所提出的方法依然有良好的表现。其四季R²分别为99.18％、97.31％、99.26％和98.14％，平均值为98.47％。四季的平均MAE和RMSE分别为1.8337kW和2.1379kW，同样有优越的性能表现和较高的鲁棒性。

理想天气下，该方法比标准的SVR模型的平均训练优化时间减少了77.27％。非理想天气下，该方法的平均训练优化时间比标准的SVR 减少了98.07％。因此，该方法可用于预测光伏电站的日发电功率，这有助于提高电力系统对光伏能源的消纳能力。

实施例的作用与效果

根据本实施例所涉及的基于特征选择的混合Kmeans-GRA-SVR光伏发电功率预测方法，由于本发明通过多指标的K-means++算法对待用历史光伏输出功率数据集内的数据按季节进行聚类，并分别将各个簇划分为理想天气簇和非理想天气簇，通过GRA算法计算每个预测日与其所属的簇中的每个数据之间的相关度，得到相似日集和最邻近相似日集，将相似日集作为训练集，将最邻近相似日集作为验证集，根据对影响光伏功率因素的分析提出了10种特征组合，针对不同的天气类型选择合适的特征组合作为输入参数以提高预测精度，并分别对四季的理想和非理想天气构建支持向量回归模型用于日前光伏发电功率预测，使用支持向量回归模型，并根据惩罚因子C和核参数γ对支持向量回归模型进行优化，将具有独特功能的不同模型混合在一起来突破单个模型的局限性，从而提高对光伏发电功率的预测准确性和有效性。另外，本实施例使用支持向量回归模型能够处理非线性问题，有优秀的学习能力而又不严重依赖于先验知识，训练速度快且有防止过拟合的能力，具有良好的泛化和收敛性。

上述实施方式为本发明的优选案例，并不用来限制本发明的保护范围。

Claims

1.一种基于特征选择的混合Kmeans-GRA-SVR光伏发电功率预测方法，其特征在于，包括如下步骤：

步骤S1，获取多个历史光伏输出功率数据作为历史光伏输出功率数据集，并对该历史光伏输出功率数据集进行预处理得到待用历史光伏输出功率数据集；

步骤S2，获取多个气象因素数据作为气象因素数据集，并对所述气象因素数据集进行所述预处理，得到待用气象因素数据集；

步骤S3，对所述待用气象因素数据集进行特征提取，得到气象因素特征值；

步骤S4，通过多指标的K-means++算法对所述待用历史光伏输出功率数据集内的数据按季节进行聚类，得到多个簇，并根据每个所述簇内的所述历史光伏输出功率数据的平均值，分别将各个所述簇划分为理想天气簇和非理想天气簇；

步骤S5，从所述历史光伏输出功率数据集中与所述四季分别切分出对应的八个预测日，作为待测预测日，并确定每个所述待测预测日所属的簇；

步骤S6，通过GRA算法计算每个待测预测日与其所属的簇中的每个数据之间的相关度，得到相似日集和最邻近相似日集，将所述相似日集作为训练集，将所述最邻近相似日集作为验证集；

步骤S7，将所述训练集输入支持向量回归模型，根据所述训练集确定输入特征并通过网格搜索和交叉验证优化所述支持向量回归模型的惩罚因子C和核参数γ，并根据所述惩罚因子C和所述核参数γ对所述支持向量回归模型进行优化，得到优化后的所述支持向量回归模型；

步骤S8，将所述最邻近相似日集输入所述优化后的所述支持向量回归模型进行验证，输出预定结果后，得到光伏发电功率预测模型；

步骤S9，将待测数据输入所述光伏发电功率预测模型，得到光伏发电功率。

2.根据权利要求1所述的基于特征选择的混合Kmeans-GRA-SVR光伏发电功率预测方法，其特征在于：

其中，所述输入特征分为理想天气簇的输入特征和非理想天气簇的输入特征，

当所述待测预测日属于所述理想天气簇时，将最近邻相似日的功率和所述待测预测日的所述气象因素特征值作为所述理想天气簇的输入特征；

当所述待测预测日属于所述非理想天气簇时，将最近邻相似日GHI、待测预测日GHI和所述气象因素特征值作为非理想天气的输入特征。

3.根据权利要求2所述的基于特征选择的混合Kmeans-GRA-SVR光伏发电功率预测方法，其特征在于：

其中，所述GHI为全局水平辐照度。

4.根据权利要求2所述的基于特征选择的混合Kmeans-GRA-SVR光伏发电功率预测方法，其特征在于：

其中，所述最近邻相似日为在理想天气下，预测日相邻7天内相似度最高的一天作为预测日的最近邻相似日；或

非理想天气下，预测日近邻30天内相似度最高的一天最为预测日的最近邻相似日。

5.根据权利要求1所述的基于特征选择的混合Kmeans-GRA-SVR光伏发电功率预测方法，其特征在于：

其中，所述气象因素特征值包括：

全局水平辐照度的最小值、平均值和最大值；

水平散射辐照度的最小值、平均值和最大值；

相对湿度的最小值、平均值和最大值；

温度的最小值、平均值和最大值。

6.根据权利要求1所述的基于特征选择的混合Kmeans-GRA-SVR光伏发电功率预测方法，其特征在于：

其中，在步骤S5中，确定每个所述待测预测日所属的簇的方法如下：

将气象因素特征值作为每个所述簇的中心值，得到多个簇中心，计算每个所述待测预测日的气象因素特征值与每个所述簇中心之间的欧几里得距离、Pearson相关系数和GRA相关度，从而每个所述待测预测日所属的簇。