CN117374941A

CN117374941A - 一种基于神经网络的光伏发电功率预测方法

Info

Publication number: CN117374941A
Application number: CN202311326715.1A
Authority: CN
Inventors: 李建林; 李雅欣; 张则栋; 邸文峰; 方知进; 马速良; 肖珂
Original assignee: North China University of Technology
Current assignee: North China University of Technology
Priority date: 2023-10-13
Filing date: 2023-10-13
Publication date: 2024-01-09

Abstract

本发明公开了一种基于神经网络的光伏发电功率预测方法，首先收集光伏发电站的各种数据；对所收集的数据进行清洗和转换预处理，并将处理后的数据划分为训练集、验证集和测试集；在原SMOTE算法的基础上引入距离阈值和密度阈值，对原SMOTE算法进行改进，然后利用改进后的SMOTE算法对所收集的数据进行样本扩充；通过融合蚁群优化算法和小生境算法对极限学习机模型进行优化，构建用于发电功率预测的极限学习机分类器；利用所构建的极限学习机分类器和数据集样本对实际光伏发电功率进行预测，分类结果为所预测发电功率的若干个区间。上述方法利用蚁群优化算法和小生境算法优化极限学习机分类器，可以有效地提高发电功率的预测精度。

Description

一种基于神经网络的光伏发电功率预测方法

技术领域

本发明涉及光伏发电功率预测技术领域，尤其涉及一种基于神经网络的光伏发电功率预测方法。

背景技术

随着人类对环保问题的关注程度越来越高，可再生能源的利用受到了前所未有的关注。其中光伏发电作为一种清洁的、可再生的能源，己经在全球范围内得到了广泛的应用。然而光伏发电的功率产出受到许多因素的影响，如天气条件(包括太阳辐射、云覆盖、温度等)、季节和日照时间等，这些因素都会导致光伏发电的功率产出具有较大的不确定性。为了解决这个问题，需要准确预测光伏发电的功率，以便更好地规划和控制电力系统，提高电网的稳定性和运行效率。同时准确的功率预测也有助于提高光伏电站的经济效益，因为能源市场的参与者可以基于预测结果进行电力交易，避免因功率产出波动而带来的经济损失。

然而光伏发电功率预测是一个非常复杂的任务，首先影响光伏发电功率的因素多且互相影响，如天气条件、设备状态、地理位置等。这些因素构成了一个复杂的非线性系统，使得功率预测变得困难。其次光伏发电的数据通常具有噪声和缺失值，这也增加了预测的难度。此外光伏发电的数据通常是大规模的、高维的，对模型的计算能力和内存需求提出了较高的要求，而现有技术方案普遍存在预测精度不足、数据利用效率低、模型稳定性和泛化能力不足等问题。

发明内容

本发明的目的是提供一种基于神经网络的光伏发电功率预测方法，该方法利用蚁群优化算法和小生境算法优化极限学习机(ELM)分类器，可以有效地提高发电功率的预测精度。

本发明的目的是通过以下技术方案实现的：

一种基于神经网络的光伏发电功率预测方法，所述方法包括：

步骤1、首先收集光伏发电站的各种数据，所述数据包括天气数据、光伏电池板的电压、电流、功率数据；

步骤2、对所收集的数据进行清洗和转换预处理，并将处理后的数据按照一定比例划分为训练集、验证集和测试集，用于模型的训练、调优和测试；

步骤3、在原SM0TE算法的基础上引入距离阈值和密度阈值，对原SMOTE算法进行改进，然后利用改进后的SM0TE算法对所收集的数据进行样本扩充；

步骤4、通过融合蚁群优化算法和小生境算法对极限学习机模型进行优化，构建用于发电功率预测的极限学习机分类器；

步骤5、利用所构建的极限学习机分类器和步骤3中的数据集样本对实际光伏发电功率进行预测，分类结果为所预测发电功率的若干个区间。

由上述本发明提供的技术方案可以看出，上述方法利用蚁群优化算法和小生境算法优化极限学习机(ELM)分类器，可以有效地提高发电功率的预测精度。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域的普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他附图。

图1为本发明实施例提供的基于神经网络的光伏发电功率预测方法流程示意图；

图2为本发明实施例所述极限学习机分类器的架构图。

具体实施方式

下面结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例，这并不构成对本发明的限制。基于本发明的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明的保护范围。

如图1所示为本发明实施例提供的基于神经网络的光伏发电功率预测方法流程示意图，所述方法包括：

在该步骤中，所述天气数据的采集是通过气象局或气象传感器获取，包括温度、湿度、风速和日照时长数据；

所述光伏电池板的电压、电流、功率数据是通过连接传感器来获取，或者通过直接连接电表或逆变器进行采集；

其他数据的采集：如果需要考虑其他因素对光伏发电功率的影响，如云量、空气污染等，可以通过相应的传感器或监测设备进行采集。

在该步骤中，清洗预处理是对数据进行清理，去除无效数据、重复数据或异常数据；

转换预处理是对数据进行标准化、归一化处理，以更好地应用于机器学习算法中。

步骤3、在原SMOTE(Synthetic Minority Over-sampling Technique，合成少数类过采样技术)算法的基础上引入距离阈值和密度阈值，对原SMOTE算法进行改进，然后利用改进后的SMOTE算法对所收集的数据进行样本扩充；

在该步骤中，原SMOTE算法的过程为：假设有一个大小为N的原始数据集，每个数据点包含d个特征，原SMOTE算法的目标是生成k个合成样本，其中k是预先设定的参数，对于每个原始数据点，原SMOTE算法随机选择k个最近邻中的一个点，然后根据下式生成合成样本：x_new＝x_i+λ_C(x_zi-x_i)

其中x_i是原始数据点；x_zi是x_i随机选择的最近邻；λ_C是一个0到1之间的随机数；

为了提高SMOTE算法的性能和可靠性，在原SMOTE算法的基础上引入了距离阈值和密度阈值，具体来说：

使用密度来定义样本的重要性，一个样本的密度越高，其重要性越大，将引入的距离阈值设为t_d，密度阈值设为t_s，对于每个原始数据点x_i，计算x_i在d维空间中的k近邻，并计算其密度ρ_i：

其中d_ij是数据点x_i和x_j之间的欧氏距离；I(·)是指示函数，当括号中的条件成立时取值为1，否则为0；如果ρ_i＞t_s，则将数据点x_i称为核心样本，否则称为边缘样本；

在生成新样本时，首先随机选择数据点x_i的一个最近邻x_zi，然后计算x_i和x_zi之间的距离d_zi；如果d_zi＞t_d，则重新选择一个最近邻x_zi；如果经过max_tties次重新选择最近邻后，仍然无法满足条件，则放弃生成新样本；其中，max_tries是预先设置的超参数；

为了保证新生成的样本不会影响到原始数据集中的边缘样本，引入了密度阈值t_s，如果数据点x_i是边缘样本，则只生成一个新样本；如果数据点x_i是核心样本，则生成k个新样本，其中k由下式计算：

其中，γc是一个预先设定的参数，且1＜γc＜100，用于控制生成的新样本数量；int()为取整函数；

对于每个新样本，首先随机选择数据点x_i的一个最近邻x_zi，然后根据下式生成新样本：

x_new＝x_i+λu(x_zi-x_i)

其中λu是一个0到1之间的随机数；

如果生成的新样本x_new与数据点x_i之间的距离d_zc大于距离阈值t_d，则需要重新选择最近邻；如果经过max_tries次重新选择最近邻后，仍然找不到满足条件的最近邻，则放弃生成新样本；

其中，改进后的SMOTE算法还引入了一个新的参数max_density，用于控制在生成新样本时使用的密度阈值，具体来说：

首先计算所有原始数据点x_i的密度ρ_i，并将其按照密度从大到小排序；然后选取密度排名前max_density的数据点作为核心样本；这样做的目的是保证生成的新样本更多地分布在密度较高的区域，从而提高算法的性能和可靠性；

在生成新样本时使用不同的密度阈值，具体使用下式计算新样本的密度阈值t_s：

其中γp是预先设定的参数，且1＜γp＜N，N是原始数据集的大小。这样做的目的是使生成的新样本更加适应数据集的密度分布，从而提高算法的性能和可靠性。

通过以上改进，改进后的SMOTE算法能够更加准确地模拟原始数据集的密度分布，从而生成更加合理的新样本，同时还能够通过调整参数来控制生成的新样本数量，从而更好地满足实际应用的需求。

在该步骤中，首先基于聚类的抽样策略优化极限学习机的输入训练数据，具体来说：

定义输入到极限学习机的数据集为T，其中样本数量是m，特征数量是n，使用k-means算法对数据集T进行聚类，聚类结果表示为：

S＝k-means(T，K)

其中S＝{S₁，S₂，…,，S_K}是聚类结果；K是聚类数量；

然后从每个聚类S_k中抽样p个样本，假设抽样比例为α，则p＝α|S_k|，其中|S_k|是聚类S_k的样本数量；抽样结果为T′_k＝sample(S_k，p)，其中T′_k是从聚类S_k中抽样得到的样本集；组合抽样结果，得到优化后极限学习机的输入训练数据T′，表示为：

其中，S_k是第k个聚类；sample(S_k，p)是从聚类S_k中抽样p个样本得到的样本集；

使用T′代替T进行极限学习机的训练；

通过融合蚁群优化算法和小生境算法对极限学习机模型进行优化，蚁群优化算法是模拟自然界中蚁群觅食行为的元启发式优化算法，本发明用该算法选择极限学习机隐藏层神经元数量，具体是通过定义极限学习机隐藏层神经元数量为问题的解空间，每个蚂蚁根据信息素强度和启发信息在解空间中选择路径，每个路径对应一个隐藏层神经元数量，蚁群在解空间中搜索，信息素的浓度将根据分类性能的反馈进行更新，以引导搜索。

小生境算法是一种模拟生物个体在生存环境中寻找最适生存空间的元启发式算法，本发明用该算法优化极限学习机的输出层权重，具体是将极限学习机的输出层权重定义为问题的解空间，每个个体对应一组输出层权重；每个个体根据其适应度在解空间中搜索，适应度为极限学习机的分类性能，最适生存空间对应最优的输出层权重。

如图2所示为本发明实施例所述极限学习机分类器的架构图，包括输入层、隐藏层、输出层，基于该架构，融合蚁群优化算法和小生境算法对极限学习机模型进行优化的具体过程为：

1)初始化极限学习机的隐藏层权重矩阵W和偏置向量b

假设文本经过特征抽取后得到的特征矩阵为X，其中m是样本数量，n是特征数量；隐藏层神经元的数量是Ls，则隐藏层权重矩阵W和偏置向量b能随机初始化，表示为：

W＝rand(n，Ls)b＝rand(Ls)

2)使用蚁群优化算法选择隐藏层神经元数量

假设蚁群的大小为N_a，则每只蚂蚁a_i对应一个隐藏层神经元数量L_i，L_i初始化为随机值；每次迭代，每只蚂蚁根据信息素浓度和启发信息选择新的隐藏层神经元数量L_i，并计算极限学习机的分类性能P_i，信息素浓度τ根据P_i更新：

其中ρ是信息素的挥发系数；δ(L_i)是克罗内克函数，当L_i是当前最优解时，δ(L′_i)＝1，否则为0；

3)利用小生境算法进行多目标优化，优化极限学习机的输出层权重

假设种群的大小为N_p，则每个个体对应一组输出层权重β_i，β_i初始化为随机值；每次迭代，每个个体根据其适应度在解空间中搜索新的输出层权重β′_i，并计算极限学习机的分类性能P_i′，个体的适应度f_i根据P_i′更新：

f_i＝P_i′

最后选择适应度最高的输出层权重作为极限学习机的输出层权重；

4)自适应学习率调整

传统的极限学习机的学习过程通常使用固定的学习率，在一些情况下可能导致收敛速度慢或者困于局部最优解，因此本发明实施例提出一种自适应学习率的策略，用于根据模型的训练进度动态调整学习率，具体步骤如下：

首先初始化学习率η₀和学习率衰减系数δ；在每次迭代开始时，计算当前迭代的学习率η_t：

使用η_t代替固定的学习率进行模型训练，对于极限学习机的权重更新公式，用η_t替换原来的学习率，表示为：

其中，β_t是第t次迭代的权重；是损失函数L关于β_t的梯度；

5)使用优化后的极限学习机进行文本分类

引入注意力机制，定义注意力权重为W_a，且w_a由组成；隐藏层神经元的数量是Ls，a_i是第i个隐藏层神经元的注意力权重；

输入特征矩阵X，计算隐藏层输出H：

H＝σ(XW+b)

进一步计算注意力分数s_i：

其中b_a是偏置；h_i是H的第i列；tanh是激活函数；

再计算注意力权重a_i：

用注意力权重a_i调整隐藏层输出H，得到新的隐藏层输出H′：

H′＝H⊙a

其中⊙是哈达玛积；

用新的隐藏层输出H′代替原来的H，计算输出层输出0：

O＝H′β

其中β是输出层权重；0即为极限学习机的分类结果。

在该步骤中，向所构建的极限学习机分类器输入待预测的数据经过预处理和特征提取后的特征，所述极限学习机分类器输出实际光伏发电功率预测的各个区间，包括：

类别1：非常低功率，0-10％的最大功率范围；例如，如果最大功率是1000W，那么这个类别的范围就是0-100W；

类别2：低功率，10-30％的最大功率范围；

类别3：中等功率，30-60％的最大功率范围；

类别4：高功率，60-90％的最大功率范围；

类别5：非常高功率，90-100％的最大功率范围。

由上述方案可知，发电功率的预测结果被分为若干个区间，提高了预测的灵活性和实用性。

值得注意的是，本发明实施例中未作详细描述的内容属于本领域专业技术人员公知的现有技术。

综上所述，本发明实施例所述方法具有如下优点：

1、提高预测精度：利用蚁群优化算法和小生境算法优化极限学习机(ELM)分类器，可以有效地提高发电功率的预测精度，蚁群优化算法被用于选择隐藏层神经元数量，而小生境算法被用于优化输出层权重；

2、提高数据利用率：在预处理阶段，通过采取K-means聚类和基于聚类的抽样策略，可以更有效地利用训练数据，提高模型的学习效率；

3、增强模型的稳定性和泛化能力：引入注意力机制和自适应学习率策略，可以提升模型的稳定性和泛化能力，提高模型在不同数据集上的表现。

另外，本领域普通技术人员可以理解实现上述实施例方法中的全部或部分步骤是可以通过程序来指令相关的硬件完成，相应的程序可以存储于一种计算机可读存储介质中，上述提到的存储介质可以是只读存储器，磁盘或光盘等。

以上所述，仅为本发明较佳的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明披露的技术范围内，可轻易想到的变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应该以权利要求书的保护范围为准。本文背景技术部分公开的信息仅仅旨在加深对本发明的总体背景技术的理解，而不应当被视为承认或以任何形式暗示该信息构成己为本领域技术人员所公知的现有技术。

Claims

1.一种基于神经网络的光伏发电功率预测方法，其特征在于，所述方法包括：

步骤3、在原SMOTE算法的基础上引入距离阈值和密度阈值，对原SMOTE算法进行改进，然后利用改进后的SMOTE算法对所收集的数据进行样本扩充；

2.根据权利要求1所述基于神经网络的光伏发电功率预测方法，其特征在于，在步骤1中，所述天气数据的采集是通过气象局或气象传感器获取，包括温度、湿度、风速和日照时长数据；

所述光伏电池板的电压、电流、功率数据是通过连接传感器来获取，或者通过直接连接电表或逆变器进行采集。

3.根据权利要求1所述基于神经网络的光伏发电功率预测方法，其特征在于，在步骤2中，清洗预处理是对数据进行清理，去除无效数据、重复数据或异常数据；

4.根据权利要求1所述基于神经网络的光伏发电功率预测方法，其特征在于，在步骤3中，原SMOTE算法的过程为：假设有一个大小为N的原始数据集，每个数据点包含d个特征，原SMOTE算法的目标是生成k个合成样本，其中k是预先设定的参数，对于每个原始数据点，原SMOTE算法随机选择k个最近邻中的一个点，然后根据下式生成合成样本：

x_new＝x_i+λc(x_zi-x_i)

在原SMOTE算法的基础上引入了距离阈值和密度阈值，具体来说：

在生成新样本时，首先随机选择数据点x_i的一个最近邻x_zi，然后计算x_i和x_zi之间的距离d_zi；如果d_zi＞t_d，则重新选择一个最近邻x_zi；如果经过max_tries次重新选择最近邻后，仍然无法满足条件，则放弃生成新样本；其中，max_tries是预先设置的超参数；

x_new＝x_i+λu(x_zi-x_i)

其中λu是一个0到1之间的随机数；

首先计算所有原始数据点x_i的密度ρ_i，并将其按照密度从大到小排序；然后选取密度排名前max_density的数据点作为核心样本；

其中γp是预先设定的参数，且1＜γp＜N，N是原始数据集的大小。

5.根据权利要求1所述基于神经网络的光伏发电功率预测方法，其特征在于，在步骤4中，首先基于聚类的抽样策略优化极限学习机的输入训练数据，具体来说：

S＝k-means(T，K)

其中S＝{S₁，S₂,...，S_K}是聚类结果；K是聚类数量；

其中，S_k是第k个聚类；sample(S_k，p)是从聚类S_k中抽样p个样本得到的样本集；使用T′代替T进行极限学习机的训练；

并通过融合蚁群优化算法和小生境算法对极限学习机模型进行优化，具体来说：