CN117650528A - 基于数据挖掘的光伏发电预测方法及装置 - Google Patents

基于数据挖掘的光伏发电预测方法及装置 Download PDF

Info

Publication number
CN117650528A
CN117650528A CN202410122457.3A CN202410122457A CN117650528A CN 117650528 A CN117650528 A CN 117650528A CN 202410122457 A CN202410122457 A CN 202410122457A CN 117650528 A CN117650528 A CN 117650528A
Authority
CN
China
Prior art keywords
data
neural network
prediction
power generation
preset
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202410122457.3A
Other languages
English (en)
Inventor
罗文洁
彭艳菲
王翠青
王涛
刘笑
赵一橦
王馨苒
董娜
隋琦
吕明洋
杨青
夏铭泽
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shandong Polytechnic College
Original Assignee
Shandong Polytechnic College
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shandong Polytechnic College filed Critical Shandong Polytechnic College
Priority to CN202410122457.3A priority Critical patent/CN117650528A/zh
Publication of CN117650528A publication Critical patent/CN117650528A/zh
Pending legal-status Critical Current

Links

Landscapes

  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明提供一种基于数据挖掘的光伏发电预测方法及装置,涉及数据处理技术领域,包括:获取目标光伏设备的待预测数据;通过预先构建的集成预测模型对待预测数据进行发电量进行预测,输出集成预测结果和对应的置信度;基于置信度对集成预测结果中包括的多个预测结果进行加权计算,得出目标光伏设备的预测光伏发电量。本发明引入置信度概念,使模型预测结果更加准确和可信,将多个模型的预测结果进行融合,可以增强预测结果的稳定性和可靠性。集成预测模型是基于完全集合经验模态分解的深度置信网络算法和基于量子编码的神经网络优化算法构建,能够避免特征冗余和过拟合问题,并更容易找到全局最优解,显著提高光伏发电预测准确性。

Description

基于数据挖掘的光伏发电预测方法及装置
技术领域
本发明涉及数据处理技术领域,尤其涉及一种基于数据挖掘的光伏发电预测方法及装置。
背景技术
随着全球气候变化和资源枯竭的问题日益严重,可再生能源,特别是太阳能,已经成为越来越受重视的能源形式。光伏发电作为一种清洁、可再生的能源,其开发和利用对于减少温室气体排放、保护生态环境、确保能源安全等方面具有重要意义。然而,光伏发电也面临着许多挑战,其中之一就是其产量的可预测性和稳定性。由于太阳能的可利用性受到许多因素的影响,如天气条件、季节变化、地理位置等,因此光伏发电的输出功率具有很高的不确定性和波动性。
为了确保电网的稳定运行和光伏能源的有效利用,对光伏发电量进行准确预测变得至关重要。通过准确的预测,电网运营商可以提前进行调度和优化,以确保电网的平衡和稳定。
发明内容
有鉴于此,本发明的目的在于提供一种基于数据挖掘的光伏发电预测方法及装置,能够显著提高光伏发电预测的准确性。
第一方面,本发明实施例提供一种基于数据挖掘的光伏发电预测方法,其中,该方法包括:获取目标光伏设备的待预测数据;其中,待预测数据包括目标光伏设备的生产数据、环境数据和电网的运行数据;对待预测数据向量化处理,生成待预测数据对应的特征向量;将特征向量输入至预先构建的集成预测模型,使集成预测模型基于特征向量对目标光伏设备的发电量进行预测,并输出集成预测结果,以及集成预测结果对应的置信度;集成预测模型是通过预先构建的训练样本集训练的,且,基于完全集合经验模态分解的深度置信网络算法和基于量子编码的神经网络优化算法构建;基于置信度对集成预测结果中包括的多个预测结果进行加权计算,得出目标光伏设备对应的预测光伏发电量。
本发明实施例带来了以下有益效果:本发明提供的一种基于数据挖掘的光伏发电预测方法及装置,在预测过程中引入了置信度概念,使得模型的预测结果更加准确和可信。此外,还涉及集成学习的思想:通过将多个模型的预测结果进行融合,能够进一步增强了预测的稳定性和准确性。通过集成学习和基于置信度的模型选择机制,确保了预测结果的稳定性和可靠性。通过准确的预测,有助于光伏能源的合理调度和有效利用,从而促进可再生能源的推广和应用。基于此,本发明能够显著提高光伏发电预测的准确性。
本发明的其他特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本发明而了解。本发明的目的和其他优点在说明书以及附图中所特别指出的结构来实现和获得。
为使本发明的上述目的、特征和优点能更明显易懂,下文特举较佳实施例,并配合所附附图,作详细说明如下。
附图说明
为了更清楚地说明本发明具体实施方式或现有技术中的技术方案,下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的一种基于数据挖掘的光伏发电预测方法的流程图;
图2为本发明实施例提供的另一种基于数据挖掘的光伏发电预测方法的流程图;
图3为本发明实施例提供的一种基于数据挖掘的光伏发电预测装置的结构示意图;
图4为本发明实施例提供的另一种基于数据挖掘的光伏发电预测装置的结构示意图;
图5为本发明实施例提供的一种电子设备的结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,以下通过特定的具体实例说明本公开的实施方式,本领域技术人员可由本说明书所揭露的内容轻易地了解本公开的其他优点与功效。显然,所描述的实施例仅仅是本公开一部分实施例,而不是全部的实施例。本公开还可以通过另外不同的具体实施方式加以实施或应用,本说明书中的各项细节也可以基于不同观点与应用,在没有背离本公开的精神下进行各种修饰或改变。需说明的是,在不冲突的情况下,以下实施例及实施例中的特征可以相互组合。基于本公开中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本公开保护的范围。
本发明实施例提供的一种基于数据挖掘的光伏发电预测方法及装置,能够显著提高光伏发电预测的准确性。
为便于对本实施例进行理解,首先对本发明实施例所公开的一种基于数据挖掘的光伏发电预测方法进行详细介绍。图1示出了本发明实施例提供的一种基于数据挖掘的光伏发电预测方法的流程图,如图1所示,该方法包括以下步骤:
步骤S102,获取目标光伏设备的待预测数据。
步骤S104,对待预测数据向量化处理,生成待预测数据对应的特征向量。
步骤S106,将特征向量输入至预先构建的集成预测模型,使集成预测模型基于特征向量对目标光伏设备的发电量进行预测,并输出集成预测结果,以及集成预测结果对应的置信度。
步骤S108,基于置信度对集成预测结果中包括的多个预测结果进行加权计算,得出目标光伏设备对应的预测光伏发电量。
在光伏发电预测中,预测过程可以看作是模型推理的过程。在通过利用训练样本集进行预处理、扩充、特征提取等操作,并训练完成神经网络预测模型。进一步地,模型推理阶段是使用训练好的模型来预测未知数据的光伏发电量。
在具体实现时,本发明实施例的待预测数据包括目标光伏设备的生产数据、环境数据和电网的运行数据。获取到这些待预测数据后,对这些数据向量化处理,生成能被模型识别的数据。进一步地,将这些数据输入至预先构建的集成预测模型中,对目标光伏设备进行发电量预测。
一般情况下,模型推理的流程如下:假设模型是一个函数,输入是一个特征向量/>,输出是预测的光伏发电量/>。这个过程可以用以下公式表示:
进一步地,本发明在预测过程中,利用了集成学习的思想,将多个模型的预测结果进行融合,以提高预测的稳定性和准确性。
在具体实现时,设本发明实施例的集成预测模型包括n个模型,每个模型输出对应的预测结果。现有技术可能没有充分利用置信度信息,导致模型在预测不确定性时可能产生误差。本发明引入一种基于置信度的模型选择机制。对于每一个模型/>,不仅预测出一个发电量,还预测出一个置信度/>,表示对这个预测结果的信任程度。其中,分类器的神经网络的最后一层输出所对应的概率值用于表征上述置信度。
其中,对于每个模型的预测结果进行平均,作为集成预测结果。可以用以下公式表示:
进一步地,将发电量的预测结果按照置信度进行加权平均,作为最终的预测结果。其中,本发明实施例根据每个预测结果分别对应的置信度,对多个预测结果进行加权平均计算,得到目标光伏设备对应的预测光伏发电量。具体的,上述过程可以通过以下公式表示:
其中,为最终预测结果。
进一步地,本发明实施例的集成预测模型是通过预先构建的训练样本集训练的,且,基于完全集合经验模态分解的深度置信网络算法和基于量子编码的神经网络优化算法构建。基于完全集合经验模态分解的深度置信网络算法应用于特征提取,能够选择出既与目标变量高度相关,又在特征之间低度相关的特征,能够避免特征冗余和过拟合问题。基于量子编码的神经网络优化算法对神经网络进行优化,能够提高神经网络的训练速度,以及提高神经网络的特征提取能力。
本发明实施例提供的一种基于数据挖掘的光伏发电预测方法,能够显著提高光伏发电预测的准确性。其中,在预测过程中引入了置信度概念,使得模型的预测结果更加准确和可信。此外,还涉及集成学习的思想:通过将多个模型的预测结果进行融合,能够进一步增强了预测的稳定性和准确性。通过集成学习和基于置信度的模型选择机制,确保了预测结果的稳定性和可靠性。通过准确的预测,有助于光伏能源的合理调度和有效利用,从而促进可再生能源的推广和应用。
进一步地,在上述发明实施例的基础上,本发明实施例还提供了另一种基于数据挖掘的光伏发电预测方法,图2示出了本发明实施例提供的另一种基于数据挖掘的光伏发电预测方法的流程图,如图2所示,该方法包括以下步骤:
步骤S202,获取预先构建的训练样本集。
其中,本发明实施例的训练样本集根据预先采集的数据样本及对应的光伏发电量构建,数据样本来源于光伏设备的生产数据、环境数据(如气象条件)和电网的运行数据。具体地,这些数据包括多种数据类型,如数值类型(例如温度、湿度、辐射强度、电力输出等)、分类类型(例如设备状态,如正常、维修中、故障等)。
在具体实现时,现有技术可能没有充分考虑到光伏设备的生产数据、环境数据和电网运行数据的统一和标准化,导致数据一致性和可比较性差。此外,传统方法可能没有足够关注样本不平衡问题,特别是在边界区域的样本不足,可能影响模型的泛化能力。针对上述问题,本发明实施例的训练样本集通过下述步骤构建:获取预先采集的数据样本及对应的光伏发电量;数据样本包括数值类型数据和独热编码处理后的分类类型数据;基于数据样本、光伏发电量和时间戳,构建初始样本集;对初始样本集进行无量纲化处理和缺失值处理,并通过预设的数据扩充算法生成初始样本集在预设条件下的扩充数据;基于扩充数据和初始样本集构建训练样本集。
设收集到的数据样本为,其中,/>是一个d维的特征向量,包含了各种特征(如温度、湿度、辐射强度等),/>是对应的光伏发电量,即数据的标签。每个样本都与一个具体的时间戳相关联。
进一步地,针对光伏设备状态的分类类型数据,采用独热编码的方式进行处理。具体的,设设备状态有c类,即,则对于每一个设备状态/>,通过独热编码,将其转化为一个c维的二进制向量/>,其中只有第/>位置为1,其余位置为0。在一个具体的实施例中,如设备状态有3类,则状态1可以表示为[1,0,0],状态2可以表示为[0,1,0],状态3可以表示为[0,0,1]。基于此,分类类型的设备状态数据被转化为可以输入到模型的数值型数据。
为了消除数据量纲影响,通常需要对数据进行归一化处理。考虑到步骤一中数据的格式,特征向量的每一个特征需要被转化为一个无量纲的值。本发明采用Z-score标准化方法,基于原始数据的均值和标准差进行数据的标准化。
具体的,对于特征向量的第j个特征,其标准化处理可以表示为:
其中,是/>的第j个特征,/>是第j个特征的均值,/>是第j个特征的标准差。
进一步地,针对缺失值处理,本发明基于数据的其他特征来预测缺失值,而不仅仅是采用均值、中位数或众数来进行填补。如,对于第i个样本的第j个特征,如果这个值是缺失的,则可以利用其他所有特征(除第j个特征之外的其他特征)作为输入,训练一个回归模型来预测/>的值。具体的,训练一个回归模型/>,可以表示为:
其中,表示/>中去掉第j个特征后的向量,/>是需要预测的目标值。然后利用预测缺失值/>
可以理解的是,在光伏发电预测任务中,往往存在训练样本不足的情况。数据扩充是一种有效的策略,可以增强模型的泛化能力,并有助于解决样本不平衡问题。对于光伏发电预测任务而言,由于各种原因(比如气候变化、设备故障等),可能在某些特定条件下的数据量不足,故,本发明采用数据扩充技术生成这些特定条件下的数据。
具体的,本发明实施例通过下述步骤生成扩充数据:对初始样本集进行聚类处理,生成多个聚类中心;确定聚类中心对应的近邻集合,并使用预设的SMOTE算法在聚类中心和近邻集合之间生成初始扩充数据;使用Borderline方法对初始扩充数据进行数据筛选,将筛选通过的初始扩充数据确定为初始样本集在预设条件下的扩充数据。
在具体实现时,本发明提出一种基于Borderline的SMOTE算法,并结合聚类的方式进行改进。具体的,对于预处理后的初始样本集,首先使用聚类算法对数据进行聚类。假设聚类的结果是个聚类中心,即/>
进一步地,对于每个聚类中心,找到其最近的/>个邻居集合,然后使用SMOTE算法在每个聚类中心/>和其邻居之间生成新的数据,也即初始扩充数据,可以表示为:
其中,是一个介于0和1之间的随机数,/>是/>的一个随机邻居,/>是样本权重。具体的,样本权重/>的获得方式如下:
其中,和/>分别是聚类中心/>的邻居集合/>中距离的均值和标准差,是z-score的设计方式,用于将数据标准化。/>表示聚类中心/>的距离,公式如下:
其中,是对每个聚类中心/>的邻居集合/>中每个样本点/>到/>的距离,可以用欧几里得距离进行计算,公式如下:
进一步地,利用Borderline方法进行数据筛选,具体的,对于生成的新数据,若该数据与其最近的聚类中心的距离小于某个阈值,则认为这个数据是合格的,否则,舍弃这个数据。具体可以表示为:
基于此,生成的新数据会更加关注于原始数据的边界区域,即更难以预测的区域。
步骤S204,通过预设的特征提取算法对训练样本集进行特征提取,确定训练样本集对应的目标特征集。
样本扩充完成后,进行特征提取。其中,使用传统的特征提取方法可能难以充分捕捉到数据中的复杂特征和潜在关系。本发明实施例的特征提取算法包括基于完全集合经验模态分解的深度置信网络算法。本发明提出一种基于完全集合经验模态分解的深度置信网络算法,对扩充后的训练样本数据集进行特征提取。
在具体实现时,使用完全集合经验模态分解算法对训练样本集进行处理,生成第一处理样本;将第一处理样本输入至预设的深度置信网络中,提取初始特征子集;预设的深度置信网络通过采用基于对比散度的无监督逐层预训练后得到。
具体的,对于扩充后的训练样本中的光伏发电数据,首先使用完全集合经验模态分解进行处理,可以表示为:
其中,是原始的数据,/>是第/>个内在模态函数(Intrinsic ModeFunction, IMF),/>是残差,/>是IMF的数量。
其中,完全集合经验模态分解的主要步骤如下:1、为原始数据添加一个小的噪声集合,得到不同的噪声版本。2、对每个带噪声的版本应用经验模态分解(EMD),得到一组IMFs。3、计算所有IMFs的平均值,得到最终的IMFs。在完全集合经验模态分解处理后,获得了一系列的IMF以及残差。进一步地,将这些IMF和残差输入到深度置信网络中,以进行特征提取,得到初始特征子集。
其中,深度置信网络的结构如下:
其中,是第/>层的隐藏层的状态,/>是第/>层的状态(对于第一层,即/>是输入数据,即IMFs和残差),/>和/>分别是第/>层的权重和偏置,/>是sigmoid激活函数。在训练深度置信网络时,本发明采用基于对比散度(Contrastive Divergence,CD)的无监督逐层预训练,之后使用标签信息进行微调。进一步地,经过深度置信网络训练后,可以获取深度置信网络最后一层的隐藏状态,即/>
进一步地,为选择出既与目标变量高度相关,又在特征之间低度相关的特征,从而避免特征冗余和过拟合问题,本发明实施例还使用预设的评价函数对初始特征子集进行评价,并将满足预设评价要求的初始特征子集确定为训练样本集对应的目标特征集。具体地,计算初始特征子集对应的皮尔逊相关系数,以及,初始特征子集对应的信息增益率;基于皮尔逊相关系数和信息增益率对初始特征子集进行评价。
有N个特征,即/>,以及目标变量/>。对于每一个特征/>,计算其与目标变量/>的皮尔逊相关系数/>,以及与其他所有特征的平均皮尔逊相关系数/>,/>。相关系数的计算公式如下:
其中,是皮尔逊相关系数,/>和/>是两个变量,/>和/>是它们的均值,/>是总的样本数。
进一步地,定义评价函数,以衡量一个特征子集/>的质量,计算公式如下:
其中,是特征子集/>的信息增益率,/>是评价函数,/>是特征子集/>的特征数量,/>是这些特征与目标变量的平均相关系数,/>是这些特征之间的平均相关系数。
是特征子集/>的信息增益率,其计算方式为:
其中,是特征子集/>的信息增益,其计算方式为:
其中,是特征子集/>的熵,/>是特征/>的所有可能值,/>是征子集/>中特征/>的值等于/>的数量。/>是特征子集/>中的特征,/>是特征子集/>的增益因子,其计算方式为:
其中,是特征子集,/>是特征子集/>中的特征。
的计算方式为:
其中,是特征子集/>中目标变量的值等于/>的概率。
进一步地,通过搜索所有可能的特征子集,并计算它们的值,选取/>值最大的特征子集作为最终的特征集,也即目标特征集。
步骤S206,将目标特征集输入至预设的神经网络中,对神经网络进行训练,并根据训练好的神经网络构建集成预测模型。
进一步地,使用得到的目标特征集对预设的神经网络进行训练,构建集成预测模型。其中,现有的神经网络优化算法可能容易陷入局部最优,缺乏全局寻优能力,从而限制了模型的预测精度。此外,现有技术中的学习率调整不灵活:固定或手动调整学习率可能导致训练过程缺乏灵活性,影响了模型的收敛速度和预测准确性。进一步地,传统的神经网络算法可能存在过拟合和陷入局部最优等问题,故,本发明提出一种基于量子编码的神经网络优化算法,其中,本发明实施例使用的神经网络通过基于量子编码的神经网络优化算法训练。首先,进行以下步骤:
1、初始化神经网络和量子编码器。首先,初始化神经网络的结构,包括神经元的数量、隐藏层的层数等,即确定神经网络的架构(即,神经元的数量和隐藏层的层数)和初始化量子编码器的参数(如,量子比特数和编码规则)。进一步地,初始化量子编码器,其中包括量子比特数、编码规则等。具体的,初始化神经网络可以表示为:
进一步地,利用变分量子电路初始化量子编码器,具体的,首先初始化变分量子电路,包括确定电路的形状和初始化参数。变分量子电路是一种参数化的量子电路,其形状(即,门的序列)和参数可以进行优化。电路的形状通常由一系列量子门的序列确定,而参数则可以通过随机选择开始。具体的,设是量子门的序列,/>是参数,变分量子电路的初始化可以表示为:/>;其中,/>是初始化函数。
进一步地,进行变分量子编码。在编码过程中,首先将输入数据映射到变分量子电路的参数上,然后通过执行变分量子电路来生成量子编码。
具体的,数据映射可以表示为:;编码生成可以表示为:/>;其中,是输入数据,/>是映射函数,/>是量子编码,/>是初始状态。
2、动态神经元激活。通过动态选择最佳的激活函数来提高模型的预测准确度。具体的,引入参数,使得在每一次训练迭代中,神经元的激活函数可以在ReLU、tanh和sigmoid之间进行动态切换。
、/>、和/>分别表示ReLU、tanh和sigmoid激活函数,则,定义一个混合激活函数/>,如下所示:
其中,、/>和/>是需要学习的参数,且满足/>和/>。则,根据/>的值,/>就可以在ReLU、tanh和sigmoid之间进行动态切换。
为了优化,本发明引入一个新的损失函数/>,如下所示:
其中,/>表示模型的参数,/>是原始的损失函数,/>是一个超参数,用于控制正则项的影响程度。
进一步地,使用梯度下降法来优化,更新规则如下:
其中,是/>更新的学习率,由自适应调整的方式确定,即,引入参数/>,然后根据模型在验证集上的表现来动态调整学习率。具体的,定义一个函数/>,如下所示:
其中,是模型在验证集上的损失,/>是模型在训练集上的损失。
进一步地,根据的值来更新/>,更新规则如下:
如果,则/>
如果,则/>
其中,是一个小的常数。进一步地,使用/>来调整学习率/>,更新规则如下:
进一步地,训练神经网络,即,将目标特征集输入至预设的神经网络中,对神经网络进行训练。在具体实现时,本发明实施例使用预设的量子编码器对目标特征集进行编码,量子编码器通过预设的变分量子电路初始化后得到。并将编码后的目标特征集输入至预设的神经网络中,确定神经网络输出。在训练过程中,利用量子编码器对输入数据进行编码,然后将编码后的数据输入到神经网络中。对于每一个输入样本,计算神经网络的输出。
进一步地,基于神经网络输出,对神经网络的神经网络参数进行优化,并对量子编码器进行优化。在具体实现时,本发明实施例通过下述步骤对神经网络参数进行优化:计算神经网络输出对应的预测误差,并基于预测误差,更新神经网络的权重和偏置;将更新后的神经网络的权重和偏置编码为量子比特,并使用预设的量子遗传算法寻找最优的权重和偏置;将最优的权重和偏置确定为神经网络优化后的神经网络参数。
具体的,得到神经网络的输出后,将输出与实际输出进行比较,计算误差。进一步地,利用误差反向传播算法和量子演化算法更新神经网络的权重和偏置。具体的,计算误差可以表示为:;更新权重可以表示为:/>;更新偏置可以表示为:;其中,/>是神经网络的实际输出,/>是期望输出,/>是误差,/>是权重,/>是偏置,/>是学习率。
进一步地,采用量子遗传算法进行模型训练过程中的参数优化,即,利用量子比特来编码解,这种编码方式可以表示更大的解空间,因此有可能找到更好的解。
具体的,量子遗传算法的过程如下:①初始化一个量子种群,每个个体由N个量子比特构成。其中,N是神经网络的权重和偏置的总数。②计算每个个体的适应度,适应度就是神经网络在这个个体表示的权重和偏置下的预测性能。③使用轮盘赌选择法选择个体进行交叉和变异操作。④交叉操作是在两个个体之间交换部分量子比特,变异操作是改变一个个体的部分量子比特的状态。⑤重复步骤2-4,直到满足停止条件。
具体到神经网络的优化,首先将神经网络的进行更新后的权重和偏置/>编码成量子比特,然后使用量子遗传算法寻找最优的权重和偏置,从而优化神经网络的性能。在一个具体的实施例中,假设有一个量子比特,它的状态可以表示为:
其中,和/>是实数,分别代表极角和方位角。则,一个神经元的权重w就可以通过调整/>和/>来优化。
在量子遗传算法的每一代,都会计算每个个体的适应度,然后选择适应度高的个体进行交叉和变异操作,从而生成新的个体。在这个过程中,使用量子门来实现交叉和变异操作。在一个具体的实施例中,例如,使用一个受控非门(CNOT门)来实现交叉操作,CNOT门的作用是,如果控制比特在状态,则改变目标比特的状态;如果控制比特在状态/>,则不改变目标比特的状态。在另一个具体的实施例中,还可以使用一个旋转门来实现变异操作,旋转门可以改变量子比特的状态。
进一步地,本发明实施例还对量子编码器进行优化,其中,本发明实施例的量子编码器通过预设的变分量子电路初始化后得到,本发明实施例对量子编码器进行优化时,还对变分量子电路进行优化。具体地,通过下述步骤对量子编码器进行优化:计算神经网络输出对应的预测误差,并根据预测误差,计算量子编码器对应的第一评价函数和变分量子电路对应的第二评价函数;根据第一评价函数对量子编码器的参数进行优化;根据第二评价函数对变分量子电路的参数进行动态调整;直到神经网络输出满足需求的训练要求,量子编码器优化完成。
在具体实现时,通过下述步骤优化变分量子电路:在优化变分量子电路的过程中,调整变分量子电路的参数以提高编码质量。定义一个基于预测误差的评价函数(也即变分量子电路对应的第二评价函数),然后使用梯度下降法优化评价函数。
具体的,计算评价函数可以表示为:
更新参数可以表示为:
其中,是样本数量,/>是第/>个样本的预测误差,/>是评价函数,/>是学习率。
其中,对于学习率,本发明采用动态调整得到方式进行设置。即引入学习率调度器组件,根据模型的训练过程中的性能变化来动态调整学习率。具体的,如果模型的性能开始下降,学习率调度器将减小学习率,以便模型可以进行更精细的调整;反之,如果模型的性能持续提高,学习率调度器则增大学习率,以加快训练速度。
对于学习率的动态调整的具体步骤及其公式为:①初始化:首先,设置初始学习率/>和学习率调度器的参数,包括上升因子/>和下降因子/>。②性能评估:在每个训练周期结束时,计算模型的性能/>。具体的,可以使用验证集上的损失函数值或准确率来评估性能。③学习率调整:根据模型的性能变化来调整学习率。如果性能提高,那么增大学习率;反之,减小学习率。
具体的调整公式如下:
如果,则/>
如果,则/>
其中,是上一个训练周期的性能,/>是上升因子,/>是下降因子。
④参数更新:使用新的学习率来更新模型的参数。具体的更新公式如下:;其中,/>是模型的参数,/>是损失函数,/>是损失函数的梯度。通过使用参数动态调整策略,可以使模型更好地适应不同的输入数据,从而提高预测准确性。基于此,通过使用变分量子编码,可以自动调整编码过程以适应输入数据的特性,从而提高预测模型的准确度和鲁棒性。
进一步地,通过下述步骤优化量子编码器:在训练神经网络的过程中,同时优化量子编码器的参数。为了评估量子编码器的性能,本发明定义了一种基于预测误差的评价函数。进一步地,使用一种基于梯度下降的优化算法调整量子编码器的参数,以使得评价函数的值最小。
具体的,计算第一评价函数可以表示为:
更新参数可以表示为:
其中,是样本数量,/>是第/>个样本的预测误差,/>是评价函数,/>是量子编码器的参数,/>是学习率。
直到神经网络输出满足需求的训练要求,得到训练好的神经网络;对多个训练好的神经网络分别设置模型权重,并基于模型权重和多个训练好的神经网络构建集成预测模型。其中,每个训练好的神经网络的模型权重是随机设置的。
本发明实施例提供的另一种基于数据挖掘的光伏发电预测方法,提出一种基于完全集合经验模态分解的深度置信网络的特征提取方法,新颖地结合了两种算法,对扩充后的训练样本进行特征提取,提高了特征的质量。其中,本发明实施例的特征提取方法能够选择出既与目标变量高度相关,又在特征之间低度相关的特征,能够避免特征冗余和过拟合问题。进一步的,还包括多源数据采集与预处理:本发明采集了光伏设备的生产数据、环境数据和电网的运行数据,并对分类类型的数据采用了独热编码,以及使用Z-score标准化方法进行数据的标准化,使得数据具有更好的一致性和可比较性。还提出了基于Borderline的SMOTE数据扩充技术:通过结合聚类的方式,专注于边界区域的数据扩充,能够解决样本不平衡问题,针对特定条件下的数据量不足问题能够进行有效解决,提高了模型的泛化能力。
本发明实施例还提出一种基于量子编码的神经网络优化算法构建集成预测模型:引入了量子编码,动态神经元激活,并结合了量子遗传算法,使得模型更容易找到全局最优解。并且,本发明实施例采用动态调整学习率的方式进行设置,使得模型能够根据性能变化灵活调整训练节奏。进一步地,本发明实施例还可以增强模型的灵活性和可适应性:通过动态学习率调整和量子编码优化,使得模型能够更好地适应不同的数据特性和应用场景。进一步地,本发明实施例通过对数据的精细化处理和采用先进的模型优化技术,使模型对不同的情况和噪声有更强的鲁棒性。
进一步的,本发明实施例还提供一种基于数据挖掘的光伏发电预测装置,图3示出了本发明实施例提供的一种基于数据挖掘的光伏发电预测装置的结构示意图,如图3所示,该装置包括:数据获取模块100,用于获取目标光伏设备的待预测数据;其中,待预测数据包括目标光伏设备的生产数据、环境数据和电网的运行数据;数据处理模块200,用于对待预测数据向量化处理,生成待预测数据对应的特征向量;执行模块300,用于将特征向量输入至预先构建的集成预测模型,使集成预测模型基于特征向量对目标光伏设备的发电量进行预测,并输出集成预测结果,以及集成预测结果对应的置信度;集成预测模型是通过预先构建的训练样本集训练的,且,基于完全集合经验模态分解的深度置信网络算法和基于量子编码的神经网络优化算法构建;输出模块400,用于基于置信度对集成预测结果中包括的多个预测结果进行加权计算,得出目标光伏设备对应的预测光伏发电量。
本发明实施例所提供的一种基于数据挖掘的光伏发电预测装置,其实现原理及产生的技术效果和前述基于数据挖掘的光伏发电预测方法实施例相同,为简要描述,基于数据挖掘的光伏发电预测装置实施例部分未提及之处,可参考前述基于数据挖掘的光伏发电预测方法实施例中相应内容。
进一步地,在上述实施例的基础上,本发明实施例还提供另一种基于数据挖掘的光伏发电预测装置,图4示出了本发明实施例提供的另一种基于数据挖掘的光伏发电预测装置的结构示意图,如图4所示,上述输出模块400,还用于根据每个预测结果分别对应的置信度,对多个预测结果进行加权平均计算,得到目标光伏设备对应的预测光伏发电量。
该装置还包括模型构建模块500,用于获取预先构建的训练样本集;训练样本集根据预先采集的数据样本及对应的光伏发电量构建,数据样本来源于光伏设备的生产数据、环境数据和电网的运行数据;通过预设的特征提取算法训练样本集进行特征提取,确定训练样本集对应的目标特征集;特征提取算法包括基于完全集合经验模态分解的深度置信网络算法;将目标特征集输入至预设的神经网络中,对神经网络进行训练,并根据训练好的神经网络构建集成预测模型;神经网络通过基于量子编码的神经网络优化算法训练。
进一步地,上述模型构建模块500,还用于使用完全集合经验模态分解算法对训练样本集进行处理,生成第一处理样本;将第一处理样本输入至预设的深度置信网络中,提取初始特征子集;预设的深度置信网络通过采用基于对比散度的无监督逐层预训练后得到;使用预设的评价函数对初始特征子集进行评价,并将满足预设评价要求的初始特征子集确定为训练样本集对应的目标特征集。
进一步地,上述模型构建模块500,还用于计算初始特征子集对应的皮尔逊相关系数,以及,初始特征子集对应的信息增益率;基于皮尔逊相关系数和信息增益率对初始特征子集进行评价。
进一步地,上述模型构建模块500,还用于使用预设的量子编码器对目标特征集进行编码,并将编码后的目标特征集输入至预设的神经网络中,确定神经网络输出;量子编码器通过预设的变分量子电路初始化后得到;基于神经网络输出,对神经网络的神经网络参数进行优化,并对量子编码器进行优化;直到神经网络输出满足需求的训练要求,得到训练好的神经网络;对多个训练好的神经网络分别设置模型权重,并基于模型权重和多个训练好的神经网络构建集成预测模型。
进一步地,上述模型构建模块500,还用于计算神经网络输出对应的预测误差,并基于预测误差,更新神经网络的权重和偏置;将更新后的神经网络的权重和偏置编码为量子比特,并使用预设的量子遗传算法寻找最优的权重和偏置;将最优的权重和偏置确定为神经网络优化后的神经网络参数。
进一步地,上述模型构建模块500,还用于计算神经网络输出对应的预测误差,并根据预测误差,计算量子编码器对应的第一评价函数和变分量子电路对应的第二评价函数;根据第一评价函数对量子编码器的参数进行优化;根据第二评价函数对变分量子电路的参数进行动态调整;直到神经网络输出满足需求的训练要求,量子编码器优化完成。
进一步地,上述模型构建模块500,还用于获取预先采集的数据样本及对应的光伏发电量;数据样本包括数值类型数据和独热编码处理后的分类类型数据;基于数据样本、光伏发电量和时间戳,构建初始样本集;对初始样本集进行无量纲化处理和缺失值处理,并通过预设的数据扩充算法生成初始样本集在预设条件下的扩充数据;基于扩充数据和初始样本集构建训练样本集。
进一步地,上述模型构建模块500,还用于对初始样本集进行聚类处理,生成多个聚类中心;确定聚类中心对应的近邻集合,并使用预设的SMOTE算法在聚类中心和近邻集合之间生成初始扩充数据;使用Borderline方法对初始扩充数据进行数据筛选,将筛选通过的初始扩充数据确定为初始样本集在预设条件下的扩充数据。
本发明实施例还提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行计算机程序时实现上述图1至图2任一所示的方法的步骤。本发明实施例还提供一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,计算机程序被处理器运行时执行上述图1至图2任一所示的方法的步骤。本发明实施例还提供了一种电子设备的结构示意图,如图5所示,为该电子设备的结构示意图,其中,该电子设备包括处理器51和存储器50,该存储器50存储有能够被该处理器51执行的计算机可执行指令,该处理器51执行该计算机可执行指令以实现上述图1至图2任一所示的方法。在图5示出的实施方式中,该电子设备还包括总线52和通信接口53,其中,处理器51、通信接口53和存储器50通过总线52连接。
其中,存储器50可能包含高速随机存取存储器(RAM,Random Access Memory),也可能还包括非易失性存储器(non-volatile memory),例如至少一个磁盘存储器。通过至少一个通信接口53(可以是有线或者无线)实现该系统网元与至少一个其他网元之间的通信连接,可以使用互联网,广域网,本地网,城域网等。总线52可以是ISA(Industry StandardArchitecture,工业标准体系结构)总线、PCI(Peripheral Component Interconnect,外设部件互连标准)总线或EISA(Extended Industry Standard Architecture,扩展工业标准结构)总线等,还可以是AMBA(Advanced Microcontroller Bus Architecture,片上总线的标准)总线,其中,AMBA定义了三种总线,包括APB(Advanced Peripheral Bus)总线、AHB(Advanced High-performance Bus)总线和AXI(Advanced eXtensible Interface)总线。总线52可以分为地址总线、数据总线、控制总线等。为便于表示,图5中仅用一个双向箭头表示,但并不表示仅有一根总线或一种类型的总线。
处理器51可能是一种集成电路芯片,具有信号的处理能力。在实现过程中,上述方法的各步骤可以通过处理器51中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器51可以是通用处理器,包括中央处理器(Central Processing Unit,简称CPU)、网络处理器(Network Processor,简称NP)等;还可以是数字信号处理器(Digital SignalProcessor,简称DSP)、专用集成电路(Application Specific Integrated Circuit,简称ASIC)、现场可编程门阵列(Field-Programmable Gate Array,简称FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本申请实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成,或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器,闪存、只读存储器,可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器,处理器51读取存储器中的信息,结合其硬件完成前述图1至图2任一所示的方法。本发明实施例所提供的一种基于数据挖掘的光伏发电预测方法及装置的计算机程序产品,包括存储了程序代码的计算机可读存储介质,所述程序代码包括的指令可用于执行前面方法实施例中所述的方法,具体实现可参见方法实施例,在此不再赘述。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。另外,在本发明实施例的描述中,除非另有明确的规定和限定,术语“安装”、“相连”、“连接”应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或一体地连接;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通。对于本领域技术人员而言,可以具体情况理解上述术语在本发明中的具体含义。所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,RandomAccess Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
在本发明的描述中,需要说明的是,术语“中心”、“上”、“下”、“左”、“右”、“竖直”、“水平”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。此外,术语“第一”、“第二”、“第三”仅用于描述目的,而不能理解为指示或暗示相对重要性。最后应说明的是:以上实施例,仅为本发明的具体实施方式,用以说明本发明的技术方案,而非对其限制,本发明的保护范围并不局限于此,尽管参照前述实施例对本发明进行了详细的说明,本领域技术人员应当理解:任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化,或者对其中部分技术特征进行等同替换;而这些修改、变化或者替换,并不使相应技术方案的本质脱离本发明实施例技术方案的精神和范围,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以权利要求的保护范围为准。

Claims (10)

1.一种基于数据挖掘的光伏发电预测方法,其特征在于,所述方法包括:
获取目标光伏设备的待预测数据;其中,所述待预测数据包括所述目标光伏设备的生产数据、环境数据和电网的运行数据;
对所述待预测数据向量化处理,生成所述待预测数据对应的特征向量;
将所述特征向量输入至预先构建的集成预测模型,使所述集成预测模型基于所述特征向量对所述目标光伏设备的发电量进行预测,并输出集成预测结果,以及所述集成预测结果对应的置信度;所述集成预测模型是通过预先构建的训练样本集训练的,且,基于完全集合经验模态分解的深度置信网络算法和基于量子编码的神经网络优化算法构建;
基于所述置信度对所述集成预测结果中包括的多个预测结果进行加权计算,得出所述目标光伏设备对应的预测光伏发电量。
2.根据权利要求1所述的方法,其特征在于,基于所述置信度对所述集成预测结果中包括的多个预测结果进行加权计算,得出所述目标光伏设备对应的预测光伏发电量的步骤,包括:
根据每个预测结果分别对应的置信度,对多个所述预测结果进行加权平均计算,得到所述目标光伏设备对应的预测光伏发电量。
3.根据权利要求1所述的方法,其特征在于,所述集成预测模型的构建方法包括:
获取预先构建的训练样本集;所述训练样本集根据预先采集的数据样本及对应的光伏发电量构建,所述数据样本来源于光伏设备的生产数据、环境数据和电网的运行数据;
通过预设的特征提取算法对所述训练样本集进行特征提取,确定所述训练样本集对应的目标特征集;所述特征提取算法包括基于完全集合经验模态分解的深度置信网络算法;
将所述目标特征集输入至预设的神经网络中,对所述神经网络进行训练,并根据训练好的神经网络构建集成预测模型;所述神经网络通过基于量子编码的神经网络优化算法训练。
4.根据权利要求3所述的方法,其特征在于,通过预设的特征提取算法对所述训练样本集进行特征提取,确定所述训练样本集对应的目标特征集的步骤,包括:
使用完全集合经验模态分解算法对所述训练样本集进行处理,生成第一处理样本;
将所述第一处理样本输入至预设的深度置信网络中,提取初始特征子集;预设的深度置信网络通过采用基于对比散度的无监督逐层预训练后得到;
使用预设的评价函数对所述初始特征子集进行评价,并将满足预设评价要求的初始特征子集确定为所述训练样本集对应的目标特征集。
5.根据权利要求4所述的方法,其特征在于,使用预设的评价函数对所述初始特征子集进行评价的步骤,包括:
计算所述初始特征子集对应的皮尔逊相关系数,以及,所述初始特征子集对应的信息增益率;
基于所述皮尔逊相关系数和所述信息增益率对所述初始特征子集进行评价。
6.根据权利要求3所述的方法,其特征在于,将所述目标特征集输入至预设的神经网络中,对所述神经网络进行训练,并根据训练好的神经网络构建集成预测模型的步骤,包括:
使用预设的量子编码器对所述目标特征集进行编码,并将编码后的目标特征集输入至预设的神经网络中,确定神经网络输出;所述量子编码器通过预设的变分量子电路初始化后得到;
基于所述神经网络输出,对所述神经网络的神经网络参数进行优化,并对所述量子编码器进行优化;
直到所述神经网络输出满足需求的训练要求,得到训练好的神经网络;
对多个训练好的神经网络分别设置模型权重,并基于所述模型权重和多个训练好的神经网络构建集成预测模型。
7.根据权利要求6所述的方法,其特征在于,基于所述神经网络输出,对所述神经网络的神经网络参数进行优化的步骤,包括:
计算所述神经网络输出对应的预测误差,并基于所述预测误差,更新所述神经网络的权重和偏置;
将更新后的神经网络的权重和偏置编码为量子比特,并使用预设的量子遗传算法寻找最优的权重和偏置;
将最优的权重和偏置确定为所述神经网络优化后的神经网络参数;
对所述量子编码器进行优化的步骤,包括:
计算所述神经网络输出对应的预测误差,并根据所述预测误差,计算所述量子编码器对应的第一评价函数和所述变分量子电路对应的第二评价函数;
根据所述第一评价函数对所述量子编码器的参数进行优化;
根据所述第二评价函数对所述变分量子电路的参数进行动态调整;
直到所述神经网络输出满足需求的训练要求,所述量子编码器优化完成。
8.根据权利要求3所述的方法,其特征在于,所述方法还包括:
获取预先采集的数据样本及对应的光伏发电量;所述数据样本包括数值类型数据和独热编码处理后的分类类型数据;
基于所述数据样本、所述光伏发电量和时间戳,构建初始样本集;
对所述初始样本集进行无量纲化处理和缺失值处理,并通过预设的数据扩充算法生成所述初始样本集在预设条件下的扩充数据;
基于所述扩充数据和所述初始样本集构建训练样本集。
9.根据权利要求8所述的方法,其特征在于,通过预设的数据扩充算法生成所述初始样本集在预设条件下的扩充数据的步骤,包括:
对所述初始样本集进行聚类处理,生成多个聚类中心;
确定所述聚类中心对应的近邻集合,并使用预设的SMOTE算法在所述聚类中心和所述近邻集合之间生成初始扩充数据;
使用Borderline方法对所述初始扩充数据进行数据筛选,将筛选通过的初始扩充数据确定为所述初始样本集在预设条件下的扩充数据。
10.一种基于数据挖掘的光伏发电预测装置,其特征在于,所述装置包括:
数据获取模块,用于获取目标光伏设备的待预测数据;其中,所述待预测数据包括所述目标光伏设备的生产数据、环境数据和电网的运行数据;
数据处理模块,用于对所述待预测数据向量化处理,生成所述待预测数据对应的特征向量;
执行模块,用于将所述特征向量输入至预先构建的集成预测模型,使所述集成预测模型基于所述特征向量对所述目标光伏设备的发电量进行预测,并输出集成预测结果,以及所述集成预测结果对应的置信度;所述集成预测模型是通过预先构建的训练样本集训练的,且,基于完全集合经验模态分解的深度置信网络算法和基于量子编码的神经网络优化算法构建;
输出模块,用于基于所述置信度对所述集成预测结果中包括的多个预测结果进行加权计算,得出所述目标光伏设备对应的预测光伏发电量。
CN202410122457.3A 2024-01-30 2024-01-30 基于数据挖掘的光伏发电预测方法及装置 Pending CN117650528A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202410122457.3A CN117650528A (zh) 2024-01-30 2024-01-30 基于数据挖掘的光伏发电预测方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202410122457.3A CN117650528A (zh) 2024-01-30 2024-01-30 基于数据挖掘的光伏发电预测方法及装置

Publications (1)

Publication Number Publication Date
CN117650528A true CN117650528A (zh) 2024-03-05

Family

ID=90046407

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202410122457.3A Pending CN117650528A (zh) 2024-01-30 2024-01-30 基于数据挖掘的光伏发电预测方法及装置

Country Status (1)

Country Link
CN (1) CN117650528A (zh)

Similar Documents

Publication Publication Date Title
Tsakiridis et al. DECO3RUM: A Differential Evolution learning approach for generating compact Mamdani fuzzy rule-based models
CN117648643B (zh) 基于人工智能的索具预测性诊断方法及装置
CN117851921B (zh) 基于迁移学习的设备寿命预测方法及装置
CN117077871B (zh) 基于大数据的能源需求预测模型的构建方法及装置
Verikas et al. A general framework for designing a fuzzy rule-based classifier
Pujari et al. Better wind forecasting using evolutionary neural architecture search driven green deep learning
JP2023546021A (ja) 機械学習モデルにおける反実仮想説明のためのシステム及び方法
CN117290732B (zh) 故障分类模型的构建方法、风电设备故障分类方法及装置
CN117874639B (zh) 基于人工智能的机械设备寿命预测方法及装置
CN117892182B (zh) 基于人工智能的索具耐用性测试方法及装置
Mansor et al. Modified Artificial Immune System Algorithm with Elliot Hopfield Neural Network For 3-Satisfiability Programming.
CN115564155A (zh) 一种分散式风电机组功率预测方法及相关设备
Wang et al. Ensemble probabilistic wind power forecasting with multi-scale features
CN117312865B (zh) 基于非线性动态优化的数据分类模型的构建方法及装置
Zhao et al. A hybrid learning method for constructing compact rule-based fuzzy models
Liao et al. Scenario prediction for power loads using a pixel convolutional neural network and an optimization strategy
CN117650528A (zh) 基于数据挖掘的光伏发电预测方法及装置
Skorpil et al. Neural networks and back propagation algorithm
CN113962440A (zh) 一种融合dpc和gru的光伏预测方法和系统
Gollagi et al. Hybrid model with optimization tactics for software defect prediction
CN118032327A (zh) 基于人工智能的设备智能润滑监测方法及装置
Dwivedi et al. A Review of Multi-Objective Evolutionary Based Fuzzy Classifiers
JP7384322B2 (ja) 予測モデル作成方法、予測方法、予測モデル作成装置、予測装置、予測モデル作成プログラム、予測プログラム
Aik et al. An improved radial basis function networks in networks weights adjustment for training real-world nonlinear datasets
Górriz et al. New model for time-series forecasting using rbfs and exogenous data

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination