CN117408382A - 一种光伏功率预测方法、系统、设备及存储介质 - Google Patents
一种光伏功率预测方法、系统、设备及存储介质 Download PDFInfo
- Publication number
- CN117408382A CN117408382A CN202311403141.3A CN202311403141A CN117408382A CN 117408382 A CN117408382 A CN 117408382A CN 202311403141 A CN202311403141 A CN 202311403141A CN 117408382 A CN117408382 A CN 117408382A
- Authority
- CN
- China
- Prior art keywords
- photovoltaic
- data
- prediction
- predicted
- photovoltaic power
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 63
- 238000003860 storage Methods 0.000 title claims abstract description 17
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 33
- 239000013598 vector Substances 0.000 claims abstract description 33
- 238000012545 processing Methods 0.000 claims abstract description 23
- 238000012352 Spearman correlation analysis Methods 0.000 claims abstract description 16
- 238000012216 screening Methods 0.000 claims abstract description 14
- 238000010606 normalization Methods 0.000 claims abstract description 12
- 238000010248 power generation Methods 0.000 claims description 50
- 230000007613 environmental effect Effects 0.000 claims description 16
- 230000015654 memory Effects 0.000 claims description 16
- 238000004364 calculation method Methods 0.000 claims description 12
- 230000002159 abnormal effect Effects 0.000 claims description 11
- 238000004590 computer program Methods 0.000 claims description 11
- 230000006870 function Effects 0.000 claims description 11
- 238000007781 pre-processing Methods 0.000 claims description 9
- 238000012937 correction Methods 0.000 claims description 8
- 238000010586 diagram Methods 0.000 description 8
- 230000000694 effects Effects 0.000 description 7
- 238000012549 training Methods 0.000 description 5
- 238000004880 explosion Methods 0.000 description 4
- 238000013507 mapping Methods 0.000 description 4
- 238000010801 machine learning Methods 0.000 description 3
- 238000007621 cluster analysis Methods 0.000 description 2
- 238000009826 distribution Methods 0.000 description 2
- 238000005259 measurement Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000003672 processing method Methods 0.000 description 2
- 230000005855 radiation Effects 0.000 description 2
- 238000006467 substitution reaction Methods 0.000 description 2
- 238000012706 support-vector machine Methods 0.000 description 2
- 238000010219 correlation analysis Methods 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 230000007423 decrease Effects 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000004146 energy storage Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 239000000835 fiber Substances 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 238000012886 linear function Methods 0.000 description 1
- 230000007787 long-term memory Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 238000004064 recycling Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 230000006403 short-term memory Effects 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/04—Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
- G06F18/232—Non-hierarchical techniques
- G06F18/2321—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
- G06F18/23213—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2411—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/27—Regression, e.g. linear or logistic regression
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/06—Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
- G06Q10/063—Operations research, analysis or management
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/06—Energy or water supply
-
- H—ELECTRICITY
- H02—GENERATION; CONVERSION OR DISTRIBUTION OF ELECTRIC POWER
- H02J—CIRCUIT ARRANGEMENTS OR SYSTEMS FOR SUPPLYING OR DISTRIBUTING ELECTRIC POWER; SYSTEMS FOR STORING ELECTRIC ENERGY
- H02J3/00—Circuit arrangements for ac mains or ac distribution networks
- H02J3/003—Load forecast, e.g. methods or systems for forecasting future load demand
-
- H—ELECTRICITY
- H02—GENERATION; CONVERSION OR DISTRIBUTION OF ELECTRIC POWER
- H02J—CIRCUIT ARRANGEMENTS OR SYSTEMS FOR SUPPLYING OR DISTRIBUTING ELECTRIC POWER; SYSTEMS FOR STORING ELECTRIC ENERGY
- H02J2300/00—Systems for supplying or distributing electric power characterised by decentralized, dispersed, or local generation
- H02J2300/20—The dispersed energy generation being of renewable origin
- H02J2300/22—The renewable source being solar energy
- H02J2300/24—The renewable source being solar energy of photovoltaic origin
Landscapes
- Engineering & Computer Science (AREA)
- Business, Economics & Management (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Economics (AREA)
- Human Resources & Organizations (AREA)
- General Physics & Mathematics (AREA)
- Strategic Management (AREA)
- Life Sciences & Earth Sciences (AREA)
- General Engineering & Computer Science (AREA)
- Tourism & Hospitality (AREA)
- Artificial Intelligence (AREA)
- General Business, Economics & Management (AREA)
- Marketing (AREA)
- Entrepreneurship & Innovation (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Evolutionary Computation (AREA)
- Evolutionary Biology (AREA)
- Health & Medical Sciences (AREA)
- Quality & Reliability (AREA)
- Game Theory and Decision Science (AREA)
- Development Economics (AREA)
- Operations Research (AREA)
- Educational Administration (AREA)
- Probability & Statistics with Applications (AREA)
- Primary Health Care (AREA)
- General Health & Medical Sciences (AREA)
- Water Supply & Treatment (AREA)
- Public Health (AREA)
- Power Engineering (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明涉及光伏预测技术领域,尤其涉及一种光伏功率预测方法、系统、设备及存储介质,包括对待预测光伏数据进行Spearman相关性分析,筛选出对光伏输出功率影响最大的光伏环境特征集合;利用K‑means++聚类算法将光伏环境特征集合划分为不同类别的光伏数据特征库;获取不同类别光伏数据特征库所对应的支持向量回归预测模型;将光伏数据特征库输入对应的所述支持向量回归预测模型中,并对输出的预测结果进行反归一化处理,得到光伏功率预测数据。本发明基于Spearman‑K‑means++‑SVR模型实现对光伏功率预测,能够根据不同的特征库建立特定的预测模型,提高了非线性光伏数据预测精度和预测效率。
Description
技术领域
本发明涉及光伏预测技术领域,尤其涉及一种光伏功率预测方法、系统、设备及存储介质。
背景技术
与传统的化石能源相比,可再生能源具有无污染,分布广泛,可回收利用等优点,到目前为止,在所有类型的发电能源中,光伏发电的发展速度是最快的,光是可再生能源,它正成为解决传统化石能源发电问题的有效途径,将成为未来研究的重要方向,然而,在实际发电过程中,光伏发电的随机性和波动性会对电网的运行造成巨大的冲击,而精准的光伏功率预测有助于电力系统制。
然而,现有的光伏功率预测方法大多将重点放在预测算法上,忽略了数据,但数据对于算法的影响是直观且纯粹的,越有效的数据产出的结果其可靠性也越强,因此,对于光伏功率预测,可以以光伏出力数据本身作为切入点,应用相关性分析和聚类分析,获得更有效的数据,但是现有的数据处理方法大多采用了单一模型,处理结构简单,由于每种单一的模型都存在自身局限性,因此数据处理的方法仍然存在各种问题,例如面对极端值时稳定性差、非线性处理能力较差等,导致这些单一模型无法应对具有非线性、极端值和异常点等问题的光伏数据,比如:在数据处理模型中,Pearson相关系数法要求数据集是连续型变量,更适用于线性关系,并且面对极端值时稳定性差,可靠性降低,不适用于具有大量数据且包含极端值的光伏数据,同时传统的K-means算法是将欧几里得距离作为数据点与代表向量之间不相似程度的度量,限制了能处理的数据变量的类型,同时使得聚类的中心的确定对于异常点不具有鲁棒性,因此,K-means针对光伏数据中的极端值鲁棒性变差,亟需寻求新的聚类方法来克服该类问题,制定合理的调度计划,确保整个电力系统的供需平衡,优化电网储能的配置,提高电力系统稳定运行的经济性和安全性。
发明内容
本发明提供了一种光伏功率预测方法、系统、设备及存储介质,解决的技术问题是,现有光伏功率预测方法忽略了光伏数据存在的非线性、极端值和异常点问题,导致预测精度和效率较差。
为解决以上技术问题,本发明提供了一种光伏功率预测方法、系统、设备及存储介质。
第一方面,本发明提供了一种光伏功率预测方法,所述方法包括以下步骤:
获取光伏发电数据,并将所述光伏发电数据进行预处理,得到待预测光伏数据;所述光伏发电数据包括每个时间点对应的光伏发电输出功率、历史气象数据以及数值天气预报数据;
对所述待预测光伏数据进行Spearman相关性分析,获取各个待预测光伏数据与光伏输出功率之间存在的相关系数,并根据所述相关系数筛选出对光伏输出功率影响最大的光伏环境特征集合;
基于所述相关系数,利用K-means++聚类算法将所述光伏环境特征集合划分为不同特征类别,得到不同类别的光伏数据特征库;
获取预先构建的不同类别光伏数据特征库所对应的支持向量回归预测模型;
将所述光伏数据特征库输入对应的所述支持向量回归预测模型中进行预测,并对输出的预测结果进行反归一化处理,得到对应的光伏功率预测数据。
在进一步的实施方案中,所述相关系数的计算公式为:
其中,
式中,ρ表示待预测光伏数据与光伏输出功率之间存在的相关系数;Xi表示第i个待预测光伏数据;X表示待预测光伏数据的秩次;Yi表示第i个光伏输出功率;Y表示光伏输出功率的秩次;n表示待预测光伏数据的个数;di表示待预测光伏数据与光伏输出功率的秩次之差。
在进一步的实施方案中,所述K-means++聚类算法采用欧氏距离作为距离度量,所述距离度量的计算公式为:
式中,A(x,y)表示距离度量;xj、yj表示光伏环境特征集合中的两个不同光伏环境特征的坐标点;J表示光伏环境特征集合的元素个数。
在进一步的实施方案中,所述K-means++聚类算法采用误差平方和准则函数对不同簇的聚类结果进行评价,得到不同类别的光伏数据特征库,其中,所述误差平方和准则函数的计算公式为:
式中,SSE表示误差平方和;z表示光伏环境特征集合中的样本数据;k表示聚类的簇数;Sq表示第q个簇中的所有样本;μq表示第q个簇的所有样本的平均值。
在进一步的实施方案中,所述支持向量回归预测模型采用非线性支持向量回归预测模型。
在进一步的实施方案中,所述将所述光伏发电数据进行预处理,得到待预测光伏数据的步骤包括:
将所述光伏发电数据进行异常数据处理,得到光伏发电修正数据;
将所述光伏发电修正数据进行归一化处理,得到待预测光伏数据。
第二方面,本发明提供了一种光伏功率预测系统,所述系统包括:
数据获取模块,用于获取光伏发电数据,并将所述光伏发电数据进行预处理,得到待预测光伏数据;所述光伏发电数据包括每个时间点对应的光伏发电输出功率、历史气象数据以及数值天气预报数据;
数据筛选模块,用于对所述待预测光伏数据进行Spearman相关性分析,获取各个待预测光伏数据与光伏输出功率之间存在的相关系数,并根据所述相关系数筛选出对光伏输出功率影响最大的光伏环境特征集合;
数据分类模块,用于基于所述相关系数,利用K-means++聚类算法将所述光伏环境特征集合划分为不同特征类别,得到不同类别的光伏数据特征库;
模型获取模块,用于获取预先构建的不同类别光伏数据特征库所对应的支持向量回归预测模型;
光伏功率预测模块,用于将所述光伏数据特征库输入对应的所述支持向量回归预测模型中进行预测,并对输出的预测结果进行反归一化处理,得到对应的光伏功率预测数据。
在进一步的实施方案中,所述相关系数的计算公式为:
其中,
式中,ρ表示待预测光伏数据与光伏输出功率之间存在的相关系数;Xi表示第i个待预测光伏数据;表示待预测光伏数据的秩次;Yi表示第i个光伏输出功率;/>表示光伏输出功率的秩次;n表示待预测光伏数据的个数;di表示待预测光伏数据与光伏输出功率的秩次之差。
第三方面,本发明还提供了一种计算机设备,包括处理器和存储器,所述处理器与所述存储器相连,所述存储器用于存储计算机程序,所述处理器用于执行所述存储器中存储的计算机程序,以使得所述计算机设备执行实现上述方法的步骤。
第四方面,本发明还提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有计算机程序,所述计算机程序被处理器执行时实现上述方法的步骤。
本发明提供了一种光伏功率预测方法、系统、设备及存储介质,所述方法通过对待预测光伏数据进行Spearman相关性分析,筛选出对光伏输出功率影响最大的光伏环境特征集合;利用K-means++聚类算法将光伏环境特征集合划分为不同特征类别,得到不同类别的光伏数据特征库;获取预先构建的不同类别光伏数据特征库所对应的支持向量回归预测模型;将光伏数据特征库输入对应的支持向量回归预测模型中进行预测,得到对应的光伏功率预测数据。与现有技术相比,该方法基于光伏数据存在的非线性、极端值和异常点等问题,利用Spearman相关系数法和K-means++聚类对输入数据进行划分特征库,并通过支持向量回归预测模型实现光伏功率的预测,同时本发明能够根据不同的特征库建立对应的预测模型,提高了光伏功率预测精度和预测效率。
附图说明
图1是本发明实施例提供的光伏功率预测方法流程示意图;
图2是本发明实施例提供的光伏功率预测方法应用示意图;
图3是本发明实施例提供的Spearman相关分析法结果示例图;
图4是本发明实施例提供的K-means++聚类示意图;
图5是本发明实施例提供的光伏功率预测方法预测效果示意图;
图6是本发明实施例提供的传统光伏功率预测方法预测效果示意图;
图7是本发明实施例提供的光伏功率预测系统框图;
图8是本发明实施例提供的计算机设备的结构示意图。
具体实施方式
下面结合附图具体阐明本发明的实施方式,实施例的给出仅仅是为了说明目的,并不能理解为对本发明的限定,包括附图仅供参考和说明使用,不构成对本发明专利保护范围的限制,因为在不脱离本发明精神和范围基础上,可以对本发明进行许多改变。
参考图1,本发明实施例提供了一种光伏功率预测方法,如图1所示,该方法包括以下步骤:
S1.获取光伏发电数据,并将所述光伏发电数据进行预处理,得到待预测光伏数据;所述光伏发电数据包括每个时间点对应的光伏发电输出功率、历史气象数据以及数值天气预报数据。
本实施例获取光伏发电数据,并对所述光伏发电数据进行预处理,所述光伏发电数据包括每个时间点对应的光伏发电输出功率、历史气象数据以及数值天气预报NWP数据等,其中,本实施例实际测量的光伏发电数据包括但不限于气温、湿度、气压、降水量、地面风速、风向、地表水平辐射、直接辐射、散射辐射和光伏发电输出功率等,本实施例在将所述光伏发电数据进行预处理时,数据预处理分为异常数据处理和归一化处理,具体是将所述光伏发电数据进行异常数据处理,得到光伏发电修正数据,并将所述光伏发电修正数据进行归一化处理,得到待预测光伏数据,其中,异常数据处理需要剔除负数等异常数据,并利用异常数据附近的数据均值进行修正,假设光伏发电数据存在异常数据,则修正后的数据值为:
式中,bi表示光伏发电修正数据;i表示第i个光伏发电数据。
归一化处理的计算公式为:
式中,Xi表示待预测光伏数据;hmax表示数据集中选定列的最大值;hmin表示数据集中选定列的最小值。
S2.对所述待预测光伏数据进行Spearman相关性分析,获取各个待预测光伏数据与光伏输出功率之间存在的相关系数,并根据所述相关系数筛选出对光伏输出功率影响最大的光伏环境特征集合。
为了提高光伏功率预测精度和降低预测算法复杂度,本实施例对过多的相关物理变量进行筛选,以得到光伏发电功率的主要影响因素,现有方法Pearson相关系数法已经被证明可以得到多变量之间的关联系数,从而达到筛选变量的目的,但在实测数据中,各变量数据并不完全满足正态分布,故Pearson相关系数法无法完全适用,因此,本实施例采用对数据包容性更大的Spearman相关系数法,如图2所示,本实施例采用Spearman相关性分析法对冗余的待预测光伏数据进行筛选,所述相关系数的计算公式为:
其中,
式中,ρ表示待预测光伏数据与光伏输出功率之间存在的相关系数;Xi表示第i个待预测光伏数据;表示待预测光伏数据的秩次;Yi表示第i个光伏输出功率;/>表示光伏输出功率的秩次;n表示待预测光伏数据的个数;di表示待预测光伏数据与光伏输出功率的秩次之差。
需要说明的是,Spearman相关系数ρ的取值范围为[-1,1],当Spearman相关系数ρ的绝对值越接近于1,则说明待预测光伏数据与光伏输出功率之间的相关性越强,Spearman相关系数ρ>0为正相关;Spearman相关系数ρ<0为负相关,Spearman相关系数ρ=0表明当X增加或减少时,Y没有任何趋向性,针对光伏发电系统,若某一物理变量与光伏输出功率之间的相关系数绝对值越接近于1,则说明该物理变量与输出功率相关性越强,基于Spearman相关性分析法,可逐个求出物理变量与光伏发电输出功率之间的相关系数,并筛选得到对光伏功率输出影响最大的五个环境因素,构成光伏环境特征集合,图3为本发明实施例提供的Spearman相关分析法结果示例图,通过Spearman相关性分析法对待预测光伏数据进行处理,筛去相关性较小的影响因素,保留相关性较大的五个影响因素,并从中选择直接辐射、温度、湿度进行聚类,获得四种类别的数据组,且每一个数据组都具有其显著的特征,可以更好的拟合预测SVR模型,相较于初始SVR模型增加了可解释性,并且为模型Spearman-K-means++-SVR在电力工业的应用提供了一定的理论依据。
S3.基于所述相关系数,利用K-means++聚类算法将所述光伏环境特征集合划分为不同特征类别,得到不同类别的光伏数据特征库。
由于相比于其他的聚类算法,K-means++聚类算法可以适用于大量数据集,计算速度更快,对于初始中心点的选择较为敏感,优良的初始中心点选择可以避免局部最优解,从而可以产生更高质量的聚类结果,同时该算法能够发现任意形状的聚类,有助于更好地理解数据的内在结构,因此,为了进一步处理Spearman筛选保留的光伏发电数据,本实施例利用K-means++聚类算法将光伏环境特征集合划分为具有不同特征的类别,并对不同类别的数据分别进行符合该类数据特点的预测,从而提高预测的精度和效率,其中,所述K-means++聚类算法采用欧氏距离作为距离度量,所述距离度量的计算公式为:
式中,A(x,y)表示距离度量;xj、yj表示光伏环境特征集合中的两个不同光伏环境特征的坐标点;J表示光伏环境特征集合的元素个数。
在本实施例中,所述K-means++聚类算法采用误差平方和准则函数对不同簇的聚类结果进行评价,即聚类内各个点到聚类中心的距离的平方和,得到不同类别的光伏数据特征库,需要说明的是,在合适的聚类组别数范围内,SSE越少,则聚类结果越好,所述误差平方和准则函数的计算公式为:
式中,SSE表示误差平方和;z表示光伏环境特征集合中的样本数据;k表示聚类的簇数;Sq表示第q个簇中的所有样本;μq表示第q个簇的所有样本的平均值。
如图4所示,本实施例利用K-means++聚类算法将光伏环境特征集合分成四类,从而对不同类别的光伏环境特征集合分别进行符合对应类别数据特点的预测,根据聚类结果可知,类别1具有高辐射的特征;类别2具有低辐射、高温度,低湿度的特征;类别3具有低辐射、低温度、高湿度的特征;类别4具有低辐射、低温度、低湿度的特征。从而为后续SVR的预测提供充分的数据支撑,需要说明的是,支持向量回归预测模型SVR虽然有良好的非线性拟合度,但是该模型的训练速度较慢,因此,本实施例采用K-means++聚类算法对数据进行处理,能够为SVR模型提供相对较小的特征数据组,有效降低了模型复杂度。
S4.获取预先构建的不同类别光伏数据特征库所对应的支持向量回归预测模型。
针对光伏数据高维特征、非线形、存在极端值的特点,本实施例采用支持向量回归预测模型SVR来进行模型的预测,SVR算法预测精度高、泛化能力较强,同时较易实现且具有较好的鲁棒性,不易受到少部分极端数据的影响,在本实施例中,所述支持向量回归预测模型采用非线性支持向量回归预测模型,当训练数据线性不可分时,可通过非线性映射和软间隔最大化获得一个非线性支持向量机,并通过核函数避免非线性映射造成的“维数灾难”问题,其中,在支持向量回归预测模型训练阶段,本实施例可以根据时间比例将光伏数据特征库中的数据划分为训练数据集和测试集数据,并计算所有时间下对应的组合相似时刻数据,作为后续预测模型的输入,本实施例根据不同类别光伏数据特征库对多个支持向量回归预测模型SVR进行训练,得到不同类别光伏数据特征库所对应的支持向量回归预测模型,同时采用测试数据集评估训练好的支持向量回归预测模型性能,能够有针对性地为不同类别光伏数据特征库建立特定的预测模型,更准确地捕捉到不同类别所包含的不同信息,从而更加精确地处理和识别与特定特征库相关的信息。
在本实施例中,SVR网络作为一种典型的机器学习算法,在有效解决非线性预测的基础上,有效解决了在模型训练中维度爆炸的问题,需要说明的是,本领域技术人员也可以根据具体实施情况,将本实施例采用的支持向量回归预测模型SVR替换为其它机器学习方法实现功率预测,比如:长短期记忆网络,循环门控单元等。
S5.将所述光伏数据特征库输入对应的所述支持向量回归预测模型中进行预测,得到对应的光伏功率预测数据。
本实施例将所述光伏数据特征库输入对应的所述支持向量回归预测模型中进行预测,输出不同特征库对应的光伏功率预测结果,并对输出的光伏功率预测结果进行反归一化处理,得到对应的光伏功率预测数据,本实施例通过非线性映射将输入空间的样本映射到高维空间,在高维空间建立线性函数,从而解决非线性回归问题,实现了非线性光伏发电数据的预测,可以更有效简洁地根据天气因素预测光伏发电的输出功率,并通过支持向量机的核函数解决计算爆炸的问题,有效提高预测的精度和效率。
本实施例利用Spearman相关系数法和K-means++聚类对输入数据进行划分特征库,并根据不同的特征库建立对应的预测模型,进而获取到用于光伏功率预测的功率预测模型,其中,本实施例将Spearman相关系数法和K-means++聚类结合到光伏功率预测方法中,对气象因素进行筛选作为一次处理数据,对一次处理数据进行聚类分类,获得不同特征库的数据,为SVR准备数据,可以进一步提高光伏功率预测模型的预测准确度和预测效率,同时本实施例通过将预测模型与特定特征库相关联,可以轻松地添加、删除或替换特征库,而无需对整个模型进行重新训练或调整,这使得模型更加灵活,可以根据不同的需求进行定制和扩展。
本实施例结合Spearman-K-means++-SVR形成的混合预测算法具有更好的非线性模型拟合度,利用Spearman相关系数法和K-means++聚类对输入数据进行划分特征库,并根据不同的特征库建立对应的预测模型,并通过非线性映射解决了非线性光伏数据的预测问题,可以更有效简洁地根据天气因素预测光伏发电的输出功率,同时通过核函数解决计算爆炸的问题,有效提高了光伏数据预测的精度和效率,需要说明的是,本实施例提出的基于Spearman-K-means++-SVR的混合预测算法在光伏功率预测方面展示了优异的性能,其中,数据处理算法和机器学习预测算法的结合是被证明有效的,该框架在预测方面具有很显著的优势,本实施例基于Spearman-K-means++-SVR的预测效果和基于传统SVR的预测效果可参见图5、图6,显然,与传统SVR相比,Spearman-K-means++进一步对数据进行了处理——降维分类,可以有效提高预测效率以及精度。
本发明实施例提供了一种光伏功率预测方法,所述方法对待预测光伏数据进行Spearman相关性分析,筛选出对光伏输出功率影响最大的光伏环境特征集合;基于相关系数,利用K-means++聚类算法将光伏环境特征集合划分为不同特征类别,得到不同类别的光伏数据特征库;将光伏数据特征库输入对应的支持向量回归预测模型中进行预测,得到对应的光伏功率预测数据。与现有技术相比,本实施例利用Spearman相关分析法和K-means++聚类对输入数据进行划分特征库,并根据不同的特征库建立对应的非线性支持向量回归预测模型,进而获取到用于光伏功率预测的功率预测模型,本实施例通过非线性支持向量回归预测模型解决了非线性光伏数据的预测和计算爆炸问题,有效提高了光伏功率预测的精度和效率。
需要说明的是,上述各过程的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本申请实施例的实施过程构成任何限定。
在一个实施例中,如图7所示,本发明实施例提供了一种光伏功率预测系统,所述系统包括:
数据获取模块101,用于获取光伏发电数据,并将所述光伏发电数据进行预处理,得到待预测光伏数据;所述光伏发电数据包括每个时间点对应的光伏发电输出功率、历史气象数据以及数值天气预报数据;
数据筛选模块102,用于对所述待预测光伏数据进行Spearman相关性分析,获取各个待预测光伏数据与光伏输出功率之间存在的相关系数,并根据所述相关系数筛选出对光伏输出功率影响最大的光伏环境特征集合;
数据分类模块103,用于基于所述相关系数,利用K-means++聚类算法将所述光伏环境特征集合划分为不同特征类别,得到不同类别的光伏数据特征库;
模型获取模块104,用于获取预先构建的不同类别光伏数据特征库所对应的支持向量回归预测模型;
光伏功率预测模块105,用于将所述光伏数据特征库输入对应的所述支持向量回归预测模型中进行预测,并对输出的预测结果进行反归一化处理,得到对应的光伏功率预测数据。
关于一种光伏功率预测系统的具体限定可以参见上述对于一种光伏功率预测方法的限定,此处不再赘述。本领域普通技术人员可以意识到,结合本申请所公开的实施例描述的各个模块和步骤,能够以硬件、软件或者两者结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。
本发明实施例提供了一种光伏功率预测系统,所述系统通过数据筛选模块对待预测光伏数据进行Spearman相关性分析,筛选出对光伏输出功率影响最大的光伏环境特征集合;通过数据分类模块对光伏环境特征集合进行K-means++聚类分析,得到不同类别的光伏数据特征库;通过光伏功率预测模块对不同类别的光伏数据特征库进行预测,并对输出的预测结果进行反归一化处理,得到对应的光伏功率预测数据。与现有技术相比,本申请利用Spearman相关系数法和K-means++聚类对输入数据进行划分特征库,并根据不同的特征库建立对应的预测模型,通过将预测模型与特定特征库相关联,使得模型更加灵活,同时简化特征选择和模型优化过程,可以提高最终的预测精度和预测效率。
图8是本发明实施例提供的一种计算机设备,包括存储器、处理器和收发器,它们之间通过总线连接;存储器用于存储一组计算机程序指令和数据,并可以将存储的数据传输给处理器,处理器可以执行存储器存储的程序指令,以执行上述方法的步骤。
其中,存储器可以包括易失性存储器或非易失性存储器,或可包括易失性和非易失性存储器两者;处理器可以是中央处理器、微处理器、特定应用集成电路、可编程逻辑器件或其组合。通过示例性但不是限制性说明,上述可编程逻辑器件可以是复杂可编程逻辑器件、现场可编程逻辑门阵列、通用阵列逻辑或其任意组合。
另外,存储器可以是物理上独立的单元,也可以与处理器集成在一起。
本领域普通技术人员可以理解,图8中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有相同的部件布置。
在一个实施例中,本发明实施例提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现上述方法的步骤。
本发明实施例提供的一种光伏功率预测方法、系统、设备及存储介质,其一种光伏功率预测方法利用Spearman相关系数法和K-means++聚类对输入数据进行划分特征库,同时针对不同的特征库建立特定的预测模型,可以更加精确地处理和识别与特定特征库相关的模式,更准确地捕捉到不同特征库对应的特征信息,从而提高预测精度和预测效率。
在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时,可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时,全部或部分地产生按照本发明实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一个计算机可读存储介质传输,例如,所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线)或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质,(例如,软盘、硬盘、磁带)、光介质(例如,DVD)、或者半导体介质(例如SSD)等。
本领域技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。
以上所述实施例仅表达了本申请的几种优选实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本技术领域的普通技术人员来说,在不脱离本发明技术原理的前提下,还可以做出若干改进和替换,这些改进和替换也应视为本申请的保护范围。因此,本申请专利的保护范围应以所述权利要求的保护范围为准。
Claims (10)
1.一种光伏功率预测方法,其特征在于,包括以下步骤:
获取光伏发电数据,并将所述光伏发电数据进行预处理,得到待预测光伏数据;所述光伏发电数据包括每个时间点对应的光伏发电输出功率、历史气象数据以及数值天气预报数据;
对所述待预测光伏数据进行Spearman相关性分析,获取各个待预测光伏数据与光伏输出功率之间存在的相关系数,并根据所述相关系数筛选出对光伏输出功率影响最大的光伏环境特征集合;
基于所述相关系数,利用K-means++聚类算法将所述光伏环境特征集合划分为不同特征类别,得到不同类别的光伏数据特征库;
获取预先构建的不同类别光伏数据特征库所对应的支持向量回归预测模型;
将所述光伏数据特征库输入对应的所述支持向量回归预测模型中进行预测,并对输出的预测结果进行反归一化处理,得到对应的光伏功率预测数据。
2.如权利要求1所述的一种光伏功率预测方法,其特征在于,所述相关系数的计算公式为:
其中,
式中,ρ表示待预测光伏数据与光伏输出功率之间存在的相关系数;Xi表示第i个待预测光伏数据;表示待预测光伏数据的秩次;Yi表示第i个光伏输出功率;/>表示光伏输出功率的秩次;n表示待预测光伏数据的个数;di表示待预测光伏数据与光伏输出功率的秩次之差。
3.如权利要求1所述的一种光伏功率预测方法,其特征在于,所述K-means++聚类算法采用欧氏距离作为距离度量,所述距离度量的计算公式为:
式中,A(x,y)表示距离度量;xj、yj表示光伏环境特征集合中的两个不同光伏环境特征的坐标点;J表示光伏环境特征集合的元素个数。
4.如权利要求1所述的一种光伏功率预测方法,其特征在于,所述K-means++聚类算法采用误差平方和准则函数对不同簇的聚类结果进行评价,得到不同类别的光伏数据特征库,其中,所述误差平方和准则函数的计算公式为:
式中,SSE表示误差平方和;z表示光伏环境特征集合中的样本数据;k表示聚类的簇数;Sq表示第q个簇中的所有样本;μq表示第q个簇的所有样本的平均值。
5.如权利要求1所述的一种光伏功率预测方法,其特征在于:所述支持向量回归预测模型采用非线性支持向量回归预测模型。
6.如权利要求1所述的一种光伏功率预测方法,其特征在于,所述将所述光伏发电数据进行预处理,得到待预测光伏数据的步骤包括:
将所述光伏发电数据进行异常数据处理,得到光伏发电修正数据;
将所述光伏发电修正数据进行归一化处理,得到待预测光伏数据。
7.一种光伏功率预测系统,其特征在于,所述系统包括:
数据获取模块,用于获取光伏发电数据,并将所述光伏发电数据进行预处理,得到待预测光伏数据;所述光伏发电数据包括每个时间点对应的光伏发电输出功率、历史气象数据以及数值天气预报数据;
数据筛选模块,用于对所述待预测光伏数据进行Spearman相关性分析,获取各个待预测光伏数据与光伏输出功率之间存在的相关系数,并根据所述相关系数筛选出对光伏输出功率影响最大的光伏环境特征集合;
数据分类模块,用于基于所述相关系数,利用K-means++聚类算法将所述光伏环境特征集合划分为不同特征类别,得到不同类别的光伏数据特征库;
模型获取模块,用于获取预先构建的不同类别光伏数据特征库所对应的支持向量回归预测模型;
光伏功率预测模块,用于将所述光伏数据特征库输入对应的所述支持向量回归预测模型中进行预测,并对输出的预测结果进行反归一化处理,得到对应的光伏功率预测数据。
8.如权利要求7所述的一种光伏功率预测系统,其特征在于,所述相关系数的计算公式为:
其中,
式中,ρ表示待预测光伏数据与光伏输出功率之间存在的相关系数;Xi表示第i个待预测光伏数据;表示待预测光伏数据的秩次;Yi表示第i个光伏输出功率;/>表示光伏输出功率的秩次;n表示待预测光伏数据的个数;di表示待预测光伏数据与光伏输出功率的秩次之差。
9.一种计算机设备,其特征在于:包括处理器和存储器,所述处理器与所述存储器相连,所述存储器用于存储计算机程序,所述处理器用于执行所述存储器中存储的计算机程序,以使得所述计算机设备执行如权利要求1至6中任一项所述的方法。
10.一种计算机可读存储介质,其特征在于:所述计算机可读存储介质中存储有计算机程序,当所述计算机程序被运行时,实现如权利要求1至6任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311403141.3A CN117408382A (zh) | 2023-10-26 | 2023-10-26 | 一种光伏功率预测方法、系统、设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311403141.3A CN117408382A (zh) | 2023-10-26 | 2023-10-26 | 一种光伏功率预测方法、系统、设备及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117408382A true CN117408382A (zh) | 2024-01-16 |
Family
ID=89492243
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311403141.3A Pending CN117408382A (zh) | 2023-10-26 | 2023-10-26 | 一种光伏功率预测方法、系统、设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117408382A (zh) |
-
2023
- 2023-10-26 CN CN202311403141.3A patent/CN117408382A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113673775B (zh) | 基于cnn-lstm及深度学习的时空组合预测方法 | |
CN112115306B (zh) | 用于执行高维传感器数据中的异常事件的自动根本原因分析的方法和系统 | |
CN109063939B (zh) | 一种基于邻域门长短期记忆网络的风速预测方法及系统 | |
KR102215690B1 (ko) | 시계열의 데이터를 모니터링 하는 방법 및 그 장치 | |
CN114792156B (zh) | 基于曲线特征指标聚类的光伏输出功率预测方法和系统 | |
CN113255900A (zh) | 一种考虑改进谱聚类与Bi-LSTM神经网络的冲击性负荷预测方法 | |
CN117175664B (zh) | 基于使用场景的储能充电设备输出功率自适应调节系统 | |
CN115062501A (zh) | 一种基于自适应子问题选择策略的芯片封装设计优化方法 | |
CN117458480A (zh) | 基于改进lof的光伏发电功率短期预测方法及系统 | |
CN116205377A (zh) | 分布式光伏电站出力预测方法、系统、计算机及存储介质 | |
CN116245259B (zh) | 基于深度特征选择的光伏发电预测方法、装置和电子设备 | |
CN117217591A (zh) | 一种用于预测光伏发电功率的方法及系统 | |
CN115526430A (zh) | 多距离聚类与信息聚合的负荷区间预测方法、系统及介质 | |
CN117953258A (zh) | 对象分类模型的训练方法、对象分类方法及装置 | |
CN115392594B (zh) | 一种基于神经网络和特征筛选的用电负荷模型训练方法 | |
CN117408382A (zh) | 一种光伏功率预测方法、系统、设备及存储介质 | |
CN114723147A (zh) | 基于改进的小波变换与神经网络的新能源功率预测方法 | |
CN115545164A (zh) | 光伏发电功率预测方法、系统、设备及介质 | |
CN116307250A (zh) | 一种基于典型日特征选择的短期负荷预测方法及系统 | |
CN115905360A (zh) | 一种基于随机构建矩阵的异常数据量测辨识方法和装置 | |
CN113159100B (zh) | 电路故障诊断方法、装置、电子设备和存储介质 | |
Liu et al. | Short-term PV power prediction model based on weather feature clustering and Adaboost-GA-BP | |
Jiang et al. | Dynamically building diversified classifier pruning ensembles via canonical correlation analysis | |
Bao et al. | Adaptive Weighted Strategy Based Integrated Surrogate Models for Multiobjective Evolutionary Algorithm | |
Zhu et al. | A hybrid model for ultra-short-term PV prediction using SOM clustering and ECA |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |