CN116341728A - 一种基于数据驱动的超短期光伏输出功率预测方法 - Google Patents

一种基于数据驱动的超短期光伏输出功率预测方法 Download PDF

Info

Publication number
CN116341728A
CN116341728A CN202310254452.1A CN202310254452A CN116341728A CN 116341728 A CN116341728 A CN 116341728A CN 202310254452 A CN202310254452 A CN 202310254452A CN 116341728 A CN116341728 A CN 116341728A
Authority
CN
China
Prior art keywords
data
model
output power
matrix
photovoltaic output
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310254452.1A
Other languages
English (en)
Inventor
韩杨
张明岳
薛云飞
葛基伟
杨平
王丛岭
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
University of Electronic Science and Technology of China
Original Assignee
University of Electronic Science and Technology of China
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by University of Electronic Science and Technology of China filed Critical University of Electronic Science and Technology of China
Priority to CN202310254452.1A priority Critical patent/CN116341728A/zh
Publication of CN116341728A publication Critical patent/CN116341728A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/04Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/004Artificial life, i.e. computing arrangements simulating life
    • G06N3/006Artificial life, i.e. computing arrangements simulating life based on simulated virtual individual or collective life forms, e.g. social simulations or particle swarm optimisation [PSO]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/06Energy or water supply
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y04INFORMATION OR COMMUNICATION TECHNOLOGIES HAVING AN IMPACT ON OTHER TECHNOLOGY AREAS
    • Y04SSYSTEMS INTEGRATING TECHNOLOGIES RELATED TO POWER NETWORK OPERATION, COMMUNICATION OR INFORMATION TECHNOLOGIES FOR IMPROVING THE ELECTRICAL POWER GENERATION, TRANSMISSION, DISTRIBUTION, MANAGEMENT OR USAGE, i.e. SMART GRIDS
    • Y04S10/00Systems supporting electrical power generation, transmission or distribution
    • Y04S10/50Systems or methods supporting the power network operation or management, involving a certain degree of interaction with the load-side end user applications

Landscapes

  • Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Physics & Mathematics (AREA)
  • Economics (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Human Resources & Organizations (AREA)
  • Strategic Management (AREA)
  • General Physics & Mathematics (AREA)
  • Marketing (AREA)
  • General Business, Economics & Management (AREA)
  • Tourism & Hospitality (AREA)
  • General Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Biophysics (AREA)
  • Game Theory and Decision Science (AREA)
  • Development Economics (AREA)
  • Public Health (AREA)
  • Water Supply & Treatment (AREA)
  • Operations Research (AREA)
  • Primary Health Care (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Quality & Reliability (AREA)
  • Biomedical Technology (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种基于数据驱动的超短期光伏输出功率预测方法,主要包括:步骤1、先对原始数据进行清洗;步骤2、利用奇异谱分析算法对清洗后的序列进行预处理,滤除噪声;步骤3、采用核主成分分析方法对影响因子进行筛选与降维;步骤4、将影响因子特征集和历史光伏功率数据作为轻量级梯度提升机(LightGBM)模型的训练数据进行训练,并通过灰狼优化(GWO)算法对LightGBM模型进行参数寻优;步骤5、基于GWO‑LightGBM模型对光伏功率进行预测。有益效果在于,解决了现有光伏输出功率预测技术中预测模型精度低,以及难以从历史数据中挖掘潜在天气信息与光伏输出功率之间的非线性映射关系等问题。

Description

一种基于数据驱动的超短期光伏输出功率预测方法
技术领域
本发明属于电力系统超短期光伏输出功率的预测技术领域,涉及一种基于数据驱动的超短期光伏输出功率预测方法。
背景技术
随着科学技术的不断发展,光伏(PV)发电已迅速成为继水电和风电之后的第三大可再生能源。根据国际能源署(IEA)的数据,2021年全球新增光伏装机容量175GW,占可再生能源新增容量的一半以上。由此可见,精准的光伏短期出力预测将成为维持能源市场供需平衡、保证电网正常运营的重要内容之一。目前已有的光伏输出功率预测研究中,存在以下痛点:1)难以捕捉天气因素与光伏输出功率之间的映射关系;2)由于影响光伏输出功率的因素众多,冗余的输入样本会导致预测模型陷入维数灾难;3)预测模型容易产生过拟合从而达不到预期要求;4)单一的预测方法往往不能充分挖掘数据的全部信息,导致准确率较低;5)对光伏功率预测的时间间隔通常为1h,不能满足更高精度的调度要求。为解决上述研究中存在的不足,应对大规模光伏并网给电网调度带来的挑战,本发明公开了一种基于数据驱动的超短期光伏输出功率预测方法,为电力系统中光伏输出功率的准确预测提供了理论依据和技术支撑。
发明内容
本发明的目的是提供一种基于数据驱动的超短期光伏输出功率预测方法,解决了现有光伏输出功率预测技术中预测模型精度低,以及难以从历史数据中挖掘潜在天气信息与光伏输出功率之间的非线性映射关系等问题。
本发明所采用的技术方案是,一种基于数据驱动的超短期光伏输出功率预测方法,具体按照以下步骤实施:
步骤1、考虑到光伏输出功率监测电站因自然环境的不可控因素,可能会存在数据的缺失、不统一等现象。因此为了提高数据质量和预测模型的训练效率,在开展预测任务前先对原始数据进行“数据清洗”;
步骤2、针对光伏发电伴随有的随机性和波动性,利用奇异谱分析(SSA)算法对原始光伏输出功率序列进行数据预处理,滤除噪声使序列平稳化,为后续的预测任务奠定基础;
步骤3、考虑到光伏输出功率的影响因子众多,然而高维空间中的影响因子选取是一个复杂的非线性问题。冗余的输入值有可能会导致模型的结构复杂度高,从而导致训练效率低。为此本发明采用核主成分分析(KPCA)方法对影响因子进行筛选与降维。降低数据维度,避免维数灾难的发生;
步骤4、将影响因子特征集和历史功率数据作为轻量级梯度提升机(LightGBM)模型的训练数据进行训练,并通过灰狼优化(GWO)算法对LightGBM模型进行参数寻优,避免模型易陷入局部最优;
步骤5、基于GWO-LightGBM模型,从历史数据中挖掘潜在天气信息与光伏功率之间的非线性映射关系,并且预测时间间隔为5min,时间粒度更精细,为电网调度提供更加详细的预测信息。
本发明的特点还在于:
步骤1具体按照以下实施:
考虑到监测电站因自然环境的不可控因素,可能会存在数据的缺失、不统一等现象。因此为了提高数据质量和预测模型的训练效率,本发明在开展预测任务前先对原始数据进行“数据清洗”。其过程主要包括:
(1)缺失值填补。若样本集中的采集变量缺失值超过80%,则直接删除处理;若缺失值在35%~80%,则依照数据分布特征(均匀分布和倾斜分布),选择均值或中数进行填充;若缺失值小于35%,则一律用众数进行填充。
(2)异常值剔除。根据样本集各列数据采集值与其平均值的距离大小,判断出远离其他对象的异常点,并根据异常点的数量和影响程度,采用中位数或平均数对其进行替换。
(3)规范化。由于样本集中数据之间存在大小、量纲差异较大的情况。因此需要对数据进行缩放,使其值落在一定范围内。
步骤2具体按照以下实施:
SSA可以有效地将原始光伏输出功率数据聚集到若干个子序列中,并对其进行重构、降噪。其具体过程主要包括4个步骤:
1.对于一维等间隔采样长度为N的时间序列X1,X2,...Xk,根据嵌入维度K计算轨迹矩阵,构造M×K阶轨迹矩阵X:
Figure BDA0004129057060000031
其中,K=N-M+1,M为窗口长度;
2.定义矩阵S=XXT,设λ为特征值,U为λ对应的特征向量。设d=rank(X),轨迹矩阵X可表示为
X=X1+X2+...+Xd (2)
初等矩阵
Figure BDA0004129057060000032
rank(Xi)=1,Xi和X具有相同的矩阵结构。U和V分别为矩阵X的左、右奇异向量,/>
Figure BDA0004129057060000033
为特征值,/>
Figure BDA0004129057060000034
为X的奇异谱。其中/>
Figure BDA0004129057060000035
且||Xi||2=λi,因此矩阵Xi的贡献率为/>
Figure BDA0004129057060000036
Figure BDA0004129057060000037
是前一个Xi的贡献率。
3.将初等矩阵{1,...,d}划分为m个不相交的子集I。轨迹矩阵X的奇异值分解可表达为Xi=Xi1+Xi2+...+Xim。分组是确定子集的过程。
合成矩阵Xi的贡献率表达式为
Figure BDA0004129057060000041
4.将矩阵转换为长度为N的重建成分。将所有的重建成分叠加即为重构后序列,定义为Z=XIk,z1,z2,...,zN为Z对角平均化所得到的序列,设M*=min(M,K),K*=max(M,K),若M<K,则
Figure BDA0004129057060000042
反之/>
Figure BDA0004129057060000043
则对角平均化的公式为
Figure BDA0004129057060000044
步骤3具体按照以下实施:
通过KPCA对光伏输出功率的主要影响因子进行分析,将数据从高维特征空间投影到低维特征子空间。相关步骤如下:
1.输入光伏输出功率影响因素的特征矩阵Xk×N=[x1,x2,...,xN]T,其中xi表示k种影响因素的N维特征向量。计算其RBF核矩阵K:
Figure BDA0004129057060000045
2.对K进行中心化处理,得到中心化核矩阵H:
Figure BDA0004129057060000051
3.计算特征值和特征向量:
Hμ=λμ (7)
4.将累积贡献率设为90%,并从大到小进行排序,筛选出前m个特征值λj和对应的特征向量aj
Figure BDA0004129057060000052
5.计算降维矩阵Y:
Figure BDA0004129057060000053
步骤4具体按照以下实施:
为避免建模过程中LightGBM模型出现局部最优问题,通过灰狼优化(GWO)算法对模型参数进行寻优。GWO算法数学过程包括如下:
1.包围猎物,其数学模型为
D=|MXP(t)| (10)
X(t+1)=XP(t)-NH (11)
式中,D为猎物和灰狼之间的距离,XP为猎物的位置向量。
2.随着捕食距离D的逐渐缩短,新一代灰狼的位置运用动态搜索方法更新系数M和N,计算如下:
M=2r2 (12)
N=2ar1-a (13)
式中,a为随着迭代次数的增加逐渐从2递减至0的参数。r1和r2是∈[0,1]的随机数。
3.灰狼包围猎物后进行捕猎,其中灰狼分为α、β、δ、ω4个等级,ω根据α、β、δ的位置信息进行更新,α、β、δ3个等级对应的搜索单位围捕方式为
Rλ=|MλXλ| (14)
Xi=Xλ-Nλ(Rλ) (15)
根据下式确定捕食方向:
Figure BDA0004129057060000061
式中,λ=α、β、δ;X(t+1)为更新后的潜在最优解向量,即所得为模型最优参数。
步骤5具体按照以下实施:
轻量级梯度提升机(LightGBM)模型在传统的梯度提升树基础上引入深度限制的叶子生长策略、直方图算法、梯度单边采样算法和独立特征合并算法。相关运算过程如下:
1.设经处理后得到的数据集为
D={(di,yi),i=1,2,...,N} (17)
式中,di为输入特征向量。
2.计算模型目标函数为
Figure BDA0004129057060000062
式中,I为树的深度;T为叶子数量;
Figure BDA0004129057060000063
为当前树模型的预测值;ft为第t代的预测函数;Ω(ft)为正则化项。
3.对目标函数的误差项进行泰勒二阶展开:
Figure BDA0004129057060000071
式中,gi和hi分别为
Figure BDA0004129057060000072
的一阶导数和二阶导数。则目标函数为
Figure BDA0004129057060000073
式中,Tγ为叶子节点的数量;γ为新节点复杂度代价参数;wj为叶节点取值(
Figure BDA0004129057060000074
为L2范数);Gj为一阶梯度累加和;Hj为二阶梯度累加和。
4.令目标函数对wj求导为零,求取极值点。得到目标函数:
Figure BDA0004129057060000075
5.根据不同排列,选择出目标函数最小,即最优的树。之后,根据分裂增益公式求解。
Figure BDA0004129057060000076
式中,GL、HL和GR、HR为左右节点的一阶导数和二阶导数。
6.根据Gain决定出最佳分裂点和最佳分裂特征。最后,若增益为正,则分裂后可提高模型性能。若增益为负,则停止分裂。经过重复迭代,最终得到决策树模型组合的LightGBM强学习器算法模型:
Figure BDA0004129057060000077
本发明的有益效果是:首先,考虑到光伏功率的影响因子众多,然而高维空间中的影响因子选取是一个复杂的非线性问题。冗余的输入值有可能会导致模型的结构复杂度高,从而导致训练效率低。为此采用KPCA方法对光伏输出功率的主要影响因子进行筛选,降低数据分析的维度,避免维数灾难的发生。随后,为了避免LightGBM模型出现陷入局部最优的问题,采用GWO算法进行模型的超参数寻优。此外,本发明预测时间间隔为5min,时间粒度更精细,为电网调度提供更加详细的预测信息。
附图说明
图1是本发明一种基于数据驱动的超短期光伏输出功率预测方法中LightGBM模型训练流程图;
图2是本发明一种基于数据驱动的超短期光伏输出功率预测方法中预测过程总体流程图;
图3是本发明一种基于数据驱动的超短期光伏输出功率预测方法中原始数据通过SSA算法处理前后对比图;
图4是本发明一种基于数据驱动的超短期光伏输出功率预测方法中春季超短期光伏输出功率预测结果图;
图5是本发明一种基于数据驱动的超短期光伏输出功率预测方法中夏季超短期光伏输出功率预测结果图;
图6是本发明一种基于数据驱动的超短期光伏输出功率预测方法中秋季超短期光伏输出功率预测结果图;
图7是本发明一种基于数据驱动的超短期光伏输出功率预测方法中冬季超短期光伏输出功率预测结果图。
具体实施方式
下面结合附图和具体实施方式对本发明进行详细说明。
本发明一种基于数据驱动的超短期光伏输出功率预测方法,具体按照以下步骤实施:
步骤1具体按照以下实施:考虑到监测电站因自然环境的不可控因素,可能会存在数据的缺失、不统一等现象。因此为了提高数据质量和预测模型的训练效率,本发明在开展预测任务前先对原始数据进行“数据清洗”。其过程主要包括:
(1)缺失值填补。若样本集中的采集变量缺失值超过80%,则直接删除处理;若缺失值在35%~80%,则依照数据分布特征(均匀分布和倾斜分布),选择均值或中数进行填充;若缺失值小于35%,则一律用众数进行填充。
(2)异常值剔除。根据样本集各列数据采集值与其平均值的距离大小,判断出远离其他对象的异常点,并根据异常点的数量和影响程度,采用中位数或平均数对其进行替换。
(3)规范化。由于样本集中数据之间存在大小、量纲差异较大的情况。因此需要对数据进行缩放,使其值落在一定范围内。
步骤2具体按照以下实施:
SSA可以有效地将原始光伏输出功率数据聚集到若干个子序列中,并对其进行重构、降噪。其具体过程主要包括4个步骤:
1.对于一维等间隔采样长度为N的时间序列X1,X2,...Xk,根据嵌入维度K计算轨迹矩阵,构造M×K阶轨迹矩阵X:
Figure BDA0004129057060000091
其中,K=N-M+1,M为窗口长度;
2.定义矩阵S=XXT,设λ为特征值,U为λ对应的特征向量。设d=rank(X),轨迹矩阵X可表示为
X=X1+X2+...+Xd(2)
初等矩阵
Figure BDA0004129057060000101
rank(Xi)=1,Xi和X具有相同的矩阵结构。U和V分别为矩阵X的左、右奇异向量,/>
Figure BDA0004129057060000102
为特征值,/>
Figure BDA0004129057060000103
为X的奇异谱。其中/>
Figure BDA0004129057060000104
且||Xi||2=λi,因此矩阵Xi的贡献率为/>
Figure BDA0004129057060000105
是前一个Xi的贡献率。
3.将初等矩阵{1,...,d}划分为m个不相交的子集I。轨迹矩阵X的奇异值分解可表达为Xi=Xi1+Xi2+...+Xim。分组是确定子集的过程。
合成矩阵Xi的贡献率表达式为
Figure BDA0004129057060000106
4.将矩阵转换为长度为N的重建成分。将所有的重建成分叠加即为重构后序列,定义为Z=XIk,z1,z2,...,zN为Z对角平均化所得到的序列,设M*=min(M,K),K*=max(M,K),若M<K,则
Figure BDA0004129057060000107
反之/>
Figure BDA0004129057060000108
则对角平均化的公式为
Figure BDA0004129057060000109
步骤3具体按照以下实施:
通过KPCA对光伏输出功率的主要影响因子进行分析,将数据从高维特征空间投影到低维特征子空间。相关步骤如下:
1.输入光伏输出功率影响因素的特征矩阵Xk×N=[x1,x2,...,xN]T,其中xi表示k种影响因素的N维特征向量。计算其RBF核矩阵K:
Figure BDA0004129057060000111
2.对K进行中心化处理,得到中心化核矩阵H:
Figure BDA0004129057060000114
3.计算特征值和特征向量:
Hμ=λμ (7)
4.将累积贡献率设为90%,并从大到小进行排序,筛选出前m个特征值λj和对应的特征向量aj
Figure BDA0004129057060000112
5.计算降维矩阵Y:
Figure BDA0004129057060000113
步骤4具体按照以下实施:
为避免建模过程中LightGBM模型出现局部最优问题,通过灰狼优化(GWO)算法对模型参数进行寻优。GWO算法数学过程包括如下:
1.包围猎物,其数学模型为
D=|MXP(t)| (10)
X(t+1)=XP(t)-NH (11)
式中,D为猎物和灰狼之间的距离,XP为猎物的位置向量。
2.随着捕食距离D的逐渐缩短,新一代灰狼的位置运用动态搜索方法更新系数M和N,计算如下:
M=2r2 (12)
N=2ar1-a (13)
式中,a为随着迭代次数的增加逐渐从2递减至0的参数。r1和r2是∈[0,1]的随机数。
3.灰狼包围猎物后进行捕猎,其中灰狼分为α、β、δ、ω4个等级,ω根据α、β、δ的位置信息进行更新,α、β、δ3个等级对应的搜索单位围捕方式为
Rλ=|MλXλ| (14)
Xi=Xλ-Nλ(Rλ) (15)
根据下式确定捕食方向:
Figure BDA0004129057060000121
式中,λ=α、β、δ;X(t+1)为更新后的潜在最优解向量,即所得为模型最优参数。
步骤5具体按照以下实施:
轻量级梯度提升机(LightGBM)模型在传统的梯度提升树基础上引入深度限制的叶子生长策略、直方图算法、梯度单边采样算法和独立特征合并算法。相关运算过程如下:
1.设经处理后得到的数据集为
D={(di,yi),i=1,2,...,N} (17)
式中,di为输入特征向量。
2.计算模型目标函数为
Figure BDA0004129057060000122
式中,I为树的深度;T为叶子数量;
Figure BDA0004129057060000131
为当前树模型的预测值;ft为第t代的预测函数;Ω(ft)为正则化项。
3.对目标函数的误差项进行泰勒二阶展开:
Figure BDA0004129057060000132
式中,gi和hi分别为
Figure BDA0004129057060000133
的一阶导数和二阶导数。则目标函数为
Figure BDA0004129057060000134
式中,Tγ为叶子节点的数量;γ为新节点复杂度代价参数;wj为叶节点取值(
Figure BDA0004129057060000135
为L2范数);Gj为一阶梯度累加和;Hj为二阶梯度累加和。
4.令目标函数对wj求导为零,求取极值点。得到目标函数:
Figure BDA0004129057060000136
5.根据不同排列,选择出目标函数最小,即最优的树。之后,根据分裂增益公式求解。
Figure BDA0004129057060000137
式中,GL、HL和GR、HR为左右节点的一阶导数和二阶导数。
6.根据Gain决定出最佳分裂点和最佳分裂特征。最后,若增益为正,则分裂后可提高模型性能。若增益为负,则停止分裂。经过重复迭代,最终得到决策树模型组合的LightGBM强学习器算法模型:
Figure BDA0004129057060000138
LightGBM模型的训练框架和模块运用的流程如图1所示。系统总体流程如图2所示。
实施例
本发明选用澳大利亚沙漠知识太阳能中心DKASC(Desert Knowledge AustraliaSolar Center)网站的公开的Alice Springs站点2015年的光伏输出功率和相关数据作为数据集进行了仿真预测,该数据集包括光伏电站历史输出功率以及当日的实际气象数据。其中气象因素有水平辐射、水平散射、倾斜辐射、倾斜散射、环境温度、相对湿度、风速和降雨量。样本的采样时间周期为5min,由于晚间的光伏功率均为0,所以每天取7:00—19:00的数据。
考虑到监测电站因自然环境的不可控因素,可能会存在数据的缺失、不统一等现象。因此为了提高数据质量和预测模型的训练效率,本文在开展预测任务前先对原始数据进行“数据清洗”。随后利用SSA算法对原时间序列数据进行重构、降噪,得到更易于预测模型学习规律的序列。利用SSA算法处理后所得光伏功率时间序列如图3所示。考虑到不同季节的光伏输出功率特征不一,因此本发明以月为单位步长,对光伏输出功率进行预测。数据集依据当月前70%的数据样本作为训练集,后30%的数据样本作为测试集。
随后引入KPCA方法对输入空间进行降维处理,将主成分累积贡献率设定在90%。以夏季数据特征为例,经过计算得出的主成分贡献率以及累计贡献率如表1所示。
表1夏季光伏输出功率影响因子的主成分贡献率和累积贡献率
Figure BDA0004129057060000141
Figure BDA0004129057060000151
根据表1的计算结果,前7个影响因素的累计贡献率满足实验设定要求,因此将这7个因素作为预测模型的影响因素输入。
为了调整LightGBM模型内部的超参数,改良决策树的集成运算性能。本发明以误差值最小为目的,采用GWO方法寻求最优的LightGBM模型的超参数设置组合,增强预测模型的鲁棒性,模型超参数如表2所示:
表2 LightGBM模型的超参数设置
Figure BDA0004129057060000152
实验采用LightGBM作为光伏输出功率的预测模型,并用GWO优化算法对模型中参数最优值寻优。同时,为了检验GWO-LightGBM预测模型的性能,在相同样本长度的条件下分别对不同季节的光伏输出功率进行预测。为方便量化预测模型的精度与泛化能力,选取测试集中一天的预测结果进行分析。预测结果如图4(春天),图5(夏天),图6(秋天),图7(冬天)所示。
表3不同季节预测的RMSE(kW)和MAPE(%)
Figure BDA0004129057060000161
表3给出了GWO-LightGBM模型对于不同季节光伏输出功率预测的误差评价指标。可以看出使用GWO-LightGBM模型预测的平均MAPE/%和RMSE/kW分别为2.942%和0.143kW。由此可见,本发明提出的日前分钟级GWO-LightGBM预测模型的具有预测精度高,稳定性好,鲁棒性强的特点,能够较为准确地反映预测日的光伏功率特性,为光伏并网调度提供更加有用的信息。

Claims (6)

1.一种基于数据驱动的超短期光伏输出功率预测方法,其特征在于,具体按照以下步骤实施:
步骤1、考虑到光伏输出功率监测电站因自然环境的不可控因素,可能会存在数据的缺失、不统一等现象。因此为了提高数据质量和预测模型的训练效率,在开展预测任务前先对原始数据进行“数据清洗”;
步骤2、针对光伏发电伴随有的随机性和波动性,利用奇异谱分析(SSA)算法对原始光伏输出功率序列进行数据预处理,滤除噪声使序列平稳化,为后续的预测任务奠定基础;
步骤3、考虑到光伏输出功率的影响因子众多,然而高维空间中的影响因子选取是一个复杂的非线性问题。冗余的输入值有可能会导致模型的结构复杂度高,从而导致训练效率低。为此本发明采用核主成分分析(KPCA)方法对影响因子进行筛选与降维。降低数据维度,避免维数灾难的发生;
步骤4、将影响因子特征集和历史功率数据作为轻量级梯度提升机(LightGBM)模型的训练数据进行训练,并通过灰狼优化(GWO)算法对LightGBM模型进行参数寻优,避免模型易陷入局部最优;
步骤5、基于GWO-LightGBM模型,从历史数据中挖掘潜在天气信息与光伏功率之间的非线性映射关系,并且预测时间间隔为5min,时间粒度更精细,为电网调度提供更加详细的预测信息。
2.根据权利要求1所述的一种基于数据驱动的超短期光伏输出功率预测方法,其特征在于,所述步骤1具体按照以下实施:
考虑到监测电站因自然环境的不可控因素,可能会存在数据的缺失、不统一等现象。因此为了提高数据质量和预测模型的训练效率,本发明在开展预测任务前先对原始数据进行“数据清洗”。其过程主要包括:
(1)缺失值填补。若样本集中的采集变量缺失值超过80%,则直接删除处理;若缺失值在35%~80%,则依照数据分布特征(均匀分布和倾斜分布),选择均值或中数进行填充;若缺失值小于35%,则一律用众数进行填充。
(2)异常值剔除。根据样本集各列数据采集值与其平均值的距离大小,判断出远离其他对象的异常点,并根据异常点的数量和影响程度,采用中位数或平均数对其进行替换。
(3)规范化。由于样本集中数据之间存在大小、量纲差异较大的情况。因此需要对数据进行缩放,使其值落在一定范围内。
3.根据权利要求1所述的一种基于数据驱动的超短期光伏输出功率预测方法,其特征在于,所述步骤2具体按照以下实施:
SSA可以有效地将原始光伏输出功率数据聚集到若干个子序列中,并对其进行重构、降噪。其具体过程主要包括4个步骤:
1.对于一维等间隔采样长度为N的时间序列X1,X2,...Xk,根据嵌入维度K计算轨迹矩阵,构造M×K阶轨迹矩阵X:
Figure FDA0004129057050000021
其中,K=N-M+1,M为窗口长度;
2.定义矩阵S=XXT,设λ为特征值,U为λ对应的特征向量。设d=rank(X),轨迹矩阵X可表示为X=X1+X2+...+Xd(2)
初等矩阵
Figure FDA0004129057050000031
rank(Xi)=1,Xi和X具有相同的矩阵结构。U和V分别为矩阵X的左、右奇异向量,/>
Figure FDA0004129057050000032
为特征值,/>
Figure FDA0004129057050000033
为X的奇异谱。其中/>
Figure FDA0004129057050000034
且||Xi||2=λi,因此矩阵Xi的贡献率为/>
Figure FDA0004129057050000035
是前一个Xi的贡献率。
3.将初等矩阵{1,...,d}划分为m个不相交的子集I。轨迹矩阵X的奇异值分解可表达为Xi=Xi1+Xi2+...+Xim。分组是确定子集的过程。
合成矩阵Xi的贡献率表达式为
Figure FDA0004129057050000036
4.将矩阵转换为长度为N的重建成分。将所有的重建成分叠加即为重构后序列,定义为Z=XIk,z1,z2,...,zN为Z对角平均化所得到的序列,设M*=min(M,K),K*=max(M,K),若M<K,则
Figure FDA0004129057050000037
反之/>
Figure FDA0004129057050000038
则对角平均化的公式为
Figure FDA0004129057050000039
4.根据权利要求1所述的一种基于数据驱动的超短期光伏输出功率预测方法,其特征在于,所述步骤3具体按照以下实施:
通过KPCA对光伏输出功率的主要影响因子进行分析,将数据从高维特征空间投影到低维特征子空间。相关步骤如下:
1.输入光伏输出功率影响因素的特征矩阵Xk×N=[x1,x2,...,xN]T,其中xi表示k种影响因素的N维特征向量。计算其RBF核矩阵K:
Figure FDA0004129057050000041
2.对K进行中心化处理,得到中心化核矩阵H:
Figure FDA0004129057050000042
3.计算特征值和特征向量:
Hμ=λμ (7)
4.将累积贡献率设为90%,并从大到小进行排序,筛选出前m个特征值λj和对应的特征向量aj
Figure FDA0004129057050000043
5.计算降维矩阵Y:
Figure FDA0004129057050000044
5.根据权利要求1所述的一种基于数据驱动的超短期光伏输出功率预测方法,其特征在于,所述步骤4具体按照以下实施:
为避免建模过程中LightGBM模型出现局部最优问题,通过灰狼优化(GWO)算法对模型参数进行寻优。GWO算法数学过程包括如下:
1.包围猎物,其数学模型为
D=|MXP(t)| (10)
X(t+1)=XP(t)-NH (11)
式中,D为猎物和灰狼之间的距离,XP为猎物的位置向量。
2.随着捕食距离D的逐渐缩短,新一代灰狼的位置运用动态搜索方法更新系数M和N,计算如下:
M=2r2 (12)
N=2ar1-a (13)
式中,a为随着迭代次数的增加逐渐从2递减至0的参数。r1和r2是∈[0,1]的随机数。
3.灰狼包围猎物后进行捕猎,其中灰狼分为α、β、δ、ω4个等级,ω根据α、β、δ的位置信息进行更新,α、β、δ3个等级对应的搜索单位围捕方式为
Rλ=|MλXλ| (14)
Xi=Xλ-Nλ(Rλ) (15)
根据下式确定捕食方向:
Figure FDA0004129057050000051
式中,λ=α、β、δ;X(t+1)为更新后的潜在最优解向量,即所得为模型最优参数。
6.根据权利要求1所述的一种基于数据驱动的超短期光伏输出功率预测方法,其特征在于,所述步骤5具体按照以下实施:
轻量级梯度提升机(LightGBM)模型在传统的梯度提升树基础上引入深度限制的叶子生长策略、直方图算法、梯度单边采样算法和独立特征合并算法。相关运算过程如下:
1.设经处理后得到的数据集为
D={(di,yi),i=1,2,...,N} (17)
式中,di为输入特征向量。
2.计算模型目标函数为
Figure FDA0004129057050000061
式中,I为树的深度;T为叶子数量;
Figure FDA0004129057050000062
为当前树模型的预测值;ft为第t代的预测函数;Ω(ft)为正则化项。
3.对目标函数的误差项进行泰勒二阶展开:
Figure FDA0004129057050000063
式中,gi和hi分别为
Figure FDA0004129057050000064
的一阶导数和二阶导数。则目标函数为
Figure FDA0004129057050000065
式中,Tγ为叶子节点的数量;γ为新节点复杂度代价参数;wj为叶节点取值(
Figure FDA0004129057050000066
为L2范数);Gj为一阶梯度累加和;Hj为二阶梯度累加和。
4.令目标函数对wj求导为零,求取极值点。得到目标函数:
Figure FDA0004129057050000067
5.根据不同排列,选择出目标函数最小,即最优的树。之后,根据分裂增益公式求解。
Figure FDA0004129057050000068
式中,GL、HL和GR、HR为左右节点的一阶导数和二阶导数。
6.根据Gain决定出最佳分裂点和最佳分裂特征。最后,若增益为正,则分裂后可提高模型性能。若增益为负,则停止分裂。经过重复迭代,最终得到决策树模型组合的LightGBM强学习器算法模型:
Figure FDA0004129057050000071
CN202310254452.1A 2023-03-16 2023-03-16 一种基于数据驱动的超短期光伏输出功率预测方法 Pending CN116341728A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310254452.1A CN116341728A (zh) 2023-03-16 2023-03-16 一种基于数据驱动的超短期光伏输出功率预测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310254452.1A CN116341728A (zh) 2023-03-16 2023-03-16 一种基于数据驱动的超短期光伏输出功率预测方法

Publications (1)

Publication Number Publication Date
CN116341728A true CN116341728A (zh) 2023-06-27

Family

ID=86888856

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310254452.1A Pending CN116341728A (zh) 2023-03-16 2023-03-16 一种基于数据驱动的超短期光伏输出功率预测方法

Country Status (1)

Country Link
CN (1) CN116341728A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116523145A (zh) * 2023-06-29 2023-08-01 长江三峡集团实业发展(北京)有限公司 光伏功率超短期预测方法、装置、计算机设备及存储介质
CN117763356A (zh) * 2023-12-26 2024-03-26 中国地质科学院地质力学研究所 一种基于LightGBM算法的地震相快速识别方法

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116523145A (zh) * 2023-06-29 2023-08-01 长江三峡集团实业发展(北京)有限公司 光伏功率超短期预测方法、装置、计算机设备及存储介质
CN116523145B (zh) * 2023-06-29 2023-10-20 长江三峡集团实业发展(北京)有限公司 光伏功率超短期预测方法、装置、计算机设备及存储介质
CN117763356A (zh) * 2023-12-26 2024-03-26 中国地质科学院地质力学研究所 一种基于LightGBM算法的地震相快速识别方法

Similar Documents

Publication Publication Date Title
CN111079980B (zh) 基于自适应分类策略和混合优化svr的光功率预测方法
Tang et al. Photovoltaic power forecasting: A hybrid deep learning model incorporating transfer learning strategy
CN116341728A (zh) 一种基于数据驱动的超短期光伏输出功率预测方法
CN110929953A (zh) 基于聚类分析的光伏电站超短期出力预测方法
Zhang et al. Wavelet-based neural network with genetic algorithm optimization for generation prediction of PV plants
Sodsong et al. Short-term solar PV forecasting using gated recurrent unit with a cascade model
CN114792156A (zh) 基于曲线特征指标聚类的光伏输出功率预测方法和系统
CN116629416A (zh) 光伏电站功率预测方法及装置
CN114330934A (zh) 一种模型参数自适应的gru新能源短期发电功率预测方法
Shi et al. Four-stage space-time hybrid model for distributed photovoltaic power forecasting
CN116341613A (zh) 一种基于Informer encoder和LSTM的超短期光伏功率预测方法
CN115169742A (zh) 一种短期风力发电功率预测方法
Zhang et al. Ultra-short-term multi-step probability interval prediction of photovoltaic power: A framework with time-series-segment feature analysis
CN114611757A (zh) 基于遗传算法与改进深度残差网络的电力系统短期负荷预测方法
CN113837434A (zh) 太阳能光伏发电预测方法、装置、电子设备和存储介质
Qi et al. Short-term prediction of PV power based on fusions of power series and ramp series
CN116167508B (zh) 一种基于气象因素分解的短期光伏出力快速预测方法及系统
CN117132132A (zh) 基于气象数据的光伏发电功率预测方法
Xia et al. Research on Solar Radiation Estimation based on Singular Spectrum Analysis-Deep Belief Network
Behera et al. Comparative study of convolutional neural network and long short-term memory network for solar irradiance forecasting
CN112529285A (zh) 一种基于相似日理论和pca-pso-bp的光伏发电功率预测方法
Cheng et al. Temperature & humidity-weighted-modified GRNN based prediction model of photovoltaic power generation
Bo et al. Ultra-short-term PV power forecasting based on LSTM with PeepHoles connections
Peng et al. A Hybrid Model for Solar Radiation Forecasting towards Energy Efficient Buildings
Wu et al. Overview of Day-ahead Solar Power Forecasts Based on Weather Classifications and a Case Study in Taiwan

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination