CN116341728A - 一种基于数据驱动的超短期光伏输出功率预测方法 - Google Patents
一种基于数据驱动的超短期光伏输出功率预测方法 Download PDFInfo
- Publication number
- CN116341728A CN116341728A CN202310254452.1A CN202310254452A CN116341728A CN 116341728 A CN116341728 A CN 116341728A CN 202310254452 A CN202310254452 A CN 202310254452A CN 116341728 A CN116341728 A CN 116341728A
- Authority
- CN
- China
- Prior art keywords
- data
- model
- output power
- matrix
- photovoltaic output
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 54
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 29
- 238000012549 training Methods 0.000 claims abstract description 18
- 238000005457 optimization Methods 0.000 claims abstract description 14
- 238000004140 cleaning Methods 0.000 claims abstract description 7
- 238000013507 mapping Methods 0.000 claims abstract description 5
- 238000012216 screening Methods 0.000 claims abstract description 4
- 238000007781 pre-processing Methods 0.000 claims abstract description 3
- 238000010183 spectrum analysis Methods 0.000 claims abstract description 3
- 239000011159 matrix material Substances 0.000 claims description 45
- 230000006870 function Effects 0.000 claims description 21
- 239000013598 vector Substances 0.000 claims description 18
- 230000002159 abnormal effect Effects 0.000 claims description 9
- 230000001186 cumulative effect Effects 0.000 claims description 7
- 238000005070 sampling Methods 0.000 claims description 7
- 238000012935 Averaging Methods 0.000 claims description 6
- 238000009825 accumulation Methods 0.000 claims description 6
- 238000012217 deletion Methods 0.000 claims description 6
- 230000037430 deletion Effects 0.000 claims description 6
- 238000009826 distribution Methods 0.000 claims description 6
- 238000012544 monitoring process Methods 0.000 claims description 6
- 238000003066 decision tree Methods 0.000 claims description 4
- 241000282421 Canidae Species 0.000 claims description 3
- 241000282461 Canis lupus Species 0.000 claims description 3
- 102000008297 Nuclear Matrix-Associated Proteins Human genes 0.000 claims description 3
- 108010035916 Nuclear Matrix-Associated Proteins Proteins 0.000 claims description 3
- 230000015572 biosynthetic process Effects 0.000 claims description 3
- 238000000354 decomposition reaction Methods 0.000 claims description 3
- 230000003247 decreasing effect Effects 0.000 claims description 3
- 230000002015 leaf growth Effects 0.000 claims description 3
- 238000013178 mathematical model Methods 0.000 claims description 3
- 210000000299 nuclear matrix Anatomy 0.000 claims description 3
- 238000010248 power generation Methods 0.000 claims description 3
- 238000004904 shortening Methods 0.000 claims description 3
- 238000001228 spectrum Methods 0.000 claims description 3
- 238000003786 synthesis reaction Methods 0.000 claims description 3
- 238000009827 uniform distribution Methods 0.000 claims description 3
- 238000005065 mining Methods 0.000 claims description 2
- 238000000513 principal component analysis Methods 0.000 claims description 2
- 238000005516 engineering process Methods 0.000 abstract description 3
- 230000009286 beneficial effect Effects 0.000 abstract description 2
- 238000001914 filtration Methods 0.000 abstract 1
- 238000012847 principal component analysis method Methods 0.000 abstract 1
- 238000012545 processing Methods 0.000 description 3
- 238000012360 testing method Methods 0.000 description 3
- 101001095088 Homo sapiens Melanoma antigen preferentially expressed in tumors Proteins 0.000 description 2
- 102100037020 Melanoma antigen preferentially expressed in tumors Human genes 0.000 description 2
- 230000005855 radiation Effects 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000007405 data analysis Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 230000003203 everyday effect Effects 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 238000004088 simulation Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/04—Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/004—Artificial life, i.e. computing arrangements simulating life
- G06N3/006—Artificial life, i.e. computing arrangements simulating life based on simulated virtual individual or collective life forms, e.g. social simulations or particle swarm optimisation [PSO]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/06—Energy or water supply
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y04—INFORMATION OR COMMUNICATION TECHNOLOGIES HAVING AN IMPACT ON OTHER TECHNOLOGY AREAS
- Y04S—SYSTEMS INTEGRATING TECHNOLOGIES RELATED TO POWER NETWORK OPERATION, COMMUNICATION OR INFORMATION TECHNOLOGIES FOR IMPROVING THE ELECTRICAL POWER GENERATION, TRANSMISSION, DISTRIBUTION, MANAGEMENT OR USAGE, i.e. SMART GRIDS
- Y04S10/00—Systems supporting electrical power generation, transmission or distribution
- Y04S10/50—Systems or methods supporting the power network operation or management, involving a certain degree of interaction with the load-side end user applications
Landscapes
- Engineering & Computer Science (AREA)
- Business, Economics & Management (AREA)
- Physics & Mathematics (AREA)
- Economics (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Human Resources & Organizations (AREA)
- Strategic Management (AREA)
- General Physics & Mathematics (AREA)
- Marketing (AREA)
- General Business, Economics & Management (AREA)
- Tourism & Hospitality (AREA)
- General Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Biophysics (AREA)
- Game Theory and Decision Science (AREA)
- Development Economics (AREA)
- Public Health (AREA)
- Water Supply & Treatment (AREA)
- Operations Research (AREA)
- Primary Health Care (AREA)
- Life Sciences & Earth Sciences (AREA)
- Quality & Reliability (AREA)
- Biomedical Technology (AREA)
- Entrepreneurship & Innovation (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明公开了一种基于数据驱动的超短期光伏输出功率预测方法,主要包括:步骤1、先对原始数据进行清洗;步骤2、利用奇异谱分析算法对清洗后的序列进行预处理,滤除噪声;步骤3、采用核主成分分析方法对影响因子进行筛选与降维;步骤4、将影响因子特征集和历史光伏功率数据作为轻量级梯度提升机(LightGBM)模型的训练数据进行训练,并通过灰狼优化(GWO)算法对LightGBM模型进行参数寻优;步骤5、基于GWO‑LightGBM模型对光伏功率进行预测。有益效果在于,解决了现有光伏输出功率预测技术中预测模型精度低,以及难以从历史数据中挖掘潜在天气信息与光伏输出功率之间的非线性映射关系等问题。
Description
技术领域
本发明属于电力系统超短期光伏输出功率的预测技术领域,涉及一种基于数据驱动的超短期光伏输出功率预测方法。
背景技术
随着科学技术的不断发展,光伏(PV)发电已迅速成为继水电和风电之后的第三大可再生能源。根据国际能源署(IEA)的数据,2021年全球新增光伏装机容量175GW,占可再生能源新增容量的一半以上。由此可见,精准的光伏短期出力预测将成为维持能源市场供需平衡、保证电网正常运营的重要内容之一。目前已有的光伏输出功率预测研究中,存在以下痛点:1)难以捕捉天气因素与光伏输出功率之间的映射关系;2)由于影响光伏输出功率的因素众多,冗余的输入样本会导致预测模型陷入维数灾难;3)预测模型容易产生过拟合从而达不到预期要求;4)单一的预测方法往往不能充分挖掘数据的全部信息,导致准确率较低;5)对光伏功率预测的时间间隔通常为1h,不能满足更高精度的调度要求。为解决上述研究中存在的不足,应对大规模光伏并网给电网调度带来的挑战,本发明公开了一种基于数据驱动的超短期光伏输出功率预测方法,为电力系统中光伏输出功率的准确预测提供了理论依据和技术支撑。
发明内容
本发明的目的是提供一种基于数据驱动的超短期光伏输出功率预测方法,解决了现有光伏输出功率预测技术中预测模型精度低,以及难以从历史数据中挖掘潜在天气信息与光伏输出功率之间的非线性映射关系等问题。
本发明所采用的技术方案是,一种基于数据驱动的超短期光伏输出功率预测方法,具体按照以下步骤实施:
步骤1、考虑到光伏输出功率监测电站因自然环境的不可控因素,可能会存在数据的缺失、不统一等现象。因此为了提高数据质量和预测模型的训练效率,在开展预测任务前先对原始数据进行“数据清洗”;
步骤2、针对光伏发电伴随有的随机性和波动性,利用奇异谱分析(SSA)算法对原始光伏输出功率序列进行数据预处理,滤除噪声使序列平稳化,为后续的预测任务奠定基础;
步骤3、考虑到光伏输出功率的影响因子众多,然而高维空间中的影响因子选取是一个复杂的非线性问题。冗余的输入值有可能会导致模型的结构复杂度高,从而导致训练效率低。为此本发明采用核主成分分析(KPCA)方法对影响因子进行筛选与降维。降低数据维度,避免维数灾难的发生;
步骤4、将影响因子特征集和历史功率数据作为轻量级梯度提升机(LightGBM)模型的训练数据进行训练,并通过灰狼优化(GWO)算法对LightGBM模型进行参数寻优,避免模型易陷入局部最优;
步骤5、基于GWO-LightGBM模型,从历史数据中挖掘潜在天气信息与光伏功率之间的非线性映射关系,并且预测时间间隔为5min,时间粒度更精细,为电网调度提供更加详细的预测信息。
本发明的特点还在于:
步骤1具体按照以下实施:
考虑到监测电站因自然环境的不可控因素,可能会存在数据的缺失、不统一等现象。因此为了提高数据质量和预测模型的训练效率,本发明在开展预测任务前先对原始数据进行“数据清洗”。其过程主要包括:
(1)缺失值填补。若样本集中的采集变量缺失值超过80%,则直接删除处理;若缺失值在35%~80%,则依照数据分布特征(均匀分布和倾斜分布),选择均值或中数进行填充;若缺失值小于35%,则一律用众数进行填充。
(2)异常值剔除。根据样本集各列数据采集值与其平均值的距离大小,判断出远离其他对象的异常点,并根据异常点的数量和影响程度,采用中位数或平均数对其进行替换。
(3)规范化。由于样本集中数据之间存在大小、量纲差异较大的情况。因此需要对数据进行缩放,使其值落在一定范围内。
步骤2具体按照以下实施:
SSA可以有效地将原始光伏输出功率数据聚集到若干个子序列中,并对其进行重构、降噪。其具体过程主要包括4个步骤:
1.对于一维等间隔采样长度为N的时间序列X1,X2,...Xk,根据嵌入维度K计算轨迹矩阵,构造M×K阶轨迹矩阵X:
其中,K=N-M+1,M为窗口长度;
2.定义矩阵S=XXT,设λ为特征值,U为λ对应的特征向量。设d=rank(X),轨迹矩阵X可表示为
X=X1+X2+...+Xd (2)
初等矩阵rank(Xi)=1,Xi和X具有相同的矩阵结构。U和V分别为矩阵X的左、右奇异向量,/>为特征值,/>为X的奇异谱。其中/>且||Xi||2=λi,因此矩阵Xi的贡献率为/> 是前一个Xi的贡献率。
3.将初等矩阵{1,...,d}划分为m个不相交的子集I。轨迹矩阵X的奇异值分解可表达为Xi=Xi1+Xi2+...+Xim。分组是确定子集的过程。
合成矩阵Xi的贡献率表达式为
4.将矩阵转换为长度为N的重建成分。将所有的重建成分叠加即为重构后序列,定义为Z=XIk,z1,z2,...,zN为Z对角平均化所得到的序列,设M*=min(M,K),K*=max(M,K),若M<K,则反之/>则对角平均化的公式为
步骤3具体按照以下实施:
通过KPCA对光伏输出功率的主要影响因子进行分析,将数据从高维特征空间投影到低维特征子空间。相关步骤如下:
1.输入光伏输出功率影响因素的特征矩阵Xk×N=[x1,x2,...,xN]T,其中xi表示k种影响因素的N维特征向量。计算其RBF核矩阵K:
2.对K进行中心化处理,得到中心化核矩阵H:
3.计算特征值和特征向量:
Hμ=λμ (7)
4.将累积贡献率设为90%,并从大到小进行排序,筛选出前m个特征值λj和对应的特征向量aj。
5.计算降维矩阵Y:
步骤4具体按照以下实施:
为避免建模过程中LightGBM模型出现局部最优问题,通过灰狼优化(GWO)算法对模型参数进行寻优。GWO算法数学过程包括如下:
1.包围猎物,其数学模型为
D=|MXP(t)| (10)
X(t+1)=XP(t)-NH (11)
式中,D为猎物和灰狼之间的距离,XP为猎物的位置向量。
2.随着捕食距离D的逐渐缩短,新一代灰狼的位置运用动态搜索方法更新系数M和N,计算如下:
M=2r2 (12)
N=2ar1-a (13)
式中,a为随着迭代次数的增加逐渐从2递减至0的参数。r1和r2是∈[0,1]的随机数。
3.灰狼包围猎物后进行捕猎,其中灰狼分为α、β、δ、ω4个等级,ω根据α、β、δ的位置信息进行更新,α、β、δ3个等级对应的搜索单位围捕方式为
Rλ=|MλXλ| (14)
Xi=Xλ-Nλ(Rλ) (15)
根据下式确定捕食方向:
式中,λ=α、β、δ;X(t+1)为更新后的潜在最优解向量,即所得为模型最优参数。
步骤5具体按照以下实施:
轻量级梯度提升机(LightGBM)模型在传统的梯度提升树基础上引入深度限制的叶子生长策略、直方图算法、梯度单边采样算法和独立特征合并算法。相关运算过程如下:
1.设经处理后得到的数据集为
D={(di,yi),i=1,2,...,N} (17)
式中,di为输入特征向量。
2.计算模型目标函数为
3.对目标函数的误差项进行泰勒二阶展开:
4.令目标函数对wj求导为零,求取极值点。得到目标函数:
5.根据不同排列,选择出目标函数最小,即最优的树。之后,根据分裂增益公式求解。
式中,GL、HL和GR、HR为左右节点的一阶导数和二阶导数。
6.根据Gain决定出最佳分裂点和最佳分裂特征。最后,若增益为正,则分裂后可提高模型性能。若增益为负,则停止分裂。经过重复迭代,最终得到决策树模型组合的LightGBM强学习器算法模型:
本发明的有益效果是:首先,考虑到光伏功率的影响因子众多,然而高维空间中的影响因子选取是一个复杂的非线性问题。冗余的输入值有可能会导致模型的结构复杂度高,从而导致训练效率低。为此采用KPCA方法对光伏输出功率的主要影响因子进行筛选,降低数据分析的维度,避免维数灾难的发生。随后,为了避免LightGBM模型出现陷入局部最优的问题,采用GWO算法进行模型的超参数寻优。此外,本发明预测时间间隔为5min,时间粒度更精细,为电网调度提供更加详细的预测信息。
附图说明
图1是本发明一种基于数据驱动的超短期光伏输出功率预测方法中LightGBM模型训练流程图;
图2是本发明一种基于数据驱动的超短期光伏输出功率预测方法中预测过程总体流程图;
图3是本发明一种基于数据驱动的超短期光伏输出功率预测方法中原始数据通过SSA算法处理前后对比图;
图4是本发明一种基于数据驱动的超短期光伏输出功率预测方法中春季超短期光伏输出功率预测结果图;
图5是本发明一种基于数据驱动的超短期光伏输出功率预测方法中夏季超短期光伏输出功率预测结果图;
图6是本发明一种基于数据驱动的超短期光伏输出功率预测方法中秋季超短期光伏输出功率预测结果图;
图7是本发明一种基于数据驱动的超短期光伏输出功率预测方法中冬季超短期光伏输出功率预测结果图。
具体实施方式
下面结合附图和具体实施方式对本发明进行详细说明。
本发明一种基于数据驱动的超短期光伏输出功率预测方法,具体按照以下步骤实施:
步骤1具体按照以下实施:考虑到监测电站因自然环境的不可控因素,可能会存在数据的缺失、不统一等现象。因此为了提高数据质量和预测模型的训练效率,本发明在开展预测任务前先对原始数据进行“数据清洗”。其过程主要包括:
(1)缺失值填补。若样本集中的采集变量缺失值超过80%,则直接删除处理;若缺失值在35%~80%,则依照数据分布特征(均匀分布和倾斜分布),选择均值或中数进行填充;若缺失值小于35%,则一律用众数进行填充。
(2)异常值剔除。根据样本集各列数据采集值与其平均值的距离大小,判断出远离其他对象的异常点,并根据异常点的数量和影响程度,采用中位数或平均数对其进行替换。
(3)规范化。由于样本集中数据之间存在大小、量纲差异较大的情况。因此需要对数据进行缩放,使其值落在一定范围内。
步骤2具体按照以下实施:
SSA可以有效地将原始光伏输出功率数据聚集到若干个子序列中,并对其进行重构、降噪。其具体过程主要包括4个步骤:
1.对于一维等间隔采样长度为N的时间序列X1,X2,...Xk,根据嵌入维度K计算轨迹矩阵,构造M×K阶轨迹矩阵X:
其中,K=N-M+1,M为窗口长度;
2.定义矩阵S=XXT,设λ为特征值,U为λ对应的特征向量。设d=rank(X),轨迹矩阵X可表示为
X=X1+X2+...+Xd(2)
初等矩阵rank(Xi)=1,Xi和X具有相同的矩阵结构。U和V分别为矩阵X的左、右奇异向量,/>为特征值,/>为X的奇异谱。其中/>且||Xi||2=λi,因此矩阵Xi的贡献率为/>是前一个Xi的贡献率。
3.将初等矩阵{1,...,d}划分为m个不相交的子集I。轨迹矩阵X的奇异值分解可表达为Xi=Xi1+Xi2+...+Xim。分组是确定子集的过程。
合成矩阵Xi的贡献率表达式为
4.将矩阵转换为长度为N的重建成分。将所有的重建成分叠加即为重构后序列,定义为Z=XIk,z1,z2,...,zN为Z对角平均化所得到的序列,设M*=min(M,K),K*=max(M,K),若M<K,则反之/>则对角平均化的公式为
步骤3具体按照以下实施:
通过KPCA对光伏输出功率的主要影响因子进行分析,将数据从高维特征空间投影到低维特征子空间。相关步骤如下:
1.输入光伏输出功率影响因素的特征矩阵Xk×N=[x1,x2,...,xN]T,其中xi表示k种影响因素的N维特征向量。计算其RBF核矩阵K:
2.对K进行中心化处理,得到中心化核矩阵H:
3.计算特征值和特征向量:
Hμ=λμ (7)
4.将累积贡献率设为90%,并从大到小进行排序,筛选出前m个特征值λj和对应的特征向量aj。
5.计算降维矩阵Y:
步骤4具体按照以下实施:
为避免建模过程中LightGBM模型出现局部最优问题,通过灰狼优化(GWO)算法对模型参数进行寻优。GWO算法数学过程包括如下:
1.包围猎物,其数学模型为
D=|MXP(t)| (10)
X(t+1)=XP(t)-NH (11)
式中,D为猎物和灰狼之间的距离,XP为猎物的位置向量。
2.随着捕食距离D的逐渐缩短,新一代灰狼的位置运用动态搜索方法更新系数M和N,计算如下:
M=2r2 (12)
N=2ar1-a (13)
式中,a为随着迭代次数的增加逐渐从2递减至0的参数。r1和r2是∈[0,1]的随机数。
3.灰狼包围猎物后进行捕猎,其中灰狼分为α、β、δ、ω4个等级,ω根据α、β、δ的位置信息进行更新,α、β、δ3个等级对应的搜索单位围捕方式为
Rλ=|MλXλ| (14)
Xi=Xλ-Nλ(Rλ) (15)
根据下式确定捕食方向:
式中,λ=α、β、δ;X(t+1)为更新后的潜在最优解向量,即所得为模型最优参数。
步骤5具体按照以下实施:
轻量级梯度提升机(LightGBM)模型在传统的梯度提升树基础上引入深度限制的叶子生长策略、直方图算法、梯度单边采样算法和独立特征合并算法。相关运算过程如下:
1.设经处理后得到的数据集为
D={(di,yi),i=1,2,...,N} (17)
式中,di为输入特征向量。
2.计算模型目标函数为
3.对目标函数的误差项进行泰勒二阶展开:
4.令目标函数对wj求导为零,求取极值点。得到目标函数:
5.根据不同排列,选择出目标函数最小,即最优的树。之后,根据分裂增益公式求解。
式中,GL、HL和GR、HR为左右节点的一阶导数和二阶导数。
6.根据Gain决定出最佳分裂点和最佳分裂特征。最后,若增益为正,则分裂后可提高模型性能。若增益为负,则停止分裂。经过重复迭代,最终得到决策树模型组合的LightGBM强学习器算法模型:
LightGBM模型的训练框架和模块运用的流程如图1所示。系统总体流程如图2所示。
实施例
本发明选用澳大利亚沙漠知识太阳能中心DKASC(Desert Knowledge AustraliaSolar Center)网站的公开的Alice Springs站点2015年的光伏输出功率和相关数据作为数据集进行了仿真预测,该数据集包括光伏电站历史输出功率以及当日的实际气象数据。其中气象因素有水平辐射、水平散射、倾斜辐射、倾斜散射、环境温度、相对湿度、风速和降雨量。样本的采样时间周期为5min,由于晚间的光伏功率均为0,所以每天取7:00—19:00的数据。
考虑到监测电站因自然环境的不可控因素,可能会存在数据的缺失、不统一等现象。因此为了提高数据质量和预测模型的训练效率,本文在开展预测任务前先对原始数据进行“数据清洗”。随后利用SSA算法对原时间序列数据进行重构、降噪,得到更易于预测模型学习规律的序列。利用SSA算法处理后所得光伏功率时间序列如图3所示。考虑到不同季节的光伏输出功率特征不一,因此本发明以月为单位步长,对光伏输出功率进行预测。数据集依据当月前70%的数据样本作为训练集,后30%的数据样本作为测试集。
随后引入KPCA方法对输入空间进行降维处理,将主成分累积贡献率设定在90%。以夏季数据特征为例,经过计算得出的主成分贡献率以及累计贡献率如表1所示。
表1夏季光伏输出功率影响因子的主成分贡献率和累积贡献率
根据表1的计算结果,前7个影响因素的累计贡献率满足实验设定要求,因此将这7个因素作为预测模型的影响因素输入。
为了调整LightGBM模型内部的超参数,改良决策树的集成运算性能。本发明以误差值最小为目的,采用GWO方法寻求最优的LightGBM模型的超参数设置组合,增强预测模型的鲁棒性,模型超参数如表2所示:
表2 LightGBM模型的超参数设置
实验采用LightGBM作为光伏输出功率的预测模型,并用GWO优化算法对模型中参数最优值寻优。同时,为了检验GWO-LightGBM预测模型的性能,在相同样本长度的条件下分别对不同季节的光伏输出功率进行预测。为方便量化预测模型的精度与泛化能力,选取测试集中一天的预测结果进行分析。预测结果如图4(春天),图5(夏天),图6(秋天),图7(冬天)所示。
表3不同季节预测的RMSE(kW)和MAPE(%)
表3给出了GWO-LightGBM模型对于不同季节光伏输出功率预测的误差评价指标。可以看出使用GWO-LightGBM模型预测的平均MAPE/%和RMSE/kW分别为2.942%和0.143kW。由此可见,本发明提出的日前分钟级GWO-LightGBM预测模型的具有预测精度高,稳定性好,鲁棒性强的特点,能够较为准确地反映预测日的光伏功率特性,为光伏并网调度提供更加有用的信息。
Claims (6)
1.一种基于数据驱动的超短期光伏输出功率预测方法,其特征在于,具体按照以下步骤实施:
步骤1、考虑到光伏输出功率监测电站因自然环境的不可控因素,可能会存在数据的缺失、不统一等现象。因此为了提高数据质量和预测模型的训练效率,在开展预测任务前先对原始数据进行“数据清洗”;
步骤2、针对光伏发电伴随有的随机性和波动性,利用奇异谱分析(SSA)算法对原始光伏输出功率序列进行数据预处理,滤除噪声使序列平稳化,为后续的预测任务奠定基础;
步骤3、考虑到光伏输出功率的影响因子众多,然而高维空间中的影响因子选取是一个复杂的非线性问题。冗余的输入值有可能会导致模型的结构复杂度高,从而导致训练效率低。为此本发明采用核主成分分析(KPCA)方法对影响因子进行筛选与降维。降低数据维度,避免维数灾难的发生;
步骤4、将影响因子特征集和历史功率数据作为轻量级梯度提升机(LightGBM)模型的训练数据进行训练,并通过灰狼优化(GWO)算法对LightGBM模型进行参数寻优,避免模型易陷入局部最优;
步骤5、基于GWO-LightGBM模型,从历史数据中挖掘潜在天气信息与光伏功率之间的非线性映射关系,并且预测时间间隔为5min,时间粒度更精细,为电网调度提供更加详细的预测信息。
2.根据权利要求1所述的一种基于数据驱动的超短期光伏输出功率预测方法,其特征在于,所述步骤1具体按照以下实施:
考虑到监测电站因自然环境的不可控因素,可能会存在数据的缺失、不统一等现象。因此为了提高数据质量和预测模型的训练效率,本发明在开展预测任务前先对原始数据进行“数据清洗”。其过程主要包括:
(1)缺失值填补。若样本集中的采集变量缺失值超过80%,则直接删除处理;若缺失值在35%~80%,则依照数据分布特征(均匀分布和倾斜分布),选择均值或中数进行填充;若缺失值小于35%,则一律用众数进行填充。
(2)异常值剔除。根据样本集各列数据采集值与其平均值的距离大小,判断出远离其他对象的异常点,并根据异常点的数量和影响程度,采用中位数或平均数对其进行替换。
(3)规范化。由于样本集中数据之间存在大小、量纲差异较大的情况。因此需要对数据进行缩放,使其值落在一定范围内。
3.根据权利要求1所述的一种基于数据驱动的超短期光伏输出功率预测方法,其特征在于,所述步骤2具体按照以下实施:
SSA可以有效地将原始光伏输出功率数据聚集到若干个子序列中,并对其进行重构、降噪。其具体过程主要包括4个步骤:
1.对于一维等间隔采样长度为N的时间序列X1,X2,...Xk,根据嵌入维度K计算轨迹矩阵,构造M×K阶轨迹矩阵X:
其中,K=N-M+1,M为窗口长度;
2.定义矩阵S=XXT,设λ为特征值,U为λ对应的特征向量。设d=rank(X),轨迹矩阵X可表示为X=X1+X2+...+Xd(2)
初等矩阵rank(Xi)=1,Xi和X具有相同的矩阵结构。U和V分别为矩阵X的左、右奇异向量,/>为特征值,/>为X的奇异谱。其中/>且||Xi||2=λi,因此矩阵Xi的贡献率为/>是前一个Xi的贡献率。
3.将初等矩阵{1,...,d}划分为m个不相交的子集I。轨迹矩阵X的奇异值分解可表达为Xi=Xi1+Xi2+...+Xim。分组是确定子集的过程。
合成矩阵Xi的贡献率表达式为
4.将矩阵转换为长度为N的重建成分。将所有的重建成分叠加即为重构后序列,定义为Z=XIk,z1,z2,...,zN为Z对角平均化所得到的序列,设M*=min(M,K),K*=max(M,K),若M<K,则反之/>则对角平均化的公式为
5.根据权利要求1所述的一种基于数据驱动的超短期光伏输出功率预测方法,其特征在于,所述步骤4具体按照以下实施:
为避免建模过程中LightGBM模型出现局部最优问题,通过灰狼优化(GWO)算法对模型参数进行寻优。GWO算法数学过程包括如下:
1.包围猎物,其数学模型为
D=|MXP(t)| (10)
X(t+1)=XP(t)-NH (11)
式中,D为猎物和灰狼之间的距离,XP为猎物的位置向量。
2.随着捕食距离D的逐渐缩短,新一代灰狼的位置运用动态搜索方法更新系数M和N,计算如下:
M=2r2 (12)
N=2ar1-a (13)
式中,a为随着迭代次数的增加逐渐从2递减至0的参数。r1和r2是∈[0,1]的随机数。
3.灰狼包围猎物后进行捕猎,其中灰狼分为α、β、δ、ω4个等级,ω根据α、β、δ的位置信息进行更新,α、β、δ3个等级对应的搜索单位围捕方式为
Rλ=|MλXλ| (14)
Xi=Xλ-Nλ(Rλ) (15)
根据下式确定捕食方向:
式中,λ=α、β、δ;X(t+1)为更新后的潜在最优解向量,即所得为模型最优参数。
6.根据权利要求1所述的一种基于数据驱动的超短期光伏输出功率预测方法,其特征在于,所述步骤5具体按照以下实施:
轻量级梯度提升机(LightGBM)模型在传统的梯度提升树基础上引入深度限制的叶子生长策略、直方图算法、梯度单边采样算法和独立特征合并算法。相关运算过程如下:
1.设经处理后得到的数据集为
D={(di,yi),i=1,2,...,N} (17)
式中,di为输入特征向量。
2.计算模型目标函数为
3.对目标函数的误差项进行泰勒二阶展开:
4.令目标函数对wj求导为零,求取极值点。得到目标函数:
5.根据不同排列,选择出目标函数最小,即最优的树。之后,根据分裂增益公式求解。
式中,GL、HL和GR、HR为左右节点的一阶导数和二阶导数。
6.根据Gain决定出最佳分裂点和最佳分裂特征。最后,若增益为正,则分裂后可提高模型性能。若增益为负,则停止分裂。经过重复迭代,最终得到决策树模型组合的LightGBM强学习器算法模型:
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310254452.1A CN116341728A (zh) | 2023-03-16 | 2023-03-16 | 一种基于数据驱动的超短期光伏输出功率预测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310254452.1A CN116341728A (zh) | 2023-03-16 | 2023-03-16 | 一种基于数据驱动的超短期光伏输出功率预测方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116341728A true CN116341728A (zh) | 2023-06-27 |
Family
ID=86888856
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310254452.1A Pending CN116341728A (zh) | 2023-03-16 | 2023-03-16 | 一种基于数据驱动的超短期光伏输出功率预测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116341728A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116523145A (zh) * | 2023-06-29 | 2023-08-01 | 长江三峡集团实业发展(北京)有限公司 | 光伏功率超短期预测方法、装置、计算机设备及存储介质 |
CN117763356A (zh) * | 2023-12-26 | 2024-03-26 | 中国地质科学院地质力学研究所 | 一种基于LightGBM算法的地震相快速识别方法 |
-
2023
- 2023-03-16 CN CN202310254452.1A patent/CN116341728A/zh active Pending
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116523145A (zh) * | 2023-06-29 | 2023-08-01 | 长江三峡集团实业发展(北京)有限公司 | 光伏功率超短期预测方法、装置、计算机设备及存储介质 |
CN116523145B (zh) * | 2023-06-29 | 2023-10-20 | 长江三峡集团实业发展(北京)有限公司 | 光伏功率超短期预测方法、装置、计算机设备及存储介质 |
CN117763356A (zh) * | 2023-12-26 | 2024-03-26 | 中国地质科学院地质力学研究所 | 一种基于LightGBM算法的地震相快速识别方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111079980B (zh) | 基于自适应分类策略和混合优化svr的光功率预测方法 | |
Tang et al. | Photovoltaic power forecasting: A hybrid deep learning model incorporating transfer learning strategy | |
CN116341728A (zh) | 一种基于数据驱动的超短期光伏输出功率预测方法 | |
CN110929953A (zh) | 基于聚类分析的光伏电站超短期出力预测方法 | |
Zhang et al. | Wavelet-based neural network with genetic algorithm optimization for generation prediction of PV plants | |
Sodsong et al. | Short-term solar PV forecasting using gated recurrent unit with a cascade model | |
CN114792156A (zh) | 基于曲线特征指标聚类的光伏输出功率预测方法和系统 | |
CN116629416A (zh) | 光伏电站功率预测方法及装置 | |
CN114330934A (zh) | 一种模型参数自适应的gru新能源短期发电功率预测方法 | |
Shi et al. | Four-stage space-time hybrid model for distributed photovoltaic power forecasting | |
CN116341613A (zh) | 一种基于Informer encoder和LSTM的超短期光伏功率预测方法 | |
CN115169742A (zh) | 一种短期风力发电功率预测方法 | |
Zhang et al. | Ultra-short-term multi-step probability interval prediction of photovoltaic power: A framework with time-series-segment feature analysis | |
CN114611757A (zh) | 基于遗传算法与改进深度残差网络的电力系统短期负荷预测方法 | |
CN113837434A (zh) | 太阳能光伏发电预测方法、装置、电子设备和存储介质 | |
Qi et al. | Short-term prediction of PV power based on fusions of power series and ramp series | |
CN116167508B (zh) | 一种基于气象因素分解的短期光伏出力快速预测方法及系统 | |
CN117132132A (zh) | 基于气象数据的光伏发电功率预测方法 | |
Xia et al. | Research on Solar Radiation Estimation based on Singular Spectrum Analysis-Deep Belief Network | |
Behera et al. | Comparative study of convolutional neural network and long short-term memory network for solar irradiance forecasting | |
CN112529285A (zh) | 一种基于相似日理论和pca-pso-bp的光伏发电功率预测方法 | |
Cheng et al. | Temperature & humidity-weighted-modified GRNN based prediction model of photovoltaic power generation | |
Bo et al. | Ultra-short-term PV power forecasting based on LSTM with PeepHoles connections | |
Peng et al. | A Hybrid Model for Solar Radiation Forecasting towards Energy Efficient Buildings | |
Wu et al. | Overview of Day-ahead Solar Power Forecasts Based on Weather Classifications and a Case Study in Taiwan |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |