CN117828488B - 一种基于随机森林与稳健回归的太阳辐射度预测方法 - Google Patents
一种基于随机森林与稳健回归的太阳辐射度预测方法 Download PDFInfo
- Publication number
- CN117828488B CN117828488B CN202410245142.8A CN202410245142A CN117828488B CN 117828488 B CN117828488 B CN 117828488B CN 202410245142 A CN202410245142 A CN 202410245142A CN 117828488 B CN117828488 B CN 117828488B
- Authority
- CN
- China
- Prior art keywords
- function
- data
- prediction
- steps
- mkl
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 56
- 238000007637 random forest analysis Methods 0.000 title claims abstract description 32
- 230000005855 radiation Effects 0.000 claims abstract description 19
- 238000007781 pre-processing Methods 0.000 claims abstract description 4
- 230000006870 function Effects 0.000 claims description 108
- 238000003066 decision tree Methods 0.000 claims description 19
- 238000012545 processing Methods 0.000 claims description 12
- 238000012549 training Methods 0.000 claims description 12
- 230000002159 abnormal effect Effects 0.000 claims description 9
- 238000005457 optimization Methods 0.000 claims description 9
- 238000012216 screening Methods 0.000 claims description 8
- 238000010606 normalization Methods 0.000 claims description 7
- 238000004422 calculation algorithm Methods 0.000 claims description 6
- 230000008859 change Effects 0.000 claims description 6
- 238000006243 chemical reaction Methods 0.000 claims description 6
- 238000000354 decomposition reaction Methods 0.000 claims description 6
- 239000011159 matrix material Substances 0.000 claims description 6
- 238000012360 testing method Methods 0.000 claims description 6
- 101001095088 Homo sapiens Melanoma antigen preferentially expressed in tumors Proteins 0.000 claims description 3
- 102100037020 Melanoma antigen preferentially expressed in tumors Human genes 0.000 claims description 3
- 238000004364 calculation method Methods 0.000 claims description 3
- 238000012887 quadratic function Methods 0.000 claims description 3
- 238000005070 sampling Methods 0.000 claims description 3
- 238000012800 visualization Methods 0.000 claims description 3
- 238000001556 precipitation Methods 0.000 claims 1
- 238000010248 power generation Methods 0.000 abstract description 6
- 230000006978 adaptation Effects 0.000 description 4
- 238000012986 modification Methods 0.000 description 4
- 230000004048 modification Effects 0.000 description 4
- 238000012163 sequencing technique Methods 0.000 description 4
- 230000009286 beneficial effect Effects 0.000 description 2
- 238000010276 construction Methods 0.000 description 2
- 238000012217 deletion Methods 0.000 description 2
- 230000037430 deletion Effects 0.000 description 2
- 238000001514 detection method Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 230000002860 competitive effect Effects 0.000 description 1
- 230000035699 permeability Effects 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/243—Classification techniques relating to the number of classes
- G06F18/24323—Tree-organised classifiers
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/27—Regression, e.g. linear or logistic regression
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/09—Supervised learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/06—Energy or water supply
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Business, Economics & Management (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Economics (AREA)
- Marketing (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- General Business, Economics & Management (AREA)
- Tourism & Hospitality (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Strategic Management (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Primary Health Care (AREA)
- Human Resources & Organizations (AREA)
- Water Supply & Treatment (AREA)
- Public Health (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明属于能源预测技术领域,本发明公开一种基于随机森林与稳健回归的太阳辐射度预测方法,包括步骤:S1、采集影响太阳辐射强度的原始数据集;S2、对原始数据集进行数据预处理;S3、构建RF‑SQ‑MKL多核监督学习预测模型,并将预处理后的原始数据集输入预测模型中,获取预测结果;S4、对预测结果进行对比分析与误差分析。本发明解决了现有太阳辐射强度和光伏发电系统难以准确的预测其输出功率的问题。
Description
技术领域
本发明属于能源预测技术领域,具体来说,涉及一种基于随机森林与稳健回归的太阳辐射度预测方法。
背景技术
随着电力市场的绿色化转型,可再生新能源的需求不断增加,光伏行业对电力市场的渗透率在逐步提升。而与传统化石能源相比,光伏能源的成本已经具有竞争力。同时,随着电力系统的不断推进,光伏发电将在未来新型电力系统中占据重要地位。然而,相比于火力发电连续可调可控并能够稳定供电,光伏输出功率的波动性和随机性给光伏并网和电力调度带来很大困难,对电力系统的安全和稳定构成威胁。
发明内容
针对现有太阳辐射强度和光伏发电系统难以准确的预测其输出功率的问题,本发明提供了一种基于随机森林与稳健回归的太阳辐射度预测方法。
为实现上述技术目的,本发明采用的技术方案如下:
一种基于随机森林与稳健回归的太阳辐射度预测方法,包括步骤:
S1、采集影响太阳辐射强度的原始数据集;
S2、对原始数据集进行数据预处理;
S3、构建RF-SQ-MKL多核监督学习预测模型,并将预处理后的原始数据集输入预测模型中,获取预测结果;
S4、对预测结果进行对比分析与误差分析。
进一步地,步骤S2的详细步骤包括:
S201、通过温度与辐射强度计算理论光伏功率,对选取数据异常的太阳辐射强度及其相关影响因子进行数据检测和删除;
S202、通过随机森林模型计算相关影响因素对光伏功率变化的重要度,通过特征重要度排序筛选出与光伏功率相关性较强的影响因素。
进一步地,在步骤S201中,光伏电站,转换效率和面积是固定的,故太阳辐照强度和温度是直接影响功率的因子,因此,根据公式对功率数据进行异常值比对,利用光伏发电计算功率公式计算结果替换异常值与空白值光伏发电计算功率为,其中/>为转换效率;S为面积;/>为太阳总辐照强度;/>为温度。
进一步地,在步骤S202中,消除各指标数据之间的数量级与量纲差异,进行标准化处理,通过公式将原始各项指标数据标准化至区间[a,b]上,本次采取[-1,1]标准化;其中x表示作归一化前的数值,x*表示作归一化后的数值,xmin表示各个特征变量数值中的最小值,xmax表示各个特征变量数值中的最大值。
进一步地,步骤S3的详细步骤包括:
S301、针对特征筛选后的数据,选取每个月的最后五天作为测试数据,其余天数作为训练数据;
S302、基于径向基核函数、多项式核函数、薄板样条核函数和幂核函数这四种核函数建立多核学习函数,基于Huber损失函数和贝叶斯信息准则确定函数的最佳节点数和参数;
S303、引入Lasso算法对MKL经验损失函数进行重构并进一步降低模型复杂度,通过局部二次逼近法进行模型优化和训练求解,得到最终的RF-SQ-MKL多核监督学习预测模型;
S304、对预测结果进行反标准化处理并输出结果。
进一步地,设训练样本,其中/>为特征向量,/>与/>分别实际值与预测值,假设每一棵决策树模型为/>,随机森林模型具体步骤如下:
1)对原始数据集进行分析,并在该随机森林中设置共有N棵树,其特征变量分别设置为x1,x2,x3,…,xm;
2)通过抽样放回的方法从原始数据样本中随机选取一定数据作为样本并构成样本集,然后将其生成作为一颗决策树,并未被选取的数据构成袋外数据(OOB);
3)在生成决策树的每一个结点上重复以下步骤:
(i)在输入的x1,x2,…,xm特征变量中随机不重复地选择d个特征;
(ii)利用这d个特征分别对样本集进行划分,并找到最佳的划分特征;
4)重复步骤i到步骤ii共k次(k为随机森林中决策树的个数);
5)对之前生成的每一颗决策树,选择其相应的袋外数据进行投票分析,利用获得的每个样本投票分数计算袋外数据误差,记为errOOB1;
6)随机改变OOB样本中特征x的数值,从而生成新的OOB测试样本,并再次对相应的袋外数据进行投票分析,计算OOB误差,记为errOOB2;
7)利用两次所得的OOB误差即可计算特征x的重要性:
式中:表示每个特征变量的重要性评分;/>表示随机森林中所设置树的数量;表示第一次所生成决策树的袋外数据误差;/>表示特征变量改变后的袋外数据误差。
进一步地,在步骤S302中,基于线性组合和非线性组合学习多个子核构建多核矩阵函数,利用贝叶斯信息准则(BIC)选择最佳节点数和正则化参数,多核学习函数如下:
设为第i个观测值,则重现核希尔伯特空间定义为:
,
其中代表损失函数,/>代表惩罚函数,/>是正则化参数,那么由K生成的函数空间H就是重现核希尔伯特空间;
在D内核的多内核学习中,通过用D函数表示不同的RKHS,则函数广义化为:
,
因其由K MKL 函数生成,则其对应的函数空间H称为重现多核希尔伯特空间;
假设多重核函数K MKL 写为:
其中,该函数表示满足/>,/>的特征值,即特征值函数集,此外,假设/>用该特征函数表示,则/>转变为:
,
其中, />是g(a)函数中第j个元素,不难发现多重核函数是/>:/>的内积,此外,根据K MKL 的特征分解,得到K MKL =VMV T ,设/>,和B=VM 1/2 ,则多核学习函数可写为:
,
其中。
进一步地,在步骤S303中,为了消除鲁棒回归的缺点,解决预测的不足,采用以下优化方法:
其中是Huber鲁棒损失函数,表示Lasso惩罚函数,/>表示惩罚参数,其中/>,而J (A)是指示函数,即当/>,/>,否则/>;
保留q的第一个最大特征值,并删除较小的特征值,对K MKL 进行特征分解后得到K MKL =VMV T ,让m成为M的对角项,即 ,让/>和/>通过提取M的第一列q来满足/>,其中B由/>与q列生成;
使用局部二次逼近法求解SQ-MKL,函数如下:
,
其中,是Huber损失函数,/>代表Lasso惩罚函数,设/>为待估计的真实值,设/>为/>的近似值,当/>近似为零时,/>;如果/>不为零,则Lasso惩罚函数/>近似为局部二次函数,则当/>时,/>的一阶值为:
,
,
其中,sgn表示指标函数, ,则有以下等式:
,
同时,的导数可以近似为:
,
当的初值近似于/>,则为最小值,假设存在二阶导数/>,则可简化为:
,
其中,/>为对角项,其对角项由a给出,通过用牛顿-拉夫逊方程求解:
,
那么多核学习函数SQ-MKL可以写成:
其中,权重矩阵为:
,…,/>、。
进一步地,步骤S4的详细步骤包括:
S401、将预测结果反标准化处理后的输出集结果作为最终预测结果;
S402、引入误差指标MAE、MAPE、RMSE、R2、计算成本进行误差分析与结果可视化;
S403、引入多个预测模型,比较不同预测模型的预测精度和预测性能。
本发明相比现有技术,具有如下有益效果:
首先通过数据处理与模型构建板块介绍预测模型的构建原理与预测过程,然后通过实证分析板块验证所构建模型的预测效果与精度,实现光伏功率短期精准预测。
在数据处理板块,针对数据异常值以及数据集划分,首先对选取的太阳辐射强度及其相关影响因子进行数据检测和删除,并将检测过的数据做预处理。其次,建立随机森林模型,确定最优参数和决策树数目,并将相关影响因素代入计算特征重要度并进行排序,通过重要度排序筛选确定重要特征变量。
在模型构建板块,基于径向基核函数、多项式核函数、薄板样条核函数、幂核函数建立多核学习函数,并引入Lasso算法、Huber函数对MKL经验损失函数进行重构,和贝叶斯信息准则确定函数最佳节点数和参数。最后,通过局部二次逼近法进行模型优化和训练求解,得到RF-SQ-MKL预测模型,进一步降低模型复杂度和计算量,避免过拟合风险,提高太阳辐射强度预测的稳定性和准确性。
附图说明
图1为本发明实施例中;
图2为本发明实施例中;
图3为本发明实施例中构建的RF-SQ-MKL模型预测结果对比图。
具体实施方式
为了便于本领域技术人员的理解,下面结合实施例与附图对本发明作进一步的说明,实施方式提及的内容并非对本发明的限定。
如图1所示,本实施例提供了一种基于随机森林与稳健回归的太阳辐射度预测方,包括步骤:
S1、采集影响太阳辐射强度的原始数据集;
S2、对原始数据集进行数据预处理;
S3、构建RF-SQ-MKL多核监督学习预测模型,并将预处理后的原始数据集输入预测模型中,获取预测结果;
S4、对预测结果进行对比分析与误差分析。
步骤S2的详细步骤包括:
S201、通过温度与辐射强度计算理论光伏功率,对选取数据异常的太阳辐射强度及其相关影响因子进行数据检测和删除;
S202、通过随机森林模型计算相关影响因素对光伏功率变化的重要度,通过特征重要度排序筛选出与光伏功率相关性较强的影响因素;
步骤S3的详细步骤包括:
S301、针对特征筛选后的数据,选取每个月的最后五天作为测试数据,其而余天数作为训练数据;
S302、基于径向基核函数、多项式核函数、薄板样条核函数、幂核函数这四种核函数建立多核学习函数,基于Huber损失函数和贝叶斯信息准则确定函数的最佳节点数和参数;
S303、引入Lasso算法对MKL经验损失函数进行重构并进一步降低模型复杂度,通过局部二次逼近法进行模型优化和训练求解,得到最终的RF-SQ-MKL多核监督学习预测模型;
S304、对预测结果进行反标准化处理并输出结果。
进一步地,步骤S4的详细步骤包括:
S401、将预测结果反标准化处理后的输出集结果作为最终预测结果;
S402、引入误差指标MAE、MAPE、RMSE、R2、计算成本进行误差分析与结果可视化;
S403、引入多个预测模型,比较不同预测模型的预测精度和预测性能。
对于一个光伏电站,转换效率和面积是固定的,故太阳辐照强度和温度是直接影响功率的因子,因此,在步骤S201中,光伏电站,转换效率和面积是固定的,故太阳辐照强度和温度是直接影响功率的因子,因此,根据公式对功率数据进行异常值比对,利用光伏发电计算功率公式计算结果替换异常值与空白值光伏发电计算功率为,其中/>为转换效率;/>为面积;/>为太阳总辐照强度;/>为温度。
在步骤S202中,消除各指标数据之间的数量级与量纲差异,进行标准化处理,通过公式将原始各项指标数据标准化至区间[a,b]上,本次采取[-1,1]标准化;其中x表示作归一化前的数值,x*表示作归一化后的数值,xmin表示各个特征变量数值中的最小值,xmax表示各个特征变量数值中的最大值。
如图2所示,设训练样本,其中/>为特征向量,/>与/>分别实际值与预测值,假设每一棵决策树模型为/>,随机森林模型具体步骤如下:
1)对原始数据集进行分析,并在该随机森林中设置共有N棵树,其特征变量分别设置为x1,x2,x3,…,xm;
2)通过抽样放回的方法从原始数据样本中随机选取一定数据作为样本并构成样本集,然后将其生成作为一颗决策树,并未被选取的数据构成袋外数据(OOB);
3)在生成决策树的每一个结点上重复以下步骤:
(i)在输入的x1,x2,…,xm特征变量中随机不重复地选择d个特征;
(ii)利用这d个特征分别对样本集进行划分,并找到最佳的划分特征;
4)重复步骤i到步骤ii共k次(k为随机森林中决策树的个数);
5)对之前生成的每一颗决策树,选择其相应的袋外数据进行投票分析,利用获得的每个样本投票分数计算袋外数据误差,记为errOOB1;
6)随机改变OOB样本中特征x的数值,从而生成新的OOB测试样本,并再次对相应的袋外数据进行投票分析,计算OOB误差,记为errOOB2;
7)利用两次所得的OOB误差即可计算特征x的重要性:
(1)
式中:表示每个特征变量的重要性评分;/>表示随机森林中所设置树的数量;表示第一次所生成决策树的袋外数据误差;/>表示特征变量改变后的袋外数据误差。
如表1:
在步骤S302中,基于线性组合和非线性组合学习多个子核构建多核矩阵函数,利用贝叶斯信息准则(BIC)选择最佳节点数和正则化参数,多核学习函数如下:
设为第i个观测值,则重现核希尔伯特空间(RKHS)定义为:
(2)
其中代表损失函数,/>代表惩罚函数,/>是正则化参数。那么由K生成的函数空间H就是重现核希尔伯特空间(RKHS)。
在D内核的多内核学习中,通过用D函数表示不同的RKHS(用H1,H2……HD表示)。则函数/>广义化为:
(3)
因其由K MKL 函数生成,则其对应的函数空间H称为重现多核希尔伯特空间(RMKHS)。
假设多重核函数K MKL 写为:
(4)
其中,该函数表示满足/>,/>的特征值,即特征值函数集。此外,假设/>用该特征函数表示,则/>转变为:
(5)
其中, />是g(a)函数中第j个元素。不难发现多重核函数是/>:/>的内积。此外,根据K MKL 的特征分解,可以得到K MKL =VMV T 。设/>,和B=VM 1/2 ,则多核学习函数可写为:
(6)
其中。
如图3所示,在步骤S303中,将Lasso算法引入到所提出的量化MKL模型中,同时使用局部二次逼近法(LQA)进行模型优化和训练求解,确定最终的RF-SQ-MKL多核监督学习预测模型:
为了消除鲁棒回归的缺点,解决预测的不足,我们考虑了以下优化方法:
(7)
其中是Huber鲁棒损失函数,表示Lasso惩罚函数,/>表示惩罚参数,其中/>,而J (A)是指示函数,即当/>,/>,否则/>。
我们保留q的第一个最大特征值,并删除较小的特征值。对K MKL 进行特征分解后得到K MKL =VMV T ,让m成为M的对角项,即 。让/>和通过提取M的第一列q来满足/>。其中B由/>与q列生成。
我们使用局部二次逼近法求解SQ-MKL,函数如下:
(8)
其中,是Huber损失函数,/>代表Lasso惩罚函数。设/>为待估计的真实值,设/>为/>的近似值。当/>近似为零时,/>。如果/>不为零,则Lasso惩罚函数/>可以近似为局部二次函数。则当/>时,/>的一阶值为:
(9)
(10)
其中,sgn表示指标函数, ,则有以下等式:
(11)
同时,的导数可以近似为:
(12)
当的初值近似于/>,则为最小值。假设存在二阶导数/>,则可简化为:
(13)
其中,/>为对角项,其对角项由a给出。我们通过用牛顿-拉夫逊方程求解
(14)
那么多核学习函数SQ-MKL可以写成:
(15)
其中,权重矩阵为,…,、/>。
本发明相比现有技术,具有如下有益效果:
提出了一种随机森林与多核鲁棒监督学习的太阳辐射预测模型。首先通过数据处理与模型构建板块介绍预测模型的构建原理与预测过程,然后通过实证分析板块验证所构建模型的预测效果与精度,实现光伏功率短期精准预测。
在数据处理板块,针对数据异常值以及数据集划分,首先对选取的太阳辐射强度及其相关影响因子进行数据检测和删除,并将检测过的数据做预处理。其次,建立随机森林模型,确定最优参数和决策树数目,并将相关影响因素代入计算特征重要度并进行排序,通过重要度排序筛选确定重要特征变量。
在模型构建板块,基于径向基核函数、多项式核函数、薄板样条核函数、幂核函数建立多核学习函数,并引入Lasso算法、Huber函数对MKL经验损失函数进行重构,和贝叶斯信息准则确定函数最佳节点数和参数。最后,通过局部二次逼近法进行模型优化和训练求解,得到RF-SQ-MKL预测模型,进一步降低模型复杂度和计算量,避免过拟合风险,提高太阳辐射强度预测的稳定性和准确性。
以上对本申请提供的一种基于随机森林与监督学习的太阳辐射度预测方法进行了详细介绍。具体实施例的说明只是用于帮助理解本申请的方法及其核心思想。应当指出,对于本技术领域的普通技术人员来说,在不脱离本申请原理的前提下,还可以对本申请进行若干改进和修饰,这些改进和修饰也落入本申请权利要求的保护范围内。
以上对本申请提供的一种基于随机森林与稳健回归的太阳辐射度预测方法进行了详细介绍。具体实施例的说明只是用于帮助理解本申请的方法及其核心思想。应当指出,对于本技术领域的普通技术人员来说,在不脱离本申请原理的前提下,还可以对本申请进行若干改进和修饰,这些改进和修饰也落入本申请权利要求的保护范围内。
Claims (6)
1.一种基于随机森林与稳健回归的太阳辐射度预测方法,其特征在于,包括步骤:
S1、采集影响太阳辐射强度的原始数据集;原始数据集包括:太阳辐射角、温度、气压、湿度、降水量、风速、风向、云层高度、空气质量;
S2、对原始数据集进行数据预处理;
S3、构建RF-SQ-MKL多核监督学习预测模型,并将预处理后的原始数据集输入预测模型中,获取预测结果;
S4、对预测结果进行对比分析与误差分析;
步骤S3的详细步骤包括:
S301、针对特征筛选后的数据,选取每个月的最后五天作为测试数据,其余天数作为训练数据;
S302、基于径向基核函数、多项式核函数、薄板样条核函数和幂核函数这四种核函数建立多核学习函数,基于Huber损失函数和贝叶斯信息准则确定函数的最佳节点数和参数;
S303、引入Lasso算法对MKL经验损失函数进行重构并进一步降低模型复杂度,通过局部二次逼近法进行模型优化和训练求解,得到最终的RF-SQ-MKL多核监督学习预测模型;
S304、对预测结果进行反标准化处理并输出结果;
在步骤S302中,基于线性组合和非线性组合学习多个子核构建多核矩阵函数,利用贝叶斯信息准则选择最佳节点数和正则化参数,多核学习函数如下:
设为第i个观测值,则重现核希尔伯特空间定义为:
,
其中代表损失函数,/>是正则化参数;
在D内核的多内核学习中,通过用D函数表示不同的RKHS,则函数广义化为:
,
函数空间H称为重现多核希尔伯特空间;
设多重核函数K MKL 写为:
其中,该函数表示满足/>,/>的特征值,即特征值函数集,此外,设用该特征函数表示,则/>转变为:
,
根据K MKL 的特征分解,得到K MKL =VMV T ,设,和B=VM 1/2 ,则多核学习函数写为:
,
其中;
在步骤S303中,采用以下优化方法:
其中为Huber鲁棒损失函数,/>表示Lasso惩罚函数,/>表示惩罚参数,其中/>,而J(.)是指示函数;
保留q的第一个最大特征值,并删除小的特征值,对K MKL 进行特征分解后得到K MKL =VMV T ,让m成为M的对角项,即 ,让/>和/>通过提取M的第一列q来满足/>,其中B由/>与q列生成;
使用局部二次逼近法求解SQ-MKL,函数如下:
,
其中,是Huber损失函数,/>代表Lasso惩罚函数,设为待估计的真实值,设/>为/>的近似值,当/>近似为零时,/>;如果/>不为零,则Lasso惩罚函数/>近似为局部二次函数,则当时,/>的一阶值为:
,
,
其中,sgn表示指标函数, ,则有以下等式:
,
同时,的导数近似为:
,
当的初值近似于/>,则为最小值,设存在二阶导数/>,则简化为:
,
其中,/>为对角项,其对角项由a给出,通过用牛顿-拉夫逊方程求解:
,
那么多核学习函数SQ-MKL写成:
其中,权重矩阵为:,…,、/>。
2.根据权利要求1所述的一种基于随机森林与稳健回归的太阳辐射度预测方法,其特征在于,步骤S2的详细步骤包括:
S201、通过温度与辐射强度计算理论光伏功率,对选取数据异常的太阳辐射强度及其相关影响因子进行数据检测和删除;
S202、通过随机森林模型计算相关影响因素对光伏功率变化的重要度,通过特征重要度排序筛选出与光伏功率相关性较强的影响因素。
3.根据权利要求2所述的一种基于随机森林与稳健回归的太阳辐射度预测方法,其特征在于,在步骤S201中,根据公式对功率数据进行异常值比对,利用该公式的计算结果替换异常值与空白值;其中/>为转换效率;S为面积;/>为太阳总辐照强度;/>为温度。
4.根据权利要求2所述的一种基于随机森林与稳健回归的太阳辐射度预测方法,其特征在于,在步骤S202中,消除各指标数据之间的数量级与量纲差异,进行标准化处理,将原始各项指标数据标准化至区间[a,b]上。
5.根据权利要求4所述的一种基于随机森林与稳健回归的太阳辐射度预测方法,其特征在于,设为训练样本,其中/>为特征向量,/>与/>分别为实际值与预测值,设每一棵决策树模型为/>,随机森林模型具体步骤如下:
1)对原始数据集进行分析,并在该随机森林中设置共有N棵树,其特征变量分别设置为x1,x2,x3,…,xm;
2)通过抽样放回的方法从原始数据样本中随机选取数据作为样本并构成样本集,然后将其生成作为一颗决策树,并未被选取的数据构成袋外数据;
3)在生成决策树的每一个结点上重复以下步骤:
(i)在输入的x1,x2,…,xm特征变量中随机不重复地选择d个特征;
(ii)利用这d个特征分别对样本集进行划分,并找到最佳的划分特征;
4)重复步骤i到步骤ii共k次;
5)对之前生成的每一颗决策树,选择其相应的袋外数据进行投票分析,利用获得的每个样本投票分数计算袋外数据误差,记为errOOB1;
6)随机改变OOB样本中特征x的数值,从而生成新的OOB测试样本,并再次对相应的袋外数据进行投票分析,计算OOB误差,记为errOOB2;
7)利用两次所得的OOB误差即可计算特征x的重要性:
式中:表示每个特征变量的重要性评分;/>表示随机森林中所设置树的数量;表示第一次所生成决策树的袋外数据误差;/>表示特征变量改变后的袋外数据误差。
6.根据权利要求5所述的一种基于随机森林与稳健回归的太阳辐射度预测方法,其特征在于,步骤S4的详细步骤包括:
S401、将预测结果反标准化处理后的输出集结果作为最终预测结果;
S402、引入误差指标MAE、MAPE、RMSE、R2、计算成本进行误差分析与结果可视化;
S403、引入多个预测模型,比较不同预测模型的预测精度和预测性能。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410245142.8A CN117828488B (zh) | 2024-03-05 | 2024-03-05 | 一种基于随机森林与稳健回归的太阳辐射度预测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410245142.8A CN117828488B (zh) | 2024-03-05 | 2024-03-05 | 一种基于随机森林与稳健回归的太阳辐射度预测方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN117828488A CN117828488A (zh) | 2024-04-05 |
CN117828488B true CN117828488B (zh) | 2024-05-28 |
Family
ID=90515768
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202410245142.8A Active CN117828488B (zh) | 2024-03-05 | 2024-03-05 | 一种基于随机森林与稳健回归的太阳辐射度预测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117828488B (zh) |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2015066564A1 (en) * | 2013-10-31 | 2015-05-07 | Cancer Prevention And Cure, Ltd. | Methods of identification and diagnosis of lung diseases using classification systems and kits thereof |
CN114004139A (zh) * | 2021-09-24 | 2022-02-01 | 沈阳工程学院 | 一种光伏发电功率预测方法 |
CN115099357A (zh) * | 2022-07-11 | 2022-09-23 | 西安石油大学 | 一种基于多核支持向量机的致密砂岩储层分类方法 |
CN115204260A (zh) * | 2022-06-16 | 2022-10-18 | 中铁第四勘察设计院集团有限公司 | 预测模型的训练、预测方法、装置、电子设备及存储介质 |
CN115689067A (zh) * | 2022-12-30 | 2023-02-03 | 国能日新科技股份有限公司 | 太阳辐照度预测方法、装置及存储介质 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP6600516B2 (ja) * | 2015-09-14 | 2019-10-30 | 株式会社東芝 | アグリゲーション管理装置及び方法 |
-
2024
- 2024-03-05 CN CN202410245142.8A patent/CN117828488B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2015066564A1 (en) * | 2013-10-31 | 2015-05-07 | Cancer Prevention And Cure, Ltd. | Methods of identification and diagnosis of lung diseases using classification systems and kits thereof |
CN114004139A (zh) * | 2021-09-24 | 2022-02-01 | 沈阳工程学院 | 一种光伏发电功率预测方法 |
CN115204260A (zh) * | 2022-06-16 | 2022-10-18 | 中铁第四勘察设计院集团有限公司 | 预测模型的训练、预测方法、装置、电子设备及存储介质 |
CN115099357A (zh) * | 2022-07-11 | 2022-09-23 | 西安石油大学 | 一种基于多核支持向量机的致密砂岩储层分类方法 |
CN115689067A (zh) * | 2022-12-30 | 2023-02-03 | 国能日新科技股份有限公司 | 太阳辐照度预测方法、装置及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN117828488A (zh) | 2024-04-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Zhou et al. | Prediction of photovoltaic power output based on similar day analysis, genetic algorithm and extreme learning machine | |
CN110807554B (zh) | 基于风电/光伏经典场景集的生成方法及系统 | |
CN108205717A (zh) | 一种光伏发电功率多时间尺度预测方法 | |
CN111178616B (zh) | 基于负相关学习和正则化极限学习机集成的风速预测方法 | |
Phan et al. | A novel forecasting model for solar power generation by a deep learning framework with data preprocessing and postprocessing | |
CN110991737A (zh) | 一种基于深度置信网络的超短期风电功率预测方法 | |
CN111369045A (zh) | 一种短期光伏发电功率预测的方法 | |
CN112836884A (zh) | 基于Copula-DBiLSTM的综合能源系统多元负荷精确预测方法 | |
CN114462718A (zh) | 基于时间滑动窗口的cnn-gru风电功率预测方法 | |
CN111242355A (zh) | 一种基于贝叶斯神经网络的光伏概率预测方法及系统 | |
CN115275991A (zh) | 一种基于iemd-ta-lstm模型的主动配电网运行态势预测方法 | |
CN115481788B (zh) | 相变储能系统负荷预测方法及系统 | |
CN114021483A (zh) | 基于时域特征与XGBoost的超短期风电功率预测方法 | |
CN110738363B (zh) | 一种光伏发电功率预测方法 | |
CN114118401A (zh) | 基于神经网络的配电网络流量预测方法、系统、装置及存储介质 | |
CN110555566B (zh) | 一种基于b样条分位数回归的光电概率密度预测方法 | |
CN117828488B (zh) | 一种基于随机森林与稳健回归的太阳辐射度预测方法 | |
Wang et al. | A stacking-based short-term wind power forecasting method by CBLSTM and ensemble learning | |
CN116663727A (zh) | 一种光伏功率预测方法及系统 | |
CN117131654A (zh) | 基于预分析初猜值条件非线性最优扰动的目标观测方法 | |
CN116843057A (zh) | 基于LSTM-ViT的风电功率超短期预测方法 | |
CN115759343A (zh) | 一种基于e-lstm的用户电量预测方法和装置 | |
Yu | Evaluating parallelized support vector regression and nearest neighbor regression with different input variations for estimating daily global solar radiation of the humid subtropical region in China | |
CN114234392A (zh) | 一种基于改进pso-lstm的空调负荷精细预测方法 | |
Zheng et al. | Combustion process modeling based on deep sparse least squares support vector regression |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |