CN117828488B

CN117828488B - 一种基于随机森林与稳健回归的太阳辐射度预测方法

Info

Publication number: CN117828488B
Application number: CN202410245142.8A
Authority: CN
Inventors: 许晓敏; 斯琴卓娅; 姚润坤; 关泺允; 刘达; 王之怡; 崔灏旭; 李湘颖
Original assignee: North China Electric Power University
Current assignee: North China Electric Power University
Priority date: 2024-03-05
Filing date: 2024-03-05
Publication date: 2024-05-28
Anticipated expiration: 2044-03-05
Also published as: CN117828488A

Abstract

本发明属于能源预测技术领域，本发明公开一种基于随机森林与稳健回归的太阳辐射度预测方法，包括步骤：S1、采集影响太阳辐射强度的原始数据集；S2、对原始数据集进行数据预处理；S3、构建RF‑SQ‑MKL多核监督学习预测模型，并将预处理后的原始数据集输入预测模型中，获取预测结果；S4、对预测结果进行对比分析与误差分析。本发明解决了现有太阳辐射强度和光伏发电系统难以准确的预测其输出功率的问题。

Description

一种基于随机森林与稳健回归的太阳辐射度预测方法

技术领域

本发明属于能源预测技术领域，具体来说，涉及一种基于随机森林与稳健回归的太阳辐射度预测方法。

背景技术

随着电力市场的绿色化转型，可再生新能源的需求不断增加，光伏行业对电力市场的渗透率在逐步提升。而与传统化石能源相比，光伏能源的成本已经具有竞争力。同时，随着电力系统的不断推进，光伏发电将在未来新型电力系统中占据重要地位。然而，相比于火力发电连续可调可控并能够稳定供电，光伏输出功率的波动性和随机性给光伏并网和电力调度带来很大困难，对电力系统的安全和稳定构成威胁。

发明内容

针对现有太阳辐射强度和光伏发电系统难以准确的预测其输出功率的问题，本发明提供了一种基于随机森林与稳健回归的太阳辐射度预测方法。

为实现上述技术目的，本发明采用的技术方案如下：

一种基于随机森林与稳健回归的太阳辐射度预测方法，包括步骤：

S1、采集影响太阳辐射强度的原始数据集；

S2、对原始数据集进行数据预处理；

S3、构建RF-SQ-MKL多核监督学习预测模型，并将预处理后的原始数据集输入预测模型中，获取预测结果；

S4、对预测结果进行对比分析与误差分析。

进一步地，步骤S2的详细步骤包括：

S201、通过温度与辐射强度计算理论光伏功率，对选取数据异常的太阳辐射强度及其相关影响因子进行数据检测和删除；

S202、通过随机森林模型计算相关影响因素对光伏功率变化的重要度，通过特征重要度排序筛选出与光伏功率相关性较强的影响因素。

进一步地，在步骤S201中，光伏电站，转换效率和面积是固定的，故太阳辐照强度和温度是直接影响功率的因子，因此，根据公式对功率数据进行异常值比对，利用光伏发电计算功率公式计算结果替换异常值与空白值光伏发电计算功率为，其中/>为转换效率；S为面积；/>为太阳总辐照强度；/>为温度。

进一步地，在步骤S202中，消除各指标数据之间的数量级与量纲差异，进行标准化处理，通过公式将原始各项指标数据标准化至区间[a，b]上，本次采取[-1,1]标准化；其中x表示作归一化前的数值，x^*表示作归一化后的数值，x_min表示各个特征变量数值中的最小值，x_max表示各个特征变量数值中的最大值。

进一步地，步骤S3的详细步骤包括：

S301、针对特征筛选后的数据，选取每个月的最后五天作为测试数据，其余天数作为训练数据；

S302、基于径向基核函数、多项式核函数、薄板样条核函数和幂核函数这四种核函数建立多核学习函数，基于Huber损失函数和贝叶斯信息准则确定函数的最佳节点数和参数；

S303、引入Lasso算法对MKL经验损失函数进行重构并进一步降低模型复杂度，通过局部二次逼近法进行模型优化和训练求解，得到最终的RF-SQ-MKL多核监督学习预测模型；

S304、对预测结果进行反标准化处理并输出结果。

进一步地，设训练样本，其中/>为特征向量，/>与/>分别实际值与预测值，假设每一棵决策树模型为/>，随机森林模型具体步骤如下：

1）对原始数据集进行分析，并在该随机森林中设置共有N棵树，其特征变量分别设置为x₁，x₂，x₃，…，x_m；

2）通过抽样放回的方法从原始数据样本中随机选取一定数据作为样本并构成样本集，然后将其生成作为一颗决策树，并未被选取的数据构成袋外数据（OOB）；

3）在生成决策树的每一个结点上重复以下步骤：

（i）在输入的x₁，x₂，…，x_m特征变量中随机不重复地选择d个特征；

（ii）利用这d个特征分别对样本集进行划分，并找到最佳的划分特征；

4）重复步骤i到步骤ii共k次（k为随机森林中决策树的个数）；

5）对之前生成的每一颗决策树，选择其相应的袋外数据进行投票分析，利用获得的每个样本投票分数计算袋外数据误差，记为errOOB₁；

6）随机改变OOB样本中特征x的数值，从而生成新的OOB测试样本，并再次对相应的袋外数据进行投票分析，计算OOB误差，记为errOOB₂；

7）利用两次所得的OOB误差即可计算特征x的重要性：

式中：表示每个特征变量的重要性评分；/>表示随机森林中所设置树的数量；表示第一次所生成决策树的袋外数据误差；/>表示特征变量改变后的袋外数据误差。

进一步地，在步骤S302中，基于线性组合和非线性组合学习多个子核构建多核矩阵函数，利用贝叶斯信息准则（BIC）选择最佳节点数和正则化参数，多核学习函数如下：

设为第i个观测值，则重现核希尔伯特空间定义为：

，

其中代表损失函数，/>代表惩罚函数，/>是正则化参数，那么由K生成的函数空间H就是重现核希尔伯特空间；

在D内核的多内核学习中，通过用D函数表示不同的RKHS，则函数广义化为：

，

因其由K _MKL函数生成，则其对应的函数空间H称为重现多核希尔伯特空间；

假设多重核函数K _MKL写为：

其中，该函数表示满足/>，/>的特征值，即特征值函数集，此外，假设/>用该特征函数表示，则/>转变为：

，

其中， />是g(a)函数中第j个元素，不难发现多重核函数是/>：/>的内积，此外，根据K _MKL的特征分解，得到K _MKL =VMV ^T，设/>，和B=VM ^1/2，则多核学习函数可写为：

，

其中。

进一步地，在步骤S303中，为了消除鲁棒回归的缺点，解决预测的不足，采用以下优化方法：

其中是Huber鲁棒损失函数，表示Lasso惩罚函数，/>表示惩罚参数，其中/>，而J (A)是指示函数，即当/>，/>，否则/>；

保留q的第一个最大特征值，并删除较小的特征值，对K _MKL进行特征分解后得到K _MKL =VMV ^T，让m成为M的对角项，即，让/>和/>通过提取M的第一列q来满足/>，其中B由/>与q列生成；

使用局部二次逼近法求解SQ-MKL，函数如下：

，

其中，是Huber损失函数，/>代表Lasso惩罚函数，设/>为待估计的真实值，设/>为/>的近似值，当/>近似为零时，/>；如果/>不为零，则Lasso惩罚函数/>近似为局部二次函数，则当/>时，/>的一阶值为：

，

其中，sgn表示指标函数，，则有以下等式：

，

同时，的导数可以近似为：

，

当的初值近似于/>，则为最小值，假设存在二阶导数/>，则可简化为：

，

其中，/>为对角项，其对角项由a给出，通过用牛顿-拉夫逊方程求解：

，

那么多核学习函数SQ-MKL可以写成：

其中，权重矩阵为：

,…,/>、。

进一步地，步骤S4的详细步骤包括：

S401、将预测结果反标准化处理后的输出集结果作为最终预测结果；

S402、引入误差指标MAE、MAPE、RMSE、R²、计算成本进行误差分析与结果可视化；

S403、引入多个预测模型，比较不同预测模型的预测精度和预测性能。

本发明相比现有技术，具有如下有益效果：

首先通过数据处理与模型构建板块介绍预测模型的构建原理与预测过程，然后通过实证分析板块验证所构建模型的预测效果与精度，实现光伏功率短期精准预测。

在数据处理板块，针对数据异常值以及数据集划分，首先对选取的太阳辐射强度及其相关影响因子进行数据检测和删除，并将检测过的数据做预处理。其次，建立随机森林模型，确定最优参数和决策树数目，并将相关影响因素代入计算特征重要度并进行排序，通过重要度排序筛选确定重要特征变量。

在模型构建板块，基于径向基核函数、多项式核函数、薄板样条核函数、幂核函数建立多核学习函数，并引入Lasso算法、Huber函数对MKL经验损失函数进行重构，和贝叶斯信息准则确定函数最佳节点数和参数。最后，通过局部二次逼近法进行模型优化和训练求解，得到RF-SQ-MKL预测模型，进一步降低模型复杂度和计算量，避免过拟合风险，提高太阳辐射强度预测的稳定性和准确性。

附图说明

图1为本发明实施例中；

图2为本发明实施例中；

图3为本发明实施例中构建的RF-SQ-MKL模型预测结果对比图。

具体实施方式

为了便于本领域技术人员的理解，下面结合实施例与附图对本发明作进一步的说明，实施方式提及的内容并非对本发明的限定。

如图1所示，本实施例提供了一种基于随机森林与稳健回归的太阳辐射度预测方，包括步骤：

S1、采集影响太阳辐射强度的原始数据集；

S2、对原始数据集进行数据预处理；

S4、对预测结果进行对比分析与误差分析。

步骤S2的详细步骤包括：

S202、通过随机森林模型计算相关影响因素对光伏功率变化的重要度，通过特征重要度排序筛选出与光伏功率相关性较强的影响因素；

步骤S3的详细步骤包括：

S301、针对特征筛选后的数据，选取每个月的最后五天作为测试数据，其而余天数作为训练数据；

S302、基于径向基核函数、多项式核函数、薄板样条核函数、幂核函数这四种核函数建立多核学习函数，基于Huber损失函数和贝叶斯信息准则确定函数的最佳节点数和参数；

S304、对预测结果进行反标准化处理并输出结果。

进一步地，步骤S4的详细步骤包括：

对于一个光伏电站，转换效率和面积是固定的，故太阳辐照强度和温度是直接影响功率的因子，因此，在步骤S201中，光伏电站，转换效率和面积是固定的，故太阳辐照强度和温度是直接影响功率的因子，因此，根据公式对功率数据进行异常值比对，利用光伏发电计算功率公式计算结果替换异常值与空白值光伏发电计算功率为，其中/>为转换效率；/>为面积；/>为太阳总辐照强度；/>为温度。

在步骤S202中，消除各指标数据之间的数量级与量纲差异，进行标准化处理，通过公式将原始各项指标数据标准化至区间[a，b]上，本次采取[-1,1]标准化；其中x表示作归一化前的数值，x^*表示作归一化后的数值，x_min表示各个特征变量数值中的最小值，x_max表示各个特征变量数值中的最大值。

如图2所示，设训练样本，其中/>为特征向量，/>与/>分别实际值与预测值，假设每一棵决策树模型为/>，随机森林模型具体步骤如下：

3）在生成决策树的每一个结点上重复以下步骤：

7）利用两次所得的OOB误差即可计算特征x的重要性：

（1）

如表1：

在步骤S302中，基于线性组合和非线性组合学习多个子核构建多核矩阵函数，利用贝叶斯信息准则（BIC）选择最佳节点数和正则化参数，多核学习函数如下：

设为第i个观测值，则重现核希尔伯特空间（RKHS）定义为：

（2）

其中代表损失函数，/>代表惩罚函数，/>是正则化参数。那么由K生成的函数空间H就是重现核希尔伯特空间（RKHS）。

在D内核的多内核学习中，通过用D函数表示不同的RKHS（用H₁,H₂……H_D表示）。则函数/>广义化为：

（3）

因其由K _MKL函数生成，则其对应的函数空间H称为重现多核希尔伯特空间（RMKHS）。

假设多重核函数K _MKL写为：

（4）

其中，该函数表示满足/>，/>的特征值，即特征值函数集。此外，假设/>用该特征函数表示，则/>转变为：

（5）

其中， />是g(a)函数中第j个元素。不难发现多重核函数是/>：/>的内积。此外，根据K _MKL的特征分解，可以得到K _MKL =VMV ^T。设/>，和B=VM ^1/2，则多核学习函数可写为：

（6）

其中。

如图3所示，在步骤S303中，将Lasso算法引入到所提出的量化MKL模型中，同时使用局部二次逼近法（LQA）进行模型优化和训练求解，确定最终的RF-SQ-MKL多核监督学习预测模型：

为了消除鲁棒回归的缺点，解决预测的不足，我们考虑了以下优化方法：

（7）

其中是Huber鲁棒损失函数，表示Lasso惩罚函数，/>表示惩罚参数，其中/>，而J (A)是指示函数，即当/>，/>，否则/>。

我们保留q的第一个最大特征值，并删除较小的特征值。对K _MKL进行特征分解后得到K _MKL =VMV ^T，让m成为M的对角项，即。让/>和通过提取M的第一列q来满足/>。其中B由/>与q列生成。

我们使用局部二次逼近法求解SQ-MKL，函数如下：

（8）

其中，是Huber损失函数，/>代表Lasso惩罚函数。设/>为待估计的真实值，设/>为/>的近似值。当/>近似为零时，/>。如果/>不为零，则Lasso惩罚函数/>可以近似为局部二次函数。则当/>时，/>的一阶值为：

（9）

（10）

其中，sgn表示指标函数，，则有以下等式：

（11）

同时，的导数可以近似为：

（12）

当的初值近似于/>，则为最小值。假设存在二阶导数/>，则可简化为：

（13）

其中，/>为对角项，其对角项由a给出。我们通过用牛顿-拉夫逊方程求解

（14）

那么多核学习函数SQ-MKL可以写成：

（15）

其中，权重矩阵为,…,、/>。

本发明相比现有技术，具有如下有益效果：

提出了一种随机森林与多核鲁棒监督学习的太阳辐射预测模型。首先通过数据处理与模型构建板块介绍预测模型的构建原理与预测过程，然后通过实证分析板块验证所构建模型的预测效果与精度，实现光伏功率短期精准预测。

以上对本申请提供的一种基于随机森林与监督学习的太阳辐射度预测方法进行了详细介绍。具体实施例的说明只是用于帮助理解本申请的方法及其核心思想。应当指出，对于本技术领域的普通技术人员来说，在不脱离本申请原理的前提下，还可以对本申请进行若干改进和修饰，这些改进和修饰也落入本申请权利要求的保护范围内。

以上对本申请提供的一种基于随机森林与稳健回归的太阳辐射度预测方法进行了详细介绍。具体实施例的说明只是用于帮助理解本申请的方法及其核心思想。应当指出，对于本技术领域的普通技术人员来说，在不脱离本申请原理的前提下，还可以对本申请进行若干改进和修饰，这些改进和修饰也落入本申请权利要求的保护范围内。

Claims

1.一种基于随机森林与稳健回归的太阳辐射度预测方法，其特征在于，包括步骤：

S1、采集影响太阳辐射强度的原始数据集；原始数据集包括：太阳辐射角、温度、气压、湿度、降水量、风速、风向、云层高度、空气质量；

S2、对原始数据集进行数据预处理；

S4、对预测结果进行对比分析与误差分析；

步骤S3的详细步骤包括：

S304、对预测结果进行反标准化处理并输出结果；

在步骤S302中，基于线性组合和非线性组合学习多个子核构建多核矩阵函数，利用贝叶斯信息准则选择最佳节点数和正则化参数，多核学习函数如下：

设为第i个观测值，则重现核希尔伯特空间定义为：

，

其中代表损失函数，/>是正则化参数；

，

函数空间H称为重现多核希尔伯特空间；

设多重核函数K _MKL写为：

其中，该函数表示满足/>，/>的特征值，即特征值函数集，此外，设用该特征函数表示，则/>转变为：

，

根据K _MKL的特征分解，得到K _MKL =VMV ^T，设，和B=VM ^1/2，则多核学习函数写为：

，

其中；

在步骤S303中，采用以下优化方法：

其中为Huber鲁棒损失函数，/>表示Lasso惩罚函数，/>表示惩罚参数，其中/>，而J(.)是指示函数；

保留q的第一个最大特征值，并删除小的特征值，对K _MKL进行特征分解后得到K _MKL =VMV ^T，让m成为M的对角项，即，让/>和/>通过提取M的第一列q来满足/>，其中B由/>与q列生成；

使用局部二次逼近法求解SQ-MKL，函数如下：

，

其中，是Huber损失函数，/>代表Lasso惩罚函数，设为待估计的真实值，设/>为/>的近似值，当/>近似为零时，/>；如果/>不为零，则Lasso惩罚函数/>近似为局部二次函数，则当时，/>的一阶值为：

，

其中，sgn表示指标函数，，则有以下等式：

，

同时，的导数近似为：

，

当的初值近似于/>，则为最小值，设存在二阶导数/>，则简化为：

，

那么多核学习函数SQ-MKL写成：

其中，权重矩阵为：,…,、/>。

2.根据权利要求1所述的一种基于随机森林与稳健回归的太阳辐射度预测方法，其特征在于，步骤S2的详细步骤包括：

3.根据权利要求2所述的一种基于随机森林与稳健回归的太阳辐射度预测方法，其特征在于，在步骤S201中，根据公式对功率数据进行异常值比对，利用该公式的计算结果替换异常值与空白值；其中/>为转换效率；S为面积；/>为太阳总辐照强度；/>为温度。

4.根据权利要求2所述的一种基于随机森林与稳健回归的太阳辐射度预测方法，其特征在于，在步骤S202中，消除各指标数据之间的数量级与量纲差异，进行标准化处理，将原始各项指标数据标准化至区间[a，b]上。

5.根据权利要求4所述的一种基于随机森林与稳健回归的太阳辐射度预测方法，其特征在于，设为训练样本，其中/>为特征向量，/>与/>分别为实际值与预测值，设每一棵决策树模型为/>，随机森林模型具体步骤如下：

2）通过抽样放回的方法从原始数据样本中随机选取数据作为样本并构成样本集，然后将其生成作为一颗决策树，并未被选取的数据构成袋外数据；

3）在生成决策树的每一个结点上重复以下步骤：

4）重复步骤i到步骤ii共k次；

7）利用两次所得的OOB误差即可计算特征x的重要性：

6.根据权利要求5所述的一种基于随机森林与稳健回归的太阳辐射度预测方法，其特征在于，步骤S4的详细步骤包括：