CN109886464A

CN109886464A - 基于优化奇异值分解生成特征集的低信息损失短期风速预测方法

Info

Publication number: CN109886464A
Application number: CN201910050602.0A
Authority: CN
Inventors: 黄南天; 吴银银; 蔡国伟; 张祎祺; 杨冬锋; 黄大为; 王文婷; 包佳瑞琦; 杨学航
Original assignee: Northeast Dianli University
Current assignee: Northeast Electric Power University
Priority date: 2019-01-20
Filing date: 2019-01-20
Publication date: 2019-06-14
Anticipated expiration: 2039-01-20
Also published as: CN109886464B

Abstract

本发明是一种基于优化奇异值分解生成特征集的低信息损失短期风速预测方法，其特点是，包括：风速序列降噪处理、降维特征集生成、特征重要度计算、特征选择和模型验证等步骤，具有科学合理，适应性强，实用价值高，低信息损失和高精度预测的特点。

Description

基于优化奇异值分解生成特征集的低信息损失短期风速预测方法

技术领域

本发明是一种基于优化奇异值分解生成特征集的低信息损失短期风速预测方法，应用于电力系统中的风速预测。

背景技术

环境的日益恶化和不可再生能源的过度使用，使得世界各国开始重视可再生能源的发展与利用。风力发电作为一种技术比较成熟的可再生能源发电方式，在新能源市场中的地位不可取代的。然而，风速的强随机性、间歇性以及不可控性,导致风电机组的出力波动性很大,使电网接入安全、可靠运行面临巨大挑战，制约了风电的发展。准确、高效风速预测可降低风电不确定性带来的负面影响。

风速预测方法主要有物理方法，统计方法，人工智能方法等。物理方法在具有强波动性且精度要求较高的短期风速预测中表现较差。统计方法对于解决风速的非线性及非平稳性问题存在缺陷。人工智能模型适用于非线性、非平稳性风速预测，在短期风速预测中精度高。但在常用人工智能算法中，人工神经网络需要大量训练数据，对训练数据要求高，参数寻优时间长，容易陷入局部最优；支持向量机对参数和核函数的选择比较敏感，空间消耗和时间消耗巨大，容易出现过拟合；极限学习机预测效率高，但鲁棒性、稳定性较差。

为降低风速时间序列的随机性，现有研究多采用时间序列分解方法，如经验模式分解，小波变换，变分模式分解及各种改进方法对风速时间序列开展预处理。虽然小波分解,经验模式分解，变分模态分解在一定程度上降低了风速序列的非平稳性与噪声信号干扰，但仍存在缺点。例如，小波分解受小波基函数的选择，分解等级影响大；经验模态分解存在模态混叠现象和端点效应。

输入特征的维度也直接影响着预测的精度与效率。现有研究已经将特征选择和特征降维方法应用于输入特征的确定上。特征选择一般分为Wrapper方法和Filter方法。当特征较多，wrapper方法需要依赖其他学习算法，计算量大，实用性较低。而Filter方法进行特征选择时无需依赖其他学习算法，且计算成本小，能避免过拟合问题，目前受到广泛重视。但是由于Filter方法舍弃了某些低重要度特征，导致损失了原始特征集中这些低重要度特征的全部信息。

发明内容

本发明的目的在于克服现有技术的不足，提供一种科学合理，适应性强，实用价值高，能够准确预测风速的基于优化奇异值分解生成特征集的低信息损失短期风速预测方法。

本发明的目的是通过以下技术手段实现的：一种基于优化奇异值分解生成特征集的低信息损失短期风速预测方法，其特征是，它包括以下步骤：

1)风速序列降噪处理

使用优化的变分模态分解对原始风速序列进行处理，将原始风速序列分解成若干个本征模态函数，然后，剔除幅值最小的一个本征模态函数，将其他剩余本征模态函数相加得到降噪后的风速序列，

变分模态分解对信号的处理过程包括构造和求解两部分，涉及了三个重要概念：经典维纳滤波、希尔伯特变换和频率混合；

变分问题的构造中，变分问题是将原始信号f分解为k个模态函数U_k(t)，即本征模态函数，假设每个本征模态函数的有限带宽具有中心频率且是ω_k，使得每个模态的估计带宽和最小，约束条件是：各模态函数之和等于原始信号f，

①通过Hilbert变换，得到每个模态函数U_k(t)的解析信号；

②对各模态的解析信号混合预估中心频率ω_k，将每个模态的频谱移动到基频带上；

③采用解调信号的H高斯平滑估计各模态信号的带宽，即梯度的二范数的平方；

因此该约束变分问题为式(1)：

其中，是对t求偏导数，δ(t)为冲激函数，U_k是第k个本征模态函数；；

变分问题的求解中，引入拉格朗日乘子γ(t)和二次惩罚因子α得到式(1)的增广拉格朗日函数，

其中，γ是拉格朗日乘法算子；

利用基于对偶分解和Lagrange法的交替方向乘子方法(Alternate DirectionMethod of Multipliers，ADMM)求解式(2)，对U_k，ω_k，γ进行交替迭代寻优：

其中表示U_i(ω),f(ω),γ(ω)的傅里叶变换；n表示迭代次数；

对于给定求解精度ε，满足(6)式时停止迭代：

其中，τ是更新参数，设置为0，

变分模态分解的具体实现过程如下：

①初始化γ¹与最大迭代次数N，n＝0；

②对于每个模式U_k,根据式(3)和(4)更新得到

③根据式(5)，更新γ，n＝n+1；

④根据式(6)判断收敛性：若不收敛且n<N，则重复步骤②，否则停止迭代，得到最终模态函数U_k和中心频率ω_k；

变分模态分解应用于风速序列分解，性能主要受分解的模态函数个数K和拉格朗日乘子更新步长τ的影响，当K偏大，模态的ω会发生聚集甚至重叠，若K偏小，导致部分模态被分到邻近的模态上，甚至被丢弃，更新步长τ的不同会导致不同程度的残差出现，进而影响预测精度，因此根据中心频率观察法确定K和最小残差准则确定τ，首先，计算和分析在不同K值下的分解模式的中心频率，一旦出现类似的频率，将此时的K确定为分解的最佳K，然后根据去噪时间序列和原始序列之间的均方根误差(RMSE)优化更新参数τ，简化为残差评估指标(REI)，REI计算公式为：

2)降维特征集(reducted feature set,RFS)生成

使用奇异值分解对原始特征集(original feature set,OFS)进行降维，生成的特征集可以保留原始特征集全部特征的部分信息，同时去除特征间相关性，已知训练矩阵A_m×n,表示m个样本，n个特征，矩阵的秩为r,对矩阵A进行奇异值分解：

其中U和V分别表示正交阵，Λ为_m×n的非负对角阵：

S₁，…S_n是矩阵A的奇异值并且有S₁>S₂>…>S_n，奇异值越大，其包含的信息越多，因此前h个主成分所组成的特征空间对应的新的矩阵A’:

A'_m×h＝U(:,1:h)×Λ_h×h (10)

其中U(:,1:h)为U中前h列向量对应的矩阵，Λ_h×h为前h个较大奇异值对应的对角矩阵，对于风速序列的预测，h的选取影响预测精度，因此基于不同奇异值的贡献率确定最佳奇异值个数h，得到优化奇异值分解的参数；

贡献率D公式为：

其中S_i代表第i个奇异值对应的模型的平均绝对百分比误差，S_j代表第j个奇异值对应的模型的平均绝对百分比误差；

3)特征重要度计算

Gini指数是一种节点不纯度的度量方式，能够根据Gini指数作为评价指标来衡量每个特征在随机森林中的每棵树中预测贡献，为降低filter特征选择方法造成的低重要度特征的全部信息的损失，将使用特征降维方法奇异值分解得到的降维特征集与原始特征集组合，得到扩维特征集，计算该特征集中的全部特征的Gini重要度并排序，假设S是含有s个样本的数据集，可分为n类，s_i表示第i类包含的样本数i＝1,2,..,n，则集合S的Gini指数为：

其中，P_i＝s_i/s，代表任意样本属于第i类的概率，当S中只包含一类时，其Gini指数为0；当S中所有类别均匀分布时，Gini指数取最大值；随机森林使用某特征划分节点时，将S分为m个子集S_j，j＝1,2,…,m，则S的Gini指数为：

其中，s_j为集合S_j中样本数，由式(13)可知，具有最小Gini_split值的特征划分效果最好；随机森林(random forest，RF)在进行节点划分时，首先计算候选特征子集中每一个特征分割该节点后的Gini_split值，并用分割节点前节点的Gini指数减去该值，得到特征的“Gini Importance”，即Gini重要度；之后选择Gini重要度最大的特征作为该节点的分割特征；在RF构建完成后，把同一特征的所有Gini重要度线性叠加并降序排列，即得到所有特征的重要度排序；

4)特征选择

随机森林结合了决策树和Bagging思想的机器学习算法，通过重抽样方法获取多个样本构造不同的决策树模型，每棵决策树分别进行预测，最后由投票得出最终预测结果，它是一个由多棵CART决策树组成的预测器{p(x,Θ_k),d＝1,2,...,d_tree}的集合，其中x是输入向量，{Θ_k}是独立同分布的随机向量，决定了单棵树的生长过程；d_tree为决策树数；预测器{p(x,Θ_k)}由CART算法得到的完全生长并不进行剪枝操作的分类回归树；随机森林的算法步骤为：

(1)采用重抽样方法有放回的从原始数据集中随机抽取d组新的自助样本集，由CART算法建立d棵回归树，每次未被抽到的样本形成d组袋外数据集；

(2)从具有M个特征的原始样本集中随机选取mtry个特征，并在这mtry个特征中挑选分类效果最好的一个特征用于该节点的分裂；

(3)每棵树进行完全生长，不做剪枝操作；

(4)d棵回归树生长完全后形成随机森林，最后对实验数据进行预测；

参考序列前向搜索思想，在以扩维特征集训练随机森林得出不同风速特征Gini重要度的前提下，开展特征前向搜索策略，首先，按照Gini特征重要度降序排序的顺序，将特征依次加入到候选特征集合中；每加入一个特征，候选特征集合作为输入向量重新训练一个随机森林预测器，并计算相应的平均绝对百分比误差值；之后，重复以上过程直至所有特征都加入到候选特征集合中；最后，将平均绝对百分比误差值最小的模型对应的子集确定最优特征子集；

5)模型验证

使用验证集对步骤(4)中所得到的最优子集进行验证，证明所得最优子集在短期风速预测中的有效性。

本发明提供的一种基于优化奇异值分解特征集生成的低信息损失短期风速预测方法，它将优化的变分模态分解(Optimized variational mode decomposition，OVMD)与随机森林(Random Forest，RF)相结合，首先，通过优化的变分模态分解将原始风速信号分解为一系列的本征模函数(Intrinsic Mode Function，IMF)分量，并剔除幅值最小的一个本征模态函数，剩余的本征模态函数组合得到降噪后的风速序列，利用降噪后的风速序列构建全面的原始特征集合；其次，使用优化的奇异值分解对原始特征集合进行降维处理生成降维特征集，该特征集和原始特征集组合得到扩维特征集(extended feature set,EFS)；然后，计算EFS中每一特征的Gini重要度并进行排序；之后，根据特征重要度排序采用随机森林作为预测器，结合前向选择方法，以不同特征子集、不同预测目标下随机森林的预测结果的平均绝对百分比误差值为依据，确定预测精度最高的最优特征子集。最后，将最优子集应用于其他数据集从而进行检验。本方法具有科学合理，适应性强，实用价值高，低信息损失和高精度预测的特点。

附图说明

图1为本发明的基于优化奇异值分解生成特征集的低信息损失短期风速预测方法框图；

图2为数据集A下的优化奇异值分解的残差示意图；

图3为数据集B下的优化奇异值分解的残差示意图；

图4为数据集C下的优化奇异值分解的残差示意图；

图5为数据集D下的优化奇异值分解的残差示意图；

图6为数据集A下的优化变分模态分解的信号分解图；

图7为数据集B下的优化变分模态分解的信号分解图；

图8为数据集C下的优化变分模态分解的信号分解图；

图9为数据集D下的优化变分模态分解的信号分解图；

图10为数据集A下的优化奇异值分解的最佳奇异值确定图；

图11为数据集B下的优化奇异值分解的最佳奇异值确定图；

图12为数据集C下的优化奇异值分解的最佳奇异值确定图；

图13为数据集D下的优化奇异值分解的最佳奇异值确定图；

图14为数据集A下的特征选择过程示意图；

图15为数据集B下的特征选择过程示意图；

图16为数据集C下的特征选择过程示意图；

图17为数据集D下的特征选择过程示意图。

具体实施方式

本发明的基于优化奇异值分解生成特征集的低信息损失短期风速预测方法，包括以下步骤：

1)风速序列降噪处理

为降低噪声及离群点对风速预测精度的影响，并考虑到各种信号处理方法的特点，使用优化的变分模态分解对原始风速序列进行处理。首先，优化的变分模态分解将原始风速序列分解成若干个本征模态函数，然后，剔除幅值最小的一个本征模态函数，将其他剩余本征模态函数相加得到降噪后的风速序列，

变分模态分解对信号的处理过程包括构造和求解两部分，涉及了三个重要概念：经典维纳滤波、希尔伯特变换和频率混合。

变分问题的构造中，变分问题是将原始信号f分解为k个模态函数U_k(t)(本征模态函数)。假设每个本征模态函数的有限带宽具有中心频率且是ω_k,使得每个模态的估计带宽和最小。约束条件是：各模态函数之和等于原始信号f。

①通过Hilbert变换，得到每个模态函数U_k(t)的解析信号。

②对各模态的解析信号混合预估中心频率ω_k，将每个模态的频谱移动到基频带上。

③采用解调信号的H高斯平滑估计各模态信号的带宽，即梯度的二范数的平方。

因此该约束变分问题如下:

其中，是对t求偏导数，δ(t)为冲激函数。

变分问题的求解中，引入拉格朗日乘子γ(t)和二次惩罚因子α得到式(1)的增广拉格朗日函数。

其中表示U_i(ω),f(ω),γ(ω)的傅里叶变换；n表示迭代次数。

对于给定求解精度ε，满足下式时停止迭代：

其中，τ是更新参数，可以设置为0。

变分模态分解的具体实现过程如下：

①初始化γ¹与最大迭代次数N，n＝0；

②对于每个模式U_k,根据式(3)和(4)更新得到

③根据式(5)，更新γ，n＝n+1；

④根据式(6)判断收敛性：若不收敛且n<N，则重复步骤②，否则停止迭代，得到最终模态函数U_k和中心频率ω_k。

研究表明，变分模态分解应用于风速序列分解，性能主要受分解的模态函数个数K和拉格朗日乘子更新步长τ的影响。当K偏大，模态的ω会发生聚集甚至重叠，若K偏小，导致部分模态被分到邻近的模态上，甚至被丢弃。更新步长τ的不同会导致不同程度的残差出现，进而影响预测精度。因此根据中心频率观察法确定K和最小残差准则确定τ。首先，计算和分析在不同K值下的分解模式的中心频率。一旦出现类似的频率，将此时的K确定为分解的最佳K。然后根据去噪时间序列和原始序列之间的均方根误差(RMSE)优化更新参数τ，可以简化为残差评估指标(REI)。REI计算公式为：

2)降维特征集(reducted feature set,RFS)生成

奇异值分解具有理想的去相关性。使用奇异值分解对原始特征集(originalfeature set,OFS)进行降维，生成的特征可以保留原始特征集全部特征的部分信息，同时去除特征间相关性。已知训练矩阵A_m×n,表示m个样本，n个特征，矩阵的秩为r,对矩阵A进行奇异值分解：

其中U和V分别表示正交阵，Λ为_m×n的非负对角阵：

S₁，…S_n是矩阵A的奇异值并且有S₁>S₂>…>S_n，根据主成分思想，奇异值越大，其包含的信息越多，因此前h个主成分所组成的特征空间对应的新的矩阵A’:

A'_m×h＝U(:,1:h)×Λ_h×h (10)

其中U(:,1:h)为U中前h列向量对应的矩阵，Λ_h×h为前h个较大奇异值对应的对角矩阵。对于风速序列的预测，h的选取影响预测精度，因此基于不同奇异值的贡献率确定最佳奇异值个数h，得到优化奇异值分解的参数。

贡献率D公式如下：

其中S_i代表第i个奇异值对应的模型的平均绝对百分比误差,S_j代表第j个奇异值对应的模型的平均绝对百分比误差。

3)特征重要度计算

Gini指数是一种节点不纯度的度量方式，可以根据Gini指数作为评价指标来衡量每个特征在随机森林中的每棵树中预测贡献。为降低filter特征选择方法造成的低重要度特征的全部信息的损失，将使用特征降维方法奇异值分解得到的降维特征集与原始特征集组合，得到扩维特征集。计算该特征集中的全部特征的Gini重要度并排序。假设S是含有s个样本的数据集，可分为n类，s_i表示第i类包含的样本数，i＝1,2,..,n，则集合S的Gini指数为：

其中，P_i＝s_i/s，代表任意样本属于第i类的概率。当S中只包含一类时，其Gini指数为0。当S中所有类别均匀分布时，Gini指数取最大值。随机森林使用某特征划分节点时，将S分为m个子集S_j，j＝1,2,…,m，则S的Gini指数为：

其中，s_j为集合S_j中样本数。由式(13)可知，具有最小Gini_split值的特征划分效果最好。随机森林(random forest，RF)在进行节点划分时，首先计算候选特征子集中每一个特征分割该节点后的Gini_split值，并用分割节点前节点的Gini指数减去该值，得到特征的“Gini Importance”，即Gini重要度。之后选择Gini重要度最大的特征作为该节点的分割特征。在RF构建完成后，把同一特征的所有Gini重要度线性叠加并降序排列，即可得到所有特征的重要度排序。

4)特征选择

随机森林结合了决策树和Bagging思想的机器学习算法，通过重抽样方法获取多个样本构造不同的决策树模型，每棵决策树分别进行预测，最后由投票得出最终预测结果。它是一个由多棵CART[47]决策树组成的预测器{p(x,Θ_k),d＝1,2,...,d_tree}的集合，其中x是输入向量，{Θ_k}是独立同分布的随机向量，决定了单棵树的生长过程；d_tree为决策树数。预测器{p(x,Θ_k)}由CART算法得到的完全生长并不进行剪枝操作的分类回归树。随机森林的算法步骤如下：

(1)采用重抽样方法有放回的从原始数据集中随机抽取d组新的自助样本集，由CART算法建立d棵回归树，每次未被抽到的样本形成d组袋外数据集。

(2)从具有M个特征的原始样本集中随机选取mtry个特征，并在这mtry个特征中挑选分类效果最好的一个特征用于该节点的分裂。

(3)每棵树进行完全生长，不做剪枝操作。

(4)d棵回归树生长完全后形成随机森林，最后对实验数据进行预测。

5)模型验证

使用验证集对步骤(4)中所得到的最优子集进行验证，证明所得最优子集在短期风速预测中的有效性，从而证明本发明方法的有效性。

下面结合附图和具体实施例对本发明做进一步描述。

1)风速序列降噪处理

为降低噪声及离群点对风速预测精度的影响，使用优化的变分模态分解对原始风速序列进行降噪处理。优化的变分模态分解将原始风速序列分解成若干个本征模态函数，然后，剔除幅值最小的一个本征模态函数，将其他剩余模态函数相加得到降噪后的风速序列，如图2-5所示，数据集A、数据集B、数据集C和数据集D四个数据集中，不同更新步长τ对应不同残差的出现。将最小残差对应的更新步长τ设置为优化后的τ。如图6-9所示，优化的变分模态函数将原始风速序列分解成多个本征模态函数。表1列举不同中心频率下的K值，确定最佳分解参数K。

表1不同K值下中心频率

2)降维特征集生成

利用降噪后风速序列构建原始特征集，优化的奇异值分解对原始特征集进行降维处理从而生成若干特征，得到降维特征集。其中奇异值分解的参数通过最佳贡献率确定。如图10-13示，根据数据集A、数据集B、数据集C和数据集D四个数据集对应的不同贡献下的平均绝对百分比误差确定参数h。

3)特征重要度计算

为降低filter特征选择方法造成的低重要度特征的全部信息的损失，将使用特征降维方法中的奇异值分解方法得到的降维特征集与原始特征集组合得到扩维特征集。计算该特征集中的全部特征的Gini重要度并根据重要度将所有特征进行排序。

4)特征选择

本实施例中，将数据集随机地分为训练集、验证集和测试集三部分。训练集占整个数据集的60％，验证集和测试集各占20％。训练集用于构建随机森林预测模型并得到每一个特征的重要度，验证集用于评价模型的预测能力并选出最优特征子集，测试集用于评估所选最优特征子集的性能。由步骤3中得到的扩维数据集输入随机森林，在随机森林完成训练后能够得到训练集中每一个特征的Gini重要度值。将特征按照重要度由高到低的顺序逐一添加到特征集合中，每增加一个特征，则用新的训练集重新训练随机森林，并记录在相应验证集上的预测结果的平均绝对百分比误差值。最后选择平均绝对百分比误差最小时对应的特征子集为最优特征子集。特征选择过程如图14-17所示。

(5)模型验证

使用验证集数据，并将上述算法确定的最优子集作为输入特征集合，使用随机森林进行短期风速预测，统计预测结果。计算出平均绝对百分比误差,平均绝对误差和均方根误差,通过分析这三种指标，评估所提方法的有效性。

表2列举使用本发明的方法在多个数据集中进行多步短期风速预测得到的平均绝对百分比误差，平均绝对误差和均方根误差的数值，证明了本方法的有效性。

表2短期多步风速预测结果展示

Claims

1.一种基于优化奇异值分解生成特征集的低信息损失短期风速预测方法，其特征是，它包括以下步骤：

1)风速序列降噪处理

①通过Hilbert变换，得到每个模态函数U_k(t)的解析信号；

因此该约束变分问题为式(1)：

其中，是对t求偏导数，δ(t)为冲激函数，U_k是第k个本征模态函数；

其中，γ是拉格朗日乘法算子；

利用基于对偶分解和Lagrange法的交替方向乘子方法(Alternate Direction Methodof Multipliers，ADMM)求解式(2)，对U_k，ω_k，γ进行交替迭代寻优：

其中表示U_i(ω),f(ω),γ(ω)的傅里叶变换；n表示迭代次数；

对于给定求解精度ε，满足(6)式时停止迭代：

其中，τ是更新参数，设置为0，

变分模态分解的具体实现过程如下：

①初始化γ¹与最大迭代次数N，n＝0；

②对于每个模式U_k,根据式(3)和(4)更新得到

③根据式(5)，更新γ，n＝n+1；

2)降维特征集(reducted feature set,RFS)生成

其中U和V分别表示正交阵，Λ为_m×n的非负对角阵：

A'_m×h＝U(:,1:h)×Λ_h×h (10)

贡献率D公式为：

3)特征重要度计算

其中，s_j为集合S_j中样本数，由式(13)可知，具有最小Gini_split值的特征划分效果最好；随机森林(random forest，RF)在进行节点划分时，首先计算候选特征子集中每一个特征分割该节点后的Gini_split值，并用分割节点前节点的Gini指数减去该值，得到特征的“GiniImportance”，即Gini重要度；之后选择Gini重要度最大的特征作为该节点的分割特征；在RF构建完成后，把同一特征的所有Gini重要度线性叠加并降序排列，即得到所有特征的重要度排序；

4)特征选择

(3)每棵树进行完全生长，不做剪枝操作；

5)模型验证