CN111738477A

CN111738477A - 基于深层特征组合的电网新能源消纳能力预测方法

Info

Publication number: CN111738477A
Application number: CN201910724451.2A
Authority: CN
Inventors: 李寒; 刘晨; 杨中国; 黄越辉; 李驰; 王跃峰; 雷震; 郝雨辰; 金鑫
Original assignee: North China University of Technology; China Electric Power Research Institute Co Ltd CEPRI; State Grid Jiangsu Electric Power Co Ltd
Current assignee: North China University of Technology; China Electric Power Research Institute Co Ltd CEPRI; State Grid Jiangsu Electric Power Co Ltd
Priority date: 2019-08-01
Filing date: 2019-08-01
Publication date: 2020-10-02
Anticipated expiration: 2039-08-01
Also published as: CN111738477B

Abstract

基于深层特征组合的电网新能源消纳能力预测方法，包括两部分内容，分别为特征选择与特征组合；第一阶段，特征选择；首先从数据中提取特征，作为模型的输入，然后经过方差特征选择去掉方差小的特征，接着使用递归式特征消除进行特征选择；第二个阶段，特征组合；通过XGBoost与LightGBM方法来组合特征，建立了一个混合模型，将由XGBoost和LightGBM算法产生的预测结合起来，进行集成预测，XGBoost与LightGBM模型中的参数是通过网格搜索技术进行优化调整的。本发明在考虑风电消纳能力预测特征的复杂性的基础上，以提升预测精度为目标，该方法采用了不依赖经验的特征组合方法，采用基于不同特征组合的多模型进行预测。

Description

基于深层特征组合的电网新能源消纳能力预测方法

技术领域

本发明涉及风电消纳能力预测技术领域，特别涉及基于深层特征组合的电网新能源消纳能力预测方法。

背景技术

新能源，即可再生能源，特别是风电和光电，已成为政府政策、学术研究和电力行业的主要焦点。在各种新能源中，风电是被认为是最有前途的替代品之一。新能源消纳能力评估主要指依据现有电网结构、电源结构及负荷特性，评估在输电网结构、电源建设、系统运行方式等不需做出调整的前提下，电网能够接纳的新能源发电容量。新能源的消纳能力与新能源的发电能力直接相关。然而，新能源发电具有与生俱来的波动性，这种波动性必然会作用于电网的新能源消纳能力上，消纳能力的降低会影响电力系统的经济和可靠运行。对于风电，随着风电渗透率的不断提高，风电资源的变化和不确定性会影响电力系统的经济可靠运行。为了能够更好的消纳包括风电在内的新能源的发电容量，对风电等新能源发电数据的预测是必须和迫切的。

针对风电消纳能力的预测问题，目前主要存在三类风电预测模型，分别是物理模型、统计模型以及混合模型。直接采用物理模型进行风电预测存在着各种挑战，例如物理过程的精确性、时空分辨率、域和层次重要性，这些因素都制约着风电预测的精确度。统计模型使用历史数据进行训练，通常要优于物理模型。时间序列预测方法和机器学习方法是其中最常用的方法。自回归移动平均(ARMA)方法，Kalman滤波，马尔可夫链模是应用最广泛的时间序列预测方法。然而，影响风电的因素有很多，使用一维的时间序列预测方法只依赖风电的历史值，存在忽略其他影响因素的问题。人工神经网络(ANN)和支持向量机(SVM)是用来预测风电的两种最流行的机器学习方法。近来，基于决策树的风电预测方法也得到了广泛的应用，与其他机器学习模型相比，基于决策树的模型在保证了预测效果的前提下加快了预测速度。

除了物理模型与统计模型，提高风电整体预测精度的方法还有混合模型，即混合多个不同的机器学习算法，也就是集成模型。混合模型在文献中被证明比任何个别预测模型更精确。但在这些研究中，只有两到三种算法线性或非线性加权策略相结合，对各个特征也是一视同仁，通常没有考虑到各个特征对风电预测不同的重要性，也没有考虑到多个特征之间的组合关系。

风电预测通常依赖大量特征，而这些特征并不是每一个都是有用特征，存在的冗余特征不仅会减慢模型预测的速度，对其预测结果也会产生负面影响。另外，特征之间存在相互影响的关系，这些特征之间的组合也极大的影响了风电预测的准确率。

综上所述，风电预测特征的复杂性和预测精度的提升是风电预测领域的难点问题，也是新能源消纳能力预测领域的重点问题。

发明内容

为了解决以上技术问题，本发明的目的在于提供基于深层特征组合的电网新能源消纳能力预测方法，在考虑风电消纳能力预测特征的复杂性的基础上，以提升预测精度为目标，该方法采用了不依赖经验的特征组合方法，采用基于不同特征组合的多模型进行预测。

为了实现上述目的，本发明采用的技术方案是：

基于深层特征组合的电网新能源消纳能力预测方法，包括两部分内容，分别为特征选择与特征组合；

第一阶段，特征选择；

首先从数据中提取特征，作为模型的输入，然后经过方差特征选择去掉方差小的特征，接着使用递归式特征消除进行特征选择，以此去掉对风电消纳能力预测无用的特征，减少冗余特征的负面影响；

第二个阶段，特征组合；

通过XGBoost与LightGBM方法来组合特征，建立了一个混合模型，将由XGBoost和LightGBM算法产生的预测结合起来，进行集成预测，XGBoost与LightGBM模型中的参数是通过网格搜索技术进行优化调整的。

所述的特征选择分别包含低方差特征过滤和递归式特性消除；

低方差特征过滤：计算样本中每一个特征值所对应的方差，如果低于事先设定的阈值，则进行过滤(剔除)，通常情况下会剔除所有零方差特征，方差为0表示样本的特征取值没发生变化；也就是说样本在这个特征上基本上没有差异，对于样本的区分并没有什么用，对于模型预测没有什么帮助。方差阈值的设定是根据人为设定的保留比例来计算的，根据要剔除的特征个数来决定阈值大小。

递归式特征消除：

递归式特征消除使用一个机器学习模型来进行多轮训练，每轮训练结束后，消除若干权值系数对应的特征，再基于新的特征集进行下一轮训练，通常的递归式特征消除方法通过学习器返回的系数(如SVM)或者特征重要度(如随机森林)来获得每个特征的重要程度，然后，从当前的特征集合中移除最不重要的特征，该方法是基于构建的随机树模型，通过特征的使用频率、出现在树中的位置来综合计算特征的重要性，树模型算法中都集成了特征重要性的计算过程，在特征集合上不断的重复递归这个步骤，直到最终达到所需要的特征数量为止。

所述的特征组合，在上述特征集合上训练XGBoost模型和LightGBM模型，通过XGBoost树模型和LightGBM树模型构造新的特征组合，并且在其中加入PCA降维，最后建立一个混合模型，将XGBoost和LightGBM算法产生的预测结合起来，进行集成预测；

所述的XGBoost在目标函数里加入了正则项，用于控制模型的复杂度，正则项里包含了树的叶子节点个数和每棵树叶子节点上面输出分数的模平方，XGBoost则对目标函数进行了二阶泰勒展开，同时用到了一阶和二阶导数，理论上优化速度更快，精度也更高。XGBoost的目标函数推导过程如下：

对给定的数据集D有n个样本和m个特征，D＝{(x_i，y_i)}(|D|＝n，

集成树模型采用的是K个额外的加法函数去预测输出；

其中

是回归树空间，q代表树结构，将每个样本映射到叶子节点，T是树的个数，每一个f_k对应了一个单独的树结构，以及叶子权重w。为了学习这一系列的函数，我们需要最优化下面的目标函数：

其中，

这里的l是一个误差的凸函数用来计算预测值和原始值的偏差，Ω是用来惩罚模型复杂度的正则项，最后一项是用来约束和平滑学习到的权重。正则项的作用是避免模型的过拟合的，当正则项的参数设为0的时候，目标函数就变成了传统的梯度树模型，考虑到模型以递增原则进行训练，目标函数可以改写为：

为了更快的训练上述模型，将使用二阶泰勒展开式将目标函数更一步改写为：

其中，

以及

是一阶和二阶梯度量，我们将常量项移除后，目标函数可以简写为：

所述的LightGBM是在当前所有叶子节点中选择分裂收益最大的节点进行分裂，如此递归进行。

经过XGBoost和LightGBM组合得的特征选择包括PCA降维：

假设原始数据特征为n维向量，经过特征选择的特征向量为m维，将m维的向量作为XGBoost的输入，同时也作为LightGBM的输入，XGBoost和LightGBM分别输出预测的叶子结点的位置并分别进行one-hot编码，而XGBoost和LightGBM的参数(XGBoost：树的数量和树的最大深度，LightGBM：树的数量和每棵树的叶子结点数量)决定了组合特征的维度，新的组合特征的维度是远远大于原始输入特征的维度的，此时的数据为一个很大的稀疏矩阵，如果直接使用组合特征作为简单回归模型的输入，将会有极大的过拟合风险。

为了减少过拟合的风险，应用PCA主成分分析来对高维特征进行降维，并且PCA也是一种有效的去除数据噪声的手段，经过PCA处理的数据能够有效对抗异常数据，PCA是一种线性降维方法，可以将高维数据降到低维，在PCA中，主成分的贡献率(CR)和累积贡献(CC)分别由以下方法计算：

其中，λ_i是第i个主成分的特征值，p为输入特征向量的维度，CR_i为第i个主成分的贡献率，CC_i为从第1个主成分到第i个主成分的贡献率之和，也就是累积贡献率，这些数据是通过原始数据集构造特征矩阵，通过特征值分解得到每个特征值及对应的特征向量，也就是λ_i和它对应的特征向量，通过计算累积贡献率可以选择维度，当累积贡献率达到设定的阈值时，即选取该累计贡献率对应的i作为PCA降维后的维度，同样，也可以通过网格搜索来确定降维后的维度，该方法能更直观的看到不同维度的特征输入对应的性能好坏，能更加精确的选择主成分，但该方法也更加耗时。

本发明的有益效果：

本发明结合风电消纳能力预测问题中的高维、稀疏问题，从特征选择、构造再构造，模型集成角度设计了满足风电消纳能力预测的模型方法。该方法能过滤掉无用的特征，信息少的特征，再利用树模型挖掘构造深层次特征相互关系，提高预测精度。该方法的训练速度快，能通过增量学习方式及时更新模型，满足实时、动态预测风电需要。给国家电网等企业对于未来风电产生量的估计有很大的实用价值，避免了过多的弃风量，增加了企业收益，是一种更加准确的新能源消纳能力预测方法。

附图说明

图1是基于深层特征组合的多模型风电消纳能力预测方法图。

图2是特征选择示意图。

图3是GBDT组合特征示意图。

图4是深层特征组合示意图。

图5是XGBoost的Level-wise与LightGBM的Leaf-wise的分裂方式对比示意图。

图6是模型融合示意图。

具体实施方式

下面结合实施例对本发明作进一步详细说明。

由于用于风电消纳能力预测的风电数据具有非线性和非平稳性的性质，且风电特征之间相互影响，复杂多变，所以仅仅在原始特征上使用单一的机器学习算法直接训练难以取得好的预测结果。因此，本文提出一种基于深层特征组合的电网新能源消纳能力预测方法来计算风电值，从而更准确的预测风电消纳能力。方法架构如图1所示，由二个阶段构成。

第一阶段，特征选择。首先从数据中提取特征，作为模型的输入，然后经过方差特征选择去掉方差小的特征，接着使用递归式特征消除进行特征选择，以此去掉对风预测无用的特征，减少冗余特征的负面影响。

第二阶段，特征组合。与基于经验的特征组合方法不同，本文使用基于树的集成模型构造深层次的特征。通过XGBoost与LightGBM方法来组合特征，最后建立了一个混合模型，将由XGBoost和LightGBM算法产生的预测结合起来，进行集成预测。XGBoost与LightGBM模型中的参数是通过网格搜索技术进行优化调整的。

XGBoost与LightGBM算法在各自训练时树模型的构造方法不同，通过这两者算法，能够使得模型预测的更加准确，并且其适应能力也更强。

特征选择

机器学习模型的性能在很大程度上取决于它的输入特征。在一个数据集中通常包含多个特征。特征的有效性决定了最终模型的预测效果，通常需要通过某些方法选择有效特征去除无效特征。本文中采用两个方法串行选择特征，分别是低方差特征过滤和递归式特性消除。

方差特征选择

低方差过滤特征选择，计算样本中每一个特征值所对应的方差，如果低于阈值，则进行过滤(剔除)。剔除所有零方差特征，方差为0表示样本的特征取值没发生变化，也就是说样本在这个特征上基本上没有差异，对于样本的区分并没有什么用，对于模型预测没有什么帮助。

因此，在数据集中如果某一特征大多数样本取相同值甚至所有样本取相同值时，需要通过方差特征选择去除该特征。

方差特征选择能够去除掉特征差异小的特征，从而降低特征的维度，但方差特征选择方法表现能力有限，其阈值设置过小仅能去除很少一部分无效特征，如果阈值设置过大，可能会去除掉某些重要特征。所以在本方法中，采用低阈值过滤，然后在剩余的特征集合中，再进行进一步的特征选择。(如图2所示)递归式特征消除

递归式特征消除(RFE)，属于包裹法特征选择算法。递归式特征消除使用一个机器学习模型来进行多轮训练，每轮训练结束后，消除若干权值系数对应的特征，再基于新的特征集进行下一轮训练。通常的递归式特征消除方法通过学习器返回的系数(如SVM)或者特征重要度(如随机森林)来获得每个特征的重要程度。然后，从当前的特征集合中移除最不重要的特征。在特征集合上不断的重复递归这个步骤，直到最终达到所需要的特征数量为止。

本方法使用的是基于交叉验证的递归式特征消除(RFE-CV)，主要思想是通过交叉验证的结果来找到最优的特征集合，如果减少某一特征模型的性能提高，则去除该特征，如果减少某一特征会造成模型的性能损失，则保留该特征。该方法可以使用任意机器学习模型作为基模型，本文中使用线性回归作为基模型，使用R2分数作为模型性能的评价手段，同时使用交叉验证来评价特征是否保留或去除。

深层特征组合

在应用机器学习模型做预测时，特征工程是影响模型预测准确率的一个关键环节，而特征组合是特征工程中最重要的一环。人工组合特征是一种有效的特征组合方法，但是该方法耗时，并且非常依赖领域内的专业知识，且并不是所有的特征组合都有意义。因此，通过机器学习模型来自动发现有效的特征、组合特征，弥补人工经验不足是研究热点之一。树模型是发现有效特征、组合特征的一种有效方法，多棵树集成的梯度提升树(GBDT)也是一种经常用来发现特征组合的有效思路。该方法采用GBDT与逻辑回归相结合的方法，与通常的做法不同的是当GBDT训练好做预测的时候，输出的并不是最终的预测值，而是要把模型中的每棵树计算得到的预测值所属的叶子结点位置并对该位置进行one-hot编码，这样就构造出了新的训练数据，再将新的训练数据作为逻辑回归的输入，最终输出预测结果，其结构图如下图3所示。

如图4所示，本文方法主要将GBDT树模型更换为XGBoost树模型和LightGBM树模型来进行特征的组合，并且在其中加入PCA降维，最后建立一个混合模型，将XGBoost和LightGBM算法产生的预测结合起来，进行集成预测。

XGBoost组合特征

XGBoost与GBDT同样属于boosting方法，与GBDT不同的是，XGBoost在目标函数里加入了正则项，用于控制模型的复杂度，正则项里包含了树的叶子节点个数和每棵树叶子节点上面输出分数的模平方，从偏差方差权衡的角度来讲，正则项降低了模型的方差，使学习出来的模型更加简单，能有效防止过拟合。同时，XGBoost借鉴了随机森林的做法，支持样本采样与列抽样，不仅能降低过拟合，还能减少计算。并且传统的GBDT在优化时只用到一阶导数，XGBoost则对目标函数进行了二阶泰勒展开，同时用到了一阶和二阶导数，优化速度更快，精度也更高。在通常的分类或预测任务中，XGBoost比GBDT有更好的精度，将其应用于特征组合时也能有更好的组合效果。

LightGBM组合特征

使用LightGBM来进行特征组合，XGBoost与LightGBM最大的区别是XGBoost采用的是level-wise的分裂策略，而LightGBM采用了leaf-wise的策略，XGBoost对每一层所有节点做无差别分裂，可能有些节点的增益非常小，对结果影响不大，但是XGBoost也进行了分裂，带来了无必要的开销。而LightGBM中leaf-wise的做法是在当前所有叶子节点中选择分裂收益最大的节点进行分裂，如此递归进行，如图5所示是两者的主要区别。LightGBM的leaf-wise特性使得最终组合的特征会与XGBoost的level-wise也会有很大区别，其组合出来的特征各有代表性。

PCA降维

假设原始数据特征为n维向量，经过特征选择的特征向量为m维，将m维的向量作为XGBoost的输入，同时也作为LightGBM的输入，XGBoost和LightGBM分别输出预测的叶子结点的位置并分别进行one-hot编码，而XGBoost和LightGBM的参数(XGBoost：树的数量和树的最大深度，LightGBM：树的数量和每棵树的叶子结点数量)决定了组合特征的维度，新的组合特征的维度是远远大于原始输入特征的维度的，此时的数据为一个很大的稀疏矩阵。如果直接使用组合特征作为简单回归模型的输入，将会有极大的过拟合风险。

为了减少过拟合的风险，应用PCA主成分分析来对高维特征进行降维。并且PCA也是一种有效的去除数据噪声的手段，经过PCA处理的数据能够有效对抗异常数据。PCA是一种线性降维方法，可以将高维数据降到低维。在PCA中，主成分的贡献率(CR)和累积贡献(CC)分别由以下方法计算：

其中，λ_i是第i个主成分的特征值，p为输入特征向量的维度，CRi为第i个主成分的贡献率，CCi为从第1个主成分到第i个主成分的贡献率之和，也就是累积贡献率。通过计算累积贡献率可以选择维度，当累积贡献率达到设定的阈值时，即选取该累计贡献率对应的i作为PCA降维后的维度。同样，也可以通过网格搜索来确定降维后的维度，该方法能更直观的看到不同维度的特征输入对应的性能好坏，能更加精确的选择主成分，但该方法也更加耗时。

模型融合

在本文中，由于不同模型具有不同的优势，预测结果也会有多样性，所以考虑多个模型进行融合来提高最终预测的结果。采用XGBoost模型和LightGBM的预测结果采用平均加权的办法进行结果集成。其流程如图6所示。

XGBoost和LightGBM都可以作为替代GBDT进行特征组合的手段，考虑到两者之间的结构有较大差别，其最终组合出的特征也都能很好的代表原特征，并且两者组合的特征有各自特点，所以这两个模型可以并行化来进行特征的组合，并将组合的特征分别作为线性回归的输入，得到两种不同的输出结果。

基于树的集成模型都可以组合特征，但随机森林或极度随机树不被推荐用来做组合特征，其主要原因是随机森林由于属于bagging类集成方法，每棵树的深度往往比boosting类集成方法大得多，而树的深度直接影响了组合特征的维度，这会直接导致组合特征的维度非常大，通常远远大于boosting类集成方法组合特征的维度，无论是计算速度还是内存占用都是一笔很大的开销。

实施例

在本文案例中，采用R2分数作为模型性能的评价手段，其中，R2分数的定义如下：

R2分数是将预测值跟只使用均值的情况下相比，看能好多少，通常也被称为R2决定系数或拟合优度。其取值区间通常在(0，1)之间。但有时会小于0，0表示什么都不预测、直接取均值的情况，小于0则认为还不如取均值的情况。而1表示所有预测跟真实结果完美匹配的情况。

数据预处理

案例中使用的数据为国家电网黑龙江省的真实风电数据集，包含2017年1月1日至2017年12月31日一共8760条数据，数据采集间隔为1小时，数据格式为csv格式，一共包含70个特征列和1个预测列，其中特征列主要包括与预测目标风电理论值相关的采集时间、机器规格、各机器最大最小开机数量、最大最小出力、出力结果、机器容量、外送联络线等，风电预测目标的取值区间为[0，5114.34]，除此之外，还有电网负荷等时间序列特征。

首先对数据进行预处理，由于连续的时间列不经过处理无法直接输入模型，而风电预测又跟时间有较大的关联，所以将连续的时间列处理为对应的星期、日期、小时、是否节假日等四个特征。

最后将数据集随机划分为训练集和测试集，其中测试集占20％比例，以便后续进行模型效果的验证。

以上实验为保密实验。

特征选择

方差特征选择

本方法需要对训练数据和测试数据都进行特征选择。先对训练数据进行方差特征选择，其中SK600容量、SK100开机数量、CQ330容量、SK100最小出力、SK100最大出力、CQ200最大开机数量、NQ300最大开机数量等31个特征方差为0，表明了这些特征在该数据集内是固定取值，不仅对最终的预测没有帮助，还会增加计算量，所以需要将这些特征在训练数据和测试数据中同时去掉。

递归式特征消除

由于基于交叉验证的递归式特征消除方法更加直观，所以使用五折交叉验证并且以R2分数作为评价标准，使用简单模型线性回归验证特征好坏，以此进行特征的选取。表1是不同特征对应的模型性能，其中去掉NQ300最大出力，CQ100最大出力，NQ200最大出力，NQ300最小出力等多个特征之后，模型性能一步步增加。

表1.不同特征对应的模型效果

可以看出在未进行递归式特征消除之前直接使用线性回归模型预测的R2分数为0.7384，进行递归式特征消除之后的R2分数提高到0.7521，另一方面最终特征集合中也只剩下38个有效特征，其计算速度也会更快。

特征组合

特征组合是本文方法的关键环节，本文提出基于XGBoost和LightGBM的特征组合方法，来对比两种方法的性能。

XGBoost特征组合

将特征集合中剩余的38个有效特征作为XGBoost的输入，由于XGBoost在使用原始特征时的性能也一定程度上决定了组合特征的有效性，所以需要先对XGBoost在训练集上使用网格搜索与五折交叉验证进行调优，并且组合特征的维度是由XGBoost的树数量与树的最大深度决定，越多的树和越大的树深度会造成组合特征的维度过大，所以需要将树的数量和树的最大深度限制在较小的范围，由于XGBoost参数较多，如果将参数同时进行网格搜索计算量非常大，所以选择控制变量法进行参数的选取，其主要思想是首先确定初始参数(表2第二列)，然后固定其他参数只选取剩下的一个或两个参数在参数搜索范围进行调优，表2第三列是XGBoost各参数的选取区间。其最终的最优参数如表2第四列所示，最优参数对应的交叉验证R2分数为0.8737，比线性回归的性能优异不少。

虽然使用XGBoost效果相比简单模型提升很大，但其性能也并不十分突出。本文方法更关心的是XGBoost组合特征的能力，将样本在XGBoost模型中落在树的叶子结点位置记录下来，并对其进行one hot化得到组合特征，其维度为2669维，可以看出通过XGBoost组合的特征的维度非常高。

表2.XGBoost参数搜索

LightGBM特征组合

LightGBM也可以作为特征组合的模型，与XGBoost不同的是，LightGBM组合特征的维度是由LightGBM的树数量与树的叶子结点个数决定的。与XGBoost类似，LightGBM的参数较多，选择贪心法进行参数的选取，如表3。其最终的最优参数如表格第四列所示，最优参数对应的交叉验证R2分数为0.8763，相比XGBoost的性能略有提升。将样本在LightGBM模型中落在树的叶子结点位置记录下来，并对其进行one-hot化得到组合特征，其维度为3100维，比XGBoost组合的特征的维度还要高。

表3.LightGBM参数搜索

降维与模型融合

考虑到XGBoost和LightGBM组合出的特征维度不同，需分别使用线性回归去拟合数据，并在最后对两者进行模型融合得到最终结果。

在模型融合之前，需首先单独训练两个模型，同样在训练数据上使用五折交叉验证的方式评价模型。表4是两者的训练分数、交叉验证分数和测试分数。

表4.组合方法的模型效果

	训练R2分数	交叉验证R2分数	测试R2分数
				XGBoost+lr	0.96642	-9.85326e+17	-0.00137
LightGBM+lr	0.97634	-2.97054e+18	-0.00027

可以看出，两者都在训练数据表现非常好，但在交叉验证和测试集上表现却非常差，其R2分数甚至为负数，这说明了模型出现了严重的过拟合，其模型是无效的。而造成这种情况的一个原因是组合特征维度非常高(在XGBoost的2699维，LightGBM的3100维)，而训练数据较少。另外，虽然组合特征包含的信息比原始特征更多，但其数据中也存在更多噪声，而噪声也是导致过拟合的主要原因。

解决这一问题主要从两方面入手，一方面是增加数据量，另一方面是减少特征维度、去除噪声。但前者通常非常困难，数据的获取难度往往比较大，所以考虑使用PCA来进行特征降维，同时又能去除噪声，以此来达到防止过拟合的目的。

首先使用主成分累积贡献率为0.8的PCA降维，验证该方法的有效性，表5所示是降维后对应的R2分数。

表5.降维后组合方法的模型效果

并且在使用0.8主成分时LightGBM组合特征维度降为270，XGBoost组合特征维度降为177维，其维度都大大降低，噪声量也随之减少。可以看出，降维后再进行训练不再发生严重的过拟合问题，并且使用PCA降维后两者效果相比单独使用LightGBM或XGBoost都有提升。

主成分需要进行调优，0.8并非是最优选择，所以这里使用网格搜索与交叉验证对主成分的选取分别进行调优。如下表6、7是不同主成分及对应结果。

表6.不同主成分对应的模型效果

表7.不同主成分对应的模型效果

根据调优结果，当使用XGBoost做特征组合时，降维后的主成分保持在0.95最优，其特征维度为678维，五折交叉验证r2分数在0.9以上，并且在测试集也达到了0.9以上的R2分数，当使用LightGBM做特征组合时，降维后的主成分保持在0.9最优，其特征维度为567维，在测试集上的R2分数也在0.9以上。

在确定好各个参数之后，最后做模型融合，因为两者模型的基础结构不同，在最后预测的结果也具有多样性，并且两者性能十分接近，选择把两者模型做简单的平均融合。表8是未融合与融合之后效果的对比。可以看到，最后在测试集上的效果比之任何一个单模型效果都要更好。

表8.各模型预测R2分数

实验对比

为了评价本文提出的基于深度特征组合的多模型方法，选取了主流的几个机器学习单模型，包括SVR，神经网络，随机森林，极度随机树，XGBoost和LightGBM，同时选取了stack集成模型以及GBDT+LR的组合，在包括黑龙江，甘肃，吉林，青海，陕西以及山西的六个不同省市2017年一年的数据上使用R2分数分别展开对比验证。其中，每个省市的数据都划分为80％的训练集和20％的测试集。

下表9总结了不同模型调优后在各个省份的测试集上的结果表现。

表9.各模型预测R2分数

模型	黑龙江	甘肃	吉林	青海	陕西	山西
							Network	0.7561	0.7822	0.7864	0.7751	0.7427	0.7623
随机森林	0.8539	0.8634	0.8653	0.8591	0.8577	0.8563
							极度随机树	0.8656	0.8622	0.8647	0.8602	0.8560	0.8557
XGBoost	0.8737	0.8746	0.8795	0.8778	0.8829	0.8872
							LightGBM	0.8763	0.8723	0.8802	0.8733	0.8815	0.8863
stack	0.8827	0.8817	0.8846	0.8802	0.8878	0.8912
							GBDT+LR	-0.0005	-0.0017	-0.0008	-0.1032	-0.0007	-0.1822
本文方法	0.9201	0.9118	0.9127	0.9139	0.9097	0.9055

表1列出了本文方法与其他方法的R2分数。从表中可以看出原始的GBDT+LR的组合方法在该数据集上表现最差，其R2分数为负数，表明使用该方法的预测结果不如直接取平均值，原因是组合特征的维度非常高，同时数据也包含很多噪声，使得模型在训练数据上过拟合。除此之外，神经网络也表现较差，其最主要的原因是神经网络往往需要大量数据训练，在仅有的数据上进行训练难以达到好的预测结果。而随机森林、极度随机树、XGBoost、LightGBM这几种基于树的集成模型表现较好，这些方法综合多棵树的预测结果，并且具有样本采样，特征采样，预剪枝等多种过拟合的方法，能够有效的防止过拟合，从而提高预测精度。另外stack集成方法，在本文中使用两层stack模型，第一层使用随机森林、极度随机树、XGBoost和LightGBM作为基模型进行预测，第二层采用Ridge回归进行最终风电的预测，可以看出，该方法相比单独的某一基模型，其预测结果略有提升，但该方法依赖基模型的效果。而本文提出的深度特征组合多模型方法延续GBDT+LR的组合方法，使用XGBoost和LightGBM进行特征组合，并对其组合的特征进行降维去躁，最后采用模型融合的思想对两者进行融合，结果表明，该方法在预测结果上也优于其他模型。

以上实验均为保密实验。

Claims

1.基于深层特征组合的电网新能源消纳能力预测方法，其特征在于，包括两部分内容，分别为特征选择与特征组合；

第一阶段，特征选择；

首先从数据中提取特征，作为模型的输入，然后经过方差特征选择去掉方差小的特征，接着使用递归式特征消除进行特征选择；

第二阶段，特征组合；

2.根据权利要求1所述的基于深层特征组合的电网新能源消纳能力预测方法，其特征在于，所述的特征选择分别包含低方差特征过滤和递归式特性消除；

低方差特征过滤：计算样本中每一个特征值所对应的方差，如果低于事先设定的阈值，则进行过滤，通常情况下会剔除所有零方差特征，方差为0表示样本的特征取值没发生变化；

递归式特征消除：

递归式特征消除使用一个机器学习模型来进行多轮训练，每轮训练结束后，消除若干权值系数对应的特征，再基于新的特征集进行下一轮训练，通常的递归式特征消除方法通过学习器返回的系数或者特征重要度来获得每个特征的重要程度，然后，从当前的特征集合中移除最不重要的特征，在特征集合上不断的重复递归这个步骤，直到最终达到所需要的特征数量为止；

所述的特征组合，在上述特征集合上训练XGBoost模型和LightGBM模型，通过XGBoost树模型和LightGBM树模型构造新的特征组合，并且在其中加入PCA降维，最后建立一个混合模型，将XGBoost和LightGBM算法产生的预测结合起来，进行集成预测。

3.根据权利要求2所述的基于深层特征组合的电网新能源消纳能力预测方法，其特征在于，所述的XGBoost在目标函数里加入了正则项，用于控制模型的复杂度，正则项里包含了树的叶子节点个数和每棵树叶子节点上面输出分数的模平方，XGBoost则对目标函数进行了二阶泰勒展开；

所述的XGBoost的目标函数为：

对给定的数据集D有n个样本和m个特征，D＝{(x_i，y_i)}(|D|＝n，

集成树模型采用的是K个额外的加法函数去预测输出；

其中

其中，

这里的l是一个误差的凸函数用来计算预测值和原始值的偏差，Ω是用来惩罚模型复杂度的正则项，正则项的作用是避免模型的过拟合的，当正则项的参数设为0的时候，目标函数就变成了传统的梯度树模型，考虑到模型以递增原则进行训练，目标函数可以改写为：

将使用二阶泰勒展开式将目标函数更一步改写为：

其中，

以及

是一阶和二阶梯度量，将常量项移除后，目标函数可以简写为：

。

4.根据权利要求2所述的基于深层特征组合的电网新能源消纳能力预测方法，其特征在于，所述的LightGBM是在当前所有叶子节点中选择分裂收益最大的节点进行分裂，如此递归进行。

5.根据权利要求1所述的基于深层特征组合的电网新能源消纳能力预测方法，其特征在于，所述的特征选择包括PCA降维；

假设原始数据特征为n维向量，经过特征选择的特征向量为m维，将m维的向量作为XGBoost的输入，同时也作为LightGBM的输入，XGBoost和LightGBM分别输出预测的叶子结点的位置并分别进行one-hot编码；

应用PCA主成分分析来对高维特征进行降维，经过PCA处理的数据能够有效对抗异常数据，在PCA中，主成分的贡献率(CR)和累积贡献(CC)分别由以下方法计算：

其中，λ_i是第i个主成分的特征值，p为输入特征向量的维度，CR_i为第i个主成分的贡献率，CC_i为从第1个主成分到第i个主成分的贡献率之和，也就是累积贡献率，这些数据是通过原始数据集构造特征矩阵，通过特征值分解得到每个特征值及对应的特征向量，也就是λ_i和它对应的特征向量，通过计算累积贡献率可以选择维度，当累积贡献率达到设定的阈值时，即选取该累计贡献率对应的i作为PCA降维后的维度。