CN111414717A

CN111414717A - 一种基于XGBoost-LightGBM的机组功率预测方法

Info

Publication number: CN111414717A
Application number: CN202010135920.XA
Authority: CN
Inventors: 陈棋; 杨秦敏; 陈积明; 王琳; 孙优贤; 孙勇
Original assignee: Zhejiang University ZJU; Zhejiang Windey Co Ltd
Current assignee: Zhejiang University ZJU; Zhejiang Windey Co Ltd
Priority date: 2020-03-02
Filing date: 2020-03-02
Publication date: 2020-07-14

Abstract

本发明公开了基于XGBoost‑LightGBM的机组功率预测方法，包括以下步骤：离线建模；收集训练样本集；对于训练集数据采用XGBoost做特征提取；划分训练集和测试集；学习出LightGBM模型；在线预测。上述技术方案采用极端梯度增强算法用于对特征的选择，筛选出对输出功率的预测更为有效和敏感的特征，将筛选出的有效特征变量代入到Light Gradient Boosting Machine模型，建立功率预测模型，该技术方案充分考虑了采集到的变量对机组功率预测的有效性，对于风力发电机组功率预测具有更高的准确性。

Description

一种基于XGBoost-LightGBM的机组功率预测方法

技术领域

本发明涉及风力发电领域，尤其涉及一种基于XGBoost-LightGBM的机组功率预测方法。

背景技术

由于社会经济快速发展,世界各国对能源资源的需求出现井喷式增长,导致常规化石能源的开采及消耗大幅度攀升,并由此带来常规化石能源的枯竭及环境污染等问题。为了应对出现的能源危机,世界各国已经从两个方面来解决这些问题:一方面通过采取相应的措施来控制化石能源的开采,通过优化工业产业结构来实现节能减排；另一方面积极探索新能源技术,大力开发经济环保的可持续能源。风力发电就是在能源出现危机的环境下快速发展起来的,它不像煤、石油等常规化石能源在使用的过程中会对自然环境造成污染,再加上风能的获取范围广泛且可以循环利用等优点,使得风力发电技术在可持续能源研发和利用领域具有重要意义。

有资料显示，以风力发电为代表的装备是目前最有发展前景的新能源高端装备，大力发展以风力发电为代表的新能源装备已成为我国的战略选择。但风电机组结构复杂，多变的边界条件和运行工况更是加剧了机组能效的不确定性，使得传统的基于机组信息的功率预测方法难以适用，带来了高成本、低效率、低精度、机组差异性大等问题。

风机功率预测通常分为物理方法和统计方法。运用物理方法进行风机功率预测，需要涉及的建模对象很多，例如，需要风机所在地周围的障碍物、温度以及等高线等信息作为参考进行分析。由于数值气象预报模型的数据更新速度不够快，所以物理方法适用于中期预测。利用统计方法来建立预测模型，实质是建立系统输入与风电功率之间的映射关系，可以直接利用气象数据对发电功率进行预测。主要方法有神经网络、粒子群算法、灰色理论算法和支持向量机等。针对预测模型普遍存在的延时问题，有些学者先通过离散小波变换将信号分解为高低频段的信号，再用遗传算法优化的BP神经网络分别进行建模，最后求和各层预测信号。有些学者利用小波变换将原始风速信号分解为高频部分和低频部分，针对高频信号相邻的两个数据之间相似度较低，波动较大的特点，采用滑动平均法进行预测，而低频信号仍然采用持续法预测，最后通过小波重构以及风电功率特性曲线转换得到风电功率预测值。还有采用人工蜂群算法优化得到神经网络的权值和阈值，构建ABC-BP神经网络风电功率预测模型。但是，以上方法都有其自己的适用范围和局限性，使得有时预测效果不佳。

中国专利文献CN104636823A公开了一种“风电功率预测方法”。包括以下步骤：收集样本数据并进行处理；利用处理后的样本数据建立BP神经网络模型，对BP神经网络模型进行训练，得到最终的权值、阈值以及预测值相对于样本值的相对误差序列；根据训练完毕的权值、阈值求得输出功率的初始预测值；根据相对误差的序列，利用马尔科夫链误差修正模型计算输出功率的初始预测值对应的计算相对误差状态；将输出功率的初始预测值与与其对应的计算相对误差状态结合，计算得到修正功率。上述技术方案存在局限性，适用范围有限，不适用于中期预测。

发明内容

本发明主要解决原有的技术问题，提供一种基于XGBoost-LightGBM的机组功率预测方法，采用极端梯度增强算法用于对特征的选择，筛选出对输出功率的预测更为有效和敏感的特征，将筛选出的有效特征变量代入到Light Gradient Boosting Machine模型，建立功率预测模型，该技术方案充分考虑了采集到的变量对机组功率预测的有效性，对于风力发电机组功率预测具有更高的准确性。

本发明的上述技术问题主要是通过下述技术方案得以解决的：本发明包括以下步骤：

①离线建模；

②收集训练样本集；

③对于训练集数据采用XGBoost做特征提取；

④划分训练集和测试集；

⑤学习出LightGBM模型；

⑥在线预测。

作为优选，所述的步骤1离线建模过程如下：

假设风电机组运行过程中采集的监测数据构成原始数据集

X＝[x₁，x₂，…，x_n]^T∈R^n×m

其中m表示监控变量的个数，n表示样本个数，x_i∈R^n×m，i＝1，…，n表示第i个样本，Y＝[y₁,y₂,L,y_n]^T∈R^n×1，y_i∈R,i＝1,L,n表示第i个样本的功率值。

作为优选，所述的步骤2收集的训练样本集，即风电机组运行SCADA数据，包括风机状态、功率、风速、风向、温度、机舱位置、对风误差、转速、转矩、桨距角、电网参数。

作为优选，所述的步骤3特征提取通过XGBoost降低预处理后的原始数据集的维度，在保留数据集主要信息的同时，减少模型的计算量。

作为优选，所述的步骤3对于给定的数据集，在树模型构建的过程中，每一层贪心地选取一个特征分割点作为叶子节点，使得在分割之后整棵树增益值最大，分割过程中，每个叶子节点的权值可以表示为w(g_i,h_i)，其中

训练误差

表示目标值和预测值之间的差距，根据所有叶子节点的权值，考虑每个特征作为分割点的增益gain，有：

XGBoost在每一次迭代的时候都会增加一棵树，则构建K棵树的线性组合为

其中，F表征包含所有树的函数空间，f_k(x_i)表示的是第i个样本在第k棵树中被分类到所在叶子的权重。决策树模型作为一种非参数监督式学习模型，不需要对数据有任何的先验假设，能够快速地根据数据的特征找到决策规则。而XGBoost在决策树的基础上采用了集成策略，利用梯度提升算法不断减小前面生成的决策树的损失，并产生新树构成模型，确保最终决策的可靠性。

作为优选，所述的步骤3中XGBoost根据特征分裂的次数FScore、特征平均增益值Average Gain或特征平均覆盖率Average Cover来作为其构建决策树的依据，以便准确的完成分类任务，对于上述3种重要性度量指标，有

FScore＝|X| (5)

其中，X是所求特征分类到叶子节点的集合；gain是X中每个叶子节点由式(3)得到的在分割时节点增益值；cover是X中落在每个节点的样本个数。

作为优选，所述的步骤5中的Light GBM包括GOSS和EFB，所述GOS技术的具体操作为：对数据集进行排序，按照梯度绝对值排序。排序以后挑选前a*100％的数据集。对剩余的数据进行随机抽样，比例为b*100％，之后具体计算信息增益时，对随机抽取的数据放大一个常数。此项功能可以实现剔除梯度相对较小的数据集，筛选梯度较大的数据集，用这部分的数据计算信息增益，此时计算出的信息增益肯定占的比重较大。GOSS减少了需要分析的数据量，也保证了计算信息增益时能得到较好的效果。GOSS的理论部分：

输入空间为χ^s，梯度空间为ζ。假设我们独立同分布的数据集，维度为n，如{x₁,...,x_n}，其中每个x_i是在空间χ^s中具有维度s的向量。在每次梯度增强迭代中，损失函数相对于模型输出的负梯度表示为{g₁,...,g_n}。决策树模型将具有最大信息增益的特征分割成每个节点。对于GBDT，信息增益通常是通过分裂后的方差来衡量的，定义如下，

设O是决策树固定节点上的训练数据集。这个节点在点d处的分裂特征j的方差增益被定义为

其中

对特征j，决策树算法选择

并计算最大的信息增益

然后，在节点

根据特征j^*分割成左侧子节点和右侧子节点。在GOSS方法中，首先是对训练样本进行排序，排序准则是训练样本的梯度绝对值，将所有训练样本从大到小排下来；其次，保留较大梯度的top-a×100％数据集并得到一个数据子集A；那么，对于剩余集合(1-a)×100％具有较小梯度的实例A^c，我们进一步随机地采样一个大小为b×|A^c|的子集B；最后，我们根据子集A∪B的估计方差增益

分割数据，

其中

系数

被用于将B上的梯度之和归一化为A^c的大小。

作为优选，所述的步骤5中的EFB技术为特征捆绑，将互斥特征进行捆绑，即它们很少同时取非零值，以有效减少特征数量。寻找最优的捆绑特征在理论上可以证明是NP-hard问题，无法用枚举方法得出，实际操作中用贪心算法逼近最优解，这就能够减少特征数量的同时不会影响分裂节点的准确性。高维数据在很多情况下都很稀疏。其稀疏性可以让我们设计出减少特征数量并且不影响模型效果的方法。特征空间是稀疏时，会有一些特征会有相互排斥的情况，排斥的意义就是两个特征的具体数值不会同时为零，经过特征数值遍历扫描后进行特征捆绑，构建特征直方图。这样，直方图构建的复杂度从(n(数据)×n(特征))变为(n(数据)×n(捆绑特征))，而n(捆绑特征)都会比n(特征)小，n(捆绑特征)的减小会加快模型的训练速度，并在精确程度上并不会损失太大。

作为优选，所述的步骤6包括在线采集风力发电机组运行过程的数据，并对于采集到的样本点，使用训练好的LightGBM模型对测试集的输出功率进行预测。

本发明的有益效果是：采用极端梯度增强算法用于对特征的选择，筛选出对输出功率的预测更为有效和敏感的特征，将筛选出的有效特征变量代入到Light GradientBoosting Machine模型，建立功率预测模型，该技术方案充分考虑了采集到的变量对机组功率预测的有效性，对于风力发电机组功率预测具有更高的准确性。

具体实施方式

下面通过实施例，对本发明的技术方案作进一步具体的说明。

实施例：本实施例的一种基于XGBoost-LightGBM的机组功率预测方法，包括以下步骤：

1.离线建模。过程如下：

假设风电机组运行过程中采集的监测数据构成原始数据集

X＝[x₁，x₂，…，x_n]^T∈R^n×m

2.收集训练样本集。收集的训练样本集，即风电机组运行SCADA数据，包括风机状态、功率、风速、风向、温度、机舱位置、对风误差、转速、转矩、桨距角、电网参数。

3.对于训练集数据采用XGBoost做特征提取。通过XGBoost降低预处理后的原始数据集的维度，在保留数据集主要信息的同时，减少模型的计算量。

对于给定的数据集，在树模型构建的过程中，每一层贪心地选取一个特征分割点作为叶子节点，使得在分割之后整棵树增益值最大，分割过程中，每个叶子节点的权值可以表示为w(g_i,h_i)，其中

训练误差

决策树模型作为一种非参数监督式学习模型，不需要对数据有任何的先验假设，能够快速地根据数据的特征找到决策规则。而XGBoost在决策树的基础上采用了集成策略，利用梯度提升算法不断减小前面生成的决策树的损失，并产生新树构成模型，确保最终决策的可靠性。

其中，F表征包含所有树的函数空间，f_k(x_i)表示的是第i个样本在第k棵树中被分类到所在叶子的权重。

XGBoost根据特征分裂的次数FScore、特征平均增益值Average Gain或特征平均覆盖率Average Cover来作为其构建决策树的依据，以便准确的完成分类任务，对于上述3种重要性度量指标，有

FScore＝|X| (5)

4.划分训练集和测试集。采用简单交叉验证方法，找到合适的简单交叉验证划分比率，即测试集在数据集中的占比，将降维后的数据集划分成训练集和测试集。其中训练集用于LightGBM算法学习出功率预测模型，测试集用于检验学习好的LightGBM模型的效果。

5.学习出LightGBM模型。其中，Light GBM包括GOSS和EFB。

GOSS技术能够实现剔除梯度相对较小的数据集，筛选梯度较大的数据集，用这部分的数据计算信息增益，此时计算出的信息增益肯定占的比重较大。GOSS减少了需要分析的数据量，也保证了计算信息增益时能得到较好的效果。

GOSS技术具体操作为：对数据集进行排序，按照梯度绝对值排序。排序以后挑选前a*100％的数据集。对剩余的数据进行随机抽样，比例为b*100％，之后具体计算信息增益时，对随机抽取的数据放大一个常数。

GOSS的理论部分：

其中

对特征j，决策树算法选择

并计算最大的信息增益

然后，在节点

分割数据，

其中

系数

被用于将B上的梯度之和归一化为A^c的大小。

因此，在GOSS中，使用较小实例子集的估计

代替所有数据集上的准确值来确定分裂点。这样可以大大减少计算成本。在减少计算成本的同时，可以通过下面定理证明在计算精度上也不会降低很多，且要优于随机抽样得到的结果。将近似误差写为

有1-δ的可能得到

其中

并且

可以得到：

①GOSS的渐进逼近比率是

随着n→∞，误差会趋向于0。这意味着当数据量很大时，逼近是相当准确的。

②随机抽样中a＝0是GOSS的一个特例，在许多情况下，GOSS可以胜过随机抽样，在C_0,β＞C_a,β-a的条件下，这相当于

接下来，讨论GOSS的泛化能力。我们考虑

中的泛化误差，此泛化误差代表抽样得出的数据集合所得方差波动与完整数据集合的方差波动的差距，可得

因此，如果GOSS近似准确，则GOSS的泛化误差会接近运用完整数据集合计算得到的误差。另一方面，抽样会令基础学习树多样化，很大程度上能够提高模型泛化性能。

EFB技术为特征捆绑，将互斥特征进行捆绑，即它们很少同时取非零值，以有效减少特征数量。寻找最优的捆绑特征在理论上可以证明是NP-hard问题，无法用枚举方法得出，实际操作中用贪心算法逼近最优解，这就能够减少特征数量的同时不会影响分裂节点的准确性。

高维数据在很多情况下都很稀疏。其稀疏性可以让我们设计出减少特征数量并且不影响模型效果的方法。特征空间是稀疏时，会有一些特征会有相互排斥的情况，排斥的意义就是两个特征的具体数值不会同时为零，经过特征数值遍历扫描后进行特征捆绑，构建特征直方图。这样，直方图构建的复杂度从(n(数据)×n(特征))变为(n(数据)×n(捆绑特征))，而n(捆绑特征)都会比n(特征)小，n(捆绑特征)的减小会加快模型的训练速度，并在精确程度上并不会损失太大。

EFB算法在极大程度上减少了特征维度，捆绑以后的特征中值为零的情况可以大量减少。还有一种方法，从特征表出发，以直方图为基础的算法，这样也可以达到记录非零值的特征，略过零特征值的情况。由此得到的数据集合，数量级别从O(data)变为O(atanon_zero_d)。以上方法看起来比较高效，但为了在整体树形成过程中存储各个特征表，需要额外的计算代价以及内存。Light GBM已经将此项优化作为功能之一，仍然可以在捆绑稀疏时使用，不会与EFB产生冲突。

6.在线预测。包括在线采集风力发电机组运行过程的数据，并对于采集到的样本点，使用训练好的LightGBM模型对测试集的输出功率进行预测。

Claims

1.一种基于XGBoost-LightGBM的机组功率预测方法，其特征在于，包括以下步骤：

①离线建模；

②收集训练样本集；

③对于训练集数据采用XGBoost做特征提取；

④划分训练集和测试集；

⑤学习出LightGBM模型；

⑥在线预测。

2.根据权利要求1所述的一种基于XGBoost-LightGBM的机组功率预测方法，其特征在于，所述步骤1离线建模过程如下：

假设风电机组运行过程中采集的监测数据构成原始数据集

X＝[x₁，x₂，…，x_n]^T∈R^n×m

3.根据权利要求1或2所述的一种基于XGBoost-LightGBM的机组功率预测方法，其特征在于，所述步骤2收集的训练样本集，即风电机组运行SCADA数据，包括风机状态、功率、风速、风向、温度、机舱位置、对风误差、转速、转矩、桨距角、电网参数。

4.根据权利要求1所述的一种基于XGBoost-LightGBM的机组功率预测方法，其特征在于，所述步骤3特征提取通过XGBoost降低预处理后的原始数据集的维度，在保留数据集主要信息的同时，减少模型的计算量。

5.根据权利要求1或4所述的一种基于XGBoost-LightGBM的机组功率预测方法，其特征在于，所述步骤3对于给定的数据集，在树模型构建的过程中，每一层贪心地选取一个特征分割点作为叶子节点，使得在分割之后整棵树增益值最大，分割过程中，每个叶子节点的权值可以表示为w(g_i,h_i)，其中

训练误差

6.根据权利要求1或5所述的一种基于XGBoost-LightGBM的机组功率预测方法，其特征在于，所述步骤3中XGBoost根据特征分裂的次数FScore、特征平均增益值Average Gain或特征平均覆盖率Average Cover来作为其构建决策树的依据，以便准确的完成分类任务，对于上述3种重要性度量指标，有

FScore＝|X| (5)

7.根据权利要求6所述的一种基于XGBoost-LightGBM的机组功率预测方法，其特征在于，所述步骤5中的Light GBM包括GOSS和EFB，所述GOSS技术的具体操作为：对数据集进行排序，按照梯度绝对值排序。排序以后挑选前a*100％的数据集。对剩余的数据进行随机抽样，比例为b*100％，之后具体计算信息增益时，对随机抽取的数据放大一个常数。

8.根据权利要求7所述的一种基于XGBoost-LightGBM的机组功率预测方法，其特征在于，所述步骤5中的EFB技术为特征捆绑，将互斥特征进行捆绑，即它们很少同时取非零值，以有效减少特征数量。

9.根据权利要求8所述的一种基于XGBoost-LightGBM的机组功率预测方法，其特征在于，所述步骤6包括在线采集风力发电机组运行过程的数据，并对于采集到的样本点，使用训练好的LightGBM模型对测试集的输出功率进行预测。