CN114580763A

CN114580763A - 一种基于改进蜻蜓与轻量级梯度提升树模型的电力负荷预测方法

Info

Publication number: CN114580763A
Application number: CN202210234580.5A
Authority: CN
Inventors: 梁雪春; 杜楠楠; 杨世品
Original assignee: Nanjing Tech University
Current assignee: Nanjing Tech University
Priority date: 2022-03-10
Filing date: 2022-03-10
Publication date: 2022-06-03

Abstract

本发明提供一种基于引入自适应学习因子和差分进化策略的蜻蜓与轻量级梯度提升树模型的电力负荷预测方法，涉及信息技术领域。首先进行数据预处理，包括缺失值处理、数据规范化、异常值处理和数据规范化。将改进后的蜻蜓算法对轻量级梯度提升决策树模型参数优化，将改进后的轻量级梯度提升树模型用于电力负荷预测。按照7∶3划分训练集与测试集，将训练集用于模型训练，用改进蜻蜓算法寻优，得到最优参数下的轻量级梯度提升树模型，通过测试集进行测试，在满足给定的预测误差情况下，对电力负荷进行预测。

Description

一种基于改进蜻蜓与轻量级梯度提升树模型的电力负荷预测方法

技术领域

本发明公开了一种基于改进蜻蜓与轻量级梯度提升树模型的电力负荷预测方法，涉及信息技术领域和电力负荷预测技术领域。

背景技术

目前，电力工业在我国飞速发展，但是其受限于目前技术无法对电能进行大规模存储，而过多生产电力会导致资源浪费，电力生产不足会影响到正常的经济生活。所以，设计一个高精度的电力负荷预测模型以预测未来用电量是要解决的技术问题之一。

现有技术中，主要有两大类方法可以实现电力负荷预测：一类是用时间序列方法来实现预测，其实质是对历史数据的拟合，一类是用机器学习方法预测，例如决策树、支持向量机等。但是上述传统预测方法存在一定缺陷，例如，时间序列方法无法使用多变量数据预测，机器学习方法需要寻求最优参数，并且寻参时容易陷入局部最优。

发明内容

本发明针对电力负荷预测精度不高的问题，提供一种基于改进蜻蜓与轻量级梯度提升树模型的电力负荷预测方法。为避免陷入局部最优，使用引入自适应学习因子和差分进化策略的蜻蜓算法对轻量级梯度提升树模型进行参数寻优，用寻优后的模型完成对电力负荷的预测。

为了解决上述技术问题，本发明提供了一种基于改进蜻蜓与轻量级梯度提升树模型的电力负荷预测方法，包括步骤：

S101：数据预处理包括缺失值处理、数据规范化、异常值处理以及数据离散化；

S102：本发明提出改进后的蜻蜓算法对轻量级梯度提升树模型的训练参数进行优化，并将改进的轻量级梯度提升树模型应用于电力负荷预测。

S1021：本发明提出低内存使用，可处理大规模数据的轻量级梯度提升树模型对电力负荷进行预测。

轻量级梯度提升树模型采用了基于直方图的决策树算法，首先把样本中连续的浮点特征离散化成k个整数，并构造一个宽度为k的直方图。然后在遍历数据的时候，把离散化后的值作为索引在直方图中积累统计量，一次遍历结束之后，直方图积累了需要的统计量，最后通过直方图的离散值遍历找出最佳的分割点；这样将大规模的数据放到了直方图中，使得内存占用更小，模型运算更快更加稳定。在此基础上，轻量级梯度提升树模型通过直方图做差加速，一个叶子的直方图可以由它的父亲节点和兄弟节点的直方图做差来获得，并且直方图的宽度都为k，在构造直方图时，遍历该叶子上的所有数据，可以通过直方图做差只需遍历k次，大大提升了运行速度；轻量级梯度提升树模型还可以通过先计算直方图小的叶子节点，然后通过做差来获得直方图大的兄弟节点，用较小的代价得到其他兄弟节点的直方图；

针对使用按层生长的Level-wise决策树生长策略效率低下的问题，轻量级梯度提升树模型采用了较高效的带有深度限制的按叶子生长Leaf-wise策略；Level-wise在进行遍历数据时可以同时分裂同一层的叶子，不易造成过拟合，但是在遍历时不加以区分同一层叶子的分裂增益，增大了计算开销；

Leaf-wise可以根据当前所有叶子中分裂增益最大的一个叶子进行分裂，并以此循环，这样在分裂次数相同的情况下，Leaf-wise可以降低误差，获得更高的精度；为避免模型生出较深的决策树而产生过拟合，轻量级梯度提升树模型在此基础上增加了最大深度限制，这样既保证了低误差、高效率，还可以防止过拟合；

S1022：蜻蜓算法是一种基于仿生学提出的启发式搜索算法，研究表明，在自然界中，蜻蜓的生活习性可以归纳为分离、结队、聚集、觅食和避敌五种行为；而群体的主要目标是为了生存，所以群体中个体都会被食物吸引，并躲避敌人。因此，该群体具有五种不同类型的行为来更新个体的位置，设五种行为的位置向量分别为S_i，A_i，C_i，F_i，E_i，这些行为通过以下公式进行数学建模：

(1)、分离行为

式中，i＝1，2，…，N_p；j＝1，2，…，N，S_i是第i个蜻蜓个体分离后的位置。N指与第i个蜻蜓个体相邻的个体数，当两个蜻蜓的欧式距离小于搜索半径r，详见式(6)，就表示这两个个体是相邻个体。N_p表示群体的数量，X，X_j分别是目前的蜻蜓个体和第j个蜻蜓个体的位置；

(2)、结队行为

式中，A_i第i个蜻蜓个体结队后的位置，V_j表示第j个相邻蜻蜓个体的速度；

(3)、聚集行为

式中，C_i第i个蜻蜓个体聚集后的位置；

(4)、觅食行为

F_i＝X⁺-X (4)

式中，F_i表示第i个蜻蜓个体食物源的位置，X⁺表示食物源的位置，也代表当前个体的最佳适应度值；

(5)、避敌行为

E_i＝X+X^- (5)

式中，E_i表示第i个蜻蜓个体敌人的位置X^-表示敌人的位置，也代表当前个体的最差适应度值；

食物源的位置和敌人的位置分别是从当前蜻蜓发现的最佳适应度和最差适应度选择的。一旦蜻蜓的位置、敌人和食物来源得到更新，就需要更新相邻蜻蜓的半径，搜索半径的公式如式(6)所示。为了更新蜻蜓的位置并在搜索空间中模拟飞行行为，设置了两个向量：步长(ΔX)和位置(X)，步长向量计算如式(7)所示：

r＝(ub-lb)/4+((ub-lb)×(t/max_iteration)×2) (6)

ΔX^t+1＝ωX^t+(sS_i+aA_i+cC_i+fF_i+eE_i) (7)

式中，ub，lb为搜索半径的上下限，t表示当前迭代次数，max_iteration为最大迭代次数，s，a，c，f，e分别指分离权重、结队权重、聚集权重、觅食权重和避敌权重，ω表示惯性权重。

在附近有相邻蜻蜓个体的情况下，位置向量更新如式(8)所示：

X^t+1＝X^t+ΔX^t+1 (8)

当附近没有相邻蜻蜓个体时，将引入随机行走策略以增强搜索的随机性，计算如下：

X^t+1＝Le′vy(d)×X^t+X^t (9)

式中，d表示蜻蜓个体位置矢量X的维度，Le′vy飞行策略可以这样描述：

式中，r₁，r₂是范围在[0，1]的随机数，β为常数，这里取默认值1.5，Γ(x)＝(x-1)！。

S1023：改进的蜻蜓算法对LightGBM模型训练参数进行优化，通过以下两方面进行改进：

1.引入自适应学习因子：蜻蜓适应度的相对变化率定义如式(12)所示：

式中，i＝1，2，…，N_p，

是第i个蜻蜓个体的第t次迭代，

是第i个蜻蜓个体在第t次迭代的适应度值，

表示蜻蜓在第t次迭代的最佳适应度值，η是计算机中最小的常数，以避免零除误差。

第t次迭代中第i蜻蜓的自适应学习因子表示如式(13)所示：

当附近有相邻蜻蜓个体时，第t次迭代中第i蜻蜓的位置矢量描述如式(14)所示：

当附近没有相邻蜻蜓个体时，第t次迭代中第i蜻蜓的位置矢量如(15)所示：

2.引入差分进化策略：这里通过利用差分算法在蜻蜓算法的迭代后期，对蜻蜓个体进行差分变异、交叉和选择操作，以便算法进行全局最优搜索。采用DE/best/1突变策略和动态比例因子，具体计算如式(16)所示：

式中，

是突变载体，i＝1，2，…，N_p，p₁，p₂∈{1，2，…，N_p}是随机整数且p₁≠p₂，

是比例因子，可由式(17)计算：

式中，F_inital和F_final是两个常数，

是第t次迭代的种群中最差适应度值；

获得突变载体后，对个体进行交叉操作以此产生试验载体

式中，j＝1，2，…，d，j0∈{1，2，…，d}是随机维度，pCR表示[0，1]范围内的交叉概率。

最后通过比较适应度值来更新种群，选择新位置矢量的策略如式(19)所示：

IDA算法的具体步骤如下：

步骤1：参数设置，包括最大迭代次数、种群数量、惯性权重ω和粒子的上下边界。

步骤2：初始化蜻蜓位置向量(X)和步长向量(ΔX)。

步骤3：开始迭代，更新分离、结队、聚集、觅食和避敌的权重系数s，a，c，f，e并评估种群适应度值，根据上述的初始化值随机初始化原始相邻半径r，然后更新食物和敌人的位置。

步骤4：分别更新S_i，A_i，C_i，F_i，E_i的值，即第i个蜻蜓个体分离后、结对后、聚集后和食物源、天敌的位置，并更新步长向量。若当前蜻蜓个体附近没有相邻个体时，按照式(15)更新位置向量，否则按照式(14)更新位置向量。

步骤5：对每个蜻蜓个体执行差分进化策略。

步骤6：判断是否满足终止条件，若达到设定的最大迭代次数则停止迭代并输出最佳适应度值，否则迭代次数加1，返回步骤3。

本发明主要利用改进的蜻蜓算法算法对LightGBM模型的三个参数步长(learning_rate)，决策树最大深度(max_depth)和最大叶子节点数(max_leaf_nodes)进行参数调优。训练集与实际值的误差作为适应度函数f(x)，寻找最优参数下的LightGBM模型，在满足给定的预测误差情况下，对电力负荷进行预测。

附图说明

图1是本发明总体流程图；

图2是LightGBM算法示意图；

具体实施方式

结合图1，本发明基于改进蜻蜓与轻量级梯度提升树模型进行电力负荷预测，包括以下步骤：

A、采集数据处理，数据预处理包括缺失值处理、数据规范化、异常值处理以及数据离散化。并且划分训练集与测试集

B、LightGBM模型采用了基于直方图(Histogram)的决策树算法，首先把样本中连续的浮点特征离散化成k个整数，并构造一个宽度为k的直方图。然后在遍历数据的时候，把离散化后的值作为索引在直方图中积累统计量，一次遍历结束之后，直方图积累了需要的统计量，最后通过直方图的离散值遍历找出最佳的分割点。这样将大规模的数据放到了直方图中，使得内存占用更小，模型运算更快更加稳定。在此基础上，LightGBM模型通过直方图做差加速，一个叶子的直方图可以由它的父亲节点和兄弟节点的直方图做差来获得，并且直方图的宽度都为k，在构造直方图时，遍历该叶子上的所有数据，可以通过直方图做差只需遍历k次，大大提升了运行速度。LightGBM还可以通过先计算直方图小的叶子节点，然后通过做差来获得直方图大的兄弟节点，用较小的代价得到其他兄弟节点的直方图。

针对使用按层生长(Level-wise)的决策树生长策略效率低下的问题，LightGBM采用了较高效的带有深度限制的按叶子生长(Leaf-wise)策略。Level-wise在进行遍历数据时可以同时分裂同一层的叶子，不易造成过拟合，但是在遍历时不加以区分同一层叶子的分裂增益，增大了计算开销。

Leaf-wise可以根据当前所有叶子中分裂增益最大的一个叶子进行分裂，并以此循环，这样在分裂次数相同的情况下，Leaf-wise可以降低误差，获得更高的精度。为避免模型生出较深的决策树而产生过拟合，LightGBM在此基础上增加了最大深度限制，这样既保证了低误差、高效率，还可以防止过拟合。

改进的蜻蜓算法对LightGBM模型训练参数进行优化，其特征在于：

1.引入自适应学习因子：蜻蜓适应度的相对变化率定义如式(1)所示：

式中，i＝1，2，…，N_p，

是第i个蜻蜓个体的第t次迭代，

是第i个蜻蜓个体在第t次迭代的适应度值，

第t次迭代中第i蜻蜓的自适应学习因子表示如式(2)所示：

当附近有相邻蜻蜓个体时，第t次迭代中第i蜻蜓的位置矢量描述如式(3)所示：

当附近没有相邻蜻蜓个体时，第t次迭代中第i蜻蜓的位置矢量如(4)所示：

2.引入差分进化策略：这里通过利用DE算法在DA算法的迭代后期，对蜻蜓个体进行差分变异、交叉和选择操作，以便算法进行全局最优搜索。采用DE/best/1突变策略和动态比例因子，具体计算如式(5)所示：

式中，

是比例因子，可由式(6)计算：

式中，F_inital和F_final是两个常数，

是第t次迭代的种群中最差适应度值。

获得突变载体后，对个体进行交叉操作以此产生试验载体

最后通过比较适应度值来更新种群，选择新位置矢量的策略如式(8)所示：

C、所述的测试集进行模型检验，在训练集上完成模型的训练后，用测试集进行评估，计算实际值与预测值的准确率，在满足给定的预测误差情况下，对电力负荷进行预测。

Claims

1.一种基于改进蜻蜓与轻量级梯度提升树模型的电力负荷预测方法，其特征在于，所述方法包括：

S101：采集数据预处理，本发明的数据预处理包括缺失值处理、数据规范化、异常值处理、数据离散化；

S102：基于引入自适应学习因子和差分进化策略的蜻蜓算法对轻量级梯度提升树模型的训练参数进行优化，并将改进的轻量级梯度提升树模型应用于电力负荷预测；

S103：结合测试集进行模型检验，计算预测值与实际值的误差，验证模型的优良。

2.根据权利要求1所述的电力负荷预测方法，其特征在于：

S1011：本发明中对数据进行预处理时，对于缺失值处理的三种方法：直接删除法；替换插值；预测插补；常见的数据规范化有三种方法：最小最大法；log函数规范化；零-均值规范化；常见的特征选择类型分为三类：过滤式、包裹式、嵌入式。

3.根据权利要求1所述的电力负荷预测方法，其特征在于：

S1021：本发明提出低内存使用，可处理大规模数据的轻量级梯度提升树模型对电力负荷进行预测；

轻量级梯度提升树模型采用了基于直方图的决策树算法，首先把样本中连续的浮点特征离散化成k个整数，并构造一个宽度为k的直方图；然后在遍历数据的时候，把离散化后的值作为索引在直方图中积累统计量，一次遍历结束之后，直方图积累了需要的统计量，最后通过直方图的离散值遍历找出最佳的分割点。这样将大规模的数据放到了直方图中，使得内存占用更小，模型运算更快更加稳定；在此基础上，轻量级梯度提升树模型通过直方图做差加速，一个叶子的直方图可以由它的父亲节点和兄弟节点的直方图做差来获得，并且直方图的宽度都为k，在构造直方图时，遍历该叶子上的所有数据，可以通过直方图做差只需遍历k次，大大提升了运行速度。轻量级梯度提升树还可以通过先计算直方图小的叶子节点，然后通过做差来获得直方图大的兄弟节点，用较小的代价得到其他兄弟节点的直方图；

针对使用按层生长的Level-wise决策树生长策略效率低下的问题，轻量级梯度提升树采用了较高效的带有深度限制的按叶子生长的Leaf-wise策略；Level-wise在进行遍历数据时可以同时分裂同一层的叶子，不易造成过拟合，但是在遍历时不加以区分同一层叶子的分裂增益，增大了计算开销；

Leaf-wise可以根据当前所有叶子中分裂增益最大的一个叶子进行分裂，并以此循环，这样在分裂次数相同的情况下，Leaf-wise可以降低误差，获得更高的精度；为避免模型生出较深的决策树而产生过拟合，轻量级梯度提升树在此基础上增加了最大深度限制，这样既保证了低误差、高效率，还可以防止过拟合。

4.权利要求1所述的电力负荷预测方法，其特征在于：

S1022：蜻蜓算法是一种基于仿生学提出的启发式搜索算法，研究表明，在自然界中，蜻蜓的生活习性可以归纳为分离、结队、聚集、觅食和避敌五种行为；而群体的主要目标是为了生存，所以群体中个体都会被食物吸引，并躲避敌人；因此，该群体具有五种不同类型的行为来更新个体的位置，设五种行为的位置向量分别为S_i，A_i，C_i，F_i，E_i，这些行为通过以下公式进行数学建模：

(1)、分离行为

式中，i＝1，2，…，N_p；j＝1，2，…，N，S_i是第i个蜻蜓个体分离后的位置。N指与第i个蜻蜓个体相邻的个体数，当两个蜻蜓的欧式距离小于搜索半径r，详见式(6)，就表示这两个个体是相邻个体；N_p表示群体的数量，X，X_j分别是目前的蜻蜓个体和第j个蜻蜓个体的位置；

(2)、结队行为

(3)、聚集行为

式中，C_i第i个蜻蜓个体聚集后的位置；

(4)、觅食行为

F_i＝X⁺-X (4)

(5)、避敌行为

E_i＝X+X^- (5)

食物源的位置和敌人的位置分别是从当前蜻蜓发现的最佳适应度和最差适应度选择的。一旦蜻蜓的位置、敌人和食物来源得到更新，就需要更新相邻蜻蜓的半径，搜索半径的公式如式(6)所示；为了更新蜻蜓的位置并在搜索空间中模拟飞行行为，设置了两个向量：步长(ΔX)和位置(X)，步长向量计算如式(7)所示：

r＝(ub-lb)/4+((ub-lb)×(t/max_iteration)×2) (6)

ΔX^t+1＝ωX^t+(sS_i+aA_i+cC_i+fF_i+eE_i) (7)

式中，ub，lb为搜索半径的上下限，t表示当前迭代次数，max_iteration为最大迭代次数，s，a，c，f，e分别指分离权重、结队权重、聚集权重、觅食权重和避敌权重，ω表示惯性权重；

X^t+1＝X^t+ΔX^t+1 (8)

X^t+1＝Le′vy(d)×X^t+X^t (9)

5.根据权利要求1所述的电力负荷预测方法，其特征在于：

S1023：蜻蜓算法易于理解与实现，而且在一些系统优化方面表现比粒子群算法更有效果。但是蜻蜓算法在个体周围没有相邻个体时会减缓收敛趋势，并降低收敛精度，同时容易陷入局部最优，使得搜索过程停滞不前；本发明通过以下两方面进行改进：

(1)引入自适应学习因子

为了解决这个问题蜻蜓周围没有相邻个体时，个体将执行Le′vy随机游走策略，会减缓收敛趋势，并在有限的迭代次数下降低收敛精度的问题，引入了自适应学习因子；蜻蜓适应度的相对变化率定义如式(12)所示：

式中，i＝1，2，…，N_p，

是第i个蜻蜓个体的第t次迭代，

是第i个蜻蜓个体在第t次迭代的适应度值，

表示蜻蜓在第t次迭代的最佳适应度值，η是计算机中最小的常数，以避免零除误差；

第t次迭代中第i蜻蜓的自适应学习因子表示如式(13)所示：

(2)引入差分进化策略

为了避免算法陷入局部最优，引入了差异进化策略(Differential Evolution，DE)来维持种群的多样性，确保种群的个体具有更强的搜索能力和适应性，更容易找到全局最优解；这里通过利用DE算法在DA算法的迭代后期，对蜻蜓个体进行差分变异、交叉和选择操作，以便算法进行全局最优搜索。采用DE/best/1突变策略和动态比例因子，具体计算如式(16)所示：

式中，

是突变载体，i＝1，2，…，N_p，p₁，p₂∈{1，2，…，N_p}是随机整数且p₁≠p₂，F_i ^t是比例因子，可由式(17)计算：

式中，F_inital和F_final是两个常数，

是第t次迭代的种群中最差适应度值；

获得突变载体后，对个体进行交叉操作以此产生试验载体

式中，j＝1，2，…，d，j0∈{1，2，…，d}是随机维度，pCR表示[0，1]范围内的交叉概率；

本发明主要利用改进的蜻蜓算法算法对LightGBM模型的三个参数步长(learning_rate)，决策树最大深度(max_depth)和最大叶子节点数(max_leaf_nodes)进行参数调优；训练集与实际值的误差作为适应度函数f(x)，寻找最优参数下的LightGBM模型，提高模型的准确率。

6.据权利要求1所述的电力负荷预测方法，其特征在于：

S1031：训练完成后，通过测试集进行测试，在满足给定的预测误差情况下，对电力负荷进行预测。