CN112766569A

CN112766569A - 融合高频影响因素的集成型用电量增长预测方法及装置

Info

Publication number: CN112766569A
Application number: CN202110066227.6A
Authority: CN
Inventors: 张勇; 何琬; 夏利宇; 代高琪; 张新圣; 朱伟; 张倩
Original assignee: State Grid Energy Research Institute Co Ltd
Current assignee: State Grid Energy Research Institute Co Ltd
Priority date: 2021-01-19
Filing date: 2021-01-19
Publication date: 2021-05-07

Abstract

本发明公开了一种融合高频影响因素的集成型用电量增长预测方法及装置，所述方法包括：S1.选取可能影响用电量增长的因素作为备选影响因素，基于所述备选影响因素构建XGBoost模型，测算各个备选影响因素对用电量增长的重要性，确定构建预测模型使用的影响因素；S2.基于步骤S1得到的所述影响因素构建多个XGBoost模型作为单一预测模型；S3.分别用步骤S2中构建的多个所述单一预测模型对所述用电量进行预测，得到多组预测值，利用真实用电量与所述预测值计算均方误差值，利用所述均方误差值对多个所述单一预测模型的预测值进行集成，得到最终的预测结果。

Description

融合高频影响因素的集成型用电量增长预测方法及装置

技术领域

本发明涉及电力系统负荷分析技术领域，尤其是涉及一种融合高频影响因素的集成型用电量增长预测方法及装置。

背景技术

电力是社会发展的基础能源，也是整个国家能源战略的核心要素。用电量增长的准确预测是电力系统可靠运行和高效运作的重要保障。近年来，伴随国内外经济社会形势的深刻变化，我国各地产业结构优化调整，新旧动能转化加速推进，未来用电量增长将受到更多外部因素影响，增长趋势的不确定性将增大。为适应快速变化的经济社会环境，需要充分分析影响用电量增长的主要因素，建立科学的分析预测模型，准确预判客户用电量增长趋势。

目前，对于用电量增长预测模型，主要是基于时间、历史用电量、气象等影响因素构建单一的时间序列模型，模型预测精度提升具有一定的局限性，需要统筹优化。用电量增长是受到多维因素共同作用的结果，需要综合考虑各类潜在影响因素。以往研究仅考虑时间因素、用电量增长历史情况和气象因素，忽略了宏观经济发展、产业结构调整、能源结构变动等因素对用电量增长变化的影响，因缺失重要解释变量导致预测模型准确性不高。同时，部分影响因素与用电量增长具备非线性关系，需要准确挖掘变量间非线性关系。以往研究仅考虑采用单一模型构建线性或非线性时间序列模型，用电量增长预测仅基于一次建模结果，单一模型拟合或泛化能力不足将导致预测模型准确性不高。

发明内容

本发明的目的在于提供一种融合高频影响因素的集成型用电量增长预测方法及装置，旨在解决上述问题。

本发明提供一种融合高频影响因素的集成型用电量增长预测方法，包括：

S1.选取可能影响用电量增长的因素作为备选影响因素，基于所述备选影响因素构建XGBoost模型，测算各个备选影响因素对用电量增长的重要性，确定构建预测模型使用的影响因素；

S2.基于步骤S1得到的所述影响因素构建多个XGBoost模型作为单一预测模型；

S3.分别用步骤S2中构建的多个所述单一预测模型对所述用电量进行预测，得到多组预测值，利用真实用电量与所述预测值计算均方误差值，利用所述均方误差值对多个所述单一预测模型的预测值进行集成，得到最终的预测结果。

本发明提供一种融合高频影响因素的集成型用电量增长预测装置，包括：

因素选取模块：用于选取可能影响用电量增长的因素作为备选影响因素，基于所述备选影响因素构建XGBoost模型，测算各个备选影响因素对用电量增长的重要性，确定构建预测模型使用的影响因素；

模型构建模块：用于基于所述影响因素构建多个XGBoost模型作为单一预测模型；

预测结果集成模块：用于多个所述单一预测模型对所述用电量进行预测，得到多组预测值，利用真实用电量与所述预测值计算均方误差值，利用所述均方误差值对多个所述单一预测模型的预测值进行集成，得到最终的预测结果。

本发明实施例还提供一种融合高频影响因素的集成型用电量增长预测装置，包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述计算机程序被所述处理器执行时实现上述融合高频影响因素的集成型用电量增长预测方法的步骤。

本发明实施例还提供一种计算机可读存储介质，所述计算机可读存储介质上存储有信息传递的实现程序，所述程序被处理器执行时实现上述融合高频影响因素的集成型用电量增长预测方法的步骤。

采用本发明实施例，拓展了电量增长预测的影响因素维度，增加了电力调度的科学性，将多个单一模型预测结果进行集成，解决了单一用电量增长预测模型拟合或泛化能力不足的问题，提升了预测模型的稳定性和准确性。

上述说明仅是本发明技术方案的概述，为了能够更清楚了解本发明的技术手段，而可依照说明书的内容予以实施，并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂，以下特举本发明的具体实施方式。

附图说明

为了更清楚地说明本发明具体实施方式或现有技术中的技术方案，下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施方式，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例的一种融合高频影响因素的集成型用电量增长预测方法流程图；

图2是本发明实施例的单一预测模型构建过程示意图；

图3是本发明实施例中集成型用电量增长预测模型对测试集用电量的预测值和测试集用电量真实值的线性对比图；

图4是本发明装置实施例一的融合高频影响因素的集成型用电量增长预测装置的示意图；

图5是本发明装置实施例二的融合高频影响因素的集成型用电量增长预测装置的示意图。

具体实施方式

下面将结合实施例对本发明的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

在本发明的描述中，需要理解的是，术语“中心”、“纵向”、“横向”、“长度”、“宽度”、“厚度”、“上”、“下”、“前”、“后”、“左”、“右”、“竖直”、“水平”、“顶”、“底”、“内”、“外”、“顺时针”、“逆时针”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。

此外，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个所述特征。在本发明的描述中，“多个”的含义是两个或两个以上，除非另有明确具体的限定。此外，术语“安装”、“相连”、“连接”应做广义理解，例如，可以是固定连接，也可以是可拆卸连接，或一体地连接；可以是机械连接，也可以是电连接；可以是直接相连，也可以通过中间媒介间接相连，可以是两个元件内部的连通。对于本领域的普通技术人员而言，可以具体情况理解上述术语在本发明中的具体含义。

方法实施例

根据本发明实施例，提供了一种融合高频影响因素的集成型用电量增长预测方法，图1是本发明实施例的融合高频影响因素的集成型用电量增长预测方法流程图，如图1所示，根据本发明实施例的融合高频影响因素的集成型用电量增长预测方法具体包括：

S1.选取可能影响用电量增长的因素作为备选影响因素，基于所述备选影响因素构建XGBoost模型，测算各个备选影响因素对用电量增长的重要性，确定构建预测模型使用的影响因素。

具体的，步骤S1所述方法进一步包括：

S101.结合供电公司电力调度实际需求，从常规因素和宏观因素两个角度确定所述备选影响因素；

其中，所述常规因素包括：上年同期用电量、平均气温、最高气温、最低气温、平均相对湿度、最小相对湿度、降水量、日照时数、是否周六日、是否假日，所述宏观因素包括：GDP、上证指数收盘价、上证指数涨跌。

S102.构建以用电量为因变量，以所述常规因素和宏观因素为自变量的XGBoost模型，计算出各影响因素的重要性指标，并对所述重要性指标的值进行相对数量处理；

计算各影响因素的重要性指标的方法具体为：

假定(x_i,y_i),i＝1,...,n是建模样本，

是第t轮迭代后模型的预测结果，f_t(x_i)是第t个决策树的预测结果，则

的求解形式如公式1所示：

由于在第t轮迭代时t-1轮的预测结果固定，模型目标函数设定仅需考虑预测函数f_t(x_i)，求解模型参数时最小化如公式2目标函数：

S^(t)(β)＝L(β)+D(f_t)+C 公式2；

其中，β为需要求解的模型参数，L(β)为测度模型拟合程度的损失函数，D(f_t)为测度模型复杂程度的正则化项，C为常数项。L(β)和D(f_t)计算过程分别如公式3、公式4所示：

其中，公式3中，l(·)是测度样本预测准确性的损失函数。公式4中，T是决策树叶子节点数，ω_j是叶子节点对应的预测结果，γ和λ是对应的调整系数。将损失函数泰勒展开至二次项，利用贪婪算法可以求解模型的参数。

XGBoost模型是为改进梯度提升决策树模型提出的一种集成学习模型，该算法中的决策树具有前后关联，当前预测以上一轮的预测误差为基础，利用各轮预测误差迭代构建模型，可以提升预测的准确性。

在模型构建过程中会得到评估自变量重要性三种指标：

①增益(Gain)，该指标计算使用每个自变量作为树划分属性时，损失平均的降低量。

②覆盖度(Cover)，该指标计算每个自变量作为划分属性时，决定每个树中观测值的叶节点数量。

③频率(Frequency)，该指标计算每个自变量在所有树中用于划分属性的次数。

上述三个自变量重要性测度指标，均为指标值越大，自变量重要性越高。实践中，为便于不同样本组合的自变量重要性比较，往往将上述指标进行相对数量处理，例如对增益进行相对数量处理时，如公式5：

对覆盖度和频率进行相对数量处理过程与公式5所示过程相同。对所述三种重要性测度指标值进行相对处理后，每种影响因素的同一种指标值相加等于1，便于观察三种重要性指标下各影响因素的相对重要性。

S103.对所述各影响因素的重要性指标进行由大到小的排序，根据建模需要选取所述重要性指标排名靠前的若干影响因素作为最终建模所需影响因素；

具体的，当三个指标确定的结果不一致时，删除三个指标均排序靠后的指标，避免遗漏重要影响因素。

具体的，假定建模样本容量为N，通过可放回随机抽样抽取容量为N的训练集样本S1。利用训练集样本S1，以用电量为因变量Y，以基于重要性测度指标选定的影响因素为自变量X构建XGBoost模型M1，重复上述可放回随机抽样14次，依次分别获得训练集样本S2，…，S15，再分别利用训练集样本构建XGBoost模型M2，…，M15。因为采取的抽样方式为可放回随机抽样，所以训练集样本S1，…，S15中可能会有重复的样本。

具体的，利用已构建的15个预测模型M1，…，M15对原始建模样本的用电量Y进行预测，得到15组预测结果

利用真实值Y与估计值

计算均方误差(MSE)，得到各模型的均方误差值MSE1，…，MSE15，如公式6所示：

其中，N为建模样本容量，利用均方误差值对各模型的预测结果进行集成，如公式7所示：

其中，

为集成后的模型预测结果，ω_i为每一个单一模型预测结果的权重，ω_i的计算如公式8所示：

则对于一个新的待预测数据，分别利用已构建的15个预测模型M1，…，M15进行预测，得到15组新的预测值，再利用公式7进行加权求和即可得到最终的预测结果。

下面以某地区高压用户用电量增长短期预测为例，展示主要计算过程，进一步解释方法实施例所述方法内容：

用某地区高压用户2018年1月1日-12月31日的日度用电量历史数据测算2019年1月1日-7月31日的日度用电量，首先从常规因素和宏观因素两个角度，选取上年同期用电量、平均气温、最高气温、最低气温、平均相对湿度、最小相对湿度、降水量、日照时数、是否周六日、是否假日、GDP、上证指数收盘价、上证指数涨跌幅作为备选变量。数据情况如表1所示：

表1

构建XGBoost模型，计算各影响因素的重要性指标，并对指标值进行相对数量处理，结果如表2所示：

表2

根据对各影响因素重要性指标的判断，选取重要性指标相对值大于0.1的变量作为最终建模所需的影响因素，即去年同期用电量、最高气温、最低气温、日照时数、是否假日、GDP、上证指数收盘价、上证指数涨跌幅。

通过可放回随机抽样抽取15组容量为N＝365(2018年1月1日-12月31日)的训练集样本S1，…，S15。

利用各组训练集样本，以用电量为因变量Y，以去年同期用电量、最高气温、最低气温、日照时数、是否假日、GDP、上证指数收盘价、上证指数涨跌幅为自变量X构建15个XGBoost模型M1，…，M15。

分别利用已构建的15个预测模型M1，…，M15对原始建模样本的用电量Y进行预测，得到15组预测结果

利用真实值Y与估计值

计算均方误差MSE1，…，MSE15，进一步计算各模型的相对权重，结果如表3所示：

表3

基于上述结果，以2019年1月1日-7月31日的日度数据为测试集，分别利用预测模型M1，…，M15对测试集样本的用电量进行预测，并利用权重ω将各模型的结果进行加权平均，得到最终预测结果，如图3所示。

经过测试，采用平均绝对误差(MAE)、均方误差(MSE)、平均绝对百分比误差(MAPE)评价模型的预测效果，MAE和MAPE评价指标的形式如公式9和公式10所示：

将平均绝对误差(MAE)、均方误差(MSE)、平均绝对百分比误差(MAPE)评价模型的预测效果进行对比，如表4所示：

表4

可以看出，在平均绝对误差上，集成模型的结果优于60％的单一模型；在均方误差上，集成模型的结果优于80％的单一模型；在平均绝对百分比误差上，集成模型的结果优于60％的单一模型。

综上所述，本发明从供电公司电力调度实际需求出发，引入高频性的上证指数收盘价和涨跌幅反映地区经济社的发展情况，在综合研判各类影响因素重要程度的基础上，通过随机抽样的方法获得多个训练集样本，构建多个用电量增长预测模型并将预测结果进行集成，形成融合高频影响因素的集成型用电量增长预测模型，从而提升用电量增长短期预测的准确性和有效性。

装置实施例一

根据本发明实施例，提供了一种融合高频影响因素的集成型用电量增长预测装置，图4是本发明装置实施例一的融合高频影响因素的集成型用电量增长预测装置的示意图，如图4所示，根据本发明实施例的融合高频影响因素的集成型用电量增长预测装置具体包括：

因素选取模块40：用于选取可能影响用电量增长的因素作为备选影响因素，基于所述备选影响因素构建XGBoost模型，测算各个备选影响因素对用电量增长的重要性，确定构建预测模型使用的影响因素；

因素选取模块40具体用于：结合供电公司电力调度实际需求，从常规因素和宏观因素两个角度确定所述备选影响因素；构建以用电量为因变量，以所述常规因素和宏观因素为自变量的XGBoost模型，计算出各影响因素的重要性指标，并对所述重要性指标的值进行相对数量处理；对所述各影响因素的重要性指标进行由大到小的排序，根据建模需要选取所述重要性指标排名靠前的若干影响因素作为最终建模所需影响因素。

模型构建模块42：用于基于所述影响因素构建多个XGBoost模型作为单一预测模型；

模型构建模块42具体用于：通过可放回随机抽样从容量为N的建模样本中抽取训练集样本S1，利用训练集样本S1，以用电量为因变量Y，以基于重要性测度指标选定的影响因素为自变量X构建XGBoost模型M1作为单一预测模型。

预测结果集成模块44：用于多个所述单一预测模型对所述用电量进行预测，得到多组预测值，利用真实用电量与所述预测值计算均方误差值，利用所述均方误差值对多个所述单一预测模型的预测值进行集成，得到最终的预测结果；

本发明实施例是与上述方法实施例对应的装置实施例，各个模块的具体操作可以参照方法实施例的描述进行理解，在此不再赘述。

装置实施例二

本发明实施例提供一种融合高频影响因素的集成型用电量增长预测装置，如图5所示，包括：存储器50、处理器52及存储在所述存储器50上并可在所述处理器25上运行的计算机程序，所述计算机程序被所述处理器52执行时实现如下方法步骤：

具体的，步骤S1所述方法进一步包括：

计算各影响因素的重要性指标的方法具体为：

假定(x_i,y_i),i＝1,...,n是建模样本，

的求解形式如公式1所示：

S^(t)(β)＝L(β)+D(f_t)+C 公式2；

在模型构建过程中会得到评估自变量重要性三种指标：

利用真实值Y与估计值

其中，

装置实施例三

本发明实施例提供一种计算机可读存储介质，所述计算机可读存储介质上存储有信息传输的实现程序，所述程序被处理器52执行时实现如下方法步骤：

具体的，步骤S1所述方法进一步包括：

计算各影响因素的重要性指标的方法具体为：

假定(x_i,y_i),i＝1,...,n是建模样本，

的求解形式如公式1所示：

S^(t)(β)＝L(β)+D(f_t)+C 公式2；

在模型构建过程中会得到评估自变量重要性三种指标：

利用真实值Y与估计值

其中，

本实施例所述计算机可读存储介质包括但不限于为：ROM、RAM、磁盘或光盘等。

显然，本领域的技术人员应该明白，上述的本发明的各模块或各步骤可以用通用的计算装置来实现，它们可以集中在单个的计算装置上，或者分布在多个计算装置所组成的网络上，可选地，它们可以用计算装置可执行的程序代码来实现，从而，可以将它们存储在存储装置中由计算装置来执行，并且在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤，或者将它们分别制作成各个集成电路模块，或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样，本发明不限制于任何特定的硬件和软件结合。

最后应说明的是：以上各实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述各实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims

1.一种融合高频影响因素的集成型用电量增长预测方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的一种融合高频影响因素的集成型用电量增长预测方法，其特征在于，步骤S1所述方法具体包括：

S103.对所述各影响因素的重要性指标进行由大到小的排序，根据建模需要选取所述重要性指标排名靠前的若干影响因素作为最终建模所需影响因素。

3.根据权利要求2所述的一种融合高频影响因素的集成型用电量增长预测方法，其特征在于，

步骤S101中，所述常规因素包括：上年同期用电量、平均气温、最高气温、最低气温、平均相对湿度、最小相对湿度、降水量、日照时数、是否周六日、是否假日，所述宏观因素包括：GDP、上证指数收盘价、上证指数涨跌。

4.根据权利要求2所述的一种融合高频影响因素的集成型用电量增长预测方法，其特征在于，步骤S102中所述重要性指标有三种，分别为：增益Gain、覆盖度Cover和频率Frequency。

5.根据权利要求1所述的一种融合高频影响因素的集成型用电量增长预测方法，其特征在于，步骤S2所述单一预测模型的具体构建方法为：通过可放回随机抽样从容量为N的建模样本中抽取训练集样本S₁，利用训练集样本S₁，以用电量为因变量Y，以基于重要性测度指标选定的影响因素为自变量X构建XGBoost模型M₁作为单一预测模型。

6.一种融合高频影响因素的集成型用电量增长预测模型装置，其特征在于，包括：

7.根据权利要求5所述的一种融合高频影响因素的集成型用电量增长预测装置，其特征在于，因素选取模块具体用于：

结合供电公司电力调度实际需求，从常规因素和宏观因素两个角度确定所述备选影响因素；

构建以用电量为因变量，以所述常规因素和宏观因素为自变量的XGBoost模型，计算出各影响因素的重要性指标，并对所述重要性指标的值进行相对数量处理；

对所述各影响因素的重要性指标进行由大到小的排序，根据建模需要选取所述重要性指标排名靠前的若干影响因素作为最终建模所需影响因素。

8.根据权利要求5所述的一种融合高频影响因素的集成型用电量增长预测装置，其特征在于，模型构建模块具体用于：以基于重要性测度指标选定的影响因素为自变量X₁，以用电量为因变量Y₁，利用通过可放回随机抽样抽取容量为N的建模样本得到的训练集样本S₁，构建XGBoost模型M₁作为单一预测模型，重复上述过程多次，构建多个所述单一预测模型。

9.一种融合高频影响因素的集成型用电量增长预测装置，其特征在于，包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述计算机程序被所述处理器执行时实现如权利要求1至5中任一项所述的融合高频影响因素的集成型用电量增长预测方法的步骤。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有信息传递的实现程序，所述程序被处理器执行时实现如权利要求1至5中任一项所述的融合高频影响因素的集成型用电量增长预测方法的步骤。