CN113506184A

CN113506184A - 一种基于台区数据进行的配变负荷预测方法及系统

Info

Publication number: CN113506184A
Application number: CN202110418853.7A
Authority: CN
Inventors: 赵建利; 杜晓东; 陈泽; 冯海燕; 姬艳鹏; 郭禹伶; 董娜
Original assignee: State Grid Corp of China SGCC; Electric Power Research Institute of State Grid Hebei Electric Power Co Ltd; State Grid Hebei Energy Technology Service Co Ltd
Current assignee: State Grid Corp of China SGCC; Electric Power Research Institute of State Grid Hebei Electric Power Co Ltd; State Grid Hebei Energy Technology Service Co Ltd
Priority date: 2021-04-19
Filing date: 2021-04-19
Publication date: 2021-10-15

Abstract

本发明属于配变负荷预测技术领域，公开了一种基于台区数据进行的配变负荷预测方法及系统，包括步骤：获取配变负荷数据，并对配变负荷数据进行统计；通过小提琴图筛选所述配变负荷数据中的异常数据，达到数据清洗的目的；基于拉索回归对清洗后的配变负荷数据进行训练，得到第一配变负荷模型；基于Xgboost对清洗后的配变负荷数据进行训练，得到第二配变负荷模型；将第一配变负荷模型与第二配变负荷模型进行融合，得到融合模型。本发明两个模型在预测时，数据与真实值偏差可以分为两种可能，一种是同向，一种是异向，在同向时，融合后的模型效果在两个模型效果之间，而异向时，融合后的效果要同时好于两个模型。

Description

一种基于台区数据进行的配变负荷预测方法及系统

技术领域

本发明属于配变负荷预测技术领域，具体涉及一种基于台区数据进行的配变负荷预测方法及系统。

背景技术

基于台区系统，采集5个变压器，在1972天内的数据，统计后发现每个变压器大约缺失15天。第一个点功率值P1缺失比例在3％到6％不等，大部分数据缺失P1的变压器存在缺失P2-P96的可能，可能无法简单的填充缺失值。第96个点功率值P96缺失情况最为严重，最高可达到60％左右。

另外，功率中存在不少数据为负的情况。其中一个变压器在相隔4天时间里功率值相差了最高500倍；数据中存在少量为0及空现象；温度变化在相同温度点，在不同的时段对负荷影响不一样。以26度为例，晚上变化一度相比白天，对负荷的影响更大一些。风速对负荷影响不明显；气压增高的，负荷有所上升；晚上没有光照，白天光照居中时，负荷最大，两端负荷较小；降雨量对负荷影响不明显；工作日负荷较非工作日负荷高；国庆第一天及国庆中负荷最低，国庆最后一天会有回升，国庆后第二天会达到高峰。综上，配变负荷与温度、气压、工作日以及节假日等因素均有关联。

目前现有的配变负荷预测方法在使用时，数据与真实值偏差较大。

发明内容

本发明的目的在于提供一种基于台区数据进行的配变负荷预测方法及系统，以解决现有的数据与真实值偏差较大的问题。

为实现上述目的，本发明提供如下技术方案：一种基于台区数据进行的配变负荷预测方法，包括步骤：

基于拉索回归对清洗后的配变负荷数据进行训练，得到第一配变负荷模型；

基于Xgboost对清洗后的配变负荷数据进行训练，得到第二配变负荷模型；

将第一配变负荷模型与第二配变负荷模型进行融合，得到融合模型。

作为本发明一种基于台区数据进行的配变负荷预测方法优选地，所述的基于Xgboost对清洗后的配变负荷数据进行训练，得到第二配变负荷模型具体包括步骤：

通过带权重来训练基分类器；

根据基分类器产生的学习误差来更新权重系数，以此来关注分类效果不好的弱分类器。

作为本发明一种基于台区数据进行的配变负荷预测方法优选地，在所述的根据基分类器产生的学习误差来更新权重系数，以此来关注分类效果不好的弱分类器之后包括步骤：

不断的迭代过程训练出k个弱分类器；

将k个分类器组合为一个强分类器。

作为本发明一种基于台区数据进行的配变负荷预测方法优选地，在所述的基于拉索回归对清洗后的配变负荷数据进行训练，得到第一配变负荷模型之前还包括步骤：

获取配变负荷数据，并对配变负荷数据进行统计。

作为本发明一种基于台区数据进行的配变负荷预测方法优选地，在所述的基于拉索回归对清洗后的配变负荷数据进行训练，得到第一配变负荷模型之前包括步骤：

通过小提琴图筛选所述配变负荷数据中的异常数据，达到数据清洗的目的。

作为本发明一种基于台区数据进行的配变负荷预测方法优选地，在所述的将第一配变负荷模型与第二配变负荷模型进行融合，得到融合模型之后包括步骤：

基于融合模型进行配变负荷预测。

本发明还提供一种基于台区数据进行的配变负荷预测系统，包括：

第一训练模块，用于基于拉索回归对清洗后的配变负荷数据进行训练，得到第一配变负荷模型；

第二训练模块，用于基于Xgboost对清洗后的配变负荷数据进行训练，得到第二配变负荷模型；

计算模块，用于将第一配变负荷模型与第二配变负荷模型进行融合，得到融合模型。

作为本发明一种基于台区数据进行的配变负荷预测方法优选地，还包括：获取模块，用于获取配变负荷数据，并对配变负荷数据进行统计。

作为本发明一种基于台区数据进行的配变负荷预测方法优选地，还包括：数据清洗模块，用于通过小提琴图筛选所述配变负荷数据中的异常数据，达到数据清洗的目的。

作为本发明一种基于台区数据进行的配变负荷预测方法优选地，还包括：预测模块，用于基于融合模型进行配变负荷预测。

本发明与现有技术相比，具有以下有益效果：本发明两个模型在预测时，数据与真实值偏差可以分为两种可能，一种是同向，一种是异向，在同向时，融合后的模型效果在两个模型效果之间，而异向时，融合后的效果要同时好于两个模型。综合融合后的模型效果要略好于两个单个模型。

附图说明

图1为本发明一种基于台区数据进行的配变负荷预测方法的流程图之一；

图2为本发明一种基于台区数据进行的配变负荷预测方法的流程图之三；

图3为本发明一种基于台区数据进行的配变负荷预测方法的流程图之四；

图4为本发明一种基于台区数据进行的配变负荷预测方法的流程图之五；

图5为本发明一种基于台区数据进行的配变负荷预测方法的小提琴数据图；

图6为本发明一种基于台区数据进行的配变负荷预测方法的Xgboost模型训练流程图。

图7为本发明采用Lasso模型、xgboost模型以及融合模型预测的数据对照表。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

请参阅图1-图7所示，本发明提供如下技术方案：一种基于台区数据进行的配变负荷预测方法，包括步骤：

S100基于拉索回归对清洗后的配变负荷数据进行训练，得到第一配变负荷模型；

S200基于Xgboost对清洗后的配变负荷数据进行训练，得到第二配变负荷模型；

S300将第一配变负荷模型与第二配变负荷模型进行融合，得到融合模型。

本实施例中，Lasso回归有时也叫做线性回归的L1正则化，和Ridge回归的主要区别就是在正则化项，Ridge回归用的是L2正则化，而Lasso回归用的是L1正则化。

Lasso相对于Ridge回归：

Lasso回归使得一些系数变小，甚至还是一些绝对值较小的系数直接变为0，因此特别适用于参数数目缩减与参数的选择，因而用来估计稀疏参数的线性模型。

L1范数没有解析解，但L2范数有。这使得L2范数的解可以通过计算得到。然而，L1范数的解具有稀疏性，这使得它可以与稀疏算法一起使用，这使得在计算上更有效率。

Xgboost是一种集成提升算法，与传统的Gbdt有很多的不同，在函数优化方面Xgboost运用到了二阶泰勒展开式，优化过程中同时用到了一阶和二阶导数，并且将正则项加入了损失函数中，以此来降低模型的复杂度，用以防止过拟合现象，如图6所示，过带权重来训练基分类器，根据分类器产生的学习误差来更新权重系数，以此来关注那些分类效果不好的弱分类器，以此不断的迭代过程训练出k个弱分类器，再将k个分类器组合为一个强分类器。

具体地，所述的S200基于Xgboost对清洗后的配变负荷数据进行训练，得到第二配变负荷模型具体包括步骤：

S201通过带权重来训练基分类器；

S202根据基分类器产生的学习误差来更新权重系数，以此来关注分类效果不好的弱分类器；

S203不断的迭代过程训练出k个弱分类器；

S204将k个分类器组合为一个强分类器。

具体地，在所述的S100基于拉索回归对清洗后的配变负荷数据进行训练，得到第一配变负荷模型之前还包括步骤：

S10获取配变负荷数据，并对配变负荷数据进行统计。

具体地，在所述的S100基于拉索回归对清洗后的配变负荷数据进行训练，得到第一配变负荷模型之前包括步骤：

S20通过小提琴图筛选所述配变负荷数据中的异常数据，达到数据清洗的目的。

值得说明的是，小提琴图(Violin Plot)是用来展示多组数据的分布状态以及概率密度。这种图表结合了箱形图和密度图的特征，主要用来显示数据的分布形状。跟箱形图类似，但是在密度层面展示更好。在数据量非常大不方便一个一个展示的时候小提琴图特别适用。

如图5所示，其中Median为数据的中心点(即有一半数据大于中位数，一半数据小于中位数，在其位置之下)。

Interquartile range代表为四分位间距，黑色矩形是下四分位数到上四分位数的范围，矩形上边缘为上四分位数Q3，代表数据中有四分之一的数目大于上四分位数，下边缘为下四分位数Q1，代表数据中有四分之一的数目小于下四分位数，四分位间距IQR(上四分位数和下四分为数间距)长短代表非异常数据的分散和对称程度，长则分散，短则集中；

上下贯穿小提琴图的黑线代表最小非异常值min到最大非异常值max的区间，线上下端分别代表上限和下限，超出此范围为异常数据；

黑色矩形外部形状为核密度估计，图形纵轴方向长度代表数据弥散程度，横轴方向长度代表在某纵坐标位置数据分布量。

可以通过上述的小提琴图来筛选数据中的异常数据，达到数据清洗的目的。

具体地，在所述的S300将第一配变负荷模型与第二配变负荷模型进行融合，得到融合模型之后包括步骤：

S400基于融合模型进行配变负荷预测。

具体地，还包括：获取模块，用于获取配变负荷数据，并对配变负荷数据进行统计。

具体地，还包括：数据清洗模块，用于通过小提琴图筛选所述配变负荷数据中的异常数据，达到数据清洗的目的。

具体地，还包括：预测模块，用于基于融合模型进行配变负荷预测。

尽管已经示出和描述了本发明的实施例，对于本领域的普通技术人员而言，可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型，本发明的范围由所附权利要求及其等同物限定。

Claims

1.一种基于台区数据进行的配变负荷预测方法，其特征在于，包括步骤：

2.根据权利要求1所述的一种基于台区数据进行的配变负荷预测方法，其特征在于，所述的S200基于Xgboost对清洗后的配变负荷数据进行训练，得到第二配变负荷模型具体包括步骤：

S201通过带权重来训练基分类器；

S202根据基分类器产生的学习误差来更新权重系数，以此来关注分类效果不好的弱分类器。

3.根据权利要求2所述的一种基于台区数据进行的配变负荷预测方法，其特征在于，在所述的根据基分类器产生的学习误差来更新权重系数，以此来关注分类效果不好的弱分类器之后包括步骤：

S203不断的迭代过程训练出k个弱分类器；

S204将k个弱分类器组合为一个强分类器。

4.根据权利要求1所述的一种基于台区数据进行的配变负荷预测方法，其特征在于，在所述的S100基于拉索回归对清洗后的配变负荷数据进行训练，得到第一配变负荷模型之前还包括步骤：

S10获取配变负荷数据，并对配变负荷数据进行统计。

5.根据权利要求1所述的一种基于台区数据进行的配变负荷预测方法，其特征在于，在所述的S100基于拉索回归对清洗后的配变负荷数据进行训练，得到第一配变负荷模型之前包括步骤：

6.根据权利要求1所述的一种基于台区数据进行的配变负荷预测方法，其特征在于，在所述的S300将第一配变负荷模型与第二配变负荷模型进行融合，得到融合模型之后包括步骤：

S400基于融合模型进行配变负荷预测。

7.一种基于台区数据进行的配变负荷预测系统，其特征在于，包括：

8.根据权利要求6所述的一种基于台区数据进行的配变负荷预测系统，其特征在于，还包括：

获取模块，用于获取配变负荷数据，并对配变负荷数据进行统计。

9.根据权利要求7所述的一种基于台区数据进行的配变负荷预测系统，其特征在于，还包括：

数据清洗模块，用于通过小提琴图筛选所述配变负荷数据中的异常数据，达到数据清洗的目的。

10.根据权利要求7所述的一种基于台区数据进行的配变负荷预测系统，其特征在于，还包括：

预测模块，用于基于融合模型进行配变负荷预测。