CN114021837A

CN114021837A - 基于混合机器学习和空间地址匹配的区域用电量预测方法

Info

Publication number: CN114021837A
Application number: CN202111352101.1A
Authority: CN
Inventors: 姜家宝; 陈东滨; 孙笑笑; 陆志荣
Original assignee: Zhejiang Wellsun Intelligent Technology Co Ltd
Current assignee: Zhejiang Wellsun Intelligent Technology Co Ltd
Priority date: 2021-11-16
Filing date: 2021-11-16
Publication date: 2022-02-08

Abstract

本发明公开了一种基于混合机器学习和空间地址匹配的区域用电量预测方法。该方法首先利用空间地址匹配技术将电表的文本地址信息映射为空间坐标；然后使用聚类算法对所有电表进行用户分类；之后，利用Stacking技术融合XGBoost和LightGBM两个机器学习模型，完成对每类用户的用电量混合预测模型的构建；最后，通过空间叠加分析筛选出待预测区域内的所有电表，并基于构建的预测模型对位于待预测区域内的每个电表的用电量进行预测，将结果相加后得到区域的预测用电量。此方法考虑了影响用电量的多方面因素，包括用户类别、周期用电规律、天气变化等，并通过空间匹配技术和空间叠加分析实现了任意区域未来用电量的准确预测，结果可为电力调度提供科学的支撑。

Description

基于混合机器学习和空间地址匹配的区域用电量预测方法

技术领域

本发明涉及电力领域，尤其涉及一种基于混合机器学习和空间地址匹配的区域用电量预测方法。

背景技术

准确预测用户用电量对电力系统优化及调度具有重要意义，提升用电量预测的精度一直是智能电网建设的热点研究方向。用电量预测本质上与负荷预测类似，是一个时间序列的回归问题。传统的用电量预测方法如自回归滑动平均模型、自回归积分滑动模型等。随着机器学习、深度学习的发展，这些技术被用于用电量预测，如随机森林、支持向量机、长短时记忆网络等。通过比较发现，深度学习方法总体比传统方法具备更好的精度。

综上，目前用电量预测方法较多，但现有的大多数预测多基于单一模型，在复杂应用场景下适应性较差，而且大多数预测的输入为历史用电量数据，未考虑外部因素如天气等的影响；此外，目前的区域用电量预测多基于行政区划，无法实现任意空间区域的用电量预测。因此研究一种预测精度高、预测范围灵活、健壮性强的区域用电量预测方法意义重大。

发明内容

为了克服上述现有技术的不足，本发明提供一种基于混合机器学习和空间地址匹配的区域用电量预测方法，可有效解决上述问题。本发明具体采用的技术方案如下：

一种基于混合机器学习和空间地址匹配的区域用电量预测方法，其包括以下步骤：

S1.输入覆盖待预测区域的空间范围中所有电表的原始用电量监测数据，包含一张元数据表和若干张用户表，其中元数据表中存储每个电表的设备类别和电表地址；每张用户表记录一个电表的时序监测数据，包括监测时间和每个监测时间对应的用电量；

S2.遍历元数据表，对其中以文本形式表示的电表地址进行空间地址匹配分析，将电表地址映射为空间点位坐标；

S3.将所有用户表的用电量时序数据进行k-means聚类分析，按用电量特征分为多个用户类别；

S4.针对每类的用户，以近期用电量时序、周期用电规律、历史天气情况和未来天气情况四类数据作为输入，利用Stacking技术将XGBoost和LightGBM两个机器学习模型进行融合，完成每类用户的用电量混合预测模型构建，用于对待预测日期的用电量进行预测；

S5.将待预测区域的空间区域与所有电表的空间点位进行叠加分析，筛选出位于预测区域内的电表；

S6.基于构建的用电量混合预测模型对位于预测区域内每个电表的用电量进行预测，并将预测结果进行叠加，结果即为预测区域的预测总用电量。

作为优选，所述S2包括以下步骤：

S21.中文分词：基于jieba中文分词工具对每张电表中记录的监测文本地址进行分词；

S22.生成词向量：利用Word2Vec工具将分词后的字符转化为词向量；

S23.生成句向量：利用TF-IDF加权平均方法基于词向量在地址语料库中出现的词频生成其地址句向量；

S24.空间点位坐标映射：将S23中得到的地址句向量输入基于地址语料库预训练好的深度文本匹配模型ESIM中，得到地址句向量对应的经纬度坐标，即每张电表的空间点位坐标。

作为优选，S3中所述的k-menas聚类中采用动态时间规整DTW距离作为衡量用电量监测时序间的距离度量指标。

作为优选，S4中所述的以近期用电量监测时序、周期用电规律和天气情况三类数据作为输入，具体输入数据包括：

(1)近期用电量监测时序：包括用户在待预测日期前a个月内的日用电量时序数据；

(2)周期用电规律：包括过去b年与预测时间同一天的用电量数据、过去c周与待预测日期属于一周内同一天的用电量数据、待预测日期是否为节假日、待预测日期是否为周末；

(3)历史天气情况：包括待预测日期前a个月内每天的最高气温、最低气温和湿度三个指标组成的时序数据；

(4)未来天气情况：包括待预测日期的最高气温、最低气温和湿度三个指标。

作为优选，对于任意一类用户，S4中所述的用电量混合预测模型构建包括以下子步骤：

S41.训练集分割：将输入数据进行标准化及编码后得到的训练数据等量分割为两份：训练集1和训练集2；

S42.训练第一层模型：第一层模型选择XGBoost和LightGBM这两类机器学习方法作为用电量预测学习器，训练集1用于XGBoost模型的学习，得到预测模型xgb1，训练集2用于LightGBM模型的学习，得到预测模型lgb1；

S43.合成新训练集：使用预测模型xgb1和lgb1生成新的数据特征，将训练集2输入到预测模型xgb1后得到的预测结果与原始的训练集2进行整合得到训练集3，将训练集1输入到预测模型lgb1后得到的预测结果与原始的训练集1进行整合得到训练集4；

S44.训练第二层模型：第二层模型也选择XGBoost和LightGBM这两类机器学习方法作为用电量预测学习器，其中训练集3用于LightGBM模型的学习得到预测模型lgb2，训练集4用于XGBoost模型的学习，得到预测模型xgb2；

S45.输出混合预测模型：将S42和步骤S44中得到的预测模型进行合并，得到两个混合预测模型，即预测模型xgb1在前而预测模型lgb2在后的第一混合模型，预测模型lgb2在前而预测模型lgb1在后的第二混合模型；比较两个混合预测模型的预测效果，选择预测精度高的混合预测模型作为当前类用户最终的用电量混合预测模型。

作为优选，S21中所述的基于jieba中文分词库对每张电表中记录的监测文本地址进行分词时，可选择精确模式、全模式或搜索引擎模式。

作为优选，S24中所述的深度文本匹配模型ESIM训练过程中，输入编码层使用BiLSTM进行特征提取，局部推理层使用注意力机制对提取的特征进行增强，在推理组合层再次使用BiLSTM捕获局部推理信息得到推理组合并进行池化操作，最后将池化操作结果输入全连接层并将结果送到softmax层；模型输入为地址预料库中文本地址对应的地址句向量，模型输出为文本地址对应的空间点位坐标，激活函数采用tanh函数。

相比于传统的用电量预测，本发明具有如下收益：1、结合了空间地址匹配技术，将电表的文本地址转化为空间坐标，利用空间叠加分析可准确识别任意待预测区域内的所有电表；2、由于不同用户具有不同的用电规律，方法对所有电表进行了聚类分析，将用户分成了多种类别，针对每种类别分别构建用电量预测模型；3、用电量预测时除考虑近期用电量时序外，方法还考虑了周期性用电规律(如年度用电特征、一周用电特征、是否节假日等)和天气对用电的影响；4、利用Stacking技术将多种机器学习方法进行融合，构建的混合预测模型具有更好的稳健性，可应用于各种复杂场景。

附图说明

图1为本发明一种基于混合机器学习和空间地址匹配的区域用电量预测方法的流程图；

图2为用电量混合预测模型的训练图；

图3为进行叠加分析后筛选出的位于待预测区域内的所有电表；

图4为k-means聚类的k值设置不同对预测结果的影响图(第一混合模型)。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行详细说明。

相反，本发明涵盖任何由权利要求定义的在本发明的精髓和范围上做的替代、修改、等效方法以及方案。进一步，为了使公众对本发明有更好的了解，在下文对本发明的细节描述中，详尽描述了一些特定的细节部分。对本领域技术人员来说没有这些细节部分的描述也可以完全理解本发明。

如图1所示，本发明的一种基于混合机器学习和空间地址匹配的区域用电量预测方法，包括以下步骤：

S1.输入覆盖待预测区域的空间范围中所有电表的原始用电量监测数据，包含一张元数据表和若干张用户表，其中元数据表中存储每个电表的设备类别和电表地址；每张用户表记录一个电表的时序监测数据，包括监测时间和每个监测时间对应的用电量。

S2.遍历元数据表，对其中以文本形式表示的电表地址进行空间地址匹配分析，将电表地址映射为空间点位坐标；具体包含以下子步骤：

S21.中文分词：基于jieba中文分词工具对每张电表中记录的监测文本地址进行分词，分词时可选择精确模式、全模式或搜索引擎模式，此处选择精确模式。

S24.空间点位坐标映射：将S23中得到的地址句向量输入基于地址语料库预训练好的深度文本匹配模型ESIM中，得到地址句向量对应的经纬度坐标，即每张电表的空间点位坐标；

具体地，ESIM模型的输入编码层使用BiLSTM进行特征提取，局部推理层使用注意力机制对提取的特征进行增强，在推理组合层再次使用BiLSTM捕获局部推理信息得到推理组合并进行池化操作，最后将池化操作结果输入全连接层并将结果送到softmax层；模型输入为地址预料库中文本地址对应的地址句向量，模型输出为文本地址对应的空间点位坐标，激活函数采用tanh函数。

S3.将所有用户表的用电量时序数据进行k-means聚类分析，按用电量特征分为多个用户类别，进行聚类分析时采用动态时间规整DTW距离作为衡量用电量监测时序间的距离度量指标，此外，k-means聚类时需要实现选择k作为类别数，此处选择1～8共8个k值分别进行试验，并从中选择对最终预测效果最佳的k值。

S4.针对每类的用户，以近期用电量时序、周期用电规律、历史天气情况和未来天气情况四类数据作为输入，利用Stacking技术将XGBoost和LightGBM两个机器学习模型进行融合，完成每类用户的用电量混合预测模型构建，用于对待预测日期的用电量进行预测。

其中四类输入数据分别是：

其中混合预测模型的构建如图2所示，具体包含以下子步骤：

S6.基于构建的用电量混合预测模型对位于预测区域内每个电表的用电量进行预测，并将预测结果进行相加，结果即为预测区域的预测总用电量。

下面基于上述S1～S6的方法流程，通过实施例进一步展示其技术效果。

实施例

本实施例步骤与具体实施方式前述步骤相同，在此不再进行赘述。下面就部分实施过程和实施结果进行展示：

本实施例采用某城市用电量历史数据，同时采集了该地的天气预报数据，时间跨度为近3年。对上述数据进行标准化处理，对缺失数据采用平均值进行填补后利用本发明方法进行区域用电量预测：

图3为待预测区域与该城市的所有电表空间点位坐标进行叠加分析后的结果，共筛选出待预测区域内共11只电表。

图4所示为对该城市所有电表进行用户类别进行k-means聚类分析的结果，由于k-means聚类分析的聚类数目主要取决于预设的k值，在本实施例中取值为1～8分别进行实验，结果显示随着聚类数目的增多，总体用电量的预测误差不断减小，因为聚类预测的增多意味着更多类型、更准确的预测，但聚类数目的增加也会导致计算量的增多，所以本实施经过综合考虑，选择最终聚类数量为5，可以兼顾预测精度和计算量。

表1是对区域用电量预测的最终结果(取k＝5)，分为两个部分的结果，第一部分为与常见的时序预测模型即随机森林(Random Frost,RF)、支持向量机(SupportVectorMachine,SVM)及组成混合模型的XGBoost、LightGBM共四个单一模型进行比较，第二部分为两个混合模型的比较(第一混合模型-XGBoost+LightGBM、第二混合模型-LightGBM+XGBoost)。从结果可以看出，混合模型的结果明显优于单一模型，这证实了本文提出的混合预测模型对预测精度的有效提升。值得注意的是，第二混合模型的预测效果比第一混合模型的效果略好，这是由于LightGBM采用了直方图策略对连续特征值进行了离散化，进而对预测精度产生了一定影响，因而将其作为第二层的预测输出模型时效果略差。但这一策略的优势在于其能大大节省读入数据所占用的内存，并在一定程度上起到防止过拟合的效果，因而在处理海量数据时，其训练周期更短，且能保持预测精度。

表1为本发明实验结果与其他预测方法的对比结果(k＝5)

以上所述的实施例只是本发明的一种较佳的方案，然其并非用以限制本发明。有关技术领域的普通技术人员，在不脱离本发明的精神和范围的情况下，还可以做出各种变化和变型。因此凡采取等同替换或等效变换的方式所获得的技术方案，均落在本发明的保护范围内。

Claims

1.一种基于混合机器学习和空间地址匹配的区域用电量预测方法，其特征在于包括以下步骤：

2.如权利要求1所述的基于混合机器学习和空间地址匹配的区域用电量预测方法，其特征在于所述S2包括以下步骤：

3.如权利要求1所述的基于混合机器学习和空间地址匹配的区域用电量预测方法，其特征在于S3中所述的k-menas聚类中采用动态时间规整DTW距离作为衡量用电量监测时序间的距离度量指标。

4.如权利要求1所述的基于混合机器学习和空间地址匹配的区域用电量预测方法，其特征在于S4中所述的以近期用电量监测时序、周期用电规律和天气情况三类数据作为输入，具体输入数据包括：

5.如权利要求1所述的基于混合机器学习和空间地址匹配的区域用电量预测方法，其特征在于对于任意一类用户，S4中所述的用电量混合预测模型构建包括以下子步骤：

6.如权利要求2所述的基于混合机器学习和空间地址匹配的区域用电量预测方法，其特征在于S21中所述的基于jieba中文分词库对每张电表中记录的监测文本地址进行分词时，可选择精确模式、全模式或搜索引擎模式。

7.如权利要求2所述的基于混合机器学习和空间地址匹配的区域用电量预测方法，其特征在于S24中所述的深度文本匹配模型ESIM训练过程中，输入编码层使用BiLSTM进行特征提取，局部推理层使用注意力机制对提取的特征进行增强，在推理组合层再次使用BiLSTM捕获局部推理信息得到推理组合并进行池化操作，最后将池化操作结果输入全连接层并将结果送到softmax层；模型输入为地址预料库中文本地址对应的地址句向量，模型输出为文本地址对应的空间点位坐标，激活函数采用tanh函数。