CN114021837A - 基于混合机器学习和空间地址匹配的区域用电量预测方法 - Google Patents
基于混合机器学习和空间地址匹配的区域用电量预测方法 Download PDFInfo
- Publication number
- CN114021837A CN114021837A CN202111352101.1A CN202111352101A CN114021837A CN 114021837 A CN114021837 A CN 114021837A CN 202111352101 A CN202111352101 A CN 202111352101A CN 114021837 A CN114021837 A CN 114021837A
- Authority
- CN
- China
- Prior art keywords
- power consumption
- prediction
- model
- hybrid
- address
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 47
- 238000010801 machine learning Methods 0.000 title claims abstract description 24
- 230000005611 electricity Effects 0.000 claims abstract description 23
- 238000004458 analytical method Methods 0.000 claims abstract description 13
- 230000000737 periodic effect Effects 0.000 claims abstract description 10
- 238000005516 engineering process Methods 0.000 claims abstract description 9
- 238000010276 construction Methods 0.000 claims abstract description 8
- 238000013507 mapping Methods 0.000 claims abstract description 7
- 238000012216 screening Methods 0.000 claims abstract description 4
- 238000012549 training Methods 0.000 claims description 55
- 238000012544 monitoring process Methods 0.000 claims description 28
- 239000013598 vector Substances 0.000 claims description 24
- 230000011218 segmentation Effects 0.000 claims description 17
- 230000000694 effects Effects 0.000 claims description 8
- 238000010396 two-hybrid screening Methods 0.000 claims description 7
- 230000006870 function Effects 0.000 claims description 6
- 238000011176 pooling Methods 0.000 claims description 6
- 230000008569 process Effects 0.000 claims description 4
- 230000003213 activating effect Effects 0.000 claims description 3
- 230000002354 daily effect Effects 0.000 claims description 3
- 230000003203 everyday effect Effects 0.000 claims description 3
- 238000003064 k means clustering Methods 0.000 claims description 3
- 230000007246 mechanism Effects 0.000 claims description 3
- 230000002194 synthesizing effect Effects 0.000 claims description 3
- 238000000605 extraction Methods 0.000 claims description 2
- 238000007621 cluster analysis Methods 0.000 description 5
- 230000008901 benefit Effects 0.000 description 3
- 238000007637 random forest analysis Methods 0.000 description 3
- 238000012706 support-vector machine Methods 0.000 description 3
- 238000013135 deep learning Methods 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 230000007547 defect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000007787 long-term memory Effects 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 230000015654 memory Effects 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 230000002265 prevention Effects 0.000 description 1
- 230000006403 short-term memory Effects 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/04—Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
- G06F18/232—Non-hierarchical techniques
- G06F18/2321—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
- G06F18/23213—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/047—Probabilistic or stochastic networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/06—Energy or water supply
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- Business, Economics & Management (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Computational Linguistics (AREA)
- Economics (AREA)
- Computing Systems (AREA)
- Human Resources & Organizations (AREA)
- Biophysics (AREA)
- Strategic Management (AREA)
- Biomedical Technology (AREA)
- Molecular Biology (AREA)
- Software Systems (AREA)
- Mathematical Physics (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Probability & Statistics with Applications (AREA)
- General Business, Economics & Management (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Marketing (AREA)
- Tourism & Hospitality (AREA)
- Water Supply & Treatment (AREA)
- Primary Health Care (AREA)
- Public Health (AREA)
- Development Economics (AREA)
- Game Theory and Decision Science (AREA)
- Entrepreneurship & Innovation (AREA)
- Operations Research (AREA)
- Quality & Reliability (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明公开了一种基于混合机器学习和空间地址匹配的区域用电量预测方法。该方法首先利用空间地址匹配技术将电表的文本地址信息映射为空间坐标;然后使用聚类算法对所有电表进行用户分类;之后,利用Stacking技术融合XGBoost和LightGBM两个机器学习模型,完成对每类用户的用电量混合预测模型的构建;最后,通过空间叠加分析筛选出待预测区域内的所有电表,并基于构建的预测模型对位于待预测区域内的每个电表的用电量进行预测,将结果相加后得到区域的预测用电量。此方法考虑了影响用电量的多方面因素,包括用户类别、周期用电规律、天气变化等,并通过空间匹配技术和空间叠加分析实现了任意区域未来用电量的准确预测,结果可为电力调度提供科学的支撑。
Description
技术领域
本发明涉及电力领域,尤其涉及一种基于混合机器学习和空间地址匹配的区域用电量预测方法。
背景技术
准确预测用户用电量对电力系统优化及调度具有重要意义,提升用电量预测的精度一直是智能电网建设的热点研究方向。用电量预测本质上与负荷预测类似,是一个时间序列的回归问题。传统的用电量预测方法如自回归滑动平均模型、自回归积分滑动模型等。随着机器学习、深度学习的发展,这些技术被用于用电量预测,如随机森林、支持向量机、长短时记忆网络等。通过比较发现,深度学习方法总体比传统方法具备更好的精度。
综上,目前用电量预测方法较多,但现有的大多数预测多基于单一模型,在复杂应用场景下适应性较差,而且大多数预测的输入为历史用电量数据,未考虑外部因素如天气等的影响;此外,目前的区域用电量预测多基于行政区划,无法实现任意空间区域的用电量预测。因此研究一种预测精度高、预测范围灵活、健壮性强的区域用电量预测方法意义重大。
发明内容
为了克服上述现有技术的不足,本发明提供一种基于混合机器学习和空间地址匹配的区域用电量预测方法,可有效解决上述问题。本发明具体采用的技术方案如下:
一种基于混合机器学习和空间地址匹配的区域用电量预测方法,其包括以下步骤:
S1.输入覆盖待预测区域的空间范围中所有电表的原始用电量监测数据,包含一张元数据表和若干张用户表,其中元数据表中存储每个电表的设备类别和电表地址;每张用户表记录一个电表的时序监测数据,包括监测时间和每个监测时间对应的用电量;
S2.遍历元数据表,对其中以文本形式表示的电表地址进行空间地址匹配分析,将电表地址映射为空间点位坐标;
S3.将所有用户表的用电量时序数据进行k-means聚类分析,按用电量特征分为多个用户类别;
S4.针对每类的用户,以近期用电量时序、周期用电规律、历史天气情况和未来天气情况四类数据作为输入,利用Stacking技术将XGBoost和LightGBM两个机器学习模型进行融合,完成每类用户的用电量混合预测模型构建,用于对待预测日期的用电量进行预测;
S5.将待预测区域的空间区域与所有电表的空间点位进行叠加分析,筛选出位于预测区域内的电表;
S6.基于构建的用电量混合预测模型对位于预测区域内每个电表的用电量进行预测,并将预测结果进行叠加,结果即为预测区域的预测总用电量。
作为优选,所述S2包括以下步骤:
S21.中文分词:基于jieba中文分词工具对每张电表中记录的监测文本地址进行分词;
S22.生成词向量:利用Word2Vec工具将分词后的字符转化为词向量;
S23.生成句向量:利用TF-IDF加权平均方法基于词向量在地址语料库中出现的词频生成其地址句向量;
S24.空间点位坐标映射:将S23中得到的地址句向量输入基于地址语料库预训练好的深度文本匹配模型ESIM中,得到地址句向量对应的经纬度坐标,即每张电表的空间点位坐标。
作为优选,S3中所述的k-menas聚类中采用动态时间规整DTW距离作为衡量用电量监测时序间的距离度量指标。
作为优选,S4中所述的以近期用电量监测时序、周期用电规律和天气情况三类数据作为输入,具体输入数据包括:
(1)近期用电量监测时序:包括用户在待预测日期前a个月内的日用电量时序数据;
(2)周期用电规律:包括过去b年与预测时间同一天的用电量数据、过去c周与待预测日期属于一周内同一天的用电量数据、待预测日期是否为节假日、待预测日期是否为周末;
(3)历史天气情况:包括待预测日期前a个月内每天的最高气温、最低气温和湿度三个指标组成的时序数据;
(4)未来天气情况:包括待预测日期的最高气温、最低气温和湿度三个指标。
作为优选,对于任意一类用户,S4中所述的用电量混合预测模型构建包括以下子步骤:
S41.训练集分割:将输入数据进行标准化及编码后得到的训练数据等量分割为两份:训练集1和训练集2;
S42.训练第一层模型:第一层模型选择XGBoost和LightGBM这两类机器学习方法作为用电量预测学习器,训练集1用于XGBoost模型的学习,得到预测模型xgb1,训练集2用于LightGBM模型的学习,得到预测模型lgb1;
S43.合成新训练集:使用预测模型xgb1和lgb1生成新的数据特征,将训练集2输入到预测模型xgb1后得到的预测结果与原始的训练集2进行整合得到训练集3,将训练集1输入到预测模型lgb1后得到的预测结果与原始的训练集1进行整合得到训练集4;
S44.训练第二层模型:第二层模型也选择XGBoost和LightGBM这两类机器学习方法作为用电量预测学习器,其中训练集3用于LightGBM模型的学习得到预测模型lgb2,训练集4用于XGBoost模型的学习,得到预测模型xgb2;
S45.输出混合预测模型:将S42和步骤S44中得到的预测模型进行合并,得到两个混合预测模型,即预测模型xgb1在前而预测模型lgb2在后的第一混合模型,预测模型lgb2在前而预测模型lgb1在后的第二混合模型;比较两个混合预测模型的预测效果,选择预测精度高的混合预测模型作为当前类用户最终的用电量混合预测模型。
作为优选,S21中所述的基于jieba中文分词库对每张电表中记录的监测文本地址进行分词时,可选择精确模式、全模式或搜索引擎模式。
作为优选,S24中所述的深度文本匹配模型ESIM训练过程中,输入编码层使用BiLSTM进行特征提取,局部推理层使用注意力机制对提取的特征进行增强,在推理组合层再次使用BiLSTM捕获局部推理信息得到推理组合并进行池化操作,最后将池化操作结果输入全连接层并将结果送到softmax层;模型输入为地址预料库中文本地址对应的地址句向量,模型输出为文本地址对应的空间点位坐标,激活函数采用tanh函数。
相比于传统的用电量预测,本发明具有如下收益:1、结合了空间地址匹配技术,将电表的文本地址转化为空间坐标,利用空间叠加分析可准确识别任意待预测区域内的所有电表;2、由于不同用户具有不同的用电规律,方法对所有电表进行了聚类分析,将用户分成了多种类别,针对每种类别分别构建用电量预测模型;3、用电量预测时除考虑近期用电量时序外,方法还考虑了周期性用电规律(如年度用电特征、一周用电特征、是否节假日等)和天气对用电的影响;4、利用Stacking技术将多种机器学习方法进行融合,构建的混合预测模型具有更好的稳健性,可应用于各种复杂场景。
附图说明
图1为本发明一种基于混合机器学习和空间地址匹配的区域用电量预测方法的流程图;
图2为用电量混合预测模型的训练图;
图3为进行叠加分析后筛选出的位于待预测区域内的所有电表;
图4为k-means聚类的k值设置不同对预测结果的影响图(第一混合模型)。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行详细说明。
相反,本发明涵盖任何由权利要求定义的在本发明的精髓和范围上做的替代、修改、等效方法以及方案。进一步,为了使公众对本发明有更好的了解,在下文对本发明的细节描述中,详尽描述了一些特定的细节部分。对本领域技术人员来说没有这些细节部分的描述也可以完全理解本发明。
如图1所示,本发明的一种基于混合机器学习和空间地址匹配的区域用电量预测方法,包括以下步骤:
S1.输入覆盖待预测区域的空间范围中所有电表的原始用电量监测数据,包含一张元数据表和若干张用户表,其中元数据表中存储每个电表的设备类别和电表地址;每张用户表记录一个电表的时序监测数据,包括监测时间和每个监测时间对应的用电量。
S2.遍历元数据表,对其中以文本形式表示的电表地址进行空间地址匹配分析,将电表地址映射为空间点位坐标;具体包含以下子步骤:
S21.中文分词:基于jieba中文分词工具对每张电表中记录的监测文本地址进行分词,分词时可选择精确模式、全模式或搜索引擎模式,此处选择精确模式。
S22.生成词向量:利用Word2Vec工具将分词后的字符转化为词向量;
S23.生成句向量:利用TF-IDF加权平均方法基于词向量在地址语料库中出现的词频生成其地址句向量;
S24.空间点位坐标映射:将S23中得到的地址句向量输入基于地址语料库预训练好的深度文本匹配模型ESIM中,得到地址句向量对应的经纬度坐标,即每张电表的空间点位坐标;
具体地,ESIM模型的输入编码层使用BiLSTM进行特征提取,局部推理层使用注意力机制对提取的特征进行增强,在推理组合层再次使用BiLSTM捕获局部推理信息得到推理组合并进行池化操作,最后将池化操作结果输入全连接层并将结果送到softmax层;模型输入为地址预料库中文本地址对应的地址句向量,模型输出为文本地址对应的空间点位坐标,激活函数采用tanh函数。
S3.将所有用户表的用电量时序数据进行k-means聚类分析,按用电量特征分为多个用户类别,进行聚类分析时采用动态时间规整DTW距离作为衡量用电量监测时序间的距离度量指标,此外,k-means聚类时需要实现选择k作为类别数,此处选择1~8共8个k值分别进行试验,并从中选择对最终预测效果最佳的k值。
S4.针对每类的用户,以近期用电量时序、周期用电规律、历史天气情况和未来天气情况四类数据作为输入,利用Stacking技术将XGBoost和LightGBM两个机器学习模型进行融合,完成每类用户的用电量混合预测模型构建,用于对待预测日期的用电量进行预测。
其中四类输入数据分别是:
(1)近期用电量监测时序:包括用户在待预测日期前a个月内的日用电量时序数据;
(2)周期用电规律:包括过去b年与预测时间同一天的用电量数据、过去c周与待预测日期属于一周内同一天的用电量数据、待预测日期是否为节假日、待预测日期是否为周末;
(3)历史天气情况:包括待预测日期前a个月内每天的最高气温、最低气温和湿度三个指标组成的时序数据;
(4)未来天气情况:包括待预测日期的最高气温、最低气温和湿度三个指标。
其中混合预测模型的构建如图2所示,具体包含以下子步骤:
S41.训练集分割:将输入数据进行标准化及编码后得到的训练数据等量分割为两份:训练集1和训练集2;
S42.训练第一层模型:第一层模型选择XGBoost和LightGBM这两类机器学习方法作为用电量预测学习器,训练集1用于XGBoost模型的学习,得到预测模型xgb1,训练集2用于LightGBM模型的学习,得到预测模型lgb1;
S43.合成新训练集:使用预测模型xgb1和lgb1生成新的数据特征,将训练集2输入到预测模型xgb1后得到的预测结果与原始的训练集2进行整合得到训练集3,将训练集1输入到预测模型lgb1后得到的预测结果与原始的训练集1进行整合得到训练集4;
S44.训练第二层模型:第二层模型也选择XGBoost和LightGBM这两类机器学习方法作为用电量预测学习器,其中训练集3用于LightGBM模型的学习得到预测模型lgb2,训练集4用于XGBoost模型的学习,得到预测模型xgb2;
S45.输出混合预测模型:将S42和步骤S44中得到的预测模型进行合并,得到两个混合预测模型,即预测模型xgb1在前而预测模型lgb2在后的第一混合模型,预测模型lgb2在前而预测模型lgb1在后的第二混合模型;比较两个混合预测模型的预测效果,选择预测精度高的混合预测模型作为当前类用户最终的用电量混合预测模型。
S5.将待预测区域的空间区域与所有电表的空间点位进行叠加分析,筛选出位于预测区域内的电表;
S6.基于构建的用电量混合预测模型对位于预测区域内每个电表的用电量进行预测,并将预测结果进行相加,结果即为预测区域的预测总用电量。
下面基于上述S1~S6的方法流程,通过实施例进一步展示其技术效果。
实施例
本实施例步骤与具体实施方式前述步骤相同,在此不再进行赘述。下面就部分实施过程和实施结果进行展示:
本实施例采用某城市用电量历史数据,同时采集了该地的天气预报数据,时间跨度为近3年。对上述数据进行标准化处理,对缺失数据采用平均值进行填补后利用本发明方法进行区域用电量预测:
图3为待预测区域与该城市的所有电表空间点位坐标进行叠加分析后的结果,共筛选出待预测区域内共11只电表。
图4所示为对该城市所有电表进行用户类别进行k-means聚类分析的结果,由于k-means聚类分析的聚类数目主要取决于预设的k值,在本实施例中取值为1~8分别进行实验,结果显示随着聚类数目的增多,总体用电量的预测误差不断减小,因为聚类预测的增多意味着更多类型、更准确的预测,但聚类数目的增加也会导致计算量的增多,所以本实施经过综合考虑,选择最终聚类数量为5,可以兼顾预测精度和计算量。
表1是对区域用电量预测的最终结果(取k=5),分为两个部分的结果,第一部分为与常见的时序预测模型即随机森林(Random Frost,RF)、支持向量机(SupportVectorMachine,SVM)及组成混合模型的XGBoost、LightGBM共四个单一模型进行比较,第二部分为两个混合模型的比较(第一混合模型-XGBoost+LightGBM、第二混合模型-LightGBM+XGBoost)。从结果可以看出,混合模型的结果明显优于单一模型,这证实了本文提出的混合预测模型对预测精度的有效提升。值得注意的是,第二混合模型的预测效果比第一混合模型的效果略好,这是由于LightGBM采用了直方图策略对连续特征值进行了离散化,进而对预测精度产生了一定影响,因而将其作为第二层的预测输出模型时效果略差。但这一策略的优势在于其能大大节省读入数据所占用的内存,并在一定程度上起到防止过拟合的效果,因而在处理海量数据时,其训练周期更短,且能保持预测精度。
表1为本发明实验结果与其他预测方法的对比结果(k=5)
以上所述的实施例只是本发明的一种较佳的方案,然其并非用以限制本发明。有关技术领域的普通技术人员,在不脱离本发明的精神和范围的情况下,还可以做出各种变化和变型。因此凡采取等同替换或等效变换的方式所获得的技术方案,均落在本发明的保护范围内。
Claims (7)
1.一种基于混合机器学习和空间地址匹配的区域用电量预测方法,其特征在于包括以下步骤:
S1.输入覆盖待预测区域的空间范围中所有电表的原始用电量监测数据,包含一张元数据表和若干张用户表,其中元数据表中存储每个电表的设备类别和电表地址;每张用户表记录一个电表的时序监测数据,包括监测时间和每个监测时间对应的用电量;
S2.遍历元数据表,对其中以文本形式表示的电表地址进行空间地址匹配分析,将电表地址映射为空间点位坐标;
S3.将所有用户表的用电量时序数据进行k-means聚类分析,按用电量特征分为多个用户类别;
S4.针对每类的用户,以近期用电量时序、周期用电规律、历史天气情况和未来天气情况四类数据作为输入,利用Stacking技术将XGBoost和LightGBM两个机器学习模型进行融合,完成每类用户的用电量混合预测模型构建,用于对待预测日期的用电量进行预测;
S5.将待预测区域的空间区域与所有电表的空间点位进行叠加分析,筛选出位于预测区域内的电表;
S6.基于构建的用电量混合预测模型对位于预测区域内每个电表的用电量进行预测,并将预测结果进行相加,结果即为预测区域的预测总用电量。
2.如权利要求1所述的基于混合机器学习和空间地址匹配的区域用电量预测方法,其特征在于所述S2包括以下步骤:
S21.中文分词:基于jieba中文分词工具对每张电表中记录的监测文本地址进行分词;
S22.生成词向量:利用Word2Vec工具将分词后的字符转化为词向量;
S23.生成句向量:利用TF-IDF加权平均方法基于词向量在地址语料库中出现的词频生成其地址句向量;
S24.空间点位坐标映射:将S23中得到的地址句向量输入基于地址语料库预训练好的深度文本匹配模型ESIM中,得到地址句向量对应的经纬度坐标,即每张电表的空间点位坐标。
3.如权利要求1所述的基于混合机器学习和空间地址匹配的区域用电量预测方法,其特征在于S3中所述的k-menas聚类中采用动态时间规整DTW距离作为衡量用电量监测时序间的距离度量指标。
4.如权利要求1所述的基于混合机器学习和空间地址匹配的区域用电量预测方法,其特征在于S4中所述的以近期用电量监测时序、周期用电规律和天气情况三类数据作为输入,具体输入数据包括:
(1)近期用电量监测时序:包括用户在待预测日期前a个月内的日用电量时序数据;
(2)周期用电规律:包括过去b年与预测时间同一天的用电量数据、过去c周与待预测日期属于一周内同一天的用电量数据、待预测日期是否为节假日、待预测日期是否为周末;
(3)历史天气情况:包括待预测日期前a个月内每天的最高气温、最低气温和湿度三个指标组成的时序数据;
(4)未来天气情况:包括待预测日期的最高气温、最低气温和湿度三个指标。
5.如权利要求1所述的基于混合机器学习和空间地址匹配的区域用电量预测方法,其特征在于对于任意一类用户,S4中所述的用电量混合预测模型构建包括以下子步骤:
S41.训练集分割:将输入数据进行标准化及编码后得到的训练数据等量分割为两份:训练集1和训练集2;
S42.训练第一层模型:第一层模型选择XGBoost和LightGBM这两类机器学习方法作为用电量预测学习器,训练集1用于XGBoost模型的学习,得到预测模型xgb1,训练集2用于LightGBM模型的学习,得到预测模型lgb1;
S43.合成新训练集:使用预测模型xgb1和lgb1生成新的数据特征,将训练集2输入到预测模型xgb1后得到的预测结果与原始的训练集2进行整合得到训练集3,将训练集1输入到预测模型lgb1后得到的预测结果与原始的训练集1进行整合得到训练集4;
S44.训练第二层模型:第二层模型也选择XGBoost和LightGBM这两类机器学习方法作为用电量预测学习器,其中训练集3用于LightGBM模型的学习得到预测模型lgb2,训练集4用于XGBoost模型的学习,得到预测模型xgb2;
S45.输出混合预测模型:将S42和步骤S44中得到的预测模型进行合并,得到两个混合预测模型,即预测模型xgb1在前而预测模型lgb2在后的第一混合模型,预测模型lgb2在前而预测模型lgb1在后的第二混合模型;比较两个混合预测模型的预测效果,选择预测精度高的混合预测模型作为当前类用户最终的用电量混合预测模型。
6.如权利要求2所述的基于混合机器学习和空间地址匹配的区域用电量预测方法,其特征在于S21中所述的基于jieba中文分词库对每张电表中记录的监测文本地址进行分词时,可选择精确模式、全模式或搜索引擎模式。
7.如权利要求2所述的基于混合机器学习和空间地址匹配的区域用电量预测方法,其特征在于S24中所述的深度文本匹配模型ESIM训练过程中,输入编码层使用BiLSTM进行特征提取,局部推理层使用注意力机制对提取的特征进行增强,在推理组合层再次使用BiLSTM捕获局部推理信息得到推理组合并进行池化操作,最后将池化操作结果输入全连接层并将结果送到softmax层;模型输入为地址预料库中文本地址对应的地址句向量,模型输出为文本地址对应的空间点位坐标,激活函数采用tanh函数。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111352101.1A CN114021837A (zh) | 2021-11-16 | 2021-11-16 | 基于混合机器学习和空间地址匹配的区域用电量预测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111352101.1A CN114021837A (zh) | 2021-11-16 | 2021-11-16 | 基于混合机器学习和空间地址匹配的区域用电量预测方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114021837A true CN114021837A (zh) | 2022-02-08 |
Family
ID=80064643
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111352101.1A Pending CN114021837A (zh) | 2021-11-16 | 2021-11-16 | 基于混合机器学习和空间地址匹配的区域用电量预测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114021837A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115796324A (zh) * | 2022-09-08 | 2023-03-14 | 呼伦贝尔安泰热电有限责任公司海拉尔热电厂 | 一种高寒地区供热负荷预测方法和系统 |
CN117728566A (zh) * | 2023-12-05 | 2024-03-19 | 国网安徽省电力有限公司黄山供电公司 | 一种移动储能远程控制方法及系统 |
-
2021
- 2021-11-16 CN CN202111352101.1A patent/CN114021837A/zh active Pending
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115796324A (zh) * | 2022-09-08 | 2023-03-14 | 呼伦贝尔安泰热电有限责任公司海拉尔热电厂 | 一种高寒地区供热负荷预测方法和系统 |
CN115796324B (zh) * | 2022-09-08 | 2023-11-03 | 呼伦贝尔安泰热电有限责任公司海拉尔热电厂 | 一种高寒地区供热负荷预测方法和系统 |
CN117728566A (zh) * | 2023-12-05 | 2024-03-19 | 国网安徽省电力有限公司黄山供电公司 | 一种移动储能远程控制方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Wang et al. | LASSO and LSTM integrated temporal model for short-term solar intensity forecasting | |
Hong et al. | Probabilistic electric load forecasting: A tutorial review | |
Straka et al. | Predicting popularity of electric vehicle charging infrastructure in urban context | |
Beccali et al. | Forecasting daily urban electric load profiles using artificial neural networks | |
Jin et al. | Subgroup discovery in smart electricity meter data | |
CN107230108A (zh) | 业务数据的处理方法及装置 | |
CN114021837A (zh) | 基于混合机器学习和空间地址匹配的区域用电量预测方法 | |
CN109325607A (zh) | 一种短期风电功率预测方法及系统 | |
CN116186548B (zh) | 电力负荷预测模型训练方法及电力负荷预测方法 | |
CN113255900A (zh) | 一种考虑改进谱聚类与Bi-LSTM神经网络的冲击性负荷预测方法 | |
CN115659985B (zh) | 电力知识图谱实体对齐方法、装置和计算机设备 | |
CN111191839A (zh) | 一种换电预测方法和系统及存储介质 | |
CN108885628A (zh) | 数据分析方法候选决定装置 | |
Fang et al. | Improving supervised wind power forecasting models using extended numerical weather variables and unlabelled data | |
CN112288172A (zh) | 台区线损率的预测方法、装置 | |
CN116187640A (zh) | 一种基于网格多属性画像体系的配电网规划方法及装置 | |
CN114077912A (zh) | 数据预测方法以及数据预测装置 | |
CN115017970A (zh) | 一种基于迁移学习的用气行为异常检测方法及系统 | |
Lin et al. | Data-driven prediction of building energy consumption using an adaptive multi-model fusion approach | |
Abdelaziz et al. | Convolutional Neural Network With Genetic Algorithm for Predicting Energy Consumption in Public Buildings | |
CN116662860A (zh) | 一种基于能源大数据的用户画像与分类方法 | |
CN114372835B (zh) | 综合能源服务潜力客户识别方法、系统及计算机设备 | |
WO2023051085A1 (zh) | 对象识别方法、装置、设备、存储介质和程序产品 | |
CN116304713A (zh) | 风电场故障场景预测模型的生成方法、装置和计算机设备 | |
CN116404637A (zh) | 电力系统短期负荷预测方法和电力系统短期负荷预测装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |