CN113033089A - 用电量异常用户识别方法和装置 - Google Patents
用电量异常用户识别方法和装置 Download PDFInfo
- Publication number
- CN113033089A CN113033089A CN202110308456.4A CN202110308456A CN113033089A CN 113033089 A CN113033089 A CN 113033089A CN 202110308456 A CN202110308456 A CN 202110308456A CN 113033089 A CN113033089 A CN 113033089A
- Authority
- CN
- China
- Prior art keywords
- data
- training
- primary
- prediction model
- user
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 63
- 230000002159 abnormal effect Effects 0.000 title claims abstract description 59
- 238000012549 training Methods 0.000 claims abstract description 171
- 230000005611 electricity Effects 0.000 claims abstract description 64
- 238000005070 sampling Methods 0.000 claims abstract description 28
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 22
- 238000010801 machine learning Methods 0.000 claims abstract description 18
- 238000012360 testing method Methods 0.000 claims description 63
- 238000012795 verification Methods 0.000 claims description 42
- 230000008569 process Effects 0.000 claims description 36
- 238000004364 calculation method Methods 0.000 claims description 18
- 238000007781 pre-processing Methods 0.000 claims description 16
- 238000012545 processing Methods 0.000 claims description 15
- 238000007477 logistic regression Methods 0.000 claims description 14
- 238000003066 decision tree Methods 0.000 claims description 8
- 238000007637 random forest analysis Methods 0.000 claims description 8
- 238000006243 chemical reaction Methods 0.000 claims description 7
- 230000008901 benefit Effects 0.000 abstract description 5
- 238000004891 communication Methods 0.000 abstract description 4
- 238000012216 screening Methods 0.000 abstract description 4
- 239000002699 waste material Substances 0.000 abstract description 4
- 238000010586 diagram Methods 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 4
- 238000010606 normalization Methods 0.000 description 4
- 230000008859 change Effects 0.000 description 3
- 238000005457 optimization Methods 0.000 description 3
- 238000013473 artificial intelligence Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000010248 power generation Methods 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000004927 fusion Effects 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 230000000717 retained effect Effects 0.000 description 1
- 238000010845 search algorithm Methods 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 239000000126 substance Substances 0.000 description 1
- 238000002759 z-score normalization Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F30/00—Computer-aided design [CAD]
- G06F30/20—Design optimisation, verification or simulation
- G06F30/27—Design optimisation, verification or simulation using machine learning, e.g. artificial intelligence, neural networks, support vector machines [SVM] or training a model
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2458—Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
- G06F16/2465—Query processing support for facilitating data mining operations in structured databases
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/27—Replication, distribution or synchronisation of data between databases or within a distributed database system; Distributed database system architectures therefor
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/06—Energy or water supply
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Databases & Information Systems (AREA)
- General Physics & Mathematics (AREA)
- Business, Economics & Management (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Software Systems (AREA)
- Economics (AREA)
- Health & Medical Sciences (AREA)
- Water Supply & Treatment (AREA)
- Strategic Management (AREA)
- Computer Hardware Design (AREA)
- Public Health (AREA)
- Medical Informatics (AREA)
- General Health & Medical Sciences (AREA)
- Human Resources & Organizations (AREA)
- Marketing (AREA)
- Primary Health Care (AREA)
- Geometry (AREA)
- Tourism & Hospitality (AREA)
- General Business, Economics & Management (AREA)
- Computing Systems (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Artificial Intelligence (AREA)
- Fuzzy Systems (AREA)
- Mathematical Physics (AREA)
- Probability & Statistics with Applications (AREA)
- Computational Linguistics (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明提供一种用电量异常用户识别方法,涉及通信技术领域,该方法包括:获取多个用户的历史用电量信息数据,以作为采样数据;基于所述采样数据,利用堆叠机器学习算法进行训练得到用电量预测模型;接收待识别用户的用电量信息数据;基于所述待识别用户的用电量信息数据,利用所述用电量预测模型识别出所述待识别用户是否为用电量异常用户,从而实现了电力系统中用电量异常用户的识别和筛查,保证了用户利益,避免了电力资源的浪费。本发明还提供一种用电量异常用户识别装置。
Description
技术领域
本发明涉及通信技术领域,具体涉及一种用电量异常用户识别方法和装置。
背景技术
在电力系统中,经统计发现,有些用户的统计用电量与其消费的实际用电量存在不匹配的情况,存在这种情况的用户被称为用电量异常用户。当出现用电量异常用户时,电力系统可能存在偷电或漏电的问题,这损害了社会利益,造成了电力资源浪费,因而,如何识别出用电量异常用户具有重要意义。
发明内容
本发明旨在至少解决现有技术中存在的技术问题之一,提出了一种用电量异常用户识别方法和装置。
第一方面,本发明提供一种用电量异常用户识别方法,包括:
获取多个用户的历史用电量信息数据,以作为采样数据;
基于所述采样数据,利用堆叠机器学习算法进行训练得到用电量预测模型;
接收待识别用户的用电量信息数据;
基于所述待识别用户的用电量信息数据,利用所述用电量预测模型识别出所述待识别用户是否为用电量异常用户。
优选的,在所述基于所述采样数据,利用堆叠机器学习算法进行训练得到用电量预测模型的步骤之前,还包括:
对所述采样数据进行预处理,所述预处理过程包括:数据格式转换、异常数据处理和数据标准化处理。
优选的,所述预处理过程还包括:在每个用户的历史用电量信息数据中增加特征字段:电量使用稳定度;
所述电量使用稳定度的计算公式为:
其中,W表示用户的电量稳定度,M(n)表示用户第n天的电量使用趋势,M(n)的计算公式为:
其中,ki表示第i日的电量使用趋势,ki的计算公式为:
优选的,所述用电量预测模型包括第一层预测模型和第二层预测模型,所述第一层预测模型包括多个初级预测模型,所述第二层预测模型包括一个次级预测模型,所述初级预测模型的输入为待识别用户的用电量信息数据,所述次级预测模型的输入为所述初级预测模型的输出,所述次级预测模型的输出为所述待识别用户是否为用电量异常用户。
优选的,所述基于所述采样数据,利用堆叠机器学习算法进行训练得到用电量预测模型的步骤包括:
将所述采样数据划分为训练数据和测试数据;
针对多个预设初级训练模型中的每一个,执行下述训练过程:
将所述训练数据按预设比例划分为初级训练数据和初级验证数据;
利用所述初级训练数据对该初级训练模型进行训练,得到初级预测模型;
利用该初级预测模型对所述初级验证数据进行验证,得到初级验证结果数据;
利用该初级预测模型对所述测试数据进行验证,得到初级测试结果数据;
重复执行上述训练过程,在不同训练过程中选取的初级验证数据不同,直至训练过程的执行次数达到预设阈值;
根据所有初级预测模型对应的所有初级验证结果数据,生成次级训练数据;
利用所述次级训练数据对预设次级训练模型进行训练,得到所述次级预测模型;
根据所有初级预测模型对应的所有初级测试结果数据,生成次级测试数据;
利用所述次级测试数据对所述次级预测模型进行测试,以优化所述次级预测模型。
优选的,所述初级训练模型包括:逻辑回归模型、决策树模型、随机森林模型和Xgboost模型;所述次级训练模型包括:逻辑回归模型。
第二方面,本发明还提供一种用电量异常用户识别装置,包括:
获取模块,用于获取多个用户的历史用电量信息数据,以作为采样数据;
训练模块,用于基于所述获取模块所获取的采样数据,利用堆叠机器学习算法进行训练得到用电量预测模型;
接收模块,用于接收待识别用户的用电量信息数据;
识别模块,用于基于所述接收模块所接收的待识别用户的用电量信息数据,利用所述用电量预测模型识别出所述待识别用户是否为用电量异常用户。
优选的,所述装置还包括:
预处理模块,用于对所述获取模块所获取的所述采样数据进行预处理,所述预处理过程包括:数据格式转换、异常数据处理和数据标准化处理。
优选的,所述预处理模块还用于在每个用户的历史用电量信息数据中增加特征字段:电量使用稳定度;
所述电量使用稳定度的计算公式为:
其中,W表示用户连续6日的电量稳定度,M(n)表示用户第n天的电量使用趋势,M(n)的计算公式为:
其中,ki表示第i日的电量使用趋势,ki的计算公式为:
优选的,所述用电量预测模型包括第一层预测模型和第二层预测模型,所述第一层预测模型包括多个初级预测模型,所述第二层预测模型包括一个次级预测模型,所述初级预测模型的输入为待识别用户的用电量信息数据,所述次级预测模型的输入为所述初级预测模型的输出,所述次级预测模型的输出为所述待识别用户是否为用电量异常用户。
优选的,所述训练模块具体包括:
数据分割单元,用于将所述采样数据划分为训练数据和测试数据;
初级训练单元,用于针对多个预设初级训练模型中的每一个,执行下述训练过程:
将所述训练数据按预设比例划分为初级训练数据和初级验证数据;利用所述初级训练数据对该初级训练模型进行训练,得到初级预测模型;利用该初级预测模型对所述初级验证数据进行验证,得到初级验证结果数据;利用该初级预测模型对所述测试数据进行验证,得到初级测试结果数据;
重复执行上述训练过程,在不同训练过程中选取的初级验证数据不同,直至训练过程的执行次数达到预设阈值;
数据整理单元,用于根据所有初级预测模型对应的所有初级验证结果数据,生成次级训练数据;以及根据所有初级预测模型对应的所有初级测试结果数据,生成次级测试数据;
次级训练单元,用于利用所述数据整理单元所生成的所述次级训练数据对预设次级训练模型进行训练,得到所述次级预测模型;
测试单元,用于利用所述数据整理单元所生成的所述次级测试数据对所述次级预测模型进行测试,以优化所述次级预测模型。
优选的,所述初级训练模型包括:逻辑回归模型、决策树模型、随机森林模型和Xgboost模型;所述次级训练模型包括:逻辑回归模型。
本发明的有益技术效果:
本发明提供的用电量异常用户识别方法和装置,基于多个用户的历史用电量信息数据,利用stacking机器学习算法训练出用电量预测模型,基于该用电量预测模型对待识别用户的用电量信息数据进行预测,确定出待识别用户是否为用电量异常用户,从而实现了电力系统中用电量异常用户的识别和筛查,保证了用户利益,避免了电力资源的浪费。
附图说明
图1为本发明实施例提供的一种用电量异常用户识别方法的流程图;
图2为本发明实施例提供的另一种用电量异常用户识别方法的流程图;
图3为本发明实施例提供的一种用电量异常用户识别装置的结构示意图;
图4为本发明实施例提供的另一种用电量异常用户识别装置的结构示意图。
具体实施方式
为使本领域的技术人员更好地理解本发明的技术方案,下面结合附图来对本发明提供的用电量异常用户识别方法和装置进行详细描述。
本发明提供的用电量异常用户识别方法用于确定电力系统的电量使用用户是否为异常用户,特别的,本发明适用于泛在电力物联网,泛在电力物联网是一种围绕电力系统各环节,充分应用移动互联、人工智能等现代信息技术、先进通信技术,实现电力系统各环节万物互联、人机交互,具有状态全面感知、信息高效处理、应用便捷灵活特征的智慧服务系统。具体的,泛在电力物联网将电力用户及其设备、电网企业及其设备、发电企业及其设备、供应商及其设备,以及人和物连接起来,产生共享数据,为用户、电网、发电、供应商和政府社会服务。泛在电力物联网通过先进信息、通信、大数据、人工智能、互联网技术的深度融合,实现发、输、配、用、储等环节互联互通、全息感知、高效分析、智能控制、灵活共享,能够实现能源供需的实时匹配、安全经济、智能响应、高效服务。
图1为本发明实施例提供的一种用电量异常用户识别方法的流程图,如图1所示,该方法包括:
步骤S101、获取多个用户的历史用电量信息数据,以作为采样数据。
用户接入电力系统开始用电后,电力系统记录用户的用电信息,并存储在预设的数据仓库中,用电信息至少包括:用户编号和用户历史用电量,其中,用户编号为用户的标识信息,用户历史用电量为用户的日用电量的历史数据,例如,用户历史用电量可以为近一个月内用户每日的用电量。本发明实施例中,采样数据中,用户的历史用电量信息数据至少包括:用户编号、用户历史用电量和用电量结果;其中,用电量结果是指用户是否为用电量异常用户的结果,具体的,用电量结果包括是或否,用电量结果可由管理人员基于实际用户的用电量使用情况确定出。
在一些实施例中,用电信息还包括:用户名称、用电类别、计量方式、电流互感器变化和电压互感器变化等字段;对应的,用户的历史用电量信息数据中也可包括这些字段中的一个或多个。
本发明实施例中,数据仓库可包括传统数据库和分布式文件系统(HadoopDistributed File System,简称HDFS),具体选择哪种类型的数据仓库可根据所存储的用户的用电信息的量确定,当用户的用电信息的量较小时,可选择传统数据库,而当用户的用电信息的量较大时,可选择HDFS。
另外,本发明实施例不对用户的类型进行限定,具体可以为个人用户,也可以为企业用户。
步骤S102、基于采样数据,利用堆叠机器学习算法进行训练得到用电量预测模型。
堆叠机器学习算法又称为stacking机器学习算法,Stacking的训练过程为:利用初始训练数据学习出若干个初级训练模型后,将该若干个初级训练模型的预测结果作为新的训练集,来学习训练一个次级训练模型,从而得到最终的预测模型。
Stacking机器学习算法已属于本领域的成熟技术,本发明实施例不再赘述。
步骤S103、接收待识别用户的用电量信息数据。
步骤S104、基于待识别用户的用电量信息数据,利用用电量预测模型识别出待识别用户是否为用电量异常用户。
当需要对待识别用户进行是否为用电量异常用户的判断时,将该待识别用户的用电量信息数据输入至步骤S102中训练得到的用电量预测模型中,该用电量预测模型基于待识别用户的用电量信息数据进行预测,输出该待识别用户是否为用电量异常用户的预测结果。
本发明实施例中,步骤S104中输入用电量预测模型中的待识别用户的用电量信息数据可以为待识别用户近期一段时间内的用电量信息数据,例如,待识别用户最近1个月的用电量信息数据,并且,待识别用户的用电量信息数据与步骤S101中的历史用电量信息数据的格式保持一致。
本发明实施例提供的用电量异常用户识别方法,基于多个用户的历史用电量信息数据,利用stacking机器学习算法训练出用电量预测模型,基于该用电量预测模型对待识别用户的用电量信息数据进行预测,确定出待识别用户是否为用电量异常用户,从而实现了电力系统中用电量异常用户的识别和筛查,保证了用户利益,避免了电力资源的浪费。
图2为本发明实施例提供的另一种用电量异常用户识别方法,如图2所示,在一些实施例中,在步骤S102之前,还包括:
步骤S101’、对采样数据进行预处理。
具体的,预处理过程包括:数据格式转换、异常数据处理和数据标准化处理。
数据格式转换是指将历史用电量信息数据所包含的各字段的数据进行格式统一,例如,将数值格式、文本格式、日期格式等格式的数据统一化为数值格式的数据。
异常数据处理包括数据探索和属性规约,其中,数据探索是对异常数据和缺失数据进行处理,异常数据是指某用户的某单日使用电量与其他同类型的用户的同期使用电量相比存在突变,例如,某用户的某单日使用电量高于其他同类型的用户的同期使用电量的均值的预设百分比,如50%、100%等;数据探索即是将异常数据和缺失数据调整为其他同类型的用户的同期使用电量的均值;属性规约是指删除采样数据中与判断用电量是否异常无关或关联性不大的字段。具体的,可通过计算各字段的关联性实现,例如,基于相关性算法计算出各字段与用电量结果字段之间的关联度,当关联度大于等于预设阈值时,则判定该字段与用电量异常相关,应保留,当关联度小于预设阈值时,则判定该字段与用电量异常无关,应去除。
数据标准化处理是指将历史用电量信息数据中各字段的原始数据转化为无量纲化指标值。数据标准化处理可基于本领域中的任意一种数据标准化方法实现,例如,Min-max标准化、Z-score标准化和按小数定标标准化等。
在一些实施例中,对采样数据进行的预处理过程还包括增加特征字段,即在每个用户的历史用电量信息数据中增加特征字段,本发明实施例中,特征字段为电量使用稳定度,电量使用稳定度用来描述用户的用电量的稳定性。
本发明实施例中,电量使用稳定度的计算公式为:
其中,W表示用户的电量稳定度,M(n)表示用户第n天的电量使用趋势,具体的,M(n)的计算公式为:
其中,ki表示第i日的电量使用趋势,具体的,ki的计算公式为:
本发明实施例通过在采样数据中增设特征字段—电量使用稳定度,使得后续基于该采样数据训练得到的用电量预测模型能够更加真实的预测出用户的用电量趋势,从而提高了识别用户是否为用电量异常用户的准确度。
本发明实施例中,在采用Stacking机器学习算法训练得出用电量预测模型时,所得到的用电量预测模型包括:第一层预测模型和第二层预测模型,其中,第一层预测模型包括多个初级预测模型,第二层预测模型包括一个次级预测模型,初级预测模型的输入为待识别用户的用电量信息数据,次级预测模型的输入为初级预测模型的输出,次级预测模型的输出为待识别用户是否为用电量异常用户。继续参照图2,步骤S102可具体包括:
步骤S1021、将采样数据划分为训练数据和测试数据。
本发明实施例中,训练数据用于进行模型训练,测试数据用于对得到的模型进行测试,以验证训练所得模型的预测准确度。具体的,在将采样数据划分为训练数据和测试数据时,可基于预设比例进行划分,优选的,训练数据与测试数据的数量比为7:3。
本发明实施例中,在将采样数据划分为训练数据和测试数据后,利用训练数据对预设的多个初级训练模型进行预设次数的迭代训练,具体的,针对多个预设初级训练模型中的每一个,执行下述步骤S1022~S1024。
步骤S1022、将训练数据按预设比例划分为初级训练数据和初级验证数据。
本发明实施例中,预设比例可以根据实际的训练数据的数据量确定例如,预设比例设置为4:1,即,初级训练数据和初级验证数据的数量比为4:1。在实际应用中,为了提高训练的精确度,可在每一次迭代过程中选择不同的初级训练数据,具体实现过程为:将训练数据划分为10个子样本,针对每一次迭代,随机选取8个子样本作为初级训练数据,剩余的两个子样本作为初级验证数据,即,在每一次迭代中,初级训练数据和初级验证数据的数量比皆保持为4:1,但每次迭代过程中所采用的初级验证数据都不同。
步骤S1023、利用初级训练数据对该初级训练模型进行训练,得到初级预测模型。
步骤S1024、利用该初级预测模型对初级验证数据进行验证,得到初级验证结果数据,以及利用该初级预测模型对测试数据进行验证,得到初级测试结果数据。
在得到初级预测模型后,将初级验证数据输入至该初级预测模型,该初级预测模型输出针对该初级验证数据的初级验证结果数据;同理,将测试数据输入至该初级预测模型,该初级预测模型输出针对该测试数据的初级测试结果数据,保存初级验证结果数据和初级测试结果数据,以用于后续进行次级训练。
重复执行上述步骤S1022~S1024,直至迭代次数达到预设阈值。其中,迭代次数的预设阈值可由本领域技术人员基于经验进行设定,在一些实施例中,可基于初级训练数据和初级验证数据的比例进行确定,例如,当初级训练数据和初级验证数据的数量比为4:1,迭代次数的预设阈值可设置为5,以保证后续每次训练过程中所用的训练数据的量与初始的训练数据的量一致,且不同训练过程选取的初级验证数据互不相同。
在针对每个初级训练模型完成步骤S1022~S1024后,执行下述步骤S1025~S1027。
步骤S1025、根据所有初级预测模型对应的所有初级验证结果数据,生成次级训练数据;根据所有初级预测模型对应的所有初级测试结果数据,生成次级测试数据。
在根据所有初级预测模型对应的所有初级验证结果数据生成次级训练数据时,将所有迭代次数的初级验证结果数据作为次级训练数据;在根据所有初级预测模型对应的所有初级测试结果数据时,将所有初级预测模型对应的所有初级测试结果数据作为次级测试数据。
步骤S1026、利用次级训练数据对预设次级训练模型进行训练,得到次级预测模型。
步骤S1027、利用次级测试数据对次级预测模型进行测试,以优化次级预测模型。
在利用次级训练数据训练得出次级预测模型后,利用次级测试数据对次级预测模型进行测试,根据测试结果判断次级预测模型的准确度,若次级预测模型的准确度较低,可基于调优算法对次级预测模型的参数进行调整,以优化次级预测模型,调优算法可采用本领域中常规的参数调优算法,例如,Grid Search算法。
在一些实施例中,初级训练模型可包括:逻辑回归模型、决策树模型、随机森林模型和Xgboost模型;次级训练模型可以为逻辑回归模型、决策树模型、随机森林模型和Xgboost模型中的任意一种,优选的,次级训练模型为逻辑回归模型。
在一些实施例中,初级训练模型的数量为3个,在筛选初级训练模型时,可通过筛选训练确定出初级训练模型,筛选训练的过程为:利用训练数据对多个预备训练模型进行训练,以得到多个预备预测模型,利用测试数据对每个预备测试模型进行测试,并统计测试结果中的查全率和查准率,基于查全率和查准率选择出预测性能较优的模型作为初级训练模型。统计查全率和查准率是本领域的常规技术手段,本发明实施例不再详细赘述。
图3为本发明实施例提供的一种用电量异常用户识别装置的结构示意图,如图3所示,该电量异常用户识别装置包括:获取模块11、训练模块12、接收模块13以及识别模块14。
其中,获取模块11用于获取多个用户的历史用电量信息数据,以作为采样数据;训练模块12用于基于获取模块11所获取的采样数据,利用堆叠机器学习算法进行训练得到用电量预测模型;接收模块13用于接收待识别用户的用电量信息数据;识别模块14用于基于接收模块13所接收的待识别用户的用电量信息数据,利用用电量预测模型识别出待识别用户是否为用电量异常用户。
图4为本发明实施例提供的另一种用电量异常用户识别装置的结构示意图,如图4所示,在一些实施例中,电量异常用户识别装置还包括:预处理模块15,该预处理模块15用于对获取模块11所获取的采样数据进行预处理,预处理过程可包括:数据格式转换、异常数据处理和数据标准化处理。
在一些实施例中,预处理模块15还用于在每个用户的历史用电量信息数据中增加特征字段:电量使用稳定度;
电量使用稳定度的计算公式为:
其中,W表示用户连续6日的电量稳定度,M(n)表示用户第n天的电量使用趋势,M(n)的计算公式为:
其中,ki表示第i日的电量使用趋势,ki的计算公式为:
本发明实施例中,在采用Stacking机器学习算法训练得出用电量预测模型时,所得到的用电量预测模型包括:第一层预测模型和第二层预测模型,其中,第一层预测模型包括多个初级预测模型,第二层预测模型包括一个次级预测模型,初级预测模型的输入为待识别用户的用电量信息数据,次级预测模型的输入为初级预测模型的输出,次级预测模型的输出为待识别用户是否为用电量异常用户。对应的,继续参照图4,训练模块12具体可包括:数据分割单元121、初级训练单元122、数据整理单元123、次级训练单元124和测试单元125。
其中,数据分割单元121用于将采样数据划分为训练数据和测试数据。
初级训练单元122用于针对多个预设初级训练模型中的每一个,执行下述训练过程:将训练数据按预设比例划分为初级训练数据和初级验证数据;利用初级训练数据对该初级训练模型进行训练,得到初级预测模型;利用该初级预测模型对初级验证数据进行验证,得到初级验证结果数据;利用该初级预测模型对测试数据进行验证,得到初级测试结果数据。
重复执行上述训练过程,在不同训练过程中选取的初级验证数据不同,直至训练过程的执行次数达到预设阈值。
数据整理单元123用于根据所有初级预测模型对应的所有初级验证结果数据,生成次级训练数据;以及根据所有初级预测模型对应的所有初级测试结果数据,生成次级测试数据。
次级训练单元124用于利用数据整理单元所生成的次级训练数据对预设次级训练模型进行训练,得到次级预测模型。
测试单元125,用于利用数据整理单元123所生成的次级测试数据对次级预测模型进行测试,以优化次级预测模型。
在一些实施例中,初级训练模型包括:逻辑回归模型、决策树模型、随机森林模型和Xgboost模型;次级训练模型可以为逻辑回归模型、决策树模型、随机森林模型和Xgboost模型中的任意一种模型,优选的,次级训练模型为逻辑回归模型。
本发明实施例提供的用电量异常用户识别装置用于实现本发明上述实施例提供的用电量异常用户识别方法,具体装置中各模块的描述请参照方法中对应步骤的介绍,此处不再赘述。
可以理解的是,以上实施方式仅仅是为了说明本发明的原理而采用的示例性实施方式,然而本发明并不局限于此。对于本领域内的普通技术人员而言,在不脱离本发明的精神和实质的情况下,可以做出各种变型和改进,这些变型和改进也视为本发明的保护范围。
Claims (12)
1.一种用电量异常用户识别方法,其特征在于,包括:
获取多个用户的历史用电量信息数据,以作为采样数据;
基于所述采样数据,利用堆叠机器学习算法进行训练得到用电量预测模型;
接收待识别用户的用电量信息数据;
基于所述待识别用户的用电量信息数据,利用所述用电量预测模型识别出所述待识别用户是否为用电量异常用户。
2.根据权利要求1所述的方法,其特征在于,在所述基于所述采样数据,利用堆叠机器学习算法进行训练得到用电量预测模型的步骤之前,还包括:
对所述采样数据进行预处理,所述预处理过程包括:数据格式转换、异常数据处理和数据标准化处理。
4.根据权利要求1所述的方法,其特征在于,所述用电量预测模型包括第一层预测模型和第二层预测模型,所述第一层预测模型包括多个初级预测模型,所述第二层预测模型包括一个次级预测模型,所述初级预测模型的输入为待识别用户的用电量信息数据,所述次级预测模型的输入为所述初级预测模型的输出,所述次级预测模型的输出为所述待识别用户是否为用电量异常用户。
5.根据权利要求4所述的方法,其特征在于,所述基于所述采样数据,利用堆叠机器学习算法进行训练得到用电量预测模型的步骤包括:
将所述采样数据划分为训练数据和测试数据;
针对多个预设初级训练模型中的每一个,执行下述训练过程:
将所述训练数据按预设比例划分为初级训练数据和初级验证数据;
利用所述初级训练数据对该初级训练模型进行训练,得到初级预测模型;
利用该初级预测模型对所述初级验证数据进行验证,得到初级验证结果数据;
利用该初级预测模型对所述测试数据进行验证,得到初级测试结果数据;
重复执行上述训练过程,在不同训练过程中选取的初级验证数据不同,直至训练过程的执行次数达到预设阈值;
根据所有初级预测模型对应的所有初级验证结果数据,生成次级训练数据;
利用所述次级训练数据对预设次级训练模型进行训练,得到所述次级预测模型;
根据所有初级预测模型对应的所有初级测试结果数据,生成次级测试数据;
利用所述次级测试数据对所述次级预测模型进行测试,以优化所述次级预测模型。
6.根据权利要求1-5任一项所述的方法,其特征在于,所述初级训练模型包括:逻辑回归模型、决策树模型、随机森林模型和Xgboost模型;所述次级训练模型包括:逻辑回归模型。
7.一种用电量异常用户识别装置,其特征在于,包括:
获取模块,用于获取多个用户的历史用电量信息数据,以作为采样数据;
训练模块,用于基于所述获取模块所获取的采样数据,利用堆叠机器学习算法进行训练得到用电量预测模型;
接收模块,用于接收待识别用户的用电量信息数据;
识别模块,用于基于所述接收模块所接收的待识别用户的用电量信息数据,利用所述用电量预测模型识别出所述待识别用户是否为用电量异常用户。
8.根据权利要求7所述的装置,其特征在于,所述装置还包括:
预处理模块,用于对所述获取模块所获取的所述采样数据进行预处理,所述预处理过程包括:数据格式转换、异常数据处理和数据标准化处理。
10.根据权利要求7所述的装置,其特征在于,所述用电量预测模型包括第一层预测模型和第二层预测模型,所述第一层预测模型包括多个初级预测模型,所述第二层预测模型包括一个次级预测模型,所述初级预测模型的输入为待识别用户的用电量信息数据,所述次级预测模型的输入为所述初级预测模型的输出,所述次级预测模型的输出为所述待识别用户是否为用电量异常用户。
11.根据权利要求10所述的装置,其特征在于,所述训练模块具体包括:
数据分割单元,用于将所述采样数据划分为训练数据和测试数据;
初级训练单元,用于针对多个预设初级训练模型中的每一个,执行下述训练过程:
将所述训练数据按预设比例划分为初级训练数据和初级验证数据;利用所述初级训练数据对该初级训练模型进行训练,得到初级预测模型;利用该初级预测模型对所述初级验证数据进行验证,得到初级验证结果数据;利用该初级预测模型对所述测试数据进行验证,得到初级测试结果数据;
重复执行上述训练过程,在不同训练过程中选取的初级验证数据不同,直至训练过程的执行次数达到预设阈值;
数据整理单元,用于根据所有初级预测模型对应的所有初级验证结果数据,生成次级训练数据;以及根据所有初级预测模型对应的所有初级测试结果数据,生成次级测试数据;
次级训练单元,用于利用所述数据整理单元所生成的所述次级训练数据对预设次级训练模型进行训练,得到所述次级预测模型;
测试单元,用于利用所述数据整理单元所生成的所述次级测试数据对所述次级预测模型进行测试,以优化所述次级预测模型。
12.根据权利要求7-11任一项所述的装置,其特征在于,所述初级训练模型包括:逻辑回归模型、决策树模型、随机森林模型和Xgboost模型;所述次级训练模型包括:逻辑回归模型。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110308456.4A CN113033089B (zh) | 2021-03-23 | 2021-03-23 | 用电量异常用户识别方法和装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110308456.4A CN113033089B (zh) | 2021-03-23 | 2021-03-23 | 用电量异常用户识别方法和装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113033089A true CN113033089A (zh) | 2021-06-25 |
CN113033089B CN113033089B (zh) | 2023-07-14 |
Family
ID=76472852
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110308456.4A Active CN113033089B (zh) | 2021-03-23 | 2021-03-23 | 用电量异常用户识别方法和装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113033089B (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113643002A (zh) * | 2021-08-30 | 2021-11-12 | 南方电网数字电网研究院有限公司 | 一种电网用电数据账单派送方法及系统 |
CN114565181A (zh) * | 2022-03-18 | 2022-05-31 | 广西电网有限责任公司南宁供电局 | 一种电费异常投诉风险的预测方法及装置 |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108416693A (zh) * | 2018-02-01 | 2018-08-17 | 东华大学 | 一种基于模糊神经网络的用电异常行为识别方法 |
CN109325542A (zh) * | 2018-10-09 | 2019-02-12 | 烟台海颐软件股份有限公司 | 一种基于多阶机器学习的电量异常智能识别方法及系统 |
CN111047094A (zh) * | 2019-12-12 | 2020-04-21 | 国网浙江省电力有限公司 | 一种基于深度学习算法的抄表数据异常分析方法 |
CN111223006A (zh) * | 2019-12-25 | 2020-06-02 | 国网冀北电力有限公司信息通信分公司 | 一种异常用电检测方法及装置 |
CN111506618A (zh) * | 2019-12-11 | 2020-08-07 | 国网重庆市电力公司北碚供电分公司 | 一种结合lightgbm-stacking算法的异常用电行为分析方法 |
CN111967512A (zh) * | 2020-08-07 | 2020-11-20 | 国网江苏省电力有限公司电力科学研究院 | 一种异常用电检测方法、系统和存储介质 |
CN112084237A (zh) * | 2020-09-09 | 2020-12-15 | 广东电网有限责任公司中山供电局 | 一种基于机器学习和大数据分析的电力系统异常预测方法 |
CN112101420A (zh) * | 2020-08-17 | 2020-12-18 | 广东工业大学 | 一种相异模型下Stacking集成算法的异常用电用户识别方法 |
-
2021
- 2021-03-23 CN CN202110308456.4A patent/CN113033089B/zh active Active
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108416693A (zh) * | 2018-02-01 | 2018-08-17 | 东华大学 | 一种基于模糊神经网络的用电异常行为识别方法 |
CN109325542A (zh) * | 2018-10-09 | 2019-02-12 | 烟台海颐软件股份有限公司 | 一种基于多阶机器学习的电量异常智能识别方法及系统 |
CN111506618A (zh) * | 2019-12-11 | 2020-08-07 | 国网重庆市电力公司北碚供电分公司 | 一种结合lightgbm-stacking算法的异常用电行为分析方法 |
CN111047094A (zh) * | 2019-12-12 | 2020-04-21 | 国网浙江省电力有限公司 | 一种基于深度学习算法的抄表数据异常分析方法 |
CN111223006A (zh) * | 2019-12-25 | 2020-06-02 | 国网冀北电力有限公司信息通信分公司 | 一种异常用电检测方法及装置 |
CN111967512A (zh) * | 2020-08-07 | 2020-11-20 | 国网江苏省电力有限公司电力科学研究院 | 一种异常用电检测方法、系统和存储介质 |
CN112101420A (zh) * | 2020-08-17 | 2020-12-18 | 广东工业大学 | 一种相异模型下Stacking集成算法的异常用电用户识别方法 |
CN112084237A (zh) * | 2020-09-09 | 2020-12-15 | 广东电网有限责任公司中山供电局 | 一种基于机器学习和大数据分析的电力系统异常预测方法 |
Non-Patent Citations (4)
Title |
---|
李江腾;王非;: "基于知识嵌入和DNN的工商业用户异常用电检测", 电力工程技术, no. 03, pages 165 - 172 * |
王立斌: "一种用电信息采集系统异常电量数据的识别与修复方法", 《电力大数据》, vol. 21, no. 03, pages 74 - 78 * |
赵天辉;王建学;马龙涛;朱宇超;: "基于非参数回归分析的工业负荷异常值识别与修正方法", 电力系统自动化, no. 18, pages 53 - 59 * |
郭志民;袁少光;孙玉宝;: "基于L0稀疏超图半监督学习的异常用电行为识别", 计算机应用与软件, no. 02, pages 61 - 66 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113643002A (zh) * | 2021-08-30 | 2021-11-12 | 南方电网数字电网研究院有限公司 | 一种电网用电数据账单派送方法及系统 |
CN114565181A (zh) * | 2022-03-18 | 2022-05-31 | 广西电网有限责任公司南宁供电局 | 一种电费异常投诉风险的预测方法及装置 |
Also Published As
Publication number | Publication date |
---|---|
CN113033089B (zh) | 2023-07-14 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Majidpour et al. | Fast prediction for sparse time series: Demand forecast of EV charging stations for cell phone applications | |
CN109492002B (zh) | 一种智能电网大数据存储与分析系统及处理方法 | |
CN112561156A (zh) | 基于用户负荷模式分类的短期电力负荷预测方法 | |
Wang et al. | Population-based intelligent search in reliability evaluation of generation systems with wind power penetration | |
CN102831489B (zh) | 电力配网建设物资需求预测方法及装置 | |
CN113033089B (zh) | 用电量异常用户识别方法和装置 | |
CN112200465B (zh) | 基于多媒体信息智能分析的电力ai方法及系统 | |
CN113780684A (zh) | 一种基于lstm神经网络的智慧楼宇用户用能行为预测方法 | |
CN112419096A (zh) | 基于nlp信息萃取与少样本自学习的用户用电诉求工单自动流转方法 | |
CN114548586B (zh) | 一种基于混合模型的短期电力负荷预测方法及系统 | |
CN112307963A (zh) | 一种基于振动信号的换流变压器运行状态识别方法 | |
CN116340006A (zh) | 一种基于深度学习的算力资源空闲预测方法和存储介质 | |
Majidpour et al. | Fast demand forecast of electric vehicle charging stations for cell phone application | |
CN115358437A (zh) | 基于卷积神经网络的供电负荷预测方法 | |
CN115358481A (zh) | 一种企业外迁预警识别的方法、系统及装置 | |
CN114493535B (zh) | 一种基于资产模型的数据驱动用数据中台系统 | |
Wu | Design of intelligent customer service questioning and answering a system for power business scenario based on ai technology | |
CN116845990B (zh) | 基于双向变流器的协调控制方法、控制器及系统 | |
CN117200204A (zh) | 一种多元负荷预测方法、装置及存储介质 | |
CN117435909A (zh) | 一种基于迁移学习和多维度特征提取模型的非侵入式负荷分解方法 | |
CN116500480A (zh) | 一种基于特征迁移学习混合模型的智能电池健康监测方法 | |
Yu et al. | Interpretable data‐driven contingency classification for real‐time corrective security‐constrained economic dispatch | |
CN112579847A (zh) | 生产数据的处理方法和装置、存储介质及电子设备 | |
CN114004408B (zh) | 一种基于数据分析的用户电力负荷预测方法 | |
Upadhyay et al. | Short term load forecasting for smart grids using apache spark and a modified transformer model |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |