CN113033089B - 用电量异常用户识别方法和装置 - Google Patents

用电量异常用户识别方法和装置 Download PDF

Info

Publication number
CN113033089B
CN113033089B CN202110308456.4A CN202110308456A CN113033089B CN 113033089 B CN113033089 B CN 113033089B CN 202110308456 A CN202110308456 A CN 202110308456A CN 113033089 B CN113033089 B CN 113033089B
Authority
CN
China
Prior art keywords
data
training
primary
prediction model
electricity consumption
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110308456.4A
Other languages
English (en)
Other versions
CN113033089A (zh
Inventor
崔羽飞
张第
魏进武
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China United Network Communications Group Co Ltd
Original Assignee
China United Network Communications Group Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China United Network Communications Group Co Ltd filed Critical China United Network Communications Group Co Ltd
Priority to CN202110308456.4A priority Critical patent/CN113033089B/zh
Publication of CN113033089A publication Critical patent/CN113033089A/zh
Application granted granted Critical
Publication of CN113033089B publication Critical patent/CN113033089B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F30/00Computer-aided design [CAD]
    • G06F30/20Design optimisation, verification or simulation
    • G06F30/27Design optimisation, verification or simulation using machine learning, e.g. artificial intelligence, neural networks, support vector machines [SVM] or training a model
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2465Query processing support for facilitating data mining operations in structured databases
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/27Replication, distribution or synchronisation of data between databases or within a distributed database system; Distributed database system architectures therefor
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/06Energy or water supply
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • General Physics & Mathematics (AREA)
  • Business, Economics & Management (AREA)
  • General Engineering & Computer Science (AREA)
  • Economics (AREA)
  • Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Software Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • Mathematical Physics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Geometry (AREA)
  • Computer Hardware Design (AREA)
  • Computing Systems (AREA)
  • Medical Informatics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Fuzzy Systems (AREA)
  • Public Health (AREA)
  • Water Supply & Treatment (AREA)
  • General Health & Medical Sciences (AREA)
  • Human Resources & Organizations (AREA)
  • Marketing (AREA)
  • Primary Health Care (AREA)
  • Strategic Management (AREA)
  • Tourism & Hospitality (AREA)
  • General Business, Economics & Management (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明提供一种用电量异常用户识别方法,涉及通信技术领域,该方法包括:获取多个用户的历史用电量信息数据,以作为采样数据;基于所述采样数据,利用堆叠机器学习算法进行训练得到用电量预测模型;接收待识别用户的用电量信息数据;基于所述待识别用户的用电量信息数据,利用所述用电量预测模型识别出所述待识别用户是否为用电量异常用户,从而实现了电力系统中用电量异常用户的识别和筛查,保证了用户利益,避免了电力资源的浪费。本发明还提供一种用电量异常用户识别装置。

Description

用电量异常用户识别方法和装置
技术领域
本发明涉及通信技术领域,具体涉及一种用电量异常用户识别方法和装置。
背景技术
在电力系统中,经统计发现,有些用户的统计用电量与其消费的实际用电量存在不匹配的情况,存在这种情况的用户被称为用电量异常用户。当出现用电量异常用户时,电力系统可能存在偷电或漏电的问题,这损害了社会利益,造成了电力资源浪费,因而,如何识别出用电量异常用户具有重要意义。
发明内容
本发明旨在至少解决现有技术中存在的技术问题之一,提出了一种用电量异常用户识别方法和装置。
第一方面,本发明提供一种用电量异常用户识别方法,包括:
获取多个用户的历史用电量信息数据,以作为采样数据;
基于所述采样数据,利用堆叠机器学习算法进行训练得到用电量预测模型;
接收待识别用户的用电量信息数据;
基于所述待识别用户的用电量信息数据,利用所述用电量预测模型识别出所述待识别用户是否为用电量异常用户。
优选的,在所述基于所述采样数据,利用堆叠机器学习算法进行训练得到用电量预测模型的步骤之前,还包括:
对所述采样数据进行预处理,所述预处理过程包括:数据格式转换、异常数据处理和数据标准化处理。
优选的,所述预处理过程还包括:在每个用户的历史用电量信息数据中增加特征字段:电量使用稳定度;
所述电量使用稳定度的计算公式为:
Figure BDA0002988651260000021
其中,W表示用户的电量稳定度,M(n)表示用户第n天的电量使用趋势,M(n)的计算公式为:
Figure BDA0002988651260000022
其中,ki表示第i日的电量使用趋势,ki的计算公式为:
Figure BDA0002988651260000023
Figure BDA0002988651260000024
Figure BDA0002988651260000025
其中,fm为第m日的电量使用量;
Figure BDA0002988651260000026
为第i日的前后各3天的电量使用量的平均值;lm为第m日的日期值,/>
Figure BDA0002988651260000027
为第i日的前后各3天的日期值的平均值,m为正整数。
优选的,所述用电量预测模型包括第一层预测模型和第二层预测模型,所述第一层预测模型包括多个初级预测模型,所述第二层预测模型包括一个次级预测模型,所述初级预测模型的输入为待识别用户的用电量信息数据,所述次级预测模型的输入为所述初级预测模型的输出,所述次级预测模型的输出为所述待识别用户是否为用电量异常用户。
优选的,所述基于所述采样数据,利用堆叠机器学习算法进行训练得到用电量预测模型的步骤包括:
将所述采样数据划分为训练数据和测试数据;
针对多个预设初级训练模型中的每一个,执行下述训练过程:
将所述训练数据按预设比例划分为初级训练数据和初级验证数据;
利用所述初级训练数据对该初级训练模型进行训练,得到初级预测模型;
利用该初级预测模型对所述初级验证数据进行验证,得到初级验证结果数据;
利用该初级预测模型对所述测试数据进行验证,得到初级测试结果数据;
重复执行上述训练过程,在不同训练过程中选取的初级验证数据不同,直至训练过程的执行次数达到预设阈值;
根据所有初级预测模型对应的所有初级验证结果数据,生成次级训练数据;
利用所述次级训练数据对预设次级训练模型进行训练,得到所述次级预测模型;
根据所有初级预测模型对应的所有初级测试结果数据,生成次级测试数据;
利用所述次级测试数据对所述次级预测模型进行测试,以优化所述次级预测模型。
优选的,所述初级训练模型包括:逻辑回归模型、决策树模型、随机森林模型和Xgboost模型;所述次级训练模型包括:逻辑回归模型。
第二方面,本发明还提供一种用电量异常用户识别装置,包括:
获取模块,用于获取多个用户的历史用电量信息数据,以作为采样数据;
训练模块,用于基于所述获取模块所获取的采样数据,利用堆叠机器学习算法进行训练得到用电量预测模型;
接收模块,用于接收待识别用户的用电量信息数据;
识别模块,用于基于所述接收模块所接收的待识别用户的用电量信息数据,利用所述用电量预测模型识别出所述待识别用户是否为用电量异常用户。
优选的,所述装置还包括:
预处理模块,用于对所述获取模块所获取的所述采样数据进行预处理,所述预处理过程包括:数据格式转换、异常数据处理和数据标准化处理。
优选的,所述预处理模块还用于在每个用户的历史用电量信息数据中增加特征字段:电量使用稳定度;
所述电量使用稳定度的计算公式为:
Figure BDA0002988651260000041
其中,W表示用户连续6日的电量稳定度,M(n)表示用户第n天的电量使用趋势,M(n)的计算公式为:
Figure BDA0002988651260000042
其中,ki表示第i日的电量使用趋势,ki的计算公式为:
Figure BDA0002988651260000043
Figure BDA0002988651260000044
Figure BDA0002988651260000045
其中,fm为第m日的电量使用量;
Figure BDA0002988651260000046
为第i日的前后各3天的电量使用量的平均值;lm为第m日的日期值,/>
Figure BDA0002988651260000047
为第i日的前后各3天的日期值的平均值,m为正整数。
优选的,所述用电量预测模型包括第一层预测模型和第二层预测模型,所述第一层预测模型包括多个初级预测模型,所述第二层预测模型包括一个次级预测模型,所述初级预测模型的输入为待识别用户的用电量信息数据,所述次级预测模型的输入为所述初级预测模型的输出,所述次级预测模型的输出为所述待识别用户是否为用电量异常用户。
优选的,所述训练模块具体包括:
数据分割单元,用于将所述采样数据划分为训练数据和测试数据;
初级训练单元,用于针对多个预设初级训练模型中的每一个,执行下述训练过程:
将所述训练数据按预设比例划分为初级训练数据和初级验证数据;利用所述初级训练数据对该初级训练模型进行训练,得到初级预测模型;利用该初级预测模型对所述初级验证数据进行验证,得到初级验证结果数据;利用该初级预测模型对所述测试数据进行验证,得到初级测试结果数据;
重复执行上述训练过程,在不同训练过程中选取的初级验证数据不同,直至训练过程的执行次数达到预设阈值;
数据整理单元,用于根据所有初级预测模型对应的所有初级验证结果数据,生成次级训练数据;以及根据所有初级预测模型对应的所有初级测试结果数据,生成次级测试数据;
次级训练单元,用于利用所述数据整理单元所生成的所述次级训练数据对预设次级训练模型进行训练,得到所述次级预测模型;
测试单元,用于利用所述数据整理单元所生成的所述次级测试数据对所述次级预测模型进行测试,以优化所述次级预测模型。
优选的,所述初级训练模型包括:逻辑回归模型、决策树模型、随机森林模型和Xgboost模型;所述次级训练模型包括:逻辑回归模型。
本发明的有益技术效果:
本发明提供的用电量异常用户识别方法和装置,基于多个用户的历史用电量信息数据,利用stacking机器学习算法训练出用电量预测模型,基于该用电量预测模型对待识别用户的用电量信息数据进行预测,确定出待识别用户是否为用电量异常用户,从而实现了电力系统中用电量异常用户的识别和筛查,保证了用户利益,避免了电力资源的浪费。
附图说明
图1为本发明实施例提供的一种用电量异常用户识别方法的流程图;
图2为本发明实施例提供的另一种用电量异常用户识别方法的流程图;
图3为本发明实施例提供的一种用电量异常用户识别装置的结构示意图;
图4为本发明实施例提供的另一种用电量异常用户识别装置的结构示意图。
具体实施方式
为使本领域的技术人员更好地理解本发明的技术方案,下面结合附图来对本发明提供的用电量异常用户识别方法和装置进行详细描述。
本发明提供的用电量异常用户识别方法用于确定电力系统的电量使用用户是否为异常用户,特别的,本发明适用于泛在电力物联网,泛在电力物联网是一种围绕电力系统各环节,充分应用移动互联、人工智能等现代信息技术、先进通信技术,实现电力系统各环节万物互联、人机交互,具有状态全面感知、信息高效处理、应用便捷灵活特征的智慧服务系统。具体的,泛在电力物联网将电力用户及其设备、电网企业及其设备、发电企业及其设备、供应商及其设备,以及人和物连接起来,产生共享数据,为用户、电网、发电、供应商和政府社会服务。泛在电力物联网通过先进信息、通信、大数据、人工智能、互联网技术的深度融合,实现发、输、配、用、储等环节互联互通、全息感知、高效分析、智能控制、灵活共享,能够实现能源供需的实时匹配、安全经济、智能响应、高效服务。
图1为本发明实施例提供的一种用电量异常用户识别方法的流程图,如图1所示,该方法包括:
步骤S101、获取多个用户的历史用电量信息数据,以作为采样数据。
用户接入电力系统开始用电后,电力系统记录用户的用电信息,并存储在预设的数据仓库中,用电信息至少包括:用户编号和用户历史用电量,其中,用户编号为用户的标识信息,用户历史用电量为用户的日用电量的历史数据,例如,用户历史用电量可以为近一个月内用户每日的用电量。本发明实施例中,采样数据中,用户的历史用电量信息数据至少包括:用户编号、用户历史用电量和用电量结果;其中,用电量结果是指用户是否为用电量异常用户的结果,具体的,用电量结果包括是或否,用电量结果可由管理人员基于实际用户的用电量使用情况确定出。
在一些实施例中,用电信息还包括:用户名称、用电类别、计量方式、电流互感器变化和电压互感器变化等字段;对应的,用户的历史用电量信息数据中也可包括这些字段中的一个或多个。
本发明实施例中,数据仓库可包括传统数据库和分布式文件系统(HadoopDistributed File System,简称HDFS),具体选择哪种类型的数据仓库可根据所存储的用户的用电信息的量确定,当用户的用电信息的量较小时,可选择传统数据库,而当用户的用电信息的量较大时,可选择HDFS。
另外,本发明实施例不对用户的类型进行限定,具体可以为个人用户,也可以为企业用户。
步骤S102、基于采样数据,利用堆叠机器学习算法进行训练得到用电量预测模型。
堆叠机器学习算法又称为stacking机器学习算法,Stacking的训练过程为:利用初始训练数据学习出若干个初级训练模型后,将该若干个初级训练模型的预测结果作为新的训练集,来学习训练一个次级训练模型,从而得到最终的预测模型。
Stacking机器学习算法已属于本领域的成熟技术,本发明实施例不再赘述。
步骤S103、接收待识别用户的用电量信息数据。
步骤S104、基于待识别用户的用电量信息数据,利用用电量预测模型识别出待识别用户是否为用电量异常用户。
当需要对待识别用户进行是否为用电量异常用户的判断时,将该待识别用户的用电量信息数据输入至步骤S102中训练得到的用电量预测模型中,该用电量预测模型基于待识别用户的用电量信息数据进行预测,输出该待识别用户是否为用电量异常用户的预测结果。
本发明实施例中,步骤S104中输入用电量预测模型中的待识别用户的用电量信息数据可以为待识别用户近期一段时间内的用电量信息数据,例如,待识别用户最近1个月的用电量信息数据,并且,待识别用户的用电量信息数据与步骤S101中的历史用电量信息数据的格式保持一致。
本发明实施例提供的用电量异常用户识别方法,基于多个用户的历史用电量信息数据,利用stacking机器学习算法训练出用电量预测模型,基于该用电量预测模型对待识别用户的用电量信息数据进行预测,确定出待识别用户是否为用电量异常用户,从而实现了电力系统中用电量异常用户的识别和筛查,保证了用户利益,避免了电力资源的浪费。
图2为本发明实施例提供的另一种用电量异常用户识别方法,如图2所示,在一些实施例中,在步骤S102之前,还包括:
步骤S101’、对采样数据进行预处理。
具体的,预处理过程包括:数据格式转换、异常数据处理和数据标准化处理。
数据格式转换是指将历史用电量信息数据所包含的各字段的数据进行格式统一,例如,将数值格式、文本格式、日期格式等格式的数据统一化为数值格式的数据。
异常数据处理包括数据探索和属性规约,其中,数据探索是对异常数据和缺失数据进行处理,异常数据是指某用户的某单日使用电量与其他同类型的用户的同期使用电量相比存在突变,例如,某用户的某单日使用电量高于其他同类型的用户的同期使用电量的均值的预设百分比,如50%、100%等;数据探索即是将异常数据和缺失数据调整为其他同类型的用户的同期使用电量的均值;属性规约是指删除采样数据中与判断用电量是否异常无关或关联性不大的字段。具体的,可通过计算各字段的关联性实现,例如,基于相关性算法计算出各字段与用电量结果字段之间的关联度,当关联度大于等于预设阈值时,则判定该字段与用电量异常相关,应保留,当关联度小于预设阈值时,则判定该字段与用电量异常无关,应去除。
数据标准化处理是指将历史用电量信息数据中各字段的原始数据转化为无量纲化指标值。数据标准化处理可基于本领域中的任意一种数据标准化方法实现,例如,Min-max标准化、Z-score标准化和按小数定标标准化等。
在一些实施例中,对采样数据进行的预处理过程还包括增加特征字段,即在每个用户的历史用电量信息数据中增加特征字段,本发明实施例中,特征字段为电量使用稳定度,电量使用稳定度用来描述用户的用电量的稳定性。
本发明实施例中,电量使用稳定度的计算公式为:
Figure BDA0002988651260000091
其中,W表示用户的电量稳定度,M(n)表示用户第n天的电量使用趋势,具体的,M(n)的计算公式为:
Figure BDA0002988651260000092
其中,ki表示第i日的电量使用趋势,具体的,ki的计算公式为:
Figure BDA0002988651260000093
Figure BDA0002988651260000094
Figure BDA0002988651260000095
其中,fm为第m日的电量使用量;
Figure BDA0002988651260000096
为第i日的前后各3天的电量使用量的平均值;lm为第m日的日期值,/>
Figure BDA0002988651260000097
为第i日的前后各3天的日期值的平均值,m为正整数,i为大于3的整数。
本发明实施例通过在采样数据中增设特征字段—电量使用稳定度,使得后续基于该采样数据训练得到的用电量预测模型能够更加真实的预测出用户的用电量趋势,从而提高了识别用户是否为用电量异常用户的准确度。
本发明实施例中,在采用Stacking机器学习算法训练得出用电量预测模型时,所得到的用电量预测模型包括:第一层预测模型和第二层预测模型,其中,第一层预测模型包括多个初级预测模型,第二层预测模型包括一个次级预测模型,初级预测模型的输入为待识别用户的用电量信息数据,次级预测模型的输入为初级预测模型的输出,次级预测模型的输出为待识别用户是否为用电量异常用户。继续参照图2,步骤S102可具体包括:
步骤S1021、将采样数据划分为训练数据和测试数据。
本发明实施例中,训练数据用于进行模型训练,测试数据用于对得到的模型进行测试,以验证训练所得模型的预测准确度。具体的,在将采样数据划分为训练数据和测试数据时,可基于预设比例进行划分,优选的,训练数据与测试数据的数量比为7:3。
本发明实施例中,在将采样数据划分为训练数据和测试数据后,利用训练数据对预设的多个初级训练模型进行预设次数的迭代训练,具体的,针对多个预设初级训练模型中的每一个,执行下述步骤S1022~S1024。
步骤S1022、将训练数据按预设比例划分为初级训练数据和初级验证数据。
本发明实施例中,预设比例可以根据实际的训练数据的数据量确定例如,预设比例设置为4:1,即,初级训练数据和初级验证数据的数量比为4:1。在实际应用中,为了提高训练的精确度,可在每一次迭代过程中选择不同的初级训练数据,具体实现过程为:将训练数据划分为10个子样本,针对每一次迭代,随机选取8个子样本作为初级训练数据,剩余的两个子样本作为初级验证数据,即,在每一次迭代中,初级训练数据和初级验证数据的数量比皆保持为4:1,但每次迭代过程中所采用的初级验证数据都不同。
步骤S1023、利用初级训练数据对该初级训练模型进行训练,得到初级预测模型。
步骤S1024、利用该初级预测模型对初级验证数据进行验证,得到初级验证结果数据,以及利用该初级预测模型对测试数据进行验证,得到初级测试结果数据。
在得到初级预测模型后,将初级验证数据输入至该初级预测模型,该初级预测模型输出针对该初级验证数据的初级验证结果数据;同理,将测试数据输入至该初级预测模型,该初级预测模型输出针对该测试数据的初级测试结果数据,保存初级验证结果数据和初级测试结果数据,以用于后续进行次级训练。
重复执行上述步骤S1022~S1024,直至迭代次数达到预设阈值。其中,迭代次数的预设阈值可由本领域技术人员基于经验进行设定,在一些实施例中,可基于初级训练数据和初级验证数据的比例进行确定,例如,当初级训练数据和初级验证数据的数量比为4:1,迭代次数的预设阈值可设置为5,以保证后续每次训练过程中所用的训练数据的量与初始的训练数据的量一致,且不同训练过程选取的初级验证数据互不相同。
在针对每个初级训练模型完成步骤S1022~S1024后,执行下述步骤S1025~S1027。
步骤S1025、根据所有初级预测模型对应的所有初级验证结果数据,生成次级训练数据;根据所有初级预测模型对应的所有初级测试结果数据,生成次级测试数据。
在根据所有初级预测模型对应的所有初级验证结果数据生成次级训练数据时,将所有迭代次数的初级验证结果数据作为次级训练数据;在根据所有初级预测模型对应的所有初级测试结果数据时,将所有初级预测模型对应的所有初级测试结果数据作为次级测试数据。
步骤S1026、利用次级训练数据对预设次级训练模型进行训练,得到次级预测模型。
步骤S1027、利用次级测试数据对次级预测模型进行测试,以优化次级预测模型。
在利用次级训练数据训练得出次级预测模型后,利用次级测试数据对次级预测模型进行测试,根据测试结果判断次级预测模型的准确度,若次级预测模型的准确度较低,可基于调优算法对次级预测模型的参数进行调整,以优化次级预测模型,调优算法可采用本领域中常规的参数调优算法,例如,Grid Search算法。
在一些实施例中,初级训练模型可包括:逻辑回归模型、决策树模型、随机森林模型和Xgboost模型;次级训练模型可以为逻辑回归模型、决策树模型、随机森林模型和Xgboost模型中的任意一种,优选的,次级训练模型为逻辑回归模型。
在一些实施例中,初级训练模型的数量为3个,在筛选初级训练模型时,可通过筛选训练确定出初级训练模型,筛选训练的过程为:利用训练数据对多个预备训练模型进行训练,以得到多个预备预测模型,利用测试数据对每个预备测试模型进行测试,并统计测试结果中的查全率和查准率,基于查全率和查准率选择出预测性能较优的模型作为初级训练模型。统计查全率和查准率是本领域的常规技术手段,本发明实施例不再详细赘述。
图3为本发明实施例提供的一种用电量异常用户识别装置的结构示意图,如图3所示,该电量异常用户识别装置包括:获取模块11、训练模块12、接收模块13以及识别模块14。
其中,获取模块11用于获取多个用户的历史用电量信息数据,以作为采样数据;训练模块12用于基于获取模块11所获取的采样数据,利用堆叠机器学习算法进行训练得到用电量预测模型;接收模块13用于接收待识别用户的用电量信息数据;识别模块14用于基于接收模块13所接收的待识别用户的用电量信息数据,利用用电量预测模型识别出待识别用户是否为用电量异常用户。
图4为本发明实施例提供的另一种用电量异常用户识别装置的结构示意图,如图4所示,在一些实施例中,电量异常用户识别装置还包括:预处理模块15,该预处理模块15用于对获取模块11所获取的采样数据进行预处理,预处理过程可包括:数据格式转换、异常数据处理和数据标准化处理。
在一些实施例中,预处理模块15还用于在每个用户的历史用电量信息数据中增加特征字段:电量使用稳定度;
电量使用稳定度的计算公式为:
Figure BDA0002988651260000121
其中,W表示用户连续6日的电量稳定度,M(n)表示用户第n天的电量使用趋势,M(n)的计算公式为:
Figure BDA0002988651260000122
其中,ki表示第i日的电量使用趋势,ki的计算公式为:
Figure BDA0002988651260000123
Figure BDA0002988651260000131
Figure BDA0002988651260000132
其中,fm为第m日的电量使用量;
Figure BDA0002988651260000133
为第i日的前后各3天的电量使用量的平均值;lm为第m日的日期值,/>
Figure BDA0002988651260000134
为第i日的前后各3天的日期值的平均值,m为正整数。
本发明实施例中,在采用Stacking机器学习算法训练得出用电量预测模型时,所得到的用电量预测模型包括:第一层预测模型和第二层预测模型,其中,第一层预测模型包括多个初级预测模型,第二层预测模型包括一个次级预测模型,初级预测模型的输入为待识别用户的用电量信息数据,次级预测模型的输入为初级预测模型的输出,次级预测模型的输出为待识别用户是否为用电量异常用户。对应的,继续参照图4,训练模块12具体可包括:数据分割单元121、初级训练单元122、数据整理单元123、次级训练单元124和测试单元125。
其中,数据分割单元121用于将采样数据划分为训练数据和测试数据。
初级训练单元122用于针对多个预设初级训练模型中的每一个,执行下述训练过程:将训练数据按预设比例划分为初级训练数据和初级验证数据;利用初级训练数据对该初级训练模型进行训练,得到初级预测模型;利用该初级预测模型对初级验证数据进行验证,得到初级验证结果数据;利用该初级预测模型对测试数据进行验证,得到初级测试结果数据。
重复执行上述训练过程,在不同训练过程中选取的初级验证数据不同,直至训练过程的执行次数达到预设阈值。
数据整理单元123用于根据所有初级预测模型对应的所有初级验证结果数据,生成次级训练数据;以及根据所有初级预测模型对应的所有初级测试结果数据,生成次级测试数据。
次级训练单元124用于利用数据整理单元所生成的次级训练数据对预设次级训练模型进行训练,得到次级预测模型。
测试单元125,用于利用数据整理单元123所生成的次级测试数据对次级预测模型进行测试,以优化次级预测模型。
在一些实施例中,初级训练模型包括:逻辑回归模型、决策树模型、随机森林模型和Xgboost模型;次级训练模型可以为逻辑回归模型、决策树模型、随机森林模型和Xgboost模型中的任意一种模型,优选的,次级训练模型为逻辑回归模型。
本发明实施例提供的用电量异常用户识别装置用于实现本发明上述实施例提供的用电量异常用户识别方法,具体装置中各模块的描述请参照方法中对应步骤的介绍,此处不再赘述。
可以理解的是,以上实施方式仅仅是为了说明本发明的原理而采用的示例性实施方式,然而本发明并不局限于此。对于本领域内的普通技术人员而言,在不脱离本发明的精神和实质的情况下,可以做出各种变型和改进,这些变型和改进也视为本发明的保护范围。

Claims (4)

1.一种用电量异常用户识别方法,其特征在于,包括:
获取多个用户的历史用电量信息数据,以作为采样数据;
基于所述采样数据,利用堆叠机器学习算法进行训练得到用电量预测模型;
接收待识别用户的用电量信息数据;
基于所述待识别用户的用电量信息数据,利用所述用电量预测模型识别出所述待识别用户是否为用电量异常用户;
在所述基于所述采样数据,利用堆叠机器学习算法进行训练得到用电量预测模型的步骤之前,还包括:对所述采样数据进行预处理;预处理过程包括:在每个用户的历史用电量信息数据中增加特征字段:电量使用稳定度;
所述电量使用稳定度的计算公式为:
Figure FDA0004272562140000011
其中,W表示用户的电量稳定度,M(n)表示用户第n天的电量使用趋势,M(n)的计算公式为:
Figure FDA0004272562140000012
其中,ki表示第i日的电量使用趋势,ki的计算公式为:
Figure FDA0004272562140000013
Figure FDA0004272562140000014
Figure FDA0004272562140000015
其中,fm为第m日的电量使用量;
Figure FDA0004272562140000016
为第i日的前后各3天的电量使用量的平均值;lm为第m日的日期值,/>
Figure FDA0004272562140000017
为第i日的前后各3天的日期值的平均值,m为正整数;
所述用电量预测模型包括第一层预测模型和第二层预测模型,所述第一层预测模型包括多个初级预测模型,所述第二层预测模型包括一个次级预测模型,所述初级预测模型的输入为待识别用户的用电量信息数据,所述次级预测模型的输入为所述初级预测模型的输出,所述次级预测模型的输出为所述待识别用户是否为用电量异常用户;
所述基于所述采样数据,利用堆叠机器学习算法进行训练得到用电量预测模型的步骤包括:
将所述采样数据划分为训练数据和测试数据;
针对多个预设初级训练模型中的每一个,执行下述训练过程:
将所述训练数据按预设比例划分为初级训练数据和初级验证数据;
利用所述初级训练数据对该初级训练模型进行训练,得到初级预测模型;
利用该初级预测模型对所述初级验证数据进行验证,得到初级验证结果数据;
利用该初级预测模型对所述测试数据进行验证,得到初级测试结果数据;
重复执行上述训练过程,在不同训练过程中选取的初级验证数据不同,直至训练过程的执行次数达到预设阈值;
根据所有初级预测模型对应的所有初级验证结果数据,生成次级训练数据;
利用所述次级训练数据对预设次级训练模型进行训练,得到所述次级预测模型;
根据所有初级预测模型对应的所有初级测试结果数据,生成次级测试数据;
利用所述次级测试数据对所述次级预测模型进行测试,以优化所述次级预测模型;
所述初级训练模型包括:逻辑回归模型、决策树模型、随机森林模型和Xgboost模型;所述次级训练模型包括:逻辑回归模型。
2.根据权利要求1所述的方法,其特征在于,
所述预处理过程还包括:数据格式转换、异常数据处理和数据标准化处理。
3.一种用电量异常用户识别装置,其特征在于,包括:
获取模块,用于获取多个用户的历史用电量信息数据,以作为采样数据;
训练模块,用于基于所述获取模块所获取的采样数据,利用堆叠机器学习算法进行训练得到用电量预测模型;
接收模块,用于接收待识别用户的用电量信息数据;
识别模块,用于基于所述接收模块所接收的待识别用户的用电量信息数据,利用所述用电量预测模型识别出所述待识别用户是否为用电量异常用户;
所述装置还包括:预处理模块;所述预处理模块用于对所述获取模块所获取的所述采样数据进行预处理;
预处理过程包括:在每个用户的历史用电量信息数据中增加特征字段:电量使用稳定度;
所述电量使用稳定度的计算公式为:
Figure FDA0004272562140000031
其中,W表示用户连续6日的电量稳定度,M(n)表示用户第n天的电量使用趋势,M(n)的计算公式为:
Figure FDA0004272562140000032
其中,ki表示第i日的电量使用趋势,ki的计算公式为:
Figure FDA0004272562140000033
Figure FDA0004272562140000034
Figure FDA0004272562140000035
其中,fm为第m日的电量使用量;
Figure FDA0004272562140000036
为第i日的前后各3天的电量使用量的平均值;lm为第m日的日期值,/>
Figure FDA0004272562140000037
为第i日的前后各3天的日期值的平均值,m为正整数;
所述用电量预测模型包括第一层预测模型和第二层预测模型,所述第一层预测模型包括多个初级预测模型,所述第二层预测模型包括一个次级预测模型,所述初级预测模型的输入为待识别用户的用电量信息数据,所述次级预测模型的输入为所述初级预测模型的输出,所述次级预测模型的输出为所述待识别用户是否为用电量异常用户;
所述训练模块包括:
数据分割单元,用于将所述采样数据划分为训练数据和测试数据;
初级训练单元,用于针对多个预设初级训练模型中的每一个,执行下述训练过程:
将所述训练数据按预设比例划分为初级训练数据和初级验证数据;利用所述初级训练数据对该初级训练模型进行训练,得到初级预测模型;利用该初级预测模型对所述初级验证数据进行验证,得到初级验证结果数据;利用该初级预测模型对所述测试数据进行验证,得到初级测试结果数据;
重复执行上述训练过程,在不同训练过程中选取的初级验证数据不同,直至训练过程的执行次数达到预设阈值;
数据整理单元,用于根据所有初级预测模型对应的所有初级验证结果数据,生成次级训练数据;以及根据所有初级预测模型对应的所有初级测试结果数据,生成次级测试数据;
次级训练单元,用于利用所述数据整理单元所生成的所述次级训练数据对预设次级训练模型进行训练,得到所述次级预测模型;
测试单元,用于利用所述数据整理单元所生成的所述次级测试数据对所述次级预测模型进行测试,以优化所述次级预测模型;
所述初级训练模型包括:逻辑回归模型、决策树模型、随机森林模型和Xgboost模型;所述次级训练模型包括:逻辑回归模型。
4.根据权利要求3所述的装置,其特征在于,
所述预处理过程还包括:数据格式转换、异常数据处理和数据标准化处理。
CN202110308456.4A 2021-03-23 2021-03-23 用电量异常用户识别方法和装置 Active CN113033089B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110308456.4A CN113033089B (zh) 2021-03-23 2021-03-23 用电量异常用户识别方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110308456.4A CN113033089B (zh) 2021-03-23 2021-03-23 用电量异常用户识别方法和装置

Publications (2)

Publication Number Publication Date
CN113033089A CN113033089A (zh) 2021-06-25
CN113033089B true CN113033089B (zh) 2023-07-14

Family

ID=76472852

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110308456.4A Active CN113033089B (zh) 2021-03-23 2021-03-23 用电量异常用户识别方法和装置

Country Status (1)

Country Link
CN (1) CN113033089B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113643002A (zh) * 2021-08-30 2021-11-12 南方电网数字电网研究院有限公司 一种电网用电数据账单派送方法及系统

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111223006A (zh) * 2019-12-25 2020-06-02 国网冀北电力有限公司信息通信分公司 一种异常用电检测方法及装置

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108416693A (zh) * 2018-02-01 2018-08-17 东华大学 一种基于模糊神经网络的用电异常行为识别方法
CN109325542A (zh) * 2018-10-09 2019-02-12 烟台海颐软件股份有限公司 一种基于多阶机器学习的电量异常智能识别方法及系统
CN111506618B (zh) * 2019-12-11 2023-09-01 国网重庆市电力公司北碚供电分公司 一种结合lightgbm-stacking算法的异常用电行为分析方法
CN111047094A (zh) * 2019-12-12 2020-04-21 国网浙江省电力有限公司 一种基于深度学习算法的抄表数据异常分析方法
CN111967512B (zh) * 2020-08-07 2022-08-19 国网江苏省电力有限公司电力科学研究院 一种异常用电检测方法、系统和存储介质
CN112101420A (zh) * 2020-08-17 2020-12-18 广东工业大学 一种相异模型下Stacking集成算法的异常用电用户识别方法
CN112084237A (zh) * 2020-09-09 2020-12-15 广东电网有限责任公司中山供电局 一种基于机器学习和大数据分析的电力系统异常预测方法

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111223006A (zh) * 2019-12-25 2020-06-02 国网冀北电力有限公司信息通信分公司 一种异常用电检测方法及装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
基于非参数回归分析的工业负荷异常值识别与修正方法;赵天辉;王建学;马龙涛;朱宇超;;电力系统自动化(第18期);53-59 *

Also Published As

Publication number Publication date
CN113033089A (zh) 2021-06-25

Similar Documents

Publication Publication Date Title
CN109492002B (zh) 一种智能电网大数据存储与分析系统及处理方法
CN112633316B (zh) 一种基于边界估值理论的负荷预测方法和装置
Toubeau et al. Capturing spatio-temporal dependencies in the probabilistic forecasting of distribution locational marginal prices
CN113822481A (zh) 基于多任务学习策略和深度学习的综合能源负荷预测方法
Elagib et al. Big data analysis solutions using MapReduce framework
CN111090643A (zh) 一种基于数据分析系统下的海量用电数据挖掘方法
CN113780684A (zh) 一种基于lstm神经网络的智慧楼宇用户用能行为预测方法
CN113033089B (zh) 用电量异常用户识别方法和装置
CN113065715A (zh) 一种综合能源系统多元负荷超短期预测方法
CN115564071A (zh) 一种电力物联网设备数据标签生成方法及系统
Sun et al. Probabilistic available transfer capability assessment in power systems with wind power integration
CN116843083A (zh) 基于混合神经网络模型的碳排放预测系统及方法
Suo et al. Computer assistance analysis of power grid relay protection based on data mining
Safhi et al. Energy load forecasting in big data context
Liu et al. Data mining for energy systems: Review and prospect
Guo et al. Wind speed forecasting of genetic neural model based on rough set theory
CN115733780B (zh) 基于柔性以太网的动态自适应方法、系统、设备及介质
Bondu et al. Realistic and very fast simulation of individual electricity consumptions
CN114004408A (zh) 一种基于数据分析的用户电力负荷预测方法
Niu et al. Evaluation method for urban renewable energy utilisation efficiency based on DEA model
Dai et al. Probabilistic graphical model based residential energy behavioral analysis on hybrid computing platform
Gaing et al. Optimal grey topological predicting approach to short-term load forecasting in power system
CN117713238B (zh) 光伏发电和储能微电网结合的随机优化运行策略
CN117714603B (zh) 一种外呼方法、装置及可读存储介质
CN115809734A (zh) 一种基于动态训练集的低碳园区建筑负荷预测方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant