CN113033089B

CN113033089B - 用电量异常用户识别方法和装置

Info

Publication number: CN113033089B
Application number: CN202110308456.4A
Authority: CN
Inventors: 崔羽飞; 张第; 魏进武
Original assignee: China United Network Communications Group Co Ltd
Current assignee: China United Network Communications Group Co Ltd
Priority date: 2021-03-23
Filing date: 2021-03-23
Publication date: 2023-07-14
Anticipated expiration: 2041-03-23
Also published as: CN113033089A

Abstract

本发明提供一种用电量异常用户识别方法，涉及通信技术领域，该方法包括：获取多个用户的历史用电量信息数据，以作为采样数据；基于所述采样数据，利用堆叠机器学习算法进行训练得到用电量预测模型；接收待识别用户的用电量信息数据；基于所述待识别用户的用电量信息数据，利用所述用电量预测模型识别出所述待识别用户是否为用电量异常用户，从而实现了电力系统中用电量异常用户的识别和筛查，保证了用户利益，避免了电力资源的浪费。本发明还提供一种用电量异常用户识别装置。

Description

用电量异常用户识别方法和装置

技术领域

本发明涉及通信技术领域，具体涉及一种用电量异常用户识别方法和装置。

背景技术

在电力系统中，经统计发现，有些用户的统计用电量与其消费的实际用电量存在不匹配的情况，存在这种情况的用户被称为用电量异常用户。当出现用电量异常用户时，电力系统可能存在偷电或漏电的问题，这损害了社会利益，造成了电力资源浪费，因而，如何识别出用电量异常用户具有重要意义。

发明内容

本发明旨在至少解决现有技术中存在的技术问题之一，提出了一种用电量异常用户识别方法和装置。

第一方面，本发明提供一种用电量异常用户识别方法，包括：

获取多个用户的历史用电量信息数据，以作为采样数据；

基于所述采样数据，利用堆叠机器学习算法进行训练得到用电量预测模型；

接收待识别用户的用电量信息数据；

基于所述待识别用户的用电量信息数据，利用所述用电量预测模型识别出所述待识别用户是否为用电量异常用户。

优选的，在所述基于所述采样数据，利用堆叠机器学习算法进行训练得到用电量预测模型的步骤之前，还包括：

对所述采样数据进行预处理，所述预处理过程包括：数据格式转换、异常数据处理和数据标准化处理。

优选的，所述预处理过程还包括：在每个用户的历史用电量信息数据中增加特征字段：电量使用稳定度；

所述电量使用稳定度的计算公式为:

其中，W表示用户的电量稳定度，M(n)表示用户第n天的电量使用趋势，M(n)的计算公式为：

其中，k_i表示第i日的电量使用趋势，k_i的计算公式为：

其中，f_m为第m日的电量使用量；

为第i日的前后各3天的电量使用量的平均值；l_m为第m日的日期值，/>

为第i日的前后各3天的日期值的平均值，m为正整数。

优选的，所述用电量预测模型包括第一层预测模型和第二层预测模型，所述第一层预测模型包括多个初级预测模型，所述第二层预测模型包括一个次级预测模型，所述初级预测模型的输入为待识别用户的用电量信息数据，所述次级预测模型的输入为所述初级预测模型的输出，所述次级预测模型的输出为所述待识别用户是否为用电量异常用户。

优选的，所述基于所述采样数据，利用堆叠机器学习算法进行训练得到用电量预测模型的步骤包括：

将所述采样数据划分为训练数据和测试数据；

针对多个预设初级训练模型中的每一个，执行下述训练过程：

将所述训练数据按预设比例划分为初级训练数据和初级验证数据；

利用所述初级训练数据对该初级训练模型进行训练，得到初级预测模型；

利用该初级预测模型对所述初级验证数据进行验证，得到初级验证结果数据；

利用该初级预测模型对所述测试数据进行验证，得到初级测试结果数据；

重复执行上述训练过程，在不同训练过程中选取的初级验证数据不同，直至训练过程的执行次数达到预设阈值；

根据所有初级预测模型对应的所有初级验证结果数据，生成次级训练数据；

利用所述次级训练数据对预设次级训练模型进行训练，得到所述次级预测模型；

根据所有初级预测模型对应的所有初级测试结果数据，生成次级测试数据；

利用所述次级测试数据对所述次级预测模型进行测试，以优化所述次级预测模型。

优选的，所述初级训练模型包括：逻辑回归模型、决策树模型、随机森林模型和Xgboost模型；所述次级训练模型包括：逻辑回归模型。

第二方面，本发明还提供一种用电量异常用户识别装置，包括：

获取模块，用于获取多个用户的历史用电量信息数据，以作为采样数据；

训练模块，用于基于所述获取模块所获取的采样数据，利用堆叠机器学习算法进行训练得到用电量预测模型；

接收模块，用于接收待识别用户的用电量信息数据；

识别模块，用于基于所述接收模块所接收的待识别用户的用电量信息数据，利用所述用电量预测模型识别出所述待识别用户是否为用电量异常用户。

优选的，所述装置还包括：

预处理模块，用于对所述获取模块所获取的所述采样数据进行预处理，所述预处理过程包括：数据格式转换、异常数据处理和数据标准化处理。

优选的，所述预处理模块还用于在每个用户的历史用电量信息数据中增加特征字段：电量使用稳定度；

所述电量使用稳定度的计算公式为:

其中，W表示用户连续6日的电量稳定度，M(n)表示用户第n天的电量使用趋势，M(n)的计算公式为：

其中，k_i表示第i日的电量使用趋势，k_i的计算公式为：

其中，f_m为第m日的电量使用量；

为第i日的前后各3天的日期值的平均值，m为正整数。

优选的，所述训练模块具体包括：

数据分割单元，用于将所述采样数据划分为训练数据和测试数据；

初级训练单元，用于针对多个预设初级训练模型中的每一个，执行下述训练过程：

将所述训练数据按预设比例划分为初级训练数据和初级验证数据；利用所述初级训练数据对该初级训练模型进行训练，得到初级预测模型；利用该初级预测模型对所述初级验证数据进行验证，得到初级验证结果数据；利用该初级预测模型对所述测试数据进行验证，得到初级测试结果数据；

数据整理单元，用于根据所有初级预测模型对应的所有初级验证结果数据，生成次级训练数据；以及根据所有初级预测模型对应的所有初级测试结果数据，生成次级测试数据；

次级训练单元，用于利用所述数据整理单元所生成的所述次级训练数据对预设次级训练模型进行训练，得到所述次级预测模型；

测试单元，用于利用所述数据整理单元所生成的所述次级测试数据对所述次级预测模型进行测试，以优化所述次级预测模型。

本发明的有益技术效果：

本发明提供的用电量异常用户识别方法和装置，基于多个用户的历史用电量信息数据，利用stacking机器学习算法训练出用电量预测模型，基于该用电量预测模型对待识别用户的用电量信息数据进行预测，确定出待识别用户是否为用电量异常用户，从而实现了电力系统中用电量异常用户的识别和筛查，保证了用户利益，避免了电力资源的浪费。

附图说明

图1为本发明实施例提供的一种用电量异常用户识别方法的流程图；

图2为本发明实施例提供的另一种用电量异常用户识别方法的流程图；

图3为本发明实施例提供的一种用电量异常用户识别装置的结构示意图；

图4为本发明实施例提供的另一种用电量异常用户识别装置的结构示意图。

具体实施方式

为使本领域的技术人员更好地理解本发明的技术方案，下面结合附图来对本发明提供的用电量异常用户识别方法和装置进行详细描述。

本发明提供的用电量异常用户识别方法用于确定电力系统的电量使用用户是否为异常用户，特别的，本发明适用于泛在电力物联网，泛在电力物联网是一种围绕电力系统各环节，充分应用移动互联、人工智能等现代信息技术、先进通信技术，实现电力系统各环节万物互联、人机交互，具有状态全面感知、信息高效处理、应用便捷灵活特征的智慧服务系统。具体的，泛在电力物联网将电力用户及其设备、电网企业及其设备、发电企业及其设备、供应商及其设备，以及人和物连接起来，产生共享数据，为用户、电网、发电、供应商和政府社会服务。泛在电力物联网通过先进信息、通信、大数据、人工智能、互联网技术的深度融合，实现发、输、配、用、储等环节互联互通、全息感知、高效分析、智能控制、灵活共享，能够实现能源供需的实时匹配、安全经济、智能响应、高效服务。

图1为本发明实施例提供的一种用电量异常用户识别方法的流程图，如图1所示，该方法包括：

步骤S101、获取多个用户的历史用电量信息数据，以作为采样数据。

用户接入电力系统开始用电后，电力系统记录用户的用电信息，并存储在预设的数据仓库中，用电信息至少包括：用户编号和用户历史用电量，其中，用户编号为用户的标识信息，用户历史用电量为用户的日用电量的历史数据，例如，用户历史用电量可以为近一个月内用户每日的用电量。本发明实施例中，采样数据中，用户的历史用电量信息数据至少包括：用户编号、用户历史用电量和用电量结果；其中，用电量结果是指用户是否为用电量异常用户的结果，具体的，用电量结果包括是或否，用电量结果可由管理人员基于实际用户的用电量使用情况确定出。

在一些实施例中，用电信息还包括：用户名称、用电类别、计量方式、电流互感器变化和电压互感器变化等字段；对应的，用户的历史用电量信息数据中也可包括这些字段中的一个或多个。

本发明实施例中，数据仓库可包括传统数据库和分布式文件系统(HadoopDistributed File System，简称HDFS)，具体选择哪种类型的数据仓库可根据所存储的用户的用电信息的量确定，当用户的用电信息的量较小时，可选择传统数据库，而当用户的用电信息的量较大时，可选择HDFS。

另外，本发明实施例不对用户的类型进行限定，具体可以为个人用户，也可以为企业用户。

步骤S102、基于采样数据，利用堆叠机器学习算法进行训练得到用电量预测模型。

堆叠机器学习算法又称为stacking机器学习算法，Stacking的训练过程为：利用初始训练数据学习出若干个初级训练模型后，将该若干个初级训练模型的预测结果作为新的训练集，来学习训练一个次级训练模型，从而得到最终的预测模型。

Stacking机器学习算法已属于本领域的成熟技术，本发明实施例不再赘述。

步骤S103、接收待识别用户的用电量信息数据。

步骤S104、基于待识别用户的用电量信息数据，利用用电量预测模型识别出待识别用户是否为用电量异常用户。

当需要对待识别用户进行是否为用电量异常用户的判断时，将该待识别用户的用电量信息数据输入至步骤S102中训练得到的用电量预测模型中，该用电量预测模型基于待识别用户的用电量信息数据进行预测，输出该待识别用户是否为用电量异常用户的预测结果。

本发明实施例中，步骤S104中输入用电量预测模型中的待识别用户的用电量信息数据可以为待识别用户近期一段时间内的用电量信息数据，例如，待识别用户最近1个月的用电量信息数据，并且，待识别用户的用电量信息数据与步骤S101中的历史用电量信息数据的格式保持一致。

本发明实施例提供的用电量异常用户识别方法，基于多个用户的历史用电量信息数据，利用stacking机器学习算法训练出用电量预测模型，基于该用电量预测模型对待识别用户的用电量信息数据进行预测，确定出待识别用户是否为用电量异常用户，从而实现了电力系统中用电量异常用户的识别和筛查，保证了用户利益，避免了电力资源的浪费。

图2为本发明实施例提供的另一种用电量异常用户识别方法，如图2所示，在一些实施例中，在步骤S102之前，还包括：

步骤S101’、对采样数据进行预处理。

具体的，预处理过程包括：数据格式转换、异常数据处理和数据标准化处理。

数据格式转换是指将历史用电量信息数据所包含的各字段的数据进行格式统一，例如，将数值格式、文本格式、日期格式等格式的数据统一化为数值格式的数据。

异常数据处理包括数据探索和属性规约，其中，数据探索是对异常数据和缺失数据进行处理，异常数据是指某用户的某单日使用电量与其他同类型的用户的同期使用电量相比存在突变，例如，某用户的某单日使用电量高于其他同类型的用户的同期使用电量的均值的预设百分比，如50％、100％等；数据探索即是将异常数据和缺失数据调整为其他同类型的用户的同期使用电量的均值；属性规约是指删除采样数据中与判断用电量是否异常无关或关联性不大的字段。具体的，可通过计算各字段的关联性实现，例如，基于相关性算法计算出各字段与用电量结果字段之间的关联度，当关联度大于等于预设阈值时，则判定该字段与用电量异常相关，应保留，当关联度小于预设阈值时，则判定该字段与用电量异常无关，应去除。

数据标准化处理是指将历史用电量信息数据中各字段的原始数据转化为无量纲化指标值。数据标准化处理可基于本领域中的任意一种数据标准化方法实现，例如，Min-max标准化、Z-score标准化和按小数定标标准化等。

在一些实施例中，对采样数据进行的预处理过程还包括增加特征字段，即在每个用户的历史用电量信息数据中增加特征字段，本发明实施例中，特征字段为电量使用稳定度，电量使用稳定度用来描述用户的用电量的稳定性。

本发明实施例中，电量使用稳定度的计算公式为:

其中，W表示用户的电量稳定度，M(n)表示用户第n天的电量使用趋势，具体的，M(n)的计算公式为：

其中，k_i表示第i日的电量使用趋势，具体的，k_i的计算公式为：

其中，f_m为第m日的电量使用量；

为第i日的前后各3天的日期值的平均值，m为正整数，i为大于3的整数。

本发明实施例通过在采样数据中增设特征字段—电量使用稳定度，使得后续基于该采样数据训练得到的用电量预测模型能够更加真实的预测出用户的用电量趋势，从而提高了识别用户是否为用电量异常用户的准确度。

本发明实施例中，在采用Stacking机器学习算法训练得出用电量预测模型时，所得到的用电量预测模型包括：第一层预测模型和第二层预测模型，其中，第一层预测模型包括多个初级预测模型，第二层预测模型包括一个次级预测模型，初级预测模型的输入为待识别用户的用电量信息数据，次级预测模型的输入为初级预测模型的输出，次级预测模型的输出为待识别用户是否为用电量异常用户。继续参照图2，步骤S102可具体包括：

步骤S1021、将采样数据划分为训练数据和测试数据。

本发明实施例中，训练数据用于进行模型训练，测试数据用于对得到的模型进行测试，以验证训练所得模型的预测准确度。具体的，在将采样数据划分为训练数据和测试数据时，可基于预设比例进行划分，优选的，训练数据与测试数据的数量比为7:3。

本发明实施例中，在将采样数据划分为训练数据和测试数据后，利用训练数据对预设的多个初级训练模型进行预设次数的迭代训练，具体的，针对多个预设初级训练模型中的每一个，执行下述步骤S1022～S1024。

步骤S1022、将训练数据按预设比例划分为初级训练数据和初级验证数据。

本发明实施例中，预设比例可以根据实际的训练数据的数据量确定例如，预设比例设置为4:1，即，初级训练数据和初级验证数据的数量比为4:1。在实际应用中，为了提高训练的精确度，可在每一次迭代过程中选择不同的初级训练数据，具体实现过程为：将训练数据划分为10个子样本，针对每一次迭代，随机选取8个子样本作为初级训练数据，剩余的两个子样本作为初级验证数据，即，在每一次迭代中，初级训练数据和初级验证数据的数量比皆保持为4:1，但每次迭代过程中所采用的初级验证数据都不同。

步骤S1023、利用初级训练数据对该初级训练模型进行训练，得到初级预测模型。

步骤S1024、利用该初级预测模型对初级验证数据进行验证，得到初级验证结果数据，以及利用该初级预测模型对测试数据进行验证，得到初级测试结果数据。

在得到初级预测模型后，将初级验证数据输入至该初级预测模型，该初级预测模型输出针对该初级验证数据的初级验证结果数据；同理，将测试数据输入至该初级预测模型，该初级预测模型输出针对该测试数据的初级测试结果数据，保存初级验证结果数据和初级测试结果数据，以用于后续进行次级训练。

重复执行上述步骤S1022～S1024，直至迭代次数达到预设阈值。其中，迭代次数的预设阈值可由本领域技术人员基于经验进行设定，在一些实施例中，可基于初级训练数据和初级验证数据的比例进行确定，例如，当初级训练数据和初级验证数据的数量比为4:1，迭代次数的预设阈值可设置为5，以保证后续每次训练过程中所用的训练数据的量与初始的训练数据的量一致，且不同训练过程选取的初级验证数据互不相同。

在针对每个初级训练模型完成步骤S1022～S1024后，执行下述步骤S1025～S1027。

步骤S1025、根据所有初级预测模型对应的所有初级验证结果数据，生成次级训练数据；根据所有初级预测模型对应的所有初级测试结果数据，生成次级测试数据。

在根据所有初级预测模型对应的所有初级验证结果数据生成次级训练数据时，将所有迭代次数的初级验证结果数据作为次级训练数据；在根据所有初级预测模型对应的所有初级测试结果数据时，将所有初级预测模型对应的所有初级测试结果数据作为次级测试数据。

步骤S1026、利用次级训练数据对预设次级训练模型进行训练，得到次级预测模型。

步骤S1027、利用次级测试数据对次级预测模型进行测试，以优化次级预测模型。

在利用次级训练数据训练得出次级预测模型后，利用次级测试数据对次级预测模型进行测试，根据测试结果判断次级预测模型的准确度，若次级预测模型的准确度较低，可基于调优算法对次级预测模型的参数进行调整，以优化次级预测模型，调优算法可采用本领域中常规的参数调优算法，例如，Grid Search算法。

在一些实施例中，初级训练模型可包括：逻辑回归模型、决策树模型、随机森林模型和Xgboost模型；次级训练模型可以为逻辑回归模型、决策树模型、随机森林模型和Xgboost模型中的任意一种，优选的，次级训练模型为逻辑回归模型。

在一些实施例中，初级训练模型的数量为3个，在筛选初级训练模型时，可通过筛选训练确定出初级训练模型，筛选训练的过程为：利用训练数据对多个预备训练模型进行训练，以得到多个预备预测模型，利用测试数据对每个预备测试模型进行测试，并统计测试结果中的查全率和查准率，基于查全率和查准率选择出预测性能较优的模型作为初级训练模型。统计查全率和查准率是本领域的常规技术手段，本发明实施例不再详细赘述。

图3为本发明实施例提供的一种用电量异常用户识别装置的结构示意图，如图3所示，该电量异常用户识别装置包括：获取模块11、训练模块12、接收模块13以及识别模块14。

其中，获取模块11用于获取多个用户的历史用电量信息数据，以作为采样数据；训练模块12用于基于获取模块11所获取的采样数据，利用堆叠机器学习算法进行训练得到用电量预测模型；接收模块13用于接收待识别用户的用电量信息数据；识别模块14用于基于接收模块13所接收的待识别用户的用电量信息数据，利用用电量预测模型识别出待识别用户是否为用电量异常用户。

图4为本发明实施例提供的另一种用电量异常用户识别装置的结构示意图，如图4所示，在一些实施例中，电量异常用户识别装置还包括：预处理模块15，该预处理模块15用于对获取模块11所获取的采样数据进行预处理，预处理过程可包括：数据格式转换、异常数据处理和数据标准化处理。

在一些实施例中，预处理模块15还用于在每个用户的历史用电量信息数据中增加特征字段：电量使用稳定度；

电量使用稳定度的计算公式为:

其中，k_i表示第i日的电量使用趋势，k_i的计算公式为：

其中，f_m为第m日的电量使用量；

为第i日的前后各3天的日期值的平均值，m为正整数。

本发明实施例中，在采用Stacking机器学习算法训练得出用电量预测模型时，所得到的用电量预测模型包括：第一层预测模型和第二层预测模型，其中，第一层预测模型包括多个初级预测模型，第二层预测模型包括一个次级预测模型，初级预测模型的输入为待识别用户的用电量信息数据，次级预测模型的输入为初级预测模型的输出，次级预测模型的输出为待识别用户是否为用电量异常用户。对应的，继续参照图4，训练模块12具体可包括：数据分割单元121、初级训练单元122、数据整理单元123、次级训练单元124和测试单元125。

其中，数据分割单元121用于将采样数据划分为训练数据和测试数据。

初级训练单元122用于针对多个预设初级训练模型中的每一个，执行下述训练过程：将训练数据按预设比例划分为初级训练数据和初级验证数据；利用初级训练数据对该初级训练模型进行训练，得到初级预测模型；利用该初级预测模型对初级验证数据进行验证，得到初级验证结果数据；利用该初级预测模型对测试数据进行验证，得到初级测试结果数据。

重复执行上述训练过程，在不同训练过程中选取的初级验证数据不同，直至训练过程的执行次数达到预设阈值。

数据整理单元123用于根据所有初级预测模型对应的所有初级验证结果数据，生成次级训练数据；以及根据所有初级预测模型对应的所有初级测试结果数据，生成次级测试数据。

次级训练单元124用于利用数据整理单元所生成的次级训练数据对预设次级训练模型进行训练，得到次级预测模型。

测试单元125，用于利用数据整理单元123所生成的次级测试数据对次级预测模型进行测试，以优化次级预测模型。

在一些实施例中，初级训练模型包括：逻辑回归模型、决策树模型、随机森林模型和Xgboost模型；次级训练模型可以为逻辑回归模型、决策树模型、随机森林模型和Xgboost模型中的任意一种模型，优选的，次级训练模型为逻辑回归模型。

本发明实施例提供的用电量异常用户识别装置用于实现本发明上述实施例提供的用电量异常用户识别方法，具体装置中各模块的描述请参照方法中对应步骤的介绍，此处不再赘述。

可以理解的是，以上实施方式仅仅是为了说明本发明的原理而采用的示例性实施方式，然而本发明并不局限于此。对于本领域内的普通技术人员而言，在不脱离本发明的精神和实质的情况下，可以做出各种变型和改进，这些变型和改进也视为本发明的保护范围。