CN113191409A

CN113191409A - 标签数据扩充与深度学习的居民异常用电行为检测方法

Info

Publication number: CN113191409A
Application number: CN202110426806.7A
Authority: CN
Inventors: 周玉; 蔡奇新; 李悦; 邵雪松; 张德进; 穆卓文; 高凡; 崔高颖; 陈飞
Original assignee: State Grid Jiangsu Electric Power Co ltd Marketing Service Center; State Grid Jiangsu Electric Power Co Ltd
Current assignee: State Grid Jiangsu Electric Power Co ltd Marketing Service Center; State Grid Jiangsu Electric Power Co Ltd
Priority date: 2021-04-20
Filing date: 2021-04-20
Publication date: 2021-07-30

Abstract

标签数据扩充与深度学习的居民异常用电行为检测方法，包括：步骤1，采集居民用电数据，并进行预处理；步骤2，对预处理用电数据进行标签管理；将标签管理后的用电数据划分为不同的标签样本；步骤3，对不同的标签样本进行扩充，以获得不同的标签样本扩充数据集，再合并为有标签新数据集；步骤4，有标签新数据集输入至训练好的卷积神经网络模型中，由模型识别并输出居民用户异常用电数据，以检测居民异常用电。通过对异常用电与正常用电数据进行扩充，构建有标签用电扩充数据集，大大增加了标签样本的数据量；通过搭建深度学习神经网络模型对异常用电行为进行判别，相比较传统方法能够获取更多数据特征，判别准确率更高。

Description

标签数据扩充与深度学习的居民异常用电行为检测方法

技术领域

本发明涉及电力数据分析领域，更具体地，涉及标签数据扩充与深度学习的居民异常用电行为检测方法。

背景技术

异常用电是电网公司重点关注的行为，给国民经济的发展造成了一定影响。及时识别用户的异常用电行为，对规范居民用电、维持经济稳定具有重要的意义。

传统的防窃电力系统中的非技术性损失，通常由窃电、计量故障、私搭乱接、私自改变用电性质等异常用电行为造成。一方面，作为未被纳入计费或未被正确计费的电能消费，异常用电给电力部门带来了巨大的经济损失。另一方面，未被监管的异常用电行为，如变更居民用电为商业用电、私接电动汽车充电桩等，严重威胁到电力系统的正常运行。这些异常用电行为的长期存在，通常伴随着供电设备的过载、超压带来的电气设备超负荷、系统动态不确定性及负载信息不足引发的电能调度不足等等，是电力系统的一个重大安全隐患。

降低异常用电行为造成的损失，是世界各国电网长期以来亟待解决的重要问题之一，众多的科研人员投入其中。现有技术中，智能电表的普及和用电信息采集系统功能的不断完善，为反窃电工作带来新的进展，目前供电企业已经实现采集系统的全覆盖以及电力营销数据的全采集，并且采集异常处理已经趋于日常化。但是，目前低压居民用户异常用电案例数据严重不足，造成低压居民用户异常用电识别准确率不高且不稳定。

发明内容

为解决现有技术中存在的不足，本发明的目的在于，提供一种标签数据扩充与深度学习的居民异常用电行为检测方法，在居民用户标签用电数据样本数量小的基础上，扩充标签用电数据，并采用深度学习方法进行异常用电行为判别，大大提高异常用电行为的判别准确率。

本发明采用如下的技术方案。

标签数据扩充与深度学习的居民异常用电行为检测方法的步骤如下：

步骤1，采集居民用户的用电数据，并对用电数据进行预处理；

步骤2，对预处理后的用电数据进行标签管理；将标签管理后的用电数据划分为不同的标签样本；

步骤3，对不同的标签样本进行扩充，以获得不同的标签样本扩充数据集；不同的标签样本扩充数据集合并为有标签新数据集；将有标签新数据集划分为训练数据集和测试数据集；

步骤4，以有标签新数据集作为输入数据集，输入至训练好的卷积神经网络模型中；其中，卷积神经网络模型，是基于深度学习算法对训练数据集进行训练、对测试数据集进行测试后得到的神经网络模型；由卷积神经网络模型识别并输出居民用户异常用电数据，以检测居民异常用电行为。

优选地，

步骤1包括：

步骤1.1，以一天为一个采样周期，利用智能电表，采集目标地区内居民用户的24个整点时刻的用电电流数值，这24个整点时刻的用电电流数值构成一组用电数据；

步骤1.2，对任一组用电数据进行预处理，包括：

步骤1.2.1，删除无效用电数据；无效用电数据是指，一天24个整点时刻的用电电流数值中有8个及以上的用电电流数值为0的用电数据；

步骤1.2.2，填补非无效用电数据中的缺失值；对于同一用户，根据非无效用电数据中缺失值的对应整点时刻，提取当前采样周期的前一采样周期内该整点时刻的用电电流数值和后一采样周期内该整点时刻的用电电流数值，并计算这两个用电电流数值的平均值，利用该平均值填补非无效用电数据中的缺失值。

优选地，

步骤2中，标签管理，是根据异常用电用户名单对预处理后的用电数据进行贴标签处理；其中，非异常用电用户的用电数据标签为0，异常用电用户的用电数据标签为1；

步骤2还包括，剔除未被贴上标签的用电数据，将标签为0的用电数据划分为第一标签样本，将标签为1的用电数据划分为第二标签样本。

优选地，

步骤3中，基于过采样算法对不同的标签样本进行扩充的步骤如下：

步骤3.1，从目标标签样本中，随机选取一个中心样本x_h；目标标签样本是待扩充生成新样本的现有标签样本；设置中心样本选取指针b的初始值为1，且b 的数值不大于目标标签样本的总数；

步骤3.2，利用距离算法，在目标标签样本中找到与中心样本x_h距离最近的 m个近邻样本x_h(n)，其中n∈{1,2,…,m}；其中，m为预设参数，根据目标标签样本的数据量进行选择；

步骤3.3，设置扩充次数指针a的初始值为1，且a≤m；从m个近邻样本 x_h(n)中随机选取一个扩充样本x_h(nn)，并以如下关系式生成新样本

式中，

rand为0到1之间的随机数；

步骤3.4，设置扩充次数指针a＝a+1，并且返回步骤3.3；当a>m时，进入步骤3.5；

步骤3.5，设置中心样本选取指针b＝b+1，并且返回步骤3.1；当b的数值大于目标标签样本的总数时，结束扩充。

优选地，

步骤3还包括，在进行样本扩充前，先基于聚类分析算法剔除第一标签样本中的异常值；其中，聚类分析算法的步骤如下：

步骤3.1.1，将Davies-Bouldin指数作为聚类数目选取的依据，对第一标签样本进行聚类；其中，Davies-Bouldin指数满足如下关系式：

式中，

D_i为所有相似度R_ij的最大值，

N为所有相似度R_ij的最大值的总数；

选取DBI指数最小的聚类数目，对第一标签样本进行聚类；

步骤3.1.2，删除第一标签样本中的离群样本，离群样本是不在距离聚类簇心90％范围以内的数据样本。

优选地，步骤3.1.1中，相似度R_ij满足如下关系式：

式中，

R_ij为第i类与第j类的相似度；

S_i为第i类的分散度值，S_j为第j类的分散度值；

M_ij为第i类与第j类的距离，满足如下关系式：

式中，

a_ki为第i类的中心点的第k个属性的值，a_kj为第j类的中心点的第k个属性的值，其中，k＝1,2,…,N，N表示属性的总数量；

q通常取1或2；q取1表示采用各点到中心的距离均值来衡量分散程度，q 取2表示采用各点到中心的距离标准差来衡量分散程度。

第i类的分散度值S_i满足如下关系式：

式中，

X_j为第i类中第j个数据点，

A_i为第i类的中心，

T_i为第i类中数据点的个数。

优选地，步骤3中，训练数据集和测试数据集中，标签为0的样本和标签为 1的样本的比例与未基于过采样算法进行扩充的数据集中两者的比例保持一致。

优选地，

步骤4中，卷积神经网络模型采用监督学习算法，对有标签新数据集中标签为0的样本进行识别；

卷积神经网络模型包括输入层、第一卷积层、第一池化层、第二卷积层、第二池化层、数据压平层、全连接层以及输出层；其中，

输入层用于输入1×24维度的用电数据；第一卷积层为1维度卷积层，卷积核数目为64，尺寸为2；第二卷积层为1维度卷积层，卷积核数目为128，尺寸为2；全连接层中神经元数量为300；输出层用于输出异常用电数据的标签检测结果。

本发明的有益效果在于，与现有技术相比：

1、通过对异常用电与正常用电数据进行扩充，构建有标签用电扩充数据集，大大增加了标签样本的数据量；

2、通过搭建深度学习神经网络模型对异常用电行为进行判别，相比较传统机器学习方法能够获取更多数据特征，判别准确率更高。

附图说明

图1为本发明标签数据扩充与深度学习的居民异常用电行为检测方法的流程框图；

图2为本发明标签数据扩充与深度学习的居民异常用电行为检测方法中，居民用户用电数据预处理结果图；

图3为本发明标签数据扩充与深度学习的居民异常用电行为检测方法中，正常用电数据聚类数目的DBI指标图；

图4为本发明标签数据扩充与深度学习的居民异常用电行为检测方法中，居民用户正常用电聚类结果图；

图5为本发明标签数据扩充与深度学习的居民异常用电行为检测方法中，正常用电扩充数据集示意图；

图6为本发明标签数据扩充与深度学习的居民异常用电行为检测方法中，异常用电扩充数据集示意图；

图7为本发明标签数据扩充与深度学习的居民异常用电行为检测方法中，实施例中搭建的卷积神经网络模型；

图8为不采用本发明标签数据扩充与深度学习的居民异常用电行为检测方法的测试集ROC曲线与训练集准确率、测试集准确率、测试集召回率、F2分数图；

图9为采用本发明标签数据扩充与深度学习的居民异常用电行为检测方法的测试集ROC曲线与训练集准确率、测试集准确率、测试集召回率、F2分数结果图。

具体实施方式

下面结合附图对本申请作进一步描述。以下实施例仅用于更加清楚地说明本发明的技术方案，而不能以此来限制本申请的保护范围。

如图1，标签数据扩充与深度学习的居民异常用电行为检测方法的步骤如下：

步骤1，采集居民用户的用电数据，并对用电数据进行预处理。

具体地，

步骤1包括：

步骤1.2，对任一组用电数据进行预处理，包括：

本优选实施例中，如图2，采集88个用户在2017-2020年间间断日期每日 24个整点时刻的电流数据，并对电流数据缺失值进行填补、对无效数据进行删除。经初步筛选，发现其中有一户所有日期均用电数据均为零，对其作删除处理。对剩余87户用电数据中，去除其中每日缺失值大于8个点的数据条目，得到预处理后的数据为：共计87个用户，2192条数据。

步骤2，对预处理后的用电数据进行标签管理；将标签管理后的用电数据划分为不同的标签样本。

具体地，

步骤2中，标签管理，是根据异常用电用户名单对预处理后的用电数据进行贴标签处理；其中，非异常用电用户的用电数据标签为0，异常用电用户的用电数据标签为1。

本优选实施例中，根据供电公司窃电用户名单对居民用户用电数据进行贴标签处理，其中标签为0的正常用电数据共计2056条，标签为1的异常用电数据共计136条，不存在无标签数据。

步骤3，对不同的标签样本进行扩充，以获得不同的标签样本扩充数据集；不同的标签样本扩充数据集合并为有标签新数据集；将有标签新数据集划分为训练数据集和测试数据集。

具体地，步骤3中，训练数据集和测试数据集中，标签为0的样本和标签为 1的样本的比例与未基于过采样算法进行扩充的数据集中两者的比例保持一致。

具体地，

步骤3.1，从目标标签样本中，随机选取一个中心样本x_h；目标标签样本是待扩充生成新样本的现有标签样本；设置中心样本选取指针b的初始值为1，且b 的数值不大于目标标签样本的总数。

具体地，

式中，

D_i为所有相似度R_ij的最大值，

N为所有相似度R_ij的最大值的总数；

选取DBI指数最小的聚类数目，对第一标签样本进行聚类；

优选地，步骤3.1.1中，相似度R_ij满足如下关系式：

式中，

R_ij为第i类与第j类的相似度；

S_i为第i类的分散度值，S_j为第j类的分散度值；

M_ij为第i类与第j类的距离，满足如下关系式：

式中，

第i类的分散度值S_i满足如下关系式：

式中，

X_j为第i类中第j个数据点，

A_i为第i类的中心，

T_i为第i类中数据点的个数，

式中，

rand为0到1之间的随机数；

如图3和图4，本优选实施例中，选取正常用电数据，选用DBI指标确定最优聚类数为5，本实施例运用kmeans聚类算法进行聚类。进行离群值的样本删除，剩余1850条数据。

如图5和图6，运用过采样算法生成共计25000组标签0样本进行样本扩充，构建标签0样本扩充数据集共计26850组。选取异常用电数据，运用过采样算法生成异常用电数据8000组进行样本扩充，构建异常用电扩充数据集共计 8136组。

如图5和图6，基于标签0样本扩充数据集与标签1样本扩充数据集构建有标签新数据集共计34986组，进行训练集和测试集的划分；其中训练集数量24490 组，其中标签0样本18795组，标签1样本5695组。训练集包含测试集10496 组。其中标签0样本8055组，标签1样本2441组。

具体地，

步骤4中，如图7，卷积神经网络模型采用监督学习算法，对有标签新数据集中标签为0的样本进行识别；

如图8和图9，基于包含测试集准确率和F2分数这两个指标的ROC曲线与 AUC值，对标签数据扩充与深度学习的居民异常用电行为检测方法的检测效果进行评价，其中：

测试集准确率满足如下关系式：

F2分数满足如下关系式：

式中，

TP表示所有正确预测为异常用电的样本数目；

TN表示所有正确预测为正常用电的样本数目；

FP表示预测为异常用电但实际为正常用电的样本数目；

FN表示预测为正常用电但实际为异常用电的样本数目。

ROC曲线是通过将真阳率作为X轴、假阳率作为Y轴绘制两个变量而成的，其中真阳率就是召回率，假阳率定义为：

AUC值通过计算ROC曲线下的面积得到。

其中，准确率表征模型对于两类样本正确分类的能力，其值范围为0-1，并且越高越好。但在本优选实施例中，用电数据两类样本数目不均衡的情况下，准确率不能作为唯一的评判标准，因为异常用电数量很少，若模型将所有样本判定为正常用电结果的准确率也很高，因此需要综合考虑F2分数指标，并将F2分数作为主要的评判标准。F2分数表征模型对于异常用电样本的查全能力，为尽可能的检测出多的异常用电用本，其值范围为0-1，并且越高越好。ROC曲线与 AUC值表征模型对于样本正确分类的能力，ROC曲线越接近左上角证明模型分类效果越好，AUC值范围为0-1，越高越好。

从图8和图9的结果对比看出，采用本发明提出的标签数据扩充与深度学习的居民异常用电行为检测方法，对于标签1异常用电测试准确率达到93％，F2 分数达到80％。

本发明的有益效果在于，与现有技术相比：

本发明申请人结合说明书附图对本发明的实施示例做了详细的说明与描述，但是本领域技术人员应该理解，以上实施示例仅为本发明的优选实施方案，详尽的说明只是为了帮助读者更好地理解本发明精神，而并非对本发明保护范围的限制，相反，任何基于本发明的发明精神所作的任何改进或修饰都应当落在本发明的保护范围之内。

Claims

1.标签数据扩充与深度学习的居民异常用电行为检测方法，其特征在于，

所述检测方法的步骤如下：

步骤4，以有标签新数据集作为输入数据集，输入至训练好的卷积神经网络模型中；其中，所述卷积神经网络模型，是基于深度学习算法对训练数据集进行训练、对测试数据集进行测试后得到的神经网络模型；由卷积神经网络模型识别并输出居民用户异常用电数据，以检测居民异常用电行为。

2.根据权利要求1所述的标签数据扩充与深度学习的居民异常用电行为检测方法，其特征在于，

步骤1包括：

步骤1.1，以一天为一个采样周期，利用智能电表，采集目标地区内居民用户的24个整点时刻的用电电流数值，24个整点时刻的用电电流数值构成一组用电数据；

步骤1.2，对任一组用电数据进行预处理，包括：

步骤1.2.1，删除无效用电数据；所述无效用电数据是指，一天24个整点时刻的用电电流数值中有8个及以上的用电电流数值为0的一组用电数据；

步骤1.2.2，填补非无效用电数据中的缺失值；对于同一用户，根据非无效用电数据中缺失值的对应整点时刻，提取当前采样周期的前一采样周期内该整点时刻的用电电流数值和后一采样周期内该整点时刻的用电电流数值，并计算这两个用电电流数值的平均值，利用该平均值填补所述非无效用电数据中的缺失值。

3.根据权利要求1所述的标签数据扩充与深度学习的居民异常用电行为检测方法，其特征在于，

步骤2中，所述标签管理，是根据异常用电用户名单对预处理后的用电数据进行贴标签处理；其中，非异常用电用户的用电数据标签为0，异常用电用户的用电数据标签为1；

4.根据权利要求1所述的标签数据扩充与深度学习的居民异常用电行为检测方法，其特征在于，

步骤3.1，从目标标签样本中，随机选取一个中心样本x_h；所述目标标签样本是待扩充生成新样本的现有标签样本；设置中心样本选取指针b的初始值为1，且b的数值不大于目标标签样本的总数；

步骤3.2，利用距离算法，在目标标签样本中找到与中心样本x_h距离最近的m个近邻样本x_h(n)，其中n∈{1,2,…,m}；其中，m为预设参数，根据目标标签样本的数据量进行选择；

步骤3.3，设置扩充次数指针a的初始值为1，且a≤m；从m个近邻样本x_h(n)中随机选取一个扩充样本x_h(nn)，并以如下关系式生成新样本

式中，

rand为0到1之间的随机数；

5.根据权利要求3所述的标签数据扩充与深度学习的居民异常用电行为检测方法，其特征在于，

式中，

D_i为所有相似度R_ij的最大值，

N为所有相似度R_ij的最大值的总数；

选取DBI指数最小的聚类数目，对第一标签样本进行聚类；

步骤3.1.2，删除第一标签样本中的离群样本，所述离群样本是不在距离聚类簇心90％范围以内的数据样本。

6.根据权利要求5所述的标签数据扩充与深度学习的居民异常用电行为检测方法，其特征在于，

步骤3.1.1中，所述相似度R_ij满足如下关系式：

式中，

R_ij为第i类与第j类的相似度；

S_i为第i类的分散度值，S_j为第j类的分散度值；

M_ij为第i类与第j类的距离，满足如下关系式：

式中，

q通常取1或2；q取1表示采用各点到中心的距离均值来衡量分散程度，q取2表示采用各点到中心的距离标准差来衡量分散程度。

7.根据权利要求6所述的标签数据扩充与深度学习的居民异常用电行为检测方法，其特征在于，

所述第i类的分散度值S_i满足如下关系式：

式中，

X_j为第i类中第j个数据点，

A_i为第i类的中心，

T_i为第i类中数据点的总数。

8.根据权利要求3所述的标签数据扩充与深度学习的居民异常用电行为检测方法，其特征在于，

所述步骤3中，所述训练数据集和测试数据集中，标签为0的样本和标签为1的样本的比例与未基于过采样算法进行扩充的数据集中两者的比例保持一致。

9.根据权利要求3所述的标签数据扩充与深度学习的居民异常用电行为检测方法，其特征在于，

所述步骤4中，卷积神经网络模型采用监督学习算法，对有标签新数据集中标签为0的样本进行识别；

所述输入层用于输入1×24维度的用电数据；所述第一卷积层为1维度卷积层，卷积核数目为64，尺寸为2；所述第二卷积层为1维度卷积层，卷积核数目为128，尺寸为2；所述全连接层中神经元数量为300；所述输出层用于输出异常用电数据的标签检测结果。