CN108805747A

CN108805747A - 一种基于半监督学习的异常用电用户检测方法

Info

Publication number: CN108805747A
Application number: CN201810604295.1A
Authority: CN
Inventors: 纪淑娟; 周金萍; 李凯旋; 张纯金
Original assignee: Shandong University of Science and Technology
Current assignee: Shandong University of Science and Technology
Priority date: 2018-06-13
Filing date: 2018-06-13
Publication date: 2018-11-13
Also published as: WO2019237492A1

Abstract

本发明公开了一种基于半监督学习的异常用电用户检测方法，属于检测技术领域，包括以下步骤：数据预处理；基于聚类分析的一级灰名单生成；基于离群度计算的二级灰名单生成；基于行为相似度计算的三级灰名单生成。本发明提出的基于半监督学习的异常用电用户检测模型，旨在形成用户可疑度排序列表，为现场人工检测提供重点检测名单，提高了现场检测的准确率及效率。

Description

一种基于半监督学习的异常用电用户检测方法

技术领域

本发明属于检测技术领域，具体涉及一种基于半监督学习的异常用电用户检测方法。

背景技术

据研究显示，每年我国电力系统中因非技术性问题造成的营运损失高达百亿美元。非技术性损失是指由配电网侧电力用户的窃电、欺诈等一系列虚假用电行为造成的运营损失。随着智能电网不断推进与传感采集技术的高速发展，电力公司用电负荷数据海量增加，这导致异常用电用户检测越来越困难。

近年来，人们提出一些智能检测算法来克服原始人工检测盲目性高、查准率低等弊端，提高现场检测的命中率，降低运营成本。现阶段大部分智能检测算法都是基于有监督学习进行的，需要以大量带标签的训练集为前提。但现实情况中，数据分析检测的初始阶段没有大量训练集进行模型训练。

发明内容

针对现有技术中存在的上述技术问题，本发明提出了一种基于半监督学习的异常用电用户检测方法，设计合理，克服了现有技术的不足，具有良好的效果。

为了实现上述目的，本发明采用如下技术方案：

一种基于半监督学习的异常用电用户检测方法，包括以下步骤：

步骤1：数据预处理

采用滑动平均插值法对数据集进行预处理；

步骤2：基于聚类分析的一级灰名单生成

假设大多数人都是正常用户，且正常用户和异常用户的行为特点是不同的，利用用户特征序列进行聚类分析，找到聚类类簇中成员数量较少的点，即用电行为与大多数用户用电行为不同的用户；采用基于高斯混合模型的算法对用户进行聚类，最终将部分离群用户设定为可疑用户，利用聚类分析方法筛选出离群点用户，即得到一级灰名单；

步骤3：基于离群度计算的二级灰名单生成

基于一级灰名单，计算用户的离群度，根据离群程度判断用户可疑程度，形成具有可疑度排名的二级灰名单；

步骤4：基于行为相似度计算的三级灰名单生成

应用基于行为相似度计算的三级灰名单生成算法，匹配黑名单库中用户的异常行为，检测出各类中与黑名单用户具有相似行为特征的可疑用户，形成三级灰名单。

优选地，在步骤2中，具体包括如下步骤：

步骤2.1：根据基于高斯混合模型的聚类算法将用户进行聚类划分为n个簇；

步骤2.2：判断各个簇成员个数是否小于聚类划分离群点的阈值k；

若：判断结果为各个簇成员个数小于聚类划分离群点的阈值k，则将簇中用户加入到一级灰名单中；

或判断结果为各个簇成员个数大于或者等于聚类划分离群点的阈值k，则加入到非灰名单用户中。

优选地，在步骤3中，具体包括如下步骤：

步骤3.1：利用局部离群因子算法计算一级灰名单中用户的离群因子值；

步骤3.2：将一级灰名单用户的离群因子值按照从大到小的顺序加入到二级灰名单中。

优选地，在步骤4中，具体包括如下步骤：

步骤4.1：将非灰名单中的用户以簇为单位，利用DTW算法计算非灰名单中的用户与黑名单库中的用户间的行为相似度DTW值；

步骤4.2：计算非灰名单库中各簇成员的DTW均值，将各簇中低于DTW均值的用户筛选出来加入到三级灰名单中；

步骤4.3：将三级灰名单中用户按照DTW值由小到大进行排序。

本发明所带来的有益技术效果：

本发明提出了基于半监督学习的异常用电用户检测模型，旨在形成用户可疑度排序列表，为现场人工检测提供重点检测名单，提高现场检测的准确率及效率。

附图说明

图1为基于半监督学习的异常用电用户检测方法框架图。

图2为局部离群点筛选图。

图3为用户DTW值选择示意图。

图4为特征集的相关矩阵示意图。

图5为二维特征数据分布图。

图6为三维特征数据分布图。

图7为归一化之后的特征集相关矩阵示意图。

图8为ROC(receiver operating characteristic curve，受试者工作特征曲线)曲线下面积 AUC与参数n的关系示意图。

图9为ROC曲线下面积AUC与参数a的关系示意图。

图10为无监督学习异常检测模型算法的累积查全率曲线示意图。

图11为无监督学习异常检测模型与半监督学习异常检测模型准确率图。

具体实施方式

下面结合附图以及具体实施方式对本发明作进一步详细说明：

1、模型步骤和框架

本发明方法实现工作主要包括以下几步：

首先，假设大多数人都是正常用户，且正常用户和异常(偷电)用户的行为特点是不同的，利用聚类分析方法筛选出离群点用户，即得到一级灰名单。

其次，基于一级灰名单，计算用户的离群度(LOF值)，根据离群程度判断用户可疑程度，形成具有可疑度排名的二级灰名单。

第三步，基于二级灰名单，去现场收集离群用户的造假证据，得到黑名单，并存入黑名单库中。

第四步，针对部分用户可能协同作案，造成大量异常用户的行为存在一致性的问题，本申请进一步对第一步聚类操作得到的结果类进行处理。具体方法为，融合第三步现场检测得到的黑名单和第一步聚类得到的多个类，提出了基于行为相似度计算的三级灰名单生成算法。此算法利用黑名单库中用户的异常行为，检测出各类中与黑名单用户具有相似行为特征的可疑用户，形成三级灰名单。

第五步，基于三级灰名单，去现场收集用户协同或者共谋造假的证据，得到黑名单，并存入黑名单库中。

整个方法的框架如图1所示。该框架主要分两大部分实现，即基于无监督学习的异常用电个体(即一级灰名单和二级灰名单用户)检测和基于半监督学习的协同异常用电用户(即一级灰名单、二级灰名单、三级灰名单和黑名单用户)检测。

2、模型核心算法

图1中基于无监督学习的单个异常用电用户的检测分为三大模块，其中涉及到的核心算法分别为：数据预处理方法、基于聚类分析的一级灰名单生成算法、基于离群度计算的二级灰名单生成算法。图1中基于半监督学习的用电异常用户的检测模型除了上述三个核心算法之外，还涉及一个核心算法—基于行为相似度计算的三级灰名单生成算法。下面详细介绍每个模块的处理过程。

2.1、数据预处理方法

在对用户进行模型检测之前，首先需要对检测数据进行预处理，此阶段主要进行数据清洗与整理工作。由于在现实情况中，用电量数据都为实时采集，而且时间序列采集过程是不可逆过程。但是采集过程中往往会因一些非人为的失误造成采集到部分脏数据，即包含空值、错误值或存在偏离期望的孤立点值等。为了不影响实验结果，在实验开始之前需要对数据集进行异常值与缺失值的插值处理。

现阶段，主流处理方式分为五种：Do Nothing、填充0值或-1值、线性插值、均值\中位数\众数插值、滑动平均差值法。

(1)Do Nothing处理方式：其认为缺省也是一种信息，处理方式为保留所有信息，以空值替代。

(2)填充0值或-1值，这是一种最常见的缺省值处理方式，能够引入最少的人为主观信息，避免因人为主观信息导致预测偏离。

(3)线性插值法：线性插值利用一次多项式进行插值的方式，它对时序数据进行插值补全，能够较好的降低因为丢失信息带来的噪声。此种方式主要用在了CNN、RNN网络上。

(4)均值\中位数\众数插值法：它是将序列均值\中位数\众数插入到缺失值中。

(5)滑动平均插值法：在时间序列中的第i个位置数据为缺失数据，则取前后一个窗口的数据的平均值，作为插补数据。

综合上述几种主流处理方式，本申请对使用的数据集中的数据进行分析，发现数据集中大部分用户时间序列的缺失值不多，并且在包含缺失值的序列中连续缺失大段序列的情况也非常少。综合上述因素，本申请采用滑动平均插值法对缺失值进行处理，时间窗大小选择为 7，以一星期7天为单位。

本申请对数据集进行预处理，采用滑动平均插值法处理数据集中的脏数据，此为模型检测工作的基础。

2.2、基于聚类分析的一级灰名单生成算法

基于聚类分析的一级灰名单生成算法的核心思想是：利用用户特征序列进行聚类分析，找到聚类类簇中成员数量较少的点，即用电行为与大多数用户用电行为不同的用户。本申请采用基于高斯混合模型的算法对用户进行聚类，最终将部分离群用户设定为可疑用户。

在此算法中存在两个重要参数为聚类类簇数量n以及聚类划分离群点的阈值k。该算法的计算效率与精度取决于这两个参数的设置，聚类类簇数量的设定以及聚类划分离群点的阈值选择过大或过小都会影响最终的计算。本申请将参数n与参数k根据实际数据集规模进行动态求解。参数n与参数k的最优求解方法如下。

2.2.1、参数n与参数k的求解方法

(1)聚类类簇数量n的求解方法

由于聚类分析中聚类的类别数量需要人工设定，在现实情况中，每个地区需要检测的用电用户的规模是不同的，武断地寻找一个最优聚类类别数量缺少一定的灵活性，所以本申请采用比例的方式进行参数选择，并选择一个最优参数进行聚类分析。本申请按照人数百分比进行聚类类簇数量的选择，并通过多组实验选择最优聚类类簇数量值。

实验设定在划分离群点的阈值保持不变的情况下，设置聚类类簇数量为总用户数的1％， 2％，3％，4％，5％，6％，7％，8％，9％，10％。将数据集随机分为四组不同数量级的数据集并将四组不同数量级的数据集进行基于无监督的用电异常行为检测，其中聚类类簇数量n按照每组对应的总数据的1-10％比例进行实验。

(2)聚类划分离群点的阈值k的求解方法

根据已经获得的参数n的最优值，进行聚类之后，如何判断哪些簇属于离群簇？判断标准依靠划分离群点的参数k，参数k决定着类簇是否为离群簇，若类簇内成员数量小于k则认为其类簇内成员为离群对象，将低于阈值k数量的簇中的用户设定为离群用户。同样在现实情况下，采用不同数量的类簇数进行聚类，则对应不同的离群点划分阈值。本申请基于最优值n进行参数k的设置，计算公式为：

k＝p/n+(a-1)·10a＝(1,2,...10) (1)；

其中，k为聚类划分离群点的阈值，p为检测的总用户数量，n为聚类类别数量，a为1-10 的自然数。

利用数据集进行聚类划分离群点的阈值实验。实验设定聚类类簇数n为对应数据集总数的4.5％，参数a取1-10的自然数。对四组不同数量级的数据集进行基于无监督的用电异常行为检测。

2.2.2、基于聚类分析的一级灰名单生成算法

算法1给出了基于聚类分析的一级灰名单生成算法过程。该算法的主要执行过程如下：首先根据高斯聚类分析方法将用户分为n个簇(算法1中的(2)-(7)步)，其中高斯概率计算公式如公式2所示。划分簇的目的是为了筛选出离群的点。接下来进行离群点筛选并将离群点加入一级灰名单中(算法1中的(10)-(11)步)。并将非离群对象加入非灰名单中 (算法1中的(12)-(13)步)。最终生成一级灰名单用户列表list1，非灰名单用户集合M。

表1基于聚类分析的一级灰名单生成算法

2.3、基于离群度计算的二级灰名单生成算法

利用上述模型可以求得可疑用电用户的一级灰名单列表，但在实地检测中发现一级灰名单列表虽然可以筛选出大量异常用电用户，但是针对大规模数据集时，往往一级灰名单列表中同样包含大量用户，检测没有针对性，造成检测效率低下。因此在算法1生成的一级灰名单基础上，提出基于离群度计算的二级灰名单生成算法。

基于离群度计算的二级灰名单生成算法核心思想如图2所示，在图2中对于C1集合的点，整体间距、密度、分散情况较为均匀一致，可以认为属于同一簇；对于C2集合的点，同样可认为属于同一簇。O1、O2点相对孤立，则认为是异常点或离散点。因此可以在总集合中计算这些异常点或离散点的离群度。

为计算一级灰名单用户的离群度，采用LOF(Local Outlier Factor，局部离群因子)算法计算一级灰名单中用户，获得每个用户的离群度值进而生成可疑度排名列表，其时间复杂度为O(n²)。其中，用户LOF值越大，可疑度越高。基于离群度计算的二级灰名单生成算法利用一级灰名单计算，解决了在计算大规模数据集时直接计算每个用户LOF值运行时间非常长的弊端。因为根据假设“异常用电用户数量远小于正常用电用户数量，即大多数人是好人”，通常情况下数据集中离群对象只占总数据集中对象的少数，假如为了找出少数的离群对象而计算所有对象的LOF值，这种做法的效率非常低，将要花费大量时间。采用离群度算法生成的二级灰名单是具有可疑度排名的用户列表，解决了一级灰名单检测无针对性的问题，可以提高现场检测的准确率以及效率。

基于以上思想，算法2给出了基于离群度计算的二级灰名单生成算法过程。该算法的主要执行过程如下：输入一级灰名单用户列表，利用公式2计算一级灰名单中用户的LOF值，并将用户LOF值按照由大到小进行排序并写入二级灰名单中(算法2中的(2)-(5)步)。目的是计算出各个离群用户的离群度即可疑程度。

定义1局部离群因子定义为：

其中，函数lrd代表局部可达密度函数，MinPts代表近邻个数，若lrd_MinPts(p)很小，则对象p的近邻的lrd_MinPts(o)将很大，则对象p的LOF值较大；反之，若p是非离群对象，则对象p和其邻域内对象的lrd数值相差较小，即对象p的LOF数值接近于1，LOF数值越高则其离群度越大。

表2基于离群度计算的二级灰名单生成算法

2.4、基于行为相似度计算的三级灰名单生成算法

由图1可知，基于半监督学习的异常用户检测模型流程可以分为以下几个具体步骤：

1)将非二级灰名单中用户集合C，以簇为单位，各簇并行的计算用户与黑名单库中用户行为相似度DTW值。

2)判断各簇中用户DTW值是否小于各簇DTW均值，若小于则将该用户加入三级灰名单中。

3)对三级灰名单进行DTW值降序排序。

4)输出三级灰名单，结束检测。

整个过程中涉及一个核心算法——基于行为相似度计算的三级灰名单生成算法。该算法采用DTW(Dynamic Time Warping，动态时间归整)算法进行用户相似度计算，主要考虑到检测用户的时间序列大多不等长，并且现阶段大部分相似度计算采用欧式距离计算法，但欧式距离计算法无法计算两个不等长序列之间的相似度。DTW算法优势在于可以将两个不等长时间序列进行延伸和缩短，来计算两个不等长序列之间的距离，进而判断两个序列的相似性。

基于行为相似度计算的三级灰名单生成算法基本思想是：偷电等异常用电行为采用的虚假手段有限，通过多轮异常检测积累，黑名单库逐渐完善更新用户异常行为，因此将待检用户与黑名单库进行行为相似度计算，找到与黑名单库中用户高相似度的用户即用电行为与黑名单中用户用电行为相似。

该算法以类簇为单位并行地与黑名单库中的用户进行计算，大大缩短了计算时间。由于黑名单库中成员较多，因此待检用户与黑名单库中每个成员都会生成一个相似度值即DTW 值。DTW算法的原理是利用黑线之间相似点距离的和(称之为归整路径距离(WarpPath Distance))来衡量两个时间序列之间的相似性。

DTW值的计算方法如下：两个时间序列X和Y，长度分别为|X|和|Y|。归整路径为 W＝w₁,w₂,...,w_k，Max(|X|,|Y|)≤K≤|X|+|Y|，wk为(i,j)，其中i是代表X中的i坐标，j是代表Y中的j坐标，归整路径W从W₁＝(1,1)开始，到wk＝(|X|,|Y|)结束，以确保X和Y中的每一个坐标都在W中出现。另外，W中w(i,j)的i和j是单调增加，这样可以使两个时间序列的中间线不会相交，这里所说的单调增加为：

w_k＝(i,j),w_k+1＝(i',j')i≤i'≤i+1,j≤j'≤j+1 (4)；

最终得到的归整路径为

D(i,j)＝Dist(i,j)+min[D(i-1,j),D(i,j-1),D(i-1,j-1)] (5)；

求得的归整路径距离为D(|X|,|Y|)，用动态规划来对其进行求解。

本申请DTW值的设置方法如图3所示。例如，用户a有三个DTW值如100，200，300，最终用户a选择其中最小的值作为其自身DTW值，用户a的DTW值最后选择为100。由于算法是以找到与黑名单库中高相似度的用户为目的，因此选择用户DTW值中的最小值，即该用户与黑名单库中行为最接近的某黑名单用户之间的距离值。

算法3给出了基于行为相似度计算的三级灰名单生成算法过程。该算法的主要执行过程如下：算法首先利用黑名单库中的用户，并行的与非灰名单用户的簇集合进行行为相似度计算(算法4.1中的(1)-(4)步)。此步目的是计算出待检用户与黑名单用户的最短距离即最大相似度。然后，计算各个类簇的DTW均值，目的是筛选出低于均值的用户，将其加入三级灰名单list3(算法4.1中的(5)-(6)步)。将其他用户加入到正常用户列表(算法3中的 (7)-(8)步)。最后将list3由小到大的顺序进行排序，形成最终版本的三级灰名单用户列表(算法3中的(10)步)。

表3基于行为相似度计算的三级灰名单生成算法

3、实验验证

3.1、数据集描述

数据集使用某地电力公司公布的用户用电量情况的数据。时间跨度从2016年1月到2017 年1月。数据集包含诚实用电用户3000个，偷电用户400个。数据集用户类型分布如表4所示。

表4用户类型分布

用户类型	数量(人)
		诚实用户(0)	3000
偷电用户(1)	400

用户的用电模式用其每天平均用电量来表示，在数据集本申请数据集的基础上可以进一步提取用户用电模式的特征量，数据集的属性详情如表5。

表5数据集属性表

3.2、实验设置

本申请提出18个用户用电负荷序列特征，并通过实验对特征进行分析归一化与降维处理，以便于将不同单位不同量级的特征进行计算。通过两组实验为本申请中的两个参数进行赋值。

本节为实验设置部分，其中3.2.1节与3.2.2为实验特征设置，3.2.3节与3.2.4节为实验参数设置。3.2.5节对非监督学习(一级灰名单、二级灰名单)和半监督学习(三级灰名单+ 黑名单库)下检测结果进行了比较与分析。值得注意的是，在实验特征设置中，3.2.1节分析本申请提出的18个特征应用于本申请数据集后特征之间的关系以及对特征进行维度规约； 3.2.2节对用电负荷序列特征进行归一化，以便于将不同单位不同量级的特征进行计算。在实验参数设置中，3.2.3节与3.2.4节分别通过实验求解本申请两个参数的最优值。

3.2.1、用电负荷序列特征

本申请分别提取了用户电量时间序列的时域特征与频域特征共18个特征。具体特征如下：

(1)时域特征

时域特征(Time domain features)是指，随时间变化时，序列与时间相关的属性特征。本申请提出了时间序列的时域特征如下：均值，方差，标准差，最大值，最小值，最大值与最小值之差，众数。我们用n来表示一个时间窗口的大小(即窗口内数据的行数)，采用i表示第i行数据，下面简要介绍一下特征的计算方法：

a.均值mean：

b.方差variance：

c.标准差standard deviation：

d.最大值max：

max＝max(a_i),i∈{1,2,...,n} 式(9)

e.最小值min：

min＝min(a_i),i∈{1,2,...,n} 式(10)

f：最大值与最小值之差：

max-min 式(11)

g：众数mod：

时间序列中出现次数最多的数即该序列的众数。

(2)频域特征

频域特征(Frequency domain feature)可以发现序列的周期性信息，频域分析主要用快速傅里叶变换。本申请提出了时间序列的频域特征如下：直流分量，图形的均值、方差、标准差、斜度、峭度，幅度的均值、方差、标准差、斜度、峭度。下面简要介绍一下特征的计算方法：

直流分量DC

直流分量(Direct Current,DC)是傅里叶变换后的第一个分量，是这些信号的均值，一般要比其他的数大很多。

图形形状的统计特征

设C(i)是第i个窗口的频率幅度值，N表示窗口数，则形状统计特征的几个量计算方式如下：

a.均值mean：

b.标准差standard deviation：

c.偏度skewness：

d.峰度kurtosis：

图形幅度的统计特征

设C(i)是第i个窗口的频率幅度值，N表示窗口数,则幅度统计特征的几个量计算方式如下：

a.均值mean：

b.标准差standard deviation：

c.偏度skewness：

d.峰度kurtosis：

3.2.2、用电负荷序列特征规约

为了高效使用特征，故对提取的所有特征做相关性分析。特征的相关性分析采用皮森相关系数(Pearson系数)。其取值范围为[-1,1]，若其绝对值越大，则正/负相关的程度越大，其值为0时则代表相互独立。利用此方法对提取的所有特征做相关性分析，得到的相关矩阵如图4所示。

图4为对本申请数据集进行特征提取形成的18个特征之间的相关度。相关度绝对越大则相关度越高，从图4可以看出，有部分特征之间有较大的相关性，其中黄色和紫色代表相关度很高(抛除对角线那条，对角线是特征与特征自身进行计算，由于数据完全一致则为1，没有任何意义)。为了消除特征之间的相关性，需对特征进行降维。本申请使用主成分分析算法(Principal Component Analysis，PCA)对数据特征进行重新构造，构造出新的相互独立的变量，消除原始特征之间重叠信息的影响。

PCA降维原理是利用协方差矩阵的特征值进行分析，最终得到数据的主成分。本节中利用PCA，去消除原始特征之间的信息重叠，增强特征的有效性。PCA计算方法如式20所示。

若用F₁、F₂、…、F_m表示原变量X₁、X₂、…、X_S的m个主成分，即

为了可视化降维之后的分类效果，本申请将特征维度降低到二维与三维。图5与图6分别为将特征降到二维与三维的效果图。图中每个点表示一个用户，其中绿色圆点代表正常用户，红色“+”点代表异常用户。异常用户对应的点大多分布在密度较低的区域。本申请基于离群点的异常检测的目的就是根据用户密度找到更多离群对象。如图可以直观的看出图6(即三维特征图)中异常用户对应的点分布在密度较低的区域明显多于图5(即二维特征图)。因此获得如下结论。

结论1：将用电用户行为特征降低到三维可以有效检测出异常用电用户。

3.2.3、用电负荷序列特征标准化

数据标准化(归一化)处理是进行数据分析得基础性工作，为了消除特征间不同量纲的影响，首先需对数据进行标准化处理。数据标准化处理是将数据进行按比例缩放，使数据落入一个较小的特定区间，使其变为无量纲的纯数值数据。通过处理后的数据可以将不同单位不同量级的特征进行计算比较，进行综合的评价。

因为本申请提取的特征需要在聚类分析中需要使用，聚类分析中需要使用到欧式聚类，因此也需要消除指标之间的量纲影响，使每个特征居于相同地位，即使每个特征具有相同的权重。通常采用的标准化方法为以下两种：

1)Z-score归一化(Z-score normalization)

此处理方法使数据符合标准正态分布，其处理函数为式5.2：

X^*＝(x-u)/σ 式(21)

其中μ为数据均值，σ为样本标准差。

2)0-1标准化方法(Min-Max normalization)。

此方法对数据进行线性变换，使数据最后归在[0,1]区间中，其处理函数为式5.3：

式中max为数据的最大值，min为数据的最小值。

本申请选择z-score标准化方法，z-score标准化方法适用于数据集中包含超出取值范围的离群数据的情况。并且用电负荷数据属于实时采集数据，有时会存在异常大错误采集情况，使用0-1标准化方法会存在较大误差。综上所述选用z-score标准化方法更加适合本申请数据集。本申请将特征标准化之后的得到的相关矩阵如图7所示。通过对图7与图4对比发现，特征集相关矩阵没有任何变化，则特征标准化没有影响之间的线性关系，不会对实验产生误差。

3.2.4、聚类类簇数量n的最优值求解

图8为依据2.2.1节中的求解方法求得结果的AUC的变化折线图，图中横坐标为聚类类簇数量占总用户数的比例，纵坐标为分类效果AUC值。

如图8可见，AUC值随百分比的取值不同而变化，变化不是单调的。因此，存在一个最优值使得AUC较大，为了寻找一个最优参数值使算法有效性最高。本申请经过多组实验验证对比分析得出参数n按照数据集总数的4％-5％比例进行取值，可以使AUC获得到最优值。因此可以获得如下结论：

结论2：聚类类簇数n按照数据集总数的4.5％进行取值时，分类效果最佳。

3.2.5、聚类划分离群点的阈值k的最优值

图9为依据2.2.1节中的求解方法求得的四组数据集在参数a取不同值下进行实验得到的 AUC变化折线图，图中横坐标为参数a的取值，纵坐标为分类效果AUC值。

由图9可见，实验中AUC随a取值的不同而变化，但变化并不是单调的。前期上升，后期属于下降状态，中间存在一个最优值使得AUC较大，本申请经过多组实验验证发现，当a取为3的时候效果最好。因此获得如下结论：

结论3：本申请聚类划分离群点的阈值k的最优取值为当a＝3时最佳。

例如，数据集中正常用户与异常用户的数量共有800人，由上节可得 n＝p*4.5％＝800*4.5％＝36(即聚类设置的类簇个数为36)，由本节可得a＝3， k＝p/n+(a-1)·10＝800÷36+(3-1)*10＝42(即划分离群点的阈值k为42)。

3.3、实验结果与分析

针对本申请提出的基于无监督学习的异常检测模型与基于半监督学习的异常检测模型进行两组实验。第一组实验是利用无监督学习异常检测模型检测本申请数据集，目的是对比利用一级灰名单的检测效率与利用二级灰名单的实地检测效率，并证明二级灰名单对实际检测的积极作用。第二组实验是对比基于无监督学习的异常检测模型与基于半监督学习的异常检测模型检测本申请数据集的检测效果差异，证明基于半监督学习的异常检测模型检测效果更好。

3.3.1、基于无监督学习的异常检测模型实验结果分析

本申请在没有黑名单的情况下采用基于无监督学习的异常检测模型检测某地电力用户是否存在偷电等异常用电行为，现对模型检测结果进行简要分析。

在模型检测实验中会产生一级灰名单与二级灰名单。一级灰名单是由基于密度的高斯混合模型聚类分析产生的。二级灰名单是在一级灰名单的基础上进行局部离群点计算形成的具有可疑度排名的列表。本章使用的实验数据集是由总数据集随机等分为三组形成的，分别命名为数据集one，数据集two,数据集three，并分别为三个数据集匹配了相应的黑名单用户(黑名单用户与对应数据集中的用户无重叠)。如图10为三组数据集产生的一级灰名单与二级灰名单的累积查全率曲线，图中横坐标代表检测率，即检测灰名单用户的数量，纵坐标代表检测效果的累积查全率(其中检测率在本实验中含义为：检测10％的二级灰名单即将此10％被检测的用户预测为异常用户，其他用户预测为正常用户，其后不再赘述)。

由图10可知，图中a，b，c图都包含两条线，位于下方的图标为大圆点的线代表一级灰名单在数据集不同检测率下的累积查全率曲线，位于上方的图标为小三角的线代表二级灰名单在数据集不同检测率下的累积查全率曲线。图中三组实验，二级灰名单的累积查全率曲线一直高于一级灰名单的累积查全率曲线，一级灰名单在检测率提高的过程中累积查全率一直处于平稳的增长状态，基本上提高10％的检测率则提高10％的查全率，此状态表明，异常用电用户是无规律的分散在一级灰名单中。

由图10明显可以看出二级灰名单累积查全率曲线存在两个增长趋势，急速增长趋势以及平稳增长趋势。当检测率小于0.3时，曲线增长非常快；当检测率大于0.3以后，曲线增长明显变慢。对异常检测来说，这两个趋势代表的含义以及重要度不同。增长快速阶段说明检测前30％的用户即可查出约70％的异常用户，后一阶段说明检测剩余70％的用户只能查出30％的异常用户，即通过检测累积查全率曲线靠前的部分的少量数据即可找到大部分的异常用户，此特点表明二级灰名单中的异常用电用户不是无规律的分散在其中，这明显区别于一节灰名单。综上所述可以获得以下结论：

结论4：二级灰名单较一级灰名单更具有检测的针对性，利用二级灰名单进行实地检测，检测效率更高。

结论5：利用二级灰名单进行实地检测，只需检测前30％的用户即可获得较高的异常查全率，即通过检测累积查全率曲线靠前部分的少量的数据即可找到大部分的异常用户。

以上实验证明：结合聚类分析与局部离群点计算的无监督学习检测模型可以高效的检测到异常用电用户。

3.3.2、基于半监督学习的检测模型实验结果分析

上一节在缺乏大量训练集的情况下采用无监督学习异常检测模型进行实验分析。无监督学习检测模型具有首次检测的优势，找出数据集的离群点，即找出高度可疑的用电行为异常的用户，进而提高供电公司实地检测的检测效率。在实际情况中，供电公司进行实地勘测的频率非常高，并且每轮勘测都会产生出黑名单用户。为了防止在单纯使用无监督学习检测模型的情况下，部分非离群点用户群体作案，所以本申请利用黑名单库用户行为信息筛选出非离群点用户中的异常用电行为用户，在上一节的基础上进一步提高检测的查全率以及准确率。采用DTW算法进行计算非离群点用户与黑名单库中用户的相似度。得到的DTW值越低则相似度越高，异常可能性越大。本申请半监督检测模型，首先通过无监督检测模型检测出数据集中的离群点，接下来对剩下被系统认为非离群点用户进行行为相似度计算。

图11为由无监督检测模型生成的二级灰名单在不同检测率下的分类准确率与半监督检测模型生成的灰名单在不同检测率下的分类准确率，图中横坐标代表检测率，即检测灰名单用户的数量，纵坐标代表检测效果的准确率。

由图11可见，图11中a，b，c图都分为两条线，下方图标为小三角的线为由无监督检测模型生成的二级灰名单在不同检测率下的分类准确率曲线，上方图标为叉号的线为半监督检测模型生成的灰名单在不同检测率下的分类准确率曲线。实验中，在三个不同的数据集上曲线的走势大多相同，由图可以直观的看出，图标为叉号的线在整个检测率提升的过程中一直高于图标为小三角的线。即在相同检测率的情况下，使用基于半监督学习的检测模型在检测过程中准确率是一直高于单纯使用基于无监督学习的检测模型。并且从图中可以看出，基于半监督学习检测模型的准确率在检测率为30％～40％左右时最高，准确率可以达到85％多，这对现场检测具有重要的价值。由上述分析可得以下结论：

结论6：基于无监督学习的检测模型适用于检测初始阶段，没有任何黑名单库的情况下。在具备一定黑名单库的情况下，使用基于半监督学习检测模型检测效果更佳。

结论7：半监督学习检测模型的准确率在检测率为30％～40％左右时可以达到85％多，对现场检测具有重要的价值。

在现实情形中，智能偷电装备愈发先进，出现团体作案的可能性非常大，增加有监督检测模型，可以高效地检测出部分团体作案行为，提高检测效率，节约人力物力财力投入。

当然，上述说明并非是对本发明的限制，本发明也并不仅限于上述举例，本技术领域的技术人员在本发明的实质范围内所做出的变化、改型、添加或替换，也应属于本发明的保护范围。

Claims

1.一种基于半监督学习的异常用电用户检测方法，其特征在于：包括以下步骤：

步骤1：数据预处理

采用滑动平均插值法对数据集进行预处理；

步骤2：基于聚类分析的一级灰名单生成

步骤3：基于离群度计算的二级灰名单生成

步骤4：基于行为相似度计算的三级灰名单生成

利用基于行为相似度计算的三级灰名单生成算法，对应匹配黑名单库中用户的异常行为，检测出各类中与黑名单用户具有相似行为特征的可疑用户，形成三级灰名单。

2.根据权利要求1所述的基于半监督学习的异常用电用户检测方法，其特征在于：在步骤2中，具体包括如下步骤：

3.根据权利要求1所述的基于半监督学习的异常用电用户检测方法，其特征在于：在步骤3中，具体包括如下步骤：

4.根据权利要求1所述的基于半监督学习的异常用电用户检测方法，其特征在于：在步骤4中，具体包括如下步骤：

步骤4.3：将三级灰名单中用户按照DTW值由小到大进行排序。