CN107247737B

CN107247737B - 基于用电量的台区违约用电分析与挖掘方法

Info

Publication number: CN107247737B
Application number: CN201710324524.XA
Authority: CN
Inventors: 胡宏; 季润阳; 王栋; 刘园; 傅靖; 顾斌; 刘飞; 毛艳芳; 胡斌; 杨佩
Original assignee: State Grid Corp of China SGCC; State Grid Jiangsu Electric Power Co Ltd; Global Energy Interconnection Research Institute; Nantong Power Supply Co of State Grid Jiangsu Electric Power Co Ltd
Current assignee: State Grid Corp of China SGCC; State Grid Jiangsu Electric Power Co Ltd; Global Energy Interconnection Research Institute; Nantong Power Supply Co of State Grid Jiangsu Electric Power Co Ltd
Priority date: 2017-05-10
Filing date: 2017-05-10
Publication date: 2018-12-11
Anticipated expiration: 2037-05-10
Also published as: CN107247737A

Abstract

本发明公开了一种基于用电量的台区违约用电分析与挖掘方法，包括数据收集、数据转换、数据清洗、基于用电量的K‑means聚类分析等步骤。本发明通过从用电量和用电行为两个角度对用电数据进行挖掘，K‑means作为用户用电行为挖掘的经典算法，也是本发明的重要工具。按照用户的用电量及用电行为分别进行聚类，识别每个用户在用电量及用电行为维度上的特征，综合两个角度的分析，从而检测得出疑似违约用电的客户，以此实现从海量数据中更加直观、快速地挖掘违约用电用户。

Description

基于用电量的台区违约用电分析与挖掘方法

技术领域

本发明涉及一种基于用电量的台区违约用电分析与挖掘方法。

背景技术

当前，违约用电行为主要包含如下几个方面：擅自改变用电类别；擅自超过合同约定的容量用电；擅自超过计划分配的用电指标；擅自使用已经在供电企业办理暂停使用手续的电力设备，或者擅自启用已经被供电企业查封的电力设备；擅自迁移、更动或者擅自操作供电企业的用电计量装置、电力负荷控制装置、供电设施以及约定由供电企业调度的客户受电设备；未经供电企业许可，擅自引入、供出电源或者将自备电源擅自并网。

对于上述不同类别的违约用电行为，常规用电检查手段能够帮助实现一些违约用电设备、违约引入、供出电源及违约并网等类型违约用电的识别；借助一些常规的数据统计手段，例如：按用户用电性质、电量同比、环比核查，对台区、专变用户和电量异常用户进行分析，也能排查可能存在违约用电行为的用户。但是上述手段需要大量的人工核查识别工作，效率较低且工作量大，不适合大面积的推广应用。

在用户用电行为分析中，用户用电数据覆盖面广，数据量级相差较大，为了避免由于数据量级的差异带来对用户用电行为识别带来的影响，常常采用归一化的手段，利用0-1区间的用电数据来表征用户的用电行为特征。同时，用电量也作为违约用电识别的一个指标，来辅助实现从海量用电数据中挖掘违约用电客户。

发明内容

本发明的目的在于提供一种从擅自改变用电类型的角度，基于用户历史日冻结电量数据，实现违约用电用户的挖掘，辅助人工进行违约用电的识别，从而实现识别违约用电的有效性、高效性、周期性、可扩展性的基于用电量的台区违约用电分析与挖掘方法。

本发明的技术解决方案是：

本方法主要分为两个方面，一是基于用户用电量信息的K-means聚类分析，按照台区所属的用户用电量信息进行聚类，标识各类用户的用电量差别；二是基于用户用电行为的K-means聚类分析，按照台区所属的用户用电特征进行聚类，标识不同类别用户的用电行为特征。最后再综合上述两方面的分析，将属于典型商业用电行为和商业用电量的居民用户提取出来，视作疑似违约用电的客户。

一种基于用电量的台区违约用电分析与挖掘方法，其特征是：包括下列步骤：

(一)数据收集，结合业务需求，收集台区的用户日冻结用电量数据，每一个台区的数据如下表：

用户日冻结量数据表

(二)数据转换，整理用电量数据，将上表中的日期列转换成行，使得整理后每个台区的数据中每行代表一个用户，如下表：

用户日用电量整理数据

其中，P_ij(i＝1,2,…,N；j＝1,2,…,n)代表用户i在第j天的用电量，d_j代表日期；

(三)数据清洗：经过转换之后的数据，只是在行列方向上做了一个变换，对于由于采集系统异常或者用电表更换带来的异常数据，仍需要做进一步的清洗；

主要的数据清洗方法如下：

(A)噪声数据清洗

(1)、利用数据分布特征及箱型图方法来识别单维数据集中噪声数据；

假设一组数据如下：

序号1 2 3 4…n

数据E_1E_2E_3E_4…E_n

一般情况下，对于离散程度并非非常大的数据源来说，数据自身分布将会集中在某一区域之内，所以利用数据自身分布特征来识别噪声数据，再根据箱型图的方法在数据集中域中识别离群值及异常值；

首先，将数据集切等分成α个区间，α可取1,10,100,1000，区间大小为

θ＝(max(E_1,E_2,…,E_n)-min(E_1,E_2,…,E_n))/α

截取数据分布集中的区间作为数据集中域，找到数据集中域形成新数据组利用箱型图方法，对新数据组剔除离群值，得到非离群数据组[Q₁-3IQR,Q₃+3IQR]，再取非异常数据组[Q₁-1.5IQR,Q₃+1.5IQR]，得到目标数据；其中Q₁：第一分位数，Q₃：第三分位数；IQR四分位间距IQR＝Q₃-Q₁；

(2)、利用基于欧几里德距离的聚类方法来识别多维数据集中噪声数据；

一般情况下，利用数据分布特征或业务理解来识别单维数据集中噪声数据是快捷有效，但对于聚合程度高，彼此相关的多维数据而言，通过数据分布特征或业务理解来识别异常的方法便显得无能为力；面对这种窘迫的情况，聚类方法提供了识别多维数据集中噪声数据的方法；

在很多情况下，把整个记录空间聚类，能发现在字段级检查未被发现的孤立点；聚类就是将数据集分组为多个类或簇，在同一个簇中的数据对象之间具有较高的相似度，而不同簇中的对象的差别就比较大；散落在外，不能归并到任何一类中的数据称为“孤立点”或“奇异点”；对于孤立或是奇异的噪声数据进行剔除处理；

(B)缺失值清洗

在数据集中，若某记录的属性值被标记为空白或“-”等，则认为该记录存在缺失值，是不完整的数据；基于k-NN近邻填充技术的算法来处理缺失数据；

k-NN分类，训练样本用n维数值属性描述，每个样本代表n维空间的一个点，这样，所有的训练样本都存放在n维模式空间中；给定一个未知样本，k-NN分类法搜索模式空间，找出最接近未知样本的k个训练样本；这k个训练样本是未知样本的k个“近邻”；“临近性”用欧几里德距离定义，其中两个点X＝(x₁,x₂,…,x_n)和Y＝(y₁,y₂,…,y_n)的欧几里得距离是

设z是需要测试的未知样本，z＝(x',y')，所有的训练样本(x,y)∈D，未知样本的最临近样本集设为Dz，K-NN分类算法的描述如下：

k是最临近样本的个数，D是训练样本集。对数据做无量纲处理，消除单位对缺失值清洗的影响；

计算未知样本与每个训练样本(x,y)之间的距离d(x',x)，得到离样本z最临近的k个训练样本集DZ；

当确定了测试样本的k个“近邻”后，就根据这k个近邻相应的字段值的均值来替换该测试样本的缺失值；

(C)重复值清洗

在复杂工作环境中，由于数据多次上报，或是其他人为因素，导致数据重复值的出现是普遍的，主要使用字段相似度来识别判断重复值；

字段相似度定义：字段之间的相似度S是根据两个字段的内容而计算出的一个表示两字段相似程度的数值，O<S<1。S越小，则两字段相似程度越高；若S＝0，则表示两字段为完全重复字段；根据字段的类型不同，计算方法也不相同；

布尔型字段相似度计算方法：对于布尔型字段，如果两字段相等，则相似度取0，如果不同，则相似度取1；

数值型字段相似度计算方法：对于数值型字段，可采用计算数字的相对差异；利用公式：

S(s₁,s₂)＝|s₁-s₂|/(max(s₁,s₂))

字符型字段相似度计算方法：对于字符型字段，比较简单一种方法是，将进行匹配的两个字符串中可以互相匹配的字符个数除以两个字符串平均字符数；利用公式：

S(s₁,s₂)＝|L|/((|s₁|+|s₂|)/2)

其中L是匹配的字符数；

设定阈值，当字段相似度大于阈值时，识别其为重复字段，并发出提醒，再根据实际业务理解，对重复数据做剔除或其他数据清洗操作；

(四)基于用电量的K‐means聚类分析：根据用户的日用电量信息将用户按照K‐means的思路进行分类；

S1.依据轮廓系数法确定最佳的聚类个数M；

S2.从上述数据中随机选取M个用户作为质心；

S3.从剩余的每个用户测量其到每个质心的距离，并把它归到最近质心的类别里；

S4.按照欧氏距离法，重新计算每个类别的质心；

S5.迭代S3～S4，直至新的质心与原质心相等或者小于指定阈值，算法结束；

(五)根据步骤(四)K‐means聚类得到的结果，对每个类别的用户用电量特性进行分析，确定每类用户的用电特点；

(六)基于用电行为的用户聚类分析

根据步骤(三)得到的用户用电量数据，在行的方向对用户的用电量信息进行0‐1归一化处理，公式如下：

此步骤的目的是去除数据量对用户的影响，而只考虑用户的用电行为，处理之后的数据如下表：

用户归一化日用电量数据

(七)对上述归一化之后的数据再一次进行K‐means聚类分析

S1.依据轮廓系数法确定最佳的聚类个数N；

S2.从上述数据中随机选取N个用户作为质心；

S4.按照欧氏距离法，重新计算每个类别的质心；

(八)根据步骤7对归一化之后的数据进行K‐means聚类得到的结果，对每个类别的用户用电行为特性进行分析，确定每类用户的用电行为特点；

(九)综合上述分别对用电量和用电行为的聚类结果，可以看出每个用户都会有如下分类，假设基于用电量的最佳聚类个数为m，基于用电行为的最佳聚类个数为n：

ID	用电量分类	用电行为分类
			id₁	1	2
id₂	2	1
			id₃	m	n
…	…	…
			id_N	2	1

同时，这些用户在所属类别的分布情况如下，横向为依据用电量类别的分布情况，纵向为依据用电行为类别的分布情况：

a_ij(i＝1,2,…,n；j＝1,2,…,m)为同时属于用电行为类别i和用电量类别j的用户数统计值，满足：

(十)综合上述分布情况的统计，获取不同用电量类别的的特性及不同用电行为类别的特性，提取在两个维度上均属于商业类别且用户类型属于低压居民的用户，确定其为疑似违约用电客户。

本发明通过从用电量和用电行为两个角度对用电数据进行挖掘，K-means作为用户用电行为挖掘的经典算法，也是本发明的重要工具。按照用户的用电量及用电行为分别进行聚类，识别每个用户在用电量及用电行为维度上的特征，综合两个角度的分析，从而检测得出疑似违约用电的客户，以此实现从海量数据中更加直观、快速地挖掘违约用电用户。

主要是从擅自改变用电类型的角度，基于用户历史日冻结电量数据，实现违约用电用户的挖掘，辅助人工进行违约用电的识别，从而实现识别违约用电的有效性、高效性、周期性、可扩展性。

有效性是指，基于本发明的算法识别出的违约用电客户均属于真实违约用户。

高效性是指，基于本发明的算法，能够实现从海量数据中快速挖掘违约用电客户，不再需要人工挨个对用电客户进行检测，所以，本发明能够快速识别违约用电客户，即高效性。

周期性，对于违约用电用户的识别，是基于一定量的历史用电数据得到的，因此本发明的算法都是在一定的时间周期基础上开展的，即周期性。

可扩展性，对于违约用电用户的识别，本发明既可以在一个台区的数据量基础上执行，也可以在Hadoop框架上，实现并行化计算执行；同时，对于较小的数据量，可以支持上传文件式的挖掘，大数据量的则可以并行化实现Hive数据库的连接。

附图说明

下面结合附图和实施例对本发明作进一步说明。

图1是本发明分析思路总览图。

图2是对于孤立或是奇异的噪声数据(异常值)进行剔除处理示意图。

具体实施方式

一种基于用电量的台区违约用电分析与挖掘方法，包括下列步骤：

用户日冻结量数据表

用户日用电量整理数据

主要的数据清洗方法如下：

(A)噪声数据清洗

假设一组数据如下：

序号1 2 3 4…n

数据E_1E_2E_3E_4…E_n

θ＝(max(E_1,E_2,…,E_n)-min(E_1,E_2,…,E_n))/α

截取数据分布集中的区间作为数据集中域，找到数据集中域形成新数据组E；利用箱型图方法，对新数据组剔除离群值，得到非离群数据组[Q₁-3IQR,Q₃+3IQR]，再取非异常数据组[Q₁-1.5IQR,Q₃+1.5IQR]，得到目标数据；其中Q₁：第一分位数，Q₃：第三分位数；IQR四分位间距IQR＝Q₃-Q₁；

(B)缺失值清洗

理想情况下，数据集中的每条记录都应该是完整的。然而，存在不完整的、含噪声的数据是现有数据集的共同特点。缺失数据的出现可能有多种原因，人工输入时认为不重要而漏掉，或者被调查人不愿公布等。在数据集中，若某记录的属性值被标记为空白或“-”等，则认为该记录存在缺失值，是不完整的数据；基于k-NN近邻填充技术的算法来处理缺失数据；

(C)重复值清洗

S(s₁,s₂)＝|s₁-s₂|/(max(s₁,s₂))

S(s₁,s₂)＝|L|/((|s₁|+|s₂|)/2)

其中L是匹配的字符数；

S1.依据轮廓系数法确定最佳的聚类个数M；

S2.从上述数据中随机选取M个用户作为质心；

S4.按照欧氏距离法，重新计算每个类别的质心；

(六)基于用电行为的用户聚类分析

用户归一化日用电量数据

(七)对上述归一化之后的数据再一次进行K‐means聚类分析

S1.依据轮廓系数法确定最佳的聚类个数M；

S2.从上述数据中随机选取M个用户作为质心；

S4.按照欧氏距离法，重新计算每个类别的质心；

a_ij(i＝1,2,…,n；j＝1,2,…，m)为同时属于用电行为类别i和用电量类别j的用户数统计值，满足：

Claims

1.一种基于用电量的台区违约用电分析与挖掘方法，其特征是：包括下列步骤：

用户日冻结量数据表

用户日用电量整理数据

数据清洗方法如下：

(A)噪声数据清洗

假设一组数据如下：

序号1 2 3 4…n

数据E_1 E_2 E_3 E_4…E_n

利用数据自身分布特征来识别噪声数据，再根据箱型图的方法在数据集中域中识别离群值及异常值；

首先，将数据集切分成α个区间，α可取1,10,100,1000，区间大小为

θ＝(max(E_1,E_2,…,E_n)-min(E_1,E_2,…,E_n))/α

聚类方法提供了识别多维数据集中噪声数据的方法；

把整个记录空间聚类，能发现在字段级检查未被发现的孤立点；聚类就是将数据集分组为多个类或簇，在同一个簇中的数据对象之间具有较高的相似度，而不同簇中的对象的差别就比较大；散落在外，不能归并到任何一类中的数据称为“孤立点”或“奇异点”；对于孤立或是奇异的噪声数据进行剔除处理；

(B)缺失值清洗

在数据集中，若某记录的属性值被标记为空白或“-”，则认为该记录存在缺失值，是不完整的数据；基于k-NN近邻填充技术的算法来处理缺失数据；

k是最临近样本的个数，D是训练样本集；对数据做无量纲处理，消除单位对缺失值清洗的影响；

(C)重复值清洗

在复杂工作环境中，由于数据多次上报，或是其他人为因素，导致数据重复值的出现是普遍的，使用字段相似度来识别判断重复值；

字段相似度定义：字段之间的相似度S是根据两个字段的内容而计算出的一个表示两字段相似程度的数值，O<S<1，S越小，则两字段相似程度越高；若S＝0，则表示两字段为完全重复字段；根据字段的类型不同，计算方法也不相同；

S(s₁,s₂)＝|s₁-s₂|/(max(s₁,s₂))

字符型字段相似度计算方法：对于字符型字段，一种方法是，将进行匹配的两个字符串中可以互相匹配的字符个数除以两个字符串平均字符数；利用公式：

S(s₁,s₂)＝|L|/((|s₁|+|s₂|)/2)

其中L是匹配的字符数；

S1.依据轮廓系数法确定最佳的聚类个数M；

S2.从上述数据中随机选取M个用户作为质心；

S4.按照欧氏距离法，重新计算每个类别的质心；

(六)基于用电行为的用户聚类分析

用户归一化日用电量数据

(七)对上述归一化之后的数据再一次进行K‐means聚类分析

S1.依据轮廓系数法确定最佳的聚类个数M；

S2.从上述数据中随机选取M个用户作为质心；

S4.按照欧氏距离法，重新计算每个类别的质心；

(八)根据步骤(七)对归一化之后的数据进行K‐means聚类得到的结果，对每个类别的用户用电行为特性进行分析，确定每类用户的用电行为特点；

ID 用电量分类用电行为分类 id₁ 1 2 id₂ 2 1 id₃ m n … … … id_N 2 1