CN107247737B - 基于用电量的台区违约用电分析与挖掘方法 - Google Patents

基于用电量的台区违约用电分析与挖掘方法 Download PDF

Info

Publication number
CN107247737B
CN107247737B CN201710324524.XA CN201710324524A CN107247737B CN 107247737 B CN107247737 B CN 107247737B CN 201710324524 A CN201710324524 A CN 201710324524A CN 107247737 B CN107247737 B CN 107247737B
Authority
CN
China
Prior art keywords
data
user
electricity consumption
classification
sample
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201710324524.XA
Other languages
English (en)
Other versions
CN107247737A (zh
Inventor
胡宏
季润阳
王栋
刘园
傅靖
顾斌
刘飞
毛艳芳
胡斌
杨佩
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
State Grid Corp of China SGCC
State Grid Jiangsu Electric Power Co Ltd
Global Energy Interconnection Research Institute
Nantong Power Supply Co of State Grid Jiangsu Electric Power Co Ltd
Original Assignee
State Grid Corp of China SGCC
State Grid Jiangsu Electric Power Co Ltd
Global Energy Interconnection Research Institute
Nantong Power Supply Co of State Grid Jiangsu Electric Power Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by State Grid Corp of China SGCC, State Grid Jiangsu Electric Power Co Ltd, Global Energy Interconnection Research Institute, Nantong Power Supply Co of State Grid Jiangsu Electric Power Co Ltd filed Critical State Grid Corp of China SGCC
Priority to CN201710324524.XA priority Critical patent/CN107247737B/zh
Publication of CN107247737A publication Critical patent/CN107247737A/zh
Application granted granted Critical
Publication of CN107247737B publication Critical patent/CN107247737B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2465Query processing support for facilitating data mining operations in structured databases
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • G06F16/215Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/284Relational databases
    • G06F16/285Clustering or classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/06Energy or water supply

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Economics (AREA)
  • Health & Medical Sciences (AREA)
  • Public Health (AREA)
  • Primary Health Care (AREA)
  • Quality & Reliability (AREA)
  • Software Systems (AREA)
  • Probability & Statistics with Applications (AREA)
  • Mathematical Physics (AREA)
  • Fuzzy Systems (AREA)
  • Water Supply & Treatment (AREA)
  • General Health & Medical Sciences (AREA)
  • Human Resources & Organizations (AREA)
  • Marketing (AREA)
  • Computational Linguistics (AREA)
  • Strategic Management (AREA)
  • Tourism & Hospitality (AREA)
  • General Business, Economics & Management (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种基于用电量的台区违约用电分析与挖掘方法,包括数据收集、数据转换、数据清洗、基于用电量的K‑means聚类分析等步骤。本发明通过从用电量和用电行为两个角度对用电数据进行挖掘,K‑means作为用户用电行为挖掘的经典算法,也是本发明的重要工具。按照用户的用电量及用电行为分别进行聚类,识别每个用户在用电量及用电行为维度上的特征,综合两个角度的分析,从而检测得出疑似违约用电的客户,以此实现从海量数据中更加直观、快速地挖掘违约用电用户。

Description

基于用电量的台区违约用电分析与挖掘方法
技术领域
本发明涉及一种基于用电量的台区违约用电分析与挖掘方法。
背景技术
当前,违约用电行为主要包含如下几个方面:擅自改变用电类别;擅自超过合同约定的容量用电;擅自超过计划分配的用电指标;擅自使用已经在供电企业办理暂停使用手续的电力设备,或者擅自启用已经被供电企业查封的电力设备;擅自迁移、更动或者擅自操作供电企业的用电计量装置、电力负荷控制装置、供电设施以及约定由供电企业调度的客户受电设备;未经供电企业许可,擅自引入、供出电源或者将自备电源擅自并网。
对于上述不同类别的违约用电行为,常规用电检查手段能够帮助实现一些违约用电设备、违约引入、供出电源及违约并网等类型违约用电的识别;借助一些常规的数据统计手段,例如:按用户用电性质、电量同比、环比核查,对台区、专变用户和电量异常用户进行分析,也能排查可能存在违约用电行为的用户。但是上述手段需要大量的人工核查识别工作,效率较低且工作量大,不适合大面积的推广应用。
在用户用电行为分析中,用户用电数据覆盖面广,数据量级相差较大,为了避免由于数据量级的差异带来对用户用电行为识别带来的影响,常常采用归一化的手段,利用0-1区间的用电数据来表征用户的用电行为特征。同时,用电量也作为违约用电识别的一个指标,来辅助实现从海量用电数据中挖掘违约用电客户。
发明内容
本发明的目的在于提供一种从擅自改变用电类型的角度,基于用户历史日冻结电量数据,实现违约用电用户的挖掘,辅助人工进行违约用电的识别,从而实现识别违约用电的有效性、高效性、周期性、可扩展性的基于用电量的台区违约用电分析与挖掘方法。
本发明的技术解决方案是:
本方法主要分为两个方面,一是基于用户用电量信息的K-means聚类分析,按照台区所属的用户用电量信息进行聚类,标识各类用户的用电量差别;二是基于用户用电行为的K-means聚类分析,按照台区所属的用户用电特征进行聚类,标识不同类别用户的用电行为特征。最后再综合上述两方面的分析,将属于典型商业用电行为和商业用电量的居民用户提取出来,视作疑似违约用电的客户。
一种基于用电量的台区违约用电分析与挖掘方法,其特征是:包括下列步骤:
(一)数据收集,结合业务需求,收集台区的用户日冻结用电量数据,每一个台区的数据如下表:
用户日冻结量数据表
(二)数据转换,整理用电量数据,将上表中的日期列转换成行,使得整理后每个台区的数据中每行代表一个用户,如下表:
用户日用电量整理数据
其中,Pij(i=1,2,…,N;j=1,2,…,n)代表用户i在第j天的用电量,dj代表日期;
(三)数据清洗:经过转换之后的数据,只是在行列方向上做了一个变换,对于由于采集系统异常或者用电表更换带来的异常数据,仍需要做进一步的清洗;
主要的数据清洗方法如下:
(A)噪声数据清洗
(1)、利用数据分布特征及箱型图方法来识别单维数据集中噪声数据;
假设一组数据如下:
序号1 2 3 4…n
数据E_1E_2E_3E_4…E_n
一般情况下,对于离散程度并非非常大的数据源来说,数据自身分布将会集中在某一区域之内,所以利用数据自身分布特征来识别噪声数据,再根据箱型图的方法在数据集中域中识别离群值及异常值;
首先,将数据集切等分成α个区间,α可取1,10,100,1000,区间大小为
θ=(max(E_1,E_2,…,E_n)-min(E_1,E_2,…,E_n))/α
截取数据分布集中的区间作为数据集中域,找到数据集中域形成新数据组利用箱型图方法,对新数据组剔除离群值,得到非离群数据组[Q1-3IQR,Q3+3IQR],再取非异常数据组[Q1-1.5IQR,Q3+1.5IQR],得到目标数据;其中Q1:第一分位数,Q3:第三分位数;IQR四分位间距IQR=Q3-Q1
(2)、利用基于欧几里德距离的聚类方法来识别多维数据集中噪声数据;
一般情况下,利用数据分布特征或业务理解来识别单维数据集中噪声数据是快捷有效,但对于聚合程度高,彼此相关的多维数据而言,通过数据分布特征或业务理解来识别异常的方法便显得无能为力;面对这种窘迫的情况,聚类方法提供了识别多维数据集中噪声数据的方法;
在很多情况下,把整个记录空间聚类,能发现在字段级检查未被发现的孤立点;聚类就是将数据集分组为多个类或簇,在同一个簇中的数据对象之间具有较高的相似度,而不同簇中的对象的差别就比较大;散落在外,不能归并到任何一类中的数据称为“孤立点”或“奇异点”;对于孤立或是奇异的噪声数据进行剔除处理;
(B)缺失值清洗
在数据集中,若某记录的属性值被标记为空白或“-”等,则认为该记录存在缺失值,是不完整的数据;基于k-NN近邻填充技术的算法来处理缺失数据;
k-NN分类,训练样本用n维数值属性描述,每个样本代表n维空间的一个点,这样,所有的训练样本都存放在n维模式空间中;给定一个未知样本,k-NN分类法搜索模式空间,找出最接近未知样本的k个训练样本;这k个训练样本是未知样本的k个“近邻”;“临近性”用欧几里德距离定义,其中两个点X=(x1,x2,…,xn)和Y=(y1,y2,…,yn)的欧几里得距离是
设z是需要测试的未知样本,z=(x',y'),所有的训练样本(x,y)∈D,未知样本的最临近样本集设为Dz,K-NN分类算法的描述如下:
k是最临近样本的个数,D是训练样本集。对数据做无量纲处理,消除单位对缺失值清洗的影响;
计算未知样本与每个训练样本(x,y)之间的距离d(x',x),得到离样本z最临近的k个训练样本集DZ;
当确定了测试样本的k个“近邻”后,就根据这k个近邻相应的字段值的均值来替换该测试样本的缺失值;
(C)重复值清洗
在复杂工作环境中,由于数据多次上报,或是其他人为因素,导致数据重复值的出现是普遍的,主要使用字段相似度来识别判断重复值;
字段相似度定义:字段之间的相似度S是根据两个字段的内容而计算出的一个表示两字段相似程度的数值,O<S<1。S越小,则两字段相似程度越高;若S=0,则表示两字段为完全重复字段;根据字段的类型不同,计算方法也不相同;
布尔型字段相似度计算方法:对于布尔型字段,如果两字段相等,则相似度取0,如果不同,则相似度取1;
数值型字段相似度计算方法:对于数值型字段,可采用计算数字的相对差异;利用公式:
S(s1,s2)=|s1-s2|/(max(s1,s2))
字符型字段相似度计算方法:对于字符型字段,比较简单一种方法是,将进行匹配的两个字符串中可以互相匹配的字符个数除以两个字符串平均字符数;利用公式:
S(s1,s2)=|L|/((|s1|+|s2|)/2)
其中L是匹配的字符数;
设定阈值,当字段相似度大于阈值时,识别其为重复字段,并发出提醒,再根据实际业务理解,对重复数据做剔除或其他数据清洗操作;
(四)基于用电量的K‐means聚类分析:根据用户的日用电量信息将用户按照K‐means的思路进行分类;
S1.依据轮廓系数法确定最佳的聚类个数M;
S2.从上述数据中随机选取M个用户作为质心;
S3.从剩余的每个用户测量其到每个质心的距离,并把它归到最近质心的类别里;
S4.按照欧氏距离法,重新计算每个类别的质心;
S5.迭代S3~S4,直至新的质心与原质心相等或者小于指定阈值,算法结束;
(五)根据步骤(四)K‐means聚类得到的结果,对每个类别的用户用电量特性进行分析,确定每类用户的用电特点;
(六)基于用电行为的用户聚类分析
根据步骤(三)得到的用户用电量数据,在行的方向对用户的用电量信息进行0‐1归一化处理,公式如下:
此步骤的目的是去除数据量对用户的影响,而只考虑用户的用电行为,处理之后的数据如下表:
用户归一化日用电量数据
(七)对上述归一化之后的数据再一次进行K‐means聚类分析
S1.依据轮廓系数法确定最佳的聚类个数N;
S2.从上述数据中随机选取N个用户作为质心;
S3.从剩余的每个用户测量其到每个质心的距离,并把它归到最近质心的类别里;
S4.按照欧氏距离法,重新计算每个类别的质心;
S5.迭代S3~S4,直至新的质心与原质心相等或者小于指定阈值,算法结束;
(八)根据步骤7对归一化之后的数据进行K‐means聚类得到的结果,对每个类别的用户用电行为特性进行分析,确定每类用户的用电行为特点;
(九)综合上述分别对用电量和用电行为的聚类结果,可以看出每个用户都会有如下分类,假设基于用电量的最佳聚类个数为m,基于用电行为的最佳聚类个数为n:
ID 用电量分类 用电行为分类
id1 1 2
id2 2 1
id3 m n
idN 2 1
同时,这些用户在所属类别的分布情况如下,横向为依据用电量类别的分布情况,纵向为依据用电行为类别的分布情况:
aij(i=1,2,…,n;j=1,2,…,m)为同时属于用电行为类别i和用电量类别j的用户数统计值,满足:
(十)综合上述分布情况的统计,获取不同用电量类别的的特性及不同用电行为类别的特性,提取在两个维度上均属于商业类别且用户类型属于低压居民的用户,确定其为疑似违约用电客户。
本发明通过从用电量和用电行为两个角度对用电数据进行挖掘,K-means作为用户用电行为挖掘的经典算法,也是本发明的重要工具。按照用户的用电量及用电行为分别进行聚类,识别每个用户在用电量及用电行为维度上的特征,综合两个角度的分析,从而检测得出疑似违约用电的客户,以此实现从海量数据中更加直观、快速地挖掘违约用电用户。
主要是从擅自改变用电类型的角度,基于用户历史日冻结电量数据,实现违约用电用户的挖掘,辅助人工进行违约用电的识别,从而实现识别违约用电的有效性、高效性、周期性、可扩展性。
有效性是指,基于本发明的算法识别出的违约用电客户均属于真实违约用户。
高效性是指,基于本发明的算法,能够实现从海量数据中快速挖掘违约用电客户,不再需要人工挨个对用电客户进行检测,所以,本发明能够快速识别违约用电客户,即高效性。
周期性,对于违约用电用户的识别,是基于一定量的历史用电数据得到的,因此本发明的算法都是在一定的时间周期基础上开展的,即周期性。
可扩展性,对于违约用电用户的识别,本发明既可以在一个台区的数据量基础上执行,也可以在Hadoop框架上,实现并行化计算执行;同时,对于较小的数据量,可以支持上传文件式的挖掘,大数据量的则可以并行化实现Hive数据库的连接。
附图说明
下面结合附图和实施例对本发明作进一步说明。
图1是本发明分析思路总览图。
图2是对于孤立或是奇异的噪声数据(异常值)进行剔除处理示意图。
具体实施方式
一种基于用电量的台区违约用电分析与挖掘方法,包括下列步骤:
(一)数据收集,结合业务需求,收集台区的用户日冻结用电量数据,每一个台区的数据如下表:
用户日冻结量数据表
(二)数据转换,整理用电量数据,将上表中的日期列转换成行,使得整理后每个台区的数据中每行代表一个用户,如下表:
用户日用电量整理数据
其中,Pij(i=1,2,…,N;j=1,2,…,n)代表用户i在第j天的用电量,dj代表日期;
(三)数据清洗:经过转换之后的数据,只是在行列方向上做了一个变换,对于由于采集系统异常或者用电表更换带来的异常数据,仍需要做进一步的清洗;
主要的数据清洗方法如下:
(A)噪声数据清洗
(1)、利用数据分布特征及箱型图方法来识别单维数据集中噪声数据;
假设一组数据如下:
序号1 2 3 4…n
数据E_1E_2E_3E_4…E_n
一般情况下,对于离散程度并非非常大的数据源来说,数据自身分布将会集中在某一区域之内,所以利用数据自身分布特征来识别噪声数据,再根据箱型图的方法在数据集中域中识别离群值及异常值;
首先,将数据集切等分成α个区间,α可取1,10,100,1000,区间大小为
θ=(max(E_1,E_2,…,E_n)-min(E_1,E_2,…,E_n))/α
截取数据分布集中的区间作为数据集中域,找到数据集中域形成新数据组E;利用箱型图方法,对新数据组剔除离群值,得到非离群数据组[Q1-3IQR,Q3+3IQR],再取非异常数据组[Q1-1.5IQR,Q3+1.5IQR],得到目标数据;其中Q1:第一分位数,Q3:第三分位数;IQR四分位间距IQR=Q3-Q1
(2)、利用基于欧几里德距离的聚类方法来识别多维数据集中噪声数据;
一般情况下,利用数据分布特征或业务理解来识别单维数据集中噪声数据是快捷有效,但对于聚合程度高,彼此相关的多维数据而言,通过数据分布特征或业务理解来识别异常的方法便显得无能为力;面对这种窘迫的情况,聚类方法提供了识别多维数据集中噪声数据的方法;
在很多情况下,把整个记录空间聚类,能发现在字段级检查未被发现的孤立点;聚类就是将数据集分组为多个类或簇,在同一个簇中的数据对象之间具有较高的相似度,而不同簇中的对象的差别就比较大;散落在外,不能归并到任何一类中的数据称为“孤立点”或“奇异点”;对于孤立或是奇异的噪声数据进行剔除处理;
(B)缺失值清洗
理想情况下,数据集中的每条记录都应该是完整的。然而,存在不完整的、含噪声的数据是现有数据集的共同特点。缺失数据的出现可能有多种原因,人工输入时认为不重要而漏掉,或者被调查人不愿公布等。在数据集中,若某记录的属性值被标记为空白或“-”等,则认为该记录存在缺失值,是不完整的数据;基于k-NN近邻填充技术的算法来处理缺失数据;
k-NN分类,训练样本用n维数值属性描述,每个样本代表n维空间的一个点,这样,所有的训练样本都存放在n维模式空间中;给定一个未知样本,k-NN分类法搜索模式空间,找出最接近未知样本的k个训练样本;这k个训练样本是未知样本的k个“近邻”;“临近性”用欧几里德距离定义,其中两个点X=(x1,x2,…,xn)和Y=(y1,y2,…,yn)的欧几里得距离是
设z是需要测试的未知样本,z=(x',y'),所有的训练样本(x,y)∈D,未知样本的最临近样本集设为Dz,K-NN分类算法的描述如下:
k是最临近样本的个数,D是训练样本集。对数据做无量纲处理,消除单位对缺失值清洗的影响;
计算未知样本与每个训练样本(x,y)之间的距离d(x',x),得到离样本z最临近的k个训练样本集DZ;
当确定了测试样本的k个“近邻”后,就根据这k个近邻相应的字段值的均值来替换该测试样本的缺失值;
(C)重复值清洗
在复杂工作环境中,由于数据多次上报,或是其他人为因素,导致数据重复值的出现是普遍的,主要使用字段相似度来识别判断重复值;
字段相似度定义:字段之间的相似度S是根据两个字段的内容而计算出的一个表示两字段相似程度的数值,O<S<1。S越小,则两字段相似程度越高;若S=0,则表示两字段为完全重复字段;根据字段的类型不同,计算方法也不相同;
布尔型字段相似度计算方法:对于布尔型字段,如果两字段相等,则相似度取0,如果不同,则相似度取1;
数值型字段相似度计算方法:对于数值型字段,可采用计算数字的相对差异;利用公式:
S(s1,s2)=|s1-s2|/(max(s1,s2))
字符型字段相似度计算方法:对于字符型字段,比较简单一种方法是,将进行匹配的两个字符串中可以互相匹配的字符个数除以两个字符串平均字符数;利用公式:
S(s1,s2)=|L|/((|s1|+|s2|)/2)
其中L是匹配的字符数;
设定阈值,当字段相似度大于阈值时,识别其为重复字段,并发出提醒,再根据实际业务理解,对重复数据做剔除或其他数据清洗操作;
(四)基于用电量的K‐means聚类分析:根据用户的日用电量信息将用户按照K‐means的思路进行分类;
S1.依据轮廓系数法确定最佳的聚类个数M;
S2.从上述数据中随机选取M个用户作为质心;
S3.从剩余的每个用户测量其到每个质心的距离,并把它归到最近质心的类别里;
S4.按照欧氏距离法,重新计算每个类别的质心;
S5.迭代S3~S4,直至新的质心与原质心相等或者小于指定阈值,算法结束;
(五)根据步骤(四)K‐means聚类得到的结果,对每个类别的用户用电量特性进行分析,确定每类用户的用电特点;
(六)基于用电行为的用户聚类分析
根据步骤(三)得到的用户用电量数据,在行的方向对用户的用电量信息进行0‐1归一化处理,公式如下:
此步骤的目的是去除数据量对用户的影响,而只考虑用户的用电行为,处理之后的数据如下表:
用户归一化日用电量数据
(七)对上述归一化之后的数据再一次进行K‐means聚类分析
S1.依据轮廓系数法确定最佳的聚类个数M;
S2.从上述数据中随机选取M个用户作为质心;
S3.从剩余的每个用户测量其到每个质心的距离,并把它归到最近质心的类别里;
S4.按照欧氏距离法,重新计算每个类别的质心;
S5.迭代S3~S4,直至新的质心与原质心相等或者小于指定阈值,算法结束;
(八)根据步骤7对归一化之后的数据进行K‐means聚类得到的结果,对每个类别的用户用电行为特性进行分析,确定每类用户的用电行为特点;
(九)综合上述分别对用电量和用电行为的聚类结果,可以看出每个用户都会有如下分类,假设基于用电量的最佳聚类个数为m,基于用电行为的最佳聚类个数为n:
ID 用电量分类 用电行为分类
id1 1 2
id2 2 1
id3 m n
idN 2 1
同时,这些用户在所属类别的分布情况如下,横向为依据用电量类别的分布情况,纵向为依据用电行为类别的分布情况:
aij(i=1,2,…,n;j=1,2,…,m)为同时属于用电行为类别i和用电量类别j的用户数统计值,满足:
(十)综合上述分布情况的统计,获取不同用电量类别的的特性及不同用电行为类别的特性,提取在两个维度上均属于商业类别且用户类型属于低压居民的用户,确定其为疑似违约用电客户。

Claims (1)

1.一种基于用电量的台区违约用电分析与挖掘方法,其特征是:包括下列步骤:
(一)数据收集,结合业务需求,收集台区的用户日冻结用电量数据,每一个台区的数据如下表:
用户日冻结量数据表
(二)数据转换,整理用电量数据,将上表中的日期列转换成行,使得整理后每个台区的数据中每行代表一个用户,如下表:
用户日用电量整理数据
其中,Pij(i=1,2,…,N;j=1,2,…,n)代表用户i在第j天的用电量,dj代表日期;
(三)数据清洗:经过转换之后的数据,只是在行列方向上做了一个变换,对于由于采集系统异常或者用电表更换带来的异常数据,仍需要做进一步的清洗;
数据清洗方法如下:
(A)噪声数据清洗
(1)、利用数据分布特征及箱型图方法来识别单维数据集中噪声数据;
假设一组数据如下:
序号1 2 3 4…n
数据E_1 E_2 E_3 E_4…E_n
利用数据自身分布特征来识别噪声数据,再根据箱型图的方法在数据集中域中识别离群值及异常值;
首先,将数据集切分成α个区间,α可取1,10,100,1000,区间大小为
θ=(max(E_1,E_2,…,E_n)-min(E_1,E_2,…,E_n))/α
截取数据分布集中的区间作为数据集中域,找到数据集中域形成新数据组利用箱型图方法,对新数据组剔除离群值,得到非离群数据组[Q1-3IQR,Q3+3IQR],再取非异常数据组[Q1-1.5IQR,Q3+1.5IQR],得到目标数据;其中Q1:第一分位数,Q3:第三分位数;IQR四分位间距IQR=Q3-Q1
(2)、利用基于欧几里德距离的聚类方法来识别多维数据集中噪声数据;
聚类方法提供了识别多维数据集中噪声数据的方法;
把整个记录空间聚类,能发现在字段级检查未被发现的孤立点;聚类就是将数据集分组为多个类或簇,在同一个簇中的数据对象之间具有较高的相似度,而不同簇中的对象的差别就比较大;散落在外,不能归并到任何一类中的数据称为“孤立点”或“奇异点”;对于孤立或是奇异的噪声数据进行剔除处理;
(B)缺失值清洗
在数据集中,若某记录的属性值被标记为空白或“-”,则认为该记录存在缺失值,是不完整的数据;基于k-NN近邻填充技术的算法来处理缺失数据;
k-NN分类,训练样本用n维数值属性描述,每个样本代表n维空间的一个点,这样,所有的训练样本都存放在n维模式空间中;给定一个未知样本,k-NN分类法搜索模式空间,找出最接近未知样本的k个训练样本;这k个训练样本是未知样本的k个“近邻”;“临近性”用欧几里德距离定义,其中两个点X=(x1,x2,…,xn)和Y=(y1,y2,…,yn)的欧几里得距离是
设z是需要测试的未知样本,z=(x',y'),所有的训练样本(x,y)∈D,未知样本的最临近样本集设为Dz,K-NN分类算法的描述如下:
k是最临近样本的个数,D是训练样本集;对数据做无量纲处理,消除单位对缺失值清洗的影响;
计算未知样本与每个训练样本(x,y)之间的距离d(x',x),得到离样本z最临近的k个训练样本集DZ;
当确定了测试样本的k个“近邻”后,就根据这k个近邻相应的字段值的均值来替换该测试样本的缺失值;
(C)重复值清洗
在复杂工作环境中,由于数据多次上报,或是其他人为因素,导致数据重复值的出现是普遍的,使用字段相似度来识别判断重复值;
字段相似度定义:字段之间的相似度S是根据两个字段的内容而计算出的一个表示两字段相似程度的数值,O<S<1,S越小,则两字段相似程度越高;若S=0,则表示两字段为完全重复字段;根据字段的类型不同,计算方法也不相同;
布尔型字段相似度计算方法:对于布尔型字段,如果两字段相等,则相似度取0,如果不同,则相似度取1;
数值型字段相似度计算方法:对于数值型字段,可采用计算数字的相对差异;利用公式:
S(s1,s2)=|s1-s2|/(max(s1,s2))
字符型字段相似度计算方法:对于字符型字段,一种方法是,将进行匹配的两个字符串中可以互相匹配的字符个数除以两个字符串平均字符数;利用公式:
S(s1,s2)=|L|/((|s1|+|s2|)/2)
其中L是匹配的字符数;
设定阈值,当字段相似度大于阈值时,识别其为重复字段,并发出提醒,再根据实际业务理解,对重复数据做剔除或其他数据清洗操作;
(四)基于用电量的K‐means聚类分析:根据用户的日用电量信息将用户按照K‐means的思路进行分类;
S1.依据轮廓系数法确定最佳的聚类个数M;
S2.从上述数据中随机选取M个用户作为质心;
S3.从剩余的每个用户测量其到每个质心的距离,并把它归到最近质心的类别里;
S4.按照欧氏距离法,重新计算每个类别的质心;
S5.迭代S3~S4,直至新的质心与原质心相等或者小于指定阈值,算法结束;
(五)根据步骤(四)K‐means聚类得到的结果,对每个类别的用户用电量特性进行分析,确定每类用户的用电特点;
(六)基于用电行为的用户聚类分析
根据步骤(三)得到的用户用电量数据,在行的方向对用户的用电量信息进行0‐1归一化处理,公式如下:
此步骤的目的是去除数据量对用户的影响,而只考虑用户的用电行为,处理之后的数据如下表:
用户归一化日用电量数据
(七)对上述归一化之后的数据再一次进行K‐means聚类分析
S1.依据轮廓系数法确定最佳的聚类个数M;
S2.从上述数据中随机选取M个用户作为质心;
S3.从剩余的每个用户测量其到每个质心的距离,并把它归到最近质心的类别里;
S4.按照欧氏距离法,重新计算每个类别的质心;
S5.迭代S3~S4,直至新的质心与原质心相等或者小于指定阈值,算法结束;
(八)根据步骤(七)对归一化之后的数据进行K‐means聚类得到的结果,对每个类别的用户用电行为特性进行分析,确定每类用户的用电行为特点;
(九)综合上述分别对用电量和用电行为的聚类结果,可以看出每个用户都会有如下分类,假设基于用电量的最佳聚类个数为m,基于用电行为的最佳聚类个数为n:
ID 用电量分类 用电行为分类 id1 1 2 id2 2 1 id3 m n idN 2 1
同时,这些用户在所属类别的分布情况如下,横向为依据用电量类别的分布情况,纵向为依据用电行为类别的分布情况:
aij(i=1,2,…,n;j=1,2,…,m)为同时属于用电行为类别i和用电量类别j的用户数统计值,满足:
(十)综合上述分布情况的统计,获取不同用电量类别的的特性及不同用电行为类别的特性,提取在两个维度上均属于商业类别且用户类型属于低压居民的用户,确定其为疑似违约用电客户。
CN201710324524.XA 2017-05-10 2017-05-10 基于用电量的台区违约用电分析与挖掘方法 Active CN107247737B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710324524.XA CN107247737B (zh) 2017-05-10 2017-05-10 基于用电量的台区违约用电分析与挖掘方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710324524.XA CN107247737B (zh) 2017-05-10 2017-05-10 基于用电量的台区违约用电分析与挖掘方法

Publications (2)

Publication Number Publication Date
CN107247737A CN107247737A (zh) 2017-10-13
CN107247737B true CN107247737B (zh) 2018-12-11

Family

ID=60016481

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710324524.XA Active CN107247737B (zh) 2017-05-10 2017-05-10 基于用电量的台区违约用电分析与挖掘方法

Country Status (1)

Country Link
CN (1) CN107247737B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111177138A (zh) * 2019-12-30 2020-05-19 深圳市恒泰能源科技有限公司 电力需求侧的大数据分析方法、装置、设备及存储介质

Families Citing this family (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107908744B (zh) * 2017-11-16 2021-05-18 河南中医药大学 一种用于大数据清洗的异常检测和消除的方法
CN108009224A (zh) * 2017-11-24 2018-05-08 国网北京市电力公司 电力客户的分类方法和装置
CN107833153B (zh) * 2017-12-06 2020-11-03 广州供电局有限公司 一种基于k-means聚类的电网负荷缺失数据补全方法
CN108399277B (zh) * 2018-01-24 2021-09-21 华南理工大学 一种基于温度与应变关联性的桥梁损伤识别方法
CN108399553A (zh) * 2018-03-02 2018-08-14 江苏电力信息技术有限公司 一种考虑地理和线路从属关系的用户特征标签设定方法
CN108681973A (zh) * 2018-05-14 2018-10-19 广州供电局有限公司 电力用户的分类方法、装置、计算机设备和存储介质
CN109634940A (zh) * 2018-11-12 2019-04-16 国网天津市电力公司电力科学研究院 一种基于海量低压台区用电数据的典型低压台区用电模型构建方法
CN109752613B (zh) * 2018-12-31 2021-01-26 天津求实智源科技有限公司 基于非侵入式负荷监测的违约用电检测系统及方法
CN110175167A (zh) * 2019-05-10 2019-08-27 国网天津市电力公司电力科学研究院 一种适用于低压台区用电数据的数据清洗方法及系统
CN112651415B (zh) * 2019-10-11 2022-08-12 国网江苏省电力有限公司电力科学研究院 一种电力客户群体的用电问题挖掘方法及装置
CN110967251B (zh) * 2019-12-02 2023-07-11 湘潭大学 用于风电叶片损伤模式识别的方法
CN110969306B (zh) * 2019-12-05 2023-09-19 国网辽宁省电力有限公司沈阳供电公司 基于深度学习的配电低压台区负荷预测方法及装置
CN113298355A (zh) * 2021-04-28 2021-08-24 国网山东省电力公司菏泽供电公司 一种基于数据驱动的用电异常行为识别方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102928808A (zh) * 2012-10-29 2013-02-13 江苏省电力公司常州供电公司 电力用户现场电能表故障远程判定方法
CN103995962A (zh) * 2014-05-06 2014-08-20 国家电网公司 一种配用电线损实时在线计算分析方法
CN104779699A (zh) * 2014-01-13 2015-07-15 国网上海市电力公司 一种多功能站点线损管理系统
CN105005571A (zh) * 2014-04-23 2015-10-28 国家电网公司 支持智能用电信息可视化展示的方法及装置

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20150186827A1 (en) * 2013-12-11 2015-07-02 The Board Of Trustees Of The Leland Stanford Junior University Data-driven targeting of energy programs using time-series data

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102928808A (zh) * 2012-10-29 2013-02-13 江苏省电力公司常州供电公司 电力用户现场电能表故障远程判定方法
CN104779699A (zh) * 2014-01-13 2015-07-15 国网上海市电力公司 一种多功能站点线损管理系统
CN105005571A (zh) * 2014-04-23 2015-10-28 国家电网公司 支持智能用电信息可视化展示的方法及装置
CN103995962A (zh) * 2014-05-06 2014-08-20 国家电网公司 一种配用电线损实时在线计算分析方法

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111177138A (zh) * 2019-12-30 2020-05-19 深圳市恒泰能源科技有限公司 电力需求侧的大数据分析方法、装置、设备及存储介质

Also Published As

Publication number Publication date
CN107247737A (zh) 2017-10-13

Similar Documents

Publication Publication Date Title
CN107247737B (zh) 基于用电量的台区违约用电分析与挖掘方法
Benabdellah et al. A survey of clustering algorithms for an industrial context
CN105653444B (zh) 基于互联网日志数据的软件缺陷故障识别方法和系统
Li et al. Fuzzy clustering algorithms—review of the applications
CN108985380B (zh) 一种基于聚类集成的转辙机故障识别方法
CN102324038B (zh) 一种基于数字图像的植物种类识别方法
CN102435910B (zh) 基于支持向量分类的功率电子电路健康监测方法
CN109977132B (zh) 一种基于无监督聚类模式的学生异常行为模式分析方法
CN109947815B (zh) 一种基于离群点算法的窃电辨识方法
CN108333468B (zh) 一种有源配电网下不良数据的识别方法及装置
CN109190698B (zh) 一种网络数字虚拟资产的分类识别系统及方法
CN109934420A (zh) 一种预测员工离职的方法及系统
WO2023130774A1 (zh) 一种基于学科发展的科研能力评估用数据采集系统
CN111126820A (zh) 反窃电方法及系统
CN115312183A (zh) 医学检验报告智能解读方法及系统
CN107247954A (zh) 一种基于深度神经网络的图像离群点检测方法
CN109376790A (zh) 一种基于渗流分析的二元分类方法
CN115994131A (zh) 基于用电时序数据的居民社区特征标签计算方法及系统
Inyang et al. Visual association analytics approach to predictive modelling of students’ academic performance
CN105760471B (zh) 基于组合凸线性感知器的两类文本分类方法
Zhang et al. A new outlier detection algorithm based on fast density peak clustering outlier factor.
Shi et al. A general neural framework for classification rule mining
CN110622692A (zh) 一种甘蔗联合收割机运行状态的智能识别方法及系统
Yu et al. An automatic recognition method of journal impact factor manipulation
Zhou et al. Pre-clustering active learning method for automatic classification of building structures in urban areas

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant