CN107247737B - 基于用电量的台区违约用电分析与挖掘方法 - Google Patents
基于用电量的台区违约用电分析与挖掘方法 Download PDFInfo
- Publication number
- CN107247737B CN107247737B CN201710324524.XA CN201710324524A CN107247737B CN 107247737 B CN107247737 B CN 107247737B CN 201710324524 A CN201710324524 A CN 201710324524A CN 107247737 B CN107247737 B CN 107247737B
- Authority
- CN
- China
- Prior art keywords
- data
- user
- electricity consumption
- classification
- sample
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000005611 electricity Effects 0.000 title claims abstract description 133
- 238000000034 method Methods 0.000 title claims abstract description 60
- 238000006243 chemical reaction Methods 0.000 claims abstract description 10
- 238000003064 k means clustering Methods 0.000 claims abstract description 9
- 238000013480 data collection Methods 0.000 claims abstract description 5
- 238000012549 training Methods 0.000 claims description 23
- 230000002159 abnormal effect Effects 0.000 claims description 10
- 238000012545 processing Methods 0.000 claims description 10
- 239000012141 concentrate Substances 0.000 claims description 9
- 230000003542 behavioural effect Effects 0.000 claims description 8
- 210000000805 cytoplasm Anatomy 0.000 claims description 6
- 238000010606 normalization Methods 0.000 claims description 6
- 238000004140 cleaning Methods 0.000 claims description 5
- 238000012360 testing method Methods 0.000 claims description 5
- 238000004364 calculation method Methods 0.000 claims description 3
- 230000008014 freezing Effects 0.000 claims description 3
- 238000007710 freezing Methods 0.000 claims description 3
- 230000009466 transformation Effects 0.000 claims description 3
- 235000014676 Phragmites communis Nutrition 0.000 claims 1
- 238000011156 evaluation Methods 0.000 claims 1
- 238000005065 mining Methods 0.000 abstract description 2
- 238000001514 detection method Methods 0.000 abstract 1
- 238000013475 authorization Methods 0.000 description 11
- 238000009412 basement excavation Methods 0.000 description 3
- 238000010224 classification analysis Methods 0.000 description 2
- 239000006185 dispersion Substances 0.000 description 2
- 230000009429 distress Effects 0.000 description 2
- 235000013399 edible fruits Nutrition 0.000 description 2
- 238000006116 polymerization reaction Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2458—Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
- G06F16/2465—Query processing support for facilitating data mining operations in structured databases
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/21—Design, administration or maintenance of databases
- G06F16/215—Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/28—Databases characterised by their database models, e.g. relational or object models
- G06F16/284—Relational databases
- G06F16/285—Clustering or classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/06—Energy or water supply
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Business, Economics & Management (AREA)
- Economics (AREA)
- Health & Medical Sciences (AREA)
- Public Health (AREA)
- Primary Health Care (AREA)
- Quality & Reliability (AREA)
- Software Systems (AREA)
- Probability & Statistics with Applications (AREA)
- Mathematical Physics (AREA)
- Fuzzy Systems (AREA)
- Water Supply & Treatment (AREA)
- General Health & Medical Sciences (AREA)
- Human Resources & Organizations (AREA)
- Marketing (AREA)
- Computational Linguistics (AREA)
- Strategic Management (AREA)
- Tourism & Hospitality (AREA)
- General Business, Economics & Management (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明公开了一种基于用电量的台区违约用电分析与挖掘方法,包括数据收集、数据转换、数据清洗、基于用电量的K‑means聚类分析等步骤。本发明通过从用电量和用电行为两个角度对用电数据进行挖掘,K‑means作为用户用电行为挖掘的经典算法,也是本发明的重要工具。按照用户的用电量及用电行为分别进行聚类,识别每个用户在用电量及用电行为维度上的特征,综合两个角度的分析,从而检测得出疑似违约用电的客户,以此实现从海量数据中更加直观、快速地挖掘违约用电用户。
Description
技术领域
本发明涉及一种基于用电量的台区违约用电分析与挖掘方法。
背景技术
当前,违约用电行为主要包含如下几个方面:擅自改变用电类别;擅自超过合同约定的容量用电;擅自超过计划分配的用电指标;擅自使用已经在供电企业办理暂停使用手续的电力设备,或者擅自启用已经被供电企业查封的电力设备;擅自迁移、更动或者擅自操作供电企业的用电计量装置、电力负荷控制装置、供电设施以及约定由供电企业调度的客户受电设备;未经供电企业许可,擅自引入、供出电源或者将自备电源擅自并网。
对于上述不同类别的违约用电行为,常规用电检查手段能够帮助实现一些违约用电设备、违约引入、供出电源及违约并网等类型违约用电的识别;借助一些常规的数据统计手段,例如:按用户用电性质、电量同比、环比核查,对台区、专变用户和电量异常用户进行分析,也能排查可能存在违约用电行为的用户。但是上述手段需要大量的人工核查识别工作,效率较低且工作量大,不适合大面积的推广应用。
在用户用电行为分析中,用户用电数据覆盖面广,数据量级相差较大,为了避免由于数据量级的差异带来对用户用电行为识别带来的影响,常常采用归一化的手段,利用0-1区间的用电数据来表征用户的用电行为特征。同时,用电量也作为违约用电识别的一个指标,来辅助实现从海量用电数据中挖掘违约用电客户。
发明内容
本发明的目的在于提供一种从擅自改变用电类型的角度,基于用户历史日冻结电量数据,实现违约用电用户的挖掘,辅助人工进行违约用电的识别,从而实现识别违约用电的有效性、高效性、周期性、可扩展性的基于用电量的台区违约用电分析与挖掘方法。
本发明的技术解决方案是:
本方法主要分为两个方面,一是基于用户用电量信息的K-means聚类分析,按照台区所属的用户用电量信息进行聚类,标识各类用户的用电量差别;二是基于用户用电行为的K-means聚类分析,按照台区所属的用户用电特征进行聚类,标识不同类别用户的用电行为特征。最后再综合上述两方面的分析,将属于典型商业用电行为和商业用电量的居民用户提取出来,视作疑似违约用电的客户。
一种基于用电量的台区违约用电分析与挖掘方法,其特征是:包括下列步骤:
(一)数据收集,结合业务需求,收集台区的用户日冻结用电量数据,每一个台区的数据如下表:
用户日冻结量数据表
(二)数据转换,整理用电量数据,将上表中的日期列转换成行,使得整理后每个台区的数据中每行代表一个用户,如下表:
用户日用电量整理数据
其中,Pij(i=1,2,…,N;j=1,2,…,n)代表用户i在第j天的用电量,dj代表日期;
(三)数据清洗:经过转换之后的数据,只是在行列方向上做了一个变换,对于由于采集系统异常或者用电表更换带来的异常数据,仍需要做进一步的清洗;
主要的数据清洗方法如下:
(A)噪声数据清洗
(1)、利用数据分布特征及箱型图方法来识别单维数据集中噪声数据;
假设一组数据如下:
序号1 2 3 4…n
数据E_1E_2E_3E_4…E_n
一般情况下,对于离散程度并非非常大的数据源来说,数据自身分布将会集中在某一区域之内,所以利用数据自身分布特征来识别噪声数据,再根据箱型图的方法在数据集中域中识别离群值及异常值;
首先,将数据集切等分成α个区间,α可取1,10,100,1000,区间大小为
θ=(max(E_1,E_2,…,E_n)-min(E_1,E_2,…,E_n))/α
截取数据分布集中的区间作为数据集中域,找到数据集中域形成新数据组利用箱型图方法,对新数据组剔除离群值,得到非离群数据组[Q1-3IQR,Q3+3IQR],再取非异常数据组[Q1-1.5IQR,Q3+1.5IQR],得到目标数据;其中Q1:第一分位数,Q3:第三分位数;IQR四分位间距IQR=Q3-Q1;
(2)、利用基于欧几里德距离的聚类方法来识别多维数据集中噪声数据;
一般情况下,利用数据分布特征或业务理解来识别单维数据集中噪声数据是快捷有效,但对于聚合程度高,彼此相关的多维数据而言,通过数据分布特征或业务理解来识别异常的方法便显得无能为力;面对这种窘迫的情况,聚类方法提供了识别多维数据集中噪声数据的方法;
在很多情况下,把整个记录空间聚类,能发现在字段级检查未被发现的孤立点;聚类就是将数据集分组为多个类或簇,在同一个簇中的数据对象之间具有较高的相似度,而不同簇中的对象的差别就比较大;散落在外,不能归并到任何一类中的数据称为“孤立点”或“奇异点”;对于孤立或是奇异的噪声数据进行剔除处理;
(B)缺失值清洗
在数据集中,若某记录的属性值被标记为空白或“-”等,则认为该记录存在缺失值,是不完整的数据;基于k-NN近邻填充技术的算法来处理缺失数据;
k-NN分类,训练样本用n维数值属性描述,每个样本代表n维空间的一个点,这样,所有的训练样本都存放在n维模式空间中;给定一个未知样本,k-NN分类法搜索模式空间,找出最接近未知样本的k个训练样本;这k个训练样本是未知样本的k个“近邻”;“临近性”用欧几里德距离定义,其中两个点X=(x1,x2,…,xn)和Y=(y1,y2,…,yn)的欧几里得距离是
设z是需要测试的未知样本,z=(x',y'),所有的训练样本(x,y)∈D,未知样本的最临近样本集设为Dz,K-NN分类算法的描述如下:
k是最临近样本的个数,D是训练样本集。对数据做无量纲处理,消除单位对缺失值清洗的影响;
计算未知样本与每个训练样本(x,y)之间的距离d(x',x),得到离样本z最临近的k个训练样本集DZ;
当确定了测试样本的k个“近邻”后,就根据这k个近邻相应的字段值的均值来替换该测试样本的缺失值;
(C)重复值清洗
在复杂工作环境中,由于数据多次上报,或是其他人为因素,导致数据重复值的出现是普遍的,主要使用字段相似度来识别判断重复值;
字段相似度定义:字段之间的相似度S是根据两个字段的内容而计算出的一个表示两字段相似程度的数值,O<S<1。S越小,则两字段相似程度越高;若S=0,则表示两字段为完全重复字段;根据字段的类型不同,计算方法也不相同;
布尔型字段相似度计算方法:对于布尔型字段,如果两字段相等,则相似度取0,如果不同,则相似度取1;
数值型字段相似度计算方法:对于数值型字段,可采用计算数字的相对差异;利用公式:
S(s1,s2)=|s1-s2|/(max(s1,s2))
字符型字段相似度计算方法:对于字符型字段,比较简单一种方法是,将进行匹配的两个字符串中可以互相匹配的字符个数除以两个字符串平均字符数;利用公式:
S(s1,s2)=|L|/((|s1|+|s2|)/2)
其中L是匹配的字符数;
设定阈值,当字段相似度大于阈值时,识别其为重复字段,并发出提醒,再根据实际业务理解,对重复数据做剔除或其他数据清洗操作;
(四)基于用电量的K‐means聚类分析:根据用户的日用电量信息将用户按照K‐means的思路进行分类;
S1.依据轮廓系数法确定最佳的聚类个数M;
S2.从上述数据中随机选取M个用户作为质心;
S3.从剩余的每个用户测量其到每个质心的距离,并把它归到最近质心的类别里;
S4.按照欧氏距离法,重新计算每个类别的质心;
S5.迭代S3~S4,直至新的质心与原质心相等或者小于指定阈值,算法结束;
(五)根据步骤(四)K‐means聚类得到的结果,对每个类别的用户用电量特性进行分析,确定每类用户的用电特点;
(六)基于用电行为的用户聚类分析
根据步骤(三)得到的用户用电量数据,在行的方向对用户的用电量信息进行0‐1归一化处理,公式如下:
此步骤的目的是去除数据量对用户的影响,而只考虑用户的用电行为,处理之后的数据如下表:
用户归一化日用电量数据
(七)对上述归一化之后的数据再一次进行K‐means聚类分析
S1.依据轮廓系数法确定最佳的聚类个数N;
S2.从上述数据中随机选取N个用户作为质心;
S3.从剩余的每个用户测量其到每个质心的距离,并把它归到最近质心的类别里;
S4.按照欧氏距离法,重新计算每个类别的质心;
S5.迭代S3~S4,直至新的质心与原质心相等或者小于指定阈值,算法结束;
(八)根据步骤7对归一化之后的数据进行K‐means聚类得到的结果,对每个类别的用户用电行为特性进行分析,确定每类用户的用电行为特点;
(九)综合上述分别对用电量和用电行为的聚类结果,可以看出每个用户都会有如下分类,假设基于用电量的最佳聚类个数为m,基于用电行为的最佳聚类个数为n:
ID | 用电量分类 | 用电行为分类 |
id1 | 1 | 2 |
id2 | 2 | 1 |
id3 | m | n |
… | … | … |
idN | 2 | 1 |
同时,这些用户在所属类别的分布情况如下,横向为依据用电量类别的分布情况,纵向为依据用电行为类别的分布情况:
aij(i=1,2,…,n;j=1,2,…,m)为同时属于用电行为类别i和用电量类别j的用户数统计值,满足:
(十)综合上述分布情况的统计,获取不同用电量类别的的特性及不同用电行为类别的特性,提取在两个维度上均属于商业类别且用户类型属于低压居民的用户,确定其为疑似违约用电客户。
本发明通过从用电量和用电行为两个角度对用电数据进行挖掘,K-means作为用户用电行为挖掘的经典算法,也是本发明的重要工具。按照用户的用电量及用电行为分别进行聚类,识别每个用户在用电量及用电行为维度上的特征,综合两个角度的分析,从而检测得出疑似违约用电的客户,以此实现从海量数据中更加直观、快速地挖掘违约用电用户。
主要是从擅自改变用电类型的角度,基于用户历史日冻结电量数据,实现违约用电用户的挖掘,辅助人工进行违约用电的识别,从而实现识别违约用电的有效性、高效性、周期性、可扩展性。
有效性是指,基于本发明的算法识别出的违约用电客户均属于真实违约用户。
高效性是指,基于本发明的算法,能够实现从海量数据中快速挖掘违约用电客户,不再需要人工挨个对用电客户进行检测,所以,本发明能够快速识别违约用电客户,即高效性。
周期性,对于违约用电用户的识别,是基于一定量的历史用电数据得到的,因此本发明的算法都是在一定的时间周期基础上开展的,即周期性。
可扩展性,对于违约用电用户的识别,本发明既可以在一个台区的数据量基础上执行,也可以在Hadoop框架上,实现并行化计算执行;同时,对于较小的数据量,可以支持上传文件式的挖掘,大数据量的则可以并行化实现Hive数据库的连接。
附图说明
下面结合附图和实施例对本发明作进一步说明。
图1是本发明分析思路总览图。
图2是对于孤立或是奇异的噪声数据(异常值)进行剔除处理示意图。
具体实施方式
一种基于用电量的台区违约用电分析与挖掘方法,包括下列步骤:
(一)数据收集,结合业务需求,收集台区的用户日冻结用电量数据,每一个台区的数据如下表:
用户日冻结量数据表
(二)数据转换,整理用电量数据,将上表中的日期列转换成行,使得整理后每个台区的数据中每行代表一个用户,如下表:
用户日用电量整理数据
其中,Pij(i=1,2,…,N;j=1,2,…,n)代表用户i在第j天的用电量,dj代表日期;
(三)数据清洗:经过转换之后的数据,只是在行列方向上做了一个变换,对于由于采集系统异常或者用电表更换带来的异常数据,仍需要做进一步的清洗;
主要的数据清洗方法如下:
(A)噪声数据清洗
(1)、利用数据分布特征及箱型图方法来识别单维数据集中噪声数据;
假设一组数据如下:
序号1 2 3 4…n
数据E_1E_2E_3E_4…E_n
一般情况下,对于离散程度并非非常大的数据源来说,数据自身分布将会集中在某一区域之内,所以利用数据自身分布特征来识别噪声数据,再根据箱型图的方法在数据集中域中识别离群值及异常值;
首先,将数据集切等分成α个区间,α可取1,10,100,1000,区间大小为
θ=(max(E_1,E_2,…,E_n)-min(E_1,E_2,…,E_n))/α
截取数据分布集中的区间作为数据集中域,找到数据集中域形成新数据组E;利用箱型图方法,对新数据组剔除离群值,得到非离群数据组[Q1-3IQR,Q3+3IQR],再取非异常数据组[Q1-1.5IQR,Q3+1.5IQR],得到目标数据;其中Q1:第一分位数,Q3:第三分位数;IQR四分位间距IQR=Q3-Q1;
(2)、利用基于欧几里德距离的聚类方法来识别多维数据集中噪声数据;
一般情况下,利用数据分布特征或业务理解来识别单维数据集中噪声数据是快捷有效,但对于聚合程度高,彼此相关的多维数据而言,通过数据分布特征或业务理解来识别异常的方法便显得无能为力;面对这种窘迫的情况,聚类方法提供了识别多维数据集中噪声数据的方法;
在很多情况下,把整个记录空间聚类,能发现在字段级检查未被发现的孤立点;聚类就是将数据集分组为多个类或簇,在同一个簇中的数据对象之间具有较高的相似度,而不同簇中的对象的差别就比较大;散落在外,不能归并到任何一类中的数据称为“孤立点”或“奇异点”;对于孤立或是奇异的噪声数据进行剔除处理;
(B)缺失值清洗
理想情况下,数据集中的每条记录都应该是完整的。然而,存在不完整的、含噪声的数据是现有数据集的共同特点。缺失数据的出现可能有多种原因,人工输入时认为不重要而漏掉,或者被调查人不愿公布等。在数据集中,若某记录的属性值被标记为空白或“-”等,则认为该记录存在缺失值,是不完整的数据;基于k-NN近邻填充技术的算法来处理缺失数据;
k-NN分类,训练样本用n维数值属性描述,每个样本代表n维空间的一个点,这样,所有的训练样本都存放在n维模式空间中;给定一个未知样本,k-NN分类法搜索模式空间,找出最接近未知样本的k个训练样本;这k个训练样本是未知样本的k个“近邻”;“临近性”用欧几里德距离定义,其中两个点X=(x1,x2,…,xn)和Y=(y1,y2,…,yn)的欧几里得距离是
设z是需要测试的未知样本,z=(x',y'),所有的训练样本(x,y)∈D,未知样本的最临近样本集设为Dz,K-NN分类算法的描述如下:
k是最临近样本的个数,D是训练样本集。对数据做无量纲处理,消除单位对缺失值清洗的影响;
计算未知样本与每个训练样本(x,y)之间的距离d(x',x),得到离样本z最临近的k个训练样本集DZ;
当确定了测试样本的k个“近邻”后,就根据这k个近邻相应的字段值的均值来替换该测试样本的缺失值;
(C)重复值清洗
在复杂工作环境中,由于数据多次上报,或是其他人为因素,导致数据重复值的出现是普遍的,主要使用字段相似度来识别判断重复值;
字段相似度定义:字段之间的相似度S是根据两个字段的内容而计算出的一个表示两字段相似程度的数值,O<S<1。S越小,则两字段相似程度越高;若S=0,则表示两字段为完全重复字段;根据字段的类型不同,计算方法也不相同;
布尔型字段相似度计算方法:对于布尔型字段,如果两字段相等,则相似度取0,如果不同,则相似度取1;
数值型字段相似度计算方法:对于数值型字段,可采用计算数字的相对差异;利用公式:
S(s1,s2)=|s1-s2|/(max(s1,s2))
字符型字段相似度计算方法:对于字符型字段,比较简单一种方法是,将进行匹配的两个字符串中可以互相匹配的字符个数除以两个字符串平均字符数;利用公式:
S(s1,s2)=|L|/((|s1|+|s2|)/2)
其中L是匹配的字符数;
设定阈值,当字段相似度大于阈值时,识别其为重复字段,并发出提醒,再根据实际业务理解,对重复数据做剔除或其他数据清洗操作;
(四)基于用电量的K‐means聚类分析:根据用户的日用电量信息将用户按照K‐means的思路进行分类;
S1.依据轮廓系数法确定最佳的聚类个数M;
S2.从上述数据中随机选取M个用户作为质心;
S3.从剩余的每个用户测量其到每个质心的距离,并把它归到最近质心的类别里;
S4.按照欧氏距离法,重新计算每个类别的质心;
S5.迭代S3~S4,直至新的质心与原质心相等或者小于指定阈值,算法结束;
(五)根据步骤(四)K‐means聚类得到的结果,对每个类别的用户用电量特性进行分析,确定每类用户的用电特点;
(六)基于用电行为的用户聚类分析
根据步骤(三)得到的用户用电量数据,在行的方向对用户的用电量信息进行0‐1归一化处理,公式如下:
此步骤的目的是去除数据量对用户的影响,而只考虑用户的用电行为,处理之后的数据如下表:
用户归一化日用电量数据
(七)对上述归一化之后的数据再一次进行K‐means聚类分析
S1.依据轮廓系数法确定最佳的聚类个数M;
S2.从上述数据中随机选取M个用户作为质心;
S3.从剩余的每个用户测量其到每个质心的距离,并把它归到最近质心的类别里;
S4.按照欧氏距离法,重新计算每个类别的质心;
S5.迭代S3~S4,直至新的质心与原质心相等或者小于指定阈值,算法结束;
(八)根据步骤7对归一化之后的数据进行K‐means聚类得到的结果,对每个类别的用户用电行为特性进行分析,确定每类用户的用电行为特点;
(九)综合上述分别对用电量和用电行为的聚类结果,可以看出每个用户都会有如下分类,假设基于用电量的最佳聚类个数为m,基于用电行为的最佳聚类个数为n:
ID | 用电量分类 | 用电行为分类 |
id1 | 1 | 2 |
id2 | 2 | 1 |
id3 | m | n |
… | … | … |
idN | 2 | 1 |
同时,这些用户在所属类别的分布情况如下,横向为依据用电量类别的分布情况,纵向为依据用电行为类别的分布情况:
aij(i=1,2,…,n;j=1,2,…,m)为同时属于用电行为类别i和用电量类别j的用户数统计值,满足:
(十)综合上述分布情况的统计,获取不同用电量类别的的特性及不同用电行为类别的特性,提取在两个维度上均属于商业类别且用户类型属于低压居民的用户,确定其为疑似违约用电客户。
Claims (1)
1.一种基于用电量的台区违约用电分析与挖掘方法,其特征是:包括下列步骤:
(一)数据收集,结合业务需求,收集台区的用户日冻结用电量数据,每一个台区的数据如下表:
用户日冻结量数据表
(二)数据转换,整理用电量数据,将上表中的日期列转换成行,使得整理后每个台区的数据中每行代表一个用户,如下表:
用户日用电量整理数据
其中,Pij(i=1,2,…,N;j=1,2,…,n)代表用户i在第j天的用电量,dj代表日期;
(三)数据清洗:经过转换之后的数据,只是在行列方向上做了一个变换,对于由于采集系统异常或者用电表更换带来的异常数据,仍需要做进一步的清洗;
数据清洗方法如下:
(A)噪声数据清洗
(1)、利用数据分布特征及箱型图方法来识别单维数据集中噪声数据;
假设一组数据如下:
序号1 2 3 4…n
数据E_1 E_2 E_3 E_4…E_n
利用数据自身分布特征来识别噪声数据,再根据箱型图的方法在数据集中域中识别离群值及异常值;
首先,将数据集切分成α个区间,α可取1,10,100,1000,区间大小为
θ=(max(E_1,E_2,…,E_n)-min(E_1,E_2,…,E_n))/α
截取数据分布集中的区间作为数据集中域,找到数据集中域形成新数据组利用箱型图方法,对新数据组剔除离群值,得到非离群数据组[Q1-3IQR,Q3+3IQR],再取非异常数据组[Q1-1.5IQR,Q3+1.5IQR],得到目标数据;其中Q1:第一分位数,Q3:第三分位数;IQR四分位间距IQR=Q3-Q1;
(2)、利用基于欧几里德距离的聚类方法来识别多维数据集中噪声数据;
聚类方法提供了识别多维数据集中噪声数据的方法;
把整个记录空间聚类,能发现在字段级检查未被发现的孤立点;聚类就是将数据集分组为多个类或簇,在同一个簇中的数据对象之间具有较高的相似度,而不同簇中的对象的差别就比较大;散落在外,不能归并到任何一类中的数据称为“孤立点”或“奇异点”;对于孤立或是奇异的噪声数据进行剔除处理;
(B)缺失值清洗
在数据集中,若某记录的属性值被标记为空白或“-”,则认为该记录存在缺失值,是不完整的数据;基于k-NN近邻填充技术的算法来处理缺失数据;
k-NN分类,训练样本用n维数值属性描述,每个样本代表n维空间的一个点,这样,所有的训练样本都存放在n维模式空间中;给定一个未知样本,k-NN分类法搜索模式空间,找出最接近未知样本的k个训练样本;这k个训练样本是未知样本的k个“近邻”;“临近性”用欧几里德距离定义,其中两个点X=(x1,x2,…,xn)和Y=(y1,y2,…,yn)的欧几里得距离是
设z是需要测试的未知样本,z=(x',y'),所有的训练样本(x,y)∈D,未知样本的最临近样本集设为Dz,K-NN分类算法的描述如下:
k是最临近样本的个数,D是训练样本集;对数据做无量纲处理,消除单位对缺失值清洗的影响;
计算未知样本与每个训练样本(x,y)之间的距离d(x',x),得到离样本z最临近的k个训练样本集DZ;
当确定了测试样本的k个“近邻”后,就根据这k个近邻相应的字段值的均值来替换该测试样本的缺失值;
(C)重复值清洗
在复杂工作环境中,由于数据多次上报,或是其他人为因素,导致数据重复值的出现是普遍的,使用字段相似度来识别判断重复值;
字段相似度定义:字段之间的相似度S是根据两个字段的内容而计算出的一个表示两字段相似程度的数值,O<S<1,S越小,则两字段相似程度越高;若S=0,则表示两字段为完全重复字段;根据字段的类型不同,计算方法也不相同;
布尔型字段相似度计算方法:对于布尔型字段,如果两字段相等,则相似度取0,如果不同,则相似度取1;
数值型字段相似度计算方法:对于数值型字段,可采用计算数字的相对差异;利用公式:
S(s1,s2)=|s1-s2|/(max(s1,s2))
字符型字段相似度计算方法:对于字符型字段,一种方法是,将进行匹配的两个字符串中可以互相匹配的字符个数除以两个字符串平均字符数;利用公式:
S(s1,s2)=|L|/((|s1|+|s2|)/2)
其中L是匹配的字符数;
设定阈值,当字段相似度大于阈值时,识别其为重复字段,并发出提醒,再根据实际业务理解,对重复数据做剔除或其他数据清洗操作;
(四)基于用电量的K‐means聚类分析:根据用户的日用电量信息将用户按照K‐means的思路进行分类;
S1.依据轮廓系数法确定最佳的聚类个数M;
S2.从上述数据中随机选取M个用户作为质心;
S3.从剩余的每个用户测量其到每个质心的距离,并把它归到最近质心的类别里;
S4.按照欧氏距离法,重新计算每个类别的质心;
S5.迭代S3~S4,直至新的质心与原质心相等或者小于指定阈值,算法结束;
(五)根据步骤(四)K‐means聚类得到的结果,对每个类别的用户用电量特性进行分析,确定每类用户的用电特点;
(六)基于用电行为的用户聚类分析
根据步骤(三)得到的用户用电量数据,在行的方向对用户的用电量信息进行0‐1归一化处理,公式如下:
此步骤的目的是去除数据量对用户的影响,而只考虑用户的用电行为,处理之后的数据如下表:
用户归一化日用电量数据
(七)对上述归一化之后的数据再一次进行K‐means聚类分析
S1.依据轮廓系数法确定最佳的聚类个数M;
S2.从上述数据中随机选取M个用户作为质心;
S3.从剩余的每个用户测量其到每个质心的距离,并把它归到最近质心的类别里;
S4.按照欧氏距离法,重新计算每个类别的质心;
S5.迭代S3~S4,直至新的质心与原质心相等或者小于指定阈值,算法结束;
(八)根据步骤(七)对归一化之后的数据进行K‐means聚类得到的结果,对每个类别的用户用电行为特性进行分析,确定每类用户的用电行为特点;
(九)综合上述分别对用电量和用电行为的聚类结果,可以看出每个用户都会有如下分类,假设基于用电量的最佳聚类个数为m,基于用电行为的最佳聚类个数为n:
同时,这些用户在所属类别的分布情况如下,横向为依据用电量类别的分布情况,纵向为依据用电行为类别的分布情况:
aij(i=1,2,…,n;j=1,2,…,m)为同时属于用电行为类别i和用电量类别j的用户数统计值,满足:
(十)综合上述分布情况的统计,获取不同用电量类别的的特性及不同用电行为类别的特性,提取在两个维度上均属于商业类别且用户类型属于低压居民的用户,确定其为疑似违约用电客户。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710324524.XA CN107247737B (zh) | 2017-05-10 | 2017-05-10 | 基于用电量的台区违约用电分析与挖掘方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710324524.XA CN107247737B (zh) | 2017-05-10 | 2017-05-10 | 基于用电量的台区违约用电分析与挖掘方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN107247737A CN107247737A (zh) | 2017-10-13 |
CN107247737B true CN107247737B (zh) | 2018-12-11 |
Family
ID=60016481
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710324524.XA Active CN107247737B (zh) | 2017-05-10 | 2017-05-10 | 基于用电量的台区违约用电分析与挖掘方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN107247737B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111177138A (zh) * | 2019-12-30 | 2020-05-19 | 深圳市恒泰能源科技有限公司 | 电力需求侧的大数据分析方法、装置、设备及存储介质 |
Families Citing this family (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107908744B (zh) * | 2017-11-16 | 2021-05-18 | 河南中医药大学 | 一种用于大数据清洗的异常检测和消除的方法 |
CN108009224A (zh) * | 2017-11-24 | 2018-05-08 | 国网北京市电力公司 | 电力客户的分类方法和装置 |
CN107833153B (zh) * | 2017-12-06 | 2020-11-03 | 广州供电局有限公司 | 一种基于k-means聚类的电网负荷缺失数据补全方法 |
CN108399277B (zh) * | 2018-01-24 | 2021-09-21 | 华南理工大学 | 一种基于温度与应变关联性的桥梁损伤识别方法 |
CN108399553A (zh) * | 2018-03-02 | 2018-08-14 | 江苏电力信息技术有限公司 | 一种考虑地理和线路从属关系的用户特征标签设定方法 |
CN108681973A (zh) * | 2018-05-14 | 2018-10-19 | 广州供电局有限公司 | 电力用户的分类方法、装置、计算机设备和存储介质 |
CN109634940A (zh) * | 2018-11-12 | 2019-04-16 | 国网天津市电力公司电力科学研究院 | 一种基于海量低压台区用电数据的典型低压台区用电模型构建方法 |
CN109752613B (zh) * | 2018-12-31 | 2021-01-26 | 天津求实智源科技有限公司 | 基于非侵入式负荷监测的违约用电检测系统及方法 |
CN110175167A (zh) * | 2019-05-10 | 2019-08-27 | 国网天津市电力公司电力科学研究院 | 一种适用于低压台区用电数据的数据清洗方法及系统 |
CN112651415B (zh) * | 2019-10-11 | 2022-08-12 | 国网江苏省电力有限公司电力科学研究院 | 一种电力客户群体的用电问题挖掘方法及装置 |
CN110967251B (zh) * | 2019-12-02 | 2023-07-11 | 湘潭大学 | 用于风电叶片损伤模式识别的方法 |
CN110969306B (zh) * | 2019-12-05 | 2023-09-19 | 国网辽宁省电力有限公司沈阳供电公司 | 基于深度学习的配电低压台区负荷预测方法及装置 |
CN113298355A (zh) * | 2021-04-28 | 2021-08-24 | 国网山东省电力公司菏泽供电公司 | 一种基于数据驱动的用电异常行为识别方法 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102928808A (zh) * | 2012-10-29 | 2013-02-13 | 江苏省电力公司常州供电公司 | 电力用户现场电能表故障远程判定方法 |
CN103995962A (zh) * | 2014-05-06 | 2014-08-20 | 国家电网公司 | 一种配用电线损实时在线计算分析方法 |
CN104779699A (zh) * | 2014-01-13 | 2015-07-15 | 国网上海市电力公司 | 一种多功能站点线损管理系统 |
CN105005571A (zh) * | 2014-04-23 | 2015-10-28 | 国家电网公司 | 支持智能用电信息可视化展示的方法及装置 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20150186827A1 (en) * | 2013-12-11 | 2015-07-02 | The Board Of Trustees Of The Leland Stanford Junior University | Data-driven targeting of energy programs using time-series data |
-
2017
- 2017-05-10 CN CN201710324524.XA patent/CN107247737B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102928808A (zh) * | 2012-10-29 | 2013-02-13 | 江苏省电力公司常州供电公司 | 电力用户现场电能表故障远程判定方法 |
CN104779699A (zh) * | 2014-01-13 | 2015-07-15 | 国网上海市电力公司 | 一种多功能站点线损管理系统 |
CN105005571A (zh) * | 2014-04-23 | 2015-10-28 | 国家电网公司 | 支持智能用电信息可视化展示的方法及装置 |
CN103995962A (zh) * | 2014-05-06 | 2014-08-20 | 国家电网公司 | 一种配用电线损实时在线计算分析方法 |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111177138A (zh) * | 2019-12-30 | 2020-05-19 | 深圳市恒泰能源科技有限公司 | 电力需求侧的大数据分析方法、装置、设备及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN107247737A (zh) | 2017-10-13 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107247737B (zh) | 基于用电量的台区违约用电分析与挖掘方法 | |
Benabdellah et al. | A survey of clustering algorithms for an industrial context | |
CN105653444B (zh) | 基于互联网日志数据的软件缺陷故障识别方法和系统 | |
Li et al. | Fuzzy clustering algorithms—review of the applications | |
CN108985380B (zh) | 一种基于聚类集成的转辙机故障识别方法 | |
CN102324038B (zh) | 一种基于数字图像的植物种类识别方法 | |
CN102435910B (zh) | 基于支持向量分类的功率电子电路健康监测方法 | |
CN109977132B (zh) | 一种基于无监督聚类模式的学生异常行为模式分析方法 | |
CN109947815B (zh) | 一种基于离群点算法的窃电辨识方法 | |
CN108333468B (zh) | 一种有源配电网下不良数据的识别方法及装置 | |
CN109190698B (zh) | 一种网络数字虚拟资产的分类识别系统及方法 | |
CN109934420A (zh) | 一种预测员工离职的方法及系统 | |
WO2023130774A1 (zh) | 一种基于学科发展的科研能力评估用数据采集系统 | |
CN111126820A (zh) | 反窃电方法及系统 | |
CN115312183A (zh) | 医学检验报告智能解读方法及系统 | |
CN107247954A (zh) | 一种基于深度神经网络的图像离群点检测方法 | |
CN109376790A (zh) | 一种基于渗流分析的二元分类方法 | |
CN115994131A (zh) | 基于用电时序数据的居民社区特征标签计算方法及系统 | |
Inyang et al. | Visual association analytics approach to predictive modelling of students’ academic performance | |
CN105760471B (zh) | 基于组合凸线性感知器的两类文本分类方法 | |
Zhang et al. | A new outlier detection algorithm based on fast density peak clustering outlier factor. | |
Shi et al. | A general neural framework for classification rule mining | |
CN110622692A (zh) | 一种甘蔗联合收割机运行状态的智能识别方法及系统 | |
Yu et al. | An automatic recognition method of journal impact factor manipulation | |
Zhou et al. | Pre-clustering active learning method for automatic classification of building structures in urban areas |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |