CN112712442B - 一种基于多维聚类的电力用户超容诊断方法 - Google Patents

一种基于多维聚类的电力用户超容诊断方法 Download PDF

Info

Publication number
CN112712442B
CN112712442B CN202011612258.9A CN202011612258A CN112712442B CN 112712442 B CN112712442 B CN 112712442B CN 202011612258 A CN202011612258 A CN 202011612258A CN 112712442 B CN112712442 B CN 112712442B
Authority
CN
China
Prior art keywords
clustering
super
capacity
user
electric quantity
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202011612258.9A
Other languages
English (en)
Other versions
CN112712442A (zh
Inventor
庄琛
景伟强
周晨晖
刘兴平
章琛敏
陆艳
安东
宋松
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Marketing Service Center of State Grid Zhejiang Electric Power Co Ltd
Original Assignee
Marketing Service Center of State Grid Zhejiang Electric Power Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Marketing Service Center of State Grid Zhejiang Electric Power Co Ltd filed Critical Marketing Service Center of State Grid Zhejiang Electric Power Co Ltd
Priority to CN202011612258.9A priority Critical patent/CN112712442B/zh
Publication of CN112712442A publication Critical patent/CN112712442A/zh
Application granted granted Critical
Publication of CN112712442B publication Critical patent/CN112712442B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/06Energy or water supply
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/231Hierarchical techniques, i.e. dividing or merging pattern sets so as to obtain a dendrogram
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
    • G06F18/23213Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Business, Economics & Management (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Economics (AREA)
  • Public Health (AREA)
  • Water Supply & Treatment (AREA)
  • General Business, Economics & Management (AREA)
  • General Health & Medical Sciences (AREA)
  • Tourism & Hospitality (AREA)
  • Strategic Management (AREA)
  • Human Resources & Organizations (AREA)
  • Primary Health Care (AREA)
  • Marketing (AREA)
  • Probability & Statistics with Applications (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种基于多维聚类的电力用户超容诊断方法,涉及电力异常用电监测方法领域。供电企业在违约用电排查工作中,依赖大量人工经验、走线排查等常规手段,需要对海量的客户用电负荷数据进行人工筛选,工作量大,工作周期长,排查效率低,核查准确率低。本方法在获取用户用电信息的基础上计算出峰实际电量与理论峰电量比值FDLB、谷实际电量与谷尖峰电量比值GDLB、GDLB和总用电量比值ZDLB,然后进行基于超容和非超容分界线的四项判断,自动识别超容用户。方法简单,快捷,降低了工作量,提高了核查准确率。

Description

一种基于多维聚类的电力用户超容诊断方法
技术领域
本发明涉及电力异常用电监测方法领域,尤其涉及一种基于多维聚类的电力用户超容诊断方法。
背景技术
超容用电是指电力客户违反供用电合同约定,超过申请容量的用电行为。这种违约用电行为,极大程度上扰乱了正常供用电秩序,损害了供电企业的利益,且对客户的用电安全产生较大威胁。目前,随着用电检查业务和人员的弱化,以及客户各种超容技术手段的应用,在规范现场用电方面仍存在着诸多管理难题,异常用电问题形势严峻。
由于缺乏高效的异常用电智能检测系统以及精准的异常用电监测预警分析方法,供电企业在违约用电排查工作中,只能依赖于大量的人工经验、走线排查等常规手段,首先在用电信息采集系统中对海量的客户用电负荷数据进行人工筛选,发现并核查出疑似超容用户后,再赴客户现场进行用电规范性排查,工作量大,工作周期长,排查效率低,核查准确率低。
发明内容
本发明要解决的技术问题和提出的技术任务是对现有技术方案进行完善与改进,提供一种基于多维聚类的电力用户超容诊断方法,以实现超容用户的自动甄别为目的。为此,本发明采取以下技术方案。
一种基于多维聚类的电力用户超容诊断方法,包括以下步骤:
1)获取用户用电信息数据;
2)从用户用电信息数据中计算出峰实际电量与理论峰电量比值FDLB、谷实际电量与谷尖峰电量比值GDLB,然后计算出GDLB和总用电量比值ZDLB;
3)对下列四项进行判断,若均为真,则执行下一步,若至少一项为假,则执行步骤5),
项一:-0.2413×FDLB+1.3525×GDLB-0.7754>0,if 0≤FDLB<0.1971;
项二:0.6790×FDLB-0.6730×GDLB-0.2757<0,if 0.1971≤FDLB<0.5603;
项三:0.5474×FDLB+1.1770×GDLB-1.4542>0,if 0.5603≤FDLB;
项四:0.7318×GDLB+0.4112×ZDLB-0.7548>0;
4)判断当前用户为超容用户,返回步骤1)继续下一用户判断;
5)则判断为非超容用户,返回步骤1)继续下一用户判断。
相对于完全的传统人工经验和走线排查等常规手段,通过本方法能方便地自动识别超容用户,大大降低了工作量,提高了核查准确率,有助于提升营销精益化管理水平,为供电企业防范经营风险提供有效保障,避免扰乱用电秩序和危害用电安全的事件发生。
作为优选技术手段:步骤3)中,四项判断采用并行判断,若其中一项为假,则终止所有四项的计算判断,判断为非超容用户。
作为优选技术手段:步骤3)中,四项判断采用串行判断,若碰到其中一项为假,则终止判断,判断为非超容用户。
作为优选技术手段:步骤3)中,项一、项二、项三、项四通过多维聚类模型实现,多维聚类模型的确立包括以下步骤:
3.1)通过kmeans、kmedoids两种聚类算法确定较优聚类类别数,从全量有效非超容用户中随机抽取至少4000户用户,随机抽取三次,并且将每次的结果分别与筛选后的全量用户合并,即得到3组数据,分别对3组数据进行聚类,对每组聚类结果分别计算inertiaScore、SilhouetteCoefficient、Calinski-Harabasz三个聚类效果评价指标,然后综合三次结果,选取优的聚类类别数;
3.2)确认聚类的最佳类别为5类;
3.3)从全量有效非超容用户中随机抽取至少4000户用户,随机抽取三次,并且将每次的结果分别与筛选后的全量用户合并,即得到3组数据,使用kmeans、kmedoids和DBSCAN算法分别对3组数据进行聚类类别为5的聚类分析,得出不同的算法聚类效果不同,不同的抽样结果得到的聚类结果存在差异;
3.4)使用多次分层聚类方法进行聚类分析,得到的聚类结果差异性明显下降,确立使用多次分层聚类方法的多维聚类模型。
作为优选技术手段:步骤3.4)中,多次分层聚类方法如下步骤:
3.4.1)首先重复N次抽取聚类样本,使用kmedoids算法进行聚类,得出一组聚类中心点(M1、M2、M3…MN),其中Mi=(X1,X2,…,Xt),t表示聚类类别数,N表示重复N次抽样;
3.4.2)将第一步得到的一组聚类中心点(M1、M2、M3…MN)按类别计算其均值,得到新的中心点M;
3.4.3)以新的中心点M,使用kmeans算法进行聚类,得到聚类结果。
作为优选技术手段:依据多维聚类模型,项一、项二和项三的获得包括以下步骤:
3.5)基于峰电量比FDLB及谷电量比GDLB 2个指标进行多层聚类建模;
3.6)将聚类结果分为5个类别,进行组合,并分为超容和非超容,分为30种不同的组合,计算不同组合的查准率、查全率和F1-score和F0.5-score四个指标;
3.7)以f0.5-score为重点划分指标,实现相对的超容和非超容用户划分;
3.8)基于聚类结果的超容和非超容分界线划分,得到三条分界线,然后计算BD分界线和CD分界线的交点,CD分界线和CE分界线的交点,最后得到最终的超容和非超容分界线,分别对应项一、项二和项三。
作为优选技术手段:依据聚类模型,项四的获得包括以下步骤:
3.9)基于谷电量比及总电量比2个指标进行多层聚类建模;
3.10)将聚类结果分为5个类别,进行组合,并分为超容和非超容,分为30种不同的组合,计算不同组合的查准率、查全率和F1-score和F0.5-score四个指标;
3.11)以f0.5-score为重点划分指标,实现相对的超容和非超容用户划分;
3.12)基于聚类结果的超容和非超容分界线划分,得到一条分界线,对应项一。
有益效果:相对于完全的传统人工经验和走线排查等常规手段,本方法摒弃了原有依赖大量人工经验的客户用电信息采集数据筛查方法,采用多维聚类模型,综合超容用户的典型特征指标,构建客户超容用电的精益化识别模型,实现异常用户的自动甄别,大大降低了工作量,大大提高供电企业员工对违约用电行为的核查效率和准确性,通过本方法能方便地自动识别超容用户,有助于提升营销精益化管理水平,为供电企业防范经营风险提供有效保障,避免扰乱用电秩序和危害用电安全的事件发生。
附图说明
图1是本发明流程示意图。
图2是本发明中中位数、上四分位数、下四分位数、上边缘及下边缘的箱型含义图。
图3是本发明中超容用户总电量比的各项数值箱型示意图。
图4是本发明中非超容用户总电量比的各项数值箱型示意图。
图5是本发明中超容用户尖电量比的各项数值箱型示意图。
图6是本发明中非超容用户尖电量比的各项数值箱型示意图。
图7是本发明中超容用户峰电量比的各项数值箱型示意图。
图8是本发明中非超容用户峰电量比的各项数值箱型示意图。
图9是本发明中超容用户谷电量比的各项数值箱型示意图。
图10是本发明中非超容用户谷电量比的各项数值箱型示意图。
图11是本发明中聚类模型构建时评估kmeans三次抽取的不同类别聚类效果图。
图12是本发明中聚类模型构建时评估kmedoids三次抽取的不同类别聚类效果图。
图13是本发明中聚类模型构建时评估三次抽取的kmeans、kmedoids和DBSCAN算法聚类效果评估图。
图14是本发明中聚类模型构建时评估抽取四次的多次分层聚类算法的聚类结果图。
图15是本发明中基于峰电量比FDLB和谷用电量比GDLB的三次抽取的kmeans不同类别聚类效果图。
图16是本发明中基于峰电量比FDLB和谷用电量比GDLB的抽取四次的多次分层聚类算法的聚类结果图。
图17是本发明中基于峰电量比FDLB和谷用电量比GDLB的聚类结果的超容非超容分界线划分示意图。
图18是本发明中基于谷电量比GDLB和总用电量比ZDLB的三次抽取的kmeans不同类别聚类效果图。
图19是本发明中基于谷电量比GDLB和总用电量比ZDLB的聚类结果的超容非超容分界线划分示意图。
具体实施方式
以下结合说明书附图对本发明的技术方案做进一步的详细说明。
如图1所示,一种基于多维聚类的电力用户超容诊断方法,其过程包括以下步骤:
S1)获取用户用电信息数据;
S2)从用户用电信息数据中计算出峰实际电量与理论峰电量比值FDLB、谷实际电量与谷尖峰电量比值GDLB,然后计算出GDLB和总用电量比值ZDLB;
S3)对下列四项进行判断,若均为真,则执行下一步,若至少一项为假,则执行步骤5),
项一:-0.2413×FDLB+1.3525×GDLB-0.7754>0,if 0≤FDLB<0.1971;
项二:0.6790×FDLB-0.6730×GDLB-0.2757<0,if 0.1971≤FDLB<0.5603;
项三:0.5474×FDLB+1.1770×GDLB-1.4542>0,if 0.5603≤FDLB;
项四:0.7318×GDLB+0.4112×ZDLB-0.7548>0;
S4)判断当前用户为超容用户,返回步骤1)继续下一用户判断;
S5)则判断为非超容用户,返回步骤1)继续下一用户判断。步骤S3)中,四项判断采用并行判断,若其中一项为假,则终止所有四项的计算判断,判断为非超容用户。本实例中,四项判断也可以采用串行判断代替并行判断,串行判断时,若碰到其中一项为假,则终止判断,判断为非超容用户。
本实例步骤S3)中的四项判断及相关数值的具体实证过程如下:
1基础数据的准备
1.1超容样本用户清单
选取大量已被查实为超容用电的样本客户,以备后续进行多维聚类算法的训练工作。
主要字段包括:户号、户名、所属单位、所属行业、用电地址、运行容量、合同容量、电压等级、核查时间。
1.2非超容用户清单
选取大量已被查实为正常用电的普通客户,与超容样本用户进行特征值对比。
主要字段包括:户号、户名、所属单位、所属行业、用电地址、运行容量、合同容量、电压等级、核查时间。
1.2识别用户用电信息表
在供电企业的营销业务应用系统中,随机选取高压专变用户若干,作为算法识别验证的数据准备。
主要字段包括:户号、户名、用电年月、月总用电量、最大需量值、运行容量、尖峰电量、峰电量、平电量、谷电量。
2确定超容用户分析指标
目前评估用户超容的有效指标主要为以下4个:
1)尖峰实际电量与理论尖峰电量比值JDLB,其中理论尖峰电量=当月运行容量×月度天数×日尖峰小时数
2)峰实际电量与理论峰电量比值FDLB,其中理论峰电量=当月运行容量×月度天数×日峰小时数
3)谷实际电量与谷尖峰电量比值GDLB,其中理论谷电量=当月运行容量×月度天数×日谷小时数
4)实际总电量与理论总电量比值DLB,其中理论谷电量=当月运行容量×月度天数×日小时数
注:根据供电企业高压用户分时电价规定,日尖峰小时数为2小时,日峰小时数为12小时,日谷小时数为10小时,日总小时数为24小时。
3对超容用户和非超容用户的数据观测
3.1如图2所示的箱型图中,各条线及点所代表的含义如下
(1)中位数
中位数,即二分之一分位数,是指从大到小排列的有序序列中,计算的方法就是将一组数据按从小到大的顺序,取中间这个数。
(2)上四分位数Q3
将一组数据按从小到大的顺序。Q3所在位置=3×(n+1)/4,取Q3所在位置的数值
(3)下四分位数Q1
将一组数据按从小到大的顺序。Q1所在位置=1×(n+1)/4的数值,取Q1所在位置的数值
(4)上边缘
上边缘是非异常范围内的最大值。
首先计算四分位距,四分位距IQR=Q3-Q1。那么上边缘=Q3+1.5IQR
(5)下边缘
下边缘是非异常范围内的最小值。下边缘=Q1-1.5IQR
3.2观测结果
通过对超容样本用户及非超容普通用户的总电量比、尖电量比、峰电量比、谷电量比的观察和分析,特征指标如下:
(1)总电量比
如图3和4所示的箱形图中的数值如下表所示:
位置 超容用户 非超容用户
上边缘 0.9465 0.59
上四分位 0.6385 0.2658
中位数 0.5318 0.1252
下四分位 0.4331 0.0497
下边缘 0.1638 0
超容用户的峰电量比区间主要集中在0.4331-0.6385区间,非超容用户的尖电联比区间主要集中在0.0497-0.2658,超容用户与非超容用户的总电量比分布有明显区别。
(2)尖电量比
如图5和6所示的箱形图中的数值如下表所示:
位置 超容用户 非超容用户
上边缘 1.1562 0.6973
上四分位 0.4781 0.3033
中位数 0.1008 0.1305
下四分位 0.0019 0.0015
下边缘 0 0
超容用户的尖电量比区间主要集中在0.0019-0.4781区间,非超容用户的尖电联比区间主要集中在0.0015-0.3033,超容用户与非超容用户的尖电量比区分不明显。
(3)峰电量比
如图7和8所示的箱形图中的数值如下表所示:
位置 超容用户 非超容用户
上边缘 1.2627 0.7548
上四分位 0.5994 0.3522
中位数 0.4256 0.1915
下四分位 0.1522 0.0825
下边缘 0.0361 0
超容用户的谷电量比区间主要集中在0.1522-0.5994区间,非超容用户的尖电联比区间主要集中在0.0825-0.3522,超容用户与非超容用户的峰电量比分布有明显区别。
(4)谷电量比
如图9和10所示的箱形图中的数值如下表所示:
超容用户的峰电量比区间主要集中在1.0566-0.5173区间,非超容用户的尖电联比区间主要集中在0.3446-0.0609,超容用户与非超容用户的谷电量比分布有明显区别。
4多维聚类算法模型构建
通过kmeans、kmedoids两种聚类算法确定较优聚类类别数。从全量有效非超容用户中随机抽取4000户用户,随机抽取三次,并且将每次的结果分别与筛选后的全量用户合并,即得到3组数据,分别对3组数据进行聚类,对每组聚类结果分别计算inertiaScore,SilhouetteCoefficient,Calinski-Harabasz三个聚类效果评价指标,然后综合三次结果,选取优的聚类类别数。
4.1kmeans不同类别聚类效果
如图11所示,可以看出,当聚类类别数为5时,inertiaScore指标相对较小,随着聚类类别增加,下降速度放缓,并且SilhouetteCoefficient指标和Calinski-Harabasz指标相对较大,因此综合考虑聚类类别确定在5类。
4.2kmedoids不同类别聚类效果
如图12所示,可以看出,当聚类类别数为5时,inertiaScore指标相对较小,随着聚类类别增加,下降速度放缓,并且SilhouetteCoefficient指标和Calinski-Harabasz指标相对较大,因此综合考虑聚类类别确定在5类。
4.3最终确认聚类的最佳类别为5类
注:
评价指标1(inertiaScore):同类别样本的紧凑度,每个点到其簇(聚类后的各类客户群)的质心的距离之和。即,越小代表同类别样本越紧凑。
评价指标2(SilhouetteCoefficient):轮廓系数[-1,1],同类别样本距离越近,且不同类别样本距离越远,分数越高。即,越大代表同类别样本越紧凑,不同类别样本距离越远。
评价指标3(Calinski-Harabasz):,类别内部数据的协方差越小越好,类别之间的协方差越大越好。即,越大代表同类别样本越紧凑,不同类别样本距离越远。
4.4使用kmeans、kmedoids和DBSCAN算法聚类效果评估
从全量有效非超容用户中随机抽取4000户用户,随机抽取三次,并且将每次的结果分别与筛选后的全量用户合并,即得到3组数据,分别对3组数据进行聚类类别为5的聚类分析,方法使用kmeans,kmedoids,DBSCAN;
如图13所示,分析3种聚类效果情况,得出以下结论
从3种算法的结果来看,kmeans和kmedoids算法结果表现的相对较好一些,而DBSCAN效果相对较差;
kmeans算法受异常值得影响较大,即在峰电量比和谷电量比在0-2区间内的类别只有2-3类。
抽样对聚类的结果影响还是比较大,不同的抽样结果得到的聚类结果存在差异。
4.5构建多层聚类方案
由于聚类结果受样本的影响较大,而目前我们的非超容数据是通过随机抽样得来的,因此要减少抽样对结果的影响。本部分采用的方法步骤如下:
1)首先重复N次抽取聚类样本,使用kmedoids算法进行聚类,得出一组聚类中心点(M1、M2、M3…MN),其中Mi=(X1,X2,…,Xt),t表示聚类类别数,N表示重复N次抽样;
2)将第一步得到的一组聚类中心点(M1、M2、M3…MN)按类别计算其均值,得到新的中心点M;
3)以新的中心点M,使用kmeans算法进行聚类,得到聚类结果。
随机抽取四次数据,使用多次分层聚类方法进行聚类,聚类结果如图14所示:
可以看出,使用多次分层聚类方法得到的聚类结果差异性明显下降。
5基于峰电量比及谷电量比2个指标进行多层聚类建模
基于超容用户用电特征多维分析的结果,首先选取以下两个指标数据进行聚类分析:峰电量比FDLB和谷用电量比GDLB。
5.1数据准备
数据量
超容 筛选后的有效全量记录数(2641)
非超容 有效全量用户全量记录数(2460074)
当将全量非超容用户与超容用户进行对比分析时,发现数据之间不平衡性的影响较大,很难反映出超容用户和非超容用户的区别因此通过抽样的方式,来平衡正负样本的比例。
5.2聚类类别选取
综合考虑表现较好的聚类算法kmeans,从全量有效非超容用户中随机抽取15000户用户,随机抽取三次,并且将每次的结果分别与筛选后的全量用户合并,即得到3组数据,分别对3组数据进行聚类,对每组聚类结果分别计算inertiaScore,SilhouetteCoefficient,Calinski-Harabasz三个聚类效果评价指标,然后综合三次结果,选取相对较优的聚类类别数。
如图15所示为kmeans随机抽取三次的不同类别聚类效果
可以看出,当聚类类别数为5时,inertiaScore指标相对较小,随着聚类类别增加,下降速度放缓,并且SilhouetteCoefficient指标和Calinski-Harabasz指标相对较大,因此综合考虑聚类类别确定在5类。
5.3构建多层聚类方案
由于聚类结果受样本的影响较大,而目前的非超容数据是通过随机抽样得来的,因此要减少抽样对结果的影响。本部分采用的方法步骤如下:
1)首先重复N次抽取聚类样本,使用kmedoids算法进行聚类,得出一组聚类中心点(M1、M2、M3…MN),其中Mi=(X1,X2,…,Xt),t表示聚类类别数,N表示重复N次抽样;
2)将第一步得到的一组聚类中心点(M1、M2、M3…MN)按类别计算其均值,得到新的中心点M;
3)以新的中心点M,使用kmeans算法进行聚类,得到聚类结果。
随机抽取四次数据,使用多次分层聚类方法进行聚类,聚类结果如图16所示。
可以看出,使用多次分层聚类方法得到的聚类结果趋于稳定。
5.4超容用户最优甄别规则分析
将聚类结果下不同类别的用户按照不同的组合分为两组,假设聚类结果类别命名为A/B/C/D/E 5个类别,将其进行组合,并分为超容和非超容,可以分为30种不同的组合,计算不同组合的查准率、查全率和F1-score和F0.5-score四个指标,结果如下:
以f0.5-score为重点划分指标,组合15,即将聚类结果DE类划为超容用户,ABC类划非超容用户(此时模型的查准率为69.89%,查全率为49.83%,f1-score为58.18%,f0.5-score为64.68%),达到相对最优的超容和非超容用户划分方式。
注:
f1-score认为查全率和查准率同等重要,而f2-score认为查全率的重要程度是查准率的一半。
5.5基于聚类结果的超容非超容分界线划分
如图17所示,通过前面的分析结果,DE类划为超容,ABC类划为非超容。对于分界线的划分,我们仅需求出BD之间的分界线、CD之间的分界线和CE之间的分界线。得到3条分界线如下:
BD分界线:-0.2413*FDLB+1.3525*GDLB-0.7754=0
CD分界线:0.6790*FDLB-0.6730*GDLB-0.2757=0
CE分界线:0.5474*FDLB+1.1770*GDLB-1.4542=0
然后计算BD分界线和CD分界线的交点,CD分界线和CE分界线的交点。最后得到最终的超容和非超容分界线。
具体规则如下:
6基于谷电量比及总电量比2个指标进行多层聚类建模
基于超容用户用电特征多维分析的结果,再选取另外两个指标数据进行聚类分析:谷电量比(GDLB)和总用电量比(ZDLB)。
6.1数据准备
数据量
超容 筛选后的有效全量用户(2641户)
非超容 有效全量用户(2460074)
当将全量非超容用户与超容用户进行对比分析时,发现数据之间不平衡性的影响较大,很难反映出超容用户和非超容用户的区别因此通过抽样的方式,来平衡正负样本的比例,同基于峰电量比及谷电量比2个指标进行多层聚类建模方法,同样抽取15000非超容样本数用以建模。
6.2聚类类别选取
本轮聚类方法依旧选用kmeans算法,我们从全量有效非超容用户中随机抽取15000户用户,随机抽取三次,并且将每次的结果分别与筛选后的全量用户合并,即得到3组数据,分别对3组数据进行聚类,对每组聚类结果分别计算inertiaScore,SilhouetteCoefficient,Calinski-Harabasz三个聚类效果评价指标,然后综合三次结果,选取综合较优的聚类类别数。
如图18所示为kmeans随机抽取三次的不同类别聚类效果
结合上面3张图可以看出,当聚类类别数为5时,inertiaScore指标相对较小,随着聚类类别增加,下降速度放缓,并且SilhouetteCoefficient指标和Calinski-Harabasz指标相对较大,因此综合考虑聚类类别确定在5类。
6.3超容用户最优甄别规则分析
将聚类结果下不同类别的用户按照不同的组合分为两组,假设聚类结果类别命名为为A/B/C/D/E 5个类别,将其进行组合,并分为超容和非超容,可以分为30种不同的组合,计算不同组合的查准率、查全率、F1-score和F0.5-score四个指标,结果如下:
/>
以f0.5-score为重点划分指标,组合7,即将聚类结果AC类划为超容用户,BDE类划非超容用户,此时模型的查准率为59.74%,查全率为56.30%,f1-score为57.97%,f0.5-score为59.02%,达到相对最优的超容和非超容用户划分方式。
6.4基于聚类结果的超容非超容分界线划分
如图19所示,通过前面结果,AC类划为超容,BDE类划为非超容。对于分界线的划分,我们仅需求出BC之间的分界线。
CB分界线:0.7318*GDLB+0.4112*ZDLB-0.7548=0
如果GDLB和ZDLB带入上式结果大于0,则是超容用户,否则是非超容用户。具体规则如下:
0.7318*GDLB+0.4112*ZDLB-0.7548>0
7两轮建模结果融合
7.1模型结果对比分析
从两轮模型数据的结果分布情况来看,第一轮两指标峰电量比和谷电量比之间的相关性较小,数据的分布较为分散,规律性不强;而第二轮指标谷电量比和总电量比之间的相关性较大,数据主要分布在对角线上。
从模型效果来看:
查准率 查全率 f1-score f0.5-score
第一轮 69.89% 49.83% 58.18% 64.68%
第二轮 59.74% 56.30% 57.97% 59.02%
第一轮使用“FDLB”和“GDLB”构建出来的模型查准率、f1-score、f0.5-score优于第二轮使用“GDLB”和“ZDLB”构建出来的模型效果,而查全率低于第二轮模型效果。
7.2模型融合结果
由于前面两轮模型构建都仅用了两个指标,这样构建出来的超容和非超容分类规则可能相对片面,并且得到的疑似超容用户量级可能会比较大,为了克服这两个缺陷,我们将前面两轮模型构建得到的超容非超容甄别规则进行融合。
最终结果如下所示:
从表格中可以看出,第一轮的甄别规则在f1-score上有绝对优势;第二轮的甄别规则在查全率上有绝对优势;融合的甄别规则在查准率和f0.5-score上有绝对优势。
8最终超容规则
结合第一轮模型规则和第二轮模型规则,得到新的融合规则如下:
如果指标数据(FDLB,GDLB,ZDLB)同时满足以下四条规则,则判断为超容用户,否则为非超容用户。
采用多维聚类模型,综合超容用户的典型特征指标,构建客户超容用电的精益化识别模型,实现异常用户的自动甄别,大大提高供电企业员工对违约用电行为的核查效率和准确性,通过本方法能方便地自动识别超容用户,有助于提升营销精益化管理水平,为供电企业防范经营风险提供有效保障,避免扰乱用电秩序和危害用电安全的事件发生。

Claims (6)

1.一种基于多维聚类的电力用户超容诊断方法,其特征在于包括以下步骤:
1)获取用户用电信息数据;
2)从用户用电信息数据中计算出峰实际电量与理论峰电量比值FDLB、谷实际电量与谷尖峰电量比值GDLB,然后计算出GDLB和总用电量比值ZDLB;
3)对下列四项进行判断,若均为真,则执行下一步,若至少一项为假,则执行步骤5),
项一:-0.2413×FDLB+1.3525×GDLB-0.7754>0,if 0≤FDLB<0.1971;
项二:0.6790×FDLB-0.6730×GDLB-0.2757<0,if 0.1971≤FDLB<0.5603;
项三:0.5474×FDLB+1.1770×GDLB-1.4542>0,if 0.5603≤FDLB;
项四:0.7318×GDLB+0.4112×ZDLB-0.7548>0;
4)判断当前用户为超容用户,返回步骤1)继续下一用户判断;
5)判断为非超容用户,返回步骤1)继续下一用户判断;
步骤3)中,项一、项二、项三、项四通过多维聚类模型实现,多维聚类模型的确立包括以下步骤:
3.1)通过kmeans、kmedoids两种聚类算法确定较优聚类类别数,从全量有效非超容用户中随机抽取至少4000户用户,随机抽取三次,并且将每次的结果分别与筛选后的全量用户合并,即得到3组数据,分别对3组数据进行聚类,对每组聚类结果分别计算inertiaScore、SilhouetteCoefficient、Calinski-Harabasz三个聚类效果评价指标,然后综合三次结果,选取优的聚类类别数;
3.2)确认聚类的最佳类别为5类;
3.3)从全量有效非超容用户中随机抽取至少4000户用户,随机抽取三次,并且将每次的结果分别与筛选后的全量用户合并,即得到3组数据,使用kmeans、kmedoids和DBSCAN算法分别对3组数据进行聚类类别为5的聚类分析,得出不同的算法聚类效果不同,不同的抽样结果得到的聚类结果存在差异;
3.4)使用多次分层聚类方法进行聚类分析,得到的聚类结果差异性明显下降,确立使用多次分层聚类方法的多维聚类模型。
2.根据权利要求1所述的一种基于多维聚类的电力用户超容诊断方法,其特征在于:步骤3)中,四项判断采用并行判断,若其中一项为假,则终止所有四项的计算判断,判断为非超容用户。
3.根据权利要求1所述的一种基于多维聚类的电力用户超容诊断方法,其特征在于:步骤3)中,四项判断采用串行判断,若碰到其中一项为假,则终止判断,判断为非超容用户。
4.根据权利要求1所述的一种基于多维聚类的电力用户超容诊断方法,其特征在于:步骤3.4)中,多次分层聚类方法如下步骤:
3.4.1)首先重复N次抽取聚类样本,使用kmedoids算法进行聚类,得出一组聚类中心点(M1、M2、M3…MN),其中Mi=(X1,X2,…,Xt),t表示聚类类别数,N表示重复N次抽样;
3.4.2)将第一步得到的一组聚类中心点(M1、M2、M3…MN)按类别计算其均值,得到新的中心点M;
3.4.3)以新的中心点M,使用kmeans算法进行聚类,得到聚类结果。
5.根据权利要求4所述的一种基于多维聚类的电力用户超容诊断方法,其特征在于:依据多维聚类模型,项一、项二和项三的获得包括以下步骤:
3.5)基于峰电量比FDLB及谷电量比GDLB 2个指标进行多层聚类建模;
3.6)将聚类结果分为5个类别,进行组合,并分为超容和非超容,分为30种不同的组合,计算不同组合的查准率、查全率和F1-score和F0.5-score四个指标;
3.7)以f0.5-score为重点划分指标,实现相对的超容和非超容用户划分;
3.8)基于聚类结果的超容和非超容分界线划分,得到三条分界线,然后计算BD分界线和CD分界线的交点,CD分界线和CE分界线的交点,最后得到最终的超容和非超容分界线,分别对应项一、项二和项三。
6.根据权利要求4所述的一种基于多维聚类的电力用户超容诊断方法,其特征在于:依据聚类模型,项四的获得包括以下步骤:
3.9)基于谷电量比及总电量比2个指标进行多层聚类建模;
3.10)将聚类结果分为5个类别,进行组合,并分为超容和非超容,分为30种不同的组合,计算不同组合的查准率、查全率和F1-score和F0.5-score四个指标;
3.11)以f0.5-score为重点划分指标,实现相对的超容和非超容用户划分;
3.12)基于聚类结果的超容和非超容分界线划分,得到一条分界线,对应项一。
CN202011612258.9A 2020-12-30 2020-12-30 一种基于多维聚类的电力用户超容诊断方法 Active CN112712442B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011612258.9A CN112712442B (zh) 2020-12-30 2020-12-30 一种基于多维聚类的电力用户超容诊断方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011612258.9A CN112712442B (zh) 2020-12-30 2020-12-30 一种基于多维聚类的电力用户超容诊断方法

Publications (2)

Publication Number Publication Date
CN112712442A CN112712442A (zh) 2021-04-27
CN112712442B true CN112712442B (zh) 2023-11-07

Family

ID=75547332

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011612258.9A Active CN112712442B (zh) 2020-12-30 2020-12-30 一种基于多维聚类的电力用户超容诊断方法

Country Status (1)

Country Link
CN (1) CN112712442B (zh)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102982489A (zh) * 2012-11-23 2013-03-20 广东电网公司电力科学研究院 一种基于海量计量数据的电力客户在线分群方法
CN105186524A (zh) * 2015-08-19 2015-12-23 国家电网公司 电力用户超容监测方法、装置及系统
CN106443556A (zh) * 2016-08-31 2017-02-22 国网江苏省电力公司常州供电公司 电能表智能诊断方法
CN109753989A (zh) * 2018-11-18 2019-05-14 韩霞 基于大数据与机器学习的电力用户窃电行为分析方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20190122132A1 (en) * 2016-04-19 2019-04-25 Grid4C Method and system for energy consumption prediction

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102982489A (zh) * 2012-11-23 2013-03-20 广东电网公司电力科学研究院 一种基于海量计量数据的电力客户在线分群方法
CN105186524A (zh) * 2015-08-19 2015-12-23 国家电网公司 电力用户超容监测方法、装置及系统
CN106443556A (zh) * 2016-08-31 2017-02-22 国网江苏省电力公司常州供电公司 电能表智能诊断方法
CN109753989A (zh) * 2018-11-18 2019-05-14 韩霞 基于大数据与机器学习的电力用户窃电行为分析方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
基于云计算和改进K-means算法的海量用电数据分析方法;张承畅;张华誉;罗建昌;何丰;;计算机应用(第01期);全文 *

Also Published As

Publication number Publication date
CN112712442A (zh) 2021-04-27

Similar Documents

Publication Publication Date Title
CN110097297B (zh) 一种多维度窃电态势智能感知方法、系统、设备及介质
CN110223196B (zh) 基于典型行业特征库和反窃电样本库的反窃电分析方法
CN107609783B (zh) 一种基于数据挖掘的智能电能表综合性能进行评估的方法及系统
CN110988422B (zh) 一种窃电识别方法、装置及电子设备
CN110634080A (zh) 异常用电检测方法、装置、设备及计算机可读存储介质
CN108876034B (zh) 一种改进的Lasso+RBF神经网络组合预测方法
CN110046792B (zh) 基于雷达图综合评价法的零电量用户排查方法
CN106067088A (zh) 电子银行访问行为的检测方法和装置
CN108268886B (zh) 用于识别外挂操作的方法及系统
CN111160404B (zh) 配电网线损标杆合理值的分析方法及装置
Maryani et al. Customer segmentation based on RFM model and clustering techniques with K-means algorithm
CN111177208A (zh) 基于大数据分析的用电异常检测方法
CN106228190A (zh) 针对居民异常用水的决策树判别方法
CN113125903A (zh) 线损异常检测方法、装置、设备及计算机可读存储介质
CN112949700A (zh) 企业限产政策执行力度的识别方法及装置
CN116796271A (zh) 一种居民用能异常识别方法
Novotná The use of different approaches for credit rating prediction and their comparison
CN112712442B (zh) 一种基于多维聚类的电力用户超容诊断方法
CN107274025B (zh) 一种实现用电模式智能识别与管理的系统和方法
CN109840536A (zh) 一种电网供电可靠性水平聚类方法及系统
CN112434886A (zh) 一种预测客户抵押贷款违约概率的方法
CN110070256B (zh) 基于critic方法的零电量用户排查优先度权重计算方法
CN110866696A (zh) 商铺掉铺风险评估模型训练方法及装置
Wang et al. Application of clustering technique to electricity customer classification for load forecasting
CN115239201A (zh) 一种电力指数的评估方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant