CN111444241B - 一种基于数据挖掘的台区线损异常关联用户精准定位方法 - Google Patents

一种基于数据挖掘的台区线损异常关联用户精准定位方法 Download PDF

Info

Publication number
CN111444241B
CN111444241B CN202010226428.3A CN202010226428A CN111444241B CN 111444241 B CN111444241 B CN 111444241B CN 202010226428 A CN202010226428 A CN 202010226428A CN 111444241 B CN111444241 B CN 111444241B
Authority
CN
China
Prior art keywords
line loss
loss rate
abnormal
user
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010226428.3A
Other languages
English (en)
Other versions
CN111444241A (zh
Inventor
陈光宇
徐嘉杰
张仰飞
郝思鹏
刘海涛
吕干云
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing Institute of Technology
Original Assignee
Nanjing Institute of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing Institute of Technology filed Critical Nanjing Institute of Technology
Priority to CN202010226428.3A priority Critical patent/CN111444241B/zh
Publication of CN111444241A publication Critical patent/CN111444241A/zh
Application granted granted Critical
Publication of CN111444241B publication Critical patent/CN111444241B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2465Query processing support for facilitating data mining operations in structured databases
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2477Temporal data queries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
    • G06F18/23213Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Software Systems (AREA)
  • Mathematical Physics (AREA)
  • Fuzzy Systems (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

一种基于数据挖掘的台区线损异常关联用户精准定位方法,包括:获取给定的异常台区线损率;进行K‑means聚类;建立台区线损率标准库和异常库;确定异常时间段;用电数据预处理,得到具有研究意义的用户电量;分别计算异常时间段内各用户电量和线损率的皮尔逊系数;利用设定的阈值进行初步筛选,得到和线损异常关联性较大的用户电量集合;分别计算集合中各用户电量曲线与线损率曲线改进的欧氏距离;基于加权皮尔逊系数和欧氏距离的相似性度量,计算皮尔逊系数和欧式距离的权重系数,精准定位所有异常用户。本发明考虑了单场景下台区的用户电量和线损率关联性并结合具体台区的历史数据分析,提高了精准定位的快速性和准确性。

Description

一种基于数据挖掘的台区线损异常关联用户精准定位方法
技术领域
本发明属于大数据下精准定位异常技术领域,具体涉及一种基于数据挖掘的台区线损异常关联用户精准定位方法。
背景技术
随着国家能源资源高效开发和利用战略决策的实施,节能逐渐成为缓解能源供应矛盾的重要手段,而电力行业是节能工作重要的领域之一。电力作为经济社会发展的重要支撑,降低电能在传输、分配和销售过程中的损耗与损失,是供电企业的重要工作之一。
现有的台区线损异常关联用户定位方法,在具体算例和功能实现的考虑等方面存在一些缺陷。一是仅仅考虑到使用皮尔逊系数算法确定用户电量波动和线损率变化的关联程度,没有具体分析异常用户电量和线损率两条曲线之间的形状相似性;二是由于线损数据量庞大,需通过数据挖掘算法分析线损波动和电量波动的关系,精确定位异常用户,开展线损的针对性治理,目前的台区线损异常关联用户定位方法是人工进行海量数据计算后的粗略定位以及逐一排查,忽略了对台区大数据的分析与挖掘,不仅加大了计算量,也缺乏准确性。
发明内容
本发明针对现有技术中的不足,提供一种基于数据挖掘的台区线损异常关联用户精准定位方法。本发明在历史线损率K-means聚类结果的基础上,建立了台区线损率标准库和异常库;同时,根据生成的异常库数据,确定异常时间段T;从用电数据缺失值、噪声值和归一化三个处理方面展开,针对用电数据进行预处理,得到具有研究意义的用户电量集合{Wj};分别计算异常时间段内集合{Wj}内各用户电量和线损率的皮尔逊系数rxy;利用设定的阈值进行初步筛选,得到和线损异常关联性较大的用户电量集合{Wk};分别计算集合{Wk}中各用户电量曲线与线损率曲线改进的欧氏距离DE;基于加权皮尔逊系数和欧氏距离的相似性度量,计算皮尔逊系数和欧式距离的权重系数P,精准定位所有异常用户。
为实现上述目的,本发明采用以下技术方案:
一种基于数据挖掘的台区线损异常关联用户精准定位方法,其特征在于,包括如下步骤:
S1、导入给定的异常台区线损率;
S2、针对导入的异常台区线损率进行K-means聚类;
S3、基于聚类结果建立异常台区线损率标准库和异常库;
S4、根据异常库确定异常时间段T;
S5、进行用电数据预处理,得到具有研究意义的用户电量集合{Wj};
S6、分别计算异常时间段T内集合{Wj}中各用户电量和对应线损率的皮尔逊系数rxy
S7、利用设定的阈值进行初步筛选,得到和线损异常关联性较大的用户电量集合{Wk};
S8、分别计算集合{Wk}中各用户电量曲线与线损率曲线的欧氏距离DE
S9、基于加权皮尔逊系数和欧氏距离的相似性度量,计算皮尔逊系数和欧式距离的权重系数,精准定位所有异常用户。
为优化上述技术方案,采取的具体措施还包括:
进一步地,步骤S1中的台区线损率是用于判断台区是否存在异常的依据,其值由用电信息采集系统提供的线损电量计算得出,线损率计算公式如下式(1):
Figure BDA0002426668790000021
式中,LLR表示线损率,Em表示抄表电量,Es表示实际售电量。
进一步地,步骤S2中针对异常台区线损率进行K-means聚类,在软件IBM SPSSStatistics 25中实现功能,算法流程如下:
S21、首先从数据空间中选k个数据点为初始聚类均值;
S22、计算每个数据点到这些聚类均值的距离,然后将各数据点分配给离它最近的那个聚类;
S23、若所有数据点不再被重新分配,则停止并保持现有聚类;
S24、如果仍有数据点被重新分配,则重新计算均值,并返回步骤S22。
进一步地,步骤S3中根据K-means聚类结果建立异常台区线损率标准库和异常库,异常库中不仅存放异常用户电量,还存储有对应的具体日期;
建立异常台区线损率标准库和异常库包括如下步骤:
S31、导入该台区所有线损率数据;
S32、对台区线损率进行K-means聚类;
S33、找出个案数目最多的聚类,确定该聚类的聚类中心;
S34、计算该聚类中所有点到聚类中心的最大距离;
S35、若满足如下的规则,则将线损率存放至一个特定的集合中并称之为线损率标准库;反之,则将其存放在线损率异常库中,评判规则如下式(2):
|LLRi-x|≤r+Δr (2)
式中,LLRi表示导入该台区所有线损率数据,x表示个案数目最多的聚类中心,r表示该聚类中所有点到该聚类中心的最大距离,Δr表示误差。
进一步地,步骤S4中,根据已经生成的异常台区线损率异常库确定异常时间段T,其中,T是时间区间,由若干个连续的日期组成。
进一步地,步骤S5中,对用户用电数据进行预处理,包括缺失值和异常值的处理以及规范化处理,通过规范化处理,去除其量纲形式,转化为更加规范化的数据形式。
进一步地,步骤S6中,面对用户电量集合{Wj},计算异常时间段T内各用户电量Wj和对应线损率的皮尔逊系数rxy,该算法描述了两个定距变量间联系的紧密程度,用于度量两个变量X和Y之间的相关,其值介于-1与1之间,用rxy表示,计算公式为:
Figure BDA0002426668790000031
式中,N为样本量,X、Y分别为异常时间段T内用户电量和台区线损率的观测值;rxy的绝对值越大表明相关性越强。
进一步地,步骤S7中,设定的阈值θ的标准为:
0.8<θ≤1.0极强相关;
0.6<θ≤0.8强相关;
0.4<θ≤0.6中等程度相关;
0.2<θ≤0.4弱相关;
0.0≤θ≤0.2极弱相关或无相关。
进一步地,步骤S8中,由于用户电量和线损是等长时间序列,采用欧式距离来判断集合{Wk}中各用户电量曲线与线损率曲线的相似度:
设两个序列X(t)={x(1),x(2),…,x(k)}和Y(t)={y(1),y(2),…,y(k)},则欧式距离为:
Figure BDA0002426668790000032
式中,X、Y分别为异常时间段T内的用户电量和台区线损率,k表示集合{Wk}中的样本量;通过对两条曲线进行欧式距离计算,得到两条曲线相似性程度,欧式距离越小,相似度越大;用户电量曲线的x轴表示时间,y轴表示用户电量;线损率曲线的x轴表示时间,y轴表示线损率;
判断该台区用户电量和线损率的相似度时,首先为了消除y方向位移和尺度的影响,对用户电量和线损率采用最小-最大规范化的方法进行归一化处理,对原始数据进行线性变换,将其数值投射到[0,1]范围内,归一化处理的转化公式如式(5):
Figure BDA0002426668790000041
式中,对用户电量进行归一化处理时:X(LLRk,Wk)表示k个用户电量的归一值,X′(LLRk,Wk)表示k个用户电量的实际值,X′(LLRk,Wk)min表示异常时间段内k个实际用户电量中的最小值,X′(LLRk,Wk)max表示异常时间段内k个实际用户电量的最大值;对线损率进行归一化处理时:X(LLRk,Wk)表示k个线损率的归一值,X′(LLRk,Wk)表示k个线损率的实际值,X′(LLRk,Wk)min表示异常时间段内线损率序列中的最小值,X′(LLRk,Wk)max表示异常时间段内线损率序列中的最大值;
由于用户电量曲线和线损率曲线是反相关关系,对线损率曲线还进行如下处理:首先将线损率曲线关于x轴做对称,再将其向y轴正方向平移1个单位,从而使两条曲线均在[0,1]之间并且保证两者的相似性,用于计算欧氏距离。
进一步地,步骤S9中,选择衡量形状相似性的皮尔逊系数和衡量数值相似性的欧氏距离来度量用户电量曲线和线损率曲线之间的相似度;由于皮尔逊系数范围在-1~1内,其值越大,相似性越高,而欧氏距离越大,相似性越小,因此对皮尔逊系数求绝对值,对欧氏距离求
Figure BDA0002426668790000043
值,使其改变形式后的值在0~1内,同时也满足了欧式距离越大,皮尔逊系数和欧氏距离加权求和后的匹配度仍然越小的关系,设匹配度为P,由式(3)和式(4)得加权相加后的匹配度计算公式为:
Figure BDA0002426668790000042
式中,P为匹配度,μ1和μ2为皮尔逊系数相似性度量和欧氏距离相似性度量的权重系数,两者的取值取决于形状相似性和数值相似性的重要度,需满足μ12=1,使得加权求和后的匹配度P值仍在[0,1];匹配度P值越大,则相似性越大,说明用户异常嫌疑越大,从而精准定位异常用户。
本发明的有益效果是:本发明考虑了单场景下的线损率变化,提出一种基于历史数据的台区线损异常关联用户精准定位方法,避免了人工对于海量数据的计算,从而提高了用户定位的准确性;在历史线损率K-means聚类结果的基础上,结合使用IBM SPSSStatistics 25软件和python skleam模型,建立了台区线损率标准库和异常库,为线损率异常的判断提供了依据;从用电数据缺失值、噪声值和归一化三个处理方面展开,针对用电数据进行预处理,得到具有研究意义的用户电量集合{Wj};计算异常时间段T内有效用户电量集合{Wj}中各用户电量和线损率的皮尔逊系数rxy,确定和线损异常关联性较大的用户电量集合{Wk},进一步缩小嫌疑用户范围,节省了计算迭代时间;计算和线损异常关联性较大的用户电量集合{Wk}中用户电量和线损率两条曲线改进的欧氏距离DE,并计算皮尔逊系数和欧式距离的权重系数,精准定位所有异常用户;本发明还采用xx公用变02#台区历史用电量和线损率数据作为样本来进行实验分析与验证,增强了算法的说服力。
附图说明
图1是本发明的方法流程图。
图2是xx公用变02#台区线损率雷达图。
图3是台区线损率聚类结果示意图。
图4是异常时间段T内xx公用变02#台区线损率与5xxxxxx158用户用电量变化折线图。
具体实施方式
现在结合附图对本发明作进一步详细的说明。
如图1至图4所示,本发明提供了一种基于数据挖掘的台区线损异常关联用户精准定位方法,包括如下步骤:
一、导入给定的异常台区线损率并进行K-means聚类。
台区线损率是用于判断台区是否存在异常的依据,其值由用电信息采集系统提供的线损电量计算得出,线损率计算公式如下:
Figure BDA0002426668790000051
式中,LLR表示线损率,Em表示抄表电量,Es表示实际售电量。
由于K-means算法可以处理大数据集,具有很好的可伸缩性和很高的效率,简单快速,能够适应数据量增长的实时性处理的需求,广泛地运用在大规模数据聚类中,因此本文选取K-means算法对样本进行聚类。针对异常台区线损率进行K-means聚类,该算法是一种无监督学习方法,在解决小样本问题时有独特优势,在软件IBM SPSS Statistics 25中实现功能,算法流程如下:
1.1、首先从数据空间中选k个数据点为初始聚类均值;
1.2、计算每个数据点到这些聚类均值的距离,然后将各数据点分配给离它最近的那个聚类;
1.3、若所有数据点不再被重新分配,则停止并保持现有聚类;
1.4、如果仍有数据点被重新分配,则重新计算均值,并返回步骤1.2。
本文以xx公用变02#为例,采用上述方法进行数据分析,结合使用软件IBM SPSSStatistics 25对该台区历史线损率进行K-means聚类,将聚类数设置为3,得到最终聚类中心和每个聚类中的个案数目,如下表1和表2所示。
表1最终聚类中心
Figure BDA0002426668790000061
表2每个聚类中的个案数目
Figure BDA0002426668790000062
二、基于聚类结果建立台区线损率标准库和异常库,并确定异常时间段T。
根据K-means聚类结果建立异常台区线损率标准库和异常库,要求异常库中不仅存放异常用户电量,还要存储对应的具体日期,以便于异常时间段T的直接读取。
建立异常台区线损率标准库和异常库包括如下步骤:
2.1、导入该台区所有线损率数据;
2.2、对台区线损率进行K-means聚类;
2.3、找出个案数目最多的聚类,确定该聚类的聚类中心;
2.4、计算该聚类中所有点到聚类中心的最大距离;
2.5、若满足如下的规则,则将线损率存放至一个特定的集合中并称之为线损率标准库;反之,则将其存放在线损率异常库中。评判规则如下:
|LLRi-x|≤r+Δr
式中,LLRi表示导入该台区所有线损率数据,x表示个案数目最多的聚类中心,r表示该聚类中所有点到该聚类中心的最大距离,Δr表示误差。
本文以xx公用变02#台区为例,采用上述评判规则进行数据分析。由步骤2.3和表1、2可知,找出个案数目最多的聚类为聚类2,共有172个;确定聚类2的聚类中心为1.8,则上述评判规则中的x为1.8;计算聚类2中所有点到聚类中心x的距离并取最大值,不难求出r为1.01,考虑到未来该台区的线损率会实时发生变化,故设置一个误差值Δr。为了方便理解,评判规则可用雷达图表示,如图2所示。
如图2所示,圆形边框之内的线损率均满足评判规则,里面的所有元素构成了xx公用变02#台区线损率标准库;其余线损率则构成了台区线损率异常库,并将对应的日期也一同存放在异常库中。标准库是以区间存在的,又计及误差Δr的影响,故将该台区的历史线损率标准库设置为[0.6,3]。
也可利用python sklearn模型生成台区历史线损率的标准库和异常库,如图3所示。
与通过评判规则|LLRi-x|≤r+Δr建立的台区历史线损率标准库和异常库结果完全一致。根据已经生成的异常台区线损率异常库确定异常时间段T,并规定T是时间区间。换言之,T必须由若干个连续的日期组成。由图2和图3可知,该台区的历史线损率异常库由两部分组成:一部分是以4.79为聚类中心,个案数目为15个;另一部分是以20.45为聚类中心,个案数目为1。
若要确定异常时间段,必须研究异常库中的数据及其特点。在此不妨做个假设:忽略线损率波动较小且周期为1~2天的时间段。以xx公用变02#台区为例,异常库中对应的异常时间段分别为1月29日、3月6日~3月19日以及4月12日。若线损率只在1天发生了异常,由于不具有规律性和持续性,可忽略不计。故该台区的异常时间段可初步判断为3月6日~3月19日。
三、从用电数据缺失值、噪声值和归一化三个处理方面展开,针对用电数据进行预处理,得到具有研究意义的用户电量集合{Wj}。
由于用电数据在采集过程中频次、精度的缺乏,造成了数据存在部分缺失值、噪声值,会干扰数据分析的过程,影响最终的识别效果,本文对原始用电数据的预处理以缺失值和异常值的处理为主。同时,用电数据指标有很多不同的量纲单位,他们之间可能存在着倍数级的数值大小差异,这种差异不利于数据分析以及模型的建立,因此需要对用电数据进行规范化的处理,去除其量纲形式,转化为更加规范化的数据形式。
3.1、用电数据缺失值的处理
在原始用电数据中,尤其是在抽取用户用电量的过程中,发现存在数据缺失的情况。如果将这些缺失数据直接抛弃,将会影响到模型的训练过程,以及供电量的计算结果,导致最终的分析效果有误差,形成异常用电用户的漏判误判。处理缺失值的时候,可将数据严重缺失的用户的缺失数据不作处理,直接将其判定为异常用户,对于分散、缺失较少的用电数据进行异常值处理。在处理数据缺失值的插值法中主要有拉格朗日插值法和牛顿插值法,本文中对于缺失的用户用电数据采用拉格朗日插值法进行插补。在对用户用电数据缺失值进行插补时,首先要确定出自变量和因变量,若前后数据中存在数据为空的情况,则直接将数据抛弃,将仅存的数据组成一组,然后取出5个在缺失值前后范围内的数据,将再取出来的数据组成一组,接着采用拉格朗日多项式:
Figure BDA0002426668790000081
Figure BDA0002426668790000082
式中,N为数据量,Ln(x)为最终的插值结果,x为缺失值对应的下标序号,xi为非缺失值yi的下标序号,xj为非缺失值yj的下标序号。
3.2、用电数据噪声值的处理
在用电数据中,必然会存在一些与实际偏差较大且明显不符合逻辑的数据,这些噪声数据会造成指标的异常,从而进一步导致实验结果的的分析偏差。在实际处理过程中,存在两种极端情况,若噪声数据清除不够干净,则会使异常用电用户识别的精度不够高,而一旦处理过度,将一些具有关键特征的数据给过滤掉,则会造成异常用电用户的漏判,因此在用电数据与处理中,噪声值的处理是一项很重要的步骤。处理规则如表3所示。
表3噪声数据处理规则
Figure BDA0002426668790000083
Figure BDA0002426668790000091
3.3、用电数据归一化处理
不同的用电数据指标之间会存在量纲上的差异,这些差异会干扰数据挖掘的分析过程,为了避免这种量纲差异对最终分析结果的影响,可以通过数据的规范化进行处理。数据的归一化是数据规范化的典型处理方法,数据规范化是通过一定的比例对数据进行缩放处理,将数据范围缩小在一个指定的区间内,这种做法可以将数据转化为没有单位的纯数值,突破了其限制,可以使各类具有不同量纲单位的数据指标都能互相进行比较,而其中最典型的规范化方法就是数据归一化,它将数据统一映射到[0,1]的范围内。
数据归一化的方法主要有三类,本文中对用电数据采用最小-最大规范化的方法进行归一化处理,将其数值投射到[0,1]范围内,归一化处理的转化公式如下:
Figure BDA0002426668790000092
式中,λ为N个用户数据的归一值,x为N个用户数据的实际值,Wmin为异常时间段内N个用户数据的最小值,Wmax为异常时间段内N个用户数据的最大值。
数据变化率在处理数据分析数据中起着至关重要的作用,通过变化率能够发现很多规律性的结论,但是数据的大小对变化率会产生一定程度的影响,而通过对用电数据的归一化处理能够很好的避免这种影响,同时归一化处理也为比较不同量纲形式的的历史用电量数据提供了可能。
四、分别计算异常时间段T内集合{Wj}中各用户电量和对应线损率的皮尔逊系数rxy
皮尔逊相关系数又称皮尔逊积矩相关系数、简单相关系数,它描述了两个定距变量间联系的紧密程度,用于度量两个变量X和Y之间的相关(线性相关),其值介于-1与1之间,一般用rxy表示,计算公式为:
Figure BDA0002426668790000093
式中,N为样本量,X、Y分别为异常时间段T内用户电量和台区线损率的观测值。若r>0,表明两个变量是正相关,即一个变量的值越大,另一个变量的值也会越大;若r<0,表明两个变量是负相关,即一个变量的值越大,另一个变量的值反而会越小。r的绝对值越大表明相关性越强。
五、利用设定的阈值θ进行初步筛选,得到和线损异常关联性较大的用户电量集合{Wk}。
设置阈值θ的标准为0.8<θ≤1.0极强相关;0.6<θ≤0.8强相关;0.4<θ≤0.6中等程度相关;0.2<θ≤0.4弱相关;0.0≤θ≤0.2极弱相关或无相关。
以xx公用变02#台区为例,通过对样本集{Wj}各用户电量和台区线损率的皮尔逊系数计算,设置阈值θ为0.6,得到和线损异常关联性较大(rxy>0.6)的用户电量集合{Wk},皮尔逊计算结果见表3。
表3集合{Wk}中各用户数据的皮尔逊系数、欧式距离及匹配度计算结果
用户编号 皮尔逊系数r 欧式距离D<sub>E</sub> 匹配度P
5xxxxxx158 0.7675 1.1836 0.3062
7xxxxxx016 0.6052 1.4834 0.2269
5xxxxxx813 0.6017 1.2997 0.2726
5xxxxxx740 0.6629 2.6044 0.0739
5xxxxxx803 0.6198 2.3217 0.0981
六、分别计算集合{Wk}中各用户电量曲线与线损率曲线改进的欧氏距离DE
欧氏距离是一种被广泛使用的距离度量标准,它表征了N维空间内每个点对象之间的距离,欧氏距离先计算每一维上的距离,再求它们的平方和,最后求算数平方根。由于用户电量和线损是等长时间序列,本文采用欧式距离来判断两者曲线的相似度。
设两个序列X(t)={x(1),x(2),…,x(k)}和Y(t)={y(1),y(2),…,y(k)},则欧式距离为:
Figure BDA0002426668790000101
这里的X、Y分别为异常时间段内的用户电量和台区线损率,k表示集合{Wk}中的样本量。通过对两条曲线进行欧式距离计算,可以简单且直观的得到两条曲线相似性程度。欧式距离越小,相似度越大。坐标y方向位移和尺度变化都会对两条曲线的相似性判断产生重大影响,判断该台区的用户电量和线损率的相似性时,需要消除y方向位移和尺度的影响,故必须对用户电量和线损率采用最小-最大规范化的方法进行归一化处理,即对原始数据进行线性变换,将其数值投射到[0,1]范围内,归一化处理的转化公式如下式:
Figure BDA0002426668790000102
式中,X(LLRk,Wk)为k个用户电量或线损率的归一值,X′(LLRk,Wk)为k个用户电量或线损率的实际值,X′(LLRk,Wk)min为异常时间段内k个实际用户电量或线损率序列中的最小值,X′(LLRk,Wk)max为异常时间段内k个实际用户电量或线损率序列中的最大值。
不同的用电数据指标之间会存在量纲上的差异,这些差异会干扰数据挖掘的分析过程,为了避免这种量纲差异对最终分析结果的影响,可以通过数据的规范化进行处理。数据的归一化是数据规范化的典型处理方法,数据规范化是通过一定的比例对数据进行缩放处理,将数据范围缩小在一个指定的区间内,这种做法可以将数据转化为没有单位的纯数值,突破了其限制,可以使各类具有不同量纲单位的数据指标都能互相进行比较,而其中最典型的规范化方法就是数据归一化,它将数据统一映射到[0,1]的范围内。
又因为用户电量曲线和线损率曲线是反相关关系,不方便说明相似程度,故将线损率曲线做一简单处理:首先将线损率曲线关于x轴做对称,再将其向y轴正方向平移1个单位,从而使2条曲线均在[0,1]之间并且保证两者的相似性,为欧氏距离的计算创造了条件。
集合{Wk}中各用户电量曲线与线损率曲线改进的欧氏距离结果见表3。
七、基于加权皮尔逊系数和欧氏距离的相似性度量,计算皮尔逊系数和欧式距离的权重系数,精准定位所有异常用户。
为了同时考虑形状和数值的相似性两种因素,考虑选择了衡量形状相似性的皮尔逊系数和衡量数值相似性的欧氏距离来度量两条负荷曲线之间的相似度。其中欧氏距离基于点与点之间的距离,考查数值上的相似性,但在数据集有异常时易表现出不稳定性,而皮尔逊系数度量主要考察曲线在形状和趋势上的拟合程度,不易受到数据集异常情况的影响,打破了只能通过距离来判断相似性的局限性,两者形成了优势互补。由于皮尔逊系数范围在-1~1内,其值越大,相似性越高,而欧氏距离越大,相似性越小,因此对皮尔逊系数求绝对值,对欧氏距离求
Figure BDA0002426668790000112
值,使其改变形式后的值在0~1内,同时也满足了欧式距离越大,皮尔逊系数和欧氏距离加权求和后的匹配度仍然越小的关系,设匹配度为P,加权相加后的匹配度计算公式为:
Figure BDA0002426668790000111
式中,P为匹配度,μ1和μ2为皮尔逊系数相似性度量和欧氏距离相似性度量的权重系数,两者的取值取决于形状相似性和数值相似性的重要度,但需要满足μ12=1,使得加权求和后的匹配度P值仍在[0,1]。当匹配度P值越大,则相似性越大,说明用户异常嫌疑越大,从而精准定位异常用户。
取μ1=0.7,μ2=0.3,阈值α=0.3,则xx公用变02#台区皮尔逊系数和欧氏距离加权求和后的匹配度P计算结果见表3。
由表3可知,xx公用变02#台区下用户编号为5xxxxxx158的用户历史用电量最大,且其匹配度P=0.3062大于阈值0.3,可以认为该用户异常用电嫌疑最大。同时,也可以使用折线图来验证该用户电量与台区线损的相关情况,如图4。该台区的损失电量与5xxxxxx158用户用电量的变化情况接近完全吻合,即台区的损失电量跟随5xxxxxx158用户用电量的变化而变化,同时也验证了皮尔逊相关系数和欧式距离的计算结果完全正确。
综上,本发明提出一种单场景下基于历史数据的台区线损异常关联用户精准定位方法,避免了人工对于海量数据的计算,从而提高了用户定位的准确性;在历史线损率K-means聚类结果的基础上,结合使用IBM SPSS Statistics 25软件和python skleam模型,建立了台区线损率标准库和异常库,为线损率异常的判断提供了依据;从用电数据缺失值、噪声值和归一化三个处理方面展开,针对用电数据进行预处理,得到具有研究意义的用户电量集合{Wj};计算异常时间段T内有效用户电量集合{Wi}中各用户电量和线损率的皮尔逊系数rxy,确定和线损异常关联性较大的用户电量集合{Wk},进一步缩小嫌疑用户范围,节省了计算迭代时间;计算和线损异常关联性较大的用户电量集合{Wk}中用户电量和线损率两条曲线改进的欧氏距离DE,并计算皮尔逊系数和欧式距离的权重系数,精准定位所有异常用户;本发明还采用xx公用变02#台区历史用电量和线损率数据作为样本来进行实验分析与验证,增强了算法的说服力。
以上仅是本发明的优选实施方式,本发明的保护范围并不仅局限于上述实施例,凡属于本发明思路下的技术方案均属于本发明的保护范围。应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理前提下的若干改进和润饰,应视为本发明的保护范围。

Claims (10)

1.一种基于数据挖掘的台区线损异常关联用户精准定位方法,其特征在于,包括如下步骤:
S1、导入给定的异常台区线损率;
S2、针对导入的异常台区线损率进行K-means聚类;
S3、基于聚类结果建立异常台区线损率标准库和异常库;
S4、根据异常库确定异常时间段T;
S5、进行用电数据预处理,得到具有研究意义的用户电量集合{Wj};
S6、分别计算异常时间段T内集合{Wj}中各用户电量和对应线损率的皮尔逊系数rxy
S7、利用设定的阈值进行初步筛选,得到和线损异常关联性较大的用户电量集合{Wk};
S8、分别计算集合{Wk}中各用户电量曲线与线损率曲线的欧氏距离DE
S9、基于加权皮尔逊系数和欧氏距离的相似性度量,计算皮尔逊系数和欧式距离的权重系数,精准定位所有异常用户。
2.如权利要求1所述的一种基于数据挖掘的台区线损异常关联用户精准定位方法,其特征在于:步骤S1中的台区线损率是用于判断台区是否存在异常的依据,其值由用电信息采集系统提供的线损电量计算得出,线损率计算公式如下式(1):
Figure FDA0002744804120000011
式中,LLR表示线损率,Em表示抄表电量,Es表示实际售电量。
3.如权利要求1所述的一种基于数据挖掘的台区线损异常关联用户精准定位方法,其特征在于:步骤S2中针对异常台区线损率进行K-means聚类,在软件IBM SPSS Statistics25中实现功能,算法流程如下:
S21、首先从数据空间中选k个数据点为初始聚类均值;
S22、计算每个数据点到这些聚类均值的距离,然后将各数据点分配给离它最近的那个聚类;
S23、若所有数据点不再被重新分配,则停止并保持现有聚类;
S24、如果仍有数据点被重新分配,则重新计算均值,并返回步骤S22。
4.如权利要求1所述的一种基于数据挖掘的台区线损异常关联用户精准定位方法,其特征在于:步骤S3中根据K-means聚类结果建立异常台区线损率标准库和异常库,异常库中不仅存放异常用户电量,还存储有对应的具体日期;
建立异常台区线损率标准库和异常库包括如下步骤:
S31、导入该台区所有线损率数据;
S32、对台区线损率进行K-means聚类;
S33、找出个案数目最多的聚类,确定该聚类的聚类中心;
S34、计算该聚类中所有点到聚类中心的最大距离;
S35、若满足如下的规则,则将线损率存放至一个特定的集合中并称之为线损率标准库;反之,则将其存放在线损率异常库中,评判规则如下式(2):
|LLRi-x|≤r+Δr (2)
式中,LLRi表示导入该台区所有线损率数据,x表示个案数目最多的聚类中心,r表示该聚类中所有点到该聚类中心的最大距离,Δr表示误差。
5.如权利要求4所述的一种基于数据挖掘的台区线损异常关联用户精准定位方法,其特征在于:步骤S4中,根据已经生成的异常台区线损率异常库确定异常时间段T,其中,T是时间区间,由若干个连续的日期组成。
6.如权利要求1所述的一种基于数据挖掘的台区线损异常关联用户精准定位方法,其特征在于:步骤S5中,对用户用电数据进行预处理,包括缺失值和异常值的处理以及规范化处理,通过规范化处理,去除其量纲形式,转化为更加规范化的数据形式。
7.如权利要求1所述的一种基于数据挖掘的台区线损异常关联用户精准定位方法,其特征在于:步骤S6中,面对用户电量集合{Wj},计算异常时间段T内各用户电量Wj和对应线损率的皮尔逊系数rxy,该算法描述了两个定距变量间联系的紧密程度,用于度量两个变量X和Y之间的相关,其值介于-1与1之间,计算公式为:
Figure FDA0002744804120000021
式中,N为样本量,X、Y分别为异常时间段T内用户电量和台区线损率的观测值;rxy的绝对值越大表明相关性越强。
8.如权利要求1所述的一种基于数据挖掘的台区线损异常关联用户精准定位方法,其特征在于:步骤S7中,设定的阈值θ的标准为:
0.8<θ≤1.0极强相关;
0.6<θ≤0.8强相关;
0.4<θ≤0.6中等程度相关;
0.2<θ≤0.4弱相关;
0.0≤θ≤0.2极弱相关或无相关。
9.如权利要求7所述的一种基于数据挖掘的台区线损异常关联用户精准定位方法,其特征在于:步骤S8中,由于用户电量和线损是等长时间序列,采用欧式距离来判断集合{Wk}中各用户电量曲线与线损率曲线的相似度:
设两个序列X(t)={x(1),x(2),…,x(k')}和Y(t)={y(1),y(2),…,y(k')},则欧式距离为:
Figure FDA0002744804120000031
式中,X、Y分别为异常时间段T内的用户电量和台区线损率,k'表示集合{Wk}中一个用户的用户电量数据的样本量;通过对两条曲线进行欧式距离计算,得到两条曲线相似性程度,欧式距离越小,相似度越大;用户电量曲线的x轴表示时间,y轴表示用户电量;线损率曲线的x轴表示时间,y轴表示线损率;
判断该台区用户电量和线损率的相似度时,首先为了消除y方向位移和尺度的影响,对用户电量和线损率采用最小-最大规范化的方法进行归一化处理,对原始数据进行线性变换,将其数值投射到[0,1]范围内,归一化处理的转化公式如式(5):
Figure FDA0002744804120000032
式中,k表示集合{Wk}中的样本量,对用户电量进行归一化处理时:X(LLRk,Wk)表示k个用户电量的归一值,X′(LLRk,Wk)表示k个用户电量的实际值,X′(LLRk,Wk)min表示异常时间段内k个实际用户电量中的最小值,X′(LLRk,Wk)max表示异常时间段内k个实际用户电量的最大值;对线损率进行归一化处理时:X(LLRk,Wk)表示k个线损率的归一值,X′(LLRk,Wk)表示k个线损率的实际值,X′(LLRk,Wk)min表示异常时间段内线损率序列中的最小值,X′(LLRk,Wk)max表示异常时间段内线损率序列中的最大值;
由于用户电量曲线和线损率曲线是反相关关系,对线损率曲线还进行如下处理:首先将线损率曲线关于x轴做对称,再将其向y轴正方向平移1个单位,从而使两条曲线均在[0,1]之间并且保证两者的相似性,用于计算欧氏距离。
10.如权利要求9所述的一种基于数据挖掘的台区线损异常关联用户精准定位方法,其特征在于:步骤S9中,选择衡量形状相似性的皮尔逊系数和衡量数值相似性的欧氏距离来度量用户电量曲线和线损率曲线之间的相似度;由于皮尔逊系数范围在-1~1内,其值越大,相似性越高,而欧氏距离越大,相似性越小,因此对皮尔逊系数求绝对值,对欧氏距离求
Figure FDA0002744804120000042
值,使其改变形式后的值在0~1内,同时也满足了欧式距离越大,皮尔逊系数和欧氏距离加权求和后的匹配度仍然越小的关系,设匹配度为P,由式(3)和式(4)得加权相加后的匹配度计算公式为:
Figure FDA0002744804120000041
式中,P为匹配度,μ1和μ2为皮尔逊系数相似性度量和欧氏距离相似性度量的权重系数,两者的取值取决于形状相似性和数值相似性的重要度,需满足μ12=1,使得加权求和后的匹配度P值仍在[0,1];匹配度P值越大,则相似性越大,说明用户异常嫌疑越大,从而精准定位异常用户。
CN202010226428.3A 2020-03-26 2020-03-26 一种基于数据挖掘的台区线损异常关联用户精准定位方法 Active CN111444241B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010226428.3A CN111444241B (zh) 2020-03-26 2020-03-26 一种基于数据挖掘的台区线损异常关联用户精准定位方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010226428.3A CN111444241B (zh) 2020-03-26 2020-03-26 一种基于数据挖掘的台区线损异常关联用户精准定位方法

Publications (2)

Publication Number Publication Date
CN111444241A CN111444241A (zh) 2020-07-24
CN111444241B true CN111444241B (zh) 2020-12-22

Family

ID=71649105

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010226428.3A Active CN111444241B (zh) 2020-03-26 2020-03-26 一种基于数据挖掘的台区线损异常关联用户精准定位方法

Country Status (1)

Country Link
CN (1) CN111444241B (zh)

Families Citing this family (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111951125B (zh) * 2020-08-12 2022-04-22 积成电子股份有限公司 一种基于大数据分析的台区异常户变关系识别方法
CN111984629B (zh) * 2020-08-31 2021-03-23 南京工程学院 多维场景下基于数据挖掘的台区线损率标准库构建方法
CN112215479B (zh) * 2020-09-27 2022-03-25 青岛鼎信通讯股份有限公司 一种基于自适应收缩岭回归的电表反窃电分析方法
CN112131441B (zh) * 2020-09-27 2023-09-19 国网内蒙古东部电力有限公司 一种快速识别用电异常行为的方法及系统
CN112215490B (zh) * 2020-10-12 2022-09-30 国网重庆市电力公司电力科学研究院 一种基于相关性系数改进K-means的电力负荷聚类分析方法
CN112699913B (zh) * 2020-11-25 2023-08-29 国网湖南省电力有限公司 一种台区户变关系异常诊断方法及装置
CN112966982A (zh) * 2021-03-31 2021-06-15 国家电网有限公司华东分部 台区线损异常的识别方法、系统及电子设备
CN113253014B (zh) * 2021-04-07 2022-08-23 国网河北省电力有限公司衡水供电分公司 台区变户拓扑关系异常检测方法、装置及设备
CN113112177A (zh) * 2021-04-28 2021-07-13 国网山东省电力公司泰安供电公司 一种基于混合指标的台区线损处理方法及系统
CN113435609B (zh) * 2021-06-08 2022-11-22 国网河北省电力有限公司临漳县供电分公司 线损异常检测方法、装置及终端设备
CN114113885B (zh) * 2021-11-19 2023-09-22 国网甘肃省电力公司电力科学研究院 一种基于冗余校验的异常低压分相线损精准定位方法
CN114862139B (zh) * 2022-04-19 2023-12-22 国网江苏省电力有限公司南通供电分公司 一种基于数据驱动的台区线损率异常诊断方法
CN115061076A (zh) * 2022-05-31 2022-09-16 云南电网有限责任公司 一种基于轻载台区的电表误差检测方法
CN115204235B (zh) * 2022-07-22 2024-05-03 大庆正方软件科技股份有限公司 一种基于时序分析的电参降噪方法
CN116304537B (zh) * 2023-04-27 2023-08-22 青岛鼎信通讯股份有限公司 基于智能量测终端的窃电用户核查方法
CN117035167A (zh) * 2023-07-16 2023-11-10 国网江苏省电力有限公司南京供电分公司 一种企业碳排放的预测方法
CN118036905B (zh) * 2024-04-12 2024-06-28 国网山西省电力公司临汾供电公司 一种异常用电用户检测方法、装置、存储介质及电子设备
CN118364313B (zh) * 2024-06-18 2024-09-20 广州南洋电缆集团有限公司 一种电力系统的实时信息标定方法

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103744047A (zh) * 2013-12-23 2014-04-23 国家电网公司 一种定位运行中超差电能表的方法
CN105069527A (zh) * 2015-07-31 2015-11-18 国家电网公司 一种基于数据挖掘技术的台区合理线损预测方法
GB2561916B (en) * 2017-04-28 2021-09-22 Gb Gas Holdings Ltd Method and system for detecting anomalies in energy consumption
CN107340492B (zh) * 2017-05-31 2020-01-21 国网上海市电力公司 基于大数据挖掘和场景预判的电能计量装置故障分析方法
CN107220906B (zh) * 2017-05-31 2019-10-11 国网上海市电力公司 基于用电采集系统的多时间尺度用电异常分析方法

Also Published As

Publication number Publication date
CN111444241A (zh) 2020-07-24

Similar Documents

Publication Publication Date Title
CN111444241B (zh) 一种基于数据挖掘的台区线损异常关联用户精准定位方法
CN111199016B (zh) 一种基于DTW的改进K-means的日负荷曲线聚类方法
CN110796173B (zh) 一种基于改进kmeans的负荷曲线形态聚类算法
CN106055918A (zh) 一种电力系统负荷数据辨识及修复方法
CN109783879B (zh) 一种雷达辐射源信号识别效能评估方法及系统
CN106897774B (zh) 基于蒙特卡洛交叉验证的多个软测量算法集群建模方法
CN111784093B (zh) 一种基于电力大数据分析的企业复工辅助判断方法
CN109034511A (zh) 基于改进Topsis法的配电网投资决策分析模型
CN111539845B (zh) 一种基于用电模式隶属评分的企业环保管控响应研判方法
CN109947815B (zh) 一种基于离群点算法的窃电辨识方法
CN115438576A (zh) 基于Prophet、自注意力机制和时间序列卷积网络的电子式电压互感器误差预测方法
CN111709668A (zh) 基于数据挖掘技术的电网设备参数风险识别方法及装置
CN116049705A (zh) 基于聚类分析的电力系统用户负荷特性聚类方法及系统
CN116109195A (zh) 一种基于图卷积神经网络的绩效评估方法及系统
CN114266423A (zh) 基于多模型的电力能源需求预测方法、装置及存储介质
CN110597990A (zh) 一种基于智能分类的财务分析方法和系统
CN114266457A (zh) 一种配电线路异损诱因检测的方法
CN107274025B (zh) 一种实现用电模式智能识别与管理的系统和方法
CN112149052B (zh) 一种基于plr-dtw的日负荷曲线聚类方法
CN113112177A (zh) 一种基于混合指标的台区线损处理方法及系统
CN112330030A (zh) 业扩物资需求预测系统及方法
CN116629686A (zh) 一种评估企业能耗数据的方法及装置
CN111105098A (zh) 一种单体用户算法自匹配的负荷预测方法和系统
CN115545422A (zh) 一种基于改进决策机制的台区户变关系识别方法
CN108052652A (zh) 基于综合相关系数的犹豫模糊集关联方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant