CN111797887A - 一种基于密度筛选与k-均值聚类的反窃电预警方法及系统 - Google Patents

一种基于密度筛选与k-均值聚类的反窃电预警方法及系统 Download PDF

Info

Publication number
CN111797887A
CN111797887A CN202010299704.9A CN202010299704A CN111797887A CN 111797887 A CN111797887 A CN 111797887A CN 202010299704 A CN202010299704 A CN 202010299704A CN 111797887 A CN111797887 A CN 111797887A
Authority
CN
China
Prior art keywords
user
clustering
data
detected
initial
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010299704.9A
Other languages
English (en)
Inventor
杨艺宁
薛阳
刘厦
杨恒
王聪
杨柳
徐英辉
林繁涛
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
State Grid Corp of China SGCC
China Electric Power Research Institute Co Ltd CEPRI
Original Assignee
State Grid Corp of China SGCC
China Electric Power Research Institute Co Ltd CEPRI
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by State Grid Corp of China SGCC, China Electric Power Research Institute Co Ltd CEPRI filed Critical State Grid Corp of China SGCC
Priority to CN202010299704.9A priority Critical patent/CN111797887A/zh
Publication of CN111797887A publication Critical patent/CN111797887A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
    • G06F18/23213Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • G06Q10/063Operations research, analysis or management
    • G06Q10/0639Performance analysis of employees; Performance analysis of enterprise or organisation operations
    • G06Q10/06393Score-carding, benchmarking or key performance indicator [KPI] analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Systems or methods specially adapted for specific business sectors, e.g. utilities or tourism
    • G06Q50/06Electricity, gas or water supply

Abstract

本发明公开了一种基于密度筛选与K‑均值聚类的反窃电预警方法及系统,其中方法包括:获取目标行业正常用户限定期间的用电数据作为训练样本;将训练样本进行归一化处理,获取经过处理的训练样本;基于密度筛选法,获取经过处理的训练样本的初始聚类中心和聚类数;将初始聚类中心和聚类数作为K‑均值聚类的初始值,基于K‑均值聚类对经过处理的训练样本进行聚类,获取目标行业典型负荷曲线;计算待检用户的负荷曲线与目标行业典型负荷曲线的负荷曲线的欧氏距离和余弦距离;基于欧氏距离和余弦距离确定待检用户的异常度指标;当异常度指标大于预先设定的异常阈值时,将待检用户判断为窃电嫌疑用户。

Description

一种基于密度筛选与K-均值聚类的反窃电预警方法及系统
技术领域
本发明涉及反窃电技术领域,更具体地,涉及一种基于密度筛选与K-均值聚类的反窃电预警方法及系统。
背景技术
当前,一些不法个人和单位采取各种窃电手段,以达到节省生产成本,追求高利润的目的。在窃电手段方面,与以前的欠压、欠流等传统窃电方法相比,现有的窃电手段具有新的特点、手段更多元化、方法更隐蔽,且呈现出技术化和高科技化趋势,这使得国家蒙受巨大的经济损失。据统计,我国每年因窃电导致电力企业产生的损失高达200亿元,给国家造成巨大经济损失,同时社会供电秩序也深受影响。
目前的窃电检测手段分为技术手段和管理手段,技术手段主要是通过加装反窃电装置,或在表计中增加反窃电模块。管理手段有设立稽查队伍、宣传相关法律知识等措施。但是这些手段时效性差、准确率低、人力物力投入大。因此国家相关电力部门必须展开反窃电预警工作,维护供电工作的正常秩序,降低电力企业的经济损失。
在窃电检测和预警方法研究方面,国内外对用户用电行为分析采用得比较多的方法是聚类分析。该方法通过对用户负荷曲线进行聚类,得到了用户的负荷特征曲线,从负荷特征曲线中获取用户用电高峰时间、最大负荷等基本信息。随着智能电网的构建,负荷分类方法的研究越来越深入。在电力负荷聚类分析中,使用得较多的有:FCM算法、K-means算法。传统的K-means算法的聚类结果易受聚类数K值的影响,对初始聚类中心的选择依赖性也比较大,选择不同的初始聚类中心其聚类结果通常不一样,结果具有很大的不确定性,聚类指标往往会收敛于局部最优。目前对K-means算法的研究主要集中在两个方向:一是研究如何获得更好的初始聚类中心;二是研究如何获得最佳的聚类数,即最优的k值。然而K-means算法聚类结果易受值和初始聚类中心的影响,难以预测窃电嫌疑用户。
发明内容
本发明技术方案提供一种基于密度筛选与K-均值聚类的反窃电预警方法及系统,以解决如何基于密度筛选与K-均值聚类的进行反窃电预警的问题。
为了解决上述问题,本发明提供了一种基于密度筛选与K-均值聚类的反窃电预警方法,所述方法包括:
获取目标行业正常用户限定期间的用电数据作为训练样本;
将所述训练样本进行归一化处理,获取经过处理的训练样本;
基于密度筛选法,获取经过处理的训练样本的初始聚类中心和聚类数;
将所述初始聚类中心和所述聚类数作为K-均值聚类的初始值,基于所述K-均值聚类对经过处理的训练样本进行聚类,获取目标行业典型负荷曲线;
计算待检用户的负荷曲线与所述目标行业典型负荷曲线的负荷曲线的欧氏距离和余弦距离;
基于所述欧氏距离和所述余弦距离确定待检用户的异常度指标;
当所述异常度指标大于预先设定的异常阈值时,将所述待检用户判断为窃电嫌疑用户。
优选地,所述将所述训练样本进行归一化处理,获取经过处理的训练样本,包括:
所述训练样本为Pw'={Xwi'}(i=1,2,...,s),Xwi'是第w个行业第i个用户的数据,s为该行业提取的用户数;
对所述训练样本Pw'进行归一化处理,得到经过处理的训练样本Pw={Xwi}(i=1,2,...,s),归一化的公式为,
Figure BDA0002453516990000031
式中,Xwi为第i个用户归一化后的训练样本的数据,Xwi'max、Xwi'min分别为第i个用户的归一化前的训练样本的最大数据和最小数据。
优选地,所述基于密度筛选法,获取经过处理的训练样本的初始聚类中心和聚类数,包括:
(1)计算训练样本空间Pw中任意两个训练样本点的欧氏距离d(Xwi,Xwj),
d(Xwi,Xwj)=||Xwi-Xwj||2 (2)
式中,Xwi、Xwj分别为第w个行业用户i、j的数据;
(2)计算训练样本空间Pw中所有样本点的平均距离Meandist,
Figure BDA0002453516990000032
(3)计算每个训练样本点的密度参数Density(Xwi,Meandist),并形成密度参数集合D;
Figure BDA0002453516990000033
上式中,
Figure BDA0002453516990000034
所述密度参数表示的是以样本点Xwi为中心、平均距离Meandist为半径的范围内样本点的个数;
(4)找出所述密度参数集合D中的最大值Dmax,并统计Dmax的数量N;如果N=1,找出所述密度参数集合Dmax所对应的样本点的数据Xwi,将此处的数据Xwi添加到初始中心候选集U中,并转到步骤(6)执行下一步操作;
(5)若N>1,则说明密度最值点不唯一,则计算多个密度最值点(Xwi,Meandist)邻域内其余样本点与该最值点的距离之和sum,
Figure BDA0002453516990000035
将计算所得的距离之和sum最小的密度最值点的数据Xwi添加到初始中心候选集U中;
(6)将最值样本点的数据Xwi及(Xwi,Meandist)邻域内的样本点都删去;
(7)重复步骤(3)至步骤(6),直到找出所有的初始候选中心。
优选地,还包括:将初始中心候选集U的数据作为K-均值聚类的初始聚类中心和K值,基于所述K-均值聚类对训练样本空间Pw进行聚类,得到聚类结果Cw={Xwi,i=1,2,...,k},Xwi表示第w个行业的第i个类中心的数据,k为聚类类数;以所述聚类结果Cw作为目标行业的典型负荷曲线。
优选地,计算待检用户的负荷曲线与待检用户所在行业的目标行业典型负荷曲线的欧氏距离和余弦距离,包括:
首先要对待检用户的数据进行归一化处理,归一化处理和计算欧式距离的公式分别为式(1)和式(2),计算余弦距离的公式为;
Figure BDA0002453516990000041
式中,X为待检用户某一天的负荷曲线数据。
优选地,所述基于所述欧氏距离和所述余弦距离确定待检用户的异常度指标,包括:
基于所述欧式距离和余弦距离获取待检用户的异常度指标P,
P=w1lgd+w2(1-J) (7)
其中:d为待检用户与行业典型曲线欧氏距离,J为待测用户的余弦距离,w1与w2为加权系数。
基于本发明的另一方面,本发明提供一种基于密度筛选与K-均值聚类的反窃电预警系统,所述系统包括:
第一获取单元,用于获取目标行业正常用户限定期间的用电数据作为训练样本;
处理单元,用于将所述训练样本进行归一化处理,获取经过处理的训练样本;
第二获取单元,用于基于密度筛选法,获取经过处理的训练样本的初始聚类中心和聚类数;
第三获取单元,用于将所述初始聚类中心和所述聚类数作为K-均值聚类的初始值,基于所述K-均值聚类对经过处理的训练样本进行聚类,获取目标行业典型负荷曲线;
计算单元,用于计算待检用户的负荷曲线与所述目标行业典型负荷曲线的负荷曲线的欧氏距离和余弦距离;
确定单元,用于基于所述欧氏距离和所述余弦距离确定待检用户的异常度指标;
结果单元,用于当所述异常度指标大于预先设定的异常阈值时,将所述待检用户判断为窃电嫌疑用户。
优选地,所述处理单元用于将所述训练样本进行归一化处理,获取经过处理的训练样本,包括:
所述训练样本为Pw'={Xwi'}(i=1,2,...,s),Xwi'是第w个行业第i个用户的数据,s为该行业提取的用户数;
对所述训练样本Pw'进行归一化处理,得到经过处理的训练样本Pw={Xwi}(i=1,2,...,s),归一化的公式为,
Figure BDA0002453516990000051
式中,Xwi为第i个用户归一化后的训练样本的数据,Xwi'max、Xwi'min分别为第i个用户的归一化前的训练样本的最大数据和最小数据。
优选地,所述第二获取单元用于基于密度筛选法,获取经过处理的训练样本的初始聚类中心和聚类数,包括:
(1)计算训练样本空间Pw中任意两个训练样本点的欧氏距离d(Xwi,Xwj),
d(Xwi,Xwj)=||Xwi-Xwj||2 (2)
式中,Xwi、Xwj分别为第w个行业用户i、j的数据;
(2)计算训练样本空间Pw中所有样本点的平均距离Meandist,
Figure BDA0002453516990000052
(3)计算每个训练样本点的密度参数Density(Xwi,Meandist),并形成密度参数集合D;
Figure BDA0002453516990000061
上式中,
Figure BDA0002453516990000062
所述密度参数表示的是以样本点Xwi为中心、平均距离Meandist为半径的范围内样本点的个数;
(4)找出所述密度参数集合D中的最大值Dmax,并统计Dmax的数量N;如果N=1,找出所述密度参数集合Dmax所对应的样本点的数据Xwi,将此处的数据Xwi添加到初始中心候选集U中,并转到步骤(6)执行下一步操作;
(5)若N>1,则说明密度最值点不唯一,则计算多个密度最值点(Xwi,Meandist)邻域内其余样本点与该最值点的距离之和sum,
Figure BDA0002453516990000063
将计算所得的距离之和sum最小的密度最值点的数据Xwi添加到初始中心候选集U中;
(6)将最值样本点的数据Xwi及(Xwi,Meandist)邻域内的样本点都删去;
(7)重复步骤(3)至步骤(6),直到找出所有的初始候选中心。
优选地,所述第三获取单元还用于:将初始中心候选集U的数据作为K-均值聚类的初始聚类中心和K值,基于所述K-均值聚类对训练样本空间Pw进行聚类,得到聚类结果Cw={Xwi,i=1,2,...,k},Xwi表示第w个行业的第i个类中心的数据,k为聚类类数;以所述聚类结果Cw作为目标行业的典型负荷曲线。
优选地,所述计算单元用于计算待检用户的负荷曲线与待检用户所在行业的目标行业典型负荷曲线的欧氏距离和余弦距离,包括:
首先要对待检用户的数据进行归一化处理,归一化处理和计算欧式距离的公式分别为式(1)和式(2),计算余弦距离的公式为;
Figure BDA0002453516990000071
式中,X为待检用户某一天的负荷曲线数据。
优选地,所述确定单元用于基于所述欧氏距离和所述余弦距离确定待检用户的异常度指标,包括:
基于所述欧式距离和余弦距离获取待检用户的异常度指标P,
P=w1lgd+w2(1-J) (7)
其中:d为待检用户与行业典型曲线欧氏距离,J为待测用户的余弦距离,w1与w2为加权系数。
本发明技术方案提供一种基于密度筛选与K-均值聚类的反窃电预警方法及系统,其中方法包括:获取目标行业正常用户限定期间的用电数据作为训练样本;将训练样本进行归一化处理,获取经过处理的训练样本;基于密度筛选法,获取经过处理的训练样本的初始聚类中心和聚类数;将初始聚类中心和聚类数作为K-均值聚类的初始值,基于K-均值聚类对经过处理的训练样本进行聚类,获取目标行业典型负荷曲线;计算待检用户的负荷曲线与目标行业典型负荷曲线的负荷曲线的欧氏距离和余弦距离;基于欧氏距离和余弦距离确定待检用户的异常度指标;当异常度指标大于预先设定的异常阈值时,将待检用户判断为窃电嫌疑用户。本发明技术方案结合对K-means算法这两个方向的研究,提出了在优化K-means初始聚类中心选择的基础上确定最佳聚类数的值的方法。考虑到K-means算法聚类结果易受值和初始聚类中心的影响,针对这两个影响聚类结果的因素提出了改进方法,一方面结合密度法和距离法提出对初始聚类中心的选择进行优化,另一方面是在初始中心点优化的基础上应用一个新的聚类有效性评价函数来确定K-means算法的最佳聚类。可为反窃电预警技术研究提供重要参考。
附图说明
通过参考下面的附图,可以更为完整地理解本发明的示例性实施方式:
图1为根据本发明优选实施方式的一种基于密度筛选与K-均值聚类的反窃电预警方法流程图;
图2为根据本发明优选实施方式的基于密度筛选法与K-均值聚类的窃电检测方法流程图;
图3为根据本发明优选实施方式的基于密度筛选法与K-均值聚类的窃电检测处理流程图;
图4为根据本发明优选实施方式的基于密度筛选法与K-均值聚类的窃电检测系统结构图;
图5为根据本发明优选实施方式的通过聚类得到的某行业日负荷曲线的聚类结果;
图6为根据本发明优选实施方式的通过聚类得到的某行业的4类典型日负荷曲线;
图7为根据本发明优选实施方式的某行业4类聚类结果的异常度指标散点图;
图8为根据本发明优选实施方式的待测用户A的日负荷特征曲线;
图9为根据本发明优选实施方式的待测用户B的日负荷特征曲线;
图10为根据本发明优选实施方式的待测用户C的日负荷特征曲线;以及
图11为根据本发明优选实施方式的一种基于密度筛选与K-均值聚类的反窃电预警系统结构图。
具体实施方式
现在参考附图介绍本发明的示例性实施方式,然而,本发明可以用许多不同的形式来实施,并且不局限于此处描述的实施例,提供这些实施例是为了详尽地且完全地公开本发明,并且向所属技术领域的技术人员充分传达本发明的范围。对于表示在附图中的示例性实施方式中的术语并不是对本发明的限定。在附图中,相同的单元/元件使用相同的附图标记。
除非另有说明,此处使用的术语(包括科技术语)对所属技术领域的技术人员具有通常的理解含义。另外,可以理解的是,以通常使用的词典限定的术语,应当被理解为与其相关领域的语境具有一致的含义,而不应该被理解为理想化的或过于正式的意义。
图1为根据本发明优选实施方式属于负荷聚类与窃电检测领域,是一种用于典型用户用电信息的特征提取聚类方法以及通过对比被测用户与典型用户信息的窃电嫌疑用户检测方法。本申请包括密度筛选、K-均值聚类和负荷曲线异常度计算等三个阶段。其中在密度筛选阶段,需要输入正常用户样本的日负荷曲线信息,获取样本的初始聚类中心和聚类数。在K-均值聚类阶段,K值和初始聚类中心使用上一阶段的结果。在负荷曲线异常度计算阶段,计算待检用户基于欧氏距离和余弦距离的异常度指标,判断是否大于阈值,如果大于阈值,则判断为窃电嫌疑用户,如果小于阈值,则判断为正常用户。本申请利用密度筛选法来优选样本初始聚类中心,克服了一般K-均值聚类初始中心随机选取、聚类数不确定的缺点,能够得出准确的典型负荷曲线作为窃电检测的标准,通过计算待测用户的异常度指标,能够准确找出存在窃电嫌疑的用户,指导现场窃电稽查工作。如图1所示,一种基于密度筛选与K-均值聚类的反窃电预警方法,方法包括:
优选地,在步骤101:获取目标行业正常用户限定期间的用电数据作为训练样本;
优选地,在步骤102:将训练样本进行归一化处理,获取经过处理的训练样本。本申请从SCADA系统中抽取同一行业正常用户某一天的用电数据作为训练样本,并对该训练样本进行归一化处理,获取处理样本。优选地,将训练样本进行归一化处理,获取经过处理的训练样本,包括:
训练样本为Pw'={Xwi'}(i=1,2,...,s),Xwi'是第w个行业第i个用户的数据,s为该行业提取的用户数;
对训练样本Pw'进行归一化处理,得到经过处理的训练样本Pw={Xwi}(i=1,2,...,s),归一化的公式为,
Figure BDA0002453516990000101
式中,Xwi为第i个用户归一化后的训练样本的数据,Xwi'max、Xwi'min分别为第i个用户的归一化前的训练样本的最大数据和最小数据。
优选地,在步骤103:基于密度筛选法,获取经过处理的训练样本的初始聚类中心和聚类数。优选地,基于密度筛选法,获取经过处理的训练样本的初始聚类中心和聚类数,包括:
(1)计算训练样本空间Pw中任意两个训练样本点的欧氏距离d(Xwi,Xwj),
d(Xwi,Xwj)=||Xwi-Xwj||2 (2)
式中,Xwi、Xwj分别为第w个行业用户i、j的数据;
(2)计算训练样本空间Pw中所有样本点的平均距离Meandist,
Figure BDA0002453516990000102
(3)计算每个训练样本点的密度参数Density(Xwi,Meandist),并形成密度参数集合D;
Figure BDA0002453516990000103
上式中,
Figure BDA0002453516990000104
密度参数表示的是以样本点Xwi为中心、平均距离Meandist为半径的范围内样本点的个数;
(4)找出密度参数集合D中的最大值Dmax,并统计Dmax的数量N;如果N=1,说明密度最值点唯一,找出密度参数集合Dmax所对应的样本点的数据Xwi,将此处的数据Xwi添加到初始中心候选集U中,并转到步骤(6)执行下一步操作;
(5)若N>1,则说明密度最值点不唯一,则计算多个密度最值点(Xwi,Meandist)邻域内其余样本点与该最值点的距离之和sum,
Figure BDA0002453516990000105
将计算所得的距离之和sum最小的密度最值点的数据Xwi添加到初始中心候选集U中;
(6)将最值样本点的数据Xwi及(Xwi,Meandist)邻域内的样本点都删去;
(7)重复步骤(3)至步骤(6),直到找出所有的初始候选中心。
优选地,在步骤104:将初始聚类中心和聚类数作为K-均值聚类的初始值,基于K-均值聚类对经过处理的训练样本进行聚类,获取目标行业典型负荷曲线。优选地,方法还包括:将初始中心候选集U的数据作为K-均值聚类的初始聚类中心和K值,基于K-均值聚类对训练样本空间Pw进行聚类,得到聚类结果Cw={Xwi,i=1,2,...,k},Xwi表示第w个行业的第i个类中心的数据,k为聚类类数;以聚类结果Cw作为目标行业的典型负荷曲线。
优选地,在步骤105:计算待检用户的负荷曲线与目标行业典型负荷曲线的负荷曲线的欧氏距离和余弦距离。优选地,计算待检用户的负荷曲线与待检用户所在行业的目标行业典型负荷曲线的欧氏距离和余弦距离,包括:
首先要对待检用户的数据进行归一化处理,归一化处理和计算欧式距离的公式分别为式(1)和式(2),计算余弦距离的公式为;
Figure BDA0002453516990000111
式中,X为待检用户某一天的负荷曲线数据。
优选地,在步骤106:基于欧氏距离和余弦距离确定待检用户的异常度指标。优选地,基于欧氏距离和余弦距离确定待检用户的异常度指标,包括:
基于欧式距离和余弦距离获取待检用户的异常度指标P,
P=w1lgd+w2(1-J) (7)
其中:d为待检用户与行业典型曲线欧氏距离,J为待测用户的余弦距离,w1与w2为加权系数。
优选地,在步骤107:当异常度指标大于预先设定的异常阈值时,将待检用户判断为窃电嫌疑用户。本申请的阈值可根据聚类结果的异常度指标散点图设定,具体可参见图8。
由于传统的K-均值聚类方法需要事先给定聚类数K,并且其初始聚类中心随机选取,存在聚类结果不稳定的缺点。而本申请实施方式提出的密度筛选法通过扫描样本点的分布,优选样本空间中密度排序靠前的点作为初始聚类中心,能克服K-均值聚类的缺点,能够得出准确的典型日负荷曲线,提高了窃电监测点的准确性。
附图5为根据权利要求1聚类得到的某行业日负荷曲线的聚类结果;附图6为根据权利要求1聚类得到的某行业的4类典型日负荷曲线;
附图7为某行业4类聚类结果的异常度指标散点图;根据该散点图,可将这4类聚类结果的异常度阈值分别设置为:0.59、0.59、0.61和0.61。
附图8为待测用户A的日负荷特征曲线,计算得到该用户的异常度指标如表1所示,可见其四项异常度指标均超过阈值,诊断结果为异常用户;
附图9为待测用户B的日负荷特征曲线,计算得到该用户的异常度指标如表1所示,其第2个异常度指标未超过阈值,诊断结果为第2类正常用户;
附图10为待测用户C的日负荷特征曲线,计算得到该用户的异常度指标如表1所示,其第3个异常度指标未超过阈值,诊断结果为第3类正常用户;
表1待检用户异常度指标
Figure BDA0002453516990000121
图4为根据本发明优选实施方式的基于密度筛选法与K-均值聚类的窃电检测系统结构图。如图4所示,该系统由正常用电模式提取模块1010和待检用户窃电检测模块1020组成。
正常用电模式提取模块1010包括:
前置预处理单元1011,用于从SCADA系统中抽取同一行业正常用户某一天的用电数据作为训练样本,并对该训练样本进行归一化处理,获取处理样本;归一化的公式为,
Figure BDA0002453516990000131
式中,Xwi为第i个用户归一化后的数据,Xwi'max、Xwi'min分别为第i个用户的归一化前的最大数据和最小数据;
第一聚类单元1012,用于基于密度筛选法,获取上述处理样本的初始聚类中心和聚类数;优选地,第一聚类单元1012具体包括,
(1)计算样本空间Pw中任意两个样本点的欧氏距离d(Xwi,Xwj),
d(Xwi,Xwj)=||Xwi-Xwj||2 (2)
式中,Xwi、Xwj分别为第w个行业用户i、j的数据;
(2)计算样本空间Pw中所有样本点的平均距离Meandist,
Figure BDA0002453516990000132
式中,s、d(Xwi,Xwj)意义同上;
(3)计算每个样本点的密度参数Density(Xwi,Meandist),并形成密度参数集合D;
Figure BDA0002453516990000133
式中,
Figure BDA0002453516990000134
该密度参数表示的是以样本点Xwi为中心、Meandist为半径的范围内,样本点的个数;
(4)找出D中的最大值Dmax,并统计Dmax的数量N;如果N=1,说明密度最值点唯一,找出该Dmax所对应的样本点Xwi,并把此处的Xwi添加到初始中心候选集U中,然后转到步骤(6)执行下一步操作;
(5)若N>1,则说明密度最值点不唯一,那计算这些密度最值点(Xwi,Meandist)邻域内其余样本点与该最值点的距离之和sum,
Figure BDA0002453516990000141
把算得sum最小的密度最值点Xwi添加到集合U中;
(6)把上述最值样本点Xwi及(Xwi,Meandist)邻域内的样本点都删去;
(7)重复步骤(3)~(6),直到找出所有可能的初始候选中心;
第二聚类单元1013,将所述初始聚类中心和聚类数作为K-均值聚类的初始值,基于该K均值聚类对所述处理样本进行聚类,获取该行业的典型负荷曲线数据。
待检用户窃电检测模块1020包括:
计算单元1021,计算待检用户负荷曲线与用户所在行业的典型负荷曲线的欧氏距离和余弦距离;欧式距离的公式同式(35),计算余弦距离的公式为;
Figure BDA0002453516990000142
判断单元1022,基于所述欧式距离和余弦距离获取待检用户的异常度指标,计算公式为,
P=w1lgd+w2(1-J) (7)
式中:d为待检用户与行业典型曲线欧氏距离,J为待测用户的余弦距离,w1与w2为加权系数;当所述异常度指标大于预先设定的阀值时,则将该用户判定为窃电嫌疑用户。
图11为根据本发明优选实施方式的一种基于密度筛选与K-均值聚类的反窃电预警系统结构图。如图11所示,本申请提供一种基于密度筛选与K-均值聚类的反窃电预警系统,系统包括:
第一获取单元1101,用于获取目标行业正常用户限定期间的用电数据作为训练样本。
处理单元1102,用于将训练样本进行归一化处理,获取经过处理的训练样本。本申请从SCADA系统中抽取同一行业正常用户某一天的用电数据作为训练样本,并对该训练样本进行归一化处理,获取处理样本。优选地,处理单元用于将训练样本进行归一化处理,获取经过处理的训练样本,包括:
训练样本为Pw'={Xwi'}(i=1,2,...,s),Xwi'是第w个行业第i个用户的数据,s为该行业提取的用户数;
对训练样本Pw'进行归一化处理,得到经过处理的训练样本Pw={Xwi}(i=1,2,...,s),归一化的公式为,
Figure BDA0002453516990000151
式中,Xwi为第i个用户归一化后的训练样本的数据,Xwi'max、Xwi'min分别为第i个用户的归一化前的训练样本的最大数据和最小数据。
第二获取单元1103,用于基于密度筛选法,获取经过处理的训练样本的初始聚类中心和聚类数。优选地,第二获取单元用于基于密度筛选法,获取经过处理的训练样本的初始聚类中心和聚类数,包括:
(1)计算训练样本空间Pw中任意两个训练样本点的欧氏距离d(Xwi,Xwj),
d(Xwi,Xwj)=||Xwi-Xwj||2 (2)
式中,Xwi、Xwj分别为第w个行业用户i、j的数据;
(2)计算训练样本空间Pw中所有样本点的平均距离Meandist,
Figure BDA0002453516990000152
(3)计算每个训练样本点的密度参数Density(Xwi,Meandist),并形成密度参数集合D;
Figure BDA0002453516990000153
上式中,
Figure BDA0002453516990000154
密度参数表示的是以样本点Xwi为中心、平均距离Meandist为半径的范围内样本点的个数;
(4)找出密度参数集合D中的最大值Dmax,并统计Dmax的数量N;如果N=1,找出密度参数集合Dmax所对应的样本点的数据Xwi,将此处的数据Xwi添加到初始中心候选集U中,并转到步骤(6)执行下一步操作;
(5)若N>1,则说明密度最值点不唯一,则计算多个密度最值点(Xwi,Meandist)邻域内其余样本点与该最值点的距离之和sum,
Figure BDA0002453516990000161
将计算所得的距离之和sum最小的密度最值点的数据Xwi添加到初始中心候选集U中;
(6)将最值样本点的数据Xwi及(Xwi,Meandist)邻域内的样本点都删去;
(7)重复步骤(3)至步骤(6),直到找出所有的初始候选中心。
第三获取单元1104,用于将初始聚类中心和聚类数作为K-均值聚类的初始值,基于K-均值聚类对经过处理的训练样本进行聚类,获取目标行业典型负荷曲线。优选地,第三获取单元还用于:将初始中心候选集U的数据作为K-均值聚类的初始聚类中心和K值,基于K-均值聚类对训练样本空间Pw进行聚类,得到聚类结果Cw={Xwi,i=1,2,...,k},Xwi表示第w个行业的第i个类中心的数据,k为聚类类数;以聚类结果Cw作为目标行业的典型负荷曲线。
计算单元1105,用于计算待检用户的负荷曲线与目标行业典型负荷曲线的负荷曲线的欧氏距离和余弦距离。优选地,计算单元用于计算待检用户的负荷曲线与待检用户所在行业的目标行业典型负荷曲线的欧氏距离和余弦距离,包括:
首先要对待检用户的数据进行归一化处理,归一化处理和计算欧式距离的公式分别为式(1)和式(2),计算余弦距离的公式为;
Figure BDA0002453516990000162
式中,X为待检用户某一天的负荷曲线数据。
确定单元1106,用于基于欧氏距离和余弦距离确定待检用户的异常度指标。优选地,确定单元用于基于欧氏距离和余弦距离确定待检用户的异常度指标,包括:
基于欧式距离和余弦距离获取待检用户的异常度指标P,
P=w1lgd+w2(1-J) (7)
其中:d为待检用户与行业典型曲线欧氏距离,J为待测用户的余弦距离,w1与w2为加权系数。
结果单元1107,用于当异常度指标大于预先设定的异常阈值时,将待检用户判断为窃电嫌疑用户。
已经通过参考少量实施方式描述了本发明。然而,本领域技术人员所公知的,正如附带的专利权利要求所限定的,除了本发明以上公开的其他的实施例等同地落在本发明的范围内。
通常地,在权利要求中使用的所有术语都根据他们在技术领域的通常含义被解释,除非在其中被另外明确地定义。所有的参考“一个//该[装置、组件等]”都被开放地解释为装置、组件等中的至少一个实例,除非另外明确地说明。这里公开的任何方法的步骤都没必要以公开的准确的顺序运行,除非明确地说明。

Claims (12)

1.一种基于密度筛选与K-均值聚类的反窃电预警方法,所述方法包括:
获取目标行业正常用户限定期间的用电数据作为训练样本;
将所述训练样本进行归一化处理,获取经过处理的训练样本;
基于密度筛选法,获取经过处理的训练样本的初始聚类中心和聚类数;
将所述初始聚类中心和所述聚类数作为K-均值聚类的初始值,基于所述K-均值聚类对经过处理的训练样本进行聚类,获取目标行业典型负荷曲线;
计算待检用户的负荷曲线与所述目标行业典型负荷曲线的负荷曲线的欧氏距离和余弦距离;
基于所述欧氏距离和所述余弦距离确定待检用户的异常度指标;
当所述异常度指标大于预先设定的异常阈值时,将所述待检用户判断为窃电嫌疑用户。
2.根据权利要求1所述的方法,所述将所述训练样本进行归一化处理,获取经过处理的训练样本,包括:
所述训练样本为Pw'={Xwi'}(i=1,2,...,s),Xwi'是第w个行业第i个用户的数据,s为该行业提取的用户数;
对所述训练样本Pw'进行归一化处理,得到经过处理的训练样本Pw={Xwi}(i=1,2,...,s),归一化的公式为,
Figure FDA0002453516980000011
式中,Xwi为第i个用户归一化后的训练样本的数据,Xwi'max、Xwi'min分别为第i个用户的归一化前的训练样本的最大数据和最小数据。
3.根据权利要求2所述的方法,所述基于密度筛选法,获取经过处理的训练样本的初始聚类中心和聚类数,包括:
(1)计算训练样本空间Pw中任意两个训练样本点的欧氏距离d(Xwi,Xwj),
d(Xwi,Xwj)=||Xwi-Xwj||2 (2)
式中,Xwi、Xwj分别为第w个行业用户i、j的数据;
(2)计算训练样本空间Pw中所有样本点的平均距离Meandist,
Figure FDA0002453516980000021
(3)计算每个训练样本点的密度参数Density(Xwi,Meandist),并形成密度参数集合D;
Figure FDA0002453516980000022
上式中,
Figure FDA0002453516980000023
所述密度参数表示的是以样本点Xwi为中心、平均距离Meandist为半径的范围内样本点的个数;
(4)找出所述密度参数集合D中的最大值Dmax,并统计Dmax的数量N;如果N=1,找出所述密度参数集合Dmax所对应的样本点的数据Xwi,将此处的数据Xwi添加到初始中心候选集U中,并转到步骤(6)执行下一步操作;
(5)若N>1,则说明密度最值点不唯一,则计算多个密度最值点(Xwi,Meandist)邻域内其余样本点与该最值点的距离之和sum,
Figure FDA0002453516980000024
将计算所得的距离之和sum最小的密度最值点的数据Xwi添加到初始中心候选集U中;
(6)将最值样本点的数据Xwi及(Xwi,Meandist)邻域内的样本点都删去;
(7)重复步骤(3)至步骤(6),直到找出所有的初始候选中心。
4.根据权利要求3所述的方法,还包括:将初始中心候选集U的数据作为K-均值聚类的初始聚类中心和K值,基于所述K-均值聚类对训练样本空间Pw进行聚类,得到聚类结果Cw={Xwi,i=1,2,...,k},Xwi表示第w个行业的第i个类中心的数据,k为聚类类数;以所述聚类结果Cw作为目标行业的典型负荷曲线。
5.根据权利要求4所述的方法,计算待检用户的负荷曲线与待检用户所在行业的目标行业典型负荷曲线的欧氏距离和余弦距离,包括:
首先要对待检用户的数据进行归一化处理,归一化处理和计算欧式距离的公式分别为式(1)和式(2),计算余弦距离的公式为;
Figure FDA0002453516980000031
式中,X为待检用户某一天的负荷曲线数据。
6.根据权利要求5所述的方法,所述基于所述欧氏距离和所述余弦距离确定待检用户的异常度指标,包括:
基于所述欧式距离和余弦距离获取待检用户的异常度指标P,
P=w1lgd+w2(1-J) (7)
其中:d为待检用户与行业典型曲线欧氏距离,J为待测用户的余弦距离,w1与w2为加权系数。
7.一种基于密度筛选与K-均值聚类的反窃电预警系统,所述系统包括:
第一获取单元,用于获取目标行业正常用户限定期间的用电数据作为训练样本;
处理单元,用于将所述训练样本进行归一化处理,获取经过处理的训练样本;
第二获取单元,用于基于密度筛选法,获取经过处理的训练样本的初始聚类中心和聚类数;
第三获取单元,用于将所述初始聚类中心和所述聚类数作为K-均值聚类的初始值,基于所述K-均值聚类对经过处理的训练样本进行聚类,获取目标行业典型负荷曲线;
计算单元,用于计算待检用户的负荷曲线与所述目标行业典型负荷曲线的负荷曲线的欧氏距离和余弦距离;
确定单元,用于基于所述欧氏距离和所述余弦距离确定待检用户的异常度指标;
结果单元,用于当所述异常度指标大于预先设定的异常阈值时,将所述待检用户判断为窃电嫌疑用户。
8.根据权利要求7所述的系统,所述处理单元用于将所述训练样本进行归一化处理,获取经过处理的训练样本,包括:
所述训练样本为Pw'={Xwi'}(i=1,2,...,s),Xwi'是第w个行业第i个用户的数据,s为该行业提取的用户数;
对所述训练样本Pw'进行归一化处理,得到经过处理的训练样本Pw={Xwi}(i=1,2,...,s),归一化的公式为,
Figure FDA0002453516980000041
式中,Xwi为第i个用户归一化后的训练样本的数据,Xwi'max、Xwi'min分别为第i个用户的归一化前的训练样本的最大数据和最小数据。
9.根据权利要求8所述的系统,所述第二获取单元用于基于密度筛选法,获取经过处理的训练样本的初始聚类中心和聚类数,包括:
(1)计算训练样本空间Pw中任意两个训练样本点的欧氏距离d(Xwi,Xwj),
d(Xwi,Xwj)=||Xwi-Xwj||2 (2)
式中,Xwi、Xwj分别为第w个行业用户i、j的数据;
(2)计算训练样本空间Pw中所有样本点的平均距离Meandist,
Figure FDA0002453516980000042
(3)计算每个训练样本点的密度参数Density(Xwi,Meandist),并形成密度参数集合D;
Figure FDA0002453516980000043
上式中,
Figure FDA0002453516980000051
所述密度参数表示的是以样本点Xwi为中心、平均距离Meandist为半径的范围内样本点的个数;
(4)找出所述密度参数集合D中的最大值Dmax,并统计Dmax的数量N;如果N=1,找出所述密度参数集合Dmax所对应的样本点的数据Xwi,将此处的数据Xwi添加到初始中心候选集U中,并转到步骤(6)执行下一步操作;
(5)若N>1,则说明密度最值点不唯一,则计算多个密度最值点(Xwi,Meandist)邻域内其余样本点与该最值点的距离之和sum,
Figure FDA0002453516980000052
将计算所得的距离之和sum最小的密度最值点的数据Xwi添加到初始中心候选集U中;
(6)将最值样本点的数据Xwi及(Xwi,Meandist)邻域内的样本点都删去;
(7)重复步骤(3)至步骤(6),直到找出所有的初始候选中心。
10.根据权利要求9所述的系统,所述第三获取单元还用于:将初始中心候选集U的数据作为K-均值聚类的初始聚类中心和K值,基于所述K-均值聚类对训练样本空间Pw进行聚类,得到聚类结果Cw={Xwi,i=1,2,...,k},Xwi表示第w个行业的第i个类中心的数据,k为聚类类数;以所述聚类结果Cw作为目标行业的典型负荷曲线。
11.根据权利要求10所述的系统,所述计算单元用于计算待检用户的负荷曲线与待检用户所在行业的目标行业典型负荷曲线的欧氏距离和余弦距离,包括:
首先要对待检用户的数据进行归一化处理,归一化处理和计算欧式距离的公式分别为式(1)和式(2),计算余弦距离的公式为;
Figure FDA0002453516980000053
式中,X为待检用户某一天的负荷曲线数据。
12.根据权利要求11所述的系统,所述确定单元用于基于所述欧氏距离和所述余弦距离确定待检用户的异常度指标,包括:
基于所述欧式距离和余弦距离获取待检用户的异常度指标P,
P=w1lgd+w2(1-J) (7)
其中:d为待检用户与行业典型曲线欧氏距离,J为待测用户的余弦距离,w1与w2为加权系数。
CN202010299704.9A 2020-04-16 2020-04-16 一种基于密度筛选与k-均值聚类的反窃电预警方法及系统 Pending CN111797887A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010299704.9A CN111797887A (zh) 2020-04-16 2020-04-16 一种基于密度筛选与k-均值聚类的反窃电预警方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010299704.9A CN111797887A (zh) 2020-04-16 2020-04-16 一种基于密度筛选与k-均值聚类的反窃电预警方法及系统

Publications (1)

Publication Number Publication Date
CN111797887A true CN111797887A (zh) 2020-10-20

Family

ID=72806445

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010299704.9A Pending CN111797887A (zh) 2020-04-16 2020-04-16 一种基于密度筛选与k-均值聚类的反窃电预警方法及系统

Country Status (1)

Country Link
CN (1) CN111797887A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112819299A (zh) * 2021-01-21 2021-05-18 上海电力大学 一种基于中心优化的差分K-means负荷聚类方法
CN113591992A (zh) * 2021-08-02 2021-11-02 中国民用航空飞行学院 一种燃气涡轮发动机的孔探智能检测辅助系统及方法
CN113933585A (zh) * 2021-11-26 2022-01-14 长沙理工大学 一种基于欧氏距离的漏电台区断零窃电用户检测方法
CN114298147A (zh) * 2021-11-23 2022-04-08 深圳无域科技技术有限公司 异常样本的检测方法、装置、电子设备及存储介质

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112819299A (zh) * 2021-01-21 2021-05-18 上海电力大学 一种基于中心优化的差分K-means负荷聚类方法
CN113591992A (zh) * 2021-08-02 2021-11-02 中国民用航空飞行学院 一种燃气涡轮发动机的孔探智能检测辅助系统及方法
CN114298147A (zh) * 2021-11-23 2022-04-08 深圳无域科技技术有限公司 异常样本的检测方法、装置、电子设备及存储介质
CN113933585A (zh) * 2021-11-26 2022-01-14 长沙理工大学 一种基于欧氏距离的漏电台区断零窃电用户检测方法

Similar Documents

Publication Publication Date Title
CN111797887A (zh) 一种基于密度筛选与k-均值聚类的反窃电预警方法及系统
CN109146705B (zh) 一种用电特征指标降维与极限学习机算法进行窃电检测的方法
CN109583680B (zh) 一种基于支持向量机的窃电辨识方法
CN111738364B (zh) 一种基于用户负荷与用电参量相结合的窃电检测方法
CN111160791A (zh) 一种基于gbdt算法及因素融合的异常用户识别方法
CN109583679A (zh) 一种多算法融合的窃电疑似度分析方法
CN111340065B (zh) 一种基于复杂用户行为分析的用户负荷窃电模型挖掘系统及方法
CN109947815B (zh) 一种基于离群点算法的窃电辨识方法
CN110569876A (zh) 非侵入式负荷识别方法、装置及计算设备
CN103310235B (zh) 一种基于参数识别与估计的隐写分析方法
CN112732748A (zh) 一种基于自适应特征选择的非侵入式家电负荷识别方法
WO2019015226A1 (zh) 一种快速识别风速分布规律的方法
CN116796271A (zh) 一种居民用能异常识别方法
CN110220885B (zh) 一种机械设备磨损状态综合判断方法
CN114266457A (zh) 一种配电线路异损诱因检测的方法
CN106442830B (zh) 变压器油中气体含量告警值的检测方法和系统
CN111507374A (zh) 一种基于随机矩阵理论的电网海量数据异常检测方法
CN113298148B (zh) 一种面向生态环境评价的不平衡数据重采样方法
CN112924743B (zh) 一种基于电流数据的仪器状态检测方法
CN111507878B (zh) 一种基于用户画像的网络犯罪嫌疑人侦查方法及系统
CN114839462A (zh) 一种智能反窃电监察方法和系统
CN112685461A (zh) 一种基于预判模型的窃电用户判断方法
CN114280352B (zh) 一种基于电流的大仪工时计算方法
CN117647697B (zh) 一种基于知识图谱的电力计量流水线故障定位方法及系统
Luo et al. Detection of abnormal power consumption patterns of power users based on machine learning

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination