CN111340065A - 一种基于复杂用户行为分析的用户负荷窃电模型挖掘系统及方法 - Google Patents

一种基于复杂用户行为分析的用户负荷窃电模型挖掘系统及方法 Download PDF

Info

Publication number
CN111340065A
CN111340065A CN202010084063.5A CN202010084063A CN111340065A CN 111340065 A CN111340065 A CN 111340065A CN 202010084063 A CN202010084063 A CN 202010084063A CN 111340065 A CN111340065 A CN 111340065A
Authority
CN
China
Prior art keywords
user
electricity
electricity stealing
stealing
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010084063.5A
Other languages
English (en)
Other versions
CN111340065B (zh
Inventor
邓松
蔡清媛
董霞
岳东
袁新雅
陈福林
祝展望
张建堂
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing University of Posts and Telecommunications
Original Assignee
Nanjing University of Posts and Telecommunications
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing University of Posts and Telecommunications filed Critical Nanjing University of Posts and Telecommunications
Priority to CN202010084063.5A priority Critical patent/CN111340065B/zh
Publication of CN111340065A publication Critical patent/CN111340065A/zh
Application granted granted Critical
Publication of CN111340065B publication Critical patent/CN111340065B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • G06F16/215Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2465Query processing support for facilitating data mining operations in structured databases
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y04INFORMATION OR COMMUNICATION TECHNOLOGIES HAVING AN IMPACT ON OTHER TECHNOLOGY AREAS
    • Y04SSYSTEMS INTEGRATING TECHNOLOGIES RELATED TO POWER NETWORK OPERATION, COMMUNICATION OR INFORMATION TECHNOLOGIES FOR IMPROVING THE ELECTRICAL POWER GENERATION, TRANSMISSION, DISTRIBUTION, MANAGEMENT OR USAGE, i.e. SMART GRIDS
    • Y04S10/00Systems supporting electrical power generation, transmission or distribution
    • Y04S10/50Systems or methods supporting the power network operation or management, involving a certain degree of interaction with the load-side end user applications

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Quality & Reliability (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Fuzzy Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Computational Linguistics (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明提供一种基于复杂用户行为分析的用户负荷窃电模型挖掘系统及方法,包括数据处理器、窃电嫌疑用户发现器、用户负荷曲线生成器和窃电用户诊断器,所述数据处理器与窃电嫌疑用户发现器连接,窃电嫌疑用户发现器与用户负荷曲线生成器连接,用户负荷曲线生成器与窃电用户诊断器连接。将DBSCAN密度聚类算法用于查找异常用电用户,再将模糊C均值算法运用到生成用户负荷曲线中,最终通过曲线相似度比较检测出窃电用户;充分利用了复杂用户负荷数据对用户用电行为进行分析,可以很好的检测窃电用户。

Description

一种基于复杂用户行为分析的用户负荷窃电模型挖掘系统及 方法
技术领域
本发明涉及数据挖掘领域,尤其涉及一种基于复杂用户行为分析的用户负荷窃电模型挖掘系统及方法。
背景技术
随着我国经济的快速发展,人民生活水平的提高,人们的生产生活越来越离不开电能,对电的需求也越来越大,同时对电能的质量和可靠性要求越来越高,用户的用电需求呈现多元化发展趋势。目前我国已进入全面建成智能电网的时代,电能计量自动化系统记录的数据呈指数型增长、数据量巨大、结构类型繁多,这些电能计量数据中包含了通过各种计量设备所采集的与用电情况相关的数据,如电流、电压、负荷,其中对用户用电行为分析使用得最多的是负荷数据。用户的用电负荷变化反映了用户的用电行为变化,对用户用电行为的分析,对于负荷预测、负荷控制、用电异常检测甚至电价目录的制定等都有理论和实际意义。那么如何将这些数据充分利用起来去解决电网中的实际问题变得尤为重要。数据挖据目前已广泛用于电力领域,采用聚类分析、关联规则、分类和预测等方法可以从大量的、模糊的、随机的数据中提取我们需要的信息和知识。
在电网发展过程中,窃电问题还普遍存在,部分地区甚至还很猖獗。窃电不仅损害了国家和电力企业的经济利益,还危及到电网的安全运行,阻碍了电力行业的正常发展。过去一般依靠人工对疑似窃电用户展开大海捞针式排查分析工作,耗费了大量的人力物力,目前国家电网公司以及各类设备厂商都在积极探索利用计量自动化系统等实时数据为反窃电工作提供信息化及智能化的手段,有效打击窃电行为,由此可见反窃电工作意义重大。
基于复杂用户行为分析的用户负荷窃电模型挖掘主要需考虑两个方面的问题:(1)如何从大量数据中找出用电数据异常的用户;(2)如何判定这些用电数据异常用户是否有在窃电行为。
发明内容
针对现有技术的不足,本发明的目的是提供了一种基于复杂用户行为分析的用户负荷窃电模型挖据系统及方法,通过采用DBSCAN密度聚类算法对用户负荷数据进行分类来找出异常样本,从而检测出用电导常用户负荷数据,将这些用户标记为窃电嫌疑用户。然后利用模糊C均值算法将已知窃电用户负荷数据进行聚类分析,得到已知窃电用户典型用电行为特性曲线。再用模糊C均值算法对待识别窃电嫌疑用户负荷数据进行聚类,得到待识别窃电嫌疑用户聚类中心曲线,分析这两条曲线的相似度,进而判断窃电嫌疑用户是窃电用户的可能性,从而解决了电网中窃电用户的有效识别,提高了电力系统安全运行的稳定性。
本发明提供一种基于复杂用户行为分析的用户负荷窃电模型挖掘系统,包括数据处理器、窃电嫌疑用户发现器、用户负荷曲线生成器和窃电用户诊断器,所述数据处理器与窃电嫌疑用户发现器连接,窃电嫌疑用户发现器与用户负荷曲线生成器连接,用户负荷曲线生成器与窃电用户诊断器连接。
本发明还提供一种基于复杂用户行为分析的用户负荷窃电模型挖掘方法,所述方法包括如下步骤:
步骤一:首先需要对从有源配电网下采集的大批量用户负荷数据按照数据清洗规则进行数据清洗;
步骤二:对步骤一中清洗后的数据进行数据预处理,按照线性归一化公式
Figure BDA0002381052130000031
所有样本化为介于0与1之间的数;
步骤三:输入用电用户负荷数据样本集X={x1,x2,x3,...,xm},欧式距离度量方法
Figure BDA0002381052130000032
n是维度,d是n维空间中两点的距离。设置邻域参考数
Figure BDA0002381052130000033
最小核心点数MinPts:
Figure BDA0002381052130000034
步骤四:随机选择未访问点p,通过距离度量的方式,生成p的邻域集N;
步骤五:判断p是否是核心点;如果p不是核心点,则将p标记为噪音点,否则将p加入新簇C;
步骤六:在N中选择一未分类的点p′,判断p'是否被访问:如果p′被访问,则判断p′是否无类别:如果是,则p′是边界点并加入簇C;如果p′未被访问,则计算p′的邻域集N′,判断p′是否是核心:如果p′不是核心点,则判断p′是否无类别:如果是,则p′是边界点并加入簇C;如果p′是核心点,则N=N+N′,p′加入簇C;
步骤七:判断N中是否有未分类点,有则返回步骤六;否则继续判断数据集X中是否有未访问点,有则返回步骤四,否则输出结果,进入步骤八;
步骤七:判断N中是否有未分类点,有则返回步骤六;否则继续判断数据集X中是否有未访问点,有则返回步骤四,否则输出结果,进入步骤八;
步骤八:输出异常簇,并将此异常簇标记为待识别窃电嫌疑用户;
步骤九:将待识别窃电嫌疑用户负荷数据集与已知窃电用户用电数据集分别输入用户负荷曲线生成器;
步骤十:初始化模糊加权指数m(1≤m≤+∞),聚类数c=1,初始聚类中心V0,初始迭代次数r=0,允许误差ε;
步骤十一:更新隶属度矩阵U=(uij)n×c
Figure BDA0002381052130000041
更新聚类中心矩阵V:
Figure BDA0002381052130000042
步骤十二:计算目标函数
Figure BDA0002381052130000043
步骤十三:判断||J(U,V)(r+1)-J(U,V)r||<ε是否成立,成立则进入步骤十四;否则令r=r+1,回到步骤十一,继续迭代;
步骤十四:将聚类后得到已知窃电用户的用电特性曲线和待识别窃电嫌疑用户的聚类中心曲线输入用户诊断器;
步骤十五:计算负荷曲线i、j之间的曲线相似度Dij
Figure BDA0002381052130000051
待识别窃电嫌疑用户与已加窃电用户之间的曲线相似度记作:D={D1,D2,D3,...,Dm},那么总相似度为:D=w1D1+w2D2+…+wmDm
步骤十六:将步骤十五的曲线相似度与相似度阈值相比,判断待识别用户是窃电用户的可能性;
步骤十七:窃电报警。
进一步改进在于:所述步骤二中x(i)代表任意一个样本值;min(x(n))代表样本最小值;max(x(n))代表样本最大值。
进一步改进在于:所述步骤三中m为数据集X中的对象数量,dist(i,j)为数据集X中对象i、j之间的距离,Pi是第i个对象的ε邻域对象数量。
进一步改进在于:所述步骤十一中dij为i个样本与第j个簇的中心的距离,dik为i个样本与第k个簇的中心的距离,uij为i个样本属于第j个簇的隶属度,约束条仆为uij∈[0,1]且
Figure BDA0002381052130000052
进一步改进在于:所述步骤十二中J(U,V)代表各类中各用户样本点到聚类中心的加权距离之和,当J(U,V)取得最小值时,达到聚类效果。
进一步改进在于:所述步骤十五中n表示曲线上所包含的数据点个数,xis表示负荷曲线i上的第s个数据点,xjs表示负荷曲线j上的第s个数据点,m是作为参考的已知窃电用户具有的典型用电特性数目,w1=w2=…=wm是各类典型用电特性相似度的权重值;比较总相似度D的大小,判断窃电嫌疑用户是已知窃电用户的可能性,D越大,说明窃电嫌疑用户窃电的可能性越大。
进一步改进在于:所述步骤十六中的判断方法为随机选取正常用电用户,计算其与已知窃电用户之间的曲线总相似度,记作D正常总,随机选取同样窃电的其他用户,计算其与已知窃电用户之间的曲线总相似度,记作D窃电总,当D<D正常总时,待识别用户一定不是窃电用户;当D正常总<D<D窃电总时,待识别用户有可能是窃电用户;当D>D窃电总时,待识别用户一定是窃电用户。
系统主要包括四个部分:数据处理器、窃电嫌疑用户发现器、用户负荷曲线生成器、窃电用户诊断器。图中数据处理器是将采集到的用户负荷数据进行清洗和预处理;窃电嫌疑用户发现器将用户异常负荷数据检测山来;用户负荷曲线生成器对已知窃电用户负荷数据和待识别窃电嫌疑用户负荷数据进行聚类分析;窃电用户诊断器是把由聚类得到的负荷曲线进行曲线相似度分析,进而有效的识别出窃电用户。下面给出具体介绍:
数据处理器:数据处理器主要是把从有源配电网采集的用户负荷数据进行数据消洗和数据预处理。清洗后的数据要保证日用电量数据和相应的用电时间一一对应。数据预处理主要是采用线性归一化方法将所有样本化为介于0和1之间的数。
窃电嫌疑用户发现器:窃电嫌疑用户发现器主要是找山异常用电用户,并将这些用户标记为窃电嫌疑用户。本专利采用的是DBSCAN密度聚类算法,就是遍历数据点,在得到邻域参考数和最小核心点数情况下,得到核心点集合并存储下每个点的邻域点。从核心点集合中随机选出点,开始分簇。将其邻域点加入至簇成员集合中,邻域中的核心点存储下来再进行循环,直至簇核心点为空则簇划分充毕,再循环第三步。最后输出所有簇划分和导常簇。
用户负荷曲线生成器:本专利采用的是模糊C均值聚类算法,是用隶属度确定每个数据点属于某个聚类的程度的一种聚类算法。算法把n个向量分为c组,并求每个组的聚类中心,使得非相似(或距离)指标的价值函数(或目标函数)达到最小。在分析已知窃电用户负荷数据和待识别窃电嫌疑用户负荷数据时,将c设置为1,经过迭代后,可以得到关于已知窃电用户的用电特性曲线和待识别窃电嫌疑用户的聚类中心曲线。
窃电用户诊断器:窃电用户诊断器主要是把经过聚类的负荷曲线进行曲线相似度分析,即计算待识别窃电嫌疑用户负荷数据聚类中心曲线与已知窃电用户典型用电特性曲线之间的曲线相似度。然后与可能性判断的相似度阈值作比较,有效识别窃电用户。
数据处理器:样本作为算法的输入,必定会影响算法输山的分析结果,因此做好数据清洗和预处理工作对提高算法的准确性至关重要。数据清洗的规则主要有:
(1)某字段的任一数据缺失,则清洗该字段。
(2)清洗终端电表采集的抄表数据。
(3)清洗标注不明确的数据
(4)清洗样本中少数极端数据和负数据
总之,清洗后要保证日用电量数据和相应的用电时间一一对应,否则无法正常处理和分析。数据预处理包含电量数据归一化。
当样本数量较多时,一般采用线性归一化方法将所有样本化为介于0和1之间的数。线性归一化公式为:
Figure BDA0002381052130000081
式(1)中x(i)代表任意一个样本值;min(x(n))代表样本最小值;max(x(n))代表样本最大值。
窃电嫌疑用户发现器:用户的用电负荷数据变化反映了用户的用电行为变化,正常用电用户的日负荷曲线具有类似的波峰与波谷的形状,表现出相似的日负荷曲线。相反,对于用电异常的用户日负荷曲线则不满足规律。DBSCAN密度聚类算法是以数据密度为基准划分类的一种算法,可以发现任何形状的样本簇,且该算法具有很强的抗噪声能力,可以非常方便地发现样本集中的导常点,故采用该算法来检测用电用户导常负荷数据合适。基于DBSCAN密度聚类算法的用电用户异常负荷数据检测步骤如下:
(1)输入用电用户负荷数据样本集X={x1,x2,x3,...,xm},欧式距离度量方法
Figure BDA0002381052130000082
n是维度,d是n维空间中两点的距离。
(2)设置邻域参考数ε和最小核心点数MinPts。
计算数据样本集X中每一个点到其他点的欧氏距离,形成距离分布矩阵如式(1):
Xistm×m={dist(i,j)|1≤i≤m,1≤j≤m} (1)
其中,m为数据集X中的对象数量,dist(i,j)为数据集X中对象i、j之间的距离。
对Xistm×m中的每一列元素按升序排列,取每列的最大元索MAXdist(i,j)(i=m,1≤j≤m),并计算m列最大元素MAXdist(i,j)的距离均值,将其设置为邻域参考数
Figure BDA0002381052130000091
对于给定的ε,计算所有对象的ε邻域对象数量的数学期望,作为最小核心点数MinPts,如式(2):
Figure BDA0002381052130000092
其中,Pi是第i个对象的ε邻域对象数量,m为数据样本集中对象总数。循环:
(3)随机选择未访问点p,通过距离度量的方式,生成p的邻域集N。
(4)判断p是否是核心点;如果p不是核心点,则将p标记为噪音点。否则,将p加入新簇C,循环:
(5)在N中选择一未分类的点p′,判断p′是否被访问:
a)如果p′被访问,则判断p′是否无类别;如果是,则p′是边界点并加入簇C。
b)如果p′未被访问,则计算p′的邻域集N′,判断p′是否是核心:
ba)如果p′不是核心点,则判断p′是否无类别;是,则p′是边界点并加入簇C。
bb)如果p′是核心点,则N=N+N′,p′加入簇C。
(6)判断N中是否有未分类点,有则返回步骤(5);否则继续判断数据集X中是否有未访问点,有,则返回步骤(3);否则,输出结果。
用户负荷曲线生成器:用户负荷曲线是反映用户在一段时间内的负荷变化规律的曲线,FCM聚类是基于划分的聚类算法,通过隶属度来判断样本所属的类,隶属度表示一个对象x隶属于集合A的程度。采用模糊C均值算法对已知窃电用户与窃电嫌疑用户的用电行为进行分析,分别得到已知窃电用户的用电特性曲线和待以别窃电嫌疑用户的聚类中心曲线。基于模糊C均值算法的具体实现过程为:
(1)初始化模糊加权指数m(1≤m≤+∞),聚类数c=1,初始聚类中心V0,初始迭代次数r=0,允许误差ε;
(2)由式(1)更新隶属度矩阵U=(uij)n×c
Figure BDA0002381052130000101
其中:dij为i个样本与第j个簇的中心的距离,
dik为i个样本与第k个簇的中心的距离,
uij为i个样本属于第j个簇的隶属度,
约束条仆为uij∈[0,1]且
Figure BDA0002381052130000102
(3)由式(2)更新聚类中心矩阵V:
Figure BDA0002381052130000111
(4)根据式(3)计算目标函数
Figure BDA0002381052130000112
J(U,V)代表各类中各用户样本点到聚类中心的加权距离之和,当J(U,V)取得最小值时,可以达到聚类效果。
(5)判断||J(U,V)(r+1)-J(U,V)r||<ε是否成立,成立则结束;否则令r=r+1,回到步骤2,继续迭代。
经过上述迭代,可以实现目标函数达到聚类效果,得到用户典型用电行为特性。
窃电用户诊断器:通过比较待识别窃电嫌疑用户负荷数据聚类中心曲线与已知窃电用户典型用电特性曲线之间的曲线相似度,判断待识别窃电嫌疑用户是窃电用户的可能性。
采用曼哈顿距离的倒数D来定义两条曲线的相似度,D越大,相似度越高。
(1)负荷曲线i、j之间的曲线相似度Dij
Figure BDA0002381052130000113
其中,n表示曲线上所包含的数据点个数,xis表示负荷曲线i上的第s个数据点,xjs表示负荷曲线j上的第s个数据点。
(2)待识别窃电嫌疑用户与已知窃电用户之间的曲线相似度记作:D={D1,D2,D3,...,Dm},那么总相似度为:
D=w1D1+w2D2+…+wmDm
其中m是作为参考的已知窃电用户具有的典型用电特性数目,w1=w2=…=wm是各类典型用电特性相似度的权重值。比较总相似度D的大小,判断窃电嫌疑用户是已用窃电用户的可能性,D越大,说明窃电嫌疑用户窃电的可能性越大。
(3)相似度阈值判断:
随机选取正常用电用户,计算其与已知窃电用户之问的曲线总相似度,记作D正常总。随机选取同样窃电的其他用户,计算其与已知窃电用户之间的曲线总相似度,记作D窃电总。当D<D正常总时,待识别用户一定不是窃电用户;当D正常总<D<D窃电总时,待识别用户有可能是窃电用户;当D>D窃电总时,待识别用户一定是窃电用户。
主要工作流程:
(1)首先需要对在电网中采集的大批量用户负荷数据进行数据清洗,并按照线性归一化公式将所有的样本化为介于0与1之间的数。
(2)采用DBSCAN密度聚类算法对数据进行聚类,找出样本数据中用电异常用户负荷数据,将其标记为窃电嫌疑用户。
(3)采用FCM聚类算法,分别对已知窃电用户负荷数据和待识别窃电嫌疑用户负荷数据进行聚类分析,得到用户典型用电行为特性。
(4)分别计算正常用电用户、同样窃电的其他用户、待识别窃电嫌疑用户三类用户的负荷曲线与已知窃电用户负荷曲线之间的曲线相似度。再用相似度阈值比较,最终判断窃电嫌疑户的窃电可能性。
本发明的有益效果是:主要用于解决电网中窃电用户的有效以别问题。通过使用本发明中提出的方法可以根据当前有源配电网中的大量数据,利用DBSCAN密度聚类算法和FCM聚类算法相结合,并且利用计算曲线相似度和相似度阈值比较的方式对电网中的窃电用户进行有效识别,从而很好地保证有源配电网安全可靠的运行。窃电嫌疑用户发现器是通过DBSCAN密度聚类算法有效地找出大批量用户负荷数据中异常用电用户负荷数据。与传统的K-means算法相比,DBSCAN算法具有不需要输入类别数,可以发现任意形状的聚类簇的优点。DBSCAN算法在聚类前需要人工设定邻域参考数ε和最小核心点数MinPts,本专利中采用距离均值和数学期望以达到参数自适应,解决了算法对参数敏感的问题。并且它在聚类的同时可以发现导常点,起到了异常数据检测器的作用。
窃电用户诊断器是通过对FCM聚类得到的窃电用户负荷特性曲线和窃电嫌疑用户聚类中心曲线进行曲线相似度D计算;并采用已知窃电用户与其他窃电用户曲线相似度D窃电总,已加窃电用户与正常用户曲线相似度D正常总设置相似度阈值。通过这个相似度阈值的限定,将D与D窃电总、D正常总进行大小比较,可以实现有效判断窃电嫌疑户窃电嫌疑的效果。
附图说明
图1是本发明的系统构成图。
图2是本发明的方法流程图。
具体实施方式
为了加深对本发明的理解,下面将结合实例对本发明作进一步的详述,本实例仅用于解释本发明,并不构成对本发明保护范围的限定。
如图1-2所示,本实例提供了一种基于复杂用户行为分析的用户负荷窃电模型挖掘系统,包括数据处理器、窃电嫌疑用户发现器、用户负荷曲线生成器和窃电用户诊断器,所述数据处理器与窃电嫌疑用户发现器连接,窃电嫌疑用户发现器与用户负荷曲线生成器连接,用户负荷曲线生成器与窃电用户诊断器连接。
本实例还提供一种基于复杂用户行为分析的用户负荷窃电模型挖掘方法,所述方法包括如下步骤:
步骤一:首先需要对从有源配电网下采集的大批量用户负荷数据按照数据清洗规则进行数据清洗;
步骤二:对步骤一中清洗后的数据进行数据预处理,按照线性归一化公式
Figure BDA0002381052130000141
所有样本化为介于0与1之间的数;
步骤三:输入用电用户负荷数据样本集X={x1,x2,x3,...,xm},欧式距离度量方法
Figure BDA0002381052130000142
n是维度,d是n维空间中两点的距离。设置邻域参考数
Figure BDA0002381052130000143
最小核心点数MinPts:
Figure BDA0002381052130000144
步骤四:随机选择未访问点p,通过距离度量的方式,生成p的邻域集N;
步骤五:判断p是否是核心点;如果p不是核心点,则将p标记为噪音点,否则将p加入新簇C;
步骤六:在N中选择一未分类的点p′,判断p′是否被访问:如果p′被访问,则判断p′是否无类别:如果是,则p′是边界点并加入簇C;如果p′未被访问,则计算p′的邻域集N′,判断p′是否是核心:如果p′不是核心点,则判断p′是否无类别:如果是,则p′是边界点并加入簇C;如果p′是核心点,则N=N+N′,p′加入簇C;
步骤七:判断N中是否有未分类点,有则返回步骤六;否则继续判断数据集X中是否有未访问点,有则返回步骤四,否则输出结果,进入步骤八;
步骤八:输出异常簇,并将此异常簇标记为待识别窃电嫌疑用户;步骤九:将待识别窃电嫌疑用户负荷数据集与已知窃电用户用电数据集分别输入用户负荷曲线生成器;
步骤十:初始化模糊加权指数m(1≤m≤+∞),聚类数c=1,初始聚类中心V0,初始迭代次数r=0,允许误差ε;
步骤十一:更新隶属度矩阵U=(uij)n×c
Figure BDA0002381052130000151
更新聚类中心矩阵V:
Figure BDA0002381052130000161
步骤十二:计算目标函数
Figure BDA0002381052130000162
步骤十三:判断||J(U,V)(r+1)-J(U,V)r||<ε是否成立,成立则进入步骤十四;否则令r=r+1,回到步骤十一,继续迭代;
步骤十四:将聚类后得到已知窃电用户的用电特性曲线和待识别窃电嫌疑用户的聚类中心曲线输入用户诊断器;
步骤十五:计算负荷曲线i、j之间的曲线相似度Dij
Figure BDA0002381052130000163
待识别窃电嫌疑用户与已知窃电用户之间的曲线相似度记作:D={D1,D2,D3,...,Dm},那么总相似度为:D=w1D1+w2D2+…+wmDm
步骤十六:将步骤十五的曲线相似度与相似度阈值相比,判断待识别用户是窃电用户的可能性;
步骤十七:窃电报警。
所述步骤二中x(i)代表任意一个样本值;min(x(n))代表样本最小值;max(x(n))代表样本最大值。所述步骤三中m为数据集X中的对象数量,dist(i,j)为数据集X中对象i、j之间的距离,Pi是第i个对象的ε邻域对象数量。所述步骤十一中dij为i个样本与第j个簇的中心的距离,dik为i个样本与第k个簇的中心的距离,uij为i个样本属于第j个簇的隶属度,约束条仆为uij∈[0,1]且
Figure BDA0002381052130000171
所述步骤十二中J(U,V)代表各类中各用户样本点到聚类中心的加权距离之和,当J(U,V)取得最小值时,达到聚类效果。所述步骤十五中n表示曲线上所包含的数据点个数,xis表示负荷曲线i上的第s个数据点,xjs表示负荷曲线i上的第s个数据点,m是作为参考的已知窃电用户具有的典型用电特性数目,w1=w2=…=wm是各类典型用电特性相似度的权重值;比较总相似度D的大小,判断窃电嫌疑用户是已知窃电用户的可能性,D越大,说明窃电嫌疑用户窃电的可能性越大。所述步骤十六中的判断方法为随机选取正常用电用户,计算其与已知窃电用户之间的曲线总相似度,记作D正常总,随机选取同样窃电的其他用户,计算其与已知窃电用户之间的曲线总相似度,记作D窍电总,当D<D正常总时,待识别用户一定不是窃电用户;当D正常总<D<D窃电总时,待识别用户有可能是窃电用户;当D>D窃电总时,待识别用户一定是窃电用户。
电能计量自动化系统记录的数据呈指数型增长、数据量巨大、结构类型繁多,对用户、公司和社会经济均有巨大的价值,假如电网中山现了窃电用户,运用DBSCAN聚类算法和FCM聚类算法以及曲线相似度比较相结合的方法进行窃电用户的有效识别。首先对数据进行数据清理,运用线性归一化公式将所有样本化为介于0和1之间的数。使用DBSCAN密度聚类算法对数据集进行聚类,找出异常用电数据,并将这些异常用电用户标记为窃电嫌疑户。然后通过FCM聚类算法分别得到已知窃电用户和窃电嫌疑户的负荷特性曲线,计算这两条曲线的曲线相似度,并进行相似度阈值比较,进而有效判断窃电嫌疑户的窃电可能性。
其具体的实施方案为:
(1)首先需要对在电网中采集的大批量用户负荷数据进行数据清洗,并按照线性归一化公式将所有的样本化为介于0与1之间的数。
(2)采用DBSCAN密度聚类算法对用户负荷数据进行聚类,找出异常用电负荷数据,将异常用电用户标记为窃电嫌疑用户。
(3)采用FCM聚类算法对已知窃电用户与窃电嫌疑用户的用电负荷数据进行分析,分别得到已知窃电用户的用电特性曲线和待识别窃电嫌疑用户的聚类中心曲线。
(4)通过对FCM聚类得到的窃电用户负荷特性曲线和窃电嫌疑用户聚类中心曲线进行曲线相似度D计算;并采用已知窃电用户与其他窃电用户曲线相似度D窃电总,已知窃电用户与正常用户曲线相似度D正常总设置相似度阈值。将D与D窃电总、D正常总进行大小比较,当D<D正常总时,待识别用户一定不是窃电用户;当D正常总<D<D窃电总时,待识别用户有可能是窃电用户;当D>D窃电总时,待识别用户一定是窃电用户。

Claims (8)

1.一种基于复杂用户行为分析的用户负荷窃电模型挖掘系统,其特征在于:包括数据处理器、窃电嫌疑用户发现器、用户负荷曲线生成器和窃电用户诊断器,所述数据处理器与窃电嫌疑用户发现器连接,窃电嫌疑用户发现器与用户负荷曲线生成器连接,用户负荷曲线生成器与窃电用户诊断器连接。
2.一种如权利要求1所述的基于复杂用户行为分析的用户负荷窃电模型挖掘方法,其特征在于:所述方法包括如下步骤:
步骤一:首先需要对从有源配电网下采集的大批量用户负荷数据按照数据清洗规则进行数据清洗;
步骤二:对步骤一中清洗后的数据进行数据预处理,按照线性归一化公式
Figure FDA0002381052120000011
所有样本化为介于0与1之间的数;
步骤二:输入用电用户负荷数据样本集X={x1,x2,x3,...,xm},欧式距离度量方法
Figure FDA0002381052120000012
n是维度,d是n维空间中两点的距离。设置邻域参考数
Figure FDA0002381052120000013
最小核心点数MinPts:
Figure FDA0002381052120000014
步骤四:随机选择未访问点p,通过距离度量的方式,生成p的邻域集N;
步骤五:判断p是否是核心点;如果p不是核心点,则将p标记为噪音点,否则将p加入新簇C;
步骤六:在N中选择一未分类的点p′,判断p′是否被访问:如果p′被访问,则判断p′是否无类别:如果是,则p′是边界点并加入簇C,如果p′未被访问,则计算p′的邻域集N′,判断p′是否是核心:如果p′不是核心点,则判断p′是否无类别:如果是,则p′是边界点并加入簇C,如果p′是核心点,则N=N+N′,p′加入簇C;
步骤七:判断N中是否有未分类点,有则返回步骤六;否则继续判断数据集X中是否有未访问点,有则返回步骤四,否则输出结果,进入步骤八;
步骤八:输出异常簇,并将此异常簇标记为待识别窃电嫌疑用户;
步骤九:将待识别窃电嫌疑用户负荷数据集与已知窃电用户用电数据集分别输入用户负荷曲线生成器;
步骤十:初始化模糊加权指数m(1≤m≤+∞),聚类数c=1,初始聚类中心V0,初始迭代次数r=0,允许误差ε;
步骤十一:更新隶属度矩阵U=(uij)n×c
Figure FDA0002381052120000021
更新聚类中心矩阵V:
Figure FDA0002381052120000022
步骤十二:计算目标函数
Figure FDA0002381052120000023
步骤十三:判断||J(U,V)(r+1)-J(U,V)r||<ε是否成立,成立则进入步骤十四;否则令r=r+1,回到步骤十一,继续迭代;
步骤十四:将聚类后得到已知窃电用户的用电特性曲线和待识别窃电嫌疑用户的聚类中心曲线输入用户诊断器;
步骤十五:计算负荷曲线i、j之间的曲线相似度Dij
Figure FDA0002381052120000031
待识别窃电嫌疑用户与已加窃电用户之间的曲线相似度记作:D={D1,D2,D3,...,Dm},那么总相似度为:D=w1D1+w2D2+…+wmDm
步骤十六:将步骤十五的曲线相似度与相似度阈值相比,判断待识别用户是窃电用户的可能性;
步骤十七:窃电报警。
3.如权利要求2所述的一种基于复杂用户行为分析的用户负荷窃电模型挖掘方法,其特征在于:所述步骤二中x(i)代表任意一个样本值;min(x(n))代表样本最小值;max(x(n))代表样本最大值。
4.如权利要求2所述的一种基于复杂用户行为分析的用户负荷窃电模型挖掘方法,其特征在于:所述步骤三中m为数据集X中的对象数量,dist(i,j)为数据集X中对象i、j之间的距离,Pi是第i个对象的ε邻域对象数量。
5.如权利要求2所述的一种基于复杂用户行为分析的用户负荷窃电模型挖掘方法,其特征在于:所述步骤十一中dij为i个样本与第j个簇的中心的距离,dik为i个样本与第k个簇的中心的距离,uij为i个样本属于第j个簇的隶属度,约束条仆为uij∈[0,1]且
Figure FDA0002381052120000041
6.如权利要求2所述的一种基于复杂用户行为分析的用户负荷窃电模型挖掘方法,其特征在于:所述步骤十二中J(U,V)代表各类中各用户样本点到聚类中心的加权距离之和,当J(U,V)取得最小值时,达到聚类效果。
7.如权利要求2所述的一种基于复杂用户行为分析的用户负荷窃电模型挖掘方法,其特征在于:所述步骤十五中n表示曲线上所包含的数据点个数,xis表示负荷曲线i上的第s个数据点,xjs表示负荷曲线j上的第s个数据点,m是作为参考的已知窃电用户具有的典型用电特性数目,w1=w2=...=wm是各类典型用电特性相似度的权重值;比较总相似度D的大小,判断窃电嫌疑用户是已知窃电用户的可能性,D越大,说明窃电嫌疑用户窃电的可能性越大。
8.如权利要求2所述的一种基于复杂用户行为分析的用户负荷窃电模型挖掘方法,其特征在于:所述步骤十六中的判断方法为随机选取正常用电用户,计算其与已知窃电用户之间的曲线总相似度,记作D正常总,随机选取同样窃电的其他用户,计算其与已知窃电用户之间的曲线总相似度,记作D窃电总,当D<D正常总时,待识别用户一定不是窃电用户;当D正常总<D<D窃电总时,待识别用户有可能是窃电用户;当D>D窃电总时,待识别用户一定是窃电用户。
CN202010084063.5A 2020-02-08 2020-02-08 一种基于复杂用户行为分析的用户负荷窃电模型挖掘系统及方法 Active CN111340065B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010084063.5A CN111340065B (zh) 2020-02-08 2020-02-08 一种基于复杂用户行为分析的用户负荷窃电模型挖掘系统及方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010084063.5A CN111340065B (zh) 2020-02-08 2020-02-08 一种基于复杂用户行为分析的用户负荷窃电模型挖掘系统及方法

Publications (2)

Publication Number Publication Date
CN111340065A true CN111340065A (zh) 2020-06-26
CN111340065B CN111340065B (zh) 2022-08-09

Family

ID=71186294

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010084063.5A Active CN111340065B (zh) 2020-02-08 2020-02-08 一种基于复杂用户行为分析的用户负荷窃电模型挖掘系统及方法

Country Status (1)

Country Link
CN (1) CN111340065B (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111950620A (zh) * 2020-08-07 2020-11-17 国网能源研究院有限公司 基于DBSCAN和K-means算法的用户筛选方法
CN113222624A (zh) * 2021-05-31 2021-08-06 江苏新智合电力技术有限公司 一种反窃电智能分析方法及系统
CN113407797A (zh) * 2021-08-18 2021-09-17 成都千嘉科技有限公司 利用分形计算针对偷盗燃气行为的数据挖掘方法
CN113933556A (zh) * 2021-12-17 2022-01-14 广东电网有限责任公司东莞供电局 一种窃电行为的检测方法、装置、计算机设备和存储介质

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109583679A (zh) * 2018-09-30 2019-04-05 国网浙江长兴县供电有限公司 一种多算法融合的窃电疑似度分析方法
CN110288039A (zh) * 2019-06-29 2019-09-27 河南工业大学 基于用户用电负荷特征窃电检测方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109583679A (zh) * 2018-09-30 2019-04-05 国网浙江长兴县供电有限公司 一种多算法融合的窃电疑似度分析方法
CN110288039A (zh) * 2019-06-29 2019-09-27 河南工业大学 基于用户用电负荷特征窃电检测方法

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111950620A (zh) * 2020-08-07 2020-11-17 国网能源研究院有限公司 基于DBSCAN和K-means算法的用户筛选方法
CN113222624A (zh) * 2021-05-31 2021-08-06 江苏新智合电力技术有限公司 一种反窃电智能分析方法及系统
CN113222624B (zh) * 2021-05-31 2022-03-18 江苏新智合电力技术有限公司 一种反窃电智能分析方法及系统
CN113407797A (zh) * 2021-08-18 2021-09-17 成都千嘉科技有限公司 利用分形计算针对偷盗燃气行为的数据挖掘方法
CN113407797B (zh) * 2021-08-18 2021-10-29 成都千嘉科技有限公司 利用分形计算针对偷盗燃气行为的数据挖掘方法
CN113933556A (zh) * 2021-12-17 2022-01-14 广东电网有限责任公司东莞供电局 一种窃电行为的检测方法、装置、计算机设备和存储介质
CN113933556B (zh) * 2021-12-17 2022-04-08 广东电网有限责任公司东莞供电局 一种窃电行为的检测方法、装置、计算机设备和存储介质

Also Published As

Publication number Publication date
CN111340065B (zh) 2022-08-09

Similar Documents

Publication Publication Date Title
CN111340065B (zh) 一种基于复杂用户行为分析的用户负荷窃电模型挖掘系统及方法
Li et al. Electricity theft detection in power grids with deep learning and random forests
CN110223196B (zh) 基于典型行业特征库和反窃电样本库的反窃电分析方法
Himeur et al. Robust event-based non-intrusive appliance recognition using multi-scale wavelet packet tree and ensemble bagging tree
CN105224872B (zh) 一种基于神经网络聚类的用户异常行为检测方法
WO2019237492A1 (zh) 一种基于半监督学习的异常用电用户检测方法
CN110288039B (zh) 基于用户用电负荷特征窃电检测方法
Ganapathy et al. A novel weighted fuzzy C–means clustering based on immune genetic algorithm for intrusion detection
CN109947815B (zh) 一种基于离群点算法的窃电辨识方法
CN108333468B (zh) 一种有源配电网下不良数据的识别方法及装置
Wu et al. AdaBoost-SVM for electrical theft detection and GRNN for stealing time periods identification
CN113542241B (zh) 一种基于CNN-BiGRU混合模型的入侵检测方法及装置
CN109886334A (zh) 一种隐私保护的共享近邻密度峰聚类方法
Shen et al. Hyperplane division in fuzzy c-means: Clustering big data
WO2019200739A1 (zh) 数据欺诈识别方法、装置、计算机设备和存储介质
CN112365060B (zh) 电网物联感知数据的预处理方法
CN107249000A (zh) 一种移动用户异常行为检测方法
CN112132210A (zh) 一种基于客户用电行为的窃电概率预警分析方法
CN112101471A (zh) 窃电概率预警分析方法
CN115186012A (zh) 一种用电量数据检测方法、装置、设备及存储介质
Shi et al. An improved agglomerative hierarchical clustering anomaly detection method for scientific data
CN117092581A (zh) 基于段一致性判别自编码器电能表异常检测方法及装置
Bao et al. Feature selection method for nonintrusive load monitoring with balanced redundancy and relevancy
CN117056815A (zh) 基于对比预测编码与支持向量数据的窃电用户检测方法
CN117155701A (zh) 一种网络流量入侵检测方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant