CN111612054B - 一种基于非负矩阵分解和密度聚类的用户窃电行为识别方法 - Google Patents

一种基于非负矩阵分解和密度聚类的用户窃电行为识别方法 Download PDF

Info

Publication number
CN111612054B
CN111612054B CN202010405708.0A CN202010405708A CN111612054B CN 111612054 B CN111612054 B CN 111612054B CN 202010405708 A CN202010405708 A CN 202010405708A CN 111612054 B CN111612054 B CN 111612054B
Authority
CN
China
Prior art keywords
electricity
electricity stealing
user
load
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010405708.0A
Other languages
English (en)
Other versions
CN111612054A (zh
Inventor
武超飞
孙冲
马浩
付文杰
史轮
高波
石振刚
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
State Grid Corp of China SGCC
Electric Power Research Institute of State Grid Hebei Electric Power Co Ltd
State Grid Hebei Energy Technology Service Co Ltd
Marketing Service Center of State Grid Hebei Electric Power Co Ltd
Original Assignee
State Grid Corp of China SGCC
Electric Power Research Institute of State Grid Hebei Electric Power Co Ltd
State Grid Hebei Energy Technology Service Co Ltd
Marketing Service Center of State Grid Hebei Electric Power Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by State Grid Corp of China SGCC, Electric Power Research Institute of State Grid Hebei Electric Power Co Ltd, State Grid Hebei Energy Technology Service Co Ltd, Marketing Service Center of State Grid Hebei Electric Power Co Ltd filed Critical State Grid Corp of China SGCC
Priority to CN202010405708.0A priority Critical patent/CN111612054B/zh
Publication of CN111612054A publication Critical patent/CN111612054A/zh
Application granted granted Critical
Publication of CN111612054B publication Critical patent/CN111612054B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • G06F16/215Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2465Query processing support for facilitating data mining operations in structured databases
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/12Computing arrangements based on biological models using genetic models
    • G06N3/126Evolutionary algorithms, e.g. genetic algorithms or genetic programming
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Systems or methods specially adapted for specific business sectors, e.g. utilities or tourism
    • G06Q50/06Electricity, gas or water supply
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2216/00Indexing scheme relating to additional aspects of information retrieval not explicitly covered by G06F16/00 and subgroups
    • G06F2216/03Data mining
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Databases & Information Systems (AREA)
  • Business, Economics & Management (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Biophysics (AREA)
  • General Health & Medical Sciences (AREA)
  • Economics (AREA)
  • Software Systems (AREA)
  • Computational Linguistics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Mathematical Physics (AREA)
  • Marketing (AREA)
  • Public Health (AREA)
  • Water Supply & Treatment (AREA)
  • Quality & Reliability (AREA)
  • Human Resources & Organizations (AREA)
  • Probability & Statistics with Applications (AREA)
  • Primary Health Care (AREA)
  • Strategic Management (AREA)
  • Tourism & Hospitality (AREA)
  • General Business, Economics & Management (AREA)
  • Fuzzy Systems (AREA)
  • Physiology (AREA)
  • Genetics & Genomics (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Multimedia (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明涉及一种基于非负矩阵分解和密度聚类的用户窃电行为识别方法,其包括如下步骤:(1)用户用电数据的准备:包括选择数据源和数据筛选与清洗;(2)窃电行为特征变量选择,得到原始窃电特征集;(3)基于非负矩阵分解的窃电行为特征提取;(4)建立改进的DBSCAN的窃电行为识别模型及模型训练;(5)利用窃电行为模型对所有用户进行窃电嫌疑筛选,得到高窃电嫌疑度用户,查窃人员到现场进行核查确认。本发明相对于传统人工排查窃电行为的查窃方式,提升了查窃工作效率和精准度,有利于降低国家电费损失,减少国有财产流失。

Description

一种基于非负矩阵分解和密度聚类的用户窃电行为识别方法
技术领域
本发明属于防窃电分析技术领域,具体涉及一种基于非负矩阵分解和密度聚类的用户窃电行为识别方法。
背景技术
窃电行为严重损害了企业和个人的合法权益,扰乱了正常的供用电秩序,阻碍了电力事业的发展,给安全用电带来了严重威胁,据报道每年全国因窃电损失电费多达上百亿元,另外因窃电导致事故所造成的间接损失则更为巨大。
现场用电检查人员目前主要采用人工的方式进行检查,包括核查拆箱、拆电能表等方法,不仅工作量大,且容易造成用户强烈反对,现场工作难度较大。目前用电信息采集数据分析也是围绕电参量数据展开,目前用电信息采集系统及一体化线损系统中现有异常数据存在大量误报警和错报警,这些噪声信息影响了分析的有效性,现有研究方法主要为基于划分思想的K-means算法及其变体,且主要采用单一算法,这类算法不能解决非凸数据,在面对信息冗余程度高、用电模式复杂的用电数据时容易陷入局部最优,难以获得理想的检测精度。
发明内容
本发明的目的是提供一种能够基于非负矩阵分解和密度聚类的用户窃电行为识别方法,相对于传统人工排查窃电行为的查窃方式,提升了查窃工作效率。具体的,本发明采用的基于改进密度聚类的窃电行为识别模型避免了传统基于划分思想的算法容易受噪声影响、仅可聚类规则形状、容易陷入局部最优、受算法初始设定值的影响大的缺点,可实现窃电行为精准识别。应用本发明开展用电检查工作,提高查窃工作开展效率和精准度,有利于降低国家电费损失,减少国有财产流失。
本发明采用如下技术方案:
一种基于非负矩阵分解和密度聚类的用户窃电行为识别方法,其包括如下步骤:
(1)用户用电数据的准备:包括选择数据源和数据筛选与清洗;
(2)窃电行为特征变量选择,得到原始窃电特征集;
(3)基于非负矩阵分解的窃电行为特征提取;
(4)建立改进的DBSCAN的窃电行为识别模型及模型训练;
(5)利用窃电行为模型对所有用户进行窃电嫌疑筛选,得到高窃电嫌疑度用户,查窃人员到现场进行核查确认。
进一步的,所述选择数据源包括从用电信息采集系统、营销业务应用系统中抽取近三年查实的专变窃电用户用电负荷信息、事件记录及档案信息。
进一步的,所述数据筛选的过程为:对窃电用户原始数据的甄别,去掉由于计量装置故障导致的误报数据和完整率过低的数据;
所述数据清洗的过程为:对于采集点少量缺失的数据,采用差值法进行补充。
进一步的,所述窃电行为特征变量包括基础特征变量、导出特征变量。
进一步的,所述基础特征变量包括:
(a)负荷信息:包括用户电流、用户电压、电量、用户功率及功率因数;
(b)事件记录信息:开表盖事件、电能表清零事件、恒定电磁场干扰事件、历史违约用电记录、电能表失压失流事件及负荷开关误动或拒动等事件记录;
(c)用电类别等用户档案信息:用户用电地址、用户号、电能表条形码、用电类别、行业类别、用电台区编号等信息。
进一步的,所述导出特征变量包括:负荷突变日、突变日前后负荷电流均值比、采集点缺失、突变日前后负荷不平衡度、功率计算与召测误差、日负荷功率方差、负荷季节特性、负荷温度敏感性、负荷稳定性、负荷增长率、负荷峰谷特性、负荷周休特性。
进一步的,所述窃电行为特征变量选择还包括,将非数值化数据进行结构转换,其方法为:对用户用电类型、季节特性、温度敏感性、负荷稳定性、负荷增长率、峰谷特性、周休特性进行数据结构转换,具体包括:
(I)将所述用电类别分为工业、商业、居民、农业排灌、农业生产、临时用电6种;
将所述温度特性分为高温敏感、低温敏感、不敏感3种;
将所述用电稳定性分为非常高、比较高、一般、较低4种;
将所述负荷增长率分为快速上涨、上涨、持平、降低、快速降低5种;
将采集点缺失分为无缺失、缺失较少、缺失较多3种;
(II)对所述非数值化数据,按照分类顺序从左到右依次编号。
进一步的,所述步骤(3)的具体过程为:
(A)以步骤(2)原始窃电特征集构建的原始窃电特征矩阵V;
(B)将原始窃电特征矩阵V分解为低秩的窃电特征基矩阵W和系数矩阵H;
其过程为:初始化W、H矩阵为非负随机矩阵;按下式对W、H进行同步迭代运算;
(C)用低秩的窃电特征基矩阵W代替原始窃电特征集,实现窃电特征提取,并将提取的窃电特征作为特征变量构建用户样本数据集。
进一步的,所述MinPts≥dim+1,其中dim表示待聚类用户样本数据的维度,且MinPts≥3。
进一步的,所述步骤(4)中,利用遗传算法对DBSCAN聚类算法的半径(eps)和密度阈值(MinPts)进行优化,并将步骤(3)得到的用户样本数据集作为训练样本输入优化后的DBSCAN聚类模型,得到各用户样本对所属聚类中心的隶属度,根据隶属度大小判断用户样本的离群度,并与预设的离群度阈值比较,输出用户是否窃电的结果。
进一步的,所述步骤(4)中,以已查实的窃电用户样本数据输入至基于DBSCAN窃电识别模型,验证窃电识别模型是否可分出至准确的类别,并分析原因,调整遗传算法初始参数使模型识别窃电效果最佳。
本发明的有益效果在于:
1、本发明可以广泛应用到国网公司下属各网省公司反窃电工作中,利用大数据技术对全部管理辖区快速“扫描”代替人工排查,大幅度减少窃电用户识别时间,提高反窃电工作开展效率。
2、本发明采用的密度聚类法可以对任意形状的稠密数据集进行聚类,相对的,K-means之类的聚类算法一般只适用于凸数据集,因此本发明所述的窃电行为识别更加精准,不会错分不规则分布的同类窃电行为,提高了窃电行为识别准确度。
3、本发明采用的遗传算法优化的密度聚类法解决了聚类半径和聚类密度阈值难以选取的问题,相对的,K-means之类的聚类算法初始值对聚类结果有很大影响。
附图说明
图1为本发明的流程示意图。
具体实施方式
下面将结合本申请实施例,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。以下对至少一个示例性实施例的描述实际上仅仅是说明性的,决不作为对本申请及其应用或使用的任何限制。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
在下面的描述中阐述了很多具体细节以便于充分理解本申请,但是本申请还可以采用其他不同于在此描述的其它方式来实施,本领域技术人员可以在不违背本申请内涵的情况下做类似推广,因此本申请不受下面公开的具体实施例的限制。
需要注意的是,这里所使用的术语仅是为了描述具体实施方式,而非意图限制根据本申请的示例性实施方式。如在这里所使用的,除非上下文另外明确指出,否则单数形式也意图包括复数形式,此外,还应当理解的是,当在本说明书中使用术语“包含”和/或“包括”时,其指明存在特征、步骤、操作、器件、组件和/或它们的组合。
除非另外具体说明,否则在这些实施例中阐述的部件和步骤的相对布置、数字表达式和数值不限制本申请的范围。同时,应当明白,为了便于描述,附图中所示出的各个部分的尺寸并不是按照实际的比例关系绘制的。对于相关领域普通技术人员已知的技术、方法和设备可能不作详细讨论,但在适当情况下,所述技术、方法和设备应当被视为授权说明书的一部分。在这里示出和讨论的所有示例中,任何具体值应被解释为仅仅是示例性的,而不是作为限制。因此,示例性实施例的其它示例可以具有不同的值。
实施例
参见图1,其示出了本发明实施例提供的识别方法的实现流程图。
1、步骤S101,进行用户用电数据准备。
在本发明实施例中,首先需要进行用户用电数据准备,包括选择数据源和数据筛选与清洗两个步骤。
在选择数据源时,以河北省电力公司电信息采集系统和营销业务应用系统中2000户用户用电数据作为研究用户,其中包含查实的300户窃电用户。以用电信息采集系统、营销业务应用系统中所述研究用户用电信息为数据源,抽取近三年查实的专变窃电用户用电负荷、事件记录及档案信息。
用户用电负荷信息包括用户电流、用户电压、电量、用户功率及功率因数;事件记录包括开表盖事件、电能表清零事件、恒定电磁场干扰事件、历史违约用电记录、电能表失压失流事件及负荷开关误动或拒动等事件记录。档案信息包括用户用电地址、用户号、电能表条形码、用电类别、行业类别、用电台区编号等信息。
在数据筛选与清洗时,对原始窃电用户数据进行数据筛选和数据清洗,完成数据准备工作。主要包括对窃电用户原始数据的甄别,去掉由于计量装置故障导致的误报数据和完整率过低的数据,对于采集点少量缺失的数据,采用差值法进行合理补充。
2、步骤S102,进行特征变量选择。
选择自用电信息采集系统及营销业务应用系统中直接采集到的基础特征变量,以及通过加工计算得到的导出特征变量,并将非数值化数据进行结构转换,从而得到原始窃电特征集。
(1)基础特征变量包括:
①负荷信息:包括用户电流、用户电压、电量、用户功率及功率因数;
②事件记录信息:开表盖事件、电能表清零事件、恒定电磁场干扰事件、历史违约用电记录、电能表失压失流事件及负荷开关误动或拒动等事件记录;
③用电类别等用户档案信息:用户用电地址、用户号、电能表条形码、用电类别、行业类别、用电台区编号等信息。
(2)导出特征变量包括:负荷突变日、突变日前后负荷电流均值比、采集点缺失、突变日前后负荷不平衡度、功率计算与召测误差、日负荷功率方差、负荷季节特性、负荷温度敏感性、负荷稳定性、负荷增长率、负荷峰谷特性、负荷周休特性。
导出特征变量计算方法为:
负荷突变日:以隔一天的电流均值、功率均值为判据,假设A+1日负荷与A-1日负荷之比小于0.6,且A日之后连续五天的负荷均小于A-1日负荷的60%,则判定A日为负荷突变日。
负荷电流均值比:负荷突变日后三天电流均值与前三天电流均值之比。
采集点缺失:指在负荷突变日存在采集点缺失。
突变日前后负荷不平衡度:指负荷突变日后两相电流(或电压、功率)均值之比。
功率计算召测误差:负荷突变日后三天功率计算值与召测值的相对误差。
日负荷电流方差:每日24点负荷功率的方差。
(3)将非数值化数据进行结构转换:主要包括对用户用电类型、季节特性、温度敏感性、负荷稳定性、负荷增长率、峰谷特性、周休特性进行数据结构转换,步骤为:
①将所述用电类别分为工业、商业、居民、农业排灌、农业生产、临时用电6种;
②将所述温度特性分为高温敏感、低温敏感、不敏感3种;
③将所述用电稳定性分为非常高、比较高、一般、较低4种;
④将所述负荷增长率分为快速上涨、上涨、持平、降低、快速降低5种;
⑤将所述采集点缺失分为无缺失、缺失较少、缺失较多3种;
⑥对所述非数值化数据,按照分类顺序从左到右依次编号;例如用电类别中,工业取值01、商业取值02、居民取值03,以此类推。然后,依照上述方法,对温度敏感性、负荷稳定性、负荷增长率、峰谷特性、周休特性进行数据结构转换。
3、步骤S103,进行基于非负矩阵分解的窃电行为特征提取。
非负矩阵分解用来对步骤S102中所述原始窃电特征集进行特征提取,把提取后窃电特征集作为用户样本数据集D。其步骤为:
(1)以步骤S101中所述2000户用户的原始窃电特征集构建原始窃电特征矩阵V。
(2)将原始窃电特征矩阵V分解为低秩的窃电特征基矩阵W和系数矩阵H。
该问题的求解过程描述如下:
初始化W、H矩阵为非负随机矩阵;
按下式对W、H进行同步迭代运算。
(3)用低秩的基矩阵W代替原始窃电特征集,实现窃电特征提取,获得最具代表性的窃电行为特征,并将提取的窃电特征作为特征变量构建用户样本数据集。
4、步骤S104,进行建立改进的DBSCAN的窃电行为识别模型及模型训练。
(1)建立改进的DBSCAN的窃电行为识别模型分为以下步骤:
利用遗传算法对DBSCAN聚类算法的半径(eps)和密度阈值(MinPts)进行优化,并将所述用户样本数据集输入所述优化后的DBSCAN聚类模型,得到各用户样本对所属聚类中心的隶属度,根据隶属度大小判断用户样本的离群度,并与预设的离群度阈值比较,输出用户是否窃电的结果。
基于DBSCAN算法的电力客户用电行为模式聚类方法计算流程如下。
①设置遗传算法初始参数。本实施例中初始参数设为:个体数目为3,最大遗传代数为150,代沟0.80,变异概率0.1,选择概率0.8。
②输入步骤S103中用户样本数据集D=(x1,x2,...,xm),邻域参数(ε,MinPts),本实施例中设MinPts=5,eps=0.1;首先将数据集D中的所有对象标记为未处理状态。
③对于j=1,2,...m,对数据集D中每个对象xj,判断xj是否已经归入某个簇或标记为噪声,若是,则判断下一个对象;
④若否,检查对象xj的ε-邻域子样本集Nε(xj),如果子样本集样本个数满足|Nε(xj)|<MinPts,标记对象xj为边界点或噪声点;
⑤若否,标记对象p为核心点,并建立新簇Ck,并将p邻域内所有点加入Ck
⑥对于Nε(xj)中所有尚未被处理的对象yi,依次检查其ε-邻域子样本集Nε(y),若Nε(y)包含至少MinPts个对象,则将Nε(y)中未归入任何一个簇的对象加入Ck
⑦回到③,一直到j=m;
⑧输出结果为:簇划分C={C1,C2,...,Ck}。
⑨根据模型输出结果,计算各用户样本对所属聚类中心的隶属度,根据隶属度大小判断用户样本的离群度。
⑩与预设的离群度阈值比较,输出用户是否窃电的结果。本实施例的利群都阈值为0.21。
(2)所述窃电用户模型训练包括:
以窃电用户样本数据集中查实的300户窃电用户比对本实施例所述窃电识别模型输出的窃电判定结果,验证窃电行为识别模型是否可分出至准确的类别,并分析原因,调整遗传算法初始参数使模型识别窃电效果最佳。
在本实施例中,经过窃电行为模型调节参数后,得到的最适合参数为:MinPts=5,eps=0.1,遗传算法中个体数目为50,最大遗传代数为100,代沟0.85,变异概率0.1,选择概率0.8。
5、步骤S105,进行窃电行为识别模型应用与自优化。
窃电行为识别模型应用,对河北省石家庄市某区域500户所有用户进行窃电嫌疑筛选,输出高窃电嫌疑度用户。
为了说明本发明的有益效果,采用ROC曲线分析法,将本发明窃电行为检测方法与现有方法进行了对比,如表1所示,通过对比可以发现,本发明采用的改进密度聚类窃电行为识别方法(GA-DBSCAN)的AUC、检出率、误检率指标优于常用的K-means聚类和FCM,且GA-DBSCAN最佳阈值与理想点距离最小,表明本发明提出的GA-DBSCAN检测模型对窃电行为检测的有益效果。
表1不同聚类算法窃电行为检测结果
窃电行为识别模型自优化:对于窃电行为识别模型给出的高窃电嫌疑用户,查窃人员到现场进行核查确认,并将核查结果作为新的训练数据反馈至窃电行为识别模型,实现反窃电行为模型的不断优化。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换或改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种基于非负矩阵分解和密度聚类的用户窃电行为识别方法,其特征在于,其包括如下步骤:
(1)用户用电数据的准备:包括选择数据源和数据筛选与清洗;
(2)窃电行为特征变量选择,得到原始窃电特征集;
(3)基于非负矩阵分解的窃电行为特征提取;
(4)建立改进的DBSCAN的窃电行为识别模型及模型训练;
(5)利用窃电行为模型对所有用户进行窃电嫌疑筛选,得到高窃电嫌疑度用户,查窃人员到现场进行核查确认。
2.根据权利要求1所述的基于非负矩阵分解和密度聚类的用户窃电行为识别方法,其特征在于,所述选择数据源包括从用电信息采集系统、营销业务应用系统中抽取近三年查实的专变窃电用户用电负荷信息、事件记录及档案信息。
3.根据权利要求1所述的基于非负矩阵分解和密度聚类的用户窃电行为识别方法,其特征在于,所述数据筛选的过程为:对窃电用户原始数据的甄别,去掉由于计量装置故障导致的误报数据和完整率过低的数据;
所述数据清洗的过程为:对于采集点少量缺失的数据,采用差值法进行补充。
4.根据权利要求1所述的基于非负矩阵分解和密度聚类的用户窃电行为识别方法,其特征在于,所述窃电行为特征变量包括基础特征变量、导出特征变量。
5.根据权利要求4所述的基于非负矩阵分解和密度聚类的用户窃电行为识别方法,其特征在于,所述基础特征变量包括:
(a)负荷信息:包括用户电流、用户电压、电量、用户功率及功率因数;
(b)事件记录信息:开表盖事件、电能表清零事件、恒定电磁场干扰事件、历史违约用电记录、电能表失压失流事件及负荷开关误动或拒动等事件记录;
(c)用电类别等用户档案信息:用户用电地址、用户号、电能表条形码、用电类别、行业类别、用电台区编号等信息。
6.根据权利要求4所述的基于非负矩阵分解和密度聚类的用户窃电行为识别方法,其特征在于,所述导出特征变量包括:负荷突变日、突变日前后负荷电流均值比、采集点缺失、突变日前后负荷不平衡度、功率计算与召测误差、日负荷功率方差、负荷季节特性、负荷温度敏感性、负荷稳定性、负荷增长率、负荷峰谷特性、负荷周休特性。
7.根据权利要求4所述的基于非负矩阵分解和密度聚类的用户窃电行为识别方法,其特征在于,所述窃电行为特征变量选择还包括,将非数值化数据进行结构转换,其方法为:对用户用电类型、季节特性、温度敏感性、负荷稳定性、负荷增长率、峰谷特性、周休特性进行数据结构转换,具体包括:
(I)将所述用电类别分为工业、商业、居民、农业排灌、农业生产、临时用电6种;
将所述温度特性分为高温敏感、低温敏感、不敏感3种;
将所述用电稳定性分为非常高、比较高、一般、较低4种;
将所述负荷增长率分为快速上涨、上涨、持平、降低、快速降低5种;
将采集点缺失分为无缺失、缺失较少、缺失较多3种;
(II)对所述非数值化数据,按照分类顺序从左到右依次编号。
8.根据权利要求1所述的基于非负矩阵分解和密度聚类的用户窃电行为识别方法,其特征在于,所述步骤(3)的具体过程为:
(A)以步骤(2)原始窃电特征集构建的原始窃电特征矩阵V;
(B)将原始窃电特征矩阵V分解为低秩的窃电特征基矩阵W和系数矩阵H;
其过程为:初始化W、H矩阵为非负随机矩阵;按下式对W、H进行同步迭代运算;
(C)用低秩的窃电特征基矩阵W代替原始窃电特征集,实现窃电特征提取,并将提取的窃电特征作为特征变量构建用户样本数据集。
9.根据权利要求8所述的基于非负矩阵分解和密度聚类的用户窃电行为识别方法,其特征在于,所述步骤(4)中,利用遗传算法对DBSCAN聚类算法的半径和密度阈值进行优化,并将步骤(3)得到的用户样本数据集作为训练样本输入优化后的DBSCAN聚类模型,得到各用户样本对所属聚类中心的隶属度,根据隶属度大小判断用户样本的离群度,并与预设的离群度阈值比较,输出用户是否窃电的结果。
10.根据权利要求1所述的基于非负矩阵分解和密度聚类的用户窃电行为识别方法,其特征在于,所述步骤(4)中,所述窃电行为识别模型训练包括以已查实的窃电用户样本数据输入至基于DBSCAN窃电识别模型,验证窃电识别模型是否可分出至准确的类别,并分析原因,调整遗传算法初始参数使模型识别窃电效果最佳。
CN202010405708.0A 2020-05-14 2020-05-14 一种基于非负矩阵分解和密度聚类的用户窃电行为识别方法 Active CN111612054B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010405708.0A CN111612054B (zh) 2020-05-14 2020-05-14 一种基于非负矩阵分解和密度聚类的用户窃电行为识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010405708.0A CN111612054B (zh) 2020-05-14 2020-05-14 一种基于非负矩阵分解和密度聚类的用户窃电行为识别方法

Publications (2)

Publication Number Publication Date
CN111612054A CN111612054A (zh) 2020-09-01
CN111612054B true CN111612054B (zh) 2023-07-25

Family

ID=72204503

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010405708.0A Active CN111612054B (zh) 2020-05-14 2020-05-14 一种基于非负矩阵分解和密度聚类的用户窃电行为识别方法

Country Status (1)

Country Link
CN (1) CN111612054B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112347879B (zh) * 2020-10-27 2021-06-29 中国搜索信息科技股份有限公司 一种针对视频运动目标的主题挖掘及行为分析方法
CN112632153B (zh) * 2020-12-29 2023-10-20 国网安徽省电力有限公司 一种违约用电识别方法及装置

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9043329B1 (en) * 2013-12-19 2015-05-26 Banjo, Inc. Dynamic event detection system and method
US20180121942A1 (en) * 2016-11-03 2018-05-03 Adobe Systems Incorporated Customer segmentation via consensus clustering
US11159547B2 (en) * 2017-08-03 2021-10-26 International Business Machines Corporation Malware clustering approaches based on cognitive computing techniques
KR101893475B1 (ko) * 2018-03-14 2018-10-04 마인드서프 주식회사 멀티레이어 시각화 표현을 위한 인공지능 기반의 네트워크 모니터링 방법
CN109406848A (zh) * 2018-10-22 2019-03-01 国网山东省电力公司滨州市滨城区供电公司 一种电力窃电检测警示系统及方法
CN109615004A (zh) * 2018-12-07 2019-04-12 江苏瑞中数据股份有限公司 一种多源数据融合的防窃电预警方法
CN109858679A (zh) * 2018-12-30 2019-06-07 国网浙江省电力有限公司 一种结合人机物的反窃电稽查监控系统及其工作方法
CN110108914B (zh) * 2019-05-21 2021-06-25 国网湖南省电力有限公司 一种反窃电智能化决策方法、系统、设备及介质
CN110082579B (zh) * 2019-05-21 2021-06-25 国网湖南省电力有限公司 一种台区智能反窃电监测方法、系统、设备及介质

Also Published As

Publication number Publication date
CN111612054A (zh) 2020-09-01

Similar Documents

Publication Publication Date Title
CN110223196B (zh) 基于典型行业特征库和反窃电样本库的反窃电分析方法
CN110097297B (zh) 一种多维度窃电态势智能感知方法、系统、设备及介质
WO2022110557A1 (zh) 一种台区户变关系异常诊断方法及装置
CN106022509B (zh) 考虑地域和负荷性质双重差异的配电网空间负荷预测方法
CN103455563B (zh) 一种适用于智能变电站一体化监控系统的数据挖掘方法
CN110458230A (zh) 一种基于多判据融合的配变用采数据异常甄别方法
CN109325019B (zh) 数据关联关系网络构建方法
CN111612054B (zh) 一种基于非负矩阵分解和密度聚类的用户窃电行为识别方法
CN108133225A (zh) 一种基于支持向量机的覆冰闪络故障预警方法
CN112101635A (zh) 一种用电异常的监测方法和系统
CN114048870A (zh) 一种基于日志特征智能挖掘的电力系统异常监测方法
CN107832927A (zh) 基于灰色关联分析法的10kV线路线变关系评价方法
CN113189418B (zh) 一种基于电压数据的拓扑关系识别方法
CN109947815B (zh) 一种基于离群点算法的窃电辨识方法
CN112001441A (zh) 一种基于Kmeans-AHC混合聚类算法的配电网线损异常检测方法
CN116432123A (zh) 一种基于cart决策树算法的电能表故障预警方法
CN106651093A (zh) 一种用于低压集抄系统的智能复核管控方法
CN115905319B (zh) 一种海量用户电费异常的自动识别方法及系统
CN116522111A (zh) 远程停复电故障自动诊断方法
Liu et al. Detection of stealing electricity energy based on improved fuzzy C-means clustering
CN114066219A (zh) 一种关联矩阵下用电异常点智能识别的窃电分析方法
CN109447490B (zh) 一种基于用户地址的户变关系异常判别方法
CN114595952A (zh) 基于注意力网络改进卷积神经网络的窃电行为检测方法
CN114818849A (zh) 基于大数据信息的卷积神经网络和遗传算法的反窃电方法
CN113866562A (zh) 一种电力系统台区线损识别方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right

Effective date of registration: 20211220

Address after: 050021 No. 238 South Sports street, Hebei, Shijiazhuang

Applicant after: STATE GRID HEBEI ELECTRIC POWER Research Institute

Applicant after: Marketing service center of State Grid Hebei Electric Power Co.,Ltd.

Applicant after: STATE GRID HEBEI ENERGY TECHNOLOGY SERVICE Co.,Ltd.

Applicant after: STATE GRID CORPORATION OF CHINA

Address before: 050021 No. 238 South Sports street, Hebei, Shijiazhuang

Applicant before: STATE GRID HEBEI ELECTRIC POWER Research Institute

Applicant before: STATE GRID HEBEI ENERGY TECHNOLOGY SERVICE Co.,Ltd.

Applicant before: STATE GRID CORPORATION OF CHINA

TA01 Transfer of patent application right
GR01 Patent grant
GR01 Patent grant