CN113221940A - 一种融合异构多源时序数据的窃电行为检测方法 - Google Patents
一种融合异构多源时序数据的窃电行为检测方法 Download PDFInfo
- Publication number
- CN113221940A CN113221940A CN202110282921.1A CN202110282921A CN113221940A CN 113221940 A CN113221940 A CN 113221940A CN 202110282921 A CN202110282921 A CN 202110282921A CN 113221940 A CN113221940 A CN 113221940A
- Authority
- CN
- China
- Prior art keywords
- user
- data
- model
- sequence
- electricity
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000005611 electricity Effects 0.000 title claims abstract description 106
- 238000001514 detection method Methods 0.000 title claims abstract description 31
- 230000006399 behavior Effects 0.000 claims abstract description 90
- 238000012360 testing method Methods 0.000 claims abstract description 11
- 238000012549 training Methods 0.000 claims description 38
- 238000000034 method Methods 0.000 claims description 37
- 230000004927 fusion Effects 0.000 claims description 23
- 239000013598 vector Substances 0.000 claims description 17
- 238000000605 extraction Methods 0.000 claims description 15
- 230000006870 function Effects 0.000 claims description 15
- 238000012795 verification Methods 0.000 claims description 14
- 230000008859 change Effects 0.000 claims description 8
- 238000007781 pre-processing Methods 0.000 claims description 8
- 230000002123 temporal effect Effects 0.000 claims description 8
- 230000007246 mechanism Effects 0.000 claims description 7
- 238000002360 preparation method Methods 0.000 claims description 6
- 238000007637 random forest analysis Methods 0.000 claims description 6
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 claims description 5
- 238000011156 evaluation Methods 0.000 claims description 5
- 238000002474 experimental method Methods 0.000 claims description 5
- 230000008569 process Effects 0.000 claims description 5
- 238000007430 reference method Methods 0.000 claims description 5
- 239000011159 matrix material Substances 0.000 claims description 4
- 230000003213 activating effect Effects 0.000 claims description 3
- 238000009826 distribution Methods 0.000 abstract description 2
- 238000012423 maintenance Methods 0.000 abstract description 2
- 238000013528 artificial neural network Methods 0.000 description 6
- 230000000306 recurrent effect Effects 0.000 description 4
- 230000003542 behavioural effect Effects 0.000 description 3
- 238000012706 support-vector machine Methods 0.000 description 3
- 206010000117 Abnormal behaviour Diseases 0.000 description 2
- 230000003044 adaptive effect Effects 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 2
- 238000013459 approach Methods 0.000 description 2
- 238000004422 calculation algorithm Methods 0.000 description 2
- 238000013527 convolutional neural network Methods 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 239000000284 extract Substances 0.000 description 2
- 238000007477 logistic regression Methods 0.000 description 2
- 230000002159 abnormal effect Effects 0.000 description 1
- 230000004913 activation Effects 0.000 description 1
- 230000002776 aggregation Effects 0.000 description 1
- 238000004220 aggregation Methods 0.000 description 1
- 230000002547 anomalous effect Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000008450 motivation Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 238000005192 partition Methods 0.000 description 1
- 230000000737 periodic effect Effects 0.000 description 1
- 238000011176 pooling Methods 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000001932 seasonal effect Effects 0.000 description 1
- 238000003860 storage Methods 0.000 description 1
- 238000010200 validation analysis Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/243—Classification techniques relating to the number of classes
- G06F18/24323—Tree-organised classifiers
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2458—Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
- G06F16/2474—Sequence data queries, e.g. querying versioned data
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/06—Energy or water supply
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Business, Economics & Management (AREA)
- General Physics & Mathematics (AREA)
- Economics (AREA)
- Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- Public Health (AREA)
- Marketing (AREA)
- Evolutionary Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Water Supply & Treatment (AREA)
- General Health & Medical Sciences (AREA)
- Human Resources & Organizations (AREA)
- Evolutionary Computation (AREA)
- Primary Health Care (AREA)
- Strategic Management (AREA)
- Tourism & Hospitality (AREA)
- General Business, Economics & Management (AREA)
- Fuzzy Systems (AREA)
- Mathematical Physics (AREA)
- Probability & Statistics with Applications (AREA)
- Software Systems (AREA)
- Computational Linguistics (AREA)
- Databases & Information Systems (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明公开了一种融合异构多源时序数据的窃电行为检测方法,涉及电网运维领域。由于用电行为多样性和不规则性,难以捕获到具体的窃电模式。本发明在需要进行窃电行为检测时,获取用户数据,并进行预处理,将用户数据预处理为用户、台区和气候三种不同的序列;将用户数据输入层级化异构多源时序数据窃电行为检测模型中,从多源的观察序列中捕获用户行为的模式,得到测试集的预测标签。本技术方案将多源异构的时序数据融合,捕获他们之间的时间和空间相关性,更好的分析用户的行为,判断其窃电的可能性,考虑用户自己的用电记录与所在台区的线损记录、气候因素对用户行为的影响;预测窃电行为的因素更全面,有利于提高预测的准确性及稳定性。
Description
技术领域
本发明涉及电网运维领域,尤其涉及一种融合异构多源时序数据的窃电行为检测方法。
背景技术
电力资源是国家重要的能源资源之一,其稳定的供给关乎人民生活水平与国家安全稳定。然而,有不少障碍阻碍了电能的稳定供给,其中之一就是是窃电。很多电能公司在检测和防止窃电方面做出了非常多的努力。最常见的方法是利用硬件驱动的方法:简而言之,专业人员分析窃电策略,然后相应地设计和升级电表结构。这些硬件驱动的方法存在三个主要缺点:1)他们需要专业知识来识别窃电者所使用的窃电策略;2)设计通用的电表结构往往很困难,因为不同的区域可能经常具有不同的窃电策略;3)一旦窃电者改变了窃电策略,这些已有的方法就会失去效力。
为了解决这些问题,一些工作开始采用数据驱动的方法来识别窃电行为。在回顾现有的有关研究工作之前,有必要先解释一个技术术语:非技术损失(NTL),这种损失是由计量用电到实际等额支付过程中的问题所引起的。尽管不同的问题可能会导致非技术损失,但造成NTL的大部分原因都与窃电有关。因此,工作人员可以从异常NTL记录中检测到盗窃电。为了捕获窃电用户的不同模式,许多现有工作将用电记录或NTL用作输入,并应用了各种机器学习技术(例如SVM,CNN,RNN)来识别窃电行为。但是,由于用电行为的多样性和不规则性,大多数方法仅使用NTL或用电记录,在实际应用中几乎无法获得良好的效果,难以捕获到具体的窃电模式。
发明内容
本发明要解决的技术问题和提出的技术任务是对现有技术方案进行完善与改进,提供一种融合异构多源时序数据的窃电行为检测方法,以达到提高预测的准确性及稳定性的目的。为此,本发明采取以下技术方案。
一种融合异构多源时序数据的窃电行为检测方法,包括以下步骤:
1)建立层级化异构多源时序数据窃电行为检测模型;
基于HEBR建立层级化异构多源时序数据窃电行为检测模型,HEBR包括三个级别的特征提取和层次融合,以捕获数据源之间不同程度的影响;
层级1:独立地捕获观测序列中的时间模式,包括温度模式(hc),NTL(hl)和用户用电量(he),将温度模式(hc),NTL(hl)分别与用户用电量(he)成对融合(hc→he,hl→he)得到用户气候序列(hec)和用户区域序列(hel),,以在捕获宏观或中观因素分别对用户行为的影响;
层级2:该层在层级1进行的初步融合后,捕获更进一层的时间变化的模式,包括用户气候序列(hec)和用户区域序列(hel);然后融合hec→hel的模式,得到多源序列(hecl),以在统一地捕获宏观和中观级别的因素对用户行为的影响;
层级3:该层捕获多源序列(hecl)中的整体时间变化模式;集成分层融合的信息以捕获用户总体的行为特征,该行为特征用于估计用户窃电的可能性;
2)当需要进行窃电行为检测时,获取用户数据,并进行预处理,预处理包括将用户数据根据数据来源预处理为用户、台区和气候三种不同的序列;
3)将预处理后的用户数据输入层级化异构多源时序数据窃电行为检测模型中;
4)层级化异构多源时序数据窃电行为检测模型从多源的观察序列中捕获用户行为的模式,得到测试集的预测标签。
作为优选技术手段:在步骤1)中包括:
11)准备步骤,用于划分数据集和初始化模型;包括:
111)设置模型参数;
112)载入用户数据与标签;
113)将用户数据按照时间划分为训练集、验证集和测试集;
114)初始化模型和将当前模型评价指标bestP的初始值设置为0.0;
12)训练步骤,用于训练模型和保存模型;
121)在训练模型阶段,首先将用户数据根据数据来源预处理为用户、台区和气候三种不同的序列;应用HEBR模型,分为两步:
1211)计算HEBR模型损失函数;HEBR模型包括三个级别的特征提取和层次融合:
第一层是将用户用电量分别与温度模式和用户用电量融合,以捕获宏观或者中观因素分别对用户行为的影响;
第二层相对第一层,更进一步地捕获时间变化的模式,将用户气候和用户区域相融合,以统一地捕获宏观和中观级别因素对用户行为的影响;
层级三捕捉多源序列中整体时间变化模式,继承了分层永和的信息以捕获用户总体的行为特征;接着使用Adam(Adaptivemomentestimation)算法优化HEBR模型,最终得到用户向量表示;
1212)将用户向量表示与用户数据拼接在一起,得到用户特征向量;再次,通过用户特征向量训练随机森林;
122)在保存模型阶段,将验证集输入模型获得验证集的预测标签,把预测标签与实际标签做比较,获得模型的性能指标P;接着比较P与bestP的大小,如果P大于bestP,则将bestP的值更新为P,同时保存模型,否则进入训练模型阶段;重复以上的训练过程若干次,直到训练次数达到预设训练次数;得到最终的层级化异构多源时序数据窃电行为检测模型。
作为优选技术手段:在步骤1)中,基于三种不同的信息层次对用户的行为进行建模以从各自不同的数据源中提取特征,并将它们逐步融合,三层次为:
作为优选技术手段:在层级1中,HEBR不将气候特征hc和台区特征hl融合在一起。
作为优选技术手段:HEBR基于层次的结构,在每个层级进行特征提取和融合,并逐步整合多个数据源之间的信息。对于每个层级的操作,其统一的公式被定义为:给定序列输入和另一个数据源的输入在第k层,特征提取和层次融合可以表示为:
表示在时间点t的第k层中的潜在表示,由函数Frecur根据其先前的特征和当前输入撇号′表示来自另一个数据源的序列;W*是可训练的加权矩阵,函数Ffuse旨在将中的信息融合到当前序列中,然后通过激活函数(Fact)输出中间表示;αt表示从h′t到ht的注意力系数,根据“端到端”学习机制自动发现从I′到I的注意力权重。
作为优选技术手段:在步骤1)中,还包括实验验证步骤;采用多种类型的基准方法进行相对比,并采用历史六个月的观测数据,判断用户接下来一个月是否会被抓到窃电;当层级化异构多源时序数据窃电行为检测模型的准确性及稳定性低于设定值及基准方法时,对层级化异构多源时序数据窃电行为检测模型进行修正。
有益效果:
本技术方案将多源异构的时序数据融合,捕获他们之间的时间和空间相关性,更好的分析用户的行为,判断其窃电的可能性。且除了考虑用户自己的用电记录与所在台区的线损记录之外,同时考虑气候因素对用户行为的影响。预测窃电行为的因素更全面,有利于提高预测的准确性及稳定性。
通过桥接三种不同层级的信息来识别窃电行为,及微观,中观和宏观的信息。在微观和中观水平上,分别从用户的用电记录和NTL中捕获用户的异常行为;在宏观层面上,综合气候条件对窃电行为的影响。并将这三种级别的信息高效地集成。有效提高预测窃电模型计算的有效性及效率。
本技术方案基于用户个人用电记录、台区线损记录和地区气温变化记录,通过加注意力机制的层次化循环神经网络检测用户的窃电行为,有利于提高预测窃电行为的可靠性、准确性及稳定性。
附图说明
图1是本发明的流程图。
图2是本发明的层级化异构多源时序数据窃电行为检测模型(HEBR)结构图。
图3是本发明的HEBR基于多源时序的多步融合机制图。
具体实施方式
以下结合说明书附图对本发明的技术方案做进一步的详细说明。
如图1所示,本发明包括以下步骤:
S1:建立层级化异构多源时序数据窃电行为检测模型;
基于HEBR建立层级化异构多源时序数据窃电行为检测模型,HEBR包括三个级别的特征提取和层次融合,以捕获数据源之间不同程度的影响;
包括步骤:
S11:准备步骤,用于划分数据集和初始化模型;包括:
S111:设置模型参数;
S112:载入用户数据与标签;
S113:将用户数据按照时间划分为训练集、验证集和测试集;
S114:初始化模型和将当前模型评价指标bestP的初始值设置为0.0;
S12:训练步骤,用于训练模型和保存模型;
S121:在训练模型阶段,首先将用户数据根据数据来源预处理为用户、台区和气候三种不同的序列;应用HEBR模型,分为两步:
S1211:计算HEBR模型损失函数;HEBR模型包括三个级别的特征提取和层次融合:
第一层是将用户用电量分别与温度模式和用户用电量融合,以捕获宏观或者中观因素分别对用户行为的影响;
第二层相对第一层,更进一步地捕获时间变化的模式,将用户气候和用户区域相融合,以统一地捕获宏观和中观级别因素对用户行为的影响;
层级三捕捉多源序列中整体时间变化模式,继承了分层永和的信息以捕获用户总体的行为特征;接着使用Adam(Adaptive moment estimation)算法优化HEBR模型,最终得到用户向量表示;
S1212:将用户向量表示与用户数据拼接在一起,得到用户特征向量;再次,通过用户特征向量训练随机森林;
S122:在保存模型阶段,将验证集输入模型获得验证集的预测标签,把预测标签与实际标签做比较,获得模型的性能指标P;接着比较P与bestP的大小,如果P大于bestP,则将bestP的值更新为P,同时保存模型,否则进入训练模型阶段;重复以上的训练过程若干次,直到训练次数达到预设训练次数;得到最终的层级化异构多源时序数据窃电行为检测模型。
S2:当需要进行窃电行为检测时,获取用户数据,并进行预处理,预处理包括将用户数据根据数据来源预处理为用户、台区和气候三种不同的序列;
S3:将预处理后的用户数据输入层级化异构多源时序数据窃电行为检测模型中;
S4:层级化异构多源时序数据窃电行为检测模型从多源的观察序列中捕获用户行为的模式,得到测试集的预测标签。
本技术方案通过层级化异构多源时序数据窃电行为检测模型(HEBR),从多源的观察序列中捕获用户行为的模式,以下对部分内容作进一步的说明。
一、概述
本技术方案基于三种不同的信息级别对用户的行为进行建模,如下所示:
宏观和中观信息在一定程度上影响着微观行为。为了将多源的信息集成,以捕获窃电用户的异常行为模式,本发明直观地提出了一个层次化结构的框架,以从各自不同的数据源中提取特征,并将它们逐步融合。
二、模型描述
在对多源序列进行建模时,直观的基线方法可以是:首先在每个时间点将它们连接起来,然后使用单个潜在表示来捕获整体模式,例如MRNN。但是,来自不同来源的级联会扩大样本的特征维度,这可能会对捕获不同级别信息之间的重要关联产生障碍。更具体地说,在窃电的案例中,同一变压器台区中的不同用户可能具有相同的NTL或温度观测序列;因此,直接将其数据级联可能会导致台区和气候级别的信息对用户行为模式抽取的混乱。因此,本技术方案选择分开地提取每个源的独立特征,然后进行成对信息融合。
如图2所示,展现了所提出的HEBR框架的整体结构。除了输入和输出,HEBR包含三个级别的特征提取和层次融合,旨在捕获数据源之间不同程度的影响。每个级别将在下面更详细地描述。
·层级1:该层独立地捕获观测序列中的时间模式,例如温度模式(hc),NTL(hl)和用户用电量(he),然后将它们成对融合(hc→he,hl→he)。它旨在捕获宏观或中观因素分别对用户行为的影响。
·层级2:该层在层级1进行的初步融合后,捕获更进一层的时间变化的模式,例如,用户气候(hec)和用户区域(hel)。然后融合hec→hel的模式。它旨在统一地捕获宏观和中观级别的因素对用户行为的影响。
·层级3:该层捕获多源序列(hecl)中的整体时间变化模式。它集成了分层融合的信息以捕获用户总体的行为特征,该行为特征可用于估计用户窃电的可能性。
在本实施例中,在层级1中,HEBR不将气候特征hc和台区特征hl融合在一起。尽管这两个不同级别的信息与用户的用电行为密切相关,但它们本身之间并不相关。在这里,模型旨在捕获这两个因素如何影响用户的用电行为。
HEBR基于层次的结构,可以在每个层级进行特征提取和融合,并逐步整合多个数据源之间的信息。对于每个层级的操作,其统一的公式被定义为:给定序列输入和另一个数据源的输入在第k层,特征提取和层次融合可以表示为:
表示在时间点t的第k层中的潜在表示,由函数Frecur根据其先前的特征和当前输入撇号(′)表示来自另一个数据源的序列。W*是可训练的加权矩阵,函数Ffuse旨在将中的信息融合到当前序列中,然后通过激活函数(Fact)输出中间表示。此外,αt表示从h′t到ht的注意力系数,该方法尝试根据“端到端”学习机制自动发现从I′到I的注意力权重。
2.1层次化的融合机制
为了捕获不同级别信息之间的相关性,本技术方案提出了一种多步层级融合机制。这里的动机是,两个不同级别的序列之间的影响可能会存在延迟。例如,除了受今天的温度影响外,用户的用电行为还可能与昨天的天气有关;一个具体的例子是,如果前一天很热,即使今天天气变冷,人们也会倾向于使用空调更长的时间。因此,这里应该尝试在一定的时间间隔中融合更多信息,而不仅仅是在当前时间点下融合。更具体地说,如图3中所示,当前潜在表示ht∈Rdh和来自另一个数据源的现在表示h′t∈Rdh′通过以下公式融合:
其中⊕表示连接运算符,而⊙是池化运算符。对于当前所在的时间点t,(ht⊙Wh′→h·h′t-1)和(ht⊙Wh′→h·h′t)捕获h′t-1和h′t分别对ht的影响。
但是,这不太可能每个时间步骤所融合的信息对于行为模式都同等重要。举例来说,如果某人在夏季或冬季消耗很少的电力,可能就有窃电行为,但是在秋季或春季可能并非如此。因为由于季节的影响,用户在这几个月通常消耗较少的电量。相关工作建议模型应尝试在不同的时间点测量此类重要信息。因此,本技术方案设计了一种注意机制来对不同时间点下融合的信息的进行注意力打分评估:具体来说,给定当前层级k,下一个层级的输入由融合出的中间表示线性组合计算,并由注意力分数向量加权评估。具体公式如下:
其中∑表示级联,Wh→α是所有时间点共享的可训练加权矩阵。激活函数tanh用于激活中间表示。
2.2模型学习
HEBR使用Adam优化器来进行参数的学习,其中目标函数定义为二分类的交叉熵:
其中Yu∈{0,1}是用户是经现场排查确认是否窃电的标签。
以下就具体实施的过程作进一步地说明。
本技术方案所采用的真实数据集包括三个部分:两组与电力有关的记录(用户用电记录,变压器台区线损记录)由国家电网浙江省电力有限公司所提供,温度记录是从官方天气网站收集的。整体统计信息汇总在表格1中。
用户用电记录数据集总共涵盖310,786用户的每日用电量记录,从2017年6月到2019年4月。对于每个用户,数据中包含相关时间范围内每天的总用电,高峰和非高峰用电(kW·h)记录。
变压器台区线损记录(NTL)数据集包含来自3,908个变压器区域的每日中观水平电气记录,涵盖了所有这些311K用户,并且具有与用户用电数据集相同的时间范围。更具体地说,对于每个区域,记录了由非技术损失(NTL)所造成的每日电力损失(kW·h)。
本实施例在天气雷达2上爬取了浙江所有地级市在与上数据相同时间范围内的温度记录。对于每个城市,这些记录都包含每天的最高和最低温度(℃)。
表1反窃电多源异构数据集的整体统计
维度 | 统计 |
用户数 | 310,786 |
变压器台区个数 | 3908 |
窃电用户个数 | 4501 |
窃电案例个数 | 4626 |
地级市个数 | 11 |
进行数据标注:
在所有用户中,国家电网公司工作人员在现场调查中确认了4,501(1.45%)存在窃电行为;应该注意的是,这里总共有4,626个电窃案,因为在过去的两年中,可能有用户多次被抓到窃电。本技术方案将所有剩余的用户(98.55%)视为正常用户,也就是说,在整个时间段内都没有任何窃电行为。虽然某些未经检查的用户有可能在某个时候存在窃电事件,但这种情况并不是很常见。在本实施例中收集被抓到窃电的时间戳,以进行更加详细的分析和实验。
模型的程序流程如图3所示。模型训练共分为三个部分:准备、训练和预测。
准备部分的主要工作为划分数据集和初始化模型。首先设置模型参数。然后载入用户数据与标签。将用户数据按照时间划分为训练集、验证集和测试集。其次初始化模型和将当前模型评价指标bestP(F-Measure,α=0.5)的初始值设置为0.0。
训练部分的主要工作为训练模型和保存模型。该部分将用到准备部分划分出的训练集和测试集。在训练模型阶段,首先将用户数据根据数据来源预处理为用户、台区和气候三种不同的序列。其次,应用HEBR模型,分为两步:一是计算HEBR模型损失函数。HEBR模型主要包括三个级别的特征提取和层次融合:第一层是将用户用电量分别与温度模式和用户用电量融合,以捕获宏观或者中观因素分别对用户行为的影响;第二层相对第一层,更进一步地捕获时间变化的模式,将用户气候和用户区域相融合,以统一地捕获宏观和中观级别因素对用户行为的影响。层级三捕捉多源序列中整体时间变化模式,继承了分层永和的信息以捕获用户总体的行为特征。接着使用Adam优化HEBR模型,最终得到用户向量表示。二是将用户向量表示与用户数据拼接在一起,得到用户特征向量。再次,通过用户特征向量训练随机森林。在保存模型阶段,将验证集输入模型获得验证集的预测标签,把预测标签与实际标签做比较,获得模型的性能指标P(F-Measure,α=0.5)。接着比较P与bestP的大小,如果P大于bestP,则将bestP的值更新为P,同时保存模型,否则进入训练模型阶段。重复以上的训练过程若干次,直到训练次数达到预设训练次数。
预测部分的主要工作是将预处理后的测试集数据输入模型,得到测试集的预测标签。
进行实验验证:
为了验证了HEBR的有效性,这里与几种不同类型的基准方法相对比。实验采用历史六个月的观测数据,来判断用户接下来一个月是否会被抓到窃电。整个任务是一个二分类的时序分类任务。第一类是基于手工特征的分类方法,这些方法通常用于现有的窃电检测工作。这里采用以下分类器:逻辑回归(LR),支持向量机(SVM),随机森林(RF)和极端梯度增强(XGB)尝试对基本用电特征进行分类。
第二种基准是时间序列分类方法,包括:
·最近的邻居:此方法确定样本u是否以接近u的其他样本为,并以此而分类。特别是,本技术方案在实验中考虑了以下不同的指标来计算两个时间序列之间的距离:欧几里德距离(NN-ED),动态时间规整(NN-DTW)和复杂性不变距离(NN-CID)。
·快速Shapelets(FS):这种方法提取Shapelets,即代表一类时间序列的子序列。时间序列的代表性子序列,作为分类的特征。
·时间序列森林(TSF):这是一种用于时间序列分类的树集合方法。
·MRNN:该方法采用级联多源序列,构建多尺度循环神经网络,其输入是事件序列Y和观察序列X按时间位置的级联序列。
·WDCNN:该方法用于检测窃电用户的wide&deep卷积神经网络,重点在于捕获用户用电量的周期性模式。
表2窃电用户识别实验结果比较(%)
结果对比
首先将HEBR和其他基准方法的实验结果进行比较。如表2中所示,所有手工功能方法的表现均较差,因为这些方法只能捕获有限数量的用户行为特征。通过自动捕获时间特征,时间序列分类方法可进一步提高性能,尤其是在Recall方面。神经网络的结果可以观察到类似的现象。特别是,当简单地将所有多源数据连接起来并输入到递归神经网络(MRNN)中时,可以看到它将所有样本都标识为窃电样例。这说明不正确地处理多源数据将带来更多噪声,从而损害表现。WDCNN尝试捕获用户的异常非周期性行为,从而提高了性能。但是,此方法的性能不稳定(大约1.31左右的上下浮动)。此外,正如所预期的那样,具有层次结构的模型(例如HBRNN和HEBR)能够更好地处理多源数据,因此胜过其他的基准方法。此外,就F0.5而言,HEBR的表现也优于HBRNN,增加了3%。通过分析,可以得知,借助多步骤融合和注意运算符,HEBR能够更好地捕获不同级别信息之间的相关性。
以上图1-3所示的一种融合异构多源时序数据的窃电行为检测方法是本发明的具体实施例,已经体现出本发明实质性特点和进步,可根据实际的使用需要,在本发明的启示下,对其进行形状、结构等方面的等同修改,均在本方案的保护范围之列。
Claims (6)
1.一种融合异构多源时序数据的窃电行为检测方法,其特征在于:包括以下步骤:
1)建立层级化异构多源时序数据窃电行为检测模型HEBR;
HEBR包括三个级别的特征提取和层次融合,以捕获数据源之间不同程度的影响;
层级1:独立地捕获观测序列中的时间模式,包括温度模式(hc)、非技术损失NTL(hl)和用户用电量(he),将温度模式(hc)、非技术损失NTL(hl)分别与用户用电量(he)成对融合(hc→he,hl→he)得到用户气候序列(hec)和用户区域序列(hel),以在捕获宏观或中观因素分别对用户行为的影响;
层级2:在层级1进行的初步融合后,捕获更进一层的时间变化的模式,包括用户气候序列(hec)和用户区域序列(hel);然后融合hec和hel的模式,得到多源序列(hecl),以在统一地捕获宏观和中观级别的因素对用户行为的影响;
层级3:捕获多源序列(hecl)中的整体时间变化模式;通过集成分层融合的信息捕获用户总体的行为特征,该行为特征用于估计用户窃电的可能性;
2)当需要进行窃电行为检测时,获取用户数据,并进行预处理,预处理包括将用户数据根据数据来源预处理为用户、台区和气候三种不同的序列;
3)将预处理后的用户数据输入层级化异构多源时序数据窃电行为检测模型中;
4)层级化异构多源时序数据窃电行为检测模型从多源的观察序列中捕获用户行为的模式,得到测试集的预测标签。
2.根据权利要求1所述的一种融合异构多源时序数据的窃电行为检测方法,其特征在于:在步骤1)中包括:
11)准备步骤,用于划分数据集和初始化模型;包括:
111)设置模型参数;
112)载入用户数据与标签;
113)将用户数据按照时间划分为训练集、验证集和测试集;
114)初始化模型和将当前模型评价指标bestP的初始值设置为0.0;
12)训练步骤,用于训练模型和保存模型;
121)在训练模型阶段,首先将用户数据根据数据来源预处理为用户、台区和气候三种不同的序列;应用HEBR模型,分为两步:
1211)计算HEBR模型损失函数;HEBR模型包括三个级别的特征提取和层次融合:
第一层是将用户用电量分别与温度模式和用户用电量融合,以捕获宏观或者中观因素分别对用户行为的影响;
第二层相对第一层,更进一步地捕获时间变化的模式,将用户气候和用户区域相融合,以统一地捕获宏观和中观级别因素对用户行为的影响;
层级三捕捉多源序列中整体时间变化模式,继承了分层永和的信息以捕获用户总体的行为特征;接着使用Adam优化HEBR模型,最终得到用户向量表示;
1212)将用户向量表示与用户数据拼接在一起,得到用户特征向量;再次,通过用户特征向量训练随机森林;
122)在保存模型阶段,将验证集输入模型获得验证集的预测标签,把预测标签与实际标签做比较,获得模型的性能指标P;接着比较P与bestP的大小,如果P大于bestP,则将bestP的值更新为P,同时保存模型,否则进入训练模型阶段;重复以上的训练过程若干次,直到训练次数达到预设训练次数;得到最终的层级化异构多源时序数据窃电行为检测模型。
4.根据权利要求1所述的一种融合异构多源时序数据的窃电行为检测方法,其特征在于:在层级1中,HEBR不将气候特征hc和台区特征hl融合在一起。
6.根据权利要求2所述的一种融合异构多源时序数据的窃电行为检测方法,其特征在于:在步骤1)中,还包括实验验证步骤;采用多种类型的基准方法进行相对比,并采用历史六个月的观测数据,判断用户接下来一个月是否会被抓到窃电;当层级化异构多源时序数据窃电行为检测模型的准确性及稳定性低于设定值及基准方法时,对层级化异构多源时序数据窃电行为检测模型进行修正。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110282921.1A CN113221940A (zh) | 2021-03-16 | 2021-03-16 | 一种融合异构多源时序数据的窃电行为检测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110282921.1A CN113221940A (zh) | 2021-03-16 | 2021-03-16 | 一种融合异构多源时序数据的窃电行为检测方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113221940A true CN113221940A (zh) | 2021-08-06 |
Family
ID=77083682
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110282921.1A Pending CN113221940A (zh) | 2021-03-16 | 2021-03-16 | 一种融合异构多源时序数据的窃电行为检测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113221940A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113947504A (zh) * | 2021-11-11 | 2022-01-18 | 国网辽宁省电力有限公司营销服务中心 | 一种基于随机森林法的窃电分析方法及其系统 |
CN114154999A (zh) * | 2021-10-27 | 2022-03-08 | 国网河北省电力有限公司营销服务中心 | 一种反窃电方法、装置、终端及存储介质 |
CN114595952A (zh) * | 2022-02-25 | 2022-06-07 | 广西电网有限责任公司 | 基于注意力网络改进卷积神经网络的窃电行为检测方法 |
-
2021
- 2021-03-16 CN CN202110282921.1A patent/CN113221940A/zh active Pending
Non-Patent Citations (1)
Title |
---|
HU WENJIA等: "Understanding Electricity-Theft Behavior via Multi-Source Data", PROCEEDINGS OF THE WEB CONFERENCE 2020, pages 2264 - 2274 * |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114154999A (zh) * | 2021-10-27 | 2022-03-08 | 国网河北省电力有限公司营销服务中心 | 一种反窃电方法、装置、终端及存储介质 |
CN113947504A (zh) * | 2021-11-11 | 2022-01-18 | 国网辽宁省电力有限公司营销服务中心 | 一种基于随机森林法的窃电分析方法及其系统 |
CN113947504B (zh) * | 2021-11-11 | 2024-07-30 | 国网辽宁省电力有限公司营销服务中心 | 一种基于随机森林法的窃电分析方法及其系统 |
CN114595952A (zh) * | 2022-02-25 | 2022-06-07 | 广西电网有限责任公司 | 基于注意力网络改进卷积神经网络的窃电行为检测方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Ramya et al. | Fuzzy-based energy management system with decision tree algorithm for power security system | |
Panapakidis et al. | Day-ahead electricity price forecasting via the application of artificial neural network based models | |
Himeur et al. | Next-generation energy systems for sustainable smart cities: Roles of transfer learning | |
Amjady et al. | Design of input vector for day-ahead price forecasting of electricity markets | |
CN109165819B (zh) | 一种基于改进AdaBoost.M1-SVM的有源配电网可靠性快速评估方法 | |
Hu et al. | Understanding electricity-theft behavior via multi-source data | |
CN113221940A (zh) | 一种融合异构多源时序数据的窃电行为检测方法 | |
Bidoki et al. | Evaluating different clustering techniques for electricity customer classification | |
Kaboli et al. | An expression-driven approach for long-term electric power consumption forecasting | |
Justo et al. | Behavioral similarity of residential customers using a neural network based on adaptive resonance theory | |
Dui et al. | IoT-enabled fault prediction and maintenance for smart charging piles | |
Liu et al. | Improvement of the energy evaluation methodology of individual office building with dynamic energy grading system | |
Wang et al. | Short-term load forecasting with LSTM based ensemble learning | |
CN117674119A (zh) | 电网运行风险评估方法、装置、计算机设备和存储介质 | |
Guan et al. | Customer load forecasting method based on the industry electricity consumption behavior portrait | |
Baqueiro et al. | Integrating data mining and agent based modeling and simulation | |
CN113255223B (zh) | 一种空调负荷短期预测方法及系统 | |
CN113762591B (zh) | 一种基于gru和多核svm对抗学习的短期电量预测方法及系统 | |
Liu et al. | Learning task-aware energy disaggregation: a federated approach | |
Xin et al. | Research on electric vehicle charging load prediction method based on spectral clustering and deep learning network | |
CN110335143A (zh) | 基于多重时间验证的金融风险分析方法、装置及电子设备 | |
Wei et al. | An instance based multi-source transfer learning strategy for building’s short-term electricity loads prediction under sparse data scenarios | |
Dadhich et al. | Development of electric load prediction techniques for rajasthan region and suggestive measures for optimum use of energy using multi-objective optimization | |
Liu et al. | A clustering-based feature enhancement method for short-term natural gas consumption forecasting | |
CN117132334A (zh) | 电力零售的智能定价方法、系统、电子装置及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20210806 |
|
WD01 | Invention patent application deemed withdrawn after publication |