CN113469253A - 一种基于三元组孪生网络的窃电检测方法 - Google Patents
一种基于三元组孪生网络的窃电检测方法 Download PDFInfo
- Publication number
- CN113469253A CN113469253A CN202110752856.4A CN202110752856A CN113469253A CN 113469253 A CN113469253 A CN 113469253A CN 202110752856 A CN202110752856 A CN 202110752856A CN 113469253 A CN113469253 A CN 113469253A
- Authority
- CN
- China
- Prior art keywords
- sample
- samples
- electricity
- electricity stealing
- triple
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 230000005611 electricity Effects 0.000 title claims abstract description 125
- 238000001514 detection method Methods 0.000 title claims abstract description 35
- 238000012549 training Methods 0.000 claims abstract description 50
- 238000012360 testing method Methods 0.000 claims abstract description 34
- 238000013528 artificial neural network Methods 0.000 claims abstract description 29
- 238000003384 imaging method Methods 0.000 claims abstract description 11
- 238000007781 pre-processing Methods 0.000 claims abstract description 7
- 238000000034 method Methods 0.000 claims description 28
- 230000006870 function Effects 0.000 claims description 27
- 238000000605 extraction Methods 0.000 claims description 12
- 238000012545 processing Methods 0.000 claims description 10
- 238000013527 convolutional neural network Methods 0.000 claims description 9
- 239000011159 matrix material Substances 0.000 claims description 9
- 239000013598 vector Substances 0.000 claims description 8
- 238000005070 sampling Methods 0.000 claims description 7
- 230000009467 reduction Effects 0.000 claims description 6
- 230000002776 aggregation Effects 0.000 claims description 5
- 238000004220 aggregation Methods 0.000 claims description 5
- 230000008569 process Effects 0.000 claims description 5
- 230000002159 abnormal effect Effects 0.000 claims description 3
- 238000006116 polymerization reaction Methods 0.000 claims description 3
- 238000011478 gradient descent method Methods 0.000 claims description 2
- 238000011176 pooling Methods 0.000 claims description 2
- 230000011218 segmentation Effects 0.000 claims description 2
- 238000013135 deep learning Methods 0.000 abstract description 6
- 230000000694 effects Effects 0.000 description 6
- 238000012706 support-vector machine Methods 0.000 description 5
- 230000006399 behavior Effects 0.000 description 4
- 238000013473 artificial intelligence Methods 0.000 description 3
- 238000004458 analytical method Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 230000018109 developmental process Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 230000003044 adaptive effect Effects 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000012937 correction Methods 0.000 description 1
- 125000004122 cyclic group Chemical group 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 238000007689 inspection Methods 0.000 description 1
- 230000007787 long-term memory Effects 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 230000006403 short-term memory Effects 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Systems or methods specially adapted for specific business sectors, e.g. utilities or tourism
- G06Q50/06—Electricity, gas or water supply
Abstract
本发明公开了一种基于三元组孪生网络的窃电检测方法,包括如下步骤:对用电数据进行数据预处理,得到原始数据集;利用格拉姆角场实现用电序列图像化,获取到用电特征图像;将用电特征图像拆分成训练数据集和测试数据集;在训练数据集中随机选取样本组,对三元组孪生神经网络进行训练;从训练集中划分一部分作为支撑集,根据测试数据集与支撑集内两类样本间的总欧式距离,利用训练好的三元组孪生神经网络判断测试样本的类别。本发明将三元组孪生神经网络作为小样本深度学习算法,可以在数据集内仅有少量样本的情况下获得较强的泛化能力,可帮助工程人员正确判断窃电用户,为治理用户窃电问题提供针对性的理论指导,应用价值和前景巨大。
Description
技术领域
本发明涉及窃电检测技术领域,具体涉及一种基于三元组孪生网络的窃电检测方法。
背景技术
用户的窃电行为直接造成供电企业的大量的经济损失。据统计,仅在2019年1月至7月,国家电网公司处罚的窃电案例总计追回电量高达5.78亿千瓦时,挽回经济损失17.39亿元,因此对窃电行为的精准打击成为了供电企业工作的重点。
近年来由于智能电网高速发展,高级计量架构(Advanced MeteringInfrastructure,AMI)大量部署提供了海量高精度用电计量数据,为数据驱动型窃电识别算法的研究奠定了坚实的基础。在数据驱动型窃电检测领域,国内外学者已开展了大量的研究,主要的窃电检测算法可以分为以下2类:基于状态估计的窃电检测算法与基于人工智能技术的窃电检测算法。基于状态估计的窃电检测方法是建立在电网各节点的电压与功率特性上,结合潮流方程约束来估计用户的用电状态。然而该方法要求掌握详细的网络拓扑结构,并在配电网关键位置添加计量装置,投入工程应用的局限性较大,因而促进了基于人工智能技术的窃电检测算法的发展。一些学者提出了多层次非负稀疏编码和支持向量机(SupportVector Machine,SVM)的窃电检测方法、基于深度循环神经网络的窃电检测方法和Bagging异质集成学习算法。然而由于在实际情况下,居民窃电案例的发生概率极低,导致了窃电样本的数据量极少,传统的人工智能算法难以充分学习居民窃电行为特征,容易产生模型过拟合现象,使得上述方法的应用受到一定的限制。针对上述问题,大量文献提出了小样本学习方法。一些学者提出使用数据过采样算法,如随机过采样、合成少数类过采样技术(Synthetic Minority Oversampling Technique,SMOTE)算法和自适应综合过采样方法(Adaptive Synthetic Sampling,ADASYN)算法扩充数据集,再利用传统深度学习算法进行识别。然而由于过采样算法的思想是简单的随机复制样本或使用插值的方式生成新样本,若随机复制样本则更容易产生模型过拟合现象,而如果使用插值生成新样本,则容易放大数据噪声,导致生成样本不符合实际样本分布情况。有学者提出利用朴素贝叶斯模型解决小样本数据的分类问题。然而由于朴素贝叶斯模型假设属性之间相互独立,因而对输入的样本特征有较高的要求,需要依据一定的专家经验。
发明内容
发明目的:为了克服现有技术中存在的特征提取能力差、小样本场景下识别正确率低的问题,提供一种基于三元组孪生网络的窃电检测方法。
技术方案:为实现上述目的,本发明提供一种基于三元组孪生网络的窃电检测方法,包括如下步骤:
S1:对用电数据进行数据预处理,得到原始数据集;
S2:基于原始数据集,利用格拉姆角场实现用电序列图像化,获取到用电特征图像;
S3:将用电特征图像拆分成训练数据集和测试数据集;
S4:在训练数据集中随机选取样本组,对三元组孪生神经网络进行训练;
S5:从训练集中划分一部分作为支撑集,根据测试数据集与支撑集内两类样本间的总欧式距离,利用训练好的三元组孪生神经网络判断测试样本的类别。
进一步地,所述步骤S1中数据预处理的方法流程为:
A1:对用户用电数据进行异常值处理;
A2:将用电数据降采样至采样间隔达到设定时间值;
A3:从数据集中截取用户设定时间范围内的正常用电与窃电数据。
进一步地,所述步骤S2具体包括如下步骤:
B1:使用分段聚合近似(Piecewise aggregate approximation,PAA)对原始时间序列进行降维处理;
B2:将降维处理后的时间序列转换到极坐标内;
B3:使用格拉姆和角场(Gramian SummationAngular Field,GASF)对时间序列进行图像化;
B4:将图像化后的所得数据进行标准化处理,获取到用电特征图像。
进一步地,所述步骤B1中分段聚合近似的算法公式如下:
进一步地,所述步骤B3中利用格拉姆和角场进行图像化处理的表达式如下:
由上式可见,矩阵内每一个元素值都是其行索引与列索引角度和的余弦值。
进一步地,所述步骤S4中样本组包含锚样本、正样本和负样本,其中,锚样本与正样本属于同一类,而锚样本与负样本属于不同类,对三元组孪生神经网络的训练方法为:将样本组作为三元组孪生网络的输入样本,利用权值共享的三个卷积神经网络提取各样本的特征,并在最后一层中输出。
进一步地,所述步骤S4中三元组孪生神经网络的的损失函数如式所示:
Lt=max[||va-vp||2-||va-vn||2+threshold,0]
式中,va、vp和vn分别表示样本组中的锚样本、正样本以及负样本,||va-vp||2表示锚样本与正样本之间的欧式距离,而||va-vn||2表示锚样本与负样本之间的欧式距离。
本发明截取用户一周的用电量数据并使用格拉姆角场实现序列图像化,使其更好的体现序列中不同时刻间的关联性,再随机选取包含锚样本、正样本和负样本的样本组作为样本数据,通过模型训练最小化同类样本间距离,扩大非同类样本间距离,最终通过测试样本与支撑集内两类样本间的总欧式距离判断测试样本的类别。由于三元组孪生神经网络在传统孪生网络对比损失函数的基础上进行了改进,不仅对训练样本本身的特征进行提取,还对同类样本对的相似性与非同类样本对的差异性进行了学习,因而提高了样本特征的提取能力,在小样本情况下拥有较高的辨识正确率。
本发明将改进和优化后的三元组孪生神经网络作为小样本深度学习算法,不仅提取了输入样本的特征进行学习,还对同类样本的相似性与非同类样本间的差异性规律进行了学习,因而可以在数据集内仅有少量样本的情况下获得较强的泛化能力。
有益效果:本发明与现有技术相比,具备如下优点:
1、三元组孪生网络的损失函数综合考虑了同类样本对与非同类样本的分布情况,使得训练时每次梯度下降的方向均与网络构造的两类样本的分布情况相关,从而增强了模型的分类能力。
2、三元组孪生网络在样本不平衡以及小样本情况下不容易产生过拟合现象,能够实现较高的检测正确率,因而适合小样本情况下的窃电检测;相比于CNN、GAN、SVM和RNN,本发明所提三元组孪生神经网络拥有更高的识别正确率、平衡分数、AUC值与轮廓系数,可帮助工程人员正确判断窃电用户,为治理用户窃电问题提供针对性的理论指导,应用价值和前景巨大。
附图说明
图1为本发明方法的流程图;
图2为典型用户用电曲线图;
图3为四种窃电方式与正常用电的对比图;
图4为用电柱状图对比图;
图5为正常用电与窃电用户用电特征图像对比图;
图6为损失函数对比图;
图7为三元组孪生网络结构图;
图8为损失函数曲线和训练正确率曲线图;
图9为轮廓系数与准确率三维曲线图;
图10为三元组孪生网络和传统孪生网络的样本分布图;
图11为三元组孪生网络、孪生网络与卷积神经网络的ROC曲线对比图。
具体实施方式
下面结合附图和具体实施例,进一步阐明本发明,应理解这些实施例仅用于说明本发明而不用于限制本发明的范围,在阅读了本发明之后,本领域技术人员对本发明的各种等价形式的修改均落于本申请所附权利要求所限定的范围。
如图1所示,本发明提供一种基于三元组孪生网络的窃电检测方法,包括如下步骤:
S1:对用电数据进行数据预处理,得到原始数据集;
S2:基于原始数据集,利用格拉姆角场实现用电序列图像化,获取到用电特征图像;
S3:将用电特征图像拆分成训练数据集和测试数据集;
S4:在训练数据集中随机选取样本组,对三元组孪生神经网络进行训练;
S5:从训练集中划分一部分作为支撑集,根据测试数据集与支撑集内两类样本间的总欧式距离,利用训练好的三元组孪生神经网络判断测试样本的类别。
基于上述方案,本实施例将上述窃电检测方法进行实例应用和分析,具体如下:
实施例1:
1、数据预处理
本实施例采用了深圳市某小区居民配电区内用户用电数据集,数据集内包含了2000名用户在2019年10月至2020年8月间的用电量记录,其中有120户窃电用户与2880户正常用电用户,记录间隔为30分钟。对用电数据进行异常值处理,并降采样至采样间隔一小时,可以绘制出典型用户用电曲线如图2所示。
由图2可见,该用户在上午1-8时、9-10时以及下午13-16时之间处于用电低谷期,而在下午12-14时和晚上17-19时之间属于用电高峰期。
对深圳供电局提供的用户窃电数据进行分析可知,用户窃电方式大致有四种主要类型:大功率无线信号干扰电能表CPU窃电、改动电能表内采样结构窃电、绕越电能表窃电以及间断性窃电。第一种方法是用户使用信号干扰设备影响智能电能表内CPU正常运行,使得电能表减少计量;第二种方法是指对智能电能表进行私自拆卸与更动,改造内部采样结构以减少电能计量;第三种方法是指用户直接从附近输电线路中取电而不经过电能表,从而极大的减少电能表的计量值;第四种方法是在第三种方法的基础上加装开关,选取用电高峰期或低稽查风险期窃电。四种窃电方式与正常用电的对比如图3所示。
通过分析用电数据可知,用户的用电大致呈现以一个星期为周期的规律。以当天的每个小时为横轴,一周内的每一天为纵轴,可以绘制一个星期内正常用户用电量与窃电用户用电量柱状图如图4所示:
由图4可见,正常用户用电柱状图拥有明显的图形规律,用户在周一至周四的用电高峰时段在9-12时与18-20时,而在周五至周六拓展了用电高峰时间段,并且增加的用电量;相比之下,窃电用户用电柱状图没有显现出用户的用电习惯,在工作日和周末均保持着几乎相同的用电行为,且每小时的用电量最大仅为0.2kW·h。由此可见用户一周的用电量数据可以明显反映正常用电与用户窃电之间的差异,为后续的窃电检测奠定基础。
由于用电量数据是严格的时序相关数据,与序列处理相关的深度学习算法如循环神经网络、长短期记忆单元等容易出现长期依赖的问题,而基于深度学习的图像识别算法较为成熟,因此本实施例中选择使用格拉姆角场将用电量数据编码为图像,再利用三元组孪生网络进行窃电检测。格拉姆角场(Gramian SummationAngular Field,GASF)的定义如下:
给定包含n个采样点的时间序列X={x1,x2,…,xn},首先将其归一化至[-1,1]范围内,之后使用极坐标对时间序列进行编码,如式所示。
2、获取到用电特征图像
由于所有时间序列都已转换到极坐标内,因此可以方便的通过每个时刻点的角度和或角度差挖掘不同时刻点之间的相关性。本实施例使用了格拉姆和角场将对时间序列进行图像化处理,如式所示:
由上式可见,矩阵内每一个元素值都是其行索引与列索引角度和的余弦值,因而格拉姆角场有如下几个特点:
(1)图形的主对角元存储了时间序列内所有时刻的原始值;
(2)矩阵的第i行第j列表示了第i时刻与第j时刻值的相关系数。
由于上述特点,格拉姆角场可以在保留序列原始值的情况下有效的表现时刻之间的相关性,然而如果使用原始时间序列数据会导致矩阵的维度过大,因此本实施例使用了分段聚合近似(Piecewise aggregate approximation,PAA)对原始时间序列进行降维处理。PAA算法如下式所示:
由于格拉姆角场处理后的图片已归一化至[-1,1]范围内,无法反映窃电数据与正常用电数据在幅值方面的差异。因此本实施例将格拉姆角场矩阵与其原始时间序列的平均值相乘,再以所有矩阵的最大与最小值作为标准归一化至[0,1]范围内,最终可得如图5所示的用电特征对比图像,其维度为64×64。
3、基于三元组孪生网络的窃电检测方法
孪生神经网络是一种有监督的小样本学习算法。相比于建立在大量训练数据基础上的传统深度学习算法,孪生网络可以在数据集内仅有少量样本的情况下获得较强的泛化能力,并减少过拟合的现象发生,因此适用于窃电检测领域。传统孪生网络是由两个结构相同、权重共享的神经网络组成,网络的输入变量是一对尺寸相同的图像样本,而网络的输出变量则是用欧式距离表示的两者之间的差异度。
在模型的训练阶段,随机选取训练集中两个样本并处理为样本对(v1,v2)的形式作为输入数据,再生成样本对所对应的标签,其中标签y=0表示样本对分别属于不同类别,而标签y=1表示样本对属于同一类别,利用样本对及对应标签进行网络训练。传统孪生网络的对比损失函数(Contrastive Loss)如式所示
Lc=y||v1-v2||2 2+(1-y)max(threshold-||v1-v2||2,0)2 (4)
式中,v1与v2表示样本对中的两个样本,||v1-v2||2表示样本对特征向量之间的欧式距离,threshold表示最大距离的阈值,即当样本对特征向量的距离超过阈值后,模型的损失函数为0。y表示样本对是否属于同一标签,当y=1时,两个样本属于同一类,损失函数值为式中的第一项,表示同类样本间的距离越短,模型的损失越小;当y=0时,损失函数的值为式中第二项,表示不同类别样本间的距离约远,模型的损失函数越小。因此通过训练可以缩短网络提取的特征向量的类内距离,增加类间距离,优化特征向量的分布情况。
对传统孪生网络的结构与损失函数进行改进,可以得到三元组孪生网络。不同于孪生网络使用样本对作为输入,三元组孪生网络的输入样本为包含锚样本、正样本和负样本的样本组,其中锚样本与正样本属于同一类,而锚样本与负样本属于不同类。训练的方式为:利用权值共享的三个卷积神经网络提取各样本的特征,并在最后一层中输出。
三元组孪生网络的损失函数如式所示:
Lt=max[||va-vp||2-||va-vn||2+threshold,0] (5)
式中,va、vp和vn分别表示样本组中的锚样本、正样本以及负样本;||va-vp||2表示锚样本与正样本之间的欧式距离,而||va-vn||2表示锚样本与负样本之间的欧式距离。通过上式可以看出,当锚样本与正样本之间的欧式距离越小,且锚样本与负样本之间的欧式距离越大时,模型的损失函数就约低。因此三元组孪生网络的作用是使锚样本更接近于同类样本,远离非同类样本。
三元组损失函数和对比损失函数的示意图如图6所示,其中深蓝色圆形表示锚样本,浅蓝色圆表示正样本,橘色方形表示负样本。相比于对比损失函数单独考虑缩短同类样本间距离,扩大非同类样本间距离,三元组孪生网络在样本合集中综合考虑了同类样本对与非同类样本,使得训练时每次梯度下降的方向均与网络构造的两类样本的分布情况相关,从而增强了模型的特征提取能力。
与传统的孪生网络不同,在模型的训练阶段,随机选取训练集中三个样本并处理为样本组(va,vp,vn)的形式作为输入数据,其中必须保证va与vp属于同一类别而va与vn属于不同类别,即ya=yp≠yn。利用样本组对模型进行训练。
在模型的测试阶段,从训练数据集中选取一部分数据作为支撑数据,利用三元组孪生网络度量支撑集与未知样本之间的差异,最终通过测试样本与支撑集内两类样本间的总欧式距离判断测试样本的类别,如果测试样本与支撑集内窃电样本的总欧式距离大于与正常用电样本的总欧式距离,判定样本窃电,反之亦然。
由上述可知,三元组孪生网络在训练过程中不但提取了样本的特征进行学习,还对同类样本的相似性以及非同类样本之间差异性规律进行了学习。同时由于样本对的随机选取特性,相当于对数据集内总样本数量进行了有效扩充,可以极大程度减少过拟合现象的发生。
三元组孪生网络的结构如图7与表1所示。模型的输入为包含三个样本的样本组,其中分别为锚样本、正样本以及负样本,样本的输入维度为64×64×1,之后通过2组拥有Dropout功能的卷积层和池化层进行图形特征提取,再利用两层全连接层将特征转换为一维特征向量,度量三组一维特征向量之间的欧式距离计算三元组损失函数,最后利用梯度下降法修改网络参数。
表1三元组孪生网络结构表
实施例2:
算例分析
为证明本发明所提算法的稳定性,使用实施例1所示训练数据对三元组孪生网络模型进行400次训练,可得图8损失函数曲线和训练正确率曲线。由图可见,当训练轮次大于80次时,模型的训练与测试损失函数十分接近并趋于0,且测试正确率稳定于94%附近。这说明了模型在上述训练数据集中拥有较强的样本学习能力。
由于本发明所提三元组孪生网络本质上是一种聚类算法,因此使用轮廓系数(Silhouette Score)对模型的聚类效果进行评价。轮廓系数的定义如式-所示:
式中,si表示某个样本的轮廓系数,bi表示该样本与其所在簇内其他样本的平均距离,ai表示该样本与其他簇样本的平均距离,S表示总轮廓系数。轮廓系数的范围是[-1,1],系数越大则聚类效果越好。在本实施例中,若样本的真实标签为窃电样本,则规定其所在簇为真实标签同为窃电的样本集合,反之亦然。因此本实施例使用轮廓系数对比本发明所提算法与其他多种算法的特征提取能力。
定义测试正确率如下:分别利用三元组孪生网络度量测试样本与支撑集中所有窃电样本和正常用电样本的欧式距离之和,最终测试样本的判断结果为支撑集上距离之和最短的类别。测试集判断结果相对于真实标签的正确率即为测试正确率。
由于三元组孪生网络中主要调整的参数为网络阈值与模型的批尺寸(Batchsizes),因此本实施例分别选取不同的参数对模型进行训练,绘制轮廓系数与准确率三维曲线图如图9所示:
由图9可知,当模型的阈值选为1,且批尺寸选为70时,模型同时达到最高的正确率和最大的轮廓系数。这是由于(1)当模型的批尺寸选择过小时,模型的梯度下降方向难以朝向损失函数的极小值,因而降低了模型的训练效率;当模型的批尺寸选择过大时,模型修正的次数减少,梯度下降的方向可能趋于恒定,减弱了模型的泛化能力。(2)当模型的阈值选取过小时,差异度很小的同类样本也有较大的误判概率;当模型的阈值选择过大时,差异度很大的非同类样本有更大概率被误判为同类样。因此选取上述模型参数。
为了比较本发明所提算法与传统孪生网络在特征提取方面的优劣,利用相同的训练样本分别对三元组孪生网络与同结构的孪生网络进行训练,使用t-分布随机近邻嵌入算法(t-Distributed Stochastic Neighbor Embedding,t-SNE)将训练完成的三元组孪生网络的全连接层2的测试集输出与传统孪生网络的输出分别进行可视化处理,以判断其特征提取能力。两种模型的分类结果如图10所示。
由图10可得,传统孪生网络的特征提取的过程中容易出现正常样本与窃电样本交错堆叠的现象,因而降低了模型的分类正确率;而三元组孪生神经网络由于引入了三元组损失函数,在训练的过程中同时对比了同类样本对的相似性与非同类样本对的差异性,因而提取的特征更具典型性与代表性,样本堆叠的现象少有发生,模型拥有较强的特征提取能力。
由于窃电检测领域属于二分类问题,因此本发明引入混淆矩阵表示模型分类结果。混淆矩阵表如表2所示:
表2二分类混淆矩阵表
利用召回率R、精确度P和平衡分数Q衡量模型的分类结果,如式-所示:
式中,召回率R表示正确预测为正类的样本占所有实际为正类样本的比例,而精确度P表示正确预测为正类的样本占所有预测为正类样本的比例,平衡分数Q综合衡量了精确度P和召回率Q。
由于上述指标建立在模型的预测输出仅为正确与错误两种情况下,无法评价模型输出概率值的优劣,且在样本不平衡时评价结果往往不可靠。因此引入接收者操作特征曲线(receiver operating characteristic curve,ROC)和ROC曲线下方的面积大小(AreaUnder Curve,AUC)对模型进行评价。利用样本与所有窃电样本的总欧式距离和样本与所有训练数据的总欧式距离的比值作为窃电概率。当窃电概率小于0.5时,认定该样本为窃电;反之则为正常用电。因此可以绘制三元组孪生网络、孪生网络与卷积神经网络的ROC曲线对比如图11所示:
如图11可见,三元组孪生网络的AUC值为0.985,传统孪生网络的AUC值为0.964,而卷积神经网络的AUC值为0.955。可见三元组孪生网络的ROC曲线与坐标轴间的面积明显大于传统孪生网络与卷积神经网络,因而证明了三元组孪生网络可以更好的处理数据不平衡问题。
实施例3:
为证明本发明方法在不同样本分布情况以及不同样本数量下的优势,本实施例选取以下三种不同的训练数据集场景。
场景一:用电样本正常分布情况。
场景一为理想情况,其中四种窃电类型数据和正常用电数据的分布情况与本发明所用数据集完全一致。由于拥有充足的数据,为防止数据类型不平衡程度过高,按正常用电与窃电比例为3:1配置数据集。
场景二:某新建小区用电样本分布情况。
场景二表示某一小区在近期建成,缺乏居民用电数据与窃电数据,因此产生了样本总数较少,且窃电数据分布机不平衡的情况。由于窃电样本数量不足,因此按正常用电与窃电比例为10:1配置数据集。
场景三:某农村配电区内用电样本分布情况
在一些山区农村居民用电区内,由于居民的受教育水平偏低,第三种类别(绕越电能表窃电)的窃电方式较多,而其他窃电方式的样本较少的情况。
测试数据集:通过设置各类样本均匀分布的测试数据集内,评价基于不同场景训练的模型效果。其中测试数据集与各场景数据集均无交集。
表3训练场景列表
表3列出了不同场景下的样本分布情况,其中C1表示用户干扰智能电能表窃电;C2表示用户私拆智能电能表,改造内部结构窃电;C3表示用户绕越智能电能表窃电,C4表示用户间断性窃电。而最终三种场景选用相同的测试数据集。
为验证本发明所提算法的有效性,分别选取三元组孪生神经网络、传统孪生网络、卷积神经网络、生成对抗网络(Generative Adversarial Networks,GAN)、SVM算法以及LSTM算法,计算不同场景下的测试正确率,如表4所示。再选取场景2作为主要对比场景,衡量不同算法性能如表5所示。
表4不同场景算法测试正确率对比
表5场景2下算法性能对比
由表可得,(1)随着场景内训练样本数量的减少,所有算法的检测正确率都有一定程度的降低,这是由于各个模型只能学习到较少的数据特征,使得模型难以正确拟合测试集的样本分布。(2)相比于其他算法,三元组孪生网络、孪生网络与生成对抗网络均有较高的检测正确率。在场景1与场景3中,三元组孪生网络、传统孪生网络与GAN均获得了较高的正确率,然而在场景2中GAN的正确率较低,这是由于其生成器容易产生模式崩塌的问题,降低了特征提取的效率;而三元组孪生神经网络的样本对学习方式具有较强的特征学习能力,不仅对训练样本本身的特征进行提取,还对同类样本对的相似性与非同类样本对的差异性进行了学习,因而拥有更强的特征提取能力,不容易出现过拟合现象,更加适合小样本条件下的窃电检测,辨识效果优于孪生网络与GAN,且在场景2中的总识别率达到了0.839。
根据实施例1-3的结果和分析,做出如下结论:
(1)三元组孪生网络在传统孪生网络对比损失函数的基础上进行改进,其损失函数综合考虑了同类样本对与非同类样本的分布情况,使得训练时每次梯度下降的方向均与网络构造的两类样本的分布情况相关,从而增强了模型的分类能力。
(2)三元组孪生网络在样本不平衡以及小样本情况下不容易产生过拟合现象,能够实现较高的检测正确率,因而适合小样本情况下的窃电检测。
(3)相比于CNN、GAN、SVM和RNN,本发明所提三元组孪生神经网络拥有更高的识别正确率、平衡分数、AUC值与轮廓系数,说明本发明所提算法对窃电数据拥有较高的特征提取能力,在小样本的极端情况下总识别率高达0.839。
Claims (8)
1.一种基于三元组孪生网络的窃电检测方法,其特征在于,包括如下步骤:
S1:对用电数据进行数据预处理,得到原始数据集;
S2:基于原始数据集,利用格拉姆角场实现用电序列图像化,获取到用电特征图像;
S3:将用电特征图像拆分成训练数据集和测试数据集;
S4:在训练数据集中随机选取样本组,对三元组孪生神经网络进行训练;
S5:从训练集中划分一部分作为支撑集,根据测试数据集与支撑集内两类样本间的总欧式距离,利用训练好的三元组孪生神经网络判断测试样本的类别。
2.根据权利要求1所述的一种基于三元组孪生网络的窃电检测方法,其特征在于,所述步骤S1中数据预处理的方法流程为:
A1:对用户用电数据进行异常值处理;
A2:将用电数据降采样至采样间隔达到设定时间值;
A3:从数据集中截取用户设定时间范围内的正常用电与窃电数据。
3.根据权利要求1所述的一种基于三元组孪生网络的窃电检测方法,其特征在于,所述步骤S2具体包括如下步骤:
B1:使用分段聚合近似对原始时间序列进行降维处理;
B2:将降维处理后的时间序列转换到极坐标内;
B3:使用格拉姆和角场对时间序列进行图像化;
B4:将图像化后的所得数据进行标准化处理,获取到用电特征图像。
6.根据权利要求1所述的一种基于三元组孪生网络的窃电检测方法,其特征在于,所述步骤S4中样本组包含锚样本、正样本和负样本,其中,锚样本与正样本属于同一类,而锚样本与负样本属于不同类,对三元组孪生神经网络的训练方法为:将样本组作为三元组孪生网络的输入样本,利用权值共享的三个卷积神经网络提取各样本的特征,并在最后一层中输出。
7.根据权利要求6所述的一种基于三元组孪生网络的窃电检测方法,其特征在于,所述步骤S4中三元组孪生神经网络的的损失函数如式所示:
Lt=max[||va-vp||2-||va-vn||2+threshold,0]
式中,va、vp和vn分别表示样本组中的锚样本、正样本以及负样本,||va-vp||2表示锚样本与正样本之间的欧式距离,而||va-vn||2表示锚样本与负样本之间的欧式距离。
8.根据权利要求1所述的一种基于三元组孪生网络的窃电检测方法,其特征在于,所述步骤S5中三元组孪生神经网络判断测试样本类别的方法为:将样本组作为三元组孪生神经网络的输入,通过2组拥有Dropout功能的卷积层和池化层进行图形特征提取,再利用两层全连接层将特征转换为一维特征向量,度量三组一维特征向量之间的欧式距离计算三元组损失函数,最后利用梯度下降法修改网络参数,判断测试样本的类别,如果测试样本与支撑集内窃电样本的总欧式距离大于与正常用电样本的总欧式距离,判定样本窃电,反之亦然。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110752856.4A CN113469253B (zh) | 2021-07-02 | 一种基于三元组孪生网络的窃电检测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110752856.4A CN113469253B (zh) | 2021-07-02 | 一种基于三元组孪生网络的窃电检测方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113469253A true CN113469253A (zh) | 2021-10-01 |
CN113469253B CN113469253B (zh) | 2024-05-14 |
Family
ID=
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114115152A (zh) * | 2021-11-25 | 2022-03-01 | 武汉智能装备工业技术研究院有限公司 | 基于嵌入式和深度学习的制造边缘实时事件洞察方法 |
CN114252739A (zh) * | 2021-12-24 | 2022-03-29 | 国家电网有限公司 | 配电网单相接地故障判别方法、系统、设备和存储介质 |
CN114549930A (zh) * | 2022-02-21 | 2022-05-27 | 合肥工业大学 | 一种基于轨迹数据的快速路短时车头间距预测方法 |
CN114926445A (zh) * | 2022-05-31 | 2022-08-19 | 哈尔滨工业大学 | 一种基于孪生网络的小样本农作物病害图像识别方法及系统 |
CN115100462A (zh) * | 2022-06-20 | 2022-09-23 | 浙江方圆检测集团股份有限公司 | 一种基于回归预测的插座分类方法 |
CN115430815A (zh) * | 2022-08-09 | 2022-12-06 | 衡阳镭目科技有限责任公司 | 一种结晶器液位控制方法、装置、电子设备及存储介质 |
CN115564712A (zh) * | 2022-09-07 | 2023-01-03 | 长江大学 | 基于孪生网络的胶囊内窥镜视频图像冗余帧去除的方法 |
CN116500335A (zh) * | 2023-06-30 | 2023-07-28 | 国网山东省电力公司邹城市供电公司 | 基于一维特征和二维特征的智能电网窃电检测方法及系统 |
CN117236381A (zh) * | 2023-11-08 | 2023-12-15 | 智能制造龙城实验室 | 一种基于三元组长短时记忆神经网络的刀具磨损监测方法 |
CN117592114A (zh) * | 2024-01-19 | 2024-02-23 | 中国电子科技集团公司第三十研究所 | 面向网络平行仿真的数据脱敏方法、系统和可读存储介质 |
Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2019128367A1 (zh) * | 2017-12-26 | 2019-07-04 | 广州广电运通金融电子股份有限公司 | 基于Triplet Loss的人脸认证方法、装置、计算机设备和存储介质 |
CN110084215A (zh) * | 2019-05-05 | 2019-08-02 | 上海海事大学 | 一种二值化三元组孪生网络模型的行人重识别方法及系统 |
CN110968703A (zh) * | 2019-12-06 | 2020-04-07 | 国网天津市电力公司电力科学研究院 | 基于lstm端到端抽取算法的异常计量点知识库构建方法及系统 |
CN111368934A (zh) * | 2020-03-17 | 2020-07-03 | 腾讯科技(深圳)有限公司 | 图像识别模型训练方法、图像识别方法以及相关装置 |
CN111883767A (zh) * | 2020-07-31 | 2020-11-03 | 合肥国轩高科动力能源有限公司 | 一种颗粒高分散镍钴锰三元前驱体的制备工艺 |
CN112098714A (zh) * | 2020-08-12 | 2020-12-18 | 国网江苏省电力有限公司南京供电分公司 | 一种基于ResNet-LSTM的窃电检测方法及系统 |
CN112179654A (zh) * | 2020-09-28 | 2021-01-05 | 西南交通大学 | 基于GAF-CNN-BiGRU网络的滚动轴承故障识别方法 |
CN112200244A (zh) * | 2020-10-09 | 2021-01-08 | 西安交通大学 | 一种基于递阶对抗训练的航天发动机异常智能检测方法 |
CN112598658A (zh) * | 2020-12-29 | 2021-04-02 | 哈尔滨工业大学芜湖机器人产业技术研究院 | 基于轻量级孪生卷积神经网络的病识别方法 |
CN112784929A (zh) * | 2021-03-14 | 2021-05-11 | 西北工业大学 | 一种基于双元组扩充的小样本图像分类方法及装置 |
Patent Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2019128367A1 (zh) * | 2017-12-26 | 2019-07-04 | 广州广电运通金融电子股份有限公司 | 基于Triplet Loss的人脸认证方法、装置、计算机设备和存储介质 |
CN110084215A (zh) * | 2019-05-05 | 2019-08-02 | 上海海事大学 | 一种二值化三元组孪生网络模型的行人重识别方法及系统 |
CN110968703A (zh) * | 2019-12-06 | 2020-04-07 | 国网天津市电力公司电力科学研究院 | 基于lstm端到端抽取算法的异常计量点知识库构建方法及系统 |
CN111368934A (zh) * | 2020-03-17 | 2020-07-03 | 腾讯科技(深圳)有限公司 | 图像识别模型训练方法、图像识别方法以及相关装置 |
CN111883767A (zh) * | 2020-07-31 | 2020-11-03 | 合肥国轩高科动力能源有限公司 | 一种颗粒高分散镍钴锰三元前驱体的制备工艺 |
CN112098714A (zh) * | 2020-08-12 | 2020-12-18 | 国网江苏省电力有限公司南京供电分公司 | 一种基于ResNet-LSTM的窃电检测方法及系统 |
CN112179654A (zh) * | 2020-09-28 | 2021-01-05 | 西南交通大学 | 基于GAF-CNN-BiGRU网络的滚动轴承故障识别方法 |
CN112200244A (zh) * | 2020-10-09 | 2021-01-08 | 西安交通大学 | 一种基于递阶对抗训练的航天发动机异常智能检测方法 |
CN112598658A (zh) * | 2020-12-29 | 2021-04-02 | 哈尔滨工业大学芜湖机器人产业技术研究院 | 基于轻量级孪生卷积神经网络的病识别方法 |
CN112784929A (zh) * | 2021-03-14 | 2021-05-11 | 西北工业大学 | 一种基于双元组扩充的小样本图像分类方法及装置 |
Non-Patent Citations (2)
Title |
---|
吕永强 等: "融合三元卷积神经网络与关系网络的小样本食品图像识别", 《计算机科学》, vol. 47, no. 1, 31 January 2020 (2020-01-31), pages 136 - 143 * |
张安琪: "基于孪生卷积神经网络与三元组损失函数的图像识别模型", 《电子制作》, pages 49 - 50 * |
Cited By (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114115152A (zh) * | 2021-11-25 | 2022-03-01 | 武汉智能装备工业技术研究院有限公司 | 基于嵌入式和深度学习的制造边缘实时事件洞察方法 |
CN114252739B (zh) * | 2021-12-24 | 2023-11-03 | 国家电网有限公司 | 配电网单相接地故障判别方法、系统、设备和存储介质 |
CN114252739A (zh) * | 2021-12-24 | 2022-03-29 | 国家电网有限公司 | 配电网单相接地故障判别方法、系统、设备和存储介质 |
CN114549930A (zh) * | 2022-02-21 | 2022-05-27 | 合肥工业大学 | 一种基于轨迹数据的快速路短时车头间距预测方法 |
CN114549930B (zh) * | 2022-02-21 | 2023-01-10 | 合肥工业大学 | 一种基于轨迹数据的快速路短时车头间距预测方法 |
CN114926445A (zh) * | 2022-05-31 | 2022-08-19 | 哈尔滨工业大学 | 一种基于孪生网络的小样本农作物病害图像识别方法及系统 |
CN114926445B (zh) * | 2022-05-31 | 2024-03-26 | 哈尔滨工业大学 | 一种基于孪生网络的小样本农作物病害图像识别方法及系统 |
CN115100462A (zh) * | 2022-06-20 | 2022-09-23 | 浙江方圆检测集团股份有限公司 | 一种基于回归预测的插座分类方法 |
CN115430815A (zh) * | 2022-08-09 | 2022-12-06 | 衡阳镭目科技有限责任公司 | 一种结晶器液位控制方法、装置、电子设备及存储介质 |
CN115564712A (zh) * | 2022-09-07 | 2023-01-03 | 长江大学 | 基于孪生网络的胶囊内窥镜视频图像冗余帧去除的方法 |
CN116500335A (zh) * | 2023-06-30 | 2023-07-28 | 国网山东省电力公司邹城市供电公司 | 基于一维特征和二维特征的智能电网窃电检测方法及系统 |
CN116500335B (zh) * | 2023-06-30 | 2023-10-13 | 国网山东省电力公司邹城市供电公司 | 基于一维特征和二维特征的智能电网窃电检测方法及系统 |
CN117236381A (zh) * | 2023-11-08 | 2023-12-15 | 智能制造龙城实验室 | 一种基于三元组长短时记忆神经网络的刀具磨损监测方法 |
CN117236381B (zh) * | 2023-11-08 | 2024-02-02 | 智能制造龙城实验室 | 一种基于三元组长短时记忆神经网络的刀具磨损监测方法 |
CN117592114A (zh) * | 2024-01-19 | 2024-02-23 | 中国电子科技集团公司第三十研究所 | 面向网络平行仿真的数据脱敏方法、系统和可读存储介质 |
CN117592114B (zh) * | 2024-01-19 | 2024-04-19 | 中国电子科技集团公司第三十研究所 | 面向网络平行仿真的数据脱敏方法、系统和可读存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109614981B (zh) | 基于斯皮尔曼等级相关的卷积神经网络的电力系统智能故障检测方法及系统 | |
CN110909977A (zh) | 基于adasyn-dhsd-et的电网故障诊断方法 | |
CN110879377B (zh) | 基于深度信念网络的计量装置故障溯源方法 | |
CN108805193A (zh) | 一种基于混合策略的电力缺失数据填充方法 | |
Sun | Application and improvement of xgboost algorithm based on multiple parameter optimization strategy | |
CN115758151A (zh) | 联合诊断模型建立方法、光伏组件故障诊断方法 | |
CN112966778B (zh) | 针对不平衡样本数据的数据处理方法及装置 | |
CN114169249A (zh) | 一种配电网高阻接地故障人工智能识别方法 | |
CN110830939B (zh) | 基于改进的cpn-wlan指纹定位数据库的定位方法 | |
CN113469253B (zh) | 一种基于三元组孪生网络的窃电检测方法 | |
CN110349050B (zh) | 一种基于电网参数关键特征抽取的智能窃电判据方法及装置 | |
CN113469253A (zh) | 一种基于三元组孪生网络的窃电检测方法 | |
CN114841266A (zh) | 一种小样本下基于三元组原型网络的电压暂降识别方法 | |
CN113627655B (zh) | 一种配电网灾前故障场景模拟预测方法及装置 | |
Lai et al. | SPENT+: A category-and region-aware successive POI recommendation model | |
CN114254828A (zh) | 一种基于混合卷积特征提取器和gru的电力负荷预测方法 | |
CN112561133A (zh) | 一种基于神经网络的水流量预测系统和方法 | |
Wang et al. | Electricity load forecasting using rough set attribute reduction algorithm based on immune genetic algorithm and support vector machines | |
CN115271274B (zh) | 电力系统短期日负荷预测方法及相关设备 | |
CN115860574B (zh) | 充电设备的使用效果分析方法及装置 | |
Odoom | A Methodology in Utilizing Machine Learning Algorithm for Electricity Theft Detection in Ghana | |
Huang et al. | Electricity Theft Detection based on Iterative Interpolation and Fusion Convolutional Neural Network | |
Shi et al. | A Novel Approach to Detect Electricity Theft Based on Conv-Attentional Transformer | |
Ding et al. | Machine Learning-Based Method for Power System Operation Rules Generation | |
Wang et al. | Distribution Network Anomaly Detection Algorithm Based on VAE |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant |