CN113469253A

CN113469253A - 一种基于三元组孪生网络的窃电检测方法

Info

Publication number: CN113469253A
Application number: CN202110752856.4A
Authority: CN
Inventors: 梅飞; 顾佳琪; 张家堂; 裴鑫; 陈子平
Original assignee: Hohai University HHU
Current assignee: Hohai University HHU
Priority date: 2021-07-02
Filing date: 2021-07-02
Publication date: 2021-10-01
Anticipated expiration: 2041-07-02

Abstract

本发明公开了一种基于三元组孪生网络的窃电检测方法，包括如下步骤：对用电数据进行数据预处理，得到原始数据集；利用格拉姆角场实现用电序列图像化，获取到用电特征图像；将用电特征图像拆分成训练数据集和测试数据集；在训练数据集中随机选取样本组，对三元组孪生神经网络进行训练；从训练集中划分一部分作为支撑集，根据测试数据集与支撑集内两类样本间的总欧式距离，利用训练好的三元组孪生神经网络判断测试样本的类别。本发明将三元组孪生神经网络作为小样本深度学习算法，可以在数据集内仅有少量样本的情况下获得较强的泛化能力，可帮助工程人员正确判断窃电用户，为治理用户窃电问题提供针对性的理论指导，应用价值和前景巨大。

Description

一种基于三元组孪生网络的窃电检测方法

技术领域

本发明涉及窃电检测技术领域，具体涉及一种基于三元组孪生网络的窃电检测方法。

背景技术

用户的窃电行为直接造成供电企业的大量的经济损失。据统计，仅在2019年1月至7月，国家电网公司处罚的窃电案例总计追回电量高达5.78亿千瓦时，挽回经济损失17.39亿元，因此对窃电行为的精准打击成为了供电企业工作的重点。

近年来由于智能电网高速发展，高级计量架构(Advanced MeteringInfrastructure，AMI)大量部署提供了海量高精度用电计量数据，为数据驱动型窃电识别算法的研究奠定了坚实的基础。在数据驱动型窃电检测领域，国内外学者已开展了大量的研究，主要的窃电检测算法可以分为以下2类：基于状态估计的窃电检测算法与基于人工智能技术的窃电检测算法。基于状态估计的窃电检测方法是建立在电网各节点的电压与功率特性上，结合潮流方程约束来估计用户的用电状态。然而该方法要求掌握详细的网络拓扑结构，并在配电网关键位置添加计量装置，投入工程应用的局限性较大，因而促进了基于人工智能技术的窃电检测算法的发展。一些学者提出了多层次非负稀疏编码和支持向量机(SupportVector Machine,SVM)的窃电检测方法、基于深度循环神经网络的窃电检测方法和Bagging异质集成学习算法。然而由于在实际情况下，居民窃电案例的发生概率极低，导致了窃电样本的数据量极少，传统的人工智能算法难以充分学习居民窃电行为特征，容易产生模型过拟合现象，使得上述方法的应用受到一定的限制。针对上述问题，大量文献提出了小样本学习方法。一些学者提出使用数据过采样算法，如随机过采样、合成少数类过采样技术(Synthetic Minority Oversampling Technique，SMOTE)算法和自适应综合过采样方法(Adaptive Synthetic Sampling，ADASYN)算法扩充数据集，再利用传统深度学习算法进行识别。然而由于过采样算法的思想是简单的随机复制样本或使用插值的方式生成新样本，若随机复制样本则更容易产生模型过拟合现象，而如果使用插值生成新样本，则容易放大数据噪声，导致生成样本不符合实际样本分布情况。有学者提出利用朴素贝叶斯模型解决小样本数据的分类问题。然而由于朴素贝叶斯模型假设属性之间相互独立，因而对输入的样本特征有较高的要求，需要依据一定的专家经验。

发明内容

发明目的：为了克服现有技术中存在的特征提取能力差、小样本场景下识别正确率低的问题，提供一种基于三元组孪生网络的窃电检测方法。

技术方案：为实现上述目的，本发明提供一种基于三元组孪生网络的窃电检测方法，包括如下步骤：

S1：对用电数据进行数据预处理，得到原始数据集；

S2：基于原始数据集，利用格拉姆角场实现用电序列图像化，获取到用电特征图像；

S3：将用电特征图像拆分成训练数据集和测试数据集；

S4：在训练数据集中随机选取样本组，对三元组孪生神经网络进行训练；

S5：从训练集中划分一部分作为支撑集，根据测试数据集与支撑集内两类样本间的总欧式距离，利用训练好的三元组孪生神经网络判断测试样本的类别。

进一步地，所述步骤S1中数据预处理的方法流程为：

A1：对用户用电数据进行异常值处理；

A2：将用电数据降采样至采样间隔达到设定时间值；

A3：从数据集中截取用户设定时间范围内的正常用电与窃电数据。

进一步地，所述步骤S2具体包括如下步骤：

B1：使用分段聚合近似(Piecewise aggregate approximation,PAA)对原始时间序列进行降维处理；

B2：将降维处理后的时间序列转换到极坐标内；

B3：使用格拉姆和角场(Gramian SummationAngular Field，GASF)对时间序列进行图像化；

B4：将图像化后的所得数据进行标准化处理，获取到用电特征图像。

进一步地，所述步骤B1中分段聚合近似的算法公式如下：

式中，q_j表示原始时间序列，长度为k*i；

表示聚合后的时间序列，长度为i。

进一步地，所述步骤B3中利用格拉姆和角场进行图像化处理的表达式如下：

由上式可见，矩阵内每一个元素值都是其行索引与列索引角度和的余弦值。

进一步地，所述步骤S4中样本组包含锚样本、正样本和负样本，其中，锚样本与正样本属于同一类，而锚样本与负样本属于不同类，对三元组孪生神经网络的训练方法为：将样本组作为三元组孪生网络的输入样本，利用权值共享的三个卷积神经网络提取各样本的特征，并在最后一层中输出。

进一步地，所述步骤S4中三元组孪生神经网络的的损失函数如式所示：

L_t＝max[||v_a-v_p||₂-||v_a-v_n||₂+threshold,0]

式中，v_a、v_p和v_n分别表示样本组中的锚样本、正样本以及负样本，||v_a-v_p||₂表示锚样本与正样本之间的欧式距离，而||v_a-v_n||₂表示锚样本与负样本之间的欧式距离。

本发明截取用户一周的用电量数据并使用格拉姆角场实现序列图像化，使其更好的体现序列中不同时刻间的关联性，再随机选取包含锚样本、正样本和负样本的样本组作为样本数据，通过模型训练最小化同类样本间距离，扩大非同类样本间距离，最终通过测试样本与支撑集内两类样本间的总欧式距离判断测试样本的类别。由于三元组孪生神经网络在传统孪生网络对比损失函数的基础上进行了改进，不仅对训练样本本身的特征进行提取，还对同类样本对的相似性与非同类样本对的差异性进行了学习，因而提高了样本特征的提取能力，在小样本情况下拥有较高的辨识正确率。

本发明将改进和优化后的三元组孪生神经网络作为小样本深度学习算法，不仅提取了输入样本的特征进行学习，还对同类样本的相似性与非同类样本间的差异性规律进行了学习，因而可以在数据集内仅有少量样本的情况下获得较强的泛化能力。

有益效果：本发明与现有技术相比，具备如下优点：

1、三元组孪生网络的损失函数综合考虑了同类样本对与非同类样本的分布情况，使得训练时每次梯度下降的方向均与网络构造的两类样本的分布情况相关，从而增强了模型的分类能力。

2、三元组孪生网络在样本不平衡以及小样本情况下不容易产生过拟合现象，能够实现较高的检测正确率，因而适合小样本情况下的窃电检测；相比于CNN、GAN、SVM和RNN，本发明所提三元组孪生神经网络拥有更高的识别正确率、平衡分数、AUC值与轮廓系数，可帮助工程人员正确判断窃电用户，为治理用户窃电问题提供针对性的理论指导，应用价值和前景巨大。

附图说明

图1为本发明方法的流程图；

图2为典型用户用电曲线图；

图3为四种窃电方式与正常用电的对比图；

图4为用电柱状图对比图；

图5为正常用电与窃电用户用电特征图像对比图；

图6为损失函数对比图；

图7为三元组孪生网络结构图；

图8为损失函数曲线和训练正确率曲线图；

图9为轮廓系数与准确率三维曲线图；

图10为三元组孪生网络和传统孪生网络的样本分布图；

图11为三元组孪生网络、孪生网络与卷积神经网络的ROC曲线对比图。

具体实施方式

下面结合附图和具体实施例，进一步阐明本发明，应理解这些实施例仅用于说明本发明而不用于限制本发明的范围，在阅读了本发明之后，本领域技术人员对本发明的各种等价形式的修改均落于本申请所附权利要求所限定的范围。

如图1所示，本发明提供一种基于三元组孪生网络的窃电检测方法，包括如下步骤：

S1：对用电数据进行数据预处理，得到原始数据集；

S3：将用电特征图像拆分成训练数据集和测试数据集；

基于上述方案，本实施例将上述窃电检测方法进行实例应用和分析，具体如下：

实施例1：

1、数据预处理

本实施例采用了深圳市某小区居民配电区内用户用电数据集，数据集内包含了2000名用户在2019年10月至2020年8月间的用电量记录，其中有120户窃电用户与2880户正常用电用户，记录间隔为30分钟。对用电数据进行异常值处理，并降采样至采样间隔一小时，可以绘制出典型用户用电曲线如图2所示。

由图2可见，该用户在上午1-8时、9-10时以及下午13-16时之间处于用电低谷期，而在下午12-14时和晚上17-19时之间属于用电高峰期。

对深圳供电局提供的用户窃电数据进行分析可知，用户窃电方式大致有四种主要类型：大功率无线信号干扰电能表CPU窃电、改动电能表内采样结构窃电、绕越电能表窃电以及间断性窃电。第一种方法是用户使用信号干扰设备影响智能电能表内CPU正常运行，使得电能表减少计量；第二种方法是指对智能电能表进行私自拆卸与更动，改造内部采样结构以减少电能计量；第三种方法是指用户直接从附近输电线路中取电而不经过电能表，从而极大的减少电能表的计量值；第四种方法是在第三种方法的基础上加装开关，选取用电高峰期或低稽查风险期窃电。四种窃电方式与正常用电的对比如图3所示。

通过分析用电数据可知，用户的用电大致呈现以一个星期为周期的规律。以当天的每个小时为横轴，一周内的每一天为纵轴，可以绘制一个星期内正常用户用电量与窃电用户用电量柱状图如图4所示：

由图4可见，正常用户用电柱状图拥有明显的图形规律，用户在周一至周四的用电高峰时段在9-12时与18-20时，而在周五至周六拓展了用电高峰时间段，并且增加的用电量；相比之下，窃电用户用电柱状图没有显现出用户的用电习惯，在工作日和周末均保持着几乎相同的用电行为，且每小时的用电量最大仅为0.2kW·h。由此可见用户一周的用电量数据可以明显反映正常用电与用户窃电之间的差异，为后续的窃电检测奠定基础。

由于用电量数据是严格的时序相关数据，与序列处理相关的深度学习算法如循环神经网络、长短期记忆单元等容易出现长期依赖的问题，而基于深度学习的图像识别算法较为成熟，因此本实施例中选择使用格拉姆角场将用电量数据编码为图像，再利用三元组孪生网络进行窃电检测。格拉姆角场(Gramian SummationAngular Field，GASF)的定义如下：

给定包含n个采样点的时间序列X＝{x₁,x₂,…,x_n}，首先将其归一化至[-1,1]范围内，之后使用极坐标对时间序列进行编码，如式所示。

式中

表示归一化后的第i个时间序列值，φ_i表示极坐标的角度；ti表示第i个时间序列的时间戳，N表示时间序列的总时长，ri表示极坐标的半径。

2、获取到用电特征图像

由于所有时间序列都已转换到极坐标内，因此可以方便的通过每个时刻点的角度和或角度差挖掘不同时刻点之间的相关性。本实施例使用了格拉姆和角场将对时间序列进行图像化处理，如式所示：

由上式可见，矩阵内每一个元素值都是其行索引与列索引角度和的余弦值，因而格拉姆角场有如下几个特点：

(1)图形的主对角元存储了时间序列内所有时刻的原始值；

(2)矩阵的第i行第j列表示了第i时刻与第j时刻值的相关系数。

由于上述特点，格拉姆角场可以在保留序列原始值的情况下有效的表现时刻之间的相关性，然而如果使用原始时间序列数据会导致矩阵的维度过大，因此本实施例使用了分段聚合近似(Piecewise aggregate approximation,PAA)对原始时间序列进行降维处理。PAA算法如下式所示：

式中，q_j表示原始时间序列，长度为k*i；

表示聚合后的时间序列，长度为i。PAA的主要思想是对原始序列均匀分段并求平均，从而达到序列降维的效果，在尽可能保存序列整体信息的情况下减小时间其长度。

由于格拉姆角场处理后的图片已归一化至[-1,1]范围内，无法反映窃电数据与正常用电数据在幅值方面的差异。因此本实施例将格拉姆角场矩阵与其原始时间序列的平均值相乘，再以所有矩阵的最大与最小值作为标准归一化至[0,1]范围内，最终可得如图5所示的用电特征对比图像，其维度为64×64。

3、基于三元组孪生网络的窃电检测方法

孪生神经网络是一种有监督的小样本学习算法。相比于建立在大量训练数据基础上的传统深度学习算法，孪生网络可以在数据集内仅有少量样本的情况下获得较强的泛化能力，并减少过拟合的现象发生，因此适用于窃电检测领域。传统孪生网络是由两个结构相同、权重共享的神经网络组成，网络的输入变量是一对尺寸相同的图像样本，而网络的输出变量则是用欧式距离表示的两者之间的差异度。

在模型的训练阶段，随机选取训练集中两个样本并处理为样本对(v₁,v₂)的形式作为输入数据，再生成样本对所对应的标签，其中标签y＝0表示样本对分别属于不同类别，而标签y＝1表示样本对属于同一类别，利用样本对及对应标签进行网络训练。传统孪生网络的对比损失函数(Contrastive Loss)如式所示

L_c＝y||v₁-v₂||₂ ²+(1-y)max(threshold-||v₁-v₂||₂,0)² (4)

式中，v₁与v₂表示样本对中的两个样本，||v₁-v₂||₂表示样本对特征向量之间的欧式距离，threshold表示最大距离的阈值，即当样本对特征向量的距离超过阈值后，模型的损失函数为0。y表示样本对是否属于同一标签，当y＝1时，两个样本属于同一类，损失函数值为式中的第一项，表示同类样本间的距离越短，模型的损失越小；当y＝0时，损失函数的值为式中第二项，表示不同类别样本间的距离约远，模型的损失函数越小。因此通过训练可以缩短网络提取的特征向量的类内距离，增加类间距离，优化特征向量的分布情况。

对传统孪生网络的结构与损失函数进行改进，可以得到三元组孪生网络。不同于孪生网络使用样本对作为输入，三元组孪生网络的输入样本为包含锚样本、正样本和负样本的样本组，其中锚样本与正样本属于同一类，而锚样本与负样本属于不同类。训练的方式为：利用权值共享的三个卷积神经网络提取各样本的特征，并在最后一层中输出。

三元组孪生网络的损失函数如式所示：

L_t＝max[||v_a-v_p||₂-||v_a-v_n||₂+threshold,0] (5)

式中，v_a、v_p和v_n分别表示样本组中的锚样本、正样本以及负样本；||v_a-v_p||₂表示锚样本与正样本之间的欧式距离，而||v_a-v_n||₂表示锚样本与负样本之间的欧式距离。通过上式可以看出，当锚样本与正样本之间的欧式距离越小，且锚样本与负样本之间的欧式距离越大时，模型的损失函数就约低。因此三元组孪生网络的作用是使锚样本更接近于同类样本，远离非同类样本。

三元组损失函数和对比损失函数的示意图如图6所示，其中深蓝色圆形表示锚样本，浅蓝色圆表示正样本，橘色方形表示负样本。相比于对比损失函数单独考虑缩短同类样本间距离，扩大非同类样本间距离，三元组孪生网络在样本合集中综合考虑了同类样本对与非同类样本，使得训练时每次梯度下降的方向均与网络构造的两类样本的分布情况相关，从而增强了模型的特征提取能力。

与传统的孪生网络不同，在模型的训练阶段，随机选取训练集中三个样本并处理为样本组(v_a，v_p，v_n)的形式作为输入数据，其中必须保证v_a与v_p属于同一类别而v_a与v_n属于不同类别，即y_a＝y_p≠y_n。利用样本组对模型进行训练。

在模型的测试阶段，从训练数据集中选取一部分数据作为支撑数据，利用三元组孪生网络度量支撑集与未知样本之间的差异，最终通过测试样本与支撑集内两类样本间的总欧式距离判断测试样本的类别，如果测试样本与支撑集内窃电样本的总欧式距离大于与正常用电样本的总欧式距离，判定样本窃电，反之亦然。

由上述可知,三元组孪生网络在训练过程中不但提取了样本的特征进行学习,还对同类样本的相似性以及非同类样本之间差异性规律进行了学习。同时由于样本对的随机选取特性，相当于对数据集内总样本数量进行了有效扩充，可以极大程度减少过拟合现象的发生。

三元组孪生网络的结构如图7与表1所示。模型的输入为包含三个样本的样本组，其中分别为锚样本、正样本以及负样本，样本的输入维度为64×64×1，之后通过2组拥有Dropout功能的卷积层和池化层进行图形特征提取，再利用两层全连接层将特征转换为一维特征向量，度量三组一维特征向量之间的欧式距离计算三元组损失函数，最后利用梯度下降法修改网络参数。

表1三元组孪生网络结构表

实施例2：

算例分析

为证明本发明所提算法的稳定性，使用实施例1所示训练数据对三元组孪生网络模型进行400次训练，可得图8损失函数曲线和训练正确率曲线。由图可见，当训练轮次大于80次时，模型的训练与测试损失函数十分接近并趋于0，且测试正确率稳定于94％附近。这说明了模型在上述训练数据集中拥有较强的样本学习能力。

由于本发明所提三元组孪生网络本质上是一种聚类算法，因此使用轮廓系数(Silhouette Score)对模型的聚类效果进行评价。轮廓系数的定义如式-所示：

式中，s_i表示某个样本的轮廓系数，b_i表示该样本与其所在簇内其他样本的平均距离，a_i表示该样本与其他簇样本的平均距离，S表示总轮廓系数。轮廓系数的范围是[-1,1]，系数越大则聚类效果越好。在本实施例中，若样本的真实标签为窃电样本，则规定其所在簇为真实标签同为窃电的样本集合，反之亦然。因此本实施例使用轮廓系数对比本发明所提算法与其他多种算法的特征提取能力。

定义测试正确率如下：分别利用三元组孪生网络度量测试样本与支撑集中所有窃电样本和正常用电样本的欧式距离之和，最终测试样本的判断结果为支撑集上距离之和最短的类别。测试集判断结果相对于真实标签的正确率即为测试正确率。

由于三元组孪生网络中主要调整的参数为网络阈值与模型的批尺寸(Batchsizes)，因此本实施例分别选取不同的参数对模型进行训练，绘制轮廓系数与准确率三维曲线图如图9所示：

由图9可知，当模型的阈值选为1，且批尺寸选为70时，模型同时达到最高的正确率和最大的轮廓系数。这是由于(1)当模型的批尺寸选择过小时，模型的梯度下降方向难以朝向损失函数的极小值，因而降低了模型的训练效率；当模型的批尺寸选择过大时，模型修正的次数减少，梯度下降的方向可能趋于恒定，减弱了模型的泛化能力。(2)当模型的阈值选取过小时，差异度很小的同类样本也有较大的误判概率；当模型的阈值选择过大时，差异度很大的非同类样本有更大概率被误判为同类样。因此选取上述模型参数。

为了比较本发明所提算法与传统孪生网络在特征提取方面的优劣，利用相同的训练样本分别对三元组孪生网络与同结构的孪生网络进行训练，使用t-分布随机近邻嵌入算法(t-Distributed Stochastic Neighbor Embedding,t-SNE)将训练完成的三元组孪生网络的全连接层2的测试集输出与传统孪生网络的输出分别进行可视化处理，以判断其特征提取能力。两种模型的分类结果如图10所示。

由图10可得，传统孪生网络的特征提取的过程中容易出现正常样本与窃电样本交错堆叠的现象，因而降低了模型的分类正确率；而三元组孪生神经网络由于引入了三元组损失函数，在训练的过程中同时对比了同类样本对的相似性与非同类样本对的差异性，因而提取的特征更具典型性与代表性，样本堆叠的现象少有发生，模型拥有较强的特征提取能力。

由于窃电检测领域属于二分类问题，因此本发明引入混淆矩阵表示模型分类结果。混淆矩阵表如表2所示：

表2二分类混淆矩阵表

利用召回率R、精确度P和平衡分数Q衡量模型的分类结果，如式-所示：

式中，召回率R表示正确预测为正类的样本占所有实际为正类样本的比例，而精确度P表示正确预测为正类的样本占所有预测为正类样本的比例，平衡分数Q综合衡量了精确度P和召回率Q。

由于上述指标建立在模型的预测输出仅为正确与错误两种情况下，无法评价模型输出概率值的优劣，且在样本不平衡时评价结果往往不可靠。因此引入接收者操作特征曲线(receiver operating characteristic curve，ROC)和ROC曲线下方的面积大小(AreaUnder Curve，AUC)对模型进行评价。利用样本与所有窃电样本的总欧式距离和样本与所有训练数据的总欧式距离的比值作为窃电概率。当窃电概率小于0.5时，认定该样本为窃电；反之则为正常用电。因此可以绘制三元组孪生网络、孪生网络与卷积神经网络的ROC曲线对比如图11所示：

如图11可见，三元组孪生网络的AUC值为0.985，传统孪生网络的AUC值为0.964，而卷积神经网络的AUC值为0.955。可见三元组孪生网络的ROC曲线与坐标轴间的面积明显大于传统孪生网络与卷积神经网络，因而证明了三元组孪生网络可以更好的处理数据不平衡问题。

实施例3：

为证明本发明方法在不同样本分布情况以及不同样本数量下的优势，本实施例选取以下三种不同的训练数据集场景。

场景一：用电样本正常分布情况。

场景一为理想情况，其中四种窃电类型数据和正常用电数据的分布情况与本发明所用数据集完全一致。由于拥有充足的数据，为防止数据类型不平衡程度过高，按正常用电与窃电比例为3:1配置数据集。

场景二：某新建小区用电样本分布情况。

场景二表示某一小区在近期建成，缺乏居民用电数据与窃电数据，因此产生了样本总数较少，且窃电数据分布机不平衡的情况。由于窃电样本数量不足，因此按正常用电与窃电比例为10:1配置数据集。

场景三：某农村配电区内用电样本分布情况

在一些山区农村居民用电区内，由于居民的受教育水平偏低，第三种类别(绕越电能表窃电)的窃电方式较多，而其他窃电方式的样本较少的情况。

测试数据集：通过设置各类样本均匀分布的测试数据集内，评价基于不同场景训练的模型效果。其中测试数据集与各场景数据集均无交集。

表3训练场景列表

表3列出了不同场景下的样本分布情况，其中C1表示用户干扰智能电能表窃电；C2表示用户私拆智能电能表，改造内部结构窃电；C3表示用户绕越智能电能表窃电，C4表示用户间断性窃电。而最终三种场景选用相同的测试数据集。

为验证本发明所提算法的有效性，分别选取三元组孪生神经网络、传统孪生网络、卷积神经网络、生成对抗网络(Generative Adversarial Networks，GAN)、SVM算法以及LSTM算法，计算不同场景下的测试正确率，如表4所示。再选取场景2作为主要对比场景，衡量不同算法性能如表5所示。

表4不同场景算法测试正确率对比

表5场景2下算法性能对比

由表可得，(1)随着场景内训练样本数量的减少，所有算法的检测正确率都有一定程度的降低，这是由于各个模型只能学习到较少的数据特征，使得模型难以正确拟合测试集的样本分布。(2)相比于其他算法，三元组孪生网络、孪生网络与生成对抗网络均有较高的检测正确率。在场景1与场景3中，三元组孪生网络、传统孪生网络与GAN均获得了较高的正确率，然而在场景2中GAN的正确率较低，这是由于其生成器容易产生模式崩塌的问题，降低了特征提取的效率；而三元组孪生神经网络的样本对学习方式具有较强的特征学习能力，不仅对训练样本本身的特征进行提取，还对同类样本对的相似性与非同类样本对的差异性进行了学习，因而拥有更强的特征提取能力，不容易出现过拟合现象，更加适合小样本条件下的窃电检测，辨识效果优于孪生网络与GAN，且在场景2中的总识别率达到了0.839。

根据实施例1-3的结果和分析，做出如下结论：

(1)三元组孪生网络在传统孪生网络对比损失函数的基础上进行改进，其损失函数综合考虑了同类样本对与非同类样本的分布情况，使得训练时每次梯度下降的方向均与网络构造的两类样本的分布情况相关，从而增强了模型的分类能力。

(2)三元组孪生网络在样本不平衡以及小样本情况下不容易产生过拟合现象，能够实现较高的检测正确率，因而适合小样本情况下的窃电检测。

(3)相比于CNN、GAN、SVM和RNN，本发明所提三元组孪生神经网络拥有更高的识别正确率、平衡分数、AUC值与轮廓系数，说明本发明所提算法对窃电数据拥有较高的特征提取能力，在小样本的极端情况下总识别率高达0.839。

Claims

1.一种基于三元组孪生网络的窃电检测方法，其特征在于，包括如下步骤：

S1：对用电数据进行数据预处理，得到原始数据集；

S3：将用电特征图像拆分成训练数据集和测试数据集；

2.根据权利要求1所述的一种基于三元组孪生网络的窃电检测方法，其特征在于，所述步骤S1中数据预处理的方法流程为：

A1：对用户用电数据进行异常值处理；

A2：将用电数据降采样至采样间隔达到设定时间值；

3.根据权利要求1所述的一种基于三元组孪生网络的窃电检测方法，其特征在于，所述步骤S2具体包括如下步骤：

B1：使用分段聚合近似对原始时间序列进行降维处理；

B2：将降维处理后的时间序列转换到极坐标内；

B3：使用格拉姆和角场对时间序列进行图像化；

4.根据权利要求3所述的一种基于三元组孪生网络的窃电检测方法，其特征在于，所述步骤B1中分段聚合近似的算法公式如下：

式中，q_j表示原始时间序列，长度为k*i；

表示聚合后的时间序列，长度为i。

5.根据权利要求3所述的一种基于三元组孪生网络的窃电检测方法，其特征在于，所述步骤B3中利用格拉姆和角场进行图像化处理的表达式如下：

6.根据权利要求1所述的一种基于三元组孪生网络的窃电检测方法，其特征在于，所述步骤S4中样本组包含锚样本、正样本和负样本，其中，锚样本与正样本属于同一类，而锚样本与负样本属于不同类，对三元组孪生神经网络的训练方法为：将样本组作为三元组孪生网络的输入样本，利用权值共享的三个卷积神经网络提取各样本的特征，并在最后一层中输出。

7.根据权利要求6所述的一种基于三元组孪生网络的窃电检测方法，其特征在于，所述步骤S4中三元组孪生神经网络的的损失函数如式所示：

L_t＝max[||v_a-v_p||₂-||v_a-v_n||₂+threshold,0]

8.根据权利要求1所述的一种基于三元组孪生网络的窃电检测方法，其特征在于，所述步骤S5中三元组孪生神经网络判断测试样本类别的方法为：将样本组作为三元组孪生神经网络的输入，通过2组拥有Dropout功能的卷积层和池化层进行图形特征提取，再利用两层全连接层将特征转换为一维特征向量，度量三组一维特征向量之间的欧式距离计算三元组损失函数，最后利用梯度下降法修改网络参数，判断测试样本的类别，如果测试样本与支撑集内窃电样本的总欧式距离大于与正常用电样本的总欧式距离，判定样本窃电，反之亦然。