CN114841253A - 窃电检测方法、装置及存储介质、电子设备 - Google Patents
窃电检测方法、装置及存储介质、电子设备 Download PDFInfo
- Publication number
- CN114841253A CN114841253A CN202210411186.4A CN202210411186A CN114841253A CN 114841253 A CN114841253 A CN 114841253A CN 202210411186 A CN202210411186 A CN 202210411186A CN 114841253 A CN114841253 A CN 114841253A
- Authority
- CN
- China
- Prior art keywords
- electricity
- electricity stealing
- data
- time
- training data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000005611 electricity Effects 0.000 title claims abstract description 187
- 238000001514 detection method Methods 0.000 title claims abstract description 112
- 238000012549 training Methods 0.000 claims abstract description 103
- 239000013598 vector Substances 0.000 claims abstract description 76
- 238000000034 method Methods 0.000 claims abstract description 28
- 238000011176 pooling Methods 0.000 claims description 24
- 230000006870 function Effects 0.000 claims description 23
- 230000015654 memory Effects 0.000 claims description 12
- 238000004590 computer program Methods 0.000 claims description 10
- 238000012360 testing method Methods 0.000 claims description 10
- 230000002123 temporal effect Effects 0.000 claims description 9
- 230000004913 activation Effects 0.000 claims description 8
- 238000010606 normalization Methods 0.000 claims description 7
- 230000008569 process Effects 0.000 claims description 7
- 238000012545 processing Methods 0.000 claims description 5
- 230000002159 abnormal effect Effects 0.000 description 10
- 239000000284 extract Substances 0.000 description 5
- 230000007774 longterm Effects 0.000 description 4
- 238000013526 transfer learning Methods 0.000 description 4
- 238000013527 convolutional neural network Methods 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 238000005070 sampling Methods 0.000 description 3
- 238000000605 extraction Methods 0.000 description 2
- 239000000463 material Substances 0.000 description 2
- 230000009467 reduction Effects 0.000 description 2
- 239000000126 substance Substances 0.000 description 2
- 230000005856 abnormality Effects 0.000 description 1
- 230000004075 alteration Effects 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 230000008034 disappearance Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000002349 favourable effect Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 239000013307 optical fiber Substances 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 230000006403 short-term memory Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000005612 types of electricity Effects 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/243—Classification techniques relating to the number of classes
- G06F18/2433—Single-class perspective, e.g. one-against-all classification; Novelty detection; Outlier detection
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/048—Activation functions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/088—Non-supervised learning, e.g. competitive learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/06—Energy or water supply
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Software Systems (AREA)
- Computing Systems (AREA)
- Molecular Biology (AREA)
- Computational Linguistics (AREA)
- Mathematical Physics (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Business, Economics & Management (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Economics (AREA)
- Water Supply & Treatment (AREA)
- Public Health (AREA)
- Human Resources & Organizations (AREA)
- Marketing (AREA)
- Primary Health Care (AREA)
- Strategic Management (AREA)
- Tourism & Hospitality (AREA)
- General Business, Economics & Management (AREA)
- Storage Device Security (AREA)
Abstract
本发明公开了一种窃电检测方法、装置及存储介质、电子设备,窃电检测方法包括:获取用户的用电数据,其中,用电数据包括用电参数的时间序列数据;将用电数据输入至训练好的特征表示模型,得到时间特征向量,其中,特征表示模型采用自监督学习方式训练得到;利用训练好的异常检测模型对时间特征向量进行异常检测,得到用户的窃电类别。本发明提高了窃电检测的准确率和召回率,降低了窃电检测的误检率和漏检率。
Description
技术领域
本发明涉及窃电检测技术领域,尤其涉及到一种窃电检测方法、装置及存储介质、电子设备。
背景技术
相关技术中,采用LSTM(Long Short-Term Memory,长短期记忆网络)、CNN(Convolutional Neural Networks,卷积神经网络)或两种组合及微调的骨干网络进行窃电检测。该类方法将窃电检测问题转化为一个分类问题,其需要将采集的正样本(窃电样本)与负样本(正常样本)转换成近似平衡的数据集,但是在百万及千万级真实用电样本中,仅存在极其少量的用电异常用户,为获取近似平衡的数据集,需要对负样本进行降采样,对正样本过采样。由于正负样本数量悬殊过大,可能会出现欠采样,样本和总体分布不再一致,正样本过采样后,被过度学习,导致上线后窃电检测网络出现准确率低、误报率高、召回率低等问题。同时该类方法还将窃电检测作为一个监督问题,在实际数据中,窃电标签数据是非常少的,同时除了被标记的窃电数据外的其他数据不仅包含了非窃电数据还包含了未标记的窃电数据。
或采用基于kmeans(k均值)聚类和局部异常因子异常检测(Local OutlierFactor,LOF)的算法进行窃电检测,但该类方法存在的问题是对于多变量的高维时间序列数据,高维空间样本会相对稀疏。该类方法表现可能会很差,只对单点时间处理又无法提取到时间变化上的特征,在实际场景中缺乏实用性。
发明内容
本发明旨在至少在一定程度上解决相关技术中的技术问题之一。为此,本发明的一个目的在于提出一种窃电检测方法,具有窃电检测准确率和召回率高,误检率和漏检率低的优点。
本发明的第二个目的在于提出一种窃电检测装置。
本发明的第三个目的在于提出一种计算机可读存储介质。
本发明的第四个目的在于提出一种电子设备。
为达到上述目的,本发明第一方面实施例提出了一种窃电检测方法,所述方法包括:获取用户的用电数据,其中,所述用电数据包括用电参数的时间序列数据;将所述用电数据输入至训练好的特征表示模型,得到时间特征向量,其中,所述特征表示模型采用自监督学习方式训练得到;利用训练好的异常检测模型对所述时间特征向量进行异常检测,得到所述用户的窃电类别。
根据本发明实施例的窃电检测方法,采用自监督学习方式训练得到训练好的特征表示模型,将用户的用电数据输入至训练好的特征表示模型,获取用户用电数据的时间特征向量,并将时间特征向量输入至训练好的异常检测模型进行异常检测,来判断用户是否为窃电用户,提高了窃电检测的准确率、召回率,降低了窃电检测的误检率和漏检率。
另外,根据本发明上述实施例提出的窃电检测方法还可以具有如下附加的技术特征:
根据本发明的一个实施例,所述特征表示模型的训练过程包括:获取训练数据集,其中,所述训练数据集中的训练数据包括用电参数的时间序列数据;将所述训练数据集中的训练数据分别输入第一结构和第二结构,对应得到所述训练数据的长时间特征和局部时间特征,其中,所述第一结构包括依次连接的门控循环单元GRU层和第一全局池化层,所述第二结构包括依次连接的多个卷积层和第二全局池化层,每一所述卷积层之后连接有第一批标准化层和激活层,所述GRU层用于提取所述训练数据的长时间特征,所述一维卷积层用于提取所述训练数据的局部时间特征;对所述长时间特征和所述局部时间特征进行拼接,得到时间特征向量;将所述时间特征向量依次输入至全连接层,得到预测值;基于所述预测值及其对应训练数据的真实值构建损失函数;基于所述损失函数对所述特征表示模型进行训练,得到训练好的特征表示模型。
根据本发明的一个实施例,所述第一结构还包括连接在所述GRU层和所述第一全局池化层之间的第二批标准层。
根据本发明的一个实施例,所述第二批标准层的标准化输出表示为:
其中,μβ表示输出的批数据均值,σβ表示输出的批数据方差,∈为正数。
根据本发明的一个实施例,所述损失函数通过下式表示:
根据本发明的一个实施例,所述获取训练数据集之前,所述方法还包括:构造数据集,其中,所述数据集中的数据包括用电参数的时间序列数据Ym[t-n,t],n表示时间长度,m表示用电参数的维数,所述电数据参数包括用电电压、用电电流、用电电量中的至少一者;将所述数据集按时间点T划分为训练数据集和测试数据集,其中,所述训练数据集满足max(t+1)=T,所述测试数据集满足min(t-n)>T。
根据本发明的一个实施例,所述异常检测模型包括编码器和解码器,所述利用训练好的异常检测模型对所述时间特征向量进行异常检测,得到所述用户的窃电类别,包括:将所述时间特征向量输入至所述编码器,得到预测向量;将所述预测向量输入至所述解码器,得到重构误差;根据所述重构误差和重构误差阈值,计算窃电概率;当所述窃电概率大于或等于窃电概率阈值时,确定所述用户为窃电用户;当所述窃电概率小于所述窃电概率阈值时,确定所述用户为非窃电用户。
根据本发明的一个实施例,所述窃电概率的表达式为:
其中,P表示所述窃电概率,m表示用电参数的维数,ωi是第i维特征向量对应的权重;当第i维用电参数的重构误差小于对应的重构误差阈值时,记Si=0;当第i维用电参数的重构误差大于或等于对应的重构误差阈值时,记Si=1。
根据本发明的一个实施例,所述解码器通过下式得到所述重构误差:
为达到上述目的,本发明第二方面实施例提出了一种窃电检测装置,包括:获取模块,用于获取用电用户的用电数据,其中,所述用电数据包括至少一维用电参数的时间序列数据;分类模块,用于将所述用电数据输入至训练好的特征表示模型,得到至少一维特征向量,并将得到至少一维所述特征向量,输入至训练好的异常检测模型,得到所述用电用户的窃电类别。
为达到上述目的,本发明第三方面实施例提出了一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时,实现如上述的窃电检测方法。
为达到上述目的,本发明第四方面实施例提出了一种电子设备,包括存储器和处理器,所述存储器上存储有计算机程序,所述计算机程序被所述处理器执行时,实现如上述的窃电检测方法。
本发明附加的方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。
附图说明
图1是本发明一个实施例的窃电检测方法的流程图;
图2是本发明一个具体实施例的窃电检测方法的流程图;
图3是本发明一个实施例的训练特征表示模型的流程图;
图4是本发明一个具体实施例的特征表示模型的结构示意图;
图5是本发明一个实施例的异常检测模型进行异常检测的流程图;
图6是本发明一个具体实施例的异常检测模型的结构示意图;
图7是本发明一个实施例的窃电检测装置的结构示意图。
具体实施方式
下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,旨在用于解释本发明,而不能理解为对本发明的限制。
下面将结合说明书附图1-7以及具体的实施方式对本发明实施例的窃电检测方法、装置及存储介质、电子设备进行详细地说明。
图1是本发明一个实施例的窃电检测方法的流程图。如图1和图2所示,窃电检测方法可包括:
S1,获取用户的用电数据,其中,用电数据包括用电参数的时间序列数据。
在本发明的实施例中,用电数据包括的用电参数可为用电电量、用电电压、用电电流中的至少一种。
具体地,在对用户进行窃电检测时,获取的用户用电数据可包括用电电量的时间序列数据、用电电压的时间序列数据、用电电流的时间序列数据中的至少一种。
需要说明的是,当获取的用户用电数据是用电电量、用电电压、用电电流中的至少一种的时间数据/曲线时,可设置一定的时间窗口宽度,将获取的用电数据/曲线,构造成用电时间序列数据。
S2,将用电数据输入至训练好的特征表示模型,得到时间特征向量,其中,特征表示模型采用自监督学习方式训练得到。
具体地,将获取的用户用电参数的时间序列数据输入训练好的特征表示模型,训练好的特征表示模型对用户的用电参数的时间序列数据进行特征提取,得到用户的用电参数的时间序列数据的时间特征向量。
需要说明的是,本发明实施例中的训练好的特征表示模型是采用自监督学习方式训练得到。采用自监督学习构造监督任务进行异常检测,可避免使用监督学习进行异常检测时存在的样本不平衡问题。且采用自监督学习可充分利用大量的用电数据,可避免基于监督学习进行窃电检测时存在的需要对样本进行抽样,导致的样本分布不一致的问题。其中,在利用自监督学习用电数据的时间序列的特征表示(时间特征向量)时,无需人工添加数据标签,解决了窃电检测中窃电数据标签数据量少的问题。
在本发明的实施例中,如图3所示,特征表示模型的训练过程可包括:
S21,获取训练数据集,其中,训练数据集中的训练数据包括用电参数的时间序列数据。
具体地,训练数据集中的训练数据包括窃电用户和非窃电用户的用电参数的时间序列数据。需要说明的是,在本发明实施例中,不需要使用标签对训练数据集中的窃电用户和非窃电用户的用电参数的时间序列数据进行标记。即可直接利用无标签的窃电用户和非窃电用户的用电参数的时间序列数据对特征表示模型进行训练。
在该实施例中,获取训练数据集之前,窃电检测方法还可包括:构造数据集,其中,数据集中的数据包括用电参数的时间序列数据Ym[t-n,t],n表示时间长度,m表示用电参数的维数,电数据参数包括用电电压、用电电流、用电电量中的至少一者;将数据集按时间点T划分为训练数据集和测试数据集,其中,训练数据集满足max(t+1)=T,测试数据集满足min(t-n)>T。
具体地,采集窃电用户和非窃电用户一段时间内的用电数据,将采集的全部时间段的全量用电数据或者部分时间段的部分用电数据Ym转换为时间序列的数据。进一步具体地,可预设一定的时间宽度,对于所有用电参数对应的用电数据Ym,依次取该用电参数对应的用电数据Ym在每一预设时间宽度对应的数据,可得到所有用电参数对应的时间序列Ym[t-n,t]。需要说明的是,m表示用电参数的类型数量,即表示用电参数时间序列数据的维度。按时间点T对数据集进行划分,取Ym[t-n,t]作为训练数据集,Ym[t+1]作为测试数据集,构造预测任务。训练数据集用于对特征表示模型训练学习,测试数据集用于对训练好的特征表示模型验证。需要说明的是,训练数据集满足max(t+1)=T,测试数据集满足min(t-n)>T。
S22,将训练数据集中的训练数据分别输入第一结构和第二结构,对应得到训练数据的长时间特征和局部时间特征,其中,第一结构包括依次连接的门控循环单元GRU层和第一全局池化层,第二结构包括依次连接的多个卷积层和第二全局池化层,每一卷积层之后连接有第一批标准化层和激活层,GRU层用于提取训练数据的长时间特征,一维卷积层用于提取训练数据的局部时间特征。
具体地,将训练数据集中的用电参数时间序列数据分别输入第一结构和第二结构,第一结构提取用电参数时间序列数据的长时间特征,第二结构提取用电参数时间序列数据的局部时间特征,以得到训练数据集中的用电参数时间序列数据的长时间特征和局部时间特征。
在本发明的实施例中,第一结构由依次连接的GRU(GatedRecurrentUnit,门控循环单元)层和第一全局池化层(Global pooling)组成。训练数据集中的用电参数时间序列数据依输入GRU层和第一全局池化层,参见图4。GRU层提取输入的训练数据集中的用电参数时间序列数据的长时间特征。第一全局池化层接收长时间特征,在保留长时间特征的同时对长时间特征进行降维。其中,第一全局池化层还在一定程度上可避免GRU层输出的长时间特征过拟合。
在本发明的实施例中,GRU层隐藏状态更新表达式为:
其中,xt表示t时刻的当前节点的输入,Wz和Uz表示更新门的权值;
其中,Wr和Ur表示复位门的权值。
在本发明的实施例中,GRU直接将隐藏状态传给下一个单元,而LSTM则用memorycell(存储单元)把隐藏状态包装起来。相较于LSTM,GRU能更好地捕捉长时间的特征依赖,利用GRU对窃电检测的用电数据进行特征提取,能够更好地发现用电数据的长时间特征。且GRU将LSTM的三个门控单元减少为两个门控单元,GRU具有更少的参数,可降低计算量和时间成本。
在本发明的实施例中,第二结构包括的依次连接的多个卷积层的数量可为3个,其中,多个卷积层可为一维卷积层(Conv1D)。如图4所示,三个依次连接的一维卷积层(Conv1D)与第二全局池化层(Global pooling)连接。其中,每一卷积层之后还连接有第一批标准化层(Batch Normalization,BN)和激活层(ReLU)。
具体地,用电参数时间序列数据输入一维卷积层后,一维卷积层的一维卷积核通过在时间方向上滑动,提取用电参数时间序列数据在时间方向上的特征。可通过合理设置卷积核的大小,有效提取到用电参数时间序列数据的局部时间特征。需要说明的是,每一卷积层之后的第一批标准化层用于对每一卷积层提取的局部时间特征进行规范化,激活层用于加入非线性因素来用于提高模型的表达能力。
在本发明的实施例中,第二全局池化层接收依次连接的多个卷积层输出的局部时间特征,在保留局部时间特征的同时,对局部时间特征进行降维。其中,第二全局池化层还可在一定程度上可避免依次连接的多个卷积层输出的局部时间特征过拟合。
在本发明的实施例中,第一结构还包括连接在GRU层和第一全局池化层之间的第二批标准层。
具体地,为了避免训练过程中,特征表示模型的权重(权值)在不断更新导致的激活层的输出分布会变化。因此在GRU层和第一全局池化层之间加入第二批标准层,以标准化GRU层的输出。
在本发明的实施例中,第二批标准层的标准化输出可表示为:
其中,μβ表示输出的批数据均值,σβ表示输出的批数据方差,∈为正数。需要说明的是,∈是为了防止分母为0而添加的一个较小的小数。
在本发明的实施例中,通过在GRU层和第一全局池化层之间加入第二批标准层,可以在模型的训练过程中使用更大的学习率,使得训练过程更加稳定,训练速度更高,抑制梯度消失,减少过拟合,有利于使用大量的用电参数时间序列数据训练特征表示模型。
S23,对长时间特征和局部时间特征进行拼接,得到时间特征向量。
具体地,可利用Concatenate函数对得到的长时间特征和局部时间特征进行拼接,得到时间特征向量。将训练数据集中的用电参数时间序列数据的长时间特征和局部时间特征进行拼接,可保留用电参数时间序列数据的全局时间特征,以得到准确的预测结果。
S24,将时间特征向量依次输入至全连接层,得到预测值。
在本发明的实施例中,全连接层(Dense)的数量为两层(第一全连接层和第二全连接层)。其中,第一全连接层和第二全连接层依次连接。时间特征向量依次输入第一全连接层和第二全连接层。第二全连接层用于降低特征维度。
具体地,将拼接得到的用电参数对应的时间特征向量输入至第一全连接层,得到用电参数对应的预测向量。再将用电参数对应的预测向量输入第二全连接层,得到维度为m的预测值y[t+1]。
S25,基于预测值及其对应训练数据的真实值构建损失函数。
具体地,考虑到窃电用户瞬间量较少,存在验证数据不平衡的现象,同时窃电用户可能作为少数异常数据出现,而RMSE(Root Mean Square Error,均方根误差)对异常值有更好的鲁棒性。因此,可选取均方根误差作为特征表示模型的loss函数。
在本发明的实施例中,损失函数通过下式表示:
S26,基于损失函数对特征表示模型进行训练,得到训练好的特征表示模型。
在本发明的实施例中,在训练过程中,可利用测试数据集对全连接层输出的预测值进行验证,以验证训练得到的特征表示模型的训练效果。在损失函数收敛至最小时,对应的特征表示模型为训练好的特征表示模型。
在本发明的实施例中,对于采用自监督学习方式训练得到的训练好的特征表示模型,在利用训练好的异常检测模型进行迁移学习时,需去掉全连接层(第一全连接层和第二全连接层),并固定其他层参数不变,与训练好的异常检测模型连接,以进行迁移学习。
S3,利用训练好的异常检测模型对时间特征向量进行异常检测,得到用户的窃电类别。
具体地,将训练好的特征表示模块输出的时间特征向量输入训练好的异常检测模型,训练好的异常检测模型对时间特征向量进行异常检测,并输出用户窃电类别。
在本发明的实施例中,如图5所示,异常检测模型包括编码器和解码器,利用训练好的异常检测模型对时间特征向量进行异常检测,得到用户的窃电类别,可包括:将时间特征向量输入至编码器,得到预测向量;将预测向量输入至解码器,得到重构误差;根据重构误差和重构误差阈值,计算窃电概率;当窃电概率大于或等于窃电概率阈值时,确定用户为窃电用户;当窃电概率小于窃电概率阈值时,确定用户为非窃电用户。
在本发明的实施例中,解码器可通过下式得到重构误差:
在本发明的实施例中,窃电概率的表达式可为:
其中,P表示窃电概率,m表示用电参数的维数,ωi是第i维特征向量对应的权重;当第i维用电参数的重构误差小于对应的重构误差阈值时,记Si=0;当第i维用电参数的重构误差大于或等于对应的重构误差阈值时,记Si=1。
具体地,编码器接收到时间特征向量后,提取时间特征向量的主成分,得到预测向量。解码器接收到预测向量后,对预测向量解码恢复,并将解码恢复后的预测向量与输入的时间特征向量比较,输出重构误差error。根据用电参数对应的重构误差error和重构误差阈值ξi,计算窃电概率。如果窃电概率大于或等于窃电概率阈值,则表明该时间特征向量对应的时间序列是异常时间序列,即该时间序列数据对应的用户为窃电用户。如果窃电概率小于窃电概率阈值,则表明该时间特征向量对应的时间序列是正常时间序列,即该时间序列数据对应的用户为非窃电用户。
需要说明的是,可根据实际情况调整窃电概率中用电参数对应的权重ωi,以及根据用电参数设置用电参数对应的重构误差阈值ξi,以计算出精准的窃电概率。其中,Si=0,表示第i维特征向量对应的时间序列数据为正常数据。Si=1,表示第i维特征向量对应的时间序列数据为异常数据。
示例性的,可将窃电概率阈值设置为Pthreshold=0.6,根据重构误差和各项用电参数对应的窃电概率加权和得到用电数据的窃电概率P。当P≥Pthreshold,则认为存在窃电行为。
在本发明的实施例中,在对时间特征向量进行异常检测时,可采用自动编码机完成窃电检测。在利用自动编码机进行异常检测时,由于在自监督学习方式的预训练中已经对用电参数的时间序列数据进行了时间特征提取,因此自动编码机可直接使用全连接层Dense网络作为编码器和解码器的神经网络单元,以及使用均方误差作为损失函数,参见图6。
需要说明的是,自动编码机学习是无监督学习,可通过计算自动编码机输出的重构误差进行参数优化。
本发明实施例的窃电检测方法,基于自监督学习和自动编码器进行窃电检测,通过自监督学习训练特征表示模型,得到更多用电数据的时间特征向量。并将得到的时间特征向量迁移到自动编码器进行异常检测,自动编码器对时间特征向量进行重构误差检测,以检查异常用户。本发明充分利用了自监督学习、迁移学习和自动编码机异常检测优点,提高了异常数据识别的准确率、召回率,且有效避免了监督学习中的漏检。
本发明实施例的窃电检测方法,利用GRU和Conv1d网络有效提取了用电数据的时间序列特征,并利用异常检测模型进行迁移学习,提高了异常检测模型对用电数据的特征学习能力。本发明有效提高了窃电检测的准确率和召回率,降低了窃电检测的误检率和漏检率。
基于上述的窃电检测方法,本发明提出了一种窃电检测装置。
图7是本发明一个实施例的窃电检测装置的结构示意图。如图7所示,窃电检测装置100包括获取模块10和分类模块20。
其中,获取模块10用于获取用户的用电数据,其中,所述用电数据包括用电参数的时间序列数据。分类模块20用于将所述用电数据输入至训练好的特征表示模型,得到时间特征向量,其中,所述特征表示模型采用自监督学习方式训练得到;利用训练好的异常检测模型对所述时间特征向量进行异常检测,得到所述用户的窃电类别。
在本发明的实施例中,窃电检测装置100还包括训练模块,训练模块用于对特征表示模型进行训练,得到训练好的特征表示模型。训练模块具体用于获取训练数据集,其中,训练数据集中的训练数据包括用电参数的时间序列数据;将训练数据集中的训练数据分别输入第一结构和第二结构,对应得到训练数据的长时间特征和局部时间特征,其中,第一结构包括依次连接的门控循环单元GRU层和第一全局池化层,第二结构包括依次连接的多个卷积层和第二全局池化层,每一卷积层之后连接有第一批标准化层和激活层,GRU层用于提取训练数据的长时间特征,一维卷积层用于提取训练数据的局部时间特征;对长时间特征和局部时间特征进行拼接,得到时间特征向量;将时间特征向量依次输入至全连接层,得到预测值;基于预测值及其对应训练数据的真实值构建损失函数;基于损失函数对特征表示模型进行训练,得到训练好的特征表示模型。
在本发明的实施例中,异常检测模型包括编码器和解码器,分类模块具体用于将时间特征向量输入至编码器,得到预测向量;将预测向量输入至解码器,得到重构误差;根据重构误差和重构误差阈值,计算窃电概率;当窃电概率大于或等于窃电概率阈值时,确定用户为窃电用户;当窃电概率小于窃电概率阈值时,确定用户为非窃电用户。
需要说明的是,本发明实施例的窃电检测装置的其他具体实施方式可参见本发明上述实施例的窃电检测方法的具体实施方式。
基于上述的窃电检测方法,本发明还提出了一种计算机可读存储介质。
在该实施例中,计算机可读存储介质上存储有计算机程序,计算机程序被处理器执行时,实现如上述的窃电检测方法。
基于上述的窃电检测方法,本发明还提出了一种电子设备。
在该实施例中,电子设备包括处理器、存储器以及存储在存储器上的计算机程序,计算机程序被处理器执行时,实现如上述的窃电检测方法。
本发明实施例的电子设备200,利用上述的窃电检测方法30,可提高窃电检测的准确率、召回率,降低窃电检测的误检率和漏检率。
需要说明的是,在流程图中表示或在此以其他方式描述的逻辑和/或步骤,例如,可以被认为是用于实现逻辑功能的可执行指令的定序列表,可以具体实现在任何计算机可读介质中,以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用,或结合这些指令执行系统、装置或设备而使用。就本说明书而言,“计算机可读介质”可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。计算机可读介质的更具体的示例(非穷尽性列表)包括以下:具有一个或多个布线的电连接部(电子装置),便携式计算机盘盒(磁装置),随机存取存储器(RAM),只读存储器(ROM),可擦除可编辑只读存储器(EPROM或闪速存储器),光纤装置,以及便携式光盘只读存储器(CDROM)。另外,计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质,因为可以例如通过对纸或其他介质进行光学扫描,接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序,然后将其存储在计算机存储器中。
应当理解,本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如,如果用硬件来实现,和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或他们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(PGA),现场可编程门阵列(FPGA)等。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一维实施例或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。
在本发明的描述中,需要理解的是,术语“中心”、“纵向”、“横向”、“长度”、“宽度”、“厚度”、“上”、“下”、“前”、“后”、“左”、“右”、“竖直”、“水平”、“顶”、“底”“内”、“外”、“顺时针”、“逆时针”、“轴向”、“径向”、“周向”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。
此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一维该特征。在本发明的描述中,“多个”的含义是至少两个,例如两个,三个等,除非另有明确具体的限定。
在本发明中,除非另有明确的规定和限定,术语“安装”、“相连”、“连接”、“固定”等术语应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或成一体;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通或两个元件的相互作用关系,除非另有明确的限定。对于本领域的普通技术人员而言,可以根据具体情况理解上述术语在本发明中的具体含义。
在本发明中,除非另有明确的规定和限定,第一特征在第二特征“上”或“下”可以是第一和第二特征直接接触,或第一和第二特征通过中间媒介间接接触。而且,第一特征在第二特征“之上”、“上方”和“上面”可是第一特征在第二特征正上方或斜上方,或仅仅表示第一特征水平高度高于第二特征。第一特征在第二特征“之下”、“下方”和“下面”可以是第一特征在第二特征正下方或斜下方,或仅仅表示第一特征水平高度小于第二特征。
尽管上面已经示出和描述了本发明的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本发明的限制,本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。
Claims (14)
1.一种窃电检测方法,其特征在于,所述方法包括:
获取用户的用电数据,其中,所述用电数据包括用电参数的时间序列数据;
将所述用电数据输入至训练好的特征表示模型,得到时间特征向量,其中,所述特征表示模型采用自监督学习方式训练得到;
利用训练好的异常检测模型对所述时间特征向量进行异常检测,得到所述用户的窃电类别。
2.根据权利要求1所述的窃电检测方法,其特征在于,所述特征表示模型的训练过程包括:
获取训练数据集,其中,所述训练数据集中的训练数据包括用电参数的时间序列数据;
将所述训练数据集中的训练数据分别输入第一结构和第二结构,对应得到所述训练数据的长时间特征和局部时间特征,其中,所述第一结构包括依次连接的门控循环单元GRU层和第一全局池化层,所述第二结构包括依次连接的多个卷积层和第二全局池化层,每一所述卷积层之后连接有第一批标准化层和激活层,所述GRU层用于提取所述训练数据的长时间特征,所述一维卷积层用于提取所述训练数据的局部时间特征;
对所述长时间特征和所述局部时间特征进行拼接,得到时间特征向量;
将所述时间特征向量依次输入至全连接层,得到预测值;
基于所述预测值及其对应训练数据的真实值构建损失函数;
基于所述损失函数对所述特征表示模型进行训练,得到训练好的特征表示模型。
3.根据权利要求2所述的窃电检测方法,其特征在于,所述第一结构还包括连接在所述GRU层和所述第一全局池化层之间的第二批标准层。
6.根据权利要求2所述的窃电检测方法,其特征在于,所述获取训练数据集之前,所述方法还包括:
构造数据集,其中,所述数据集中的数据包括用电参数的时间序列数据Ym[t-n,t],n表示时间长度,m表示用电参数的维数,所述电数据参数包括用电电压、用电电流、用电电量中的至少一者;
将所述数据集按时间点T划分为训练数据集和测试数据集,其中,所述训练数据集满足max(t+1)=T,所述测试数据集满足min(t-n)>T。
7.根据权利要求1所述的窃电检测方法,其特征在于,所述异常检测模型包括编码器和解码器,所述利用训练好的异常检测模型对所述时间特征向量进行异常检测,得到所述用户的窃电类别,包括:
将所述时间特征向量输入至所述编码器,得到预测向量;
将所述预测向量输入至所述解码器,得到重构误差;
根据所述重构误差和重构误差阈值,计算窃电概率;
当所述窃电概率大于或等于窃电概率阈值时,确定所述用户为窃电用户;
当所述窃电概率小于所述窃电概率阈值时,确定所述用户为非窃电用户。
10.一种窃电检测装置,其特征在于,所述装置包括:
获取模块,用于获取用户的用电数据,其中,所述用电数据包括用电参数的时间序列数据;
分类模块,用于将所述用电数据输入至训练好的特征表示模型,得到时间特征向量,其中,所述特征表示模型采用自监督学习方式训练得到;利用训练好的异常检测模型对所述时间特征向量进行异常检测,得到所述用户的窃电类别。
11.根据权利要求10所述的窃电检测装置,其特征在于,所述装置还包括:
训练模块,用于对所述特征表示模型进行训练,得到训练好的特征表示模型;
所述训练模块,具体用于获取训练数据集,其中,所述训练数据集中的训练数据包括用电参数的时间序列数据;将所述训练数据集中的训练数据分别输入第一结构和第二结构,对应得到所述训练数据的长时间特征和局部时间特征,其中,所述第一结构包括依次连接的门控循环单元GRU层和第一全局池化层,所述第二结构包括依次连接的多个卷积层和第二全局池化层,每一所述卷积层之后连接有第一批标准化层和激活层,所述GRU层用于提取所述训练数据的长时间特征,所述一维卷积层用于提取所述训练数据的局部时间特征;对所述长时间特征和所述局部时间特征进行拼接,得到时间特征向量;将所述时间特征向量依次输入至全连接层,得到预测值;基于所述预测值及其对应训练数据的真实值构建损失函数;基于所述损失函数对所述特征表示模型进行训练,得到训练好的特征表示模型。
12.根据权利要求10所述的窃电检测装置,其特征在于,所述异常检测模型包括编码器和解码器,所述分类模块,具体用于将所述时间特征向量输入至所述编码器,得到预测向量;将所述预测向量输入至所述解码器,得到重构误差;根据所述重构误差和重构误差阈值,计算窃电概率;当所述窃电概率大于或等于窃电概率阈值时,确定所述用户为窃电用户;当所述窃电概率小于所述窃电概率阈值时,确定所述用户为非窃电用户。
13.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时,实现如权利要求1-9中任一项所述的窃电检测方法。
14.一种电子设备,包括存储器和处理器,所述存储器上存储有计算机程序,其特征在于,所述计算机程序被所述处理器执行时,实现如权利要求1-9中任一项所述的窃电检测方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210411186.4A CN114841253A (zh) | 2022-04-19 | 2022-04-19 | 窃电检测方法、装置及存储介质、电子设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210411186.4A CN114841253A (zh) | 2022-04-19 | 2022-04-19 | 窃电检测方法、装置及存储介质、电子设备 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114841253A true CN114841253A (zh) | 2022-08-02 |
Family
ID=82566031
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210411186.4A Pending CN114841253A (zh) | 2022-04-19 | 2022-04-19 | 窃电检测方法、装置及存储介质、电子设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114841253A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114926303A (zh) * | 2022-04-26 | 2022-08-19 | 广东工业大学 | 一种基于迁移学习的窃电检测方法 |
CN116933986A (zh) * | 2023-09-19 | 2023-10-24 | 国网湖北省电力有限公司信息通信公司 | 一种基于深度学习的电力数据安全管理系统 |
-
2022
- 2022-04-19 CN CN202210411186.4A patent/CN114841253A/zh active Pending
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114926303A (zh) * | 2022-04-26 | 2022-08-19 | 广东工业大学 | 一种基于迁移学习的窃电检测方法 |
CN116933986A (zh) * | 2023-09-19 | 2023-10-24 | 国网湖北省电力有限公司信息通信公司 | 一种基于深度学习的电力数据安全管理系统 |
CN116933986B (zh) * | 2023-09-19 | 2024-01-23 | 国网湖北省电力有限公司信息通信公司 | 一种基于深度学习的电力数据安全管理系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112858919B (zh) | 一种基于聚类分析的电池系统在线故障诊断方法和系统 | |
US10373056B1 (en) | Unsupervised model building for clustering and anomaly detection | |
CN114841253A (zh) | 窃电检测方法、装置及存储介质、电子设备 | |
JP2022514992A (ja) | バッテリ診断システム、バッテリ診断方法、及び記憶媒体 | |
US20120116722A1 (en) | Detection of Defects in an Electrochemical Device | |
JP2017509103A (ja) | 電気またはハイブリッド車両の動作中における電池の劣化状態を推定する方法、装置、およびシステム、並びに前記推定用のモデルを構築する方法 | |
CN110927606B (zh) | 电池状态监测方法、装置 | |
CN114239725B (zh) | 一种面向数据投毒攻击的窃电检测方法 | |
CN109633448B (zh) | 识别电池健康状态的方法、装置和终端设备 | |
CN113449463A (zh) | 一种基于lstm-dnn的设备寿命预测方法及装置 | |
CN113255764A (zh) | 利用机器学习检测电化学储能系统故障的方法、系统和装置 | |
CN112444748A (zh) | 电池异常检测方法、装置、电子设备及存储介质 | |
CN116167010A (zh) | 具有智能迁移学习能力的电力系统异常事件快速识别方法 | |
CN111461923A (zh) | 一种基于深度卷积神经网络的窃电监测系统和方法 | |
CN115186012A (zh) | 一种用电量数据检测方法、装置、设备及存储介质 | |
US20230273262A1 (en) | Battery capacity estimation apparatus and method | |
CN116643190A (zh) | 一种锂电池健康状态实时监测方法及系统 | |
CN115856641A (zh) | 一种电池剩余充电时间预测方法、装置及电子设备 | |
CN115629323A (zh) | 一种电池组故障检测方法、装置及车辆 | |
CN115047358A (zh) | 一种智能锁电池电量上报方法、系统、装置及存储介质 | |
CN114740389A (zh) | 电池健康评估方法、装置、电子设备和可读存储介质 | |
KR20230075150A (ko) | 시스템 건전성을 관리하기 위한 방법 및 장치 | |
CN112819067A (zh) | 一种配电网不良数据的处理方法、装置、设备和存储介质 | |
CN113449809A (zh) | 一种基于kpca-nsvdd的电缆绝缘在线监测方法 | |
CN112580700B (zh) | 一种电力物联表计的数据修正方法、系统和存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |