CN113589034A - 一种配电系统的窃电检测方法、装置、设备和介质 - Google Patents

一种配电系统的窃电检测方法、装置、设备和介质 Download PDF

Info

Publication number
CN113589034A
CN113589034A CN202110875806.5A CN202110875806A CN113589034A CN 113589034 A CN113589034 A CN 113589034A CN 202110875806 A CN202110875806 A CN 202110875806A CN 113589034 A CN113589034 A CN 113589034A
Authority
CN
China
Prior art keywords
data
electricity
electricity stealing
data set
training
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110875806.5A
Other languages
English (en)
Other versions
CN113589034B (zh
Inventor
徐迪
赵云
肖勇
蔡梓文
陆煜锌
尹绍阳
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
CSG Electric Power Research Institute
China Southern Power Grid Co Ltd
Original Assignee
CSG Electric Power Research Institute
China Southern Power Grid Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by CSG Electric Power Research Institute, China Southern Power Grid Co Ltd filed Critical CSG Electric Power Research Institute
Priority to CN202110875806.5A priority Critical patent/CN113589034B/zh
Publication of CN113589034A publication Critical patent/CN113589034A/zh
Application granted granted Critical
Publication of CN113589034B publication Critical patent/CN113589034B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G01MEASURING; TESTING
    • G01RMEASURING ELECTRIC VARIABLES; MEASURING MAGNETIC VARIABLES
    • G01R22/00Arrangements for measuring time integral of electric power or current, e.g. electricity meters
    • G01R22/06Arrangements for measuring time integral of electric power or current, e.g. electricity meters by electronic methods
    • G01R22/061Details of electronic electricity meters
    • G01R22/066Arrangements for avoiding or indicating fraudulent use
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2413Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
    • G06F18/24133Distances to prototypes
    • G06F18/24137Distances to cluster centroïds
    • G06F18/2414Smoothing the distance, e.g. radial basis function networks [RBFN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y04INFORMATION OR COMMUNICATION TECHNOLOGIES HAVING AN IMPACT ON OTHER TECHNOLOGY AREAS
    • Y04SSYSTEMS INTEGRATING TECHNOLOGIES RELATED TO POWER NETWORK OPERATION, COMMUNICATION OR INFORMATION TECHNOLOGIES FOR IMPROVING THE ELECTRICAL POWER GENERATION, TRANSMISSION, DISTRIBUTION, MANAGEMENT OR USAGE, i.e. SMART GRIDS
    • Y04S10/00Systems supporting electrical power generation, transmission or distribution
    • Y04S10/50Systems or methods supporting the power network operation or management, involving a certain degree of interaction with the load-side end user applications

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Evolutionary Biology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Power Engineering (AREA)
  • Probability & Statistics with Applications (AREA)
  • Storage Device Security (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种配电系统的窃电检测方法、装置、设备和介质,配电系统与多个用电终端通信连接,方法包括:获取多个用电终端在相同周期内采集的用电数据,得到多个用电数据集;对各个用电数据集进行数据预处理,得到多个训练数据集;根据每个训练数据集所包含的窃电数据数量和正常数据数量,创建多个初始窃电检测模型;分别对各个训练数据集按照交叉验证比例进行划分,得到多组划分数据集;采用多组划分数据集分别对各个初始窃电检测模型分别进行训练,得到目标窃电检测模型;当接收到任一个用电终端发送的新用电数据时,采用目标窃电检测模型对新用电数据进行窃电检测,生成窃电判断结果,从而更为有效地提高窃电检测成功率。

Description

一种配电系统的窃电检测方法、装置、设备和介质
技术领域
本发明涉及窃电检测技术领域,尤其涉及一种配电系统的窃电检测方法、装置、设备和介质。
背景技术
窃电是所有能源分配服务面临的一个大问题,窃电在给公共事业单位造成严重经济损失的同时,也会造成配电网长期故障,容易导致用电负荷过重,电力元件寿命缩短,进而影响了消费者用电设备的性能。此外,这些负荷增加了以化石燃料为基础的电力生产,从而增加了二氧化碳的排放。
近年来关于窃电检测技术的研究越来越多,但在大多数电表被篡改的位置,损坏的电表端子或非法应用程序在生产检查时无法被辨别。
为解决上述窃电检测的技术问题,有许多新的研究特别是使用基于支持向量机的分类器,还有一些研究是用人工神经网络来检测窃电。比如,利用几万个客户的部分不同时间间隔值的能耗数据进行支持向量机和规则引擎算法的训练;提出宽深度卷积神经网络模型检测智能电网中的窃电;利用多层感知器算法开发检测和识别配电系统窃电的新方法。还有学者提出统一的方法来检测两种不同的非法用电状态。为了确定盗电的类型,采用了基于概率神经网络的客户能耗模式分类方法的数学模型。利用所提出的方法,对窃电用户进行了低成功率的检测。但上述方法通常需要加入人工特征提取的操作,容易受到人工的主观判断,导致窃电检测成功率较低。
发明内容
本发明提供了一种配电系统的窃电检测方法、装置、设备和介质,解决了现有的窃电检测方法通常需要加入人工特征提取的操作,容易受到人工的主观判断,导致窃电检测成功率较低的技术问题。
本发明第一方面提供的一种配电系统的窃电检测方法,所述配电系统与多个用电终端通信连接,所述方法包括:
获取多个所述用电终端在相同周期内采集的用电数据,得到多个用电数据集;
对各个所述用电数据集进行数据预处理,得到多个训练数据集;
根据每个所述训练数据集所包含的窃电数据数量和正常数据数量,创建多个初始窃电检测模型;
分别对各个所述训练数据集按照交叉验证比例进行划分,得到多组划分数据集;
采用所述多组划分数据集分别对各个所述初始窃电检测模型分别进行训练,得到目标窃电检测模型;
当接收到任一个所述用电终端发送的新用电数据时,采用所述目标窃电检测模型对所述新用电数据进行窃电检测,生成窃电判断结果。
可选地,所述对各个所述用电数据集进行数据预处理,得到多个训练数据集的步骤,包括:
遍历每个所述用电数据集,得到每个所述用电数据集对应的非数型数据数量、零数据数量和常规数据数量;
根据所述非数型数据数量、所述零数据数量和所述常规数据数量,从多个所述用电数据集中确定待更新数据集;
按照预设的非数型数据更新算法对每个所述待更新数据集内的非数型数据进行更新,得到多个中间数据集;
对每个所述中间数据集执行数据标准化,得到多个训练数据集。
可选地,所述根据所述非数型数据数量、所述零数据数量和所述常规数据数量,从多个所述用电数据集中确定待更新数据集的步骤,包括:
若所述用电数据集内的所述非数型数据数量大于所述常规数据数量的三分之一,则将所述用电数据集确定为所述待更新数据集;
若所述用电数据集内的所述非数型数据数量和所述零数据数量的和值大于所述常规数据数量的二分之一,则将所述用电数据集确定为所述待更新数据集;
更新所述待更新数据集的数量;
若所述用电数据集内的所述零数据数量大于待更新数据集的数量,则将所述用电数据集确定为所述待更新数据集。
可选地,所述非数型数据更新算法包括:
Figure BDA0003190210550000031
其中,f(xi)为中间数据,NaN为非数型数据,n为正整数,xj为所述待更新数据集内的第j个待更新数据,xi为第i个非数型数据。
可选地,所述根据每个所述训练数据集所包含的窃电数据数量和正常数据数量,创建多个初始窃电检测模型的步骤,包括:
依次排列输入层、第一长短期记忆单元、第一Dropout层、第二长短期记忆单元、Flatten层、Dense层、第二Dropout层和softmax层,构建初始窃电检测模型;
根据每个所述训练数据集所包含的窃电数据数量和正常数据数量,按照预设的初始偏置值计算公式,确定所述初始窃电检测模型的模型参数;其中,所述初始偏置值计算公式为:b0=-loge(pos/neg),pos为窃电数据数量,neg为正常数据数量;
获取所述训练数据集的总数据数量;
计算所述总数据数量与所述窃电数据数量的第一数量比值,将所述第一数量比值的二分值确定为所述初始窃电检测模型的损失函数对应的窃电数据调整权重;
计算所述总数据数量与所述正常数据数量的第二数量比值,将所述第二数量比值的二分值确定为所述初始窃电检测模型的损失函数对应的正常调整权重。
可选地,所述分别对各个所述训练数据集进行划分,得到多组划分数据集的步骤,包括:
基于每个所述训练数据集所包含的窃电数据数量与所述训练数据集的总数据数量的比值,确定各个所述训练数据集对应的交叉验证比例;
按照各个所述交叉验证比例分别对各所述训练数据集进行划分,得到每个所述训练数据集对应的多组划分数据集。
可选地,所述采用所述多组划分数据集分别对各个所述初始窃电检测模型分别进行训练,得到目标窃电检测模型的步骤,包括:
采用所述多组划分数据集分别对各个所述初始窃电检测模型分别进行训练,得到多个窃电检测结果;
基于所述多个窃电检测结果的调和平均值和准确率,从多个所述初始窃电检测模型中选取目标窃电检测模型。
本发明第二方面提供了一种配电系统的窃电检测装置,所述配电系统与多个用电终端通信连接,所述装置包括:
用电数据集获取模块,用于获取多个所述用电终端在相同周期内采集的用电数据,得到多个用电数据集;
数据预处理模块,用于对各个所述用电数据集进行数据预处理,得到多个训练数据集;
初始模型构建模块,用于根据每个所述训练数据集所包含的窃电数据数量和正常数据数量,创建多个初始窃电检测模型;
数据集划分模块,用于分别对各个所述训练数据集按照交叉验证比例进行划分,得到多组划分数据集;
模型训练模块,用于采用所述多组划分数据集分别对各个所述初始窃电检测模型分别进行训练,得到目标窃电检测模型;
窃电检测模块,用于当接收到任一个所述用电终端发送的新用电数据时,采用所述目标窃电检测模型对所述新用电数据进行窃电检测,生成窃电判断结果。
本发明第三方面提供了一种电子设备,包括存储器及处理器,所述存储器中储存有计算机程序,所述计算机程序被所述处理器执行时,使得所述处理器执行如本发明第一方面任一项所述的配电系统的窃电检测方法的步骤。
本发明第四方面提供了一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现如本发明第一方面任一项所述的配电系统的窃电检测方法。
从以上技术方案可以看出,本发明具有以下优点:
本发明通过配电系统与多个用电终端通信连接,获取多个用电终端在相同周期内采集的用电数据,得到多个用电数据集;对各个用电数据集进行数据预处理,得到多个训练数据集;根据每个训练数据集所包含的窃电数据数量和正常数据数量,创建多个初始窃电检测模型;分别对各个训练数据集按照交叉验证比例进行划分,得到多组划分数据集;采用多组划分数据集分别对各个初始窃电检测模型分别进行训练,得到目标窃电检测模型;当接收到任一个用电终端发送的新用电数据时,采用目标窃电检测模型对新用电数据进行窃电检测,生成窃电判断结果,从而解决现有的窃电检测方法通常需要加入人工特征提取的操作,容易受到人工的主观判断,导致窃电检测成功率较低的技术问题,更为有效地提高窃电检测成功率。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其它的附图。
图1为本发明实施例提供的一种配电系统的窃电检测方法的步骤流程图;
图2为本发明实施例提供的一种用电数据集数据预处理的步骤流程图;
图3为本发明实施例提供的一种初始窃电检测模型构建过程的步骤流程图;
图4为本发明实施例提供的一种初始窃电检测模型的结构框图;
图5为本发明实施例提供的一种配电系统的窃电检测装置的结构框图。
具体实施方式
本发明实施例提供了一种配电系统的窃电检测方法、装置、设备和介质,用于解决现有的窃电检测方法通常需要加入人工特征提取的操作,容易受到人工的主观判断,导致窃电检测成功率较低的技术问题。
为使得本发明的发明目的、特征、优点能够更加的明显和易懂,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,下面所描述的实施例仅仅是本发明一部分实施例,而非全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
请参阅图1,图1为本发明实施例提供的一种配电系统的窃电检测方法的步骤流程图。
本发明提供的一种配电系统的窃电检测方法,配电系统与多个用电终端通信连接,方法可以包括以下步骤:
步骤101,获取多个用电终端在相同周期内采集的用电数据,得到多个用电数据集;
用电终端数据指的是在一定的周期内例如一个月、一个季度内,用电终端所采集到的日用电量数据。
在本发明实施例中,配电系统为检测用电终端是否存在窃电情况,可以获取多个用电终端在相同周期采集的用电数据,以用电终端为组别对所采集的用电数据进行归类,得到多个用电数据集。
步骤102,对各个用电数据集进行数据预处理,得到多个训练数据集;
由于大部分客户在日常用电的场景中,可能由于外出等情况,因此用电终端所采集的用电数据可能会存在非数型数据和零数据。为保证后续模型判断的准确性和一致性,防止由于上述非数型数据或零数据对模型训练过程产生负面影响,可以对各个用电数据集先进行数据预处理,以得到多个训练数据集。
可选地,步骤102可以包括以下子步骤S11-S14:
S11、遍历每个用电数据集,得到每个用电数据集对应的非数型数据数量、零数据数量和常规数据数量;
在本发明的一个示例中,在构建模型前需要对训练数据进行挑选,为提高模型训练的效率,可以先对各个用电数据集内的数据及其数据数量进行统计,方便获取更有意义的数据用于后续模型训练。因此,可以对每个用电数据集进行遍历操作,以得到每个用电数据集所对应的非数型数据数量、零数据数量和常规数据数量。
例如,对用电数据集进行遍历后的统计情况可以如表1所示:
Figure BDA0003190210550000061
Figure BDA0003190210550000071
表1
如表1所示,包含101到200个NaN数据的客户数量为169,而包含200个以上NaN数据的客户数量为132。当检查数据集时,没有任何NaN值和零值的数据的数量是30.341。然而,由于带有窃电标签的数据数量非常低,不应该进行大量的数据缩减。而为便于后续模型的学习率提高,可以对其中出现的非数型数据NaN和零数据Zero进行预处理。
S12、根据非数型数据数量、零数据数量和常规数据数量,从多个用电数据集中确定待更新数据集;
进一步地,步骤S12可以包括以下子步骤:
若用电数据集内的非数型数据数量大于常规数据数量的三分之一,则将用电数据集确定为待更新数据集;
若用电数据集内的非数型数据数量和零数据数量的和值大于常规数据数量的二分之一,则将用电数据集确定为待更新数据集;
更新待更新数据集的数量;
若用电数据集内的零数据数量大于待更新数据集的数量,则将用电数据集确定为待更新数据集。
在本发明实施例中,为便于处理,可以公式的方式对用电数据集内的用电数据进行筛选,以构建待更新数据集:
Figure BDA0003190210550000072
其中,s(NaN)代表非数型数据数量,s(Zero)代表零数据数量,s(dffeature)代表常规数据数量,crop data代表满足条件的数据集合,s(df)为当前待更新数据集的数量。
值得一提的是,经过上述待更新数据集的更新,可以有效缩减用电数据集的数量,筛选得到窃电数据较多的用电数据集作为待更新数据集。
S13、按照预设的非数型数据更新算法对每个待更新数据集内的非数型数据进行更新,得到多个中间数据集;
在本发明的一个示例中,非数型数据更新算法包括:
Figure BDA0003190210550000081
其中,f(xi)为中间数据,NaN为非数型数据,n为正整数,xj为待更新数据集内的第j个待更新数据,xi为第i个非数型数据。
在本发明实施例中,n可以由技术人员自行设置,例如5、10等,本发明实施例对此不作限制。
例如,当n=5时,根据上述非数型数据更新算法,通过遍历当前非数型数据xi前后的5个待更新数据,若前后5个待更新数据均不是非数型数据,则可以计算前后5个待更新数据的算术平均值作为中间数据f(xi);若是当前非数型数据xi前后的5个待更新数据中超过5个非数型数据,则中间数据f(xi)确定为0。
S14、对每个中间数据集执行数据标准化,得到多个训练数据集。
在具体实现中,数据集中消费数据的最大值和最小值在0-39kWh范围内。这些数据的日值大致相似。由于可以从这些相似点中提取的模式无法检测,所以需要确定权重的取值范围。检查数据的值范围来标准化数据集,所有的数据都在-5到5的范围内标准化。通过这种归一化过程,数据的取值范围变得更加明显,从而得到各个中间数据集所对应的训练数据集。
步骤103,根据每个训练数据集所包含的窃电数据数量和正常数据数量,创建多个初始窃电检测模型;
可选地,步骤103可以包括以下子步骤S21-S25:
S21、依次排列输入层、第一长短期记忆单元、第一Dropout层、第二长短期记忆单元、Flatten层、Dense层、第二Dropout层和softmax层,构建初始窃电检测模型;
参照图4,图4示出了本发明实施例的一种初始窃电检测模型。
将准备好的数据集呈现给第一个LSTM模型的输入层。在输入层之后有两个长短期记忆单元。使用20%的dropout层来减少计算64个单位权重值的长短期记忆单元的数据后生成的数据数量。将上一个长短期记忆细胞中获得的神经元转化为带有扁平层的一维神经元,并再次使用dropout层来防止过度拟合。最后,将形成的所有参数给出给具有稠密层的Softmax分类器。通过这一层,它的目的是确定数据集中数据的类信息。本专利提出的LSTM模型的具体参数如表2所示。
分层名称 主要参数 其他参数
LSTM(长短期记忆)细胞 64单元 Dropout=0.2
LSTM(长短期记忆)细胞 32单元 Dropout=0.2
Flatten - -
Dense 256单元 激活函数=ReLU
Dropout - 比率=0.2
Dense 1单元 激活函数=Softmax
表2
该模型共分为6层。使用了两个连续的长短期记忆细胞来记忆和处理前一个值。特别是对于不平衡数据集,在数据处理阶段开发的权值更新方法生成的值需要在更多神经元的情况下进行计算。第一个长短期记忆细胞获得的神经元数量为64个单位。随后的长短期记忆层创建了更多的层,包含32个单元。该算法的目标是将长短期记忆层中dropout层产生的数据减少20%。这样,就有可能通过处理更少的参数来检测出更突出的特征。有了平坦层,所有形成的神经元都变平了。将所有形成的神经元与密集层交叉,共生成256个神经元,利用ReLU层检测出最优值。加入退变层后的观测数据减少了20%,获得了最明显的神经元。最后一层,密集层,目的是用Softmax获取数据的类信息。
S22、根据每个训练数据集所包含的窃电数据数量和正常数据数量,按照预设的初始偏置值计算公式,确定初始窃电检测模型的模型参数;
其中,初始偏置值计算公式为:b0=-loge(pos/neg),pos为窃电数据数量,neg为正常数据数量;
S23、获取训练数据集的总数据数量;
S24、计算总数据数量与窃电数据数量的第一数量比值,将第一数量比值的二分值确定为初始窃电检测模型的损失函数对应的窃电数据调整权重;
S25、计算总数据数量与正常数据数量的第二数量比值,将第二数量比值的二分值确定为初始窃电检测模型的损失函数对应的正常调整权重。
在本发明实施例中,由于每个训练数据集所包含额窃电数据书和正常数据数量的不同,可以通过初始偏置值计算公式对初始窃电检测模型的模型参数也就是各个门的偏置值进行设置。其中,初始偏置值计算公式如下:
b0=-loge(pos/neg)
其中,pos为窃电数据数量,neg为正常数据数量。
而为便于后续模型的损失函数中权重的调整更新,可以通过训练数据集的总数据数量分别与窃电数据数量和正常数据数量进行权重计算:
具体的,权重值
Figure BDA0003190210550000101
其中,class={pos,neg},class是一个列表,列表中的数据分别表示窃电数据数量和正常数据数量,分别参与窃电数据权重和正常数据权重的计算。
步骤104,分别对各个训练数据集按照交叉验证比例进行划分,得到多组划分数据集;
在本发明的另一个示例中,步骤104可以包括以下子步骤:
基于每个训练数据集所包含的窃电数据数量与训练数据集的总数据数量的比值,确定各个训练数据集对应的交叉验证比例;
按照各个交叉验证比例分别对各训练数据集进行划分,得到每个训练数据集对应的多组划分数据集。
交叉验证(Cross Validation),有的时候也称作循环估计(RotationEstimation),是一种统计学上将数据样本切割成较小子集的实用方法,在给定的建模样本中,拿出大部分样本进行建模型,留小部分样本用刚建立的模型进行预报,并求这小部分样本的预报误差,记录它们的平方加和。这个过程一直进行,直到所有的样本都被预报了一次而且仅被预报一次。把每个样本的预报误差平方加和,称为PRESS(predicted Error Sumof Squares)。
在本发明实施例中,为提高模型检测的准确率,避免意外情况对模型效果的影响,可以通过基于不同窃电用户比例的交叉折法对各个训练数据集进行划分,以得到多组划分数据集。
划分数据集的结果可以参照以下表3:
Figure BDA0003190210550000111
表3
步骤105,采用多组划分数据集分别对各个初始窃电检测模型分别进行训练,得到目标窃电检测模型;
在本发明的一个示例中,步骤105可以包括以下子步骤:
采用多组划分数据集分别对各个初始窃电检测模型分别进行训练,得到多个窃电检测结果;
基于多个窃电检测结果的调和平均值和准确率,从多个初始窃电检测模型中选取目标窃电检测模型。
在本发明实施例中,可以通过设置初始窃电检测模型的初始参数,并采用多组划分数据集对各个初始窃电检测模型进行训练,得到对应的窃电检测结果。例如选择数据批量的大小值为64,损失函数L和Adam优化器Ao作为分类交叉指标。用100作为参数调整的次数阈值,得到一致的结果并进行比较。使用随机梯度原点对模型进行训练,初始学习率α设置为0.0001,变化较小。
在模型训练达到预定次数100次时,使用准确性Ac、敏感性Sen和召回分数Rs来评价所开发模型的性能,这些评价指标综合起来形成一个综合评价阈值β0,若当前迭代阈值β<β0,则表明训练完成,选择目标窃电检测模型。
在具体实现中,模型训练的性能结果可以参照下表4:
Figure BDA0003190210550000121
表4
准确率最高的是Dataset-1(Fold-4),为95.24%。当观察其他折叠的性能时,它们表现出了相似性,这说明数据集分布均匀,预处理过程是稳定的。可以看出,精度的标准差在±1.09到1.22之间,模型在不同的数据集中表现出相近的性能。Dataset-1(Fold-5)的成功是第二高的准确性,为94.12%。此外,在其他领域也取得了很高的成功。Dataset-1的平均成功率为93.60%±1.22。在Dataset-2中,fold-3的成功率最高,为93.24%,而fold-4的成功率最低,为90.22%。这说明同一组消费者的用电量趋势是不同的。Dataset-2的平均成功率为91.76%±1.09。在fold-2中,Dataset-3的成功率为92.62%。
可以看出,在Dataset-3中测试的数据数量,其平均值最低,为90.98%±1.13,这可能是由于与其他数据集相比,测试的数据数量较低。Dataset-1(fold-4)的精度成功率最高,为92.82%,Dataset-3的fold-5的精度成功率最低,为88.08%。在召回率的比较中,Dataset-2(Fold-4)的召回率最高,为93.20%。平均回忆得分分别为90.60%±1.38、91.44%±1.78和88.23%±1.21。根据这些结果,可以确定fold-4数据集准确率最高,Dataset-1的平均准确率最高,为93.60%±1.22。
使用调和平均值对精确率和召回率进行整体评价,调和平均值的定义如下:调和平均值=2*精确率*召回率/(精确率+召回率),它被定义为准确率和召回率的调和平均值,是综合这两者指标的评估指标,用于综合反映整体的指标,调和平均值越高效果越好。以各数据库精确率、召回率的平均值为准计算调和平均值可得,Dataset-1的调和平均值为91.12,Dataset-2的调和平均值为90.80,Dataset-3的调和平均值为88.80,其中Dataset-1的调和平均值最高,考虑Dataset-1的准确率也最高,故Dataset-1下的初始窃电检测模型性能效果最好,以此作为目标窃电检测模型。
步骤106,当接收到任一个用电终端发送的新用电数据时,采用目标窃电检测模型对新用电数据进行窃电检测,生成窃电判断结果。
在具体实现中,当接收到任一个用电终端发送的新用电数据后,可以采用目标窃电检测模型对新用电数据进行特征提取,以确定是否存在窃电行为。
在本发明实施例中,通过配电系统与多个用电终端通信连接,获取多个用电终端在相同周期内采集的用电数据,得到多个用电数据集;对各个用电数据集进行数据预处理,得到多个训练数据集;根据每个训练数据集所包含的窃电数据数量和正常数据数量,创建多个初始窃电检测模型;分别对各个训练数据集按照交叉验证比例进行划分,得到多组划分数据集;采用多组划分数据集分别对各个初始窃电检测模型分别进行训练,得到目标窃电检测模型;当接收到任一个用电终端发送的新用电数据时,采用目标窃电检测模型对新用电数据进行窃电检测,生成窃电判断结果,从而解决现有的窃电检测方法通常需要加入人工特征提取的操作,容易受到人工的主观判断,导致窃电检测成功率较低的技术问题,更为有效地提高窃电检测成功率。
请参阅图5,图5示出了本发明实施例的一种配电系统的窃电检测装置的结构框图。
本发明实施例提供了一种配电系统的窃电检测装置,配电系统与多个用电终端通信连接,装置包括:
用电数据集获取模块501,用于获取多个用电终端在相同周期内采集的用电数据,得到多个用电数据集;
数据预处理模块502,用于对各个用电数据集进行数据预处理,得到多个训练数据集;
初始模型构建模块503,用于根据每个训练数据集所包含的窃电数据数量和正常数据数量,创建多个初始窃电检测模型;
数据集划分模块504,用于分别对各个训练数据集按照交叉验证比例进行划分,得到多组划分数据集;
模型训练模块505,用于采用多组划分数据集分别对各个初始窃电检测模型分别进行训练,得到目标窃电检测模型;
窃电检测模块506,用于当接收到任一个用电终端发送的新用电数据时,采用目标窃电检测模型对新用电数据进行窃电检测,生成窃电判断结果。
可选地,数据预处理模块502包括:
数据数量获取子模块,用于遍历每个用电数据集,得到每个用电数据集对应的非数型数据数量、零数据数量和常规数据数量;
数据集选取子模块,用于根据非数型数据数量、零数据数量和常规数据数量,从多个用电数据集中确定待更新数据集;
数据更新子模块,用于按照预设的非数型数据更新算法对每个待更新数据集内的非数型数据进行更新,得到多个中间数据集;
数据标准化子模块,用于对每个中间数据集执行数据标准化,得到多个训练数据集。
可选地,数据集选取子模块具体用于:
若用电数据集内的非数型数据数量大于常规数据数量的三分之一,则将用电数据集确定为待更新数据集;
若用电数据集内的非数型数据数量和零数据数量的和值大于常规数据数量的二分之一,则将用电数据集确定为待更新数据集;
更新待更新数据集的数量;
若用电数据集内的零数据数量大于待更新数据集的数量,则将用电数据集确定为待更新数据集。
可选地,非数型数据更新算法包括:
Figure BDA0003190210550000151
其中,f(xi)为中间数据,NaN为非数型数据,n为正整数,xj为待更新数据集内的第j个待更新数据,xi为第i个非数型数据。
可选地,初始模型构建模块503包括:
模型构建子模块,用于依次排列输入层、第一长短期记忆单元、第一Dropout层、第二长短期记忆单元、Flatten层、Dense层、第二Dropout层和softmax层,构建初始窃电检测模型;
模型参数确定子模块,用于根据每个训练数据集所包含的窃电数据数量和正常数据数量,按照预设的初始偏置值计算公式,确定初始窃电检测模型的模型参数;其中,初始偏置值计算公式为:b0=-loge(pos/neg),pos为窃电数据数量,neg为正常数据数量;
总数据数量获取子模块,用于获取训练数据集的总数据数量;
窃电数据权重计算子模块,用于计算总数据数量与窃电数据数量的第一数量比值,将第一数量比值的二分值确定为初始窃电检测模型的损失函数对应的窃电数据调整权重;
正常数据权重计算子模块,用于计算总数据数量与正常数据数量的第二数量比值,将第二数量比值的二分值确定为初始窃电检测模型的损失函数对应的正常调整权重。
可选地,数据集划分模块504包括:
交叉验证比例确定子模块,用于基于每个训练数据集所包含的窃电数据数量与训练数据集的总数据数量的比值,确定各个训练数据集对应的交叉验证比例;
数据集划分子模块,用于按照各个交叉验证比例分别对各训练数据集进行划分,得到每个训练数据集对应的多组划分数据集。
可选地,模型训练模块505包括:
窃电检测结果生成子模块,用于采用多组划分数据集分别对各个初始窃电检测模型分别进行训练,得到多个窃电检测结果;
目标模型选取子模块,用于基于多个窃电检测结果的调和平均值和准确率,从多个初始窃电检测模型中选取目标窃电检测模型。
本发明实施例还供了一种电子设备,包括存储器及处理器,所述存储器中储存有计算机程序,所述计算机程序被所述处理器执行时,使得所述处理器执行如本发明任一实施例所述的配电系统的窃电检测方法的步骤。
本发明实施例还提供了一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现如本发明任一实施例所述的配电系统的窃电检测方法。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的装置和模块的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在本发明所提供的几个实施例中,应该理解到,所揭露的装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-OnlyMemory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims (10)

1.一种配电系统的窃电检测方法,其特征在于,所述配电系统与多个用电终端通信连接,所述方法包括:
获取多个所述用电终端在相同周期内采集的用电数据,得到多个用电数据集;
对各个所述用电数据集进行数据预处理,得到多个训练数据集;
根据每个所述训练数据集所包含的窃电数据数量和正常数据数量,创建多个初始窃电检测模型;
分别对各个所述训练数据集按照交叉验证比例进行划分,得到多组划分数据集;
采用所述多组划分数据集分别对各个所述初始窃电检测模型分别进行训练,得到目标窃电检测模型;
当接收到任一个所述用电终端发送的新用电数据时,采用所述目标窃电检测模型对所述新用电数据进行窃电检测,生成窃电判断结果。
2.根据权利要求1所述的方法,其特征在于,所述对各个所述用电数据集进行数据预处理,得到多个训练数据集的步骤,包括:
遍历每个所述用电数据集,得到每个所述用电数据集对应的非数型数据数量、零数据数量和常规数据数量;
根据所述非数型数据数量、所述零数据数量和所述常规数据数量,从多个所述用电数据集中确定待更新数据集;
按照预设的非数型数据更新算法对每个所述待更新数据集内的非数型数据进行更新,得到多个中间数据集;
对每个所述中间数据集执行数据标准化,得到多个训练数据集。
3.根据权利要求2所述的方法,其特征在于,所述根据所述非数型数据数量、所述零数据数量和所述常规数据数量,从多个所述用电数据集中确定待更新数据集的步骤,包括:
若所述用电数据集内的所述非数型数据数量大于所述常规数据数量的三分之一,则将所述用电数据集确定为所述待更新数据集;
若所述用电数据集内的所述非数型数据数量和所述零数据数量的和值大于所述常规数据数量的二分之一,则将所述用电数据集确定为所述待更新数据集;
更新所述待更新数据集的数量;
若所述用电数据集内的所述零数据数量大于待更新数据集的数量,则将所述用电数据集确定为所述待更新数据集。
4.根据权利要求2所述的方法,其特征在于,所述非数型数据更新算法包括:
Figure FDA0003190210540000021
其中,f(xi)为中间数据,NaN为非数型数据,n为正整数,xj为所述待更新数据集内的第j个待更新数据,xi为第i个非数型数据。
5.根据权利要求1所述的方法,其特征在于,所述根据每个所述训练数据集所包含的窃电数据数量和正常数据数量,创建多个初始窃电检测模型的步骤,包括:
依次排列输入层、第一长短期记忆单元、第一Dropout层、第二长短期记忆单元、Flatten层、Dense层、第二Dropout层和softmax层,构建初始窃电检测模型;
根据每个所述训练数据集所包含的窃电数据数量和正常数据数量,按照预设的初始偏置值计算公式,确定所述初始窃电检测模型的模型参数;其中,所述初始偏置值计算公式为:b0=-loge(pos/neg),pos为窃电数据数量,neg为正常数据数量;
获取所述训练数据集的总数据数量;
计算所述总数据数量与所述窃电数据数量的第一数量比值,将所述第一数量比值的二分值确定为所述初始窃电检测模型的损失函数对应的窃电数据调整权重;
计算所述总数据数量与所述正常数据数量的第二数量比值,将所述第二数量比值的二分值确定为所述初始窃电检测模型的损失函数对应的正常调整权重。
6.根据权利要求1所述的方法,其特征在于,所述分别对各个所述训练数据集进行划分,得到多组划分数据集的步骤,包括:
基于每个所述训练数据集所包含的窃电数据数量与所述训练数据集的总数据数量的比值,确定各个所述训练数据集对应的交叉验证比例;
按照各个所述交叉验证比例分别对各所述训练数据集进行划分,得到每个所述训练数据集对应的多组划分数据集。
7.根据权利要求1所述的方法,其特征在于,所述采用所述多组划分数据集分别对各个所述初始窃电检测模型分别进行训练,得到目标窃电检测模型的步骤,包括:
采用所述多组划分数据集分别对各个所述初始窃电检测模型分别进行训练,得到多个窃电检测结果;
基于所述多个窃电检测结果的调和平均值和准确率,从多个所述初始窃电检测模型中选取目标窃电检测模型。
8.一种配电系统的窃电检测装置,其特征在于,所述配电系统与多个用电终端通信连接,所述装置包括:
用电数据集获取模块,用于获取多个所述用电终端在相同周期内采集的用电数据,得到多个用电数据集;
数据预处理模块,用于对各个所述用电数据集进行数据预处理,得到多个训练数据集;
初始模型构建模块,用于根据每个所述训练数据集所包含的窃电数据数量和正常数据数量,创建多个初始窃电检测模型;
数据集划分模块,用于分别对各个所述训练数据集按照交叉验证比例进行划分,得到多组划分数据集;
模型训练模块,用于采用所述多组划分数据集分别对各个所述初始窃电检测模型分别进行训练,得到目标窃电检测模型;
窃电检测模块,用于当接收到任一个所述用电终端发送的新用电数据时,采用所述目标窃电检测模型对所述新用电数据进行窃电检测,生成窃电判断结果。
9.一种电子设备,其特征在于,包括存储器及处理器,所述存储器中储存有计算机程序,所述计算机程序被所述处理器执行时,使得所述处理器执行如权利要求1-7任一项所述的配电系统的窃电检测方法的步骤。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1-7任一项所述的配电系统的窃电检测方法。
CN202110875806.5A 2021-07-30 2021-07-30 一种配电系统的窃电检测方法、装置、设备和介质 Active CN113589034B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110875806.5A CN113589034B (zh) 2021-07-30 2021-07-30 一种配电系统的窃电检测方法、装置、设备和介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110875806.5A CN113589034B (zh) 2021-07-30 2021-07-30 一种配电系统的窃电检测方法、装置、设备和介质

Publications (2)

Publication Number Publication Date
CN113589034A true CN113589034A (zh) 2021-11-02
CN113589034B CN113589034B (zh) 2023-08-08

Family

ID=78253113

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110875806.5A Active CN113589034B (zh) 2021-07-30 2021-07-30 一种配电系统的窃电检测方法、装置、设备和介质

Country Status (1)

Country Link
CN (1) CN113589034B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117033916A (zh) * 2023-07-10 2023-11-10 国网四川省电力公司营销服务中心 一种基于神经网络的窃电检测方法

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20030212851A1 (en) * 2002-05-10 2003-11-13 Drescher Gary L. Cross-validation for naive bayes data mining model
CN107492043A (zh) * 2017-09-04 2017-12-19 国网冀北电力有限公司电力科学研究院 窃电分析方法及装置
CN108765004A (zh) * 2018-05-28 2018-11-06 贵州黔驰信息股份有限公司 一种基于数据挖掘识别用户窃电行为的方法
CN109583680A (zh) * 2018-09-30 2019-04-05 国网浙江长兴县供电有限公司 一种基于支持向量机的窃电辨识方法
CN111428804A (zh) * 2020-04-01 2020-07-17 广东电网有限责任公司 一种优化加权的随机森林窃电用户检测方法
CN112098714A (zh) * 2020-08-12 2020-12-18 国网江苏省电力有限公司南京供电分公司 一种基于ResNet-LSTM的窃电检测方法及系统
CN112633421A (zh) * 2021-03-09 2021-04-09 国网江西综合能源服务有限公司 一种用户异常用电行为检测方法及装置
CN113011997A (zh) * 2021-02-20 2021-06-22 上海电机学院 电网用户用电异常行为检测方法

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20030212851A1 (en) * 2002-05-10 2003-11-13 Drescher Gary L. Cross-validation for naive bayes data mining model
CN107492043A (zh) * 2017-09-04 2017-12-19 国网冀北电力有限公司电力科学研究院 窃电分析方法及装置
CN108765004A (zh) * 2018-05-28 2018-11-06 贵州黔驰信息股份有限公司 一种基于数据挖掘识别用户窃电行为的方法
CN109583680A (zh) * 2018-09-30 2019-04-05 国网浙江长兴县供电有限公司 一种基于支持向量机的窃电辨识方法
CN111428804A (zh) * 2020-04-01 2020-07-17 广东电网有限责任公司 一种优化加权的随机森林窃电用户检测方法
CN112098714A (zh) * 2020-08-12 2020-12-18 国网江苏省电力有限公司南京供电分公司 一种基于ResNet-LSTM的窃电检测方法及系统
CN113011997A (zh) * 2021-02-20 2021-06-22 上海电机学院 电网用户用电异常行为检测方法
CN112633421A (zh) * 2021-03-09 2021-04-09 国网江西综合能源服务有限公司 一种用户异常用电行为检测方法及装置

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117033916A (zh) * 2023-07-10 2023-11-10 国网四川省电力公司营销服务中心 一种基于神经网络的窃电检测方法

Also Published As

Publication number Publication date
CN113589034B (zh) 2023-08-08

Similar Documents

Publication Publication Date Title
CN110097297B (zh) 一种多维度窃电态势智能感知方法、系统、设备及介质
CN108520357B (zh) 一种线损异常原因的判别方法、装置及服务器
CN110223196A (zh) 基于典型行业特征库和反窃电样本库的反窃电分析方法
CN111178611B (zh) 一种日电量预测的方法
Oprea et al. Machine learning classification algorithms and anomaly detection in conventional meters and Tunisian electricity consumption large datasets
Chicco et al. Renyi entropy-based classification of daily electrical load patterns
Cheng et al. Enhanced state estimation and bad data identification in active power distribution networks using photovoltaic power forecasting
CN111368259B (zh) 一种配网电压数据缺失填补方法及相关装置
Bidoki et al. Evaluating different clustering techniques for electricity customer classification
CN114519514B (zh) 一种低压台区合理线损值测算方法、系统及计算机设备
CN112418476A (zh) 一种超短期电力负荷预测方法
CN111986027A (zh) 基于人工智能的异常交易处理方法、装置
CN112001644A (zh) 一种配电网运行可靠性检测方法、装置、终端及存储介质
Xu et al. Novel key indicators selection method of financial fraud prediction model based on machine learning hybrid mode
CN111178957B (zh) 一种用电客户电量突增预警的方法
CN113125903A (zh) 线损异常检测方法、装置、设备及计算机可读存储介质
CN106600146A (zh) 一种电费回收风险评价方法和装置
CN112308341A (zh) 电力数据的处理方法和装置
CN113589034B (zh) 一种配电系统的窃电检测方法、装置、设备和介质
CN111027841A (zh) 一种基于梯度提升决策树的低压台区线损计算方法
CN113094448B (zh) 住宅空置状态的分析方法及分析装置、电子设备
Grigoras et al. Processing of smart meters data for peak load estimation of consumers
CN107274025B (zh) 一种实现用电模式智能识别与管理的系统和方法
CN111539492B (zh) 一种基于强化学习的异常用电判决系统及方法
Lingqing et al. Detection method for power theft based on SOM neural network and K-means clustering algorithm

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant