CN112836738A

CN112836738A - 基于bp神经网络的窃电行为检测方法

Info

Publication number: CN112836738A
Application number: CN202110126155.XA
Authority: CN
Inventors: 崔逸群; 刘迪; 毕玉冰; 陈燕; 殷儒希; 李哲毓; 刘超飞; 朱博迪; 王文庆; 邓楠轶
Original assignee: Xian Thermal Power Research Institute Co Ltd; Huaneng Power International Inc
Current assignee: Xian Thermal Power Research Institute Co Ltd; Huaneng Power International Inc
Priority date: 2021-01-29
Filing date: 2021-01-29
Publication date: 2021-05-25
Anticipated expiration: 2041-01-29
Also published as: CN112836738B

Abstract

本发明公开了一种基于BP神经网络的窃电行为检测方法，本发明将BP神经网络模型引入窃电行为监测，实现对窃电用户的筛查。该模型首先对用户用电数据进行预处理，确定窃电评价指标；然后采用主成分分析PCA方法实现样本数据的特征提取，从而提高模型的效率，降低检测系统的负荷；接着以BP神经网络完成用户窃电行为的诊断，实现对正常用户和窃电用户的判定。以某电网公司提供的企业大用户用电数据进行实例分析，验证了该发明的实用性和通用性。

Description

基于BP神经网络的窃电行为检测方法

技术领域

本发明属于窃电行为检测技术领域，具体涉及一种基于BP神经网络的窃电行为检测方法。

背景技术

窃电行为不仅威胁到供电安全，破坏正常的供电秩序，而且给国家和供电企业造成巨大的经济损失。据统计，全国每年因窃电造成的损失都在200亿元左右，而被查获的窃电案件不足总窃电案件的30％。传统的用电检查及反偷查漏工作主要依靠突击检查的手段来打击窃电行为，存在先天性的缺陷和不足。随着窃电问题影响越来越突出，窃电检测工作亟需进行提升。目前的各种反窃电技术还是给部分非法用户留下窃电和破坏计量装置的空间，主要表现在可靠性、及时性、准确性方面都存在问题。随着用电信息采集系统在国内逐渐普及，窃电方式发展为设备智能化、手段专业化、行为隐蔽化、实施规模化的高科技窃电。现有的反窃电技术已经不能彻底査处所有窃电手段，迫切需要开展智能反窃电技术研究与应用。

发明内容

为了克服上述现有技术存在的问题，本发明的目的在于提供一种基于BP神经网络的窃电行为检测方法，本发明基于用电信息采集系统的ABC三相电流、ABC三相电压、变压器容量、变压器倍率、最大电流、最小电流、三项负荷不平衡率，提出的窃电行为检测方法主要由两部分组成，数据预处理和窃电识别模型构建，提高窃电检测的准确率。

为了达到上述目的，本发明采用如下技术方案：

一种基于BP神经网络的窃电行为检测方法，包括如下步骤：

步骤1，数据预处理

对某电网公司提供的企业大用户2018年至2019期间的用电负荷数据进行预处理，原始数据为每小时记录j次用户的ABC三相电流、ABC三相电压、变压器容量、倍率、最大电流、最小电流、三项负荷不平衡率，每天记录一次当天的用电量，数据中对用户发生违约、窃电情况的当天数据进行了标注；样本数据包括窃电用户的数据和正常用户的数据，为了使样本数据更加贴近实际情况，样本数据中大部分为正常用电数据，小部分为存在窃电现象的用户用电数据；

数据预处理涉及两方面：数据清洗和标准化处理；一方面，由于数据可能出现重复、缺失甚至错误等问题，因此需要对数据进行预处理，主要是删除重复信息、填补缺失信息和纠正错误信息等；另一方面，在多指标评价体系中，由于各评价指标的性质不同，通常具有不同的量纲和数量级；当各指标间的数量级相差较大时，如果直接用原始指标值进行分析，就会突出数值水平较高的指标在综合分析中的作用，因此，为了保证结果的可靠性，需要对原始指标数据进行标准化处理，标准化处理包括以下内容：

1.1数据过滤

节假日和周末的用电量与工作日相比，会明显偏低。为了尽可能达到较好数据效果，过滤节假日和周末的用电数据；

1.2缺失值处理

发现原始计量数据存在缺失的现象，若将这些值直接抛弃掉，可能会造成数据效果较差；为了达到较好的建模效果，需要对缺失值进行处理；采用拉格朗日插值法对缺失值进行插补：首先从原始数据集中确定因变量和自变量，取出缺失值前后n个数据，根据取出来的2n个数据组成一组，然后采用拉格朗日多项式插值公式，对全部缺失数据依次进行插补，直到不存在缺失值为止；

1.3数据变换

(1)单日数据归一化

用电信息采集系统对ABC三相电流、ABC三相电压、变压器容量、变压器倍率、最大电流、最小电流、三项负荷不平衡率的采集频率为每小时采集4次，而用户用电量为每日采集一次；为保证数据维度相同，需要把每日数据规约为一条用电记录，两年共730条数据；

(2)加入用电量趋势下降指标

可考虑前后几天作为统计窗口期，考虑期间的下降趋势，利用电量做直线拟合得到的斜率作为衡量，如果斜率随时间不断下降，那该用户的窃漏电可能性就很大；对统计当天设定前后n天为统计窗口期，计算这2n+1天内的用电量趋势下降情况；首先计算这2n+1天中每天的用电量趋势，其中第i天的用电量趋势是考虑前后n天期间的用电量斜率，即：

其中，x_i为第i天的用电量趋势，f_l为第l天的用电量，

为前后n天用电量的平均值，

为前后n天索引序号的平均值；

步骤2，窃电识别模型构建

2.1特征提取构建专家样本数据集

如果直接分析ABC三相电流、ABC三相电压、变压器容量、变压器倍率、最大电流、最小电流、三项负荷不平衡率的话，会因数据庞杂，降低网络性能，增加系统负荷，而且各时刻的指标数据相互影响、关联；因此，需要对窃电指标数据进行处理，主成分分析PCA是最常用的线性降维方法，通过用几个主成分以线性组合方式表达原始的多个变量；主成分分析的思想是将n维特征映射到k维全新的正交特征上，n>k，这k维特征称为主元；主成分分析PCA通过某种线性投影，将高维的数据映射到低维的空间中表示，并期望在所投影的维度上数据的方差最大，以此使用较少的数据维度，同时保留住较多的原数据点的特性；

采用主成分分析PCA方法，将样本数据从高维数据中提取出特征数据但不对窃电行为标签项进行降维，设定当降维后数据项累计贡献率为95％时，则可认为降维后数据与降维前数据具有相近的数据效果；

降维后每一条数据为12维，在每条降维数据后附上窃电行为标签项，得到专家样本数据集，专家样本数据集每条数据为13维，其中前12维数据为特征项，第13维数据为标签项；

2.2窃电识别模型训练采用具有多输入单输出的三层BP神经网络作为窃电识别模型；

网络的输入向量为x＝(x₁,x₂,…,x_n)^T，隐含层输出向量为y＝(y₁,y₂,…,y_m)^T，输入层和隐含层间的权值矩阵为w_jk(j＝1,2,…,n，k＝1,2,…,m)，隐含层和输出层间的权值矩阵为w＝(w₁,w₂,…,w_k,…,w_m)^T，o为网络的输出；该BP网络的输入向量即特征提取阶段得到的降维后的特征向量；隐含层使用Relu(x)＝max(x,0)作为激活函数；

(1)数据划分

对专家样本数据集随机选取20％作为测试样本数据，剩下的80％作为训练样本数据；

(2)模型训练

使用训练样本数据训练窃电识别模型，BP神经网络输入层节点数为12，输出层节点数为1，隐含层节点数为10，使用自适应矩估计Adam方法求解，迭代5000次，得到结果为：

392次正常用电行为中被误判为窃电行为的情况累计11次，8次窃电行为被误判为正常用电的情况0次，整体分类准确率为97.2％；

(3)模型测试

利用测试样本数据测试窃电识别模型，得到结果为：

97次正常用电行为中被误判为窃电行为的情况累计2次，3次窃电行为被误判为正常用电的情况0次，整体分类准确率为98.0％。

和现有技术相比较，本发明具备如下优点：

(1)更准确

据统计，全国每年因窃电造成的损失都在200亿元左右，而被查获的窃电案件不足总窃电案件的30％，当前用电检查及反偷查漏工作主要依靠突击检查的手段来打击窃电行为，存在先天性的缺陷和不足。本发明的用电行为检测准确率高达97.2％-98.0％，并且在测试中没有发生一次窃电行为被误判为正常用电的情况。

(2)更及时

本发明通过现有的电力计量自动化系统采集到的用户用电数据信息，能在采集到用户用电数据信息后，及时自动检查判断用户是否存在窃漏电行为。

(3)更可靠

目前的各种反窃电技术仍给部分非法用户留下窃电的空间，随着用电信息采集系统在国内逐渐普及，窃电方式发展为设备智能化、手段专业化、行为隐蔽化、实施规模化的高科技窃电。本发明作为一种基于真实数据进行学习训练的窃电行为检测方法，可以与当前电力计量自动化系统相结合，通过实时采集到的用户用电数据信息更加可靠的甄别当前用户是否存在不法行为。

附图说明

图1BP神经网络窃电行为检测方法的网络拓扑结构。

图2BP神经网络窃电行为检测方法的训练数据混淆矩阵。

图3BP神经网络窃电行为检测方法的测试数据混淆矩阵。

具体实施方式

下面结合附图和实例对本发明进行详细描述。

以某电网公司提供的电力用户2018年～2019年的原始用电数据为研究对象，原始数据为每小时记录4次用户的ABC三相电流、ABC三相电压、变压器容量、倍率、最大电流、最小电流、三项负荷不平衡率数据，每天记录一次当天用电量，数据中对用户发生违约、窃电情况的当天数据进行了标注。本发明的目标是构建基于BP神经网络的窃电行为检测方法，实现用户窃电行为的检测，包括如下步骤：

步骤1，对用户2018～2019年的原始用电数据进行数据清洗。

先过滤掉节假日和周末的用电数据，其中2018年节假日和周末共计115天，2019年节假日和周末共计115天，过滤后共剩余400天的数据。再采用拉格朗日插值法对这400天的数据进行插补。

步骤2，对步骤1中清洗后的400天数据进行标准化处理。

先对单日数据进行归一化。用电信息采集系统对ABC三相电流、ABC三相电压、变压器容量、倍率、最大电流、最小电流、三项负荷不平衡率的数据采集频率为每小时采集4次，而用户用电量为每日采集1次，为了保证数据纬度相同，将当天采集的96次ABC三相电流、ABC三相电压、变压器容量、倍率、最大电流、最小电流、三项负荷不平衡率数据与采集的1次当天用电量规约为1条用电数据，规约后共得到400条用电数据。

在规约后的每一条用电数据中加入用电量趋势下降指标。对某条数据设定前后5条数据为统计窗口，计算这11条数据内的电量趋势下降情况，其中第i条数据的用电量趋势是考虑前后5条数据的用电量斜率，即：

其中，x_i为第i天的电量趋势，f_l为第l天的用电量，

为前后n天用电量的平均值，

为前后n天索引序号的平均值。

步骤3，特征提取得到专家样本数据集。

采用主成分分析PCA方法，对步骤2处理好的两年共400条工作日数据中除窃电行为标签项以外的数据项进行降维，设定当降维后数据项累计贡献率为95％时认为降维后数据与降维前数据具有相近的数据效果，最终得到降维后的数据为12维，在每条降维数据后附上窃电行为标签项，最终得到专家样本数据集，部分数据如表1所示。专家样本数据集每条数据为13维，其中前12维数据为特征项，第13维数据为标签项。

表1

特征项1	特征项2	特征项3	特征项4	特征项5	特征项6	特征项7	特征项8	特征项9	特征项10	特征项11	特征项12	标签项
													-52.54	-22.45	-15.84	-2.48	-8.92	13.81	3.68	-0.02	-1.49	-0.52	1.43	-5.27	0.00
-59.72	-18.93	-13.16	-9.16	1.86	5.20	-6.87	0.94	-0.47	-5.39	2.43	-3.32	0.00
													33.14	-23.57	6.25	12.56	3.91	-7.31	3.67	2.05	-4.92	-0.84	-1.20	0.88	1.00

步骤4，搭建BP神经网络的各层结构，使用基于Python的深度学习库Keras建立BP神经网络模型，设定BP神经网络的输入层节点数为12，输出层节点数为1，隐含层节点数为10，网络拓扑结构如图1所示。

网络的输入向量为x＝(x₁,x₂,…,x_n)^T，隐含层输出向量为y＝(y₁,y₂,…,y_m)^T，输入层和隐含层间的权值矩阵为w_jk(j＝1,2,…,n，k＝1,2,…,m)，隐含层和输出层间的权值矩阵为w＝(w₁,w₂,…,w_k,…,w_m)^T，o为网络的输出。该BP神经网络的输入向量即步骤3专家样本数据集前12项构成的特征向量，隐含层使用Relu(x)＝max(x,0)作为激活函数。

步骤5，对BP神经网络窃电识别模型进行训练、验证。

每次训练BP神经网络模型前，先使用Python中的random.shuffle()方法将专家样本数据集随机打乱，选取其中80％作为训练样本数据，其余20％作为测试样本数据，迭代次数为5000次。

BP神经网络窃电识别模型经训练样本数据训练后的混淆矩阵如图2所示，通过图2可见，392次正常用电行为中被正确判定为正常用电行为的情况累计381次，被误判为窃电行为的情况累计11次，8次窃电行为被正确判定为窃电行为的情况累计8次，被误判为正常用电行为的情况累计0次，整体分类准确率为(381+8)/(392+8)＝97.3％，正常用电被误判为窃电的情况占正常用电情况的2.8％，窃电行为被误判为正常用电行为的情况未发生。

再利用测试样本数据测试经训练样本数据训练后的BP神经网络窃电识别模型，得到混淆矩阵如图3所示，通过图3可见，97次正常用电行为中被正确判定为正常用电行为的情况累计95次，被误判为窃电行为的情况累计2次，3次窃电行为被正确判定为窃电行为的情况累计3次，被误判为正常用电行为的情况0次，整体分类准确率为(95+3)/(97+3)＝98.0％，正常用电被误判为窃电的情况占正常用电情况的2.1％，窃电行为被误判为正常用电行为的情况未发生。

通过分析可知，本发明基于BP神经网络的窃电检测方法的分类准确率较高，正常用电行为的误判率较低，窃电行为的漏判没有发生，基本能够满足电力应用的需求，对于窃电管理工作具有实际意义。

Claims

1.一种基于BP神经网络的窃电行为检测方法，其特征在于：包括如下步骤：

步骤1，数据预处理

对某电网公司提供的企业大用户2018年至2019期间的用电负荷数据进行预处理，原始数据为每小时记录j次用户的ABC三相电流、ABC三相电压、变压器容量、变压器倍率、最大电流、最小电流、三项负荷不平衡率，每天记录一次当天的用电量，数据中对用户发生违约、窃电情况的当天数据进行了标注；样本数据包括窃电用户的数据和正常用户的数据，为了使样本数据更加贴近实际情况，样本数据中大部分为正常用电数据，小部分为存在窃电现象的用户用电数据；

数据预处理涉及两方面：数据清洗和标准化处理，一方面，由于数据可能出现重复、缺失甚至错误问题，因此需要对数据进行预处理，主要是删除重复信息、填补缺失信息和纠正错误信息；另一方面，在多指标评价体系中，由于各评价指标的性质不同，通常具有不同的量纲和数量级；当各指标间的数量级相差较大时，如果直接用原始指标值进行分析，就会突出数值水平较高的指标在综合分析中的作用，因此，为了保证结果的可靠性，需要对原始指标数据进行标准化处理，标准化处理包括如下内容：

1.1数据过滤

节假日和周末的用电量与工作日相比，会明显偏低；为了尽可能达到较好数据效果，过滤节假日和周末的用电数据；

1.2缺失值处理

1.3数据变换

(1)单日数据归一化

用电信息采集系统对ABC三相电流、ABC三相电压、变压器容量、变压器倍率、最大电流、最小电流、三项负荷不平衡率的采集频率为每小时采集4次而用户用电量为每日采集一次；为保证数据维度相同，需要把每日数据规约为一条用电记录；

(2)加入用电量趋势下降指标

考虑前后几天作为统计窗口期，考虑期间的下降趋势，利用电量做直线拟合得到的斜率作为衡量，如果斜率随时间不断下降，那该用户的窃电可能性就很大；对统计当天设定前后n天为统计窗口期，计算这2n+1天内的用电量趋势下降情况；首先计算这2n+1天中每天的用电量趋势，其中第i天的用电量趋势是考虑前后n天期间的用电量斜率，即：

其中，x_i为第i天的用电量趋势，f_l为第l天的用电量，

为前后n天用电量的平均值，

为前后n天索引序号的平均值；

步骤2，窃电识别模型构建

2.1特征提取构建专家样本数据集

如果直接分析ABC三相电流、ABC三相电压、变压器容量、变压器倍率、最大电流、最小电流、三项负荷不平衡率，会因数据庞杂，降低网络性能，增加系统负荷，而且各时刻的指标数据相互影响、关联；因此，需要对窃电指标数据进行处理，主成分分析PCA是最常用的线性降维方法，通过用几个主成分以线性组合方式表达原始的多个变量；主成分分析PCA的思想是将n维特征映射到k维全新的正交特征上，n>k，这k维特征称为主元；主成分分析PCA通过某种线性投影，将高维的数据映射到低维的空间中表示，并期望在所投影的维度上数据的方差最大，以此使用较少的数据维度，同时保留住较多的原数据点的特性；

采用主成分分析PCA方法，将样本数据从高维数据中提取出特征数据，但不对窃电行为标签项进行降维，设定当降维后数据项累计贡献率为95％时，则认为降维后数据与降维前数据具有相近的数据效果；

降维后每一条数据为12维，在每条降维数据后附上窃电行为标签项得到专家样本数据集，专家样本数据集每条数据为13维，其中前12维数据为特征项，第13维数据为标签项；

2.2窃电识别模型训练

采用具有多输入单输出的三层BP神经网络作为窃电识别模型；

网络的输入向量为x＝(x₁,x₂,…,x_n)^T，隐含层输出向量为y＝(y₁,y₂,…,y_m)^T，输入层和隐含层间的权值矩阵为w_jk，j＝1,2,…,n，k＝1,2,…,m，隐含层和输出层间的权值矩阵为w＝(w₁,w₂,…,w_k,…,w_m)^T，o为网络的输出；该BP网络的输入向量即特征提取阶段得到的降维后的特征向量；隐含层使用Relu(x)＝max(x,0)作为激活函数；

(1)数据划分

(2)模型训练

使用训练样本训练窃电识别模型，BP神经网络输入层节点数为12，输出层节点数为1，隐含层节点数为10，使用自适应矩估计Adam方法求解，迭代5000次，得到结果为：

392次正常用电行为中被误判为窃电行为的情况累计11次，8次窃电行为被误判为正常用电行为的情况0次，整体分类准确率为97.2％；

(3)模型测试

利用测试样本测试窃电识别模型，得到结果为：

97次正常用电行为中被误判为窃电行为的情况累计2次，3次窃电行为被误判为正常用电行为的情况0次，整体分类准确率为98.0％。