CN108985330B

CN108985330B - 一种自编码网络及其训练方法、异常用电检测方法和系统

Info

Publication number: CN108985330B
Application number: CN201810610684.5A
Authority: CN
Inventors: 王非; 陈文娴; 张灿
Original assignee: Huazhong University of Science and Technology
Current assignee: Huazhong University of Science and Technology
Priority date: 2018-06-13
Filing date: 2018-06-13
Publication date: 2021-03-26
Anticipated expiration: 2038-06-13
Also published as: CN108985330A

Abstract

本发明公开了一种自编码网络及其训练方法、异常用电检测方法和系统，其中训练方法包括：采用滑动窗口对样本电力数据进行拼接，得到训练样本集，对训练样本集中包含被勘察用户的训练样本进行标记，得到有标签样本，未被标记的训练样本为无标签样本；利用无标签样本对自编码网络进行无监督训练，得到自编码网络的初始化参数，然后将自编码网络的编码层得到的离散的类别标签当作分类器，利用有标签样本对分类器进行有监督训练，更新编码层参数，得到训练好的自编码网络。然后利用训练好的自编码网络对待测用户的电力数据进行检测，判断待测用户是否异常用电。本发明能够在低密度电力数据中挖掘异常信息，避免噪声数据干扰，提高异常检测准确度。

Description

一种自编码网络及其训练方法、异常用电检测方法和系统

技术领域

本发明属于用电行为分析技术领域，更具体地，涉及一种自编码网络及其训练方法、异常用电检测方法和系统。

背景技术

异常用电检测是电网安全用电的重要支撑。在电网运行中，无论计量装置故障或用户窃电，均会导致无法采集用户真实的用电数据，这些用电数据称为异常用电数据。用电数据异常会影响电网的调度与管理，以及供电安全，并使电力部门承受巨大损失。因此，对异常用电检测具有重要意义，通过主动发现用电数据异常，能够及时对异常的计量装置维修或窃电用户进行补缴电费和惩罚，既能够降低电力损失，更重要的是保证电网的运行安全。

伴随智能电网的建成，电力数据在当今互联网背景下体现了大数据的关键要素：体量大、类型多。面对海量用电数据，虽然电力部门采用统计学以及数据挖掘相关方法进行初步检测，但误报很多，凸显“数据海量，信息匮乏”的问题。当前异常用电检测方法仍存在以下问题：

(1)海量用电数据易受噪声干扰，现有方法检测效率太低，出现大量误判。

(2)由于人力物力受限，现场勘查抽检效率较低，大部分为无标签样本，有标签的样本较少，监督学习只能用于小样本训练，对大规模用电数据其条件难以满足。同时，异常样本远远小于正常样本，样本严重不均衡，无论监督学习还是无监督学习方法，模型的训练存在很大难度，容易导致误判。

(3)异常用电种类繁多，且表现形式分散、模糊，人工特征建模困难，人工建立的特征模型精度无法满足应用要求。而且现有的异常用电特征判定阈值的设定主观性太强，可伸缩性较差，对于用户用电情况多样化难以进行区分。

可见，传统的检测方法已经无法满足需求，如何对用电大数据进行深入分析挖掘，有效检测异常用电，已成为电网发展的必然要求。

发明内容

针对现有技术的以上缺陷或改进需求，本发明提供了一种自编码网络及其训练方法、异常用电检测方法和系统，由此解决现有技术存在模型的训练存在很大难度、检测效率太低，出现大量误判的技术问题。

为实现上述目的，按照本发明的一个方面，提供了一种自编码网络的训练方法，包括：

(1)获取样本电力数据，对样本电力数据进行预处理；

(2)采用滑动窗口对预处理后的样本电力数据进行拼接，得到训练样本集，根据现场勘察结果对训练样本集中包含被勘察用户的训练样本进行标记，得到有标签样本，训练样本集中未被标记的训练样本为无标签样本；

(3)利用无标签样本对自编码网络进行无监督训练，得到自编码网络的初始化参数，然后将自编码网络的编码层得到的离散的类别标签当作一个分类器，利用有标签样本对分类器进行有监督训练，更新编码层参数，得到训练好的自编码网络。

进一步地，预处理包括过滤噪声数据、填补缺失数据以及归一化。

进一步地，自编码网络的隐藏层包括一个离散的类别标签和一个连续的高斯变量，所述自编码网络还包括噪声层。

进一步地，步骤(2)包括：

采用滑动窗口在预处理后的样本电力数据中滑动，得到k天的数据，k天的数据包括k天的三相电压、三相电流、总有功功率和总功率因数，将k天的三相电压、三相电流、总有功功率和总功率因数进行拼接，得到训练样本集，根据现场勘察结果对训练样本集中包含被勘察用户的训练样本进行标记，得到有标签样本，训练样本集中未被标记的训练样本为无标签样本。

进一步地，步骤(3)包括：

利用无标签样本对自编码网络的每一层进行无监督训练，将每一层的训练结果作为下一层的输入，得到自编码网络的初始化参数，采用随机梯度下降算法结合BP反向传播算法对初始化参数进行调整，得到最优的自编码网络，然后将自编码网络的编码层得到的离散的类别标签当作一个分类器，利用有标签样本对分类器进行有监督训练，更新编码层参数，得到训练好的自编码网络。

按照本发明的另一方面，提供了一种训练好的自编码网络，所述训练好的自编码网络由上述一种深度自编码网络的训练方法训练得到。

按照本发明的另一方面，提供了一种基于自编码网络的异常用电检测方法，包括：

(1)获取样本电力数据，对样本电力数据进行预处理；

(3)利用无标签样本对自编码网络进行无监督训练，得到自编码网络的初始化参数，然后将自编码网络的编码层得到的离散的类别标签当作一个分类器，利用有标签样本对分类器进行有监督训练，更新编码层参数，得到训练好的自编码网络；

(4)利用训练好的自编码网络对待测用户的电力数据进行检测，判断待测用户是否异常用电。

进一步地，步骤(4)包括：

将待测用户的电力数据进行预处理后输入训练好的自编码网络，得到类别标签，对于类别标签沿横坐标取最大值索引，若最大值索引为1，表明检测为异常用电，若最大值索引为0，表明检测为正常用电。

按照本发明的另一方面，提供了一种基于自编码网络的异常用电检测系统，其特征在于，包括：

数据预处理模块，用于获取样本电力数据，对样本电力数据进行预处理；

样本标记模块，用于采用滑动窗口对预处理后的样本电力数据进行拼接，得到训练样本集，根据现场勘察结果对训练样本集中包含被勘察用户的训练样本进行标记，得到有标签样本，训练样本集中未被标记的训练样本为无标签样本；

模型训练模块，用于利用无标签样本对自编码网络进行无监督训练，得到自编码网络的初始化参数，然后将自编码网络的编码层得到的离散的类别标签当作一个分类器，利用有标签样本对分类器进行有监督训练，更新编码层参数，得到训练好的自编码网络；

异常检测模块，用于利用训练好的自编码网络对待测用户的电力数据进行检测，判断待测用户是否异常用电。

进一步地，异常检测模块将待测用户的电力数据进行预处理后输入训练好的自编码网络，得到类别标签，对于类别标签沿横坐标取最大值索引，若最大值索引为1，表明检测为异常用电，若最大值索引为0，表明检测为正常用电。

总体而言，通过本发明所构思的以上技术方案与现有技术相比，能够取得下列有益效果：

(1)本发明无需人工提取用电特征，解决人工特征建模精度无法满足需求的难题，并自适应电力数据仅有小样本的有标签数据、正常异常样本分布不均衡的情况，能够在低密度电力数据中挖掘异常信息的，同时避免噪声数据的干扰，提高异常检测的准确度。

(2)本发明通过海量无标签数据进行网络的无监督学习，利用深度学习网络的多层非线性网络实现自动提取特征，网络的自适应性能有效解决特征提取困难、阈值选取主观性强等问题。并在编码层加入噪声层，防止网络学习过拟合。在此基础上，充分利用小样本的有标签样本进行网络的有监督学习。本发明既充分利用无标签和有标签样本，又能自动提取特征，在低密度电力数据中挖掘异常信息的同时避免噪声数据的干扰，提高异常检测的准确度，减小误判，降低现场排查的成本，保证电力公司的高效运营。

附图说明

图1是本发明实施例提供的总体流程图；

图2是本发明实施例提供的对样本电力数据进行预处理的流程图；

图3是本发明实施例提供的自编码网络的结构图；

图4是本发明实施例提供的训练网络的流程图；

图5是本发明实施例提供的异常用电检测的流程图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。此外，下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。

如图1所示，一种基于自编码网络的异常用电检测方法，包括：

(1)获取样本电力数据，对样本电力数据进行预处理；

如图2所示，对样本电力数据进行预处理包括：

收集的样本电力数据包括三相电压、三相电流、总有功功率、总功率因数，预处理包括过滤噪声数据、填补缺失数据以及归一化。

过滤噪声数据主要包括超出正常用电计量范围的极大值，持续性为零的极小值以及负数值，极大值定义为：

极大值＝Q3+(Q3-Q1)*5

其中，Q3为四分之三分位点，Q1为四分之一分位点。

填补缺失数据主要采用三次样条插值法进行填充。

归一化采用最简单的线性比例变换的归一化方法，将全部数据映射到[0，1]区间，x_i为原始数据，x′_i为归一化之后的数据，公式如下：

x′_i＝x_i/x_max

其中，功率因数的标准范围在[0，1]区间，无需进行归一化处理；电压这种线性变化参数的x_max取对应的额定值，不同的接线方式和计量方式对应额定电压不同，三相三线高供高计、三相四线高供高计、三相四线高供低计的额定电压分别为110V、60V、235V；电流和功率这种非线性变化参数的x_max取极大值。

步骤(2)包括：

采用滑动窗口对预处理后的样本电力数据进行拼接，由于一天四种电气参数并行拼接的样本大小为8×24，采用滑动窗口的方式依次取三天的数据，按照三天的三相电压、三相电流、总有功功率、总功率因数这种方式进行拼接，构造成576维的向量样本，滑动窗口步长为一，上下两个训练样本之间存在两天的数据重叠。得到训练样本集，根据现场勘察结果对训练样本集中包含被勘察用户的训练样本进行标记，得到有标签样本，训练样本集中未被标记的训练样本为无标签样本。

如图3所示，自编码网络全部采用全连接层，编码器进行特征的逐层提取，解码器用于对样本的重构。第一层到第五层组成编码部分，第六层到第八层组成解码部分，其中第一层和第七层对应，神经元个数均为1000，第三层和第八层对应，神经元个数同为1000。

编码层每一层编码网络对前一层提取的特征进行学习，逐层训练得到编码信息，这个编码信息就是对原始输入数据的表示。然后，将编码信息输入解码层进行解码，最理想状况下，解码输出和原始输入相等，完整的重构输入。整个网络最重要的是编码网络的输出，整个编码器的输出即代表原始信息的主要特征，这个特征用于分类。只有解码输出和编码输入的误差最小化，实现完整的复现，才能说明在自编码过程中获取输入数据的最重要成分，即编码器输出特征能够最大程度的代表原始数据。

将自编码网络的中间隐藏层设计为一个离散分布类别标签信息和一个连续分布的高斯潜变量信息两个构成，用来进行分类和用电特征提取。

假设训练样本为x，y为类别标签，z为隐变量，Cat(y)为类别标签y满足的离散分布，N(z|0，I)为隐变量z满足的连续正太高斯分布。

p(y)＝Cat(y)

p(z)＝N(z|0，I)

x～p(x|z，y)

其中，隐变量的维度决定了电力数据隐含的分布的维度，优选的设定为5维，对应图3的第五层，类标签的神经元个数为2，隐变量神经元的个数为5。

中间层和解码层之间加入融合层，将离散分布类标签信息和连续分布潜变量信息两个进行融合，再进行解码。

其中，融合层主要采用沿轴相接的方式进行拼接，对应图3的第六层。

需要对编码器加入噪声层，增强编码器的约束性，主要在编码器的每一个全连接层后加上一个噪声层。噪声层为数据施加加性高斯噪声，主要起正则化作用，用于克服过拟合。

其中，噪声优选的设定为均值为0，标准差为0.5的高斯噪声，对应图3的第二层和第四层。

如图4所示，步骤(3)包括：

利用无标签样本对自编码网络进行无监督训练，首先对网络的每一层采用无监督学习方法预训练，并将训练结果作为下一层的输入，得到整个自编码网络的初始化参数；然后采用随机梯度下降算法结合BP反向传播算法对初始化的自编码网络的所有权值和偏差进行调整，得到最优的自编码网络；

假设输入为训练样本x，w和b为每一层对应的权值矩阵和偏置向量，f表示激活函数，则整个网络每一层训练如下：

第一层编码信息为a⁽¹⁾，表示如下：

a⁽¹⁾＝f(w⁽¹⁾*x+b⁽¹⁾)

第二层加噪声，输出信息为a⁽²⁾，表示如下：

a⁽²⁾＝a⁽¹⁾+GaussianNoise(0，0.5)

第三层编码信息为a⁽³⁾，表示如下：

a⁽³⁾＝f(w⁽³⁾*a⁽²⁾+b⁽³⁾)

第四层加噪声，输出信息为a⁽⁴⁾，表示如下：

a⁽⁴⁾＝a⁽³⁾+GaussianNoise(0，0.5)

第五层编码信息为类标签y和隐变量z，表示如下：

y＝f(w⁽⁵¹⁾*a⁽⁴⁾+b⁽⁵¹⁾)

z＝f(w⁽⁵²⁾*a⁽⁴⁾+b⁽⁵²⁾)

第六层融合信息为a⁽⁶⁾，表示如下：

a⁽⁶⁾＝concatenate(y，z)

第七层解码信息为a⁽⁷⁾，表示如下：

a⁽⁷⁾＝f(w⁽⁷⁾*a⁽⁶⁾+b⁽⁷⁾)

第八层解码信息为

表示如下：

其中，通过网络解码输出

和原始输入x的误差对网络参数进行调整，为了避免过拟合，需要在损失函数中加入正则项，主要加入编码和解码网络的权值矩阵w，w⁽ⁱ⁾表示对应第i层的权值矩阵，ε为正则化项的系数，损失函数表示如下：

其中，自编码网络每一层的激活函数优选的设定为ReLU函数，公式为：

f(x)＝max(0，x)

主要原因在于ReLU是线性的，随机梯度下降的收敛速度会比sigmoid和tanh函数快，而且ReLU只需要一个阈值就可以得到激活值，不用去计算复杂的运算。

将自编码器的编码层输出的离散类别标签当作一个分类器，利用有标签样本进行有监督训练，微调整编码层参数。

基于一个二分类模型，输入有标签真实电力数据，通过有标签样本训练输出的类别和真实类别的逻辑回归分类误差，对编码器生成类标签q(y|x)进行优化训练；

逻辑回归的损失函数如下：

其中，m表示样本数，y’表示真实类别，0为正常，1为异常，h_θ(x)表示预测为1的概率，i表示第i个样本。

判断网络参数的调整是否满足需求，若满足则训练结束，否则继续迭代进行网络训练，调整参数。

其中，为了避免学习率太小，导致网络每一次训练的优化幅度较小，网络收敛速度很慢；学习率太大，导致在多次训练之后，网络就会在局部最优点附近振荡，难收敛到最优值。网络每一次训练的学习率设定为动态学习率，控制参数更新的速度，学习率随着训练次数的增加会降低，保证网络能够在训练初期快速收敛，在训练后期缓慢收敛到最优解，学习率公式如下：

lr＝max(0，start_lr*(epochs-epoch+1)/epochs)

start_lr为初始学习率，优选的设定为0.001，epochs为训练总次数，优选的设定为100，epoch为当前训练次数。

如图5所示，步骤(4)包括：

本领域的技术人员容易理解，以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种自编码网络的训练方法，其特征在于，包括：

(1)获取样本电力数据，对样本电力数据进行预处理；

所述自编码网络包括编码器和解码器，编码器为编码层，编码器依次包括全连接层、噪声层、全连接层、噪声层和隐藏层，隐藏层包括一个离散的类别标签和一个连续的高斯变量，解码器依次包括融合层和两个全连接层；

所述自编码网络每一层训练如下：

第一层编码信息为a⁽¹⁾，表示如下：

a⁽¹⁾＝f(w⁽¹⁾*x+b⁽¹⁾)

第二层加噪声，输出信息为a⁽²⁾，表示如下：

a⁽²⁾＝a⁽¹⁾+GaussianNoise(0，0.5)

第三层编码信息为a⁽³⁾，表示如下：

a⁽³⁾＝f(w⁽³⁾*a⁽²⁾+b⁽³⁾)

第四层加噪声，输出信息为a⁽⁴⁾，表示如下：

a⁽⁴⁾＝a⁽³⁾+GaussianNoise(0，0.5)

第五层编码信息为类别标签y和隐变量z，表示如下：

y＝f(w⁽⁵¹⁾*a⁽⁴⁾+b⁽⁵¹⁾)

z＝f(w⁽⁵²⁾*a⁽⁴⁾+b⁽⁵²⁾)

第六层融合信息为a⁽⁶⁾，表示如下：

a⁽⁶⁾＝concatenate(y，z)

第七层解码信息为a⁽⁷⁾，表示如下：

a⁽⁷⁾＝f(w⁽⁷⁾*a⁽⁶⁾+b⁽⁷⁾)

第八层解码信息为

表示如下：

其中，通过网络解码输出

和原始输入训练样本x的误差对网络参数进行调整，为了避免过拟合，需要在损失函数中加入正则项，w和b为每一层对应的权值矩阵和偏置向量，f表示激活函数，w⁽ⁱ⁾表示第i层的权值矩阵，ε为正则化项的系数，损失函数表示如下：

2.如权利要求1所述的一种自编码网络的训练方法，其特征在于，所述预处理包括过滤噪声数据、填补缺失数据以及归一化。

3.如权利要求1或2所述的一种自编码网络的训练方法，其特征在于，所述步骤(2)包括：

4.如权利要求1或2所述的一种自编码网络的训练方法，其特征在于，所述步骤(3)包括：

5.一种基于自编码网络的异常用电检测方法，其特征在于，包括：

(1)获取样本电力数据，对样本电力数据进行预处理；

(3)利用无标签样本对自编码网络进行无监督训练，得到自编码网络的初始化参数，然后将自编码网络的编码层得到的离散的类别标签当作一个分类器，利用有标签样本对分类器进行有监督训练，更新编码层参数，得到训练好的自编码网络；所述自编码网络包括编码器和解码器，编码器为编码层，编码器依次包括全连接层、噪声层、全连接层、噪声层和隐藏层，隐藏层包括一个离散的类别标签和一个连续的高斯变量，解码器依次包括融合层和两个全连接层；

(4)利用训练好的自编码网络对待测用户的电力数据进行检测，判断待测用户是否异常用电；

所述自编码网络每一层训练如下：

第一层编码信息为a⁽¹⁾，表示如下：

a⁽¹⁾＝f(w⁽¹⁾*x+b⁽¹⁾)

第二层加噪声，输出信息为a⁽²⁾，表示如下：

a⁽²⁾＝a⁽¹⁾+GaussianNoise(0，0.5)

第三层编码信息为a⁽³⁾，表示如下：

a⁽³⁾＝f(w⁽³⁾*a⁽²⁾+b⁽³⁾)

第四层加噪声，输出信息为a⁽⁴⁾，表示如下：

a⁽⁴⁾＝a⁽³⁾+GaussianNoise(0，0.5)

第五层编码信息为类别标签y和隐变量z，表示如下：

y＝f(w⁽⁵¹⁾*a⁽⁴⁾+b⁽⁵¹⁾)

z＝f(w⁽⁵²⁾*a⁽⁴⁾+b⁽⁵²⁾)

第六层融合信息为a⁽⁶⁾，表示如下：

a⁽⁶⁾＝concatenate(y，z)

第七层解码信息为a⁽⁷⁾，表示如下：

a⁽⁷⁾＝f(w⁽⁷⁾*a⁽⁶⁾+b⁽⁷⁾)

第八层解码信息为

表示如下：

其中，通过网络解码输出

6.如权利要求5所述的一种基于自编码网络的异常用电检测方法，其特征在于，所述步骤(4)包括：

7.一种基于自编码网络的异常用电检测系统，其特征在于，包括：

模型训练模块，用于利用无标签样本对自编码网络进行无监督训练，得到自编码网络的初始化参数，然后将自编码网络的编码层得到的离散的类别标签当作一个分类器，利用有标签样本对分类器进行有监督训练，更新编码层参数，得到训练好的自编码网络；所述自编码网络包括编码器和解码器，编码器为编码层，编码器依次包括全连接层、噪声层、全连接层、噪声层和隐藏层，隐藏层包括一个离散的类别标签和一个连续的高斯变量，解码器依次包括融合层和两个全连接层；所述自编码网络每一层训练如下：

第一层编码信息为a⁽¹⁾，表示如下：

a⁽¹⁾＝f(w⁽¹⁾*x+b⁽¹⁾)

第二层加噪声，输出信息为a⁽²⁾，表示如下：

a⁽²⁾＝a⁽¹⁾+GaussianNoise(0，0.5)

第三层编码信息为a⁽³⁾，表示如下：

a⁽³⁾＝f(w⁽³⁾*a⁽²⁾+b⁽³⁾)

第四层加噪声，输出信息为a⁽⁴⁾，表示如下：

a⁽⁴⁾＝a⁽³⁾+GaussianNoise(0，0.5)

第五层编码信息为类别标签y和隐变量z，表示如下：

y＝f(w⁽⁵¹⁾*a⁽⁴⁾+b⁽⁵¹⁾)

z＝f(w⁽⁵²⁾*a⁽⁴⁾+b⁽⁵²⁾)

第六层融合信息为a⁽⁶⁾，表示如下：