CN111710150A

CN111710150A - 一种基于对抗自编码网络的异常用电数据检测方法

Info

Publication number: CN111710150A
Application number: CN202010406067.0A
Authority: CN
Inventors: 冯隆基; 徐述; 吴静; 钱勇; 张继东; 楚成博; 王振宇
Original assignee: Nanjing Power Supply Co of State Grid Jiangsu Electric Power Co Ltd
Current assignee: Nanjing Power Supply Co of State Grid Jiangsu Electric Power Co Ltd
Priority date: 2020-05-14
Filing date: 2020-05-14
Publication date: 2020-09-25

Abstract

本发明涉及一种基于对抗自编码网络的异常用电数据检测方法，本发明基于对抗自编码网络的半监督学习模型应用到异常用电数据检测中，基于AAE网络的半监督模型在VAE网络实现自动特征提取、结合统计学充分学习无标签数据的基础上，利用GAN的对抗网络对编码部分进行约束，优化中间变量，对中间隐变量进行训练，既保留分类信息又能够约束隐变量的空间分布，模型的分类性能更好。本发明适用于类标签单一的异常用电数据检测，提高异常检测的准确度。

Description

一种基于对抗自编码网络的异常用电数据检测方法

技术领域

本发明涉及计算机系统数据处理以及人工智能领域，尤其是一种适用于电力部门进行异常用电数据的管理技术，具体地说是一种基于对抗自编码网络的异常用电数据检测方法。

背景技术

随着国家电网公司确立的用电信息采集系统“全覆盖、全采集、全费控”的目标逐步实现，以信息化、自动化、互动化为基本技术特征的智能电网进入全面建成阶段。伴随智能电网的建成，电力数据在当今互联网背景下体现了大数据的关键要素：体量大、类型多，电力大数据技术的应用成为电力行业智能化发展的必然要求。在电网的实际运行中，部分计量设备受多种因素影响，会发生故障导致无法采集用户真实的用电数据，这些用电数据称为异常用电数据。造成用电数据异常主要包含两大类原因，一是计量装置故障，主要受自然天气和传感器故障、传输线路故障等影响导致设备损坏无法正确的采集；二是用户窃电，属于人为破坏计量装置使其无法计量真实的用电数据。无论哪种原因导致用电数据异常都会影响电网的调度与管理，以及供电安全，并使电力部门承受巨大损失。因此，对异常用电数据的检测具有重要意义，通过主动发现用电数据异常，能够及时对异常的计量装置维修或窃电用户进行补缴电费和惩罚，既能够降低电力损失，更重要的是保证电网的运行安全。

目前，定期巡检仍然是排查异常用电的主要方式，虽然电力部门采用统计学以及数据挖掘相关方法进行初步检测，但误报很多，凸显“数据海量，信息匮乏”的问题。传统的检测方法已经无法满足需求，如何对低密度的用电大数据进行深入分析挖掘，有效的检测异常用电数据，已成为电网业务模式从传统电网向智能电网电力大数据关键技术方向转化的必然要求。

发明内容

本发明的目的是为了提供一种基于对抗自编码网络的异常用电数据检测方法，建立符合电力数据特点的检测模型，提高异常检测的准确度。

为解决以上技术问题，本发明的技术方案为：一种基于对抗自编码网络的异常用电数据检测方法，其步骤为：

步骤A：建立基于对抗自编码网络的半监督模型：基于VAE自编码网络，将编码器和解码器之间的中间隐藏层设置由离散分布的类标签信息和连续分布的隐变量信息两个构成，同时在中间隐藏层两个信息上分别加上一个对抗网络GAN用于约束所学习的空间分布；编码器等效于GAN的生成网络，GAN的判别网络判别中间隐藏层信息是编码器输出还是真实分布；

步骤B：对建立的基于对抗自编码网络的半监督模型进行训练，具体为：

步骤B1：基于VAE网络，输入无标签的电力数据进行无监督学习，编码器q(z,y|x)预测类标签y和隐变量z，解码器p(x|z,y)用于对电力数据的重构，采用随机梯度下降更新自编码网络参数；

步骤B2：基于GAN网络，先更新两个判别网络的参数，区分编码器生成的q(z,y|x)和真实的隐变量先验分布p(z)、类标签分布p(y)，然后更新生成网络参数，即编码器，让判别网络难以区分；

步骤B3：基于一个二分类模型，输入有标签真实电力数据，通过有标签样本训练输出的类别和真实类别的逻辑回归分类误差对编码器生成类标签q(y|x)进行优化训练；

步骤B4：重复步骤B1、B2、B3直至收敛；

步骤C：基于训练好的基于对抗自编码网络的半监督模型对电力数据进行正常或异常分类实现异常用电检测。

按以上方案，所述步骤A中，编码器采用的是DNN网络进行编码；编码器作为自编码网络的一部分，应用CNN网络编码之后解码恢复的数据和真实数据差异较大，所以选择结构更简单的DNN网络，保证细节信息在网络中保留。

按以上方案，所述步骤B3中，还包括对真实的类标签分布p(y)、隐变量先验分布p(z)进行噪声添加的步骤，增强编码器输出的类标签和隐变量的自适应性；为了避免在对抗训练过程中对抗网络出现过拟合，需要对真实的类别分布、高斯分布加高斯噪声，增强编码器输出的隐变量的自适应性；优选的，可采用两种噪声添加模式，一种是在训练之前直接对样本加高斯噪声，另一种是加入噪声层，即在全连接网络每一层后面加一个噪声层。

按以上方案，所述步骤A前还包括对用电数据进行预处理的步骤，用电数据预处理方法为：过滤噪声数据、添补缺失数据和统一规整数据，对数据进行预处理可确保较高质量的用电数据输出，提高异常用电数据检测精准度。

按以上方案，所述过滤噪声数据的方法具体为：在电力大数据中的噪声数据有超出正常用电计量范围的极大值，持续性为零的极小值以及负数值；持续性全为零或存在负数值直接过滤，对于极大值V_max，其阈值按照箱形图原理设定如下：

V_max＝f₃+(f₃-f₁)·5 (1)

其中f₃为四分之三分位点，f₁为四分之一分位点，高于该阈值需要过滤。

按以上方案，所述添补缺失数据的方法具体为：每一个用户每一天的每个整点时刻都有对应的电气参数读数，若一天缺失不严重，则采用三次样条插值法进行填充，若缺失严重，则将当天数据过滤，其中，缺失是否严重定义为一天电气参数缺失超过四个点数。

按以上方案，所述统一规整数据的方法具体为：采用线性比例变换的归一化方法，将全部数据映射到[0,1]区间：

x_j＝x_i/x_max (2)

其中，x_i为原始数据，x_j为归一化之后的数据，电压和功率因数这种线性变化的参数的x_max取对应的额定值，电流和功率的非线性变化的参数的x_max取公式(1)中设定的极大值。

本发明具有如下有益效果：

针对当前智能电网中异常用电数据检测存在有标签样本少、正常和异常用电在特征指标上交叠难以区分的难题，本发明将一种基于对抗自编码网络(Adversarial Auto-Encoders，AAE)的半监督学习模型应用到异常用电数据检测中，基于AAE网络的半监督模型结合了VAE和GAN两种生成式模型的优点，在VAE网络实现自动特征提取、结合统计学充分学习无标签数据的基础上，利用GAN的对抗网络对编码部分进行约束，优化中间变量，对中间隐变量进行训练，能够既保留分类信息又能够约束隐变量的空间分布，模型的分类性能更好，解决类标签信息少、隐变量分布难以拟合的难题，适用于类标签单一的异常用电数据检测。该模型对输入无需任何经典理论，泛化能力极其强，对于以后智能采集设备采集的各种电力数据，均能适应，实现异常检测；

本发明基于用电信息采集系统采集的历史用电数据，分析用电数据的特性，建立符合电力数据特点的检测模型，在低密度电力数据中挖掘异常信息的同时避免噪声数据的干扰，提高异常检测的准确度，降低现场排查的成本，保证电力公司的高效运营。

附图说明

图1为本发明实施例中变分自编码器的概率模型示意图；

图2为本发明实施例中对抗自编码网络的结构示意图；

图3为本发明实施例中对抗自编码网络的流程示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，下面结合附图和具体实施例对本发明作进一步详细说明。

本发明为一种基于对抗自编码网络的异常用电数据检测方法，其步骤为：

步骤B4：重复步骤B1、B2、B3直至收敛；

下面针对上述步骤进行具体细化：

1.在步骤A前需进行用电数据预处理

历史用电数据的预处理是异常用电数据检测的基础，预处理方法是否恰当和异常用电数据检测是否精准有着紧密联系。历史用电数据来自供电局的远程采集系统，采集终端容易出现故障，比如各电气量采集不同步、采集频率出现差错、数据通讯传播出现延时、数据部分缺失等，为了确保较高质量的用电数据输出，在异常用电数据进行模型训练之前，首先必须对历史用电数据进行预处理操作，主要的预处理方法有：过滤噪声数据、添补缺失数据、统一规整数据。

(1)噪声数据处理

由于电力计量系统的复杂性导致采集过程中数据含有大量噪声，噪声数据会影响后续数据挖掘的精度和性能，在模型训练时需要对其进行过滤，在电力大数据中的噪声数据主要有超出正常用电计量范围的极大值，持续性为零的极小值以及负数值。持续性全为零或存在负数值直接过滤，对于极大值V_max，其阈值按照箱形图原理设定如下：

V_max＝f₃+(f₃-f₁)·5 (1)

(2)缺失数据处理

电力采集系统采集数据过程中，由于计量设备或是传输设备故障会导致采集数据存在缺失，数据缺失是无法避免并且经常发生的，是造成数据不完整的重要因素，对于缺失数据，通常有两种处理方法：过滤和填充。每一个用户每一天的每个整点时刻都有对应的电气参数读数，若一天缺失不严重，则采用三次样条插值法进行填充，若缺失严重，则将当天数据过滤，其中，缺失是否严重定义为一天电气参数缺失超过四个点数。

(3)归一化数据处理

一方面，不同的电气参数量纲均不相同；另一方面，即使是同一电气参数，不同的接线方式和计量方式，也会存在差异性，比如说三相四线高供高计和高供低计的额定电压分别为60V、235V。因此，造成的问题是不同数量级的电气参数对模型的影响大小不同，小的影响力度会完全被大的覆盖，等同于对输入的电气参数给予不同的权重，极其不科学。所以需要进行归一化，将有量纲的表达式经过变换化为无量纲的表达式，将数据映射到同一范围之内处理，保证所有输入的电气参数初始权重相同。考虑到电压和功率属于线性平稳变化，本文没有采用极差变换法或均值标准法，而是采用最简单的线性比例变换的归一化方法，将全部数据映射到[0,1]区间：

x_j＝x_i/x_max (2)

其中，x_i为原始数据，x_j为归一化之后的数据，电压和功率因数这种线性变化的参数的x_max取对应的额定值，电流和功率这种非线性变化的参数的x_max取公式(1)中设定的极大值。

2.基于对抗自编码网络的半监督模型

针对当前智能电网中异常用电数据检测存在有标签样本少、正常和异常用电在特征指标上交叠难以区分的难题，本发明将一种基于对抗自编码网络(Adversarial Auto-Encoders，AAE)的半监督学习模型应用到异常用电数据检测中，充分发挥自编码网络自动特征提取的优势，并利用半监督模型解决小样本学习的难题。

2.1变分自编码网络

AAE中的自编码结构类似变分自编码网络(Variational Auto-Encoders，VAE)，这是一种将深度学习和统计学习结合的生成式模型，基于半监督的生成式模型相对于判别式模型能够更好的对异常用电数据进行检测。在有标签数据极少的情况下，变分自编码网络能够在深度学习基础上，从统计学角度充分利用未标记样本估计总体分布，等同于最大期望算法中算后验概率的一种方法，能更好的进行异常用电数据检测。

VAE是一种无监督学习方法，和自编码网络一样从样本x编码生成隐变量z再由z解码恢复y，不同的是变分自编码中隐变量z服从一定的概率分布p(z)，比如高斯分布z～N(0,I)，然后从p(z)中采样z，经由分布p(x|z)生成y，概率表示如下：

z:Enc(x)＝q(z|x) (3)

y:Dec(z)＝p(x|z) (4)

VAE也是一种生成式模型，见图1概率模型，从贝叶斯的角度来说明，先验分布p(z)表示z的原始分布，边缘分布p(x)表示由z生成的x满足的分布，需要最大化这个分布，后验概率p(z|x)表示从原始数据中提取隐变量信息，由于难以学习，一般用编码器编码的后验概率q(z|x)表示为近似后验概率分布，似然函数p(x|z)表示z重构x，即解码器。

VAE的损失函数定义为极大似然估计(即重构误差)和后验概率的正则化项之和，由公式(5)计算：

其中，

L_后验＝-D_KL(q(z|x)||p(z|x)) (7)

D_KL是近似后验概率分布和真实后验概率之间的KL散度。

2.2基于对抗自编码网络的异常用电检测

AAE中的自编码结构类似变分自编码网络VAE，但AAE网络不同于VAE，VAE网络通过参数变换、变分推理等进行贝叶斯推导进而最小化KL散度，使得隐变量服从高斯分布，由于生成式半监督模型应用的前提是，假设样本和类标签是由某种概率分布产生，而电力数据标签只有正常和异常两种，在VAE网络的半监督模型中需要将中间隐变量(即类别信息)用离散分布表示，而离散变量反向传播一般难以实现，导致模型难以进行有效的训练。若将中间隐变量用连续高斯分布表示，由于类别过于简单会导致隐变量空间不受约束难以学习其分布，模型分类效果性能较低。AAE网络主要将中间隐藏层设置由离散分布类标签信息和连续分布潜变量信息两个构成，同时在两个隐藏层变量上分别加上一个对抗网络用于约束隐变量所学习的空间分布，在不需要任何复杂公式推理的情况下利用对抗网络即实现对隐变量的约束。通过在VAE网络基础上加上对抗网络，对中间隐变量进行训练，能够既保留分类信息又能够约束隐变量的空间分布，模型的分类性能更好。

其中，对抗网络主要采用生成对抗网络(Generative adversarial networks，GAN)，该网络包含一个生成模型和判别模型，生成模型捕捉样本数据的分布，判别模型判别输入数据是真实数据还是生成的样本，该模型训练时固定一方，更新另一方的参数，使得固定的模型的错误最大化，交替迭代，最终生成模型能估测出样本数据的分布。

在AAE网络中，AE网络的编码模型等效于GAN网络的生成模型，判别网络用于判别隐变量是编码器输出还是真实的高斯分布或离散分布，通过训练最终编码器输出隐变量及类别标签会接近标准高斯分布或标准离散分布，整个网络结构图如图2所示，图2中，电力数据为x，是由离散分布y(类别信息)、连续正态高斯分布z(隐变量)生成，即：

p(y)＝Cat(y) (8)

p(z)＝N(z|0,I) (9)

x:p(x|z,y) (10)

基于AAE网络的半监督模型结合了VAE和GAN两种生成式模型的优点，在VAE网络实现自动特征提取、结合统计学充分学习无标签数据的基础上，利用GAN的对抗网络对编码部分进行约束，优化中间变量，解决类标签信息少、隐变量分布难以拟合的难题，适用于类标签单一的异常用电数据检测。该模型对输入无需任何经典理论，泛化能力极其强，对于以后智能采集设备采集的各种电力数据，均能适应，实现异常检测。

2.3 AAE的网络设计

整个网络设计分为三个阶段：第一阶段，利用无标签数据训练VAE网络，将编码器(Encoder)的输出作为电力数据特征；第二阶段，将编码器当作GAN网络的生成网络，通过无标签数据训练的输出和真实的类别分布、高斯分布进行对抗训练，增强隐藏层约束性；第三阶段，将编码器当作分类器，通过有标签样本调整分类器的参数。可以看出，整个网络训练的核心就在编码器。因此，在网络的设计阶段，主要从以下几个方面实现编码器的设计：

(1)网络结构，考虑到CNN网络在池化层时会丢失大量信息，编码器作为自编码网络的一部分，应用CNN网络编码之后解码恢复的数据和真实数据差异较大，所以选择结构更简单的DNN网络，保证细节信息在网络中保留；

(2)隐变量的维度，网络两个编码器中一个是生成类别标签，是固定维度，另外一个是生成隐变量，隐变量的维度决定了电力数据隐含的分布的维度，影响网络的判决，需要针对不同维度进行比较；

(3)噪声添加，为了避免在对抗训练过程中对抗网络出现过拟合，需要对真实的类别分布、高斯分布加高斯噪声，增强编码器输出的隐变量的自适应性。网络的设计过程中，分别采用两种噪声添加模式，一种是在训练之前直接对样本加高斯噪声，另一种是加入噪声层，即在全连接网络每一层后面加一个噪声层，并分别对两种模式进行实验比较。整个网络流程图如图3所示。

基于AAE网络半监督模型训练步骤如下：

(1)基于VAE网络，输入无标签的电力数据进行无监督学习，编码器q(z,y|x)预测标签y和隐变量z，解码器p(x|z,y)用于对电力数据的重构，采用随机梯度下降更新自编码网络参数；

(2)基于GAN网络，先更新两个判别网络的参数，区分编码器生成的q(z,y|x)和隐变量先验分布p(z)、类标签分布p(y)，然后更新生成网络参数(即VAE的编码器)，让判别网络难以区分；

(3)基于一个二分类模型，输入有标签真实电力数据，通过有标签样本训练输出的类别和真实类别的逻辑回归分类误差对编码器生成类标签q(y|x)进行优化训练；

(4)重复(1)、(2)、(3)直至收敛。

以上内容是结合具体的实施方式对本发明所作的进一步详细说明，不能认定本发明的具体实施只局限于这些说明。对于本发明所属技术领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干简单推演或替换，都应当视为属于本发明的保护范围。

Claims

1.一种基于对抗自编码网络的异常用电数据检测方法，其特征在于，其步骤为：

步骤A：建立基于对抗自编码网络的半监督模型：基于VAE自编码网络，将编码器和解码器之间的中间隐藏层设置由离散分布的类标签信息和连续分布的隐变量信息两个构成，同时在中间隐藏层两个信息上分别加上一个对抗网络GAN用于约束所学习的空间分布；编码器等效于GAN的生成网络，GAN的判别网络判别中间隐藏层信息是编码器输出还是真实分布；步骤B：对建立的基于对抗自编码网络的半监督模型进行训练，具体为：

步骤B4：重复步骤B1、B2、B3直至收敛；

2.根据权利要求1所述的基于对抗自编码网络的异常用电数据检测方法，其特征在于：所述步骤A中，编码器采用的是DNN网络进行编码。

3.根据权利要求1所述的基于对抗自编码网络的异常用电数据检测方法，其特征在于：所述步骤B3中，还包括对真实的类标签分布p(y)、隐变量先验分布p(z)进行噪声添加的步骤，增强编码器输出的类标签和隐变量的自适应性。

4.根据权利要求1所述的基于对抗自编码网络的异常用电数据检测方法，其特征在于：所述步骤A前还包括对用电数据进行预处理的步骤，用电数据预处理方法为：过滤噪声数据、添补缺失数据和统一规整数据。

5.根据权利要求4所述的基于对抗自编码网络的异常用电数据检测方法，其特征在于：所述过滤噪声数据的方法具体为：在电力大数据中的噪声数据有超出正常用电计量范围的极大值，持续性为零的极小值以及负数值；持续性全为零或存在负数值直接过滤，对于极大值V_max，其阈值按照箱形图原理设定如下：

V_max＝f₃+(f₃-f₁)·5 (1)

6.根据权利要求4所述的基于对抗自编码网络的异常用电数据检测方法，其特征在于：所述添补缺失数据的方法具体为：每一个用户每一天的每个整点时刻都有对应的电气参数读数，若一天缺失不严重，则采用三次样条插值法进行填充，若缺失严重，则将当天数据过滤，其中，缺失是否严重定义为一天电气参数缺失超过四个点数。

7.根据权利要求5所述的基于对抗自编码网络的异常用电数据检测方法，其特征在于：所述统一规整数据的方法具体为：采用线性比例变换的归一化方法，将全部数据映射到[0,1]区间：

x_j＝x_i/x_max (2)