CN113901977A

CN113901977A - 一种基于深度学习的电力用户窃电识别方法及系统

Info

Publication number: CN113901977A
Application number: CN202010576678.XA
Authority: CN
Inventors: 林佳颖; 王鹏; 郭屾; 谭传玉; 张冀川; 秦四军; 张治明; 张明宇; 孙浩洋
Original assignee: State Grid Corp of China SGCC; State Grid Zhejiang Electric Power Co Ltd; China Electric Power Research Institute Co Ltd CEPRI
Current assignee: State Grid Corp of China SGCC; State Grid Zhejiang Electric Power Co Ltd; China Electric Power Research Institute Co Ltd CEPRI
Priority date: 2020-06-22
Filing date: 2020-06-22
Publication date: 2022-01-07

Abstract

本发明提供了一种基于深度学习的电力用户窃电识别方法，包括：获取多个用户一段时间的智能电表数据；将所述智能电表数据带入预先训练的深度卷积神经网络用户窃电识别模型中进行计算确定窃电用户；其中，所述深度卷积神经网络用户窃电识别模型由随机森林分类器代替全连接层的softmax分类器构建；充分利用了智能电表收集的海量数据，提高了识别用户窃电行为的准确度，从而提升了窃电排查的效率，挽回电量损失，以降低了电力公司的运营成本及保证电网的安全运行。

Description

一种基于深度学习的电力用户窃电识别方法及系统

技术领域

本发明属于电力领域，本发明涉及一种基于深度学习的电力用户窃电识别方法及系统。

背景技术

随着智能电网建设的开展，高级量测体系(advanced metering infrastructure，AMI)正逐渐建立，智能电表的普及率也不断上升，使得电力公司能获取高频率、广覆盖且时标一致的配电网末端的实测数据。用户进行窃电的手段除了破坏电表或私拉电线之外，还可以通过数字存储技术和网络通信技术对智能电表进行攻击，使对应时刻的用电量变小或直接归零，以降低应付电费。传统对于窃电行为的识别主要依靠电力公司派遣技术人员进行人工筛选，也有一些依靠摄像头或无人机监控以防止窃电发生的方法，这些方法通常会消耗配电公司较多的人力和物力，而且无法避免通信和网络中对电表进行操纵和篡改的高级攻击手段。从目前情况来看，现有的智能电表量测数据及采集系统呈现出规模大、采集频率高、数据存储时间长、数据多样化及测量点分布密集等主要特征，这为数据挖掘技术的应用提供了数据基础。如今，数据挖掘技术发展快速，应用广泛，为用户窃电行为的识别提供一个很好的新思路和方法。

目前，许多学者纷纷对电力大数据投以关注，利用神经网络，支持向量机等分类器来识别用户窃电行为，但是这些方法需要根据经验人工提取用电量数据的趋势指标，序列标准差，线性斜率等用电数据特征，并且准确度有待提高。

深度学习是数据挖掘的一个新领域，其本质是构建含有多个隐藏层的机器学习架构模型，通过大规模数据进行训练，得到大量更具有代表性的特征信息。深度学习最近在诸如计算机视觉，语音识别和自然语言等领域取得了前所未有的性能。此外，深度学习正在逐渐应用于其他领域：基因组学、天文学，这促使其应用在电力用户窃电识别问题上。

发明内容

针对现有的利用神经网络，支持向量机等分类器来识别用户窃电行为的方法，需要根据经验人工提取用电量数据的趋势指标，序列标准差，线性斜率等用电数据特征，并且准确度有待提高的问题，本发明提供了一种基于深度学习的电力用户窃电识别方法，包括：

获取多个用户一段时间的智能电表数据；

将所述智能电表数据带入预先训练的深度卷积神经网络用户窃电识别模型中进行计算确定窃电用户；

其中，所述深度卷积神经网络用户窃电识别模型由随机森林分类器代替全连接层的softmax分类器构建。

优选的，所述深度卷积神经网络用户窃电识别模型的训练，包括：

利用少数类合成算法对标记有是否窃电的智能电表原始用电历史数据样本进行处理得到标记是否窃电的平衡数据集；

利用交叉验证法将所述标记是否窃电的平衡数据集划分为测试集和训练集；

利用所述训练集对基于随机森林分类器构建的深度卷积神经网络进行训练得到初始的深度卷积神经网络用户窃电识别模型；

基于所述测试集对所述初始的深度卷积神经网络用户窃电识别模型进行优化得到深度卷积神经网络用户窃电识别模型。

优选的，所述利用所述训练集对基于随机森林分类器构建的深度卷积神经网络进行训练得到初始的深度卷积神经网络用户窃电识别模型，包括：

基于所述训练集构建电力用户用电数据矩阵；

将所述用户用电数据矩阵作为输入层输入至卷积层，经过卷积层的对所述用户用电数据矩阵中的用电行为特征提取和卷积计算，得到用户用电行为特征矩阵；

利用修正线性单元函数激活所述用户用电行为特征矩阵后输入至池化层，采用最大池化方法进行池化操作，得到用电行为主要特征；

将所述用电行为主要特征输入至全连接层，利用所述全连接层的随机森林分类器进行分类，得到各决策树的结果，并基于所述各决策树的结果进行均值计算得到针对用户用电数据对应窃电行为特征的识别预测结果。

优选的，所述将所述用户用电数据矩阵作为输入层输入至卷积层，经过卷积层的对所述用户用电数据矩阵中的用电行为特征提取和卷积计算，得到用户用电行为特征矩阵，包括：

将所述用户用电数据矩阵作输入至各卷积层的多个特征图中；

基于所述特征图的多个神经元卷积核和上一卷积层特征图的局部区域对所述电力用户用电数据矩阵进行卷积操作计算得到用户用电行为特征矩阵。

优选的，所述将所述用电行为主要特征输入至全连接层，利用所述全连接层的随机森林分类器进行分类，得到各决策树的结果，并基于所述各决策树的结果进行均值计算得到针对用户用电数据对应窃电行为特征的识别预测结果，包括：

将所述用电行为主要特征输入至全连接层经过随机森林分类器，得到各决策树的结果，并基于预先设定的用户属于正常用户的概率阈值以及所述各决策树的结果进行均值计算，得到所述识别预测结果；

其中，所述识别预测结果大于所述用户属于正常用户的概率阈值划分为正常用户；

所述识别预测结果小于所述用户属于正常用户的概率阈值划分为窃电用户。

优选的，所述利用所述训练集对基于随机森林分类器构建的深度卷积神经网络进行训练得到初始的深度卷积神经网络用户窃电识别模型，还包括：

在前向传播阶段，所述训练集在经过所述卷积层、池化层和全连接层的随机森林分类器的训练时，根据梯度下降算法求出每一层中的权重参数和偏置参数的梯度且不断更新所述权重参数和偏置参数，并根据预先设定的学习率确定每次所述权重参数和偏置参数更新的幅度输出各层计算结果；

基于所述计算结果和实际标记的结果的均方误差进行损失函数的求解；

基于所述损失函数更新各层的权重参数和偏置参数至所述损失函数达到预设最小值；

当所述权重参数和偏置参数的梯度达到预设梯度阈值时，停止计算。

优选的，所述基于所述计算结果和实际标记的结果的均方误差进行损失函数的求解，之后包括：

若在所述均方误差超过预设误差阈值时，进入误差逆向传播阶段；

在误差逆向传播阶段，利用所述梯度下降算法得到上一层的均方误差持续进行所述权重参数和偏置参数的调整至达到卷积层的权重参数和偏置参数。

优选的，所述利用少数类合成算法对标记有是否窃电的智能电表原始用电历史数据样本进行处理得到标记是否窃电的平衡数据集，包括：

剔除所述标记有是否窃电的智能电表原始用电历史数据样本中不存在窃电行为行业的用户数据；

对所述标记有是否窃电的智能电表原始用电历史数据样本的缺失值采用均值插入法进行填充处理；

将所述标记有是否窃电的智能电表原始用电历史数据样本的重复值进行删除处理；

利用少数类合成算法将经过剔除处理、填充处理和删除处理的所述标记有是否窃电的智能电表原始用电历史数据样本转化为所述标记是否窃电的平衡数据集。

优选的，所述利用少数类合成算法将经过剔除处理、填充处理和删除处理的所述标记有是否窃电的智能电表原始用电历史数据样本转化为所述标记是否窃电的平衡数据集，包括：

S001利用少数类合成算法为标记是否窃电的智能电表收集的原始数据样本确定窃电用户样本点；

S002确定所述窃电用户样本点的近邻样本点；

S003基于所述窃电用户样本点和所述近邻样本点进行计算，得到新的窃电用户样本点；

S004将所述新的窃电用户样本点设为窃电用户样本点，重复执行步骤S002直至所述窃电用户样本点与所述智能电表收集的原始数据样本的正常用户样本数量平衡，执行步骤S005；

S005基于新的窃电用户样本点和所述的智能电表收集的原始数据样本生成新数据集；

S006利用少数类合成算法对所述新数据集进行处理，得到所述标记是否窃电的平衡数据集。

优选的，所述基于所述测试集对所述初始的深度卷积神经网络用户窃电识别模型进行优化得到深度卷积神经网络用户窃电识别模型，包括：

将所述测试集输入到所述深度卷积神经网络用户窃电识别模型中输出测试集识别预测结果；

基于所述测试集识别预测结果进行所述深度卷积神经网络用户窃电识别模型准确率和查准率评定；

基于所述测试集识别预测结果确定混淆矩阵评价指标值和ROC曲线评价指标值；

基于所述混淆矩阵评价指标值和ROC曲线评价指标值对所述深度卷积神经网络用户窃电识别模型的整体可信度进行评估。

优选的，所述基于所述测试集识别预测结果确定混淆矩阵评价指标值和ROC曲线评价指标值，包括：

基于所述测试集识别预测结果，计算预测为正常用户的个数占实际所有正常用户的比例、预测为正常用户的个数占所有正常用户的比例以及预测为异常用户的个数占实际所有异常用户的比例的混淆矩阵评价指标值；

基于预先设定的比例增长速率阈值，采用现有的ROC曲线对混淆矩阵评价指标值建立所述随机森林分类器预测为异常用户的个数占实际所有异常用户的比例和所述预测为正常用户的个数占所有正常用户的比例增长速率的相对关系得到ROC曲线评价指标值，并对所述ROC曲线评价指标值进行正类和负类的划分体现变化。

优选的，所述基于所述混淆矩阵评价指标值和ROC曲线评价指标值对所述深度卷积神经网络用户窃电识别模型的整体可信度进行评估，包括：

基于所述预测为正常用户的个数占实际所有正常用户的比例和所述预测为正常用户的个数占所有正常用户的比例，计算得到F1-测度指标来评定所述深度卷积神经网络用户窃电识别模型的窃电识别准确性；

基于所述预测为正常用户的个数窃电识别占实际所有正常用户的比例、预测为正常用户的个数占所有正常用户的比例以及预测为异常用户的个数占实际所有异常用户的比例，对所述随机森林分类器取不同阈值得到所述随机森林分类器不同识别预测结果衡量预测准确性；

基于所述ROC曲线评价指标值计算的曲线下面积值，表示所述随机森林分类器好坏；

基于对所述深度卷积神经网络用户窃电识别模型的窃电识别准确性、所述随机森林分类器的预测准确性以及所述随机森林分类器好坏的评定来确定所述深度卷积神经网络用户窃电识别模型的整体可信度；

其中所述识别预测结果包括：正常用户实际也是正常用户的用户、预测为异常用户实际也是异常用户的用户、预测为正常用户实际却为异常用户的用户以及预测为异常用户实际却为正常用户的用户。

基于同一构思，本发明提供了一种基于深度学习的电力用户窃电识别系统，包括：数据获取模块和窃电用户确认模块；

所述数据获取模块，用于获取多个用户一段时间的智能电表数据；

所述窃电用户确认模块，用于将所述智能电表数据带入预先训练的深度卷积神经网络用户窃电识别模型中进行计算确定窃电用户；

与现有技术相比，本发明的有益效果为：

1、本发明提供了一种基于深度学习的电力用户窃电识别方法，包括：获取多个用户一段时间的智能电表数据；将所述智能电表数据带入预先训练的深度卷积神经网络用户窃电识别模型中进行计算确定窃电用户；其中，所述深度卷积神经网络用户窃电识别模型由随机森林分类器代替全连接层的softmax分类器构建；充分利用了智能电表收集的海量数据，提高了识别用户窃电行为的准确度，从而提升了窃电排查的效率，挽回电量损失，以降低了电力公司的运营成本及保证电网的安全运行。

2、本发明提供了一种基于深度学习的电力用户窃电识别方法及系统，采用深度学习的方法进行窃电识别省去了繁琐的人工提取特征这一流程，提高了电力公司的用电稽查效率且窃电识别的准确率、查准率及F1-测度达到了97％。

附图说明

图1为本发明提供的方法流程图；

图2为本发明实施例提供的全过程流程图；

图3为本发明实施例提供的基于CNN-RF的用户窃电识别模型图；

图4为本发明实施例提供的卷积操作示意图；

图5为本发明实施例提供的池化操作图；

图6为本发明实施例提供的卷积神经网络的训练过程图；

图7为本发明实施例提供的CNN-RF模型的ROC曲线图；

图8为本发明提供的系统结构图。

具体实施方式

结合附图对本发明的实施例作进一步说明。

实施例1：

本发明提供了一种基于深度学习的电力用户窃电识别方法，充分利用了智能电表收集的海量数据，提高了识别用户窃电行为的准确度，从而提升了窃电排查的效率，挽回电量损失，以降低了电力公司的运营成本及保证电网的安全运行，结合图1的方法流程图进行介绍，包括：

步骤1：获取多个用户一段时间的智能电表数据；

步骤2：将所述智能电表数据带入预先训练的深度卷积神经网络用户窃电识别模型中进行计算确定窃电用户；

其中，步骤1：获取多个用户一段时间的智能电表数据，具体包括：

(1)结合图2的全过程流程图进行介绍，原始数据：采集6000个用户的智能电表记录，其中包括居民用户和中小型企业，采样间隔为1小时，共525天的数据。该数据集的用户数量多、类型多样且测量周期长，满足用电数据复杂，分布多样的特点。标记有是否窃电的智能电表原始用电历史数据样本，包括：采集间隔为1小时，共525天的用户的智能电表记录的数据。

(2)数据探索与预处理：对采集到的用电量数据探索分析，深入了解数据的分布和变化规律，有助于为建立模型奠定基础，剔除不可能存在窃电行为行业的用户，如银行、税务、学校、工商等非居民类别的白名单用户。本方案主要从缺失值、重复值等方面对数据进行预处理。其中，重复值数据直接进行删除处理；对于缺失数据则采用均值插入法进行填充。均值插入法的公式为：

其中，x_t为电力用户在第t天的用电量，f(x_t)为填充值，即用缺失数据前后两天用电量的平均值来填充缺失值。

(3)构建专家样本集：利用少数类合成算法将预处理后的数据样本集转换成平衡数据集并通过交叉验证法将数据集划分为测试集和训练集，从而为建立用户窃电识别模型提供专家样本库。

根据上述预处理后，一共得到4737个电力用户样本(已标明是否窃电)，其中每个样本采样间隔为1小时，共记录525天的数据。通过数据探索分析可以发现窃电用户样本只有600个，占全部用户的比例很低。该不平衡数据集会影响算法的识别效果，为了解决数据平衡问题，本方案引入少数类合成算法对数据分布进行重构，构建一个相对平衡的数据集，使得正常用户类样本与窃电样本大致平衡。少数类合成算法的大致思想是对窃电用户样本点确定其个近邻样本点，并在样本点与其近邻之间随机地合成一个窃电用户样本点。如此重复，直至数据样本集的正常用户样本与窃电用户样本数量平衡。具体实施方案如下：

设少数类合成算法的过采样的近邻数为k＝3，过采样倍数为n＝7，选择窃电用户的样本点x_i(i＝1，…，l)，l＝600是窃电用户的样本个数，找出该样本点的k个邻近中的n个样本点记为x_ij(j＝1…n)，按如下公式计算产生新的窃电用户样本点r_j(j＝1…n)。

r_j＝x_i+rand(0，1)(x_i-x_ij)

其中，rand(0，1)表示(0，1)区间内的一个随机数。重复以上步骤可以生成更多的窃电用户样本点，使得两类趋于平衡。新数据集是通过把新合成的窃电用户样本点与原来的数据集合并产生。

利用少数类合成算法对数据样本集进行处理后，我们得到一个平衡数据集。该数据集共有9153个电力用户样本集。在建立窃电识别模型之前本方案采用交叉验证法来将平衡数据集划分为训练集跟测试集，即有放回抽取80％样本作为训练集，20％样本作为测试集。

步骤2：将所述智能电表数据带入预先训练的深度卷积神经网络用户窃电识别模型中进行计算确定窃电用户，具体包括：

(4)建立用户窃电识别模型：构造专家样本库后，建立窃电用户识别模型。为了充分利用卷积神经网络的卷积层所具备的特征提取的功能，将每个样本的输入向量转化为二维矩阵数据输入卷积神经网络，经卷积、池化、全连接等步骤挖掘出用户时间序列中的用电规律，最后随机森林分类器基于自动提取的特征将电力用户进行分类，从而识别出窃电用户。

由于电力用户用电量的变化取决于用户的生活方式，四季的交替，气候的变化等因素，因此根据人工经验来进行人工提取特征是非常困难的。卷积神经网络具有独特的结构，通过卷积层和池化层能够自己学习到用户用电行为特征，避免了传统方法在用电行为特征提取时过多依赖人工经验的缺陷。原始的卷积神经网络模型全连接层采用softmax作为分类器，类似于一般的单隐藏层前馈神经网络。然而，softmax分类器是基于经验风险最小化，该网络不但对局部最小值的训练误差很敏感，而且在训练过程中很容易造成过拟合，在进行分类精度不是很高。在大多数分类器中，随机森林分类器在训练过程中有放回的抽放和随机特征选择这个两种强大的机器学习技术克服了softmax分类器的局限性。因此本方案采用CNN-RF算法，通过卷积神经网络自动提取特征并利用随机森林进行分类，从而识别出窃电用户。CNN-RF用户窃电识别模型如图3所示。本方案中CNN-RF模型的建立主要包含一下三个步骤：

CNN-RF结构的设计

CNN-RF的基本组成部分包括输入层、卷积层(C-层)、池化层(S-层)、全连接层(FC-层)，随机森林分类层。其中输入层是电力用户用电数据矩阵525*24，卷积层由多个特征图组成，每个特征图由多个神经元组成，每个神经元通过卷积核和上一层特征图的局部区域进行卷积操作。每个卷积层都有确定的卷积核个数，卷积核是一个权值矩阵，通过卷积操作计算出该层输出的用户用电行为特征矩阵，设计多个卷积层，从而可以提取多个用于分类的不同特征。

卷积操作见图4所示，卷积核在输入矩阵上滑动，和输入矩阵中与其重叠的区域进行卷积操作，卷积结果计算公式为：

式中，X_in为卷积层的输入、F_i为卷积层中卷积核的个数，b是卷积神经网络的偏置参数、W_i为卷积核i的权重参数矩阵。由于本方案选取3×3的卷积核，每个卷积核按照图4所示操作独立地对输入矩阵进行卷积，得到输出矩阵，滑动步长设为1且对输入矩阵进行了零填充，因此，每个输出矩阵的维度仍和输入矩阵维度相同。输出矩阵经修正线性单元(RELU)函数激活，输入池化层(下采样层)进行池化操作。池化层一方面缩减特征矩阵的维度，简化卷积神经网络计算复杂度，另一方面进行特征压缩从而提取用电行为的主要特征。常用的方法包括最大池化、均值池化、高斯池化。本方案中采用的是最大池化如图5所示，即对输入矩阵从左上至右下进行遍历，对窗口所覆盖域内的4个元素求最大值，作为输出矩阵中的一个元素。

由于输入数据中每个样本的大小为525×24(类似于图片识别问题中的输入数据)且用户的负荷曲线如此多变，所以本方案中分别将卷积层与池化层的层数设置为2。用户的用电量数据经过一系列的卷积池化操作后，进入全连接层将得到的结果转换成一维向量的形式，最后随机森林分类层进行用户窃电的识别。

CNN-RF模型中参数的设置

CNN-RF中需要调整的参数由卷积神经网络模型参数和随机森林分类器参数两部分组成。如表1所示，卷积核的大小设置为3*3，池化的大小设置为2*2，步长均设置为1，且激活函数设置为修正线性单元(RELU)函数。此外，在优化大量的参数时容易造成过拟合，因此本方案中全连接层的神经元丢失率设置为0.4，即在训练过程中全连接层随机选择40％的神经元不参加训练，从而降低过拟合的风险。随机森林分类器中有两个重要的参数即最大决策树的个数T和每棵树中的最大特征数M。为了使RF分类器实现较高的分类精度，文中利用网格搜索算法(Grid Search)对参数进行搜索，即在T，M组成的二维参数矩阵中，一次实验每一对参数，从而得到全局最优。其中，每个参数的网格搜索范围是：T＝[50，60，…，100]和M＝[10，20，…40]，一共6×4＝24种不同的组合且当T＝100且M＝30时，获得了最佳结果。

表1卷积神经网络的参数设置

CNN-RF模型的训练

用户窃电识别模型中CNN-RF的训练过程包括两部分，首先利用卷积神经网络对输入数据进行特征提取，然后利用随机森林分类器根据学习到的特征进行分类，从而识别出窃电用户，结合图6的卷积神经网络的训练过程图进行介绍。

卷积神经网络的训练：卷积神经网络模型的训练过程是根据梯度下降算法求出每一层中的梯度，在此过程中不断地更新权值和偏置，直到网络中参数的梯度(神经网络中权重参数和偏置参数的梯度)变化到达指定的阈值(一个接近0的值)或者不再发生变化，停止学习过程。有了梯度后，还需要定义一个学习率α来定义每次参数更新的幅度。训练算法如图5所示主要包括两个阶段：前向传播和误差的逆向传播。

其中，X是指输入的用户用电量数据，bx是卷积神经网络的偏置参数，W_conv和W_pool分别代表卷积层、池化层的权重参数，b_conv和b_pool分别代表卷积层、池化层的偏置参数。在前向传播阶段，首先将输入层的数据向中间层传递，经过中间卷积层、池化层和全连接层，最终输出预测值

。然后将输出值和目标值y比较，如果误差过大，超过了一定的阈值，则开始进入误差逆向传播阶段。在误差逆向传播阶段，根据输出层的误差，利用梯度下降求出上一层的误差，进而调整权值，一直到达第一个卷积层，随着损失函数J(W，b)来不断更新权重值和偏置值。梯度下降算法在第一步需要随机产生权重和偏置参数的初始值，然后通过梯度和学习率来更新参数的取值，从而找到损失函数的最小值。

具体思路如下：本方案中训练样本集D＝{(x₁，y₁)，…，(x_m，y_m)}总共包含有m＝7484个样本，利用批量梯度下降法对网络进行求解。定义网络输出和实际标签之间的均方误差为损失函数J(W，b)如下式所示：

其中，m是指用户个数，x_i代表用电量数据，y_i代表用户的标签，w是网络中各层的连接权重，b是与之对应的偏置。待更新的CNN参数有卷积层的权值和偏置与全连接层的权值和偏置，在反向传播过程中根据均值为0，方差为ε的正态分布函数初始化产生，然后利用损失函数不断的更新w和b。具体的数学表达式如下所示：

其中，α代表学习率，

代表第l层的神经元i与第1+1层的神经元j的连接权重，

为与之对应的偏置值。

随机森林分类器的训练：随机森林的训练过程主要包括三个步骤：首先在数据集中抽样，为每棵决策树生成训练集；随后利用每个训练集构建决策树，生成决策树的过程不需要剪枝处理；最后根据生成的决策树对预测集进行预测，对每棵树产生的结果进行均值计算结果即为最终的预测结果。

(5)测试识别模型性能：根据测试样本集离线构建窃电用户的识别模型并通过评价指标混淆矩阵和ROC曲线对模型进行评估，混淆矩阵是二分类器的评估指标。由于对窃电用户标识进行现场检查常常会耗费大量的财力，因此准确的检测出窃电用户非常重要。

由于对异常用电用户标识进行现场检查常常会耗费大量的财力，因此准确的预测异常用户非常重要。本课题采用混淆矩阵和ROC曲线这两个评价指标对模型进行评估。

混淆矩阵：这是评估分类器性能的一个基本工具，如表2所示。其中，TP表示预测为正常用户实际也是正常用户；TN表示预测为异常用户实际也是异常用户，TP和TN越高说明检测效果越高。FP表示预测为正常用户实际却为异常用户；FN表示预测为异常用户实际却为正常用户。

表2混淆矩阵

在混淆矩阵的基础上可以推导出多个分类器的评价指标：

其中，Precision表示检测模型将电力用户预测为正常用户的个数占实际所有正常用户的比例；TPR(True Positive Rate)表示检测模型将电力用户预测为正常用户的个数占所有正常用户的比例；FPR(Faise Positive Rate)表示检测模型将电力用户预测为异常用户的个数占实际所有异常用户的比例。

以上指标从不同方面度量分类结果，但这些都属于静态指标，而随机森林分类器的输出结果并不是简单的0或1，而是给出用户属于窃电类的程度，该分类器取不同的阈值就可以得到不同的分类结果需要用动态的指标来衡量分类器的整体可信度。

ROC曲线和AUC值

ROC(receiver operating characteristic)曲线描述混淆矩阵中FPR和TPR两个指标增长速率的相对关系。对于二元分类模型输出的连续数值，将大于阈值的样本划为正类，小于阈值的样本则划为负类。减小阀值固然能识别出更多的正类，即提高了TPR，但同时也会将更多的负样本划为正类，即提高了FPR。引入ROC曲线即可形象化这一变化过程。ROC曲线上每一个点对应分类器取某个阈值时分类结果的混淆矩阵。曲线下面积(area undercurve，AUC)用一个数值来表示分类器的好坏，AUC的数值就是ROC曲线下方部分面积的大小，较大的AUC代表了较好的性能表现，AUC＝1对应理想分类器。

窃电用户识别模型建立后，将测试集样本输入模型结果如下：TP类为1049个样本；FN类为20个样本；FP类为21个样本；TN类为579个样本。因此可以计算出基于CNN-RF的窃电用户识别模型的准确率、查准率及F1-测度指标分别为0.97、0.97、0.97。如表3所示，Class0为窃电用户类，Class1为正常用户类。

F1-测度指标是根据混淆矩阵评价指标算出的：

表3 CNN-RF的分类报告

CNN-RF模型的输出是用户属于正常用户的概率值，将大于阈值的用户划分为正常用户，小于阈值的用户划分为窃电用户。如图7所示，图中曲线上的每一个点对应一个阈值，每个阈值的识别结果对应一组点(FPR，TPR)，可以用ROC曲线下的面积AUC的值的大小来评价模型的好坏，可以看出基于CNN-RF的窃电用户识别模型整体可信度AUC可达到0.98。

实施例2：

基于同一构思，本发明提供了一种基于深度学习的电力用户窃电识别系统，其特征在于，结合图8的系统结构图进行介绍，包括：数据获取模块和窃电用户确认模块；

所述窃电用户确认模块，包括：模型训练数据子模块、模型训练划分子模块、模型训练子模块和模型优化子模块；

所述模型训练数据子模块，用于利用少数类合成算法对标记有是否窃电的智能电表原始用电历史数据样本进行处理得到标记是否窃电的平衡数据集；

所述模型训练划分子模块，用于利用交叉验证法将所述标记是否窃电的平衡数据集划分为测试集和训练集；

所述模型训练子模块，用于利用所述训练集对基于随机森林分类器构建的深度卷积神经网络进行训练得到初始的深度卷积神经网络用户窃电识别模型；

所述模型优化子模块，用于基于所述测试集对所述初始的深度卷积神经网络用户窃电识别模型进行优化得到深度卷积神经网络用户窃电识别模型。

所述模型训练子模块，包括：用电数据矩阵单元、用电特征矩阵单元、用电主要特征单元和识别预测结果单元；

所述用电数据矩阵单元，用于基于所述训练集构建电力用户用电数据矩阵；

所述用电特征矩阵单元，用于将所述用户用电数据矩阵作为输入层输入至卷积层，经过卷积层的对所述用户用电数据矩阵中的用电行为特征提取和卷积计算，得到用户用电行为特征矩阵；

所述用电主要特征单元，用于利用修正线性单元函数激活所述用户用电行为特征矩阵后输入至池化层，采用最大池化方法进行池化操作，得到用电行为主要特征；

所述识别预测结果单元，用于将所述用电行为主要特征输入至全连接层，利用所述全连接层的随机森林分类器进行分类，得到各决策树的结果，并基于所述各决策树的结果进行均值计算得到针对用户用电数据对应窃电行为特征的识别预测结果。

所述用电特征矩阵单元，包括：输入子单元和卷积计算子单元；

所述输入子单元，用于将所述用户用电数据矩阵作输入至各卷积层的多个特征图中；

所述卷积计算子单元，用于基于所述特征图的多个神经元卷积核和上一卷积层特征图的局部区域对所述电力用户用电数据矩阵进行卷积操作计算得到用户用电行为特征矩阵。

所述识别预测结果单元，包括：均值计算子单元；

所述均值计算子单元，用于将所述用电行为主要特征输入至全连接层经过随机森林分类器，得到各决策树的结果，并基于预先设定的用户属于正常用户的概率阈值以及所述各决策树的结果进行均值计算，得到所述识别预测结果；

所述模型训练子模块，还包括：前向传播计算单元、损失函数求解单元、更新单元和停止计算单元；

所述前向传播计算单元，用于在前向传播阶段，所述训练集在经过所述卷积层、池化层和全连接层的随机森林分类器的训练时，根据梯度下降算法求出每一层中的权重参数和偏置参数的梯度且不断更新所述权重参数和偏置参数，并根据预先设定的学习率确定每次所述权重参数和偏置参数更新的幅度输出各层计算结果；

所述损失函数求解单元，用于基于所述计算结果和实际标记的结果的均方误差进行损失函数的求解；

所述更新单元，用于基于所述损失函数更新各层的权重参数和偏置参数至所述损失函数达到预设最小值；

所述停止计算单元，用于当所述权重参数和偏置参数的梯度达到预设梯度阈值时，停止计算。

所述模型训练子模块，还包括：逆向传播单元和均方误差调整单元；

所述逆向传播单元，用于若在所述均方误差超过预设误差阈值时，进入误差逆向传播阶段；

所述均方误差调整单元，用于在误差逆向传播阶段，利用所述梯度下降算法得到上一层的均方误差持续进行所述权重参数和偏置参数的调整至达到卷积层的权重参数和偏置参数。

所述模型训练数据子模块，包括：剔除处理单元、填充处理单元、删除处理单元和转化单元；

所述剔除处理单元，用于剔除所述标记有是否窃电的智能电表原始用电历史数据样本中不存在窃电行为行业的用户数据；

所述填充处理单元，用于对所述标记有是否窃电的智能电表原始用电历史数据样本的缺失值采用均值插入法进行填充处理；

所述删除处理单元，用于将所述标记有是否窃电的智能电表原始用电历史数据样本的重复值进行删除处理；

所述转化单元，用于利用少数类合成算法将经过剔除处理、填充处理和删除处理的所述标记有是否窃电的智能电表原始用电历史数据样本转化为所述标记是否窃电的平衡数据集。

所述转化单元，包括：样本点子单元、近邻样本点子单元、新样本点子单元、数据平衡子单元、新数据集子单元和平衡数据集子单元；

所述样本点子单元，用于利用少数类合成算法为标记是否窃电的智能电表收集的原始数据样本确定窃电用户样本点；

所述近邻样本点子单元，用于确定所述窃电用户样本点的近邻样本点；

所述新样本点子单元，用于基于所述窃电用户样本点和所述近邻样本点进行计算，得到新的窃电用户样本点；

所述数据平衡子单元，用于将所述新的窃电用户样本点设为窃电用户样本点，重复进行计算直至所述窃电用户样本点与所述智能电表收集的原始数据样本的正常用户样本数量平衡；

所述新数据集子单元，用于基于新的窃电用户样本点和所述的智能电表收集的原始数据样本生成新数据集；

所述平衡数据集子单元，用于利用少数类合成算法对所述新数据集进行处理，得到所述标记是否窃电的平衡数据集。

所述模型优化子模块，包括：输入输出单元、概率准确评定单元、指标值单元和整体可信度评定单元；

所述输入输出单元，用于将所述测试集输入到所述深度卷积神经网络用户窃电识别模型中输出测试集识别预测结果；

所述概率准确评定单元，用于基于所述测试集识别预测结果进行所述深度卷积神经网络用户窃电识别模型准确率和查准率评定；

所述指标值单元，用于基于所述测试集识别预测结果确定混淆矩阵评价指标值和ROC曲线评价指标值；

所述整体可信度评定单元，用于基于所述混淆矩阵评价指标值和ROC曲线评价指标值对所述深度卷积神经网络用户窃电识别模型的整体可信度进行评估。

所述指标值单元，包括：混淆矩阵指标值子单元和ROC曲线指标值子单元；

所述混淆矩阵指标值子单元，用于基于所述测试集识别预测结果，计算预测为正常用户的个数占实际所有正常用户的比例、预测为正常用户的个数占所有正常用户的比例以及预测为异常用户的个数占实际所有异常用户的比例的混淆矩阵评价指标值；

所述ROC曲线指标值子单元，用于基于预先设定的比例增长速率阈值，采用现有的ROC曲线对混淆矩阵评价指标值建立所述随机森林分类器预测为异常用户的个数占实际所有异常用户的比例和所述预测为正常用户的个数占所有正常用户的比例增长速率的相对关系得到ROC曲线评价指标值，并对所述ROC曲线评价指标值进行正类和负类的划分体现变化。

所述整体可信度评定单元，包括：测度准确性子单元、预测准确性单元、分类器好坏单元和评定单元；

所述测度准确性子单元，用于基于所述预测为正常用户的个数占实际所有正常用户的比例和所述预测为正常用户的个数占所有正常用户的比例，计算得到F1-测度指标来评定所述深度卷积神经网络用户窃电识别模型的窃电识别准确性；

所述预测准确性单元，用于基于所述预测为正常用户的个数窃电识别占实际所有正常用户的比例、预测为正常用户的个数占所有正常用户的比例以及预测为异常用户的个数占实际所有异常用户的比例，对所述随机森林分类器取不同阈值得到所述随机森林分类器不同识别预测结果衡量预测准确性；

所述分类器好坏单元，用于基于所述ROC曲线评价指标值计算的曲线下面积值，表示所述随机森林分类器好坏；

所述评定单元，用于基于对所述深度卷积神经网络用户窃电识别模型的窃电识别准确性、所述随机森林分类器的预测准确性以及所述随机森林分类器好坏的评定来确定所述深度卷积神经网络用户窃电识别模型的整体可信度；

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

以上仅为本发明的实施例而已，并不用于限制本发明，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均包含在申请待批的本发明的权利要求范围之内。

Claims

1.一种基于深度学习的电力用户窃电识别方法，其特征在于，包括：

获取多个用户一段时间的智能电表数据；

2.如权利要求1所述的方法，其特征在于，所述深度卷积神经网络用户窃电识别模型的训练，包括：

3.如权利要求2所述的方法，其特征在于，所述利用所述训练集对基于随机森林分类器构建的深度卷积神经网络进行训练得到初始的深度卷积神经网络用户窃电识别模型，包括：

基于所述训练集构建电力用户用电数据矩阵；

4.如权利要求3所述的方法，其特征在于，所述将所述用户用电数据矩阵作为输入层输入至卷积层，经过卷积层的对所述用户用电数据矩阵中的用电行为特征提取和卷积计算，得到用户用电行为特征矩阵，包括：

5.如权利要求4所述的方法，其特征在于，所述将所述用电行为主要特征输入至全连接层，利用所述全连接层的随机森林分类器进行分类，得到各决策树的结果，并基于所述各决策树的结果进行均值计算得到针对用户用电数据对应窃电行为特征的识别预测结果，包括：

6.如权利要求5所述的方法，其特征在于，所述利用所述训练集对基于随机森林分类器构建的深度卷积神经网络进行训练得到初始的深度卷积神经网络用户窃电识别模型，还包括：

7.如权利要求6所述的方法，其特征在于，所述基于所述计算结果和实际标记的结果的均方误差进行损失函数的求解，之后包括：

8.如权利要求2所述的方法，其特征在于，所述利用少数类合成算法对标记有是否窃电的智能电表原始用电历史数据样本进行处理得到标记是否窃电的平衡数据集，包括：

9.如权利要求8所述的方法，其特征在于，所述利用少数类合成算法将经过剔除处理、填充处理和删除处理的所述标记有是否窃电的智能电表原始用电历史数据样本转化为所述标记是否窃电的平衡数据集，包括：

S002确定所述窃电用户样本点的近邻样本点；

10.如权利要求9所述的方法，其特征在于，所述基于所述测试集对所述初始的深度卷积神经网络用户窃电识别模型进行优化得到深度卷积神经网络用户窃电识别模型，包括：

11.如权利要求10所述的方法，其特征在于，所述基于所述测试集识别预测结果确定混淆矩阵评价指标值和ROC曲线评价指标值，包括：

12.如权利要求11所述的方法，其特征在于，所述基于所述混淆矩阵评价指标值和ROC曲线评价指标值对所述深度卷积神经网络用户窃电识别模型的整体可信度进行评估，包括：

13.一种基于深度学习的电力用户窃电识别系统，其特征在于，包括：数据获取模块和窃电用户确认模块；