CN113408676A

CN113408676A - 一种结合云端与边端的窃电用户识别方法及装置

Info

Publication number: CN113408676A
Application number: CN202110965124.3A
Authority: CN
Inventors: 户艳琴; 张吴敏; 刘念; 傅皆恺; 李承霖; 黄天翔; 张延�; 石德文; 李柯舟; 胡志强; 范志夫; 李晨晨; 宋伟业
Original assignee: State Grid Jiangxi Comprehensive Energy Service Co ltd; State Grid Corp of China SGCC; North China Electric Power University
Current assignee: State Grid Jiangxi Comprehensive Energy Service Co ltd; State Grid Corp of China SGCC; North China Electric Power University
Priority date: 2021-08-23
Filing date: 2021-08-23
Publication date: 2021-09-17

Abstract

本发明公开一种结合云端与边端的窃电用户识别方法及装置，方法包括：响应于获取边端的用户历史用电数据以及终端设备窃电记录，分别提取窃电识别评估指标和窃电标签，使形成训练数据集；基于训练数据集对组合分类模型进行训练，其中，组合分类模型为基于LightGBM子模型和神经网络子模型的组合模型；将某一用户实时用电数据输入组合分类模型中，输出某一用户的窃电嫌疑系数，使确定窃电嫌疑用户。通过边端服务器对数据进行预处理并生成窃电识别标签，降低了云端服务器的计算负担，提高计算效率与检测效率，并且采用LightGBM模型和BP神经网络的组合模型，加快了运算的速度并提高了分类的准确度。

Description

一种结合云端与边端的窃电用户识别方法及装置

技术领域

本发明属于电网反窃电技术领域，尤其涉及一种结合云端与边端的窃电用户识别方法及装置。

背景技术

随着我国现代化建设步伐的加快，国家对能源的消耗也在不断增长，尤其是对电力的需求量呈现逐年增加的态势。在此背景下，一些不法分子通过破坏计量装置、私接线路等手段窃取电力资源，从而减少用电成本。窃电行为不仅严重影响正常的供用电秩序，给电网企业带来较大的经济损失，还会造成触电事故和电气火灾事故，危及人身及电网安全。

目前具有窃电嫌疑的用户的识别方法大多为工人巡检，定期逐户排查，但这种方式效率低下，耗费大量的人力、物力，同时对于一些隐蔽的窃电方式很难进行准确的识别。

发明内容

本发明提供一种结合云端与边端的窃电用户识别方法，用于至少解决上述技术问题之一。

第一方面，本发明提供一种结合云端与边端的窃电用户识别方法，包括：响应于获取边端的用户历史用电数据以及终端设备窃电记录，分别提取窃电识别评估指标和窃电标签，使形成训练数据集；基于所述训练数据集对组合分类模型进行训练，其中，所述组合分类模型为基于LightGBM子模型和神经网络子模型的组合模型，所述LightGBM子模型的构建过程具体如下：对数据集中的连续型特征进行预排序，并将连续的浮点数据转换为离散数据；基于特征数据生成决策树，综合考虑决策树的准确程度与决策树的复杂程度，定义决策树的目标函数计算如下式：

，式中，

为计算决策树判断的准确程度，

与

分别为决策树的对数据集的标签预测值和数据集的标签实际值；

为计算决策树的复杂程度，其中，

，

为叶子节点的数量，

为不同叶子节点的权重向量，

和

均为正则项系数；采用损失函数的负梯度作为当前决策树的残差近似值，去拟合新的决策树，每棵决策树拟合目标之间的关系如下式：

，式中，

为第t棵树在数据集合

上的预测结果，

为前

棵树整体的预测结果，

为当前

棵树的预测结果；根据第

棵决策树的生成过程，定义目标函数如下式：

，对

进行泰勒展开，定义一对

一阶偏导函数为

、二阶偏导函数为

，将目标函数改写为：

，定义

，

，求解损失函数，得到叶子节点

的最佳权重

与简化的子树分枝评分函数，如下式：

，

，对当前每一个叶子节点计算分割增益，选择当前最大增益的节点进行分割，直到决策树整体的目标函数值满足设定要求，第t棵决策树即生成完毕，其中，计算分割增益的表达式为：

，式中，

表示对当前节点划分后，左边叶子节点分数，

表示对当前节点划分后，右边叶子节点分数，

表示对节点不分割时决策树的分数，

表示加入新叶子节点引入的复杂度代价；基于已有的决策树集合，对特征值进行预测，得到当前t颗决策树的预测值

，计算

与真实值

的差，并将其放入下一棵决策树的拟合目标中，直到生成的决策树数量满足设定值，或决策树集合整体的预测精度满足要求；将某一用户实时用电数据输入所述组合分类模型中，输出某一用户的窃电嫌疑系数，使确定窃电嫌疑用户。

第二方面，本发明提供一种结合云端与边端的窃电用户识别装置，包括：获取模块，配置为响应于获取边端的用户历史用电数据以及终端设备窃电记录，分别提取窃电识别评估指标和窃电标签，使形成训练数据集；训练模块，配置为基于所述训练数据集对组合分类模型进行训练，其中，所述组合分类模型为基于LightGBM子模型和神经网络子模型的组合模型，所述LightGBM子模型的构建过程具体如下：对数据集中的连续型特征进行预排序，并将连续的浮点数据转换为离散数据；基于特征数据生成决策树，综合考虑决策树的准确程度与决策树的复杂程度，定义决策树的目标函数计算如下式：

，式中，

为计算决策树判断的准确程度，

与

为计算决策树的复杂程度，其中，

，

为叶子节点的数量，

为不同叶子节点的权重向量，

和

，式中，

为第t棵树在数据集合

上的预测结果，

为前

棵树整体的预测结果，

为当前

棵树的预测结果；根据第

棵决策树的生成过程，定义目标函数如下式：

，对

进行泰勒展开，定义一对

一阶偏导函数为

、二阶偏导函数为

，将目标函数改写为：

，定义

，

，求解损失函数，得到叶子节点

的最佳权重

与简化的子树分枝评分函数，如下式：

，

，式中，

表示对当前节点划分后，左边叶子节点分数，

表示对当前节点划分后，右边叶子节点分数，

表示对节点不分割时决策树的分数，

，计算

与真实值

的差，并将其放入下一棵决策树的拟合目标中，直到生成的决策树数量满足设定值，或决策树集合整体的预测精度满足要求；输出模块，配置为将某一用户实时用电数据输入所述组合分类模型中，输出某一用户的窃电嫌疑系数，使确定窃电嫌疑用户。

第三方面，提供一种电子设备，其包括：至少一个处理器，以及与所述至少一个处理器通信连接的存储器，其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行本发明任一实施例的结合云端与边端的窃电用户识别方法的步骤。

第四方面，本发明还提供一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序包括程序指令，当所述程序指令被计算机执行时，使所述计算机执行本发明任一实施例的结合云端与边端的窃电用户识别方法的步骤。

本申请的一种结合云端与边端的窃电用户识别方法及装置，通过边端服务器对数据进行预处理并生成窃电识别标签，降低了云端服务器的计算负担，提高计算效率与检测效率，并且采用LightGBM模型和BP神经网络的组合模型，加快了运算的速度并提高了分类的准确度。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明一实施例提供的一种结合云端与边端的窃电用户识别方法的流程图；

图2为本发明一实施例提供的又一种结合云端与边端的窃电用户识别方法的流程图；

图3为本发明一实施例提供的一种结合云端与边端的窃电用户识别装置的结构框图；

图4是本发明一实施例提供的电子设备的结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

请参阅图1，其示出了本申请的一种结合云端与边端的窃电用户识别方法的流程图。

如图1所示，结合云端与边端的窃电用户识别方法具体包括：

步骤S101，响应于获取边端的用户历史用电数据以及终端设备窃电记录，分别提取窃电识别评估指标和窃电标签，使形成训练数据集。

在本实施例中，边端服务器采集所有影响窃电用户识别的相关数据，其中包括用户的用电数据、线路的线损数据、终端的告警类数据及对应地区用户的窃电记录，窃电用户识别装置从相关数据中提取窃电识别评估指标和窃电标签，使形成训练数据集。

步骤S102，基于所述训练数据集对组合分类模型进行训练。

在本实施例中所述组合分类模型为基于LightGBM子模型和神经网络子模型的组合模型，所述LightGBM子模型的构建过程具体如下：

对数据集中的连续型特征进行预排序，并将连续的浮点数据转换为离散数据；

基于特征数据生成决策树，综合考虑决策树的准确程度与决策树的复杂程度，定义决策树的目标函数计算如下式：

，

式中，

为计算决策树判断的准确程度，

与

为计算决策树的复杂程度，其中，

，

为叶子节点的数量，

为不同叶子节点的权重向量，

和

均为正则项系数；

采用损失函数的负梯度作为当前决策树的残差近似值，去拟合新的决策树，每棵决策树拟合目标之间的关系如下式：

，

式中，

为第t棵树在数据集合

上的预测结果，

为前

棵树整体的预测结果，

为当前

棵树的预测结果；

根据第

棵决策树的生成过程，定义目标函数如下式：

，

对

进行泰勒展开，定义一对

一阶偏导函数为

、二阶偏导函数为

，将目标函数改写为：

，

定义

，

，求解损失函数，得到叶子节点

的最佳权重

与简化的子树分枝评分函数，如下式：

，

，

对当前每一个叶子节点计算分割增益，选择当前最大增益的节点进行分割，直到决策树整体的目标函数值满足设定要求，第t棵决策树即生成完毕，其中，计算分割增益的表达式为：

，

式中，

表示对当前节点划分后，左边叶子节点分数，

表示对当前节点划分后，右边叶子节点分数，

表示对节点不分割时决策树的分数，

表示加入新叶子节点引入的复杂度代价；

基于已有的决策树集合，对特征值进行预测，得到当前t颗决策树的预测值

，计算

与真实值

的差，并将其放入下一棵决策树的拟合目标中，直到生成的决策树数量满足设定值，或决策树集合整体的预测精度满足要求。

训练神经网络子模型的具体过程如下：

1）确定输入向量

将窃电识别评估指标体系中计算得到的综合评价指标作为BP神经网络的输入向量，并以窃电标签作为输出向量。

2）设计隐含节点数

设计一个隐含层，其节点数通过下式确定。

，

其中，

为输入层的节点数，

为输出层的节点数，常数

在1~10之间。

3）确定激活函数

选择Sigmoid型函数

作为隐含层节点的激活函数；选择线性函数ReIU函数

作为输出层节点的激活函数。

4）基于输入、输出向量训练BP神经网络模型，实现用户是否为窃电用户的判断识别。

基于等权递归的方法求取LightGBM模型和神经网络的组合权重。其基本原理为：

假设有n种分类方法，记为：

，

第一轮进行平均可以表示为：

，

其中，

，

表示第i种单一分类方法在t时刻的分类值；

表示第一轮代数平均后在t时刻的分类值。

假设n种分类方法中第i种单一分类模型的误差平方和最大，则用

替换掉第i种方法的分类值，得到第二轮平均所需的n种方法分类值为：

如此重复进行，经过k轮平均，即可得到组合分类模型为：

式中，

为各单一分类方法的权重。如果

的模型相对误差百分比已经达到可接受的水平，则停止迭代，否则继续迭代直到模型相对误差百分比满足要求。

步骤S103，将某一用户实时用电数据输入所述组合分类模型中，输出某一用户的窃电嫌疑系数，使确定窃电嫌疑用户。

在本实施例中，将某一用户实时用电数据输入所述组合分类模型中，输出某一用户的窃电嫌疑系数，使确定窃电嫌疑用户，若结果判定为用户窃电，则执行报警与停止供电等动作。

本实施例的方法，通过边端服务器对数据进行预处理并生成窃电识别标签，降低了云端服务器的计算负担，提高计算效率与检测效率，并且采用LightGBM子模型和神经网络子模型的组合模型，加快了运算的速度并提高了分类的准确度。

在一些可选的实施例中，所述窃电识别评估指标包括负荷曲线斜率指标、线损指标以及告警类指标。

所述负荷曲线斜率指标的表达式为：

，

，

，

式中，

是负荷曲线斜率指标，

是负荷曲线斜率变化的标志，

是第t天的负荷曲线斜率，

是第t-1天的负荷曲线斜率，s是负荷曲线斜率变化次数，m是天数的统计周期；

负荷曲线斜率的计算公式为：

，

，

，

式中，

是第i天的负荷曲线斜率，

是第t天的负荷，以m天为统计周期，

是

天的平均负荷，

分别为第

天和

天，

是平均天数；

所述线损指标的表达式为：

，

，

，

式中，

是线损指标，

是线损指标参考值，

和

分别是该天前m天和后m天的平均线损率，

分别表示第

和

天；

线损率的计算公式为：

，

式中，

是第t天的线损率，

是线路输电量，

是所有用户的总损耗，U是用户集合，u是用户；

所述告警类指标的表达式为：

，

，

式中，

是报警的总次数，

是警告信号的状态，如果有报警信息，则

否则

，

是告警类指标，

是警告次数参考值；

对所述负荷曲线斜率指标、线损指标以及告警类指标进行加权求和，使得到综合评价指标，其中，所述综合评价指标的表达式为：

，

式中，

是综合评价指标，

是负荷曲线斜率指标，

是线损指标，

是告警类指标，

分别为负荷曲线斜率指标、线损指标和告警类指标的权重，

。

在一些可选的实施例中，一种结合云端与边端的窃电用户识别方法还包括：响应于获取边端的用户历史用电数据以及终端设备窃电记录，对所述用户历史用电数据和所述终端设备窃电记录进行预处理，其中，所述预处理包括数据清洗以及缺失值处理。

（1）数据清洗

数据清洗的目的是过滤掉与窃电行为无关的数据。银行、学校、工商业等公共事业用户一般不会窃电，因此需要将窃电识别评价指标体系及窃电标签的数据集中对应的用电数据从总数据集中剔除。对于居民用户来说，节假日和工作日的用电量差异较大，为了获得更好的识别效果，剔除节假日的数据，即令

。

（2）缺失值处理

在边端服务器的数据采集过程中，会由于各种原因出现数据丢失的现象，如丢包、设备故障等。如果进行缺失值处理，计算得到的线损数据会有较大的误差，因此为了获得更好的识别效果，采用拉格朗日插值法对缺失值进行处理。具体方法如下：首先从原始数据集中确定因变量和自变量，取出缺失值前后的5个数据（前后数据中遇到数据不存在或者为空的，直接将数据舍去，将仅有的数据组成一组），将取出来的10个数据组成一组。然后采用拉格朗日多项式插值公式进行处理，对全部缺失数据依次进行插补，直到不存在缺失值为止，其中，基于拉格朗日多项式插值法对至少四个数据进行处理的表达式为：

，

式中，

为缺失值对应的下标序号，

为缺失值的插值结果，

为非缺失值

的下标序号，N是数据样本的总数。

请参阅图2，其示出了本申请的又一种结合云端与边端的窃电用户识别方法的流程图。

如图2所示，首先建立云端-边端结合的窃电用户识别架构，边端服务器对采集数据进行预处理，并生成窃电识别标签后上传至云端服务器，云端服务器基于窃电识别标签进行窃电识别模型的训练，接着，综合考虑用电负荷、线损及报警信息等反映窃电用户行为的影响因素，建立用电负荷曲线斜率指标、线损指标和报警信息指标三类窃电识别评估指标多维度刻画窃电行为特征，然后，借助LightGBM模型、BP神经网络得到组合分类模型进行窃电用户识别，提高了窃电用户识别的精确度与实时性；基于现有的电气数据进行窃电用户的识别，不需要附加过多监测元件，降低了窃电用户识别的成本。

请参阅图3，其示出了本申请的一种结合云端与边端的窃电用户识别装置的结构框图。

如图3所示，窃电用户识别装置200，包括获取模块210、训练模块220以及输出模块230。

其中，获取模块210，配置为响应于获取边端的用户历史用电数据以及终端设备窃电记录，分别提取窃电识别评估指标和窃电标签，使形成训练数据集；

训练模块220，配置为基于所述训练数据集对组合分类模型进行训练，其中，所述组合分类模型为基于LightGBM子模型和神经网络子模型的组合模型，所述LightGBM子模型的构建过程具体如下：

，

式中，

为计算决策树判断的准确程度，

与

为计算决策树的复杂程度，其中，

，

为叶子节点的数量，

为不同叶子节点的权重向量，

和

均为正则项系数；

，

式中，

为第t棵树在数据集合

上的预测结果，

为前

棵树整体的预测结果，

为当前

棵树的预测结果；

根据第

棵决策树的生成过程，定义目标函数如下式：

，

对

进行泰勒展开，定义一对

一阶偏导函数为

、二阶偏导函数为

，将目标函数改写为：

，

定义

，

，求解损失函数，得到叶子节点

的最佳权重

与简化的子树分枝评分函数，如下式：

，

，

，

式中，

表示对当前节点划分后，左边叶子节点分数，

表示对当前节点划分后，右边叶子节点分数，

表示对节点不分割时决策树的分数，

表示加入新叶子节点引入的复杂度代价；

，计算

与真实值

的差，并将其放入下一棵决策树的拟合目标中，直到生成的决策树数量满足设定值，或决策树集合整体的预测精度满足要求；

输出模块230，配置为将某一用户实时用电数据输入所述组合分类模型中，输出某一用户的窃电嫌疑系数，使确定窃电嫌疑用户。

应当理解，图3中记载的诸模块与参考图1中描述的方法中的各个步骤相对应。由此，上文针对方法描述的操作和特征以及相应的技术效果同样适用于图3中的诸模块，在此不再赘述。

在另一些实施例中，本发明实施例还提供了一种计算机可读存储介质，计算机可读存储介质存储有计算机可执行指令，该计算机可执行指令可执行上述任意方法实施例中的窃电用户识别方法；

作为一种实施方式，本发明的计算机可读存储介质存储有计算机可执行指令，计算机可执行指令设置为：

响应于获取边端的用户历史用电数据以及终端设备窃电记录，分别提取窃电识别评估指标和窃电标签，使形成训练数据集；

基于所述训练数据集对组合分类模型进行训练，其中，所述组合分类模型为基于LightGBM子模型和神经网络子模型的组合模型；

将某一用户实时用电数据输入所述组合分类模型中，输出某一用户的窃电嫌疑系数，使确定窃电嫌疑用户。

计算机可读存储介质可以包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需要的应用程序；存储数据区可存储根据窃电用户识别装置的使用所创建的数据等。此外，计算机可读存储介质可以包括高速随机存取存储器，还可以包括存储器，例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实施例中，计算机可读存储介质可选包括相对于处理器远程设置的存储器，这些远程存储器可以通过网络连接至窃电用户识别装置。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

图4是本发明实施例提供的电子设备的结构示意图，如图4所示，该设备包括：一个处理器310以及存储器320。电子设备还可以包括：输入装置330和输出装置340。处理器310、存储器320、输入装置330和输出装置340可以通过总线或者其他方式连接，图4中以通过总线连接为例。存储器320为上述的计算机可读存储介质。处理器310通过运行存储在存储器320中的非易失性软件程序、指令以及模块，从而执行服务器的各种功能应用以及数据处理，即实现上述方法实施例窃电用户识别方法。输入装置330可接收输入的数字或字符信息，以及产生与窃电用户识别装置的用户设置以及功能控制有关的键信号输入。输出装置340可包括显示屏等显示设备。

上述电子设备可执行本发明实施例所提供的方法，具备执行方法相应的功能模块和有益效果。未在本实施例中详尽描述的技术细节，可参见本发明实施例所提供的方法。

作为一种实施方式，上述电子设备应用于窃电用户识别装置中，用于客户端，包括：至少一个处理器；以及，与至少一个处理器通信连接的存储器；其中，存储器存储有可被至少一个处理器执行的指令，指令被至少一个处理器执行，以使至少一个处理器能够：

以上所描述的装置实施例仅仅是示意性的，其中作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。