CN113095391A

CN113095391A - 一种用户窃电行为检测方法、系统、终端及介质

Info

Publication number: CN113095391A
Application number: CN202110364692.8A
Authority: CN
Inventors: 张希鹏; 齐拯; 刘杰; 汪诗怡; 赵璇; 周毅; 金麒; 罗津; 张衡
Original assignee: State Grid Shanghai Electric Power Company Beigong Power Supply Co; Shanghai Jiaotong University
Current assignee: State Grid Shanghai Electric Power Company Beigong Power Supply Co; Shanghai Jiaotong University
Priority date: 2021-04-06
Filing date: 2021-04-06
Publication date: 2021-07-09

Abstract

本发明提供了一种用户窃电行为检测方法及系统，获取平电量、谷电量及总电量用电量数据，筛选出极端异常数据并删除，在时间维度上进行内部插值补全缺失数据；构建用户用电量特征向量；构建有监督的极致梯度提升决策树，从训练集中学习用电量特征向量的分布，并进行参数调优和性能检验，得到极致梯度提升决策树分类模型；通过分类模型中每个判断节点对用户用电量特征向量中的特征进行判断，根据特征在判断节点中所占比例，得到每个特征的重要性，并反馈至用户用电量特征向量进行优化，完成对用户窃电行为的检测。同时提供了一种终端及系统。本发明为供电力企业有针对性地上门进行查处提供了依据，大大减少了电力企业的工作量，提高了工作效率。

Description

一种用户窃电行为检测方法、系统、终端及介质

技术领域

本发明涉及窃电行为分析检测技术领域，具体地，涉及一种基于用户用电特征向量和极致梯度提升决策树的用户窃电行为检测方法、系统、终端及介质。

背景技术

如今，每户家庭大多装有独立电表，记录每日用电量。居民总用电量分为平时用电量及谷时用电量，其中谷时用电量单价较低。但有部分用户为了减少电费，采用更换元件、私接外线、进出线短接等方式对电表进行改造，造成国家财产损失的同时也形成了极大的安全隐患，影响用电秩序。电力企业需要尽早、准确地识别窃电行为，但表内改造较为隐蔽，如果仅靠具有电气相关专业知识的工作人员对电表逐一检查，将耗费巨大人力。近年来，更加专业化、具有防拆设计的电表逐渐推广，功能更加丰富的智能电表也被应用于反窃电，但要对智能电表记录的大量用电量数据进行分析，进而检测窃电行为，需要采用反窃电算法对异常用户进行辨识。足够高的算法准确性可以允许工作人员有针对性地对模型识别的异常用户进行检查，减少电力企业为反窃电所耗费的人力物力。

由于用户入网时间不同，用户用电序列的起止时间存在一定区别；由于电路故障、系统偶发性故障、误操作等原因，用户每日用电序列可能存在单日或多日的数据空缺，或是存在例如单日用电量达十万度以上的极端异常数据，绝大多数机器学习方法难以适应此类存在缺陷的数据。

梯度提升树模型是一种集成多个树型分类器模型的算法，可以形成一个性能较强的分类器。极致梯度提升决策树算法对梯度提升树模型进行了一定的工程优化，适合作为分类算法，增加了正则项用于控制模型的复杂度，减少过拟合，提升了模型的泛化能力。同时，基于树的机器学习模型存在较为明确的判断条件，可以在模型训练完成后，根据指标在树的分裂点中对性能的改进量，计算不同指标的重要性。但是，如果将梯度提升树模型直接应用于窃电行为检测中，则存在如下问题：

真实情况下用户用电量数据存在缺陷，且长度不一致，无法直接套用模型，需要构建合理有效的用户用电量特征向量作为用户画像；用电量本身存在季节性，夏季和冬季用电量较大，其本质原因在于夏季和冬季气温偏离舒适气温，从数据本身难以精确反映与每日气温的关系，需要纳入当日气温作为外部信息，扩充数据信息量；异常用户占比极低，存在严重的数据不均衡问题，在数据处理\机器学习模型的选择和性能的验证上都需要额外处理。

经过检索发现：

授权公告号为CN109919520B，授权公告日为2020年2月11日的中国发明专利《窃电行为检测方法及装置》，应用于用电数据监测设备，所述设备中存储有至少一个用户账号对应的检测分类器模型，其中所述检测分类器模型是基于该用户账号的历史用电数据所对应的用电特征参数集合训练得到的。所述方法通过使用对应用户账号的检测分类器模型对该用户账号的用电数据进行窃电行为检测的方式，确保了窃电行为检测的精度及效率，无需增加智能电网的运营成本，其中检测分类器模型的训练过程因采用用电数据的用电特征参数进行训练，可确保分类器模型的训练时间足够短，同时也降低了分类器模型的复杂度，确保所述分类器模型可以很快地实现窃电行为检测功能。但是该方法仍然存在如下问题：

需要采用同一用电类型在当日不同采样时间点对应的用电量，用于得到样本用电事件序列集合，对电表的智能化有一定要求，采样粒度较高，对数据质量要求较高。判断用电事件的阈值需要预设，存在一定的模糊性，且可能随地区、时间、季节等情况发生变化。采用的机器学习模型难以提供不同特征的重要性，不适合根据地区等差异进行选择性优化。

综上所述，现有技术仍然存在用电量数据采样率要求高，特征选择标准不明确，难以在不同地区普遍适用或优化的问题，目前没有发现同本发明类似技术的说明或报道，也尚未收集到国内外类似的资料。

发明内容

本发明针对现有技术中存在的上述不足，提供了一种基于用户用电特征向量和极致梯度提升决策树的用户窃电行为检测方法、系统、终端及介质。

根据本发明的一个方面，提供了一种用户窃电行为检测方法，包括：

获取用户在设定时间段内每日的平电量、谷电量及总电量用电量数据，筛选出极端异常数据并删除，在时间维度上进行内部插值补全缺失数据，构建数据集；

根据用户的用电量数据，构建用户用电量特征向量；

利用所述数据集和用户用电量特征向量，建立训练集、验证集和测试集；构建有监督的极致梯度提升决策树，从训练集中学习用电量特征向量的分布，得到训练后的决策树，采用验证集对训练后的决策树进行参数调优，采用测试集检验训练后的决策树的性能，得到极致梯度提升决策树分类模型；

通过所述分类模型中每个判断节点对用户用电量特征向量中的一项特征进行判断，根据不同特征在所有判断节点中所占比例，得到每个特征的重要性，并将得到的特征的重要性反馈至用户用电量特征向量，对所述用户用电量特征向量进行优化；

利用所述分类模型对任一用户的优化后的用户用电量特征向量进行判断，完成对用户窃电行为的检测。

优选地，所述筛选出极端异常数据并删除，包括如下任意一项或任意多项：

-针对所有用户在设定时间段内每日使用的平电量、谷电量及总电量数据，分别计算出N％分位数和75％分位数之差，称为IQR，将比75％分位数大3倍IQR的值以及比25％分位数小3倍IQR的值视为极端异常值，予以删除；

-将用电量小于0的数据记为极端异常值，予以删除。

优选地，所述在时间维度上进行内部插值补全缺失数据，包括：

根据用户的第一条有效数据和最后一条有效数据规定该用户的有效数据起止时间，对其中存在数据缺失的日期，通过前后最相邻的存在有效数据的日期，向内进行线性插值，构建用户时间序列，所述用户时间序列起止时间不固定，但数据点间隔固定为1天。

优选地，所述用户用电量特征向量，包括：设定时间段内平电量、谷电量及总电量的平滑度、中值度、落差度、天气相关度以及周期相似度；其中：

-分别计算每名用户设定时间段内平电量、谷电量及总电量序列的方差，得到该设定时间段内平电量、谷电量及总电量的平滑度；

-分别计算每名用户设定时间段内平电量、谷电量及总电量序列的中位数，得到该设定时间段内平电量、谷电量及总电量的中值度；

-分别计算每名用户设定时间段内平电量、谷电量及总电量序列相邻两天差值的最大值，得到该设定时间段内平电量、谷电量及总电量的落差度；

-计算每名用户设定时间段内高温天气下用电量与当日最高温、最低温及平均温度的相关性，得到该设定时间段内平电量、谷电量及总电量的天气相关度；

-从每名用户设定时间段内用户时间序列的起始日期开始，对平电量、谷电量和总电量按照设定时间间隔获取时间序列，取得相邻两段时间序列的标准化DTW距离，计算所有标准化DTW距离的平均值，形成平电量、谷电量和总电量的用电量的周期相似度，得到该设定时间段内平电量、谷电量及总电量的周期相似度。

优选地，所述计算每名用户设定时间段内高温天气下用电量与当日最高温、最低温及平均温度的相关性，得到该设定时间段内平电量、谷电量及总电量的天气相关度，包括：

设定温度阈值为23度或25度，将当日平均气温大于23度或大于25度时作为高温天气，选取该天气下的用电量序列进行相关性计算；当用电量序列不包含高温天气下的用电量序列时，此时将天气相关度记为一常数。

优选地，所述选取该天气下的用电量序列进行相关性计算，包括：

当平均温度高于T摄氏度时，计算P与Q的S相关性；其中，T为23摄氏度或25摄氏度，P为当日最高温或当日平均温度，Q为当日总电量、平电量或谷电量的用电量，S为Pearson线性相关系数和/或Spearman秩相关系数。

进一步地，所述选取该天气下的用电量序列进行相关性计算，包括：

采用Pearson线性相关系数和Spearman秩相关系数，计算用电量与温度的相关性，包括如下任意一项或任意多项：

-平均温度高于23摄氏度时，计算当日最高温与使用平电量的Spearman秩相关系数；

-平均温度高于23摄氏度时，计算当日最高温与使用谷电量的Pearson线性相关系数；

-平均温度高于23摄氏度时，计算当日最高温与使用谷电量的Spearman秩相关系数；

-平均温度高于23摄氏度时，计算当日最高温与使用总电量的Pearson线性相关系数；

-平均温度高于23摄氏度时，计算当日最高温与使用总电量的Spearman秩相关系数；

-平均温度高于23摄氏度时，计算当日平均温度与使用平电量的Pearson线性相关系数；

-平均温度高于23摄氏度时，计算当日平均温度与使用平电量的Spearman秩相关系数；

-平均温度高于23摄氏度时，计算当日平均温度与使用谷电量的Pearson线性相关系数；

-平均温度高于23摄氏度时，计算当日平均温度与使用谷电量的Spearman秩相关系数；

-平均温度高于23摄氏度时，计算当日平均温度与使用总电量的Pearson线性相关系数；

-平均温度高于23摄氏度时，计算当日平均温度与使用总电量的Spearman秩相关系数；

-平均温度高于25摄氏度时，计算当日最高温与使用平电量的Spearman秩相关系数；

-平均温度高于25摄氏度时，计算当日最高温与使用谷电量的Pearson线性相关系数；

-平均温度高于25摄氏度时，计算当日最高温与使用谷电量的Spearman秩相关系数；

-平均温度高于25摄氏度时，计算当日最高温与使用总电量的Pearson线性相关系数；

-平均温度高于25摄氏度时，计算当日最高温与使用总电量的Spearman秩相关系数；

-平均温度高于25摄氏度时，计算当日平均温度与使用平电量的Pearson线性相关系数；

-平均温度高于25摄氏度时，计算当日平均温度与使用平电量的Spearman秩相关系数；

-平均温度高于25摄氏度时，计算当日平均温度与使用谷电量的Pearson线性相关系数；

-平均温度高于25摄氏度时，计算当日平均温度与使用谷电量的Spearman秩相关系数；

-平均温度高于25摄氏度时，计算当日平均温度与使用总电量的Pearson线性相关系数；

-平均温度高于25摄氏度时，计算当日平均温度与使用总电量的Spearman秩相关系数。

优选地，所述利用所述数据集和用户用电量特征向量，建立训练集、验证集和测试集，包括：

将数据集中的数据按比例划分出测试集；

对余下的数据采用过采样方法，对数据中窃电用户用电量特征向量进行线性组合，合成新的数据样本，使得数据集中窃电用户的数据量与正常用户的数据量一致，然后将数据按比例建立训练集和验证集。

优选地，所述从训练集中学习用电量特征向量的分布，更新决策树的节点判断条件和参数，得到训练后的决策树；将训练后的决策树泛化至测试集中判断用户是否存在窃电行为，进行性能验证。

优选地，所述将得到的特征的重要性反馈至用户用电量特征向量，用于给出用户用电特征向量中每一个特征对于区分窃电用户的重要性，根据所述重要性对特征进行针对性的优化和选择，减少噪声的引入。

根据本发明的另一个方面，提供了一种用户窃电行为检测系统，包括：

数据处理模块，该模块获取用户在设定时间段内每日的平电量、谷电量及总电量用电量数据，筛选出极端异常数据并删除，在时间维度上进行内部插值补全缺失数据，构建数据集；

指标构建模块，该模块根据用户的用电量数据，构建用户用电量特征向量；

分类模型建立模块，该模块利用所述数据集和用户用电量特征向量，建立训练集、验证集和测试集；构建有监督的极致梯度提升决策树，从训练集中学习用电量特征向量的分布，得到训练后的决策树，采用验证集对训练后的决策树进行参数调优，和采用测试集检验训练后的决策树的性能，得到极致梯度提升决策树分类模型；通过所述分类模型中每个判断节点对用户用电量特征向量中的一项特征进行判断，根据不同特征在所有判断节点中所占比例，得到每个特征的重要性，并将得到的特征的重要性反馈至用户用电量特征向量，对所述用户用电量特征向量进行优化；利用所述分类模型对任一用户的优化后的用户用电量特征向量进行判断，完成对用户窃电行为的检测。

根据本发明的第三个方面，提供了一种终端，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时可用于执行上述任一项所述的方法。

根据本发明的第四个方面，提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时可用于执行上述任一项所述的方法。

由于采用了上述技术方案，本发明与现有技术相比，具有如下至少一项的有益效果：

本发明提供的用户窃电行为检测方法、系统、终端及介质，是一种通过用户每日用电数据进行用户窃电行为分析预测的技术。本发明对用电数据进行了有效规整，减少了输入分类模型的噪声，结合构建用户的用电特征向量，大大增加了算法的适应性，相较于在时间序列上直接采用机器学习方法的算法来说更稳定。

本发明提供的用户窃电行为检测方法、系统、终端及介质，其分类模型能识别出绝大多数窃电用户，为供电力企业有针对性地上门进行查处提供了依据，大大减少了电力企业的工作量，提高了工作效率。

附图说明

通过阅读参照以下附图对非限制性实施例所作的详细描述，本发明的其它特征、目的和优点将会变得更明显：

图1为本发明一实施例中用户窃电行为检测方法流程图。

图2为本发明一优选实施例中用户窃电行为检测方法流程图。

图3为本发明一优选实施例中数据清理后不同用电量的数据分布提琴图，其中提琴图的宽度越宽代表某种用电量在此处的分布密度越大。

图4为本发明一优选实施例中测试集分数输出分布图。

图5为本发明一优选实施例中所有数据的分数输出分布图。

图6为本发明一优选实施例中分类模型训练后得出的特征重要性分数图。

图7为本发明一实施例中用户窃电行为检测系统的组成模块示意图。

具体实施方式

下面对本发明的实施例作详细说明：本实施例在以本发明技术方案为前提下进行实施，给出了详细的实施方式和具体的操作过程。应当指出的是，对本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变形和改进，这些都属于本发明的保护范围。

图1为本发明一实施例提供的用户窃电行为检测方法流程图。

如图1所示，该实施例提供的用户窃电行为检测方法，可以包括如下步骤：

S100，获取用户在设定时间段内每日的平电量、谷电量及总电量用电量数据，筛选出极端异常数据并删除，在时间维度上进行内部插值补全缺失数据，构建数据集；

S200，根据用户的用电量数据，构建用户用电量特征向量；

S300，利用数据集和用户用电量特征向量，建立训练集、验证集和测试集；构建有监督的极致梯度提升决策树，从训练集中学习用电量特征向量的分布，得到训练后的决策树，采用验证集对训练后的决策树进行参数调优，采用测试集检验训练后的决策树的性能，得到极致梯度提升决策树分类模型；

S400，通过分类模型中每个判断节点对用户用电量特征向量中的一项特征进行判断，根据不同特征在所有判断节点中所占比例，得到每个特征的重要性，并将得到的特征的重要性反馈至用户用电量特征向量，对用户用电量特征向量进行优化；

S500，利用分类模型对任一用户的优化后的用户用电量特征向量进行判断，完成对用户窃电行为的检测。

在该实施例的S100中，作为一优选实施例，筛选出极端异常数据并删除，包括如下任意一项或任意多项：

-针对所有用户在设定时间段内每日使用的平电量、谷电量及总电量数据，分别计算出25％分位数和75％分位数之差，称为IQR，将比75％分位数大3倍IQR的值以及比25％分位数小3倍IQR的值视为极端异常值，予以删除；

-将用电量小于0的数据记为极端异常值，予以删除。

在该实施例的S100中，作为一优选实施例，在时间维度上进行内部插值补全缺失数据，包括：

根据用户的第一条有效数据和最后一条有效数据规定该用户的有效数据起止时间，对其中存在数据缺失的日期，通过前后最相邻的存在有效数据的日期，向内进行线性插值，构建用户时间序列，用户时间序列起止时间不固定，但数据点间隔固定为1天。

在该实施例的S200中，作为一优选实施例，用户用电量特征向量，包括：设定时间段内平电量、谷电量及总电量的平滑度、中值度、落差度、天气相关度以及周期相似度；其中：

在该实施例的一具体应用实例中，设定时间间隔为14天。

进一步地，作为一优选实施例，计算每名用户设定时间段内高温天气下用电量与当日最高温、最低温及平均温度的相关性，得到该设定时间段内平电量、谷电量及总电量的天气相关度，可以包括如下步骤：

在该实施例中，将温度阈值设定23度或25度，是根据真实实验测试，在用电量数据中，异常用户在寒冷天气下的用电量和正常用户差异不大，但在高温天气下(23度或25度)差异较大。而过高的温度阈值，如28度，会造成大量用户没有相关数据的情况。

进一步地，作为一优选实施例，选取该天气下的用电量序列进行相关性计算，可以包括如下步骤：

进一步地，选取该天气下的用电量序列进行相关性计算，具体可以包括如下步骤：

在得到天气相关度的方法中：采用Pearson线性相关系数和Spearman秩相关系数，计算用电量与温度的相关性，可以包括如下任意一项或任意多项：

在该实施例的S300中，作为一优选实施例，利用数据集和用户用电量特征向量，建立训练集、验证集和测试集，可以包括如下步骤：

将数据集中的数据按比例划分出测试集；

对余下的数据采用过采样方法，对数据中窃电用户用电量特征向量进行线性组合，合成新的数据样本，使得数据集中窃电用户的数据量与正常用户的数据量一致，然后将数据集按比例建立训练集和验证集。

在该实施例的S300中，作为一优选实施例，从训练集中学习用电量特征向量的分布，更新决策树的节点判断条件和参数，得到训练后的决策树；将训练后的决策树泛化至测试集中判断用户是否存在窃电行为，进行性能验证。

在该实施例的S400中，作为一优选实施例，将得到的特征的重要性反馈至用户用电量特征向量，用于给出用户用电特征向量中每一个特征对于区分窃电用户的重要性，根据重要性对特征进行针对性的优化和选择，减少噪声的引入。

该实施例提供的用户窃电行为检测方法，满足了电力企业对窃电用户的识别需求，减少上门检测所耗费的人力物力，结合机器学习模型的优势以及实际情况，从数据的极端异常值处理和内插开始，构建起止时间不统一、数据间隔统一的的用户用电序列，基于不同条件和不同方法构建多个评价指标，构建出用户用电特征向量，适配绝大多数用户。该实施例采用极致梯度提升决策树模型，对用户用电特征向量进行判别，同时可以在模型训练后得到每个评价指标的重要性，有利于电力企业针对当地实际情况选择对模型贡献较大的特征，减少不相关的指标引入不必要的噪声，影响模型的泛化能力。

图2为本发明一优选实施例提供的用户窃电行为检测方法流程图。

如图2所示，该优选实施例提供的用户窃电行为检测方法，可以包括如下步骤：

步骤1，根据用户一段时间内每日使用的平电量、谷电量及总电量数据，筛选出极端异常数据，在时间维度上进行内部插值补全缺失数据，对数据进行清理；

步骤2，根据每个用户的用电量数据，为每个用户构建用户用电量特征向量，其中分别包括平电量、谷电量及总电量在这段时间内的的平滑度、中值度、落差度、天气相关度与周期相似度；

步骤3，通常情况下窃电用户数量较少，通过一种用于合成少量类的过采样技术，对窃电用户的用电量特征向量进行线性组合，使训练集中窃电用户的数据量与正常用户达到一致；构建有监督的极致梯度提升决策树分类模型，从训练集中学习用电量特征向量的分布，从验证集进行参数调优，在测试集中判断一名用户是否存在窃电行为；

极致梯度提升决策树分类模型中每个判断节点对一项特征进行判断，根据不同特征在所有判断节点中所占比例，可以得到每个特征的重要性，为模型提供一定的可解释性；

步骤4，利用分类模型对任一用户的优化后的用户用电量特征向量进行判断，完成对用户窃电行为的检测。

作为一优选实施例，筛选极端异常数据，包括分别对所有用户的每日平电量、谷电量及总电量数据分别计算出25％分位数和75％(即(100-25)％)分位数之差，称为IQR，将比75％分位数大3倍IQR的值，以及比25％分位数小3倍IQR的值视为极端异常值，予以删除；

另外将用电量小于0的数值同样记为异常值，予以删除。

作为一优选实施例，在时间维度上进行内部插值补全缺失数据，以一名用户的第一条有效数据和最后一条有效数据规定该用户的有效数据起止时间，对其中存在数据缺失的日期，通过前后最相邻的存在有效数据的日期，向内进行线性插值，构建一条起止时间不固定，但数据点间隔固定为1天的时间序列。

作为一优选实施例，每个用户构建用户用电量特征向量中包括平电量、谷电量及总电量在这段时间内的的平滑度，计算方法为分别计算一名用户平电量、谷电量及总电量序列的方差。

作为一优选实施例，每个用户构建用户用电量特征向量中包括平电量、谷电量及总电量在这段时间内的中值度，计算方法为分别计算一名用户平电量、谷电量及总电量序列的中位数。

作为一优选实施例，每个用户构建用户用电量特征向量中包括平电量、谷电量及总电量在这段时间内的的落差度，计算方法为分别计算一名用户平电量、谷电量及总电量序列相邻两天差值的最大值。

作为一优选实施例，每个用户构建用户用电量特征向量中包括平电量、谷电量及总电量在这段时间内的的天气相关度，计算方法为计算高温天气下用电量与当日最高温、最低温及平均温度的相关性。

作为一优选实施例，计算高温天气下用电量与温度的相关性，其中高温天气指当日平均气温大于23度和25度两种情况，仅选取高温天气下的用电量序列进行计算；由于部分用户的用电量序列不包含高温天气下的用电序列，无法计算相关度，此时记为一常数。

作为一优选实施例，计算用电量与温度的相关性，包括采用Pearson线性相关系数和Spearman秩相关系数。

作为一优选实施例，采用Pearson线性相关系数和Spearman秩相关系数，求取高温天气下当日气温和用电量的相关性。根据不同的设置，结合实验中性能表现进行选择，可以形成的组合包括：

-平均温度高于23摄氏度时，当日最高温与使用平电量的Spearman秩相关系数；

-平均温度高于23摄氏度时，当日最高温与使用谷电量的Pearson线性相关系数；

-平均温度高于23摄氏度时，当日最高温与使用谷电量的Spearman秩相关系数；

-平均温度高于23摄氏度时，当日最高温与使用总电量的Pearson线性相关系数；

-平均温度高于23摄氏度时，当日最高温与使用总电量的Spearman秩相关系数；

-平均温度高于23摄氏度时，当日平均温度与使用平电量的Pearson线性相关系数；

-平均温度高于23摄氏度时，当日平均温度与使用平电量的Spearman秩相关系数；

-平均温度高于23摄氏度时，当日平均温度与使用谷电量的Pearson线性相关系数；

-平均温度高于23摄氏度时，当日平均温度与使用谷电量的Spearman秩相关系数；

-平均温度高于23摄氏度时，当日平均温度与使用总电量的Pearson线性相关系数；

-平均温度高于23摄氏度时，当日平均温度与使用总电量的Spearman秩相关系数；

-平均温度高于25摄氏度时，当日最高温与使用平电量的Spearman秩相关系数；

-平均温度高于25摄氏度时，当日最高温与使用谷电量的Pearson线性相关系数；

-平均温度高于25摄氏度时，当日最高温与使用谷电量的Spearman秩相关系数；

-平均温度高于25摄氏度时，当日最高温与使用总电量的Pearson线性相关系数；

-平均温度高于25摄氏度时，当日最高温与使用总电量的Spearman秩相关系数；

-平均温度高于25摄氏度时，当日平均温度与使用平电量的Pearson线性相关系数；

-平均温度高于25摄氏度时，当日平均温度与使用平电量的Spearman秩相关系数；

-平均温度高于25摄氏度时，当日平均温度与使用谷电量的Pearson线性相关系数；

-平均温度高于25摄氏度时，当日平均温度与使用谷电量的Spearman秩相关系数；

-平均温度高于25摄氏度时，当日平均温度与使用总电量的Pearson线性相关系数；

-平均温度高于25摄氏度时，当日平均温度与使用总电量的Spearman秩相关系数；

作为一优选实施例，每个用户构建用户用电量特征向量中包括平电量、谷电量及总电量在这段时间内的的周期相似度，计算方法为从一名用户序列的起始日期开始，对平电量、谷电量和总电量每14天取一段序列，取相邻两段序列的标准化DTW距离，计算所有标准化DTW距离的平均值，形成3种用电量的周期相似度。

作为一优选实施例，使训练集中窃电用户的数据量与正常用户达到一致，包括采用过采样技术对样本数量较少的窃电用户用电特征向量进行线性组合，人工合成新的少类样本，提高训练后模型的泛化能力。

作为一优选实施例，构建有监督的极致梯度提升决策树分类模型，从训练集中学习用电量特征向量的分布，更新决策树的节点判断条件和参数，泛化至测试集中进行验证。

作为一优选实施例，极致梯度提升决策树分类模型中每个判断节点对一项特征进行判断，得到每个特征的重要性，从而给出特征向量中每一个指标对于区分窃电用户的重要性，有针对性地进行特征的优化和选择，减少噪声的引入。

在本发明的部分实施例中：

采用四分位距作为筛选极端异常数据的标准。四分位距(IQR)由75％分位数(Q3)，减去25分位数(Q1)，得到IQR＝Q3–Q1。记数据中大于Q3+3×IQR的数据和小于Q1-3×IQR的数据为极端异常值，予以删除。

构建有监督的极致梯度提升决策树分类模型，从训练集中学习用电量特征向量的分布，更新决策树的节点判断条件和参数，泛化至测试集中进行验证。本发明实施例采用的性能验证方法包括混淆矩阵和一系列精度指标，如表1所示。

表1

准确率将正常用户与异常用户在模型中的重要性视为均等，将两类的正确判断同时纳入考量；召回率主要考虑真正的正常用户中，被判别为正常用户的比例，召回率越高，则正常用户中被判别为异常用户，即会造成额外上门检测工作量的情况越少；真负率主要考虑在真正的异常用户中，被实际判别为异常用户的比例，真负率越高则说明越少异常用户被漏检。

下面结合一具体应用实例，对本发明上述实施例所提供的技术方案进一步详细描述如下。

该具体应用实例提供的用户窃电行为检测方法，基于上述实施例所提供的具体步骤，在长度从28至363天不等的真实居民有效用电量序列上进行学习，在测试数据集上获得较高的性能，可以实现降低工作量、提高反窃电工作效率的目的。

该具体应用实例提供的用户窃电行为检测方法，其步骤可参考图2所示，包括：

步骤一、数据预处理；

原始数据中包含平电量、谷电量及总电量三部分，在每个维度上进行极端异常值检测，计算出表2所示有效数据的上下界。

表2

	总电量	平电量	谷电量
				25％分位数(Q1)	3.01	1.96	0.69
75％分位数(Q3)	11.09	7.18	2.9
				四分位距IQR	8.08	5.22	2.21
有效下界(Q1-3*IQR)	-21.23	-13.7	-5.94
				有效上界(Q3+3*IQR)	35.33	22.84	9.53

需要注意，有效下界小于0，这是从数据本身考虑出的下界，但在实际情况中，不应将用电量小于0的情况纳入考虑，因此一律删除。

删除数据后，需要先将用户用电序列对齐至时间轴上，构建均匀间隔的时间序列。对于有效数据占比少于50％的，插值结果较不可靠，不纳入考虑；对于时间跨度少于28天的，不纳入考虑。再使用线性内插补全序列内部的缺失值。对于窃电用户的用电数据，需要截取至被电力企业查获前，避免正常用电数据干扰。此时，总电量、平电量和谷电量的数值分布提琴图如图3所示。

步骤二、构建用户用电特征向量；

步骤二-1：对每名用户，分别计算一名用户平电量、谷电量及总电量序列的方差，形成3个平滑度指标。

步骤二-2：对每名用户，分别计算一名用户平电量、谷电量及总电量序列的中位数，形成3个中值度指标。

步骤二-3：对每名用户，分别计算一名用户平电量、谷电量及总电量序列相邻两天差值的最大值，形成3个落差度指标。

步骤二-4：用户用电量序列带有日期标签，可以将当地每日平均气温、最低温和最高温同样对齐至日期。对所有用户，分别选取平均气温高于23度和25度的日期。对每名用户，分别采用Pearson线性相关系数和Spearman秩相关系数计算高温天气下气温和用电量的相关性。根据不同的条件，设置表3所示一系列天气相关度相关指标：

表3

步骤二-5：在时间序列上从头开始循环取相邻的两个长度为14天的固定长度窗口，计算两个窗口内总电量、平电量和谷电量序列的标准化DTW距离，以该时间序列上计算出的所有标准化DTW距离的平均值作为用电量的周期相似度。

经过步骤二，共选择出34个特征，记为

步骤三、数据均衡与建模

经过数据清理后，数据集中共有7275名用户，其中有502名异常窃电用户。为正常用户赋予标签为1，为窃电用户赋予标签为0。将数据集中的正常用户和异常用户分别按照0.64：0.16：0.2的比例构建训练集、验证集与测试集，采用SMOTE过采样技术对训练集和验证集中样本数量较少的窃电用户用电特征向量进行线性组合，人工合成新的少类样本，此时训练集中有4400例异常用户样本，4273例正常用户样本。而测试集的标签在训练阶段应为未知，不进行过采样技术处理，其中有1352例真实的正常用户样本，103例真实的异常用户样本。

极致梯度提升决策树是对梯度提升决策树算法的一种改进，令训练集中的用户用电特征向量表示为

标签记为y_i∈{0,1}，则预测结果可以表示为：

其中k为树的棵树，f_k(x_i)为第k棵子树对第i个样本的预测分数。每棵树都可以视为一个弱分类器，通过集成学习组合为一个强分类器。采用分类回归树作为基础的弱分类器，每个结点不断分裂成两个子树，以第j个特征的值作为参考，小于s则划分至左子树，大于s则划分至右子树。梯度提升决策树每次添加一棵树以拟合前序树预测后的残差，因此一个样本在k棵树的叶子节点得到的分数相加，即是样本在此极致梯度提升决策树的得分。

训练过程中，需要对一个目标函数进行优化，以降低分类的误差

其中y_i为真实标签，

为预测标签；又为了减少过拟合，需要在目标函数中加入正则化项∑_kΩ(f_k)。正则化项可以分为两部分，一部分控制第k棵树叶子节点的个数T_k，一部分控制第k棵树叶子节点上的分数ω_k不会过大，采用向量的L2范数‖ω_k‖表示。目标函数

可以写为：

其中γ和λ为正则化系数。

由于梯度提升树中每一棵新树都是拟合过去树的残差，因此训练第k棵新树时，可以将

写为：

极致梯度提升树采用来了泰勒二阶展开公式，即：

因此

在f_k(x_i)→0时可以近似改写为：

其中

此时目标函数

可以表示为：

优化

时与前k-1棵树无关，可以移除

因此

可以简化为：

上式中第一项将每个样本在第k棵树上的误差求和，若将第k棵树落到每个叶子节点j的样本i∈I_j进行重新聚合，即将第k棵树上的每个叶子节点中的误差求和，结果相等，上式可以写为：

其中ω_j为第j个叶子节点代表的分数。当树的结构固定时，极致梯度提升决策树将

重写为一个关于每一棵新子树的叶子节点分数

的一元二次函数，可以简单地求出：

在分裂子树时，可以根据拆分后的实例集上

的变化定义一次拆分的增益Gain。I为拆分前实例集，拆分后左右节点的实例集为I_L,I_R，有I_L∪I_R＝I，节点数T比拆分前多1，有

因此一次成功有效的子树分裂要求切分后左右子树形成的误差更小，且用γ作为额外引入一个叶子节点的惩罚项。

使用极致梯度提升决策树分类模型在训练集上进行分类任务，更新模型参数和分裂节点的判断条件，在验证集上进行参数调优，最后在未经样本扩充的测试集上进行性能测试。以0.5为阈值，在测试集上的混淆矩阵如表4所示。在测试集上的分数输出分布如图4所示。

表4

	判断窃电用户	判断正常用户
			真实窃电用户	89	14
真实正常用户	23	1329

根据表1和表4可以计算出，该模型的性能为

可以认为，在此验证集中，1455例用户中有103户窃电用户，电力企业只需要检查112户用户，即可检测出89户真正的窃电用户，仅用7.7％的检测量即可检查出86.4％的异常用户。所有1455例用户的分数分布如图5所示。

在此训练集上训练出的极致梯度提升决策树分类模型特征重要性如图6所示。

步骤四，利用分类模型对任一用户的优化后的用户用电量特征向量进行判断，完成对用户窃电行为的检测。

本发明一实施例提供了一种用户窃电行为检测系统，如图7所示，可以包括：数据处理模块、指标构建模块和分类模型建立模块；其中：

分类模型建立模块，该模块利用数据集和用户用电量特征向量，建立训练集、验证集和测试集；构建有监督的极致梯度提升决策树，从训练集中学习用电量特征向量的分布，得到训练后的决策树，采用验证集对训练后的决策树进行参数调优，和采用测试集检验训练后的决策树的性能，得到极致梯度提升决策树分类模型；通过分类模型中每个判断节点对用户用电量特征向量中的一项特征进行判断，根据不同特征在所有判断节点中所占比例，得到每个特征的重要性，并将得到的特征的重要性反馈至用户用电量特征向量，对用户用电量特征向量进行优化；利用分类模型对任一用户的优化后的用户用电量特征向量进行判断，完成对用户窃电行为的检测。

本发明一实施例提供了一种终端，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，处理器执行程序时可用于执行上述实施例中任一项的方法。

可选地，存储器，用于存储程序；存储器，可以包括易失性存储器(英文：volatilememory)，例如随机存取存储器(英文：random-access memory，缩写：RAM)，如静态随机存取存储器(英文：static random-access memory，缩写：SRAM)，双倍数据率同步动态随机存取存储器(英文：Double Data Rate Synchronous Dynamic Random Access Memory，缩写：DDR SDRAM)等；存储器也可以包括非易失性存储器(英文：non-volatile memory)，例如快闪存储器(英文：flash memory)。存储器用于存储计算机程序(如实现上述方法的应用程序、功能模块等)、计算机指令等，上述的计算机程序、计算机指令等可以分区存储在一个或多个存储器中。并且上述的计算机程序、计算机指令、数据等可以被处理器调用。

上述的计算机程序、计算机指令等可以分区存储在一个或多个存储器中。并且上述的计算机程序、计算机指令、数据等可以被处理器调用。

处理器，用于执行存储器存储的计算机程序，以实现上述实施例涉及的方法中的各个步骤。具体可以参见前面方法实施例中的相关描述。

处理器和存储器可以是独立结构，也可以是集成在一起的集成结构。当处理器和存储器是独立结构时，存储器、处理器可以通过总线耦合连接。

本发明一实施例提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时可用于执行上述实施例中任一项的方法。

本发明上述实施例提供的用户窃电行为检测方法、系统、终端及介质，基于用户用电特征向量和极致梯度提升决策树分类模型实现，该技术根据居民一段时间内每日使用的平电量、谷电量及总电量数据，筛选出极端异常数据，在时间维度上进行内部插值补全缺失数据；根据每个用户的用电量数据，为每个用户构建用户用电量特征向量，其中分别包括平电量、谷电量及总电量在这段时间内的的平滑度、中值度、落差度、天气相关度与周期相似度；通常情况下窃电用户数量较少，通过一种用于合成少量类的过采样技术，对窃电用户的用电量特征向量进行线性组合，使训练集中窃电用户的数据量与正常用户达到一致；构建有监督的极致梯度提升决策树分类模型，从训练集中学习用电量特征向量的分布，在测试集中判断一名用户是否存在窃电行为。极致梯度提升决策树中每个判断节点对一项特征进行判断，根据不同特征在所有判断节点中所占比例，可以得到每个特征的重要性，为模型提供一定的可解释性。

本发明上述实施例提供的用户窃电行为检测方法、系统、终端及介质，对用电数据进行了有效规整，减少了输入分类模型的噪声，结合构建用户的用电特征向量，大大增加了算法的适应性，相较于在时间序列上直接采用机器学习方法的算法来说更稳定；其分类模型能识别出绝大多数窃电用户，为供电力企业有针对性地上门进行查处提供了依据，大大减少了电力企业的工作量，提高了工作效率。

需要说明的是，本发明提供的方法中的步骤，可以利用系统中对应的模块、装置、单元等予以实现，本领域技术人员可以参照方法的技术方案实现系统的组成，即，方法中的实施例可理解为构建系统的优选例，在此不予赘述。

本领域技术人员知道，除了以纯计算机可读程序代码方式实现本发明提供的系统及其各个装置以外，完全可以通过将方法步骤进行逻辑编程来使得本发明提供的系统及其各个装置以逻辑门、开关、专用集成电路、可编程逻辑控制器以及嵌入式微控制器等的形式来实现相同功能。所以，本发明提供的系统及其各项装置可以被认为是一种硬件部件，而对其内包括的用于实现各种功能的装置也可以视为硬件部件内的结构；也可以将用于实现各种功能的装置视为既可以是实现方法的软件模块又可以是硬件部件内的结构。

以上对本发明的具体实施例进行了描述。需要理解的是，本发明并不局限于上述特定实施方式，本领域技术人员可以在权利要求的范围内做出各种变形或修改，这并不影响本发明的实质内容。

Claims

1.一种用户窃电行为检测方法，其特征在于，包括：

根据用户的用电量数据，构建用户用电量特征向量；

2.根据权利要求1所述的用户窃电行为检测方法，其特征在于，所述筛选出极端异常数据并删除，包括如下任意一项或任意多项：

-将用电量小于0的数据记为极端异常值，予以删除；

所述在时间维度上进行内部插值补全缺失数据，包括：

3.根据权利要求1所述的用户窃电行为检测方法，其特征在于，所述用户用电量特征向量，包括：设定时间段内平电量、谷电量及总电量的平滑度、中值度、落差度、天气相关度以及周期相似度；其中：

4.根据权利要求3所述的用户窃电行为检测方法，其特征在于，所述计算每名用户设定时间段内高温天气下用电量与当日最高温、最低温及平均温度的相关性，得到该设定时间段内平电量、谷电量及总电量的天气相关度，包括：

5.根据权利要求4所述的用户窃电行为检测方法，其特征在于，所述选取该天气下的用电量序列进行相关性计算，包括：

6.根据权利要求1所述的用户窃电行为检测方法，其特征在于，所述利用所述数据集和用户用电量特征向量，建立训练集、验证集和测试集，包括：

将数据集中的数据按比例划分出测试集；

7.根据权利要求1所述的用户窃电行为检测方法，其特征在于，所述从训练集中学习用电量特征向量的分布，更新决策树的节点判断条件和参数，得到训练后的决策树；将训练后的决策树泛化至测试集中判断用户是否存在窃电行为，进行性能验证；和/或

所述将得到的特征的重要性反馈至用户用电量特征向量，用于给出用户用电特征向量中每一个特征对于区分窃电用户的重要性，根据所述重要性对特征进行针对性的优化和选择，减少噪声的引入。

8.一种用户窃电行为检测系统，其特征在于，包括：

9.一种终端，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时可用于执行权利要求1-7中任一项所述的方法。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时可用于执行权利要求1-7中任一项所述的方法。