CN114266676A

CN114266676A - 一种遗传优化Bagging异质集成模型的异常用电检测方法

Info

Publication number: CN114266676A
Application number: CN202111621855.2A
Authority: CN
Inventors: 屈志坚; 马帅军; 刘汉欣; 祝振敏; 胡文博; 李坚
Original assignee: East China Jiaotong University
Current assignee: East China Jiaotong University
Priority date: 2021-12-28
Filing date: 2021-12-28
Publication date: 2022-04-01

Abstract

本发明公开了一种遗传优化Bagging异质集成模型的异常用电检测方法，涉及基于数据驱动的窃电检测技术领域，本发明通过SMOTE过采样技术对窃电用户数据进行样本增强，其次利用主成分分析降维提取异常用电特征，构建多种类型个体学习器嵌入的Bagging异质集成学习的窃电检测模型，通过引入投票策略将其输出进行结合,并用遗传算法对个体学习器的超参数进行优化。基于遗传优化的Bagging集成检测模型相比于决策树、支持向量机、随机森林以及传统人工神经网络等检测方法在准确率、误检率以及AUC评价指标上有明显提升，为加强我国电力企业对电能输送的高效监管力度、加大窃电的查处惩治力度、维护正常的供用电秩序、保障企业经营效益起到了积极的作用。

Description

一种遗传优化Bagging异质集成模型的异常用电检测方法

技术领域

本发明涉及基于数据驱动的窃电检测技术领域，具体为一种遗传优化Bagging异质集成模型的异常用电检测方法。

背景技术

用户侧的窃电与异常用电行为是造成电网非技术性损失的主要原因，该行为不但会损害电力行业的经济利益，而且由于在输配电过程中难以考虑到非技术性损失，导致配电网在实际运行中的负荷大于预计负荷，为电网带来很大的潜在负荷增量和风险。近年来，坚强智能电网和泛在电力物联网不断建设与发展，高级量测体系（AMI）也逐步完善，智能电表采集到大量的用户用电负荷数据，这给基于数据驱动的异常用电检测问题提供了新的思路。

目前，应用于异常用电检测方面的有效方法可归纳为基于传统方法、基于数据挖掘两大类。传统方法涵盖了物理方法、状态估计、基于专家知识的模型等三种方法。物理方法一般指安装防窃电计量装置包括采用双向计量或止逆式电能表、射频识别标签和传感器等等，该方法需耗费大量资源、计量装置维护比较困难；基于状态估计的方法往往需要知道电网拓扑结构和各个节点的量测信息，不适合电网的大规模实际应用；基于人工经验规则库的方法则过于依赖专家知识规则，这些知识在实际应用中还不够完整，错检和误检率较高，因此通用性不高。近年来，机器学习算法不断发展，专家学者们开始利用机器学习算法来挖掘电力用户用电信息，找到数据中潜藏的内在规律，从而识别窃电用户，利用机器学习算法进行窃电检测已成为近几年主流的窃电检测手段。机器学习之所以如此受欢迎，是因为其超强的学习能力，只要有足够的训练数据集，就可以准确的学习到数据的分布规律，而且此过程无需人为干预，只需要提前设置好各个参数即可。

现有的异常用电检测方法存在着电网窃电数据不平衡导致检测精度不高的问题。针对上述不足之处，需要设计一种遗传优化Bagging集成模型的窃电检测方法。

发明内容

本发明的目的在于提供一种基于数据驱动遗传优化Bagging集成模型的窃电检测方法。首先通过SMOTE过采样技术对窃电用户数据进行样本增强，其次利用PCA降维提取异常用电特征，最后考虑不同的个体学习器之间的多样性，构建多种类型个体学习器嵌入的Bagging 异质集成学习的窃电检测模型，模型的个体学习器包含支持向量机、梯度提升树和人工神经网络，通过引入投票策略将其输出进行结合,并用遗传算法对个体学习器的超参数进行优化以解决上述背景技术中提出的问题。

为实现上述目的，本发明提供如下技术方案：

一种遗传优化Bagging异质集成模型的异常用电检测方法，所述检测方法包括以下步骤：

S1:采集国家电网公司提供的用户用电数据；

S2:对国家电网公司提供的用户用电数据进行数据预处理，获得训练集和测试集；

S3:构建基于Bagging集成学习模型，并利用训练集对其进行训练，获得训练后的用电异常检测模型；

S4:利用遗传算法对模型超参数进行优化，提高模型的分类精度；

S5:将经过遗传算法优化的Bagging集成学习异常用电检测模型在测试集上做最后的测试，并输出分类结果，所述分类结果中包括窃电用户；

S6:对于通过测试集测试输出的分类结果，利用分类性能指标进行分析对比。

作为本发明进一步方案：所述步骤S2还包括以下步骤:

S21:原始用电负荷数据存在一定的缺失值和异常值，需要进行相应的填补和清洗操作，获得完整数据；

S22:对清洗好的用电负荷数据做归一化处理，将数据统一归算到0～1之间，便于后续的检测分析；

S23:采用SMOTE过采样技术对窃电负荷样本集进行数据增强；

S24:采用主成分分析对用电特征进行降维处理。

作为本发明进一步方案：所述步骤S21中处理缺失值所采用拉格朗日插值法，公式如下：

在上述式中，

,

,

,

分别表示要插值的总次数、第

个耗电数据、第

个样本值、拉格朗日多项式和新生成的耗电数据。

作为本发明进一步方案：所述步骤S22中清洗好的用电负荷数据做归一化处理的公式如下：

式中，

和

分别表示数据归一化前的耗电量原始值和归一化特征值；

和

分别表示归一化前数据对应维度的最大和最小用电量。

作为本发明进一步方案：所述步骤S3还包括以下步骤：

S31: 用预处理后的训练集对常用的异常用电检测学习器进行训练；

S32: 对比训练后的各个体学习器的分类表现以及各个体学习器间的多样性；

S33: 通过训练对比，挑选出机器学习中统计学习、符号主义学习和连接主义学习的代表支持向量机、梯度提升树和人工神经网络作为Bagging异质集成学习模型的基学习器，以确保个体学习器间的多样性；

S34: 在Bagging异质集成算法对各个体学习器的输出进行结合时，选择使用多数投票法来进行输出结合。

作为本发明进一步方案：所述步骤S4还包括以下步骤：

S41:采用遗传算法对梯度提升树中树的最大深度进行优化，进而减小损失函数，并且防止模型过拟合，提高该模型分类的精度；

S42:采用遗传算法对人工神经网络中的学习率进行优化，使学习率对步长做出合适的调整，进而减小神经网络的预测误差，提高该模型分类的精度；

S43：通过对梯度提升树中树的最大深度和人工神经网络中的学习率进行优化后，使输出的检测精度提升。

作为本发明进一步方案：所述步骤S41还包括以下步骤：

S411：通过遗传算法设置一定的种群数，然后将GBDT中的最大深度超参数进行二进制编码；

S412：对进行二进制编码后的超参数进行初始化并计算其适应度；

S413: 根据遗传算法的原理对初始化后最大深度超参数的二进制编码进行选择、交叉和变异操作；

S414：遗传算法通过对步骤S412和步骤S412这两步进行循环操作，直至找出全局最优解，然后停止循环，进而提高分类的精度。

作为本发明进一步方案：所述步骤S42还包括以下步骤：

S421：将步骤S411～S414中优化的最大深度超参数换成人工神经网络中的学习率作为优化目标进行优化，其余部分和步骤S411～S414步骤相同。

作为本发明进一步方案：所述步骤S6中，把通过测试集测试输出的分类结果，使用精确率、准确率、召回率和AUC值来评价最终模型的分类性能，输出混淆矩阵，并和未经遗传优化的Bagging集成学习模型的用电异常检测结果进行对比，分析所述基于遗传优化的Bagging集成学习窃电检测模型的分类性能的提升。

有益效果：

1.本发明所提出的一种遗传优化Bagging异质集成模型的异常用电检测方法，更进一步地提高了窃电检测的准确率和效率；为加强我国电力企业对电能输送的高效监管力度、加大窃电的查处惩治力度、维护正常的供用电秩序、保障企业经营效益起到了积极的作用。

附图说明

图1为本发明实施例的异常用电检测方法流程图；

图2为本发明实施例的遗传优化流程图；

图3为本发明实施例的遗传优化Bagging集成学习窃电检测流程图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明提供如下技术方案：

如图1-3所示，一种遗传优化Bagging异质集成模型的异常用电检测方法，所述检测方法包括以下步骤：

S1:采集国家电网公司提供的用户用电数据；

步骤S2进一步包括以下步骤:

步骤S21中处理缺失值所采用拉格朗日插值法，公式如下：

在上述式中，

,

,

,

分别表示要插值的总次数、第

个耗电数据、第

个样本值、拉格朗日多项式和新生成的耗电数据。

步骤S22中清洗好的用电负荷数据做归一化处理的公式如下：

式中，

和

分别表示数据归一化前的耗电量原始值和归一化特征值；

和

分别表示归一化前数据对应维度的最大和最小用电量。

S23:采用SMOTE过采样技术对窃电负荷样本集进行数据增强；

S24:采用主成分分析（PCA）对用电特征进行降维处理。

步骤S3进一步包括以下步骤：

S33: 通过训练对比，挑选出机器学习中统计学习、符号主义学习和连接主义学习的代表支持向量机（SVM）、梯度提升树（GBDT）和人工神经网络(ANN)作为Bagging异质集成学习模型的基学习器，以确保个体学习器间的多样性；

S34: 在Bagging异质集成算法对各个体学习器的输出进行结合时，选择使用多数投票法（majority voting）来进行输出结合。

步骤S4进一步包括以下步骤：

S41:采用遗传算法对梯度提升树（GBDT）中树的最大深度（max_depth）进行优化，进而减小损失函数，并且防止模型过拟合，提高该模型分类的精度；

步骤S41进一步包括以下步骤：

S411：通过遗传算法设置一定的种群数，然后将GBDT中的最大深度（max_depth）超参数进行二进制编码；

S42:采用遗传算法对人工神经网络（ANN）中的学习率（learning rate）进行优化，使学习率对步长做出合适的调整，进而减小神经网络（ANN）的预测误差，提高该模型分类的精度；

所述步骤S42还包括以下步骤：

S421：将步骤S411～S414中优化的最大深度（max_depth）超参数换成人工神经网络（ANN）中的学习率（learning rate）作为优化目标进行优化，其余部分和步骤S411～S414步骤相同。

S43：通过对梯度提升树中树的最大深度（max_depth）和人工神经网络（ANN）中的学习率（learning rate）进行优化后，使输出的检测精度提升。

在步骤S6中，把通过测试集测试输出的分类结果，使用精确率（Precision）、准确率（Accuracy）、召回率（recall）和AUC值来评价最终模型的分类性能，输出混淆矩阵，并和未经遗传优化的Bagging集成学习模型的用电异常检测结果进行对比，分析所述基于遗传优化的Bagging集成学习窃电检测模型的分类性能的提升。

本发明实施例的提供了基于遗传优化的Bagging集成学习窃电检测方法。利用国家电网公司智能电表采集的用户用电负荷数据进行对比，验证了本方法的精确性与有效性，进一步提高了窃电检测模型的准确率。

基于遗传优化的Bagging集成学习识别电网用户用电异常行为的精度较优。通过训练对比，挑选出机器学习中统计学习、符号主义学习和连接主义学习的代表支持向量机（SVM）、梯度提升树（GBDT）和人工神经网络(ANN)作为Bagging异质集成学习模型的基学习器。得到Bagging集成学习和基于遗传优化的Bagging集成学习分类用户用电异常的精确率（Precision）、准确率（Accuracy）、召回率（recall）和AUC值，如表1所示：

表1具体为未经遗传优化Bagging异常用电检测模型和经过遗传优化Bagging异常用电检测模型在国家电网公司智能电表采集的用户用电负荷数据上的精确率（Precision）、准确率（Accuracy）、召回率（recall）和AUC值测试结果对比表；

本次实验基于国家电网公司发布的真实用户用电数据。利用国家电网公司现有系统所提供数据实现反窃电分析，对窃电嫌疑用户行为进行推断，精准识别重大窃电嫌疑用户，为加强我国电力企业对电能输送的高效监管力度、加大窃电的查处惩治力度、维护正常的供用电秩序、保障企业经营效益起到了积极的作用。

以上公开的本发明优选实施例只是用于帮助阐述本发明。优选实施例并没有详尽叙述所有的细节，也不限制该发明仅为的具体实施方式。显然，根据本说明书的内容，可作很多的修改和变化。本说明书选取并具体描述这些实施例，是为了更好地解释本发明的原理和实际应用，从而使所属技术领域技术人员能很好地理解和利用本发明。本发明仅受权利要求书及其全部范围和等效物的限制。

Claims

1.一种遗传优化Bagging异质集成模型的异常用电检测方法，其特征在于，所述检测方法包括以下步骤：

S1:采集国家电网公司提供的用户用电数据；

2.根据权利要求1所述的一种遗传优化Bagging异质集成模型的异常用电检测方法，其特征在于，所述步骤S2还包括以下步骤:

S23:采用SMOTE过采样技术对窃电负荷样本集进行数据增强；

S24:采用主成分分析对用电特征进行降维处理。

3.根据权利要求2所述的一种遗传优化Bagging异质集成模型的异常用电检测方法，其特征在于，所述步骤S21中处理缺失值所采用拉格朗日插值法，公式如下：

在上述式中，

,

,

,

分别表示要插值的总次数、第

个耗电数据、第

个样本值、拉格朗日多项式和新生成的耗电数据。

4.根据权利要求2所述的一种遗传优化Bagging异质集成模型的异常用电检测方法，其特征在于，所述步骤S22中清洗好的用电负荷数据做归一化处理的公式如下：

式中，

和

分别表示数据归一化前的耗电量原始值和归一化特征值；

和

分别表示归一化前数据对应维度的最大和最小用电量。

5.根据权利要求1所述的一种遗传优化Bagging异质集成模型的异常用电检测方法，其特征在于，所述步骤S3还包括以下步骤：

6.根据权利要求1所述的一种遗传优化Bagging异质集成模型的异常用电检测方法，其特征在于，所述步骤S4还包括以下步骤：

7.根据权利要求6所述的一种遗传优化Bagging异质集成模型的异常用电检测方法，其特征在于，所述步骤S41还包括以下步骤：

8.根据权利要求7所述的一种遗传优化Bagging异质集成模型的异常用电检测方法，其特征在于，所述步骤S42还包括以下步骤：

9.根据权利要求1所述的一种遗传优化Bagging异质集成模型的异常用电检测方法，其特征在于，所述步骤S6中，把通过测试集测试输出的分类结果，使用精确率、准确率、召回率和AUC值来评价最终模型的分类性能，输出混淆矩阵，并和未经遗传优化的Bagging集成学习模型的用电异常检测结果进行对比，分析所述基于遗传优化的Bagging集成学习窃电检测模型的分类性能的提升。