CN113723497A

CN113723497A - 基于混合特征提取及Stacking模型的异常用电检测方法、装置、设备及存储介质

Info

Publication number: CN113723497A
Application number: CN202110991417.9A
Authority: CN
Inventors: 张冬冬; 江枫; 李春娇; 朱虹谕; 江美慧; 郭平辉; 李深旺; 武新章
Original assignee: Guangxi University
Current assignee: Nanjing Taidai Intelligent Equipment Research Institute Co ltd
Priority date: 2021-08-26
Filing date: 2021-08-26
Publication date: 2021-11-30

Abstract

本发明公开了一种基于混合特征提取及Stacking模型的异常用电检测方法、装置、设备及存储介质，属于人工智能和电气工程的交叉技术领域。本文针对大数据下的用电异常行为，提出了一种基于混合特征提取及Stacking模型的检测方法，该方法先将人工经验特征提取与LSTM特征提取相融合，再选取LR、KNN、RF作为Stacking模型的基分类器，选取SVM作为元分类器，其中，采用SSA算法对分类器中的各参数进行全局寻优。通过多角度，多层次，多维度建立用户用电指标特征，深层次挖掘用户用电数据，通过仿真实验表明了本文所提模型在各个指标上都取得了较好的效果，证明了模型的有效性。

Description

基于混合特征提取及Stacking模型的异常用电检测方法、装置、设备及存储介质

技术领域

本发明属于人工智能和电气工程的交叉领域，具体涉及一种基于混合特征提取及Stacking模型的异常用电检测方法、装置、设备及存储介质。

背景技术

随着我国国民经济的日益增长而迅速发展，电力行业作为我国经济的基础产业需求量急剧上涨。电网运行中的输配电损失可分为技术性损失(Technical loss, TL)和非技术性损失(Non-Technical loss,NTL)，其中TL是由于发电机、变压器、线路等硬件所造成的损耗；NTL是指配电侧的用户由于异常用电行为造成的，异常用电行为的日益增多不仅给电力公司带来了巨大的经济损失，而且不当的窃电操作会给电网的正常运行带来巨大的威胁，更严重的还会带来恶劣的社会影响。

此外，对电网来说，异常用电行为增加了线路的损耗，为了少交电费，窃电者通过私拉电线、更改电表的数据甚至结构，这不仅对电力设备造成了损害，还严重威胁到了电网的安全稳定运行，据数据统计，近年来的火灾事故和触电伤亡事故中，由于窃电造成的达到了40％，可见后果十分严重。窃电行为从某些程度上来说，还会给用电企业造成不公平的竞争，破坏了市场的用电秩序，这些企业通过窃电降低生产成本提高市场的竞争力，而不是通过改进生产工艺、提高生产效率来提高核心竞争力，这样的企业增多后就会引发连锁反应，形成不良的企业生产风气。

传统的防窃电行为手段主要是通过专业人员的定期勘察、在电表箱处安装监控或报警的仪器等方式，这不仅浪费了大量的人力和物力，而且效率非常的低下。在智能电表快速普及的今天，越来越多的大数据可供使用，窃电者的窃电手段也随着智能电表的普及呈现多样化、智能化及产业化的特点。随着人工智能的飞速发展，数据挖掘以及机器学习甚至深度学习的技术已经被应用到了各行各业，如何将人工智能技术应用到异常用电检测中将会成为现阶段的研究方向。

利用数据挖掘进行异常检测依据有无数据标签主要分为有监督学习和无监督学习两类。无监督学习数据集不带标签，主要是利用聚类的方法和离群点检测两种，文献“庄池杰，张斌，胡军，等.基于无监督学习的电力用户异常用电模式检测[J].中国电机工程学报.2016,36(02):379-387”首先对表征用户用电行为的特征量进行提取，如趋势指标、变动性指标等，再分别利用PCA和因子分析两种降维方法将所有用户的负荷序列映射到二维平面，最后用网格技术优化后的局部利群因子算法得出每个用户的离群程度，从而达到异常检测的目的。

有监督学习的输入数据带有标签，通过构造输入的属性变量和输出标记之间的映射关系来区分正负样本。有监督学习又可分为分类问题和回归问题，如果输出值为连续的数据，则为回归问题，比如负荷预测就是典型的回归问题；如果输出值是离散的数据，则为分类问题，常见的离散输出值要么为0，要么为1，这就是常见的二分类问题。文献“许刚，谈元鹏，戴腾辉.稀疏随机森林下的用电侧异常行为模式检测[J].电网技术.2017,41(06):1964-1973”提出了基于稀疏随机森林的异常用电检测模型，该模型采用日用电量为特征指标项，利用时间窗函数与有放回的重采样，建立用电行为的模式信息簇，再基于随机权网络得到随机森林模型并稀疏化来识别用电异常，最后使用包含五大类别用户的负荷数据进行仿真实验，结果表明模型具有一定的有效性。但是上述方法由于特征提取全面性的不足，分类器的泛化性能不强以及参数选择上的随意性，导致最终的精确度等指标并没有达到很理想的效果。

发明内容

为了克服上述现有技术的缺点，本发明的目的在于提供一种基于混合特征提取及Stacking模型的异常用电检测方法、装置、设备及存储介质，旨在解决现有技术中采用有监督学习的过程中特征提取全面性的不足，分类器的泛化性能不强以及参数选择上的随意性，导致最终的精确度指标无法达到理想效果的缺陷性技术问题。

为了达到上述目的，本发明采用以下技术方案予以实现：

本发明提出的一种基于混合特征提取及Stacking模型的异常用电检测方法，包括如下步骤：

S1、对用电数据的常规指标进行特征提取，再将特征提取后的结果输入至 LSTM网络进行特征提取，获取特征序列；

S2、对S1得到的特征序列做分类，利用Stacking堆栈模型融合多个弱分类器检测出异常用电用户；

S3、采用真实的居民用户用电数据和S2得到的异常用电用户数据进行实验及对比分析，获取异常用电检测数据。

优选地，在S1中，特征提取是对统计性特征指标、趋势特征指标和频域特征指标进行特征提取。

优选地，统计性指标反映时间序列总体状况，统计性指标包括均值、方差、标准差、极差、偏度和峰度。

优选地，在S2中，对特征序列做分类，建立Stacking分类器；选择逻辑回归-LR、随机森林-RF和K近邻-KNN算法作为Stacking分类器的第一层基分类器，选择支持向量机分类器-SVM作为Stacking分类器的第二层元分类器，由基分类器和元分类器组成的强分类器用于取代只用基分类器组成的Stacking堆栈模型。

优选地，Stacking分类器的集成方法如下：

第一步：将混合特征提取后的数据集S划分为80％的训练集S1和20％的测试集S2，训练数据时，采用十折交叉验证的方法将训练集随机划分为10等份 T_i(i＝1,2,…,10)，将其中的一个子集作为验证集，其余的作为训练集；

第二步：将第一步划分出来的9个训练子集作为RF的训练集，输出结果为α_i，同时对最开始划分的测试集S₂进行预测，输出结果为β_i；

第三步：对步骤二循环操作10次得到向量{α_i|i＝1,2,…,10}，将这10次的结果按列合并得到和80％训练集S₁标签Y相同长度的列向量A₁，对预测样本值 {β_i|i＝1,2,…,10}取平均值得到和S₂标签相同长度的列向量B₁；

标签Y为0代表正常用户标签，标签Y为1代表异常用户标签；

第四步：对KNN分类器和LR分类器执行第一步至第三步得到由原始数据训练集S₁产生的A₂、A₃和原始测试集S₂产生的B₂、B₃；

第五步：将A₁、A₂、A₃和原始训练集S₁的标签Y合并成新的数据样本得到新数据样本M＝{A₁,A₂,A₃,Y}作为元分类器SVM的输入特征，N＝{B₁,B₂,B₃}作为元分类器SVM的测试集来生成最终结果。

优选地，在Stacking分类器中加入了SSA算法来优化基分类器和元分类器的参数，通过对基分类器和元分类器参数的全局寻优，得到基分类器和元分类器的最优参数。

优选地，基分类器和元分类器中需要优化的参数有：随机森林中建立的决策树；K近邻中K值；逻辑回归的惩罚项penalty；支持向量机中的惩罚系数c和核函数RBF中的复杂程度函数δ

本发明还提出了一种基于混合特征提取及Stacking模型的异常用电检测方法的装置，包括：

特征提取模块，用于将用电数据的常规指标进行特征提取；

计算模块，用于根据征提取得到的特征序列检测异常用电用户；

比对模块，用于将真实的居民用电数据进行实验及对比分析。

一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行计算机程序时实现基于混合特征提取及Stacking模型的异常用电检测方法的步骤。

一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现基于混合特征提取及Stacking模型的异常用电检测方法的步骤。

与现有技术相比，本发明具有以下有益效果：

本发明公开的一种基于混合特征提取及Stacking模型的异常用电检测方法，将人工特征提取技术和LSTM特征提取技术有机结合，有效解决了人工特征提取主观因素过强和LSTM可解释性差的缺点，从而更有效地挖掘用户时间序列中的有效信息，再利用Stacking堆栈模型融合多个弱分类器检测出异常用电用户，通过对比分析来获取异常用电数据。本发明提出的异常用电检测方法对混合特征进行全面分析，最终获取准确的异常用电数据，在电气工程领域具有较好的应用前景。

进一步地，本发明公开的新型Stacking堆栈集成的异常用电检测方法，选择合适的基分类器和元分类器进行有效的融合从而组成一个功能更强大的强分类器，元分类器中采用SVM级联形式，相比较于单个的分类器具有更强的非线性表述性能，降低了泛化误差。

进一步地，本发明公开SSA优化Stacking参数模型的算法利用麻雀捕食的原理选取Stacking模型中基分类器和元分类器的各个参数，有效避免了因为人工经验选择参数导致的参数选择不准确的缺点，增强了模型的可靠性，用SSA算法优化各参数，能够避免随即设置参数给模型带来的不准确性，通过全局优化找到最佳参数，提高模型的性能。

进一步地，本发明研究的异常用电检测就是典型的二分类问题，将正常用户记为0，异常用户记为1，准确地将正常用电用户和异常用电用户分开是本研究最终的目的。

进一步地，利用交叉验证的方式，有效地避免了直接用第一层的训练数据当作第二层训练数据所产生的过拟合的风险。模型选择上，逻辑回归、K近邻、随机森林和支持向量机在理论上已经达到了成熟的阶段，整个新型Stacking分类器泛化能力较强，通过实验证明了模型的有效性。

进一步地，通过对各参数的全局寻优，得到各分类的最优参数，从而提高异常用电检测模型分类的各项评价指标，使得模型达到更好效果。

附图说明

图1为本发明的基于混合特征提取及Stacking模型的总体流程图；

图2为本发明的LSTM的网络结构图；

图3为本发明的Stacking模型框架下的异常用电检测分类器图；

图4为本发明的SSA算法的流程图；

图5为本发明的正常用户和异常用户的用电模式对比曲线图；

图6为本发明的基于混合特征提取及Stacking模型的ROC曲线图；

图7为本发明的不同特征提取方法对异常用电检测结果的ROC曲线对比图；

图8为本发明的不同分类器对异常用电检测结果的ROC曲线对比图；

图9为本发明的不同优化算法对异常用电检测结果的ROC曲线对比图。

具体实施方式

为了使本技术领域的人员更好地理解本发明方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分的实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本发明保护的范围。

需要说明的是，本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

下面结合附图对本发明做进一步详细描述：

本发明提出的一种基于混合特征提取及Stacking模型的异常用电检测方法，参见图1所示，将原始的用电数据集进行预处理，然后将原始数据集划分为两份，一部分数据使用人工经验的方法提取特征，另一部分用LSTM的方法提取特征；将两部分特征混合后进行特征维度规约，以除去相似冗余的特征。得到数据划分为训练集和测试集，放入Stacking堆栈模型进行训练，Stacking堆栈模型中的各参数采用SSA的方法进行优化，得出最终预测的结果。

包括如下步骤：

具体的：混合特征提取主要是将统计性特征指标、趋势特征指标、频域特征指标等这些人工经验的特征指标提取出来，输入LSTM级联网络进行进一步特征提取。也就是说是人工经验特征提取和LSTM特征提取的融合。混合特征提取的数据集就是居民用电数据经过数据预处理后得到的时间序列。

对处理后的数据依次进行人工经验的特征提取和LSTM特征提取，挖掘用户时间序列中隐含的用电规律，有效解决了人工特征提取主观因素过强和LSTM可解释性差的缺点。再利用Stacking堆栈模型融合多个弱分类器检测出异常用电用户。为了解决基分类器中各参数因人工经验设置参数的不足，模型采用了SSA 算法对各基分类器中的重要参数进行了全局寻优，最后采用真实的居民用户用电数据进行了实验及对比分析，各项指标表明所提模型具有一定的有效性。具体建立基于混合特征提取的Stacking模型的方法如下：

由于居民用电具有周、月、年等周期的特点，按周、月对用电数据的时间序列进行特征提取。

统计性指标反应了时间序列总体状况，统计性指标有平均值mean、方差var、标准差sd、极差range、偏度skew、峰度kurt，具体计算公式如下所示：

range＝x_max-x_min (4)

式中，x_i表示该用户在第i天的用电量，i取1～n；n表示该周期的天数；X表示该用户在该周期中每天的用电量；mean为该周期中，用户用电量的平均值；var 为该周期中用户用电量的方差；sd为该周期中用户用电量的标准差；range为用户用电量的极差，表示该周期用户用电量的最大值x_max与最小值x_min的差；E表示为数学期望；skew为用户用电量的偏度；kurt为用户用电量的峰度。

趋势指标的特征提取建立在序列移动平均值的基础之上。移动平均法是一种分析时间序列的常用工具，可以分为简单移动平均法、加权移动平均法和指数移动平均法等。将原始时间序列与平均时间序列重合部分的各个值分别做差，若该差值大于零，则说明原始时间序列在平均时间序列之上，否则原始时间序列在平均时间序列之下。趋势指标主要包括上升趋势指标和下降趋势指标，如下面公式所示：

其中，t取1～u，a_t表示为每段包含的点数；u表示为两个统计序列A、F，A 在F之下的由u段，A在F之上的有v段；tra和trb分别表示为上升趋势指标和下降趋势指标；频域特征指标是使用快速傅里叶变换将时间序列映射至频域后所提取的指标，包括前r个月和后r个月离散傅里叶变换的系数序列差值的模，公式如下：

其中，y_n1和y_n2分别为前后r个月的离散傅里叶变换的系数序列，其他指标包括一些变动性的指标，如前r个月与后r个月平均负荷的差值；前r个月与后r个月序列的标准差等。

本发明采用如图2所示三层网络结构，为了增强特征提取的完整性和有效性，避免陷入维数灾，采用级联LSTM的网络结构，在保持特征之间关系的同时逐级削减数据的维度，LSTM特征提取模块如图2所示的三层网络结构，其中输入数据为人工提取所得到的448维向量，记为x_i＝{x₁，x₂，…，x₄₄₈}。

表示在第i层t时刻的输出，本网络中，i的取值为1、2、3，即3层网络，随着层数的增大，t的最大值的取值逐级削减：第一层，为匹配输入数据维度，取t_max＝448；第二层，t_max降为360；第三层，t_max取240；最后输出64维特征数据，记为s_i＝{s₁，s₂，…，s₆₄}。经过上述人工特征提取和LSTM特征提取后，得到的64维特征向量，为进一步异常用电检测打好了基础。

新型Stacking分类的核心思想就是融合多个基分类器组成一个强的分类器，本文选择逻辑回归(LR)、随机森林(RF)，K近邻(KNN)作为第一层的基分类器，元分类器采用支持向量机(SVM)分类器，由基分类器和元分类器组成的强分类器用于取代只用基分类器组成的Stacking堆栈模型。本文构建的Stacking模型如图 3所示，新型Stacking分类器的构建步骤如下：

第二步：将第一步划分出来的9个训练子集作为RF的训练集，输出结果为α_i，同时对最开始划分的测试集S₂进行预测，输出结果为β_i。

第三步：对步骤二循环操作10次得到向量{α_i|i＝1,2,…,10}，将这10次的结果按列合并得到和最初训练集S₁标签Y相同长度的列向量A₁，对预测样本值{β_ii＝1,2,…,10}取平均值得到和S₂标签相同长度的列向量B₁，标签Y为0代表正常用户标签，标签Y为1代表异常用户标签。

第四步：对另外两个分类器KNN和LR同样执行第一步至第三步得到由原始数据训练集S₁产生的A₂、A₃和原始测试集S₂产生的B₂、B₃。

利用交叉验证的方式，有效地避免了直接用第一层的训练数据当作第二层训练数据所产生的过拟合的风险。模型选择上，LR、KNN、RF及SVM在理论上已经达到了成熟的阶段，整个新型Stacking分类器泛化能力较强，通过实验证明了模型的有效性。通过上述混合特征提取和新型Stacking分类器的构建，已基本完成了异常用电检测模型的构建。但其中还涉及到其中基分类器的选择问题，为了避免随机设置参数对模型准确性带来的负面影响，本文在Stacking分类器中加入SSA算法来优化各分类器的参数。

其中，需要优化的参数有：RF中建立多少个决策树；KNN中K值的选择； LR的惩罚项penalty；SVM中的惩罚系数c和核函数RBF中的复杂程度函数δ。通过对各参数的全局寻优，得到各分类的最优参数，从而提高异常用电检测模型分类的各项评价指标，使得模型达到更好效果。

SSA模型的算法流程图如图4所示。

正常用电用户和异常用电用户的用电曲线存在着明显的差异，取正常用户和 5个不同模式窃电下的异常用户进行数据对比，结果图5所示，从图5中可以看出，窃电用户的窃电方式大致有以下几种：按一定的比例削减自己的用电量，即将用电量乘以0到1之间的随机数；将电表某一时间段内的示数改为0；去掉某些较高点取平均值作为电表的示数；根据分时电价不同对用电曲线调峰。

特征提取模块，用于将用电数据的常规指标进行特征提取；

实施例1

以准确率、误分率、召回率、查准率、F1-Score为评价指标进行模型效果的评估通过测试集数据返回的结果：实际正常用户被检测为正常用户，即TP类为 1673个样本；实际正常用户被检测为异常用户，即FN类，为53个；实际异常用户被检测为正常用户，即FP类，为41个；实际异常用户被检测为异常用户，即TN类，为1328。各类指标数据如下表所示：

表1模型各项指标的实验结果

模型所得的ROC曲线如图6所示。ROC曲线下方面积AUC＝0.96484，远大于随机猜想的AUC值，初步证明了模型具有一定的有效性。

实施例2

将混合特征提取的模型与只用人工特征提取、只用LSTM特征提取的模型进行实验对比，得到ROC曲线如图7所示，从图中可以看出，本文所提模型ROC 曲线下的面积AUC明显大于单独使用LSTM及人工经验特征提取的AUC，说明文中提出的特征提取模型效果较好。

实施例3

将新型Stacking模型与各基分类器的模型进行实验对比，得到ROC曲线如图8所示，从图中可以看出，文中所提模型效果明显优于其他分类器，进一步证明了模型的有效性。

实施例4

文章采用了SSA算法对模型中分类器的参数进行了优化，现有的优化算法中网格搜索法(GS)、粒子群优化算法(PSO)等，现将不同的优化算法进行对比，得到的实验结果如图9所示。

综上所述，本发明针对大数据下的用电异常行为，公开的一种基于混合特征提取及Stacking模型的异常用电检测方法，先将人工经验特征提取与LSTM特征提取相融合，再选取LR、KNN、RF作为Stacking模型的基分类器，选取SVM 作为元分类器，其中，采用SSA算法对分类器中的各参数进行全局寻优。通过多角度，多层次，多维度建立用户用电指标特征，深层次挖掘用户用电数据，通过仿真实验表明了本文所提模型在各个指标上都取得了较好的效果，证明了模型的有效性。

以上内容仅为说明本发明的技术思想，不能以此限定本发明的保护范围，凡是按照本发明提出的技术思想，在技术方案基础上所做的任何改动，均落入本发明权利要求书的保护范围之内。

Claims

1.基于混合特征提取及Stacking模型的异常用电检测方法，其特征在于，包括如下步骤：

S1、对用电数据的常规指标进行特征提取，再将特征提取后的结果输入至LSTM网络进行特征提取，获取特征序列；

2.根据权利要求1所述的基于混合特征提取及Stacking模型的异常用电检测方法，其特征在于，在S1中，特征提取是对统计性特征指标、趋势特征指标和频域特征指标进行特征提取。

3.根据权利要求2所述的基于混合特征提取及Stacking模型的异常用电检测方法，其特征在于，统计性指标反映时间序列总体状况，统计性指标包括均值、方差、标准差、极差、偏度和峰度。

4.根据权利要求2所述的基于混合特征提取及Stacking模型的异常用电检测方法，其特征在于，在S2中，对特征序列做分类，建立Stacking分类器；选择逻辑回归-LR、随机森林-RF和K近邻-KNN算法作为Stacking分类器的第一层基分类器，选择支持向量机分类器-SVM作为Stacking分类器的第二层元分类器，由基分类器和元分类器组成的强分类器用于取代只用基分类器组成的Stacking堆栈模型。

5.根据权利要求4所述的基于混合特征提取及Stacking模型的异常用电检测方法，其特征在于，Stacking分类器的集成方法如下：

第一步：将混合特征提取后的数据集S划分为80％的训练集S1和20％的测试集S2，训练数据时，采用十折交叉验证的方法将训练集随机划分为10等份T_i(i＝1,2,…,10)，将其中的一个子集作为验证集，其余的作为训练集；

第三步：对步骤二循环操作10次得到向量{α_i|i＝1,2,…,10}，将这10次的结果按列合并得到和80％训练集S₁标签Y相同长度的列向量A₁，对预测样本值{β_i|i＝1,2,…,10}取平均值得到和S₂标签相同长度的列向量B₁；

标签Y为0代表正常用户标签，标签Y为1代表异常用户标签；

6.根据权利要求4所述的基于混合特征提取及Stacking模型的异常用电检测方法，其特征在于，在Stacking分类器中加入了SSA算法来优化基分类器和元分类器的参数，通过对基分类器和元分类器参数的全局寻优，得到基分类器和元分类器的最优参数。

7.根据权利要求6所述的基于混合特征提取及Stacking模型的异常用电检测方法，其特征在于，基分类器和元分类器中需要优化的参数有：随机森林中建立的决策树；K近邻中K值；逻辑回归的惩罚项penalty；支持向量机中的惩罚系数c和核函数RBF中的复杂程度函数δ。

8.采用权利要求1～7中任意一项所述的基于混合特征提取及Stacking模型的异常用电检测方法的装置，其特征在于，包括：

特征提取模块，用于将用电数据的常规指标进行特征提取；

9.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行计算机程序时实现权利要求1至7中任意一项所述的基于混合特征提取及Stacking模型的异常用电检测方法的步骤。

10.一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至7中任意一项所述的基于混合特征提取及Stacking模型的异常用电检测方法的步骤。