CN116595463A

CN116595463A - 窃电识别模型的构建方法、窃电行为识别方法及装置

Info

Publication number: CN116595463A
Application number: CN202310876534.XA
Authority: CN
Inventors: 李振; 李洪华; 祝立峰; 类延锋; 王玉武; 张居坤; 施慧玲; 潘雪婷; 张文文; 张平
Original assignee: Wucheng Power Supply Co of State Grid Shandong Electric Power Co Ltd
Current assignee: Wucheng Power Supply Co of State Grid Shandong Electric Power Co Ltd
Priority date: 2023-07-18
Filing date: 2023-07-18
Publication date: 2023-08-15
Anticipated expiration: 2043-07-18
Also published as: CN116595463B

Abstract

本发明提供了一种窃电识别模型的构建方法、窃电行为识别方法及装置，涉及电力系统的安全管理技术领域，包括：获取预先构建的训练样本集；训练样本集为经过预先设置的对抗网络对原始数据集进行扩充得到的；对训练样本集中的电力数据进行特征提取，并将对应的时间频率特征参数输入至预先设置的分类器中，对分类器进行分类训练，得到预测分类结果；根据预设的评估指标对预测分类结果进行结果评估，并在预测分类结果满足预设的评估指标时，将分类器确定为窃电识别模型。其中，本发明基于上述步骤可以解决训练样本不足的情况，并能够得到有效的特征参数，即便数据不平衡，也可以进行有效训练。故，本发明可以提高窃电行为的识别准确性。

Description

窃电识别模型的构建方法、窃电行为识别方法及装置

技术领域

本发明涉及电力系统的安全管理技术领域，尤其是涉及一种窃电识别模型的构建方法、窃电行为识别方法及装置。

背景技术

随着电力需求的不断增长，电力窃电现象也日益普遍。传统的电力窃电识别方法存在一定的局限性，如，现有技术提出一种基于BP神经网络的窃电行为检测方法，该方法将BP神经网络模型引入窃电行为监测，实现对窃电用户的筛查，而该方法仅仅能够对已有的部分样本进行分析，在识别精度方面有待进一步提高，尤其是面对数据不平衡、训练样本不足的情况下，识别精度较低，无法满足复杂的窃电行为识别需求。

发明内容

本发明的目的在于提供一种窃电识别模型的构建方法、窃电行为识别方法及装置，可以提高窃电行为的识别准确性。

第一方面，本发明提供了一种窃电识别模型的构建方法，其中，该窃电识别模型的构建方法包括：获取预先构建的训练样本集；其中，训练样本集包括多个电力数据，电力数据包括用电样本和窃电样本，且，训练样本集为经过预先设置的对抗网络对原始数据集进行扩充得到的；对训练样本集中的电力数据进行特征提取，得到每个电力数据的时间频率特征参数；将时间频率特征参数输入至预先设置的分类器中，对分类器进行分类训练，得到预测分类结果；其中，分类器为基于随机森林算法和稀疏性原则构建的；根据预设的评估指标对预测分类结果进行结果评估，并在预测分类结果满足预设的评估指标时，将分类器确定为窃电识别模型；窃电识别模型用于对电力数据进行窃电识别。

结合第一方面，本发明实施例提供了第一方面的第一种可能的实施方式，其中，对抗网络包括改进的生成器和改进的判别器，其中，改进的生成器的目标函数包括修正项，改进的判别器的目标函数包括混合样本；对抗网络对原始数据集进行扩充的步骤，包括：通过改进的生成器生成电力数据对应的初始扩充样本；通过改进的判别器对初始扩充样本和电力数据对应的混合样本进行判别，确定混合样本对应的样本差异；判断样本差异是否满足预设的差异阈值；如果否，基于预设的优化函数，对改进的生成器的目标函数进行函数优化，执行通过改进的生成器生成电力数据对应的初始扩充样本的步骤；或者，对改进的判别器的目标函数进行函数优化，执行通过改进的判别器对初始扩充样本和电力数据对应的混合样本进行判别的步骤；优化函数根据电力数据和初始扩充样本分别对应的特性向量确定；直到混合样本对应的样本差异满足预设的差异阈值时，将当前初始扩充样本确定为原始数据集的扩充样本，得到训练样本集。

结合第一方面，本发明实施例提供了第一方面的第二种可能的实施方式，其中，上述窃电识别模型的构建方法还包括：根据电力数据的时刻信息，确定电力数据基于时刻的变化向量；根据变化向量确定动态性度量值，并基于动态性度量调整改进的生成器的第一学习率和改进的判别器的第二学习率；通过改进的生成器基于第一学习率生成初始扩充样本，并通过改进的判别器基于第二学习率对混合样本进行判别。

结合第一方面，本发明实施例提供了第一方面的第三种可能的实施方式，其中，训练样本集中包括多个特征参数；对训练样本集中的电力数据进行特征提取，得到每个电力数据的时间频率特征参数的步骤，包括：按照预设时间长度的时间窗口，从训练样本集的多个特征参数中提取预设数量的特征向量；确定多个特征向量对应的相似度矩阵，并根据相似度矩阵对多个特征向量进行融合，得到基于时间窗口的融合向量；对融合向量进行傅里叶变换，并基于傅里叶变换确定融合向量对应的时间频率域数据；将时间频率域数据输入至预设的变分自编码器中，通过变分自编码器对时间频率域数据进行特征提取，得到时间频率特征参数。

结合第一方面，本发明实施例提供了第一方面的第四种可能的实施方式，其中，基于随机森林算法和稀疏性原则构建分类器的步骤，包括：初始化随机森林算法对应的每颗决策树；通过预先设置的约束参数调整每棵决策树的损失函数，得到每颗决策树分别对应的稀疏性决策树；将预先确定的选择权重确定为稀疏性决策树的选择参数，将稀疏性决策树确定为分类器。

结合第一方面，本发明实施例提供了第一方面的第五种可能的实施方式，其中，预先确定的选择权重通过时间频率特征参数对应于第一样本的第一选择频率，以及，时间频率特征参数对应于第二样本的第二选择频率确定；第一样本和第二样本分别用于表征时间频率特征参数对应的正确样本和错误样本。

结合第一方面，本发明实施例提供了第一方面的第六种可能的实施方式，其中，根据预设的评估指标对预测分类结果进行结果评估，并在预测分类结果满足预设的评估指标时，将分类器确定为窃电识别模型的步骤，包括：根据预设的混淆矩阵，确定预测分类结果相对于预设的分类标签的分类成本；按照预设的成本统计算法对分类成本进行计算，确定预测分类结果对应的成本错误率；判断成本错误率是否满足预设的错误率阈值，如果是，确定预测分类结果满足预设的评估指标，并将分类器确定为窃电识别模型。

第二方面，本发明提供了一种窃电行为识别方法，其中，该窃电行为识别方法包括：采集用户的用电数据；将用电数据输入至预先构建的窃电识别模型中，通过窃电识别模型对用电数据进行分类识别，得到识别结果；其中，窃电识别模型为基于上述窃电识别模型的构建方法构建得到的；根据识别结果，对用电数据进行窃电识别。

第三方面，本发明提供了一种窃电识别模型的构建装置，其中，窃电识别模型的构建装置包括：样本获取模块，用于获取预先构建的训练样本集；其中，训练样本集包括多个电力数据，电力数据包括用电样本和窃电样本，且，训练样本集为经过预先设置的对抗网络对原始数据集进行扩充得到的；特征提取模块，用于对训练样本集中的电力数据进行特征提取，得到每个电力数据的时间频率特征参数；训练模块，用于将时间频率特征参数输入至预先设置的分类器中，对分类器进行分类训练，得到预测分类结果；其中，分类器为基于随机森林算法和稀疏性原则构建的；输出模块，用于根据预设的评估指标对预测分类结果进行结果评估，并在预测分类结果满足预设的评估指标时，将分类器确定为窃电识别模型；窃电识别模型用于对电力数据进行窃电识别。

第四方面，本发明提供了一种窃电行为识别装置，窃电行为识别装置包括：数据采集模块，用于采集用户的用电数据；处理模块，用于将用电数据输入至预先构建的窃电识别模型中，通过窃电识别模型对用电数据进行分类识别，得到识别结果；其中，窃电识别模型为基于上述窃电识别模型的构建方法构建得到的；执行模块，用于根据识别结果，对用电数据进行窃电识别。

本发明实施例带来了以下有益效果：本发明的一种窃电识别模型的构建方法、窃电行为识别方法及装置，包括：获取预先构建的训练样本集；其中，训练样本集包括多个电力数据，电力数据包括用电样本和窃电样本，且，训练样本集为经过预先设置的对抗网络对原始数据集进行扩充得到的；对训练样本集中的电力数据进行特征提取，得到每个电力数据的时间频率特征参数；将时间频率特征参数输入至预先设置的分类器中，对分类器进行分类训练，得到预测分类结果；其中，分类器为基于随机森林算法和稀疏性原则构建的；根据预设的评估指标对预测分类结果进行结果评估，并在预测分类结果满足预设的评估指标时，将分类器确定为窃电识别模型；窃电识别模型用于对电力数据进行窃电识别。其中，本发明实施例基于上述步骤可以解决训练样本不足的情况，并能够得到有效的特征参数，即便数据不平衡，也可以进行有效训练。故，本发明实施例可以提高窃电行为的识别准确性。

本发明的其他特征和优点将在随后的说明书中阐述，或者，部分特征和优点可以从说明书推知或毫无疑义地确定，或者通过实施本发明的上述技术即可得知。

为使本发明的上述目的、特征和优点能更明显易懂，下文特举较佳实施方式，并配合所附附图，作详细说明如下。

附图说明

为了更清楚地说明本发明具体实施方式或现有技术中的技术方案，下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施方式，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的一种窃电识别模型的构建方法的流程图；

图2为本发明实施例提供的另一种窃电识别模型的构建方法的流程图；

图3为本发明实施例提供的另一种窃电识别模型的构建方法的流程图；

图4为本发明实施例提供的一种窃电行为识别方法的流程图；

图5为本发明实施例提供的一种窃电识别模型的构建装置的结构示意图；

图6为本发明实施例提供的另一种窃电识别模型的构建装置的结构示意图；

图7为本发明实施例提供的一种窃电行为识别装置的结构示意图；

图8为本发明实施例提供的一种电子设备的结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。

因此，以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围，而是仅仅表示本发明的选定实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

基于上述问题，本发明实施例提供了一种窃电识别模型的构建方法、窃电行为识别方法及装置，可以提高窃电识别的准确性。

为便于对本实施例进行理解，首先对本发明实施例所公开的一种窃电识别模型的构建方法进行详细介绍；图1示出了本发明实施例提供的一种窃电识别模型的构建方法的流程图，如图1所示，该方法包括如下具体步骤：

步骤S102，获取预先构建的训练样本集。

具体的，本发明实施例用于构建窃电识别模型，该窃电识别模型用于对电力数据进行窃电识别。其中，在用户的用电过程中，若该用户的电力被窃用，其电力数据则会产生异常的用电数据，故，本发明实施例可以通过窃电识别模型对用户的用电数据进行识别，以确定其用电数据中是否存在相应的窃电数据。其中，上述窃电识别模型需要经过训练后使用，本发明实施例通过训练样本集对其进行模型训练。

在具体实现时，训练样本集包括多个电力数据，电力数据包括用电样本和窃电样本。其中，预先收集大量的电力使用数据和窃电行为数据，并将这些数据作为训练样本。

进一步的，采集到的训练样本类型和数量较少，故，本发明实施例利用对原始的训练样本对应的原始数据集进行扩充，以得到训练样本集。其中，本发明实施例的训练样本集为经过预先设置的对抗网络对原始数据集进行扩充得到的。

步骤S104，对训练样本集中的电力数据进行特征提取，得到每个电力数据的时间频率特征参数。

每个电力数据包括多个特征参数，并非每个特征参数均可以表征该电力数据是否为窃电数据，故，本发明实施例还对电力数据进行特征提取，从而使用相关的特征参数进行分类器训练。其中，为了实现有效的特征选择，确保分类器能够进行准确分类，保证训练效果，本发明实施例的分类器为基于随机森林算法和稀疏性原则构建的。所提取的特征参数为上述时间频率特征参数。

步骤S106，将时间频率特征参数输入至预先设置的分类器中，对分类器进行分类训练，得到预测分类结果。

步骤S108，根据预设的评估指标对预测分类结果进行结果评估，并在预测分类结果满足预设的评估指标时，将分类器确定为窃电识别模型。

其中，为了验证分类器的预测分类结果是否满足要求，本发明实施例还根据预设的评估指标对预测分类结果进行结果评估，当该预测分类结果满足预设的评估指标，其分类器才满足本发明实施例的要求，此时，可以将该满足要求的分类器确定为所需的窃电识别模型。

本发明实施例提供的一种窃电识别模型的构建方法，通过训练样本集对分类器进行训练，且，该训练样本集通过预先设置的对抗网络对原始数据集扩充得到，训练数据不局限于采集的样本，可以解决训练样本不足的情况。此时，本发明实施例还对该训练数据集进行特征提取，可以得到有效的特征参数，即便数据不平衡，也可以进行有效训练。故，本发明实施例可以根据大量且有效的电力使用数据和窃电行为数据进行分析和模式识别，进行较为准确的模型训练，以在通过对应的窃电识别模型进行窃电识别时能够得到准确的识别结果，提高电力窃电行为的检测效率和准确性。

针对于上述实施例，本发明实施例还提供了另一种窃电识别模型的构建方法，本发明实施例主要对上述对抗网络对原始数据集进行扩充的步骤进行详细介绍。图2示出了本发明实施例提供的另一种窃电识别模型的构建方法的流程图，其中，训练样本集为经过预先设置的对抗网络对原始数据集进行扩充得到的，对抗网络包括改进的生成器和改进的判别器。改进的生成器的目标函数包括修正项，改进的判别器的目标函数包括混合样本。如图2所示，该方法包括以下步骤：

步骤S202，通过改进的生成器生成电力数据对应的初始扩充样本。

步骤S204，通过改进的判别器对初始扩充样本和电力数据对应的混合样本进行判别，确定混合样本对应的样本差异。

在对电力数据进行机器学习的过程中，训练样本的数量和质量对模型的性能有显著影响。在本发明实施例中，通过生成新的样本策略来增加训练数据。其中，本发明实施例提出一种创新性的新样本生成算法，主要基于对电力数据的特性和生成对抗网络（GAN）的改进。具体地，本发明实施例改进的生成对抗网络将电力数据的时间序列特性和周期性特性结合进GAN的框架，以生成与真实数据在统计特性和分布上尽可能接近的新样本，其中，本发明实施例改进的生成对抗网络（也即上述对抗网络），由一个生成器G和一个判别器D组成。

其中，生成器G的目标是学习真实电力数据的分布，从而生成新的样本。传统的生成对抗网络的目标函数为：

上述目标函数中，是从先验分布/>中采样的噪声，/>是判别器对生成样本的判断。此外，为了加入电力数据的特性，生成器G会根据输入的电力数据的时间和周期特性调整噪声/>。

在传统的生成对抗网络中，生成器G和判别器D通常是独立优化的。然而，这可能导致G在学习过程中出现“模式崩溃”现象，即G只生成数据的某些模式，而忽略其他模式。为了解决这个问题，本发明实施例提出一种自我修正的生成器策略。具体而言，引入一个自我修正项（也即上述修正项），该项度量了生成器生成的样本的多样性。

在具体实现时，定义生成的样本集合为，其中/>是原始数据集的样本数量，/>是调整后的噪声，i为噪声样本的序号，那么/>可以定义为原始数据集对应的样本集合的内部距离：

其中，i、j分别为噪声样本的序号。然后，将加入到生成器G的目标函数中，得到新的目标函数，这一新的目标函数为上述改进的生成器的目标函数：

其中，是控制自我修正项影响的超参数。

这种自我修正的生成器策略使得改进的生成对抗网络能在保持样本质量的同时，增加样本的多样性，避免“模式崩溃”现象，进一步提高了生成样本的真实性。

判别器D的目标是尽可能准确地判断样本是真实的还是生成的。传统的生成对抗网络的目标函数为：

其中是从真实数据分布/>中采样的样本。

在传统的生成对抗网络中，生成器G直接输出生成样本，也即初始扩充样本。然而，这可能导致生成样本在一些细节上与真实数据存在差异。为了解决这个问题，本发明实施例提出一种混合样本生成策略，即生成样本是由真实样本和生成器G生成的样本混合得到的，进而输入到判别器。

具体来说，设是G生成的样本，/>是真实样本，那么混合样本/>可以定义为：

其中，是混合系数，控制真实样本和生成样本的比例。/>可以根据训练的进程动态调整，例如，在训练初期，/>较大，以保证生成样本的质量；在训练后期，/>较小，以增加生成样本的多样性。

然后，将混合样本而不是/>输入到判别器D中，判别器D的目标函数变为：

这种混合样本生成策略使得改进的生成对抗网络能在保持样本质量的同时，增加样本的多样性，进一步提高了生成样本的真实性。

步骤S206，判断样本差异是否满足预设的差异阈值。

步骤S208，如果否，基于预设的优化函数，对改进的生成器的目标函数进行函数优化，执行通过改进的生成器生成电力数据对应的初始扩充样本的步骤；或者，对改进的判别器的目标函数进行函数优化，执行通过改进的判别器对初始扩充样本和电力数据对应的混合样本进行判别的步骤。

通常，生成对抗网络中的噪声是从一定的分布（如正态分布）中随机采样的。然而，电力数据具有明显的时间序列特性和周期性特性。故，本发明实施例还需要参照样本差异是否符合条件，从而确定扩充样本是否真实。

其中，本发明实施例的改进的生成对抗网络通过交替优化G和D的目标函数进行训练，即通过以下的最小化最大问题进行优化：

因此，本发明实施例提出一种电力数据特性驱动的噪声调整方法。在生成噪声时，会考虑电力数据的这些特性，以生成更符合电力数据特性的噪声。

在具体实现时，将时间序列特性和周期性特性编码为一个向量，并将其与原始噪声/>合并，得到调整后的噪声/>，其中/>表示合并操作。

在优化生成器G和判别器D时，不仅考虑让生成的样本在分布上尽可能接近真实数据，还希望生成的样本具有相同的电力数据特性。因此，本发明提出一种特性驱动的损失函数。其中，在计算损失时，不仅计算样本之间的距离，还计算样本特性之间的距离。具体来说，优化函数根据电力数据和初始扩充样本分别对应的特性向量确定。设是真实样本，是生成样本，/>和/>分别是它们的特性向量，则损失函数可以表示为：

该损失函数即为上述预设的优化函数，上述损失函数中，是人为设置的超参数，表示L2范数。

其中，对于生成对抗网络的损失函数的改进，使得生成对抗网络能更好地捕捉电力数据的特性，并生成更贴近真实数据的样本。

步骤S210，直到混合样本对应的样本差异满足预设的差异阈值时，将当前初始扩充样本确定为原始数据集的扩充样本，得到训练样本集。

当根据上述优化函数对改进的生成器、改进的判别器的目标函数后，若样本差异满足预设的差异阈值，则表示生成的扩充样本既尽可能接近真实数据，还具有相同的电力数据特性，此时，将该扩充样本扩充至原始样本集中，以作为训练样本集使用。

进一步地，考虑到电力数据的动态性和复杂性，特别是在不同的时间尺度和周期性条件下，数据的特性可能会有显著的差异。本发明实施例还提出一种自适应的参数调整策略，通过动态调整生成器和判别器的学习率，使得模型能更好地适应数据的变化。在具体实现时，根据电力数据的时刻信息，确定电力数据基于时刻的变化向量；根据变化向量确定动态性度量值，并基于动态性度量调整改进的生成器的第一学习率和改进的判别器的第二学习率；通过改进的生成器基于第一学习率生成初始扩充样本，并通过改进的判别器基于第二学习率对混合样本进行判别。

其中，设为t时刻的电力数据，/>为t-1时刻的电力数据，定义/>为t时刻的变化向量。使用变化向量的范数/>作为t时刻的动态性度量。

然后，基于动态性度量，动态调整生成器G和判别器D的学习率和/>：

上述和/>是初始的学习率。这种策略保证了在数据变化较大的时刻，模型能更快地适应数据的变化；在数据变化较小的时刻，模型能更稳定地学习。

这种自适应参数调整策略使得改进的生成对抗网络能在不同的数据条件下保持稳定和高效的学习性能，从而生成更贴近真实数据的样本。

本发明实施例提供的另一种窃电识别模型的构建方法，通过改进的生成器生成初始扩充样本，其中，该生成器的目标函数包括修正项，该修正项策略使得改进的生成对抗网络能在保持样本质量的同时，增加样本的多样性，避免“模式崩溃”现象，进一步提高了生成样本的真实性。此外，通过改进的判别器对包含初始扩充样本和电力数据的混合样本进行判别，该混合样本生成策略使得改进的生成对抗网络能在保持样本质量的同时，增加样本的多样性，进一步提高了生成样本的真实性。

此外，还设置相应的优化函数，通过该优化函数对生成器的目标函数，或判别器的目标函数进行优化，使得生成对抗网络能更好地捕捉电力数据的特性，并生成更贴近真实数据的样本。进一步的，还提出一种自适应的参数调整策略，通过动态调整生成器和判别器的学习率，使得模型能更好地适应数据的变化。

在上述方法实施例的基础上，本发明实施例还提供了另一种窃电识别模型的构建方法，图3示出了本发明实施例提供的另一种窃电识别模型的构建方法的流程图，如图3所示，该方法包括以下步骤：

步骤S302，获取预先构建的训练样本集。

基于上述方法实施例，本发明实施例的训练样本集为经过预先设置的对抗网络对原始数据集进行扩充得到。其中，训练样本集包括多个训练样本，每个训练样本包括多个特征参数。本发明实施例通过对训练样本集的特征参数进行提取，从而进行分类训练。

其中，对于采集的原始数据集，其中包括大量的电力使用数据和窃电行为数据，而这些数据中大多数都是存在冗余、缺失、错误等情况，故，本发明实施例可以先对这些数据进行预处理。如，冗余数据删除、错误数据删除、缺失值数据删除等操作。

在具体实现时，本发明提出一种基于时间频率域的变分自编码器特征提取算法。在电力数据中，用户窃电的行为通常会导致电力使用模式的改变，而这种模式的改变在时间域和频率域都有所体现。因此，本发明提出一种基于时间频率域的变分自编码器特征提取算法，以捕获电力数据在时间和频率两个域的特性，进而用于用户窃电识别。参照步骤S304-步骤S310，通过该算法可以得到相应的时间频率特征参数。

其中，本发明实施例的基于时间频率域的变分自编码器包括训练好的VAE(Variational Autoencoder)模型，VAE是做特征提取的模型，本发明实施例通过构造一个分类器C来评价该VAE模型在训练过程中特征提取的效果，以确定VAE模型提取的特征对于窃电识别模型的精度是否有帮助。

为了使模型能够更关注窃电用户（通常是少数类），本发明实施例引入了一种自适应权重调整策略，即对于每个样本，其权重与其所属类别的数量成反比。这样，虽然窃电用户的数量较少，但由于其权重较大，模型在优化过程中会更关注这部分样本，从而提高识别窃电用户的能力。

具体来说，设和/>分别是窃电用户和非窃电用户的数量，那么对于一个样本/>，其权重/>可以定义为：

其中，用于表示样本的真实标签，1代表窃电用户，0代表非窃电用户。然后，分类器/>的目标函数改为最小化加权分类误差：

分类器C通过其目标函数可以指导VAE做特征提取，这种自适应权重调整策略使得VAE模型能够更关注窃电用户，从而提高用户窃电识别的性能。

步骤S304，按照预设时间长度的时间窗口，从训练样本集的多个特征参数中提取预设数量的特征向量。

首先，本发明实施例通过训练好的VAE(Variational Autoencoder)模型进行特征提取，其中，VAE是一种深度学习模型，其原理是将输入数据通过编码器映射到一个低维的概率分布空间，然后再通过解码器将这个低维的概率分布映射回原始空间。在具体实现时，本发明实施例给定一个电力数据，考虑到电力数据的模式可能在不同的时间尺度上有所不同，提出一种多尺度时间窗口特征提取策略，以更全面地捕获电力数据的特性。

具体的，首先设定多个不同长度的时间窗口，例如，一天（24小时）、一周（168小时）和一月（720小时）。然后，对于每个时间窗口，分别提取其内的电力数据的特征，得到多个特征向量。

步骤S306，确定多个特征向量对应的相似度矩阵，并根据相似度矩阵对多个特征向量进行融合，得到基于时间窗口的融合向量。

得到多个上述特征向量后，本发明实施例还将这些特征向量通过一种融合函数/>融合为一个统一的特征向量/>，即：

这里，为特征融合。本发明提出一种基于自注意力机制的特征交互的特征融合策略，自注意力机制是一种能够捕获序列内部的依赖关系的机制，其核心思想是通过计算每个元素与其他元素的相似度，来确定每个元素的权重。在这里，将自注意力机制应用到特征融合过程中，以捕获不同特征之间的交互关系。

具体来说，假设有个特征向量/>，首先计算这些特征向量的相似度矩阵/>，其元素/>定义为/>和/>的内积，即：

然后，将通过Softmax函数转换为权重矩阵/>，且/>的元素/>为/>的权重，定义为：

上述为/>的权重，/>为/>和/>的内积，/>为以自然常数e为底的指数函数。

最后，根据计算每个特征向量的加权和，得到最终的特征向量/>，即：

上述最终的特征向量即为上述基于时间窗口的融合向量。本发明实施例的这种基于自注意力机制的特征交互策略能够有效地捕获不同特征之间的交互关系，从而提高用户窃电识别的性能。

步骤S308，对融合向量进行傅里叶变换，并基于傅里叶变换确定融合向量对应的时间频率域数据。

步骤S310，将时间频率域数据输入至预设的变分自编码器中，通过变分自编码器对时间频率域数据进行特征提取，得到时间频率特征参数。

得到上述融合向量（也即上述特征向量）后，本发明实施例还计算特征向量/>在时间频率域的表示/>，然后将/>输入到编码器/>中，得到其在潜在空间的表示/>，即为提取出的特征。本发明实施例的这种多尺度时间窗口特征提取策略使得模型能更全面地捕获电力数据的特性，从而提高用户窃电识别的性能。

在具体实现时，特征向量在时间频率域的表示/>通过傅里叶变换（Fouriertransform）得到，其中，将电力数据/>进行傅里叶变换，得到其在频率域的表示/>：

上述表示傅里叶变换。之后，将/>和/>拼接起来，得到时间频率域的数据/>：

其中，表示拼接操作。

上述为步骤S308对应的时间频率域数据，再将其输入至预设的变分自编码器，如编码器/>中，得到其在潜在空间的表示/>，即为提取出的特征，也即上述时间频率特征参数。

在具体实现时，将输入到变分自编码器（VAE）中，提取特征。VAE包括编码器/>和解码器/>两部分。编码器/>将/>映射到一个潜在空间/>，解码器/>将/>映射回/>。编码器/>的输出不是一个确定的/>，而是/>的分布参数/>和/>，然后从这个分布中采样得到/>：

其中，表示高斯分布。

解码器将/>映射回/>：

VAE的目标是最小化重构误差和潜在空间分布的散度：

其中，表示KL散度，用于度量/>的分布和标准正态分布的差异。

步骤S312，将时间频率特征参数输入至预先设置的分类器中，对分类器进行分类训练，得到预测分类结果。

在具体实现时，分类器为基于随机森林算法和稀疏性原则构建的，其中，本发明提出一种改进的随机森林算法，在随机森林的基础上融入了稀疏性原则，实现了更加有效的特征选择，降低了模型的复杂性，提高了模型的泛化能力。

首先介绍随机森林。随机森林是由多个决策树构成，每个决策树都是独立训练的。假设有个决策树，每个决策树的预测结果为/>，那么随机森林的预测结果为这些决策树预测结果的多数投票：

其中，基于随机森林算法和稀疏性原则构建分类器的步骤，通过下述步骤S10-S12实现：

步骤S10，初始化随机森林算法对应的每颗决策树。

步骤S11，通过预先设置的约束参数调整每棵决策树的损失函数，得到每颗决策树分别对应的稀疏性决策树。

步骤S12，将预先确定的选择权重确定为稀疏性决策树的选择参数，将稀疏性决策树确定为分类器。

在具体实现时，本发明实施例的改进的随机森林算法的步骤如下所示：

（1）初始化随机森林中的每棵决策树。

（2）对每棵决策树进行如下操作：

a.使用当前的数据集训练决策树，得到预测结果。/>

b.使用稀疏性原则优化决策树，得到稀疏决策树。

其中，稀疏性原则是通过在模型优化过程中加入稀疏性约束（如L1范数），使得模型的部分参数为0，从而实现特征选择。对于决策树，稀疏性原则可以通过在特征选择过程中加入L1范数约束来实现，该L1范数约束为上述约束参数。假设决策树的特征选择参数为，那么优化目标可以写为：

其中，是决策树的损失函数，/>是L1范数，/>是正则化系数，控制稀疏性约束的强度。

其中，在构建决策树时，以概率选择特征/>。本发明实施例提出一种特征权重调整机制。在传统的随机森林算法中，每个特征在决策树中的使用频率通常被视为特征的重要性。然而，这种方法可能无法完全反映特征的重要性，尤其是在处理不平衡数据集（如窃电用户识别）时。在本发明实施例改进随机森林算法中，引入了一种特征权重调整机制，该机制基于特征在正确分类样本中的使用频率和在错误分类样本中的使用频率来调整特征的权重。该调整后的权重为上述预先确定的选择权重，该预先确定的选择权重为稀疏性决策树的选择参数。

在具体实现时，预先确定的选择权重通过时间频率特征参数对应于第一样本的第一选择频率，以及，时间频率特征参数对应于第二样本的第二选择频率确定；第一样本和第二样本分别用于表征时间频率特征参数对应的正确样本和错误样本。

具体来说，假设特征在正确分类样本中的使用频率为/>，在错误分类样本中的使用频率为/>，那么特征/>的权重/>可以定义为：

在构建决策树时，以概率选择特征/>。这种方法使得那些在正确分类样本中更频繁出现的特征更可能被选中，从而提高了模型的性能。上述正确分类样本也即上述时间频率特征参数对应的正确样本，错误分类样本也即上述时间频率特征参数对应的错误样本。

执行上述操作a和操作b后，每棵稀疏决策树会对时间频率特征参数进行分类预测，之后组合所有稀疏决策树的预测结果，可以得到最终的预测结果，也即上述预测分类结果。其中，本发明实施例改进随机森林算法的主要创新点在于引入了稀疏性原则进行特征选择，可以有效降低模型的复杂性，提高模型的泛化能力。

此外，本发明实施例还提出一种基于成本敏感的评估方法来评估窃电识别的分类结果，也即上述预测分类结果。该方法不仅能考虑模型的分类性能，还能考虑到不同类型的分类错误带来的成本，更适用于窃电识别这样的不平衡分类问题。具体地，通过下述步骤S314-S318对上述预测分类结果进行评估，并将评估通过时的分类器作为窃电识别模型使用。

步骤S314，根据预设的混淆矩阵，确定预测分类结果相对于预设的分类标签的分类成本。

其中，分类器的预测分类结果可以通过混淆矩阵来表示。假设正类为窃电用户，负类为非窃电用户，预测分类结果对应的混淆矩阵如下：

	预测为正类	预测为负类
			正类	TP	FN
负类	FP	TN

其中，TP（1 Positive）表示真正例，即正确识别的窃电用户；FN（0 Negative）表示假负例，即未能识别的窃电用户；FP（0 Positive）表示假正例，即误识别的非窃电用户；TN（1 Negative）表示真负例，即正确识别的非窃电用户。

在窃电识别问题中，未能识别的窃电用户（FN）带来的成本通常远高于误识别的非窃电用户（FP）。因此，本发明实施例设计一种能考虑到这种成本差异的评估方法。

在基于成本敏感的评估方法中，首先定义两个参数：表示FN的成本，/>表示FP的成本。

步骤S316，按照预设的成本统计算法对分类成本进行计算，确定预测分类结果对应的成本错误率。

定义成本敏感的错误率（Cost-Sensitive Error Rate，简称CSER），其中，该成本错误率的计算公式（也即上述预设的成本统计算法）如下：

上述公式中，分子表示所有分类错误带来的总成本，分母表示所有样本可能带来的最大成本。基于成本敏感的评估方法R能反映出分类器在考虑成本的情况下的性能，值越小，表示分类器的性能越好。

步骤S318，判断成本错误率是否满足预设的错误率阈值，如果是，确定预测分类结果满足预设的评估指标，并将分类器确定为窃电识别模型。

其中，当根据上述成本错误率计算公式对预测分类结果的分类成本进行计算，得到的相应成本错误率数值满足上述错误率阈值，则表示分类器性能较好，可以作为本发明实施例所需的窃电识别模型使用。

其中，本发明实施例基于成本敏感的评估方法通过考虑不同类型的分类错误带来的成本，更符合实际问题的需求，能更好地评估在不平衡数据（如窃电识别）上的分类性能。

本发明实施例提供的另一种窃电识别模型的构建方法，在特征提取时，考虑电力数据的模式可能在不同的时间尺度上有所不同，提出一种基于时间频率域的变分自编码器特征提取算法，通过多尺度时间窗口特征提取策略，可以更全面地捕获电力数据的特性。如，在时间和频率两个域的特性。此外，使用的分类器为一种改进的随机森林算法分类器，其中，在随机森林的基础上融入了稀疏性原则，实现了更加有效的特征选择，能够降低模型的复杂性，提高模型的泛化能力。而且，可以使在正确分类样本中更频繁出现的特征更可能被选中，可以提高模型的性能。

进一步的，对预测分类结果进行评估时，不仅可以考虑模型的分类性能，还能够考虑到不同类型的分类错误带来的成本，更符合实际问题的需求，能更好地评估在不平衡数据（如窃电识别）上的分类性能。

在上述实施例的基础上，本发明实施例还提供了一种窃电行为识别方法，图4示出了本发明实施例提供的一种窃电行为识别方法的流程图，如图4所示，该窃电行为识别方法包括：

步骤S402，采集用户的用电数据。

步骤S404，将用电数据输入至预先构建的窃电识别模型中，通过窃电识别模型对用电数据进行分类识别，得到识别结果。

其中，窃电识别模型为基于上述窃电识别模型的构建方法构建得到的；

步骤S406，根据识别结果，对用电数据进行窃电识别。

本发明实施例所提供的一种窃电行为识别方法，其实现原理及产生的技术效果和前述窃电识别模型的构建方法实施例相同，为简要描述，该窃电行为识别方法实施例部分未提及之处，可参考前述窃电识别模型的构建方法实施例中相应内容。

进一步地，本发明实施例还提供了一种窃电识别模型的构建装置，图5示出了本发明实施例提供的一种窃电识别模型的构建装置的结构示意图，如图5所示，该窃电识别模型的构建装置包括以下结构：

样本获取模块100，用于获取预先构建的训练样本集；其中，训练样本集包括多个电力数据，电力数据包括用电样本和窃电样本，且，训练样本集为经过预先设置的对抗网络对原始数据集进行扩充得到的；

特征提取模块200，用于对训练样本集中的电力数据进行特征提取，得到每个电力数据的时间频率特征参数；

训练模块300，用于将时间频率特征参数输入至预先设置的分类器中，对分类器进行分类训练，得到预测分类结果；其中，分类器为基于随机森林算法和稀疏性原则构建的；

输出模块400，用于根据预设的评估指标对预测分类结果进行结果评估，并在预测分类结果满足预设的评估指标时，将分类器确定为窃电识别模型；窃电识别模型用于对电力数据进行窃电识别。

本发明实施例所提供的一种窃电识别模型的构建装置，其实现原理及产生的技术效果和前述窃电识别模型的构建方法实施例相同，为简要描述，该窃电识别模型的构建装置实施例部分未提及之处，可参考前述窃电识别模型的构建方法实施例中相应内容。

进一步地，本发明实施例还提供了另一种窃电识别模型的构建装置，图6示出了本发明实施例提供的另一种窃电识别模型的构建装置的结构示意图。

上述对抗网络包括改进的生成器和改进的判别器，其中，改进的生成器的目标函数包括修正项，改进的判别器的目标函数包括混合样本；如图6所示，该装置还包括扩充模块500，用于通过改进的生成器生成电力数据对应的初始扩充样本；通过改进的判别器对初始扩充样本和电力数据对应的混合样本进行判别，确定混合样本对应的样本差异；判断样本差异是否满足预设的差异阈值；如果否，基于预设的优化函数，对改进的生成器的目标函数进行函数优化，执行通过改进的生成器生成电力数据对应的初始扩充样本的步骤；或者，对改进的判别器的目标函数进行函数优化，执行通过改进的判别器对初始扩充样本和电力数据对应的混合样本进行判别的步骤；优化函数根据电力数据和初始扩充样本分别对应的特性向量确定；直到混合样本对应的样本差异满足预设的差异阈值时，将当前初始扩充样本确定为原始数据集的扩充样本，得到训练样本集。

进一步地，上述扩充模块500，还用于根据电力数据的时刻信息，确定电力数据基于时刻的变化向量；根据变化向量确定动态性度量值，并基于动态性度量调整改进的生成器的第一学习率和改进的判别器的第二学习率；通过改进的生成器基于第一学习率生成初始扩充样本，并通过改进的判别器基于第二学习率对混合样本进行判别。

进一步地，训练样本集中包括多个特征参数；上述特征提取模块200，还用于按照预设时间长度的时间窗口，从训练样本集的多个特征参数中提取预设数量的特征向量；确定多个特征向量对应的相似度矩阵，并根据相似度矩阵对多个特征向量进行融合，得到基于时间窗口的融合向量；对融合向量进行傅里叶变换，并基于傅里叶变换确定融合向量对应的时间频率域数据；将时间频率域数据输入至预设的变分自编码器中，通过变分自编码器对时间频率域数据进行特征提取，得到时间频率特征参数。

进一步地，该装置还包括构建模块600，用于初始化随机森林算法对应的每颗决策树；通过预先设置的约束参数调整每棵决策树的损失函数，得到每颗决策树分别对应的稀疏性决策树；将预先确定的选择权重确定为稀疏性决策树的选择参数，将稀疏性决策树确定为分类器。其中，预先确定的选择权重通过时间频率特征参数对应于第一样本的第一选择频率，以及，时间频率特征参数对应于第二样本的第二选择频率确定；第一样本和第二样本分别用于表征时间频率特征参数对应的正确样本和错误样本。

进一步地，上述输出模块400，还用于根据预设的混淆矩阵，确定预测分类结果相对于预设的分类标签的分类成本；按照预设的成本统计算法对分类成本进行计算，确定预测分类结果对应的成本错误率；判断成本错误率是否满足预设的错误率阈值，如果是，确定预测分类结果满足预设的评估指标，并将分类器确定为窃电识别模型。

进一步地，本发明实施例还提供了一种窃电行为识别装置，图7示出了本发明实施例提供的一种窃电行为识别装置的结构示意图，如图7所示，该窃电行为识别装置包括以下结构：

数据采集模块10，用于采集用户的用电数据。

处理模块20，用于将用电数据输入至预先构建的窃电识别模型中，通过窃电识别模型对用电数据进行分类识别，得到识别结果。

其中，窃电识别模型为基于上述窃电识别模型的构建方法构建得到的。

执行模块30，用于根据识别结果，对用电数据进行窃电识别。

本发明实施例所提供的窃电行为识别装置，其实现原理及产生的技术效果和前述窃电识别模型的构建方法实施例相同，为简要描述，窃电行为识别装置实施例部分未提及之处，可参考前述窃电识别模型的构建方法实施例中相应内容。

本发明实施例还提供一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，处理器执行计算机程序时实现上述图1至图4所示的方法的步骤。

本发明实施例还提供一种计算机可读存储介质，该计算机可读存储介质上存储有计算机程序，计算机程序被处理器运行时执行上述图1至图4所示的方法的步骤。

本发明实施例还提供了一种电子设备的结构示意图，如图8所示，为该电子设备的结构示意图，其中，该电子设备包括处理器81和存储器80，该存储器80存储有能够被该处理器81执行的计算机可执行指令，该处理器81执行该计算机可执行指令以实现上述图1至图4所示的方法。

在图8示出的实施方式中，该电子设备还包括总线82和通信接口83，其中，处理器81、通信接口83和存储器80通过总线82连接。

其中，存储器80可能包含高速随机存取存储器（RAM，Random Access Memory），也可能还包括非易失性存储器（non-volatile memory），例如至少一个磁盘存储器。通过至少一个通信接口83（可以是有线或者无线）实现该系统网元与至少一个其他网元之间的通信连接，可以使用互联网，广域网，本地网，城域网等。总线82可以是ISA（Industry StandardArchitecture，工业标准体系结构）总线、PCI（Peripheral Component Interconnect，外设部件互连标准）总线或EISA（Extended Industry Standard Architecture，扩展工业标准结构）总线等，还可以是AMBA（Advanced Microcontroller Bus Architecture，片上总线的标准）总线，其中，AMBA定义了三种总线，包括APB（Advanced Peripheral Bus）总线、AHB（Advanced High-performance Bus）总线和AXI（Advanced eXtensible Interface）总线。总线82可以分为地址总线、数据总线、控制总线等。为便于表示，图8中仅用一个双向箭头表示，但并不表示仅有一根总线或一种类型的总线。

处理器81可能是一种集成电路芯片，具有信号的处理能力。在实现过程中，上述方法的各步骤可以通过处理器81中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器81可以是通用处理器，包括中央处理器(Central Processing Unit，简称CPU)、网络处理器(Network Processor，简称NP)等；还可以是数字信号处理器(Digital SignalProcessor，简称DSP)、专用集成电路(Application Specific Integrated Circuit，简称ASIC)、现场可编程门阵列(Field-Programmable Gate Array，简称FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本申请实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成，或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器，闪存、只读存储器，可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器，处理器81读取存储器中的信息，结合其硬件完成前述图1至图4任一所示的方法。

本发明实施例所提供的一种窃电识别模型的构建方法、窃电行为识别方法及装置的计算机程序产品，包括存储了程序代码的计算机可读存储介质，所述程序代码包括的指令可用于执行前面方法实施例中所述的方法，具体实现可参见方法实施例，在此不再赘述。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。另外，在本发明实施例的描述中，除非另有明确的规定和限定，术语“安装”、“相连”、“连接”应做广义理解，例如，可以是固定连接，也可以是可拆卸连接，或一体地连接；可以是机械连接，也可以是电连接；可以是直接相连，也可以通过中间媒介间接相连，可以是两个元件内部的连通。对于本领域技术人员而言，可以具体情况理解上述术语在本发明中的具体含义。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备（可以是个人计算机，服务器，或者网络设备等）执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器（ROM，Read-Only Memory）、随机存取存储器（RAM，Random Access Memory）、磁碟或者光盘等各种可以存储程序代码的介质。

在本发明的描述中，需要说明的是，术语“中心”、“上”、“下”、“左”、“右”、“竖直”、“水平”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。此外，术语“第一”、“第二”、“第三”仅用于描述目的，而不能理解为指示或暗示相对重要性。

最后应说明的是：以上实施例，仅为本发明的具体实施方式，用以说明本发明的技术方案，而非对其限制，本发明的保护范围并不局限于此，尽管参照前述实施例对本发明进行了详细的说明，本领域技术人员应当理解：任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化，或者对其中部分技术特征进行等同替换；而这些修改、变化或者替换，并不使相应技术方案的本质脱离本发明实施例技术方案的精神和范围，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以权利要求的保护范围为准。

Claims

1.一种窃电识别模型的构建方法，其特征在于，所述窃电识别模型的构建方法包括：

获取预先构建的训练样本集；其中，所述训练样本集包括多个电力数据，所述电力数据包括用电样本和窃电样本，且，所述训练样本集为经过预先设置的对抗网络对原始数据集进行扩充得到的；

对所述训练样本集中的电力数据进行特征提取，得到每个所述电力数据的时间频率特征参数；

将所述时间频率特征参数输入至预先设置的分类器中，对所述分类器进行分类训练，得到预测分类结果；其中，所述分类器为基于随机森林算法和稀疏性原则构建的；

根据预设的评估指标对所述预测分类结果进行结果评估，并在所述预测分类结果满足预设的评估指标时，将所述分类器确定为窃电识别模型；所述窃电识别模型用于对电力数据进行窃电识别。

2.根据权利要求1所述的窃电识别模型的构建方法，其特征在于，所述对抗网络包括改进的生成器和改进的判别器，其中，所述改进的生成器的目标函数包括修正项，所述改进的判别器的目标函数包括混合样本；

所述对抗网络对原始数据集进行扩充的步骤，包括：

通过所述改进的生成器生成所述电力数据对应的初始扩充样本；

通过所述改进的判别器对所述初始扩充样本和所述电力数据对应的混合样本进行判别，确定所述混合样本对应的样本差异；

判断所述样本差异是否满足预设的差异阈值；

如果否，基于预设的优化函数，对所述改进的生成器的目标函数进行函数优化，执行通过所述改进的生成器生成所述电力数据对应的初始扩充样本的步骤；

或者，对所述改进的判别器的目标函数进行函数优化，执行通过所述改进的判别器对所述初始扩充样本和所述电力数据对应的混合样本进行判别的步骤；所述优化函数根据所述电力数据和所述初始扩充样本分别对应的特性向量确定；

直到所述混合样本对应的所述样本差异满足预设的差异阈值时，将当前初始扩充样本确定为所述原始数据集的扩充样本，得到训练样本集。

3.根据权利要求2所述的窃电识别模型的构建方法，其特征在于，所述窃电识别模型的构建方法还包括：

根据所述电力数据的时刻信息，确定所述电力数据基于时刻的变化向量；

根据所述变化向量确定动态性度量值，并基于所述动态性度量调整所述改进的生成器的第一学习率和所述改进的判别器的第二学习率；

通过所述改进的生成器基于所述第一学习率生成所述初始扩充样本，并通过所述改进的判别器基于所述第二学习率对所述混合样本进行判别。

4.根据权利要求1所述的窃电识别模型的构建方法，其特征在于，所述训练样本集中包括多个特征参数；

所述对所述训练样本集中的电力数据进行特征提取，得到每个所述电力数据的时间频率特征参数的步骤，包括：

按照预设时间长度的时间窗口，从所述训练样本集的多个特征参数中提取预设数量的特征向量；

确定多个特征向量对应的相似度矩阵，并根据所述相似度矩阵对多个所述特征向量进行融合，得到基于时间窗口的融合向量；

对所述融合向量进行傅里叶变换，并基于所述傅里叶变换确定所述融合向量对应的时间频率域数据；

将所述时间频率域数据输入至预设的变分自编码器中，通过所述变分自编码器对所述时间频率域数据进行特征提取，得到所述时间频率特征参数。

5.根据权利要求1所述的窃电识别模型的构建方法，其特征在于，基于随机森林算法和稀疏性原则构建所述分类器的步骤，包括：

初始化所述随机森林算法对应的每颗决策树；

通过预先设置的约束参数调整每棵所述决策树的损失函数，得到每颗所述决策树分别对应的稀疏性决策树；

将预先确定的选择权重确定为所述稀疏性决策树的选择参数，将所述稀疏性决策树确定为所述分类器。

6.根据权利要求5所述的窃电识别模型的构建方法，其特征在于，所述预先确定的选择权重通过所述时间频率特征参数对应于第一样本的第一选择频率，以及，所述时间频率特征参数对应于第二样本的第二选择频率确定；

所述第一样本和所述第二样本分别用于表征所述时间频率特征参数对应的正确样本和错误样本。

7.根据权利要求1所述的窃电识别模型的构建方法，其特征在于，所述根据预设的评估指标对所述预测分类结果进行结果评估，并在所述预测分类结果满足预设的评估指标时，将所述分类器确定为窃电识别模型的步骤，包括：

根据预设的混淆矩阵，确定所述预测分类结果相对于预设的分类标签的分类成本；

按照预设的成本统计算法对所述分类成本进行计算，确定所述预测分类结果对应的成本错误率；

判断所述成本错误率是否满足预设的错误率阈值，如果是，确定所述预测分类结果满足预设的评估指标，并将所述分类器确定为窃电识别模型。

8.一种窃电行为识别方法，其特征在于，所述窃电行为识别方法包括：

采集用户的用电数据；

将所述用电数据输入至预先构建的窃电识别模型中，通过所述窃电识别模型对所述用电数据进行分类识别，得到识别结果；

其中，所述窃电识别模型为基于权利要求1~7任一项所述的窃电识别模型的构建方法构建得到的；

根据所述识别结果，对所述用电数据进行窃电识别。

9.一种窃电识别模型的构建装置，其特征在于，所述窃电识别模型的构建装置包括：

样本获取模块，用于获取预先构建的训练样本集；其中，所述训练样本集包括多个电力数据，所述电力数据包括用电样本和窃电样本，且，所述训练样本集为经过预先设置的对抗网络对原始数据集进行扩充得到的；

特征提取模块，用于对所述训练样本集中的电力数据进行特征提取，得到每个所述电力数据的时间频率特征参数；

处理模块，用于将所述时间频率特征参数输入至预先设置的分类器中，对所述分类器进行分类训练，得到预测分类结果；其中，所述分类器为基于随机森林算法和稀疏性原则构建的；

输出模块，用于根据预设的评估指标对所述预测分类结果进行结果评估，并在所述预测分类结果满足预设的评估指标时，将所述分类器确定为窃电识别模型；所述窃电识别模型用于对电力数据进行窃电识别。

10.一种窃电行为识别装置，其特征在于，所述窃电行为识别装置包括：

数据采集模块，用于采集用户的用电数据；

处理模块，用于将所述用电数据输入至预先构建的窃电识别模型中，通过所述窃电识别模型对所述用电数据进行分类识别，得到识别结果；

执行模块，用于根据所述识别结果，对所述用电数据进行窃电识别。