CN117092581A

CN117092581A - 基于段一致性判别自编码器电能表异常检测方法及装置

Info

Publication number: CN117092581A
Application number: CN202310990071.XA
Authority: CN
Inventors: 高欣; 薛冰; 李保丰; 翟峰; 赵兵; 郜波; 秦煜; 陈昊; 梁晓兵; 许斌; 徐萌; 卢建生; 肖春; 任宇路; 杨帅; 贾勇; 姚俊峰
Original assignee: Beijing University of Posts and Telecommunications; China Electric Power Research Institute Co Ltd CEPRI; Marketing Service Center of State Grid Shanxi Electric Power Co Ltd
Current assignee: Beijing University of Posts and Telecommunications; China Electric Power Research Institute Co Ltd CEPRI; Marketing Service Center of State Grid Shanxi Electric Power Co Ltd
Priority date: 2023-08-08
Filing date: 2023-08-08
Publication date: 2023-11-21

Abstract

本发明公开了一种基于段一致性判别自编码器电能表异常检测方法及装置。其中，方法包括：获取待测电能表历史检测的多变量长时间序列数据；对多变量长时间序列数据进行归一化处理，划分预设窗口长度的多个时间窗口数据；将多个时间窗口数据输入至预先训练的异常检测模型中，输出每个时间窗口数据对应的重构数据，其中异常检测模型采用段一致性判别自编码器；根据每个时间窗口数据的重构数据以及原始数据确定该时间窗口数据每个时间点的异常分数，并根据异常分数，确定待测电能表每个时间点的异常程度。

Description

基于段一致性判别自编码器电能表异常检测方法及装置

技术领域

本发明涉及电能表检测技术领域，并且更具体地，涉及一种基于段一致性判别自编码器电能表异常检测方法及装置。

背景技术

智能电能表可以采集家庭、商业等用户的电流、电压、电能示值等多变量时间序列检测数据，通过对单一变量时间序列属性随时间的周期、趋势的分析和多变量时间序列属性间相关关系和可能的因果关系的分析，可以学习多变量时间序列的正常模式并识别判断异常模式，从而全面地分析和监测智能电能表的运行情况。

在实际情况中收集到的智能电能表数据大都缺少准确的正异常标签，且由于电表设备的鲁棒性，从实际电表中收集的数据大部分为正常数据，异常稀少且隐藏在大量的正常数据中，收集并人工标注足够数量的异常数据需要花费大量成本与时间，因此只需要使用正常运行状态下的历史监控数据进行训练的无监督多维时间序列异常检测方法更适用于智能电能表。传统的无监督异常检测方法独立地考虑历史检测数据，忽略时间点之间的上下文关系，所以它们无法捕捉检测数据中的复杂结构和非线性关系。此外，传统方法在测试过程中需要对训练数据进行再次遍历，巨大的计算成本限制了传统方法向大规模数据的扩展。因此现在主流的方法是使用基于深度学习的方法来更好地挖掘多变量时间序列中的时间依赖性和变量间的关联性，取得更好地异常检测结果。基于深度学习的多变量时间序列异常检测方法是利用复杂的神经网络学习正常时间序列的模式并根据这个特性来分辨正常和异常数据,其可以分为基于预测的方法和基于重构的方法。基于预测的方法通过学习历史的时间序列数据，提取时序模式并预测下一个时间点或时间段的数据，然后将真实值与预测值的差值作为异常分数来分辨正异常数据。基于重构的方法通常使用编码器压缩原始数据，学习并保留时间序列中的关键信息。然后使用解码器逐点重构原始时间序列，将原始时间序列和重构时间序列之间的重构误差作为异常分数来检测异常数据。为了应对智能电能表在实际环境中收集到的数据中存在噪声，导致基于重构方法的模型在学习过程中产生的过拟合问题，有研究人员在多变量时间序列异常检测中引入了对比学习方法。但由于这些方法仍然沿用来自计算机视觉和自然语言处理领域对比学习的做法，采用了不适合时间序列异常检测的归纳偏置和代理任务进行数据增强和模型学习，限制了这些多变量时间序列异常检测方法的性能的进一步提高。

根据国内外相关文献调研，当前智能电能表的异常检测方法主要有基于单一系统的简单阈值判定方法和基于静态离线数据的分析方法。基于单一系统的简单阈值判定方法具有局限性，一方面对智能电能表信息利用率和状态评价正确率都偏低，另一方面难以检测出智能电能表的周期趋势异常和多变量间的相关关系异常，而且相关规范标准中的固定阈值难以结合智能电能表运行工况的差异性。基于静态离线数据的分析方法存在与智能电能表在线运行结合不紧密、不能快速反映智能电能表运行状态和及时发现异常现象等问题。基于在线时间序列数据的异常检测方法虽然在引擎维护、污水处理等领域取得了一定成绩，但在智能电能表领域未见应用。现有的在线异常检测方法并不直接适用于电能表数据，异常检测性能也有待进一步提高。

发明内容

针对现有技术的不足，本发明提供一种基于段一致性判别自编码器电能表异常检测方法及装置。

根据本发明的一个方面，提供了一种基于段一致性判别自编码器电能表异常检测方法，包括：

获取待测电能表历史检测的多变量长时间序列数据；

对多变量长时间序列数据进行归一化处理，划分预设窗口长度的多个时间窗口数据；

将多个时间窗口数据输入至预先训练的异常检测模型中，输出每个时间窗口数据对应的重构数据；

根据每个时间窗口数据的重构数据以及原始数据确定该时间窗口数据每个时间点的异常分数，并根据异常分数，确定待测电能表每个时间点的异常程度。

可选地，多变量长时间序列数据包括：A相电流、B相电流、C相电流、A相电压、B相电压、C相电压、正向有功电能示值、反向有功电能示值、正向无功电能示值、反向无功电能示值、A相有功功率、B相有功功率、C相有功功率、有功功率总值、A相无功功率、B相无功功率、C相无功功率、无功功率总值、A相功率因数、B相功率因数、C相功率因数、功率因数总值。

可选地，获取待测电能表历史检测的多变量长时间序列数据之后，还包括：

利用Z-Score标准化使多变量长时间序列数据中的每一个变量的所有值符合标准正态分布。

可选地，Z-Score标准化的公式为：

式中，X_i为多变量长时间序列数据，表示标准化后的X_i，μ表示X_i中每个变量所有样本数据的均值，σ表示X_i中每个变量所有样本数据的标准差。

可选地，异常检测模型的训练过程如下：

获取多个电能表历史检测的多变量时间序列数据样本，合并成一个多变量长时间序列数据样本；

利用Z-Score标准化使多变量长时间序列数据样本中的每一个变量的所有值符合标准正态分布；

对标准化的多变量长时间序列数据样本进行窗口化，划分成预设窗口的多个时间窗口数据样本；

采用多分辨率随机下采样数据增强方法对多个时间窗口数据样本进行数据增强，确定正负样本对；

采用由GRU组成的编码器对正负样本对进行特征提取，确定正负样本对特征；

通过预设的非线性判别器、编码器和解码器分别判别和重构正负样本对特征，确定模型的总损失；

根据总损失更新优化网络和参数，确定异常检测模型。

可选地，采用多分辨率随机下采样数据增强方法对多个时间窗口数据样本进行数据增强，确定正负样本对，包括：

给定一个时间窗口数据样本，对时间窗口数据样本进行分段，随机从时间窗口中选择片段；

保持选择的片段在原始时间窗口中的相对顺序，获取正样本；

打乱选择的片段的顺序，获取负样本；

随机将两个正样本组合成为正样本对；

随机将一个正样本和一个负样本组合成为负样本对。

可选地，由GRU组成的编码器由一个嵌入层和预定数量的GRU堆叠组成，其中嵌入层采用一层全连接的线性层组成，用于对时间序列进行编码；

判别器为非线性的预测头，由两个全连接层、一个批处理归一化层和一个激活函数组成。

可选地，总损失的计算公式为：

L←L_Dis+L_Rec

式中，L为总损失，L_Dis为对比判别的损失，L_Rec为解码重构损失，N表示样本总数，y_true＝{0,1}表示样本的真实标签，yⁱ为分类判别结果，Pⁱ输入样本，解码重构输出。

可选地，异常分数的计算公式为：

式中，AS_t表示预设窗口中t时刻的异常分数，表示变量i在t时间点的原始数据，表示变量i在t时间点的重构数据，M表示待测电能表多变量长时间序列数据中的变量数量。

根据本发明的另一个方面，提供了一种基于段一致性判别自编码器电能表异常检测装置，包括：

获取模块，用于获取待测电能表历史检测的多变量长时间序列数据；

划分模块，用于对多变量长时间序列数据进行归一化处理，划分预设窗口长度的多个时间窗口数据；

输出模块，用于将多个时间窗口数据输入至预先训练的异常检测模型中，输出每个时间窗口数据对应的重构数据；

确定模块，用于根据每个时间窗口数据的重构数据以及原始数据确定该时间窗口数据每个时间点的异常分数，并根据异常分数，确定待测电能表每个时间点的异常程度。

根据本发明的又一个方面，提供了一种计算机可读存储介质，所述存储介质存储有计算机程序，所述计算机程序用于执行本发明上述任一方面所述的方法。

根据本发明的又一个方面，提供了一种电子设备，所述电子设备包括：处理器；用于存储所述处理器可执行指令的存储器；所述处理器，用于从所述存储器中读取所述可执行指令，并执行所述指令以实现本发明上述任一方面所述的方法。

从而，本发明根据智能电能表监测数据在实际收集过程中会受到噪声污染的特点和传统异常检测方法中的数据增强和代理任务不适合于时间序列异常检测的问题，提出了基于多分辨率分段一致性判别的对比自动编码器用于智能电能表多变量时间序列的异常检测。提出的随机下采样数据增强方法，在不引入噪声的情况下构造了大量有标签的样本，解决了传统数据增强方法可能破坏时间序列时间依赖性的问题。提出了样本段一致性判别代理任务来学习不同分辨率的段内局部趋势信息和段间的上下文信息。通过对比学习任务和重构任务的联合训练，使得模型可以同时考虑智能电能表多变量数据中的像素级信息和局部信息，提高了模型的泛化能力和异常检测的准确性。

附图说明

通过参考下面的附图，可以更为完整地理解本发明的示例性实施方式：

图1是本发明一示例性实施例提供的基于段一致性判别自编码器电能表异常检测方法的流程示意图；

图2是本发明一示例性实施例提供的基于段一致性判别自编码器电能表异常检测方法的框架流程示意图；

图3是本发明一示例性实施例提供的特征提取、对比判别和解码重构模块流程图；

图4是本发明一示例性实施例提供的基于段一致性判别自编码器电能表异常检测装置的结构示意图；

图5是本发明一示例性实施例提供的电子设备的结构。

具体实施方式

下面，将参考附图详细地描述根据本发明的示例实施例。显然，所描述的实施例仅仅是本发明的一部分实施例，而不是本发明的全部实施例，应理解，本发明不受这里描述的示例实施例的限制。

应注意到：除非另外具体说明，否则在这些实施例中阐述的部件和步骤的相对布置、数字表达式和数值不限制本发明的范围。

本领域技术人员可以理解，本发明实施例中的“第一”、“第二”等术语仅用于区别不同步骤、设备或模块等，既不代表任何特定技术含义，也不表示它们之间的必然逻辑顺序。

还应理解，在本发明实施例中，“多个”可以指两个或两个以上，“至少一个”可以指一个、两个或两个以上。

还应理解，对于本发明实施例中提及的任一部件、数据或结构，在没有明确限定或者在前后文给出相反启示的情况下，一般可以理解为一个或多个。

另外，本发明中术语“和/或”，仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。另外，本发明中字符“/”，一般表示前后关联对象是一种“或”的关系。

还应理解，本发明对各个实施例的描述着重强调各个实施例之间的不同之处，其相同或相似之处可以相互参考，为了简洁，不再一一赘述。

同时，应当明白，为了便于描述，附图中所示出的各个部分的尺寸并不是按照实际的比例关系绘制的。

以下对至少一个示例性实施例的描述实际上仅仅是说明性的，决不作为对本发明及其应用或使用的任何限制。

对于相关领域普通技术人员已知的技术、方法和设备可能不作详细讨论，但在适当情况下，技术、方法和设备应当被视为说明书的一部分。

应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步讨论。

本发明实施例可以应用于终端设备、计算机系统、服务器等电子设备，其可与众多其它通用或专用计算系统环境或配置一起操作。适于与终端设备、计算机系统、服务器等电子设备一起使用的众所周知的终端设备、计算系统、环境和/或配置的例子包括但不限于：个人计算机系统、服务器计算机系统、瘦客户机、厚客户机、手持或膝上设备、基于微处理器的系统、机顶盒、可编程消费电子产品、网络个人电脑、小型计算机系统﹑大型计算机系统和包括上述任何系统的分布式云计算技术环境，等等。

终端设备、计算机系统、服务器等电子设备可以在由计算机系统执行的计算机系统可执行指令(诸如程序模块)的一般语境下描述。通常，程序模块可以包括例程、程序、目标程序、组件、逻辑、数据结构等等，它们执行特定的任务或者实现特定的抽象数据类型。计算机系统/服务器可以在分布式云计算环境中实施，分布式云计算环境中，任务是由通过通信网络链接的远程处理设备执行的。在分布式云计算环境中，程序模块可以位于包括存储设备的本地或远程计算系统存储介质上。

示例性方法

图1是本发明一示例性实施例提供的基于段一致性判别自编码器电能表异常检测方法的流程示意图。本实施例可应用在电子设备上，如图1所示，基于段一致性判别自编码器电能表异常检测方法100包括以下步骤：

步骤101，获取待测电能表历史检测的多变量长时间序列数据；

步骤102，对多变量长时间序列数据进行归一化处理，划分预设窗口长度的多个时间窗口数据；

步骤103，将多个时间窗口数据输入至预先训练的异常检测模型中，输出每个时间窗口数据对应的重构数据；

步骤104，根据每个时间窗口数据的重构数据以及原始数据确定该时间窗口数据每个时间点的异常分数，并根据异常分数，确定待测电能表每个时间点的异常程度。

具体地，本申请中异常检测模型为基于段一致性判别的自编码器，依据时间序列固有的时间顺序一致性属性，设计了适合于电能表时间序列数据的数据增强方法和代理任务，提高异常检测的准确率，避免巨大经济损失，维护电网运行安全。步骤如下：

1.问题描述

将智能电能表历史检测的多变量时间序列数据作为模型的训练数据，记为χ＝{X₁,X₂,···X_i,···,X_T}，其中表示在时间点i的智能电能表检测数据，M表示时间序列中变量的个数，在本发明中，时间序列中的变量具体为：A相电流、B相电流、C相电流、A相电压、B相电压、C相电压、正向有功电能示值、反向有功电能示值、正向无功电能示值、反向无功电能示值、A相有功功率、B相有功功率、C相有功功率、有功功率总值、A相无功功率、B相无功功率、C相无功功率、无功功率总值、A相功率因数、B相功率因数、C相功率因数、功率因数总值共22个传感器变量。T表示时间序列的总长度。多变量时间序列异常检测任务的目标是判断一个包含t个时间点的时间窗口W＝{X₁,X₂,···,X_t}内的时间点是否发生了异常。但在实际过程中，并不直接预测标签，而是首先计算出这个时间窗口W中每个时间点的异常分数AS(Anomaly Score)，并通过结合阈值来判断这个时间窗口中的时间点是否发生异常，如果此时间窗口中时间点的AS高于阈值，则该时间点发生了异常。

2.模型结构

图2显示了contrastive autoencoder with multi-resolution segment-consistency discrimination(MRSCD)的总体架构。它由五个主要部分组成：数据预处理、多分辨率随机下采样数据增强、特征提取、判别和重构。总损失是L_Dis和L_Rec的总和，其中L_Dis表示判别损失，L_Rec表示重构损失。首先，对数据进行归一化，并将原始数据划分为相等长度的时间窗口。之后，每个时间窗口被按不同的采样率和不同顺序随机下采样为正样本和负样本，正样本保留了原始时间序列的一致性信息，而在负样本中，片段之间的顺序被随机打乱，因此时间顺序信息是混乱的。然后将正样本和负样本随机组合，生成具有相应自监督标签的正样本对和负样本对。并且使用由GRU组成的编码器来提取鲁棒的特征表示。最后，设计了一个非线性解码器和判别器来分别重构和判别样本对。判别器可以在分类损失的约束下，有针对性地学习片段内的局部时间模式信息和片段间的时序相关性信息。通过对重构和判别任务的联合学习，模型既可以考虑重构损失约束的像素级逐点信息，也可以考虑对比学习损失约束的局部信息。

3.数据预处理

对于智能电能表多变量时间序列，不同变量拥有不同的物理含义，也具有不同的单位和尺度，导致不同变量的数值可能差异很大，这样不仅会影响模型学习时间序列的能力，还会使神经网络难以收敛。为了解决这个问题，本文使用Z-Score标准化来使每个变量的值符合标准正态分布，即均值为0，标准差为1。通过标准化可以将原本不同量纲的数据转换成无量纲的数据。对于多变量数据X_i的Z-Score标准化的具体公式如下：

其中，表示标准化后的X_i，μ表示X_i中每个变量所有样本数据的均值，σ表示X_i中每个变量所有样本数据的标准差。为了更好地挖掘时间序列时间点前后的时间依赖关系，并进行有效的特征提取，本方法对标准化后的数据进行窗口化，将原始数据划分为一个个固定长度的时间窗口W_i＝{X₁,X₂,···,X_t}并在此基础上进行训练和测试。其中t表示一个时间窗口内包含的变时间点的个数。

4.多分辨率随机下采样数据增强

基于多分辨率随机下采样的样本对构造数据增强方法的流程如图2所示。时间序列的趋势连续性和顺序性是时间序列的重要特征和区分不同时间序列的重要标志。BERT等大型模型的成功已经证明，可以通过判断序列间顺序的任务学习序列本身的高级语义信息。对于属于序列数据的时间序列，也可以通过对比两个时间序列中各个时间段间的趋势和顺序来学习两个时间序列的异同。此外，类似于日常生活中使用年月日描述同一段时间可以表达不同的意思，通过将原始时间序列以不同大小的样本段进行分割和学习，也可以获取同一个时间序列的不同层次的语义信息。

所提出的数据增强方法的过程可以如下描述：给定一个时间窗口其中x_i,i表示在第i时刻第i变量的智能电能表检测数据的特征值。我们假设采样块的大小为r，我们可以把时间窗口W_in划分成n个大小为r的采样块，即W_in＝{X_1～n+1,…,X_i～n+i,···,X_t-n～t}，其中t＝n*r。随机选择片段进行样本对构建。假设随机下采样的采样率为f，则采样后获得的采样段数为n*f，且必须是整数。然后我们使用两种不同的方法来生成正样本和负样本：一种是保持片段在原始窗口中的相对顺序，以获得正样本W_ord；另一种是打乱分段的顺序以获得负样本W_rdm。正样本保留了原始时间序列的一致性信息，而在负样本中，片段之间的顺序是随机组合的，因此这些信息是混沌的。下采样后，时间窗口的长度从t变为t*f，变量的数量保持不变。最后，我们将两个正样本随机组合为正样本对，将一个正样本和一个负样本随机组合为负样本对。与传统的时间序列下采样不同，本文所提出的数据增强中的“随机性”体现在两个方面。首先，我们的方法不是以固定的间隔采样，而是在所有分块的片段中随机选择。下采样是通过小于1的采样率来实现。第二方面是指下采样片段间的顺序被随机打乱并随机组合。在所提的方法中，我们并不只采用一个固定的采样样本段大小，而是将使用两种不同大小进行下采样得到的样本对进行混合。不同的采样样本段大小代表同一个时间窗口的不同层次的语义信息，通过采用多个不同分辨率样本对组合的方式，可以将原始无标签数据转化为丰富的有标签样本对，其中正样本对是包含相似趋势和时间顺序一致性信息的两个样本，而负样本对是时间顺序信息不一致的两个样本。通过设计编码器从正负样本对中提取特征，并使用鉴别器学习区分正负样本对，该模型可以具有学习原始样本的不同局部片段趋势信息和片段之间顺序信息的能力。

5.特征提取模块

RNN(Recurrent Neural Network)对序列数据有较强的特征提取能力，而GRU(Gate Recurrent Unit)作为RNN的改进，改善了其在处理长序列时会出现的梯度消失问题，相比于RNN在长时间序列的建模上有了更好的表现。本文的样本对特征提取模块是基于GRU来设计的。如图3所示，特征提取模块由一个嵌入层和若干个GRU堆叠组成。

特征提取模块中的嵌入层采用一层全连接的线性层组成。嵌入层的作用是对时间序列进行编码，在保留时间序列的顺序信息的同时，还可以在训练中不断的更新权重。通过对特征权重大小的不断优化改变，逐渐拟合出有利于窗口内特征信息提取的参数。对于样本Pⁱ，经过嵌入层后变成固定特征维度的P_em ⁱ。

嵌入层的输出P_em ⁱ接着顺序进入若干GRU层。以P_em ⁱ中的特征向量x_i在第c层GRU计算为例，假设第c层中上一个单元的输出为x_i在第c-1层GRU的输出为/>则x_i在第c层GRU的输出为/>其中/>表示第c层GRU的更新门的参数，代表之前的信息有多少需要更新，/>表示第c层GRU的候选状态，它通过重置门/>控制着上一个单元输出所占的比例。/>的计算分别如下所示：

其中，表Sigmoid()示激活函数sigmoid，W_z，W_r，W分别表示更新门、重置门和候选状态的权重矩阵。经过若干层GRU后，可以得到提取的样本对特征的高级语义信息，用Zⁱ来表示。

6.判别和重构模块

如图3所示，所提出的方法有两个训练任务，一个是以样本段顺序一致性判别作为代理任务的对比学习任务，另一个是传统异常检测的解码重构任务。对比判别任务是学习样本段的局部趋势信息和整体的样本段间顺序信息，并利用这些信息对样本对进行分类。受之前研究的启发，我们采用非线性的预测头作为判别器。鉴别器由两个全连接层、一个批处理归一化(BN)层和一个激活函数组成。非线性神经网络可以进一步提取特征并将其映射到低维空间，以完成最终的分类任务。此外，投影头结构简单，参数较少，使模型不太可能过拟合，并提高了模型的可推广性对于提取的样本对特征Zⁱ，我们可以通过判别器得到它的分类预测结果yⁱ，其计算过程如下：

yⁱ＝Sigmoid(W_D2(Tanh(BatchNorm(W_D1Zⁱ))))

其中，W_D1，W_D2分别表示判别器中第1、第2线性层的权重参数。在得到分类判别结果yⁱ后，通过如下计算过程可以得到对比判别的损失L_Dis：

其中，N表示样本总数，y_true＝{0,1}表示样本的真实标签。

重构解码任务是通过自动编码器的编码器将样本进行特征压缩，保留原始时间序列中的关键典型信息，然后由解码器逐点重构原始时间序列。通过比较重构样本和原始样本的差异，不断约束模型提取更具代表性的语义信息。同样，对于提取的样本对特征Zⁱ，我们可以通过解码器得到它的重构结果其计算过程如下：

其中，W_R1，W_R2分别表示解码器中第1、第2线性层的权重参数。我们定义解码重构损失L_Rec为输入样本Pⁱ和解码重构输出的平均绝对误差(Mean Square Error)，其公式如下：

其中N表示样本总数。

模型总体的损失L为对比判别损失和解码重构损失的和，即L＝L_Dis+L_Rec。我们的目标是最大限度地降低总体损失，约束模型编码同时满足判别任务和重构任务的潜在变量，使模型同时学习像素级特征信息和局部特征信息，增强模型的表示学习能力。算法1表示了所以方法训练阶段的算法流程。当模型训练完成后，测试样本则不再进行数据增强和判别器，而是直接将其进行编码然后进行逐点重构，如图3所示。本申请异常检测模型的训练伪代码如表1所示。

表1

7.异常检测

由于智能电能表多变量时间序列中的异常数据隐藏在大量正常数据中，带有标签的数据很难获得，因此通常无法直接预测测试数据中每个时间点的异常标签。目前的主流方法是使用基于重构的无监督方法来代替对异常标签的直接预测进行异常检测。本文使用测试数据的重构样本和原始样本之间的均方误差(MSE)来计算重构误差，如下式所示。然后使用该时间点的重构误差作为异常分数来表示异常程度。异常分数越高，表明观察到的样本与正常数据之间的差异越大，这意味着该时间点越有可能是异常。

其中，AS_t表示时间步长t的异常分数，表示变量i在t时间点的原始数据，/>表示变量i在t时间点的重构数据，M表示智能电能表多变量数据中的变量数量。在获得异常分数后，本文使用固定阈值对异常进行分类，将异常分数大于阈值的样本划分为异常样本，将异常得分小于或等于阈值的样本分为正常样本。

此外，本申请通过公开数据集对上述异常检测模型进行校验的具体步骤如下：

将MRSCD与14个较为先进的模型在5个代表时序数据分布多样性的权威公开数据集和智能电表数据集上进行对比实验，证实了提出的基于段一致性判别自编码器的电能表多维时序异常检测方法的有效性和先进性。

1.公开数据集：使用的5个公开数据集为多个不同复杂物理设备或大型设施的监控数据，各数据集的具体信息如表2所示。为了降低结果的随机性，全部结果均是5次独立运行结果的平均值。

表2数据集

数据集	训练集长度	测试集长度	特征数量	异常占比	数据集描述
						SMD	708,405	708,420	38	4.16％	监控服务器的数据
MSL	58,317	73,729	55	10.53％	火星探测车检测数据
						SMAP	135,183	427,617	25	12.79％	土壤湿度卫星检测数据
SWaT	495,000	449,919	51	12.14％	水处理设备检测数据
						PSM	132,481	87,841	25	27.76％	服务器集群检测设备

2.对比方法：如表3所示，为验证所提算法的有效性，本发明实施例中使用了14种典型的无监督异常检测算法作为对比算法。

表3具体实施例中进行对比的算法

3.评价指标：使用AUC来衡量异常检测的结果。AUC是ROC曲线的曲线下方面积，ROC曲线是一个准确率与误报率随着判定阈值的变化画出的曲线。AUC的最小值为0，最大值为1，异常检测的准确率越高，则AUC的值越接近1；异常检测的准确率越低，则AUC的值越接近0。

4.实现细节：使用滑动窗口来划分原始时间序列，并获得用于训练和测试的时间窗口集。训练集的滑动窗口的固定长度为100。不同分辨率的数量Nr和下采样的采样率f是我们方法中的两个重要超参数，我们使用的最终超参数值为Nr＝2和f＝0.6。我们在训练过程中使用Adam优化器进行模型优化。训练的轮次设置为100，批量大小为200，学习率为1e-4。对于每个数据集，我们将20％的训练集划分为验证集，并使用早期停止策略。当验证损失连续10个周期记录大于最小验证损失时，训练过程将提前停止。将验证损失最小的网络参数作为最佳训练结果。

5.公开数据集实验结果：和其他对比方法在公开数据集上的AUC结果如表4所示，加粗字体表示最高的平均AUC与最低的平均排名。本发明实施例在表格中用MRSCD表示。可以看到本发明提出的智能基于段一致性判别自编码器电能表异常检测方法在公开数据集上获得了最高的平均AUC与最低的平均排名，说明本发明实施例的异常检测准确率高，性能较好。

表4在公开数据集上与其他对比方法的AUC结果

6.智能电能表数据集：智能电表数据集(ELE)具体数据特点如表3所示。该数据集收集自多个台区的9台三相电表实体设备，每个设备包括电流(A相、B相、C相)、电压(A相、B相、C相)、电能示值(正向有功)、电能示值(反向有功)、电能示值(正向无功)、电能示值(反向无功)、有功功率(A相、B相、C相、总值)、无功功率(A相、B相、C相、总值)、功率因数(A相、B相、C相、总值)22个传感器数值。

表5实际电表数据集特点

7.智能电能表数据集实验结果：表6展示了本发明实施例和其他对比方法在智能电能表数据集上的AUC结果。从表中结果可知本发明提出的智能基于段一致性判别自编码器电能表异常检测方法在智能电能表的实际数据集上获得了最高的AUC与最低的平均排名，证明了所提异常检测方法在实际环境中的可靠性和优越性。

表6在智能电能表数据集上与其他对比方法的AUC结果

示例性装置

图4是本发明一示例性实施例提供的基于段一致性判别自编码器电能表异常检测装置的结构示意图。如图4所示，装置400包括：

获取模块410，用于获取待测电能表历史检测的多变量长时间序列数据；

划分模块420，用于对多变量长时间序列数据进行归一化处理，划分预设窗口长度的多个时间窗口数据；

输出模块430，用于将多个时间窗口数据输入至预先训练的异常检测模型中，输出每个时间窗口数据对应的重构数据；

确定模块440，用于根据每个时间窗口数据的重构数据以及原始数据确定该时间窗口数据每个时间点的异常分数，并根据异常分数，确定待测电能表每个时间点的异常程度。

可选地，获取待测电能表历史检测的多变量长时间序列数据之后，装置400还包括：

标准化模块，用于利用Z-Score标准化使多变量长时间序列数据中的每一个变量的所有值符合标准正态分布。

可选地，Z-Score标准化的公式为：

可选地，输出模块430中异常检测模型的训练过程如下：

获取子模块，用于获取多个电能表历史检测的多变量时间序列数据样本，合并成一个多变量长时间序列数据样本；

标准化子模块，用于利用Z-Score标准化使多变量长时间序列数据样本中的每一个变量的所有值符合标准正态分布；

划分子模块，用于对标准化的多变量长时间序列数据样本进行窗口化，划分成预设窗口的多个时间窗口数据样本；

第一确定子模块，用于采用多分辨率随机下采样数据增强方法对多个时间窗口数据样本进行数据增强，确定正负样本对；

第二确定子模块，用于采用由GRU组成的编码器对正负样本对进行特征提取，确定正负样本对特征；

第三确定子模块，用于通过预设的非线性判别器、编码器和解码器分别判别和重构正负样本对特征，确定模型的总损失；

第四确定子模块，用于根据总损失更新优化网络和参数，确定异常检测模型。

可选地，第一确定子模块，包括：

选择单元，用于给定一个时间窗口数据样本，对时间窗口数据样本进行分段，随机从时间窗口中选择片段；

第一获取单元，用于保持选择的片段在原始时间窗口中的相对顺序，获取正样本；

第二获取单元，用于打乱选择的片段的顺序，获取负样本；

第一组合单元，用于随机将两个正样本组合成为正样本对；

第二组合单元，用于随机将一个正样本和一个负样本组合成为负样本对。

可选地，由GRU组成的编码器由一个嵌入层和预定数量的GRU堆叠组成，其中嵌入层采用一层全连接的线性层组成，用于对时间序列进行编码。

可选地，判别器为非线性的预测头，由两个全连接层、一个批处理归一化层和一个激活函数组成。

可选地，总损失的计算公式为：

L←L_Dis+L_Rec

可选地，异常分数的计算公式为：

示例性电子设备

图5是本发明一示例性实施例提供的电子设备的结构。如图5所示，电子设备50包括一个或多个处理器51和存储器52。

处理器51可以是中央处理单元(CPU)或者具有数据处理能力和/或指令执行能力的其他形式的处理单元，并且可以控制电子设备中的其他组件以执行期望的功能。

存储器52可以包括一个或多个计算机程序产品，所述计算机程序产品可以包括各种形式的计算机可读存储介质，例如易失性存储器和/或非易失性存储器。所述易失性存储器例如可以包括随机存取存储器(RAM)和/或高速缓冲存储器(cache)等。所述非易失性存储器例如可以包括只读存储器(ROM)、硬盘、闪存等。在所述计算机可读存储介质上可以存储一个或多个计算机程序指令，处理器51可以运行所述程序指令，以实现上文所述的本发明的各个实施例的软件程序的方法以及/或者其他期望的功能。在一个示例中，电子设备还可以包括：输入装置53和输出装置54，这些组件通过总线系统和/或其他形式的连接机构(未示出)互连。

此外，该输入装置53还可以包括例如键盘、鼠标等等。

该输出装置54可以向外部输出各种信息。该输出装置54可以包括例如显示器、扬声器、打印机、以及通信网络及其所连接的远程输出设备等等。

当然，为了简化，图5中仅示出了该电子设备中与本发明有关的组件中的一些，省略了诸如总线、输入/输出接口等的组件。除此之外，根据具体应用情况，电子设备还可以包括任何其他适当的组件。

示例性计算机程序产品和计算机可读存储介质

除了上述方法和设备以外，本发明的实施例还可以是计算机程序产品，其包括计算机程序指令，所述计算机程序指令在被处理器运行时使得所述处理器执行本说明书上述“示例性方法”部分中描述的根据本发明各种实施例的方法中的步骤。

所述计算机程序产品可以以一种或多种程序设计语言的任意组合来编写用于执行本发明实施例操作的程序代码，所述程序设计语言包括面向对象的程序设计语言，诸如Java、C++等，还包括常规的过程式程序设计语言，诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。

此外，本发明的实施例还可以是计算机可读存储介质，其上存储有计算机程序指令，所述计算机程序指令在被处理器运行时使得所述处理器执行本说明书上述“示例性方法”部分中描述的根据本发明各种实施例的方法中的步骤。

所述计算机可读存储介质可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以包括但不限于电、磁、光、电磁、红外线、或半导体的系统、系统或器件，或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。

以上结合具体实施例描述了本发明的基本原理，但是，需要指出的是，在本发明中提及的优点、优势、效果等仅是示例而非限制，不能认为这些优点、优势、效果等是本发明的各个实施例必须具备的。另外，上述公开的具体细节仅是为了示例的作用和便于理解的作用，而非限制，上述细节并不限制本发明为必须采用上述具体的细节来实现。

本说明书中各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其它实施例的不同之处，各个实施例之间相同或相似的部分相互参见即可。对于系统实施例而言，由于其与方法实施例基本对应，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

本发明中涉及的器件、系统、设备、系统的方框图仅作为例示性的例子并且不意图要求或暗示必须按照方框图示出的方式进行连接、布置、配置。如本领域技术人员将认识到的，可以按任意方式连接、布置、配置这些器件、系统、设备、系统。诸如“包括”、“包含”、“具有”等等的词语是开放性词汇，指“包括但不限于”，且可与其互换使用。这里所使用的词汇“或”和“和”指词汇“和/或”，且可与其互换使用，除非上下文明确指示不是如此。这里所使用的词汇“诸如”指词组“诸如但不限于”，且可与其互换使用。

可能以许多方式来实现本发明的方法和系统。例如，可通过软件、硬件、固件或者软件、硬件、固件的任何组合来实现本发明的方法和系统。用于所述方法的步骤的上述顺序仅是为了进行说明，本发明的方法的步骤不限于以上具体描述的顺序，除非以其它方式特别说明。此外，在一些实施例中，还可将本发明实施为记录在记录介质中的程序，这些程序包括用于实现根据本发明的方法的机器可读指令。因而，本发明还覆盖存储用于执行根据本发明的方法的程序的记录介质。

还需要指出的是，在本发明的系统、设备和方法中，各部件或各步骤是可以分解和/或重新组合的。这些分解和/或重新组合应视为本发明的等效方案。提供所公开的方面的以上描述以使本领域的任何技术人员能够做出或者使用本发明。对这些方面的各种修改对于本领域技术人员而言是非常显而易见的，并且在此定义的一般原理可以应用于其他方面而不脱离本发明的范围。因此，本发明不意图被限制到在此示出的方面，而是按照与在此公开的原理和新颖的特征一致的最宽范围。

为了例示和描述的目的已经给出了以上描述。此外，此描述不意图将本发明的实施例限制到在此公开的形式。尽管以上已经讨论了多个示例方面和实施例，但是本领域技术人员将认识到其某些变型、修改、改变、添加和子组合。

Claims

1.一种基于段一致性判别自编码器电能表异常检测方法，其特征在于，包括：

获取待测电能表历史检测的多变量长时间序列数据；

对所述多变量长时间序列数据进行归一化处理，划分预设窗口长度的多个时间窗口数据；

将多个所述时间窗口数据输入至预先训练的异常检测模型中，输出每个所述时间窗口数据对应的重构数据，其中所述异常检测模型采用段一致性判别自编码器；

根据每个时间窗口数据的重构数据以及原始数据确定该时间窗口数据每个时间点的异常分数，并根据所述异常分数，确定所述待测电能表每个时间点的异常程度。

2.根据权利要求1所述的方法，其特征在于，所述多变量长时间序列数据包括：A相电流、B相电流、C相电流、A相电压、B相电压、C相电压、正向有功电能示值、反向有功电能示值、正向无功电能示值、反向无功电能示值、A相有功功率、B相有功功率、C相有功功率、有功功率总值、A相无功功率、B相无功功率、C相无功功率、无功功率总值、A相功率因数、B相功率因数、C相功率因数、功率因数总值。

3.根据权利要求1所述的方法，其特征在于，获取待测电能表历史检测的多变量长时间序列数据之后，还包括：

利用Z-Score标准化使所述多变量长时间序列数据中的每一个变量的所有值符合标准正态分布。

4.根据权利要求3所述的方法，其特征在于，所述Z-Score标准化的公式为：

5.根据权利要求1所述的方法，其特征在于，所述异常检测模型的训练过程如下：

利用Z-Score标准化使所述多变量长时间序列数据样本中的每一个变量的所有值符合标准正态分布；

对标准化的多变量长时间序列数据样本进行窗口化，划分成所述预设窗口的多个时间窗口数据样本；

采用由GRU组成的编码器对所述正负样本对进行特征提取，确定正负样本对特征；

通过预设的非线性判别器、编码器和解码器分别判别和重构所述正负样本对特征，确定模型的总损失；

根据所述总损失更新优化网络和参数，确定所述异常检测模型。

6.根据权利要求5所述的方法，其特征在于，采用多分辨率随机下采样数据增强方法对多个时间窗口数据样本进行数据增强，确定正负样本对，包括：

给定一个时间窗口数据样本，对所述时间窗口数据样本进行分段，随机从所述时间窗口中选择片段；

保持选择的所述片段在原始时间窗口中的相对顺序，获取正样本；

打乱选择的所述片段的顺序，获取负样本；

随机将两个正样本组合成为正样本对；

随机将一个正样本和一个负样本组合成为负样本对。

7.根据权利要求5所述的方法，其特征在于，由GRU组成的所述编码器由一个嵌入层和预定数量的GRU堆叠组成，其中所述嵌入层采用一层全连接的线性层组成，用于对时间序列进行编码；

所述判别器为非线性的预测头，由两个全连接层、一个批处理归一化层和一个激活函数组成。

8.根据权利要求5所述的方法，其特征在于，所述总损失的计算公式为：

L←L_Dis+L_Rec

式中，L为总损失，L_Dis为对比判别的损失，L_Rec为解码重构损失，N表示样本总数，y_true＝{0,1}表示样本的真实标签，yⁱ为分类判别结果，Pⁱ为输入样本，为解码重构输出。

9.根据权利要求1所述的方法，其特征在于，所述异常分数的计算公式为：

式中，AS_t表示预设窗口中t时刻的异常分数，表示变量i在t时间点的原始数据，/>表示变量i在t时间点的重构数据，M表示所述待测电能表多变量长时间序列数据中的变量数量。

10.一种基于段一致性判别自编码器电能表异常检测装置，其特征在于，包括：

划分模块，用于对所述多变量长时间序列数据进行归一化处理，划分预设窗口长度的多个时间窗口数据；

输出模块，用于将多个所述时间窗口数据输入至预先训练的异常检测模型中，输出每个所述时间窗口数据对应的重构数据；

确定模块，用于根据每个时间窗口数据的重构数据以及原始数据确定该时间窗口数据每个时间点的异常分数，并根据所述异常分数，确定所述待测电能表每个时间点的异常程度。