CN115018012A

CN115018012A - 一种高维度特性下的物联网时间序列异常检测方法及系统

Info

Publication number: CN115018012A
Application number: CN202210861907.1A
Authority: CN
Inventors: 王衍洋; 唐文忠; 曾繁煜
Original assignee: Beihang University
Current assignee: Beihang University
Priority date: 2022-07-21
Filing date: 2022-07-21
Publication date: 2022-09-06

Abstract

本发明公开了一种高维度特性下的物联网时间序列异常检测方法及系统，该方法包括：对待测多维时间序列数据进行预处理，得到窗口序列数据；通过图注意力机制对窗口序列数据进行度量依赖特征提取，得到度量依赖特征矩阵；通过一维卷积层对窗口序列数据和度量依赖特征矩阵进行特征融合，得到融合后的特征矩阵；通过训练好的自动编码器模型对融合后的特征矩阵进行数据重建，得到重建序列数据；基于窗口序列数据和重建序列数据计算异常得分；判断异常得分是否大于预设异常阈值，从而判断待测多维时间序列数据是否异常。本发明通过改进的对抗性transformer结构作为自动编码器模型，能准确进行数据重建，识别出时间序列的微小异常，提高了异常检测精度。

Description

一种高维度特性下的物联网时间序列异常检测方法及系统

技术领域

本发明涉及时间序列异常检测技术领域，特别是涉及一种高维度特性下的物联网时间序列异常检测方法及系统。

背景技术

时间序列在现实世界中是一种非常重要的数据格式，现实世界中很多系统所产生的数据的格式都是时间序列。这些系统都是每时每刻连续工作的，它们产生的数据都可以表示为时间序列。比如服务器产生的利用率、吞吐量等，航天设备产生的遥测数据，电网系统、安防系统以及水处理系统等产生的传感数据都是时间序列这一格式。针对产生的时间序列数据，我们期望能够从其中挖掘出一些可能的故障，帮助我们排除一些潜在的危险，保证系统的稳定性，减少经济损失。时间序列异常检测技术是迫切需要的一种技术，在网络入侵检测、故障检测、工业异常检测、物联网大数据异常检测、疾病检测和金融行业的反欺诈、信用卡诈骗检测等方向具有重要的应用价值和广泛的应用前景。

最常见的异常类型分为三种：点异常、上下文异常和集合异常。针对这些异常，现有的时间序列异常检测技术主要分为三大类：基于统计方法的时间序列异常检测、基于机器学习的时间序列异常检测和基于深度学习的时间序列异常检测。

基于统计方法的时间序列异常检测技术，其有效性高度依赖于对给定数据所做的统计模型的假设是否成立。随着互联网和物联网等不断地发展，产生的时间序列数据的规模和复杂性呈指数级增长，具有强时序性和高动态性，使用统计学习方法并不能够捕获数据中的动态复杂性，检测效果太差，误报率太高。

基于机器学习的时间序列异常检测方法包括无监督的时间序列异常检测技术和半监督的时间序列异常检测技术。不论有监督情况下，还是无监督情况下，都是对单个数据样本进行考虑，这自然而然地割裂了数据固有的时间联系，导致检测效果不佳。

基于深度学习的时间序列异常检测主要包括两大类：基于预测的时间序列异常检测和基于重建的时间序列异常检测。基于预测的时间序列异常检测模型更专注于对下一时间戳的数据实例进行预测，但在复杂的现实世界的系统中，大多数数据是不可预测的，因而检测效果并不好。基于重建模型的时间序列异常检测通过重建原始输入来学习整个时间序列的表示，由于在训练阶段只通过正常数据训练，所以异常的数据表示并不能被很好的学习而重建。

因此，在考虑时间联系和变量间联系的情况下，如何准确地进行数据重建，识别时间序列的微小异常，成为当下亟待解决的问题。

发明内容

本发明的目的是提供一种高维度特性下的物联网时间序列异常检测方法及系统，用以准确地进行数据重建，识别时间序列的微小异常，提高时间序列异常检测精度。

为实现上述目的，本发明提供了如下方案：

一种高维度特性下的物联网时间序列异常检测方法，所述方法包括：

对待测多维时间序列数据进行预处理，得到窗口序列数据；

通过图注意力机制对所述窗口序列数据进行度量依赖特征提取，得到度量依赖特征矩阵；

通过一维卷积层对所述窗口序列数据和所述度量依赖特征矩阵进行特征融合，得到融合后的特征矩阵；

通过训练好的自动编码器模型对所述融合后的特征矩阵进行数据重建，得到重建序列数据；所述自动编码器模型为改进的transformer模型；

基于所述窗口序列数据和所述重建序列数据计算异常得分；

判断所述异常得分是否大于预设异常阈值，若是，则待测多维时间序列数据异常；若否，则待测多维时间序列数据正常。

进一步的，所述通过图注意力机制对所述窗口序列数据进行度量依赖特征提取，得到度量依赖特征矩阵，具体包括：

基于所述窗口序列数据中的各个度量确定面向特征维度的图结构中的各个特征节点；

计算各个所述特征节点之间的相似度；

基于所述相似度计算各个所述特征节点之间的注意力权重；

基于所述注意力权重确定度量依赖特征矩阵。

进一步的，所述通过一维卷积层对所述窗口序列数据和所述度量依赖特征矩阵进行特征融合，得到融合后的特征矩阵，具体包括：

对所述窗口序列数据和所述度量依赖特征矩阵按照时间戳数量和特征数量进行拼接，得到拼接后的特征矩阵；

通过一维卷积层对所述拼接后的特征矩阵进行融合，得到融合后的特征矩阵。

进一步的，所述自动编码器模型包括第一自动编码器和第二自动编码器，所述第一自动编码器包括编码器和第一解码器，所述第二自动编码器包括编码器和第二解码器。

进一步的，所述通过训练好的自动编码器模型对所述融合后的特征矩阵进行数据重建，得到重建序列数据，具体包括：

通过训练好的第一编码器对所述融合后的特征矩阵进行数据重建，得初始重建序列数据；

通过训练好的第二编码器对所述初始重建序列数据进行重建，得到重建序列数据。

进一步的，所述自动编码器模型的训练过程如下：

通过样本多维时间序列数据对所述第一自动编码器和所述第二自动编码器进行训练；

通过所述样本多维时间序列数据以及训练好的第一自动编码器的输出对所述第二自动编码器进行训练。

进一步的，所述异常阈值的确定过程具体包括：

预设异常比率；

将验证多维时间序列数据输入至训练好的自动编码器模型中，得到验证多维时间序列数据的异常得分；

根据所述异常比率和验证多维时间序列数据的异常得分确定异常阈值。

本发明还提供了一种高维度特性下的物联网时间序列异常检测系统，所述系统包括：

预处理模块，用于对待测多维时间序列数据进行预处理，得到窗口序列数据；

提取模块，用于通过图注意力机制对所述窗口序列数据进行度量依赖特征提取，得到度量依赖特征矩阵；

融合模块，用于通过一维卷积层对所述窗口序列数据和所述度量依赖特征矩阵进行特征融合，得到融合后的特征矩阵；

重建模块，用于通过训练好的自动编码器模型对所述融合后的特征矩阵进行数据重建，得到重建序列数据；所述自动编码器模型为改进的transformer模型；

异常得分计算模块，用于基于所述窗口序列数据和所述重建序列数据计算异常得分；

判断模块，用于判断所述异常得分是否大于预设异常阈值，若是，则待测多维时间序列数据异常；若否，则待测多维时间序列数据正常。

进一步的，所述提取模块包括：

特征节点确定单元，用于基于所述窗口序列数据中的各个度量确定面向特征维度的图结构中的各个特征节点；

相似度计算单元，用于计算各个所述特征节点之间的相似度；

权重计算单元，用于基于所述相似度计算各个所述特征节点之间的注意力权重；

特征矩阵确定单元，用于基于所述注意力权重确定度量依赖特征矩阵。

进一步的，所述融合模块包括：

拼接单元，用于对所述窗口序列数据和所述度量依赖特征矩阵按照时间戳数量和特征数量进行拼接，得到拼接后的特征矩阵；

卷积单元，用于通过一维卷积层对所述拼接后的特征矩阵进行融合，得到融合后的特征矩阵。

根据本发明提供的具体实施例，本发明公开了以下技术效果：

本发明提出的时间序列异常检测方法及系统，通过面向特征维度的图注意力机制提取度量依赖特征，并将度量依赖特征和预处理后的数据输入到一维卷积中进行特征融合，利用改进的transformer模型对融合后的特征矩阵进行数据重建。计算重建序列与原始序列之间的异常得分，从而判断待测多维时间序列数据是否发生异常。本发明利用改进的transformer模型的对抗性结构，能够准确地进行数据重建，识别出时间序列的微小异常，提高时间序列的异常检测精度。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的高维度特性下的物联网时间序列异常检测方法流程图；

图2为本发明实施例提供的高维度特性下的物联网时间序列异常检测的原理图；

图3为本发明实施例提供的窗口序列数据示意图：

图4为本发明实施例提供的度量维度的特征向量示意图；

图5为本发明实施例提供的特征矩阵融合示意图；

图6为本发明实施例提供的自动编码器结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本发明作进一步详细的说明。

如图1、图2所示，一种高维度特性下的物联网时间序列异常检测方法包括以下步骤：

步骤101：对待测多维时间序列数据进行预处理，得到窗口序列数据。

在具体实施例中，对待测的多维时间序列数据通过归一化消除不同维度因量纲不同带来的影响，然后将归一化后的多维时间序列数据切分为固定窗口大小为L的序列数据，如图3所示，切分后t时刻得到窗口序列数据W_t表示为：

W_t＝{x_t-L+1，x_t-L+2，...，x_t} (1)

其中，x_t表示t时刻的数据。

步骤102：通过图注意力机制对所述窗口序列数据进行度量依赖特征提取，得到度量依赖特征矩阵。

在具体实施例中，经过步骤101得到窗口序列数据W_t，时间窗口的长度为L，特征数量为n，每个特征维度代表不同的度量。基于所述窗口序列数据中的各个度量确定面向特征维度的图结构中的各个特征节点。由于并没有任何的先验知识得到不同度量相连接的拓扑结构，因此，面向特征维度的图结构会被视作全连接的图结构，通过图注意力机制学习不同节点间的图注意力权重。如图4所示，度量i处特征节点的特征向量为：

ν_i＝{x_i1，x_i2，...，x_iL} (2)

其中x_it表示在窗口序列数据Wt中时间戳为t度量为i处的值。

面向特征维度的图结构中每两个节点之间就会有一条边，每条边代表着两个相应度量之间的联系，经过图注意力层之后度量i处特征节点的特征向量v_i会聚合到其它度量的信息。即基于度量i处特征节点的特征向量确定提取度量依赖后的特征向量，具体过程如下：

首先，计算特征节点v_i和特征节点v_j的相似度e_ij，如公式(3)所示：

其中ω为注意力层需要学习的模型参数。

其次，基于得到的相似度e_ij计算各个特征节点之间的注意力权重α_ij，计算过程如公式(4)所示：

最后，基于注意力权重α_ij和特征节点v_j确定提取度量依赖后的特征向量hi，计算过程如公式(5)所示：

其中σ是激活函数，在具体实施例中可以是sigmoid函数。

基于计算的特征向量hi，得到度量依赖特征矩阵H：

H＝{h₁，h₂，...，h_n} (6)

步骤103：通过一维卷积层对所述窗口序列数据和所述度量依赖特征矩阵进行特征融合，得到融合后的特征矩阵；

在具体实施例中，如图5所示，经过面向度量维度的图注意力层后，能得到度量间依赖特征矩阵H，并且它的形状为n×L，再加上待测多维时间序列数据的形状也是n×L，一共得到两个n×L的矩阵。首先将这两个矩阵按照时间戳数量和特征数量拼接为一个形状为2n×L的特征矩阵。

之后通过一维卷积层对将拼接后的特征矩阵进行融合，得到融合后的特征矩阵X_c，计算过程如公式(7)所示：

步骤104：通过训练好的自动编码器模型对所述融合后的特征矩阵进行数据重建，得到重建序列数据。具体包括：通过训练好的第一编码器对融合后的特征矩阵进行数据重建，得初始重建序列数据；通过训练好的第二编码器对初始重建序列数据进行重建，得到重建序列数据。

transformer是一个基于自注意力机制的深度学习模型，广泛被应用于自然语言处理任务。将transformer用于时间序列数据，可以很好地捕获时间序列数据中的全局依赖关系。由于异常具有稀有性，很难和整个序列建立强关联的联系，transformer可以使时间窗口内的每个时间点和其他时间点建立关联，直接获取全局信息，直观上更容易识别出异常。

在本实施例中，采用改进的对抗性transformer结构作为自动编码器模型，自动编码器模型包括第一自动编码器AutoEncoder1和第二自动编码器AutoEncoder2，如图2和图6所示，第一自动编码器AutoEncoder1包括编码器D和第一解码器E1，第二自动编码器AutoEncoder2包括编码器D和第二解码器E2。

利用自动编码器模型进行数据重建的第一阶段是自动编码器模型的训练过程，即通过样本多维时间序列数据对第一自动编码器和所述第二自动编码器进行训练，以使每个自动编码器能够重建原始数据。编码器D获取样本多维时间序列数据经上述步骤融合后的样本特征序列Xc并将其映射到一组潜在变量Z中，而第一解码器E1和第二解码器E2分别将潜在变量Z映射回原始数据空间作为重建序列数据

该重建序列也就是自动编码器的输出，样本多维时间序列数据经预处理后的窗口序列数据W和重建序列数据

之间的差被称为重建误差。因此，训练目标是将这一误差降到最低。根据以下损失函数进行训练：

Loss＝||W-AutoEncoder(X_c)||₂ (8)

其中W为样本多维时间序列数据经预处理后的窗口序列数据，AutoEncoder(Xc)为样本特征序列X_c输入到自动编码器AutoEncoder得到的输出。

进行数据重建的第二阶段是对抗性训练过程，即通过样本多维时间序列数据以及训练好的第一自动编码器的输出对第二自动编码器进行训练。该对抗性训练的过程中能够学习如何放大包含微小异常的输入的重建误差，解决自动编码器学习能力太强的问题；同时允许在对抗性训练的过程中获得稳定性。训练目标是使得第二自动编码器AutoEncoder2能够区分真实数据和来自第一自动编码器AutoEncoder1的数据，并训练第一自动编码器AutoEncoder1来欺骗第二自动编码器AutoEncoder2。训练过程如公式(9)和公式(10)所示：

其中，ξ为训练轮次，L_AE1是第一自动编码器的损失函数，L_AE2是第二自动编码器的损失函数,

是自动编码器的重建数据，

是对

提取的度量依赖特征矩阵，

是

和

特征融合后的特征矩阵，AE₁(Xc)是Xc输入到第一自动编码器AE₁得到的输出，AE₂(Xc)是Xc输入到第二自动编码器AE₂得到的输出。

经上述两个阶段的训练，得到训练好的自动编码器模型。

步骤105：基于所述窗口序列数据和所述重建序列数据计算异常得分，具体计算过程如公式(12)所示：

Score＝0.5*||W_t-AE₁(X_c)||₂+0.5*||W_t-AE₂(AE₁(X_c))||₂ (12)

其中，AE₂(AE₁(X_c))是AE₁(X_c)输入到第二自动编码器AE₂得到的输出。

步骤106：判断所述异常得分是否大于预设异常阈值，若是，则待测多维时间序列数据异常；若否，则待测多维时间序列数据正常。

在具体实施例中，首先需要预设异常比率，然后将验证多维时间序列数据输入至训练好的自动编码器模型中，得到验证多维时间序列数据的异常得分；根据异常比率和验证多维时间序列数据的异常得分确定异常阈值th。在测试阶段，如果待测多维时间序列数据的异常得分大于异常阈值th，则判定为异常，否则为正常。

提取模块具体包括：

融合模块具体包括：

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。对于实施例公开的系统而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处。综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种高维度特性下的物联网时间序列异常检测方法，其特征在于，所述方法包括：

对待测多维时间序列数据进行预处理，得到窗口序列数据；

基于所述窗口序列数据和所述重建序列数据计算异常得分；

2.根据权利要求1所述的一种高维度特性下的物联网时间序列异常检测方法，其特征在于，所述通过图注意力机制对所述窗口序列数据进行度量依赖特征提取，得到度量依赖特征矩阵，具体包括：

计算各个所述特征节点之间的相似度；

基于所述相似度计算各个所述特征节点之间的注意力权重；

基于所述注意力权重确定度量依赖特征矩阵。

3.根据权利要求1所述的一种高维度特性下的物联网时间序列异常检测方法，其特征在于，所述通过一维卷积层对所述窗口序列数据和所述度量依赖特征矩阵进行特征融合，得到融合后的特征矩阵，具体包括：

4.根据权利要求1所述的一种高维度特性下的物联网时间序列异常检测方法，其特征在于，所述自动编码器模型包括第一自动编码器和第二自动编码器，所述第一自动编码器包括编码器和第一解码器，所述第二自动编码器包括编码器和第二解码器。

5.根据权利要求4所述的一种高维度特性下的物联网时间序列异常检测方法，其特征在于，所述通过训练好的自动编码器模型对所述融合后的特征矩阵进行数据重建，得到重建序列数据，具体包括：

6.根据权利要求5所述的一种高维度特性下的物联网时间序列异常检测方法，其特征在于，所述自动编码器模型的训练过程如下：

7.根据权利要求1所述的一种高维度特性下的物联网时间序列异常检测方法，其特征在于，所述异常阈值的确定过程具体包括：

预设异常比率；

8.一种高维度特性下的物联网时间序列异常检测系统，其特征在于，所述系统包括：

9.根据权利要求8所述的一种高维度特性下的物联网时间序列异常检测系统，其特征在于，所述提取模块包括：

10.根据权利要求8所述的一种高维度特性下的物联网时间序列异常检测系统，其特征在于，所述融合模块包括：