CN115098563B

CN115098563B - 基于gcn和注意力vae的时序异常检测方法及系统

Info

Publication number: CN115098563B
Application number: CN202210824024.3A
Authority: CN
Inventors: 于彦伟; 史云菲; 董军宇
Original assignee: Ocean University of China
Current assignee: Ocean University of China
Priority date: 2022-07-14
Filing date: 2022-07-14
Publication date: 2022-11-11
Anticipated expiration: 2042-07-14
Also published as: CN115098563A

Abstract

本发明提供了一种基于GCN和注意力VAE的时序异常检测方法及系统，属于深度学习与数据处理技术领域。本发明同时考虑了变量之间的联系以及不同变量的不同重要性两方面的影响因素；以变量为节点，用皮尔森相关系数衡量两个变量之间的关系，并在相似的变量之间建边，从而得到变量的关系图；然后利用GCN通过聚合邻居节点的信息来获得本节点的表征向量的特点，获取变量之间的相互关联；还设计了基于注意力VAE的重构模块，提出了基于LSTM的注意力机制；再在此基础上对表征向量进行重构，并根据重构的误差判断异常。本发明提高了检测的准确性；为不同的变量赋予不同的权重，减少了无关变量的干扰。

Description

基于GCN和注意力VAE的时序异常检测方法及系统

技术领域

本发明具体涉及一种基于时序GCN和注意力VAE的多元时间序列异常检测的方法及系统，属于深度学习和数据处理技术领域。

背景技术

异常检测的目的是要找到同一数据集中明显不同于大多数数据的实例，我们之所以关注这些“不正常”的数据，是因为在现实生活中正是“不正常”数据的存在，才会带来问题与损失。而我们要做的就是及时的发现问题，把损失降到最低。异常检测有非常广泛的应用领域，比如在交通领域中检测违反交通规则的车辆；在医疗领域中检测视网膜的损伤程度；在物联网领域中检测大数据中的异常数据。而我们主要研究是在数据挖掘领域中备受关注的多元时间序列（Multivariate Time Series）的异常检测问题。多元时间序列大多数是由工业设备（如服务器、航天器、机器人辅助系统）中的传感器产生，在制造业和IT行业中，多元时间序列异常检测被广泛用于监测设备的状态。

在异常检测领域中，传统的异常检测方法包括基于统计方法的、基于距离的、基于密度的等。但是这些方法无法捕获数据在时间上的依赖性，因此并不适用于时间序列的异常检测。而且随着大数据时代的到来，传统的方法也无法在有效的时间内处理庞大的数据。深度学习的发展为时间序列的异常检测带来了新的可能性，比如将RNN嵌入到VAE框架中，用RNN捕获时间上的依赖性，用VAE对数据进行重构，根据重构的结果判断异常；或者将对抗训练的思想与AE相结合，进一步拉大正常数据与异常数据之间的差距。这些方法在多元时间序列的异常检测中取得了显著的成果，但是仍然有提升的空间。

通过对现有的多元时间序列异常检测方法进行分析总结，已有的方法在以下几个方面存在不足：1）没有考虑多元时间序列变量之间的联系。多元时间序列并不是由单元时间序列堆叠而成的，多元时间序列的变量之间是存在联系的，就比如网速与下载速度。2）没有考虑不同变量的重要性是不同的。尽管在多元时间序列中有几十个甚至上百个变量，但是这些变量的作用地位是不同的。有些变量非常的重要，但是也有些变量是无关紧要的。

发明内容

为解决高效检测多元时间序列中的异常问题，本发明的目的是提出一种基于GCN和注意力VAE的时序异常检测方法及系统。

为实现上述发明目的，本发明的技术方案如下：

一种基于GCN和注意力VAE的时序异常检测方法，该检测方法包括如下步骤：

S1：获取一段时间内的待测数据，将时间序列划分成时间窗口，定义了在t时刻，长度为

的时间窗口

；多元时间序列定义为

，其中n是X的长度，每个实例

是在时间

的m维向量，其中m是变量的个数；对于时间序列来说，历史数据会对当前的数据产生影响。因此，定义了在t时刻，长度为

的时间窗口

，用时间窗口

来计算t时刻的异常得分，而不是仅使用

；

S2：为时间窗口

构建特征图

：用k-NN为每个时间窗口

构建特征图

；

S3：为了获得变量之间的潜在联系，使用图卷积神经网络GCN（GraphConvolutional Network）；使用GCN对每个特征图进行卷积运算，以聚合相邻变量的信息，获取变量之间的潜在联系，GCN 的最终输出是每个时间窗口中所有变量随时间变化的表征向量，表示为

；

S4：为表征向量赋予权重，以体现不同变量的作用。为了捕获多元时间序列的时间依赖性，获得时间窗口中不同变量的重要性，提出一种基于 LSTM 的注意力机制来实现这一目标。把时间窗口内变量的表征向量作为LSTM的输入，并通过线性层和softmax层获得当前时间窗口中变量的权重；然后，使用获得权重的表征向量作为 LSTM 的输入，以更新LSTM，获得下一时间窗口中表征变量的权重；

S5：把获得权重后的表征向量输入到VAE中进行重构；VAE通过降维把高维的数据

压缩成低维的隐藏层表征

，然后通过重构获得

；

S6：所述GCN模型与LSTM和VAE构成了MUTANT 模型，利用训练数据集对MUTANT 模型进行训练；且设计了一个联合学习的目标函数实现了端到端的训练；

S7：基于训练好的MUTANT模型检测异常：检测t时刻的数据是否是异常，则需要把

输入到训练好的MUTANT模型中，并获得一个重构结果；然后根据重构的误差，即异常分数来判断是否是异常；这里定义异常分数为

，

；如果

高于阈值，那么

就被认为是异常。

进一步的，所述S2中，特征图

以所有的变量为节点，让每个变量与它最相似的k个变量建边；具体而言，把当前时间窗口中每个变量

的值视为其特征，例如

；然后计算特征空间中m个变量之间的相关性矩阵

，使用Pearson 相关系数（公式（1））来计算这个矩阵；

(1)

其中，

是

和

的协方差，

是

的方差，

是

的方差。使用邻接矩阵

来表示图

，若节点

和

之间存在边，那么

。

进一步的，所述S3中，在多层卷积神经网络按照公式（2）进行传播：

(2)

其中，

是第l层可训练的权重矩阵，

，

，

；

是时间窗口在第l层的输出，d是表征的维度。

进一步的，所述S4中，具体来说，首先把LSTM的隐藏层的变量

、

和

拼接起来，然后它们输入到线性层中获得

,最后经过softmax层的归一化处理得到最终的权重

。这一过程的公式表示是：

(3)

(4)

(5)

其中，

是第i个变量在时间窗口

上的表征向量，

是变量表征乘以相应权重之后的结果。然后，

、

和

将会输入到LSTM中，以获得

和

，为获得下一个时间窗口内的权重做准备。

进一步的，所述S5中，重构的损失函数是：

（6）

其中，θ和Ф分别是推理网络与生成网络的参数；第一项通过从

抽样，最大化

，从而实现对

的重构；第二项通过最小化潜在变量的近似后验值和先验值之间的KL（Kullback-Leibler）散度来正则化潜在变量

。值得注意的是，通过最小化

和

的差距来训练VAE模型，而不是最小化

和

的误差；这是因为不仅需要训练重构网络，还希望此损失函数能指导基于LSTM的注意力机制中的权重学习，在此基础上达到减少重构误差的目的。

进一步的，所述S6中，对于MUTANT的学习，采用负采样的方法，使用以下二进制交叉熵损失函数来优化时序MUTANT模型：

（7）

其中，

是第i个变量在时间窗口

上的表征变量，T表示矩阵转置，

是任意的向量相似性度量函数（比如内积）。Ω是从

中随机选取的正样本集合，

是从

中随机选取的负样本集合；也就是说，如果

,那么

；如果

，那么

。

然后，用以下损失函数来训练重构模块：

(8)

其中，

表示

和

的交叉熵，J是

的维度。

最后，通过结合这两部分的损失函数来端到端的训练模型，并用超参数

来平衡表征学习与重构模型的重要性，模型的最终损失函数是：

(9)

使用准确率（precision）、召回率（recall）和F1分数（F1-socre）来衡量检测的效果，并通过调整参数，使得F1分数达到最高。

基于上述多元时序异常检测方法的检测系统，包括：数据预处理模块、时间窗口划分模块、构建变量关系图模块、获取变量表征模块、为变量赋予权重模块、数据重构模块、获得异常得分模块以及判断异常模块组成。

进一步的，所述数据预处理模块：收集原始的数据集，由多个变量随时间生成的数据组成，并对原始的时间序列进行归一化处理；

所述时间窗口划分模块：将把时间序列划分成长度为

的时间窗口

；

所述构建变量关系图模块：根据变量之间的相似性程度，获得变量之间的关系图；

所述获取变量表征模块：利用GCN在获取节点表征时会考虑邻居节点信息的特点，获得包含变量关系的变量表征；输入时间变量之间的关系图，输出时每个变量的表征向量；

所述为变量赋予权重模块：首先把t时刻的变量表征以及t-1时刻LSTM的隐藏层变量输入到线性层中，然后经过softmax层的归一化处理获得不同的权重，再把权重与相应的变量表征乘起来，就得到了获得了权重的变量，并输入到LSTM中，为下一时刻学习权重做准备；

所述数据重构模块：利用VAE网络对获得权重之后的变量数据进行降维、重构；

所述获得异常得分模块：训练好模型后，把VAE重构的数据与原始的表征数据的误差作为数据

的异常得分；

所述判断异常模块：把每个数据的异常得分与异常阈值进行比较，如果大于阈值，就被认为是异常数据，否则就是正常数据。

本发明的优点和技术效果：

本发明在进行多元时间序列异常检测时同时考虑了变量之间的联系以及不同变量的不同重要性两方面的影响因素。本发明以变量为节点，用皮尔森相关系数衡量两个变量之间的关系，并在相似的变量之间建边，从而得到变量的关系图；然后利用GCN通过聚合邻居节点的信息来获得本节点的表征向量的特点，获取变量之间的相互关联；还设计了基于注意力VAE的重构模块，提出了基于LSTM的注意力机制，在获得变量在时间上的联系的同时，为不同的变量赋予不同的权重，从而体现了不同变量的重要性；再在此基础上对表征向量进行重构，并根据重构的误差判断异常。

本发明相比于传统的异常检测方法，能够获得数据在时间上依赖关系；与大多数的深度学习的方法相比，获得了变量之间的联系，进一步提高了检测的准确性；为不同的变量赋予不同的权重，减少了无关变量的干扰。

本发明综合利用了变量之间的关系以及变量的重要性对时间序列进行更完善的建模，从而提高检测的准确性，为多元时间序列的异常检测问题提供方法与技术上的支持。

附图说明

图1是本发明的整体流程图。

图2是本发明的系统框架图。

图3是本发明中获得的变量之间的关系图。

图4是本发明基于LSTM的注意力机制图。

图5是实施例的实验结果图。

具体实施方式

下面将结合附图1-5及与实施例对本发明做进一步说明。

实施例1：

一种基于GCN和注意力VAE的多元时序异常检测方法，如图1所示，该检测方法包括如下步骤：

S1：将多元时间序列X的原始数据进行归一化处理等预处理，然后划分成时间窗口

，用

中的信息来衡量

是否为异常；具体为获取一段时间内的待测数据，将时间序列划分成时间窗口，定义了在t时刻，长度为

的时间窗口

；多元时间序列定义为

，其中n是X的长度，每个实例

是在时间

的时间窗口

，用时间窗口

来计算t时刻的异常得分，而不是仅使用

；

S2：为时间窗口

构建特征图

：用k-NN为每个时间窗口

构建特征图

；为时间窗口

构建特征图

：用k-NN为每个时间窗口

构建特征图

；

；

压缩成低维的隐藏层表征

，然后通过重构获得

；进一步获得时间序列中的隐藏的信息；并将重构数据与原始的

的表征向量的误差作为异常得分；

S6：所述GCN模型与LSTM和VAE构成了MUTANT 模型，利用训练数据集对MUTANT 模型进行训练；且设计了一个联合学习的目标函数实现了端到端的训练；训练所述MUTANT模型；为了获得最佳的检测性能，为模型设计一个联合学习的目标函数实现了端到端的训练；在获得最终的多元时间序列的异常检测模型之前，需要对模型进行调参，确定最优的参数。以公式（9）作为模型的目标函数，目的是要使得目标函数的值尽可能的小。在此基础上，对模型参数进行调整。具体的实现方法是，每次选择一个参数并固定其余参数进行调整，利用验证集进行10次检测，当平均F1-score的值取得最大值的时候，认为该参数被调整到最优。接着再取下一个未被调整的参数，重复上述步骤，直到所有参数都被调整为最优。

，

；如果

高于阈值，那么

就被认为是异常。

进一步的，所述S2中，特征图

的值视为其特征，例如

；然后计算特征空间中m个变量之间的相关性矩阵

，使用Pearson 相关系数（公式（1））来计算这个矩阵；

(1)

其中，

是

和

的协方差，

是

的方差，

是

的方差。使用邻接矩阵

来表示图

，若节点

和

之间存在边，那么

。

(2)

其中，

是第l层可训练的权重矩阵，

，

，

；

是时间窗口在第l层的输出，d是表征的维度。

进一步的，所述S4中，具体来说，首先把LSTM的隐藏层的变量

、

和

拼接起来，然后它们输入到线性层中获得

，最后经过softmax层的归一化处理得到最终的权重

。这一过程的公式表示是：

(3)

(4)

(5)

其中，

是第i个变量在时间窗口

上的表征向量，

是变量表征乘以相应权重之后的结果。然后，

、

和

将会输入到LSTM中，以获得

和

，为获得下一个时间窗口内的权重做准备。

进一步的，所述S5中，重构的损失函数是：

（6）

抽样，最大化

，从而实现对

。值得注意的是，通过最小化

和

的差距来训练VAE模型，而不是最小化

和

（7）

其中，

是第i个变量在时间窗口

上的表征变量，T表示矩阵转置，

是任意的向量相似性度量函数（比如内积）。Ω是从

中随机选取的正样本集合，

是从

中随机选取的负样本集合；也就是说，如果

,那么

；如果

，那么

。

然后，用以下损失函数来训练重构模块：

(8)

其中，

表示

和

的交叉熵，J是

的维度。

(9)

实施例2：

基于实施例1多元时序异常检测方法的检测系统，包括：

数据预处理模块、时间窗口划分模块、构建变量关系图模块、获取变量表征模块、为变量赋予权重模块、数据重构模块、获得异常得分模块以及判断异常模块组成，如图2所示，以下对各部分进行详细说明：

所述数据预处理模块：收集原始的数据集，由多个变量随时间生成的数据组成，并对原始的时间序列进行归一化处理；

所述时间窗口划分模块：将把时间序列划分成长度为

的时间窗口

；

所述构建变量关系图模块：根据变量之间的相似性程度，获得变量之间的关系图，如图3所示；

所述为变量赋予权重模块：如图4所示，首先把t时刻的变量表征以及t-1时刻LSTM的隐藏层变量输入到线性层中，然后经过softmax层的归一化处理获得不同的权重，再把权重与相应的变量表征乘起来，就得到了获得了权重的变量，并输入到LSTM中，为下一时刻学习权重做准备；

的异常得分；

实施例3：基于上述模型和方法进行实际实验验证。

为了验证本发明提出模型的检测异常的准确性，在四个工业数据集（MSL、SMAP、SWaT和WADI）上进行了实验，为了综合考虑准确率和召回率的两方面的效果，选取了F1分数（F1-score）作为评价指标，并与六个已有的模型进行了比较。

最终的实验结果如图5所示，其中MUTANT是本发明所提供的方法。可以看到在四个真实的数据集上，本发明提供的检测方法的F1-score都要高于其他的方法，这也就说明，本发明构建的模型优于其他现有模型，数据异常检测判断的准确度较高。

以上计划方案，仅为本发明中的实施方法，但本发明的保护范围不限于此，所有熟悉该技术的人员在本发明所披露的技术范围以内，可理解想到的替换或者变换，都应该包含在本发明的保护范围之内，所以，本发明的保护范围应以权利要求书的保护范围为准。

Claims

1.一种基于GCN和注意力VAE的多元时序异常检测方法，其特征在于，该检测方法包括如下步骤：

的时间窗口

；多元时间序列定义为

，其中n是X的长度，每个实例

是在时间

的m维向量，其中m是变量的个数；

S2：为时间窗口

构建特征图

：用k-NN为每个时间窗口

构建特征图

；

S3：使用GCN对每个特征图进行卷积运算，以聚合相邻变量的信息，获取变量之间的潜在联系，GCN的最终输出是每个时间窗口中所有变量随时间变化的表征向量，表示为

；

S4：把时间窗口内变量的表征向量作为LSTM的输入，并通过线性层和softmax层获得当前时间窗口中变量的权重；然后，使用获得权重的表征向量作为 LSTM 的输入，以更新LSTM，获得下一时间窗口中表征变量的权重；

压缩成低维的隐藏层表征

，然后通过重构获得

；

S6：所述GCN与LSTM和VAE构成了MUTANT模型，利用训练数据集对MUTANT 模型进行训练；且设计了一个联合学习的目标函数实现了端到端的训练；

，

；如果

高于阈值，那么

就被认为是异常。

2.如权利要求1所述的多元时序异常检测方法，其特征在于，所述S2中，特征图

的值视为其特征，

；然后计算特征空间中m个变量之间的相关性矩阵

，使用Pearson 相关系数，公式（1）来计算这个矩阵；

(1)

其中，

是

和

的协方差，

是

的方差，

是

的方差；使用邻接矩阵

来表示图

，若节点

和

之间存在边，那么

。

3.如权利要求1所述的多元时序异常检测方法，其特征在于，所述S3中，按照公式（2）进行传播：

(2)

其中，

是第l层可训练的权重矩阵，

，

，

；

是时间窗口在第l层的输出，d是表征的维度。

4.如权利要求1所述的多元时序异常检测方法，其特征在于，所述S4中，首先把LSTM的隐藏层的变量

、

和

拼接起来，然后输入到线性层中获得

,最后经过softmax层的归一化处理得到最终的权重

；这一过程的公式表示是：

(3)

(4)

(5)

其中，

是第i个变量在时间窗口

上的表征向量，

是变量表征乘以相应权重之后的结果；然后，

、

和

将会输入到LSTM中，以获得

和

，为获得下一个时间窗口内的权重做准备。

5.如权利要求1所述的多元时序异常检测方法，其特征在于，所述S5中，重构的损失函数是：

（6）

抽样，最大化

，从而实现对

的重构；第二项通过最小化潜在变量的近似后验值和先验值之间的KL散度来正则化潜在变量

。

6.如权利要求1所述的多元时序异常检测方法，其特征在于，所述S6中，对于MUTANT的学习，采用负采样的方法，使用以下二进制交叉熵损失函数来优化时序MUTANT模型：

（7）

其中，

是第i个变量在时间窗口

上的表征变量，T表示矩阵转置，

是任意的向量相似性度量函数；Ω是从

中随机选取的正样本集合，

是从

中随机选取的负样本集合；也就是说，如果

,那么

；如果

，那么

；然后，用以下损失函数来训练重构模块：

(8)

其中，

表示

和

的交叉熵，J是

的维度；

(9)。

7.基于权利要求1所述多元时序异常检测方法的检测系统，其特征在于，该检测系统包括：数据预处理模块、时间窗口划分模块、构建变量关系图模块、获取变量表征模块、为变量赋予权重模块、数据重构模块、获得异常得分模块以及判断异常模块。

8.如权利要求7所述的检测系统，其特征在于，所述数据预处理模块：收集原始的数据集，由多个变量随时间生成的数据组成，并对原始的时间序列进行归一化处理；

所述时间窗口划分模块：将把时间序列划分成长度为

的时间窗口

；

的异常得分；