CN116383747A

CN116383747A - 基于多时间尺度深度卷积生成对抗网络的异常检测方法

Info

Publication number: CN116383747A
Application number: CN202310359540.8A
Authority: CN
Inventors: 宋磊; 高颂; 张陈晨; 杜俊蓉; 桂轩昂; 张健; 郭丽丽; 李绪志
Original assignee: Technology and Engineering Center for Space Utilization of CAS
Current assignee: Technology and Engineering Center for Space Utilization of CAS
Priority date: 2023-04-06
Filing date: 2023-04-06
Publication date: 2023-07-04

Abstract

本发明提供一种基于多时间尺度深度卷积生成对抗网络的异常检测方法，包括以下步骤：获取训练样本集；所述训练样本集由多个正常样本组成；正常样本通过引入遗忘机制的滑动窗口获得；采用所述训练样本集，对异常检测模型进行训练，得到训练完成的异常检测模型；构建由正常样本和异常样本组成的测试样本集；采用所述测试样本集，对所述训练完成的异常检测模型进行测试，得到阈值T的最优值T_opt；进行异常检测。本发明基于多时间尺度，将多维时间序列时间的依赖特征和关联特征关联度表示，然后使用对抗训练实现摆脱模型对数据标签和异常样本的依赖，充分学习正常数据分布，实现无监督异常检测，具有异常检测结果准确率高的优点。

Description

基于多时间尺度深度卷积生成对抗网络的异常检测方法

技术领域

本发明属于工业设备状态监测和故障诊断技术领域，具体涉及一种基于多时间尺度深度卷积生成对抗网络的异常检测方法。

背景技术

航天技术发展迅速，已经成为衡量现代化科技水平的重要指标。对于航天工业设备来说，长期、稳定的运行是重中之重，除了高度可靠的设计方案，还需要具有完备有效的运行管理方案。运行中的设备每天承担着巨大的压力，如果这类设备发生损坏，不仅会造成巨大的经济损失，严重时还会出现灾难性事故，因此尽早的发现运行中设备的异常，并及时进行维护修复是极为关键的一环。在工业智能化进程的推动下，工业异常检测成为领域内重要的技术基础，有效、先进的异常检测技术能够更好的加速推进信息化与工业化的深度融合，推进生产过程的智能化。

系统内发生故障的原因是一个或者多个构成部件出现疲劳、损坏等现象，发生故障的表现是运行参数超出阈值范围，从而使单个设备或者系统整体性能下降、部分功能丢失甚至运行失效停止，无法继续完成工程任务。异常检测就是通过运用一定的方法和手段，发现设备运行产生的数据中不符合预期的行为模式，也是目前数据科学领域最有研究价值和应用前景的方向之一。在各类场景下，异常数据普遍存在着远小于数据集，且难以采集、确定的情况，因此在多数情况下，异常数据和正常数据的规模严重失衡，大部分处理办法是运用无监督学习方法进行异常检测任务。现有基于深度学习的异常检测方法大致可分为四类：基于深度学习分类的方法、基于预测的方法、基于转换的方法、以及基于生成模型的方法。(1)基于深度学习分类的方法：基于深度学习分类的方法比传统分类方法更适合处理高维序列，由于其学习能力较强，因此分类准确率也非常高，可以逼近任意非线性关系。但是基于神经网络的特征提取器和异常检测模型无法共同优化，会出现表征崩塌问题，难以提取出鲁棒的深度特征。(2)基于预测的方法：基于预测的方法是受到人类神经系统预测机制的启发，通过比较期望值与实际观测值进行检测异常。但是，数据中的噪声干扰、面对长序列数据容易产生梯度消失以及计算效率低下等问题，都会限制其应用。(3)基于转换的方法：基于转换的方法是通过对数据进行变形、对图像进行翻转等操作，这种方法严重依赖于数据特性，对于时间序列这类数据，难以为其设计较为通用的转换方法。(4)基于生成模型的方法：对于处理时间序列来说，基于生成模型的方法是较为有效的手段，该方法利用重构误差训练模型，仅需正常数据参与，不需要数据标签和异常数据，是一种无监督方法，目前，基于生成模型的方法以自编码器和生成对抗网络为主。

在基于生成模型进行异常检测的方法中，存在原始数据或浅层特征对多维时间序列的内在特征表示能力不足、异常数据稀缺且缺乏人工标注，而导致多维时间序列异常检测精度不高的问题。

发明内容

针对现有技术存在的缺陷，本发明提供一种基于多时间尺度深度卷积生成对抗网络的异常检测方法，可有效解决上述问题。

本发明采用的技术方案如下：

本发明提供一种基于多时间尺度深度卷积生成对抗网络的异常检测方法，包括以下步骤：

步骤1，获取训练样本集；所述训练样本集由多个正常样本组成；所述训练样本集中每个训练样本的获取方式为：

步骤1.1，获取被检测设备正常工况时的n维时间序列X＝(X₁,X₂,...,X_n)，其中，X₁,X₂,...,X_n分别代表：第1维时间序列，第2维时间序列,…,第n维时间序列；

步骤1.2，设定滑动窗口长度为w，得到滑动窗口长度为w时的引入遗忘机制的格拉姆矩阵S^t(w)，方法为：

步骤1.2.1，使用长度为w的滑动窗口，从X₁,X₂,...,X_n中各取出时间步t时的长度为w的子序列，得到n个子序列，表示为：

其中，X_t代表时间步t时的n个子序列的集合；/>

分别代表：时间步t时的第1维子序列，第2维子序列,…,第n维子序列；

步骤1.2.2，采用下式，得到滑动窗口长度为w时的引入遗忘机制的格拉姆矩阵S^t(w)：

其中：

滑动窗口长度为w时的引入遗忘机制的格拉姆矩阵S^t(w)，为n行n列矩阵，矩阵中任意元素表示为：

其中，i＝1,2,...,n，j＝1,2,...,n，采用下式计算：

其中：

k为缩放因子，k的值和滑动窗口长度w保持一致；

含义为：时间步t时的第i维子序列/>

和时间步t时的第j维子序列/>

相乘；

对于时间步t时的第i维子序列

中各元素在子序列的位置分别为：第w-1位置，第w-2位置,…,第0位置；时间步t时的第i维子序列

中的任意元素表示为：/>

其中，δ＝0,1,...,w-1；

对于时间步t时的第j维子序列

中各元素在子序列的位置分别为：第w-1位置，第w-2位置,…,第0位置；时间步t时的第j维子序列X_j ^t中的任意元素表示为：/>

代表时间步t时的第i维子序列/>

中的元素/>

的权重值，/>

其中，α为底数，值>1，/>

代表元素/>

在时间步t时的第i维子序列/>

中的位置值；

代表时间步t时的第j维子序列/>

中的元素/>

的权重值，/>

代表元素/>

在时间步t时的第j维子序列/>

中的位置值；

步骤1.3，改变滑动窗口长度w的值，假设将滑动窗口长度w的值设定为w₁、w₂和w₃，则分别得到对应的引入遗忘机制的格拉姆矩阵S^t(w₁)、S^t(w₂)和S^t(w₃)；

对n维时间序列X＝(X₁,X₂,...,X_n)进行计算，得到对应的引入遗忘机制的格拉姆矩阵S^t(w₀)，其中，w₀为n维时间序列X＝(X₁,X₂,...,X_n)中每个时间序列包括的元素个数，同时也为采用的滑动窗口长度w的值；

步骤1.4，将S^t(w₁)、S^t(w₂)、S^t(w₃)和S^t(w₀)进行拼接，得到一个训练样本；

步骤2，采用所述训练样本集，对异常检测模型进行训练，得到训练完成的异常检测模型；其中，所述异常检测模型采用对抗网络；

步骤3，构建由正常样本和异常样本组成的测试样本集；采用所述测试样本集，对所述训练完成的异常检测模型进行测试，得到阈值T的最优值T_opt；

步骤4，采用训练完成的异常检测模型和最优值T_opt，对被检测设备进行异常检测。

优选的，所述异常检测模型采用深度卷积生成对抗网络，步骤2具体为：

步骤2.1，深度卷积生成对抗网络V(G,D)包括生成器G和判别器D；

步骤2.2，从先验概率p_z(z)中采样得到随机噪声向量z，将随机噪声向量z输入到生成器G，生成器G输出随机噪声向量z下的虚假数据G(z)；

将正常训练样本表示为正常训练样本y，正常训练样本y的概率密度函数为p_dete(y)，代表真实数据分布；

步骤2.3，将正常训练样本y和虚假数据G(z)输入到判别器D，判别器D分别判别正常训练样本y和虚假数据G(z)的真伪，输出判别结果；

步骤2.4，采用下式，分别计算得到生成器G的损失函数loss_G和判别器D的损失函数loss_D：

其中：

代表：当判别器D的输入为来自于p_dete(y)的正常训练样本y时，判别器D应输出正确判别结果，即：判别器D输出的判别结果D(y)为1；

代表：当判别器D的输入为来自于生成器G输出的虚假数据G(z)时，判别器D应输出错误分类结果，即：判别器D输出的判别结果D(y)为0；

步骤2.5，将生成器G的损失函数loss_G，作为生成器G的反馈，进而调节生成器G的网络参数；将判别器D的损失函数loss_D，作为判别器D的反馈，进而调节判别器D的网络参数；如此不断迭代，对生成器G和判别器D进行优化，使生成器G能够产生与真实数据分布相似的样本，使判别器D最大概率的区分正常训练样本和虚假数据，从而得到训练完成的生成器G和训练完成的判别器D，进而得到训练完成的异常检测模型。

优选的，生成器G包括串联的第一生成器全卷积层Dense1、第二生成器全卷积层Dense2、第一反卷积层Decon v1和第二反卷积层Decon v2，各层使用Tan作为激活函数；

判别器D包括串联的第一卷积层con v1、第二卷积层con v2、平层Flatten、第一判别器全卷积层Dense_1和第二判别器全卷积层Dense_2；其中，第一卷积层con v1、第二卷积层con v2、平层Flatten、第一判别器全卷积层Dense_1的激活函数为Tan激活函数；第二判别器全卷积层Dense_2的激活函数为Sigmoid激活函数。

优选的，步骤3具体为：

步骤3.1，设置阈值T的取值范围；在该取值范围内，对阈值T进行遍历，每遍历到一个阈值T，得到对应的一个错误率ERR；

步骤3.2，绘制错误率ERR和阈值T的曲线，将错误率ERR取最小值时的阈值T，作为阈值T的最优值T_opt。

优选的，错误率ERR的获得方法为：

将输入样本y输入到训练完成的异常检测模型，训练完成的异常检测模型输出异常分数AS，采用下式，将异常分数AS与当前的阈值T进行比较，对输入样本进行正常或异常标记：

即：如果异常分数AS大于阈值T，标记输入样本y为正常样本1；反之，如果异常分数AS小于等于阈值T，标记输入样本y为异常样本0；

输入样本y本身具有正常或异常的属性；

综合输入样本y本身正常或异常的属性，以及标记值，得到混淆矩阵；根据混淆矩阵，得到FP、FN、TP和TN的值；根据下式，得到错误率ERR：

其中：

∈：为避免分母为0的极小值；

FP：被模型预测为正类的负样本数量；

FN：被模型预测为负类的正样本数量；

TP：被模型预测为正类的正样本数量；

TN：被模型预测为负类的负样本数量。

本发明提供的基于多时间尺度深度卷积生成对抗网络的异常检测方法具有以下优点：

本发明基于多时间尺度，将多维时间序列时间的依赖特征和关联特征关联度表示，然后使用对抗训练实现摆脱模型对数据标签和异常样本的依赖，充分学习正常数据分布，实现无监督异常检测，具有异常检测结果准确率高的优点。

附图说明

图1为本发明提供的采用深度卷积生成对抗网络的原理图；

图2为本发明提供的Gram矩阵示意图；

图3为本发明提供的引入遗忘机制的滑动窗口的原理图；

图4为本发明提供的多通道相关矩阵的原理图；

图5为本发明提供的对抗网络中生成器和判别器的结构图。

具体实施方式

为了使本发明所解决的技术问题、技术方案及有益效果更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。

本发明提供一种基于多时间尺度深度卷积生成对抗网络的异常检测方法，用于解决多维时间序列内在特征表示能力不足、异常数据稀缺、缺乏人工标注等问题，并针对历史数据中可能出现的异常数据误报的情况，提出相应的解决方案。本发明基于多时间尺度，将多维时间序列时间的依赖特征和关联特征关联度表示，然后使用对抗训练实现摆脱模型对数据标签和异常样本的依赖，充分学习正常数据分布，实现无监督异常检测。

本发明提供一种基于多时间尺度深度卷积生成对抗网络的异常检测方法，主要步骤为：首先基于Gram矩阵对多维时间序列进行表示，同时引入遗忘机制，得到多分辨率Gram矩阵作为输入样本；然后，使用多尺度深度卷积生成对抗网络(MTS-DCGAN)对多分辨率Gram矩阵进行无监督对抗训练，通过对抗网络内的卷积结构获取多维时间序列的潜在特征，最后基于一个新型的阈值选择方法通过异常分数判断正常数据和异常数据。

本发明提供一种基于多时间尺度深度卷积生成对抗网络的异常检测方法，用于工业设备状态监测和故障诊断，包括以下步骤：

其中，X_t代表时间步t时的n个子序列的集合；/>

其中：

在多维时间序列中，格拉姆Gram矩阵的每个元素表示不同维度子序列之间的关联性。具体的，对于n个向量组成的多维时间序列，如果有相同的时间戳，那么就可以将Gram矩阵由图像拓展至多维时间序列。假设n维时间序列在时间步t上的表示为X_t，Gram矩阵的示意图如图2所示。

其中，i＝1,2,...,n，j＝1,2,...,n，采用下式计算：

其中：

k为缩放因子，k的值和滑动窗口长度w保持一致；当Gram矩阵发生变化时，多维时间序列内部的关联性就发生改变，从而被模型检测到。

含义为：时间步t时的第i维子序列/>

和时间步t时的第j维子序列/>

相乘；

对于时间步t时的第i维子序列

中的任意元素表示为：/>

其中，δ＝0,1,...,w-1；

对于时间步t时的第j维子序列

中各元素在子序列的位置分别为：第w-1位置，第w-2位置,…,第0位置；时间步t时的第j维子序列

中的任意元素表示为：/>

代表时间步t时的第i维子序列/>

中的元素/>

的权重值，/>

其中，α为底数，值>1，/>

代表元素/>

在时间步t时的第i维子序列/>

中的位置值；

代表时间步t时的第j维子序列/>

中的元素/>

的权重值，/>

代表元素/>

在时间步t时的第j维子序列/>

中的位置值；

本发明中，将遗忘机制引入滑动窗口后，对Gram矩阵的计算公式进行更改，在滑动窗口中赋予指数加权f_e(t)＝α^order(t)。具体的，与基于滑动窗口的处理方式相比，单点检测方法只处理当前时间点的样本，但普通的滑动窗口无法学习时间序列的时间依赖性，往往无法检测出上下文和集体异常。在考虑到历史数据中的异常数据对滑动窗口的影响问题，本发明将遗忘机制引入滑动窗口，距离当前时刻样本越远的历史样本，其对当前时刻样本的影响越小，所以权重越低；相反，距离当前时刻样本越近的历史样本，其对当前时刻样本的影响越大，所以权重越高，如图3所示，为权重变化示意图。

异常检测模型以深度卷积生成对抗网络为基本架构，采用深度卷积生成对抗网络，参考图1和图5，步骤2具体为：

其中：

作为一种具体实现方式，如图5所示，生成器G包括串联的第一生成器全卷积层Dense1、第二生成器全卷积层Dense2、第一反卷积层Decon v1和第二反卷积层Decon v2，各层使用Tan作为激活函数；

步骤3具体为：

错误率ERR的获得方法为：

输入样本y本身具有正常或异常的属性；

其中：

∈：为避免分母为0的极小值；

FP：被模型预测为正类的负样本数量；

FN：被模型预测为负类的正样本数量；

TP：被模型预测为正类的正样本数量；

TN：被模型预测为负类的负样本数量。

传统方案中，采用ROC曲线对数据集中不同类的数据分布变化不敏感，会阻碍异常检测模型选择出最优的阈值。主要原因有如下两点：一是正常样本的数量(TN+FP)远远高于异常样本的数量，从而导致TN+FP□FP，不易选出最优阈值；二是当TN□TP时，

在ROC的阈值搜索策略下会更多地关注数值更大的/>

从而导致误检率升高。

而采用本发明的阈值设置策略，TP、FP、TN和FN定义错误率(ErrorRate，ERR)。为了避免分母出现0，在分母添加一个接近0的小数∈。阈值选择方法的目标是最小化ERR，即减少误判样本的数量。

本发明基于多时间尺度深度卷积生成对抗网络的异常检测方法，异常检测结果准确率高，原因为：

(1)作为一个具有对抗学习过程的生成模型，MTS-DCGAN可以在不需要监督训练的情况下获得出色的性能；

(2)MTS-DCGAN的生成器成功学习到正常数据分布，并能够生成高质量的Gram矩阵，判别器可以有效识别异常；

(3)基于遗忘机制的滑动窗口和Gram矩阵可以帮助模型学习多维时间序列的潜在分布。

下面介绍一个具体实施例：

通过具体实验例进行进一步说明，数据集选择Satelite公开数据集，该数据集是由哈佛大学提供的无监督异常检测基准数据集。该数据集来自多个来源，主要基于最初用于有监督机器学习的数据集。该数据集包括某卫星采集的多个遥测数据，包含36个标签为正常和异常的属性。软件上使用开源机器学习库Scikit-learn、深度学习框架Keras和TensorFlow来开发基准模型和MTS-DCGAN。计算机的配置为Intel(R)Xeon(R)CPU E5-2620v4 2.10GHz，并配备一块12G内存的NVIDIA TITAN X(Pascal)GPU，并选择了基准对比模型加以验证。

首先使用三个长度分别为30、60、90的滑动窗口获取不同尺度下的多维时间序列，然后利用相关性计算和遗忘机制将多尺度的时间序列转换为多分辨率的Gram矩阵，同时为了确保能从原始时间序列中获取时间依赖信息，模型增加一个原始数据通道，将原始时间序列直接和多分辨率Gram矩阵合并，最终得到输入矩阵X，如图4所示，接下来在对抗训练中，生成器通过采样自先验分布的噪声变量映射到数据空间，从而学习输入X的分布p_g。判别器是一个标准卷积结构的二分类器，用于将输入X映射为一个数值D(·)∈[0,1]。判别器的输出D(·)为输入被判别为真或假的概率，判别器和生成器交替优化目标函数V(G,D)，生成器和判别器都采用SGD作为优化器。目标函数的具体表达公式为

为了使MTS-DCGAN的训练更加稳定，对生成器和判别器设定不同的学习率分别为0.0004和0.0001。在异常检测任务中，不平衡数据集可能会导致评价结果失效，因此训练结果的评价指标使用混淆矩阵、F1分数和MCC来评价。在基于混淆矩阵的基础上，本发明还应用了ERR阈值设置策略，ERR可以避免非平衡数据集对指标的影响，提高模型的性能。MTS-DCGAN可以自动地对不同的异常类型输出不同的异常分数，进而用来区分未见过的不同类型异常数据。

本发明主要创新包括：

(1)滑动窗口通过三个不同的尺度获取多维时间序列，加上原始数据时间序列组成四个通道的输入数据，应用Gram矩阵计算的方法计算得到的矩阵作为MTS-DCGAN模型的输入。

(2)多时间尺度深度卷积生成对抗网络，可以直接处理多维时间序列，学习正常数据的分布与特征。MTS-DCGAN以深度卷积生成对抗网络为基本架构，并对其在结构上做出调整以适应多维时间序列，在训练过程中使用仅包含正常样本的训练集来训练MTS-DCGAN，然后在包含正常样本和异常样本的测试集上完成异常检测。

(3)阈值选择方法为：在异常检测中，判别器将输入映射为一个异常分数AS，设置阈值用来区分正常样本和异常样本的边界。本发明阈值选择方法为：首先遍历所有可能的阈值T，对每个阈值T进行标记，计算混淆矩阵，利用混淆矩阵中的真正类、假负类、假正类和真负类定义错误率，ERR的最小值即为最优阈值T_opt。

因此，本发明基于多滑动窗口的交叉计算方法是一种不需要先验知识就能提取多元时间序列相关特征的有效预处理方法。同时，建立遗忘机制，改进基于滑动窗口的预处理方法，可以避免历史数据对时间序列的过度影响造成异常检测的虚警。DCGANs的判别器和生成器通过同时优化，提供了一种有效的无监督异常检测方法，ERR的阈值设置策略可以获得更优异的性能。该框架在非平衡数据集下的检测精度和鲁棒性较厚，适合应用在异常检测的任务中加以应用。

本发明通过使用仅包含正常样本的训练集来训练MTS-DCGAN，通过多时间尺度滑动窗口将多维时间序列转换为多分辨率Gram矩阵，通过深度卷积结构获取潜在特征，然后在包含正常样本和异常样本的测试集上完成异常检测，并使用新的阈值选择方法，来优化正常和异常数据不平衡情况下的异常检测性能，具有异常检测性能优异的特点。

以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视本发明的保护范围。