CN117932503A

CN117932503A - 一种基于异常段的时间序列异常检测评估方法和系统

Info

Publication number: CN117932503A
Application number: CN202211312131.4A
Authority: CN
Inventors: 杨嵘; 郑延钦; 陈松岳; 张兴盛; 邬宏伟; 周舟; 朱宇佳; 刘庆云
Original assignee: Institute of Information Engineering of CAS
Current assignee: Institute of Information Engineering of CAS
Priority date: 2022-10-25
Filing date: 2022-10-25
Publication date: 2024-04-26

Abstract

本发明涉及一种基于异常段的时间序列异常检测评估方法和系统。本发明通过自动化划分异常段，实现了用异常段作为评估的计算单元，对时间序列异常检测任务进行有效评估，解决了基于点为计算单元的评估方法破坏了异常完整性与连续性的问题，可以更客观的反应模型检测能力。本发明将异常段作为评估计算单元，而不是点，保留了异常的完整性与连续性；通过使用权重曲线，突出了异常段中不同位置的点具有不一样的权重得分，与现有技术的无权重方案相比更加关注实际应用价值；本发明保留了现有方案的计算简易性，不需要过多的额外参数。

Description

一种基于异常段的时间序列异常检测评估方法和系统

技术领域

本发明属于信息技术领域，具体涉及一种基于异常段的时间序列异常检测评估方法和系统。

背景技术

由于在风险管理、合规、安全、财务监控、健康和医疗风险以及人工智能安全等广泛领域的需求和应用不断增长，异常检测发挥了重要作用越来越重要的角色，对系统异常状态的检测比以往任何时候都更加重要。数据随时间序列分布形成上下文特征，目前正在以时间序列异常检测的名义对此进行研究。由于深度学习的建模在多传感器和执行器的大型系统中收集的多维时间序列数据上显示了其有效性，因此很多研究方法广泛的采用了深度学习模型。其中，大多数研究的评估方法均是采用召回率、精确率和F1值，这些评估方法是以点为评估的计算单元。有很多先进的工作采用了卷积神经网络、循环神经网络、自动编码器、注意力机制、生成式对抗网络等，在学术研究上取得了重要的突破，并展现出了比较好的F1值评分，甚至在部分数据集上F1值超过了0.9分。

现有的研究工作证明了他们更关心对段的检测效果。在近几年的研究中，许多时间序列异常检测任务的模型是用点调整(PA)的方法修正了输出的标签后再进行F1评分。PA的工作原理如下：如果在一个连续的异常段中至少有一个点被检测为异常，则认为整个异常段被正确地预测为异常。虽然该方法没有用段作为评估计算单元，本质还是用点作为评估计算单元，但是这些文章已经展现出了用段来评估的思想动机。尽管也有工作指出用PA处理后模型的评估会被高估，但是这些工作都有一个共同的认知：在真实的操作中，人们更关注对异常段的整体检测情况，而不是对点的检测情况。这些工作进一步的证明了在时间序列异常检测任务中，用异常段来评估比用异常点来评估更具有实际意义。一些关于时间序列异常检测的指标已经被提出来适应这种异常段的评估，但大多数都没有被广泛接受，是因为它们太复杂了，并且只适用于单维时间序列异常检测任务。

综上，现有技术主要具有以下缺点：

1、基于点为计算单元的评估方法。基于点进行评估而不是基于段，用点作为异常检测的评估计算单元打破了异常的完整性，让检测的客观性显著下降。

2、现有基于段的方法限制要求过多。现有基于段的方法要设计配置文件，包含大量参数，不同研究人员使用的参数一旦不同就会在不同的对比标准下进行评分，损失客观性。且很多参数需要具体工程含义，并非所有数据集都包含，实用性受限。

发明内容

本发明针对上述问题，提供一种基于异常段的时间序列异常检测评估方法和系统，以保留异常的完整性与连续性，并更具有实际应用价值。

本发明采用的技术方案如下：

一种基于异常段的时间序列异常检测评估方法，包括以下步骤：

利用时间序列异常检测模型对时间序列进行异常检测，获得异常段；

采用异常段作为评估的计算单元，对时间序列异常检测结果进行评估。

进一步地，所述利用时间序列异常检测模型对时间序列进行异常检测，包括：

定义W_t＝{X_t-K+1，...，X_t-1，X_t}，其表示在给定的t时刻采用长度为K的时间窗口截取的时间序列数据集中的一段数据，用作时间序列异常检测模型的输入；

将时间序列异常检测模型的输出数据与真实数据计算异常度评分，根据异常度评分获得时间序列数据是否异常的标签。

进一步地，所述时间序列数据是否异常的标签表示为：

即当异常度评分大于阈值θ时，模型检测出的标签/>为1，表示数据W_t是异常的，异常度评分/>小于阈值θ时，模型检测出的标签/>为0，表示数据W_t是正常的。

进一步地，所述采用异常段作为评估的计算单元，对时间序列异常检测结果进行评估，包括：

定义异常段中不同异常点的权重，并采用softmax控制异常点的分数之和为1，根据各个异常点的得分获得单个异常段的评分；

根据各个异常段的评分计算对异常段的召回率R-TAD、对异常段的精确率P-TAD、以及对异常段的F1值即F-TAD。

进一步地，所述对异常段的召回率R-TAD的计算公式为：

其中R-TAD的含义为在N个真实异常段中，每个异常段的检出评分之和与真实异常段总数之比，R-TAD的取值范围为[0，1]；

进一步地，所述对异常段的精确率P-TAD的计算公式为：

其中P-TAD的含义为在M个检出的异常段中，每个异常段的检出评分之和与检出异常段总数之比，P-TAD的取值范围为[0，1]。

进一步地，所述对异常段的F1值F-TAD的计算公式为：

其中，F-TAD综合考虑了召回率与精确率，用于综合反映整体的指标。

一种基于异常段的时间序列异常检测评估系统，其包括：

异常检测结果获取模块，用于获取时间序列异常检测模型对时间序列进行异常检测得到的异常段；

异常检测结果评估模块，用于采用异常段作为评估的计算单元，对时间序列异常检测结果进行评估。

本发明的关键点主要是该评估方法的原理，即通过自动化划分异常段，实现了用异常段作为评估的计算单元，对时间序列异常检测任务进行有效评估，解决了基于点为计算单元的评估方法破坏了异常完整性与连续性的问题，可以更客观的反应模型检测能力。

本发明的有益效果和优点如下：

1、将异常段作为评估计算单元，而不是点，保留了异常的完整性与连续性。

2、通过使用权重曲线，突出了异常段中不同位置的点具有不一样的权重得分，与现有技术的无权重方案相比更加关注实际应用价值。

3、保留了现有方案的计算简易性，不需要过多的额外参数。

附图说明

图1是本发明的基于异常段的时间序列异常检测评估方法的步骤流程图。

图2是现有的最先进的方法对SWaT数据集的检测效果。图中的底线表示真实数据，其他线表示不同的方法计算的结果；每行的低值表示正常数据，高值表示异常数据。

具体实施方式

为使本发明的上述目的、特征和优点能够更加明显易懂，下面通过具体实施例和附图，对本发明做进一步详细说明。

如图1所示，本发明的主要步骤包括：利用时间序列异常检测模型对时间序列进行异常检测，获得异常段；采用异常段作为评估的计算单元，对时间序列异常检测结果进行评估。

在时间序列异常检测问题中，时间序列数据通常可以表示为X＝{X₁X₂，...X_T}，其中T表示训练数据集中的时间戳数。对于每一个时间点t，表示每个时间点的多个指标可以组成一个Z维向量。真实值的二进制标签为y_t∈{0，1}，其中y_t＝0代表数据是正常的，y_t＝1代表数据是异常的。对于时间序列数据X，本发明定义S为N段异常段的集合，即S＝{S₁，S₂，...，S_N}，其中/> 和/>表示时间序列S_n的开始时间点和结束时间点，n为1，2，...，N。

进行异常检测时，为了建立当前时间点和之前时间点的依赖关系，本发明定义了W_t＝{X_t-K+1，...X_t-1，X_t}，它表示在给定的t时刻采用长度为K的时间窗口截取的时间序列数据集中的一段数据，用作时间序列异常检测模型(可以采用现有的时间序列异常检测模型)的输入。时间序列异常检测模型可以重构数据，也可以预测数据，其中重构数据是指模型把数据先降维再升维的方法。降维的数据将保留正常数据的压缩特征，而异常数据的特征很难在压缩特征中进行保留，因此正常数据再升维以后与原始数据是相似的，而异常数据与原始数据是差距较大的，因此可以检测异常。预测数据是指模型通过历史数据，预测未来数据。由于历史数据中正常数据是相同分布的，而异常数据各有独立的特征，模型预测的数据将会更贴合正常数据的分布，因此预测数据与正常数据是相似的，而异常数据与预测数据是差距较大的，因此可以检测异常。模型的输出数据会与真实数据计算异常度评分例如基于距离的异常度评分，基于高斯混合模型的异常度评分等。最终模型输出的时间序列数据的标签可以表示为：

即当模型的输出的异常度评分大于阈值θ时，模型检测出的标签/>为1，表示数据W_t是异常的，模型的输出的异常度评分/>小于阈值θ时，模型检测出的标签/>为0，表示数据w_t是正常的。

对于模型输出的时间序列数据的标签，按照时间序列顺序，定义S′为模型预测的M段异常段的集合，即S′＝{S′₁，S′₂，...，S′_M}，其中时间序列异常检测任务的目标是输出测试数据集中每个窗口数据是否异常的标签。模型标注后，精确率(P)、召回率(R)和F1评分计算如下：

其中TP、FP和FN分别表示真阳性、假阳性和假阴性的数量。

对于数据标签中的每一段异常，都是包含连续若干个异常点，而模型检测时未必可以每一个异常点都检测出，因此对于同一个真实的异常段不同的模型会检测出这个段的不同部分并且会获得不同的评分。

考虑到操作人员更关心异常段的开始时间，因此本发明定义不同异常点的权重σ，权重曲线为：

其中为某个真实异常段中的相对位置，/>在该等式中，σ(τ)是基于sigmoid函数的变种，将权重范围控制在0到1之间。该等式使得相对位置较前面的异常点有更高的权重，随着相对位置的后移，权重沿着平滑的S型曲线下降。

对于离散点而言，如果该异常段的评分由各个异常点的权重相加组成，那么异常段的评分仍然会受到段长的影响，检出较长的异常段会获得更高的评分。为了保证各个异常段权重相同，本发明采用softmax函数控制异常点的分数之和为1。对于异常段S_i，其各个异常点的得分为：

其中|S_i|表示S_i的长度。单个异常段S_i的评分/>为：

其中，η_j表示第j个异常点的得分。

由公式可知，的取值范围为[0，1]，当且仅当/>时/>可取最小值0，/>时/>可取最大值1。其中，Pr表示概率。

R-TAD表示对异常段的召回率，根据召回率的含义，可以定义：

R-TAD的含义即为在N个真实异常段中，每个异常段的检出评分之和与真实异常段总数之比，它展示了在真实的异常段中异常段被检出的情况，R-TAD的取值范围为[0，1]。

P-TAD表示对异常段的精确率，根据精确率的含义，可以定义：

P-TAD的含义即为在M个检出异常段(即模型预测的异常段)中，每个异常段的检出评分之和与检出异常段总数之比，它展示了在检出的异常段中包含真实异常段的情况，P-TAD的取值范围为[0，1]。考虑到预测的异常段段长可以很长，在段的数量很少的情况下会导致假阳性有限，在全局异常段数量很少时造成评估分数过高，因此此处将加入段长限制。在本工作中，预测的异常段的最大段长设定为真实异常段中最长异常段长度的两倍，同时也接受自定义最大段长。

类似F1值的计算过程，本发明定义F-TAD的公式如下：

F-TAD综合考虑了召回率与精确率，平衡了两个评分的特性，用于综合反映整体的指标。

下面通过设置对比实验，分析F1值与F-TAD之间谁更能客观反映对时间序列异常检测任务的效果，来证明F-TAD比F1能更客观的反映时间序列异常检测方法的效果。

1.基本思想

在相同数据集的设置下，当不同的评估方法对于同一模型的异常检测结果提出不同的结论时，为验证评估方法的准确性，假设人工评估作为理想的检测标准，从查全率、查准率两个方面衡量不同评估方法与人工评估的一致性，最终与人工评估保持一致性的评估方法则更具有客观的衡量效果。

2.公开数据集

下面介绍五个最广泛使用的时间序列异常检测数据集。

Server Machine Dataset(SMD)：SMD是来自一家大型互联网公司收集的一个为期5周的数据集，并对外公开提供。它包含来自28台服务器机器的数据，每个服务器机器的数据都是由33个监控数据组成的指标。SMD被分割为两个大小相等的子集：前半部分是训练集，后半部分是测试集。训练集中不包含异常，测试集提供了每个点是否是异常的标签，并且维度对每个异常都有贡献。

Secure water treatment(SWaT)：SWaT是现实世界工业水处理厂的缩小版，数据收集过程就是在该平台上进行的。SWaT连续运转了11天，在此期间，系统前7天正常运行，即没有任何攻击或故障。在接下来的几天里，在继续收集数据的同时，SWaT遭到了一些网络和物理攻击，这些攻击都是由收集数据的研究团队创建和生成的。

Water distribution testbed(WADI)：WADI数据集来自于一个简化的城市给水分配系统，是SWAT的延伸。该数据集包含了为期两周的正常操作数据用于训练，在接下来的两天里在不同的时间间隔内进行一些受控的物理攻击，这与测试集中的异常情况相对应。

Mars Science Laboratory(MSL)and Soil Moisture Active Passive(SMAP)：MSL和SMAP数据集是从美国宇航局的一个航天器中收集的真实数据集，这些是来自一个航天器监测系统的报告的异常数据。与其他数据集不一样，该数据集的训练数据中包含了未标记的异常，这为训练模型增加了不少困难。

3.模型方法

下面介绍近些年来比较有代表性的8个方法。

AutoEncoder：自编码器是通过无监督的方式来训练来获取输入数据在较低维度的表达。先用编码器将原始数据压缩为低维度数据，在解码器中这些低维度的信息表达再被重构回高维的数据表达。

DAGMM：DAGMM将输入样本的关键信息映射在一个低维空间中，包括信息的降维表示和重构误差，很巧妙的将降维过程和密度估计过程有机的结合在一起，进行端到端的联合训练，避免了因两步独立导致模型陷入局部最优的境地。

LSTM-VAE：基于LSTM的变分自编码器，它采用变分推理进行重构，利用LSTM本身的特性可以针对上下文数据的序列特征进行特征抽取。

MSCRED：MSCRED构建多尺度签名矩阵来表征不同时间步长中的系统状态的特征，并开发了基于注意力的卷积长短期记忆(ConvLSTM)网络来捕获时序特征用于重构系统的多尺度签名矩阵。

USAD：建立了一个共享编码器和两个独立解码器，采用自编码训练阶段和对抗式训练阶段分别训练两个解码器，实现在快速训练的同时并隔离异常。

OmniAnomaly：核心思想是通过使用随机变量连接和平面归一化等关键技术来学习多元时间序列的鲁棒表示，从而捕获多元时间序列的正常模式流，通过表示法重构输入数据，并使用重构概率来确定异常情况。

MTAD-GAT：联合优化了基于预测的模型和基于重建的模型，通过单时间戳预测的组合获得了更好的时间序列表示研究和重建整个时间序列。

GDN：结合了结构学习方法和图神经网络，并使用注意力权重为检测到的异常情况提供可解释性。

4.对比指标

许多模型在评估对异常的检测效果时，采用了point-adjust(PA)方法来调整预测标签，包括USAD、OmniAnomaly、MTAD-GAT等。然而在今年最新的工作中，有相关研究证明了point-adjust会导致高估这些方法的实际效果。为了客观评估这些方法的实际效果，我们将point-adjust方法调整标签后再计算F1得到的F1PA也用于本次实验，通过对比F1、F1PA、F-TAD三种评估方法来全面展示现有方法对异常的检测效果。

5.对比结果

这里比较了多个异常检测的方法的结果。对于现有的方法，考虑到需要对比F1值与F-TAD的区别，因此要求两种评估方法在同一个结果上进行评分对比，所以不能直接使用原始论文中报道的最佳分数，而是根据官方提供的代码重新复现所有的实验。重现的实验结果未必有原始论文中报道的好，但是差距也不会太大。值得注意的是，在原始论文中寻找了建议范围内的最优超参数，但没有应用降采样。所有的阈值都来自于那些得分最高的阈值。实验结果在表1中展示，其中第一行为数据集名称，第二行为评估方法名称，第一列为模型名称，加粗的部分表示该列最佳分数。显然，F1PA的分数是显著高于F1值和F-TAD的，但是已经有工作证明F1PA会高估模型的能力，对于随机分数和未训练的模型采用了点调整方法后都可以达到如此高分。现有的许多工作，采用了点调整的方法达到较高的F1值并不能真实的表明模型的检测效果。

在SMAP和MSL两个数据集中，所有方法的F-TAD均比F1值高，这可能归因于异常段数量太少。在这两个数据集中，大部分的子数据集只有一段异常，少数子数据集中有两到三段异常。当异常段数量只有一段时，F-TAD与F1的区别仅在于检测到的异常点在段中不同位置有不同的权重得分，F-TAD大于F1值说明检测到的异常点更加集中在异常段的初始位置。

相反的，SMD、SWAT和WADI三个数据集中F-TAD普遍比F1值低，这可能归因于异常段数量较多。在SMD数据集中，大部分子数据集包含五段及以上的异常段。SWAT数据集和WADI数据集不分为多个子数据集，其中SWAT数据集包含35段异常，WADI数据集包含14段异常。当段数较多时，F-TAD的分数与可检测出来的异常段数量高度相关。

由于SWaT数据集中F-TAD与F1值的差距最显著，因此接下来详细分析各个模型在SWaT数据集的实验结果，并基于前文提到的证明逻辑来论证F1与F-TAD谁在异常检测任务可以更客观的体现对异常的检测效果。首先对于F-TAD与F1差距显著的问题，本发明认为该现象是由于异常段长度分布不均导致的。该数据集中，异常段之间的长度差异显著，其中最长的异常段由35900个连续异常点组成，占到总异常点数量的65.7％，剩下的34段异常占了总异常点数量的34.3％。从理论上来说，如果一个模型只检测出了这一个异常段，那么其召回率就可以达到65.7％，如果没有其他错误的判断，那么精确率为100％，F1值就可以达到0.79，尽管发生了35次异常而该模型只检测到了其中一次异常。通过检查各个模型在SWAT数据集上的检测结果，发现所有模型几乎都检测出了最长的这个异常段，也有很多异常段并没有被检测出来，具体情况如表2所示，其中第一行为真实的异常段\检测出的异常段，第一列为模型名称。表2中展示了多种先进的深度学习模型在SWAT数据集上对异常段的检测效果，结果显示近一半的异常段未被检测出来，且检测出的异常段中是真实的异常段不超过三分之一。为了更清晰的显示出模型的检测结果，在图2中把模型检测出的所有异常画了出来。从图2中可知，每个方法检测出的异常段数量都显著超过真实异常段的数量，但是各个方法仍然可以获得较高的精确率。经过分析，大量错误判断的异常段长度都不长，也就是错误判断的异常点的数量与检测出的最长一段异常段的点数量相比并不算多，因此错误的异常报告次数再多，都不会太影响精确率。对于F1值较高而有一半的异常段无法被检测出来和很多异常段都是错误判断的情况，直接体现了F1值对于时间序列异常检测任务的评估存在一定的不足，而F-TAD的评分相对来说更客观的体现了对异常段的检测情况。

表1.多种方法的评分表

表2.在SWAT数据集中各个方法检测出的异常段数量

表2中：

1)在True Anomaly中，将One-Point/25％/50％/75％/100％定义如下：在真实的异常段中，如果至少检测到一个点/25％/25％/50％/75％/100％的异常点，则视为检测出该异常段。该区域中的数字表示检测到的异常段的数量。Total表示SWaT数据集共包含35个异常段。

2)在Detected Anomaly中，将One-Point/25％/50％/75％/100％定义为：在检测到的异常段中，如果至少有一个点/25％/50％/50％/75％/100％的异常点是真正的异常点，那么这个异常段被认为是一个正确检测到的异常段。该区域中的数字表示所检测到的真实异常段的数量。Total表示用每种方法检测到的异常片段总数。

3)本表中的数据是根据复制的最佳F1分数计算的。

基于同一发明构思，本发明的另一个实施例提供一种基于异常段的时间序列异常检测评估系统，其包括：

其中各模块的具体实施过程参见前文对本发明方法的描述。

基于同一发明构思，本发明的另一实施例提供一种计算机设备(计算机、服务器、智能手机等)，其包括存储器和处理器，所述存储器存储计算机程序，所述计算机程序被配置为由所述处理器执行，所述计算机程序包括用于执行本发明方法中各步骤的指令。

基于同一发明构思，本发明的另一实施例提供一种计算机可读存储介质(如ROM/RAM、磁盘、光盘)，所述计算机可读存储介质存储计算机程序，所述计算机程序被计算机执行时，实现本发明方法的各个步骤。

以上公开的本发明的具体实施例，其目的在于帮助理解本发明的内容并据以实施，本领域的普通技术人员可以理解，在不脱离本发明的精神和范围内，各种替换、变化和修改都是可能的。本发明不应局限于本说明书的实施例所公开的内容，本发明的保护范围以权利要求书界定的范围为准。

Claims

1.一种基于异常段的时间序列异常检测评估方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的方法，其特征在于，所述利用时间序列异常检测模型对时间序列进行异常检测，包括：

3.根据权利要求2所述的方法，其特征在于，所述时间序列数据是否异常的标签表示为：

4.根据权利要求1所述的方法，其特征在于，所述采用异常段作为评估的计算单元，对时间序列异常检测结果进行评估，包括：

定义异常段中不同异常点的权重σ，并采用softmax控制异常点的分数之和为1，根据各个异常点的得分获得单个异常段S_i的评分

5.根据权利要求4所述的方法，其特征在于，所述定义异常段中不同异常点的权重σ，权重曲线为：

其中τ为某个真实异常段中的相对位置，τ∈[0，1]，该等式使得相对位置较前面的异常点有更高的权重，随着相对位置的后移，权重沿着平滑的S型曲线下降。

6.根据权利要求4所述的方法，其特征在于，所述对异常段的召回率R-TAD的计算公式为：

所述对异常段的精确率P-TAD的计算公式为：

7.根据权利要求6所述的方法，其特征在于，所述对异常段的F1值F-TAD的计算公式为：

8.一种基于异常段的时间序列异常检测评估系统，其特征在于，包括：

9.一种电子装置，其特征在于，包括存储器和处理器，所述存储器存储计算机程序，所述计算机程序被配置为由所述处理器执行，所述计算机程序包括用于执行权利要求1～7中任一项所述方法的指令。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储计算机程序，所述计算机程序被计算机执行时，实现权利要求1～7中任一项所述的方法。