CN112163020A - 一种多维时间序列异常检测方法及检测系统 - Google Patents

一种多维时间序列异常检测方法及检测系统 Download PDF

Info

Publication number
CN112163020A
CN112163020A CN202011060906.4A CN202011060906A CN112163020A CN 112163020 A CN112163020 A CN 112163020A CN 202011060906 A CN202011060906 A CN 202011060906A CN 112163020 A CN112163020 A CN 112163020A
Authority
CN
China
Prior art keywords
data
time series
time
time sequence
model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202011060906.4A
Other languages
English (en)
Inventor
金耀辉
何浩
李龙元
黄宗源
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Jiaotong University
Original Assignee
Shanghai Jiaotong University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Jiaotong University filed Critical Shanghai Jiaotong University
Priority to CN202011060906.4A priority Critical patent/CN112163020A/zh
Publication of CN112163020A publication Critical patent/CN112163020A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2465Query processing support for facilitating data mining operations in structured databases
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2474Sequence data queries, e.g. querying versioned data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/243Classification techniques relating to the number of classes
    • G06F18/2433Single-class perspective, e.g. one-against-all classification; Novelty detection; Outlier detection

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Probability & Statistics with Applications (AREA)
  • Fuzzy Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Computational Linguistics (AREA)
  • Evolutionary Computation (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Testing And Monitoring For Control Systems (AREA)

Abstract

本发明提供了一种多维时间序列异常检测方法及检测系统,包括:将输入多维时间序列映射到低维空间的循环神经网络编码器;通过循环神经网络自编码器将采样得到的低维变量重构为多维时间序列;在自编码器模型构建过程中,编码器与解码器共享部分循环神经网络的神经单元;基于时间序列马尔科夫平滑假设的正则化方法对模型进行优化;基于重构时间序列概率分布对时间序列异常值进行计算。本发明提供的方法相较于传统的异常检测模型,具有更灵活的拟合能力与鲁棒性,具有更高的异常检测精确度,能同时检测短时突发异常和中长时间段异常。

Description

一种多维时间序列异常检测方法及检测系统
技术领域
本发明涉及时间序列异常检测技术领域,具体地,涉及一种多维时间序列异常检测方法及检测系统。
背景技术
随着互联网技术和大数据技术的发展,越来越多的数据被采集并进行处理和分析,其中,时间序列数据是最广泛、重要的数据类型。时间序列数据,即带有时间戳标记的数据统计量,能够揭示环境的变化、设备的运行状态、金钱的流动等与人类生活密切相关的特征。时间序列的异常检测问题是一个非常重要而且具有挑战性的问题,在很多领域都具有重要的应用价值,例如智能交通,健康,指标监测,运维,网络入侵检测、环境监测等。在上述提到的多个领域中,数据的异常通常意味着各种应用领域中关键的可操作信息,例如,森林中异常的温湿度变化可能意味着潜在的森林火灾,计算机网络中异常的流量模式可能意味着计算机被黑客窃取,来自工业机器的异常设备状态可能意味着某些关键部位的故障。因此,准确与及时的对时间序列进行异常检测具有非常重要的价值。
对于矩阵X∈RM×T,是一组时间序列数据,其中含有M条相关的时序数据流,T个观测时间节点。取决于可用的训练数据和异常标签类型,通常有三种方式对其中的异常进行检测:1)有监督。2)半监督。3)无监督。其中,对于没有异常值标签,也没有无异常干净数据的时间序列异常检测问题是最困难的。无监督异常检测不需要异常标签数据训练模型,也不需要专门采集无异常的干净数据,具有广泛的实用性。相比较有监督和半监督方法,无监督方法在异常模式漂移的场景下具有与更好的鲁棒性。
目前已有方法主要分为两类,判别模型和概率模型,其中判别模型的方法主要是在常见的时间序列模型优化过程中加入了时序平滑的惩罚项,来辅助模型在拟合和平滑之中权衡,从而拟合到正常的时间序列数据。但是这种方法没有考虑时间序列天然的随机性,在被异常值污染的时间序列下训练,性能会大幅下降。另一类是概率模型,主要代表模型是经典的隐马尔科夫模型和矩阵分解模型。然而,概率模型通常受到计算量的约束,通常以线性模型为主,难以拟合复杂且非线性的大量时间序列数据。虽然概率模型考虑到了观测时间序列的随机性,但是通常假设了观测时间序列具有时不变的加性噪声,这显然不符合真实时间序列的随机性规律,在时间序列数据噪声变化的情况下异常检测的准确率较低。
综上,现有的时间序列异常检测方法,并不能适用于复杂非线性实际时间序列数据的异常检测,目前没有发现同本发明类似技术的说明或报道,也尚未收集到国内外类似的资料。
发明内容
为了克服现有技术中存在的上述不足,本发明提供了一种多维时间序列异常检测方法及检测系统,该检测方法及检测系统基于变分贝叶斯自编码器,针对复杂的多维时间序列数据,无需干净的时间序列数据或者已知的异常标签数据,即可鲁邦地检测其中的异常值和异常片段。本发明提供的多维时间序列异常检测方法及检测系统,能够系统性地解决时间序列异常检测的问题。
本发明是通过以下技术方案实现的。
根据本发明的一个方面,提供了一种多维时间序列异常检测方法,包括:
将观测时间结合时间序列数据的观测频率,生成时间序列特征;对于受到外部影响的时间序列,将生成的时间序列特征结合额外采集的外部影响数据,生成外部变量;将生成的外部变量进行标准化统一数据尺度,完成对时间序列数据的增强;
根据时间序列数据切分规则,将时间序列数据切分为多个时间片段数据,将多个时间片段数据根据采集时间互相重叠,得到多个连续的多维时间序列片段数据,完成对时间序列数据的切分;
通过对时间序列数据的增强和/或切分,得到包含异常值的多个时间序列片段;
构建无监督时间序列异常检测模型,利用建立的所述模型从包含异常值的多个时间序列片段数据中,学习正常数据的特征,并根据学习的特征重构正常的时间序列数据,给出重构出正常时间序列数据的概率分布;给定学习到的模型,从重构的正常时间序列数据池中随机抽取训练样本,在时间序列平滑假设的正则约束下优化模型参数,使得模型能够重构出正常的时间序列数据,完成模型训练;
给定新观测数据,通过采样的方式得出重构出新正常时间序列数据的概率分布;
根据重构出新正常时间序列数据的概率分布,计算输入的时间序列数据的异常值,并提供异常检测阈值,进而根据异常检测阈值判断某段时间序列数据是否为异常片段。
优选地,所述时间序列数据包括如下任意一种或任意多种:
-多维时间序列数据;
-含有缺失值的时间序列数据;
-长时间序列数据。
优选地,所述长时间序列数据是指超过1万个时间点的序列数据。
优选地,所述时间序列数据切分规则,包括:时间序列数据的维度和片段长度、切分采样是否具有重叠以及重叠的密度。
优选地,所述时间片段数据的元数据信息包括:能够描述与观测时间序列对应的人类活动相关特征以及与待检测异常相关的时间相关特征。
优选地,所述在时间序列平滑假设的正则约束下优化模型参数,包括:
根据输入时间序列数据的平滑度进行判断,给出对应的平滑参数,并根据平滑参数设定模型训练时采用的平滑正则进行优化。
优选地,所述构建无监督时间序列异常检测模型,采用基于变分自编码器的时间序列模型构建无监督时间序列异常检测模型。
优选地,所述无监督时间序列异常检测模型采用循环神经网络编码器,将包含异常值的多个时间序列片段数据映射为低维随机特征向量,根据低维随机特征向量的重构出正常时间序列数据的概率分布随机采样出待解码的特征向量,解码待解码的特征向量输出并重构出原始的正常时间序列数据的概率分布,即为重构出正常时间序列数据的概率分布。
优选地,所述通过采样的方式得出重构出新正常时间序列数据的概率分布,包括:
将输入的新观测数据的时间序列转变为重构的正常时间序列随机向量,然后通过对低维随机特征向量多次采样的方式得到多次重构的概率分布,获得稳定的重构概率分布,即为重构出新正常时间序列数据的概率分布,用于异常值打分。
根据本发明的另一个方面,提供了一种多维时间序列异常检测系统,包括:
时间序列数据增强模块,所述时间序列数据增强模块将观测时间结合时间序列数据的观测频率,生成时间序列特征;对于受到外部影响的时间序列,将生成的时间序列特征结合额外采集的外部影响数据,生成外部变量;将生成的外部变量进行标准化统一数据尺度,完成对时间序列数据的增强;
时间序列数据切分模块,所述时间序列数据切分模块根据时间序列数据切分规则,将时间序列数据切分为多个时间片段数据,将多个时间片段数据根据采集时间互相重叠,得到多个连续的多维时间序列片段数据,形成包含异常值的多个时间序列片段数据;
无监督时间序列异常检测模型模块,所述无监督时间序列异常检测模型模块构建无监督时间序列异常检测模型,利用建立的所述模型从经过时间序列数据增强模块和/或时间序列数据切分模块后得到的包含异常值的多个时间序列片段数据中,学习正常数据的特征,并根据学习的特征重构正常的时间序列数据,给出重构出正常时间序列数据的概率分布;给定模型,从重构的正常时间序列数据池中随机抽取训练样本,在时间序列平滑假设的正则约束下优化模型参数,使得模型能够重构出正常的时间序列数据,完成模型训练;
观测数据重构模块,所述新观测数据重构模块,利用训练后的模型,给定新观测数据,通过采样的方式得出重构出新正常时间序列数据的概率分布;
异常检测模块,所述异常检测模块根据重构出新正常时间序列数据的概率分布,计算输入的时间序列数据的异常值,并提供异常检测阈值,进而根据异常检测阈值判断某段时间序列数据是否为异常片段。
由于采用了上述与现有技术相比,本发明具有如下的有益效果:
本发明提供的多维时间序列异常检测方法及检测系统,基于变分贝叶斯自编码器的时间序列异常检测模型,相较于传统的基于判别模型和概率模型异常检测方法,结合了两者的优势,能够有效地对异常污染的时间序列数据进行鲁邦建模,学习正常序列的包络线。
本发明提供的多维时间序列异常检测方法及检测系统,其中的无监督时间序列异常检测模型结合了深度学习的优势,可以在复杂的时间序列数据情况下有效学习和收敛。
附图说明
通过阅读参照以下附图对非限制性实施例所作的详细描述,本发明的其它特征、目的和优点将会变得更明显:
图1为本发明一优选实施例中多维时间序列异常检测方法流程图。
图2为本发明一优选实施例中无监督时间序列异常检测模型框架示意图。
具体实施方式
下面对本发明的实施例作详细说明:本实施例在以本发明技术方案为前提下进行实施,给出了详细的实施方式和具体的操作过程。应当指出的是,对本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。
本发明一实施例提供了一种多维时间序列异常检测方法,该方法结合概率模型和判别模型的异常检测方法,在保证训练效率的情况下,适用于复杂非线性的实际时间序列数据,系统性地解决了多维时间序列的异常检测问题。
如图1所示,本发明实施例体提供的多维时间序列异常检测方法,包括如下步骤:
步骤S1,将观测时间结合时间序列数据的观测频率,生成时间序列特征;对于受到外部影响的时间序列,可以将生成的时间序列特征结合额外采集的外部影响数据,生成外部变量;将生成的外部变量进行标准化统一数据尺度,完成对时间序列数据的增强;
和/或
根据时间序列数据切分规则,将时间序列数据切分为多个适合模型学习特征的时间片段数据,将多个时间片段数据根据采集时间互相重叠,得到多个连续的多维时间序列片段数据,完成对时间序列数据的切分;
其中,步骤S1中的增强步骤和切分步骤的执行顺序根据需要决定;
通过步骤S1中对时间序列数据的增强和/或切分,得到包含异常值的多个时间序列片段;
步骤S2,构建无监督时间序列异常检测模型,利用建立的模型从包含异常值的多个时间序列片段数据中,学习正常数据的特征,并根据学习的特征重构正常的时间序列数据,给出重构出正常时间序列数据的概率分布;给定学习后的模型,从重构的正常时间序列数据池中随机抽取训练样本,在时间序列平滑假设的正则约束下优化模型参数,使得模型能够重构出正常的时间序列数据,完成模型训练;
步骤S3,给定新观测数据,通过采样的方式得出重构出新正常时间序列数据的概率分布;
步骤S4,根据重构出新正常时间序列数据的概率分布,计算输入的时间序列数据的异常值,并提供异常检测阈值,进而根据异常检测阈值判断某段时间序列数据是否为异常片段。
进一步地,异常检测阈值可以根据领域专家根据数据的经验异常比例(例如1%)设置。
作为一优选实施例,时间序列数据包括如下任意一种或任意多种:
-多维时间序列数据;
-含有缺失值的时间序列数据;
-长时间序列数据。
作为一优选实施例,长时间序列数据是指超过1万个时间点的序列数据。
作为一优选实施例,时间序列数据切分规则,包括:时间序列数据的维度和片段长度、切分采样是否具有重叠以及重叠的密度。
作为一优选实施例,时间片段数据的元数据信息包括:能够描述与观测时间序列对应的人类活动相关特征以及与待检测异常相关的时间相关特征。
作为一优选实施例,在时间序列平滑假设的正则约束下优化模型参数,包括:
根据输入时间序列数据的平滑度进行判断,给出对应的平滑参数,并根据平滑参数设定模型训练时采用的平滑正则进行优化。
作为一优选实施例,构建无监督时间序列异常检测模型,采用基于变分自编码器的时间序列模型构建无监督时间序列异常检测模型。
作为一优选实施例,如图2所示,无监督时间序列异常检测模型采用循环神经网络编码器,将包含异常值的多个时间序列片段数据映射为低维随机特征向量,根据低维随机特征向量的重构出正常时间序列数据的概率分布随机采样出待解码的特征向量,解码待解码的特征向量输出并重构出原始的正常时间序列数据的概率分布,即为重构出正常时间序列数据的概率分布。
作为一优选实施例,通过采样的方式得出重构出新正常时间序列数据的概率分布,包括:
将输入的新观测数据的时间序列转变为重构的正常时间序列随机向量,然后通过对低维随机特征向量多次采样的方式得到多次重构的概率分布,获得稳定的重构概率分布,即为重构出新正常时间序列数据的概率分布,用于异常值打分。
在本发明部分实施例中:
无监督时间序列异常检测模型采用x1:T=(x1,x2,…,xt)表示一组多维时间序列数据,利用该无监督时间序列异常检测模型,鲁棒地学习观测数据的边缘概率分布p(x1:T)。
构建无监督时间序列异常检测模型的方法,包括以下步骤:
步骤1:根据如下分解,定义一个生成模型p(x≤T,z≤T):
Figure BDA0002712339720000061
其中,z为低维特征向量;T为观测时间。
步骤2:步骤1中公式的右边第一项p(xt|z≤T,x<T)为观测变量的条件概率分布,用
Figure BDA0002712339720000071
表示重构的随机向量,采用如下参数化分布定义该随机变量,得到解码器观测数据的概率分布:
Figure BDA0002712339720000072
其中,μx,t
Figure BDA0002712339720000073
表示重构的概率分布的充分统计量,
Figure BDA0002712339720000074
为将低维特征向量映射到神经网络隐含层维度的多层神经网络,zt为t时刻的低维特征向量,ht-1为由循环神经网络学习的隐状态先验概率。
步骤3:步骤1中公式的右边第二项p(zt|x<t,z<t)为编码器,是隐变量的条件概率分布,通过如下参数化分布定义该随机变量,得到低维编码向量的概率分布:
Figure BDA0002712339720000075
其中,μ0,t
Figure BDA0002712339720000076
分别表示t时刻低维特征向量先验概率分布的均值和方差,ht-1为由循环神经网络学习的隐状态先验概率,ht由门控循环单元(Gated Recurrent Unit,GRU)控制,控制的方程为:
Figure BDA0002712339720000077
其中,fθ为GRU函数,其中θ为生成模型中的参数。
步骤4:定义近似模型作为生成模型的推理模型,用于与生成模型联合优化:
Figure BDA0002712339720000078
其中,qφ为推理模型的映射函数,由多层神经网络构成,φ为推理模型参数。。
步骤5:模型基于变分自编码贝叶斯算法学习,优化模型参数φ,θ最大化观测边缘概率的期望值,得到全局优化目标:
Figure BDA0002712339720000079
其中,φ和θ分别推理模型参数集和生成模型的参数集,
Figure BDA00027123397200000710
表示观测边缘概率函数在给定推理模型下的期望值,pθ表示生成模型的概率分布函数,qφ表示推理模型的概率分布函数。
通过步骤1~步骤5,完成对无监督时间序列异常检测模型的构建及训练(优化)。
在含有异常片段的时间序列数据中,为了使模型更加鲁邦地学习正常时间序列的概率分布,从而提升异常检测的性能,本发明实施例还提出了一种正则方法优化模型参数,在t-1和t时刻,对于重构的时间序列,p(xm,t-1),p(mm,t)衡量重构时间序列概率分布平滑度的正则项Lsmooth通过下列公式计算:
Figure BDA0002712339720000081
其中,p(xm,t-1)为模型重构的t时刻m维时序观测概率密度函数,M为时序序列数量。
最终模型学习的目标函数(即模型训练过程中优化参数的函数)为模型步骤5给出的优化目标和平滑正则项之和,可由下式表示:
Figure BDA0002712339720000082
平滑参数λ为超参数,决定学习到的重构时序平滑程度,根据需要手动调整,目标函数批量接收切分采样的时序片段数据,通过随机梯度下降方式进行优化,迭代,直到收敛。
当模型已经训练完成后,可以对于新输入的时序片段x进行异常检测,在检测过程中,首先将输入数据利用学习到的编码器p(z|x)映射到z向量,然后再通过解码器p(x|z)重构为x~N(μ,σ),将上述过程迭代L次,然后根据下式计算:
Figure BDA0002712339720000083
其中,ρ为t时刻时间序列的异常值,ρ越高代表t时刻的时序越异常。根据需要设置合适的阈值来决策异常。
以下通过一具体实例对本发明上述实施例提出的多维时间序列异常检测方法进一步详细描述如下。
在具体实施中,时间序列增强和时间序列切分的顺序可以根据实际需要决定,本具体实例以先切分后增强为例,时间序列数据增强和时间序列切分包含以下步骤:
1)时序预处理:在观测到的多维时间序列数据中,通常来讲,不同维度的数据具有不同的尺度,为了让模型能够有效地优化和收敛,需要根据数据的尺度将不同维度的数据分别标准化。对于存在缺失和不对齐的数据问题中,需要对缺失数据进行填充,不对齐数据需要通过空数据标识符进行补充,从而让数据能够正确地被切分。
2)时序片段切分:由于模型在建模超长时间序列的情况下,训练时间随着时间序列的长度指数增长,为了提高模型训练学习的效率,需要对时间序列进行切分。由于时序的连贯性,假设在t时刻观测到的时间序列,通常与t-n到t-1时刻的时间观测值相关,与0到t-n-1时刻的观测值相关度较低。因此,基于时序相关性原则,把长时间序列从时间轴切分为长度为n的片段。
3)标记时间特征:在切分完成后,不同的时间片段并不独立,其中时间信息在切分的过程中已经丢失。从时间戳中按照采样频率提取时间特征,加入到模型中,辅助模型在训练过程中收敛。
4)生成训练数据池:对于切分好的数据,放入训练数据池,并通过随机采样器对时序片段随机采样进行训练。
时序片段切分方法,对于切分的长度,根据时序的相关特性和采样频率,决定具体的长度。时序的相关特性由时序自相关性统计计算,切分长度的经验值为60-120个时间点。
标记时间特征的方法,通常包含以下特征:1)周期性特征,例如小时、星期、月份、季节。2)识别符特征:例如节假日、活动。3)线性特征:例如绝对时间。
标记时间特征的方法,对于时间特征的量化方式根据特征种类决定。对于周期性特征,采用0到1间锯齿形增长的时间特征曲线,对于线性特征,采用-1到0.5之间增长的曲线,0.5-1之间的特征向量留在未来数据中处理。对于识别符特征,采用虚设变量的方法,用0和1的序列标记特征。
举例说明:给定长度为一年,3个观测变量,每小时采样的交通流量时间序列数据,也就是8760个观测时间点,3个观测序列,也就是8760×3的矩阵数据。设置切分片段长度为5天(120个时间点),重叠率为10%,平滑系数为1,训练批次为10,检测采样次数为10本方法通过以下步骤处理:
步骤一:记录3个观测变量的均值和方差,然后将每个观测变量独立标准化,使得其标准化的数据服从均值0,方差1的正态分布。
步骤二:将8760个时间点数据,从第1个时间点开始,将1-120时间点的时序片段加入数据池,然后从第12个时间点开始,将12-132时间点的时序片段加入数据池,直到全部加入,共获得730个时序片段数据。
步骤三:为每个时序片段数据,加入小时/天,星期,月份,季节四个时间特征,然后将特征统一为均值0,方差1的正态分布数据。
步骤四:构建训练模型,从数据池中随机抽取10个时序片段进行训练,计算下式:
Figure BDA0002712339720000101
其中,λ=1,分布之间的距离采用KL散度作为衡量两个概率分布的测度,对于对角多维正态分布,两个分布之间的距离通过如下公式计算:
Figure BDA0002712339720000102
更新模型参数,然后再取10个时序片段进行训练,更新模型参数,直到收敛。
步骤五:给定新的输入时序片段x,根据训练好的模型pθ(zt|x<t,z<t)计算低维特征随机向量分布,然后随机采样z后,通过解码器获取pθ(xt|z≤t,x<t),根据ρ=log(xt(l)(l))计算异常得分,将上述随机采样进行10次,平均得分得到异常分数。
步骤六:假设根据经验判断,数据中大概存在10个异常点,则选择模型报告的最高的10个异常分数。若假设存在5%的异常,则选择异常分布前5%的时序片段数据进行分析,根据实际需要判断具体检测数据是否为异常数据。
本发明另一实施例提供了一种多维时间序列异常检测系统,包括:
时间序列数据增强模块,时间序列数据增强模块将观测时间结合时间序列数据的观测频率,生成时间序列特征;对于受到外部影响的时间序列,可以将生成的时间序列特征结合额外采集的外部影响数据,生成外部变量;将生成的外部变量进行标准化统一数据尺度,完成对时间序列数据的增强;
时间序列数据切分模块,时间序列数据切分模块根据时间序列数据切分规则,将时间序列数据切分为多个时间片段数据,将多个时间片段数据根据采集时间互相重叠,得到多个连续的多维时间序列片段数据,形成包含异常值的多个时间序列片段数据;
无监督时间序列异常检测模型模块,无监督时间序列异常检测模型模块构建无监督时间序列异常检测模型,利用建立的模型从经过时间序列数据增强模块和/或时间序列数据切分模块后得到的包含异常值的多个时间序列片段数据中,学习正常数据的特征,并根据学习的特征重构正常的时间序列数据,给出重构出正常时间序列数据的概率分布;给定模型,从重构的正常时间序列数据池中随机抽取训练样本,在时间序列平滑假设的正则约束下优化模型参数,使得模型能够重构出正常的时间序列数据,完成模型训练;
观测数据重构模块,新观测数据重构模块,利用训练后的模型,给定新观测数据,通过采样的方式得出重构出新正常时间序列数据的概率分布;
异常检测模块,异常检测模块根据重构出新正常时间序列数据的概率分布,计算输入的时间序列数据的异常值,并提供领域专家根据数据的经验异常比例(1%)设置的异常检测阈值,进而根据给定的异常检测阈值判断某段时间序列数据是否为异常片段。
本发明上述实施例提供的多维时间序列异常检测方法及检测系统,包括:将输入多维时间序列映射到低维空间的循环神经网络编码器;通过循环神经网络自编码器将上述采样得到的低维变量重构为多维时间序列;在自编码器模型构建过程中,编码器与解码器共享部分循环神经网络的神经单元;基于时间序列马尔科夫平滑假设的正则化方法优化构建的模型;基于重构时间序列概率分布对时间序列异常值进行计算。本发明上述实施例提供的多维时间序列异常检测方法及检测系统,相较于传统的异常检测模型,具有更灵活的拟合能力与鲁棒性,具有更高的异常检测精确度,能同时检测短时突发异常和中长时间段异常。
需要说明的是,本发明提供的方法中的步骤,可以利用系统中对应的模块、装置、单元等予以实现,本领域技术人员可以参照系统的技术方案实现方法的步骤流程,即,系统中的实施例可理解为实现方法的优选例,在此不予赘述。
以上对本发明的具体实施例进行了描述。需要理解的是,本发明并不局限于上述特定实施方式,本领域技术人员可以在权利要求的范围内做出各种变形或修改,这并不影响本发明的实质内容。

Claims (10)

1.一种多维时间序列异常检测方法,其特征在于,包括:
将观测时间结合时间序列数据的观测频率,生成时间序列特征;对于受到外部影响的时间序列,将生成的时间序列特征结合额外采集的外部影响数据,生成外部变量;将生成的外部变量进行标准化统一数据尺度,完成对时间序列数据的增强;
根据时间序列数据切分规则,将时间序列数据切分为多个时间片段数据,将多个时间片段数据根据采集时间互相重叠,得到多个连续的多维时间序列片段数据,完成对时间序列数据的切分;
通过对时间序列数据的增强和/或切分,得到包含异常值的多个时间序列片段;
构建无监督时间序列异常检测模型,利用建立的所述模型从包含异常值的多个时间序列片段数据中,学习正常数据的特征,并根据学习的特征重构正常的时间序列数据,给出重构出正常时间序列数据的概率分布;给定学习到的模型,从重构的正常时间序列数据池中随机抽取训练样本,在时间序列平滑假设的正则约束下优化模型参数,使得模型能够重构出正常的时间序列数据,完成模型训练;
给定新观测数据,通过采样的方式得出重构出新正常时间序列数据的概率分布;
根据重构出新正常时间序列数据的概率分布,计算输入的时间序列数据的异常值,并提供异常检测阈值,进而根据异常检测阈值判断某段时间序列数据是否为异常片段。
2.根据权利要求1所述的多维时间序列异常检测方法,其特征在于,所述时间序列数据包括如下任意一种或任意多种:
-多维时间序列数据;
-含有缺失值的时间序列数据;
-长时间序列数据。
3.根据权利要求2所述的多维时间序列异常检测方法,其特征在于,所述长时间序列数据是指超过1万个时间点的序列数据。
4.根据权利要求1所述的多维时间序列异常检测方法,其特征在于,所述时间序列数据切分规则,包括:时间序列数据的维度和片段长度、切分采样是否具有重叠以及重叠的密度。
5.根据权利要求1所述的多维时间序列异常检测方法,其特征在于,所述时间片段数据的元数据信息包括:能够描述与观测时间序列对应的人类活动相关特征以及与待检测异常相关的时间相关特征。
6.根据权利要求1所述的多维时间序列异常检测方法,其特征在于,所述在时间序列平滑假设的正则约束下优化模型参数,包括:
根据输入时间序列数据的平滑度进行判断,给出对应的平滑参数,并根据平滑参数设定模型训练时采用的平滑正则进行优化。
7.根据权利要求1-6任一项所述的多维时间序列异常检测方法,其特征在于,所述构建无监督时间序列异常检测模型,采用基于变分自编码器的时间序列模型构建无监督时间序列异常检测模型。
8.根据权利要求7所述的多维时间序列异常检测方法,其特征在于,所述无监督时间序列异常检测模型采用循环神经网络编码器,将包含异常值的多个时间序列片段数据映射为低维随机特征向量,根据低维随机特征向量的重构出正常时间序列数据的概率分布随机采样出待解码的特征向量,解码待解码的特征向量输出并重构出原始的正常时间序列数据的概率分布,即为重构出正常时间序列数据的概率分布。
9.根据权利要求8所述的多维时间序列异常检测方法,其特征在于,所述通过采样的方式得出重构出新正常时间序列数据的概率分布,包括:
将输入的新观测数据的时间序列转变为重构的正常时间序列随机向量,然后通过对低维随机特征向量多次采样的方式得到多次重构的概率分布,获得稳定的重构概率分布,即为重构出新正常时间序列数据的概率分布,用于异常值打分。
10.一种多维时间序列异常检测系统,其特征在于,包括:
时间序列数据增强模块,所述时间序列数据增强模块将观测时间结合时间序列数据的观测频率,生成时间序列特征;对于受到外部影响的时间序列,将生成的时间序列特征结合额外采集的外部影响数据,生成外部变量;将生成的外部变量进行标准化统一数据尺度,完成对时间序列数据的增强;
时间序列数据切分模块,所述时间序列数据切分模块根据时间序列数据切分规则,将时间序列数据切分为多个时间片段数据,将多个时间片段数据根据采集时间互相重叠,得到多个连续的多维时间序列片段数据,形成包含异常值的多个时间序列片段数据;
无监督时间序列异常检测模型模块,所述无监督时间序列异常检测模型模块构建无监督时间序列异常检测模型,利用建立的所述模型从经过时间序列数据增强模块和/或时间序列数据切分模块后得到的包含异常值的多个时间序列片段数据中,学习正常数据的特征,并根据学习的特征重构正常的时间序列数据,给出重构出正常时间序列数据的概率分布;给定模型,从重构的正常时间序列数据池中随机抽取训练样本,在时间序列平滑假设的正则约束下优化模型参数,使得模型能够重构出正常的时间序列数据,完成模型训练;
观测数据重构模块,所述新观测数据重构模块,利用训练后的模型,给定新观测数据,通过采样的方式得出重构出新正常时间序列数据的概率分布;
异常检测模块,所述异常检测模块根据重构出新正常时间序列数据的概率分布,计算输入的时间序列数据的异常值,并提供异常检测阈值,进而根据异常检测阈值判断某段时间序列数据是否为异常片段。
CN202011060906.4A 2020-09-30 2020-09-30 一种多维时间序列异常检测方法及检测系统 Pending CN112163020A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011060906.4A CN112163020A (zh) 2020-09-30 2020-09-30 一种多维时间序列异常检测方法及检测系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011060906.4A CN112163020A (zh) 2020-09-30 2020-09-30 一种多维时间序列异常检测方法及检测系统

Publications (1)

Publication Number Publication Date
CN112163020A true CN112163020A (zh) 2021-01-01

Family

ID=73861623

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011060906.4A Pending CN112163020A (zh) 2020-09-30 2020-09-30 一种多维时间序列异常检测方法及检测系统

Country Status (1)

Country Link
CN (1) CN112163020A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113538509A (zh) * 2021-06-02 2021-10-22 天津大学 基于自适应相关滤波特征融合学习的视觉跟踪方法及装置
CN113780387A (zh) * 2021-08-30 2021-12-10 桂林电子科技大学 基于共享自编码器的时间序列异常检测方法
WO2022160902A1 (zh) * 2021-01-28 2022-08-04 广西大学 面向云环境下大规模多元时间序列数据异常检测方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105973595A (zh) * 2016-04-27 2016-09-28 清华大学深圳研究生院 一种滚动轴承故障的诊断方法
CN107146015A (zh) * 2017-05-02 2017-09-08 联想(北京)有限公司 多变量时间序列预测方法和系统
CN109190762A (zh) * 2018-07-26 2019-01-11 北京工业大学 基于遗传算法编码的上肢姿态识别算法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105973595A (zh) * 2016-04-27 2016-09-28 清华大学深圳研究生院 一种滚动轴承故障的诊断方法
CN107146015A (zh) * 2017-05-02 2017-09-08 联想(北京)有限公司 多变量时间序列预测方法和系统
CN109190762A (zh) * 2018-07-26 2019-01-11 北京工业大学 基于遗传算法编码的上肢姿态识别算法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
李净: "医保大数据资金预测模型的研究与实现", 《中国优秀博士学位论文全文数据库(硕士) 基础科学辑》 *
李龙元: "Anomaly Detecton of Time Series With Smoothness-Inducing Sequential Variational Auto-Encoder", 《IEEE TRANSACTIONS ON NEURAL NETWORKS AND LEARNING SYSTEMS》 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2022160902A1 (zh) * 2021-01-28 2022-08-04 广西大学 面向云环境下大规模多元时间序列数据异常检测方法
CN113538509A (zh) * 2021-06-02 2021-10-22 天津大学 基于自适应相关滤波特征融合学习的视觉跟踪方法及装置
CN113780387A (zh) * 2021-08-30 2021-12-10 桂林电子科技大学 基于共享自编码器的时间序列异常检测方法

Similar Documents

Publication Publication Date Title
Wei et al. LSTM-autoencoder-based anomaly detection for indoor air quality time-series data
Liu et al. A hybrid WA–CPSO-LSSVR model for dissolved oxygen content prediction in crab culture
CN112163020A (zh) 一种多维时间序列异常检测方法及检测系统
CN111428789A (zh) 一种基于深度学习的网络流量异常检测方法
CN114926746B (zh) 基于多尺度差分特征注意力机制的sar图像变化检测方法
CN114386521A (zh) 时间序列数据的异常检测方法、系统、设备和存储介质
Tasfi et al. Deep neural networks with confidence sampling for electrical anomaly detection
CN115293280A (zh) 基于时空特征分割重构的动力装备系统异常检测方法
Jamshidi et al. Detecting outliers in a univariate time series dataset using unsupervised combined statistical methods: A case study on surface water temperature
CN115660291A (zh) 一种植物病害发生与潜在发生的识别评估方法及系统
CN112784920A (zh) 云边端协同的旋转部件对抗域自适应故障诊断方法
CN116451117A (zh) 一种基于联邦学习的电力数据异常检测方法
CN117114913A (zh) 一种基于大数据的智能化农业数据采集系统
Ray et al. Learning graph neural networks for multivariate time series anomaly detection
CN112464172A (zh) 生长参数主被动遥感反演方法及装置
Zhang et al. LIFE: Learning individual features for multivariate time series prediction with missing values
CN116580243A (zh) 一种掩码图像建模引导域适应的跨域遥感场景分类方法
CN116257786A (zh) 一种基于多元时序图结构的异步时间序列分类方法
Ivek et al. Reconstruction of incomplete wildfire data using deep generative models
Elhalwagy et al. Hybridization of capsule and lstm networks for unsupervised anomaly detection on multivariate data
CN115983087A (zh) 一种注意力机制与lstm结合检测时序数据异常方法及终端机
Sivasankaran et al. Soil Moisture Quantity Prediction using Optimized Deep Learning Supported model for Sustainable cultivation of Groundnut plant
Popolizio et al. The GAIN Method for the Completion of Multidimensional Numerical Series of Meteorological Data.
Swetha et al. Random Forest Regression based Water Quality Prediction for Smart Aquaculture
Li et al. Dk-stn: A domain knowledge embedded spatio-temporal network model for mjo forecast

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20210101