CN112416661A - 基于压缩感知的多指标时间序列异常检测方法和装置 - Google Patents

基于压缩感知的多指标时间序列异常检测方法和装置 Download PDF

Info

Publication number
CN112416661A
CN112416661A CN202011294220.1A CN202011294220A CN112416661A CN 112416661 A CN112416661 A CN 112416661A CN 202011294220 A CN202011294220 A CN 202011294220A CN 112416661 A CN112416661 A CN 112416661A
Authority
CN
China
Prior art keywords
time series
index time
sampling
index
reconstruction
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202011294220.1A
Other languages
English (en)
Other versions
CN112416661B (zh
Inventor
裴丹
马明华
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tsinghua University
Original Assignee
Tsinghua University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tsinghua University filed Critical Tsinghua University
Priority to CN202011294220.1A priority Critical patent/CN112416661B/zh
Publication of CN112416661A publication Critical patent/CN112416661A/zh
Application granted granted Critical
Publication of CN112416661B publication Critical patent/CN112416661B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/16Error detection or correction of the data by redundancy in hardware
    • G06F11/1695Error detection or correction of the data by redundancy in hardware which are operating with time diversity

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Quality & Reliability (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Testing And Monitoring For Control Systems (AREA)

Abstract

本申请提出一种基于压缩感知的多指标时间序列异常检测方法和装置,涉及数据处理技术领域,其中,方法包括:获取待检测的多个分组多指标时间序列矩阵;对每个分组的多指标时间序列矩阵进行抗异常采样,获取多个采样矩阵;基于压缩感知对多个采样矩阵进行数据重构,获取多个重构指标时间序列;将多个重构指标时间序列合成重构多指标时间序列,并对比重构多指标时间序列和原始多指标时间序列的异常分数值;根据异常分数值和预设异常阈值确定多指标时间序列的异常检测结果。由此,对聚类后的多指标时间序列矩阵进行采样后进行数据重构,并根据重构多指标时间序列和原始多指标时间序列的对比确定异常结果,提高多指标时间序列异常检测效率和准确性。

Description

基于压缩感知的多指标时间序列异常检测方法和装置
技术领域
本申请涉及数据处理技术领域,尤其涉及一种基于压缩感知的多指标时间序列异常检测方法和装置。
背景技术
随着在线服务的井喷式发展,为了密切监控服务质量,异常检测显得愈发重要,其中,基于多指标时间序列的异常检测对系统可靠性具有举足轻重的地位。一个指标的监测数据形成了一个单指标时间序列,具有多个指标的服务器监测数据就形成了一个多指标时间序列。
因此,多指标时间序列异常检测十分重要,但也面临许多困难。比如:1)多指标时间序列异常检测比单指标时间序列异常检测要更复杂,有些情况下,虽然出现单个指标异常,但可能系统表现是正常的;2)多指标时间序列规模庞大,数量巨多,在线服务系统部署或更改十分频繁,这带来时间序列的数据分布发生变化,之前的模型不再适合新系统,会造成误报、错报。
相关技术中,通过人工手动扫描判断多指标时间序列是否出现异常,耗时耗力,实际操作起来具有很大的难度;使用机器学习检测每一个单指标时间序列的异常,然而,机器学习方法在单指标时间序列的异常检测方面有很好的性能,而相较于单指标,多指标的异常检测更为复杂,需要关注的是整个系统总体状态,不仅仅局限于单个指标,这就要求异常检测算法还得捕捉到不同单指标时间序列之间复杂的时间关系,单指标异常检测无法做到,相反,它可能带来警报风暴,造成大量的谎报、误报,给操作员带来很糟糕的体验;基于深度学习来学习离线多指标时间序列关系,并用模型进行检测,然而,基于深度学习方法都需要比较长时间的训练数据,才能够很好的训练出一个优秀的模型。但这与现实情况是矛盾的,实际情况中,为了修复错误、完善功能、提高性能等,在线服务系统的部署或更改是十分频繁的。这代表着多指标时间序列的数据分布也会发生剧烈变化,新产生的数据集和训练集具有不同分布,如果继续使用之前训练好的模型,就会带来大量的误报;通过采用增量再训练的方法,每次增加短期数据来训练模型,以此来一步一步的提高模型的性能,但实际操作的结果并不是令人满意的,虽然模型的性能是随着训练周期的增加而提高,但是在得到较好的模型之前的性能无法得到保障,即在初始化时间内,这个模型是不稳定、不准确的。一般初始化时间十天到一百天不等,而现今比较好的方法在训练数据周期短的情况下也无法获得令人满意的性能,这表明对新部署或更新的系统使用这些方法是不合适的。
发明内容
本申请旨在至少在一定程度上解决相关技术中的技术问题之一。
为此,本申请的第一个目的在于提出一种基于压缩感知的多指标时间序列异常检测方法,以实现减少基于压缩感知的多指标时间序列异常检测成本,提高多指标时间序列异常检测准确度,解决现有技术中人工手动扫描判断多指标时间序列是否出现异常中,只能花费人工大量的精力和时间来主观判断,效率比较低的技术问题。
本申请的第二个目的在于提出一种基于压缩感知的多指标时间序列异常检测装置。
为达上述目的,本申请第一方面实施例提出了一种基于压缩感知的多指标时间序列异常检测方法,包括:
获取待检测的多个分组多指标时间序列矩阵;
对每个分组的多指标时间序列矩阵进行抗异常采样,获取多个采样矩阵;
基于压缩感知对所述多个采样矩阵进行数据重构,获取多个重构指标时间序列;
将所述多个重构指标时间序列合成重构多指标时间序列,并对比所述重构多指标时间序列和原始多指标时间序列的异常分数值;
根据所述异常分数值和预设异常阈值确定所述多指标时间序列的异常检测结果。
本申请实施例的基于压缩感知的多指标时间序列异常检测方法,通过获取待检测的多个分组多指标时间序列矩阵;对每个分组的多指标时间序列矩阵进行抗异常采样,获取多个采样矩阵;基于压缩感知对多个采样矩阵进行数据重构,获取多个重构指标时间序列;将多个重构指标时间序列合成重构多指标时间序列,并对比重构多指标时间序列和原始多指标时间序列的异常分数值;根据异常分数值和预设异常阈值确定多指标时间序列的异常检测结果。由此,对聚类后的多指标时间序列矩阵进行采样后进行数据重构,并根据重构多指标时间序列和原始多指标时间序列的对比确定异常结果,提高多指标时间序列异常检测效率和准确性。
在本申请的一个实施例中,在获取待检测的多个分组多指标时间序列矩阵,还包括:
获取所述原始多指标时间序列;
基于形状的聚类方法根据形状对所述原始多指标时间序列进行聚类处理,获取所述多个分组多指标时间序列矩阵。
在本申请的一个实施例中,所述对每个分组的多指标时间序列矩阵进行抗异常采样,获取多个采样矩阵,包括:
把所述每个分组的多指标时间序列矩阵和采样率作为输入,对随机高斯样本时间戳向量进行初始化后,采用预设算法进行计算采样置信度向量,获取每个时间戳的采样置信度;
基于所述每个时间的戳采样置信度将每次迭代映射到时间戳,计算高斯分布概率的公式为:
Figure BDA0002784882940000031
其中,Φi为第i次时间戳向量;ρ为归一化因子;step为步长;σ为标准差。
将所述高斯分布概率与随机数值进行比较,并根据比较结果对对应时间戳的多指标时间序列矩阵进行操作,生成所述多个采样矩阵;其中,所述随机数值大于等于0小于等于1。
在本申请的一个实施例中,所述基于压缩感知对所述多个采样矩阵进行数据重构,获取多个重构指标时间序列,包括:
通过压缩感知公式对每个采样矩阵进行数据重构,获取多个重构指标时间序列;其中,所述压缩感知公式为:
AX’t=B;
其中,A为采样矩阵;X’t为重构指标时间序列;A的的计算公式为:
Figure BDA0002784882940000032
其中,D为X’t的反离散余弦变换。
在本申请的一个实施例中,所述对比所述重构多指标时间序列和原始多指标时间序列的异常分数值,包括:
计算所述重构多指标时间序列和原始多指标时间序列之间的欧氏距离;
根据所述欧氏距离确定所述异常分数值。
在本申请的一个实施例中,所述预设异常阈值为动态调整阈值。
为达上述目的,本申请第二方面实施例提出了一种基于压缩感知的多指标时间序列异常检测装置,包括:
第一获取模块,用于获取待检测的多个分组多指标时间序列矩阵;
第二获取模块,用于对每个分组的多指标时间序列矩阵进行抗异常采样,获取多个采样矩阵;
重构模块,用于基于压缩感知对所述多个采样矩阵进行数据重构,获取多个重构指标时间序列;
对比模块,用于将所述多个重构指标时间序列合成重构多指标时间序列,并对比所述重构多指标时间序列和原始多指标时间序列的异常分数值;
根据所述异常分数值和预设异常阈值确定所述多指标时间序列的异常检测结果。
本申请实施例的基于压缩感知的多指标时间序列异常检测装置,通过获取待检测的多个分组多指标时间序列矩阵;对每个分组的多指标时间序列矩阵进行抗异常采样,获取多个采样矩阵;基于压缩感知对多个采样矩阵进行数据重构,获取多个重构指标时间序列;将多个重构指标时间序列合成重构多指标时间序列,并对比重构多指标时间序列和原始多指标时间序列的异常分数值;根据异常分数值和预设异常阈值确定多指标时间序列的异常检测结果。由此,对聚类后的多指标时间序列矩阵进行采样后进行数据重构,并根据重构多指标时间序列和原始多指标时间序列的对比确定异常结果,提高多指标时间序列异常检测效率和准确性。
本申请附加的方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本申请的实践了解到。
附图说明
本申请上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解,其中:
图1为本申请实施例一所提供的一种基于压缩感知的多指标时间序列异常检测方法的流程示意图;
图2为本申请实施例一所提供的基于压缩感知的多指标时间序列异常检测系统的示例图;
图3为本申请实施例一所提供的基于压缩感知的多指标时间序列异常检测结果的示例图;
图4为本申请实施例一所提供的基于压缩感知的多指标时间序列异常检测结果的示例图;
图5为本申请实施例所提供的一种基于压缩感知的多指标时间序列异常检测装置的结构示意图。
具体实施方式
下面详细描述本申请的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,旨在用于解释本申请,而不能理解为对本申请的限制。
下面参考附图描述本申请实施例的基于压缩感知的多指标时间序列异常检测方法和装置。
基于上述背景技术描述,基于压缩感知,使用压缩感知重构时间序列,通过对比原始数据和重构的序列来检测异常。它可以对多指标时间序列异常进行有效检测,主要考虑一下几点1)时间序列规模大:压缩感知在面对大规模在线服务系统中数百个时间序列行成的多指标时间序列时,重构要耗费大量的时间。除此之外,它求解的问题的复杂度取决于时间序列的个数。2)可能会从时间序列的异常段中采样:压缩感知需要使用高斯分布从原始时间序列中采样,以保证RIP(Restricted Isometry Property,有限等距性质)。但这不能保证都是从正常的时间序列中采样进行重构的,那么基于此的异常检测模型很可能出现一些性能问题。
因此,本申请将压缩感知用于多指标时间序列异常检测,利用压缩感知将时间序列进行重构,考虑到压缩感知重构大量时间序列需要很长时间,提出了根据形状对所有的时间序列进行聚类,对于形状相似的时间序列,可以一起重建,以及为保证将压缩感知应用于正常片段,提出一种抗异常采样算法,利用加权算法来计算每个时间窗口的采样置信度,以此调整每个组采样点的值。
具体地,在离线处理过程中,为了应对大量的时间序列,本算法采用基于形状的聚类方法将这些时间序列分为多个组。在线处理过程中,应用滑动窗口技术,对每个分组,使用一种新提出的抗异常采样算法来解决异常段带来的影响,然后用压缩感知将进行重构。最后连接这些重构的时间序列,将其与原始时间序列进行比对,它们之前的差异作为异常分数,使用EVT(Extreme Value Theory,使用极端值理论)阈值对异常分数进行异常检测。
图1为本申请实施例一所提供的一种基于压缩感知的多指标时间序列异常检测方法的流程示意图。
如图1所示,该基于压缩感知的多指标时间序列异常检测方法包括以下步骤:
步骤101,获取待检测的多个分组多指标时间序列矩阵。
在本申请实施例中,具有多个指标的服务器监测数据可以形成了一个多指标时间序列,例如CPU利用率、平均响应时间和每秒请求次数组合在一起就是一个多指标时间序列。
在本申请实施例中,在获取待检测的多个分组多指标时间序列矩阵,获取原始多指标时间序列;基于形状的聚类方法根据形状对原始多指标时间序列进行聚类处理,获取多个分组多指标时间序列矩阵。
在本申请实施例中,对于有n个指标,观察窗口为w的时间序列,理论上压缩感知重构有两种方法:一种是将时间序列视为一个整体矩阵,但实际操作中出现异常情况:时间序列在正常情况下应该是稳定的,但是重构后的结果却表现出频繁的波动,这可能会造成性能的不稳定。另一种是将时间序列作为多个独立的单指标时间序列,重构序列和原始序列的正常段相似,异常段不同,可以很好捕捉单指标时间序列的异常,但无法捕捉多指标时间的关系,而且会消耗更多计算资源。
因此,将多指标时间序列根据聚类算法分成多个分组,然后对每个聚类进行重构,这个聚类算法是基于时间序列的形状的,它可以同时兼顾高精度和高效率,既不会丢失时间上的关系,又可以大大减少计算时间。其中,在实际操作使用分层聚类作为基本聚类算法,不仅效率高,还不需要手动配置聚类的数量。
步骤102,对每个分组的多指标时间序列矩阵进行抗异常采样,获取多个采样矩阵。
其中,从多指标时间序列中采样,主要方法是利用高斯分布从原始时间序列中采样,为保证将压缩感知应用于正常片段,提出一种抗异常采样算法,主要是利用加权算法来计算每个时间窗口的采样置信度,以此调整每个组采样点的值,从对大量在线服务系统的调查与服务商的讨论中得到的启示发现,异常其实很少出现在现实场景中,一般是观察窗口中的一个极端值,如果异常可以持续超过一个窗口,那么它从一开始就可以被捕获,所以就可以采用简单的离群检测算法来计算每个数据点的采样置信度,二者成反比例关系,置信度越高,这个点是异常点的概率就越低,就越有可能被选择,这是抗异常算法的依据。
在本申请实施例中,把每个分组的多指标时间序列矩阵和采样率作为输入,对随机高斯样本时间戳向量进行初始化后,采用预设算法进行计算采样置信度向量,获取每个时间戳的采样置信度;基于每个时间的戳采样置信度将每次迭代映射到时间戳,计算高斯分布概率的公式为:
Figure BDA0002784882940000061
其中,Φi为第i次时间戳向量;ρ为归一化因子;step为步长;σ为标准差。
在本申请实施例中,可以根据实际应用需要选择设置ρ、step和σ的数值,比如优选ρ为0.1;step为42;σ为0.5。
将高斯分布概率与随机数值进行比较,并根据比较结果对对应时间戳的多指标时间序列矩阵进行操作,生成多个采样矩阵;其中,随机数值大于等于0小于等于1。
采样矩阵B是T和Xt c的点积,其中Xt c是簇c中Xt的k个单变量时间序列,T为待求矩阵。在应用聚类方法后,对于每一个聚类,可以得到一个多指标时间序列矩阵比如w*k(k为单指标时间序列个数)的矩阵,把它和采样率θ作为输入,初始随机高斯样本时间戳向量φ后,比如采用LESINN算法(Least Similar Nearest Nerghbours,最不相似最近邻算法)来计算采样置信度向量,它决定了每个时间戳的采样置信度。基于采样置信度将每次迭代映射到时间戳t,计算高斯分布的概率,最后与随机从[0,1]区间抽取的数值进行比较,根据比较结果对T进行操作,如果选择的随机值小,则给T中对应元素加一。在所有迭代之后,φ中的时间戳可能没有被t捕获,因此给T[i][φ]加一,i的范围从0到m,m为
Figure BDA0002784882940000072
。最后对得到的矩阵T进行归一化操作,即可得到采样矩阵B。
步骤103,基于压缩感知对多个采样矩阵进行数据重构,获取多个重构指标时间序列。
在本申请实施例中,压缩感知重构可以有效的从一系列采样中重构信号,是一个在采样过程中完成了数据压缩的过程,它打破奈奎斯特采样定律,能从更少的样本中恢复信号。重构的信号在保留原始信号主要特征的同时还能消除噪音,这很适合应用于多指标时间序列异常检测,因为根据经验和相关知识时间序列中的异常就是噪音段,直观上,只需要将重构后的时间序列和原始的时间序列进行比较来检测异常。
在本申请实施例中,通过压缩感知公式对每个采样矩阵进行数据重构,获取多个重构指标时间序列;其中,压缩感知公式为:
AX’t=B;
其中,A为采样矩阵;X’t为重构指标时间序列;A的计算公式为:
Figure BDA0002784882940000071
其中,D为X’t的反离散余弦变换。
步骤104,将多个重构指标时间序列合成重构多指标时间序列,并对比重构多指标时间序列和原始多指标时间序列的异常分数值。
步骤105,根据异常分数值和预设异常阈值确定所述多指标时间序列的异常检测结果。
在本申请实施例中,采用CVXPY来计算最小值,CVXPY是一种可以解决凸优化问题。CVXPY在方程是非齐次的情况下可能不会返回任何结果,所以需要对采样率θ进行选择以获得合适的参数。现在多指标时间序列的每个单指标时间序列簇得到了重构的时间序列,然后将重构的单指标时间序列合成多指标时间序列,可以发现原始多指标时间序列和重构多指标时间序列顺序相同。根据这个结论,通过对比两个时间序列就能判断是否出现异常。
在本申请实施例中,计算重构多指标时间序列和原始多指标时间序列之间的欧氏距离,根据欧氏距离确定异常分数值。
具体地,原始时间序列和重构的时间序列越相似,这个时间序列是正常的可能性越大,反之,二者差异越大,那么时间序列越趋向于异常。可以提出一个异常分数,以此为依据进行判别多指标时间序列是否出现异常。可以使用欧氏距离来衡量重构前后时间序列之间的差异,用di表示,为了避免在单指标时间序列中由单个显著性尖峰控制的异常分数,选择使用调和平均来计算di。
其中,需要选择一个阈值以判别是否是异常,超过阈值就可以判别为异常,可以选择静态阈值和动态阈值,由于数据可能变化很快所以静态阈值不能很好带来正确判断,直接影响到模型的性能。因此选择使用EVT来动态的调整阈值,EVT常用来分析概率罕见问题,它没有对数据分布做出假设,可以很好的满足要求。
本申请实施例的基于压缩感知的多指标时间序列异常检测方法,通过获取待检测的多个分组多指标时间序列矩阵;对每个分组的多指标时间序列矩阵进行抗异常采样,获取多个采样矩阵;基于压缩感知对多个采样矩阵进行数据重构,获取多个重构指标时间序列;将多个重构指标时间序列合成重构多指标时间序列,并对比重构多指标时间序列和原始多指标时间序列的异常分数值;根据异常分数值和预设异常阈值确定多指标时间序列的异常检测结果。由此,对聚类后的多指标时间序列矩阵进行采样后进行数据重构,并根据重构多指标时间序列和原始多指标时间序列的对比确定异常结果,提高多指标时间序列异常检测效率和准确性。
基于上述实施例的描述,结合图2-图4结合具体例子进行详细说明。
具体地,如图2所示,分为离线和在线处理两个模块。在离线处理过程中,为了应对大量的时间序列,本算法采用基于形状的聚类方法将这些时间序列分为多个组。在线处理过程中,应用滑动窗口技术,对每个分组,使用一种新提出的抗异常采样算法来解决异常段带来的影响,然后用压缩感知将进行重构。最后连接这些重构的时间序列,将其与原始时间序列进行比对,它们之前的差异作为异常分数,使用EVT阈值对异常分数进行异常检测。
具体地,在线实验:把三个数据集进行划分,训练片段逐渐增加。得到不同算法的F1-score如下图3所示,可以看到基于压缩感知的多指标时间序列异常检测方法(即JumpStarter)的性能很明显的要优于其他三种对比方法。JumpStarter和LESINN不需要进行训练学习,不管数据集的规模如何,它们的性能都表现的很稳定。除此之外,可以看到基于学习的方法,它们的F1-score(异常分数)是随着训练集规模的增加而提高,这也证明前面的说明的它们需要足够的训练数据才可以得到比较好的性能。
具体地,线下实验:将数据集划分为训练集和测试集,对模型进行训练检测,得到最好的F1-score如图3所示,最后得到的结果和在线预测保持一致,JumpStarter在三个数据集的平均最佳F1-score为94.12%,是明显高于其它三种算法的86.51%,59.64%,and82.50%。虽然OmniAnomaly(多指标时间序列异常检测的随机递归网络)的性能也比较好,但是前面提到的性能不稳定导致它在实用中并不是很适用,现实中在线服务系统的频繁变更,可能导致它的性能一直处于较差的状况。
具体地,软件变更后的异常检测:其他算法都会产生误报,但本申请的算法在五分钟后FRP(假正例率)就特别低,是远远优于其他的算法的。
具体地,压缩感知只使用一个固定长度窗口训练模型,所以JumpStarter的初始化时间就是该窗口的长度,文中设置为二十分钟,从图4可以看出比其他基于深度学习方法的初始化时间要大幅度缩减,能很好的保证异常检测模型的性能稳定性。
由此,设置了四组对比实验,分别是JumpStarter、w/o Clustering:作为整体重构.、w/o Clustering:单个指标重构、w/o采样,提高平均F1-score分数大约在5.81%~14.90%,2.58%~9.96%,and 4.69%~18.34%,检测时间分别是7891.45ms,2056.56ms,121.75ms,127.13ms。可以看出算法中的每个部件都有很大贡献,基于形状的聚类算法和抗异常采样都能有助于本申请的算法取得更好的性能,得到更高的F1-score,而且基于形状的聚类技术大幅度提高了算法的计算效率。值得一提的是,在现实部署中,JumpStarter可以准确报告异常,还可以帮助诊断出异常的根本原因,这对于操作员是十分有用的。
为了实现上述实施例,本申请还提出一种基于压缩感知的多指标时间序列异常检测装置。
图5为本申请实施例提供的一种基于压缩感知的多指标时间序列异常检测装置的结构示意图。
如图5所示,该基于压缩感知的多指标时间序列异常检测装置包括:第一获取模块510、第二获取模块520、重构模块530、对比模块540和确定模块550。
第一获取模块510,用于获取待检测的多个分组多指标时间序列矩阵。
第二获取模块520,用于对每个分组的多指标时间序列矩阵进行抗异常采样,获取多个采样矩阵。
重构模块530,用于基于压缩感知对所述多个采样矩阵进行数据重构,获取多个重构指标时间序列。
对比模块540,用于将所述多个重构指标时间序列合成重构多指标时间序列,并对比所述重构多指标时间序列和原始多指标时间序列的异常分数值。
确定模块550,用于根据所述异常分数值和预设异常阈值确定所述多指标时间序列的异常检测结果。
本申请实施例的基于压缩感知的多指标时间序列异常检测装置,通过获取待检测的多个分组多指标时间序列矩阵;对每个分组的多指标时间序列矩阵进行抗异常采样,获取多个采样矩阵;基于压缩感知对多个采样矩阵进行数据重构,获取多个重构指标时间序列;将多个重构指标时间序列合成重构多指标时间序列,并对比重构多指标时间序列和原始多指标时间序列的异常分数值;根据异常分数值和预设异常阈值确定多指标时间序列的异常检测结果。由此,对聚类后的多指标时间序列矩阵进行采样后进行数据重构,并根据重构多指标时间序列和原始多指标时间序列的对比确定异常结果,提高多指标时间序列异常检测效率和准确性。
需要说明的是,前述对基于压缩感知的多指标时间序列异常检测方法实施例的解释说明也适用于该实施例的基于压缩感知的多指标时间序列异常检测装置,此处不再赘述。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本申请的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本申请的描述中,“多个”的含义是至少两个,例如两个,三个等,除非另有明确具体的限定。
流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为,表示包括一个或更多个用于实现定制逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分,并且本申请的优选实施方式的范围包括另外的实现,其中可以不按所示出或讨论的顺序,包括根据所涉及的功能按基本同时的方式或按相反的顺序,来执行功能,这应被本申请的实施例所属技术领域的技术人员所理解。
在流程图中表示或在此以其他方式描述的逻辑和/或步骤,例如,可以被认为是用于实现逻辑功能的可执行指令的定序列表,可以具体实现在任何计算机可读介质中,以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用,或结合这些指令执行系统、装置或设备而使用。就本说明书而言,"计算机可读介质"可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。计算机可读介质的更具体的示例(非穷尽性列表)包括以下:具有一个或多个布线的电连接部(电子装置),便携式计算机盘盒(磁装置),随机存取存储器(RAM),只读存储器(ROM),可擦除可编辑只读存储器(EPROM或闪速存储器),光纤装置,以及便携式光盘只读存储器(CDROM)。另外,计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质,因为可以例如通过对纸或其他介质进行光学扫描,接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序,然后将其存储在计算机存储器中。
应当理解,本申请的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。如,如果用硬件来实现和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或他们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(PGA),现场可编程门阵列(FPGA)等。
本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,该程序在执行时,包括方法实施例的步骤之一或其组合。
此外,在本申请各个实施例中的各功能单元可以集成在一个处理模块中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。
上述提到的存储介质可以是只读存储器,磁盘或光盘等。尽管上面已经示出和描述了本申请的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本申请的限制,本领域的普通技术人员在本申请的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims (10)

1.一种基于压缩感知的多指标时间序列异常检测方法,其特征在于,包括:
获取待检测的多个分组多指标时间序列矩阵;
对每个分组的多指标时间序列矩阵进行抗异常采样,获取多个采样矩阵;
基于压缩感知对所述多个采样矩阵进行数据重构,获取多个重构指标时间序列;
将所述多个重构指标时间序列合成重构多指标时间序列,并对比所述重构多指标时间序列和原始多指标时间序列的异常分数值;
根据所述异常分数值和预设异常阈值确定所述多指标时间序列的异常检测结果。
2.如权利要求1所述的方法,其特征在于,在获取待检测的多个分组多指标时间序列矩阵,还包括:
获取所述原始多指标时间序列;
基于形状的聚类方法根据形状对所述原始多指标时间序列进行聚类处理,获取所述多个分组多指标时间序列矩阵。
3.如权利要求1所述的方法,其特征在于,所述对每个分组的多指标时间序列矩阵进行抗异常采样,获取多个采样矩阵,包括:
把所述每个分组的多指标时间序列矩阵和采样率作为输入,对随机高斯样本时间戳向量进行初始化后,采用预设算法进行计算采样置信度向量,获取每个时间戳的采样置信度;
基于所述每个时间的戳采样置信度将每次迭代映射到时间戳,计算高斯分布概率的公式为:
Figure FDA0002784882930000011
其中,Φi为第i次时间戳向量;ρ为归一化因子;step为步长;σ为标准差。
将所述高斯分布概率与随机数值进行比较,并根据比较结果对对应时间戳的多指标时间序列矩阵进行操作,生成所述多个采样矩阵;其中,所述随机数值大于等于0小于等于1。
4.如权利要求1所述的方法,其特征在于,所述基于压缩感知对所述多个采样矩阵进行数据重构,获取多个重构指标时间序列,包括:
通过压缩感知公式对每个采样矩阵进行数据重构,获取多个重构指标时间序列;其中,所述压缩感知公式为:
AX’t=B;
其中,A为采样矩阵;X’t为重构指标时间序列;A的计算公式为:
Figure FDA0002784882930000021
其中,D为X’t的反离散余弦变换。
5.如权利要求1所述的方法,其特征在于,所述对比所述重构多指标时间序列和原始多指标时间序列的异常分数值,包括:
计算所述重构多指标时间序列和原始多指标时间序列之间的欧氏距离;
根据所述欧氏距离确定所述异常分数值。
6.如权利要求1所述的方法,其特征在于,所述预设异常阈值为动态调整阈值。
7.一种基于压缩感知的多指标时间序列异常检测装置,其特征在于,所述装置包括:
第一获取模块,用于获取待检测的多个分组多指标时间序列矩阵;
第二获取模块,用于对每个分组的多指标时间序列矩阵进行抗异常采样,获取多个采样矩阵;
重构模块,用于基于压缩感知对所述多个采样矩阵进行数据重构,获取多个重构指标时间序列;
对比模块,用于将所述多个重构指标时间序列合成重构多指标时间序列,并对比所述重构多指标时间序列和原始多指标时间序列的异常分数值;
确定模块,用于根据所述异常分数值和预设异常阈值确定所述多指标时间序列的异常检测结果。
8.如权利要求7所述的装置,其特征在于,还包括:
第四获取模块,用于获取所述原始多指标时间序列;
聚类模块,用于基于形状的聚类方法根据形状对所述原始多指标时间序列进行聚类处理,获取所述多个分组多指标时间序列矩阵。
9.如权利要求7所述的装置,其特征在于,所述第二获取模块,具体用于:
把所述每个分组的多指标时间序列矩阵和采样率作为输入,对随机高斯样本时间戳向量进行初始化后,采用预设算法进行计算采样置信度向量,获取每个时间戳的采样置信度;
基于所述每个时间的戳采样置信度将每次迭代映射到时间戳,计算高斯分布概率的公式为:
Figure FDA0002784882930000031
其中,Φi为第i次时间戳向量;ρ为归一化因子;step为步长;σ为标准差。
将所述高斯分布概率与随机数值进行比较,并根据比较结果对对应时间戳的多指标时间序列矩阵进行操作,生成所述多个采样矩阵;其中,所述随机数值大于等于0小于等于1。
10.如权利要求1所述装置,其特征在于,所述重构模块,具体用于:
通过压缩感知公式对每个采样矩阵进行数据重构,获取多个重构指标时间序列;其中,所述压缩感知公式为:
AX’t=B;
其中,A为采样矩阵;X’t为重构指标时间序列;A的的计算公式为:
Figure FDA0002784882930000032
其中,D为X’t的反离散余弦变换。
CN202011294220.1A 2020-11-18 2020-11-18 基于压缩感知的多指标时间序列异常检测方法和装置 Active CN112416661B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011294220.1A CN112416661B (zh) 2020-11-18 2020-11-18 基于压缩感知的多指标时间序列异常检测方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011294220.1A CN112416661B (zh) 2020-11-18 2020-11-18 基于压缩感知的多指标时间序列异常检测方法和装置

Publications (2)

Publication Number Publication Date
CN112416661A true CN112416661A (zh) 2021-02-26
CN112416661B CN112416661B (zh) 2022-02-01

Family

ID=74773984

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011294220.1A Active CN112416661B (zh) 2020-11-18 2020-11-18 基于压缩感知的多指标时间序列异常检测方法和装置

Country Status (1)

Country Link
CN (1) CN112416661B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113190406A (zh) * 2021-04-30 2021-07-30 上海爱数信息技术股份有限公司 一种云原生可观测性下的it实体群组异常检测方法
CN113869448A (zh) * 2021-10-11 2021-12-31 国网河北省电力有限公司电力科学研究院 基于压缩感知的故障评估方法、装置、设备及存储介质
CN115225455A (zh) * 2022-06-15 2022-10-21 中国电信股份有限公司 异常设备检测方法及装置、电子设备、存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105636094A (zh) * 2016-03-16 2016-06-01 中国地质大学(武汉) 基于分簇压缩感知的无线传感网预警方法及系统
CN106230441A (zh) * 2016-07-14 2016-12-14 哈尔滨工业大学 一种基于m序列的可变维度的压缩感知观测矩阵构造方法
CN110991504A (zh) * 2019-11-22 2020-04-10 齐鲁工业大学 基于motcn-ae的多维时间序列异常值检测方法及系统
CN111814897A (zh) * 2020-07-20 2020-10-23 辽宁大学 一种基于多层次shapelet的时间序列数据分类方法
CN111880998A (zh) * 2020-07-30 2020-11-03 平安科技(深圳)有限公司 服务系统异常检测方法、装置、计算机设备和存储介质

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105636094A (zh) * 2016-03-16 2016-06-01 中国地质大学(武汉) 基于分簇压缩感知的无线传感网预警方法及系统
CN106230441A (zh) * 2016-07-14 2016-12-14 哈尔滨工业大学 一种基于m序列的可变维度的压缩感知观测矩阵构造方法
CN110991504A (zh) * 2019-11-22 2020-04-10 齐鲁工业大学 基于motcn-ae的多维时间序列异常值检测方法及系统
CN111814897A (zh) * 2020-07-20 2020-10-23 辽宁大学 一种基于多层次shapelet的时间序列数据分类方法
CN111880998A (zh) * 2020-07-30 2020-11-03 平安科技(深圳)有限公司 服务系统异常检测方法、装置、计算机设备和存储介质

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
孙栓柱等: "一种基于贝叶斯后验的异常值在线检测及置信度评估算法", 《中国科学技术大学学报》 *
张馨月等: "基于压缩感知的高光谱图像重建研究综述", 《第十三届全国信号和智能信息处理与应用学术会议论文集》 *
陈分雄: "无线传感网中事件监测的压缩感知与异常检测算法研究", 《中国优秀博硕士学位论文全文数据库(博士)(信息科技辑)》 *

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113190406A (zh) * 2021-04-30 2021-07-30 上海爱数信息技术股份有限公司 一种云原生可观测性下的it实体群组异常检测方法
CN113190406B (zh) * 2021-04-30 2023-02-03 上海爱数信息技术股份有限公司 一种云原生可观测性下的it实体群组异常检测方法
CN113869448A (zh) * 2021-10-11 2021-12-31 国网河北省电力有限公司电力科学研究院 基于压缩感知的故障评估方法、装置、设备及存储介质
CN115225455A (zh) * 2022-06-15 2022-10-21 中国电信股份有限公司 异常设备检测方法及装置、电子设备、存储介质
CN115225455B (zh) * 2022-06-15 2024-07-05 中国电信股份有限公司 异常设备检测方法及装置、电子设备、存储介质

Also Published As

Publication number Publication date
CN112416661B (zh) 2022-02-01

Similar Documents

Publication Publication Date Title
CN112416661B (zh) 基于压缩感知的多指标时间序列异常检测方法和装置
CN113518011B (zh) 异常检测方法和装置、电子设备及计算机可读存储介质
CN112416643A (zh) 无监督异常检测方法与装置
CN116108008A (zh) 一种装饰材料甲醛检测数据处理方法
CN117668684B (zh) 基于大数据分析的电网电能数据异常检测方法
CN112101554B (zh) 异常检测方法及装置、设备、计算机可读存储介质
US12079070B2 (en) Alert similarity and label transfer
CN116066343B (zh) 一种输油泵机组故障模型的智能预警方法及系统
CN110580488A (zh) 基于字典学习的多工况工业监测方法、装置、设备及介质
CN113723861B (zh) 异常用电行为检测方法、装置、计算机设备和存储介质
CN113537352A (zh) 传感器异常值监测方法、装置、计算机设备及存储介质
CN112202630A (zh) 一种基于无监督模型的网路质量异常检测方法及装置
CN111104736A (zh) 基于时间序列的异常数据检测方法、装置、介质和设备
CN118965026A (zh) 数据同步性能监测的风机电站数据处理方法及系统
CN118329197A (zh) 一种印刷版辊的异常监测方法及系统
CN119556197A (zh) 一种新能源汽车线束电压的测试方法、装置
CN114553681A (zh) 设备状态异常检测方法、装置和计算机设备
CN118152829B (zh) 一种油式铁芯电抗器的健康状态评估方法及系统
CN112965964B (zh) 一种实测飞参数据的野值检测方法、系统及计算机相关产品
US11495114B2 (en) Alert similarity and label transfer
CN118190051A (zh) 一种故障检测方法及装置、计算机可读存储介质
CN116306217A (zh) 基于慢特征信息增益比的轨迹相似性剩余寿命预测方法
KR20220028727A (ko) 열화에 따른 시계열 데이터를 이용한 실시간 이상 감지 방법 및 그를 위한 장치
CN118569509B (zh) 一种电能计量数据的处理方法及系统
US20220308974A1 (en) Dynamic thresholds to identify successive alerts

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant