CN116383096A - 基于多指标时序预测的微服务系统异常检测方法及装置 - Google Patents

基于多指标时序预测的微服务系统异常检测方法及装置 Download PDF

Info

Publication number
CN116383096A
CN116383096A CN202310661193.4A CN202310661193A CN116383096A CN 116383096 A CN116383096 A CN 116383096A CN 202310661193 A CN202310661193 A CN 202310661193A CN 116383096 A CN116383096 A CN 116383096A
Authority
CN
China
Prior art keywords
index
time
attention
data
time sequence
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202310661193.4A
Other languages
English (en)
Other versions
CN116383096B (zh
Inventor
张志高
张泽锟
龚栎鑫
陈伟雄
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Anhui Sigao Intelligent Technology Co ltd
Original Assignee
Anhui Sigao Intelligent Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Anhui Sigao Intelligent Technology Co ltd filed Critical Anhui Sigao Intelligent Technology Co ltd
Priority to CN202310661193.4A priority Critical patent/CN116383096B/zh
Publication of CN116383096A publication Critical patent/CN116383096A/zh
Application granted granted Critical
Publication of CN116383096B publication Critical patent/CN116383096B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/36Preventing errors by testing or debugging software
    • G06F11/3668Software testing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • G06N3/0442Recurrent networks, e.g. Hopfield networks characterised by memory or gating, e.g. long short-term memory [LSTM] or gated recurrent units [GRU]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • G06N3/0455Auto-encoder networks; Encoder-decoder networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Software Systems (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Quality & Reliability (AREA)
  • Computer Hardware Design (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Debugging And Monitoring (AREA)

Abstract

本发明涉及微服务系统检测领域,具体公开了一种基于多指标时序预测的微服务系统异常检测方法及装置。包括:采集微服务系统指标和微服务业务指标组成多元指标时序数据,并进行预处理;根据预处理后的时序数据构建特征注意力编码器,赋予指标特征不同的注意力权重;使用LSTM作为编码器函数,通过时序注意力更新不同时间阶段权重;构建非线性自回归时序预测模型,生成下一时刻多元指标预测值集合;根据多元指标真实数据和非线性自回归时序预测值生成预测残差;根据孤立森林设置阈值检测微服务关键指标异常。本发明结合微服务多元指标相关性构建特征注意力和时序注意力模型,能够挖掘微服务系统指标和业务指标中的潜在信息,提升异常检测性能。

Description

基于多指标时序预测的微服务系统异常检测方法及装置
技术领域
本发明涉及微服务系统检测领域,具体涉及一种基于多指标时序预测的微服务系统异常检测方法及装置。
背景技术
互联网的高速发展积累了大量计算、存储、网络、服务、应用和数据等资源,传统单体架构已经不能满足复杂的资源管理需要。在推进数字化的过程中,云计算扮演着重要的角色,为互联网的繁荣发展提供有力的保障和支撑。以云计算为平台搭建的微服务系统继承了云计算的极致弹性,微服务系统将传统的应用程序分解为细粒度、组件化的、松耦合的微服务。微服务对部署、运维,通讯均实现了标准化,让服务与服务之间的互联互通变得更容易,且支持跨平台,做到一次编写、一次定义、多处运行。但微服务带来便捷的同时,也产生了一些新问题:随着微服务数量和范围的扩大,运行环境和服务依赖变得更加复杂,使得管理和运维难度不断攀升。根据《Digital Enterprise Journal》针对全球Top企业运维管理的研究报告,在过去几年中,被调研的所有企业中仅有39%的异常被主动检测并产生预警,系统整体性能下降导致的损失达到平均每月近213万美元,且修复重大异常事件平均需要花费3.7小时。面对数据量庞大、运行环境复杂、监测指标繁多的微服务环境,传统依赖人工经验的运维方式已经不能满足业务要求,微服务系统具有服务调用复杂、指标数量多等特点。在复杂服务依赖网络中快速检测异常,需依赖关键监测指标,掌握应用系统的运行状态。
通过监控手段,微服务在运行中会持续产生各类指标数据,其中包括微服务系统指标、微服务业务指标等。利用上述指标数据构建有监督或者无监督的机器学习模型能够基于系统运行状态实现异常情况检测。针对微服务异常检测场景,目前已有学者提出相关方法:文献[S. Lin, R. Clark, R. Birke, S. Schonborn, N. Trigoni, andS.Roberts, “AnomalyDetection for Time Series Using VAE-LSTM Hybrid Model,” inICASSP 2020 - 2020 IEEEInternational Conference on Acoustics, Speech andSignal Processing (ICASSP),Barcelona, Spain, May 2020, pp. 4322–4326.]使用重构模型对正常的时序数据进行训练,将预测误差建模为多元高斯分布实现异常检测,但模型构建过程中忽略了多元指标之间的关联性,无法覆盖多种异常场景。文献[P. Liu etal., “Unsupervised Detection of Microservice Trace Anomalies throughService-Level Deep Bayesian Networks,” in ISSRE, Coimbra, Portugal, Oct. 2020, pp.48–58.]提出了一种基于调用链的微服务异常监测方法,通过生成模型对实时保存的数据样本进行异常检测。基于调用链信息构建的链路向量包含较多无用信息,异常检测准确率有进一步提升空间。
发明内容
针对异常检测场景中指标繁多、噪声较大的技术问题,本发明结合微服务多元指标相关性构建特征注意力和时序注意力模型,挖掘微服务系统指标和微服务业务指标中的潜在信息,提升微服务系统异常检测准确率。
为了实现上述目的,本发明提供了一种基于多指标时序预测的微服务系统异常检测方法,包括以下步骤:
S1:采集微服务系统的多元指标时序数据,并对多元指标时序数据进行预处理,所述多元指标时序数据包括:系统指标和业务指标组成的时序数据;
S2:根据预处理后的多元指标时序数据构建特征注意力编码器,赋予指标特征不同的注意力权重;
S3:使用LSTM作为编码器函数,通过时序注意力更新不同时间阶段的注意力权重;
S4:构建非线性自回归时序预测模型,生成下一时刻多元指标预测值集合;
S5:根据多元指标真实值和非线性自回归时序预测模型生成的多元指标预测值生成预测残差;
S6:根据预测残差计算各指标的异常得分,根据孤立森林设置异常概率的阈值,根据异常得分与阈值的关系获得微服务器系统指标异常检测结果。
进一步地,步骤S1具体包括:
S1.1:所述微服务系统指标数据包含物理服务器和容器的CPU使用情况、内存使用情况、I/O和网络负载等;微服务业务指标数据主要聚焦微服务的响应时间、网络请求量和响应成功率等指标数据。特别地,对于响应时间设置P99、P95和P90指标,分别表示响应时间指标的99%、95%和90%分位数。
S1.2:所述预处理操作包含缺失值处理、数据标准化;
所述缺失值处理指对于对于微服务系统指标数据和微服务业务指标数据而言,对极少量缺失数据行或数据列的数据采取平均值填充方法进行补全修复。
所述数据标准化指在数据预处理阶段,为了降低不同监测指标量纲和波动程度对模型预测结果的影响,对所有指标数据采用公式进行归一化处理:
Figure SMS_1
其中,
Figure SMS_2
表示指标数据归一化后的结果,/>
Figure SMS_3
表示待处理指标数据,/>
Figure SMS_4
和/>
Figure SMS_5
表示该监测指标在历史时间窗口内的最大值和最小值。
部分研究表明,针对多元监测指标时间序列数据,相比针对单一指标建模,结合指标间多元相关性能够更实现更准确的预测。考虑到该特性,本发明根据多元指标之间特征相关性建立特征注意力机制。
进一步地,步骤S2具体包括:
S2.1:给定
Figure SMS_7
维监测指标时间序列/>
Figure SMS_9
,其中/>
Figure SMS_12
表示步骤S1中收集数据的初始时刻到当前时刻的时间段,通过SoftAttention构建特征注意力权重机制获取/>
Figure SMS_8
维指标特征在/>
Figure SMS_11
时刻的注意力分数。具体来说,根据/>
Figure SMS_13
时刻的隐含层状态/>
Figure SMS_14
和记忆单元状态/>
Figure SMS_6
组合得到/>
Figure SMS_10
时刻的注意力分数:
Figure SMS_15
其中,
Figure SMS_16
、/>
Figure SMS_17
和/>
Figure SMS_18
是特征注意力机制所学习的参数,/>
Figure SMS_19
代表监测指标个数。
S2.2:将注意力分数
Figure SMS_20
送入softmax激活函数,得到/>
Figure SMS_21
维指标数据特征在/>
Figure SMS_22
时刻的注意力权重/>
Figure SMS_23
Figure SMS_24
S2.3:更新时刻
Figure SMS_25
的编码器隐层状态。在/>
Figure SMS_26
时刻,对于每一维时序特征/>
Figure SMS_27
,组合权重
Figure SMS_28
更新其重要程度,将更新后的输入变量拼接得到时刻/>
Figure SMS_29
的输入特征向量:
Figure SMS_30
最终时刻
Figure SMS_31
的编码器隐层状态更新为:
Figure SMS_32
其中
Figure SMS_33
表示LSTM编码器函数。
区别于简单赋予输入特征相同权重,引入特征注意力机制使模型在训练过程能够自适应地关注对指标变化有重要影响的特征,从而起到突出重要特征同时抑制无用信息的作用。
除了特征相关性之外,数据在时间维度上的表现对预测结果也有较大影响,具体来说,较近时间点对预测值的影响往往大于较远时间点。相关研究指出时间序列预测模型的性能与编码器输入长度成反比。相比于直接缩短编码器的输入长度,引入时间注意力机制可以提取出全部时间序列中的关键序列点,从而在控制编码器长度的同时实现较好的预测效果。
进一步地,步骤S3具体包括:
S3.1:在解码器阶段,获取
Figure SMS_34
时刻的注意力权重:
在时刻
Figure SMS_35
,每一个编码器隐层状态权重通过前一时刻的解码器隐层状态/>
Figure SMS_36
和记忆单元状态/>
Figure SMS_37
计算得到:
Figure SMS_38
Figure SMS_39
其中
Figure SMS_42
表示预测的当前时刻,/>
Figure SMS_45
为状态的拼接,/>
Figure SMS_47
、/>
Figure SMS_41
和/>
Figure SMS_43
为需要学习的隐藏层参数,注意力权重/>
Figure SMS_46
代表第/>
Figure SMS_48
个隐藏层状态的重要性,/>
Figure SMS_40
表示时刻/>
Figure SMS_44
的隐藏层状态。
S3.2:累加权重得到上下文向量。将隐藏层状态
Figure SMS_49
作为时序模块输入,时间注意力机制根据权重累加所有时刻的/>
Figure SMS_50
,得到向量/>
Figure SMS_51
Figure SMS_52
进一步地,步骤S4具体包括:
S4.1:将
Figure SMS_53
时刻的上下文向量/>
Figure SMS_54
和待预测目标历史数据/>
Figure SMS_55
组合经感知器融合得到时序注意力解码器的隐层输入/>
Figure SMS_56
Figure SMS_57
其中
Figure SMS_58
和/>
Figure SMS_59
为网络权重和偏置项。
S4.2:组合隐层信息和待预测值历史数据,基于非线性自回归(Nonlinearautoregressive exogenous,NARX)模型对预测结果进行回归。具体来说,组合
Figure SMS_60
时刻的预测值/>
Figure SMS_61
计算/>
Figure SMS_62
时刻的解码器隐层信息:
Figure SMS_63
其中
Figure SMS_64
为前一时刻的隐层状态/>
Figure SMS_65
,/>
Figure SMS_66
的拼接组合,/>
Figure SMS_67
为LSTM层。
S4.3:预测下一时刻
Figure SMS_68
的指标值。最终预测值/>
Figure SMS_69
通过预测目标历史数据和监测指标历史数据:
Figure SMS_70
其中F表示解码器函数,
Figure SMS_72
代表解码器隐藏层状态信息,/>
Figure SMS_74
表示时序注意力机制的上下文语义信息,/>
Figure SMS_76
、/>
Figure SMS_73
表示偏置项。/>
Figure SMS_75
和/>
Figure SMS_77
的组合经过权重为/>
Figure SMS_78
、偏差为/>
Figure SMS_71
的全连接层/>
Figure SMS_79
最终得到指标预测值。
进一步地,步骤S5具体包括:
通过非线性自回归时序预测模型,得到预测值集合
Figure SMS_80
,将/>
Figure SMS_81
与真实值集合/>
Figure SMS_82
比较得到预测残差。残差越大表示监测指标实际结果偏离正常预测水平越多。在/>
Figure SMS_83
个指标中,第
Figure SMS_84
个指标在/>
Figure SMS_85
时刻的预测残差如下:
Figure SMS_86
其中,
Figure SMS_87
和/>
Figure SMS_88
分别表示/>
Figure SMS_89
时刻的预测值和真实值。历史时间窗口/>
Figure SMS_90
中的残差序列可以表示为:
Figure SMS_91
其中,
Figure SMS_92
表示距离当前时刻th时刻的历史残差值,/>
Figure SMS_93
表示距离当前时刻/>
Figure SMS_94
l s 时刻的历史残差值。
进一步地,步骤S6具体包括:
S6.1:输入预测残差集合
Figure SMS_95
,从/>
Figure SMS_96
中随机选择/>
Figure SMS_97
个样本点作为样本子集/>
Figure SMS_98
作为模型树根节点。
S6.2:从
Figure SMS_99
维特征中随机选择一个特征/>
Figure SMS_100
,并在特征/>
Figure SMS_101
范围内生成一个满足公式以下条件的随机切割点/>
Figure SMS_102
Figure SMS_103
其中,e ij 表示预测残差集合
Figure SMS_104
中第i时刻的第j个特征,x ij 表示样本子集/>
Figure SMS_105
中第i时刻的第j个特征。
S6.3:根据
Figure SMS_106
生成一个超平面划分当前数据空间:根据二分法将特征/>
Figure SMS_107
下的样本点根据切割点/>
Figure SMS_108
划分至当前节点的左右子分支。对节点的子分支递归执行步骤S6.2和步骤S6.3,不断构造新的叶子节点,直到满足停止条件:所有样本点均划分至不同的数据空间或孤立树高度到达设定的最大值。
循环步骤S6.1至步骤S6.3,生成
Figure SMS_109
棵iTree。
S6.4:根据iTree计算各样本数据
Figure SMS_110
在孤立森林中的平均高度/>
Figure SMS_111
,并对残差集合
Figure SMS_112
中样本点的平均路径长度归一化处理。最终通过公式计算异常得分:
Figure SMS_113
Figure SMS_114
Figure SMS_115
其中
Figure SMS_116
表示二叉搜索树的平均路径长度,用于归一化,/>
Figure SMS_117
表示样本个数,H(i)为调和数,/>
Figure SMS_118
为常数,约为0.57,/>
Figure SMS_119
表示/>
Figure SMS_120
在所有iTree中的平均路径长度;
S6.5:设置合理阈值检测微服务系统异常。设定异常概率的阈值为历史指标数据三倍标准差
Figure SMS_121
,若某时刻样本的异常分数和异常分数平均值之差大于/>
Figure SMS_122
,则该样本将划分为异常数据。
此外,为了实现上述目的,本发明还提供了一种基于多指标时序预测的微服务系统异常检测装置,包括以下模块:
数据采集及预处理模块,用于采集微服务系统的多元指标时序数据,并对时序数据进行预处理,所述多元指标时序数据包括:系统指标和业务指标组成的时序数据;
注意力权重赋值模块,用于根据预处理后的多元指标时序数据构建特征注意力编码器,赋予指标特征不同的注意力权重;
时序注意力更新模块,用于使用LSTM作为编码器函数,通过时序注意力更新不同时间阶段权重;
自回归时序预测模块,用于构建非线性自回归时序预测模型,生成下一时刻多元指标预测值集合
预测残差生成模块,用于根据多元指标真实值和非线性自回归时序预测模型生成的多元指标预测值生成预测残差;
指标异常检测模块,用于根据预测残差计算各指标的异常得分,根据孤立森林设置异常概率的阈值,根据异常得分与阈值的关系获得微服务器系统指标异常检测结果。
本发明提供的技术方案具有以下有益效果:
(1)本发明所构建的微服务多元指标特征注意力模型,相比于针对单一指标建模,能够根据多元指标间的相关性挖掘特征之间的潜在信息,增强模型的适用范围;
(2)除了特征相关性之外,数据在时间维度上的表现对预测结果也有较大影响,本发明所构建的微服务多元指标时序注意力模型,以提取出全部时间序列中的关键序列点,从而在控制编码器长度的同时提升异常检测性能。
附图说明
下面将结合附图及实施例对本发明作进一步说明,附图中:
图1是本发明中的一种基于多指标时序预测的微服务系统异常检测方法的执行流程图;
图2是本发明中的基于双注意力时序预测模型和孤立森林的异常检测架构图;
图3是本发明中的特征注意力机制模型;
图4是本发明中的时序注意力机制模型;
图5是本发明中的双注意力时序预测模型整体框架;
图6是本发明中的双注意力时序预测模型训练过程;
图7是本发明中一个实施例在数据集上预测序列和真实序列的残差示意图;
图8是本发明中的特征注意力在预测过程中的权重;
图9是本发明中的时序注意力在预测过程中的权重;
图10是本发明中的一种基于多指标时序预测的微服务系统异常检测装置的结构示意图;
图11是本发明中的一种电子设备结构示意图。
具体实施方式
为了对本发明的技术特征、目的和效果有更加清楚的理解,现对照附图详细说明本发明的具体实施方式。
为了对本发明的技术特征、目的和效果有更加清楚的理解,现对照附图详细说明本发明的具体实施方式。
下面是应用本发明的方法进行微服务系统多元指标异常检测的具体实施例,实施例采用两个数据集,其中一个数据集选取自2019年国际AIOps挑战赛(InternationalAIOps Challenge,IAC),该数据集(IAC2019)从运行大数据批处理的微服务系统中收集得到,包含实时性能指标和黄金业务指标,在不同维度反映系统的运行状况。另一个数据集来自于包含11个微服务的电子商务系统Online-boutique。在该系统上搭建数据采集工具Node Exporter和Prometheus,分别采集系统级指标和应用级指标,如表1所示;随后通过注入CPU满载、网络延迟或容器暂停等方式得到异常数据和标签:
Figure SMS_123
最终两个数据集的详细特征如表2所示;
Figure SMS_124
基于上述两个数据集,如图1、图2所示,本发明的实施步骤具体如下:
首先,执行步骤S1,采集微服务系统指标和微服务业务指标组成多元指标时间序列数据,并对多元指标时序数据进行预处理生成k维时间序列;
进一步地,执行步骤S2,根据预处理后的多元指标时序数据构建特征注意力编码器,如图3所示,赋予指标特征不同的注意力权重,具体包括:
步骤S2.1:给定
Figure SMS_125
维监测指标时间序列/>
Figure SMS_126
,其中T表示步骤S1中收集数据的初始时刻到当前时刻的时间段。通过SoftAttention构建特征注意力权重机制获取k维指标特征在t时刻的注意力分数。具体来说,根据/>
Figure SMS_127
时刻的隐含层状态/>
Figure SMS_128
和记忆单元状态/>
Figure SMS_129
组合得到/>
Figure SMS_130
时刻的注意力分数:
Figure SMS_131
其中,
Figure SMS_132
,/>
Figure SMS_133
,/>
Figure SMS_134
是特征注意力机制所学习的参数,/>
Figure SMS_135
代表监测指标个数。
步骤S2.2:将注意力分数
Figure SMS_136
送入softmax激活函数,得到/>
Figure SMS_137
维指标数据特征在/>
Figure SMS_138
时刻的注意力权重/>
Figure SMS_139
Figure SMS_140
步骤S2.3:更新时刻t的编码器隐层状态。在
Figure SMS_141
时刻,对于每一维时序特征/>
Figure SMS_142
,组合权重/>
Figure SMS_143
更新其重要程度,将更新后的输入变量拼接得到时刻/>
Figure SMS_144
的输入特征向量:
Figure SMS_145
最终时刻
Figure SMS_146
的编码器隐层状态更新为:
Figure SMS_147
其中
Figure SMS_148
表示LSTM编码器函数。
进一步地,执行步骤S3,使用LSTM作为编码器函数,通过时序注意力更新不同时间阶段权重,如图4所示;具体包括以下步骤:
步骤S3.1:在解码器阶段,获取i时刻的注意力权重:
在时刻
Figure SMS_149
,每一个解码器的隐层状态权重通过前一时刻的解码器隐层状态/>
Figure SMS_150
和记忆单元状态/>
Figure SMS_151
计算得到:
Figure SMS_152
Figure SMS_153
其中T表示预测的当前时刻,
Figure SMS_154
为状态的拼接,/>
Figure SMS_155
、/>
Figure SMS_156
和/>
Figure SMS_157
为需要学习的隐藏层参数,注意力权重/>
Figure SMS_158
代表第/>
Figure SMS_159
个隐藏层状态的重要性,h i 表示时刻i的隐藏层状态。
步骤S3.2:累加权重得到上下文向量。将编码器隐藏层状态
Figure SMS_160
作为时序模块输入,时间注意力机制根据权重累加所有时刻的/>
Figure SMS_161
,得到向量/>
Figure SMS_162
Figure SMS_163
进一步地,执行步骤S4:图5表示双注意力时序预测模型整体框架,基于双注意力时序预测模型整体框架构建非线性自回归时序预测模型,生成下一时刻多元指标预测值集合,具体包括:
步骤S4.1:将
Figure SMS_164
时刻的上下文向量/>
Figure SMS_165
和待预测目标历史数据/>
Figure SMS_166
组合经感知器融合得到时序注意力解码器的隐层输入/>
Figure SMS_167
Figure SMS_168
其中
Figure SMS_169
和/>
Figure SMS_170
为网络权重和偏置项。
步骤S4.2:组合隐层信息和待预测值历史数据,基于非线性自回归(Nonlinearautoregressive exogenous,NARX)模型对预测结果进行回归。具体来说,组合
Figure SMS_171
时刻的预测值/>
Figure SMS_172
计算/>
Figure SMS_173
时刻的解码器隐层信息:
Figure SMS_174
其中
Figure SMS_175
为前一时刻的解码器隐层状态/>
Figure SMS_176
,/>
Figure SMS_177
的拼接组合,/>
Figure SMS_178
为LSTM层。
步骤S4.3:预测下一时刻
Figure SMS_179
的指标值。最终预测值/>
Figure SMS_180
通过预测目标历史数据和监测指标历史数据得到:
Figure SMS_181
其中F表示解码器函数,
Figure SMS_184
代表解码器隐藏层状态信息,/>
Figure SMS_187
表示时序注意力机制的上下文语义信息,/>
Figure SMS_189
、/>
Figure SMS_183
表示偏置项。/>
Figure SMS_186
和/>
Figure SMS_188
的组合经过权重为/>
Figure SMS_190
、偏差为/>
Figure SMS_182
的全连接层/>
Figure SMS_185
最终得到指标预测值。
图6展示了本发明中的双注意力时序预测模型训练过程,进一步地,执行步骤S5:根据多元指标真实数据和非线性自回归时序预测值生成预测残差,具体包括:
通过非线性自回归时序预测模型,得到预测值集合
Figure SMS_191
,将/>
Figure SMS_192
与真实值集合/>
Figure SMS_193
比较得到预测残差。残差越大表示监测指标实际结果偏离正常预测水平越多。在/>
Figure SMS_194
个指标中,第
Figure SMS_195
个指标在/>
Figure SMS_196
时刻的预测残差如下:
Figure SMS_197
其中,
Figure SMS_198
和/>
Figure SMS_199
分别表示/>
Figure SMS_200
时刻的预测值和真实值。历史时间窗口/>
Figure SMS_201
中的残差序列可以表示为:
Figure SMS_202
其中,
Figure SMS_203
表示距离当前时刻th时刻的历史残差值,/>
Figure SMS_204
表示距离当前时刻tl s 时刻的历史残差值。
根据本发明的一个实施例,将IAC2019数据集中CPU指标时间序列的真实曲线和预测曲线对比,如图7所示。其中柱状部分为指标时间序列中异常出现的时间段,两条曲线分别表示时序真实值和预测值。
进一步地,执行步骤S6:孤立森林设置阈值检测微服务关键指标异常
步骤S6.1:输入预测残差集合
Figure SMS_205
,从/>
Figure SMS_206
中随机选择/>
Figure SMS_207
个样本点作为样本子集/>
Figure SMS_208
作为模型树根节点。
步骤S6.2:从
Figure SMS_209
维中随机选择一个特征/>
Figure SMS_210
,并在特征/>
Figure SMS_211
范围内生成一个满足公式以下条件的随机切割点/>
Figure SMS_212
Figure SMS_213
其中,e ij 表示预测残差集合
Figure SMS_214
中第i时刻的第j个特征,x ij 表示样本子集/>
Figure SMS_215
中第i时刻的第j个特征。
步骤S6.3:根据
Figure SMS_216
生成一个超平面划分当前数据空间:根据二分法将特征/>
Figure SMS_217
下的样本点根据切割点/>
Figure SMS_218
划分至当前节点的左右子分支。对节点的子分支递归执行步骤6.2和步骤6.3,不断构造新的叶子节点,直到满足停止条件:所有样本点均划分至不同的数据空间或孤立树高度到达设定的最大值。
循环步骤S6.1至步骤S6.3,生成
Figure SMS_219
棵iTree。
步骤S6.4:根据iTree计算各样本数据
Figure SMS_220
在孤立森林中的平均高度/>
Figure SMS_221
,并对残差集合/>
Figure SMS_222
中样本点的平均路径长度归一化处理。最终通过公式计算异常得分:
Figure SMS_223
Figure SMS_224
Figure SMS_225
其中
Figure SMS_226
表示二叉搜索树的平均路径长度,用于归一化,/>
Figure SMS_227
表示样本个数,H(i)为调和数,/>
Figure SMS_228
为常数,约为0.57,/>
Figure SMS_229
表示/>
Figure SMS_230
在所有iTree中的平均路径长度;
步骤S6.5:设置合理阈值检测微服务系统异常。设定异常概率的阈值为历史指标数据三倍标准差
Figure SMS_231
,若某时刻样本的异常分数和异常分数平均值之差大于/>
Figure SMS_232
,则该样本将划分为异常数据。
作为本发明的一个实施例,表3展示了不同对比方法的综合性能表现。本发明所提出的微服务异常检测DA-LSTM+iF方法在IAC2019和Online-boutique数据集上的表现均优于其他对比方法。同时也可以看出所有被评估的异常检测方法在Online-boutique数据集上的表现整体低于在IAC2019数据集上的表现,主要有以下几个原因:第一,Online-boutique数据集中存在部分真实场景下的非异常性波动,这些通常由于云原生系统环境动态变化造成,持续时间较短。这些波动对业务无显著影响,但算法易将其检测为异常。第二,Online-boutique数据集表现出的长短期周期性不够明显,异常所表现出的特征不易被捕捉。
Figure SMS_233
图8展示了在Online-boutique数据集上预测内存使用率指标时间序列过程中多维指标特征在编码器单元的权重。由于CPU利用率指标、Pod负载指标特征和内存使用率指标和具有较强的相关性,注意力赋予其更高的权重。同时对相关性较低的Pod延迟指标、Pod成功率指标则赋予较低的权重。同时,时间注意力机制在时间序列上也现出更好的建模能力,如图9所示,距离当前预测时刻更近的时间段在预测过程被赋予更高的权重。本发明提出的异常检测模型能够自适应地赋予历史上下文信息不同的权重,相比于传统时序模型表现出更强的重要信息提取能力。
下面对本发明提供的一种基于多指标时序预测的微服务系统异常检测装置进行描述,下文描述的微服务系统异常检测装置与上文描述的微服务系统异常检测方法可相互对应参照。
如图10所示,一种基于多指标时序预测的微服务系统异常检测装置,包括以下模块:
数据采集及预处理模块001,用于采集微服务系统的多元指标时序数据,并对时序数据进行预处理,所述多元指标时序数据包括:系统指标和业务指标组成的时序数据;
注意力权重赋值模块002,用于根据预处理后的多元指标时序数据构建特征注意力编码器,赋予指标特征不同的注意力权重;
时序注意力更新模块003,用于使用LSTM作为编码器函数,通过时序注意力更新不同时间阶段权重;
自回归时序预测模块004,用于构建非线性自回归时序预测模型,生成下一时刻多元指标预测值集合
预测残差生成模块005,用于根据多元指标真实值和非线性自回归时序预测模型生成的多元指标预测值生成预测残差;
指标异常检测模块006,用于根据预测残差计算各指标的异常得分,根据孤立森林设置异常概率的阈值,根据异常得分与阈值的关系获得微服务器系统指标异常检测结果。
基于但不限于上述装置,所述数据采集及预处理模块001具体用于:
采集包含物理服务器和容器的CPU使用情况、内存使用情况、I/O和网络负载等系统指标;采集包括微服务的响应时间、网络请求量和响应成功率等业务指标数据。特别地,对于响应时间设置P99、P95和P90指标,分别表示响应时间指标的99%、95%和90%分位数。
对各指标组成的时序数据进行缺失值处理、数据标准化;
所述缺失值处理指对于对于微服务系统指标数据和微服务业务指标数据而言,对极少量缺失数据行或数据列的数据采取平均值填充方法进行补全修复。
所述数据标准化指在数据预处理阶段,为了降低不同监测指标量纲和波动程度对模型预测结果的影响,对所有指标数据采用公式进行归一化处理:
Figure SMS_234
其中,
Figure SMS_235
表示指标数据归一化后的结果,/>
Figure SMS_236
表示待处理指标数据,/>
Figure SMS_237
和/>
Figure SMS_238
表示该监测指标在历史时间窗口内的最大值和最小值。
基于但不限于上述装置,所述注意力权重赋值模块002具体用于:
给定
Figure SMS_239
维监测指标时间序列/>
Figure SMS_240
,其中T表示步骤S1中收集数据的初始时刻到当前时刻的时间段。通过SoftAttention构建特征注意力权重机制获取k维指标特征在t时刻的注意力分数/>
Figure SMS_241
;所述注意力分数通过/>
Figure SMS_242
时刻的隐含层状态/>
Figure SMS_243
和记忆单元状态/>
Figure SMS_244
组合得到:
Figure SMS_245
其中,
Figure SMS_246
,/>
Figure SMS_247
,/>
Figure SMS_248
是特征注意力机制所学习的参数,/>
Figure SMS_249
代表监测指标个数;
将注意力分数
Figure SMS_250
送入softmax激活函数,得到/>
Figure SMS_251
维指标数据特征在/>
Figure SMS_252
时刻的注意力权重/>
Figure SMS_253
Figure SMS_254
更新时刻t的编码器隐层状态:在
Figure SMS_255
时刻,对于每一维时序特征/>
Figure SMS_256
,组合权重/>
Figure SMS_257
更新其重要程度,将更新后的输入变量拼接得到时刻/>
Figure SMS_258
的输入特征向量:
Figure SMS_259
最终时刻
Figure SMS_260
的编码器隐层状态更新为:
Figure SMS_261
其中
Figure SMS_262
表示LSTM编码器函数。
基于但不限于上述装置,所述时序注意力更新模块003,具体用于:
在解码器阶段,获取i时刻的注意力权重:在时刻
Figure SMS_263
,每一个解码器的隐层状态权重通过前一时刻的解码器隐层状态/>
Figure SMS_264
和记忆单元状态/>
Figure SMS_265
计算得到:
Figure SMS_266
/>
Figure SMS_267
其中T表示预测的当前时刻,
Figure SMS_268
为状态的拼接,/>
Figure SMS_269
、/>
Figure SMS_270
和/>
Figure SMS_271
为需要学习的隐藏层参数,注意力权重/>
Figure SMS_272
代表第/>
Figure SMS_273
个隐藏层状态的重要性,h i 表示时刻i的隐藏层状态;
累加权重得到上下文向量:将编码器隐藏层状态
Figure SMS_274
作为时序模块输入,时间注意力机制根据权重累加所有时刻的/>
Figure SMS_275
,得到上下文向量/>
Figure SMS_276
Figure SMS_277
基于但不限于上述装置,所述自回归时序预测模块004,具体用于:
Figure SMS_278
时刻的上下文向量/>
Figure SMS_279
和待预测目标历史数据/>
Figure SMS_280
组合经感知器融合得到时序注意力解码器的隐层输入/>
Figure SMS_281
Figure SMS_282
其中
Figure SMS_283
和/>
Figure SMS_284
为网络权重和偏置项;
在解码器阶段,组合隐层信息和待预测值历史数据,基于非线性自回归模型对预测结果进行回归:组合
Figure SMS_285
时刻的预测值/>
Figure SMS_286
计算/>
Figure SMS_287
时刻的解码器隐层信息:
Figure SMS_288
其中
Figure SMS_289
为前一时刻的解码器隐层状态/>
Figure SMS_290
,/>
Figure SMS_291
的拼接组合,/>
Figure SMS_292
为LSTM层;
预测下一时刻的指标值:最终预测值
Figure SMS_293
通过之前所有的输入和输出得到,下一个时刻/>
Figure SMS_294
的预测值为:
Figure SMS_295
其中F表示解码器函数,
Figure SMS_296
代表解码器隐藏层状态信息,/>
Figure SMS_299
表示时序注意力机制的上下文语义信息,/>
Figure SMS_302
、/>
Figure SMS_297
表示偏置项。/>
Figure SMS_301
和/>
Figure SMS_303
的组合经过权重为/>
Figure SMS_304
、偏差为/>
Figure SMS_298
的全连接层/>
Figure SMS_300
最终得到指标预测值。
基于但不限于上述装置,所述预测残差生成模块005,具体用于:
通过非线性自回归时序预测模型得到的预测值集合
Figure SMS_305
,将/>
Figure SMS_306
与真实值集合/>
Figure SMS_307
比较得到预测残差,在/>
Figure SMS_308
个指标中,第/>
Figure SMS_309
个指标在/>
Figure SMS_310
时刻的预测残差如下:
Figure SMS_311
其中,
Figure SMS_312
和/>
Figure SMS_313
分别表示/>
Figure SMS_314
时刻的预测值和真实值,历史时间窗口/>
Figure SMS_315
中的残差序列可以表示为:
Figure SMS_316
/>
其中,
Figure SMS_317
表示距离当前时刻th时刻的历史残差值,/>
Figure SMS_318
表示距离当前时刻tl s 时刻的历史残差值。
基于但不限于上述装置,所述指标异常检测模块006,具体用于:
输入预测残差集合
Figure SMS_319
,从/>
Figure SMS_320
中随机选择/>
Figure SMS_321
个样本点作为样本子集/>
Figure SMS_322
作为模型树根节点;
Figure SMS_323
维中随机选择一个特征/>
Figure SMS_324
,并在特征/>
Figure SMS_325
范围内生成一个满足以下条件的随机切割点/>
Figure SMS_326
Figure SMS_327
其中,e ij 表示预测残差集合
Figure SMS_328
中第i时刻的第j个特征,x ij 表示样本子集/>
Figure SMS_329
中第i时刻的第j个特征。
根据
Figure SMS_330
生成一个超平面划分当前数据空间:根据二分法将特征/>
Figure SMS_331
下的样本点根据切割点/>
Figure SMS_332
划分至当前节点的左右子分支;对节点的子分支递归执行上述步骤,不断构造新的叶子节点,直到满足停止条件:所有样本点均划分至不同的数据空间或孤立树高度到达设定的最大值;最终生成/>
Figure SMS_333
棵iTree;
根据iTree计算各样本数据
Figure SMS_334
在孤立森林中的平均高度/>
Figure SMS_335
,并对残差集合/>
Figure SMS_336
中样本点的平均路径长度归一化处理,最终通过公式计算异常得分:
Figure SMS_337
Figure SMS_338
Figure SMS_339
其中
Figure SMS_340
表示二叉搜索树的平均路径长度,用于归一化,/>
Figure SMS_341
表示样本个数,H(i)为调和数,/>
Figure SMS_342
为常数,约为0.57,/>
Figure SMS_343
表示/>
Figure SMS_344
在所有iTree中的平均路径长度;
通过设置异常概率的阈值检测微服务系统异常。本实施例中设置异常概率的阈值为历史指标数据三倍标准差
Figure SMS_345
,若某时刻样本的异常分数和异常分数平均值之差大于/>
Figure SMS_346
,则该样本将划分为异常数据。
如图11所示,示例了一种电子设备的实体结构示意图,该电子设备可以包括:处理器(processor)610、通信接口(CommunicationsInterface)620、存储器(memory)630和通信总线640,其中,处理器610、通信接口620、存储器630通过通信总线640完成相互间的通信。处理器610可以调用存储器630中的逻辑指令,以执行上述微服务系统异常检测方法的步骤,具体包括:采集微服务系统的多元指标时序数据,并对时序数据进行预处理,所述多元指标时序数据包括:系统指标和业务指标组成的时序数据;根据预处理后的多元指标时序数据构建特征注意力编码器,赋予指标特征不同的注意力权重;使用LSTM作为编码器函数,通过时序注意力更新不同时间阶段的注意力权重;构建非线性自回归时序预测模型,生成下一时刻多元指标预测值集合;根据多元指标真实值和非线性自回归时序预测模型生成的多元指标预测值生成预测残差;根据预测残差计算各指标的异常得分,根据孤立森林设置异常概率的阈值,根据异常得分与阈值的关系获得微服务器系统指标异常检测结果。
此外,上述的存储器630中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random15 AccessMemory)、磁碟或者光盘等各种可以存储程序代码的介质。
又一方面,本发明实施例还提供了一种存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现上述微服务系统异常检测方法的步骤,具体包括:采集微服务系统的多元指标时序数据,并对时序数据进行预处理,所述多元指标时序数据包括:系统指标和业务指标组成的时序数据;根据预处理后的多元指标时序数据构建特征注意力编码器,赋予指标特征不同的注意力权重;使用LSTM作为编码器函数,通过时序注意力更新不同时间阶段的注意力权重;构建非线性自回归时序预测模型,生成下一时刻多元指标预测值集合;根据多元指标真实值和非线性自回归时序预测模型生成的多元指标预测值生成预测残差;根据预测残差计算各指标的异常得分,根据孤立森林设置异常概率的阈值,根据异常得分与阈值的关系获得微服务器系统指标异常检测结果。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者系统不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者系统所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者系统中还存在另外的相同要素。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。在列举了若干装置的单元权利要求中,这些装置中的若干个可以是通过同一个硬件项来具体体现。词语第一、第二、以及第三等的使用不表示任何顺序,可将这些词语解释为标识。
以上仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。

Claims (10)

1.一种基于多指标时序预测的微服务系统异常检测方法,其特征在于,包括以下步骤:
S1:采集微服务系统的多元指标时序数据,并对多元指标时序数据进行预处理,所述多元指标时序数据包括:系统指标和业务指标组成的时序数据;
S2:根据预处理后的多元指标时序数据构建特征注意力编码器,赋予指标特征不同的注意力权重;
S3:使用LSTM作为编码器函数,通过时序注意力更新不同时间阶段的注意力权重;
S4:构建非线性自回归时序预测模型,生成下一时刻多元指标预测值集合;
S5:根据多元指标真实值和非线性自回归时序预测模型生成的多元指标预测值生成预测残差;
S6:根据预测残差计算各指标的异常得分,根据孤立森林设置异常概率的阈值,根据异常得分与阈值的关系获得微服务器系统指标异常检测结果。
2.根据权利要求1所述的微服务系统异常检测方法,其特征在于,步骤S1中,所述系统指标包括:物理服务器和容器的CPU使用情况、内存使用情况、I/O和网络负载;所述业务指标包括:微服务的响应时间、网络请求量和响应成功率。
3.根据权利要求1所述的微服务系统异常检测方法,其特征在于,步骤S1中,所述预处理包括:缺失值处理和数据标准化。
4.根据权利要求1所述的微服务系统异常检测方法,其特征在于,步骤S2具体包括:
S2.1:给定
Figure QLYQS_2
维监测指标时间序列/>
Figure QLYQS_4
,其中/>
Figure QLYQS_7
表示步骤S1中采集数据的初始时刻到当前时刻的时间段,通过Soft Attention构建特征注意力权重机制获取
Figure QLYQS_3
维指标特征在/>
Figure QLYQS_5
时刻的注意力分数/>
Figure QLYQS_8
;所述注意力分数通过/>
Figure QLYQS_9
时刻的隐含层状态/>
Figure QLYQS_1
和记忆单元状态/>
Figure QLYQS_6
组合得到:
Figure QLYQS_10
其中,
Figure QLYQS_11
、/>
Figure QLYQS_12
和/>
Figure QLYQS_13
是特征注意力机制所学习的参数,/>
Figure QLYQS_14
代表监测指标个数;
S2.2:将注意力分数
Figure QLYQS_15
送入softmax激活函数,得到/>
Figure QLYQS_16
维指标数据特征在/>
Figure QLYQS_17
时刻的注意力权重/>
Figure QLYQS_18
Figure QLYQS_19
S2.3:更新时刻
Figure QLYQS_20
的编码器隐层状态:在/>
Figure QLYQS_21
时刻,对于每一维时序特征/>
Figure QLYQS_22
,组合权重/>
Figure QLYQS_23
更新其重要程度,将更新后的输入变量拼接得到时刻/>
Figure QLYQS_24
的输入特征向量:
Figure QLYQS_25
最终时刻
Figure QLYQS_26
的编码器隐层状态更新为:
Figure QLYQS_27
其中
Figure QLYQS_28
表示LSTM编码器函数。
5.根据权利要求1所述的微服务系统异常检测方法,其特征在于,步骤S3具体包括:
S3.1:在解码器阶段,获取
Figure QLYQS_29
时刻的注意力权重:
在时刻
Figure QLYQS_30
,每一个解码器的隐层状态权重/>
Figure QLYQS_31
通过前一时刻的解码器隐层状态/>
Figure QLYQS_32
和记忆单元状态/>
Figure QLYQS_33
计算得到:
Figure QLYQS_34
Figure QLYQS_35
其中
Figure QLYQS_37
表示预测的当前时刻,/>
Figure QLYQS_39
为状态的拼接,/>
Figure QLYQS_42
、/>
Figure QLYQS_38
和/>
Figure QLYQS_40
为需要学习的隐藏层参数,注意力权重/>
Figure QLYQS_43
代表第/>
Figure QLYQS_44
个隐藏层状态的重要性,/>
Figure QLYQS_36
表示时刻/>
Figure QLYQS_41
的隐藏层状态;
S3.2:累加权重得到上下文向量:将编码器隐藏层状态
Figure QLYQS_45
作为时序模块输入,时间注意力机制根据权重累加所有时刻的/>
Figure QLYQS_46
,得到上下文向量/>
Figure QLYQS_47
Figure QLYQS_48
6.根据权利要求1所述的微服务系统异常检测方法,其特征在于,步骤S4具体包括:
S4.1:将
Figure QLYQS_49
时刻的上下文向量/>
Figure QLYQS_50
和待预测目标历史数据/>
Figure QLYQS_51
组合经感知器融合得到时序注意力解码器的隐层输入/>
Figure QLYQS_52
Figure QLYQS_53
其中
Figure QLYQS_54
和/>
Figure QLYQS_55
为网络权重和偏置项;
S4.2:组合隐层信息和待预测值历史数据,基于非线性自回归模型对预测结果进行回归:组合
Figure QLYQS_56
时刻的预测值/>
Figure QLYQS_57
计算/>
Figure QLYQS_58
时刻的解码器隐层信息:
Figure QLYQS_59
其中
Figure QLYQS_60
为前一时刻的解码器隐层状态/>
Figure QLYQS_61
,/>
Figure QLYQS_62
的拼接组合,/>
Figure QLYQS_63
为LSTM层;
S4.3:预测下一时刻
Figure QLYQS_64
的指标值:最终预测值/>
Figure QLYQS_65
通过预测目标历史数据和监测指标历史数据得到:
Figure QLYQS_66
其中F表示解码器函数,
Figure QLYQS_69
代表解码器隐藏层状态信息,/>
Figure QLYQS_72
表示时序注意力机制的上下文语义信息,/>
Figure QLYQS_73
、/>
Figure QLYQS_68
表示偏置项,/>
Figure QLYQS_70
和/>
Figure QLYQS_74
的组合经过权重为/>
Figure QLYQS_75
、偏差为/>
Figure QLYQS_67
的全连接层/>
Figure QLYQS_71
最终得到指标预测值。
7.根据权利要求1所述的微服务系统异常检测方法,其特征在于,步骤S5具体包括:
通过非线性自回归时序预测模型,得到预测值集合
Figure QLYQS_76
,将/>
Figure QLYQS_77
与真实值集合/>
Figure QLYQS_78
比较得到预测残差,在/>
Figure QLYQS_79
个指标中,第/>
Figure QLYQS_80
个指标在/>
Figure QLYQS_81
时刻的预测残差如下:
Figure QLYQS_82
其中,
Figure QLYQS_83
和/>
Figure QLYQS_84
分别表示/>
Figure QLYQS_85
时刻的预测值和真实值,历史时间窗口/>
Figure QLYQS_86
中的残差序列可以表示为:
Figure QLYQS_87
其中,
Figure QLYQS_88
表示距离当前时刻t前h时刻的历史残差值,/>
Figure QLYQS_89
表示距离当前时刻/>
Figure QLYQS_90
l s 时刻的历史残差值。
8.根据权利要求1所述的微服务系统异常检测方法,其特征在于,步骤S6具体包括:
S6.1:输入预测残差集合
Figure QLYQS_91
,从/>
Figure QLYQS_92
中随机选择/>
Figure QLYQS_93
个样本点作为样本子集
Figure QLYQS_94
作为模型树根节点;
S6.2:从
Figure QLYQS_95
维特征中随机选择一个特征/>
Figure QLYQS_96
,并在特征/>
Figure QLYQS_97
范围内生成一个满足以下条件的随机切割点/>
Figure QLYQS_98
Figure QLYQS_99
其中,e ij 表示预测残差集合
Figure QLYQS_100
中第i时刻的第j个特征,x ij 表示样本子集/>
Figure QLYQS_101
中第i时刻的第j个特征;
步骤S6.3:根据
Figure QLYQS_102
生成一个超平面划分当前数据空间:根据二分法将特征/>
Figure QLYQS_103
下的样本点根据切割点/>
Figure QLYQS_104
划分至当前节点的左右子分支;对节点的子分支递归执行步骤S6.2和步骤S6.3,不断构造新的叶子节点,直到满足停止条件:所有样本点均划分至不同的数据空间或孤立树高度到达设定的最大值;
循环步骤S6.1至步骤S6.3,生成
Figure QLYQS_105
棵iTree;
S6.4:根据iTree计算各样本数据
Figure QLYQS_106
在孤立森林中的平均高度/>
Figure QLYQS_107
,并对残差集合/>
Figure QLYQS_108
中样本点的平均路径长度归一化处理,最终通过公式计算异常得分:
Figure QLYQS_109
Figure QLYQS_110
Figure QLYQS_111
其中
Figure QLYQS_112
表示二叉搜索树的平均路径长度,用于归一化,/>
Figure QLYQS_113
表示样本个数,H(i)为调和数,/>
Figure QLYQS_114
为常数,约为0.57,/>
Figure QLYQS_115
表示/>
Figure QLYQS_116
在所有iTree中的平均路径长度;
S6.5:通过设置异常概率的阈值检测微服务系统异常。
9.根据权利要求1所述的微服务系统异常检测方法,其特征在于,设置异常概率的阈值为历史指标数据三倍标准差
Figure QLYQS_117
,若某时刻样本的异常分数和异常分数平均值之差大于/>
Figure QLYQS_118
,则该样本将划分为异常数据。
10.一种实施权利要求1-9任一项所述方法的基于多指标时序预测的微服务系统异常检测装置,其特征在于,包括以下模块:
数据采集及预处理模块,用于采集微服务系统的多元指标时序数据,并对时序数据进行预处理,所述多元指标时序数据包括:系统指标和业务指标组成的时序数据;
注意力权重赋值模块,用于根据预处理后的多元指标时序数据构建特征注意力编码器,赋予指标特征不同的注意力权重;
时序注意力更新模块,用于使用LSTM作为编码器函数,通过时序注意力更新不同时间阶段权重;
自回归时序预测模块,用于构建非线性自回归时序预测模型,生成下一时刻多元指标预测值集合
预测残差生成模块,用于根据多元指标真实值和非线性自回归时序预测模型生成的多元指标预测值生成预测残差;
指标异常检测模块,用于根据预测残差计算各指标的异常得分,根据孤立森林设置异常概率的阈值,根据异常得分与阈值的关系获得微服务器系统指标异常检测结果。
CN202310661193.4A 2023-06-06 2023-06-06 基于多指标时序预测的微服务系统异常检测方法及装置 Active CN116383096B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310661193.4A CN116383096B (zh) 2023-06-06 2023-06-06 基于多指标时序预测的微服务系统异常检测方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310661193.4A CN116383096B (zh) 2023-06-06 2023-06-06 基于多指标时序预测的微服务系统异常检测方法及装置

Publications (2)

Publication Number Publication Date
CN116383096A true CN116383096A (zh) 2023-07-04
CN116383096B CN116383096B (zh) 2023-08-18

Family

ID=86979086

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310661193.4A Active CN116383096B (zh) 2023-06-06 2023-06-06 基于多指标时序预测的微服务系统异常检测方法及装置

Country Status (1)

Country Link
CN (1) CN116383096B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117493220A (zh) * 2024-01-03 2024-02-02 安徽思高智能科技有限公司 一种rpa流程操作异常检测方法、设备及存储设备
CN117539648A (zh) * 2024-01-09 2024-02-09 天津市大数据管理中心 一种电子政务云平台的服务质量管理方法及装置
CN117951628A (zh) * 2024-03-22 2024-04-30 陕西德联新能源有限公司 一种供热系统异常数据监测方法及系统

Citations (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180060665A1 (en) * 2016-08-29 2018-03-01 Nec Laboratories America, Inc. Dual Stage Attention Based Recurrent Neural Network for Time Series Prediction
US20190028496A1 (en) * 2017-07-19 2019-01-24 Cisco Technology, Inc. Anomaly detection for micro-service communications
WO2019172848A1 (en) * 2018-03-06 2019-09-12 Agency For Science, Technology And Research Method and apparatus for predicting occurrence of an event to facilitate asset maintenance
CN111914873A (zh) * 2020-06-05 2020-11-10 华南理工大学 一种两阶段云服务器无监督异常预测方法
CN113014421A (zh) * 2021-02-08 2021-06-22 武汉大学 一种面向云原生系统的微服务根因定位方法
CN113033780A (zh) * 2021-03-24 2021-06-25 西北大学 一种基于双层注意力机制的云平台资源预测方法
CN113591905A (zh) * 2021-06-17 2021-11-02 中山大学 基于双层注意力机制和对抗学习的深度学习时序聚类方法
CN114090396A (zh) * 2022-01-24 2022-02-25 华南理工大学 一种云环境多指标无监督异常检测和根因分析方法
CN114580472A (zh) * 2022-02-28 2022-06-03 西北大学 工业互联网中因果与注意力并重的大型设备故障预测方法
CN114579407A (zh) * 2022-05-05 2022-06-03 北京航空航天大学 一种因果关系检验和微服务指标预测报警方法
CN114707731A (zh) * 2022-04-11 2022-07-05 合肥工业大学 基于双层注意力网络多域特征融合的设备剩余寿命预测方法
WO2022160902A1 (zh) * 2021-01-28 2022-08-04 广西大学 面向云环境下大规模多元时间序列数据异常检测方法
CN115063588A (zh) * 2022-06-29 2022-09-16 深圳前海微众银行股份有限公司 一种数据处理方法、装置、设备及存储介质
CN115168443A (zh) * 2022-06-23 2022-10-11 广东工业大学 一种基于gcn-lstm和注意力机制的异常检测方法及系统
CN115412455A (zh) * 2022-07-28 2022-11-29 南京航空航天大学 一种基于时间序列的服务器多性能指标异常检测方法及装置
CN115840774A (zh) * 2022-11-25 2023-03-24 北京航空航天大学杭州创新研究院 多元时序异常检测方法及装置、计算机设备和存储介质
CN115981902A (zh) * 2022-12-16 2023-04-18 武汉大学 一种细粒度分布式微服务系统异常根因定位方法及装置

Patent Citations (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180060665A1 (en) * 2016-08-29 2018-03-01 Nec Laboratories America, Inc. Dual Stage Attention Based Recurrent Neural Network for Time Series Prediction
US20190028496A1 (en) * 2017-07-19 2019-01-24 Cisco Technology, Inc. Anomaly detection for micro-service communications
WO2019172848A1 (en) * 2018-03-06 2019-09-12 Agency For Science, Technology And Research Method and apparatus for predicting occurrence of an event to facilitate asset maintenance
CN111914873A (zh) * 2020-06-05 2020-11-10 华南理工大学 一种两阶段云服务器无监督异常预测方法
WO2022160902A1 (zh) * 2021-01-28 2022-08-04 广西大学 面向云环境下大规模多元时间序列数据异常检测方法
CN113014421A (zh) * 2021-02-08 2021-06-22 武汉大学 一种面向云原生系统的微服务根因定位方法
CN113033780A (zh) * 2021-03-24 2021-06-25 西北大学 一种基于双层注意力机制的云平台资源预测方法
CN113591905A (zh) * 2021-06-17 2021-11-02 中山大学 基于双层注意力机制和对抗学习的深度学习时序聚类方法
CN114090396A (zh) * 2022-01-24 2022-02-25 华南理工大学 一种云环境多指标无监督异常检测和根因分析方法
CN114580472A (zh) * 2022-02-28 2022-06-03 西北大学 工业互联网中因果与注意力并重的大型设备故障预测方法
CN114707731A (zh) * 2022-04-11 2022-07-05 合肥工业大学 基于双层注意力网络多域特征融合的设备剩余寿命预测方法
CN114579407A (zh) * 2022-05-05 2022-06-03 北京航空航天大学 一种因果关系检验和微服务指标预测报警方法
CN115168443A (zh) * 2022-06-23 2022-10-11 广东工业大学 一种基于gcn-lstm和注意力机制的异常检测方法及系统
CN115063588A (zh) * 2022-06-29 2022-09-16 深圳前海微众银行股份有限公司 一种数据处理方法、装置、设备及存储介质
CN115412455A (zh) * 2022-07-28 2022-11-29 南京航空航天大学 一种基于时间序列的服务器多性能指标异常检测方法及装置
CN115840774A (zh) * 2022-11-25 2023-03-24 北京航空航天大学杭州创新研究院 多元时序异常检测方法及装置、计算机设备和存储介质
CN115981902A (zh) * 2022-12-16 2023-04-18 武汉大学 一种细粒度分布式微服务系统异常根因定位方法及装置

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
PYTHON数据挖掘: "孤立森林(isolation):一个最频繁使用的异常检测算法", pages 1 - 11, Retrieved from the Internet <URL:《https://blog.csdn.net/qq_34160248/article/details/124538485》> *
YAO QIN等: "A Dual-Stage Attention-Based Recurrent Neural Network for Time Series Prediction", 《HTTPS://ARXIV.ORG/ABS/1704.02971》, pages 1 - 7 *
沈潇军;葛亚男;沈志豪;倪阳旦;吕明琪;翁正秋;: "一种基于LSTM自动编码机的工业系统异常检测方法", 电信科学, no. 07 *

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117493220A (zh) * 2024-01-03 2024-02-02 安徽思高智能科技有限公司 一种rpa流程操作异常检测方法、设备及存储设备
CN117493220B (zh) * 2024-01-03 2024-03-26 安徽思高智能科技有限公司 一种rpa流程操作异常检测方法、设备及存储设备
CN117539648A (zh) * 2024-01-09 2024-02-09 天津市大数据管理中心 一种电子政务云平台的服务质量管理方法及装置
CN117951628A (zh) * 2024-03-22 2024-04-30 陕西德联新能源有限公司 一种供热系统异常数据监测方法及系统
CN117951628B (zh) * 2024-03-22 2024-06-11 陕西德联新能源有限公司 一种供热系统异常数据监测方法及系统

Also Published As

Publication number Publication date
CN116383096B (zh) 2023-08-18

Similar Documents

Publication Publication Date Title
CN116383096B (zh) 基于多指标时序预测的微服务系统异常检测方法及装置
Xiao et al. Attentional factorization machines: Learning the weight of feature interactions via attention networks
Kouemou et al. History and theoretical basics of hidden Markov models
JP6915809B2 (ja) 事象予測装置、予測モデル生成装置および事象予測用プログラム
CN111258593B (zh) 应用程序预测模型的建立方法、装置、存储介质及终端
CN112289442A (zh) 预测疾病终点事件的方法、装置及电子设备
Tian et al. Short-term wind speed forecasting based on autoregressive moving average with echo state network compensation
CN112580346B (zh) 事件抽取方法、装置、计算机设备和存储介质
US11669755B2 (en) Detecting cognitive biases in interactions with analytics data
CN115098789B (zh) 基于神经网络的多维兴趣融合推荐方法、装置及相关设备
JP2019105871A (ja) 異常候補抽出プログラム、異常候補抽出方法および異常候補抽出装置
Gong et al. Causal discovery from temporal data: An overview and new perspectives
Kharal Explainable artificial intelligence based fault diagnosis and insight harvesting for steel plates manufacturing
Yu et al. Transformer-enhanced Hawkes process with decoupling training for information cascade prediction
CN115983087A (zh) 一种注意力机制与lstm结合检测时序数据异常方法及终端机
CN115062779A (zh) 基于动态知识图谱的事件预测方法及装置
Alali et al. Deep reinforcement learning sensor scheduling for effective monitoring of dynamical systems
Rao et al. Medical Big Data Analysis using LSTM based Co-Learning Model with Whale Optimization Approach.
CN117609905A (zh) 一种监测数据预测方法、系统、设备以及可读存储介质
Ding et al. Degradation analysis with nonlinear exponential‐dispersion process: Bayesian offline and online perspectives
JP6927409B2 (ja) 情報処理装置、制御方法、及びプログラム
Kihlman et al. Classifying human rights violations using deep multi-label co-training
Zhang et al. Probabilistic autoencoder with multi-scale feature extraction for multivariate time series anomaly detection
CN114092269A (zh) 基于改进广义网络向量模型的时序数据预测方法及装置
Yu et al. Real-time abnormal insider event detection on enterprise resource planning systems via predictive auto-regression model

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant