CN114579407B - 一种因果关系检验和微服务指标预测报警方法 - Google Patents

一种因果关系检验和微服务指标预测报警方法 Download PDF

Info

Publication number
CN114579407B
CN114579407B CN202210478087.8A CN202210478087A CN114579407B CN 114579407 B CN114579407 B CN 114579407B CN 202210478087 A CN202210478087 A CN 202210478087A CN 114579407 B CN114579407 B CN 114579407B
Authority
CN
China
Prior art keywords
service
causal relationship
index
alarm
indexes
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202210478087.8A
Other languages
English (en)
Other versions
CN114579407A (zh
Inventor
吴文峻
姬索肇
杨京波
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beihang University
Original Assignee
Beihang University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beihang University filed Critical Beihang University
Priority to CN202210478087.8A priority Critical patent/CN114579407B/zh
Publication of CN114579407A publication Critical patent/CN114579407A/zh
Application granted granted Critical
Publication of CN114579407B publication Critical patent/CN114579407B/zh
Priority to NL2034766A priority patent/NL2034766A/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3003Monitoring arrangements specially adapted to the computing system or computing system component being monitored
    • G06F11/3006Monitoring arrangements specially adapted to the computing system or computing system component being monitored where the computing system is distributed, e.g. networked systems, clusters, multiprocessor systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0706Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment
    • G06F11/0709Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment in a distributed system consisting of a plurality of standalone computer nodes, e.g. clusters, client-server systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/079Root cause analysis, i.e. error or fault diagnosis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3058Monitoring arrangements for monitoring environmental properties or parameters of the computing system or of the computing system component, e.g. monitoring of power, currents, temperature, humidity, position, vibrations
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/32Monitoring with visual or acoustical indication of the functioning of the machine
    • G06F11/323Visualisation of programs or trace data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/32Monitoring with visual or acoustical indication of the functioning of the machine
    • G06F11/324Display of status information
    • G06F11/327Alarm or error message display
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/34Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment
    • G06F11/3452Performance evaluation by statistical analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • G06N3/0442Recurrent networks, e.g. Hopfield networks characterised by memory or gating, e.g. long short-term memory [LSTM] or gated recurrent units [GRU]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/02Knowledge representation; Symbolic representation
    • G06N5/022Knowledge engineering; Knowledge acquisition

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • Quality & Reliability (AREA)
  • Mathematical Physics (AREA)
  • Data Mining & Analysis (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Biophysics (AREA)
  • Computer Hardware Design (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Probability & Statistics with Applications (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Debugging And Monitoring (AREA)

Abstract

本发明涉及一种因果关系检验和微服务指标预测报警方法,包括:基于Granger因果关系检验的服务指标因果关系发现、基于Attention LSTM的多指标预测。该方法通过Granger因果关系检验发现与要预测指标具有因果关系的指标,共同参与预测,提高了预测的准确率。同时针对微服务场景中指标序列较长,指标之间往往局部存在因果关系,整体因果关系不强的问题,本发明对Granger因果关系检验进行改进,分段增量计算因果关系。这种方法在实际应用中,当时间序列有新的值加入时,只需要计算增量的因果关系,无需对历史数据重新计算,从而减少计算量,提高了微服务场景下因果关系发现的效率。

Description

一种因果关系检验和微服务指标预测报警方法
技术领域
本发明属于计算机应用技术领域,具体涉及一种因果关系检验和微服务指标预测报警方法。
背景技术
随着互联网的发展,网络服务爆炸式增长,为人们的生活带来了便利,如今人们的衣食住行已经越来越离不开互联网服务。同时,网络服务的用户数量飞速增长,传统网络服务的系统架构迭代缓慢,部署和维护困难,已经不能满足现在的需求。微服务架构克服了传统架构的缺点,受到了广泛的关注。
微服务架构将单体服务划分成多个小的服务,每个服务独立运行,通过服务间的配合为用户提供服务。服务通信采用轻量级的通信机制,每个服务都由具体的业务团队独立开发,独立部署,非常适合现在的互联网应用开发。
准确预测微服务指标的未来值对服务资源的分配和扩缩容具有重要意义。在很多情况下,仅依靠指标自身难以准确预测,需要引入其他的相关指标帮助预测,在传统的多指标预测中,相关指标是已知的或者数量很少,比较容易获得。然而在微服务领域中,服务的指标有很多且指标的关系是不断变化的,因此需要使用新的方法在海量的指标中快速准确的发现相关的指标。
发明内容
本发明技术解决问题:克服现有技术的不足,提出一种基于Granger因果关系检验和Attention LSTM(基于注意力的机制的长短期记忆神经网络)的微服务指标预测方法,提高了微服务指标预测的准确率。
本发明技术解决方案:一种因果关系检验和微服务指标预测报警方法,包括如下步骤:
1. 基于Granger因果关系检验的服务指标因果关系发现
(1) 首先对服务指标数据进行数据预处理,对服务指标数据进行平稳性检验,不平稳的序列需要进行差分处理。
(2) 对服务指标进行Granger因果关系检验。由于对较长的时间序列进行Granger因果关系检验会存在误判的问题,而微服务场景中指标序列较长,指标之间往往局部存在因果关系,整体因果关系不强。本发明对Granger因果关系检验进行改进,分段增量计算因果关系,具体方法是将服务指标分割为长度相等的分段,然后对两个指标的对应分段进行Granger因果关系检验,最后对具有因果关系的分段数量进行统计,具有因果关系的分段数量越多,因果关系越强。
对服务指标X和服务指标Y的一个分段进行Granger因果关系检验计算方法如下:
Figure 796942DEST_PATH_IMAGE001
上述两个公式依次计算,其中,
Figure 858439DEST_PATH_IMAGE002
Figure 877210DEST_PATH_IMAGE003
是服务指标X、Y在
Figure 148792DEST_PATH_IMAGE004
时刻的值,
Figure 645632DEST_PATH_IMAGE005
Figure 561635DEST_PATH_IMAGE005
Figure 751308DEST_PATH_IMAGE006
是模型的参数,
Figure 8721DEST_PATH_IMAGE007
是模型的滞后期,即要用
Figure 309252DEST_PATH_IMAGE008
的前
Figure 79762DEST_PATH_IMAGE007
个值来计算因果关系,j为0 到m-1之间取值,t-j表示(t-j)时刻,
Figure 440336DEST_PATH_IMAGE009
Figure 686510DEST_PATH_IMAGE010
是在t时刻模型残差,为实际值与估计值 的差值;使用该公式进行回归计算,根据回归结果比较
Figure 525153DEST_PATH_IMAGE009
Figure 415749DEST_PATH_IMAGE010
的方差大小,从而判断X →Y是否存在Granger因果关系,Granger因果关系系数的定义如下:
Figure 947224DEST_PATH_IMAGE011
Figure 415114DEST_PATH_IMAGE012
时,即
Figure 323028DEST_PATH_IMAGE013
,此时说明X→Y存在 Granger因果关系。
(3) 所有指标之间的因果关系计算完毕后,将因果关系保存到因果关系图中,供Attention LSTM多指标预测模型使用。
2. 基于Attention LSTM的多指标预测
(1) 从Granger因果关系检验得到的服务指标因果关系图中与要预测的指标因果关系最强的几个指标,加上要预测的指标本身,共同作为Attention LSTM预测模型的输入。
(2) 对输入的指标进行预处理,所有指标归一化到0到1之间,如果服务指标有数据缺失的问题,将指标缺失值设置为前后值的平均值。
(3) 指标预处理后作为LSTM层的输入,LSTM层的模型公式如下:
Figure 68130DEST_PATH_IMAGE014
其中,
Figure 770507DEST_PATH_IMAGE015
表示时刻,
Figure 725693DEST_PATH_IMAGE016
Figure 906139DEST_PATH_IMAGE017
Figure 771326DEST_PATH_IMAGE018
以及Wf,Wo,Uf、Wc是模型参数,
Figure 644605DEST_PATH_IMAGE019
是遗忘门,
Figure 588552DEST_PATH_IMAGE020
是输入 门,
Figure 572689DEST_PATH_IMAGE021
是输出门,
Figure 557962DEST_PATH_IMAGE022
是记忆单元状态值,
Figure 602141DEST_PATH_IMAGE023
是隐藏层输出值,
Figure 407286DEST_PATH_IMAGE024
是激活函数,
Figure 319748DEST_PATH_IMAGE025
表示哈达 玛积,bf、bi、bo、bc表示表示不同函数的偏置值;
Figure 628369DEST_PATH_IMAGE026
表示输入的值,不同下标的Ui、Uo、Ut、Uf表 示对应函数的权重系数。
(4) LSTM层的输出作为Attention层的输入,Attention层能够使神经网络有选择地关注输入特征,并将学习到的特征权重保存赋值给下一个时间步长的输入向量,利用权值矩阵分配注意力,从而突出关键输入特征对预测的影响。Attention层的模型公式如下:
Figure 843450DEST_PATH_IMAGE027
其中,
Figure 994946DEST_PATH_IMAGE028
表示第i个序列点对第k个序列点的影响,
Figure 586464DEST_PATH_IMAGE029
是Attention隐藏层更 新所保存的向量,
Figure 15171DEST_PATH_IMAGE030
表示Attention隐藏层的第k个点,
Figure 401153DEST_PATH_IMAGE031
表示Attention隐藏层的第i个 点,N为点数,
Figure 305524DEST_PATH_IMAGE032
Figure 435154DEST_PATH_IMAGE033
Figure 983947DEST_PATH_IMAGE034
是模型参数;
Figure 806410DEST_PATH_IMAGE035
是将各个
Figure 807864DEST_PATH_IMAGE036
输入Softmax层进行归一化得到 的概率分布;
Figure 856633DEST_PATH_IMAGE037
是将各个
Figure 259932DEST_PATH_IMAGE035
加权求和得到的第k个序列点的注意力系数,根据
Figure 253296DEST_PATH_IMAGE038
求出 Attention层的输出值
Figure 742046DEST_PATH_IMAGE039
并更新Attention隐藏层的保存值;
Figure 338113DEST_PATH_IMAGE039
经过全连接层和sigmoid 激活函数后输出预测值
Figure 861498DEST_PATH_IMAGE040
,最后将
Figure 760184DEST_PATH_IMAGE040
和真实值
Figure 736230DEST_PATH_IMAGE041
进行比较。
本发明与现有技术相比的优点在于:
(1) 通过Granger因果关系检验发现与要预测指标具有因果关系的指标,共同参与预测,提高了预测的准确率。
(2) 针对微服务场景中指标序列较长,指标之间往往局部存在因果关系,整体因果关系不强的问题。本发明对Granger因果关系检验方法进行改进,分段增量计算因果关系。这种方法在实际应用中,当时间序列有新的值加入时,只需要计算增量的因果关系,无需对历史数据重新计算,从而减少计算量,提高了微服务场景下因果关系发现的效率。
(3) 本发明异常指标检测方法结合图形可视化技术可以 将异常点标注到实时指标数据折线图中,方便运维人员查看和排查。使用 Granger 因果关系检验产生的因果关系图可以解决这一个问题,如果具有因果关系的指标同时发生异常波动,则可以收敛为一个异常,避免异常报警过多。
(4) 本发明针对服务平台中进行复合报警、报警收敛以及报警通知的相关原理和开发工作。发明了复合报警方法可以对多个指标配置复合报警,通过使用表达式 的形式简化了复合报警的配置,同时提高了配置报警的灵活性。
(5) 本发明开发的报警收敛方法可以根据服务网格生成的服务调用关系图、服务指标因果关系图以及开发人员编辑的报警拓扑关系对同一时间范围内发生的异常报警进行聚合,将存在关联的异常报警收敛 为一条报警,减少开发人员的故障排查成本。
附图说明
图1是本发明中基于Granger 因果关系检验和Attention LSTM的多指标预测模型架构图;
图2是本发明中分段进行Granger因果关系检验示意图;
图3是本发明的Attention LSTM预测模型分层结构图;
图4复合报警表达式解析为抽象语法树示意图;
图5 指标异常标注示意图;
图6 报警收敛架构图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整的描述,显然,所描述的实施例仅为本发明的一部分实施例,而不是全部的实施例,基于本发明中的实施例,本领域的普通技术人员在不付出创造性劳动的前提下所获得的所有其他实施例,都属于本发明的保护范围。
根据本发明的一个实施例,如图1所示,一种因果关系检验和微服务指标预测报警方法,根据指标数据进行 Granger因果关系检验,生成因果关系图,根据要预测的指标以及存在的关系指标通过Attention LSTM预测模型,输出预测结果提出。具体包括如下步骤:
步骤一、基于Granger因果关系检验的服务指标进行因果关系发现;
步骤二、基于Attention LSTM进行多指标预测、以及服务异常检测和服务智能报警
所述的步骤1,基于Granger因果关系检验的服务指标因果关系发现,具体步骤如下:
(1) 首先对服务指标数据进行数据预处理,对服务指标数据进行平稳性检验,不平稳的序列需要进行差分处理。
(2) 对服务指标进行Granger因果关系检验。由于对较长的时间序列进行Granger因果关系检验会存在误判的问题,而微服务场景中指标序列较长,指标之间往往局部存在因果关系,整体因果关系不强。本发明对Granger因果关系检验进行改进,分段增量计算因果关系,具体方法是将服务指标分割为长度相等的分段,然后对两个指标的对应分段进行Granger因果关系检验,最后对具有因果关系的分段数量进行统计,具有因果关系的分段数量越多,因果关系越强。
对服务指标X和服务指标Y的一个分段进行Granger因果关系检验计算方法如下:
Figure 135987DEST_PATH_IMAGE043
上述两个公式依次计算,其中,
Figure 248300DEST_PATH_IMAGE002
Figure 583466DEST_PATH_IMAGE003
是服务指标X、Y在
Figure 640284DEST_PATH_IMAGE004
时刻的值,
Figure 719098DEST_PATH_IMAGE005
Figure 951497DEST_PATH_IMAGE005
Figure 457564DEST_PATH_IMAGE006
是模型的参数,
Figure 768722DEST_PATH_IMAGE007
是模型的滞后期,即要用
Figure 651227DEST_PATH_IMAGE008
的前
Figure 738132DEST_PATH_IMAGE007
个值来计算因果关系,j为0 到m-1之间取值,t-j表示(t-j)时刻,
Figure 149522DEST_PATH_IMAGE009
Figure 321877DEST_PATH_IMAGE010
是在t时刻模型残差,为实际值与估计值 的差值;使用该公式进行回归计算,根据回归结果比较
Figure 867128DEST_PATH_IMAGE009
Figure 808539DEST_PATH_IMAGE010
的方差大小,从而判断X →Y是否存在Granger因果关系,Granger因果关系系数的定义如下:
Figure 656410DEST_PATH_IMAGE011
Figure 316061DEST_PATH_IMAGE012
时,即
Figure 399424DEST_PATH_IMAGE013
,此时说明X→Y存在 Granger因果关系。
(3) 所有指标之间的因果关系计算完毕后,将因果关系保存到因果关系图中,供Attention LSTM多指标预测模型使用。
根据本发明的一个实施例,如图2所示,为分段进行 Granger 因果关系检验示意图,对两个时间序列 x1 和 x2 进行因果关系检验时,对 x1 和 x2 进行分段, 然后两个序列的对应分段进行 Granger 因果关系检验,对 x1 → x2 具有因果关系的分段 数量进行统计,认为具有因果关系的分段数量越多,因果关系越强。图3是本发明的AttentionLSTM预测模型分层结构图;
所述的步骤2. 基于Attention LSTM的多指标预测,具体步骤如下:
(1) 从Granger因果关系检验得到的服务指标因果关系图中与要预测的指标因果关系最强的几个指标,加上要预测的指标本身,共同作为Attention LSTM预测模型的输入。
(2) 对输入的指标进行预处理,所有指标归一化到0到1之间,如果服务指标有数据缺失的问题,将指标缺失值设置为前后值的平均值。
(3) 指标预处理后作为LSTM层的输入,LSTM层的模型公式如下:
Figure 460921DEST_PATH_IMAGE045
其中,
Figure 479692DEST_PATH_IMAGE015
表示时刻,
Figure 361060DEST_PATH_IMAGE016
Figure 248114DEST_PATH_IMAGE017
Figure 164117DEST_PATH_IMAGE018
以及Wf,Wo,Uf、Wc是模型参数,
Figure 353790DEST_PATH_IMAGE019
是遗忘门,
Figure 988034DEST_PATH_IMAGE020
是输入 门,
Figure 911734DEST_PATH_IMAGE021
是输出门,
Figure 682244DEST_PATH_IMAGE022
是记忆单元状态值,
Figure 42818DEST_PATH_IMAGE023
是隐藏层输出值,
Figure 898779DEST_PATH_IMAGE024
是激活函数,
Figure 127635DEST_PATH_IMAGE025
表示哈达 玛积,bf、bi、bo、bc表示表示不同函数的偏置值;
Figure 18230DEST_PATH_IMAGE026
表示输入的值,不同下标的Ui、Uo、Ut、Uf表 示对应函数的权重系数。
(4) LSTM层的输出作为Attention层的输入,Attention层能够使神经网络有选择地关注输入特征,并将学习到的特征权重保存赋值给下一个时间步长的输入向量,利用权值矩阵分配注意力,从而突出关键输入特征对预测的影响。Attention层的模型公式如下:
Figure 549706DEST_PATH_IMAGE027
其中,
Figure 752017DEST_PATH_IMAGE028
表示第i个序列点对第k个序列点的影响,
Figure 394351DEST_PATH_IMAGE046
是Attention隐藏层更 新所保存的向量,
Figure 139453DEST_PATH_IMAGE030
表示Attention隐藏层的第k个点,
Figure 841830DEST_PATH_IMAGE031
表示Attention隐藏层的第i个 点,N为点数,
Figure 797016DEST_PATH_IMAGE032
Figure 243041DEST_PATH_IMAGE047
Figure 108229DEST_PATH_IMAGE034
是模型参数;
Figure 981507DEST_PATH_IMAGE035
是将各个
Figure 659875DEST_PATH_IMAGE036
输入Softmax层进行归一化得到 的概率分布;
Figure 909591DEST_PATH_IMAGE048
是将各个
Figure DEST_PATH_IMAGE049
加权求和得到的第k个序列点的注意力系数,根据
Figure 363706DEST_PATH_IMAGE038
求出 Attention层的输出值
Figure 532519DEST_PATH_IMAGE039
并更新Attention隐藏层的保存值;
Figure 72085DEST_PATH_IMAGE039
经过全连接层和sigmoid 激活函数后输出预测值
Figure 859913DEST_PATH_IMAGE040
,最后将
Figure 434113DEST_PATH_IMAGE040
和真实值
Figure 773828DEST_PATH_IMAGE041
进行比较;
进一步的,所述步骤2中服务异常检测具体如下:
依据所述基于 Granger 因果关系检验和 Attention LSTM 的多指标预测模型对多指标进行异常检测,使用多指标共同预测指标的未来值,如果指标真实值与预测值的差距大于置信区间,则标记为异常,效果如图5所示。
当服务项目出现异常时,往往同时产生多个指标的异常报警,给异常的排查造成困扰。使用 Granger 因果关系检验产生的因果关系图可以解决这一个问题,如果具有因果关系的指标同时发生异常波动,则可以收敛为一个异常,避免异常报警过多。
进一步的,所述步骤2中服务智能报警,具体如下:
3.1 复合报警
基于表达式引擎的复合报警工具首先对开发人员配置的复合报警的表达式进行语法解析,生成抽象语法树,然后根据涉及指标的时间戳或者其他维度对指标 数据进行抽取,根据抽象语法树计算该表达式在每个时间点的值,最后按照计算的值给 出每个时间点是否触发报警。表达式引擎支持加减乘除四则运算以及自定义函数运算,自定义函数可以使用 Python 编程语言定义。表达式引擎将复合报警的表达式解析为抽象语法树的示意图如图4所示,进行语法分析时会对指标、运算符、函数进行标记,然后根据运算规则生成对应的抽象语法树,例如图4中的复合报警表达式为“服务 1. 指标 1/(服务 1. 指标 1+ 服务2. 指标 2)<0.8”,生成的抽象语法树的根节点是“<” 号,对于两个指标的每个时间点,都会按照抽象语法树先计算“服务 1. 指标 1/(服务 1. 指标 1+服务 2. 指标 2)”,再用计算结果跟 0.8 比较,最后判断该时间点是否触发报警。由于在实际应用中需要配置多个复合报警,每个复合报警往往需要计算较长时间跨度的指标数据,因此本发明将表达式引擎封装为一个无状态的微服务,复合报警工具可以通过调用表达式引擎服务,当计算量较大时表达式引擎可以水平扩展为多个实例,通过多实例并行计算提高计算的效率。通过本文提供的基于表达式引擎的复合报警工具,可以大大简化复杂的报警配置,同时提高配置报警的灵活性。
3.2 报警收敛
多数系统或者平台中服务的数量和监控指标众多,服务间的调用关系复杂,导致服务报警之间也存在关联。当服务项目发生故障时通常是多个服务的多个指标同时发生异常报警,在这种情况下开发人员往往很难发现不同的异常报警之间的关联,需要对每个异常报警进行分析和排查,给开发人员进行故障排除造成困难。针对这一问题,本发明实行基于服务调用关系、服务指标因果关系以及开发人员自定义的报警拓扑关系的报警收敛方法及模块系统架构。
如图5所示,当微服务项目出现异常时,往往同时产生多个指标的异常报警,给异常的排查造成困扰。使用 Granger 因果关系检验产生的因果关系图可以解决这一个问题,如果具有因果关系的指标同时发生异常波动,则可以收敛为一个异常,避免异常报警过多。
收敛架构如图6所示,当多个服务指标触发异常报警时,会根据服务调用关系图、服务指标因果关系图、用户自定义的报警拓扑关系图等信息对一定时间范围内发生的异常进行聚合,如果两个异常报警之间存在联系,则将这两个异常报警聚合到一起,发送报警通知时将所有存在关联的异常报警一起通知,减少开发人员故障 排查的成本。服务调用关系图通过服务网格实时记录和生成,服务指标的因果关系图生成采用本发明所述基于Granger 因果关系检验的服务指标因果关系发现算法,本发明利用报警拓扑关系编辑器,为用户提供自定义报警拓扑关系的能力。
报警拓扑关系编辑器对接服务指标收集模块和服务异常检测模块,用节点表示服务指标的报警,编辑器支持搜索现有的报警,将报警添加到拓扑关系图中,对节点进行拖拽、连线、删除等操作,节点之间的有向边表示报警之间的拓扑关系。报警拓扑关系编辑完成后,编辑器支持将图数据导出为 json、JanusGraph 图数据库 Gremlin 语句等多种格式。
3.3 报警通知
报警通知对接服务指标收集模块和服务异常检测模块,当开发人员 收到了某个指标的报警通知时,报警通知工具自动获取异常报警的相关数据,将报警的 文本信息、异常指标的折线图通过邮件等形式发送给用户。当对聚合报警进行通知时, 报警通知工具会自动获取报警收敛的相关数据,将服务调用关系图、服务指标因果关系图以及开发人员配置的报警拓扑关系图一起发送给用户。
尽管上面对本发明说明性的具体实施方式进行了描述,以便于本技术领域的技术人员理解本发明,且应该清楚,本发明不限于具体实施方式的范围,对本技术领域的普通技术人员来讲,只要各种变化在所附的权利要求限定和确定的本发明的精神和范围内,这些变化是显而易见的,一切利用本发明构思的发明创造均在保护之列。

Claims (4)

1.一种因果关系检验和微服务指标预测报警方法,其特征在于,包括如下步骤:
步骤1、基于Granger因果关系检验的服务指标进行因果关系发现;
步骤2、基于Attention LSTM进行多指标预测、以及服务异常检测和服务智能报警;
(1) 首先对服务指标数据进行数据预处理,对服务指标数据进行平稳性检验,不平稳的序列需要进行差分处理;
(2) 对服务指标数据中的服务指标进行Granger因果关系检验,首先对Granger因果关系检验进行改进,分段增量计算因果关系,具体方法是将服务指标数据分割为长度相等的分段,然后对X、Y两个服务指标的对应分段进行Granger因果关系检验,最后对具有因果关系的分段数量进行统计,计算得到服务指标之间的因果关系;
(3) 所有服务指标之间的因果关系计算完毕后,将因果关系保存到因果关系图中,供Attention LSTM多指标预测模型使用。
2.根据权利要求1所述的一种因果关系检验和微服务指标预测报警方法,其特征在于:所述基于Attention LSTM进行多指标预测的具体实现步骤如下:
(2.1) 从Granger因果关系检验得到的服务指标因果关系图中与要预测的服务指标因果关系最强的前若干个服务指标,加上要预测的服务指标本身,共同作为Attention LSTM预测模型的输入;
(2.2) 对输入的服务指标进行预处理,所有服务指标归一化到0到1之间,如果服务指标有数据缺失的问题,将服务指标缺失值设置为前后值的平均值;
(2.3) 服务指标预处理后作为LSTM层的输入;
(2.4) LSTM层的输出作为Attention隐藏层的输入,Attention隐藏层能够使神经网络有选择地关注输入特征,并将学习到的特征权重保存赋值给下一个时间步长的输入向量,利用权值矩阵分配注意力,从而突出关键输入特征对预测的影响。
3.根据权利要求1所述的一种因果关系检验和微服务指标预测报警方法,其特征在于:所述步骤2中,服务异常检测具体包括:基于 Granger 因果关系检验和 Attention LSTM的多指标预测模型对多指标进行异常检测,使用多指标共同预测服务指标的未来值,如果服务指标真实值与预测值的差距大于置信区间,则标记为异常。
4.根据权利要求1所述的一种因果关系检验和微服务指标预测报警方法,其特征在于:所述步骤2中,服务智能报警具体包括:
设计基于表达式引擎的复合报警,首先对开发人员配置的复合报警的表达式进行语法解析,生成抽象语法树,然后根据涉及服务指标的时间戳指标数据进行抽取,根据抽象语法树计算该表达式在每个时间点的值,最后按照计算的值给出每个时间点是否触发报警;
执行基于服务调用关系、服务指标因果关系以及开发人员自定义的报警拓扑关系的报警收敛方法进行报警;
当多个服务指标触发异常报警时,根据服务调用关系图、服务指标因果关系图、用户自定义的报警拓扑关系图信息对预定时间范围内发生的异常进行聚合,如果两个异常报警之间存在联系,则将这两个异常报警聚合到一起,发送报警通知时将所有存在关联的异常报警一起通知,减少开发人员故障排查的成本;
当开发人员收到了某个指标的报警通知时,报警通知工具自动获取异常报警的相关数据,将报警的文本信息、异常指标的折线图发送给用户;当对聚合报警进行通知时,报警通知工具自动获取报警收敛的相关数据,将服务调用关系图、服务指标因果关系图以及开发人员配置的报警拓扑关系图一起发送给用户。
CN202210478087.8A 2022-05-05 2022-05-05 一种因果关系检验和微服务指标预测报警方法 Active CN114579407B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN202210478087.8A CN114579407B (zh) 2022-05-05 2022-05-05 一种因果关系检验和微服务指标预测报警方法
NL2034766A NL2034766A (en) 2022-05-05 2023-05-05 Alarming method for micro-service index prediction based on causality test

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210478087.8A CN114579407B (zh) 2022-05-05 2022-05-05 一种因果关系检验和微服务指标预测报警方法

Publications (2)

Publication Number Publication Date
CN114579407A CN114579407A (zh) 2022-06-03
CN114579407B true CN114579407B (zh) 2022-08-23

Family

ID=81783976

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210478087.8A Active CN114579407B (zh) 2022-05-05 2022-05-05 一种因果关系检验和微服务指标预测报警方法

Country Status (2)

Country Link
CN (1) CN114579407B (zh)
NL (1) NL2034766A (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115051870B (zh) * 2022-06-30 2024-02-06 浙江网安信创电子技术有限公司 一种基于因果发现检测未知网络攻击的方法
CN116383096B (zh) * 2023-06-06 2023-08-18 安徽思高智能科技有限公司 基于多指标时序预测的微服务系统异常检测方法及装置
CN117539648A (zh) * 2024-01-09 2024-02-09 天津市大数据管理中心 一种电子政务云平台的服务质量管理方法及装置

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112231187A (zh) * 2019-07-15 2021-01-15 华为技术有限公司 微服务异常分析方法及装置
CN113391943A (zh) * 2021-06-18 2021-09-14 广东工业大学 一种基于因果推断的微服务故障根因定位方法及装置
CN113837358A (zh) * 2021-08-25 2021-12-24 润联软件系统(深圳)有限公司 基于格兰杰因果关系的系统策略预测方法及相关设备
CN113919599A (zh) * 2021-11-26 2022-01-11 云南电网有限责任公司电力科学研究院 一种中长期负荷预测方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11777966B2 (en) * 2019-11-25 2023-10-03 Cisco Technology, Inc. Systems and methods for causation analysis of network traffic anomalies and security threats

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112231187A (zh) * 2019-07-15 2021-01-15 华为技术有限公司 微服务异常分析方法及装置
CN113391943A (zh) * 2021-06-18 2021-09-14 广东工业大学 一种基于因果推断的微服务故障根因定位方法及装置
CN113837358A (zh) * 2021-08-25 2021-12-24 润联软件系统(深圳)有限公司 基于格兰杰因果关系的系统策略预测方法及相关设备
CN113919599A (zh) * 2021-11-26 2022-01-11 云南电网有限责任公司电力科学研究院 一种中长期负荷预测方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
基于格兰杰因果关系检验的炼化系统故障根原因诊断方法;胡瑾秋等;《石油学报(石油加工)》;20161225(第06期);1266-1272 *

Also Published As

Publication number Publication date
NL2034766A (en) 2023-11-14
CN114579407A (zh) 2022-06-03

Similar Documents

Publication Publication Date Title
CN114579407B (zh) 一种因果关系检验和微服务指标预测报警方法
US11348023B2 (en) Identifying locations and causes of network faults
US7043661B2 (en) Topology-based reasoning apparatus for root-cause analysis of network faults
CN115657617A (zh) 一种用于火电厂智慧监盘报警系统实现方法
CN110032463B (zh) 一种基于贝叶斯网络的系统故障定位方法和系统
CN113497726B (zh) 告警监控方法、系统、计算机可读存储介质及电子设备
CN113900844B (zh) 一种基于服务码级别的故障根因定位方法、系统及存储介质
CN112559237B (zh) 运维系统排障方法、装置、服务器和存储介质
CN115237717A (zh) 一种微服务异常检测方法和系统
KR20190001501A (ko) 통신망의 인공지능 운용 시스템 및 이의 동작 방법
García et al. Automatic alarm prioritization by data mining for fault management in cellular networks
CN116684253A (zh) 基于智能运维的网络异常管控方法
CN115470025A (zh) 分布式云场景下智能根因分析方法及装置、介质、设备
Toka et al. Predicting cloud-native application failures based on monitoring data of cloud infrastructure
CN114385403A (zh) 基于双层知识图谱架构的分布式协同故障诊断方法
CN116827764B (zh) 一种基于神经网络的物联网故障检测控制方法及系统
Velasco A Bayesian Network approach to diagnosing the root cause of failure from Trouble Tickets.
Alghuried et al. Anomaly detection in large-scale networks: A state-space decision process
CN115412443B (zh) 一种基于突发检测的网络拓扑变化检测方法
Zhang et al. Root cause analysis of concurrent alarms based on random walk over anomaly propagation graph
Wang et al. LSTM-based alarm prediction in the mobile communication network
CN114911654A (zh) 一种故障分类方法、装置及系统
Streiffer et al. Learning to simplify distributed systems management
Yousef et al. On the use of predictive analytics techniques for network elements failure prediction in telecom operators
Yin et al. Cascaded fault detection system of error back-propagation network based on node association degree

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant