CN116225752A - 基于故障模式库的微服务系统故障根因分析方法及系统 - Google Patents

基于故障模式库的微服务系统故障根因分析方法及系统 Download PDF

Info

Publication number
CN116225752A
CN116225752A CN202211663037.3A CN202211663037A CN116225752A CN 116225752 A CN116225752 A CN 116225752A CN 202211663037 A CN202211663037 A CN 202211663037A CN 116225752 A CN116225752 A CN 116225752A
Authority
CN
China
Prior art keywords
fault
abnormal
root cause
service
micro
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211663037.3A
Other languages
English (en)
Inventor
史玉良
张乐瑶
王新军
孔凡玉
李晖
陈志勇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shandong University
Original Assignee
Shandong University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shandong University filed Critical Shandong University
Priority to CN202211663037.3A priority Critical patent/CN116225752A/zh
Publication of CN116225752A publication Critical patent/CN116225752A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/079Root cause analysis, i.e. error or fault diagnosis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0706Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment
    • G06F11/0709Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment in a distributed system consisting of a plurality of standalone computer nodes, e.g. clusters, client-server systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02PCLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
    • Y02P90/00Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
    • Y02P90/30Computing systems specially adapted for manufacturing

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Biomedical Technology (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Quality & Reliability (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Software Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Computer Hardware Design (AREA)
  • Exchange Systems With Centralized Control (AREA)
  • Debugging And Monitoring (AREA)

Abstract

本发明属于大数据信息处理及智能化运维领域,提供了一种基于故障模式库的微服务系统故障根因分析方法及系统,本发明考虑到在历史故障中蕴含的信息可以帮助后续发生相同故障时的根因分析,将历史故障形成带有标注的故障模式图,同时利用图卷积网络学习故障模式图的向量表示,存入故障模式库中,实现历史故障信息的有效利用,从而提高根因定位的效率和准确率。

Description

基于故障模式库的微服务系统故障根因分析方法及系统
技术领域
本发明属于大数据信息处理及智能化运维技术领域,具体涉及一种基于故障模式库的微服务系统故障根因分析方法及系统。
背景技术
本部分的陈述仅仅是提供了与本发明相关的背景技术信息,不必然构成在先技术。
对于大规模微服务系统,其复杂的网络拓扑结构和快速更新迭代的特点,增大了系统运维工作的难度。其中,由于故障事件(例如,意外中断、停机、性能下降、代码逻辑错误等)可能会沿着复杂的调用网络进行传播,对系统造成更大范围的影响,所以准确快速地进行故障根因分析就成为大规模微服务系统运维工作中的一个关键问题。针对该问题,研究基于故障模式库的微服务系统故障根因分析技术,基于微服务系统历史故障的运维数据,建立故障模式图,并加入故障模式库,构建基于故障模式库和图卷积网络的故障根因分析模型,在微服务系统发生故障时,对故障可能的根本原因进行推断,以便相关人员及时对故障组件采取止损措施,可以最大程度的降低设备故障所造成的损失。
由于传统运维很难在日益复杂的系统中快速准确地发现故障根本原因,来达到保证系统安全性的目的,因此提出了结合人工智能的智能运维,用于提升运维效率。目前,智能运维通过使用数据驱动和人工智能技术,结合应用程序日志、时间序列和执行跟踪数据等数据源,在自动化故障根因分析方面发挥了重要作用。现有的根因分析方法的研究主要集中在不依赖特定的领域知识和专家知识进行根因分析,虽然能够使运维人员在对系统内部结构并不完全清楚的情况下也能进行故障的根因定位,但是系统历史故障中的大量数据却无法加以利用,忽略了历史故障中蕴含的能够有助于根因分析的大量知识。
发明内容
本发明为了解决上述问题,提出了一种基于故障模式库的微服务系统故障根因分析方法及系统,本发明考虑到在历史故障中蕴含的信息可以帮助后续发生相同故障时的根因分析,将历史故障形成带有标注的故障模式图,同时利用图卷积网络学习故障模式图的向量表示,存入故障模式库中,实现历史故障信息的有效利用,从而提高根因定位的效率和准确率。
根据一些实施例,本发明采用如下技术方案:
一种基于故障模式库的微服务系统故障根因分析方法,包括以下步骤:
对微服务系统的历史监控指标数据进行实体映射和关系解析,得到表示系统状态的系统结构图;
基于系统结构图和响应时间异常的异常服务集合,通过系统结构图中的相关关系,形成异常子图,缩小根因分析的范围;
基于已知根因的历史故障的异常子图,对异常服务节点和根因服务节点进行标注,得到故障的故障模式图,利用故障模式图训练图卷积网络模型,学习故障模式图中的图结构和节点属性特征,对故障模式图进行嵌入向量表示,并将故障模式图的向量表示加入故障模式库中;
基于微服务测试系统在发生新故障时的监控指标数据,提取异常子图,通过预训练的图神经网络模型获得此时故障的向量表示,并与模式库中预存储的各个故障模式的表示向量表示进行相似度计算,得到按相似度排序的匹配模式列表和模式的根因列表,将根因列表作为最终的根因结果列表输出。
作为可选择的实施方式,微服务系统的历史监控指标数据将从微服务系统的监控设备获取,并进行预处理。
所述预处理过程包括数据清洗、缺失数据补全、数据定义以及规范化处理。
作为可选择的实施方式,对预处理后的监控指标数据进行实体映射和关系解析,获得包含系统服务和主机的节点集合、包含服务之间的调用关系和服务与主机之间的部署关系的边集合,并将相应指标作为属性附属到相应节点上。
作为可选择的实施方式,基于系统结构图和响应时间异常的异常服务集合,通过系统结构图中的相关关系,形成异常子图的具体过程包括:遍历所有的异常服务节点,提取系统结构图中以异常服务节点为起点和终点的所有有向边,加入异常子图的边集合;
将异常子图中所有有向边的所有端点加入异常子图的顶点集合,并将系统结构图中对应节点的属性也添加到异常子图的相应节点上,完成异常子图的提取。
作为进一步的限定,对于以异常服务节点为起点、主机节点为终点的部署边,需要加入以终点主机节点为终点的其他所有服务部署边。
作为可选择的实施方式,所述图卷积网络模型包括依次设置的第一层图卷积网络、一层ReLU激活函数、第二层图卷积网络和一层softmax函数。
作为可选择的实施方式,利用故障模式图训练图卷积网络模型时,基于图卷积模型输出的预测标签和真实标签,计算交叉熵损失值,根据损失值进行反向传播,对模型中的参数进行优化。
一种基于故障模式库的微服务系统故障根因分析系统,包括:
系统结构图模块,用于对微服务系统的历史监控指标数据进行实体映射和关系解析,得到表示系统状态的系统结构图;
异常子图模块,用于基于系统结构图和响应时间异常的异常服务集合,通过系统结构图中的相关关系,形成异常子图,缩小根因分析的范围;
故障模式图模块,用于基于已知根因的历史故障的异常子图,对异常服务节点和根因服务节点进行标注,得到故障的故障模式图,利用故障模式图训练图卷积网络模型,学习故障模式图中的图结构和节点属性特征,对故障模式图进行嵌入向量表示,并将故障模式图的向量表示加入故障模式库中;
根因定位模块,用于基于微服务系统在发生新故障时的监控指标数据,提取异常子图,通过预训练的图神经网络模型获得此时故障的向量表示,并与模式库中预存储的各个故障模式的表示向量表示进行相似度计算,得到按相似度排序的匹配模式列表和模式的根因列表,将根因列表作为最终的根因结果列表输出。
一种电子设备,包括存储器和处理器以及存储在存储器上并在处理器上运行的计算机指令,所述计算机指令被处理器运行时,完成上述方法中的步骤。
一种计算机可读存储介质,用于存储计算机指令,所述计算机指令被处理器执行时,完成上述方法中的步骤。
与现有技术相比,本发明的有益效果为:
本发明以微服务系统的监控度量指标数据为基础,将度量指标数据与微服务系统的图结构进行结合来表示故障,考虑到系统的历史故障信息可用于后续的故障根因分析,对每次历史故障的指标数据和图结构构建故障模式图,并将模式图表示后存入故障模式库,从而实现对历史故障中信息的提取与利用。
本发明考虑到系统的历史故障数据中蕴含可用的知识,引入图卷积网络学习并提取故障模式图的特征,获得历史故障模式图的嵌入向量表示,通过计算向量的相似性进行根因推断,从而提高根因分析的效率和准确率。
为使本发明的上述目的、特征和优点能更明显易懂,下文特举较佳实施例,并配合所附附图,作详细说明如下。
附图说明
构成本发明的一部分的说明书附图用来提供对本发明的进一步理解,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。
图1为本发明实施例提供的基于故障模式库的微服务系统故障根因定位方法的整体流程图;
图2为本发明实施例提供的基于图卷积网络的故障模式图和故障异常子图的向量表示和相似度计算的处理流程图;
图3为本发明实施例提供的基于故障模式库的微服务系统故障根因分析系统结构示意图。
具体实施方式:
下面结合附图与实施例对本发明作进一步说明。
应该指出,以下详细说明都是例示性的,旨在对本发明提供进一步的说明。除非另有指明,本文使用的所有技术和科学术语具有与本发明所属技术领域的普通技术人员通常理解的相同含义。
需要注意的是,这里所使用的术语仅是为了描述具体实施方式,而非意图限制根据本发明的示例性实施方式。如在这里所使用的,除非上下文另外明确指出,否则单数形式也意图包括复数形式,此外,还应当理解的是,当在本说明书中使用术语“包含”和/或“包括”时,其指明存在特征、步骤、操作、器件、组件和/或它们的组合。
实施例一
如图1所示,本实施例提供了一种基于故障模式库的微服务系统根因分析方法,其具体包括如下步骤:
步骤1:借助微服务系统的监控工具(Prometheus、Skywalking等)收集系统在运行时各系统组件的监控指标数据,并对监控数据进行预处理,其中预处理包含数据清洗、缺失数据补全、数据定义以及规范化处理。
当然,在其他实施例中,监控工具并不限于上述给出的示例。
同样的,在部分实施例中,监控数据也可以从其他途径获取。
本实施例所提到的监控指标数据包括但不限于服务级别的服务平均响应时间、服务平均访问量、服务平均成功率、服务调用的响应时间、服务调用的成功率;服务实例级别的服务实例平均响应时间、服务实例平均访问量、服务实例平均成功率、服务实例CPU使用率、服务实例内存使用率;主机级别的主机CPU使用率、主机内存使用率、主机文件传输速率等。
当然,监控指标数据可以进行选择和设定,本领域技术人员可以根据根因分析需求,选择微服务系统性能、服务相关的参数,并不限定于上述给出的示例。
步骤2:基于系统的监控度量指标数据,通过实体映射和关系解析,获得系统中全部的服务和物理主机,构成系统结构图中的节点集合,并将服务和主机的相关指标作为节点属性加入图中;通过服务调用和服务部署相关指标,解析出服务节点之间的调用关系和服务与主机之间的部署关系,构成系统结构图中的边集合,完成系统结构图的构建。
步骤3:基于系统结构图和响应时间异常的异常服务集合,根据异常服务节点的相关关系提取系统结构图中的子图,形成异常子图。
具体步骤为:
步骤3.1:遍历所有的异常服务节点,提取系统结构图中以异常服务节点为起点和终点的所有有向边,加入异常子图的边集合;其中,对于以异常服务节点为起点、主机节点为终点的部署边,还需要加入以终点主机节点为终点的其他所有服务部署边。
步骤3.2:将异常子图中所有有向边的所有端点加入异常子图的顶点集合,并将系统结构图中对应节点的属性也添加到异常子图的相应节点上,完成异常子图的提取。
步骤4:对于已知根因的历史故障的异常子图,人工标注根因服务节点和异常服务节点,形成故障模式图。将故障模式图的图结构和服务节点的度量指标属性输入图卷积网络模型中进行特征学习,最后输出代表此次故障模式图的向量表示,并加入故障模式库中。
具体地,故障模式图的嵌入向量表示的一般生成过程为:
步骤4.1:对故障模式图进行规范化定义,具体如下:
故障模式图(Mode Graph,MG),由邻接矩阵A和节点的特征矩阵X表示,MG定义如下:
MGi={(Ai,Xi)},i=1,2,... (1)
对于一个含有n个节点的故障模式图,其中特征矩阵Xi∈Rn×d,d为节点的度量指标的时间维度;邻接矩阵Ai∈Rn×n,用于表示故障模式图中的有向边,具体取值和含义如下:
Figure BDA0004014733240000091
步骤4.2:将每个故障模式图MGi的邻接矩阵Ai∈Rn×n和节点特征矩阵Xi∈Rn×d作为图卷积模型的输入,进行特征学习,整个模型的计算公式表示为:
Figure BDA0004014733240000092
该模型依次由第一层图卷积网络、一层ReLU激活函数、第二层图卷积网络和一层softmax函数构成,最终的输出Zi为n维的向量表示。其中W(0)、W(1)分别为第一层和第二层图卷积网络的待训练参数,这两层图卷积网络的计算公式均可表示为:
Figure BDA0004014733240000093
其中,图卷积网络的输入为H(l)∈Rn×d(初始输入为H(0)=Xi),n为图中的节点数量,每个节点使用d维的特征向量进行表示。
Figure BDA0004014733240000094
为添加了自连接的邻接矩阵,
Figure BDA0004014733240000095
为度矩阵。W(l)∈Rd×d为图卷积层待训练的参数。σ为非线性激活函数,第一层图卷积使用ReLU激活函数,第二层图卷积不使用激活函数。最后将第二层图卷积网络的输出经过softmax层得到模型的输出n维向量Zi作为故障模式图的向量表示。
步骤4.3:基于图卷积模型输出的预测标签和真实标签,计算交叉熵损失值,根据损失值进行反向传播,进而对模型中的参数进行优化,以提高模型对模式图进行表示的准确性。
具体地,计算softmax函数输出值的损失函数,采用Adam算法训练模型中的学习参数,完成模型的训练;
采用交叉熵作为softmax函数输出值的损失函数,若y为节点真实的类别分布,
Figure BDA0004014733240000101
为模型预测的类别分布,M为总类别数,则损失函数定义如下:
Figure BDA0004014733240000102
步骤5:对于微服务系统新发生的故障,可按照上述步骤构建故障的异常子图并通过训练图卷积模型获得异常子图的向量表示。此时,将新故障的向量表示与故障模式库中历史故障模式图的向量表示进行相似度计算,最终按照相似度排序获取相似的故障模式列表,其对应的根因节点就是此次故障的根因分析的结果列表。
具体地,使用余弦相似度公式计算异常子图的向量表示与故障模式库中的向量表示之间的相似度,则异常子图的向量表示Zi与故障模式库中的向量表示Zj之间的相似度计算公式如下:
Figure BDA0004014733240000103
对测试故障样本进行故障根因分析,并将测试结果与基础的随机游走根因定位方法进行结果对比,表2描述了微服务系统故障根因分析方法的性能比较:
表2微服务系统故障根因分析方法的性能比较
Model PR@1 PR@3
Random Walk 0.13 0.29
Ours 0.25 0.50
基于表2中的结果可得,本实施例所提出的基于故障模式库的微服务系统根因分析方法的性能优于其他方法。
实施例二
如图3所示,本实施例提供了一种基于故障模式库的微服务系统根因分析系统,其具体包括如下模块:
数据收集模块,其用于基于微服务测试系统的各种故障状态,通过Prometheus和Skywalking等监控工具,从各个级别收集微服务系统的监控度量指标数据;
系统结构图模块,其用于基于系统监控数据,通过实体映射和关系解析,将系统中的服务、主机等映射为节点,服务之间的调用关系、服务与主机之间的部署关系等映射为节点之间的有向边,各个组件的度量指标数据映射为节点或边的属性,从而得到反映当前系统状态的系统结构图;
异常子图模块,其用于基于系统结构图和响应时间异常的异常服务集合,以异常服务节点为中心,提取系统结构图中一定范围内的节点和边,作为异常子图,缩小根因分析的范围;
故障模式图模块,其用于基于历史故障的异常子图,通过人工标注异常服务节点和根因服务节点得到故障模式图;基于故障模式图训练图卷积模型,得到各个故障模式图的嵌入向量表示,将各个故障模式图的向量表示存入库中,形成包含历史故障信息的故障模式库;
根因定位模块,其用于将新发生故障的异常子图通过图卷积网络,得到嵌入向量表示;通过将故障向量与故障模式库中的故障模式向量进行相似度计算,得到排序后的根本原因列表。
此处需要说明的是,本实施例的基于故障模式库的微服务系统根因分析系统中的各个模块,与实施例一中的基于故障模式库的微服务系统根因分析方法中的步骤一一对应,其具体实施过程相同,此处不再累述。
实施例三
本实施例提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如上述实施例一所述的基于故障模式库的微服务系统根因分析方法中的步骤。
实施例四
本实施例提供了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上述实施例一所述的基于故障模式库的微服务系统根因分析方法中的步骤。
本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
上述虽然结合附图对本发明的具体实施方式进行了描述,但并非对本发明保护范围的限制,所属领域技术人员应该明白,在本发明的技术方案的基础上,本领域技术人员不需要付出创造性劳动即可做出的各种修改或变形仍在本发明的保护范围以内。

Claims (10)

1.一种基于故障模式库的微服务系统故障根因分析方法,其特征是,包括以下步骤:
对微服务系统的历史监控指标数据进行实体映射和关系解析,得到表示系统状态的系统结构图;
基于系统结构图和响应时间异常的异常服务集合,通过系统结构图中的相关关系,提取异常子图;
基于已知根因的历史故障的异常子图,对异常服务节点和根因服务节点进行标注,得到故障的故障模式图,利用故障模式图训练图卷积网络模型,学习故障模式图中的图结构和节点属性特征,对故障模式图进行嵌入向量表示,并将故障模式图的向量表示加入故障模式库中;
基于微服务测试系统在发生新故障时的监控指标数据,提取异常子图,通过预训练的图神经网络模型获得此时故障的向量表示,并与模式库中预存储的各个故障模式的向量表示进行相似度计算,得到按相似度排序的匹配模式列表和模式的根因列表,将根因列表作为最终的根因结果列表输出。
2.如权利要求1所述的一种基于故障模式库的微服务系统故障根因分析方法,其特征是,微服务系统的历史监控指标数据可以从微服务系统的监控设备中获取,并进行预处理;
或进一步的,所述预处理过程包括数据清洗、缺失数据补全、数据定义以及规范化处理。
3.如权利要求1所述的一种基于故障模式库的微服务系统故障根因分析方法,其特征是,对预处理后的监控指标数据进行实体映射和关系解析,获得包含系统服务和主机的节点集合、包含服务之间的调用关系和服务与主机之间的部署关系的边集合,并将相应指标作为属性附属到相应节点上。
4.如权利要求1所述的一种基于故障模式库的微服务系统故障根因分析方法,其特征是,基于系统结构图和响应时间异常的异常服务集合,通过系统结构图中的相关关系,形成异常子图的具体过程包括:遍历所有的异常服务节点,提取系统结构图中以异常服务节点为起点和终点的所有有向边,加入异常子图的边集合;将异常子图中所有有向边的所有端点加入异常子图的顶点集合,并将系统结构图中对应节点的属性也添加到异常子图的相应节点上,完成异常子图的提取。
5.如权利要求4所述的一种基于故障模式库的微服务系统故障根因分析方法,其特征是,对于以异常服务节点为起点、主机节点为终点的部署边,需要加入以终点主机节点为终点的其他所有服务部署边。
6.如权利要求1所述的一种基于故障模式库的微服务系统故障根因分析方法,其特征是,所述图卷积网络模型包括依次设置的第一层图卷积网络、一层ReLU激活函数、第二层图卷积网络和一层softmax函数。
7.如权利要求1所述的一种基于故障模式库的微服务系统故障根因分析方法,其特征是,利用故障模式图训练图卷积网络模型时,基于图卷积模型输出的预测标签和真实标签,计算交叉熵损失值,根据损失值进行反向传播,对模型中的参数进行优化。
8.一种基于故障模式库的微服务系统故障根因分析系统,其特征是,包括:
系统结构图模块,用于对微服务系统的历史监控指标数据进行实体映射和关系解析,得到表示系统状态的系统结构图;
异常子图模块,用于基于系统结构图和响应时间异常的异常服务集合,通过系统结构图中的相关关系,形成异常子图,缩小根因分析的范围;
故障模式图模块,用于基于已知根因的历史故障的异常子图,对异常服务节点和根因服务节点进行标注,得到故障的故障模式图,利用故障模式图训练图卷积网络模型,学习故障模式图中的图结构和节点属性特征,对故障模式图进行嵌入向量表示,并将故障模式图的向量表示加入故障模式库中;
根因定位模块,用于基于微服务测试系统在发生新故障时的监控指标数据,提取异常子图,通过预训练的图神经网络模型获得此时故障的向量表示,并与模式库中预存储的各个故障模式的向量表示进行相似度计算,得到按相似度排序的匹配模式列表和模式的根因列表,将根因列表作为最终的根因结果列表输出。
9.一种电子设备,包括存储器和处理器以及存储在存储器上并在处理器上运行的计算机指令,所述计算机指令被处理器运行时,完成权利要求1-7中任意项所述的方法中的步骤。
10.一种计算机可读存储介质,其特征是,用于存储计算机指令,所述计算机指令被处理器执行时,完成权利要求1-7中任意项所述的方法中的步骤。
CN202211663037.3A 2022-12-23 2022-12-23 基于故障模式库的微服务系统故障根因分析方法及系统 Pending CN116225752A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211663037.3A CN116225752A (zh) 2022-12-23 2022-12-23 基于故障模式库的微服务系统故障根因分析方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211663037.3A CN116225752A (zh) 2022-12-23 2022-12-23 基于故障模式库的微服务系统故障根因分析方法及系统

Publications (1)

Publication Number Publication Date
CN116225752A true CN116225752A (zh) 2023-06-06

Family

ID=86588194

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211663037.3A Pending CN116225752A (zh) 2022-12-23 2022-12-23 基于故障模式库的微服务系统故障根因分析方法及系统

Country Status (1)

Country Link
CN (1) CN116225752A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117130819A (zh) * 2023-10-27 2023-11-28 江西师范大学 一种基于时延方差和相关系数值的微服务故障诊断方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117130819A (zh) * 2023-10-27 2023-11-28 江西师范大学 一种基于时延方差和相关系数值的微服务故障诊断方法
CN117130819B (zh) * 2023-10-27 2024-01-30 江西师范大学 一种基于时延方差和相关系数值的微服务故障诊断方法

Similar Documents

Publication Publication Date Title
CN111614491B (zh) 一种面向电力监控系统安全态势评估指标选取方法及系统
CN109978079A (zh) 一种改进的堆栈降噪自编码器的数据清洗方法
CN113032238B (zh) 基于应用知识图谱的实时根因分析方法
CN113570138B (zh) 一种时间卷积网络的设备剩余使用寿命预测方法及装置
CN112615888B (zh) 一种网络攻击行为的威胁评估方法及装置
CN112217674B (zh) 基于因果网络挖掘和图注意力网络的告警根因识别方法
CN114492675B (zh) 一种电容式电压互感器故障原因智能诊断方法
CN111126820A (zh) 反窃电方法及系统
CN115237717A (zh) 一种微服务异常检测方法和系统
CN113268370B (zh) 一种根因告警分析方法、系统、设备及存储介质
CN116400168A (zh) 一种基于深度特征聚类的电网故障诊断方法及系统
CN116225752A (zh) 基于故障模式库的微服务系统故障根因分析方法及系统
Massaferro et al. Improving electricity non technical losses detection including neighborhood information
CN114897085A (zh) 一种基于封闭子图链路预测的聚类方法及计算机设备
CN110516792A (zh) 基于小波分解和浅层神经网络的非平稳时间序列预测方法
CN113505818A (zh) 改进决策树算法的熔铝炉能耗异常诊断方法和系统及设备
CN117909864A (zh) 一种电力故障预测系统及方法
Huo et al. Traffic anomaly detection method based on improved GRU and EFMS-Kmeans clustering
CN113159441A (zh) 银行业务项目实施情况的预测方法及装置
Ong et al. A manufacturing failure root cause analysis in imbalance data set using pca weighted association rule mining
Snel et al. Multi-task evolutionary shaping without pre-specified representations
CN116521495A (zh) 一种基于强化学习的系统性能瓶颈检测方法
CN114036319A (zh) 一种电力知识抽取方法、系统、装置及存储介质
Pandhare et al. Collaborative prognostics for machine fleets using a novel federated baseline learner
CN114298188A (zh) 一种电力设备故障智能分析方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination