CN115981902A - 一种细粒度分布式微服务系统异常根因定位方法及装置 - Google Patents

一种细粒度分布式微服务系统异常根因定位方法及装置 Download PDF

Info

Publication number
CN115981902A
CN115981902A CN202211637116.7A CN202211637116A CN115981902A CN 115981902 A CN115981902 A CN 115981902A CN 202211637116 A CN202211637116 A CN 202211637116A CN 115981902 A CN115981902 A CN 115981902A
Authority
CN
China
Prior art keywords
index
abnormal
service
index data
root cause
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211637116.7A
Other languages
English (en)
Inventor
李兵
朱雨涵
王健
赵玉琦
熊燚铭
张泽锟
谢帅宇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Wuhan University WHU
Original Assignee
Wuhan University WHU
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Wuhan University WHU filed Critical Wuhan University WHU
Priority to CN202211637116.7A priority Critical patent/CN115981902A/zh
Publication of CN115981902A publication Critical patent/CN115981902A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Debugging And Monitoring (AREA)

Abstract

本发明公开了一种细粒度分布式微服务系统异常根因定位方法及装置,涉及软件技术领域,该方法包括进行微服务系统的多维度指标数据和服务调用数据的收集,并基于收集的服务调用数据进行服务调用拓扑图构建;基于多维度指标数据进行建模形成指标数据模型,得到多维度指标数据矩阵;将服务调用拓扑图与指标数据模型进行结合,得到异常子图,同时根据指标数据模型构建个性化数组;在异常子图中执行个性化随机游走算法以得出异常根因,并根据异常根因结果进行异常检查和恢复。本发明能够帮助开发和运维人员在分布式系统发生异常时实时快速、准确地定位根因,将根因粒度进一步缩小至容器实例或物理机,以迅速响应防止系统崩溃。

Description

一种细粒度分布式微服务系统异常根因定位方法及装置
技术领域
本发明涉及软件技术领域,具体涉及一种细粒度分布式微服务系统异常根因定位方法及装置。
背景技术
随着互联网、芯片领域的高速发展,硬件能够为软件提供更好的存储、计算、网络服务。为充分利用硬件资源和适应分布式系统资源,基于服务的分布式软件架构能够将分散的硬件资源统一管理和利用,并降低计算资源成本,同时提升研发效率和系统可用性。大量分布式软件架构应用于云计算或者大型分布式系统集群,以微服务的形式部署于云厂商或内网机器集群。云厂商或大型系统集群通过虚拟化技术,将集群多台物理机资源统筹规划和调度,使得部署在虚拟化技术之上的微服务系统处在容器化的虚拟内存和网络运行环境中。大量微服务系统通过虚拟隔离技术同时运行在同一物理集群之上,当微服务系统发生异常时,微服务系统内部依赖关系复杂,调用链路冗长;微服务系统之间竞争资源利用,存在相互影响;微服务系统外部与物理资源进行频繁交换和调度。上述原因导致难以高效、准确定位异常根因,随着时间累积,最终导致整个系统崩溃。
作为保障系统运行和应对系统异常的工程技术,异常根因定位方法能够代替人工快速准确地鉴别分布式系统异常根因,从而防止系统崩溃,挽回由系统崩溃导致的经济损失。当前广泛应用于分布式系统的异常根因定位方法主要包含以下三类:
1、收集系统运行时多维度指标数据、微服务调用数据和系统运行日志,展示于数据大盘,利用人工观测监察排查系统根因;
2、利用微服务调用数据构建微服务拓扑图,利用启发式算法计算系统根因;
3、利用机器学习、深度学习方法分析指标数据,将服务根因定位问题转化为分类问题进行指标数据拟合,从而得出服务根因。
在分布式系统中,通过指标监测工具收集海量系统运行数据并进行数据分析,以提升服务根因定位的效率和准确率,传统的凭借人为经验和系统告警进行判断的方法已被逐渐摒弃。容器化虚拟技术使得微服务系统拓扑结构变化频繁,微服务系统的海量运行时数据又会使得机器学习相关方法训练成本过高。可见当前的根因定位方法仅关注于微服务系统中的服务根因,根因粒度过大,但在真实场景中根因可能是微服务应用、微服务容器实例、网络资源和物理机资源等多种维度和粒度,更提升了根因定位的难度。
发明内容
针对现有技术中存在的缺陷,本发明的目的在于提供一种细粒度分布式微服务系统异常根因定位方法及装置,能够帮助开发和运维人员在分布式系统发生异常时实时快速、准确地定位根因,将根因粒度进一步缩小至容器实例或物理机,以迅速响应防止系统崩溃。
为达到以上目的,本发明提供一种细粒度分布式微服务系统异常根因定位方法,具体包括以下步骤:
进行微服务系统的多维度指标数据和服务调用数据的收集,并基于收集的服务调用数据进行服务调用拓扑图构建;
基于多维度指标数据进行建模形成指标数据模型,得到多维度指标数据矩阵;
将服务调用拓扑图与指标数据模型进行结合,得到异常子图,同时根据指标数据模型构建个性化数组;
在异常子图中执行个性化随机游走算法以得出异常根因,并根据异常根因结果进行异常检查和恢复。
在上述技术方案的基础上,
所述多维度指标数据包括KPI指标数据和实例指标数据;
所述KPI指标数据包括物理机指标维度下物理机CPU使用率指标、物理机指标维度下物理机内存使用率指标、物理机指标维度下物理机网络延时指标、服务应用指标维度下服务调用延时指标;
所述实例指标数据包括容器实例指标维度下容器CPU使用率指标、容器实例指标维度下容器内存使用率指标、容器实例指标维度下容器吞吐量指标、容器实例指标维度下容器网络延时指标和容器实例指标维度下容器请求响应成功率指标。
在上述技术方案的基础上,所述服务调用拓扑图为异常发生时刻的微服务系统拓扑结构。
在上述技术方案的基础上,所述多维度指标数据矩阵包括各服务随时间的调用延时矩阵、各物理机随时间的多维度指标数据矩阵,以及各容器实例随时间的多维度指标数据矩阵。
在上述技术方案的基础上,所述将服务调用拓扑图与指标数据模型进行结合,得到异常子图,具体步骤包括:
根据服务调用拓扑图中的服务调用延时数据指标,检测出异常调用边并进行标记;
将标记的异常调用边,以及与标记的异常调用边相邻的节点和边,共同构建异常子图;
将指标数据模型应用于构建的异常子图中以赋予边以权值。
在上述技术方案的基础上,所述个性化数组包括微服务指标异常程度、服务实例指标异常程度、宿主机指标异常程度、服务实例与所在服务指标相似度、服务实例所在宿主机指标异常程度,以及服务实例所在宿主机其他实例容器指标异常程度。
在上述技术方案的基础上,所述根据指标数据模型构建个性化数组,具体步骤包括:
根据异常子图中每个节点的指标差异性,并结合个性化随机游走算法,给每个服务实例或宿主机节点依据其指标关联差异赋予不同的个性化权值,且将异常子图中其余节点的个性化数组值赋为0值。
在上述技术方案的基础上,所述在异常子图中执行个性化随机游走算法以得出异常根因,其中,在异常子图中执行个性化随机游走算法,具体为:
将个性化数组作为个性化随机游走算法的输入参数,执行个性化随机游走算法,使得在随机游走过程中以不同的概率从任意节点重新开始进行游走,具体为:
v=(1-c)Pv+cu
其中,v表示节点最终打分结果,c表示继续向前进行随机游走的概率,P表示个性化数组,u表示下一个节点的打分结果。
本发明提供一种细粒度分布式微服务系统异常根因定位装置,包括:
收集模块,其用于进行微服务系统的多维度指标数据和服务调用数据的收集,并基于收集的服务调用数据进行服务调用拓扑图构建;
建模模块,其用于基于多维度指标数据进行建模形成指标数据模型,得到多维度指标数据矩阵;
结合模块,其用于将服务调用拓扑图与指标数据模型进行结合,得到异常子图,同时根据指标数据模型构建个性化数组;
执行模块,其用于在异常子图中执行个性化随机游走算法以得出异常根因,并根据异常根因结果进行异常检查和恢复。
在上述技术方案的基础上,
所述多维度指标数据包括KPI指标数据和实例指标数据;
所述KPI指标数据包括物理机指标维度下物理机CPU使用率指标、物理机指标维度下物理机内存使用率指标、物理机指标维度下物理机网络延时指标、服务应用指标维度下服务调用延时指标;
所述实例指标数据包括容器实例指标维度下容器CPU使用率指标、容器实例指标维度下容器内存使用率指标、容器实例指标维度下容器吞吐量指标、容器实例指标维度下容器网络延时指标和容器实例指标维度下容器请求响应成功率指标。
与现有技术相比,本发明的优点在于:首先根据系统服务调用关系,即时构建当前系统的调用拓扑图,接着将异常请求延时两端的微服务视为根因微服务候选集,利用根因微服务候选集过滤出服务调用拓扑图中可能与根因相关的部分,构建包含异常微服务、微服务实例及宿主机的异常子图,接着借助微服务指标建模方法,计算出每个微服务对应的所有微服务实例的最大相关性指标项,该指标项将作为最有价值实例指标,同时将各个指标与各种异常类别进行相似度计算,在定位到实例根因的基础上能够更加准确地判断出具体的异常类别,本发明能够帮助开发和运维人员在分布式系统发生异常时实时快速、准确地定位根因,将根因粒度进一步缩小至容器实例或物理机,以迅速响应防止系统崩溃。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例中一种细粒度分布式微服务系统异常根因定位方法的流程图。
具体实施方式
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请的一部分实施例,而不是全部的实施例。
本发明实施例提供一种细粒度分布式微服务系统异常根因定位方法,能够实现更细粒度,即能够在微服务应用、微服务容器实例网络资源、物理机资源等多种维度和粒度定位出分布式系统异常根因。根据分布式系统当前运行状态,同时收集异常发生时间窗口内分布式系统、容器、物理机多维度指标数据,综合微服务调用数据构建异常拓扑图和异常调用范围内包含多维度指标数据的异常子图,最后在异常子图中执行个性化随机游走算法得出异常根因排名,排名越高,则更有可能是异常根因。经反复实验本发明方法得出的异常根因具有较高准确率,使得在分布式系统发生异常时,能够实时利用承载该方法的根因定位装置检测异常根因,帮助软件开发和运维人员快速定位故障根因,高效准确地解决问题,极大地减少故障损失、降低故障定位成本并提升故障恢复效率。
参见图1所示,本发明实施例提供的一种细粒度分布式微服务系统异常根因定位方法,具体包括以下步骤:
S1:进行微服务系统的多维度指标数据和服务调用数据的收集,并基于收集的服务调用数据进行服务调用拓扑图构建;服务调用拓扑图为异常发生时刻的微服务系统拓扑结构。
本发明中,多维度指标数据包括KPI(Key Performance Indicator,关键绩效指标)指标数据和实例指标数据;KPI指标数据包括物理机指标维度下物理机CPU(CentralProcessing Unit,中央处理器)使用率指标、物理机指标维度下物理机内存使用率指标、物理机指标维度下物理机网络延时指标、服务应用指标维度下服务调用延时指标;实例指标数据包括容器实例指标维度下容器CPU使用率指标、容器实例指标维度下容器内存使用率指标、容器实例指标维度下容器吞吐量指标、容器实例指标维度下容器网络延时指标和容器实例指标维度下容器请求响应成功率指标。
S2:基于多维度指标数据进行建模形成指标数据模型,得到多维度指标数据矩阵;
即将KPI指标数据和实例指标数据进行实例指标建模。本发明中,多维度指标数据矩阵包括各服务随时间的调用延时矩阵、各物理机随时间的多维度指标数据矩阵,以及各容器实例随时间的多维度指标数据矩阵。
S3:将服务调用拓扑图与指标数据模型进行结合,得到异常子图,同时根据指标数据模型构建个性化数组;
本发明中,将服务调用拓扑图与指标数据模型进行结合,得到异常子图,具体步骤包括:
S301:根据服务调用拓扑图中的服务调用延时数据指标,检测出异常调用边并进行标记;在微服务系统中,由于各服务依赖关系复杂,调用链路冗长,极易出现根因异常引发的异常传递现象,从而导致处出现异常。
S302:将标记的异常调用边,以及与标记的异常调用边相邻的节点和边,共同构建异常子图;
S303:将指标数据模型应用于构建的异常子图中以赋予边以权值。
本发明中,个性化数组包括微服务指标异常程度、服务实例指标异常程度、宿主机指标异常程度、服务实例与所在服务指标相似度、服务实例所在宿主机指标异常程度,以及服务实例所在宿主机其他实例容器指标异常程度。
在将服务实例与服务指标关联度赋值完成后,考虑每个服务实例运行在一个实例容器中,实例容器被服务网格技术编排至某一宿主机上,实例容器运行时的指标数据受到整个宿主机资源数据的影响,将实例的CPU、Network(网络通信)、Memory(内存)指标数据与其所在节点的CPU、Network、Memory指标数据进行相关性计算,将该相关性数值作为异常子图中该实例与其所在节点的连线权值。通过服务实例与宿主机关联度赋值异常子图,能够直观观察到每个容器实例与宿主机的数值关联强度,连线的权值越大,则该实例对宿主机或该实例受到宿主机的影响越大。
本发明中,根据指标数据模型构建个性化数组,具体步骤包括:根据异常子图中每个节点的指标差异性,并结合个性化随机游走算法,给每个服务实例或宿主机节点依据其指标关联差异赋予不同的个性化权值,且将异常子图中其余节点的个性化数组值赋为0值。
即根据当前异常子图中每个节点的指标差异性,结合个性化随机游走算法,由于最终目标为定位根因到服务实例或宿主机节点,给每个服务实例或宿主机节点依据其指标关联差异赋予不同的个性化权值,而将异常子图中其余节点的个性化数组值赋为0值,以在随机游走结果中更可能将指标异常程度较高的服务实例或宿主机节点排名在前。
S4:在异常子图中执行个性化随机游走算法以得出异常根因,并根据异常根因结果进行异常检查和恢复。
本发明中,在异常子图中执行个性化随机游走算法以得出异常根因,其中,在异常子图中执行个性化随机游走算法,具体为:
将个性化数组作为个性化随机游走算法的输入参数,执行个性化随机游走算法,使得在随机游走过程中以不同的概率从任意节点重新开始进行游走,具体为:
v=(1-c)Pv+cu
其中,v表示节点最终打分结果,即实例根因定位结果排名,c表示继续向前进行随机游走的概率,P表示个性化数组,u表示下一个节点的打分结果。经过多轮游走迭代后,每个节点的打分结果将趋于收敛,从而产生最终的根因定位排名结果。
通过加入个性化的参数,使得在随机游走过程中以不同的概率从任意节点重新开始进行游走,个性化数组值越大,从该节点重新开始游走的概率越大。
本发明实施例的细粒度分布式微服务系统异常根因定位方法,首先根据系统服务调用关系,即时构建当前系统的调用拓扑图,接着将异常请求延时两端的微服务视为根因微服务候选集,利用根因微服务候选集过滤出服务调用拓扑图中可能与根因相关的部分,构建包含异常微服务、微服务实例及宿主机的异常子图,接着借助微服务指标建模方法,计算出每个微服务对应的所有微服务实例的最大相关性指标项,该指标项将作为最有价值实例指标,同时将各个指标与各种异常类别进行相似度计算,在定位到实例根因的基础上能够更加准确地判断出具体的异常类别,本发明能够帮助开发和运维人员在分布式系统发生异常时实时快速、准确地定位根因,将根因粒度进一步缩小至容器实例或物理机,以迅速响应防止系统崩溃。
在一种可能的实施方式中,本发明实施例还提供一种可读存储介质,可读存储介质位于PLC(Programmable Logic Controller,可编程逻辑控制器)控制器中,可读存储介质上存储有计算机程序,该程序被处理器执行时实现以下所述细粒度分布式微服务系统异常根因定位方法的步骤:
进行微服务系统的多维度指标数据和服务调用数据的收集,并基于收集的服务调用数据进行服务调用拓扑图构建;
基于多维度指标数据进行建模形成指标数据模型,得到多维度指标数据矩阵;
将服务调用拓扑图与指标数据模型进行结合,得到异常子图,同时根据指标数据模型构建个性化数组;
在异常子图中执行个性化随机游走算法以得出异常根因,并根据异常根因结果进行异常检查和恢复。
存储介质可以采用一个或多个计算机可读的介质的任意组合。计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质例如可以是但不限于:电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本文件中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。
计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:无线、电线、光缆、RF等等,或者上述的任意合适的组合。
可以以一种或多种程序设计语言或其组合来编写用于执行本发明操作的计算机程序代码,所述程序设计语言包括面向对象的程序设计语言,诸如Java、Smalltalk、C++,还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络,包括局域网(LAN)或广域网(WAN),连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。
本发明实施例提供的一种细粒度分布式微服务系统异常根因定位装置,包括收集模块、建模模块、结合模块和执行模块。
收集模块用于进行微服务系统的多维度指标数据和服务调用数据的收集,并基于收集的服务调用数据进行服务调用拓扑图构建;建模模块用于基于多维度指标数据进行建模形成指标数据模型,得到多维度指标数据矩阵;结合模块用于将服务调用拓扑图与指标数据模型进行结合,得到异常子图,同时根据指标数据模型构建个性化数组;执行模块用于在异常子图中执行个性化随机游走算法以得出异常根因,并根据异常根因结果进行异常检查和恢复。
本发明中,多维度指标数据包括KPI指标数据和实例指标数据;KPI指标数据包括物理机指标维度下物理机CPU使用率指标、物理机指标维度下物理机内存使用率指标、物理机指标维度下物理机网络延时指标、服务应用指标维度下服务调用延时指标;实例指标数据包括容器实例指标维度下容器CPU使用率指标、容器实例指标维度下容器内存使用率指标、容器实例指标维度下容器吞吐量指标、容器实例指标维度下容器网络延时指标和容器实例指标维度下容器请求响应成功率指标。
本发明实施例的细粒度分布式微服务系统异常根因定位装置,首先根据系统服务调用关系,即时构建当前系统的调用拓扑图,接着将异常请求延时两端的微服务视为根因微服务候选集,利用根因微服务候选集过滤出服务调用拓扑图中可能与根因相关的部分,构建包含异常微服务、微服务实例及宿主机的异常子图,接着借助微服务指标建模方法,计算出每个微服务对应的所有微服务实例的最大相关性指标项,该指标项将作为最有价值实例指标,同时将各个指标与各种异常类别进行相似度计算,在定位到实例根因的基础上能够更加准确地判断出具体的异常类别,本发明能够帮助开发和运维人员在分布式系统发生异常时实时快速、准确地定位根因,将根因粒度进一步缩小至容器实例或物理机,以迅速响应防止系统崩溃。
以上所述仅是本申请的具体实施方式,使本领域技术人员能够理解或实现本申请。对这些实施例的多种修改对本领域的技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下,在其它实施例中实现。因此,本申请将不会被限制于本文所示的这些实施例,而是要符合与本文所申请的原理和新颖特点相一致的最宽的范围。
本发明是参照根据本发明实施例的方法、设备(系统)和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

Claims (10)

1.一种细粒度分布式微服务系统异常根因定位方法,其特征在于,具体包括以下步骤:
进行微服务系统的多维度指标数据和服务调用数据的收集,并基于收集的服务调用数据进行服务调用拓扑图构建;
基于多维度指标数据进行建模形成指标数据模型,得到多维度指标数据矩阵;
将服务调用拓扑图与指标数据模型进行结合,得到异常子图,同时根据指标数据模型构建个性化数组;
在异常子图中执行个性化随机游走算法以得出异常根因,并根据异常根因结果进行异常检查和恢复。
2.如权利要求1所述的一种细粒度分布式微服务系统异常根因定位方法,其特征在于:
所述多维度指标数据包括KPI指标数据和实例指标数据;
所述KPI指标数据包括物理机指标维度下物理机CPU使用率指标、物理机指标维度下物理机内存使用率指标、物理机指标维度下物理机网络延时指标、服务应用指标维度下服务调用延时指标;
所述实例指标数据包括容器实例指标维度下容器CPU使用率指标、容器实例指标维度下容器内存使用率指标、容器实例指标维度下容器吞吐量指标、容器实例指标维度下容器网络延时指标和容器实例指标维度下容器请求响应成功率指标。
3.如权利要求1所述的一种细粒度分布式微服务系统异常根因定位方法,其特征在于:所述服务调用拓扑图为异常发生时刻的微服务系统拓扑结构。
4.如权利要求1所述的一种细粒度分布式微服务系统异常根因定位方法,其特征在于:所述多维度指标数据矩阵包括各服务随时间的调用延时矩阵、各物理机随时间的多维度指标数据矩阵,以及各容器实例随时间的多维度指标数据矩阵。
5.如权利要求1所述的一种细粒度分布式微服务系统异常根因定位方法,其特征在于:所述将服务调用拓扑图与指标数据模型进行结合,得到异常子图,具体步骤包括:
根据服务调用拓扑图中的服务调用延时数据指标,检测出异常调用边并进行标记;
将标记的异常调用边,以及与标记的异常调用边相邻的节点和边,共同构建异常子图;
将指标数据模型应用于构建的异常子图中以赋予边以权值。
6.如权利要求1所述的一种细粒度分布式微服务系统异常根因定位方法,其特征在于:所述个性化数组包括微服务指标异常程度、服务实例指标异常程度、宿主机指标异常程度、服务实例与所在服务指标相似度、服务实例所在宿主机指标异常程度,以及服务实例所在宿主机其他实例容器指标异常程度。
7.如权利要求6所述的一种细粒度分布式微服务系统异常根因定位方法,其特征在于:所述根据指标数据模型构建个性化数组,具体步骤包括:
根据异常子图中每个节点的指标差异性,并结合个性化随机游走算法,给每个服务实例或宿主机节点依据其指标关联差异赋予不同的个性化权值,且将异常子图中其余节点的个性化数组值赋为0值。
8.如权利要求1所述的一种细粒度分布式微服务系统异常根因定位方法,其特征在于,所述在异常子图中执行个性化随机游走算法以得出异常根因,其中,在异常子图中执行个性化随机游走算法,具体为:
将个性化数组作为个性化随机游走算法的输入参数,执行个性化随机游走算法,使得在随机游走过程中以不同的概率从任意节点重新开始进行游走,具体为:
v=(1-c)Pv+cu
其中,v表示节点最终打分结果,c表示继续向前进行随机游走的概率,P表示个性化数组,u表示下一个节点的打分结果。
9.一种细粒度分布式微服务系统异常根因定位装置,其特征在于,包括:
收集模块,其用于进行微服务系统的多维度指标数据和服务调用数据的收集,并基于收集的服务调用数据进行服务调用拓扑图构建;
建模模块,其用于基于多维度指标数据进行建模形成指标数据模型,得到多维度指标数据矩阵;
结合模块,其用于将服务调用拓扑图与指标数据模型进行结合,得到异常子图,同时根据指标数据模型构建个性化数组;
执行模块,其用于在异常子图中执行个性化随机游走算法以得出异常根因,并根据异常根因结果进行异常检查和恢复。
10.如权利要求9所述的一种细粒度分布式微服务系统异常根因定位装置,其特征在于:
所述多维度指标数据包括KPI指标数据和实例指标数据;
所述KPI指标数据包括物理机指标维度下物理机CPU使用率指标、物理机指标维度下物理机内存使用率指标、物理机指标维度下物理机网络延时指标、服务应用指标维度下服务调用延时指标;
所述实例指标数据包括容器实例指标维度下容器CPU使用率指标、容器实例指标维度下容器内存使用率指标、容器实例指标维度下容器吞吐量指标、容器实例指标维度下容器网络延时指标和容器实例指标维度下容器请求响应成功率指标。
CN202211637116.7A 2022-12-16 2022-12-16 一种细粒度分布式微服务系统异常根因定位方法及装置 Pending CN115981902A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211637116.7A CN115981902A (zh) 2022-12-16 2022-12-16 一种细粒度分布式微服务系统异常根因定位方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211637116.7A CN115981902A (zh) 2022-12-16 2022-12-16 一种细粒度分布式微服务系统异常根因定位方法及装置

Publications (1)

Publication Number Publication Date
CN115981902A true CN115981902A (zh) 2023-04-18

Family

ID=85967433

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211637116.7A Pending CN115981902A (zh) 2022-12-16 2022-12-16 一种细粒度分布式微服务系统异常根因定位方法及装置

Country Status (1)

Country Link
CN (1) CN115981902A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116383096A (zh) * 2023-06-06 2023-07-04 安徽思高智能科技有限公司 基于多指标时序预测的微服务系统异常检测方法及装置
CN117560275A (zh) * 2023-12-29 2024-02-13 安徽思高智能科技有限公司 基于图神经网络模型的微服务系统根因定位方法及装置

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116383096A (zh) * 2023-06-06 2023-07-04 安徽思高智能科技有限公司 基于多指标时序预测的微服务系统异常检测方法及装置
CN116383096B (zh) * 2023-06-06 2023-08-18 安徽思高智能科技有限公司 基于多指标时序预测的微服务系统异常检测方法及装置
CN117560275A (zh) * 2023-12-29 2024-02-13 安徽思高智能科技有限公司 基于图神经网络模型的微服务系统根因定位方法及装置
CN117560275B (zh) * 2023-12-29 2024-03-12 安徽思高智能科技有限公司 基于图神经网络模型的微服务系统根因定位方法及装置

Similar Documents

Publication Publication Date Title
EP3798846B1 (en) Operation and maintenance system and method
CN115981902A (zh) 一种细粒度分布式微服务系统异常根因定位方法及装置
Bao et al. Autoconfig: Automatic configuration tuning for distributed message systems
CN117494292A (zh) 一种基于bim和ai大模型的工程进度管理方法及系统
EP4258175A1 (en) Node fusion method for computational graph, and device
CN110895506B (zh) 测试数据的构造方法和构造系统
CN106845990B (zh) 一种规则处理方法和设备
EP3701403B1 (en) Accelerated simulation setup process using prior knowledge extraction for problem matching
Chen et al. Predicting job completion times using system logs in supercomputing clusters
CN104699735A (zh) 企业级数据中心的数据处理方法及装置
CN103645961A (zh) 计算密集型并行任务的异常检测方法及系统
CN108829505A (zh) 一种分布式调度系统及方法
CN113537337A (zh) 训练方法、异常检测方法、装置、设备和存储介质
CN114169531A (zh) 一种组态化机器学习建模任务描述的预测方法及系统
CN113869778A (zh) 一种基于城市管理的无人机河道巡检方法及系统
CN110532056A (zh) 一种应用于用户界面中的控件识别方法及装置
CN111913824A (zh) 确定数据链路故障原因的方法及相关设备
CN117580046A (zh) 一种基于深度学习的5g网络动态安全能力调度方法
Ilkhani et al. Extraction test cases by using data mining; reducing the cost of testing
KR20190061616A (ko) 컴포넌트 기반 동적 모델 재구성을 활용한 시뮬레이션 모델 최적화 방법 및 장치
CN111062827B (zh) 一种基于人工智能模式的工程监理方法
CN114503132A (zh) 机器学习模型训练的调试和剖析
EP3855316A1 (en) Optimizing breakeven points for enhancing system performance
Yang et al. AutoMMLab: Automatically Generating Deployable Models from Language Instructions for Computer Vision Tasks
CN114676002A (zh) 基于phm技术的系统运维方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination