CN112882796A - 异常根因分析方法和装置,及存储介质 - Google Patents

异常根因分析方法和装置,及存储介质 Download PDF

Info

Publication number
CN112882796A
CN112882796A CN202110214082.XA CN202110214082A CN112882796A CN 112882796 A CN112882796 A CN 112882796A CN 202110214082 A CN202110214082 A CN 202110214082A CN 112882796 A CN112882796 A CN 112882796A
Authority
CN
China
Prior art keywords
abnormal
node
root cause
nodes
determining
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110214082.XA
Other languages
English (en)
Other versions
CN112882796B (zh
Inventor
宋东林
邱岳
汤雄超
易佳
周旭
郜振锋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sangfor Technologies Co Ltd
Original Assignee
Sangfor Technologies Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sangfor Technologies Co Ltd filed Critical Sangfor Technologies Co Ltd
Priority to CN202110214082.XA priority Critical patent/CN112882796B/zh
Priority claimed from CN202110214082.XA external-priority patent/CN112882796B/zh
Publication of CN112882796A publication Critical patent/CN112882796A/zh
Application granted granted Critical
Publication of CN112882796B publication Critical patent/CN112882796B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/44Arrangements for executing specific programs
    • G06F9/455Emulation; Interpretation; Software simulation, e.g. virtualisation or emulation of application or operating system execution engines
    • G06F9/45533Hypervisors; Virtual machine monitors
    • G06F9/45558Hypervisor-specific management and integration aspects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/079Root cause analysis, i.e. error or fault diagnosis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/44Arrangements for executing specific programs
    • G06F9/455Emulation; Interpretation; Software simulation, e.g. virtualisation or emulation of application or operating system execution engines
    • G06F9/45533Hypervisors; Virtual machine monitors
    • G06F9/45558Hypervisor-specific management and integration aspects
    • G06F2009/45591Monitoring or debugging support

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Software Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Quality & Reliability (AREA)
  • Debugging And Monitoring (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)

Abstract

本申请实施例公开了一种异常根因分析方法和装置,及存储介质,所述方法包括:读取待测节点对应的性能指标数据,并根据性能指标数据从待测节点中确定异常节点;获取网络拓扑关系,并基于网络拓扑关系,从异常节点中确定异常关联节点;其中,网络拓扑关系表征节点之间的依赖关系;基于异常关联节点进行异常根因分析处理,获得分析结果,能够准确快速地定位引起异常的根本原因,进而保证了云计算环境下的高性能和高可靠性运维。

Description

异常根因分析方法和装置,及存储介质
技术领域
本发明涉及云计算环境运维管理技术领域,尤其涉及一种异常根因分析方法和装置,及存储介质。
背景技术
近年来,云计算的应用技术越来越广泛,目前大型云计算平台集群通常有数百台主机、几千上万台虚拟机,并且其虚拟机中又同时承载了大量容器与应用,然而,其自身的复杂性、业务的复杂性与大规模性使得云计算环境下节点经常发生异常,不仅每天都会产生上万条告警信息,而且直接导致部分甚至所有服务的失效,对云计算环境的性能和可靠性产生了极大的负面影响。
当前,相关技术中常采用人工异常根因排查法和基于时间相关性的异常根因分析方法来确定导致节点异常的根本原因,但是,人工排查法存在时间耗费大,排查效率低,无法及时排查异常原因的问题,而基于时间相关性的根因分析方法在大规模复杂的云计算环境下无法准确定位异常产生的根本原因。
发明内容
有鉴于此,本发明实施例提供了一种异常根因分析方法和装置,及存储介质,能够准确快速地定位引起异常的根本原因,进而保证了云计算环境下的高性能和高可靠性运维。
本申请实施例的技术方案是这样实现的:
第一方面,本申请实施例提供了一种异常根因分析方法,所述方法包括:
读取待测节点对应的性能指标数据,并根据所述性能指标数据从所述待测节点中确定异常节点;
获取网络拓扑关系,并基于所述网络拓扑关系,从所述异常节点中确定异常关联节点;其中,所述网络拓扑关系表征节点之间的依赖关系;
基于所述异常关联节点进行异常根因分析处理,获得分析结果。
在上述方案中,所述根据所述性能指标数据从所述待测节点中确定异常节点,包括:确定异常检测模式;以及根据所述异常检测模式和所述性能指标数据确定所述异常节点。
在上述方案中,所述确定异常检测模式,包括:当在静态阈值库中匹配到所述待测节点对应的预设静态阈值时,确定所述异常检测模式为规则引擎异常检测;以及当在静态阈值库中未匹配到所述待测节点对应的预设静态阈值时,确定所述异常检测模式为模型引擎异常检测。
在上述方案中,当所述异常检测模式为规则引擎异常检测时,所述根据所述异常检测模式和所述性能指标数据确定所述异常节点,包括:确定所述规则引擎异常检测对应的预设异常状态阈值和预设时长阈值;以及若所述待测节点中的至少一个节点的性能指标数据大于所述预设异常状态阈值的持续时间超过所述预设时长阈值,则确定所述至少一个节点为所述异常节点。
在上述方案中,当所述异常检测模式为模型引擎异常检测时,所述根据所述异常检测模式和所述性能指标数据确定所述异常节点,包括:获取所述待测节点对应的历史性能指标数据;以及根据人工智能模型和所述历史性能指标数据,确定所述待测节点对应的性能指标预测值;以及计算所述性能指标数据和所述性能指标预测值的差值;以及将所述待测节点中、所述差值不属于预设差值范围的至少一个节点确定为所述异常节点。
由此可见,在本发明中,异常根因分析装置可以从规则引擎异常检测和模型引擎异常检测自适应的选择异常检测模式,以对待测节点进行准确的异常诊断,从而进一步准确快速地定位引起异常的根本原因,进而保证了云计算环境下的高性能和高可靠性运维。
在上述方案中,所述网络拓扑关系包括水平拓扑关系和垂直拓扑关系;其中,所述水平拓扑关系为同等业务地位的节点间的依赖关系,所述垂直拓扑关系为不同等业务地位的节点间的依赖关系。
在上述方案中,所述垂直拓扑关系包括第一垂直拓扑关系和第二垂直拓扑关系,所述基于所述网络拓扑关系,从所述异常节点中确定异常关联节点,包括:根据所述第一垂直拓扑关系对所述异常节点进行垂直拓扑依赖分析处理,获得第一垂直异常关联节点;以及根据所述水平拓扑关系对所述异常节点进行水平拓扑依赖分析处理,获得水平异常关联节点;以及根据所述第二垂直拓扑关系对所述水平异常关联节点进行所述垂直拓扑依赖分析处理,获得第二垂直异常关联节点;以及将所述第一垂直异常关联节点、水平异常关联节点以及第二垂直异常关联节点,确定为所述异常关联节点。
在上述方案中,所述基于所述异常关联节点进行异常根因分析处理,获得分析结果,包括:获取所述异常关联节点对应的异常影响权重值;以及对所述异常影响权重值进行排序处理,获得所述异常影响权重值中、最大权重值对应的目标异常节点;以及根据所述目标异常节点确定所述分析结果。
由此可见,在本发明中,异常根因分析装置可以基于能够表征节点之间依赖关系的网络拓扑关系,从这些异常节点中找出具有依赖关系的关联节点,进而根据该关联节点进一步确定出导致异常的根本原因。可见,本申请能够准确快速地定位引起异常的根本原因,进而保证了云计算环境下的高性能和高可靠性运维。
第二方面,本申请实施例提供了一种异常根因分析装置,所述异常根因分析装置包括读取单元、确定单元、获取单元以及分析单元,
所述读取单元,用于读取待测节点对应的性能指标数据;
所述确定单元,用于根据所述性能指标数据从所述待测节点中确定异常节点;
所述获取单元,还用于获取网络拓扑关系;其中,所述网络拓扑关系表征节点之间的依赖关系;
所述确定单元,还用于基于所述网络拓扑关系,从所述异常节点中确定异常关联节点;
所述分析单元,用于基于所述异常关联节点进行异常根因分析处理,获得分析结果。
第三方面,本申请实施例提供了一种异常根因分析装置,所述异常根因分析装置包括处理器、存储有所述处理器可执行指令的存储器,当所述指令被所述处理器执行时,实现如上所述的异常根因分析方法。
第四方面,本申请实施例提供了一种计算机可读存储介质,其上存储有程序,应用于异常根因分析装置中,所述程序被处理器执行时,实现如上所述的异常根因分析方法。
本申请实施例提供了一种异常根因分析方法和装置,及存储介质,异常根因分析装置可以读取待测节点对应的性能指标数据,并根据所述性能指标数据从所述待测节点中确定异常节点;获取网络拓扑关系,并基于所述网络拓扑关系,从所述异常节点中确定异常关联节点;其中,所述网络拓扑关系表征节点之间的依赖关系;基于所述异常关联节点进行异常根因分析处理,获得分析结果。也就是说,在本申请的实施例中,在检测出各层级待测节点中存在的异常节点之后,异常根因分析装置可以基于能够表征节点之间依赖关系的网络拓扑关系,从这些异常节点中找出具有依赖关系的关联节点,进而根据该关联节点进一步确定出导致异常的根本原因。可见,本申请提出的异常根因分析方法,能够准确快速地定位引起异常的根本原因,进而保证了云计算环境下的高性能和高可靠性运维。
附图说明
图1为本申请实施例提出的异常根因分析方法的实现流程示意图一;
图2为本申请实施例提出的异常根因分析方法的实现流程示意图二;
图3为本申请实施例提出的异常根因分析方法的实现流程示意图三;
图4为本申请实施例提出的异常根因分析方法的实现流程示意图四;
图5为本申请实施例提出的异常根因分析方法的实现流程示意图五;
图6为本申请实施例提出的异常根因分析方法的实现流程示意图六;
图7为本申请实施例提出的拓扑依赖分析架构示意图;
图8为本申请实施例提出的异常根因分析方法的实现流程示意图七;
图9为本申请实施例提出的异常根因分析装置的系统架构示意图;
图10为本申请提出的网络管理设备的组成结构示意图一;
图11为本申请提出的网络管理设备的组成结构示意图二。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述。可以理解的是,此处所描述的具体实施例仅用于解释相关申请,而非对该申请的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与有关申请相关的部分。
对本发明实施例进行进一步详细说明之前,对本发明实施例中涉及的名词和术语进行说明,本发明实施例中涉及的名词和术语适用于如下的解释。
1)人工智能(Artificial Intelligence,AI):是用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的一门新的技术科学。在本申请实施例中,人工智能指虚拟机异常诊断系统能够正确解释外部数据,从这些数据中学习,并利用这些数据通过灵活适应实现特定目标和任务的能力。
2)表现层状态转换(Representational State Transfer,Restful):是RoyThomas Fielding博士于2000年在他的博士论文中提出来的一种万维网软件架构风格,目的是便于不同软件/程序在网络(例如互联网)中互相传递信息。
近年来,云计算的应用技术越来越广泛,目前大型云计算平台集群通常有数百台主机、几千上万台虚拟机,并且其虚拟机中又同时承载了大量容器与应用,然而,其自身的复杂性、业务的复杂性与大规模性使得云计算环境下节点经常发生异常,不仅每天都会产生上万条告警信息,而且直接导致部分甚至所有服务的失效,对云计算环境的性能和可靠性产生了极大的负面影响,可见,如何及时有效地对异常告警进行收敛与分析,找出产生异常的根本原因是云计算运维管理现今面临的主要挑战之一。
当前,云计算领域进行异常节点的根因分析主要有以下两种方法:人工异常根因排查法和基于时间相关性的异常根因分析方法,以进一步确定出导致节点异常的根本原因。
一方面,由于人工异常根因排查法主要依赖专家经验人工排查异常根因,因此排查根因需要耗费大量的人力与时间,排查效率较低,不能快速及时地排除云计算性能异常,无法满足当前大规模云计算集群运维管理的需求。
另一方面,基于时间相关性的异常根因分析方法中,使用基础的机器学习算法分析性能指标的时间相关性,并确定与异常指标有时间相关性的指标即是产生该异常的可能原因,该方法适用场景局限性较大,导致了在问题演化序列很复杂时无法准确分析出异常根因的缺陷。
综上所述,相关技术中异常节点的根因分析方法中,人工排查方法时间耗费大,排查效率低,无法及时排查异常原因,而基于时间相关性的根因分析方法在大规模复杂的云计算环境下无法准确定位异常产生的根本原因。
鉴于此,如何准确快速的定位云计算环境下异常节点产生的根本原因成为一个亟待解决的技术问题。
为了解决现有异常根因分析机制所存在的问题,本申请实施例提供了一种异常根因分析方法和装置,存储介质,具体地,在检测出各层级待测节点中存在的异常节点之后,异常根因分析装置可以基于能够表征节点之间依赖关系的网络拓扑关系,从这些异常节点中找出具有依赖关系的关联节点,进而根据该关联节点进一步确定出导致异常的根本原因。可见,本申请提出的异常根因分析方法,能够准确快速地定位引起异常的根本原因,进而保证了云计算环境下的高性能和高可靠性运维。
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述。
应理解,在本申请的实施例中,“节点”指云计算环境下的数据通信中的任意一个网络节点,不限定于应用、容器、虚拟机、主机以及集群,都可以作为一个节点。
本申请一实施例提供了一种异常根因分析方法,图1为本申请实施例提出的异常根因分析方法的实现流程示意图一,如图1所示,在本申请的实施例中,异常根因分析装置执行异常根因分析的方法包括以下步骤:
步骤100、读取待测节点对应的性能指标数据,并根据性能指标数据从待测节点中确定异常节点。
在本申请的实施例中,异常根因分析装置可以先读取待测节点对应的性能指标数据,进而基于该性能指标数据确定出待测节点中存在的异常节点。
应理解,在本申请的实施例中,异常根因分析装置不限定于笔记本电脑、平板电脑、台式计算机、移动设备、个人计算机(Personal Computer,PC)等各种类型的终端,也可以实施为服务器。
应理解,在本申请的实施例中,待测节点指当前云计算环境下各层级的网络节点,包括应用层节点、虚拟机层节点、主机层节点以及集群级节点。也就是说,云计算平台承载的应用、运行该应用的虚拟机、通过虚拟化技术生成虚拟机的主机、由多个主机组成的集群都可以为待测节点。例如,Oracle、Mysql、Tomcat等应用都属于待测节点。
应理解,性能指标数据指能够对各层级节点进行性能评估的指标数据,可以包括应用层节点对应的应用层指标、虚拟机层节点对应的虚机层指标、主机层节点对应的主机层指标以及集群级节点对应的集群级层指标中的至少一种。
具体的,在本申请的实施例中,应用层指标指云计算平台承载的用户业务与应用的指标,该指标数据能够直接反映用户业务的性能与负载情况;虚机层指标指运行用户业务与应用的虚拟机的指标,该指标数据反映操作系统层面的性能与负载情况;由于虚拟机是由主机通过虚拟化技术生成,因此主机层指标主要反映虚拟化主机的性能与负载情况;进一步的,多个主机组成一个虚拟化集群,相应的,集群级指标能够反应集群的性能与负载情况。
应理解,每个待测节点对应有至少一项业务,那么相应的该每个待测节点对应的性能指标数据包括至少一项业务对应的指标数据,如主机层指标可以包括对应于主机中央处理器(CPU,Central Processing Unit)利用率、CPU等待时间、硬中断时间、已配置内存、磁盘吞吐量或磁盘IO延时等评估指标。
需要说明的是,在本申请的实施例中,性能指标数据为时序数据。具体的,性能指标数据中包括运行时间、指标数值、运行时间与指标数值的对应关系。也就是说,性能指标数据是将指标数值按照时间顺序记录并存储的。例如,对虚拟机节点的某项业务进行异常根因分析时,性能指标数据为该业务当前时刻或某一时刻对应的指标值。
具体的,在本申请的实施例中,异常根因分析装置可以利用采集器采集云计算环境下各待测节点的监测数据,并从中提取有效的性能数据,并经过压缩处理之后存储至数据库中。进一步的,异常根因分析装置可以在进行异常节点的根因分析时,从数据库中提取各层级每个待测节点对应的性能指标数据。
需要说明的是,异常根因分析装置从数据库中提取的性能指标数据可以是每个待测节点当前时刻的实时性能指标数据,也可以是某一特定时间段待测节点对应的性能指标数据。相应的,异常根因分析装置进行异常节点的确定时,可以是进行实时异常检测确定的,也可以是周期性的定时进行异常检测确定的,还可以是指定时间进行异常检测确定的,本申请不作具体限定。
应理解,在本申请的实施例中,每个待测节点对应的一条性能指标数据中的每一项业务都具有其对应的业务标识,异常根因分析装置可以根据该业务标识对性能指标数据中,不同业务对应的不同指标数据进行区分。
进一步的,在本申请的实施例中,异常根因分析装置在获取到待测节点对应的性能指标数据之后,便可以进一步基于该性能指标数据执行对待测节点的异常检测处理。
可以理解的是,每个待测节点中,各个业务对应的性能指标值都具有对应的标准参考值范围,当存在业务的性能指标值超过该标准参考值范围或者未满足该标准参考值范围时,都认为这个待测节点出现异常。
具体的,在本申请的实施例中,异常根因分析装置在获取到待测节点对应的性能指标数据之后,异常根因分析装置可以对每个待测节点下、每个业务对应的性能指标数据逐个进行异常检测处理,检测出存在异常的业务,并生成该业务对应的异常告警信息,由于存在至少一个业务归属于同一个待测节点,因此,异常根因分析装置可以基于这些业务的异常告警信息确定出异常节点。也就是说,判断该节点中各业务的性能指标数据是否属于标准参考值范围之内,如果存在至少一个业务不属于标准参考值范围,则将该待测节点视为异常节点。
需要说明的是,在本申请的实施例中,上述性能指标的标准参考范围可以是技术人员提前预设的,也可以是异常根因分析装置基于预处理机制自动生成的,本申请对此不做具体限定。
进一步的,异常根因分析装置对各层级每个待测节点都进行异常检测,进而找出云计算环境下各层级待测节点中存在的全部异常节点。
进一步的,在本申请的实施例中,异常根因分析装置找出待测节点中存在的异常节点之后,可以进一步基于网络拓扑关系从该异常节点中确定出存在依赖关系的异常关联节点。
步骤110、获取网络拓扑关系,并基于网络拓扑关系,从异常节点中确定异常关联节点;其中,网络拓扑关系表征节点之间的依赖关系。
在本申请的实施例中,异常根因分析装置在根据性能指标数据找出待测节点中存在的异常节点之后,异常根因分析装置可以先获取网络拓扑关系,进而基于该网络拓扑关系从上述异常节点中找出存在依赖关系的异常关联节点。
可以理解的是,网络拓扑指节点之间的连接结构,网络拓扑关系可以用于表征云计算环境下节点之间的依赖关系,在本申请的实施例中,网络拓扑关系能够表征当前环境下各个网络节点之间的依赖关系。
具体的,在本申请的实施例中,异常根因分析装置可以在云计算环境下的各个待测节点处部署采集器,进而利用该采集器实时采集/发现云计算环境下的实时网络拓扑关系,并存储至拓扑关系库中。进一步的,异常根因分析装置可以在基于拓扑关系进行节点的拓扑依赖分析,以确定存在依赖关系的异常节点时,先从拓扑关系库中提取当前环境下的实时网络拓扑关系,进而便可以基于该网络拓扑关系确定出相互之间有依赖关系的异常节点都有哪些。
可以理解的是,某一节点的异常可能是由与其有依赖关系的其他节点的异常导致的,因此,在本申请的实施例中,异常根因分析装置可以基于实时网络拓扑关系从上述异常节点中先找出存在依赖关系的异常关联节点。也就是说,该异常关联节点都可能是造成当前异常的可能原因。
需要说明的是,在本申请的实施例中,实时网络拓扑关系包括水平拓扑关系和垂直拓扑关系。其中,水平拓扑关系指水平维度的同等业务地位的节点间的依赖关系;相应的,垂直拓扑依赖关系指垂直维度的非同等业务地位的节点间的依赖关系。
在一种示例中,某web应用使用tomcat作为应用服务器提供Restful服务,Restful服务又依赖kafka做消息中间件,后面又依赖mysql数据库,此时水平拓扑关系为:tomcal->kafka->mysql。
在另一种示例中,某web应用使用tomcat作为应用服务器提供Restful服务,tomcat运行在docker容器上,容器运行在虚拟机上,虚拟机运行在某主机中,此主机属于某集群,此时垂直拓扑关系为:tomcat->docker->虚拟机->主机->集群。
具体的,在本申请的实施例中,异常根因分析装置可以基于目标节点对应的水平拓扑关系和垂直拓扑关系找出上述异常节点中存在依赖关系的关联节点。
进一步的,在本申请的实施例中,异常根因分析装置在基于实时网络拓扑关系从异常节点中找出与异常告警的目标节点存在依赖关系的关联节点之后,可以进一步基于这些关联节点进行根因分析处理,以获得分析结果。
步骤120、基于异常关联节点进行异常根因分析处理,获得分析结果。
在本申请的实施例中,异常根因分析装置在基于网络拓扑关系从异常节点中找出存在依赖关系的异常关联节点之后,异常根因分析装置可以进一步基于该关联节点进行根因分析处理,从而进一步获得分析结果。
应理解,基于节点之间的依赖关系,如果与某一节点有依赖关系的关联节点存在异常,那么此关联节点的异常可能是导致该某一节点产生异常的可能原因。也就是说,相互之间存在依赖关系的所有关联节点都有可能是导致异常的可能原因,因此,在本申请的实施例中,异常根因分析装置可以根据上述异常关联节点进行根因分析处理,便可以确定出导致异常的根本原因,从而进一步进行解决异常问题。
进一步的,异常根因分析装置在进行根因分析处理获得分析结果之后,便可以基于该分析结果生成根因分析报告,并将该报告通过显示界面提供给用户,告知用户产生异常的根本原因。
本申请实施例提供了一种异常根因分析方法和设备,及存储介质,异常根因分析装置可以读取待测节点对应的性能指标数据,并根据所述性能指标数据从所述待测节点中确定异常节点;获取网络拓扑关系,并基于所述网络拓扑关系,从所述异常节点中确定异常关联节点;其中,所述网络拓扑关系表征节点之间的依赖关系;基于所述异常关联节点进行异常根因分析处理,获得分析结果。也就是说,在本申请的实施例中,在检测出各层级待测节点中存在的异常节点之后,异常根因分析装置可以基于能够表征节点之间依赖关系的网络拓扑关系,从这些异常节点中找出具有依赖关系的关联节点,进而根据该关联节点进一步确定出导致异常的根本原因。可见,本申请提出的异常根因分析方法,能够准确快速地定位引起异常的根本原因,进而保证了云计算环境下的高性能和高可靠性运维。
基于上述实施例,在本申请的再一实施例中,图2为本申请实施例提出的异常根因分析方法的实现流程示意图二,如图2所示,异常根因分析装置获取待测节点对应的性能指标数据(步骤101)之后,根据性能指标数据从待测节点中确定异常节点(步骤102)的方法可以包括以下步骤:
步骤102a、确定异常检测模式。
可以理解的是,由于不同异常检测模式下,对待测节点进行异常检测的方式并不相同,因此,在本申请的实施例中,异常根因分析装置可以先确定对待测节点进行异常检测的模式。
需要说明的是,在本申请的实施例中,待测节点对应的异常检测模式为规则引擎异常检测和模型引擎异常检测中的任意一个。
具体的,图3为本申请实施例提出的异常根因分析方法的实现流程示意图三,如图3所示,异常根因分析装置确定异常检测模式的方法可以包括以下步骤:
步骤102a1、当在静态阈值库中匹配到待测节点对应的预设静态阈值时,确定异常检测模式为规则引擎异常检测。
步骤102a2、当在静态阈值库中未匹配到待测节点对应的预设静态阈值时,确定异常检测模式为模型引擎异常检测。
具体的,在本申请的实施例中,基于每个待测节点中不同业务对应的性能指标的数据特征不同的特性,当某一待测节点其部分业务的部分性能指标的数据受业务变化的影响较小时,技术人员可以提前测算出该部分业务对应的静态阈值,并将该静态阈值存储放入静态阈值库。
进一步的,当异常根因分析装置能够在静态阈值库中匹配到待测节点对应的预设静态阈值时,则表明可以根据该预设静态阈值来判断待测节点是否出现异常,此时,异常根因分析装置便可以确定当前待测节点对应的异常检测模式为规则引擎检测。
另一方面,当某一待测节点其部分业务的部分性能指标的数据受业务变化的影响较大时,则无法为该业务的指标数据准确的设置一个合理的静态阈值,也就是说,异常根因分析装置无法在静态阈值库中匹配到这个待测节点对应的预设静态阈值,无法根据该预设静态阈值来判断该待测节点是否异常,此时,异常根因分析装置便可以确定当前待测节点对应的异常检测模式为模型引擎检测。
可见,在本申请的实时例中,并不是每个待测节点都配置了两种异常检测模式,异常根因分析装置可以先通过预设静态阈值的匹配判断当前待测节点是否可以应用规则引擎异常检测,如果匹配到静态阈值,则直接采用规则引擎检测;如果没有匹配到,则直接采用模型引擎异常检测。
步骤102b、根据异常检测模式和性能指标数据确定异常节点。
在本申请的实施例中,确定出待测节点对应的异常检测模式之后,异常根因分析装置便可以结合该异常检测模式以及性能指标数据判断待测节点是否异常。
具体的,在一个实施例中,图4为本申请实施例提出的异常根因分析方法的实现流程示意图四,如图4所示,异常根因分析装置根据异常检测模式和性能指标数据确定异常节点的方法可以包括以下步骤:
步骤102b1、当异常检测模式为规则引擎异常检测时,确定规则引擎异常检测对应的预设异常状态阈值和预设时长阈值。
步骤102b2、若待测节点中的至少一个节点的性能指标数据大于预设异常状态阈值的持续时间超过预设时长阈值,则确定至少一个节点为异常节点。
具体的,在本申请的实施例中,当异常检测模式为规则引擎异常检测时,异常根因分析装置可以基于性能指标数据对应的业务标识,从静态阈值库中分别匹配到待测节点中不同业务对应的预设静态阈值,进而将待测节点中性能指标数据按照业务标识逐个与预设静态阈值进行比较,进而基于比较结果判断待测节点是否异常。
这里,在本申请的实施例中,预设静态阈值包括预设异常状态阈值和预设时长阈值。
详细的,在本申请的实施例中,异常根因分析装置可以判断当前待测节点中某一业务对应的性能指标数据是否大于该业务对应的预设异常状态阈值,如果大于,那么异常根因分析装置同时检测该性能指标数据大于预设异常状态阈值的持续时间,如果持续时间超过预设时长阈值,那么异常根因分析装置便可以确定该待测节点为异常节点。
可见,规则引擎异常检测中,若某个待测节点的性能指标数据中,存在某一项业务对应的指标数据超过预设异常状态阈值,且持续时长超过预设时长阈值,则将该待测节点视为异常。
具体的,在一个实施中,图5为本申请实施例提出的异常根因分析方法的实现流程示意图五,如图5所示,异常根因分析装置根据异常检测模式和性能指标数据确定异常节点的方法可以包括以下步骤:
步骤102b3、当异常检测模式为模型引擎异常检测时,获取待测节点对应的历史性能指标数据。
步骤102b4、根据人工智能模型和历史性能指标数据,确定待测节点对应的性能指标预测值。
步骤102b5、计算性能指标数据和性能指标预测值的差值。
步骤102b6、将待测节点中、差值不属于预设差值范围的至少一个节点确定为异常节点。
可以理解的是,当异常检测模式为模型引擎异常检测时,即异常根因分析装置无法在静态阈值库中匹配到性能指标数据对应的预设静态阈值时,即该待测节点的性能指标数据受业务变化影响较大,无法获得一个理想的静态阈值来判断待测节点是否异常。因此,在本申请的实施例中,异常根因分析装置可以获取该待测节点对应的历史性能指标数据,用以判断该待测节点是否异常。
需要说明的是,在本申请的实施例中,上述历时性能指标数据可以是预设历史时间段内与待测节点对应的指标数据。例如,过去一周、过去一个月或几个月。
可以理解的是,待测节点(如虚拟机)运行时的各业务的指标数据的变化是存在规律的,在本申请的实施例中,异常根因分析装置可以利用AI模型基于历史性能指标数据来学习指标数据的变化规律,进而基于历史指标数据和变化规律输出在预设历史时间段之后的目标时间段内的预测数据,即性能指标预测值。
需要说明的是,在本申请的实施例中,目标时间段与预设历史时间段的时长可以相同,比如,历史时间段为当前时间之前的过去一周时间(即之前的周一至周日),则目标时间段为本周一至周日;目标时间段与历史时间段的时长也可以不同,比如,历史时间段为过去一个月,而目标时间段为本周一至周日。
进一步的,在本申请的实施例中,异常根因分析装置可以对从数据库中获取的性能指标数据的实际值,与基于AI模型获取到的性能指标数据的预测值进行比较,进而基于比较结果判断待测节点是否异常,
详细的,异常根因分析装置可以计算性能指标实际值和预测值的差值,如果该差值没有处于预设差值范围内,也就是说性能指标实际值和预测值的数值偏差过大,那么异常根因分析装置可以将待测节点视为异常。
可见,模型引擎异常检测中,不需要提前设置性能指标的规则,也就是预设静态阈值,AI模型会根据历史性能指标数据的变化自适应的进行异常检测。
例如,虚拟机中的某一项业务发生变化时,其对应的性能指标数值的规律也会发生变化,如果使用规则引擎异常检测,则需要手动调整静态阈值,而模型引擎异常检测则不需要进行手动调整,AI模型会根据性能指标规律的变化自动更新性能指标的预测值,更加准确的对待测节点是否异常进行判断。
本申请实施例提供了一种异常根因分析方法,异常根因分析装置可以从规则引擎异常检测和模型引擎异常检测自适应的选择异常检测模式,以对待测节点进行准确的异常诊断,从而进一步准确快速地定位引起异常的根本原因,进而保证了云计算环境下的高性能和高可靠性运维。
基于上述实施例,在本申请的再一实施例中,图6为本申请实施例提出的异常根因分析方法的实现流程示意图六,如图6所示,异常根因分析装置在获取网络拓扑关系(步骤111)之后,异常根因分析装置基于网络拓扑关系,从异常节点中确定异常关联节点(步骤112)的方法可以包括以下步骤:
步骤112a、根据第一垂直拓扑关系对异常节点进行垂直拓扑依赖分析处理,获得第一垂直异常关联节点。
需要说明的是,在本申请的实施例中,第一垂直拓扑关系表征各异常节点、和垂直维度上与各异常节点处于不同等业务地位的关联节点之间的依赖关系。
需要说明的是,在本申请的实施例中,异常根因分析装置需要对异常节点中的吗每一个进行基于实施网络拓扑关系的拓扑依赖分析处理。
例如,当应用A出现异常报警时,应用A为异常节点中的任意一个,那么承载该应用A的虚拟机A、由虚拟化技术生成虚拟机A的主机A,由主机A构成的集群A都为第一垂直拓扑关系中与该异常节点具有垂直依赖关系的节点。
具体的,异常根因分析装置可以先从全部异常节点中确定一初始异常节点,然后基于第一垂直拓扑关系判断上述其他异常节点中是否存在与该初始异常节点具有垂直依赖关系的节点,如果判定存在,那么异常根因分析装置便可以确定该节点为初始异常节点对应的异常关联节点,即第一垂直异常关联节点,也就是该垂直异常关联节点的异常可能是导致该初始节点产生异常的可能原因。
步骤112b、根据水平拓扑关系对异常节点进行水平拓扑依赖分析处理,获得水平异常关联节点。
需要说明的是,在本申请的实施例中,水平拓扑关系表征各个异常节点、和水平维度上与各个异常节点处于同等业务地位的关联节点之间的依赖关系。
例如,当应用A出现异常报警时,应用A为异常节点中的任意一个,那么与应用A的业务有依赖关系的应用B、应用C以及应用D都为第一水平拓扑关系中与该异常节点具有水平依赖关系的节点。
具体的,异常根因分析装置可以先从全部异常节点中确定一初始异常节点,然后基于水平拓扑关系判断上述其他异常节点中是否存在与该初始异常节点具有水平依赖关系的节点,如果判定存在,那么异常根因分析装置便可以确定该节点为初始异常节点对应的异常关联节点,即水平异常关联节点,也就是该水平异常关联节点的异常可能是导致初始异常节点产生异常的可能原因。
步骤112c、根据第二垂直拓扑关系对水平异常关联节点进行垂直拓扑依赖分析处理,获第二垂直异常关联节点。
步骤112d、将第一垂直异常关联节点、水平异常关联节点以及第二垂直异常关联节点,确定为异常关联节点。
需要说明的是,在本申请的实施例中,第二垂直拓扑关系表征水平异常关联节点、和垂直维度上与水平异常关联节点处于不同等业务地位的关联节点之间的依赖关系。
例如,当确定出与应用A具有水平依赖关系的应用B为异常节点之后,那么承载该应用B的虚拟机B、由虚拟化技术生成虚拟机B的主机B,由主机B构成的集群B都为第二垂直拓扑关系中与应用B具有垂直依赖关系的节点。
具体的,异常根因分析装置可以基于第二垂直拓扑关系判断上述其他异常节点中是否存在与水平异常关联节点具有垂直依赖关系的节点,如果判定存在,那么异常根因分析装置便可以确定该其他异常节点为水平异常关联节点对应的垂直异常关联节点,即第二垂直异常关联节点,该第二垂直异常关联节点的异常也有可能是导致初始异常节点产生异常的可能原因。
进一步的,在本申请的实施例中,异常根因分析装置可以将上述第一垂直异常关联结点、第二垂直异常关联节点和水平异常关联节点都确定为异常关联节点,即导致初始异常节点产生异常的所有可能的原因。
需要说明的是,在本申请的实施例中,异常根因分析装置基于实时网络拓扑关系进行每个异常节点的拓扑依赖分析之后,可以利用树状图展示该拓扑依赖分析的结果,展示存在依赖关系的异常节点(垂直依赖节点和水平依赖节点),并凸显节点的异常状态。
示例性的,图7为本申请实施例提出的拓扑依赖分析架构示意图,图案填充的节点为当前存在异常的节点,如7所示,应用A为出现异常告警的某一异常节点,即上述初始异常节点,异常根因分析装置先基于垂直拓扑关系对应用A先进行垂直拓扑依赖分析处理,确定出与A有垂直依赖关系的节点中并不存在异常;继续基于水平拓扑关系对应用A进行水平拓扑依赖分析处理,确定出与应用A有水平依赖关系的应用B、应用C以及应用D都出现异常,则将应用B、应用C以及应用D确定为应用A的水平异常关联节点;进一步的,异常根因分析装置继续基于垂直拓扑关系对应用B进行垂直拓扑依赖分析处理,确定出与B有垂直依赖关系的虚拟机B存在异常;同时对应用C进行垂直拓扑依赖分析处理,确定出与C有垂直依赖关系的容器C、虚拟机C都存在异常;同时对应用D进行垂直拓扑依赖分析处理,确定出与D有垂直依赖关系的虚拟机D、主机D以及集群D都存在异常;上述存在异常的这些节点都可能是导致应用A产生异常的可能根因。
本申请实施例提供了一种异常根因分析方法,异常根因分析装置在检测出各层级待测节点中存在的异常节点之后,异常根因分析装置可以基于能够表征节点之间依赖关系的实时网络拓扑关系,从这些异常节点中找出具有依赖关系的关联节点,进而根据该关联节点进一步确定出导致异常的根本原因。可见,本申请能够准确快速地定位引起异常的根本原因,进而保证了云计算环境下的高性能和高可靠性运维。
进一步的,基于上述实施例,在本申请的再一实施例中,图8为本申请实施例提出的异常根因分析方法的实现流程示意图七,如图8所示,异常根因分析装置根据异常关联节点进行异常根因分析处理,获得分析结果的方法可以包括以下步骤:
步骤121、获取异常关联节点对应的异常影响权重值。
步骤122、对异常影响权重值进行排序处理,获得异常影响权重值中、最大权重值对应的目标异常节点。
步骤123、根据目标异常节点确定分析结果。
可以理解的是,异常根因分析装置在基于实施网络拓扑关系,从异常节点中确定出存在依赖关系的关联节点之后,由于这些关联节点都有可能是导致当前产生异常的可能原因,因此,在本申请的实施例中,异常根因分析装置需要从这些关联节点中找出对异常影响最大的节点,进而确定出导致异常的根本原因。
需要说明的是,在本申请的实施例中,异常根因分析装置可以获取上述每个异常关联节点对应的异常影响权重值,进而根据该异常影响权重值进行根因分析处理,以确定导致异常的根本原因。
具体的,异常根因分析装置可以根据预设根因贡献度算法确定每个异常关联节点对应的根因贡献度值,即造成异常影响的权重值,然后对根因贡献度值进行排序处理,找出最大贡献度值对应的目标异常节点。
进一步的,异常根因分析装置可以根据最大贡献度值对应的目标异常节点确定根因分析结果。具体的,将目标异常节点的异常相关信息确定为导致异常告警的根本原因,并将该分析结果告知用户。
在本申请的再一实施例中,图9为本申请实施例提出的异常根因分析装置的系统架构示意图,如图9所示,异常根因分析装置可以先从时序数据库(应用层指标数据、虚机层指标数据、主机层指标数据以及集群级指标数据)中,读取各层级待测节点对应的性能指标数据;然后异常根因分析装置从异常检测引擎(规则引擎或AI模型引擎)中选取异常检测模式,进而结合异常检测模式和性能指标数据对待测节点进行异常检测处理,确定出待测节点中存在的异常节点。具体的,异常根因分析装置先判断是否可以在静态阈值库中匹配到待测节点对应的预设静态阈值;如果可以匹配得到,那么异常根因分析装置可以从异常检测引擎中选择规则引擎进行异常检测,如果没有匹配得到,那么异常根因分析装置可以从异常检测引擎中选择AI模型引擎进行异常检测。
进一步的,经异常检测引擎确定出待测节点中存在的异常节点之后,异常根因分析装置可以先从拓扑关系库中获取当前环境下的网络拓扑关系,并基于该网络拓扑关系对异常节点进行基于拓扑关系的依赖分析处理,包括水平拓依赖分析和垂直拓扑依赖分析,以从上述异常节点中确定出具有依赖关系的异常关联节点。更进一步的,异常根因分析装置可以基于根因贡献度算法计算上述关联节点对应的根因贡献度,获得每个关联节点对应的根因贡献度值,并进行根因贡献度值的排序处理,从而找出导致异常的根据原因;具体的,根据根因贡献度值中、最大贡献度值对应的目标异常节点确定导致异常的根据原因。
本申请实施例提供了一种异常根因分析方法,在检测出各层级待测节点中存在的异常节点之后,异常根因分析装置可以基于能够表征节点之间依赖关系的网络拓扑关系,从这些异常节点中找出具有依赖关系的其他关联节点,进而根据该关联节点进一步确定出导致异常的根本原因。可见,本申请提出的异常根因分析方法,能够准确快速地定位引起异常的根本原因,进而保证了云计算环境下的高性能和高可靠性运维。
基于上述实施例,在本申请的另一实施例中,图10为本申请提出的异常根因分析装置的组成结构示意图一,如图10示,本申请实施例提出的异常根因分析装置10可以包括读取单元11、确定单元12、获取单元13以及分析单元14,
所述读取单元11,用于读取待测节点对应的性能指标数据;
所述确定单元12,用于根据所述性能指标数据从所述待测节点中确定异常节点;
所述获取单元13,还用于获取网络拓扑关系;其中,所述网络拓扑关系表征节点之间的依赖关系;
所述确定单元12,还用于基于所述网络拓扑关系,从所述异常节点中确定异常关联节点;
所述分析单元14,用于基于所述异常关联节点进行异常根因分析处理,获得分析结果。
进一步地,在本申请的实施例中,所述待测节点为应用层节点、虚拟机层节点、主机层节点以及集群级节点中的至少一种。
进一步地,在本申请的实施例中,所述性能指标数据包括运行时间、指标数值、运行时间与指标数值的对应关系。
进一步地,在本申请的实施例中,所述确定单元12,具体用于确定异常检测模式;以及根据所述异常检测模式和所述性能指标数据确定所述异常节点。
进一步地,在本申请的实施例中,所述确定单元12,还具体用于当在静态阈值库中匹配到所述待测节点对应的预设静态阈值时,确定所述异常检测模式为规则引擎异常检测;以及当在静态阈值库中未匹配到所述待测节点对应的预设静态阈值时,确定所述异常检测模式为模型引擎异常检测。
进一步地,在本申请的实施例中,当所述异常检测模式为规则引擎异常检测时,所述确定单元12,还具体用于确定所述规则引擎异常检测对应的预设异常状态阈值和预设时长阈值;以及若所述待测节点中的至少一个节点的性能指标数据大于所述预设异常状态阈值的持续时间超过所述预设时长阈值,则确定所述至少一个节点为所述异常节点。
进一步地,在本申请的实施例中,当所述异常检测模式为模型引擎异常检测时,所述确定单元12,还具体用于获取所述待测节点对应的历史性能指标数据;以及根据人工智能模型和所述历史性能指标数据,确定所述待测节点对应的性能指标预测值;以及计算所述性能指标数据和所述性能指标预测值的差值;以及将所述待测节点中、所述差值不属于预设差值范围的至少一个节点确定为所述异常节点。
进一步地,在本申请的实施例中,所述网络拓扑关系包括水平拓扑关系和垂直拓扑关系;其中,所述水平拓扑关系为同等业务地位的节点间的依赖关系,所述垂直拓扑关系为不同等业务地位的节点间的依赖关系。
进一步地,在本申请的实施例中,所述垂直拓扑关系包括第一垂直拓扑关系和第二垂直拓扑关系,所述确定单元12,还具体用于根据所述第一垂直拓扑关系对所述异常节点进行垂直拓扑依赖分析处理,获得第一垂直异常关联节点;以及根据所述水平拓扑关系对所述异常节点进行水平拓扑依赖分析处理,获得水平异常关联节点;以及根据所述第二垂直拓扑关系对所述水平异常关联节点进行所述垂直拓扑依赖分析处理,获得第二垂直异常关联节点;以及将所述第一垂直异常关联节点、水平异常关联节点以及第二垂直异常关联节点,确定为所述异常关联节点。
进一步地,在本申请的实施例中,所述分析单元14,用于获取所述异常关联节点对应的异常影响权重值;以及对所述异常影响权重值进行排序处理,获得所述异常影响权重值中、最大权重值对应的目标异常节点;以及根据所述目标异常节点确定所述分析结果。
在本申请的实施例中,进一步地,图11为本申请提出的异常根因分析装置的组成结构示意图二,如图11示,本申请实施例提出的异常根因分析装置10还可以包括处理器15、存储有处理器15可执行指令的存储器16,进一步地,异常根因分析装置10还可以包括通信接口17,和用于连接处理器15、存储器16以及通信接口17的总线18。
在本申请的实施例中,上述处理器15可以为特定用途集成电路(ApplicationSpecific Integrated Circuit,ASIC)、数字信号处理器(Digital Signal Processor,DSP)、数字信号处理装置(Digital Signal Processing Device,DSPD)、可编程逻辑装置(ProgRAMmable Logic Device,PLD)、现场可编程门阵列(Field ProgRAMmable GateArray,FPGA)、中央处理器(Central Processing Unit,CPU)、控制器、微控制器、微处理器中的至少一种。可以理解地,对于不同的设备,用于实现上述处理器功能的电子器件还可以为其它,本申请实施例不作具体限定。异常根因分析装置10还可以包括存储器16,该存储器16可以与处理器15连接,其中,存储器16用于存储可执行程序代码,该程序代码包括计算机操作指令,存储器16可能包含高速RAM存储器,也可能还包括非易失性存储器,例如,至少两个磁盘存储器。
在本申请的实施例中,总线18用于连接通信接口17、处理器15以及存储器16以及这些器件之间的相互通信。
在本申请的实施例中,存储器16,用于存储指令和数据。
进一步地,在本申请的实施例中,上述处理器15,用于当接收到目标节点的异常告警时,获取待测节点对应的性能指标数据;根据所述性能指标数据从所述待测节点中确定异常节点;获取所述目标节点对应的网络拓扑关系,并基于所述网络拓扑关系,从所述异常节点中确定所述目标节点对应的关联节点;其中,所述网络拓扑关系表征节点之间的依赖关系;基于所述关联节点对所述目标节点进行异常根因分析处理,获得分析结果。
在实际应用中,上述存储器16可以是易失性存储器(volatile memory),例如随机存取存储器(Random-Access Memory,RAM);或者非易失性存储器(non-volatile memory),例如只读存储器(Read-Only Memory,ROM),快闪存储器(flash memory),硬盘(Hard DiskDrive,HDD)或固态硬盘(Solid-State Drive,SSD);或者上述种类的存储器的组合,并向处理器15提供指令和数据。
另外,在本实施例中的各功能模块可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。
集成的单元如果以软件功能模块的形式实现并非作为独立的产品进行销售或使用时,可以存储在一个计算机可读取存储介质中,基于这样的理解,本实施例的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)或processor(处理器)执行本实施例方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(Read OnlyMemory,ROM)、随机存取存储器(Random Access Memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
本申请实施例提供了一种异常根因分析装置,该异常根因分析装置读取待测节点对应的性能指标数据,并根据所述性能指标数据从所述待测节点中确定异常节点;获取网络拓扑关系,并基于所述网络拓扑关系,从所述异常节点中确定异常关联节点;其中,所述网络拓扑关系表征节点之间的依赖关系;基于所述异常关联节点进行异常根因分析处理,获得分析结果。也就是说,在本申请的实施例中,在检测出各层级待测节点中存在的异常节点之后,异常根因分析装置可以基于能够表征节点之间依赖关系的网络拓扑关系,从这些异常节点中找出具有依赖关系的关联节点,进而根据该关联节点进一步确定出导致异常的根本原因。可见,本申请提出的异常根因分析方法,能够准确快速地定位引起异常的根本原因,进而保证了云计算环境下的高性能和高可靠性运维。
本申请实施例提供一种计算机可读存储介质,其上存储有程序,该程序被处理器执行时实现如上所述的异常根因分析方法。
具体来讲,本实施例中的一种异常根因分析方法对应的程序指令可以被存储在光盘,硬盘,U盘等存储介质上,当存储介质中的与一种异常根因分析方法对应的程序指令被一电子设备读取或被执行时,包括如下步骤:
读取待测节点对应的性能指标数据,并根据所述性能指标数据从所述待测节点中确定异常节点;
获取网络拓扑关系,并基于所述网络拓扑关系,从所述异常节点中确定异常关联节点;其中,所述网络拓扑关系表征节点之间的依赖关系;
基于所述异常关联节点进行异常根因分析处理,获得分析结果。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用硬件实施例、软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器和光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的实现流程示意图和/或方框图来描述的。应理解可由计算机程序指令实现流程示意图和/或方框图中的每一流程和/或方框、以及实现流程示意图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在实现流程示意图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在实现流程示意图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在实现流程示意图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
以上所述,仅为本申请的较佳实施例而已,并非用于限定本申请的保护范围。

Claims (13)

1.一种异常根因分析方法,其特征在于,所述方法包括:
读取待测节点对应的性能指标数据,并根据所述性能指标数据从所述待测节点中确定异常节点;
获取网络拓扑关系,并基于所述网络拓扑关系,从所述异常节点中确定异常关联节点;其中,所述网络拓扑关系表征节点之间的依赖关系;
基于所述异常关联节点进行异常根因分析处理,获得分析结果。
2.根据权利要求1所述的方法,其特征在于,所述待测节点为应用层节点、虚拟机层节点、主机层节点以及集群级节点中的至少一种。
3.根据权利要求1或2所述的方法,其特征在于,所述性能指标数据包括运行时间、指标数值、运行时间与指标数值的对应关系。
4.根据权利要求1所述的方法,其特征在于,所述根据所述性能指标数据从所述待测节点中确定异常节点,包括:
确定异常检测模式;
根据所述异常检测模式和所述性能指标数据确定所述异常节点。
5.根据权利要求4所述的方法,其特征在于,所述确定异常检测模式,包括:
当在静态阈值库中匹配到所述待测节点对应的预设静态阈值时,确定所述异常检测模式为规则引擎异常检测;
当在静态阈值库中未匹配到所述待测节点对应的预设静态阈值时,确定所述异常检测模式为模型引擎异常检测。
6.根据权利要求5所述的方法,其特征在于,当所述异常检测模式为规则引擎异常检测时,所述根据所述异常检测模式和所述性能指标数据确定所述异常节点,包括:
确定所述规则引擎异常检测对应的预设异常状态阈值和预设时长阈值;
若所述待测节点中的至少一个节点的性能指标数据大于所述预设异常状态阈值的持续时间超过所述预设时长阈值,则确定所述至少一个节点为所述异常节点。
7.根据权利要求5所述的方法,其特征在于,当所述异常检测模式为模型引擎异常检测时,所述根据所述异常检测模式和所述性能指标数据确定所述异常节点,包括:
获取所述待测节点对应的历史性能指标数据;
根据人工智能模型和所述历史性能指标数据,确定所述待测节点对应的性能指标预测值;
计算所述性能指标数据和所述性能指标预测值的差值;
将所述待测节点中、所述差值不属于预设差值范围的至少一个节点确定为所述异常节点。
8.根据权利要求1所述的方法,其特征在于,所述网络拓扑关系包括水平拓扑关系和垂直拓扑关系;其中,所述水平拓扑关系为同等业务地位的节点间的依赖关系,所述垂直拓扑关系为不同等业务地位的节点间的依赖关系。
9.根据权利要求8所述的方法,其特征在于,所述垂直拓扑关系包括第一垂直拓扑关系和第二垂直拓扑关系,所述基于所述网络拓扑关系,从所述异常节点中确定异常关联节点,包括:
根据所述第一垂直拓扑关系对所述异常节点进行垂直拓扑依赖分析处理,获得第一垂直异常关联节点;
根据所述水平拓扑关系对所述异常节点进行水平拓扑依赖分析处理,获得水平异常关联节点;
根据所述第二垂直拓扑关系对所述水平异常关联节点进行所述垂直拓扑依赖分析处理,获得第二垂直异常关联节点;
将所述第一垂直异常关联节点、水平异常关联节点以及第二垂直异常关联节点,确定为所述异常关联节点。
10.根据权利要求1所述的方法,其特征在于,所述基于所述异常关联节点进行异常根因分析处理,获得分析结果,包括:
获取所述异常关联节点对应的异常影响权重值;
对所述异常影响权重值进行排序处理,获得所述异常影响权重值中、最大权重值对应的目标异常节点;
根据所述目标异常节点确定所述分析结果。
11.一种异常根因分析装置,其特征在于,所述异常根因分析装置包括读取单元、确定单元、获取单元以及分析单元,
所述读取单元,用于读取待测节点对应的性能指标数据;
所述确定单元,用于根据所述性能指标数据从所述待测节点中确定异常节点;
所述获取单元,还用于获取网络拓扑关系;其中,所述网络拓扑关系表征节点之间的依赖关系;
所述确定单元,还用于基于所述网络拓扑关系,从所述异常节点中确定异常关联节点;
所述分析单元,用于基于所述异常关联节点进行异常根因分析处理,获得分析结果。
12.一种异常根因分析装置,所述异常根因分析装置包括处理器、存储有所述处理器可执行指令的存储器,当所述指令被所述处理器执行时,实现如权利要求1-10任一项所述的方法。
13.一种计算机可读存储介质,其上存储有程序,应用于异常根因分析装置中,其特征在于,所述程序被处理器执行时,实现如权利要求1-10任一项所述的方法。
CN202110214082.XA 2021-02-25 异常根因分析方法和装置,及存储介质 Active CN112882796B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110214082.XA CN112882796B (zh) 2021-02-25 异常根因分析方法和装置,及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110214082.XA CN112882796B (zh) 2021-02-25 异常根因分析方法和装置,及存储介质

Publications (2)

Publication Number Publication Date
CN112882796A true CN112882796A (zh) 2021-06-01
CN112882796B CN112882796B (zh) 2024-05-24

Family

ID=

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113327071A (zh) * 2021-08-04 2021-08-31 深圳市深水水务咨询有限公司 基于5g的环境管理方法、装置、计算机设备及存储介质
CN113656270A (zh) * 2021-07-30 2021-11-16 招商银行股份有限公司 应用性能的测试方法、设备、介质及计算机程序产品
CN113835976A (zh) * 2021-09-23 2021-12-24 阿里巴巴(中国)有限公司 针对互联网数据中心进行告警处理的方法及装置
CN114760186A (zh) * 2022-03-23 2022-07-15 深信服科技股份有限公司 告警分析方法、装置、电子设备及存储介质
CN115016976A (zh) * 2022-08-08 2022-09-06 深圳壹师城科技有限公司 一种根因定位方法、装置、设备及存储介质
CN115118574A (zh) * 2022-06-07 2022-09-27 马上消费金融股份有限公司 一种数据处理方法、装置及存储介质
CN115514617A (zh) * 2022-09-13 2022-12-23 上海驻云信息科技有限公司 一种通用的异常根因定位及分析方法及装置
CN115514627A (zh) * 2022-09-21 2022-12-23 深信服科技股份有限公司 一种故障根因定位方法、装置、电子设备及可读存储介质
CN115660613A (zh) * 2022-12-31 2023-01-31 广东美的制冷设备有限公司 异常数据监测方法、装置、设备、存储介质及程序产品
CN116545846A (zh) * 2023-07-06 2023-08-04 北京志凌海纳科技有限公司 列布局型网络拓扑显示及网口故障域发现系统及方法
CN114760186B (zh) * 2022-03-23 2024-05-28 深信服科技股份有限公司 告警分析方法、装置、电子设备及存储介质

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110661660A (zh) * 2019-09-25 2020-01-07 北京宝兰德软件股份有限公司 告警信息根源分析方法及装置
CN110807024A (zh) * 2019-10-12 2020-02-18 广州市申迪计算机系统有限公司 动态阈值异常检测方法、系统、存储介质及智能设备
CN110888755A (zh) * 2019-11-15 2020-03-17 亚信科技(中国)有限公司 一种微服务系统异常根因节点的查找方法及装置
CN111064614A (zh) * 2019-12-17 2020-04-24 腾讯科技(深圳)有限公司 一种故障根因定位方法、装置、设备及存储介质
CN111190794A (zh) * 2019-12-30 2020-05-22 天津浪淘科技股份有限公司 一种运维监控管理系统
WO2020119711A1 (zh) * 2018-12-13 2020-06-18 中兴通讯股份有限公司 一种根因定位方法、服务器和存储介质
WO2020200031A1 (zh) * 2019-04-04 2020-10-08 华为技术有限公司 一种链路故障监控方法及装置
CN111865667A (zh) * 2020-06-28 2020-10-30 新华三技术有限公司 网络连通性故障根因定位方法及装置
CN112231187A (zh) * 2019-07-15 2021-01-15 华为技术有限公司 微服务异常分析方法及装置
CN112363865A (zh) * 2020-10-19 2021-02-12 深圳云天励飞技术股份有限公司 数据库故障恢复方法、装置及人脸图像搜索系统

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2020119711A1 (zh) * 2018-12-13 2020-06-18 中兴通讯股份有限公司 一种根因定位方法、服务器和存储介质
WO2020200031A1 (zh) * 2019-04-04 2020-10-08 华为技术有限公司 一种链路故障监控方法及装置
CN112231187A (zh) * 2019-07-15 2021-01-15 华为技术有限公司 微服务异常分析方法及装置
CN110661660A (zh) * 2019-09-25 2020-01-07 北京宝兰德软件股份有限公司 告警信息根源分析方法及装置
CN110807024A (zh) * 2019-10-12 2020-02-18 广州市申迪计算机系统有限公司 动态阈值异常检测方法、系统、存储介质及智能设备
CN110888755A (zh) * 2019-11-15 2020-03-17 亚信科技(中国)有限公司 一种微服务系统异常根因节点的查找方法及装置
CN111064614A (zh) * 2019-12-17 2020-04-24 腾讯科技(深圳)有限公司 一种故障根因定位方法、装置、设备及存储介质
CN111190794A (zh) * 2019-12-30 2020-05-22 天津浪淘科技股份有限公司 一种运维监控管理系统
CN111865667A (zh) * 2020-06-28 2020-10-30 新华三技术有限公司 网络连通性故障根因定位方法及装置
CN112363865A (zh) * 2020-10-19 2021-02-12 深圳云天励飞技术股份有限公司 数据库故障恢复方法、装置及人脸图像搜索系统

Cited By (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113656270B (zh) * 2021-07-30 2024-03-08 招商银行股份有限公司 应用性能的测试方法、设备、介质及计算机程序产品
CN113656270A (zh) * 2021-07-30 2021-11-16 招商银行股份有限公司 应用性能的测试方法、设备、介质及计算机程序产品
CN113327071A (zh) * 2021-08-04 2021-08-31 深圳市深水水务咨询有限公司 基于5g的环境管理方法、装置、计算机设备及存储介质
CN113835976A (zh) * 2021-09-23 2021-12-24 阿里巴巴(中国)有限公司 针对互联网数据中心进行告警处理的方法及装置
CN113835976B (zh) * 2021-09-23 2024-03-29 阿里巴巴(中国)有限公司 针对互联网数据中心进行告警处理的方法及装置
CN114760186A (zh) * 2022-03-23 2022-07-15 深信服科技股份有限公司 告警分析方法、装置、电子设备及存储介质
CN114760186B (zh) * 2022-03-23 2024-05-28 深信服科技股份有限公司 告警分析方法、装置、电子设备及存储介质
CN115118574A (zh) * 2022-06-07 2022-09-27 马上消费金融股份有限公司 一种数据处理方法、装置及存储介质
CN115016976B (zh) * 2022-08-08 2022-11-25 深圳壹师城科技有限公司 一种根因定位方法、装置、设备及存储介质
CN115016976A (zh) * 2022-08-08 2022-09-06 深圳壹师城科技有限公司 一种根因定位方法、装置、设备及存储介质
CN115514617A (zh) * 2022-09-13 2022-12-23 上海驻云信息科技有限公司 一种通用的异常根因定位及分析方法及装置
CN115514627A (zh) * 2022-09-21 2022-12-23 深信服科技股份有限公司 一种故障根因定位方法、装置、电子设备及可读存储介质
CN115660613A (zh) * 2022-12-31 2023-01-31 广东美的制冷设备有限公司 异常数据监测方法、装置、设备、存储介质及程序产品
CN116545846A (zh) * 2023-07-06 2023-08-04 北京志凌海纳科技有限公司 列布局型网络拓扑显示及网口故障域发现系统及方法
CN116545846B (zh) * 2023-07-06 2023-09-15 北京志凌海纳科技有限公司 列布局型网络拓扑显示及网口故障域发现系统及方法

Similar Documents

Publication Publication Date Title
EP3557819B1 (en) Server failure detection method and system
US8930736B2 (en) Inferred electrical power consumption of computing devices
US9720823B2 (en) Free memory trending for detecting out-of-memory events in virtual machines
Kavulya et al. An analysis of traces from a production mapreduce cluster
CN108763038B (zh) 告警数据的管理方法、装置、计算机设备及存储介质
US20160371170A1 (en) Stateful detection of anomalous events in virtual machines
US9672085B2 (en) Adaptive fault diagnosis
US6959265B1 (en) User-centric measurement of quality of service in a computer network
US10248561B2 (en) Stateless detection of out-of-memory events in virtual machines
US9424157B2 (en) Early detection of failing computers
Borghesi et al. Online anomaly detection in hpc systems
US8949676B2 (en) Real-time event storm detection in a cloud environment
CN107992410B (zh) 软件质量监测方法、装置、计算机设备和存储介质
CN114328102B (zh) 设备状态监控方法、装置、设备及计算机可读存储介质
CN111459700A (zh) 设备故障的诊断方法、诊断装置、诊断设备及存储介质
CN110727556A (zh) 一种bmc健康状态监控方法、系统、终端及存储介质
US20190158363A1 (en) Parameter setting method, data analysis device, data analysis system and program
Fu et al. Performance issue diagnosis for online service systems
US11438239B2 (en) Tail-based span data sampling
US9397921B2 (en) Method and system for signal categorization for monitoring and detecting health changes in a database system
WO2022134353A1 (zh) 硬件状态检测方法、装置、计算机设备及存储介质
WO2018089647A1 (en) Apparatus and method of behavior forecasting in a computer infrastructure
CN112882796A (zh) 异常根因分析方法和装置,及存储介质
CN112882796B (zh) 异常根因分析方法和装置,及存储介质
WO2020000669A1 (zh) 一种数据编码分析的方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant