CN113572633A - 根因定位方法、系统、设备及存储介质 - Google Patents

根因定位方法、系统、设备及存储介质 Download PDF

Info

Publication number
CN113572633A
CN113572633A CN202110662187.1A CN202110662187A CN113572633A CN 113572633 A CN113572633 A CN 113572633A CN 202110662187 A CN202110662187 A CN 202110662187A CN 113572633 A CN113572633 A CN 113572633A
Authority
CN
China
Prior art keywords
event
target
events
node
root cause
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110662187.1A
Other languages
English (en)
Other versions
CN113572633B (zh
Inventor
刘毅
姜骁
刘炯宙
徐凡
何诚
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Alibaba Innovation Co
Original Assignee
Alibaba Singapore Holdings Pte Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alibaba Singapore Holdings Pte Ltd filed Critical Alibaba Singapore Holdings Pte Ltd
Priority to CN202110662187.1A priority Critical patent/CN113572633B/zh
Publication of CN113572633A publication Critical patent/CN113572633A/zh
Application granted granted Critical
Publication of CN113572633B publication Critical patent/CN113572633B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • H04L41/0631Management of faults, events, alarms or notifications using root cause analysis; using analysis of correlation between notifications, alarms or events based on decision criteria, e.g. hierarchy, tree or time analysis
    • H04L41/065Management of faults, events, alarms or notifications using root cause analysis; using analysis of correlation between notifications, alarms or events based on decision criteria, e.g. hierarchy, tree or time analysis involving logical or physical relationship, e.g. grouping and hierarchies
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0751Error or fault detection not based on redundancy

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Quality & Reliability (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Debugging And Monitoring (AREA)

Abstract

本申请实施例提供一种根因定位方法、系统、设备及存储介质。本申请实施例针对云计算系统提供一种根因定位系统,在云计算系统中的云计算服务发生故障时,可以向该根因定位系统发出诊断请求,该根因定位系统根据诊断请求,从事件维度定位引起云计算服务发生故障的根因事件,并将基础设施域中的事件与节点设备之间的关联关系、事件之间的传播关系和关联关系结合起来,可以更加快速、准确地分析基础设施域中引起云计算服务发生故障的根因事件,便于相关人员快速解决引起故障的问题,及时止损。

Description

根因定位方法、系统、设备及存储介质
技术领域
本申请涉及云计算技术领域,尤其涉及一种根因定位方法、系统、设备及存储介质。
背景技术
基础设施即服务(Infrastructure as a Service,IaaS)是一种通过网络按需给用户提供计算、存储或网络等资源的服务,其中,计算、存储或者网络等资源由云计算架构中的基础设施提供。在该服务模式下,用户可以购买计算、存储或者网络等资源,在这些资源上部署和运行任意软件,例如,操作系统或应用程序。
基础设施的稳定性对于IaaS服务至关重要,一旦基础设施中出现严重故障、运维人员不合理的变更操作等情况,有可能导致IaaS服务发生卡顿、不可用等故障。如果出现基础设施侧导致IaaS服务发生故障的情况,需要快速、准确地找到问题根因,防止IaaS服务故障进一步严重化。
发明内容
本申请的多个方面提供一种根因定位方法、系统、设备及存储介质,用以快速、准确地定位基础设施域中引起云计算服务故障的问题根因。
本申请实施例提供一种根因定位方法,包括:接收诊断请求,所述诊断请求包含诊断对象的标识信息,所述诊断对象包括云计算系统中承载目标云计算服务的多级节点设备;根据所述诊断对象的标识信息,确定所述诊断对象涉及的多个目标事件以及所述多级节点设备中与所述多个目标事件关联的至少一个目标节点设备;根据所述多个目标事件以及所述至少一个目标节点设备的上下级拓扑关系,生成至少一条事件传播路径,每条事件传播路径包括一个目标事件或者存在关联关系的至少两个目标事件;根据所述至少一条事件传播路径,分析引起所述目标云计算服务发生故障的根因事件。
本申请实施例还提供一种用于云计算系统的根因定位系统,包括:请求接收模块,用于接收诊断请求,所述诊断请求包含诊断对象的标识信息,所述诊断对象包括所述云计算系统中用于承载目标云计算服务的多级节点设备;事件确定模块,用于根据所述诊断对象的标识信息,获取所述诊断对象涉及的多个目标事件以及所述多级节点设备中与所述多个目标事件关联的至少一个目标节点设备;事件传播模块,用于根据所述多个目标事件以及所述至少一个目标节点设备的上下级拓扑关系,生成至少一条事件传播路径,每条事件传播路径包括一个目标事件或者存在关联关系的至少两个目标事件;根因分析模块,用于根据所述至少一条事件传播路径,分析引起所述目标云计算服务发生故障的根因事件。
本申请实施例还提供一种根因定位设备,包括:存储器和处理器;所述存储器,用于存储计算机程序;所述处理器,与所述存储器耦合,用于执行所述计算机程序,以用于:接收诊断请求,所述诊断请求包含诊断对象的标识信息,所述诊断对象包括云计算系统中承载目标云计算服务的多级节点设备;根据所述诊断对象的标识信息,确定所述诊断对象涉及的多个目标事件以及所述多级节点设备中与所述多个目标事件关联的至少一个目标节点设备;根据所述多个目标事件以及所述至少一个目标节点设备的上下级拓扑关系,生成至少一条事件传播路径,每条事件传播路径包括一个目标事件或者存在关联关系的至少两个目标事件;根据所述至少一条事件传播路径,分析引起所述目标云计算服务发生故障的根因事件。
本申请实施例还提供一种存储有计算机程序的计算机可读存储介质,当所述计算机程序被处理器执行时,致使所述处理器实现本申请实施例提供的方法实施例中的步骤。
本申请实施例针对云计算系统提供一种根因定位系统,在云计算系统中的云计算服务发生故障时,可以向该根因定位系统发出诊断请求,该根因定位系统根据诊断请求,从事件维度定位引起云计算服务发生故障的根因事件,并将基础设施域中的事件与节点设备之间的关联关系、事件之间的传播关系和关联关系结合起来,可以更加快速、准确地分析基础设施域中引起云计算服务发生故障的根因事件,便于相关人员快速解决引起故障的问题,及时止损。
附图说明
此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
图1为本申请示例性实施例提供的一种云计算系统的结构示意图;
图2为本申请示例性实施例提供的用于云计算系统的根因定位系统的结构示意图;
图3为本申请示例性实施例提供的一种生成事件概率图模型的示意性框图;
图4为本申请示例性实施例提供的一种根因定位方法的流程示意图;
图5为本申请示例性实施例提供的一种根因定位设备的结构示意图。
具体实施方式
为使本申请的目的、技术方案和优点更加清楚,下面将结合本申请具体实施例及相应的附图对本申请技术方案进行清楚、完整地描述。显然,所描述的实施例仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
针对云计算系统面临的如何快速、准确地定位引发故障的根因的问题,本申请实施例针对云计算系统提供一种根因定位系统,在云计算系统中的云计算服务发生故障时,可以向该根因定位系统发出诊断请求,该根因定位系统根据诊断请求,从事件维度定位引起云计算服务发生故障的根因事件,并将基础设施域中的事件与节点设备之间的关联关系、事件之间的传播关系和关联关系结合起来,可以更加快速、准确地分析基础设施域中引起云计算服务发生故障的根因事件,便于相关人员快速解决引起故障的问题,及时止损。
图1为本申请示例性实施例提供的一种云计算系统的结构示意图。如图1所示,该云计算系统包括:云计算所需的基础设施域20;基础设施域20中包括提供计算、存储和/或网络等资源的一些基础设施,这些基础设施包括但不限于:服务器(Server)、机柜(Rack)、包间(Room)、楼宇(Building)、互联网数据中心(Internet Data Center,IDC)机房等;其中,每个机柜中可以包括多台服务器,这些服务器之间可以通过接入层交换机(Accesslayer SWitch,ASW)互联;每个包间中可以包括多个机柜,这些机柜之间可以通过分布层交换机(Distributed layer SWitch,DSW)互联;一个楼宇中可以包括多个包间,一个楼宇或几个楼宇可以互联形成IDC机房;这些包间之间可以通过汇聚层交换机(Aggregationlayer SWitch,PSW)互联。
在本实施例中,将这些基础设施称为节点设备21;这些节点设备21之间存在层级关系,该层级关系体现为节点设备21之间的上下级拓扑关系,这种上下级拓扑关系是指上下级节点设备之间的包含与被包含关系,即下级节点设备被上级节点设备包含,上级节点设备包含下级节点设备。需要说明的是,节点设备21之间除了存在上下级拓扑关系之外,也存在水平拓扑关系,即平级节点设备21之间的拓扑关系。以云计算系统中的节点设备21包括至少一个IDC机房,每个IDC机房中包括至少一个楼宇,每个楼宇中包含至少一个包间,每个包间包含至少一个机柜、负责机柜互联的PSW、配电柜、排风设备等,每个机柜包含至少一台服务器、散热设备、负责服务器互联的ASW等为例,若最小级别的节点设备为服务器,则云计算系统自下而上包含5个层级的节点设备,依次是第一个层级的节点设备:服务器、ASW和散热设备等,第二个层级的节点设备:机柜、PSW、配电柜和排风设备等,第三个级别的节点设备:包间和DSW等,第四个级别的节点设备:楼宇,第五个级别的节点设备:IDC机房,则这些节点设备的上下级拓扑关系由下级至上级可以表示为:服务器—>机柜—>包间—>楼宇—>IDC机房等。当然,在同一机柜中的服务器之间、不同机柜中的服务器之间、同一包间中的机柜之间以及不同包间中的机柜之间等还存在水平拓扑关系。
在上述实施例中,以节点设备的最小粒度是服务器为例进行说明,但在本申请实施例中并不限定节点设备的实现粒度,例如,节点设备的最小粒度还可以是处理器、GPU等。需要说明的是,根据节点设备的最小粒度的不同,这些节点设备之间的层级关系也会有所不同。仍以云计算系统中的节点设备21包括至少一个IDC机房,每个IDC机房中包括至少一个楼宇,每个楼宇中包含至少一个包间,每个包间包含至少一个机柜、负责机柜互联的PSW、配电柜、排风设备等,每个机柜包含至少一台服务器、散热设备、负责服务器互联的ASW等,每个服务器包括处理器和/或GPU为例,若最小级别的节点设备为处理器、GPU,则云计算系统自下而上包含6个层级的节点设备,依次是第一个层级的节点设备:处理器、GPU,第二个层级的节点设备:服务器、ASW和散热设备等,第三个层级的节点设备:机柜、PSW、配电柜和排风设备等,第四个级别的节点设备:包间和DSW等,第五个级别的节点设备:楼宇,第六个级别的节点设备:IDC机房,则这些节点设备的上下级拓扑关系由下级至上级可以表示为:处理器、GPU—>服务器—>机柜—>包间—>楼宇—>IDC机房等。
本实施例的云计算系统可以采用但不限于:基础设施即服务(Infrastructure-as-a-Service,IaaS)这种服务模式面向用户提供服务,其中,以IaaS模式提供给用户的服务是用户对基础设施域20中各种基础设施(即各层级节点设备21)的使用服务。具体地,用户可以选择租用或购买所需的基础设施资源,例如某台或某几台服务器,或者是某个机柜,或者是若干个CPU或GPU,或者是32G、64G的硬盘存储资源等;在这些基础设施之上,用户可以部署和运行任意软件,包括操作系统和各种应用程序,这些软件可以为用户提供所需的云计算服务。其中,云计算服务可以是但不限于:邮箱服务、游戏服务、音视频处理服务等,对此不做限定。
除上述之外,本实施例的云计算系统还可以采用平台即服务(Platform-as-a-Service,PaaS)和软件即服务(Software-as-a-Service,SaaS)服务模式面向用户提供服务。其中,PaaS模式主要面向具有软件开发能力的用户(如软件开发人员)提供软件开发服务,即在基础设施域20的基础上实现软件开发平台,并将软件开发平台作为一种PaaS服务提供给具有软件开发能力的用户,使之可以基于该软件开发平台开发或自定义基于云的应用程序。其中,PaaS服务包括但不限于:中间件服务、用于应用程序的开发和部署服务、面向服务的架构(Service-Oriented Architecture,SOA)集成服务等。SaaS模式主要面向用户提供各种基于Web软件,即在基础设施域20的基础上实现各种Web软件,将Web软件作为SaaS服务提供给用户,使得用户无需自研或购买软件,而是直接使用云计算系统提供的Web软件开展相应活动。其中,SaaS服务包括但不限于:在线教育服务、在线购物服务、在线直播服务、协同OA服务等。其中,PaaS服务或SaaS服务是由云计算运营商开发或部署的,这些服务也是运行在基础设施域20中的基础设施上。在本实施例中,云计算服务可以采用一种广泛定义,泛指各种部署在基础设施域20中的云上服务。换句话说,本实施例中的云计算服务可以包括由用户部署在基础设施域20中的云上服务,也可以包括由云计算运营商部署在基础设施域中的云上服务,如各种PaaS服务和各种SaaS服务。
在本实施例中,基础设施域20中基础设施的稳定性对于云计算服务至关重要,一旦这些基础设施出现严重故障,或者运维人员不合理地对这些基础设施进行了变更操作,均有可能导致运行于这些基础设施上的云计算服务发生卡顿、不可用等故障,给用户带来损失。例如,假设IDC机房的制冷机制失效,例如IDC机房的排风设备或散热设备故障,导致服务器、机柜乃至多个包间的散热性能下降,进而引起部分服务器乃至多个包间中的全部服务器均因过热而宕机,此时运行于这些服务器上的云计算服务就会不可用,用户就会遭受客户流失、经济损失等各种损失。一旦用户的云计算服务因基础设施域20中的原因而发生卡顿、不可用等故障,就需要快速、准确地知道具体是基础设施域20中的什么原因导致该云计算服务发生故障的,以便降低服务故障的进一步扩大和严重化。基于此,本申请实施例针对云计算系统提供一种根因定位系统,用于主要从事件的维度辅助云计算系统分析基础设施域20中引起云计算服务发生故障的根因事件,而不仅仅是定位引起云计算服务故障的设备是哪台或哪几台。在本申请实施例中,所述事件泛指基础设施域20中发生的各种可被识别或可被记录的操作、事项、行为等,例如包括但不限于:宕机事件、故障事件、告警事件、配置事件、触发事件、通知事件等等。在基础设施域20中发生的这些事件中,有些事件可能是引起云计算服务故障的根因事件,例如宕机事件、故障事件可能是引起云计算服务不可用的根因事件。进一步,在本申请实施例中,根因定位系统在从事件维度定位引起云计算服务发生故障的根因事件时,还可以将基础设施域中的事件与节点设备之间的关联关系、事件之间的传播关系和关联关系结合起来,可以更加快速、准确地分析基础设施域中引起云计算服务发生故障的根因事件,便于相关人员快速解决引起故障的问题,及时止损。
在本申请实施例中,并不限定根因定位系统的部署实施方式,根因定位系统10可以独立于云计算系统单独部署,或者,也可以部署在云计算系统中。在图2中,以根因定位系统10独立部署于云计算系统之外为例进行图示。另外,无论根因定位系统10是部署在云计算系统之外还是部署在云计算系统中,本申请实施例均不限定根因定位系统10的内部实现结构。其中,如图2所示,为根因定位系统10的一种内部实现结构包括:请求接收模块11、事件确定模块12、事件传播模块13和根因分析模块14。
其中,请求接收模块11可作为根因定位系统10与诊断需求方进行交互的接口,用于接收诊断需求方提供的诊断请求。其中,诊断需求方可以在目标云计算服务发生故障的情况下,向根因定位系统10提交诊断请求,目的是为了请求根因定位系统10诊断引起目标云计算服务故障的根因事件。诊断需求方可以是任何具有权限针对目标云计算服务进行根因诊断的对象,例如可以是部署目标云计算服务的用户或云计算运营商,也可以是云计算系统的运维人员等。在图2中,以部署目标云计算服务的用户作为诊断需求方为例进行图示。其中,目标云计算服务可以是任何被部署和运行在基础设施域20中的云计算服务,例如可以是但不限于云计算系统中任何以IaaS模式被部署和运行的云计算服务。对诊断需求方来说,预先知道目标云计算服务部署在哪些节点设备上,也了解这些节点设备之间的层级关系,据此可以确定需要针对哪些节点设备进行根因诊断,将这些需要进行故障根因诊断的节点设备称为诊断对象,基于此,在需要根因诊断时,可以在诊断请求中包含诊断对象的标识信息,诊断对象包括云计算系统的基础设施域20中承载目标云计算服务的多级节点设备21。举例说明,这里的多级节点设备21可以包括但不限于:服务器、包含服务器的机柜、包含机柜的包间等。其中,诊断对象的标识信息可以任何能够唯一标识各级节点设备21的信息,例如,可以是节点设备21的MAC地址、IP地址或者名称等。
事件确定模块12可以从请求接收模块11接收到的诊断请求中获取诊断对象的标识信息,根据诊断对象的标识信息,确定诊断对象涉及的多个目标事件以及多级节点设备21中与多个目标事件关联的至少一个目标节点设备。其中,目标事件是指与诊断对象相关的一些时间,例如可以是引起诊断对象出现故障的事件,或者也可以是由于诊断对象出现故障而引发的事件,例如目标事件可以包括但不限于:告警事件、配置变更事件或者故障事件等。其中,目标节点设备是多级节点设备中与某个或者某几个目标事件存在影响关系的节点设备,例如可以是发生目标事件的节点设备,也可以是引起目标事件发生的节点设备。其中,目标事件与目标节点设备之间可以是一对一的关系,即单个目标事件只会影响一个目标节点设备;或者,目标事件与目标节点设备之间也可以是一对多的关系,即单个目标事件同时影响多个不同的目标节点设备。需要说明的是,多个目标事件可能影响不同的目标节点设备,也可能同时影响同一目标节点设备。
在本实施例中,并不限定根据诊断对象的标识信息,确定诊断对象涉及的多个目标事件以及与多个目标事件关联的至少一个目标节点设备的实施方式,下面举例说明。
在一可选实施例中,可以通过事件知识图谱的方式来体现基础设施域20中存在的各种事件与各个节点设备之间的关联关系,为便于区分,将该事件知识图谱称为第一事件知识图谱。在使用第一事件知识图谱之前,可以构建第一事件知识图谱。构建第一事件知识图谱的过程包括:
节点构建过程:第一事件知识图谱中的节点包括表示事件的第一节点,和表示节点设备的第二节点;节点构建过程实际上就是确定需要在第一事件知识图谱中体现的事件和节点设备的过程。可选地,可以将基础设施域20中出现的全部事件和全部节点设备均在第一事件知识图谱中体现出来,即在第一事件知识图谱中针对基础设施域中出现的每个事件分别构建第一节点,并针对基础设施域中存在的每个节点设备分别构建第二节点。或者,可选地,也可以根据应用需求,从基础设施域20中出现的事件和节点设备中进行选择,在第一事件知识图谱中体现被选择的事件和节点设备。例如,可以设定指定时间,从基础设施域20在指定时间内发生的事件信息中,获取多个事件,并构建表示每个事件的第一节点;接着,可以根据每个事件的影响面信息,确定与每个事件存在影响关系的节点设备,并构建表示每个节点设备的第二节点。其中,指定时间可以是1小时、1天或者3天等,对此不做限定。事件的影响面信息指示与事件存在影响关系的节点设备,影响关系可以根据应用需求灵活而定,例如可以是发生事件的节点设备,也可以是事件作用到的节点设备。需要说明的是,基础设施域20中发生的事件信息可被记录到事件信息库,基于此,可以从事件信息库中获取基础设施域20在指定时间内已发生的事件信息。
可选地,上述事件可以包括但不限于:服务器故障事件、网络故障事件、IDC机房故障事件、服务器配置变更事件、网络配置变更事件以及服务器宕机事件、服务器IO挂起(hang)告警事件等等。相应地,上述节点设备包括但不限于:服务器、机柜、包间、楼宇、IDC、ASW、DSW、PSW等。
边构建:在第一事件知识图谱中存在边,一条边连接两个节点,可表示这两个节点所代表对象之间的某种关系。边构建过程实际上是确定哪种关系需要体现在第一事件知识图谱中以及在哪些节点之间添加边的过程。在本实施例中,选择将节点设备之间的物理关系、事件和节点设备之间的影响关系体现在第一事件知识图谱中,这些关系可通过节点之间的边进行表示。
拓扑生成:在构建出第一节点、第二节点,并确定出边需要体现的关系之后,可以根据节点设备之间的物理关系以及多个事件和节点设备之间的影响关系,在第一节点与第二节点之间以及第二节点之间添加边,得到第一事件知识图谱。在第一事件知识图谱中,包括表示事件的第一节点、表示节点设备的第二节点、第一节点与第二节点之间的边以及第二节点之间的边,第一节点和第二节点之间的边表示事件与节点设备之间的影响关系,第二节点之间的边表示节点设备之间的物理关系。这里的物理关系包括物理上的连接关系、包含或层级关系等。
其中,节点设备之间的物理关系可以从配置管理数据库(ConfigurationManagement Database,CMDB)中获取,CMBD包含了节点设备整个生命周期内的信息以及节点设备之间的各种关系,例如,节点设备之间的物理关系、实施通信关系、非实时通信关系以及依赖关系等。
在第一事件知识图谱的基础上,一种确定诊断对象涉及的多个目标事件以及与多个目标事件关联的至少一个目标节点设备的实施方式包括:获取第一事件知识图谱;根据诊断对象的标识信息,对第一事件知识图谱进行修剪,得到第二事件知识图谱;其中,第二事件知识图谱中的第一节点表示诊断对象涉及的目标事件,第二节点表示与目标事件存在影响关系的目标节点设备,同时,第二事件知识图谱中还包含表示目标事件与目标节点设备之间影响关系的边以及表示目标节点设备之间的物理关系的边。由此可知,在第二事件知识图谱中包含诊断对象涉及的多个目标事件以及与多个目标事件关联的至少一个目标节点设备。
在另一可选实施例中,也可以直接根据诊断对象的标识信息,从事件信息库中,查找在指定时间内发生的与诊断对象有关的多个事件作为目标事件,并根据该每个目标事件的影响面信息,确定与目标事件存在影响关系的目标节点设备。
在本实施例中,每个目标节点设备都存在上下级拓扑关系,该上下级拓扑关系可能包括该目标节点设备的下级节点设备,和/或,该目标节点设备的上级节点设备。无论事件确定模块12采用上述哪种实施方式确定出多个目标事件以及与多个目标事件关联的至少一个目标节点设备,在此基础上,事件传播模块13可根据多个目标事件、多个目标事件与至少一个目标节点设备之间的关联关系以及至少一个目标节点设备的上下级拓扑关系,生成至少一条事件传播路径,其中,每条事件传播路径包括一个目标事件或者存在关联关系的至少两个目标事件。其中,事件之间的关联关系可以是事件发生的时间先后关系、事件之间的因果关系或者事件是否属于同一类型等中的至少一种。
在本申请实施例中,并不限定生成事件传播路径的实施方式。例如,在一可选实施例中,预先确定事件之间的关联关系包括事件发生时间的先后关系和事件之间的因果关系,首先,按照发生时间由早到晚的顺序,对多个目标事件进行排序,再从中排序后的目标事件中找出存在因果关系的事件片段,每个事件片段形成一条事件传播路径,该事件片段包括至少一个目标事件,且在该实施例中,每个目标事件仅出现在一条事件传播路径中。
在另一可选实施例中,生成至少一条事件传播路径的实施方式,包括:针对多个目标事件中的每个目标事件分别生成事件传播路径,为了便于描述和区分,以生成第一目标事件的事件传播路径为例对该生成方式进行详细说明。其中,第一目标事件可以是多个目标事件中的任一目标事件,具体地,考虑到根因定位路径和事件传播路径是相反的,因此该可选实施例中自下向上进行事件传播,即针对第一目标事件,根据与第一目标事件存在关联关系的目标节点设备的上下级拓扑关系,确定目标节点设备的N跳以内的上级节点设备,其中,N为正整数,N可以是目标节点设备的上下级拓扑关系中的最大跳数M,也可以小于目标节点设备的上下级拓扑关系中的最大跳数M,M为正整数。例如,以目标节点设备为服务器为例,假设N是2,则服务器的N跳以内的上级节点设备包括:服务器的上一级节点设备,即机柜,以及服务器的上两级节点设备,即包间。若目标节点设备的N跳以内存在上级节点设备,且N跳以内的上级节点设备存在与其关联的其它目标事件,这里的其它目标事件是指多个目标事件中不同于第一目标事件的目标事件,则根据第一目标事件与其它目标事件之间的关联关系,生成第一目标事件对应的事件传播路径,该事件传播路径包括第一目标事件和至少一个其它目标事件。
进一步可选地,若目标节点设备的N跳以内不存在上级节点设备,或者目标节点设备的N跳以内存在上级节点设备,但是该上级节点设备上不存在与其关联的其它目标事件,则直接根据第一目标事件生成其事件传播路径,即第一目标事件的事件传播路径上仅包含第一目标事件。
进一步可选地,在根据第一目标事件与其它目标事件之间的关联关系,生成第一目标事件对应的事件传播路径的情况下,假设第一目标事件与其它目标事件之间的关联关系是因果关系和事件发生时间的先后关系,则可以根据第一目标事件与其它目标事件之间的因果关系和事件发生时间的先后关系,确定第一目标事件对应的事件传播路径。其中,事件发生时间的先后关系在一定程度上可以体现出事件之间的传播关系,例如,如果事件A先于事件B出现,那么事件A就有可能是引发事件B出现的原因,亦即事件A的影响可能会向事件B进行传播;事件之间的因果关系也可以体现事件之间的传播关系,例如,如果事件B的出现是因为先有事件A出现,那么事件A就是引发事件B出现的原因。具体地:可以根据其它目标事件和第一目标事件的发生时间,获取其它目标事件中发生时间晚于第一目标事件的第二目标事件,第二目标事件可以是一个或多个;利用事件概率图模型,得到第二目标事件中与第一目标事件存在因果关系的第三目标事件,其中,事件概率图模型是一种用图结构来描述事件之间因果关系的概率模型,事件概率图模型不仅可以维护事件之间的因果关系,还可以维护事件之间的因果关系的概率;接着,按照事件发生时间的先后关系,对第一目标事件和第三目标事件进行组织,以得到第一目标事件对应的事件传播路径。其中,第三目标事件可以是一个目标事件,也可以是多个目标事件,例如,2个、3个或者5个等。第三目标事件的发生时间晚于第一目标事件,且第一目标事件与第三目标事件之间存在因果关系,可认为第一目标事件是引发第三目标事件出现的原因,则第一目标事件对应的事件传播路径可以表示为:第一目标事件—>第三目标事件。其中,若第三目标事件为多个,则多个第三目标事件之间还会进一步按照发生时间的先后顺序进行排序,例如第一目标事件—>第三目标事件1—>第三目标事件2—>第三目标事件3,其中,第一目标事件的发生时间最早,第三目标事件1的发生时间早于第三目标事件2,第三目标事件2的发生时间早于第三目标事件3。
在本实施例中,并不限定事件概率图模型的生成方式。可选地,如图3所示,可以获取历史事件信息,将历史事件信息转换为概率因果图模型支持的输入形式,接着根据该历史事件信息针对概率因果图模型进行结构学习和参数学习,得到事件概率图模型。其中,先对概率因果图模型进行结构学习,再对概率因果图模型进行参数学习。其中,概率因果图模型可以是贝叶斯网络模型、马尔可夫随机场模型、朴素贝叶斯分类器(Naive BayesClassifier)或者依赖性网络(Dependency Network)等,对此不做限定。其中,以贝叶斯网络模型为例,结构学习的算法可以是但不限于:基于约束(Constraint Based,CB)的学习算法、基于评分搜索(Scoring and Searching,SS)的学习算法或者混合学习算法等,参数学习的方法可以是但不限于:最大似然估计法或者期望最大化(Expectation Maximum,EM)算法等。
考虑到历史事件信息的数据量可能不足,如果根据数据量不足的历史事件信息进行事件概率图模型的学习,可能会影响事件概率图模型的合理性和准确性,进而影响根因定位的结果。基于此,在本申请另一实施例中,在生成事件概率图模型的过程中将专家经验信息考虑进来,即专家经验信息和历史事件信息生成事件概率图模型。这里的专家经验信息主要是指专家从历史事件信息中总结出的一些事件之间存在的传播关系。其中,结合专家经验信息和历史事件信息生成事件概率图模型的一种方式包括:根据专家经验信息确定概率图模型的结构,在确定概率图模型的结构的情况下,基于历史事件信息,对概率图模型进行参数学习,得到事件概率图模型。或者,如图3所示,结合专家经验信息和历史事件信息生成事件概率图模型的另一种方式包括:将历史事件信息转换为概率因果图模型支持的输入形式,接着根据该历史事件信息针对概率因果图模型进行结构学习和参数学习,得到概率因果图模型;利用专家经验信息生成事件传播图模型;将事件因果图模型与事件传播图模型进行融合,以得到最终的事件概率图模型。在该可选实施例中得到的事件概率图模型一方面可以输出存在因果关系的事件,另一方面还可以输出事件之间的增值影响分。其中,在事件具有影响分属性的情况下,存在因果关系的两个事件中发生时间较晚的一个事件会导致发生时间较早的另一事件的影响分的增加,将该增加量称为增值影响分。以事件A和B为例对增值影响分做进一步解释说明,假设事件A先于事件B出现,且两者之间具有因果关系,那么由于事件B的出现会导致事件A的影响分增加。其中,增值影响分可由事件概率图模型给出,关于事件概率图模型给出增值影响分的原理不做限定,例如可以是将事件B的影响分按照一定方式叠加到事件A上,从而得到增值影响分。其中,事件的影响分在一定程度上反映了事件的影响程度,可选地,事件的影响分越高,说明该事件在基础设施域中的影响越大,该影响可以是事件影响到的节点设备的数量较多,或者是事件对节点设备的影响程度较为严重,或者是事件对上层云计算服务造成的故障程度较为严重。关于事件的影响分的获取方式可参见后续实施例,在此暂不赘述。
在一可选实施例中,考虑到引起目标云计算服务发生故障的根因事件发生后,大概率会引起基础设施域中出现服务器宕机或者夯机的情况,进而导致全局告警信息在根因事件发生后有明显增加。其中,全局告警信息指的是整个基础设施域中出现的告警信息,例如,服务器宕机告警或输入/输出接口挂起(Input/Output hang)告警等。基于此,可根据全局告警信息,对至少一条事件传播路径进行合理性检验;对进行合理性检验后事件传播路径进行根因收敛,确定引起目标云计算服务发生故障的根因事件。
具体地,可以根据全局告警信息,对每条事件传播路径进行逐个分析,也可以同时对多条事件传播路径进行分析,最终获取包含潜在根因事件的目标事件传播路径,并确定目标事件传播路径上的潜在根因事件。该过程也就是根据全局告警信息对事件传播路径进行合理性检验的过程。下面以事件传播路径Y1是事件A1—>事件A2—>事件A3为例进行详细说明。首先,判断位于事件传播路径首部的事件A1发生前后,基础设施域中的全局告警信息是否有明显的增加。若事件A1发生前后,基础设施域中的全局告警信息有明显增加,则认为事件A1是潜在根因事件,事件传播路径Y1是包含潜在根因事件的事件传播路径。若事件A1发生前后,基础设施域中的全局告警信息没有明显增加,则认为事件A1不是潜在根因事件,将事件A1从事件传播路径Y1中移除;接着判断事件A2发生前后,基础设施域中的全局告警信息是否有明显增加。若事件A2发生前后,基础设施域中的全局告警信息有明显增加,则认为事件A2是潜在根因事件,移除事件A1后的事件传播路径Y1是包含潜在根因事件的事件传播路径。若事件A2发生前后,基础设施域中的全局告警信息没有明显增加,则认为事件A2不是潜在根因事件,将事件A2从事件传播路径Y1中移除。如此重复,直至确定事件传播路径Y1包含潜在根因事件;或者在事件传播路径Y1上的事件均被移除后,事件传播路径Y1将不再参与后续的根因事件收敛的过程。
在对每条事件传播路径进行合理性检验后,即在获取包含潜在根因事件的目标事件传播路径并确定目标事件传播路径上的潜在根因事件之后,可根据目标事件传播路径上存在的潜在根因事件之间的重叠关系,确定最终引起目标云计算服务发生故障的根因事件。下面对该过程进行举例说明。
示例1:包含潜在根因事件的目标事件传播路径为:事件B1—>事件B2;事件B2—>事件B3。其中,导致事件B3发生的事件为事件B2,导致事件B2发生的事件为事件B1,事件B2同时存在于两条目标事件传播路径上,则可以认为事件B1是引起目标云计算服务发生故障的根因事件。
示例2:包含潜在根因事件的目标事件传播路径为:事件C1—>事件C2;事件C2。其中,导致事件C2发生的事件为事件C1,事件C2同时存在于两条目标事件传播路径上,则可以认为事件C1是引起目标云计算服务发生故障的根因事件。
示例3:包含潜在根因事件的目标事件传播路径为:事件D1—>事件D2;事件D1。其中,导致事件D2发生的事件为事件D1,事件D1同时存在于两条目标事件传播路径上,则可以认为事件D1是引起目标云计算服务发生故障的根因事件。
示例4:包含潜在根因事件的目标事件传播路径为:事件E1—>事件E2—>事件E3;事件E1—>事件E4—>事件E5。其中,导致事件E3发生的事件为事件E2,导致事件E2发生的事件为事件E1;导致事件E5发生的事件为事件E4,导致事件E4发生的事件为事件E1,事件E1同时存在于两条目标事件传播路径上,故可以认为事件E1是引起目标云计算服务发生故障的根因事件。
示例5:包含潜在根因事件的目标事件传播路径为:事件F1—>事件F2—>事件F3;事件F4—>事件F3—>事件F5。导致事件F3发生的事件为事件F2,导致事件F2发生的事件为事件F1;导致事件F5发生的事件还可以是事件F3,导致事件F3发生的事件为事件F4,事件F3虽然同时存在于两条目标事件传播路径上,但却无法在其它事件之间形成关联关系,故可以认为事件F1和事件F4是引起目标云计算服务发生故障的根因事件。
在一可选实施例中,若确定出最终引起目标云计算服务发生故障的根因事件为一个,则将该根因事件返回给诊断需求方,由诊断需求方根据根因事件,快速解决故障问题,及时止损。若确定出最终引起目标云计算服务发生故障的根因事件为多个,可选地,可以将多个根因事件进行排序,按照排序后的顺序将多个根因事件返回给诊断需求方,由诊断需求方根据根因事件,快速解决故障问题,及时止损;或者,也可以对多个根因事件进行筛选,将筛选出的根因事件返回给诊断需求方,以供诊断需求方根据筛选出的根因事件,快速解决故障问题,及时止损。
在一可选实施例中,目标事件具有影响分属性,基于此,可以根据多个根因事件的目标影响分,对多个根因事件进行排序或筛选。例如,筛选出目标影响分最大的一个或几个根因事件并输出,或者,筛选出目标影响分大于设定阈值的根因事件并输出。下面以第一目标事件为例,对生成目标影响分的实施方式进行说明。其中,第一目标事件可以是多个目标事件中任一目标事件。目标影响分是一个目标事件的最终影响分,可以有效的量化第一目标事件作为根因事件的概率。
在一可选实施例中,可以根据第一目标事件的属性信息,确定第一目标事件的初始影响分;利用事件概率图模型,得到第三目标事件对第一目标事件的增值影响分;根据增值影响分,对第一目标事件的初始影响分进行修正,得到第一目标事件的目标影响分。可选地,可以将增值影响分叠加到第一目标事件的初始影响分上,从而得到第一目标事件的目标影响分,但并不限于叠加这一种计算方式。
其中,第一目标事件的属性信息可以包括但不限于:第一目标事件的类型、严重程度、紧急程度以及第一目标事件的发生时间与接收诊断请求的时间之间的时间跨度等。下面对第一目标事件的属性信息进行详细说明。
第一目标事件的类型:目标事件的类型可以是但不限于:告警类型、配置变更类型或者故障类型。根据目标事件的类型的不同,初始影响分的多少也有所不同。例如,初始影响分由少到多可以是:配置变更类型的事件—>告警类型的事件—>故障类型的事件。
第一目标事件的严重程度或紧急程度:根据第一目标事件的不同,其严重程度或紧急程度的级别也有所不同。例如,若第一目标事件为告警事件,则告警事件的严重程度或紧急程度由大到小可以是:紧急告警、重要告警、次要告警或警告告警等;若第一目标事件为故障事件,则故障事件的严重程度由大到小可以是重大故障、严重故障或一般故障。
第一目标事件的发生时间与接收诊断请求的时间之间的时间跨度:该时间跨度越长,第一目标事件的发生与目标云计算服务的故障的关联也就越小,因此,第一目标事件的发生时间与接收诊断请求的时间之间的时间跨度越长,第一目标事件的影响分也就越小;反之,第一目标事件的影响分也就越大。
进一步,考虑到事件概率图模型不仅维护有事件之间的因果关系,还可以维护事件之间因果关系的概率,基于此,可以基于事件概率图模型维护的事件之间因果关系的概率,确定事件传播路径中第三目标事件对第一目标事件的增值影响分,进而根据增值影响分,对第一目标事件的初始影响分进行修正,得到第一目标事件的目标影响分。例如,事件传播路径H:事件L1—>事件L2—>事件L3,事件L2对事件L1的增值影响分可以直接与事件L1的初始影响分相加,得到事件L1的目标影响分,或者也可以将事件L2对事件L1的增值影响分与设定的系数相乘后,再与事件L1的初始影响分相加,得到事件L1的目标影响分,其中,设定的系数可以是但不限于:0.5、1.2或者2等。
需要说明的是,在确定第一目标事件的目标影响分之后,还可以根据第一目标事件的影响面,确定与第一目标事件存在影响关系的目标节点设备,根据第一目标事件的目标影响分,确定目标节点设备的健康衡量分。与第一目标事件存在影响关系的目标节点设备可以是一个,也可以是多个。若与第一目标事件存在影响关系的目标节点设备为一个,则可以将第一目标事件的目标影响分直接作为目标节点设备的健康衡量分,或者将第一目标事件的目标影响分进行合理数值计算,将计算结果作为目标节点设备的健康衡量分。若与第一目标事件存在影响关系的目标节点设备为多个,则可以为多个目标节点设备设定相应的权重,按照权重将第一目标事件的目标影响分分给多个目标节点设备,不同目标节点设备对应的权重可以相同,也可以不相同。若多个目标节点设备对应的权重完全相同,具体为将第一目标事件的目标影响分直接平均分散给多个目标节点设备。若多个目标事件均对某一目标节点设备产生影响,则可以将每个目标事件对目标节点设备的健康衡量分进行线性累加,得到目标节点设备的最终健康衡量分。目标节点设备的健康衡量分可以体现该目标节点设备的健康度。进一步可选地,还可以将目标节点设备的健康衡量分进行输出,以便相关人员了解目标节点设备的健康状况,及时更换、维护健康状况较差的目标节点设备,进而降低出现引起云计算服务发生故障的事件发生,提高云计算系统的服务质量。
在此说明,本申请实施例提供根因定位系统可以是采用分布式部署方式实施,也可以采用集中部署的方式实施。在采用分布式部署方式时,请求接收模块11、事件确定模块12、事件传播模块13以及根因分析模块14可以部署在一台或多台物理机、虚拟机等节点设备中实现,例如每个模块可以部署在不同物理机或虚拟机上实现。在采用集中部署方式时,请求接收模块11、事件确定模块12、事件传播模块13以及根因分析模块14可以作为一台根因定位设备实现,部署在一台物理机或虚拟机上实现。
进一步,本申请实施例还提供一种根因定位方法,该方法适用于分布式部署的根因定位系统,也适用于集中部署的根因定位系统(即根因定位设备)。下面结合图4,对本申请实施例的根因定位方法进行说明。如图4所示,该根因定位方法包括:
41、接收诊断请求,该诊断请求包含诊断对象的标识信息,该诊断对象包括云计算系统中承载目标云计算服务的多级节点设备;
42、根据上述诊断对象的标识信息,确定诊断对象涉及的多个目标事件以及多级节点设备中与多个目标事件关联的至少一个目标节点设备;
43、根据上述多个目标事件以及至少一个目标节点设备的上下级拓扑关系,生成至少一条事件传播路径,每条事件传播路径包括一个目标事件或者存在关联关系的至少两个目标事件;
44、根据上述至少一条事件传播路径,分析引起目标云计算服务发生故障的根因事件。
在一可选实施例中,根据诊断对象的标识信息,确定诊断对象涉及的多个目标事件以及多级节点设备中与多个目标事件关联的至少一个目标节点设备,包括:
获取第一事件知识图谱,第一事件知识图谱至少包括表示事件的第一节点和表示节点设备的第二节点,第一节点和第二节点之间的边表示事件与节点设备之间的影响关系;
根据诊断对象的标识信息,对第一事件知识图谱进行修剪,得到第二事件知识图谱;第二事件知识图谱中的第一节点表示诊断对象涉及的目标事件,第二节点表示与目标事件存在影响关系的目标节点设备。
在一可选实施例中,上述获取第一事件知识图谱,包括:从指定时间内发生的事件信息中,获取多个事件,并构建表示每个事件的第一节点;根据每个事件的影响面信息,确定与每个事件存在影响关系的节点设备,并构建表示每个节点设备的第二节点;根据节点设备之间的物理关系以及多个事件和节点设备之间的影响关系,在第一节点与第二节点之间以及第二节点之间添加边,得到第一事件知识图谱;其中,第二节点之间的边表示节点设备之间的物理关系。
在一可选实施例中,上述根据多个目标事件以及至少一个目标节点设备的上下级拓扑关系,生成至少一条事件传播路径,包括:针对第一目标事件,根据与第一目标事件关联的目标节点设备的上下级拓扑关系,确定目标节点设备的N跳以内的上级节点设备;若N跳以内的上级节点设备存在与其关联的其它目标事件,则根据第一目标事件与其它目标事件之间的关联关系,生成第一目标事件对应的事件传播路径;其中,N为正整数,第一目标事件是多个目标事件中任一目标事件。
在一可选实施例中,上述根据第一目标事件与其它目标事件之间的关联关系,生成第一目标事件对应的事件传播路径,包括:获取其它目标事件中发生时间晚于第一目标事件的第二目标事件;利用事件概率图模型,得到第二目标事件中与第一目标事件存在因果关系的第三目标事件;按照事件发生时间的先后关系,对第一目标事件和第三目标事件进行组织,以得到第一目标事件对应的事件传播路径。
在一可选实施例中,本实施例的方法还包括:根据第一目标事件的属性信息,确定第一目标事件的初始影响分;利用事件概率图模型,得到第三目标事件对第一目标事件的增值影响分;根据增值影响分,对第一目标事件的初始影响分进行修正,得到第一目标事件的目标影响分。
在一可选实施例中,本实施例的方法还包括:根据历史事件信息进行结构和参数学习得到概率因果图模型;根据专家经验信息生成事件传播图模型,将概率因果图模型和事件传播图模型进行融合,以得到事件概率图模型;事件概率图模型用于输出存在因果关系的事件以及事件之间的增值影响分。
在一可选实施例中,上述根据至少一条事件传播路径,分析引起目标云计算服务发生故障的根因事件,包括:根据全局告警信息,获取至少一条事件传播路径中包含潜在根因事件的目标事件传播路径;根据目标事件传播路径上存在的潜在根因事件之间的重叠关系,确定最终引起目标云计算服务发生故障的根因事件。
进一步可选地,本实施例的方法还包括:若根因事件为多个,则根据多个根因事件的目标影响分和每个根因事件发生前后的全局告警信息的变化情况,对多个根因事件进行排序或筛选;输出筛选出的或排序后的根因事件。
关于本实施例中各步骤的详细描述,可参见前述系统实施例,在此不再赘述。
在本实施例中,可根据诊断请求,从事件维度定位引起云计算服务发生故障的根因事件,并将基础设施域中的事件与节点设备之间的关联关系、事件之间的传播关系和关联关系结合起来,可以更加快速、准确地分析基础设施域中引起云计算服务发生故障的根因事件,便于相关人员快速解决引起故障的问题,及时止损。
需要说明的是,上述实施例所提供方法的各步骤的执行主体均可以是同一设备,或者,该方法也由不同设备作为执行主体。比如,步骤41至步骤43的执行主体可以为设备A;又比如,步骤41和42的执行主体可以为设备A,步骤43的执行主体可以为设备B;等等。
另外,在上述实施例及附图中的描述的一些流程中,包含了按照特定顺序出现的多个操作,但是应该清楚了解,这些操作可以不按照其在本文中出现的顺序来执行或并行执行,操作的序号如41、42等,仅仅是用于区分开各个不同的操作,序号本身不代表任何的执行顺序。另外,这些流程可以包括更多或更少的操作,并且这些操作可以按顺序执行或并行执行。需要说明的是,本文中的“第一”、“第二”等描述,是用于区分不同的消息、设备、模块等,不代表先后顺序,也不限定“第一”和“第二”是不同的类型。
图5为本申请示例性实施例提供的一种根因定位设备的结构示意图。如图5所示,该设备包括:存储器51和处理器52。
存储器51,用于存储计算机程序,并可被配置为存储其它各种数据以支持在根因定位设备上的操作。这些数据的示例包括用于在根因定位设备上操作的任何应用程序或方法的指令,消息,图片,视频等。
存储器51可以由任何类型的易失性或非易失性存储设备或者它们的组合实现,如静态随机存取存储器(SRAM),电可擦除可编程只读存储器(EEPROM),可擦除可编程只读存储器(EPROM),可编程只读存储器(PROM),只读存储器(ROM),磁存储器,快闪存储器,磁盘或光盘。
处理器52,与存储器51耦合,用于执行存储器51中的计算机程序,以用于:
接收诊断请求,所述诊断请求包含诊断对象的标识信息,所述诊断对象包括云计算系统中承载目标云计算服务的多级节点设备;根据所述诊断对象的标识信息,确定所述诊断对象涉及的多个目标事件以及多级节点设备中与所述多个目标事件关联的至少一个目标节点设备;根据所述多个目标事件以及所述至少一个目标节点设备的上下级拓扑关系,生成至少一条事件传播路径,每条事件传播路径包括一个目标事件或者存在关联关系的至少两个目标事件;根据所述至少一条事件传播路径,分析引起所述目标云计算服务发生故障的根因事件。
在一可选实施例中,处理器52在确定诊断对象涉及的多个目标事件以及多级节点设备中与多个目标事件关联的至少一个目标节点设备时,具体用于:获取第一事件知识图谱,第一事件知识图谱至少包括表示事件的第一节点和表示节点设备的第二节点,第一节点和第二节点之间的边表示事件与节点设备之间的影响关系;根据诊断对象的标识信息,对第一事件知识图谱进行修剪,得到第二事件知识图谱;第二事件知识图谱中的第一节点表示诊断对象涉及的目标事件,第二节点表示与目标事件存在影响关系的目标节点设备。
在一可选实施例中,处理器52在获取第一事件知识图谱时,具体用于:从指定时间内发生的事件信息中,获取多个事件,并构建表示每个事件的第一节点;根据每个事件的影响面信息,确定与每个事件存在影响关系的节点设备,并构建表示每个节点设备的第二节点;根据节点设备之间的物理关系以及多个事件和节点设备之间的影响关系,在第一节点与第二节点之间以及第二节点之间添加边,得到第一事件知识图谱;其中,第二节点之间的边表示节点设备之间的物理关系。
在一可选实施例中,处理器52在生成至少一条事件传播路径时,具体用于:针对第一目标事件,根据与第一目标事件关联的目标节点设备的上下级拓扑关系,确定目标节点设备的N跳以内的上级节点设备;若N跳以内的上级节点设备存在与其关联的其它目标事件,则根据第一目标事件与其它目标事件之间的关联关系,生成第一目标事件对应的事件传播路径;其中,N为正整数,第一目标事件是多个目标事件中任一目标事件。
在一可选实施例中,处理器52在生成第一目标事件对应的事件传播路径时,具体用于:获取其它目标事件中发生时间晚于第一目标事件的第二目标事件;利用事件概率图模型,得到第二目标事件中与第一目标事件存在因果关系的第三目标事件;按照事件发生时间的先后关系,对第一目标事件和第三目标事件进行组织,以得到第一目标事件对应的事件传播路径。
在一可选实施例中,处理器52还用于:根据第一目标事件的属性信息,确定第一目标事件的初始影响分;利用事件概率图模型,得到第三目标事件对第一目标事件的增值影响分;根据增值影响分,对第一目标事件的初始影响分进行修正,得到第一目标事件的目标影响分。
在一可选实施例中,处理器52还用于:根据历史事件信息进行结构和参数学习得到概率因果图模型;根据专家经验信息生成事件传播图模型,将概率因果图模型和事件传播图模型进行融合,以得到事件概率图模型;事件概率图模型用于输出存在因果关系的事件以及事件之间的增值影响分。
在一可选实施例中,处理器52在分析引起目标云计算服务发生故障的根因事件时,具体用于:根据全局告警信息,获取至少一条事件传播路径中包含潜在根因事件的目标事件传播路径;根据目标事件传播路径上存在的潜在根因事件之间的重叠关系,确定最终引起目标云计算服务发生故障的根因事件。
进一步可选地,处理器52还用于:若根因事件为多个,则根据多个根因事件的目标影响分和每个根因事件发生前后的全局告警信息的变化情况,对多个根因事件进行排序或筛选;输出筛选出的或排序后的根因事件。
关于上述各操作的详细描述,可参见前述系统实施例,在此不再赘述。
进一步,如图5所示,该根因定位设备还包括:通信组件53、显示器54、电源组件55、音频组件56等其它组件。图5中仅示意性给出部分组件,并不意味着根因定位设备只包括图5所示组件。需要说明的是,图5中虚线框内的组件为可选组件,而非必选组件,具体可视根因定位设备的产品形态而定。本实施例的根因定位设备可以实现为台式电脑、笔记本电脑或智能手机等终端设备,也可以是常规服务器、云服务器或服务器阵列等服务端设备。若本实施例的根因定位设备实现为台式电脑、笔记本电脑、智能手机等终端设备,可以包含图5中虚线框内的组件;若本实施例的根因定位设备实现为常规服务器、云服务器或服务器阵列等服务端设备,则可以不包含图5中虚线框内的组件。
相应地,本申请实施例还提供一种存储有计算机程序的计算机可读存储介质,当计算机程序被处理器执行时,致使处理器能够实现本申请实施例提供的根因定位方法中的各步骤。
相应地,本申请实施例还提供一种计算机程序产品,包括计算机程序/指令,当计算机程序/指令被处理器执行时,致使处理器能够实现本申请实施例提供的根因定位方法中的各步骤。
上述图5中的通信组件被配置为便于通信组件所在设备和其他设备之间有线或无线方式的通信。通信组件所在设备可以接入基于通信标准的无线网络,如WiFi,2G、3G、4G/LTE、5G等移动通信网络,或它们的组合。在一个示例性实施例中,通信组件经由广播信道接收来自外部广播管理系统的广播信号或广播相关信息。在一个示例性实施例中,所述通信组件还包括近场通信(NFC)模块,以促进短程通信。例如,在NFC模块可基于射频识别(RFID)技术,红外数据协会(IrDA)技术,超宽带(UWB)技术,蓝牙(BT)技术和其他技术来实现。
上述图5中的显示器包括屏幕,其屏幕可以包括液晶显示器(LCD)和触摸面板(TP)。如果屏幕包括触摸面板,屏幕可以被实现为触摸屏,以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。所述触摸传感器可以不仅感测触摸或滑动动作的边界,而且还检测与所述触摸或滑动操作相关的持续时间和压力。
上述图5中的电源组件,为电源组件所在设备的各种组件提供电力。电源组件可以包括电源管理系统,一个或多个电源,及其他与为电源组件所在设备生成、管理和分配电力相关联的组件。
上述图5中的音频组件,可被配置为输出和/或输入音频信号。例如,音频组件包括一个麦克风(MIC),当音频组件所在设备处于操作模式,如呼叫模式、记录模式和语音识别模式时,麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器或经由通信组件发送。在一些实施例中,音频组件还包括一个扬声器,用于输出音频信号。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
在一个典型的配置中,计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。
内存可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。
以上所述仅为本申请的实施例而已,并不用于限制本申请。对于本领域技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本申请的权利要求范围之内。

Claims (12)

1.一种根因定位方法,其特征在于,包括:
接收诊断请求,所述诊断请求包含诊断对象的标识信息,所述诊断对象包括云计算系统中承载目标云计算服务的多级节点设备;
根据所述诊断对象的标识信息,确定所述诊断对象涉及的多个目标事件以及所述多级节点设备中与所述多个目标事件关联的至少一个目标节点设备;
根据所述多个目标事件以及所述至少一个目标节点设备的上下级拓扑关系,生成至少一条事件传播路径,每条事件传播路径包括一个目标事件或者存在关联关系的至少两个目标事件;
根据所述至少一条事件传播路径,分析引起所述目标云计算服务发生故障的根因事件。
2.根据权利要求1所述的方法,其特征在于,根据所述诊断对象的标识信息,确定所述诊断对象涉及的多个目标事件以及所述多级节点设备中与所述多个目标事件关联的至少一个目标节点设备,包括:
获取第一事件知识图谱,所述第一事件知识图谱至少包括表示事件的第一节点和表示节点设备的第二节点,所述第一节点和第二节点之间的边表示事件与节点设备之间的影响关系;
根据所述诊断对象的标识信息,对所述第一事件知识图谱进行修剪,得到第二事件知识图谱;所述第二事件知识图谱中的第一节点表示所述诊断对象涉及的目标事件,第二节点表示与所述目标事件存在影响关系的目标节点设备。
3.根据权利要求2所述的方法,其特征在于,获取第一事件知识图谱,包括:
从指定时间内发生的事件信息中,获取多个事件,并构建表示每个事件的第一节点;
根据每个事件的影响面信息,确定与所述每个事件存在影响关系的节点设备,并构建表示每个节点设备的第二节点;
根据所述节点设备之间的物理关系以及所述多个事件和所述节点设备之间的影响关系,在所述第一节点与所述第二节点之间以及所述第二节点之间添加边,得到所述第一事件知识图谱;其中,第二节点之间的边表示节点设备之间的物理关系。
4.根据权利要求1-3任一项所述的方法,其特征在于,根据所述多个目标事件以及所述至少一个目标节点设备的上下级拓扑关系,生成至少一条事件传播路径,包括:
针对第一目标事件,根据与所述第一目标事件关联的目标节点设备的上下级拓扑关系,确定所述目标节点设备的N跳以内的上级节点设备;
若所述N跳以内的上级节点设备存在与其关联的其它目标事件,则根据所述第一目标事件与所述其它目标事件之间的关联关系,生成第一目标事件对应的事件传播路径;
其中,N为正整数,第一目标事件是所述多个目标事件中任一目标事件。
5.根据权利要求4所述的方法,其特征在于,根据所述第一目标事件与所述其它目标事件之间的关联关系,生成第一目标事件对应的事件传播路径,包括:
获取所述其它目标事件中发生时间晚于所述第一目标事件的第二目标事件;
利用事件概率图模型,得到所述第二目标事件中与所述第一目标事件存在因果关系的第三目标事件;
按照事件发生时间的先后关系,对所述第一目标事件和所述第三目标事件进行组织,以得到所述第一目标事件对应的事件传播路径。
6.根据权利要求5所述的方法,其特征在于,还包括:
根据所述第一目标事件的属性信息,确定所述第一目标事件的初始影响分;
利用事件概率图模型,得到所述第三目标事件对所述第一目标事件的增值影响分;
根据所述增值影响分,对所述第一目标事件的初始影响分进行修正,得到所述第一目标事件的目标影响分。
7.根据权利要求6所述的方法,其特征在于,还包括:
根据历史事件信息进行结构和参数学习得到概率因果图模型;
根据专家经验信息生成事件传播图模型,将所述概率因果图模型和所述事件传播图模型进行融合,以得到事件概率图模型;所述事件概率图模型用于输出存在因果关系的事件以及事件之间的增值影响分。
8.根据权利要求6或7所述的方法,其特征在于,根据所述至少一条事件传播路径,分析引起所述目标云计算服务发生故障的根因事件,包括:
根据全局告警信息,获取所述至少一条事件传播路径中包含潜在根因事件的目标事件传播路径;
根据所述目标事件传播路径上存在的潜在根因事件之间的重叠关系,确定最终引起所述目标云计算服务发生故障的根因事件。
9.根据权利要求8所述的方法,其特征在于,还包括:
若所述根因事件为多个,则根据所述多个根因事件的目标影响分和每个根因事件发生前后的全局告警信息的变化情况,对所述多个根因事件进行排序或筛选;输出筛选出的或排序后的根因事件。
10.一种用于云计算系统的根因定位系统,其特征在于,包括:
请求接收模块,用于接收诊断请求,所述诊断请求包含诊断对象的标识信息,所述诊断对象包括所述云计算系统中用于承载目标云计算服务的多级节点设备;
事件确定模块,用于根据所述诊断对象的标识信息,获取所述诊断对象涉及的多个目标事件以及所述多级节点设备中与所述多个目标事件关联的至少一个目标节点设备;
事件传播模块,用于根据所述多个目标事件以及所述至少一个目标节点设备的上下级拓扑关系,生成至少一条事件传播路径,每条事件传播路径包括一个目标事件或者存在关联关系的至少两个目标事件;
根因分析模块,用于根据所述至少一条事件传播路径,分析引起所述目标云计算服务发生故障的根因事件。
11.一种根因定位设备,其特征在于,包括:存储器和处理器;
所述存储器,用于存储计算机程序;所述处理器,与所述存储器耦合,用于执行所述计算机程序,以用于:
接收诊断请求,所述诊断请求包含诊断对象的标识信息,所述诊断对象包括云计算系统中承载目标云计算服务的多级节点设备;
根据所述诊断对象的标识信息,确定所述诊断对象涉及的多个目标事件以及所述多级节点设备中与所述多个目标事件关联的至少一个目标节点设备;
根据所述多个目标事件以及所述至少一个目标节点设备的上下级拓扑关系,生成至少一条事件传播路径,每条事件传播路径包括一个目标事件或者存在关联关系的至少两个目标事件;
根据所述至少一条事件传播路径,分析引起所述目标云计算服务发生故障的根因事件。
12.一种存储有计算机程序的计算机可读存储介质,其特征在于,当所述计算机程序被处理器执行时,致使所述处理器实现权利要求1-10任一项所述方法中的步骤。
CN202110662187.1A 2021-06-15 2021-06-15 根因定位方法、系统、设备及存储介质 Active CN113572633B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110662187.1A CN113572633B (zh) 2021-06-15 2021-06-15 根因定位方法、系统、设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110662187.1A CN113572633B (zh) 2021-06-15 2021-06-15 根因定位方法、系统、设备及存储介质

Publications (2)

Publication Number Publication Date
CN113572633A true CN113572633A (zh) 2021-10-29
CN113572633B CN113572633B (zh) 2023-05-19

Family

ID=78162058

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110662187.1A Active CN113572633B (zh) 2021-06-15 2021-06-15 根因定位方法、系统、设备及存储介质

Country Status (1)

Country Link
CN (1) CN113572633B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2024139525A1 (zh) * 2022-12-28 2024-07-04 中移物联网有限公司 根因分析方法、装置、电子设备及可读存储介质

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170075749A1 (en) * 2015-09-14 2017-03-16 Dynatrace Llc Method And System For Real-Time Causality And Root Cause Determination Of Transaction And Infrastructure Related Events Provided By Multiple, Heterogeneous Agents
CN110147387A (zh) * 2019-05-08 2019-08-20 腾讯科技(上海)有限公司 一种根因分析方法、装置、设备及存储介质
CN110995482A (zh) * 2019-11-27 2020-04-10 深圳市商汤科技有限公司 告警分析方法、装置、计算机设备及计算机可读存储介质
US20200272923A1 (en) * 2019-02-21 2020-08-27 Cisco Technology, Inc. Identifying locations and causes of network faults
US20200403985A1 (en) * 2019-06-19 2020-12-24 Hewlett Packard Enterprise Development Lp Method for federating a cluster from a plurality of computing nodes
CN112416645A (zh) * 2020-12-03 2021-02-26 广州云岫信息科技有限公司 一种基于人工智能的故障根因推断定位方法及装置
WO2021082697A1 (zh) * 2019-11-01 2021-05-06 平安科技(深圳)有限公司 基于批量告警事件的定位方法、装置、电子设备及介质
CN112887119A (zh) * 2019-11-30 2021-06-01 华为技术有限公司 故障根因确定方法及装置、计算机存储介质

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170075749A1 (en) * 2015-09-14 2017-03-16 Dynatrace Llc Method And System For Real-Time Causality And Root Cause Determination Of Transaction And Infrastructure Related Events Provided By Multiple, Heterogeneous Agents
US20200272923A1 (en) * 2019-02-21 2020-08-27 Cisco Technology, Inc. Identifying locations and causes of network faults
CN110147387A (zh) * 2019-05-08 2019-08-20 腾讯科技(上海)有限公司 一种根因分析方法、装置、设备及存储介质
US20200403985A1 (en) * 2019-06-19 2020-12-24 Hewlett Packard Enterprise Development Lp Method for federating a cluster from a plurality of computing nodes
WO2021082697A1 (zh) * 2019-11-01 2021-05-06 平安科技(深圳)有限公司 基于批量告警事件的定位方法、装置、电子设备及介质
CN110995482A (zh) * 2019-11-27 2020-04-10 深圳市商汤科技有限公司 告警分析方法、装置、计算机设备及计算机可读存储介质
CN112887119A (zh) * 2019-11-30 2021-06-01 华为技术有限公司 故障根因确定方法及装置、计算机存储介质
CN112416645A (zh) * 2020-12-03 2021-02-26 广州云岫信息科技有限公司 一种基于人工智能的故障根因推断定位方法及装置

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2024139525A1 (zh) * 2022-12-28 2024-07-04 中移物联网有限公司 根因分析方法、装置、电子设备及可读存储介质

Also Published As

Publication number Publication date
CN113572633B (zh) 2023-05-19

Similar Documents

Publication Publication Date Title
US10956849B2 (en) Microservice auto-scaling for achieving service level agreements
US10484265B2 (en) Dynamic update of virtual network topology
CN108847989B (zh) 基于微服务架构的日志处理方法、业务服务系统以及电子设备
US10511485B2 (en) Dynamic virtual network topology discovery engine
US11106560B2 (en) Adaptive thresholds for containers
US9246777B2 (en) Computer program and monitoring apparatus
US9836952B2 (en) Alarm causality templates for network function virtualization
US11805005B2 (en) Systems and methods for predictive assurance
US11196633B2 (en) Generalized correlation of network resources and associated data records in dynamic network environments
EP3671580A1 (en) Analyzing device-related data to generate and/or suppress device-related alerts
US11722371B2 (en) Utilizing unstructured data in self-organized networks
US11513925B2 (en) Artificial intelligence-based redundancy management framework
US20200099570A1 (en) Cross-domain topological alarm suppression
US11310125B2 (en) AI-enabled adaptive TCA thresholding for SLA assurance
CN113259148A (zh) 基于联邦学习的告警关联检测方法、系统、网络及介质
CN113572633B (zh) 根因定位方法、系统、设备及存储介质
CN115102834A (zh) 一种变更风险评估方法、设备及存储介质
KR20210058468A (ko) 지능형 에지 네트워킹의 인공지능 운용자 지원 시스템 장치 및 방법
US10656988B1 (en) Active monitoring of packet loss in networks using multiple statistical models
US20190332932A1 (en) Learning Machine Behavior Related to Install Base Information and Determining Event Sequences Based Thereon
US11256598B2 (en) Automated selection of performance monitors
Passas et al. Artificial Intelligence for network function autoscaling in a cloud-native 5G network
US20230315954A1 (en) Method and device for dynamic failure mode effect analysis and recovery process recommendation for cloud computing applications
US20230026714A1 (en) Proactive impact analysis in a 5g telco network
US12026664B2 (en) Automatically generating inventory-related information forecasts using machine learning techniques

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20240311

Address after: # 03-06, Lai Zan Da Building 1, 51 Belarusian Road, Singapore

Patentee after: Alibaba Innovation Co.

Country or region after: Singapore

Address before: Room 01, 45th Floor, AXA Building, 8 Shanton Road, Singapore

Patentee before: Alibaba Singapore Holdings Ltd.

Country or region before: Singapore