CN112416645B - 一种基于人工智能的故障根因推断定位方法及装置 - Google Patents

一种基于人工智能的故障根因推断定位方法及装置 Download PDF

Info

Publication number
CN112416645B
CN112416645B CN202011405944.9A CN202011405944A CN112416645B CN 112416645 B CN112416645 B CN 112416645B CN 202011405944 A CN202011405944 A CN 202011405944A CN 112416645 B CN112416645 B CN 112416645B
Authority
CN
China
Prior art keywords
fault
faults
cause
root cause
root
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202011405944.9A
Other languages
English (en)
Other versions
CN112416645A (zh
Inventor
王保华
胡逢州
吴聪
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangzhou Yunxiu Information Technology Co ltd
Original Assignee
Guangzhou Yunxiu Information Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangzhou Yunxiu Information Technology Co ltd filed Critical Guangzhou Yunxiu Information Technology Co ltd
Priority to CN202011405944.9A priority Critical patent/CN112416645B/zh
Publication of CN112416645A publication Critical patent/CN112416645A/zh
Application granted granted Critical
Publication of CN112416645B publication Critical patent/CN112416645B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0706Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment
    • G06F11/0709Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment in a distributed system consisting of a plurality of standalone computer nodes, e.g. clusters, client-server systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/079Root cause analysis, i.e. error or fault diagnosis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/04Inference or reasoning models
    • G06N5/041Abduction

Abstract

本发明实施例提供一种基于人工智能的故障根因推断定位方法及装置,方法包括:通过预设逻辑分析语句确定存在的故障集合,故障集合中包含有全部存在的故障;获取故障知识图谱,故障知识图谱包含各个故障与对应的故障根因的关联关系;根据故障知识图谱对应的根因拓扑图,确定故障集合中每个故障对应的故障根因;根据故障根因及预设算法,确定出故障对应关键节点,以使得及时根据关键节点进行故障处理。通过基于知识图谱的梳理,并运用预设的人工智能一阶逻辑算法,建立了故障之间的推导关系。然后为故障定义规则,再根据规则及当前采样到的数据寻找根因,最后通过软件的拓扑图直观展示故障根因,可以快速及时准确地对故障根因进行定位,以便技术人员可以及时进行处理。

Description

一种基于人工智能的故障根因推断定位方法及装置
技术领域
本发明涉及计算机技术领域,具体地涉及一种基于人工智能的故障根因推断定位方法、装置、存储介质及处理器。
背景技术
企业上云后,大量生产应用集中于数据中心的虚拟服务器上。这当然是因为服务器虚拟化带来的巨大效率提升,但如何保障这些虚拟服务器的健康,及出问题时的诊断和解决效率就凸显出来了。
除应用本身固有问题,主机虚拟化和虚拟机的性能,系统连通性,虚拟机的关键服务等等,都可能造成服务中断,甚至引发全局性的严重问题。
为此,企业大多部署专业监控软件,收集信息,展示报表和告警,并组建专业维护团队进行维护。结果是:业务集中化带来维护集中化,维护团队压力大流动性高,知识能力难以传承,处理事故效率不高;运行的态势相关信息缺乏,大量的基础数据报表需要人工去分析,整个运维工作繁杂多变,维护艰难。
对此,当前主流的做法是,在虚拟机里部署大量监控工具,收集信息,形成多层次的告警,丰富的报表能力;国外一些著名厂家则基于时间轴,将各个不同系统的日志收集并进行串联贯通。然而,这些方法都着眼提供充足的信息,给予运维人员进行事后分析用,对运维人员的能力有一定要求,其无法保证处理问题的时效性及效率。
发明内容
本发明实施例的目的是提供一种可以及时发现故障并进行处理的基于人工智能的故障根因推断定位方法、装置、存储介质及处理器。为了实现上述目的,本发明第一方面提供一种基于人工智能的故障根因推断定位方法,包括:
通过预设逻辑分析语句确定存在的故障集合,所述故障集合中包含有全部存在的故障;
获取故障知识图谱,所述故障知识图谱包含各个故障与对应的故障根因的关联关系;
根据所述故障知识图谱对应的根因拓扑图,确定所述故障集合中每个故障对应的故障根因;
根据所述故障根因及预设算法,确定出所述故障对应关键节点,以使得及时根据所述关键节点进行故障处理。
可选地,所述方法还包括:预先将各个服务之间的关系进行关联;为每个所述服务对应的故障信息添加对应的唯一标识,并保存在对应的字典中。
可选地,所述预先将各个服务之间的关系进行关联,包括:在对两个服务之间的关系进行关联时,若其中一个服务已与其他服务存在关系,则将本次进行关联的服务插入至已经存在关系的列表。
可选地,所述方法还包括:在对两个服务之间的关系进行关联时,若其中一个服务并未与其他服务存在关系,则新建所述两个服务的关系,将所述两个服务进行关联;其中,所述新建的关系会覆盖原有的关系。
可选地,所述通过预设逻辑分析语句确定存在的故障集合包括:通过预设逻辑分析语句确定相互引发故障的服务,以及对应的服务数量,以得到对应的故障集合。
可选地,所述故障知识图谱的建立的步骤如下:获取历史记录中确定的历史故障记录及对应的历史故障根因;根据所述历史故障记录及所述历史故障根因建立对应的故障知识图谱;根据所述故障知识图谱生成对应的根因拓扑图。
可选地,在所述确定出所述故障对应关键节点,以使得及时根据所述关键节点进行故障处理之后,还包括:将所述故障根因及所述关键节点在显示屏上进行展示,并确定对应的解决方法以供参考。
本发明第二方面提供一种基于人工智能的故障根因推断定位装置,包括:
故障查找模块,用于通过预设逻辑分析语句确定存在的故障集合,所述故障集合中包含有全部存在的故障;
故障根因定位模块,用于获取故障知识图谱,所述故障知识图谱包含各个故障与对应的故障根因的关联关系;根据所述故障知识图谱对应的根因拓扑图,确定所述故障集合中每个故障对应的故障根因;
关键节点确定模块,根据所述故障根因及预设算法,确定出所述故障对应关键节点,以使得及时根据所述关键节点进行故障处理。
本发明第三方面提供一种机器可读存储介质,该机器可读存储介质上存储有指令,该指令在被处理器执行时使得所述处理器被配置成执行上述的基于人工智能的故障根因推断定位方法。
本发明第四方面提供一种处理器,被配置成执行上述的基于人工智能的故障根因推断定位方法。
上述技术方案,通过预设逻辑分析语句确定存在的故障集合,故障集合中包含有全部存在的故障;获取故障知识图谱,故障知识图谱包含各个故障与对应的故障根因的关联关系;根据故障知识图谱对应的根因拓扑图,确定故障集合中每个故障对应的故障根因;根据故障根因及预设算法,确定出故障对应关键节点,以使得及时根据关键节点进行故障处理。通过基于知识图谱的梳理,并运用预设的人工智能一阶逻辑算法,建立了故障之间的推导关系。然后为故障定义规则,再根据规则及当前采样到的数据寻找根因,最后通过软件的拓扑图直观展示故障根因,可以快速及时准确地对故障根因进行定位,以便技术人员可以及时进行处理。
本发明实施例的其它特征和优点将在随后的具体实施方式部分予以详细说明。
附图说明
附图是用来提供对本发明实施例的进一步理解,并且构成说明书的一部分,与下面的具体实施方式一起用于解释本发明实施例,但并不构成对本发明实施例的限制。在附图中:
图1示意性示出了根据本发明实施例的基于人工智能的故障根因推断定位方法的流程示意图;
图2示意性示出了根据本发明实施例的基于人工智能的故障根因推断定位装置的结构框图;
图3示意性示出了根据本发明实施例的计算机设备的内部结构图。
具体实施方式
以下结合附图对本发明实施例的具体实施方式进行详细说明。应当理解的是,此处所描述的具体实施方式仅用于说明和解释本发明实施例,并不用于限制本发明实施例。
图1示意性示出了根据本发明实施例的基于人工智能的故障根因推断定位方法的流程示意图。如图1所示,在本发明一实施例中,提供了一种基于人工智能的故障根因推断定位方法,包括以下步骤:
步骤101,通过预设逻辑分析语句确定存在的故障集合,故障集合中包含有全部存在的故障。
步骤102,获取故障知识图谱,故障知识图谱包含各个故障与对应的故障根因的关联关系。
步骤103,根据故障知识图谱对应的根因拓扑图,确定故障集合中每个故障对应的故障根因。
步骤104,根据故障根因及预设算法,确定出故障对应关键节点,以使得及时根据关键节点进行故障处理。
首先,可以通过预设的逻辑分析语句确定存在的故障集合,在故障集合中,包含有一个或多个存在的故障。
在一个实施例中,方法还包括:预先将各个服务之间的关系进行关联;为每个服务对应的故障信息添加对应的唯一标识,并保存在对应的字典中。
每个故障用唯一标识“AlarmKey”表示,可以将每个AlarmKey对应的具体故障信息保存在“DictAlarmKey.txt”,“DictAlarmKey.txt”是一个字典,可以使用notepad++来编辑该字典,再运行程序生成DictAlarmKey.txt。进一步地,可以将各服务之间的关系可以保存在“Relation.txt”文件中。
比如,有一行代码为:(induced[’AD_DomainServices’]==[’AD_CPU’,’AD_Memory’,’AD_Dish’]),这表示为:AD的CPU使用率达到99%,或内存使用率达到99%,或硬盘使用率不足500MB或可用空间不足阈值的5%,会导致AD验证服务异常。
在一个实施例中,预先将各个服务之间的关系进行关联,包括:在对两个服务之间的关系进行关联时,若其中一个服务已与其他服务存在关系,则将本次进行关联的服务插入至已经存在关系的列表。
在一个实施例中,方法还包括:在对两个服务之间的关系进行关联时,若其中一个服务并未与其他服务存在关系,则新建两个服务的关系,将两个服务进行关联;其中,新建的关系会覆盖原有的关系。
如果需要添加关系A导致B,若在关系库中已有+(induced[B]==[X1]),其中X1表示已有的元素,则将A插入列表中,即+(induced[B]==[X1,A])。
否则可以新建A与B的关系,即+(induced[B]==[A])。且新建的关系会覆盖原有的关系。在本实施例中,还支持另一种关系定义形式,关系A导致B可以定义成induce(A,B)或induced(B,A),但这种定义形式不利于遍历,若需要找到所有导致B的故障,该方法需要遍历所有关系,而induced[B]==[A]定义的关系,仅需找到induced[B]即可。在本实施例中,还会对这种形式定义的关系会建立哈希表,查找迅速。
在一个实施例中,通过预设逻辑分析语句确定存在的故障集合包括:通过预设逻辑分析语句确定相互引发故障的服务,以及对应的服务数量,以得到对应的故障集合。
预设逻辑分析语句可以为:
(cause[Y,P]==len_(X))<=(X.in_(P))&(X.in_(induced[Y]))。其中,P是所有故障的集合。X.in_(P)表示X属于集合P,即X出故障。induced[Y]由所有直接导致Y故障的服务故障构成,所以X.in_(induced[Y])表示X故障能直接导致Y故障。len_(X)为所有满足上述两个条件的X的个数,所以cause[Y,P]表示,故障集合P中能直接导致故障Y的故障总数。之后循环遍历所有故障,判断语句为:if~(cause[iAlarmKey:allAlarmKey]==X)。其中iAlarmKey是遍历故障用的变量,allAlarmKey保存了所有故障,运行cause[iAlarmKey,allAlarmKey]==X后,X保存了所有故障中能直接导致故障iAlarmKey的故障总数。在Python中用~表示“非”。若该判断成立,则iAlarmKey是根因。上述额算法原理为:一个故障是根因,说明没有能直接导致该故障的故障存在,即cause[Y,P]为零。上述的X,Y,P,cause,induced不是Python变量或函数,它们由pyDatalog.create_terms(“induced:cause:X:Y:P”)定义,是pyDatalog使用的逻辑变量或逻辑关系,pyDatalog要求逻辑变量用大写字母表示,而逻辑关系用小写字母表示,上述所有的X,Y,P就是逻辑变量,而cause,induced是逻辑关系。
在一个实施例中,故障知识图谱的建立的步骤如下:获取历史记录中确定的历史故障记录及对应的历史故障根因;根据历史故障记录及历史故障根因建立对应的故障知识图谱,根据故障知识图谱生成对应的根因拓扑图。
技术人员可以预先获取到历史距离中,已经确定的历史故障记录及对应的历史故障根因,并根据历史故障记录及历史故障根因建立对应的故障知识图谱,还能够根据故障知识图谱生成对应的根因拓扑图。
在一个实施例中,在确定出故障对应关键节点,以使得及时根据关键节点进行故障处理之后,还包括:将故障根因及关键节点在显示屏上进行展示,并确定对应的解决方法以供参考。
在根据故障知识图谱对应的根因拓扑图确定所述故障集合中每个故障对应的故障根因后,可以运行预设的Python程序,根据故障根因及预设算法,确定出所述故障对应关键节点,并将故障根因及关键节点在显示屏上进行展示。进一步地,还可以将消息中心的用户告警、根因分析、拨测告警、面板通知等和系统故障分析的故障根因和关键节点对应的系统连通性上都在显示屏上进行展示。在消息中心,待处理故障页面,可以查看到素有的用户报障和系统自动告警的故障信息。点击操作栏的解决方法,页面跳转到知识库,系统能够根据故障原因查找出同类故障解决方案供技术人员参考,以便技术人员可以快速对故障进行处理。
举个例子,假设发生了SF服务器DNS解析异常的系统故障。系统根据故障规则定义查找出系统故障原因,并展示在系统故障分析故障根因树上和系统连通性的关键节点上,故障根因高亮提示。同时,系统自动发送邮件到运维工作人员的邮箱上,在邮件内容上也使用文字描述相应的故障及原因。由于SF服务器DNS解析异常影响到用户端对云应用和云桌面的使用,主要表现为:用户无法看到发布的资源,即用户看不到任何已发布的应用和桌面。用户使用用户端的一键报障功能,对故障信息进行反馈。用户报障信息被系统收集到消息中心待处理故障的用户故障页面,同时系统会发送邮件邮件通知运维工作人员。邮件主题为:Management系统告警信息提醒-个人用户supeizhang出现了登录Portal成功,但看不到任何应用/桌面;邮件内容可以如下所示:
Management系统收到个人故障反馈:
故障内容:个人用户supeizhang出现登录Portal成功,但看不到任何应用/桌面;
故障描述:登录Portal成功,但看不到任何应用/桌面;
故障可能原因:1.SF服务器DNS解析异常。
工作人员在收到邮件后,可以进入系统查看故障根因,通过知识库查看解决方案并解决问题。问题解决后,可以通过系统发送邮件通知用户故障已解决。
上述基于人工智能的故障根因推断定位方法中,通过预设逻辑分析语句确定存在的故障集合,故障集合中包含有全部存在的故障,获取故障知识图谱,故障知识图谱包含各个故障与对应的故障根因的关联关系,根据故障知识图谱对应的根因拓扑图,确定故障集合中每个故障对应的故障根因,根据故障根因及预设算法,确定出故障对应关键节点,以使得及时根据关键节点进行故障处理,这种通过基于知识图谱的梳理,并运用预设的人工智能一阶逻辑算法,建立了故障之间的推导关系。然后为故障定义规则,再根据规则及当前采样到的数据寻找根因,最后通过软件的拓扑图直观展示故障根因,可以快速及时准确地对故障根因进行定位,以便技术人员可以及时进行处理。
在一个实施例中,如图2所示,提供了一种基于人工智能的故障根因推断定位装置,包括:
故障查找模块201,用于通过预设逻辑分析语句确定存在的故障集合,故障集合中包含有全部存在的故障。
故障根因定位模块202,用于获取故障知识图谱,故障知识图谱包含各个故障与对应的故障根因的关联关系;根据故障知识图谱对应的根因拓扑图,确定故障集合中每个故障对应的故障根因。
关键节点确定模块203,用于根据故障根因及预设算法,确定出故障对应关键节点,以使得及时根据关键节点进行故障处理。
在一个实施例中,上述装置还包括数据建立模块(图中未示出),用于预先将各个服务之间的关系进行关联;为每个服务对应的故障信息添加对应的唯一标识,并保存在对应的字典中
在一个实施例中,数据建立模块还用于在对两个服务之间的关系进行关联时,若其中一个服务已与其他服务存在关系,则将本次进行关联的服务插入至已经存在关系的列表。
在一个实施例中,数据建立模块还用于在对两个服务之间的关系进行关联时,若其中一个服务并未与其他服务存在关系,则新建两个服务的关系,将两个服务进行关联;其中,新建的关系会覆盖原有的关系。
在一个实施例中,数据建立模块还用于获取历史记录中确定的历史故障记录及对应的历史故障根因;根据历史故障记录及历史故障根因建立对应的故障知识图谱,根据故障知识图谱生成对应的根因拓扑图。
在一个实施例中,故障查找模块201还用于通过预设逻辑分析语句确定相互引发故障的服务,以及对应的服务数量,以得到对应的故障集合。
在一个实施例中,关键节点确定模块203还用于将故障根因及关键节点在显示屏上进行展示,并确定对应的解决方法以供参考。
基于人工智能的故障根因推断定位装置包括处理器和存储器,上述故障查找模块、故障根因定位模块和关键节点确定模块等均作为程序单元存储在存储器中,由处理器执行存储在存储器中的上述程序模块中实现相应的功能。
处理器中包含内核,由内核去存储器中调取相应的程序单元。内核可以设置一个或以上,通过调整内核参数来实现对故障根因进行定位。
存储器可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM),存储器包括至少一个存储芯片。
本发明实施例提供了一种存储介质,其上存储有程序,该程序被处理器执行时实现上述基于人工智能的故障根因推断定位方法。
本发明实施例提供了一种处理器,处理器用于运行程序,其中,程序运行时执行上述基于人工智能的故障根因推断定位方法。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是服务器,其内部结构图可以如图3所示。该计算机设备包括通过系统总线连接的处理器A01、网络接口A02、存储器(图中未示出)和数据库(图中未示出)。其中,该计算机设备的处理器A01用于提供计算和控制能力。该计算机设备的存储器包括内存储器A03和非易失性存储介质A04。该非易失性存储介质A04存储有操作系统B01、计算机程序B02和数据库(图中未示出)。该内存储器A03为非易失性存储介质A04中的操作系统B01和计算机程序B02的运行提供环境。该计算机设备的数据库用于存储故障根因的定位的数据。该计算机设备的网络接口A02用于与外部的终端通过网络连接通信。该计算机程序B02被处理器A01执行时以实现一种基于人工智能的故障根因推断定位方法。
本领域技术人员可以理解,图3中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
本发明实施例提供了一种设备,设备包括处理器、存储器及存储在存储器上并可在处理器上运行的程序,处理器执行程序时实现以下步骤:通过预设逻辑分析语句确定存在的故障集合,故障集合中包含有全部存在的故障;获取故障知识图谱,故障知识图谱包含各个故障与对应的故障根因的关联关系;根据故障知识图谱对应的根因拓扑图,确定故障集合中每个故障对应的故障根因;根据故障根因及预设算法,确定出故障对应关键节点,以使得及时根据关键节点进行故障处理。
在一个实施例中,方法还包括:预先将各个服务之间的关系进行关联;为每个服务对应的故障信息添加对应的唯一标识,并保存在对应的字典中。
在一个实施例中,预先将各个服务之间的关系进行关联,包括:在对两个服务之间的关系进行关联时,若其中一个服务已与其他服务存在关系,则将本次进行关联的服务插入至已经存在关系的列表。
在一个实施例中,方法还包括:在对两个服务之间的关系进行关联时,若其中一个服务并未与其他服务存在关系,则新建两个服务的关系,将两个服务进行关联;其中,新建的关系会覆盖原有的关系。
在一个实施例中,通过预设逻辑分析语句确定存在的故障集合包括:通过预设逻辑分析语句确定相互引发故障的服务,以及对应的服务数量,以得到对应的故障集合。
在一个实施例中,故障知识图谱的建立的步骤如下:获取历史记录中确定的历史故障记录及对应的历史故障根因;根据历史故障记录及历史故障根因建立对应的故障知识图谱,根据故障知识图谱生成对应的根因拓扑图。
在一个实施例中,在确定出故障对应关键节点,以使得及时根据关键节点进行故障处理之后,还包括:将故障根因及关键节点在显示屏上进行展示,并确定对应的解决方法以供参考。
本申请还提供了一种计算机程序产品,当在数据处理设备上执行时,适于执行初始化有如下方法步骤的程序:通过预设逻辑分析语句确定存在的故障集合,故障集合中包含有全部存在的故障;获取故障知识图谱,故障知识图谱包含各个故障与对应的故障根因的关联关系;根据故障知识图谱对应的根因拓扑图,确定故障集合中每个故障对应的故障根因;根据故障根因及预设算法,确定出故障对应关键节点,以使得及时根据关键节点进行故障处理。
在一个实施例中,方法还包括:预先将各个服务之间的关系进行关联;为每个服务对应的故障信息添加对应的唯一标识,并保存在对应的字典中。
在一个实施例中,预先将各个服务之间的关系进行关联,包括:在对两个服务之间的关系进行关联时,若其中一个服务已与其他服务存在关系,则将本次进行关联的服务插入至已经存在关系的列表。
在一个实施例中,方法还包括:在对两个服务之间的关系进行关联时,若其中一个服务并未与其他服务存在关系,则新建两个服务的关系,将两个服务进行关联;其中,新建的关系会覆盖原有的关系。
在一个实施例中,通过预设逻辑分析语句确定存在的故障集合包括:通过预设逻辑分析语句确定相互引发故障的服务,以及对应的服务数量,以得到对应的故障集合。
在一个实施例中,故障知识图谱的建立的步骤如下:获取历史记录中确定的历史故障记录及对应的历史故障根因;根据历史故障记录及历史故障根因建立对应的故障知识图谱,根据故障知识图谱生成对应的根因拓扑图。
在一个实施例中,在确定出故障对应关键节点,以使得及时根据关键节点进行故障处理之后,还包括:将故障根因及关键节点在显示屏上进行展示,并确定对应的解决方法以供参考。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
在一个典型的配置中,计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。
存储器可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM)。存储器是计算机可读介质的示例。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括要素的过程、方法、商品或者设备中还存在另外的相同要素。
以上仅为本申请的实施例而已,并不用于限制本申请。对于本领域技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本申请的权利要求范围之内。

Claims (10)

1.一种基于人工智能的故障根因推断定位方法,其特征在于,所述方法包括:
通过预设逻辑分析语句确定存在的故障集合,所述故障集合中包含有全部存在的故障;
获取故障知识图谱,所述故障知识图谱包含各个故障与对应的故障根因的关联关系;
根据所述故障知识图谱对应的根因拓扑图,确定所述故障集合中每个故障对应的故障根因;
根据所述故障根因及预设算法,确定出所述故障对应关键节点,以使得及时根据所述关键节点进行故障处理;
所述预设逻辑分析语句为:
(cause[Y,P]==len_(X))<=(X.in_(P))&(X.in_(induced[Y]));
其中,P是所有故障的集合;X.in_(P)表示X属于集合P,即X出故障;induced[Y]由所有直接导致Y故障的服务故障构成,所以X.in_(induced[Y])表示X故障能直接导致Y故障;len_(X)为所有满足上述预设逻辑分析语句中的两个条件(X.in_(P))以及(X.in_(induced[Y])的X的个数,所以cause[Y,P]表示,故障集合P中能直接导致故障Y的故障总数;
之后循环遍历所有故障,判断语句为:
if~(cause[iAlarmKey:allAlarmKey]==X);
其中iAlarmKey是遍历故障用的变量,allAlarmKey保存了所有故障,运行cause[iAlarmKey, allAlarmKey] == X后,X保存了所有故障中能直接导致故障iAlarmKey的故障总数;在Python中用~表示“非”;若该判断成立,则iAlarmKey是根因;
上述的预设逻辑分析语句的原理为:一个故障是根因,说明没有能直接导致该故障的故障存在,即cause[Y,P]为零;上述的X, Y, P, cause, induced不是Python变量或函数,它们由pyDatalog.create_terms(“induced:cause:X:Y:P”)定义,是pyDatalog使用的逻辑变量或逻辑关系,pyDatalog要求逻辑变量用大写字母表示,而逻辑关系用小写字母表示,上述所有的X, Y, P就是逻辑变量,而cause, induced是逻辑关系;
所述预设算法为预设的人工智能一阶逻辑算法;运用预设的人工智能一阶逻辑算法,建立故障之间的推导关系;然后为故障定义规则,再根据规则及当前采样到的数据寻找根因,最后通过软件的拓扑图直观展示故障根因,能够快速及时准确地对故障根因进行定位,以便技术人员及时进行故障处理。
2.根据权利要求1所述的方法,其特征在于,所述方法还包括:
预先将各个服务之间的关系进行关联;
为每个所述服务对应的故障信息添加对应的唯一标识,并保存在对应的字典中。
3.根据权利要求2所述的方法,其特征在于,所述预先将各个服务之间的关系进行关联,包括:
在对两个服务之间的关系进行关联时,若其中一个服务已与其他服务存在关系,则将本次进行关联的服务插入至已经存在关系的列表。
4.根据权利要求3所述的方法,其特征在于,所述方法还包括:
在对两个服务之间的关系进行关联时,若其中一个服务并未与其他服务存在关系,则新建所述两个服务的关系,将所述两个服务进行关联;
其中,所述新建的关系会覆盖原有的关系。
5.根据权利要求1所述的方法,其特征在于,所述通过预设逻辑分析语句确定存在的故障集合包括:
通过预设逻辑分析语句确定相互引发故障的服务,以及对应的服务数量,以得到对应的故障集合。
6.根据权利要求1所述的方法,其特征在于,所述故障知识图谱的建立的步骤如下:
获取历史记录中确定的历史故障记录及对应的历史故障根因;
根据所述历史故障记录及所述历史故障根因建立对应的故障知识图谱;
根据所述故障知识图谱生成对应的根因拓扑图。
7.根据权利要求1所述的方法,其特征在于,在所述确定出所述故障对应关键节点,以使得及时根据所述关键节点进行故障处理之后,还包括:
将所述故障根因及所述关键节点在显示屏上进行展示,并确定对应的解决方法以供参考。
8.一种基于人工智能的故障根因推断定位装置,其特征在于,所述装置包括:
故障查找模块,用于通过预设逻辑分析语句确定存在的故障集合,所述故障集合中包含有全部存在的故障;
所述预设逻辑分析语句为:
(cause[Y,P]==len_(X))<=(X.in_(P))&(X.in_(induced[Y]));
其中,P是所有故障的集合;X.in_(P)表示X属于集合P,即X出故障;induced[Y]由所有直接导致Y故障的服务故障构成,所以X.in_(induced[Y])表示X故障能直接导致Y故障;len_(X)为所有满足上述预设逻辑分析语句中的两个条件的X的个数,所以cause[Y,P]表示,故障集合P中能直接导致故障Y的故障总数;
之后循环遍历所有故障,判断语句为:
if~(cause[iAlarmKey:allAlarmKey]==X);
其中iAlarmKey是遍历故障用的变量,allAlarmKey保存了所有故障,运行cause[iAlarmKey, allAlarmKey] == X后,X保存了所有故障中能直接导致故障iAlarmKey的故障总数;在Python中用~表示“非”;若该判断成立,则iAlarmKey是根因;
上述的预设逻辑分析语句的原理为:一个故障是根因,说明没有能直接导致该故障的故障存在,即cause[Y,P]为零;上述的X, Y, P, cause, induced不是Python变量或函数,它们由pyDatalog.create_terms(“induced:cause:X:Y:P”)定义,是pyDatalog使用的逻辑变量或逻辑关系,pyDatalog要求逻辑变量用大写字母表示,而逻辑关系用小写字母表示,上述所有的X, Y, P就是逻辑变量,而cause, induced是逻辑关系;
故障根因定位模块,用于获取故障知识图谱,故障知识图谱包含各个故障与对应的故障根因的关联关系;根据所述故障知识图谱对应的根因拓扑图,确定所述故障集合中每个故障对应的故障根因;
关键节点确定模块,用于根据所述故障根因及预设算法,确定出所述故障对应关键节点,以使得及时根据所述关键节点进行故障处理;所述预设算法为预设的人工智能一阶逻辑算法;运用预设的人工智能一阶逻辑算法,建立故障之间的推导关系;然后为故障定义规则,再根据规则及当前采样到的数据寻找根因,最后通过软件的拓扑图直观展示故障根因,能够快速及时准确地对故障根因进行定位,以便技术人员及时进行故障处理。
9.一种机器可读存储介质,该机器可读存储介质上存储有指令,其特征在于,该指令在被处理器执行时使得所述处理器被配置成执行根据权利要求1至7中任一项所述的基于人工智能的故障根因推断定位方法。
10.一种处理器,其特征在于,被配置成执行根据权利要求1至7中任意一项所述的基于人工智能的故障根因推断定位方法。
CN202011405944.9A 2020-12-03 2020-12-03 一种基于人工智能的故障根因推断定位方法及装置 Active CN112416645B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011405944.9A CN112416645B (zh) 2020-12-03 2020-12-03 一种基于人工智能的故障根因推断定位方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011405944.9A CN112416645B (zh) 2020-12-03 2020-12-03 一种基于人工智能的故障根因推断定位方法及装置

Publications (2)

Publication Number Publication Date
CN112416645A CN112416645A (zh) 2021-02-26
CN112416645B true CN112416645B (zh) 2023-07-04

Family

ID=74830196

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011405944.9A Active CN112416645B (zh) 2020-12-03 2020-12-03 一种基于人工智能的故障根因推断定位方法及装置

Country Status (1)

Country Link
CN (1) CN112416645B (zh)

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113094512A (zh) * 2021-04-08 2021-07-09 达而观信息科技(上海)有限公司 一种工业生产制造中故障分析系统及方法
CN113572633B (zh) * 2021-06-15 2023-05-19 阿里巴巴新加坡控股有限公司 根因定位方法、系统、设备及存储介质
CN113360722B (zh) * 2021-06-25 2022-08-09 杭州优云软件有限公司 一种基于多维数据图谱的故障根因定位方法及系统
CN113434326A (zh) * 2021-07-12 2021-09-24 国泰君安证券股份有限公司 基于分布式集群拓扑实现网络系统故障定位的方法及装置、处理器及其计算机可读存储介质
CN113656658B (zh) * 2021-08-13 2023-07-21 上海飞机制造有限公司 一种故障原因确定方法、装置、设备及存储介质
CN115733725A (zh) * 2021-08-31 2023-03-03 华为技术有限公司 一种网络故障显示方法及设备
CN113918374B (zh) * 2021-12-08 2022-03-08 云智慧(北京)科技有限公司 一种运维系统的根因分析方法、装置及设备
CN114090326B (zh) * 2022-01-14 2022-06-03 云智慧(北京)科技有限公司 一种告警的根因确定方法、装置及设备
CN114430365B (zh) * 2022-04-06 2022-07-29 北京宝兰德软件股份有限公司 故障根因分析方法、装置、电子设备和存储介质
CN115134212B (zh) * 2022-06-29 2024-04-19 中国工商银行股份有限公司 策略推送方法、装置、计算机设备和存储介质

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9003222B2 (en) * 2011-09-30 2015-04-07 International Business Machines Corporation Configuration fault localization in shared resource environments
US9037896B2 (en) * 2012-11-05 2015-05-19 Cisco Technology, Inc. Root cause analysis in a sensor-actuator fabric of a connected environment
CN110515758B (zh) * 2019-08-27 2023-03-31 北京博睿宏远数据科技股份有限公司 一种故障定位方法、装置、计算机设备及存储介质
CN110855503A (zh) * 2019-11-22 2020-02-28 叶晓斌 一种基于网络协议层级依赖关系的故障定因方法和系统

Also Published As

Publication number Publication date
CN112416645A (zh) 2021-02-26

Similar Documents

Publication Publication Date Title
CN112416645B (zh) 一种基于人工智能的故障根因推断定位方法及装置
US11928144B2 (en) Clustering of log messages
KR102483025B1 (ko) 운영 유지 시스템 및 방법
CN110661659B (zh) 一种告警方法、装置、系统及电子设备
US10511545B2 (en) Anomaly detection and classification using telemetry data
EP3752921B1 (en) Multi-variant anomaly detection from application telemetry
US10387236B2 (en) Processing data errors for a data processing system
US10977152B2 (en) Rule-based continuous diagnosing and alerting from application logs
US8930964B2 (en) Automatic event correlation in computing environments
US10911447B2 (en) Application error fingerprinting
US9280409B2 (en) Method and system for single point of failure analysis and remediation
US20230040635A1 (en) Graph-based impact analysis of misconfigured or compromised cloud resources
US10089167B2 (en) Log file reduction according to problem-space network topology
GB2518151A (en) Network anomaly detection
CN113965389B (zh) 一种基于防火墙日志的网络安全管理方法、设备及介质
US10282239B2 (en) Monitoring method
CN114443437A (zh) 告警根因输出方法、装置、设备、介质和程序产品
Zhao et al. Extracting log patterns from system logs in large
CN107330031B (zh) 一种数据存储的方法、装置及电子设备
CN105099815A (zh) 云盘监控方法及装置
CN115756888A (zh) 数据处理方法、处理器、装置及存储介质
Iuhasz et al. Monitoring of exascale data processing
CN113918204A (zh) 一种元数据脚本管理方法、装置、电子设备和存储介质
CN113626288A (zh) 故障处理方法、系统、装置、存储介质和电子设备
WO2012163800A1 (en) System for observing and analyzing configurations using dynamic tags and queries

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant