CN110515758A - 一种故障定位方法、装置、计算机设备及存储介质 - Google Patents

一种故障定位方法、装置、计算机设备及存储介质 Download PDF

Info

Publication number
CN110515758A
CN110515758A CN201910797230.8A CN201910797230A CN110515758A CN 110515758 A CN110515758 A CN 110515758A CN 201910797230 A CN201910797230 A CN 201910797230A CN 110515758 A CN110515758 A CN 110515758A
Authority
CN
China
Prior art keywords
event
data
topological diagram
event body
business
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910797230.8A
Other languages
English (en)
Other versions
CN110515758B (zh
Inventor
程捷
石光辉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Bo Hongyuan Data Polytron Technologies Inc
Original Assignee
Beijing Bo Hongyuan Data Polytron Technologies Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Bo Hongyuan Data Polytron Technologies Inc filed Critical Beijing Bo Hongyuan Data Polytron Technologies Inc
Priority to CN201910797230.8A priority Critical patent/CN110515758B/zh
Publication of CN110515758A publication Critical patent/CN110515758A/zh
Application granted granted Critical
Publication of CN110515758B publication Critical patent/CN110515758B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/079Root cause analysis, i.e. error or fault diagnosis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Quality & Reliability (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Test And Diagnosis Of Digital Computers (AREA)

Abstract

本发明实施例公开了一种故障定位方法、装置、计算机设备及存储介质,方法包括:获取各事件主体的事件数据以及所述事件主体的关系数据,其中,所述事件主体包括主机、进程和业务中的至少一项;所述事件主体的关系数据包括各所述事件主体的信息数据以及所述事件主体之间的关联关系数据;根据所述事件数据和所述关系数据进行故障定位。本发明实施例的技术方案能够快速定位系统故障,并提高故障定位方法的通用性和适用性。

Description

一种故障定位方法、装置、计算机设备及存储介质
技术领域
本发明实施例涉及计算机应用技术领域,尤其涉及一种故障定位方法、装置、计算机设备及存储介质。
背景技术
IT(Internet Technology,互联网技术)系统在运营过程中难免会出现一些异常和故障。随着IT系统的复杂度越来越高,规模越来越大,IT系统故障的定位难度也越来越高。
目前,常见的IT系统故障的定位方法有基于关联规则算法的根因分析和基于CMDB(Configuration Management Data Base,配置管理数据库)配置管理信息的根因分析方法。其中,基于关联规则算法的根因分析方法主要是通过FP-Growth或Aprori算法关联频繁选项,从而推导出事件之间的关系;基于CMDB配置管理信息的根因分析方法是通过CMDB中的系统配置管理信息获得关联规则。当一个系统业务发生问题时,可基于此规则较为有效地关联到相关系统的故障。
发明人在实现本发明的过程中,发现现有技术存在如下缺陷:基于关联规则算法的根因分析方法需要依赖大量的事件样本,才能做出有效的关联,而大多数IT系统故障难以满足大量事件样本的条件,因此基于关联规则算法的根因分析方法的适用性较差。基于CMDB配置管理信息的根因分析方法适用于拥有较为完善的CMDB管理体系的IT系统,能够获取完善的配置信息及更新信息。由于不同企业机构IT系统的CMDB数据格式、数据完整度、数据存储方式各不相同,因此基于CMDB配置管理信息的根因分析方法的通用性较差。
发明内容
本发明实施例提供一种故障定位方法、装置、计算机设备及存储介质,以快速定位系统故障,并提高故障定位方法的通用性和适用性。
第一方面,本发明实施例提供了一种故障定位方法,包括:
获取各事件主体的事件数据以及所述事件主体的关系数据,其中,所述事件主体包括主机、进程和业务中的至少一项;所述事件主体的关系数据包括各所述事件主体的信息数据以及所述事件主体之间的关联关系数据;
根据所述事件数据和所述关系数据进行故障定位。
第二方面,本发明实施例还提供了一种故障定位装置,包括:
数据获取模块,用于获取各事件主体的事件数据以及所述事件主体的关系数据,其中,所述事件主体包括主机、进程和业务中的至少一项;所述事件主体的关系数据包括各所述事件主体的信息数据以及所述事件主体之间的关联关系数据;
故障定位模块,用于根据所述事件数据和所述关系数据进行故障定位。
第三方面,本发明实施例还提供了一种计算机设备,所述计算机设备包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序;
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现本发明任意实施例所提供的故障定位方法。
第四方面,本发明实施例还提供了一种计算机存储介质,其上存储有计算机程序,该程序被处理器执行时实现本发明任意实施例所提供的故障定位方法。
本发明实施例通过获取各事件主体的事件数据以及事件主体的关系数据,以根据事件数据和关系数据进行故障定位,解决现有故障定位方法存在的适用性和通用性较差的问题,以快速定位系统故障,并提高故障定位方法的通用性和适用性。
附图说明
图1a是本发明实施例一提供的一种故障定位方法的流程图;
图1b是本发明实施例一提供的一种APM探针收集事件数据的示意图;
图1c是本发明实施例一提供的一种事件主体拓扑图的效果示意图;
图1d是本发明实施例一提供的一种事件关联拓扑图的效果示意图;
图2是本发明实施例二提供的一种故障定位装置的示意图;
图3为本发明实施例三提供的一种计算机设备的结构示意图。
具体实施方式
下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释本发明,而非对本发明的限定。
另外还需要说明的是,为了便于描述,附图中仅示出了与本发明相关的部分而非全部内容。在更加详细地讨论示例性实施例之前应当提到的是,一些示例性实施例被描述成作为流程图描绘的处理或方法。虽然流程图将各项操作(或步骤)描述成顺序的处理,但是其中的许多操作可以被并行地、并发地或者同时实施。此外,各项操作的顺序可以被重新安排。当其操作完成时所述处理可以被终止,但是还可以具有未包括在附图中的附加步骤。所述处理可以对应于方法、函数、规程、子例程、子程序等等。
实施例一
图1a是本发明实施例一提供的一种故障定位方法的流程图,本实施例可适用于快速定位系统故障的情况,该方法可以由故障定位装置来执行,该装置可以由软件和/或硬件的方式来实现,并一般可集成在服务器中。相应的,如图1a所示,该方法包括如下操作:
S110、获取各事件主体的事件数据以及所述事件主体的关系数据。
其中,所述事件主体包括主机、进程和业务中的至少一项;所述事件主体的关系数据包括各所述事件主体的信息数据以及所述事件主体之间的关联关系数据。
其中,事件可以是IT系统故障事件,常见的事件有内存不足、CPU(CentralProcessing Unit/Processor,中央处理器)使用率过高、网页响应速度慢以及软件升级等。通常情况下,故障由一系列事件组成。事件主体可以是故障事件发生主体,也即产生事件的系统组件,例如CPU使用率过高的事件主体是某个主机,网页响应慢的事件主体是网页的某个业务访问等。事件主体可以根据IT系统组件的不同层次划分,可以包括主机、进程或业务等。业务可以是应用服务器的某个网页访问服务,或者后台进程提供的某个服务等。事件数据则可以是事件对应的系统数据,例如CPU升高或网络流量增大等。事件主体的信息数据可以是事件主体自身的属性数据等,例如,主机IP(Internet Protocol,网络之间互连的协议)名称等。事件主体之间的关联关系数据可以是各事件主体之间的依赖和调用关系等。
在本发明实施例中,在对IT系统进行故障定位时,首先可以通过相关技术手段获取系统中各事件主体的事件数据以及事件主体的关系数据。
在本发明的一个可选实施例中,所述关系数据可以包括下述至少一项:进程与主机的依赖关系;进程与进程的调用关系;业务与进程的依赖关系;业务与业务的调用关系;以及,业务与外部进程的调用关系。
可选的,关系数据可以包括但不限于进程与主机的依赖关系;进程与进程的调用关系;业务与进程的依赖关系;业务与业务的调用关系;以及,业务与外部进程的调用关系等。
在本发明的一个可选实施例中,获取各事件主体的事件数据,可以包括下述至少一项:获取内置探针收集的所述事件数据;获取所述内置探针收集的性能指标数据,利用预设检测算法对所述性能指标数据进行异常检测,并根据检测结果和所述事件主体的关系数据生成所述事件数据;或,获取第三方对象上报的事件数据;获取事件主体的关系数据,可以包括:获取所述内置探针收集的所述事件主体的关系数据。
其中,内置探针可以是一种服务端探针,如APM(Application PerformanceManagement,应用性能管理)探针等。预设检测算法可以是用于检测数据异常的算法,本发明实施例并不对预设检测算法的具体类型进行限定。第三方对象可以是第三方应用程序、服务或者进程等,任何可以实现事件数据上报功能的对象均可以称为第三方对象,本发明实施例并不对第三方对象的具体类型进行限定。
具体的,可以通过以下三种方式来获取各事件主体的事件数据。第一,通过IT系统的内置探针,如APM探针,主动收集事件数据并上报后台数据处理服务器。图1b是本发明实施例一提供的一种APM探针收集事件数据的示意图。如图1b所示,APM agent可以收集来自网页展示以及数据库等方面的事件数据,并上报给数据处理服务器。第二,还可以通过内置探针向服务器上报性能指标数据,如主机CPU使用率、进程内存使用率或业务响应时间等。服务器获取到内置探针上报的性能指标数据后,可以利用异常检测算法等预设检测算法,检测性能指标数据的异常,并根据检测结果结合事件主体的关系数据,如事件主体的信息数据等生成最终的事件数据。第三,还可以由第三方对象直接向服务器上报事件数据,如上报系统升级事件或系统重启事件等事件数据。相应的,事件主体的关系数据可以通过内置探针收集。
在本发明的一个可选实施例中,在获取事件主体的关系数据之后,可以包括:根据所述关系数据构建事件主体拓扑图。
其中,事件主体拓扑图可以是反映各事件主体之间关联关系的拓扑树。
图1c是本发明实施例一提供的一种事件主体拓扑图的效果示意图。在一个具体的例子中,如图1c所示,可以根据各事件主体之间的关系数据构建对应的事件主体拓扑图。其中,业务A、业务B、进程A、进程B、主机A、主机B以及数据库作为事件主体。在事件主体拓扑图中,包括各事件主体之间的调用或依赖关系。
可以理解的是,在各事件主体的依赖关系中,被依赖事件主体对依赖事件主体是不可缺少的。在正常情况下,被依赖事件主体的正常运行决定着依赖事件主体也正常运行。仅凭依赖关系无法直接判定两个事件主体产生事件的因果关系。例如,主机CPU高会导致某个进程响应速度慢,前后两者是因果关系;但是主机CPU高可能是某个进程占用CPU高导致的,后者是前者的起因,因果关系是反过来的。在调用关系中,被调用事件主体可能会影响调用事件主体的性能表现,但不是不可缺少的。被调用事件主体和调用事件主体两者的因果关系比较明确,即被调用事件与调用事件是因果关系,反过来一般不成立。
S120、根据所述事件数据和所述关系数据进行故障定位。
相应的,在获取到事件数据以及各事件主体的关系数据后,即可根据事件数据和关系数据进行故障定位。
在本发明的一个可选实施例中,所述根据所述事件数据和所述关系数据进行故障定位,可以包括:如果所述事件主体为主机,则根据所述事件主体拓扑图搜索主机或系统事件得到第一搜索结果,根据所述事件主体拓扑图和所述第一搜索结果搜索进程级别的事件作为目标事件;如果所述事件主体为进程,则根据所述事件主体拓扑图纵向搜索主机事件得到第二搜索结果,根据所述事件主体拓扑图和所述第二搜索结果横向搜索被调用进程的事件得到第三搜索结果,根据所述事件主体拓扑图和所述第三搜索结果递归搜索所述被调用进程对应的主机或者下一级进程的事件作为所述目标事件;如果所述事件主体为业务,则根据所述事件主体拓扑图纵向搜索进程和主机事件得到第四搜索结果,根据所述事件主体拓扑图和所述第四搜索结果横向搜索被调用业务的事件得到第五搜索结果,根据所述事件主体拓扑图和所述第五搜索结果递归搜索被调用业务垂直方向的事件和下一级被调用业务事件作为所述目标事件;根据各所述目标事件之间的关联度构建事件关联拓扑图,并根据所述事件关联拓扑图定位故障。
其中,第一搜索结果可以是以主机作为事件主体并进行主机或系统事件搜索得到的搜索结果。第二搜索结果可以是以进程为事件主体并进行主机事件搜索得到的搜索结果。第三搜索结果可以是以第二搜索结果为依据,并进行进程事件搜索得到的搜索结果。第四搜索结果可以是以业务为事件主体并进行进程和主机事件搜索得到的搜索结果。第五搜索结果可以是以第四搜索结果为依据,并进行业务事件搜索得到的搜索结果。目标事件即为与IT系统故障事件。事件关联拓扑图可以是体现事件之间关联关系的拓扑树。
具体的,在根据事件数据和关系数据进行故障定位时,可以根据事件主体为主机、进程和业务三个层次展开分析。相应的,如果事件主体为主机,则先根据事件主体拓扑图搜索主机或系统级别的事件,如系统软件升级或CPU升高等,再根据搜索结果以及事件主体拓扑图进一步搜索进程级别的事件,如某个进程CPU占用大或网络流量突然增大。如果事件主体是进程,则先根据事件主体拓扑图纵向搜索垂直方向上的主机事件,再根据搜索结果以及事件主体拓扑图横向搜索被调用进程的事件,再根据搜索结果以及事件主体拓扑图依次递归搜索被调用进程所在的主机或者下一级进程的事件。如果事件主体是业务,则先根据事件主体拓扑图纵向搜索垂直方向的进程和主机事件,再根据搜索结果以及事件主体拓扑图横向搜索被调用业务的事件,最后根据搜索结果以及事件主体拓扑图递归搜索被调用业务垂直方向的事件和下一级被调用业务事件。在确定各目标事件后,可以根据各目标事件之间的关联度构建事件关联拓扑图,从而根据构建的事件关联拓扑图定位故障。
在本发明的一个可选实施例中,所述根据各所述目标事件之间的关联度构建事件关联拓扑图,可以包括:如果至少两个所述目标事件之间的关联度满足预设关联条件,则确定至少两个所述目标事件相关联;将相关联的所述目标事件根据所述事件主体拓扑图构建所述事件关联拓扑图。可选的,各所述目标事件之间的关联度通过事件发生的时间范围和/或性能指标数据的相关性确定。
其中,预设关联条件可以是判断两个目标事件之间是否相关联的条件。例如,预设关联条件可以是两个目标事件之间的关联度指数达到设定阈值。其中,设定阈值可以根据实际需求设定。
在本发明实施例中,可以按照事件主体拓扑图搜索定位目标事件,并根据事件发生的时间范围和/或性能指标数据的相关性等角度判定两个目标事件的关联度,进而根据关联度确定目标事件是否相关联。例如,如果根据事件发生的时间范围和/或性能指标数据的相关性得到的两个事件之间的关联度指数较高,达到了设定阈值,则认为两个事件之间是相关联的。其中,关联度指数的计算可以通过多种方式实现,例如,通过专业的数据分析工具Power BI(Power Business Intelligence,商业智能增强版),或者通过关联度计算函数等计算目标事件之间的关联度指数。本发明实施例并不对关联度指数的具体计算方式进行限定。相应的,可以将相关联的目标事件在事件主体拓扑图上对应标识,形成事件关联拓扑图,从而将相关联的目标事件根据拓扑关系展示出来。
图1d是本发明实施例一提供的一种事件关联拓扑图的效果示意图。在一个具体的例子中,如图1d所示,假设事件1作为其中一个目标事件,事件1对应的事件主体为业务A,根据事件1先搜索垂直方向的进程和主机事件,再横向搜索被调用业务的事件。最后递归搜索被调用业务垂直方向的事件和下一级被调用业务事件,得到事件2以及事件3两个相关联的目标事件。根据图1d所示的事件关联拓扑图中体现的各目标事件对应的事件主体之间的关联关系,可以分析得到IT系统中数据库或进程B出现了故障。
本发明实施例通过获取各事件主体的事件数据以及事件主体的关系数据,以根据事件数据和关系数据进行故障定位,解决现有故障定位方法存在的适用性和通用性较差的问题,以快速定位系统故障,并提高故障定位方法的通用性和适用性。
实施例二
图2是本发明实施例二提供的一种故障定位装置的示意图,如图2所示,所述装置包括:数据获取模块210以及故障定位模块230,其中:
数据获取模块210,用于获取各事件主体的事件数据以及所述事件主体的关系数据,其中,所述事件主体包括主机、进程和业务中的至少一项;所述事件主体的关系数据包括各所述事件主体的信息数据以及所述事件主体之间的关联关系数据;
故障定位模块220,用于根据所述事件数据和所述关系数据进行故障定位。
本发明实施例通过获取各事件主体的事件数据以及事件主体的关系数据,以根据事件数据和关系数据进行故障定位,解决现有故障定位方法存在的适用性和通用性较差的问题,以快速定位系统故障,并提高故障定位方法的通用性和适用性。
可选的,数据获取模块210,包括:第一数据获取单元,用于获取内置探针收集的所述事件数据;获取所述内置探针收集的性能指标数据,利用预设检测算法对所述性能指标数据进行异常检测,并根据检测结果和所述事件主体的关系数据生成所述事件数据;或,获取第三方对象上报的事件数据;第二数据获取单元,用于获取所述内置探针收集的所述事件主体的关系数据。
可选的,所述装置还包括:拓扑图获取模块,用于根据所述关系数据构建事件主体拓扑图。
可选的,故障定位模块220,具体用于如果所述事件主体为主机,则根据所述事件主体拓扑图搜索主机或系统事件得到第一搜索结果,根据所述事件主体拓扑图和所述第一搜索结果搜索进程级别的事件作为目标事件;
如果所述事件主体为进程,则根据所述事件主体拓扑图纵向搜索主机事件得到第二搜索结果,根据所述事件主体拓扑图和所述第二搜索结果横向搜索被调用进程的事件得到第三搜索结果,根据所述事件主体拓扑图和所述第三搜索结果递归搜索所述被调用进程对应的主机或者下一级进程的事件作为所述目标事件;
如果所述事件主体为业务,则根据所述事件主体拓扑图纵向搜索进程和主机事件得到第四搜索结果,根据所述事件主体拓扑图和所述第四搜索结果横向搜索被调用业务的事件得到第五搜索结果,根据所述事件主体拓扑图和所述第五搜索结果递归搜索被调用业务垂直方向的事件和下一级被调用业务事件作为所述目标事件;
根据各所述目标事件之间的关联度构建事件关联拓扑图,并根据所述事件关联拓扑图定位故障。
可选的,故障定位模块220,具体用于如果至少两个所述目标事件之间的关联度满足预设关联条件,则确定至少两个所述目标事件相关联;将相关联的所述目标事件根据所述事件主体拓扑图构建所述事件关联拓扑图。
可选的,各所述目标事件之间的关联度通过事件发生的时间范围和/或性能指标数据的相关性确定。
可选的,所述关系数据包括下述至少一项:进程与主机的依赖关系;进程与进程的调用关系;业务与进程的依赖关系;业务与业务的调用关系;以及,业务与外部进程的调用关系。
上述故障定位装置可执行本发明任意实施例所提供的故障定位方法,具备执行方法相应的功能模块和有益效果。未在本实施例中详尽描述的技术细节,可参见本发明任意实施例提供的故障定位方法。
由于上述所介绍的故障定位装置为可以执行本发明实施例中的故障定位方法的装置,故而基于本发明实施例中所介绍的故障定位方法,本领域所属技术人员能够了解本实施例的故障定位装置的具体实施方式以及其各种变化形式,所以在此对于该故障定位装置如何实现本发明实施例中的故障定位方法不再详细介绍。只要本领域所属技术人员实施本发明实施例中故障定位方法所采用的装置,都属于本申请所欲保护的范围。
实施例三
图3为本发明实施例三提供的一种计算机设备的结构示意图。图3示出了适于用来实现本发明实施方式的计算机设备312的框图。图3显示的计算机设备312仅仅是一个示例,不应对本发明实施例的功能和使用范围带来任何限制。计算机设备312典型的是承担服务器功能的计算设备。
如图3所示,计算机设备312以通用计算设备的形式表现。计算机设备312的组件可以包括但不限于:一个或者多个处理器316,存储装置328,连接不同系统组件(包括存储装置328和处理器316)的总线318。
总线318表示几类总线结构中的一种或多种,包括存储器总线或者存储器控制器,外围总线,图形加速端口,处理器或者使用多种总线结构中的任意总线结构的局域总线。举例来说,这些体系结构包括但不限于工业标准体系结构(Industry StandardArchitecture,ISA)总线,微通道体系结构(Micro Channel Architecture,MCA)总线,增强型ISA总线、视频电子标准协会(Video Electronics Standards Association,VESA)局域总线以及外围组件互连(Peripheral Component Interconnect,PCI)总线。
计算机设备312典型地包括多种计算机系统可读介质。这些介质可以是任何能够被计算机设备312访问的可用介质,包括易失性和非易失性介质,可移动的和不可移动的介质。
存储装置328可以包括易失性存储器形式的计算机系统可读介质,例如随机存取存储器(Random Access Memory,RAM)630和/或高速缓存存储器632。计算机设备312可以进一步包括其它可移动/不可移动的、易失性/非易失性计算机系统存储介质。仅作为举例,存储系统634可以用于读写不可移动的、非易失性磁介质(图3未显示,通常称为“硬盘驱动器”)。尽管图3中未示出,可以提供用于对可移动非易失性磁盘(例如“软盘”)读写的磁盘驱动器,以及对可移动非易失性光盘(例如只读光盘(Compact Disc-Read Only Memory,CD-ROM)、数字视盘(Digital Video Disc-Read Only Memory,DVD-ROM)或者其它光介质)读写的光盘驱动器。在这些情况下,每个驱动器可以通过一个或者多个数据介质接口与总线318相连。存储装置328可以包括至少一个程序产品,该程序产品具有一组(例如至少一个)程序模块,这些程序模块被配置以执行本发明各实施例的功能。
具有一组(至少一个)程序模块326的程序636,可以存储在例如存储装置328中,这样的程序模块326包括但不限于操作系统、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。程序模块326通常执行本发明所描述的实施例中的功能和/或方法。
计算机设备312也可以与一个或多个外部设备314(例如键盘、指向设备、摄像头、显示器324等)通信,还可与一个或者多个使得用户能与该计算机设备312交互的设备通信,和/或与使得该计算机设备312能与一个或多个其它计算设备进行通信的任何设备(例如网卡,调制解调器等等)通信。这种通信可以通过输入/输出(Input/Output,I/O)接口322进行。并且,计算机设备312还可以通过网络适配器320与一个或者多个网络(例如局域网(Local Area Network,LAN),广域网Wide Area Network,WAN)和/或公共网络,例如因特网)通信。如图所示,网络适配器320通过总线318与计算机设备312的其它模块通信。应当明白,尽管图中未示出,可以结合计算机设备312使用其它硬件和/或软件模块,包括但不限于:微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、磁盘阵列(Redundant Arraysof Independent Disks,RAID)系统、磁带驱动器以及数据备份存储系统等。
处理器316通过运行存储在存储装置328中的程序,从而执行各种功能应用以及数据处理,例如实现本发明上述实施例所提供的故障定位方法。
也即,所述处理单元执行所述程序时实现:获取各事件主体的事件数据以及所述事件主体的关系数据,其中,所述事件主体包括主机、进程和业务中的至少一项;所述事件主体的关系数据包括各所述事件主体的信息数据以及所述事件主体之间的关联关系数据;根据所述事件数据和所述关系数据进行故障定位。
实施例四
本发明实施例四还提供一种存储计算机程序的计算机存储介质,所述计算机程序在由计算机处理器执行时用于执行本发明上述实施例任一所述的故障定位方法:获取各事件主体的事件数据以及所述事件主体的关系数据,其中,所述事件主体包括主机、进程和业务中的至少一项;所述事件主体的关系数据包括各所述事件主体的信息数据以及所述事件主体之间的关联关系数据;根据所述事件数据和所述关系数据进行故障定位。
本发明实施例的计算机存储介质,可以采用一个或多个计算机可读的介质的任意组合。计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(RAM)、只读存储器(Read Only Memory,ROM)、可擦式可编程只读存储器((Erasable Programmable ReadOnly Memory,EPROM)或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本文件中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。
计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。
计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括——但不限于无线、电线、光缆、射频(Radio Frequency,RF)等等,或者上述的任意合适的组合。
可以以一种或多种程序设计语言或其组合来编写用于执行本发明操作的计算机程序代码,所述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++,还包括常规的过程式程序设计语言——诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。
注意,上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解,本发明不限于这里所述的特定实施例,对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此,虽然通过以上实施例对本发明进行了较为详细的说明,但是本发明不仅仅限于以上实施例,在不脱离本发明构思的情况下,还可以包括更多其他等效实施例,而本发明的范围由所附的权利要求范围决定。

Claims (10)

1.一种故障定位方法,其特征在于,包括:
获取各事件主体的事件数据以及所述事件主体的关系数据,其中,所述事件主体包括主机、进程和业务中的至少一项;所述事件主体的关系数据包括各所述事件主体的信息数据以及所述事件主体之间的关联关系数据;
根据所述事件数据和所述关系数据进行故障定位。
2.根据权利要求1所述的方法,其特征在于,获取各事件主体的事件数据,包括下述至少一项:
获取内置探针收集的所述事件数据;
获取所述内置探针收集的性能指标数据,利用预设检测算法对所述性能指标数据进行异常检测,并根据检测结果和所述事件主体的关系数据生成所述事件数据;或
获取第三方对象上报的事件数据;
获取事件主体的关系数据,包括:
获取所述内置探针收集的所述事件主体的关系数据。
3.根据权利要求2所述的方法,其特征在于,在获取事件主体的关系数据之后,包括:
根据所述关系数据构建事件主体拓扑图。
4.根据权利要求3所述的方法,其特征在于,所述根据所述事件数据和所述关系数据进行故障定位,包括:
如果所述事件主体为主机,则根据所述事件主体拓扑图搜索主机或系统事件得到第一搜索结果,根据所述事件主体拓扑图和所述第一搜索结果搜索进程级别的事件作为目标事件;
如果所述事件主体为进程,则根据所述事件主体拓扑图纵向搜索主机事件得到第二搜索结果,根据所述事件主体拓扑图和所述第二搜索结果横向搜索被调用进程的事件得到第三搜索结果,根据所述事件主体拓扑图和所述第三搜索结果递归搜索所述被调用进程对应的主机或者下一级进程的事件作为所述目标事件;
如果所述事件主体为业务,则根据所述事件主体拓扑图纵向搜索进程和主机事件得到第四搜索结果,根据所述事件主体拓扑图和所述第四搜索结果横向搜索被调用业务的事件得到第五搜索结果,根据所述事件主体拓扑图和所述第五搜索结果递归搜索被调用业务垂直方向的事件和下一级被调用业务事件作为所述目标事件;
根据各所述目标事件之间的关联度构建事件关联拓扑图,并根据所述事件关联拓扑图定位故障。
5.根据权利要求4所述的方法,其特征在于,所述根据各所述目标事件之间的关联度构建事件关联拓扑图,包括:
如果至少两个所述目标事件之间的关联度满足预设关联条件,则确定至少两个所述目标事件相关联;
将相关联的所述目标事件根据所述事件主体拓扑图构建所述事件关联拓扑图。
6.根据权利要求5所述的方法,其特征在于,各所述目标事件之间的关联度通过事件发生的时间范围和/或性能指标数据的相关性确定。
7.根据权利要求1-6任一所述的方法,其特征在于,所述关系数据包括下述至少一项:
进程与主机的依赖关系;
进程与进程的调用关系;
业务与进程的依赖关系;
业务与业务的调用关系;以及
业务与外部进程的调用关系。
8.一种故障定位装置,其特征在于,包括:
数据获取模块,用于获取各事件主体的事件数据以及所述事件主体的关系数据,其中,所述事件主体包括主机、进程和业务中的至少一项;所述事件主体的关系数据包括各所述事件主体的信息数据以及所述事件主体之间的关联关系数据;
故障定位模块,用于根据所述事件数据和所述关系数据进行故障定位。
9.一种计算机设备,其特征在于,所述设备包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序;
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如权利要求1-7中任一所述的故障定位方法。
10.一种计算机存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1-7中任一所述的故障定位方法。
CN201910797230.8A 2019-08-27 2019-08-27 一种故障定位方法、装置、计算机设备及存储介质 Active CN110515758B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910797230.8A CN110515758B (zh) 2019-08-27 2019-08-27 一种故障定位方法、装置、计算机设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910797230.8A CN110515758B (zh) 2019-08-27 2019-08-27 一种故障定位方法、装置、计算机设备及存储介质

Publications (2)

Publication Number Publication Date
CN110515758A true CN110515758A (zh) 2019-11-29
CN110515758B CN110515758B (zh) 2023-03-31

Family

ID=68627201

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910797230.8A Active CN110515758B (zh) 2019-08-27 2019-08-27 一种故障定位方法、装置、计算机设备及存储介质

Country Status (1)

Country Link
CN (1) CN110515758B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112416645A (zh) * 2020-12-03 2021-02-26 广州云岫信息科技有限公司 一种基于人工智能的故障根因推断定位方法及装置
WO2021109874A1 (zh) * 2019-12-03 2021-06-10 中兴通讯股份有限公司 拓扑图生成方法、异常检测方法、装置、设备及存储介质
CN116112339A (zh) * 2022-12-29 2023-05-12 北京博睿宏远数据科技股份有限公司 一种根因告警的定位方法、装置、设备及介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20110191630A1 (en) * 2010-01-29 2011-08-04 International Business Machines Corporation Diagnosing a fault incident in a data center
CN108197016A (zh) * 2018-01-11 2018-06-22 上海有云信息技术有限公司 一种云平台故障原因分析方法、装置、设备及存储介质
CN109343987A (zh) * 2018-08-20 2019-02-15 科大国创软件股份有限公司 It系统故障诊断及修复方法、装置、设备、存储介质
CN109787816A (zh) * 2018-12-28 2019-05-21 北京奇安信科技有限公司 业务故障定位方法、装置、设备及介质
CN110147387A (zh) * 2019-05-08 2019-08-20 腾讯科技(上海)有限公司 一种根因分析方法、装置、设备及存储介质

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20110191630A1 (en) * 2010-01-29 2011-08-04 International Business Machines Corporation Diagnosing a fault incident in a data center
CN108197016A (zh) * 2018-01-11 2018-06-22 上海有云信息技术有限公司 一种云平台故障原因分析方法、装置、设备及存储介质
CN109343987A (zh) * 2018-08-20 2019-02-15 科大国创软件股份有限公司 It系统故障诊断及修复方法、装置、设备、存储介质
CN109787816A (zh) * 2018-12-28 2019-05-21 北京奇安信科技有限公司 业务故障定位方法、装置、设备及介质
CN110147387A (zh) * 2019-05-08 2019-08-20 腾讯科技(上海)有限公司 一种根因分析方法、装置、设备及存储介质

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2021109874A1 (zh) * 2019-12-03 2021-06-10 中兴通讯股份有限公司 拓扑图生成方法、异常检测方法、装置、设备及存储介质
US11797360B2 (en) 2019-12-03 2023-10-24 Zte Corporation Method for generating topology diagram, anomaly detection method, device, apparatus, and storage medium
CN112416645A (zh) * 2020-12-03 2021-02-26 广州云岫信息科技有限公司 一种基于人工智能的故障根因推断定位方法及装置
CN116112339A (zh) * 2022-12-29 2023-05-12 北京博睿宏远数据科技股份有限公司 一种根因告警的定位方法、装置、设备及介质

Also Published As

Publication number Publication date
CN110515758B (zh) 2023-03-31

Similar Documents

Publication Publication Date Title
CN107248927B (zh) 故障定位模型的生成方法、故障定位方法和装置
CN110515758A (zh) 一种故障定位方法、装置、计算机设备及存储介质
JP6756079B2 (ja) 人工知能に基づく三元組チェック方法、装置及びコンピュータプログラム
US8806277B1 (en) Systems and methods for fetching troubleshooting data
CN109144852A (zh) 静态代码的扫描方法、装置、计算机设备及存储介质
CN109271358A (zh) 数据汇总方法、查询方法、装置、设备及存储介质
CN109933269A (zh) 小程序推荐的方法、设备和计算机存储介质
CN114363144B (zh) 一种面向分布式系统的故障信息关联上报方法及相关设备
KR20230007268A (ko) 임무 처리 방법, 임무 처리 장치, 전자 기기, 저장 매체 및 컴퓨터 프로그램
CN115827436A (zh) 数据处理方法、装置、设备及存储介质
CN108647284B (zh) 记录用户行为的方法及装置、介质和计算设备
CN110175128A (zh) 一种相似代码案例获取方法、装置、设备和存储介质
CN114257493A (zh) 网络节点的故障预警方法、装置、介质及电子设备
CN113934758A (zh) 车辆故障修复方法、装置、车载终端、服务器及存储介质
CN111538659B (zh) 业务场景的接口测试方法、系统、电子设备和存储介质
CN115022201B (zh) 一种数据处理功能测试方法、装置、设备及存储介质
CN109344050B (zh) 一种基于结构树的接口参数分析方法及装置
CN106528411A (zh) 覆盖率检测方法、装置和设备
US20230025081A1 (en) Model training method, failure determining method, electronic device, and program product
CN115328891A (zh) 数据迁移方法、装置、存储介质及电子设备
CN112380127B (zh) 测试用例回归方法、装置、设备和存储介质
US20210073580A1 (en) Method and apparatus for obtaining product training images, and non-transitory computer-readable storage medium
CN110085237B (zh) 交互过程的恢复方法、装置及设备
CN110750569A (zh) 数据提取方法、装置、设备及存储介质
CN110704222A (zh) 转储文件的分析方法及装置、存储介质、电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant