CN108009040A - 一种确定故障根因的方法、系统和计算机可读存储介质 - Google Patents

一种确定故障根因的方法、系统和计算机可读存储介质 Download PDF

Info

Publication number
CN108009040A
CN108009040A CN201711321492.4A CN201711321492A CN108009040A CN 108009040 A CN108009040 A CN 108009040A CN 201711321492 A CN201711321492 A CN 201711321492A CN 108009040 A CN108009040 A CN 108009040A
Authority
CN
China
Prior art keywords
index
association
fault
indices
degree
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201711321492.4A
Other languages
English (en)
Other versions
CN108009040B (zh
Inventor
刘兵
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
HANGZHOU SHIQU INFORMATION TECHNOLOGY Co Ltd
Original Assignee
HANGZHOU SHIQU INFORMATION TECHNOLOGY Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by HANGZHOU SHIQU INFORMATION TECHNOLOGY Co Ltd filed Critical HANGZHOU SHIQU INFORMATION TECHNOLOGY Co Ltd
Priority to CN201711321492.4A priority Critical patent/CN108009040B/zh
Publication of CN108009040A publication Critical patent/CN108009040A/zh
Application granted granted Critical
Publication of CN108009040B publication Critical patent/CN108009040B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0766Error or fault reporting or storing
    • G06F11/0775Content or structure details of the error report, e.g. specific table structure, specific error fields
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/079Root cause analysis, i.e. error or fault diagnosis

Abstract

本发明实施例公开了一种确定故障根因的方法、系统和计算机可读存储介质,从多时序关联、数据流关联和事件关联三个维度对故障源信息进行分析,获取第一故障指标的异常指标集合;利用皮尔森‑灰色关联组合法,计算第一故障指标分别与其对应的异常指标集合中的各个异常指标之间的关联度;将满足预设阈值的关联度对应的异常指标作为关联结果集合;查询预先建立的故障诊断集合,获取第一故障指标对应的历史诊断结果集合;计算关联结果集合与历史诊断结果集合的交集,所述交集中包含的指标即为第一故障指标的故障根因。依据该技术方案实现了在电商系统中自动化、智能化地挖掘和定位故障产生的根因,有效提高开发和运维人员解决问题的速度。

Description

一种确定故障根因的方法、系统和计算机可读存储介质
技术领域
本发明涉及故障分析技术领域,特别是涉及一种确定故障根因的方法、系统和计算机可读存储介质。
背景技术
随着业务和监控规模的膨胀,电商系统监控指标日益增长。与此同时,当监控指标出现故障时,开发和运维工程师们很难从海量监控指标中迅速找到故障根因。“报警风暴”极大地干扰了工程师定位问题的思路;故障恢复速度基本依赖于工程师的经验和操作速度。当前,业界主要通过监控系统对电商系统进行实时监控采集、异常检测和故障报警。
面对复杂的业务监控和问题诊断,开发和运维人员排查具体问题主要是依靠个人经验,依据业务调用链路,逐层排查,继而进行因果关系推导,最终定位故障。该方法通过人工排查,效率低下,分析和定位故障原因耗时较长,对于隐藏较深的故障根因更是难以挖掘。
一个完整的监控闭环应包括:监控采集、异常检测、故障报警、问题定位和自动解决,业界监控系统精力主要集中在异常检测和故障报警,对电商系统中的故障分析和定位,尚缺乏一套完整的方法和系统。
可见,如何实现对电商系统中故障的分析和定位,是本领域技术人员亟待解决的问题。
发明内容
本发明实施例的目的是提供一种确定故障根因的方法、系统和计算机可读存储介质,可以实现对电商系统中故障的分析和定位。
为解决上述技术问题,本发明实施例提供一种确定故障根因的方法,包括:
从多时序关联、数据流关联和事件关联三个维度对故障源信息进行分析,获取第一故障指标的第一异常指标集合;
利用皮尔森-灰色关联组合法,计算所述第一故障指标分别与所述第一异常指标集合中的各个异常指标之间的关联度;
将满足预设阈值的关联度对应的异常指标作为关联结果集合;
查询预先建立的故障诊断集合,获取所述第一故障指标对应的历史诊断结果集合;
计算所述关联结果集合与所述历史诊断结果集合的交集,并将所述交集中包含的指标作为所述第一故障指标的故障根因。
可选的,所述故障诊断集合的建立过程包括:
获取包括有多个故障指标的故障源信息;
从多时序关联、数据流关联和事件关联三个维度对所述故障源信息进行分析,确定各个所述故障指标对应的异常指标集合;
利用皮尔森-灰色关联组合法,计算第二故障指标和第二异常指标集合中的各个异常指标之间的关联度,并依据所述关联度,获取第二故障指标的关联结果集合;其中,所述第二故障指标为各个所述故障指标中的任意一项故障指标;所述第二异常指标集合为所述第二故障指标对应的异常指标集合;
依据所述关联结果集合以及接收到的反馈信息,生成关联结果表;
利用频繁项集挖掘算法对所述关联结果表以及接收到的标注信息进行处理,建立故障诊断集合。
可选的,所述利用皮尔森-灰色关联组合法,计算第二故障指标和第二异常指标集合中的各个异常指标之间的关联度,并依据所述关联度,获取第二故障指标的关联结果集合包括:
依据预先设定的标准化模式,对所述第二故障指标以及所述第二异常指标集合中各异常指标各自对应的数据进行标准化处理,获取第二故障指标在每种标准化模式下对应的标准化数据;
利用皮尔森-灰色关联组合法,对所述标准化数据进行关联度计算,得到所述第二故障指标在每种标准化模式下各自对应的关联度集合;
从第一标准化模式对应的关联度集合中筛选出满足所述预设阈值的关联度,并将所述关联度对应的异常指标作为所述第一标准化模式对应的关联结果集合;其中,所述第一标准化模式为所有所述标准化模式中的任意一种标准化模式;
计算所有所述标准化模式对应的关联结果集合的交集,并将所述交集作为所述第二故障指标的关联结果集合。
可选的,所述查询预先建立的故障诊断集合,获取所述第一故障指标对应的历史诊断结果集合包括:
判断所述故障诊断集合中是否存在所述第一故障指标;
若是,则获取所述第一故障指标对应的故障诊断树;
依据链路id遍历所述故障诊断树,获取所述第一故障指标对应的父节点;并将所述父节点对应的故障指标作为所述第一故障指标对应的历史诊断结果集合。
可选的,还包括:
计算所述关联结果集合与所述历史诊断结果集合的差集,并将所述差集中包含的指标作为所述第一故障指标的疑似根因。
本发明实施例还提供了一种确定故障根因的系统,包括获取单元、第一计算单元、查询单元和第二计算单元;
所述获取单元,用于从多时序关联、数据流关联和事件关联三个维度对故障源信息进行分析,获取第一故障指标的第一异常指标集合;
所述第一计算单元,用于利用皮尔森-灰色关联组合法,计算所述第一故障指标分别与所述第一异常指标集合中的各个异常指标之间的关联度;并将满足预设阈值的关联度对应的异常指标作为关联结果集合;
所述查询单元,用于查询预先建立的故障诊断集合,获取所述第一故障指标对应的历史诊断结果集合;
所述第二计算单元,用于计算所述关联结果集合与所述历史诊断结果集合的交集,并将所述交集中包含的指标作为所述第一故障指标的故障根因。
可选的,针对所述故障诊断集合的建立过程,所述系统还包括生成单元和建立单元;
所述获取单元还用于获取包括有多个故障指标的故障源信息;并从多时序关联、数据流关联和事件关联三个维度对所述故障源信息进行分析,确定各个所述故障指标对应的异常指标集合;
所述第一计算单元还用于利用皮尔森-灰色关联组合法,计算第二故障指标和第二异常指标集合中的各个异常指标之间的关联度,并依据所述关联度,获取第二故障指标的关联结果集合;其中,所述第二故障指标为各个所述故障指标中的任意一项故障指标;所述第二异常指标集合为所述第二故障指标对应的异常指标集合;
所述生成单元,用于依据所述关联结果集合以及接收到的反馈信息,生成关联结果表;
所述建立单元,用于利用频繁项集挖掘算法对所述关联结果表以及接收到的标注信息进行处理,建立故障诊断集合。
可选的,所述第一计算单元包括处理子单元、得到子单元、筛选子单元和作为子单元;
所述处理子单元,用于依据预先设定的标准化模式,对所述第二故障指标以及所述第二异常指标集合中各异常指标各自对应的数据进行标准化处理,获取第二故障指标在每种标准化模式下对应的标准化数据;
所述得到子单元,用于利用皮尔森-灰色关联组合法,对所述标准化数据进行关联度计算,得到所述第二故障指标在每种标准化模式下各自对应的关联度集合;
所述筛选子单元,用于从第一标准化模式对应的关联度集合中筛选出满足所述预设阈值的关联度,并将所述关联度对应的异常指标作为所述第一标准化模式对应的关联结果集合;其中,所述第一标准化模式为所有所述标准化模式中的任意一种标准化模式;
所述作为子单元,用于计算所有所述标准化模式对应的关联结果集合的交集,并将所述交集作为所述第二故障指标的关联结果集合。
可选的,所述查询单元包括判断子单元、获取子单元和作为子单元;
所述判断子单元,用于判断所述故障诊断集合中是否存在所述第一故障指标;
若是,则触发所述获取子单元,所述获取子单元,用于获取所述第一故障指标对应的故障诊断树;并依据链路id遍历所述故障诊断树,获取所述第一故障指标对应的父节点;
所述作为子单元,用于将所述父节点对应的故障指标作为所述第一故障指标对应的历史诊断结果集合。
可选的,还包括第三计算单元;所述第三计算单元,用于计算所述关联结果集合与所述历史诊断结果集合的差集,并将所述差集中包含的指标作为所述第一故障指标的疑似根因。
本发明实施例还提供了一种确定故障根因的系统,包括:
存储器,用于存储计算机程序;
处理器,用于执行所述计算机程序以实现如上述确定故障根因的方法的步骤。
本发明实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如上述确定故障根因的方法的步骤。
由上述技术方案可以看出,从多时序关联、数据流关联和事件关联三个维度对故障源信息进行分析,获取第一故障指标的第一异常指标集合;利用皮尔森-灰色关联组合法,计算第一故障指标分别与其对应的第一异常指标集合中的各个异常指标之间的关联度;并将满足预设阈值的关联度对应的异常指标作为关联结果集合,该关联结果集中包含有与第一故障指标具有较强关联关系的异常指标。查询预先建立的故障诊断集合,获取第一故障指标对应的历史诊断结果集合,该历史诊断结果集中包括有造成第一故障指标产生的故障指标,计算所述关联结果集合与所述历史诊断结果集合的交集,所述交集中包含的指标即为所述第一故障指标的故障根因。依据该技术方案实现了在电商系统中自动化、智能化地挖掘和定位故障产生的根因,有效提高开发和运维人员解决问题的速度。
附图说明
为了更清楚地说明本发明实施例,下面将对实施例中所需要使用的附图做简单的介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的一种确定故障根因的方法的流程图;
图2为本发明实施例提供的一种故障源的分类示意图;
图3为本发明实施例提供的一种数据流的示意图;
图4为本发明实施例提供的一种故障诊断集合的建立过程的流程图;
图5为本发明实施例提供的一种故障诊断树中每个节点的存储结构的示意图;
图6为本发明实施例提供的一种确定第二故障指标的关联结果集合的方法的流程图;
图7为本发明实施例提供的一种确定故障根因的系统的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下,所获得的所有其他实施例,都属于本发明保护范围。
为了使本技术领域的人员更好地理解本发明方案,下面结合附图和具体实施方式对本发明作进一步的详细说明。
接下来,详细介绍本发明实施例所提供的一种确定故障根因的方法。图1为本发明实施例提供的一种确定故障根因的方法的流程图,该方法包括:
S101:从多时序关联、数据流关联和事件关联三个维度对故障源信息进行分析,获取第一故障指标的第一异常指标集合。
故障源即根因分析系统的输入源,以电商系统为例,线上故障的产生可以分为两大类,一是业务自身监控指标的异常,二是运维事件变更导致的异常。其中,业务自身监控指标又可细分为业务自定义监控指标和基础服务器监控指标,运维事件变更可细分为发布变更事件和工单变更事件等,故障源的分类如图2所示。
其中,自定义监控可以包括业务方自定义的每秒响应请求数(query per second,qps)、一个请求从发起到返回的响应时间(return time,rt)、指标错误数(error)等数值指标;基础监控包括服务器业务运行程序占用的CPU资源(cpu)、业务的负载(load)、业务磁盘使用情况(disk)等监控指标。
电商系统中,故障的产生并不是一个孤立事件,一个故障的产生常常伴随链路上或是周边系统其它故障的产生。产生的故障都有其对应的故障信息,在本发明实施例中,可以用故障指标来区分不同的故障,例如,故障指标:C_User_Index_1,表示应用C的自定义监控中的指标1出现故障,故障指标中第一个前缀标识应用名;第二个前缀标识故障类型,User代表自定义监控;第三个前缀Index代表具体的故障指标,例如,cpu、load、disk等;第四个前缀为故障指标的序号。
故障源信息中包含有多个故障指标,在本发明实施例中,可以将与某一故障指标具有关联关系的指标称作异常指标。考虑到异常指标的个数往往有多个,可以以集合的形式存储与该故障指标具有关联关系的所有异常指标,该集合即为异常指标集合。以多个故障指标中的任意一个故障指标即第一故障指标为例,可以将其对应的异常指标集合称作第一异常指标集合。
在本发明实施例中,主要从多时序关联、数据流关联和事件关联三个维度对故障源信息进行分析,确定各故障指标之间的关联关系。
其中,多时序关联即同一时刻发生的故障之间的关联关系,当某服务qps下跌的时候,该服务的rt和error会因此上升,并且这三个故障产生的报警时间相同。例如,同一时刻产生了qps、rt和error三个故障,依据多时序关联,可以确定出rt和error均与qps具有关联关系。
数据流关联即确定服务调用链路上时间相近的故障之间的关联关系,其中,数据流可以通过全链路调用系统获取,如图3所示,当核心服务A发生故障时,依赖A的下游业务B、C、D、E、F均可能产生异常,由于故障所属的业务之间存在固定的上下游链路调用关系,并且报警产生时间小于10秒(s),因为一个链路上的调用最长超时时间设置为10s,因此链路上存在故障产生,时间差不会大于10s。以图3为例,业务A和业务B均发生故障,并且故障发生的时间差小于10s,根据数据流关联,可以确定出业务A和业务B具有关联关系。
事件关联即确定故障是否与部署升级或是服务器状态变更等发布变更事件和工单变更事件具有关联,系统通过发布系统和工单系统获取数据,故障产生的报警时间与发布变更和工单变更时间不超过5分钟。
S102:利用皮尔森-灰色关联组合法,计算所述第一故障指标分别与所述第一异常指标集合中的各个异常指标之间的关联度。
关联度是事物之间、因素之间关联性大小的量度。它定量地描述了事物或因素之间相互变化的情况。如果事物或因素变化的态势基本一致,则可以认为它们之间的关联度较大,反之,关联度较小。业界中,计算关联度的主流方法有夹角余弦法、皮尔森相关系数等,这类算法主要对线性相关有效,无法计算非线性相关的两类数据。
本发明实施例在关联度计算模块中,创新定义了皮尔森-灰色关联组合法,线性相关的计算采用皮尔森相关系数(Pearson Correlation Coefficient)进行计算,非线性相关采用灰色关联分析(Grey Relational Analysis)进行计算。
S103:将满足预设阈值的关联度对应的异常指标作为关联结果集合。
预设阈值用于表示关联度的上限值,预设阈值的具体取值可以根据实际需求设定,在此不做限定,例如,可以将预设阈值设定为0.9。
以第一故障指标为例,当第一故障指标与第一异常指标集合中的某一异常指标的关联度超过该预设阈值,则说明该异常指标与第一故障指标具有较强的关联关系。关联结果集合中包括有与第一故障指标具有较强关联关系的所有异常指标。
S104:查询预先建立的故障诊断集合,获取所述第一故障指标对应的历史诊断结果集合。
故障诊断集合可以依据获取的历史故障源信息建立,在故障诊断集合中存储有具有较强关联关系的故障指标,并且记录了这些故障指标之间的因果关系。故障诊断集合的具体建立过程可以参看图4所示的步骤,在此不再赘述。
在本发明实施例中,通过查询故障诊断集合,可以获取第一故障指标对应的历史诊断结果集合。其中,该历史诊断结果集合中包括了与第一故障指标具有较强关联关系的各异常指标,并且记录了第一故障指标与这些异常指标之间的因果关系。
在具体实现中,可以判断所述故障诊断集合中是否存在第一故障指标;当故障诊断集合中存在第一故障指标时,则说明该故障诊断集合中记录了与第一故障指标具有因果关系的异常指标,在故障诊断集合中以故障诊断树的形式存储第一故障指标及其对应的异常指标,也即当故障诊断集合中存在第一故障指标时,可以从故障诊断集合中获取到第一故障指标对应的故障诊断树。在本发明实施例中,需要确定出第一故障指标的故障根因,故此,可以依据链路id遍历所述故障诊断树,获取所述第一故障指标对应的父节点;并将所述父节点对应的故障指标作为所述第一故障指标对应的历史诊断结果集合。
S105:计算所述关联结果集合与所述历史诊断结果集合的交集,并将所述交集中包含的指标作为所述第一故障指标的故障根因。
关联结果集合中包含的是通过实时计算获取的与第一故障指标具有较强关联关系的异常指标;历史诊断结果集合中包含的是通过查询故障诊断集合获取的与第一故障指标具有较强关联关系的异常指标。
当一个异常指标在关联结果集合和历史诊断结果集合中同时存在时,则说明该异常指标是第一故障指标的故障根因。
通过求解关联结果集合与历史诊断结果集合的交集,可以更加准确的确定出第一故障指标的故障根因。
电商系统中,各个故障的产生往往具有关联关系,因此只要计算出故障与故障之间的关联度,继而进行因果关系推倒,便能最终定位根因。基于这个思路,本发明实施例中通过故障源采集、关联度计算、频繁项挖掘、来建立故障诊断集合。接下来,将对故障诊断集合的建立过程展开介绍,如图4所示该建立过程包括:
S401:获取包括有多个故障指标的故障源信息。
在本发明实施例中,建立故障诊断集合的数据来源可以是最近一段时间内采集的故障源信息。例如,故障源信息可以是最近一个月产生的故障指标。
S402:从多时序关联、数据流关联和事件关联三个维度对所述故障源信息进行分析,确定各个所述故障指标对应的异常指标集合。
确定各个故障指标对应的异常指标集合的过程与上述获取第一故障指标的第一异常指标集合的过程类似,在此不再赘述。
S403:利用皮尔森-灰色关联组合法,计算第二故障指标和第二异常指标集合中的各个异常指标之间的关联度,并依据所述关联度,获取第二故障指标的关联结果集合。
其中,第二故障指标为各个所述故障指标中的任意一项故障指标;第二异常指标集合为第二故障指标对应的异常指标集合,该异常指标集合中记录了与第二故障指标具有关联关系的所有异常指标。第二故障指标的关联结果集合中记录了与第二故障指标具有较强关联关系的所有异常指标。
在本发明实施例中,可以从多个方面对故障指标之间的关联程度进行评价。以第二故障指标为例,具体的,可以设置不同的标准化模式,从而按照不同的方式计算第二故障指标与第二异常指标集合中的各个异常指标之间的关联度,然后对计算出的关联度进行综合分析,最终确定出与第二故障指标具有较强关联关系的故障指标。获取第二故障指标的关联结果集合的具体过程可以参看图6所示的步骤,在此不再赘述。
S404:依据所述关联结果集合以及接收到的反馈信息,生成关联结果表。
考虑到关联结果集合中记录的各故障指标的关联关系是由系统自动化分析生成的关联关系,可能会存在不符合链路上下游调用关系的关联关系。故此,在本发明实施例中,可以通过人工反馈的方式,删除不符合要求的关联关系,从而进一步提升故障根因分析的准确性。
用户可以通过系统提供的界面,对不符合实际链路情况的关联关系进行标记,并将其作为反馈信息发送给系统,系统依据反馈信息对关联结果集合中记录的各故障指标之间的关联关系进行修正,从而得到关联结果表。
S405:利用频繁项集挖掘算法对所述关联结果表以及接收到的标注信息进行处理,建立故障诊断集合。
关联结果表中记录的是具有较强关联关系的故障指标,要实现故障的根因分析,仅仅找到各故障指标之间的关联关系还不够,还需要确定出具有关联关系的各故障指标之间的因果关系。
在本发明实施例中,采用频繁项集挖掘算法确定各故障指标之间的因果关系。频繁项挖掘是在关联度计算的基础上,挖掘出频繁导致某个具体的故障指标的异常指标集合。
其中,频繁项集挖掘算法用于挖掘经常一起出现的频繁项集(item集合),通过挖掘出这些频繁项集,当在一个事务中出现频繁项集的其中一个item,则可以把该频繁项集的其他item作为推荐。
频繁项挖掘算法可以包括Apriori算法和FPGrowth算法,FPGrowth算法只需扫描原始数据两遍,通过FP-tree数据结构对原始数据进行压缩,效率较高,故此,在本发明实施例中,可以选取FPGrowth算法对故障指标进行频繁项挖掘,从而确定出各故障指标之间的因果关系。
在具体实现中,可以遍历关联结果表,在遍历过程中,可以接收用户输入的标注信息,标注信息主要用于对关联结果表中记录的各故障指标的关联关系进行修正,然后利用FPGrowth算法,对故障指标进行频繁挖掘,按故障维度生成频繁结果集。频繁结果集中包括有至少一个频繁结果,其中,频繁结果的生成标准可以设定为80%,例如,故障A产生100次,其中有80次导致故障B产生,则故障A是故障B的频繁结果。
在本发明实施例中,可以采用故障诊断树的形式,记录各故障指标之间的依赖关系,即各故障指标之间的关联关系和因果关系。故障诊断树是将一段时间内频繁结果集按照各个故障指标之间的依赖关系生成的,其中,一个故障指标可以看做是故障诊断树中的一个节点。
故障诊断树中每个节点的存储结构如图6所示,每个节点包括故障名、父节点指针和子节点指针三部分,其中,父节点指针和子节点指针的存储采用hashmap,hashmap中每一项原始的key为链路id(traceid),value为故障名。
在实际应用中,会存在不具有依赖关系的故障指标,因此建立出的故障诊断树可以有多个,在本发明实施例中,可以将建立的所有故障诊断树作为一个故障诊断集合。
下面将以一个具体实例,对故障诊断集合的建立过程进行介绍。假设一条调用链路,调用关系为A->B->C->D,其中B和C先后产生故障,接下来将以应用C的一个应用指标C_User_Index_1发生故障为例展开介绍。依据S402的操作,从多时序关联、数据流关联、事件关联三个维度获取应用C的异常指标集合,假设获取到的异常指标集合为[C_User_Index_2,C_User_Index_3,C_Ip_Index_1,C_Ip_Index_3,B_Incident_Index_1,B_User_Index_1,B_User_Index2],其中,第一个前缀标识应用名,第二个前缀User代表自定义监控,Ip代表基础监控,Incident代表工单变更事件。
依据S403的操作,对故障指标C_User_Index_1与异常指标集合中的各个异常指标进行关联度计算,得到故障指标C_User_Index_1分别与各个异常指标的关联度:B_User_Index_1:0.95;B_User_Index_2:0.9;B_Incident_Index_1:0.9;C_User_Index_2:0.81;C_User_Index_3:0.80;C_Ip_Index_1:0.79,C_Ip_Index_3:0.76。
当预设阈值设定为0.9时,则保留关联度大于0.9的异常指标,即保留B_User_Index_1,B_User_Index_2和B_Incident_Index_1;这三个故障指标构成了C_User_Index_1对应的关联结果集合。
依据S404的操作,经人工反馈,排查变更事件,可以排除B_Incident_Index_1,则此次应用C的故障指标C_User_Index_1的产生是因为故障B_User_Index_1和B_User_Index_2的产生。也即剩余的这两个故障指标构成了C_User_Index_1对应的关联结果表。
依据S405的操作,通过对一段时间内海量统计的数据进行频繁项挖掘,生成频繁结果集。利用频繁结果集,刷新故障诊断集合。
接下来将以第二故障指标为例,对确定第二故障指标的关联结果集合的过程展开介绍,如图6所示,该过程包括:
S601:依据预先设定的标准化模式,对所述第二故障指标以及所述第二异常指标集合中各异常指标各自对应的数据进行标准化处理,获取第二故障指标在每种标准化模式下对应的标准化数据。
为后续方便介绍,可以将第二故障指标以及所述第二异常指标集合中各异常指标统称为故障指标。由于各故障指标的量纲不同,无论是皮尔森算法还是灰色关联度算法,在计算关联度的时候都需要对故障指标对应的数据进行标准化处理。由于线上数据无规律,在本发明实施例中,可以分别对数据采取不同的标准化模式计算关联度。
下面将以6种标准化模式为例,对故障指标对应的数据进行标准化处理的过程展开介绍。这6种标准化模式可以包括中心化处理模式、极差化处理模式、极大化处理模式、极小化处理模式、均值化处理模式和初值化处理模式。
每个故障指标有其对应的数值,在本发明实施例中,可以将各故障指标对应的数据作为一个故障序列,设有故障序列yi,i=1,2,3,…n,其中,n为故障指标的个数。假设,第i个故障指标包括h个数据,则表示为yi(j),j=1,2,3,…h。针对每一个指标,6种标准化模式如下:
(1)“中心化处理”,即:
式中,为故障序列平均值,σi为故障序列方差,xi(j)表示第i个指标的第j个数据标准化的结果。
(2)“极差化处理”,即:
式中,M为故障序列最大值,m为故障序列最小值。
(3)“极大化”处理,即:
(4)“极小化”处理,即:
(5)“均值化”处理,即:
(6)“初值化”处理,即:
式中,y1为故障序列的第1个指标对应的数值。
S602:利用皮尔森-灰色关联组合法,对所述标准化数据进行关联度计算,得到所述第二故障指标在每种标准化模式下各自对应的关联度集合。
依据上述S601的计算,可以得到6种类型的标准化数据,相应的,对这6种类型的标准化数据分别利用皮尔森-灰色关联组合法进行关联度计算,可以生成6种类型的关联度集合。
S603:从第一标准化模式对应的关联度集合中筛选出满足所述预设阈值的关联度,并将所述关联度对应的异常指标作为所述第一标准化模式对应的关联结果集合。
以所有标准化模式中的任意一种标准化模式即第一标准化模式为例,该第一标准化模式对应的关联度集合中记录了第二故障指标与第二异常指标集合中各个异常指标的关联度。
假设预设阈值为0.9,关联结果集合中包含的是从关联度集合中筛选出的关联度大于0.9的异常指标,也即当第二故障指标与第二异常指标集合中的一个异常指标之间的关联度大于0.9时,则将这个异常指标记录在关联结果集合中。
S604:计算所有所述标准化模式对应的关联结果集合的交集,并将所述交集作为所述第二故障指标的关联结果集合。
一种标准化模式对应有一个关联结果集合。相应的,六种标准化模式对应有六个关联结果集合。在本发明实施例中,可以对这六个关联结果集合求交集,该交集中包括的指标为与第二故障指标具有较强关联关系的指标。
在本发明实施例中,对故障指标对应的数据按照多种标准化模式进行处理,然后求解标准化模式对应的关联结果集合的交集,可以更加全面、准确的确定出各故障指标之间的关联关系。
需要说明的是,第二故障指标是故障源信息中的任意一个故障指标,依据第二故障指标的关联结果集合的确定方式,可以计算出各个故障指标对应的关联结果集合。
由上述技术方案可以看出,从多时序关联、数据流关联和事件关联三个维度对故障源信息进行分析,获取第一故障指标的第一异常指标集合;利用皮尔森-灰色关联组合法,计算第一故障指标分别与其对应的第一异常指标集合中的各个异常指标之间的关联度;并将满足预设阈值的关联度对应的异常指标作为关联结果集合,该关联结果集中包含有与第一故障指标具有较强关联关系的异常指标。查询预先建立的故障诊断集合,获取第一故障指标对应的历史诊断结果集合,该历史诊断结果集中包括有造成第一故障指标产生的故障指标,计算所述关联结果集合与所述历史诊断结果集合的交集,所述交集中包含的指标即为所述第一故障指标的故障根因。依据该技术方案实现了在电商系统中自动化、智能化地挖掘和定位故障产生的根因,有效提高开发和运维人员解决问题的速度。
上述介绍中,通过求解关联结果集合与历史诊断结果集合的交集,得到第一故障指标的故障根因。其中,关联结果集合与历史诊断结果集合中记载的均是与第一故障指标具有较强关联关系的异常指标,在本发明实施例中,可以计算所述关联结果集合与所述历史诊断结果集合的差集,并将所述差集中包含的指标作为所述第一故障指标的疑似根因。该疑似根因中包含的异常指标也可能会造成第一故障指标的产生。
图7为本发明实施例提供的一种确定故障根因的系统的结构示意图,包括获取单元71、第一计算单元72、查询单元73和第二计算单元74;
所述获取单元71,用于从多时序关联、数据流关联和事件关联三个维度对故障源信息进行分析,获取第一故障指标的第一异常指标集合;
所述第一计算单元72,用于利用皮尔森-灰色关联组合法,计算所述第一故障指标分别与所述第一异常指标集合中的各个异常指标之间的关联度;并将满足预设阈值的关联度对应的异常指标作为关联结果集合;
所述查询单元73,用于查询预先建立的故障诊断集合,获取所述第一故障指标对应的历史诊断结果集合;
所述第二计算单元74,用于计算所述关联结果集合与所述历史诊断结果集合的交集,并将所述交集中包含的指标作为所述第一故障指标的故障根因。
可选的,针对所述故障诊断集合的建立过程,所述系统还包括生成单元和建立单元;
所述获取单元还用于获取包括有多个故障指标的故障源信息;并从多时序关联、数据流关联和事件关联三个维度对所述故障源信息进行分析,确定各个所述故障指标对应的异常指标集合;
所述第一计算单元还用于利用皮尔森-灰色关联组合法,计算第二故障指标和第二异常指标集合中的各个异常指标之间的关联度,并依据所述关联度,获取第二故障指标的关联结果集合;其中,所述第二故障指标为各个所述故障指标中的任意一项故障指标;所述第二异常指标集合为所述第二故障指标对应的异常指标集合;
所述生成单元,用于依据所述关联结果集合以及接收到的反馈信息,生成关联结果表;
所述建立单元,用于利用频繁项集挖掘算法对所述关联结果表以及接收到的标注信息进行处理,建立故障诊断集合。
可选的,所述第一计算单元包括处理子单元、得到子单元、筛选子单元和作为子单元;
所述处理子单元,用于依据预先设定的标准化模式,对所述第二故障指标以及所述第二异常指标集合中各异常指标各自对应的数据进行标准化处理,获取第二故障指标在每种标准化模式下对应的标准化数据;
所述得到子单元,用于利用皮尔森-灰色关联组合法,对所述标准化数据进行关联度计算,得到所述第二故障指标在每种标准化模式下各自对应的关联度集合;
所述筛选子单元,用于从第一标准化模式对应的关联度集合中筛选出满足所述预设阈值的关联度,并将所述关联度对应的异常指标作为所述第一标准化模式对应的关联结果集合;其中,所述第一标准化模式为所有所述标准化模式中的任意一种标准化模式;
所述作为子单元,用于计算所有所述标准化模式对应的关联结果集合的交集,并将所述交集作为所述第二故障指标的关联结果集合。
可选的,所述查询单元包括判断子单元、获取子单元和作为子单元;
所述判断子单元,用于判断所述故障诊断集合中是否存在所述第一故障指标;
若是,则触发所述获取子单元,所述获取子单元,用于获取所述第一故障指标对应的故障诊断树;并依据链路id遍历所述故障诊断树,获取所述第一故障指标对应的父节点;
所述作为子单元,用于将所述父节点对应的故障指标作为所述第一故障指标对应的历史诊断结果集合。
可选的,还包括第三计算单元;所述第三计算单元,用于计算所述关联结果集合与所述历史诊断结果集合的差集,并将所述差集中包含的指标作为所述第一故障指标的疑似根因。
图7所对应实施例中特征的说明可以参见图1、图4和图6所对应实施例的相关说明,这里不再一一赘述。
由上述技术方案可以看出,从多时序关联、数据流关联和事件关联三个维度对故障源信息进行分析,获取第一故障指标的第一异常指标集合;利用皮尔森-灰色关联组合法,计算第一故障指标分别与其对应的第一异常指标集合中的各个异常指标之间的关联度;并将满足预设阈值的关联度对应的异常指标作为关联结果集合,该关联结果集中包含有与第一故障指标具有较强关联关系的异常指标。查询预先建立的故障诊断集合,获取第一故障指标对应的历史诊断结果集合,该历史诊断结果集中包括有造成第一故障指标产生的故障指标,计算所述关联结果集合与所述历史诊断结果集合的交集,所述交集中包含的指标即为所述第一故障指标的故障根因。依据该技术方案实现了在电商系统中自动化、智能化地挖掘和定位故障产生的根因,有效提高开发和运维人员解决问题的速度。
本发明实施例还提供了一种确定故障根因的系统,包括:存储器,用于存储计算机程序;处理器,用于执行所述计算机程序以实现如上述确定故障根因的方法的步骤。
本发明实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如上述确定故障根因的方法的步骤。
以上对本发明实施例所提供的一种确定故障根因的方法、系统和计算机可读存储介质进行了详细介绍。说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的系统而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以对本发明进行若干改进和修饰,这些改进和修饰也落入本发明权利要求的保护范围内。
专业人员还可以进一步意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件模块,或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。

Claims (10)

1.一种确定故障根因的方法,其特征在于,包括:
从多时序关联、数据流关联和事件关联三个维度对故障源信息进行分析,获取第一故障指标的第一异常指标集合;
利用皮尔森-灰色关联组合法,计算所述第一故障指标分别与所述第一异常指标集合中的各个异常指标之间的关联度;
将满足预设阈值的关联度对应的异常指标作为关联结果集合;
查询预先建立的故障诊断集合,获取所述第一故障指标对应的历史诊断结果集合;
计算所述关联结果集合与所述历史诊断结果集合的交集,并将所述交集中包含的指标作为所述第一故障指标的故障根因。
2.根据权利要求1所述的方法,其特征在于,所述故障诊断集合的建立过程包括:
获取包括有多个故障指标的故障源信息;
从多时序关联、数据流关联和事件关联三个维度对所述故障源信息进行分析,确定各个所述故障指标对应的异常指标集合;
利用皮尔森-灰色关联组合法,计算第二故障指标和第二异常指标集合中的各个异常指标之间的关联度,并依据所述关联度,获取第二故障指标的关联结果集合;其中,所述第二故障指标为各个所述故障指标中的任意一项故障指标;所述第二异常指标集合为所述第二故障指标对应的异常指标集合;
依据所述关联结果集合以及接收到的反馈信息,生成关联结果表;
利用频繁项集挖掘算法对所述关联结果表以及接收到的标注信息进行处理,建立故障诊断集合。
3.根据权利要求2所述的方法,其特征在于,所述利用皮尔森-灰色关联组合法,计算第二故障指标和第二异常指标集合中的各个异常指标之间的关联度,并依据所述关联度,获取第二故障指标的关联结果集合包括:
依据预先设定的标准化模式,对所述第二故障指标以及所述第二异常指标集合中各异常指标各自对应的数据进行标准化处理,获取第二故障指标在每种标准化模式下对应的标准化数据;
利用皮尔森-灰色关联组合法,对所述标准化数据进行关联度计算,得到所述第二故障指标在每种标准化模式下各自对应的关联度集合;
从第一标准化模式对应的关联度集合中筛选出满足所述预设阈值的关联度,并将所述关联度对应的异常指标作为所述第一标准化模式对应的关联结果集合;其中,所述第一标准化模式为所有所述标准化模式中的任意一种标准化模式;
计算所有所述标准化模式对应的关联结果集合的交集,并将所述交集作为所述第二故障指标的关联结果集合。
4.根据权利要求1所述的方法,其特征在于,所述查询预先建立的故障诊断集合,获取所述第一故障指标对应的历史诊断结果集合包括:
判断所述故障诊断集合中是否存在所述第一故障指标;
若是,则获取所述第一故障指标对应的故障诊断树;
依据链路id遍历所述故障诊断树,获取所述第一故障指标对应的父节点;并将所述父节点对应的故障指标作为所述第一故障指标对应的历史诊断结果集合。
5.根据权利要求1-4任意一项所述的方法,其特征在于,还包括:
计算所述关联结果集合与所述历史诊断结果集合的差集,并将所述差集中包含的指标作为所述第一故障指标的疑似根因。
6.一种确定故障根因的系统,其特征在于,包括获取单元、第一计算单元、查询单元和第二计算单元;
所述获取单元,用于从多时序关联、数据流关联和事件关联三个维度对故障源信息进行分析,获取第一故障指标的第一异常指标集合;
所述第一计算单元,用于利用皮尔森-灰色关联组合法,计算所述第一故障指标分别与所述第一异常指标集合中的各个异常指标之间的关联度;并将满足预设阈值的关联度对应的异常指标作为关联结果集合;
所述查询单元,用于查询预先建立的故障诊断集合,获取所述第一故障指标对应的历史诊断结果集合;
所述第二计算单元,用于计算所述关联结果集合与所述历史诊断结果集合的交集,并将所述交集中包含的指标作为所述第一故障指标的故障根因。
7.根据权利要求6所述的系统,其特征在于,针对所述故障诊断集合的建立过程,所述系统还包括生成单元和建立单元;
所述获取单元还用于获取包括有多个故障指标的故障源信息;并从多时序关联、数据流关联和事件关联三个维度对所述故障源信息进行分析,确定各个所述故障指标对应的异常指标集合;
所述第一计算单元还用于利用皮尔森-灰色关联组合法,计算第二故障指标和第二异常指标集合中的各个异常指标之间的关联度,并依据所述关联度,获取第二故障指标的关联结果集合;其中,所述第二故障指标为各个所述故障指标中的任意一项故障指标;所述第二异常指标集合为所述第二故障指标对应的异常指标集合;
所述生成单元,用于依据所述关联结果集合以及接收到的反馈信息,生成关联结果表;
所述建立单元,用于利用频繁项集挖掘算法对所述关联结果表以及接收到的标注信息进行处理,建立故障诊断集合。
8.根据权利要求6或7所述的系统,其特征在于,还包括第三计算单元;所述第三计算单元,用于计算所述关联结果集合与所述历史诊断结果集合的差集,并将所述差集中包含的指标作为所述第一故障指标的疑似根因。
9.一种确定故障根因的系统,其特征在于,包括:
存储器,用于存储计算机程序;
处理器,用于执行所述计算机程序以实现如权利要求1至5任意一项所述确定故障根因的方法的步骤。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1至5任一项所述确定故障根因的方法的步骤。
CN201711321492.4A 2017-12-12 2017-12-12 一种确定故障根因的方法、系统和计算机可读存储介质 Active CN108009040B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201711321492.4A CN108009040B (zh) 2017-12-12 2017-12-12 一种确定故障根因的方法、系统和计算机可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201711321492.4A CN108009040B (zh) 2017-12-12 2017-12-12 一种确定故障根因的方法、系统和计算机可读存储介质

Publications (2)

Publication Number Publication Date
CN108009040A true CN108009040A (zh) 2018-05-08
CN108009040B CN108009040B (zh) 2021-05-04

Family

ID=62058718

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201711321492.4A Active CN108009040B (zh) 2017-12-12 2017-12-12 一种确定故障根因的方法、系统和计算机可读存储介质

Country Status (1)

Country Link
CN (1) CN108009040B (zh)

Cited By (25)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109217469A (zh) * 2018-09-03 2019-01-15 南京永为科技有限公司 智能配电电能监测系统及工作方法
CN109491844A (zh) * 2018-09-21 2019-03-19 国网技术学院 一种识别异常信息的计算机系统
CN109597746A (zh) * 2018-12-26 2019-04-09 荣科科技股份有限公司 故障分析方法及装置
CN110262937A (zh) * 2019-05-06 2019-09-20 阿里巴巴集团控股有限公司 一种指标异常原因的识别方法及装置
CN110582091A (zh) * 2018-06-11 2019-12-17 中国移动通信集团浙江有限公司 定位无线质量问题的方法和装置
CN110955575A (zh) * 2019-11-14 2020-04-03 国网浙江省电力有限公司信息通信分公司 一种基于关联分析模型的业务系统故障定位方法
CN111064614A (zh) * 2019-12-17 2020-04-24 腾讯科技(深圳)有限公司 一种故障根因定位方法、装置、设备及存储介质
CN111143101A (zh) * 2019-12-12 2020-05-12 东软集团股份有限公司 用于确定故障根源的方法、装置、存储介质及电子设备
CN111258788A (zh) * 2020-01-17 2020-06-09 上海商汤智能科技有限公司 磁盘故障预测方法、装置及计算机可读存储介质
CN111309567A (zh) * 2020-01-23 2020-06-19 阿里巴巴集团控股有限公司 数据处理方法、装置、数据库系统、电子设备及存储介质
CN111327443A (zh) * 2018-12-17 2020-06-23 中国移动通信集团北京有限公司 一种故障根源指标确定方法及装置
CN111327435A (zh) * 2018-12-13 2020-06-23 中兴通讯股份有限公司 一种根因定位方法、服务器和存储介质
CN111341458A (zh) * 2020-02-27 2020-06-26 国家卫生健康委科学技术研究所 基于多层级结构相似度的单基因病名称推荐方法和系统
CN111427934A (zh) * 2020-04-26 2020-07-17 北京工业大数据创新中心有限公司 一种异常事件及其上下文事件的关联挖掘方法及系统
CN111444075A (zh) * 2020-06-18 2020-07-24 南京开特信息科技有限公司 一种自动发现关键影响力指标的方法
CN111459695A (zh) * 2020-03-12 2020-07-28 平安科技(深圳)有限公司 根因定位方法、装置、计算机设备和存储介质
CN111722952A (zh) * 2020-05-25 2020-09-29 中国建设银行股份有限公司 业务系统的故障分析方法、系统、设备和存储介质
CN112838962A (zh) * 2020-12-31 2021-05-25 中国银联股份有限公司 一种大数据集群的性能瓶颈检测方法及装置
CN113011707A (zh) * 2021-02-19 2021-06-22 阳光保险集团股份有限公司 一种面向流程阶段的指标异常的根因定位方法及系统
CN113127528A (zh) * 2019-12-30 2021-07-16 中移信息技术有限公司 系统根因定位方法、装置、设备及计算机存储介质
CN113434193A (zh) * 2021-08-26 2021-09-24 北京必示科技有限公司 根因变更的定位方法和装置
CN113608916A (zh) * 2021-10-08 2021-11-05 苏州浪潮智能科技有限公司 故障诊断的方法、装置、电子设备及存储介质
CN113872780A (zh) * 2020-06-30 2021-12-31 大唐移动通信设备有限公司 一种故障根因分析方法、装置及存储介质
WO2022057428A1 (zh) * 2020-09-18 2022-03-24 华为技术有限公司 确定故障根因的方法,装置以及相关设备
CN114325232A (zh) * 2021-12-28 2022-04-12 微梦创科网络科技(中国)有限公司 一种故障定位方法和装置

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20140237297A1 (en) * 2012-03-23 2014-08-21 Hitachi, Ltd. Method and system for supporting event root cause analysis
CN104298225A (zh) * 2014-09-25 2015-01-21 中国石油化工股份有限公司 化工过程异常工况因果关系推理模型建模与图形化展示方法
CN106295692A (zh) * 2016-08-05 2017-01-04 北京航空航天大学 基于降维与支持向量机的产品早期故障根原因识别方法
CN106874686A (zh) * 2017-03-03 2017-06-20 北京北青厚泽数据科技有限公司 指标关系网构建方法
CN107301119A (zh) * 2017-06-28 2017-10-27 北京优特捷信息技术有限公司 利用时序相关性进行it故障根因分析的方法及装置

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20140237297A1 (en) * 2012-03-23 2014-08-21 Hitachi, Ltd. Method and system for supporting event root cause analysis
CN104298225A (zh) * 2014-09-25 2015-01-21 中国石油化工股份有限公司 化工过程异常工况因果关系推理模型建模与图形化展示方法
CN106295692A (zh) * 2016-08-05 2017-01-04 北京航空航天大学 基于降维与支持向量机的产品早期故障根原因识别方法
CN106874686A (zh) * 2017-03-03 2017-06-20 北京北青厚泽数据科技有限公司 指标关系网构建方法
CN107301119A (zh) * 2017-06-28 2017-10-27 北京优特捷信息技术有限公司 利用时序相关性进行it故障根因分析的方法及装置

Cited By (39)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110582091A (zh) * 2018-06-11 2019-12-17 中国移动通信集团浙江有限公司 定位无线质量问题的方法和装置
CN109217469A (zh) * 2018-09-03 2019-01-15 南京永为科技有限公司 智能配电电能监测系统及工作方法
CN109491844A (zh) * 2018-09-21 2019-03-19 国网技术学院 一种识别异常信息的计算机系统
CN109491844B (zh) * 2018-09-21 2022-03-04 国网技术学院 一种识别异常信息的计算机系统
CN111327435B (zh) * 2018-12-13 2022-07-05 中兴通讯股份有限公司 一种根因定位方法、服务器和存储介质
CN111327435A (zh) * 2018-12-13 2020-06-23 中兴通讯股份有限公司 一种根因定位方法、服务器和存储介质
CN111327443B (zh) * 2018-12-17 2022-11-22 中国移动通信集团北京有限公司 一种故障根源指标确定方法及装置
CN111327443A (zh) * 2018-12-17 2020-06-23 中国移动通信集团北京有限公司 一种故障根源指标确定方法及装置
CN109597746A (zh) * 2018-12-26 2019-04-09 荣科科技股份有限公司 故障分析方法及装置
CN109597746B (zh) * 2018-12-26 2022-05-13 荣科科技股份有限公司 故障分析方法及装置
CN110262937A (zh) * 2019-05-06 2019-09-20 阿里巴巴集团控股有限公司 一种指标异常原因的识别方法及装置
CN110262937B (zh) * 2019-05-06 2023-07-18 创新先进技术有限公司 一种指标异常原因的识别方法及装置
CN110955575A (zh) * 2019-11-14 2020-04-03 国网浙江省电力有限公司信息通信分公司 一种基于关联分析模型的业务系统故障定位方法
CN111143101B (zh) * 2019-12-12 2023-07-07 东软集团股份有限公司 用于确定故障根源的方法、装置、存储介质及电子设备
CN111143101A (zh) * 2019-12-12 2020-05-12 东软集团股份有限公司 用于确定故障根源的方法、装置、存储介质及电子设备
CN111064614B (zh) * 2019-12-17 2020-12-08 腾讯科技(深圳)有限公司 一种故障根因定位方法、装置、设备及存储介质
CN111064614A (zh) * 2019-12-17 2020-04-24 腾讯科技(深圳)有限公司 一种故障根因定位方法、装置、设备及存储介质
CN113127528A (zh) * 2019-12-30 2021-07-16 中移信息技术有限公司 系统根因定位方法、装置、设备及计算机存储介质
CN111258788A (zh) * 2020-01-17 2020-06-09 上海商汤智能科技有限公司 磁盘故障预测方法、装置及计算机可读存储介质
CN111258788B (zh) * 2020-01-17 2024-04-12 上海商汤智能科技有限公司 磁盘故障预测方法、装置及计算机可读存储介质
CN111309567A (zh) * 2020-01-23 2020-06-19 阿里巴巴集团控股有限公司 数据处理方法、装置、数据库系统、电子设备及存储介质
CN111309567B (zh) * 2020-01-23 2024-03-29 阿里巴巴集团控股有限公司 数据处理方法、装置、数据库系统、电子设备及存储介质
CN111341458A (zh) * 2020-02-27 2020-06-26 国家卫生健康委科学技术研究所 基于多层级结构相似度的单基因病名称推荐方法和系统
WO2021179574A1 (zh) * 2020-03-12 2021-09-16 平安科技(深圳)有限公司 根因定位方法、装置、计算机设备和存储介质
CN111459695A (zh) * 2020-03-12 2020-07-28 平安科技(深圳)有限公司 根因定位方法、装置、计算机设备和存储介质
CN111427934A (zh) * 2020-04-26 2020-07-17 北京工业大数据创新中心有限公司 一种异常事件及其上下文事件的关联挖掘方法及系统
CN111722952A (zh) * 2020-05-25 2020-09-29 中国建设银行股份有限公司 业务系统的故障分析方法、系统、设备和存储介质
CN111444075A (zh) * 2020-06-18 2020-07-24 南京开特信息科技有限公司 一种自动发现关键影响力指标的方法
CN113872780A (zh) * 2020-06-30 2021-12-31 大唐移动通信设备有限公司 一种故障根因分析方法、装置及存储介质
WO2022057428A1 (zh) * 2020-09-18 2022-03-24 华为技术有限公司 确定故障根因的方法,装置以及相关设备
CN112838962A (zh) * 2020-12-31 2021-05-25 中国银联股份有限公司 一种大数据集群的性能瓶颈检测方法及装置
CN112838962B (zh) * 2020-12-31 2022-10-18 中国银联股份有限公司 一种大数据集群的性能瓶颈检测方法及装置
CN113011707B (zh) * 2021-02-19 2024-03-01 阳光保险集团股份有限公司 一种面向流程阶段的指标异常的根因定位方法及系统
CN113011707A (zh) * 2021-02-19 2021-06-22 阳光保险集团股份有限公司 一种面向流程阶段的指标异常的根因定位方法及系统
CN113434193A (zh) * 2021-08-26 2021-09-24 北京必示科技有限公司 根因变更的定位方法和装置
WO2023056723A1 (zh) * 2021-10-08 2023-04-13 苏州浪潮智能科技有限公司 故障诊断的方法、装置、电子设备及存储介质
CN113608916A (zh) * 2021-10-08 2021-11-05 苏州浪潮智能科技有限公司 故障诊断的方法、装置、电子设备及存储介质
CN114325232A (zh) * 2021-12-28 2022-04-12 微梦创科网络科技(中国)有限公司 一种故障定位方法和装置
CN114325232B (zh) * 2021-12-28 2023-07-25 微梦创科网络科技(中国)有限公司 一种故障定位方法和装置

Also Published As

Publication number Publication date
CN108009040B (zh) 2021-05-04

Similar Documents

Publication Publication Date Title
CN108009040A (zh) 一种确定故障根因的方法、系统和计算机可读存储介质
KR102483025B1 (ko) 운영 유지 시스템 및 방법
CN112204631B (zh) 管理智能警报的系统和方法
CN109656793A (zh) 一种基于多源异构数据融合的信息系统性能立体监测方法
Müller et al. Resilience-a new research field in business information systems?
US20080148180A1 (en) Detecting Anomalies in Server Behavior
CN101170454B (zh) 一种监控数据采集汇总状态的方法和系统
CN106209893A (zh) 基于业务过程模型挖掘的内部威胁检测系统及其检测方法
CN105871605A (zh) 一种基于电力营销大数据的运维监控平台
CN106371986A (zh) 一种日志处理运维监控系统
CN103902816A (zh) 基于数据挖掘技术的带电检测数据处理方法
Jaatun et al. A framework for incident response management in the petroleum industry
WO2013165536A1 (en) Automated analysis system for modeling online business behavior and detecting outliers
US20140244343A1 (en) Metric management tool for determining organizational health
CN107332722A (zh) 一种故障信息的排除方法及系统
CN106411617A (zh) 电力通信网络故障告警关联处理方法
CN104574219A (zh) 电网业务信息系统运行工况的监测预警方法及系统
CN103023028A (zh) 一种基于实体间依赖关系图的电网故障快速定位方法
CN106200615B (zh) 一种基于关联关系的轨道交通智能预警实现方法
CN111538643A (zh) 一种监控系统报警信息过滤方法和系统
JP5514643B2 (ja) 障害原因判定ルール変化検知装置及びプログラム
CN106911519A (zh) 一种数据采集监控方法及装置
US20150039401A1 (en) Method and system for implementation of engineered key performance indicators
CN106330535A (zh) 一种车地通信数据处理方法及装置
CN109885978B (zh) 一种遥感地面站故障诊断系统及方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant