CN114138610A - 一种故障处理方法及装置 - Google Patents

一种故障处理方法及装置 Download PDF

Info

Publication number
CN114138610A
CN114138610A CN202111485663.3A CN202111485663A CN114138610A CN 114138610 A CN114138610 A CN 114138610A CN 202111485663 A CN202111485663 A CN 202111485663A CN 114138610 A CN114138610 A CN 114138610A
Authority
CN
China
Prior art keywords
fault
scene
scenario
determining
index
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111485663.3A
Other languages
English (en)
Inventor
苑志云
李国莹
刘威
梁晓东
陈倩
张岩
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Construction Bank Corp
Original Assignee
China Construction Bank Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China Construction Bank Corp filed Critical China Construction Bank Corp
Priority to CN202111485663.3A priority Critical patent/CN114138610A/zh
Publication of CN114138610A publication Critical patent/CN114138610A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/34Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment
    • G06F11/3466Performance evaluation by tracing or monitoring
    • G06F11/3495Performance evaluation by tracing or monitoring for systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3055Monitoring arrangements for monitoring the status of the computing system or of the computing system component, e.g. monitoring if the computing system is on, off, available, not available

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Quality & Reliability (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • Computer Hardware Design (AREA)
  • Debugging And Monitoring (AREA)

Abstract

本发明公开了一种故障处理方法及装置,可以响应于故障诊断指令,获得目标系统当前已出现的至少一个异常指标,从各异常指标中识别出至少一个关键指标,分别基于已识别出的各关键指标,确定目标系统当前的第一故障场景是否与已知故障场景组中的至少一个已知故障场景相匹配,如果是,则从已知故障场景组中确定与第一故障场景相匹配的第一已知故障场景,利用与第一已知故障场景相对应的止损处理方式进行故障处理,可以有效提高故障处理效率,保障系统运行效率。

Description

一种故障处理方法及装置
技术领域
本发明涉及故障处理领域,尤其涉及一种故障处理方法及装置。
背景技术
随着基础设施规模的不断扩大,业务系统的架构复杂度不断提高。
业务系统在运行过程中,如果出现影响生产、交易或者导致服务中断等故障,则需要尽快的对故障进行处理,以恢复正常运行状态,保障业务处理效率。
但是,现有技术无法有效的对故障进行处理。
发明内容
鉴于上述问题,本发明提供一种克服上述问题或者至少部分地解决上述问题的故障处理方法及装置,技术方案如下:
一种故障处理方法,包括:
响应于故障诊断指令,获得目标系统当前已出现的至少一个异常指标;
从各所述异常指标中识别出至少一个关键指标;
分别基于已识别出的各所述关键指标,确定所述目标系统当前的第一故障场景是否与已知故障场景组中的至少一个已知故障场景相匹配;
如果是,则从所述已知故障场景组中确定与所述第一故障场景相匹配的第一已知故障场景,利用与所述第一已知故障场景相对应的止损处理方式进行故障处理。
可选的,所述方法还包括:
如果所述第一故障场景未与所述已知故障场景组中的任一已知故障场景相匹配,则确定所述第一故障场景为未知故障场景;
利用训练好的场景匹配模型,从所述已知故障场景组中确定与所述第一故障场景相匹配的第二已知故障场景,利用与所述第二已知故障场景相对应的止损处理方式进行故障处理。
可选的,基于第一关键指标,确定所述第一故障场景是否与所述已知故障场景组中的至少一个已知故障场景相匹配,包括:
确定所述第一关键指标对应的第三已知故障场景;其中,所述第三已知故障场景中包括至少一个预定义的场景指标;
确定各所述异常指标中是否存在有除所述第一关键指标之外的所述场景指标;
如果是,则在各所述异常指标中,确定除所述第一关键指标之外的各所述场景指标的出现时刻,从各所述出现时刻中确定最早出现时刻;
将所述第一关键指标的出现时刻减去所述最早出现时刻所获得的差值确定为第一差值;
基于所述第一差值,确定所述第一故障场景是否与所述第三已知故障场景相匹配。
可选的,所述基于所述第一差值,确定所述第一故障场景是否与所述第三已知故障场景相匹配,包括:
如果所述第一差值大于预定义时长,则确定所述第一故障场景与所述第三已知故障场景不匹配。
可选的,所述基于所述第一差值,确定所述第一故障场景是否与所述第三已知故障场景相匹配,包括:
如果所述第一差值不小于零且不大于所述预定义时长,确定各所述异常指标中是否已包括所述第三已知故障场景中的全部所述场景指标;
如果是,则确定所述第一故障场景与所述第三已知故障场景相匹配;
否则,则在从所述最早出现时刻开始的所述预定义时长内,在所述目标系统中检测是否出现所述第三已知故障场景中的全部所述场景指标,如果是,确定所述第一故障场景与所述第三已知故障场景相匹配,否则确定所述第一故障场景与所述第三已知故障场景不匹配。
可选的,所述基于所述第一差值,确定所述第一故障场景是否与所述第三已知故障场景相匹配,包括:
如果所述第一差值小于零,则在从所述第一关键指标的出现时刻开始的所述预定义时长内,在所述目标系统中检测是否出现所述第三已知故障场景中的全部所述场景指标,如果是,确定所述第一故障场景与所述第三已知故障场景相匹配,否则确定所述第一故障场景与所述第三已知故障场景不匹配。
可选的,所述方法还包括:
如果各所述异常指标中未存在有除所述第一关键指标之外的所述场景指标,则在从所述第一关键指标的出现时刻开始的所述预定义时长内,在所述目标系统中检测是否出现所述第三已知故障场景中的全部所述场景指标,如果是,确定所述第一故障场景与所述第三已知故障场景相匹配,否则确定所述第一故障场景与所述第三已知故障场景不匹配。
一种故障处理装置,包括:第一获得单元、第一识别单元、第一确定单元、第二确定单元和第一处理单元;其中:
所述第一获得单元,用于响应于故障诊断指令,获得目标系统当前已出现的至少一个异常指标;
所述第一识别单元,用于从各所述异常指标中识别出至少一个关键指标;
所述第一确定单元,用于分别基于已识别出的各所述关键指标,确定所述目标系统当前的第一故障场景是否与已知故障场景组中的至少一个已知故障场景相匹配,如果是,则触发所述第二确定单元;
所述第二确定单元,用于从所述已知故障场景组中确定与所述第一故障场景相匹配的第一已知故障场景;
所述第一处理单元,用于利用与所述第一已知故障场景相对应的止损处理方式进行故障处理。
可选的,所述装置还包括:第三确定单元、第四确定单元和第二处理单元;
所述第三确定单元,用于如果所述第一故障场景未与所述已知故障场景组中的任一已知故障场景相匹配,则确定所述第一故障场景为未知故障场景;
所述第四确定单元,用于利用训练好的场景匹配模型,从所述已知故障场景组中确定与所述第一故障场景相匹配的第二已知故障场景;
所述第二处理单元,用于利用与所述第二已知故障场景相对应的止损处理方式进行故障处理。
可选的,基于第一关键指标,确定所述第一故障场景是否与所述已知故障场景组中的至少一个已知故障场景相匹配,设置为:
确定所述第一关键指标对应的第三已知故障场景;其中,所述第三已知故障场景中包括至少一个预定义的场景指标;
确定各所述异常指标中是否存在有除所述第一关键指标之外的所述场景指标;
如果是,则在各所述异常指标中,确定除所述第一关键指标之外的各所述场景指标的出现时刻,从各所述出现时刻中确定最早出现时刻;
将所述第一关键指标的出现时刻减去所述最早出现时刻所获得的差值确定为第一差值;
基于所述第一差值,确定所述第一故障场景是否与所述第三已知故障场景相匹配。
可选的,所述基于所述第一差值,确定所述第一故障场景是否与所述第三已知故障场景相匹配,设置为:
如果所述第一差值大于预定义时长,则确定所述第一故障场景与所述第三已知故障场景不匹配。
可选的,所述基于所述第一差值,确定所述第一故障场景是否与所述第三已知故障场景相匹配,设置为:
如果所述第一差值不小于零且不大于所述预定义时长,确定各所述异常指标中是否已包括所述第三已知故障场景中的全部所述场景指标;
如果是,则确定所述第一故障场景与所述第三已知故障场景相匹配;
否则,则在从所述最早出现时刻开始的所述预定义时长内,在所述目标系统中检测是否出现所述第三已知故障场景中的全部所述场景指标,如果是,确定所述第一故障场景与所述第三已知故障场景相匹配,否则确定所述第一故障场景与所述第三已知故障场景不匹配。
可选的,所述基于所述第一差值,确定所述第一故障场景是否与所述第三已知故障场景相匹配,设置为:
如果所述第一差值小于零,则在从所述第一关键指标的出现时刻开始的所述预定义时长内,在所述目标系统中检测是否出现所述第三已知故障场景中的全部所述场景指标,如果是,确定所述第一故障场景与所述第三已知故障场景相匹配,否则确定所述第一故障场景与所述第三已知故障场景不匹配。
可选的,所述装置还包括:检测单元、第五确定单元和第六确定单元;其中:
所述检测单元,用于如果各所述异常指标中未存在有除所述第一关键指标之外的所述场景指标,则在从所述第一关键指标的出现时刻开始的所述预定义时长内,在所述目标系统中检测是否出现所述第三已知故障场景中的全部所述场景指标,如果是,则触发所述第五确定单元;否则触发所述第六确定单元;
所述第五确定单元,用于确定所述第一故障场景与所述第三已知故障场景相匹配;
所述第六确定单元,用于确定所述第一故障场景与所述第三已知故障场景不匹配。
本发明提出的故障处理方法及装置,可以响应于故障诊断指令,获得目标系统当前已出现的至少一个异常指标,从各异常指标中识别出至少一个关键指标,分别基于已识别出的各关键指标,确定目标系统当前的第一故障场景是否与已知故障场景组中的至少一个已知故障场景相匹配,如果是,则从已知故障场景组中确定与第一故障场景相匹配的第一已知故障场景,利用与第一已知故障场景相对应的止损处理方式进行故障处理,可以有效提高故障处理效率,保障系统运行效率。
上述说明仅是本发明技术方案的概述,为了能够更清楚地了解本发明的技术手段,可依照说明书的内容予以实施,并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂,以下特举本发明的具体实施方式。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1示出了本发明实施例提供的第一种故障处理方法的流程图;
图2示出了本发明实施例提供的第二种故障处理方法的流程图;
图3示出了本发明实施例提供的一种排障树的结构示意图;
图4示出了本发明实施例提供的第一种故障处理装置的结构示意图。
具体实施方式
下面将参照附图更详细地描述本发明的示例性实施例。虽然附图中显示了本发明的示例性实施例,然而应当理解,可以以各种形式实现本发明而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本发明,并且能够将本发明的范围完整的传达给本领域的技术人员。
如图1所示,本实施例提出了第一种故障处理方法,该方法可以包括以下步骤:
S101、响应于故障诊断指令,获得目标系统当前已出现的至少一个异常指标;
需要说明的是,本发明可以应用于电子设备,如台式电脑、平板电脑和服务器等。
其中,故障诊断指令可以是触发上述电子设备进行故障诊断的指令。需要说明的是,故障诊断指令可以是上述电子设备在监测到异常指标时生成的,也可以是故障监控系统、其他设备或者人工输入的,本发明对此不作限定。其中,故障监控系统可以是设置在上述电子设备中,也可以是设置在其他设备中。
其中,目标系统可以为本发明需进行故障处理的业务系统,如银行业务系统和车票售卖系统等。
其中,异常指标可以为目标系统中的某个运维对象所出现的异常运行指标。
其中,运维对象可以为目标系统在运行过程中要管理和维护的对象。比如,当目标系统为银行系统时,运维对象可以为Oracle数据库和Weblogic中间件等。
可选的,本发明可以在目标系统运行过程中,监测到目标系统中出现指定类型的异常指标时,生成故障诊断指令,之后再响应于故障诊断指令,确定目标系统中当前已出现的所有异常指标。
可选的,本发明可以在接收到故障监控系统或其他设备发送的故障诊断指令时,获得目标系统中已出现的所有异常指标。
S102、从各异常指标中识别出至少一个关键指标;
其中,关键指标可以为衡量目标系统是否出现某个故障场景的重要运行指标。
需要说明的是,关键指标可以是由技术人员预先指定的运行指标。
S103、分别基于已识别出的各关键指标,确定目标系统当前的第一故障场景是否与已知故障场景组中的至少一个已知故障场景相匹配,如果是,则可以执行步骤S104;
其中,第一故障场景可以为目标系统当前出现的、待识别的故障场景。需要说明的是,本发明可以在第一故障场景的故障现象和异常指标未完全显现时,即可以响应于故障诊断指令,开始对第一故障场景进行诊断,识别第一故障场景。
具体的,故障场景可以由一个包括有一个或多个异常指标的异常指标集进行标识。当目标系统中出现可标识某个故障场景的某个异常指标集中的所有异常指标时,本发明可以确定目标系统当前出现该故障场景。
其中,已知故障场景组可以是由多个已知故障场景构成的集合。
其中,已知故障场景可以为历史上已发生过的、已记录其全部故障现象且故障处理方式通过验证的故障场景。
可以理解的是,已知故障场景对应的异常指标集可以是已知的,即已知故障场景对应的异常指标集中的所有异常指标均可以是已知的。
具体的,本发明在确定第一故障场景是否与某个已知故障场景相匹配时,可以通过确定目标系统在指定时长内是否出现该已知故障场景对应的异常指标集中的所有异常指标,来确定目标系统的第一故障场景是否为该异常指标集对应的已知故障场景。
S104、从已知故障场景组中确定与第一故障场景相匹配的第一已知故障场景;
其中,第一已知故障场景可以为已知故障场景组中与第一故障场景相匹配的一个已知故障场景。
具体的,如果第一故障场景与已知故障场景组中的至少一个已知故障场景相匹配,本发明则可以在已知故障场景组中,确定出与第一故障场景相匹配的第一已知故障场景。
需要说明的是,如果第一故障场景与已知故障场景组中的多个已知故障场景相匹配,则本发明可以相匹配的多个已知故障场景中随机选取一个座位第一已知故障场景,或者可以由技术人员进行人工选定。
S105、利用与第一已知故障场景相对应的止损处理方式进行故障处理。
其中,止损处理方式可以为用于对目标系统所出现的故障进行处理和恢复的处理方式,比如服务重启、故障隔离、服务切换、版本回退、备份恢复、参数修改、流控、集群扩容、业务熔断和/或业务降级等处理措施。
具体的,本发明通过止损处理方式,可以对相应的故障场景进行故障恢复,使得目标系统由于故障场景所遭受的业务、交易和服务中断等问题,可以获得一定程度上的解决和恢复。
可以理解的是,已知故障场景的止损处理方式可以是已知的。因此,本发明在确定第一故障场景与第一已知故障场景相匹配时,可以利用与第一已知故障场景相对应的止损处理方式,对第一故障场景进行故障处理,使得目标系统由于第一故障场景所遭受的故障问题,可以获得有效解决和恢复,从而可以有效提高故障处理效率,保障系统运行效率。
还需要说明的是,传统的故障处理模式基于文档化的应急预案进行故障处置。此种模式下会有几个问题,一是基于文档化的应急势必会产生效率低下的问题。在生产应急中,故障场景很明确时还要手工线下搜索应急预案中处置方案的场景并不少见,在这个过程中可能还会伴随技术人员间的多次通信交互,基于此的故障处置时间会有很大的不确定性。如果故障系统管理员A角未在现场,不可控的因素会更多,处置效率会进一步降低;第二个问题是处置质量会受制于应急预案的质量,对编写应急预案的系统管理员的依赖程度会比较高。技术能力强处置经验多的系统管理员所编写的应急预案的质量可能会高,对应的很少进行事件处置的系统管理员对故障定位和恢复可能就会不那么熟练,处置的质量也会受影响。而本发明通过图1所示方法,可以实现对故障场景的自动识别和自动处置,可以有效减少人工工作量,保障故障场景的识别准确率和识别效率,提高故障处理效率。
本实施例提出的故障处理方法,可以响应于故障诊断指令,获得目标系统当前已出现的至少一个异常指标,从各异常指标中识别出至少一个关键指标,分别基于已识别出的各关键指标,确定目标系统当前的第一故障场景是否与已知故障场景组中的至少一个已知故障场景相匹配,如果是,则从已知故障场景组中确定与第一故障场景相匹配的第一已知故障场景,利用与第一已知故障场景相对应的止损处理方式进行故障处理,可以有效提高故障处理效率,保障系统运行效率。
基于图1所示,如图2所示,本实施例提出第二种故障处理方法。该方法还可以包括以下步骤:
S201、如果第一故障场景未与已知故障场景组中的任一已知故障场景相匹配,则确定第一故障场景为未知故障场景;
其中,未知故障场景可以为非已知故障场景的故障场景。
具体的,本发明可以在第一故障场景未已知故障场景组中的所有已知故障场景均未匹配时,确定第一故障场景为未知故障场景。
S202、利用训练好的场景匹配模型,从已知故障场景组中确定与第一故障场景相匹配的第二已知故障场景,利用与第二已知故障场景相对应的止损处理方式进行故障处理。
需要说明的是,本发明可以将对未知故障场景的识别问题,视作为是一个文本分类问题,对已知故障场景的由运维对象、异常指标、正常指标和指标值等元素构成的事件现象进行向量化表示,然后定义文本相似性的度量函数,训练出一个场景匹配模型,用于对未知故障场景进行分类,确定与未知故障场景的故障现象或故障特征的相似程度较大的已知故障场景。可以理解的是,场景匹配模型可以为一个文本分类模型,如K最邻近(K-NearestNeighbor,KNN)分类模型或支持向量机(support vector machines,SVM)分类模型等文本分类模型。
其中,好的度量函数能够使得类内相似度更大,类间相似度更小。在本实施例中,场景匹配模型既需要根据语义,还要根据实际上故障是否相似来识别未知故障场景,比如Weblogic FUllGC和内存OOM,这两种故障现象常常是伴随发生的,语义上的相似性可能不高,但实际上其故障现象的相似性很高。
具体的,本发明可以通过度量学习来学习出一个度量函数,也可以通过合理的人工定义来获得度量函数。
其中,本发明通过度量学习出的度量函数,可以包括有改进KNN算法的距离度量算法,如大边界最近邻(Large Margin Nerest Neighbor,LMNN)算法。
具体的,在通过人工定义来获得度量函数时,可以对故障对象和指标进行分类和分级管理,使用数字、字母和符号等组合字符对不同的故障对象和指标进行编码标识。其中,故障对象的分类分级可以按照CMDB构建,如下述表1所示;指标的分类分级按照指标体系构建(分为领域和子领域两种),如下述表2所示。
表1故障对象的分类分级表
Figure BDA0003396422480000101
Figure BDA0003396422480000111
表2指标的分类分级表
Figure BDA0003396422480000112
具体的,本发明可以按照表1和表2中的取值方式,将异常指标转换为相应的(a,b)格式的元素,其中,a可以表示故障对象的对应值,b可以标识指标的对应值。比如,当某个异常指标为平台上的物理机的业务所出现的故障,则本发明可以将该异常指标转换为(2.2,1.1)。
其中,在通过人工定义来获得度量函数时,本发明可以针对某个已知故障场景对应的已知故障指标集,分别对已知故障指标集中的各异常指标进行编码,使得单个异常指标可以由编码元素进行标识,从而使得已知故障指标集可以由编码元素构成的有序序列进行标识,如[(a1,b1),(a2,b2),……(am,bm)]。
具体的,本发明可以基于对已知故障指标集进行编码所获得的有序序列,对场景匹配模型进行训练,直至获得训练好的场景匹配模型。在对未知故障场景进行识别时,可以分别对未知故障场景对应的故障指标集中的各故障指标进行编码转换,从而获得相应的有序序列[(c1,d1),(c2,d2),……(cn,dn)],之后基于场景匹配模型和该有序序列进行未知故障场景的识别。
本实施例提出的故障处理方法,可以利用场景匹配模型来确定与未知故障场景相匹配的某个已知故障场景,之后使用该已知故障场景对应的止损处理方式来对未知故障场景进行故障恢复处理,进一步提高故障处理效率,保障系统运行效率。
基于图1所示方法,本实施例提出第三种故障处理方法。在该方法中,基于第一关键指标,确定第一故障场景是否与已知故障场景组中的至少一个已知故障场景相匹配,包括:
S301、确定第一关键指标对应的第三已知故障场景;其中,第三已知故障场景中包括至少一个预定义的场景指标;
其中,第一关键指标可以为某一个关键指标。
需要说明的是,本发明在确定出多个关键指标之后,可以分别基于各关键指标,来确定与第一故障场景相匹配的已知故障场景。具体的,本发明在基于第一关键指标确定与第一故障场景相匹配的已知故障场景的过程中,可以先行确定第一关键指标对应的第三已知故障场景,即包含第一关键指标的一个已知故障场景。
其中,场景指标可以为第三已知故障场景对应的已知故障指标集中的一个已知故障指标。可以理解的是,第一关键指标可以为第三已知故障场景所包含的一个场景指标。可选的,场景指标还可以包括正常指标。
S302、确定各异常指标中是否存在有除第一关键指标之外的场景指标,如果是,则执行S303;否则,禁止执行步骤S303。
具体的,本发明可以在目标系统当前已出现的各异常指标中,确定是否存在有除第一关键指标之外的第三已知故障场景中的场景指标,如果是,则可以执行步骤S303;否则可以禁止执行步骤S303,以避免无谓的资源消耗。
S303、在各异常指标中,确定除第一关键指标之外的各场景指标的出现时刻;
具体的,本发明可以在目标系统当前已出现的各异常指标中,先行确定除第一关键指标之外的第三已知故障场景的所有场景指标,之后分别确定各场景指标的出现时刻。
S304、从各出现时刻中确定最早出现时刻;
具体的,本发明可以从已确定的各场景指标的出现时刻中,确定出最早出现时刻。
S305、将第一关键指标的出现时刻减去最早出现时刻所获得的差值确定为第一差值;
具体的,本发明可以先行确定第一关键指标的出现时刻,之后将第一关键指标的出现时刻减去上述最早出现时刻,将相减所获得的差值确定为第一差值。
S306、基于第一差值,确定第一故障场景是否与第三已知故障场景相匹配。
可以理解的是,如果第一差值不小于零,则可以说明第一故障场景中最早出现的第三已知故障场景的场景指标不是第一关键指标,上述最早出现时刻即为第三已知故障场景的场景指标在第一故障场景中最早的出现时刻。而如果第一差值小于零,则可以说明第一故障场景中最早出现的第三已知故障场景的场景指标即为第一关键指标。
具体的,本发明在确定目标系统中开始出现第三已知故障场景的场景指标时,可以开始计时,确定在指定时长内是否出现第三已知故障场景的所有场景指标,如果是,则可以确定第一故障场景与第三已知故障场景相匹配,否则可以确定第一故障场景与第三已知故障场景不匹配。
需要说明的是,本发明可以分别将从各异常指标中识别出的各关键指标,均作为第一关键指标,来执行步骤S301、S302、S303、S304、S305和S306,以确定第一故障场景是否有相匹配的已知故障场景。
可选的,上述步骤S306可以包括:
如果第一差值大于预定义时长,则确定第一故障场景与第三已知故障场景不匹配。
其中,预定义时长可以为第三已知故障场景对应的时间窗口,即上述指定时长,其具体时长可以由技术人员根据实际情况设定,本发明对此不作限定。
具体的,当第一差值大于预定义时长时,可以认为目标系统在预定义时长内未出现第三已知故障场景的全部场景指标,此时可以说明第一故障场景与第三已知故障场景不匹配。
可选的,上述步骤S306可以包括:
如果第一差值不小于零且不大于预定义时长,确定各异常指标中是否已包括第三已知故障场景中的全部场景指标;
如果是,则确定第一故障场景与第三已知故障场景相匹配;
否则,则在从最早出现时刻开始的预定义时长内,在目标系统中检测是否出现第三已知故障场景中的全部场景指标,如果是,确定第一故障场景与第三已知故障场景相匹配,否则确定第一故障场景与第三已知故障场景不匹配。
具体的,当第一差值不小于零且不大于预定义时长时,可以说明第一故障场景中最早出现的第三已知故障场景的场景指标不是第一关键指标,且上述最早出现时刻即为第三已知故障场景的场景指标在第一故障场景中最早的出现时刻。
可选的,上述步骤S306可以包括:
如果第一差值小于零,则在从第一关键指标的出现时刻开始的预定义时长内,在目标系统中检测是否出现第三已知故障场景中的全部场景指标,如果是,确定第一故障场景与第三已知故障场景相匹配,否则确定第一故障场景与第三已知故障场景不匹配。
具体的,当第一差值小于零时,可以说明第一故障场景中最早出现的第三已知故障场景的场景指标即为第一关键指标。此时,如果在从第一关键指标的出现时刻开始的预定义时长内,目标系统中出现第三故障中的全部场景指标,则可以确定第一故障场景与第三已知故障场景相匹配;如果在从第一关键指标的出现时刻开始的预定义时长内,目标系统中未出现第三故障中的全部场景指标,则可以确定第一故障场景与第三已知故障场景不匹配。
可选的,在上述第三种故障处理方法中,还可以包括步骤S307;其中:
S307、如果各异常指标中未存在有除第一关键指标之外的场景指标,则在从第一关键指标的出现时刻开始的预定义时长内,在目标系统中检测是否出现第三已知故障场景中的全部场景指标,如果是,确定第一故障场景与第三已知故障场景相匹配,否则确定第一故障场景与第三已知故障场景不匹配。
还需要说明的是,本发明可以按照树的形式和传递关系,将不同的场景指标作为树的根节点或叶子节点,构建已知故障场景。而构建出的不同已知故障场景即可以视作为已知故障场景树。其中,止损处理方式即可以为叶子节点的条件触发动作。其中,从根节点到叶子节点的一条路径即可以对应一个已知故障场景集,即可以对应一个已知故障场景。进一步的,本发明可以将构件的树和排障树合并在一起,而实际上排障树必然包含已知故障树(除了条件触发动作)。
具体的,本发明将已知故障场景树形化,可以有利于组织数据结构,可以清晰表达故障的因果性,也可以便于和排障树对接,并且可以使得已知故障场景的匹配和未知故障场景的分析合并在一起。
为更好的说明已知故障场景树的结构,本发明提出并结合图3进行介绍。在图3中,已知故障场景树和未知故障场景的故障指标进行了合并,已知故障场景只是某一条分支的一部分而不会跨分支,此时,含有已知故障场景节点(即根节点或叶子节点)的分支中的所有已知故障场景节点及其止损处理方式,可以组成一个已知故障场景和相应的止损处理方式。
在图3中,方框可以标识一个故障场景节点,圆圈可以标识一个已知故障场景对应的止损方案。其中,图3中的未知故障场景节点可以包括“交易码-系统成功率低”、“系统由上线-三日内”、“交易所在AP-MQ-队列句柄未释放”、“交易所在AP-weblogic-连接池满”、“交易所用Oracle—数据库表-有大量行锁”和“交易所用Oracle--全部索引失效”,图3中的已知故障场景节点可以包括“交易所用Oracle--全部索引失效”、“交易所用Oracle--AAS高”、“交易所在AP-CPU等待IO高”、“交易所用Oracle机器--CPU使用率高”和“Oracle所用SAN存储--IOPS超限”;图3中已知故障场景节点的止损方案可以包括“版本回退”、“重启服务”、“杀产生行锁的会话”和“重建索引”。
当告警或者异常触发排障时(不一定触发根节点),本发明可以优先在树中的已知故障场景节点中搜索,在不影响其效率的情况下,同时开始更新未知故障场景节点。在按照图1所示方法可以匹配到已知故障场景时,则直接输出相应的止损处理方式,并且继续进行排障树的根因分析;如果匹配不到,那么依然继续排障树的根因分析,并且利用排障树中的异常节点(即异常指标)组合做未知故障场景的匹配和止损处理方式的推荐。
还需要说明的是,基于图3所示,本发明在确定上述(a1,b1)与(c1,d1)的相似性时,可以使用斯皮尔曼(等级)相关系数(Spearman Rank Correlation,SRC)的方式进行确定。因为故障序列的取值没有考虑数据的原始数值,而是按照一定方式按等级对数据排名,很适合用SRC。而由于m与n的值很可能是不同的,考虑到一般在故障场景记录中没有出现的对象和指标都是对止损无关紧要的,因此将故障场景记录和排障树提供的异常现象等级化后,分别按照对象领域和指标领域对齐,只对这些对齐的序列计算SRC,并对得到的两个结果取加权平均。
还需要说明的是,基于图3所示,本发明在确定上述(a1,b1)与(c1,d1)的相似性时,本发明也可以将较短的序列作为滑动窗口,沿着长度较长的序列依次滑动一个单位长度,每次滑动都得到一个滑动相似度,最后将所有的滑动相似度求加权平均值得到最终的相似度。由于故障序列都是有序的,即逐渐逼近故障根因,而根因的相似性对止损推荐贡献很大,因此滑动时要从尾端对齐后开始滑动,并且权重设置为依次递减(设置规则为每次衰减2倍,累积和为100%)。
还需要说明的是,本发明在进行对未知故障场景的匹配过程中,可以积累一定量的实例化的匹配数据,此时可以进一步利用该匹配数据进行对上述场景匹配模型的训练,实现对数据的利用率。
本实施例提供的故障处理方法,可以实现第一故障场景与已知故障场景的匹配过程,从而进一步提高故障处理效率,保障系统运行效率。
与图1所示步骤相对应,如图4所示,本实施例提出第一种故障处理装置。该装置可以包括:第一获得单元101、第一识别单元102、第一确定单元103、第二确定单元104和第一处理单元105;其中:
第一获得单元101,用于响应于故障诊断指令,获得目标系统当前已出现的至少一个异常指标;
第一识别单元102,用于从各异常指标中识别出至少一个关键指标;
第一确定单元103,用于分别基于已识别出的各关键指标,确定目标系统当前的第一故障场景是否与已知故障场景组中的至少一个已知故障场景相匹配,如果是,则触发第二确定单元104;
第二确定单元104,用于从已知故障场景组中确定与第一故障场景相匹配的第一已知故障场景;
第一处理单元105,用于利用与第一已知故障场景相对应的止损处理方式进行故障处理。
需要说明的是,第一获得单元101、第一识别单元102、第一确定单元103、第二确定单元104和第一处理单元105可以分别参照图1中的步骤S101、S102、S103、S104和S105的相关说明,此处不再赘述。
可选的,装置还包括:第三确定单元、第四确定单元和第二处理单元;
第三确定单元,用于如果第一故障场景未与已知故障场景组中的任一已知故障场景相匹配,则确定第一故障场景为未知故障场景;
第四确定单元,用于利用训练好的场景匹配模型,从已知故障场景组中确定与第一故障场景相匹配的第二已知故障场景;
第二处理单元,用于利用与第二已知故障场景相对应的止损处理方式进行故障处理。
可选的,基于第一关键指标,确定第一故障场景是否与已知故障场景组中的至少一个已知故障场景相匹配,设置为:
确定第一关键指标对应的第三已知故障场景;其中,第三已知故障场景中包括至少一个预定义的场景指标;
确定各异常指标中是否存在有除第一关键指标之外的场景指标;
如果是,则在各异常指标中,确定除第一关键指标之外的各场景指标的出现时刻,从各出现时刻中确定最早出现时刻;
将第一关键指标的出现时刻减去最早出现时刻所获得的差值确定为第一差值;
基于第一差值,确定第一故障场景是否与第三已知故障场景相匹配。
可选的,基于第一差值,确定第一故障场景是否与第三已知故障场景相匹配,设置为:
如果第一差值大于预定义时长,则确定第一故障场景与第三已知故障场景不匹配。
可选的,基于第一差值,确定第一故障场景是否与第三已知故障场景相匹配,设置为:
如果第一差值不小于零且不大于预定义时长,确定各异常指标中是否已包括第三已知故障场景中的全部场景指标;
如果是,则确定第一故障场景与第三已知故障场景相匹配;
否则,则在从最早出现时刻开始的预定义时长内,在目标系统中检测是否出现第三已知故障场景中的全部场景指标,如果是,确定第一故障场景与第三已知故障场景相匹配,否则确定第一故障场景与第三已知故障场景不匹配。
可选的,基于第一差值,确定第一故障场景是否与第三已知故障场景相匹配,设置为:
如果第一差值小于零,则在从第一关键指标的出现时刻开始的预定义时长内,在目标系统中检测是否出现第三已知故障场景中的全部场景指标,如果是,确定第一故障场景与第三已知故障场景相匹配,否则确定第一故障场景与第三已知故障场景不匹配。
可选的,装置还包括:检测单元、第五确定单元和第六确定单元;其中:
检测单元,用于如果各异常指标中未存在有除第一关键指标之外的场景指标,则在从第一关键指标的出现时刻开始的预定义时长内,在目标系统中检测是否出现第三已知故障场景中的全部场景指标,如果是,则触发第五确定单元;否则触发第六确定单元;
第五确定单元,用于确定第一故障场景与第三已知故障场景相匹配;
第六确定单元,用于确定第一故障场景与第三已知故障场景不匹配
本实施例提出的故障处理装置,可以有效提高故障处理效率,保障系统运行效率。
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括要素的过程、方法、商品或者设备中还存在另外的相同要素。
以上仅为本申请的实施例而已,并不用于限制本申请。对于本领域技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本申请的权利要求范围之内。

Claims (10)

1.一种故障处理方法,其特征在于,包括:
响应于故障诊断指令,获得目标系统当前已出现的至少一个异常指标;
从各所述异常指标中识别出至少一个关键指标;
分别基于已识别出的各所述关键指标,确定所述目标系统当前的第一故障场景是否与已知故障场景组中的至少一个已知故障场景相匹配;
如果是,则从所述已知故障场景组中确定与所述第一故障场景相匹配的第一已知故障场景,利用与所述第一已知故障场景相对应的止损处理方式进行故障处理。
2.根据权利要求1所述的故障处理方法,其特征在于,所述方法还包括:
如果所述第一故障场景未与所述已知故障场景组中的任一已知故障场景相匹配,则确定所述第一故障场景为未知故障场景;
利用训练好的场景匹配模型,从所述已知故障场景组中确定与所述第一故障场景相匹配的第二已知故障场景,利用与所述第二已知故障场景相对应的止损处理方式进行故障处理。
3.根据权利要求1所述的故障处理方法,其特征在于,基于第一关键指标,确定所述第一故障场景是否与所述已知故障场景组中的至少一个已知故障场景相匹配,包括:
确定所述第一关键指标对应的第三已知故障场景;其中,所述第三已知故障场景中包括至少一个预定义的场景指标;
确定各所述异常指标中是否存在有除所述第一关键指标之外的所述场景指标;
如果是,则在各所述异常指标中,确定除所述第一关键指标之外的各所述场景指标的出现时刻,从各所述出现时刻中确定最早出现时刻;
将所述第一关键指标的出现时刻减去所述最早出现时刻所获得的差值确定为第一差值;
基于所述第一差值,确定所述第一故障场景是否与所述第三已知故障场景相匹配。
4.根据权利要求3所述的故障处理方法,其特征在于,所述基于所述第一差值,确定所述第一故障场景是否与所述第三已知故障场景相匹配,包括:
如果所述第一差值大于预定义时长,则确定所述第一故障场景与所述第三已知故障场景不匹配。
5.根据权利要求3所述的故障处理方法,其特征在于,所述基于所述第一差值,确定所述第一故障场景是否与所述第三已知故障场景相匹配,包括:
如果所述第一差值不小于零且不大于所述预定义时长,确定各所述异常指标中是否已包括所述第三已知故障场景中的全部所述场景指标;
如果是,则确定所述第一故障场景与所述第三已知故障场景相匹配;
否则,则在从所述最早出现时刻开始的所述预定义时长内,在所述目标系统中检测是否出现所述第三已知故障场景中的全部所述场景指标,如果是,确定所述第一故障场景与所述第三已知故障场景相匹配,否则确定所述第一故障场景与所述第三已知故障场景不匹配。
6.根据权利要求3所述的故障处理方法,其特征在于,所述基于所述第一差值,确定所述第一故障场景是否与所述第三已知故障场景相匹配,包括:
如果所述第一差值小于零,则在从所述第一关键指标的出现时刻开始的所述预定义时长内,在所述目标系统中检测是否出现所述第三已知故障场景中的全部所述场景指标,如果是,确定所述第一故障场景与所述第三已知故障场景相匹配,否则确定所述第一故障场景与所述第三已知故障场景不匹配。
7.根据权利要求3所述的故障处理方法,其特征在于,所述方法还包括:
如果各所述异常指标中未存在有除所述第一关键指标之外的所述场景指标,则在从所述第一关键指标的出现时刻开始的所述预定义时长内,在所述目标系统中检测是否出现所述第三已知故障场景中的全部所述场景指标,如果是,确定所述第一故障场景与所述第三已知故障场景相匹配,否则确定所述第一故障场景与所述第三已知故障场景不匹配。
8.一种故障处理装置,其特征在于,包括:第一获得单元、第一识别单元、第一确定单元、第二确定单元和第一处理单元;其中:
所述第一获得单元,用于响应于故障诊断指令,获得目标系统当前已出现的至少一个异常指标;
所述第一识别单元,用于从各所述异常指标中识别出至少一个关键指标;
所述第一确定单元,用于分别基于已识别出的各所述关键指标,确定所述目标系统当前的第一故障场景是否与已知故障场景组中的至少一个已知故障场景相匹配,如果是,则触发所述第二确定单元;
所述第二确定单元,用于从所述已知故障场景组中确定与所述第一故障场景相匹配的第一已知故障场景;
所述第一处理单元,用于利用与所述第一已知故障场景相对应的止损处理方式进行故障处理。
9.根据权利要求8所述的故障处理装置,其特征在于,所述装置还包括:第三确定单元、第四确定单元和第二处理单元;
所述第三确定单元,用于如果所述第一故障场景未与所述已知故障场景组中的任一已知故障场景相匹配,则确定所述第一故障场景为未知故障场景;
所述第四确定单元,用于利用训练好的场景匹配模型,从所述已知故障场景组中确定与所述第一故障场景相匹配的第二已知故障场景;
所述第二处理单元,用于利用与所述第二已知故障场景相对应的止损处理方式进行故障处理。
10.根据权利要求8所述的故障处理装置,其特征在于,基于第一关键指标,确定所述第一故障场景是否与所述已知故障场景组中的至少一个已知故障场景相匹配,设置为:
确定所述第一关键指标对应的第三已知故障场景;其中,所述第三已知故障场景中包括至少一个预定义的场景指标;
确定各所述异常指标中是否存在有除所述第一关键指标之外的所述场景指标;
如果是,则在各所述异常指标中,确定除所述第一关键指标之外的各所述场景指标的出现时刻,从各所述出现时刻中确定最早出现时刻;
将所述第一关键指标的出现时刻减去所述最早出现时刻所获得的差值确定为第一差值;
基于所述第一差值,确定所述第一故障场景是否与所述第三已知故障场景相匹配。
CN202111485663.3A 2021-12-07 2021-12-07 一种故障处理方法及装置 Pending CN114138610A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111485663.3A CN114138610A (zh) 2021-12-07 2021-12-07 一种故障处理方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111485663.3A CN114138610A (zh) 2021-12-07 2021-12-07 一种故障处理方法及装置

Publications (1)

Publication Number Publication Date
CN114138610A true CN114138610A (zh) 2022-03-04

Family

ID=80384541

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111485663.3A Pending CN114138610A (zh) 2021-12-07 2021-12-07 一种故障处理方法及装置

Country Status (1)

Country Link
CN (1) CN114138610A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114553675A (zh) * 2022-03-24 2022-05-27 中国联合网络通信集团有限公司 故障网元处理方法、装置及存储介质
CN115941028A (zh) * 2022-12-01 2023-04-07 中国人民解放军61096部队 地面站故障定位方法、装置和电子设备

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114553675A (zh) * 2022-03-24 2022-05-27 中国联合网络通信集团有限公司 故障网元处理方法、装置及存储介质
CN114553675B (zh) * 2022-03-24 2023-05-09 中国联合网络通信集团有限公司 故障网元处理方法、装置及存储介质
CN115941028A (zh) * 2022-12-01 2023-04-07 中国人民解放军61096部队 地面站故障定位方法、装置和电子设备
CN115941028B (zh) * 2022-12-01 2024-01-19 中国人民解放军61096部队 地面站故障定位方法、装置和电子设备

Similar Documents

Publication Publication Date Title
US9652318B2 (en) System and method for automatically managing fault events of data center
JP6643211B2 (ja) 異常検知システム及び異常検知方法
US9612898B2 (en) Fault analysis apparatus, fault analysis method, and recording medium
JP5141762B2 (ja) トラブル対処システム、方法およびそのためのプログラム
CN110958136A (zh) 一种基于深度学习的日志分析预警方法
KR101892516B1 (ko) 이기종 네트워크의 장애예측 방법, 장치 및 프로그램
CN114138610A (zh) 一种故障处理方法及装置
US20220100963A1 (en) Event extraction from documents with co-reference
US20220100772A1 (en) Context-sensitive linking of entities to private databases
US10628250B2 (en) Search for information related to an incident
US11551085B2 (en) Method, device, and computer program product for error evaluation
CN113590451B (zh) 一种根因定位方法、运维服务器及存储介质
US20220100967A1 (en) Lifecycle management for customized natural language processing
US20240028955A1 (en) Methods and systems for using machine learning with inference models to resolve performance problems with objects of a data center
Thaler et al. Towards a neural language model for signature extraction from forensic logs
CN115617554A (zh) 基于时间感知的系统故障预测方法、装置、设备及介质
CN115514627A (zh) 一种故障根因定位方法、装置、电子设备及可读存储介质
US20230376758A1 (en) Multi-modality root cause localization engine
KR102149930B1 (ko) 네트워크 장애 처리 시스템 및 방법
WO2022072237A1 (en) Lifecycle management for customized natural language processing
Ganatra et al. Detection is better than cure: A cloud incidents perspective
CN114416479A (zh) 一种基于流外正则化的日志序列异常检测方法
CN117873839A (zh) 复杂算力系统的故障检测方法、装置、设备和存储介质
CN118012727A (zh) 一种基于异构图注意力神经网络的日志序列异常检测方法
Bambharolia et al. Failure prediction and detection in cloud datacenters

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination