CN115913919A - 一种故障处理方法、案例库构建方法及相关设备 - Google Patents

一种故障处理方法、案例库构建方法及相关设备 Download PDF

Info

Publication number
CN115913919A
CN115913919A CN202211446359.2A CN202211446359A CN115913919A CN 115913919 A CN115913919 A CN 115913919A CN 202211446359 A CN202211446359 A CN 202211446359A CN 115913919 A CN115913919 A CN 115913919A
Authority
CN
China
Prior art keywords
fault
event
server
failure
historical
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211446359.2A
Other languages
English (en)
Inventor
王楚楚
董凌
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
XFusion Digital Technologies Co Ltd
Original Assignee
XFusion Digital Technologies Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by XFusion Digital Technologies Co Ltd filed Critical XFusion Digital Technologies Co Ltd
Priority to CN202211446359.2A priority Critical patent/CN115913919A/zh
Publication of CN115913919A publication Critical patent/CN115913919A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Debugging And Monitoring (AREA)

Abstract

本申请实施例公开一种故障处理方法、案例库构建方法及相关设备,方法包括:对服务器故障的日志进行解析,得到服务器故障的故障原因信息;基于故障原因信息,确定与故障原因信息匹配的参考故障标签;基于与故障原因信息匹配的参考故障标签,从故障解决案例库中确定服务器故障对应的目标故障解决案例,服务器故障对应的目标故障解决案例用于处理服务器故障;故障解决案例库包括一个或多个故障解决案例,一个故障解决案例关联一个或多个参考故障标签;输出服务器故障对应的目标故障解决案例。通过上述方式,可提高故障解决案例的获取效率,从而提高故障处理效率。

Description

一种故障处理方法、案例库构建方法及相关设备
技术领域
本申请涉及计算机技术领域,尤其涉及一种故障处理方法、案例库构建方法及相关设备。
背景技术
随着计算机技术的发展,当今社会对计算能力的要求越来越高,算力的基础设备提供者—服务器也进入了需求大爆发的时代。低故障率、故障后快速定位恢复业务是服务器使用者的关键诉求。然而,目前在服务器出现故障的时候,主要依靠相关人员收集与服务器相关的信息,并将所收集到的信息发送给运维人员进行故障分析,并基于故障分析给出服务器故障的解决方案;但这种方式导致故障处理效率低下。
发明内容
本申请实施例提供了一种故障处理方法、案例库构建方法及相关设备,可以提升故障解决案例的获取效率以及准确率,进而提高故障处理效率。
第一方面,本申请实施例提供了一种故障处理方法,该方法包括:对服务器故障的日志进行解析,得到所述服务器故障的故障原因信息;基于所述故障原因信息,确定与所述故障原因信息匹配的参考故障标签;基于与所述故障原因信息匹配的参考故障标签,从故障解决案例库中确定所述服务器故障对应的目标故障解决案例,所述服务器故障对应的目标故障解决案例用于处理所述服务器故障;所述故障解决案例库包括一个或多个故障解决案例,一个故障解决案例关联一个或多个参考故障标签;输出所述服务器故障对应的目标故障解决案例。
在该技术方案中,通过对服务器故障的日志进行自动解析,避免了人工对服务器故障分析所带来的理解误差,在提高了故障解析效率的同时,还提升了故障解析的准确性。另外,根据与故障原因信息匹配的参考故障标签可从故障解决案例库中较为准确地获取用于解决该服务器故障的故障解决案例,提高了故障解决案例获取的准确性,进而提高了故障处理效率。
在一个实施例中,所述对服务器故障的日志进行解析,得到所述服务器故障的故障原因信息,包括:对服务器故障的日志进行解压处理,得到解压日志;从所述解压日志中提取多个事件,并从所述多个事件中确定事件集合,所述事件集合与所述服务器故障关联;根据所述事件集合从故障诊断知识图谱中,确定所述服务器故障的故障原因信息。
在该技术方案中,通过提取多个事件可获取有效的事件,去除无效事件,这有利于后续确定故障原因信息;此外,从多个事件中确定与服务器故障有关的事件集合,也有利于准确确定服务器故障的故障原因信息。
在一个实施例中,从所述多个事件中确定事件集合,包括:根据事件发生时间,对所述多个事件进行排序,得到排序后的所述多个事件;从排序后的所述多个事件中确定事件集合,所述事件集合中的每个事件的事件发生时间与排序后的所述多个事件中最后一个事件的事件发生时间之间的差值在预设范围内。
在该技术方案中,通过事件发生时间可对多个事件排序,可快速从排序后的多个事件中确定某个时间段的事件。
在一个实施例中,所述解压日志中包括多个文件,所述从所述多个事件中确定事件集合,包括:确定各个事件所在的文件类型;按照各个事件所在的文件类型,对所述多个事件进行排序,得到排序后的所述多个事件;从排序后的所述多个事件中确定事件集合,所述事件集合中的事件所在的文件类型为目标文件类型。
在该技术方案中,通过文件类型可对多个事件排序,可快速确定每个文件中包含的事件从而快速确定目标文件类型下的事件,提升了故障原因信息的确定的效率。
在一个实施例中,该方法还包括:获取服务器故障的相关信息;对所述相关信息进行实体词提取,得到多个实体词,每个实体词为服务器故障的事件或者故障原因信息;确定所述多个实体词之间的关联关系;根据所述多个实体词以及所述多个实体词之间的关联关系构建故障诊断知识图谱。在该技术方案中,通过构建故障诊断知识图谱,可实现自动化根据事件集合确定故障原因信息。
在一个实施例中,所述事件集合包括多个标志事件以及每个标志事件的关联事件;所述根据所述事件集合从故障诊断知识图谱中,确定所述服务器故障的故障原因信息,包括:根据所述多个标志事件将所述事件集合分为多个事件子集合,一个事件子集合包括一个标志事件以及所述一个标志事件的关联事件;根据每个事件子集合从所述故障诊断知识图谱中,确定所述每个事件子集合对应的故障原因信息。
在该技术方案中,通过标志事件可将事件集合划分为多个事件子集合,可有效地确定每个标志事件对应的故障原因信息。
在一个实施例中,所述目标故障解决案例的数量为多个,所述输出所述服务器故障对应的目标故障解决案例,包括:确定与所述故障原因信息匹配的参考故障标签在各个目标故障解决案例中所占比重;根据与所述故障原因信息匹配的参考故障标签在各个目标故障解决案例中所占比重,对所述各个目标故障解决案例进行排序;输出排序后的多个目标故障解决案例。
在该技术方案中,通过与故障原因信息匹配的参考故障标签在各个目标故障解决案例中所占比重对各个目标故障解决案例进行排序,从而可直观确定各个目标故障解决案例与服务器故障之间的相关性。
在一个实施例中,根据与所述故障原因信息匹配的参考故障标签在各个目标故障解决案例中所占比重,对所述各个目标故障解决案例进行排序,包括:获取各个目标故障解决案例的历史使用次数;所述与所述故障原因信息匹配的参考故障标签在各个目标故障解决案例中所占比重、以及所述各个目标故障解决案例的历史使用次数,对所述各个目标故障解决案例进行排序。
在该技术方案中,通过与故障原因信息匹配的参考故障标签所占比重以及历史使用次数可实现对各个目标故障解决案例进行精准排序。
在一个实施例中,根据与所述故障原因信息匹配的参考故障标签在各个目标故障解决案例中所占比重,对所述各个目标故障解决案例进行排序,包括:获取各个目标故障解决案例的成功率;根据与所述故障原因信息匹配的参考故障标签在各个目标故障解决案例中所占比重、以及各个目标故障解决案例的成功率,对所述各个目标故障解决案例进行排序。
在该技术方案中,通过与故障原因信息匹配的参考故障标签所占比重以及成功率可实现对各个目标故障解决案例进行精准排序,从而可直观确定各个目标故障解决案例与服务器故障之间的相关性。
第二方面,本申请实施例提供了一种案例库构建方法,该方法包括:获取服务器故障的历史故障日志以及所述历史故障日志对应的历史故障解决案例;对所述历史故障日志进行解析,得到所述服务器故障的历史故障原因信息;基于所述服务器故障的历史故障原因信息,生成所述历史故障解决案例对应的参考故障标签;基于所述历史故障解决案例与对应的参考故障标签构建故障解决案例库。
在该技术方案中,通过对服务器故障的故障日志进行自动解析,避免了人工对服务器故障分析所带来的理解误差,在提高了故障解析效率的同时,还提升了故障解析的准确性。同时,基于历史故障原因信息可生成历史故障解决案例对应的参考故障标签,并将历史故障解决案例与该参考故障标签构建故障解决案例库,有利于后续根据参考故障标签从故障解决案例库快速获取相应的故障解决案例。
在一个实施例中,对所述历史故障日志进行解析,得到所述服务器故障的历史故障原因信息,包括:对所述历史故障日志进行解压处理,得到解压故障日志;从所述解压故障日志中提取多个历史事件,并从所述多个历史事件中确定故障事件集合,所述故障事件集合与所述服务器故障关联;根据所述故障事件集合从故障诊断知识图谱中,确定所述服务器故障的历史故障原因信息。
在该技术方案中,通过提取多个历史事件可获取有效的事件,去除无效事件,这有利于后续快速准确地确定历史故障原因信息;此外,从多个历史事件中确定与服务器故障有关的事件集合,也有利于准确确定服务器故障的历史故障原因信息。
在一个实施例中,故障事件集合包括多个标志故障事件以及每个标志故障事件的关联故障事件;根据所述故障事件集合从故障诊断知识图谱中,确定所述服务器故障的历史故障原因信息,包括:根据所述多个标志故障事件将所述故障事件集合分为多个故障事件子集合,一个故障事件子集合包括一个标志故障事件以及所述一个标志故障事件的关联故障事件;根据每个故障事件子集合从故障诊断知识图谱中,确定所述每个故障事件子集合对应的历史故障原因信息。
在一个实施例中,当所述服务器故障的历史故障原因信息的数量为一个或多个时,所述基于所述服务器故障的历史故障原因信息,生成所述历史故障解决案例对应的参考故障标签,包括:将各个历史故障原因信息直接作为所述历史故障解决案例对应的参考故障标签;或者,将所述各个历史故障原因信息进行整合处理,得到所述历史故障解决案例对应的参考故障标签;或者,按照参考故障标签生成规则,分别对每个历史故障原因信息进行转换,得到历史故障解决案例的一个或多个参考故障标签。
在该技术方案中,将各个历史故障原因信息直接作为参考故障标签,可得到更加多样化地参考故障标签。而通过对各个历史故障原因信息进行整合处理,可得到更加准确地参考故障标签。
在一个实施例中,该方法还包括:获取服务器的产品设计文档,所述产品设计文档中包含所述服务器故障的故障原因信息,以及所述故障原因信息对应的故障解决案例;根据所述产品设计文档中的故障原因信息,生成所述故障解决案例对应参考故障标签;将所述故障解决案例以及对应的参考故障标签关联存储至所述故障解决案例库。
在该技术方案中,通过产品设计文档中的故障原因信息和对应的故障解决案例可以丰富故障解决案例库,从而提升故障解决案例库的丰富性,进而可以提升从故障解决案例库中查找服务器故障的故障解决案例的准确性。
在一个实施例中,从所述多个历史事件中确定故障事件集合,包括:根据事件发生时间,对所述多个历史事件进行排序,得到排序后的所述多个历史事件;从排序后的所述多个历史事件中确定故障事件集合,所述故障事件集合中的每个历史事件的事件发生时间与排序后的所述多个历史事件中最后一个历史事件的事件发生时间之间的差值在预设范围内。
在该技术方案中,通过事件发生时间可对多个历史事件排序,可快速从排序后的多个历史事件中确定某个时间段的历史事件。
在一个实施例中,所述解压故障日志中包括多个文件,所述从所述多个历史事件中确定故障事件集合,包括:确定各个历史事件所在的文件类型;按照各个历史事件所在的文件类型,对所述多个历史事件进行排序,得到排序后的所述多个历史事件;从排序后的所述多个历史事件中确定故障事件集合,所述故障事件集合中的历史事件所在的文件类型为目标文件类型。
在该技术方案中,通过文件类型可对多个历史事件排序,可快速确定每个文件中包含的历史事件,从而快速确定目标文件类型下的历史事件,提升了故障原因信息的确定的效率。
第三方面,本申请实施例提供一种故障处理装置,该装置包括:
解析单元,用于对服务器故障的日志进行解析,得到所述服务器故障的故障原因信息;
确定单元,用于基于所述故障原因信息,确定与所述故障原因信息匹配的参考故障标签;
所述确定单元,还用于基于与所述故障原因信息匹配的参考故障标签,从故障解决案例库中确定所述服务器故障对应的目标故障解决案例,所述服务器故障对应的目标故障解决案例用于处理所述服务器故障;所述故障解决案例库包括一个或多个故障解决案例,一个故障解决案例关联一个或多个参考故障标签;
输出单元,用于输出所述服务器故障对应的目标故障解决案例。
第四方面,本申请实施例提供一种故障处理装置,该装置包括:
获取单元,用于获取服务器故障的历史故障日志以及所述历史故障日志对应的历史故障解决案例;
处理单元,用于对所述历史故障日志进行解析,得到所述服务器故障的历史故障原因信息;
处理单元,还用于基于所述服务器故障的历史故障原因信息,生成所述历史故障解决案例对应的参考故障标签;
处理单元,还用于基于所述历史故障解决案例与对应的参考故障标签构建故障解决案例库。
第五方面,本申请实施例提供一种故障处理设备,该故障处理设备包括:
处理器,适用于执行计算机程序;
计算机可读存储介质,计算机可读存储介质中存储有计算机程序,计算机程序被处理器执行时,实现如上述第一方面的方法或者上述第二方面的方法。
第六方面,本申请实施例提供一种计算机可读存储介质,该计算机可读存储介质存储有计算机程序,该计算机程序被处理器加载并执行上述第一方面的方法或者上述第二方面的方法。
第七方面,本申请实施例提供了一种计算机程序产品,该计算机程序产品包括计算机程序,该计算机程序存储在计算机可读存储介质中。该故障处理设备的处理器从计算机可读存储介质读取该计算机程序,处理器执行该计算机程序,使得该故障处理设备执行上述第一方面的方法或者上述第二方面的方法。
附图说明
图1a是本申请实施例提供的一种故障处理系统的架构示意图;
图1b是本申请实施例提供的一种故障解决案例搜索的流程示意图;
图2是本申请实施例提供的一种故障处理方法的流程示意图;
图3是本申请实施例提供的一种故障诊断知识图谱的示意图;
图4是本申请实施例提供的一种每个事件子集合对应的故障原因信息的确定示意图;
图5是本申请实施例提供的一种日志故障提取模块的示意图;
图6a是本申请实施例提供的另一种故障处理方法的流程示意图;
图6b是本申请实施例提供的一种案例库构建方法的流程示意图;
图7是本申请实施例提供的一种故障解决案例库的生成示意图;
图8是本申请实施例提供的再一种故障处理方法的流程示意图;
图9是本申请实施例提供的另一种每个事件子集合对应的故障原因信息的确定示意图;
图10是本申请实施例提供的多个故障解决案例的输出示意图;
图11是本申请实施例提供的一种故障处理装置的结构示意图;
图12是本申请实施例提供的一种案例库构建装置的结构示意图;
图13是本申请实施例提供的一种故障处理设备的结构示意图。
具体实施方式
接下来对本申请实施例中所涉及到的名词进行相关阐述。
(1)IPMI(智能平台管理接口,Intelligent Platform Management Interface)
IPMI是一套为自主计算机子系统定义的计算机接口规范,用于提供独立于主机系统的CPU(中央处理器,central processing unit)、固件(BIOS(基本输入输出系统,BasicInput Output System)或UEFI(统一可扩展固件接口,Unified Extensible FirmwareInterface))和操作系统等软硬件的管理和检视功能,IPMI定义了一套系统管理员接口,可用于计算机系统的带外管理员操作监视。IPMI提供的接口服务可以包括但不限于服务器物理健康状态检测、服务器软硬件信息和运行状态查询、远程安装操作系统。
(2)BMC(基板管理控制器,Baseboard Management Controller)
基板管理控制器提供IPMI架构中的智能特性,基板管理控制器是嵌入在计算机(通常是服务器)主板上的专用微控制器,BMC主要负责管理系统软件和平台硬件之间的接口。
(3)故障解决案例库
故障解决案例库中包含一些能够解决服务器故障的故障解决案例,故障解决案例库是根据服务器出现的故障,总结故障处理经验而输出的能够解决故障的指导方案,任意一个故障解决案例中可以包含但不限于:服务器故障的故障原因信息、解决服务器故障的具体流程。其中,故障解决案例库中的故障解决案例均可以以图片或者文字形式存在。例如,故障解决案例1可以以图片形式存在,而故障解决案例2可以以文字形式存在,本申请对此不作限定。
(4)MTTR(平均修复时间,Mean time to repair)
平均修复时间是指修复服务器并将其恢复到完整功能所需的时间量。其中,计算MTTR的方法为,维护时间的总和除以维护次数之和。
(5)知识图谱
知识图谱是结构化的语义知识库,用于以符号形式描述物理世界中的概念及其相互关系。其基本组成单位是“实体-关系-实体”三元组,以及实体及其相关属性-值对,实体间通过关系相互联结,构成网状的知识结构。在本申请实施例中所涉及的故障诊断知识图谱是以与服务器相关的事件以及故障原因信息作为实体词构建的,其中在故障诊断知识图谱中实体词之间的关联关系则可以是事件与事件之间的关联关系,事件与故障原因信息之间的关联关系。
接下来对本申请实施例所提供的故障处理系统进行相关阐述,请参见图1a,图1a是本申请实施例提供的一种故障处理系统,该故障处理系统可包括用户设备101、故障处理设备102、以及服务器103。故障处理系统中的用户设备101与故障处理设备102通过有线或无线通信方式进行直接或间接地连接。用户设备101可以与服务器103通过有线或无线通信方式进行直接或间接地连接。其中:
用户设备101可以是指专用于监测服务器103的设备。在该用户设备101中,运维人员可通过用户设备101利用IPMI对服务器103进行监测。当用户设备101监测到服务器103发生故障时,可收集服务器103发生故障的事件,并将这些事件进行打包压缩,得到服务器103故障的日志,并将该服务器103故障的日志发送给故障处理设备102。
故障处理设备102包含日志故障提取模块以及带有参考故障标签的故障解决案例库,在该故障解决案例库中包括一个或多个故障解决案例,每个故障解决案例可以关联一个或多个参考故障标签。如图1b所示,故障处理设备102可以接收用户设备101发送的该服务器103故障的日志,并调用日志故障提取模块对发生故障的服务器103的日志进行解析,得到故障原因信息,并从故障解决案例库中查找与故障原因信息匹配的参考故障标签(如Err1)所对应的故障解决案例。然后,向用户设备101返回查找到的故障解决案例(即带有Err1的故障解决案例),并由用户设备101向运维人员展示查找到的故障解决案例。其中,故障处理设备102也可通过邮件或者短信等方式向运维人员发送查找到的故障解决案例。
此外,网上故障处理人员还可通过故障处理设备102构建带有参考故障标签的故障解决案例库。具体的,故障处理设备102可以获取互联网上的一些服务器故障的日志以及解决这些服务器故障所对应的故障解决案例,然后调用日志故障提取模块对这些服务器故障的日志进行解析,得到故障原因信息;然后把错误原因信息作为参考故障标签,并与对应的故障解决案例关联起来,存储至参考故障标签的故障案例解决库。
其中,用户设备101可以是终端设备,故障处理设备102可以是终端设备或者服务器。终端设备可以是智能手机、平板电脑、笔记本电脑、台式电脑等等;该服务器可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布是式系统,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络(Content Delivery Network,CDN)、以及大数据和人工智能平台等基础云计算服务的云服务器。
通过上述故障处理系统,可以快速从故障解决案例库中获取故障解决案例,且通过故障原因信息这一错误信息属性,使得在获取故障解决案例时,不会因为案例书写人员的表述改变而改变,提高了故障解决案例获取的准确性,进而提高了故障处理效率。
接下来对本申请实施例所提供的故障处理方法进行相关阐述。请参见图2,图2是本申请实施例提供的一种故障处理方法的流程示意图,该方法可由上述故障处理系统中的故障处理设备执行。该方法可以包含以下步骤S201-S204。
S201、对服务器故障的日志进行解析,得到服务器故障的故障原因信息。
其中,日志可以包含以下一种或多种:BMC日志和OS(操作系统,OperatingSystem)日志。针对BMC日志,可通过智能平台管理接口中的基板管理控制器接口对服务器进行监测得到BMC日志。针对OS日志,可以通过操作系统内嵌的监测模块对各个软硬件的使用状态进行监测,并基于监测到的各个软硬件的使用状态生成OS日志。服务器故障可分为服务器软件上的故障或者硬件上的故障。其中,软件上的故障可以包括但不限于:服务器BMC软件版本过低、服务器BIOS软件版本过低、服务器驱动程序故障;硬件上的故障可以包括但限于:内存条故障、主板故障、硬盘故障。在一些实施例中,服务器软件上的故障或者硬件上的故障也可分为可纠正错误(CE)和不可纠正错误(UCE)。故障原因信息是指导致服务器发生故障的原因,例如如果内存条出现故障导致服务器故障,那么故障原因信息为内存条出现故障。
在执行步骤S201之前,故障处理设备可以接收用户设备在确定服务器故障时发送的日志;或者,当服务器故障时,故障处理设备可以接收到网管系统发送的服务器故障的日志。
其中,日志可以包含一个或多个文件。当日志中仅包含一个文件时,该文件中记录所有与服务器软硬件相关的事件;当日志中包含多个文件时,每个文件可以记录与服务器软硬件相关的事件;例如,文件1记录“Has_MEM_Fault事件”,该Has_MEM_Fault事件指示存在内存故障,文件2记录“No_Mem_UCE_PoisonData事件”,“No_Mem_UCE_PoisonData事件”指示无内存Poison UCE故障。此时,故障处理设备所接收到服务器故障的日志一般都是经过压缩之后的,并且在压缩生成日志时,由于不知道需要哪些文件中的事件能够诊断出服务器发生故障的故障原因,因此,需要将与服务器相关的事件全部进行压缩。
基于上述情况,故障处理设备对服务器故障的日志进行解析,得到服务器故障的故障原因信息的具体实现方式可以包含步骤s11-s14:
s11、对服务器故障的日志进行解压处理,得到解压日志。
其中,日志在进行压缩时可根据需求采用不同的压缩方式进行压缩,压缩方式可以包括但不限于:单层压缩(即压缩一次)、递归压缩、特殊日志文件压缩。递归压缩可以理解为层层压缩,即对日志中的某个文件进行压缩之后,在将压缩后的文件与日志中的其他文件进行压缩;特殊日志文件压缩是指按照特定压缩格式特定加密手段进行压缩,例如特殊日志文件压缩为按照ZIP格式并加密进行压缩。
相应的,在对日志进行解压处理时,针对采用不同的压缩方式,可采用相应解压处理方式对日志进行解压处理。也就是说,针对单层压缩,故障处理设备对日志进行解压时采用单层解压方式进行解压;针对递归压缩,故障处理设备在对日志进行解压时采用递归解压方式进行解压,例如,上述获取的是服务器XX主机异常宕机的BMC日志,可先对BMC日志的最外层进行解压,然后对第二层中的sel.rar文件、fdm.bin文件进行解压。针对特殊日志文件压缩,故障处理设备可在对日志进行解压时采用特殊日志文件解压方式进行解压。
s12、从解压日志中提取多个事件。
在具体实现中,可预先定义好一个事件提取模块,故障处理设备可调用预定义好的事件提取模块从解压日志中提取多个事件。
在一个实施例中,预定义好的事件提取模块包含事件提取关键词,调用预定义好的事件提取模块从解压日志中提取多个事件可以包含:调用预定义好的事件提取模块,将事件提取关键词与解压日志中的事件进行匹配,并提取与事件提取关键词匹配的事件。例如,事件提取关键词为MEM(即内存),调用预定义好的事件提取模块,将MEM与解压日志中的事件进行匹配,并提取得到Has_MEM_Fault事件。
s13、从多个事件中确定事件集合,事件集合与服务器故障关联。
其中,事件集合与服务器故障关联是指事件集合中的事件均与服务器故障相关。
在一个实施例中,可按照事件发生时间、事件所在文件类型等对多个事件进行排序,然后从排序后的多个事件中确定事件集合。通过对多个事件排序可以便于确定事件集合。接下来按照事件发生时间以及事件所在文件类型对多个事件进行排序,并从排序后的多个时间中确定事件集合进行分别阐述:
A、针对多个事件中的任意一个事件均对应有事件发生时间。故障处理设备可根据事件发生时间,对多个事件进行排序,得到排序后的多个事件。具体的,可以按照事件发生时间先后顺序对多个事件进行排序,例如事件1的事件发生时间为“2020-11-1 12:11:00”,事件2的事件发生时间为“2020-11-1 12:10:03”,事件3的事件发生时间为“2020-11-1 12:11:03”,按照事件发生时间对事件1、事件2、事件3进行先后排序,得到事件2、事件1以及事件3。然后,故障处理设备从排序后的多个事件中确定事件集合。其中,事件集合中的每个事件的事件发生时间,与排序后的多个事件中最后一个事件的事件发生时间之间的差值在预设范围内,其中预设范围可以根据需求设置,例如,当需要最近一段时间所发生的事件时,那么可以将预设时间范围设置为较小的范围,即离最后一个事件的事件发生时间之前的差值较小。例如,在上述例子中,预设范围为0-30秒,最后一个事件(即事件3)的发生事件为“2020-11-1 12:11:03”,分别计算得到事件1的事件发生时间与事件3的事件发生时间之间的差值为3秒,事件2的事件发生时间和事件3的事件发生时间之间的差值为60秒,事件3的事件发生时间和事件3的事件发生时间之间的差值为0秒。此时,可从排序后的事件2、事件1和事件3中确定事件集合,即事件集合中包含事件1、事件3。
可选地,从排序后的多个事件中确定事件集合还可以是:直接从排序后的多个事件中确定目标时间段内的事件,并根据目标时间段内的事件生成事件集合,例如,在上述例子中,可从事件2、事件1和事件3中直接选择目标时间段“2020-11-1 12:11:00-2020-11-112:11:04”的事件集合,即事件集合包含事件1和事件3。
B、解压日志中包含多个文件,每个文件中均可包含一个或多个事件。故障处理设备可确定各个事件所在的文件类型,按照各个事件所在的文件类型,对多个事件进行排序,得到排序后的多个事件,然后从排序后的多个事件中确定事件集合,事件集合中的事件所在的文件类型为目标文件类型。其中,文件类型可以包括但不限于:maintenance_log、fdm_output、fdm_log、fdm_sel。具体的,可以预先设置文件类型的优先级,例如可以设置maintenance_log、fdm_output、fdm_log、fdm_sel的优先级由高到低。然后按照各个事件所在的文件类型的优先级从高到低对多个事件进行排序,或者,按照各个事件所在的文件类型的优先级从低到高对多个事件进行排序,本申请对此不作限定。
需要说明的是,本申请实施例中可以直接根据事件发生时间、文件类型从多个事件中确定事件集合,无需在确定事件集合之前对多个事件进行排序。或者,本申请实施例中还可根据事件发生时间先后顺序以及文件类型优先级来对多个事件进行排序,本申请对此不作限定。
s14、根据事件集合从故障诊断知识图谱中,确定服务器故障的故障原因信息。
其中,故障诊断知识图谱包括多个节点,每个节点均对应一个与服务器相关的实体词,每个实体词可以是服务器故障的事件或者故障原因信息。任意两个节点(或任意两个实体词)之间的关联关系可以是指服务器故障的事件与故障原因信息之间的关系,如服务器故障的事件A会导致故障原因信息A。或者,任意两个节点(或任意两个实体词)之间的关联关系可以是指服务器故障的事件与事件之间的关系,如服务器故障的事件A会导致事件B。
在一个实施例中,可预先构建故障诊断知识图谱。具体的,获取服务器故障的相关信息,并对相关信息进行实体词提取,得到多个实体词。然后,确定实体词之间的关联关系,根据多个实体词以及多个实体词之间的关联关系构建故障诊断知识图谱。其中,服务器故障的相关信息可以包括但不限于:服务器各类故障的故障描述信息、故障解决案例、关于服务器的产品设计文档、维护人员历史查询的故障解决方案。例如,故障处理设备可获取服务器各类故障的故障描述信息以及故障解决案例,并从故障描述信息以及故障解决案例中提取多个实体词,并确定多个实体词之间的关联关系,将多个实体词作为节点,根据多个实体词之间的关联关系构建故障诊断知识图谱。例如,提取的多个实体词分别为事件A、事件B、事件C、事件D、事件E、故障原因信息A、故障原因信息B,其中,事件A和事件B具有关联关系,事件B和事件C、事件E具有关联关系,事件C和事件D具有关联关系,事件C与故障原因信息A具有关联关系,事件E与故障原因信息B具有关联关系,根据上述多个实体词和多个实体词之间的关联关系构建了如图3所示的故障诊断知识图谱。
此时,步骤s14的具体实现方式可以是:根据事件集合以及故障诊断知识图谱所指示的关联关系,可以确定服务器故障的故障原因信息。
其中,事件集合中包含多个标志事件以及每个标识事件的关联事件,此时,可以根据多个标志事件将事件集合分为多个事件子集合,一个事件子集合包括一个标志事件以及一个标志事件的关联事件;通过标志事件来划分,可确定在每个标志事件下服务器故障的故障原因信息。例如,标志事件为服务器重启,在事件集合中包含3次服务器重启,每次服务器重启均会产生一些关联事件,此时,可根据事件集合中的3次服务器重启将事件集合划分成3个事件子集合,一个事件子集合包括一个服务器重启以及服务器重启的关联事件。又例如,标志事件为故障信息收集成功以及服务器重启;然后,可根据故障信息收集成功和服务器重启将事件集合分为两个事件子集合,一个事件子集合包括故障信息收集成功以及故障信息收集成功的关联事件,另一个事件子集合包括服务器重启以及服务器重启的关联事件。
在将事件集合分为多个事件子集合之后,故障处理设备可根据每个事件子集合,从故障诊断知识图谱中确定每个事件子集合对应的故障原因信息。应理解的是,由于每个事件子集合均可以在故障诊断知识图谱中推理出相应的故障原因信息,因此,故障原因信息的数量可以为多个。例如,多个事件子集合分别为事件子集合1、事件子集合2和事件子集合3。其中,事件子集合1中包含LogCollectionSucceeded事件(即标志事件)、NoMlc3StrikeTimeout事件以及HaveCorrespondingMemoryCEFault事件;事件子集合2中包含LogCollectionSucceeded事件(即标志事件)、NoMlc3StrikeTimeout事件、DCU_SRAR事件和Has_MEM_Fault事件;事件子集合3中包含LogCollectionSucceeded事件(即标志事件)、NoMlc3StrikeTimeout事件以及Has_MEM_Fault事件。其中,LogCollectionSucceeded事件表示故障信息收集成功,NoMlc3StrikeTimeout事件表示无MLC_3_StrikeTimeout故障,HaveCorrespondingMemoryCEFault事件表示有相关内存CE报错;Has_MEM_Fault事件表示存在内存故障;DCU_SRAR事件表示存在DCU SRAR故障。
然后,分别根据事件子集合1、事件子集合2和事件子集合3从故障诊断知识图谱,确定每个事件子集合对应的故障原因信息。如图4所示,以事件子集合1为例,故障处理设备确定LogCollectionSucceeded事件在故障诊断知识图谱中的位置,然后确定与LogCollectionSucceeded事件具有关联关系的事件(即NoMlc3StrikeTimeout事件);接着在确定NoMlc3StrikeTimeout事件具有关联关系的事件(即HaveCorrespondingMemoryCEFault事件),最后确定HaveCorrespondingMemoryCEFault事件具有关联关系的故障原因信息,即在图4中事件子集合1对应的故障原因信息为内存条的槽位号DIMM120_Falut。同理,可得到事件子集合2对应的故障原因信息DIMM120_Falut和事件子集合3对应的故障原因信息DIMM120_CE。
在一个实施例中,本申请实施例提供一个日志故障提取模块。在获取到服务器故障的日志之后,可调用日志故障提取模块对服务器故障的日志进行解析,得到服务器的故障原因信息。具体的,日志故障提取模块对服务器故障的日志进行解析的流程可以如图5所示,日志故障提取模块可以包括日志预处理子模块、日志清洗子模块以及日志解析子模块。其中,日志预处理子模块可用于对日志进行解压处理,得到解压日志(即对应执行上述步骤s11);日志清洗子模块可以包含事件提取、事件排序以及事件分段三个过程。其中,事件提取是指从解压日志中提取多个事件(即对应执行上述步骤s12)。事件排序是指从多个事件中确定事件集合(即对应执行上述步骤s13),事件分段是指将按照标志事件将事件集合分为多个事件子集合。日志解析子模块可用于根据每个事件子集合从故障诊断知识图谱中确定故障原因信息。需要说明的是,上述日志预处理子模块对日志进行解压处理,日志清洗子模块进行事件提取,事件排序以及事件分段,日志解析子模块根据每个事件子集合按照解析规则从故障诊断知识图谱中确定故障原因信息的具体实现方式可参见上述相应部分的描述,在此不再赘述。
S202、基于故障原因信息,确定与故障原因信息匹配的参考故障标签。
在一个实施例中,与故障原因信息匹配的参考故障标签可以是指:故障原因信息与参考故障标签相同,例如,故障原因信息“内存条的槽位120错误”,参考故障标签同样为“内存条的槽位120错误”;在另一个实施例中,与故障原因信息匹配的参考故障标签可以是指:故障原因信息与参考故障标签相似,例如,故障原因信息“内存条的槽位120错误”,参考故障标签“内存条的槽位120可纠正错误”,两者都是内存条的槽位120发生错误。再一个实施例中,可按照故障标签生成规则对故障原因信息进行转换,得到与故障原因信息匹配的参考故障标签。例如,故障标签生成规则为将不同故障原因信息转换为不同数字,按照该故障标签生成规则,将故障原因信息转换成数字1。又例如,故障标签生成规则为将不同故障原因信息转换为不同字符串,按照该故障标签生成规则,将故障原因信息转换成AAAAA。
在一个实施例中,当故障原因信息的数量为多个时,可将多个故障原因信息进行整合处理,得到与多个故障原因信息匹配的一个参考故障标签。例如,故障原因信息“内存条的槽位120错误”、故障原因信息“内存条的槽位120可纠正错误”,可将故障原因信息“内存条的槽位120错误”和故障原因信息“内存条的槽位120可纠正错误”进行整合处理,得到与这两个故障原因信息匹配的一个参考故障标签“内存条的槽位120错误”。
S203、基于与故障原因信息匹配的参考故障标签,从故障解决案例库中确定服务器故障对应的目标故障解决案例,服务器故障对应的目标故障解决案例用于处理服务器故障;故障解决案例库包括一个或多个故障解决案例,一个故障解决案例关联一个或多个参考故障标签。
其中,服务器故障对应的故障解决案例的数量为一个或多个,故障解决案例中可以包括解决服务器故障的具体处理流程。从故障解决案例库中确定的目标故障解决案例实际上是指:从故障解决案例库中,查找与故障原因信息匹配的参考故障标签所对应的故障解决案例。
在一个实施例中,当故障原因信息的数量为多个,一个故障原因信息匹配一个参考故障标签时,故障处理设备可根据与每个故障原因信息匹配的参考故障标签,从故障解决案例库中确定服务器故障对应的目标故障解决案例,此时服务器故障对应的目标故障解决案例的数量可以为多个。
S204、输出服务器故障对应的目标故障解决案例。
当服务器故障对应的故障解决案例的数量为多个时,故障处理设备可确定与故障原因信息匹配的参考故障标签在各个目标故障解决案例中所占比重;然后根据与故障原因信息匹配的参考故障标签在各个目标故障解决案例中所占比重,对各个目标故障解决案例进行排序,并输出排序后的多个目标故障解决案例。具体的,可按照与故障原因信息匹配的参考故障标签在各个目标故障解决案例中所占比重从高到低对各个目标故障解决案例排序,实现目标故障解决案例精准排序,通过将比重越高的目标故障解决案例排在越前面,即可理解为排在最前面的目标故障解决案例能够更好地解决该服务器故障,实现了案例精准推荐。例如,与故障原因信息匹配的参考故障标签为参考故障标签X,目标故障解决案例1包含参考故障标签1、参考故障标签X;目标故障解决案例2包含参考故障标签2、参考故障标签22、参考故障标签X;目标故障解决案例3包含参考故障标签X;参考故障标签X在目标故障解决案例1、目标故障解决案例2和目标故障解决案例3所占比重分别为50%、33.3%、100%,那么输出排序后的多个目标故障解决案例的顺序为目标故障解决案例3、目标故障解决案例1、目标故障解决案例2。
可选地,在输出目标故障解决案例时,可结合与故障原因信息匹配的参考故障标签在各个目标故障解决案例中所占比重、历史使用次数、使用目标故障解决案例解决服务器故障的成功率等对各个目标故障解决案例进行综合排序,通过这种方式可以实现对目标故障解决案例的精准排序。
作为一种实现方式,故障处理设备可获取各个目标解决案例的历史使用次数,然后根据与故障原因信息匹配的参考故障标签在各个目标故障解决案例中所占比重、以及各个目标故障解决案例的历史使用次数,对各个目标故障解决案例进行排序。其中,针对任一个目标故障解决案例,可直接将与故障原因信息匹配的参考故障标签在该目标故障解决案例中所占比重以及该目标故障解决案例的历史使用次数进行加权求和,得到该目标故障解决案例的综合值,然后根据各个目标故障解决案例的综合值对目标故障解决案例进行排序。例如,与故障原因信息匹配的参考故障标签为参考故障标签X,上述参考故障标签X在目标故障解决案例1、目标故障解决案例2和目标故障解决案例3所占比重分别为50%、33.3%、100%,目标故障解决案例1的历史使用次数为10次,目标故障解决案例2的历史使用次数为20次,目标故障解决案例1的历史使用次数为6次。其中,设参考故障标签X在目标故障解决案例所占比重对应的权重为60%,目标故障解决案例的历史使用次数对应的权重为40%,然后故障处理设备可对参考故障标签X在目标故障解决案例1所占比重和目标故障解决案例1的历史使用次数进行加权求和,得到目标故障解决案例1的综合值为4.3,同理,可得到目标故障解决案例2的综合值为8.1998,目标故障解决案例3的综合值为3,然后根据各个目标故障解决案例的综合值对各个目标故障解决案例进行排序,排序结果为:目标故障解决案例2、目标故障解决案例1和目标故障解决案例3。
作为另一种实现方式,故障处理设备可获取目标解决案例的成功率,并根据与故障原因信息匹配的参考故障标签在各个目标故障解决案例中所占比重和各个目标故障解决案例的成功率,对所述各个目标故障解决案例进行排序。其中,针对任意一个目标故障解决案例,可直接将与故障原因信息匹配的参考故障标签在该目标故障解决案例中所占比重以及相应的成功率进行求和处理,得到该目标故障解决案例的综合值,然后根据各个目标故障解决案例的综合值对各个目标故障解决案例进行排序。例如,与故障原因信息匹配的参考故障标签为参考故障标签X,参考故障标签X在目标故障解决案例1、目标故障解决案例2和目标故障解决案例3所占比重分别为50%、33.3%、100%;目标故障解决案例1解决服务器故障的成功率为10%,目标故障解决案例2解决服务器故障的成功率为10%,目标故障解决案例3解决服务器故障的成功率为6%。故障处理设备可将参考故障标签X在目标故障解决案例1所占比重和目标故障解决案例的成功率进行求和,得到目标故障解决案例1的综合值60%,同理可以确定目标故障解决案例2的综合值43.3%,目标故障解决案例3的综合值106%。然后按照综合值从大到小对目标故障解决案例1、目标故障解决案例2和目标故障解决案例3进行排序,即排序结果为目标故障解决案例3、目标故障解决案例1、目标故障解决案例2。
应理解的是,除上述通过求和、加权求和等方式确定目标故障解决案例的综合值之外,还可采用求平均值等方式得到目标故障解决案例的综合值,本申请对此不作限定。
其中,由于当故障原因信息为多个时,根据与每个故障原因信息匹配的参考故障标签所获取的目标故障解决案例可能存在重复的情况下,因此在执行步骤S204之前,可以对多个目标故障解决案例进行去重处理。
在本申请实施例中,对服务器故障的日志进行解析,得到服务器故障的故障原因信息;基于故障原因信息,确定与故障原因信息匹配的参考故障标签;基于与故障原因信息匹配的参考故障标签,从故障解决案例库中确定服务器故障对应的目标故障解决案例,服务器故障对应的目标故障解决案例用于处理服务器故障,并输出服务器故障对应的目标故障解决案例。通过对服务器故障的日志进行自动解析,避免了人工对服务器故障分析所带来的理解误差,在提高了故障解析效率的同时,还提升了故障解析的准确性。另外,根据与故障原因信息匹配的参考故障标签可以快速从故障解决案例库中获取与服务器故障关联性较大的故障解决案例,提高了故障解决案例获取的准确性,进而提高了故障处理效率,降低了服务器平均修复时间。
请参见图6a,图6a是本申请实施例提供的一种故障处理方法的流程示意图,该方法由故障处理设备执行,该方法可以包含以下步骤S601-S605。
S601、构建故障解决案例库。故障解决案例库包括一个或多个故障解决案例,一个故障解决案例关联一个或多个参考故障标签。故障解决案例中可以包括解决服务器故障的具体步骤,对解决服务器故障具有指导意义。
其中,故障解决案例库的构建方式可以包含但不限于(1)-(2)种方式:
(1)在数据库或者互联网上存在大量的故障日志以及故障日志对应的故障解决案例。其中,该数据库可以是指专用于存储服务器相关的故障日志以及故障日志所对应的故障解决案例。此时,如图6b所示,构建故障解决案例库的方式可以包含步骤s61-s64:
s61、获取服务器故障的历史故障日志以及历史故障日志对应的历史故障解决案例。
其中,历史故障日志可以包含以下一种或多种:BMC日志和OS日志。具体地,故障处理设备可从上述数据库或者互联网中获取服务器故障的历史故障日志以及历史故障日志对应的历史故障解决案例。其中,此处的服务器可以是任意类型的服务器(如机架式服务器、机柜式服务器等),或者可以是任意厂商的服务器。
s62、对历史故障日志进行解析,得到服务器故障的历史故障原因信息。
在一个实施例中,步骤s62可以包括:对历史故障日志进行解压处理,得到解压故障日志;从解压故障日志中提取多个历史事件,并从多个历史事件中确定故障事件集合,故障事件集合与服务器故障关联;根据故障事件集合从故障诊断知识图谱中,确定服务器故障的历史故障原因信息。
其中,可以根据事件发生时间以及历史事件所在文件类型从多个历史事件中确定故障事件集合。在一个实施例中,从多个历史事件中确定故障事件集合的具体实现方式可以是:根据事件发生时间,对多个历史事件进行排序,得到排序后的多个历史事件;从排序后的多个历史事件中确定故障事件集合,故障事件集合中的每个历史事件的事件发生时间与排序后的多个历史事件中最后一个历史事件的事件发生时间之间的差值在预设范围内。
在另一个实施例中,解压故障日志中包含多个文件,从多个历史事件中确定故障事件集合的具体实现方式可以是:故障解压日志中包括多个文件,从多个历史事件中确定故障事件集合,包括:确定各个历史事件所在的文件类型;按照各个历史事件所在的文件类型,对多个历史事件进行排序,得到排序后的多个历史事件;从排序后的多个历史事件中确定故障事件集合,故障事件集合中的历史事件所在的文件类型为目标文件类型。
其中,故障事件集合包括多个标志故障事件以及每个标志故障事件的关联故障事件;上述根据故障事件集合从故障诊断知识图谱中,确定服务器故障的历史故障原因信息的具体实现方式为:根据多个标志故障事件将故障事件集合分为多个故障事件子集合,一个故障事件子集合包括一个标志故障事件以及一个标志故障事件的关联故障事件;根据每个故障事件子集合从故障诊断知识图谱中,确定每个故障事件子集合对应的历史故障原因信息。
需要说明的是,步骤s62的具体实现方式可参见上述步骤S201中相应部分的描述,在此不再赘述。
s63、基于服务器故障的历史故障原因信息,生成历史故障解决案例对应的参考故障标签。
其中,历史故障原因信息的数量为一个或多个。基于服务器故障的历史故障原因信息,生成历史故障解决案例对应的参考故障标签可以包括以下几种:①可将各个历史故障原因信息均直接作为历史故障解决案例的参考故障标签;②按照故障标签生成规则,分别对每个历史故障原因信息进行转换,得到历史故障解决案例的一个或多个参考故障标签,例如,2个历史故障原因信息包括历史故障原因信息1和历史故障原因信息2,可按照故障标签生成规则,将历史故障原因信息1进行转换,得到历史故障解决案例的一个参考故障标签;并按照故障标签生成规则,将历史故障原因信息2进行转换,得到历史故障解决案例的另一个参考故障标签,其中,故障标签生成规则可以是将故障原因信息转换成不同数字或者不同字符串。③当历史故障原因信息的数量为多个时,可对多个历史故障原因信息进行整合处理,得到历史故障解决案例的参考故障标签,例如,多个历史故障原因信息包括内存1故障和内存2故障,将内存1故障和内存2故障进行整合处理,得到历史故障解决案例的参考故障标签“多内存故障”。其中,当历史故障原因信息为多个,且多个历史故障原因信息无法进行整合处理时,可参见上述①和②。应理解的是,后续涉及到基于故障原因信息,生成参考故障标签时,均可参见此处的具体实现方式。
s64、基于历史故障解决案例与对应的参考故障标签构建故障解决案例库。
其中,由前述可知,参考故障标签的数量可以为一个或多个,可将这一个或多个参考故障标签均与对应的历史故障解决案例关联存储至故障解决案例库中。例如,如图7所示,故障处理设备在确定历史故障解决案例11的参考故障标签Err1之后,可将历史故障解决案例11和参考故障标签Err1关联,并存储到故障解决案例库中。在一些实施例中,故障解决案例库存储到数据库中。在图7中,故障解决案例库中可以按照上述方式将历史故障解决案例12和参考故障标签Err2关联存储到故障解决案例库,将历史故障解决案例13和参考故障标签Err3关联存储到故障解决案例库,将历史故障解决案例14和参考故障标签Err5关联存储到故障解决案例库。
在一个实施例中,针对服务器而言,会对应一个产品设计文档,产品设计文档中包含服务器可能出现故障的故障原因信息以及在该故障原因信息下解决服务器故障的故障解决案例。因此可将产品设计文档中的故障原因信息以及对应的故障解决案例库进行处理,添加到故障解决案例库中,从而丰富故障解决案例库。此时,故障处理设备可以获取产品设计文档,该产品设计文档中包含故障原因信息以及该故障原因信息对应的故障解决案例,然后基于从产品文档设计中的故障原因信息,生成故障解决案例对应参考故障标签,然后将参考故障标签和该故障解决案例进行关联存储至上述故障解决案例库中。
其中,通过步骤s61-s64,可对服务器故障的故障日志进行自动解析,避免了人工对服务器故障分析所带来的理解误差,在提高了故障解析效率的同时,还提升了故障解析的准确性,此外,将参考故障标签与历史故障解决案例结合起来构建故障解决案例库,使得参考故障标签不会因为故障解决案例书写人员的表述而改变,进而保证后续根据参考故障标签能够较为快速和准确地从故障解决案例库中相应服务器故障的故障解决案例。
(2)故障处理设备可以获取初始故障解决案例库,初始故障解决案例库中包含一个或多个初始故障解决案例;该初始故障解决案例库中的初始故障解决案例均是由不同维护人员所书写的,文本描述没有固定的标准。在这种情况下,可直接为每个初始故障解决案例生成参考故障标签,然后根据每个初始故障解决案例以及对应的参考故障标签,更新初始故障解决案例库,得到故障解决案例库。
其中,为每个初始故障解决案例生成参考故障标签可以有以下几种方式:
A、初始故障解决案例对应一个故障日志,故障处理设备可获取每个初始故障解决方案对应的故障日志,并对每个初始故障解决方案对应的故障日志进行解析,得到每个初始故障解决方案对应的故障原因信息;然后基于该每个初始故障解决方案对应的故障原因信息,生成每个初始故障解决案例对应的参考故障标签。
B、初始故障解决案例中包含故障原因信息,故障处理设备可直接从每个初始故障解决案例中提取故障原因信息,并根据从每个初始故障解决案例中提取到的故障原因信息,为每个初始故障生成参考故障标签。作为一种实现方式,初始故障解决案例可以以不同形式存在,如初始故障解决案例可以图片的形式存在,此时,从每个初始故障解决案例中提取故障原因信息可以是:通过一个文字识别模型对初始故障解决案例进行文字识别,得到每个初始故障解决案例中的故障原因信息。
应理解的是,本申请在构建故障解决案例库时,上述的各种构建方式可灵活选择一种进行使用,也可配合使用。例如,根据产品设计文档直接构建故障解决案例库,本申请实施例并不对构建方式、构建方式的组合进行限定。
S602、对服务器故障的日志进行解析,得到服务器故障的故障原因信息。
S603、基于故障原因信息,确定与故障原因信息匹配的参考故障标签。
S604、基于与故障原因信息匹配的参考故障标签,从故障解决案例库中确定服务器故障对应的目标故障解决案例,服务器故障对应的目标故障解决案例用于处理服务器故障。
S605、输出服务器故障对应的目标故障解决案例。
在本申请实施例中,可预先构建故障解决案例库,然后在确定服务器故障的故障原因信息所匹配的参考故障标签,并基于与故障原因信息匹配的参考故障标签,从故障解决案例库中确定服务器故障对应的目标故障解决案例,并输出服务器故障对应的目标故障解决案例,通过构建带有参考故障标签的故障解决案例库,可以将服务器故障与故障解决案例结合起来,使得参考故障标签不会因为故障解决案例书写人员的表述而改变,这就使得后续可根据参考故障标签能够较为快速和准确地从故障解决案例库中相应服务器故障的故障解决案例。
接下来结合以一个具体示例阐述本申请实施例所提供的故障处理方法。请参见图8,图8为本申请实例提供的一种故障处理方法,该故障处理方法包含如下两个部分:
(1)将网上服务器故障的历史故障日志(如BMC日志、OS日志等)经过日志故障提取模块分析,得到服务器故障的历史故障原因信息,然后基于历史故障原因信息生成该故障日志对应的历史故障解决案例的参考故障标签,并将生成的参考故障标签和相应的历史故障解决案例进行关联存储至故障解决案例库中。其中,本申请实施例所涉及的“网上”是指:互联网。网上服务器故障的故障日志可以理解为:从互联网上获取的关于服务器故障的故障日志。
具体的,网上故障处理人员收集服务器故障的历史故障日志,该历史故障日志可以是BMC日志或者OS日志。例如,网上故障处理人员收集到关于服务器XX主机异常宕机的BMC日志,然后调用日志故障提取模块按照解析规则对BMC日志进行解析。具体的,先调用日志故障提取模块中的日志预处理子模块对该BMC日志进行解压处理,对BMC日志外层进行解压之后,还需要对第二层中的sel.rar文件、fdm.bin文件解压,从而得到解压故障日志。然后,调用日志故障提取模块中的日志清洗子模块对解压故障日志提取多个历史事件,提取的多个历史事件可以如表1所示:
表1
历史事件 历史事件含义
LogCollectionSucceeded 故障信息收集成功
NoMlc3StrikeTimeout 无MLC_3_StrikeTimeout故障
DCU_SRAR 存在DCU SRAR故障
Has_MEM_Fault 存在内存故障
No_Mem_UCE_PoisonData 无内存Poison UCE故障
HaveCorrespondingMemoryCEFault 有相关内存CE报错
接着,按照事件所在文件的类型优先级(maintenance_log、fdm_output、fdm_log、fdm_sel优先级由高到低)对上述多个历史事件进行排序处理,得到排序后的多个历史事件,并从排序后的多个历史事件中确定故障事件集合,如该故障事件集合中包含多个LogCollectionSucceeded事件、NoMlc3StrikeTimeout事件、HaveCorrespondingMemoryCEFault事件、Has_MEM_Fault事件、DCU_SRAR事件。其中,LogCollectionSucceeded事件为标志故障事件,然后根据多个LogCollectionSucceeded事件可以将故障事件集合划分为多个故障事件子集合,并按照解析规则根据每个故障事件子集合从故障诊断知识图谱中确定每个故障事件子集合对应的历史故障原因信息。
在确定每个历史事件子集合对应的历史故障原因信息之后,日志故障提取模块流程结束,得到了上述服务器故障的三种历史故障原因信息(即DIMM120_fault、DIMM120_fault、DIMM120_fault,DIMM120_CE),然后将上述服务器故障的三种历史故障原因信息进行整合,得到参考故障标签为DIMM_fault;接着,将历史故障解决案例“2288H V3服务器cpu异常上报内存UCE”与上述参考故障标签DIMM_fault关联存储至故障解决案例库中。当然,也可将上述服务器故障的三种历史故障原因信息分别进行转换,得到参考故障标签Err1、参考故障标签Err2、参考故障标签Err3;将历史故障解决案例“2288H V3服务器cpu异常上报内存UCE”与参考故障标签Err1、参考故障标签Err2、参考故障标签Err3关联存储至故障解决案例库中,此时,历史故障解决案例“2288H V3服务器cpu异常上报内存UCE”对应3个参考故障标签。该历史故障解决案例“2288H V3服务器cpu异常上报内存UCE”可以是由网上故障处理人员总结故障处理经验所撰写。
(2)当服务器出现故障时,可在故障解决案例库中搜索相应的故障解决案例。运维人员(即案例搜索人员)可以收集当前服务器故障的日志(即当前正发生故障的服务器的日志),并向故障处理设备发送当前服务器故障的日志,故障处理设备可调用日志故障提取模块,对服务器故障的日志进行解析,得到故障原因信息,基于该故障原因信息确定与该故障原因信息匹配的参考故障标签,并从故障解决案例库中获取与该参考故障标签关联的目标故障解决案例,并向运维人员返回带有参考故障标签的目标故障解决案例。其中,向运维人员返回带有参考故障标签的目标故障解决案例可以是:直接在故障处理设备中输出带有参考故障标签的目标故障解决案例,运维人员可以直接在故障处理设备中查看目标故障解决案例;或者,向运维人员返回带有参考故障标签的目标故障解决案例可以是:故障处理设备将带有参考故障标签的目标故障解决案例以邮件或者短信方式通知运维人员。整个搜索故障解决案例的流程可如图8所示,例如,当与该故障原因信息匹配的参考故障标签为Err1,那么可以从故障解决案例库中获取Err1关联的目标故障解决案例,并在故障处理设备中输出与Err1关联的目标故障解决案例。又例如,服务器出现多根内存告警,可调用日志故障提取模块对服务器出现多根内存告警的日志进行解析,得到如图9所示的3种故障原因信息(即DIMM140_Fault、DIMM140_Fault、DIMM140_DIMM141_CE),其中,调用日志故障提取模块对服务器出现多根内存告警的日志进行解析的过程可参见上述步骤s11-s14,在此不再赘述。然后,根据故障原因信息DIMM140_Fault、DIMM140_Fault、DIMM140_DIMM141_CE,确定与这三个故障原因信息匹配的参考故障标签DIMM_Fault,并基于参考故障标签DIMM_Fault从故障解决案例库中确定3个目标故障解决案例。然后根据参考故障标签DIMM_Fault在目标故障解决案例中所占比重,对3个目标故障解决案例进行排序,并在故障处理设备中输出排序后的3个目标故障解决案例,即最终可输出如图10所示的3个目标故障解决案例:目标故障解决案例1“XX服务器cpu异常上报内存UCE、目标故障解决案例2“XX系列内存报错案例分析”、目标故障解决案例3“内存故障CE和UCE报错原理和BMC处理机制总结”。
经实践证明,排序处于靠前的目标故障解决案例对服务器出现多根内存告警有比较明确的指导意义,是从故障解决案例库中所获取的比较准确有效的案例。综上所述,通过故障解决案例和参考故障标签相结合的方式,可以避免由于故障解决案例书写人员的表述而改变,解决由于故障解决案例和维护人员因搜索习惯不可控导致的案例搜索准确率低下的问题,在一定程度上提升案例搜索效率和准确性,进而提升服务器故障解决的效率。
相应于上述方法实施例给出的方法,本申请实施例还提供了相应的装置,包括用于执行上述实施例相应的模块或单元。所述模块或单元可以是软件,也可以是硬件,或者是软件和硬件结合。
请参见图11,为本申请提供的一种故障处理装置的结构示意图。该故障处理装置可以是运行于故障处理设备的一个计算机程序(包括程序代码),例如故障处理装置可以是故障处理设备中的一个应用软件;该故障处理装置可以用于执行图2所示的方法实施例中的部分或全部步骤。请参见图11,该故障处理装置包括如下单元:
解析单元1101,用于对服务器故障的日志进行解析,得到所述服务器故障的故障原因信息;
确定单元1102,用于基于所述故障原因信息,确定与所述故障原因信息匹配的参考故障标签;
所述确定单元1102,还用于基于与所述故障原因信息匹配的参考故障标签,从故障解决案例库中确定所述服务器故障对应的目标故障解决案例,所述服务器故障对应的目标故障解决案例用于处理所述服务器故障;所述故障解决案例库包括一个或多个故障解决案例,一个故障解决案例关联一个或多个参考故障标签;
输出单元1103,用于输出所述服务器故障对应的目标故障解决案例。
在一个实施例中,解析单元1101在对服务器故障的日志进行解析,得到所述服务器故障的故障原因信息时,可具体用于:
对服务器故障的日志进行解压处理,得到解压日志;
从所述解压日志中提取多个事件,并从所述多个事件中确定事件集合,所述事件集合与所述服务器故障关联;
根据所述事件集合从故障诊断知识图谱中,确定所述服务器故障的故障原因信息。
在一个实施例中,确定单元1102在从所述多个事件中确定事件集合时,可具体用于:
根据事件发生时间,对所述多个事件进行排序,得到排序后的所述多个事件;
从排序后的所述多个事件中确定事件集合,所述事件集合中的每个事件的事件发生时间与排序后的所述多个事件中最后一个事件的事件发生时间之间的差值在预设范围内。
在一个实施例中,所述解压日志中包括多个文件,确定单元1102在从所述多个事件中确定事件集合时,可具体用于:
确定各个事件所在的文件类型;
按照各个事件所在的文件类型,对所述多个事件进行排序,得到排序后的所述多个事件;
从排序后的所述多个事件中确定事件集合,所述事件集合中的事件所在的文件类型为目标文件类型。
在一个实施例中,所述确定单元1102,还用于:
获取服务器故障的相关信息;
对所述相关信息进行实体词提取,得到多个实体词,每个实体词为服务器故障的事件或者故障原因信息;
确定所述多个实体词之间的关联关系;
根据所述多个实体词以及所述多个实体词之间的关联关系构建故障诊断知识图谱。
在一个实施例中,所述事件集合包括多个标志事件以及每个标志事件的关联事件;解析单元1101在根据所述事件集合从故障诊断知识图谱中,确定所述服务器故障的故障原因信息时,可具体用于:
根据所述多个标志事件将所述事件集合分为多个事件子集合,一个事件子集合包括一个标志事件以及所述一个标志事件的关联事件;
根据每个事件子集合从所述故障诊断知识图谱中,确定所述每个事件子集合对应的故障原因信息。
在一个实施例中,所述目标故障解决案例的数量为多个,所述输出单元1103在输出所述服务器故障对应的目标故障解决案例时,可具体用于:
确定与所述故障原因信息匹配的参考故障标签在各个目标故障解决案例中所占比重;
根据与所述故障原因信息匹配的参考故障标签在各个目标故障解决案例中所占比重,对所述各个目标故障解决案例进行排序;
输出排序后的多个目标故障解决案例。
在一个实施例中,所述输出单元1103在根据与所述故障原因信息匹配的参考故障标签在各个目标故障解决案例中所占比重,对所述各个目标故障解决案例进行排序时,可具体用于:
获取各个目标故障解决案例的历史使用次数;
根据所述与所述故障原因信息匹配的参考故障标签在各个目标故障解决案例中所占比重、以及所述各个目标故障解决案例的历史使用次数,对所述各个目标故障解决案例进行排序。
在一个实施例中,所述输出单元1103在根据与所述故障原因信息匹配的参考故障标签在各个目标故障解决案例中所占比重,对所述各个目标故障解决案例进行排序时,可具体用于:
获取各个目标故障解决案例的成功率;
根据与所述故障原因信息匹配的参考故障标签在各个目标故障解决案例中所占比重、以及各个目标故障解决案例的成功率,对所述各个目标故障解决案例进行排序。
在本申请实施例中,对服务器故障的日志进行解析,得到服务器故障的故障原因信息;基于故障原因信息,确定与故障原因信息匹配的参考故障标签;基于与故障原因信息匹配的参考故障标签,从故障解决案例库中确定服务器故障对应的目标故障解决案例,服务器故障对应的目标故障解决案例用于处理服务器故障,并输出服务器故障对应的目标故障解决案例。通过对服务器故障的日志进行自动解析,避免了人工对服务器故障分析所带来的理解误差,在提高了故障解析效率的同时,还提升了故障解析的准确性。另外,根据与故障原因信息匹配的参考故障标签可以快速从故障解决案例库中获取与服务器故障关联性较大的故障解决案例,提高了故障解决案例获取的准确性,进而提高了故障处理效率,降低了服务器平均修复时间。
请参见图12,为本申请提供的一种案例库构建装置的结构示意图。该案例库构建装置可以是运行于故障处理设备的一个计算机程序(包括程序代码),例如案例库构建装置可以是故障处理设备中的一个应用软件;该案例库构建装置可以用于执行图6b所示的方法实施例中的部分或全部步骤。请参见图12,该案例库构建装置包括如下单元:
获取单元1201,用于获取服务器故障的历史故障日志以及所述历史故障日志对应的历史故障解决案例;
处理单元1202,用于对所述历史故障日志进行解析,得到所述服务器故障的历史故障原因信息;
处理单元1202,还用于基于所述服务器故障的历史故障原因信息,生成所述历史故障解决案例对应的参考故障标签;
处理单元1202,还用于基于所述历史故障解决案例与对应的参考故障标签构建故障解决案例库。
在一个实施例中,处理单元1202在对所述历史故障日志进行解析,得到所述服务器故障的历史故障原因信息时,可具体用于:
对所述历史故障日志进行解压处理,得到解压故障日志;
从所述解压故障日志中提取多个历史事件,并从所述多个历史事件中确定故障事件集合,所述故障事件集合与所述服务器故障关联;
根据所述故障事件集合从故障诊断知识图谱中,确定所述服务器故障的历史故障原因信息。
在一个实施例中,所述故障事件集合包括多个标志故障事件以及每个标志故障事件的关联故障事件;处理单元1202在根据所述故障事件集合从故障诊断知识图谱中,确定所述服务器故障的历史故障原因信息时,可具体用于:
根据所述多个标志故障事件将所述故障事件集合分为多个故障事件子集合,一个故障事件子集合包括一个标志故障事件以及所述一个标志故障事件的关联故障事件;
根据每个故障事件子集合从故障诊断知识图谱,确定所述每个故障事件子集合对应的历史故障原因信息。
在一个实施例中,当所述服务器故障的历史故障原因信息的数量为一个或多个时,所述处理单元1202在基于所述服务器故障的历史故障原因信息,生成所述历史故障解决案例对应的参考故障标签时,可具体用于:
将各个历史故障原因信息直接作为所述历史故障解决案例对应的参考故障标签;或者,
将所述各个历史故障原因信息进行整合处理,得到所述历史故障解决案例对应的参考故障标签;或者,
按照参考故障标签生成规则,分别对每个历史故障原因信息进行转换,得到历史故障解决案例的一个或多个参考故障标签。
在一个实施例中,所述获取单元1201,还用于获取服务器的产品设计文档,所述产品设计文档中包含所述服务器故障的故障原因信息,以及所述故障原因信息对应的故障解决案例;
所述处理单元1202,还用于基于所述产品设计文档中的故障原因信息,生成所述故障解决案例对应参考故障标签;将所述故障解决案例以及对应的参考故障标签关联存储至所述故障解决案例库。
在本申请实施例中,获取服务器故障的历史故障日志以及历史故障日志对应的历史故障解决案例;对历史故障日志进行解析,得到服务器故障的历史故障原因信息;基于服务器故障的历史故障原因信息,生成历史故障解决案例对应的参考故障标签;基于历史故障解决案例与对应的参考故障标签构建故障解决案例库。可对服务器故障的故障日志进行自动解析,避免了人工对服务器故障分析所带来的理解误差,在提高了故障解析效率的同时,还提升了故障解析的准确性;此外,将参考故障标签与历史故障解决案例结合起来构建故障解决案例库,使得参考故障标签不会因为故障解决案例书写人员的表述而改变,进而保证后续根据参考故障标签能够较为快速和准确地从故障解决案例库中相应服务器故障的故障解决案例。
进一步地,本申请实施例还提供了一种故障处理设备的结构示意图,该故障处理设备的结构示意图可参见图13;该故障处理设备可以包括:处理器1301、输入设备1302,输出设备1303和存储器1304。上述处理器1301、输入设备1302、输出设备1303和存储器1304通过总线连接。存储器1304用于存储计算机程序,计算机程序包括程序指令,处理器1301用于执行存储器1304存储的程序指令。
在本申请实施例中,处理器1301通过运行存储器1304中的可执行程序代码,执行如下操作:
对服务器故障的日志进行解析,得到所述服务器故障的故障原因信息;
基于所述故障原因信息,确定与所述故障原因信息匹配的参考故障标签;
基于与所述故障原因信息匹配的参考故障标签,从故障解决案例库中确定所述服务器故障对应的目标故障解决案例,所述服务器故障对应的目标故障解决案例用于处理所述服务器故障;所述故障解决案例库包括一个或多个故障解决案例,一个故障解决案例关联一个或多个参考故障标签;
输出所述服务器故障对应的目标故障解决案例。
在一个实施例中,处理器1301在对服务器故障的日志进行解析,得到所述服务器故障的故障原因信息时,可具体用于:
对服务器故障的日志进行解压处理,得到解压日志;
从所述解压日志中提取多个事件,并从所述多个事件中确定事件集合,所述事件集合与所述服务器故障关联;
根据所述事件集合从故障诊断知识图谱中,确定所述服务器故障的故障原因信息。
在一个实施例中,所述处理器1301在从所述多个事件中确定事件集合时,可具体用于:
根据事件发生时间,对所述多个事件进行排序,得到排序后的所述多个事件;
从排序后的所述多个事件中确定事件集合,所述事件集合中的每个事件的事件发生时间与排序后的所述多个事件中最后一个事件的事件发生时间之间的差值在预设范围内。
在一个实施例中,所述解压日志中包括多个文件,所述处理器1301在从所述多个事件中确定事件集合时,可具体用于:
确定各个事件所在的文件类型;
按照各个事件所在的文件类型,对所述多个事件进行排序,得到排序后的所述多个事件;
从排序后的所述多个事件中确定事件集合,所述事件集合中的事件所在的文件类型为目标文件类型。
在一个实施例中,处理器1301还用于:
获取服务器故障的相关信息;
对所述相关信息进行实体词提取,得到多个实体词,每个实体词为服务器故障的事件或者故障原因信息;
确定所述多个实体词之间的关联关系;
根据所述多个实体词以及所述多个实体词之间的关联关系构建故障诊断知识图谱。
在一个实施例中,所述事件集合包括多个标志事件以及每个标志事件的关联事件;所述处理器1301在根据所述事件集合从故障诊断知识图谱中,确定所述服务器故障的故障原因信息时,可具体用于:
根据所述多个标志事件将所述事件集合分为多个事件子集合,一个事件子集合包括一个标志事件以及所述一个标志事件的关联事件;
根据每个事件子集合从所述故障诊断知识图谱,确定所述每个事件子集合对应的故障原因信息。
在一个实施例中,所述目标故障解决案例的数量为多个,所述处理器1301在输出所述服务器故障对应的目标故障解决案例时,可具体用于:
确定与所述故障原因信息匹配的参考故障标签在各个目标故障解决案例中所占比重;
根据与所述故障原因信息匹配的参考故障标签在各个目标故障解决案例中所占比重,对所述各个目标故障解决案例进行排序;
输出排序后的多个目标故障解决案例。
在一个实施例中,所述处理器1301在根据与所述故障原因信息匹配的参考故障标签在各个目标故障解决案例中所占比重,对所述各个目标故障解决案例进行排序时,可具体用于:
获取各个目标故障解决案例的历史使用次数;
根据所述与所述故障原因信息匹配的参考故障标签在各个目标故障解决案例中所占比重、以及所述各个目标故障解决案例的历史使用次数,对所述各个目标故障解决案例进行排序。
在一个实施例中,所述处理器1301在根据与所述故障原因信息匹配的参考故障标签在各个目标故障解决案例中所占比重,对所述各个目标故障解决案例进行排序时,可具体用于:
获取各个目标故障解决案例的成功率;
根据与所述故障原因信息匹配的参考故障标签在各个目标故障解决案例中所占比重、以及各个目标故障解决案例的成功率,对所述各个目标故障解决案例进行排序。
在本申请实施例中,对服务器故障的日志进行解析,得到服务器故障的故障原因信息;基于故障原因信息,确定与故障原因信息匹配的参考故障标签;基于与故障原因信息匹配的参考故障标签,从故障解决案例库中确定服务器故障对应的目标故障解决案例,服务器故障对应的目标故障解决案例用于处理服务器故障,并输出服务器故障对应的目标故障解决案例。通过对服务器故障的日志进行自动解析,避免了人工对服务器故障分析所带来的理解误差,在提高了故障解析效率的同时,还提升了故障解析的准确性。另外,根据与故障原因信息匹配的参考故障标签可以快速从故障解决案例库中获取与服务器故障关联性较大的故障解决案例,提高了故障解决案例获取的准确性,进而提高了故障处理效率,降低了服务器平均修复时间。
可选地,在本申请实施例中,处理器1301通过运行存储器1304中的可执行程序代码,执行如下操作:
获取服务器故障的历史故障日志以及所述历史故障日志对应的历史故障解决案例;
对所述历史故障日志进行解析,得到所述服务器故障的历史故障原因信息;
基于所述服务器故障的历史故障原因信息,生成所述历史故障解决案例对应的参考故障标签;
基于所述历史故障解决案例与对应的参考故障标签构建故障解决案例库。
在一个实施例中,所述处理器1301在对所述历史故障日志进行解析,得到所述服务器故障的历史故障原因信息时,可具体用于:
对所述历史故障日志进行解压处理,得到解压故障日志;
从所述解压故障日志中提取多个历史事件,并从所述多个历史事件中确定故障事件集合,所述故障事件集合与所述服务器故障关联;
根据所述故障事件集合从故障诊断知识图谱中,确定所述服务器故障的历史故障原因信息。
在一个实施例中,所述故障事件集合包括多个标志故障事件以及每个标志故障事件的关联故障事件;
所述处理器1301在根据所述故障事件集合从故障诊断知识图谱中,确定所述服务器故障的历史故障原因信息时,可具体用于:
根据所述多个标志故障事件将所述故障事件集合分为多个故障事件子集合,一个故障事件子集合包括一个标志故障事件以及所述一个标志故障事件的关联故障事件;
根据每个故障事件子集合从故障诊断知识图谱中,确定所述每个故障事件子集合对应的历史故障原因信息。
在一个实施例中,当所述服务器故障的历史故障原因信息的数量为一个或多个时,所述处理器1301在基于所述服务器故障的历史故障原因信息,生成所述历史故障解决案例对应的参考故障标签时,可具体用于:
将各个历史故障原因信息直接作为所述历史故障解决案例对应的参考故障标签;或者,
将所述各个历史故障原因信息进行整合处理,得到所述历史故障解决案例对应的参考故障标签;或者,
按照参考故障标签生成规则,分别对每个历史故障原因信息进行转换,得到历史故障解决案例的一个或多个参考故障标签。
在一个实施例中,所述处理器1301还用于:
获取服务器的产品设计文档,所述产品设计文档中包含所述服务器故障的故障原因信息,以及所述故障原因信息对应的故障解决案例;
基于所述产品设计文档中的故障原因信息,生成所述故障解决案例对应参考故障标签;
将所述故障解决案例以及对应的参考故障标签关联存储至所述故障解决案例库。
在本申请实施例中,获取服务器故障的历史故障日志以及历史故障日志对应的历史故障解决案例;对历史故障日志进行解析,得到服务器故障的历史故障原因信息;基于服务器故障的历史故障原因信息,生成历史故障解决案例对应的参考故障标签;基于历史故障解决案例与对应的参考故障标签构建故障解决案例库。通过上述方式可对服务器故障的故障日志进行自动解析,避免了人工对服务器故障分析所带来的理解误差,在提高了故障解析效率的同时,还提升了故障解析的准确性,此外,将参考故障标签与历史故障解决案例结合起来构建故障解决案例库,使得参考故障标签不会因为故障解决案例书写人员的表述而改变,进而保证后续根据参考故障标签能够较为快速和准确地从故障解决案例库中相应服务器故障的故障解决案例。
此外,这里需要指出的是:本申请实施例还提供了一种计算机可读存储介质,且该计算机可读存储介质中存储有计算机程序,该计算机程序包括程序指令,当处理器执行上述计算机程序时,能够执行前文图2、图6a和图6b所对应实施例中的方法。对于本申请所涉及的计算机可读存储介质实施例中未披露的技术细节及有益效果,请参照本申请方法实施例的描述,这里将不再进行赘述。作为示例,计算机程序可以被部署在一个故障处理设备上执行,或者在位于一个地点的多个故障处理设备上执行,又或者,在分布在多个地点且通过通信网络互连的多个故障处理设备上执行。
根据本申请的一个方面,提供了一种计算机程序产品,该计算机程序产品包括计算机程序,该计算机程序可存储在计算机可读存储介质中。故障处理设备的处理器从计算机可读存储介质读取该计算机程序,并执行该计算机程序,使得该故障处理设备可以执行前文图2、图6a和图6b所对应实施例中的方法,对于本申请所涉及的计算机程序产品实施例中未披露的技术细节及有益效果,请参照本申请方法实施例的描述,这里将不再进行赘述。
本申请中各个实施例之间相同或相似的部分可以互相参考。在本申请中各个实施例、以及各实施例中的各个实施方式/实施方法/实现方法中,如果没有特殊说明以及逻辑冲突,不同的实施例之间、以及各实施例中的各个实施方式/实施方法/实现方法之间的术语和/或描述具有一致性、且可以相互引用,不同的实施例、以及各实施例中的各个实施方式/实施方法/实现方法中的技术特征根据其内在的逻辑关系可以组合形成新的实施例、实施方式、实施方法、或实现方法。以上所述的本申请实施方式并不构成对本申请保护范围的限定。
以上所述,仅为本申请的具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本申请的保护范围之内。

Claims (17)

1.一种故障处理方法,其特征在于,包括:
对服务器故障的日志进行解析,得到所述服务器故障的故障原因信息;
基于所述故障原因信息,确定与所述故障原因信息匹配的参考故障标签;
基于与所述故障原因信息匹配的参考故障标签,从故障解决案例库中确定所述服务器故障对应的目标故障解决案例,所述服务器故障对应的目标故障解决案例用于处理所述服务器故障;所述故障解决案例库包括一个或多个故障解决案例,一个故障解决案例关联一个或多个参考故障标签;
输出所述服务器故障对应的目标故障解决案例。
2.如权利要求1所述的方法,其特征在于,所述对服务器故障的日志进行解析,得到所述服务器故障的故障原因信息,包括:
对服务器故障的日志进行解压处理,得到解压日志;
从所述解压日志中提取多个事件,并从所述多个事件中确定事件集合,所述事件集合与所述服务器故障关联;
根据所述事件集合从故障诊断知识图谱中,确定所述服务器故障的故障原因信息。
3.如权利要求2所述的方法,其特征在于,所述从所述多个事件中确定事件集合,包括:
根据事件发生时间,对所述多个事件进行排序,得到排序后的所述多个事件;
从排序后的所述多个事件中确定事件集合,所述事件集合中的每个事件的事件发生时间与排序后的所述多个事件中最后一个事件的事件发生时间之间的差值在预设范围内。
4.如权利要求2所述的方法,其特征在于,所述解压日志中包括多个文件,所述从所述多个事件中确定事件集合,包括:
确定各个事件所在的文件类型;
按照各个事件所在的文件类型,对所述多个事件进行排序,得到排序后的所述多个事件;
从排序后的所述多个事件中确定事件集合,所述事件集合中的事件所在的文件类型为目标文件类型。
5.如权利要求2所述的方法,其特征在于,所述方法还包括:
获取服务器故障的相关信息;
对所述相关信息进行实体词提取,得到多个实体词,每个实体词为服务器故障的事件或者故障原因信息;
确定所述多个实体词之间的关联关系;
根据所述多个实体词以及所述多个实体词之间的关联关系构建故障诊断知识图谱。
6.如权利要求2所述的方法,其特征在于,所述事件集合包括多个标志事件以及每个标志事件的关联事件;
所述根据所述事件集合从故障诊断知识图谱中,确定所述服务器故障的故障原因信息,包括:
根据所述多个标志事件将所述事件集合分为多个事件子集合,一个事件子集合包括一个标志事件以及所述一个标志事件的关联事件;
根据每个事件子集合从所述故障诊断知识图谱,确定所述每个事件子集合对应的故障原因信息。
7.如权利要求1所述的方法,其特征在于,所述目标故障解决案例的数量为多个,所述输出所述服务器故障对应的目标故障解决案例,包括:
确定与所述故障原因信息匹配的参考故障标签在各个目标故障解决案例中所占比重;
根据与所述故障原因信息匹配的参考故障标签在各个目标故障解决案例中所占比重,对所述各个目标故障解决案例进行排序;
输出排序后的多个目标故障解决案例。
8.如权利要求7所述的方法,其特征在于,所述根据与所述故障原因信息匹配的参考故障标签在各个目标故障解决案例中所占比重,对所述各个目标故障解决案例进行排序,包括:
获取各个目标故障解决案例的历史使用次数;
根据所述与所述故障原因信息匹配的参考故障标签在各个目标故障解决案例中所占比重、以及所述各个目标故障解决案例的历史使用次数,对所述各个目标故障解决案例进行排序。
9.如权利要求7所述的方法,其特征在于,所述根据与所述故障原因信息匹配的参考故障标签在各个目标故障解决案例中所占比重,对所述各个目标故障解决案例进行排序,包括:
获取各个目标故障解决案例的成功率;
根据与所述故障原因信息匹配的参考故障标签在各个目标故障解决案例中所占比重、以及各个目标故障解决案例的成功率,对所述各个目标故障解决案例进行排序。
10.一种案例库构建方法,其特征在于,包括:
获取服务器故障的历史故障日志以及所述历史故障日志对应的历史故障解决案例;
对所述历史故障日志进行解析,得到所述服务器故障的历史故障原因信息;
基于所述服务器故障的历史故障原因信息,生成所述历史故障解决案例对应的参考故障标签;
基于所述历史故障解决案例与对应的参考故障标签构建故障解决案例库。
11.如权利要求10所述的方法,其特征在于,所述对所述历史故障日志进行解析,得到所述服务器故障的历史故障原因信息,包括:
对所述历史故障日志进行解压处理,得到解压故障日志;
从所述解压故障日志中提取多个历史事件,并从所述多个历史事件中确定故障事件集合,所述故障事件集合与所述服务器故障关联;
根据所述故障事件集合从故障诊断知识图谱中,确定所述服务器故障的历史故障原因信息。
12.如权利要求11所述的方法,其特征在于,所述故障事件集合包括多个标志故障事件以及每个标志故障事件的关联故障事件;
所述根据所述故障事件集合从故障诊断知识图谱中,确定所述服务器故障的历史故障原因信息,包括:
根据所述多个标志故障事件将所述故障事件集合分为多个故障事件子集合,一个故障事件子集合包括一个标志故障事件以及所述一个标志故障事件的关联故障事件;
根据每个故障事件子集合从故障诊断知识图谱中,确定所述每个故障事件子集合对应的历史故障原因信息。
13.如权利要求10-12任一项所述的方法,其特征在于,当所述服务器故障的历史故障原因信息的数量为一个或多个时,所述基于所述服务器故障的历史故障原因信息,生成所述历史故障解决案例对应的参考故障标签,包括:
将各个历史故障原因信息直接作为所述历史故障解决案例对应的参考故障标签;或者,
将所述各个历史故障原因信息进行整合处理,得到所述历史故障解决案例对应的参考故障标签;或者,
按照参考故障标签生成规则,分别对每个历史故障原因信息进行转换,得到所述历史故障解决案例的一个或多个参考故障标签。
14.如权利要求10所述的方法,其特征在于,所述方法还包括:
获取服务器的产品设计文档,所述产品设计文档中包含所述服务器故障的故障原因信息,以及所述故障原因信息对应的故障解决案例;
基于所述产品设计文档中的故障原因信息,生成所述故障解决案例对应参考故障标签;
将所述故障解决案例以及对应的参考故障标签关联存储至所述故障解决案例库。
15.一种故障处理装置,其特征在于,包括:
解析单元,用于对服务器故障的日志进行解析,得到所述服务器故障的故障原因信息;
确定单元,用于基于所述故障原因信息,确定与所述故障原因信息匹配的参考故障标签;
所述确定单元,还用于基于与所述故障原因信息匹配的参考故障标签,从故障解决案例库中确定所述服务器故障对应的目标故障解决案例,所述服务器故障对应的目标故障解决案例用于处理所述服务器故障;所述故障解决案例库包括一个或多个故障解决案例,一个故障解决案例关联一个或多个参考故障标签;
输出单元,用于输出所述服务器故障对应的目标故障解决案例。
16.一种故障处理设备,其特征在于,包括处理器,所述处理器用于执行如权利要求1-14中任一项所述的方法。
17.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机程序,所述计算机程序包括程序指令,所述程序指令被执行时,使得如权利要求1-14中任一项所述的方法被执行。
CN202211446359.2A 2022-11-18 2022-11-18 一种故障处理方法、案例库构建方法及相关设备 Pending CN115913919A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211446359.2A CN115913919A (zh) 2022-11-18 2022-11-18 一种故障处理方法、案例库构建方法及相关设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211446359.2A CN115913919A (zh) 2022-11-18 2022-11-18 一种故障处理方法、案例库构建方法及相关设备

Publications (1)

Publication Number Publication Date
CN115913919A true CN115913919A (zh) 2023-04-04

Family

ID=86492727

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211446359.2A Pending CN115913919A (zh) 2022-11-18 2022-11-18 一种故障处理方法、案例库构建方法及相关设备

Country Status (1)

Country Link
CN (1) CN115913919A (zh)

Similar Documents

Publication Publication Date Title
US11176015B2 (en) Log message analysis and machine-learning based systems and methods for predicting computer software process failures
US11354219B2 (en) Machine defect prediction based on a signature
US10303533B1 (en) Real-time log analysis service for integrating external event data with log data for use in root cause analysis
US7941707B2 (en) Gathering information for use in diagnostic data dumping upon failure occurrence
US20200201699A1 (en) Unified error monitoring, alerting, and debugging of distributed systems
JP6048038B2 (ja) 情報処理装置,プログラム,情報処理方法
CN105978723A (zh) 网络信息管理方法及装置
JPWO2004061681A1 (ja) 運用管理方法および運用管理サーバ
US6351752B1 (en) Method and apparatus for detecting changes to a collection of objects
US20100131315A1 (en) Resolving incident reports
JP6561212B2 (ja) 問合せ対応システム及び方法
CN112433874A (zh) 一种故障定位方法、系统、电子设备及存储介质
CN111614483A (zh) 链路监控方法、装置、存储介质及计算机设备
US9489379B1 (en) Predicting data unavailability and data loss events in large database systems
US20190228342A1 (en) Systems and methods for automated incident response
CN111913824B (zh) 确定数据链路故障原因的方法及相关设备
CN112182025A (zh) 日志分析方法、装置、设备与计算机可读存储介质
CN111865673A (zh) 一种自动化故障管理方法、装置及系统
Liu et al. Scalable and adaptive log-based anomaly detection with expert in the loop
CN110011845B (zh) 日志采集方法及系统
CN116225848A (zh) 日志监测方法、装置、设备和介质
US11822578B2 (en) Matching machine generated data entries to pattern clusters
CN115913919A (zh) 一种故障处理方法、案例库构建方法及相关设备
WO2023161833A1 (en) Recommending remediation actions for incidents identified by performance management systems
CN113781068B (zh) 线上问题解决方法、装置、电子设备和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination