CN116126574A - 一种系统故障诊断方法、装置、设备及存储介质 - Google Patents

一种系统故障诊断方法、装置、设备及存储介质 Download PDF

Info

Publication number
CN116126574A
CN116126574A CN202211684907.5A CN202211684907A CN116126574A CN 116126574 A CN116126574 A CN 116126574A CN 202211684907 A CN202211684907 A CN 202211684907A CN 116126574 A CN116126574 A CN 116126574A
Authority
CN
China
Prior art keywords
fault
component
data
components
diagnosis
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211684907.5A
Other languages
English (en)
Inventor
刘瑞
陈彬
李明凯
李建辉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Suzhou Inspur Intelligent Technology Co Ltd
Original Assignee
Suzhou Inspur Intelligent Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Suzhou Inspur Intelligent Technology Co Ltd filed Critical Suzhou Inspur Intelligent Technology Co Ltd
Priority to CN202211684907.5A priority Critical patent/CN116126574A/zh
Publication of CN116126574A publication Critical patent/CN116126574A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/079Root cause analysis, i.e. error or fault diagnosis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0766Error or fault reporting or storing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3003Monitoring arrangements specially adapted to the computing system or computing system component being monitored
    • G06F11/302Monitoring arrangements specially adapted to the computing system or computing system component being monitored where the computing system component is a software system
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3065Monitoring arrangements determined by the means or processing involved in reporting the monitored data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3065Monitoring arrangements determined by the means or processing involved in reporting the monitored data
    • G06F11/3072Monitoring arrangements determined by the means or processing involved in reporting the monitored data where the reporting involves data filtering, e.g. pattern matching, time or event triggered, adaptive or policy-based reporting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/353Clustering; Classification into predefined classes

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Quality & Reliability (AREA)
  • Computing Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Biomedical Technology (AREA)
  • Health & Medical Sciences (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Debugging And Monitoring (AREA)
  • Test And Diagnosis Of Digital Computers (AREA)

Abstract

本发明实施例涉及计算机技术领域,具体涉及一种系统故障诊断方法、装置、设备及存储介质,旨在对系统故障的原因进行快速诊断定位。所述方法包括:对系统日志数据进行故障数据分类提取,得到多种不同类型的故障数据;根据所述多种不同类型的故障数据,得到所有故障部件的部件状态信息;根据所述故障部件的部件状态信息,通过对应的故障诊断模块,对不同类型的故障部件分别进行故障关联分析,得到多个故障原因;基于二线固化规则,对所述多个故障原因进行综合分析,得到最终故障原因。

Description

一种系统故障诊断方法、装置、设备及存储介质
技术领域
本发明实施例涉及计算机技术领域,具体而言,涉及一种系统故障诊断方法、装置、设备及存储介质。
背景技术
IPMI(Intelligent Platform Management Interface,智能平台管理接口),是一种横跨多个操作系统、固件和硬件平台,可以智能的监视、控制和自动回报大量服务器的运作状况的管理系统。在IPMI系统运行时,会产生IPMI系统日志,也叫做SEL(IPMI SystemEvent Log)日志,该系统日志记录了在IPMI系统管理下运行的各种设备的运行过程中的全量、累计的部件、阈值、状态的变化,对IPMI系统进行故障诊断时一般需要对SEL日志进行分析,定位故障原因。现有技术中,基于SEL日志的故障分析一般是采用关键字分析,得到SEL日志中的故障数据,再交给运维人员进行分析。
现有技术中只能通过关键字查找的方式得到SEL日志中的故障数据,不能够快速分析出故障的根本原因。
发明内容
本发明实施例提供一种系统故障诊断方法、装置、设备及存储介质,旨在对系统故障的原因进行快速诊断定位。
本发明实施例第一方面提供一种系统故障诊断方法,所述方法包括:
对系统日志数据进行故障数据分类提取,得到多种不同类型的故障数据;
根据所述多种不同类型的故障数据,得到所有故障部件的部件状态信息;
根据所述故障部件的部件状态信息,通过对应的故障诊断模块,对不同类型的故障部件分别进行故障关联分析,得到多个故障原因;
基于二线固化规则,对所述多个故障原因进行综合分析,得到最终故障原因。
可选地,所述对系统日志进行故障数据分类提取,得到多种不同类型的故障数据,包括:
根据预先设定的故障关键字,在所述系统日志数据中查找所述故障关键字对应的故障数据;
将所述故障数据按照所述故障关键字的类别进行分类,得到所述多种不同类型的故障数据。
可选地,所述根据所述多种不同类型的故障数据,得到所有故障部件的部件状态信息,包括:
针对每个类型的所述故障数据,确定所述故障数据中包括的故障部件的相关故障数据;
根据所述故障部件的相关故障数据,确定所述每故障部件的部件状态信息,所述部件状态信息包括:部件名称,部件故障内容,部件故障状态。
可选地,在根据所述故障部件的部件状态信息,通过对应的故障诊断模块,对不同类型的故障部件分别进行故障关联分析,得到多个故障原因之前,所述方法还包括:
当所述部件状态信息中存在无法解析的部件名称编码时,对所述部件名称编码进行提取,得到目标部件名称编码;
在预先设置的部件名称编码库中,查找所述目标部件名称编码对应的部件名称,得到目标部件名称;
使用所述目标部件名称替换所述故障数据中的部件名称编码,得到所述部件状态信息。
可选地,所述根据所述故障部件的部件状态信息,通过对应的故障诊断模块,对不同类型的故障部件分别进行故障关联分析,得到多个故障原因,包括:
根据所述故障部件的部件状态信息,确定所述故障部件的部件类型;
根据所述故障部件的部件类型,确定所述故障部件的相关类型部件;
通过所述故障部件以及所述相关类型部件对应的故障诊断模块,对所述故障部件以及所述故障部件的相关类型部件进行故障关联分析,得到所述故障原因。
可选地,所述通过所述故障部件以及所述相关类型部件对应的故障诊断模块,对所述故障部件以及所述故障部件的相关类型部件进行故障关联分析,得到所述故障原因,包括:
根据预设的部件与故障诊断模块之间的对应关系,确定所述故障部件以及所述故障部件的相关类型部件对应的故障诊断模块;
通过所述故障诊断模块,根据预设的故障诊断规则,对所述故障部件以及所述故障部件的相关类型部件进行故障关联分析,得到所述故障原因。
可选地,所述基于二线固化规则,对所述多个故障原因进行综合分析,得到最终故障原因,包括:
当所述多个故障原因对应的故障诊断模块之间的关系为平行关系时,将所述故障原因进行输出,得到所述最终故障原因;
当所述多个故障原因对应的故障诊断模块之间的关系为关联关系时,根据预设的故障诊断规则,对所述多个故障原因进行关联分析,得到所述最终故障原因。
本发明实施例第二方面提供一种系统故障诊断装置,所述装置包括:
故障数据提取模块,用于对系统日志数据进行故障数据分类提取,得到多种不同类型的故障数据;
部件状态信息确定模块,用于根据所述多种不同类型的故障数据,得到所有故障部件的部件状态信息;
故障诊断模块,用于根据所述故障部件的部件状态信息,通过对应的故障诊断模块,对不同类型的故障部件分别进行故障关联分析,得到多个故障原因;
综合分析模块,用于基于二线固化规则,对所述多个故障原因进行综合分析,得到最终故障原因。
可选地,所述故障数据提取模块包括:
故障数据查找子模块,用于根据预先设定的故障关键字,在所述系统日志数据中查找所述故障关键字对应的故障数据;
故障数据分类子模块,用于将所述故障数据按照所述故障关键字的类别进行分类,得到所述多种不同类型的故障数据。
可选地,所述部件状态信息确定模块包括:
部件相关数据确定子模块,用于针对每个类型的所述故障数据,确定所述故障数据中包括的故障部件的相关故障数据;
部件状态信息确定子模块,用于根据所述故障部件的相关故障数据,确定所述每故障部件的部件状态信息,所述部件状态信息包括:部件名称,部件故障内容,部件故障状态。
可选地,在根据所述故障部件的部件状态信息,通过对应的故障诊断模块,对不同类型的故障部件分别进行故障关联分析,得到多个故障原因之前,所述方法还包括:
当所述部件状态信息中存在无法解析的部件名称编码时,对所述部件名称编码进行提取,得到目标部件名称编码;
在预先设置的部件名称编码库中,查找所述目标部件名称编码对应的部件名称,得到目标部件名称;
使用所述目标部件名称替换所述故障数据中的部件名称编码,得到所述部件状态信息。
可选地,所述故障诊断模块包括:
部件类型确定子模块,用于根据所述故障部件的部件状态信息,确定所述故障部件的部件类型;
相关类型部件确定子模块,用于根据所述故障部件的部件类型,确定所述故障部件的相关类型部件;
故障原因确定子模块,用于通过所述故障部件以及所述相关类型部件对应的故障诊断模块,对所述故障部件以及所述故障部件的相关类型部件进行故障关联分析,得到所述故障原因。
可选地,所述故障原因确定子模块包括:
故障诊断模块确定子模块,用于根据预设的部件与故障诊断模块之间的对应关系,确定所述故障部件以及所述故障部件的相关类型部件对应的故障诊断模块;
故障关联分析子模块,用于通过所述故障诊断模块,根据预设的故障诊断规则,对所述故障部件以及所述故障部件的相关类型部件进行故障关联分析,得到所述故障原因。
可选地,所述综合分析模块包括:
第一原因确定子模块,用于当所述多个故障原因对应的故障诊断模块之间的关系为平行关系时,将所述故障原因进行输出,得到所述最终故障原因;
第二原因确定子模块,用于当所述多个故障原因对应的故障诊断模块之间的关系为关联关系时,根据预设的故障诊断规则,对所述多个故障原因进行关联分析,得到所述最终故障原因。
本发明实施例第三方面提供一种可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时,实现如本发明第一方面所述的方法中的步骤。
本发明实施例第四方面提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时,实现本发明第一方面所述的方法的步骤。
采用本发明提供的系统故障诊断方法,对系统日志数据进行故障数据分类提取,得到多种不同类型的故障数据;根据所述多种不同类型的故障数据,得到所有故障部件的部件状态信息;根据所述故障部件的部件状态信息,通过对应的故障诊断模块,对不同类型的故障部件分别进行故障定位分析,得到多个故障原因;基于二线固化规则,对所述多个故障原因进行综合分析,得到最终故障原因。本方法中,首先对系统日志数据进行故障数据分类提取,提取出了多种不同类型的故障,对系统发生故障的部件进行了初步定为,再根据故障数据的具体信息,确定故障部件的状态信息,进一步的定位分析出了各个故障部件的状态,有利于确定各个故障部件之间的相关联系,分析出故障发生的因果关系,再通过不同的故障诊断模块,分别对不同类型的故障部件进行故障关联分析,得到多个故障原因,使用了不同的诊断模块对不同类型的故障部件进行故障关联分析,可以基于同一个类型的部件之间的关联性,对故障的原因进行深层次的分析,有利于判断出故障的根本原因,最后再基于二线固化规则对多个故障原因进行综合分析,得到最终故障原因,基于二线固化规则,对多个诊断模块得到的故障原因再进行综合性的分析,可以根据模块之间的关联性,进一步的确定系统发生故障的根本原因,进而全面的、快速的分析出整个系统发生故障的根本原因。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对本发明实施例的描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是本发明一实施例提出的系统故障诊断方法的流程图;
图2是本发明一实施例提出的故障数据提取流程示意图;
图3是本发明一实施例提出的故障诊断流程示意图;
图4是本发明一实施例提出的综合分析流程示意图;
图5是本发明一实施例提出的系统故障诊断方法的流程示意图;
图6是本发明一实施例提出的系统故障诊断装置的示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有付出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
参考图1,图1是本发明一实施例提出的系统故障诊断方法的流程图。
如图1所示,该方法包括以下步骤:
S11:对系统日志数据进行故障数据分类提取,得到多种不同类型的故障数据。
本实施例中,系统日志数据是系统在运行时,通过后台记录的系统硬件、软件以及系统发生的问题的信息,同时还可以监视系统中发生的事件,可以根据阅读系统日志来确定错误发生的原因,或根据系统日志查找攻击留下的痕迹。故障数据是系统日志中记录的系统的硬件发生的各种故障的数据。故障分类提取就是根据故障数据对应的部件的类型,对日志中的故障数据进行分类提取。
本实施例中,通过查询工具读取系统日志数据,查找到系统日志数据中的故障数据,再根据故障数据对应的部件的类型,对故障数据进行分类提取,得到多种不同类型的故障数据。
本实施例中,以IPMI系统为例,IPMI系统日志又称为SEL日志,SEL日志中以对应的规范,按照一定的规则将故障数据记录在日志中,通过日志查询工具读取SEL日志,根据对应的故障数据记录规则,查找到SEL日志中的故障数据,再根据故障数据对应的部件的类型,将故障数据按照不同的类型进行提取,例如内存相关的部件发生的故障为内存类的故障,CPU(central processing unit,中央处理器)部件发生的故障为CPU类的故障,硬盘部件发生的故障为硬盘类的故障。
S12:根据所述多种不同类型的故障数据,得到所有故障部件的部件状态信息。
本实施例中,故障部件为故障数据中出现过的部件,故障部件可以为正在发生故障的部件,也可以是发生过故障已经修复的部件。部件状态信息是从部件的故障数据中提取并汇总出的部件的相关的状态信息,是将同一个故障部件的故障信息汇总到了一起,包括故障部件的名称,故障部件的故障具体内容,故障的状态等,故障状态即当前存在问题,存在问题已修复或者问题复现,或曾经发生过问题等。
本实施例中,在得到多种不同类型的故障数据之后,对这多种故障数据进行进一步的提取,得到故障部件的状态信息。如图2所示,图2是本发明一实施例提出的故障数据提取流程示意图,首先对SEL日志进行一次提取,确定多种故障类型的故障数据,同时从SEL日志中获取参考时间(bmctime),即各个故障数据的发生时间,再根据通用规则库中记录的规则对SEL日志进行二次提取,得到部件的状态信息,即故障部件,故障内容以及故障状态(当前问题、最近修复、问题复现、曾经发生)。再对部件进行分类、汇总,以及通过Sensor(部件名称编码库)进行部件矫正,最终得到故障元数据,该故障元数据中包含了部件的部件状态信息。
示例地,在内存类故障中进行进一步提取,得到故障部件为内存槽位CPU0_C0D0,故障内容为Uncorrectable ECC(遇到不可纠正的ECC错误,ECC为(Error Checking andCorrecting,错误检查和纠正),部件的故障状态为当前存在问题。
S13:根据所述故障部件的部件状态信息,通过对应的故障诊断模块,对不同类型的故障部件分别进行故障关联分析,得到多个故障原因。
本实施例中,故障诊断模块是对故障部件进行诊断分析的模块,一个故障诊断模块就是一段封装好的代码,通过运行该代码,就可以调用对应的故障诊断规则,对故障部件故障进行关联分析,进而得到故障原因。
本实施例中,故障诊断模块的类型包括计算诊断子模块,存储诊断子模块,启动诊断子模块,散热诊断子模块以及供电诊断子模块。计算诊断子模块是对系统计算相关类型的部件进行故障诊断的子模块,例如CPU,内存,PCIE(peripheral componentinterconnect express,总线)等部件,存储诊断子模块是对系统中存储相关类型的部件进行故障诊断的子模块,例如硬盘等部件,启动诊断子模块是对系统相关类型的部件进行故障诊断的子模块,例如驱动器等部件,散热诊断子模块是对系统散热相关类型的部件进行故障诊断的子模块,例如风扇,温度传感器等边,供电诊断子模块是对系统供电相关类型的部件进行故障诊断的子模块,例如电源接口等部件。
本实施例中,当获取每个部件的部件状态信息之后,将部件的状态信息按照部件所属的类型输入对应的故障诊断模块中,故障诊断模块通过对应的诊断规则,对故障部件进行关联分析,即根据该故障部件的原因与该部件的相关部件的故障原因,分析出故障原因之间的因果关系,确定出该类型故障部件发生故障的主要原因,根据故障出现的主要原因,为故障原因赋予对应的权重,选择权重最大的故障原因为主要的故障原因,故障诊断模块输出该故障原因。
示例地,以计算诊断子模块为例,计算相关类型的部件为CPU,内存和PCIE,将这三种类型部件的部件状态信息输入计算诊断子模块中,计算诊断子模块根据预先定制的CPU故障诊断规则,PCIE故障诊断规则,内存诊断规则对这三种类型部件的故障数据进行分析,确定这三种部件的故障数据之间的关联,例如故障数据表明CPU IERR(主板)发生故障,内存CPU0_C0DD发生故障,则根据预先设定的规则,判断是内容的故障导致了CPU发生故障,则确定故障原因为内存CPU0_C0DD发生故障。
S14:基于二线固化规则,对所述多个故障原因进行综合分析,得到最终故障原因。
本实施例中,二线固化规则是故障诊断模块之间关系的分类规则,二线固化规则将故障诊断模块之间的关系分为两类,一类是平行关系,另一类是关联关系,平行关系就是两个计算诊断模块对应的部件的类型互不关联,关联关系就是两个计算诊断模块对应的部件的类型互相关联。最终故障原因就是导致系统出现故障的一个或多个根本原因。
本实施例中,在获得多个故障原因之后,基于二线固化规则,分析这些故障原因对应的部件之间的关联关系,进而根据故障部件之间的关联关系进行综合分析,得到最终的故障原因。当输出故障原因的计算诊断模块负责的部件类型互不关联时,则视为平行关系,将这两个故障原因都作为最终故障原因进行输出,当输出故障原因的计算诊断模块负责的部件类型为关联关系时,对故障原因之间的因果关系进行判断,进而得到最终故障原因。
示例地,计算相关的部件类型与存储相关的部件类型一般互不关联,所当故障原因为内存故障和硬盘故障时,两个故障原因会同时作为最终故障原因进行输出。散热诊断模块输出的故障原因进风口和CPU高温告警,而计算诊断模块输出的故障原因为CPU锁频,则最终的故障原因为进风口高温导致的CPU锁频问题。
本实施例中,首先对系统日志数据进行了故障分类提取,得到多种不同类别的故障数据,再对不同类别的故障数据进行进一步的提取,得到每个故障部件的部件状态信息,通过不同类型到的诊断模块,对同一类型的部件发生的故障进行关联性分析,得到每个类型的部件发生故障的故障原因,再对多个诊断模块诊断出的故障原因进行综合分析,根据各个诊断模块对应的部件类型之间的关联关系,确定出最终故障原因,实现了基于系统日志数据进行故障数据的提取,故障数据的分析,根据故障数据之间的关联,得到系统发生故障的根本原因。
在本发明的另一个实施例中,所述对系统日志进行故障数据分类提取,得到多种不同类型的故障数据,包括:
S21:根据预先设定的故障关键字,在所述系统日志中查找所述故障关键字对应的故障数据。
本实施例中,故障关键字是按照特定的规则设置的,经常在故障数据中出现的关键字,若系统日志数据中的某条数据中出现了故障关键字,则将该数据作为对应的故障数据。
本实施例中,通过日志查询工具读取系统日志数据,日志查询工具根据预先设定的故障关键字,在系统日志中的所有数据中查找包含故障关键字的数据,并提取出包含故障关键字的数据作为对应的故障数据。
示例地,故障关键字可以为“内存故障”,“硬盘故障”,“温度异常”等。
S22:将所述故障数据按照所述故障关键字的类别进行分类,得到所述多种不同类型的故障数据。
本实施例中,故障关键字属于不同的类别,根据故障关键字的类别,对多种不同类型的故障关键字进行分类,得到多种不同类型的故障数据。
示例地,当故障关键字为“硬盘故障”时,故障关键字的类别就属于存储类故障,当故障关键字为“温度异常”时,故障关键字的类别就属于散热类故障。
本实施例中,通过预先设定的故障关键字,对系统日志数据中的故障数据进行提取,系统日志数据中的故障数据,再根据故障关键字的类别,对提取到的故障数据进行分类,得到了多种不同类型的故障数据,不光对故障数据进行了提取,还对故障数据进行了分类,有利于后续的故障原因关联性分析。
在本发明的另一个实施例中,所述根据所述多种不同类型的故障数据,得到所有故障部件的部件状态信息,包括:
S31:针对每个类型的所述故障数据,确定所述故障数据中包括的故障部件的相关故障数据。
本实施例中,故障部件是系统中发生故障的部件,故障部件的相关数据指故障数据中包含该故障部件名称的故障数据。
本实施例中,在获得多个种类的故障数据后,在每个种类的故障数据中,确定出所有的故障部件,再查找每个故障部件的相关故障数据,确定该故障部件的相关故障数据。
示例地,故障部件为内存槽位CPU0_C0D0,该内存槽位的相关故障数据为“内存槽位CPU0_C0D0;错误Uncorrectable ECC;2022年1月1日22:00”。“内存槽位CPU0_C0D0;错误Uncorrectable ECC;2022年5月6日13:00”。“内存槽位CPU0_C0D0;更换内存条;2022年6月12日21:35”。
S32:根据所述故障部件的相关故障数据,确定所述每故障部件的部件状态信息,所述部件状态信息包括:部件名称,部件故障内容,部件故障状态。
本实施例中,部件状态信息是故障部件的相关状态信息,包括了部件名称,部件故障内容,部件故障状态。部件名称为部件在系统中注册的名称,部件故障内容为部件发生故障时系统的记录的具体故障内容,部件故障状态为部件当前的问题,部件的修复记录,部件修复过的问题是否再次出现,部件曾经发生过的问题等。
本实施例中,在得到故障部件的相关故障数据之后,对这些故障数据的内容进行分析,得到故障部件具体发生过的问题的记录,得到故障部件的部件状态信息。
本实施例中,当故障数据中显示该故障部件存在故障,且没有修复记录时,确定该故障部件的状态为当前存在问题;当故障数据中显示该故障部件存在故障,且后续记录中已经修复时,确定曾经出现问题,已修复;当故障数据中显示该故障部件重复出现同一个问题时,确定该故障部件问题复现。
在本发明的另一个实施例中,在根据所述故障部件的部件状态信息,通过对应的故障诊断模块,对不同类型的故障部件分别进行故障关联分析,得到多个故障原因之前,所述方法还包括:
S41:当所述部件状态信息中存在无法解析的部件名称编码时,对所述部件名称编码进行提取,得到目标部件名称编码。
本实施例中,部件名称编码是指代特定部件的编码,可以是数字或者字母的组合,目标部件名称编码就是当前无法解析或解析错误的故障部件的名称编码。
本实施例中,某些产品或软件在记录系统运行数据时会使用一定规则的编码来代替部件的名称,此时IPMI系统中的部件名称是以部件名称编码的形式记录的,当部件状态信息中存在无法解析或解析错误的部件名称编码时,对部件名称编码进行提取,得到目标部件名称编码。
S42:在预先设置的部件名称编码库中,查找所述目标部件名称编码对应的部件名称,得到目标部件名称。
S43:使用所述目标部件名称替换所述故障数据中的部件名称编码,得到所述部件状态信息。
本实施例中,部件名称编码库存储有IPMI系统控制的所有设备以及系统的所有部件的名称以及该部件名称对应的名称编码。
本实施例中,预先设置了一个部件名称编码库,对IPMI系统中的所有设备以及系统的部件的名称进行确认,当部件的名称在某些系统或软件中存在对应的名称编码时,将部件名称与对应的名称编码存储在名称编码库中。部件名称编码库也被称为Senor。在通过S41获得目标部件名称编码之后,在名称编码库中,根据该部件名称编码查找该部件名称编码对应的部件名称,使用查找到的部件名称编码对应的部件名称,替换故障部件对应的故障数据中的部件名称编码,替换后的故障数据中不存在部件名称编码,都展示的是对应的部件名称。
本实施例中,为了防止在IPMI系统下运行的某些产品设备或软件导致的SEI日志未解析或解析错误的问题,通过查询部件名称编码库,对部件的命名进行校正,保证了后续的故障原因分析更加的准确,不会因为部件名称为解析或解析错误影响故障原因的判断。
在本发明的另一个实施例中,所述根据所述故障部件的部件状态信息,通过对应的故障诊断模块,对不同类型的故障部件分别进行故障关联分析,得到多个故障原因,包括:
S51:根据所述故障部件的部件状态信息,确定所述故障部件的部件类型。
本实施例中,部件类型是根据部件在硬件设备上的具体位置和起到的具体作用,对部件进行分类后得到的。
本实施例中,在通过S32获取了故障部件的部件状态信息之后,在部件状态信息中可以确认故障部件的部件名称,进而根据故障部件的部件名称,确定故障部件的部件类型。
示例地,运算器、控制器、寄存器位于CPU上,是CPU的组成部件,协助CPU进行各种运算,属于CPU类部件;内存条属于内存类部件;风扇是散热设备,属于散热类部件。
S52:根据所述故障部件的部件类型,确定所述故障部件的相关类型部件。
本实施例中,部件的相关类型部件是与该部件同属于一个功能模块的部件的类型,在系统设备中,部件与部件往往具有相关性,某一个功能模块往往需要多个互相相关的部件一起运行来实现该模块的功能。
本实施例中,根据故障部件的部件类型,可以确定故障部件的相关的类型部件,根据故障部件的部件类型,确定该故障部件所属的工作模块,为该工作模块服务,或者受到该工作模块的控制,都可以作为该故障部件的相关部件。
示例地,主板属于CPU类部件,内存条属于内存类部件,PCIE总线属于PCIE部件,而CPU类型部件、内存类型部件、PCIE类型部件都是属于设备的计算模块,这三种类型部件互为相关部件且都属于计算类型部件。
S53:通过所述故障部件以及所述相关类型部件对应的故障诊断模块,对所述故障部件以及所述故障部件的相关类型部件进行故障关联分析,得到所述故障原因。
本实施例中,故障原因是故障部件以及相关类型部件发生故障的根原因,因为互相相关的几个部件发生故障时的故障数据有的是部件自身发声故障,有的是受到相关部件影响而发生的故障,因此需要定位故障的根原因。
本实施例中,在确定故障部件以及相关类型部件之后,确定该故障部件以及相关类型部件对应的故障诊断模块,将故障部件以及故障部件的相关类型部件的故障数据输入对应的故障诊断模块中,通过对应的故障诊断模块得到故障原因,具体的步包括:
S53-1:根据预设的部件与故障诊断模块之间的对应关系,确定所述故障部件以及所述故障部件的相关类型部件对应的故障诊断模块。
本实施例中,每一个部件都对应有各自的故障诊断模块,属于相关类型的故障部件属于同一个故障诊断模块,部件属于的部件类型以及部件对应的故障诊断模块都是预先设置好的。
本实施例中,根据预设的部件与故障诊断模块之间的对应关系,确定故障部件以及相关类型部件对应的故障诊断模块。
示例地,运算器属于CPU类部件,快速存储属于内存类部件,CPU类部件和内存类部件都是属于计算模块的部件,则运算器与快速存储这两个部件对应的是计算诊断模块。
S53-2:通过所述故障诊断模块,根据预设的故障诊断规则,对所述故障部件以及所述故障部件的相关类型部件进行故障关联分析,得到所述故障原因。
本实施例中,故障诊断规则是根据通用的常识性规则和以往的诊断经验得出的对部件的故障原因的判断规则,故障关联分析是根据部件的故障数据,找到这几个部件之间的相互影响,发掘这几个部件发生的故障之间的关联,找到故障的根原因的分析方法。
本实施例中,将故障部件以及故障部件的相关类型部件的故障数据输入对应的故障诊断模块中,故障诊断模块调用对应的故障诊断规则,对故障部件以及故障部件的相关类型部件进行故障关联分析,得到故障原因。故障规则包括了通用规则和典型规则,通用规则就是对系统部件故障分析常用的规则,通用规则一般包括了接触不良导致部件故障,负载过大导致部件故障等等通用的部件故障的情况。而互相关联的部件,在一个部件发生故障时,另一个部件即使没有故障,运行也会受到阻碍,例如当内存损坏出现故障时,CPU计算频率也会受到限制,进而出现运行故障。当风扇出现故障时,CPU等部件也会出现异常升温。这些规则是运维人员在日常系统诊断过程中总结出的规则,因而叫做典型规则。而规则中还包括了每个类型的部件对应的规则,例如CPU规则,即CPU类部件的故障诊断规则,PCIE规则,即PCIE类部件的故障诊断规则,内存规则,即内存类部件的故障诊断规则。
本实施例中,预先定制了一个规则库,规则库中收录了对系统的各个模块进行诊断的通用规则以及典型规则,还收录了SEL日志数据的提取规则,这些规则是预先收集总结好的,当接收到数据时,直接调用对应的规则对当前数据进行分析处理,得到分析结果。
示例地,参考图3,图3是本发明一实施例提出的故障诊断流程示意图,如图3所示,以计算诊断子模块为例,CPU和内存都属于计算类部件,将故障元数据(多CPU IRRR故障,内存CPU0_C0D0GU故障)输入计算诊断模块中,计算诊断模块结合规则库中的CPU规则,内存规则,PCIE规则,对故障数据进行分析,确定CPU故障是由内存的故障导致的,进而输出故障原因是内存CPU0_C0D0GU故障。
本实施例中,通过多个类型的故障诊断模块,分析处理对应类型的故障数据,根据故障部件的类型从规则库中调用对应的规则对故障数据进行分析,得到故障发生的原因,对一个工作模块内的相关部件之间发生的故障的因果关系进行分析,找到了故障发生的根原因,进而实现了一个功能模块内的故障原因的快速定位。
在本发明的另一个实施例中,所述基于二线固化规则,对所述多个故障原因进行综合分析,得到最终故障原因,包括:
S61:当所述多个故障原因对应的故障诊断模块之间的关系为平行关系时,将所述故障原因进行输出,得到所述最终故障原因。
本实施例中,平行规则即两个故障诊断模块对应的部件类型之间互不关联。
本实施例中,当两个故障诊断模块对应的部件类型之间互不关联时,这两个故障诊断模块输入的故障原因都作为最终的故障原因进行输出,即这两个故障诊断模块诊断出的故障原因都是影响整个系统运行的重要原因,都需要进行修复,必须将两个故障部件都进行修复,才可以恢复系统的稳定运行。
示例地,当计算诊断模块和存储诊断模块都输出故障原因时,系统中的计算模块与系统中的存储模块对应的部件之间一般互不关联,则两个模块输出的故障原因都是最终故障原因。
S62:当所述多个故障原因对应的故障诊断模块之间的关系为关联关系时,根据预设的故障诊断规则,对所述多个故障原因进行关联分析,得到所述最终故障原因。
本实施例中,关联关系即关两个计算诊断模块对应的部件的类型互相关联。
本实施例中,当两个计算诊断模块对应的部件的类型互相关联时,这两个故障诊断模块输入的故障原因之间也具有因果关系,即一般是由于其中一个部件的故障而导致了另一个部件出现故障,当其中一个故障部件更换之后,受到影响的部件就会恢复正常,不需要对另一个部件再做更换。
示例地,散热诊断模块中输出故障原因为进风口和CPU温度高温告警,计算诊断模块输出的故障原因为CPU锁频,而系统中的散热模块与计算模块对应的部件之间一般会相互关联,则两种类型的部件之间符合关联关系,进而根据关联规则进行分析,得到的最终故障原因为进风口高温导致的CPU锁频问题。当对进风口进行疏通或对风扇进行清洗更换后,CPU高温锁频的问题会自动解决。
本实施例中,参考图4,图4是本发明一实施例提出的综合分析流程示意图,如图4所示,图中将各个模块的结论输入综合分析模块中,通过规则库中的平行规则与关联规则对各个模块的结论(故障原因)进行分析,得到最终结论(最终故障原因),基于二线固化规则,对各个诊断模块得出的故障原因进行了综合分析,得到了最终故障原因,运维人员只需要解决综合分析模块得出的最终故障原因,即可对整个系统进行修复,提升了系统的问题定位以及修复的效率。
参考图5,如图5所示,图5是本发明一实施例提出的系统故障诊断方法的流程示意图,图中首先将SEL日志数据输入故障数据提取模块中,得到故障部件的状态信息(故障部件、故障内容、故障状态),再将提取出的数据分别输入多个故障诊断模块中,最后将故障诊断模块输出的故障原因输入综合分析模块中,得到最终故障原因。这三个模块在运行过程中都调用规则库中的通用规则以及典型规则,对故障数据进行提取以及分析。本实施例中对SEL日志进行了多方位综合分析后快速给出了明确的分析结果和建议,有效的提高了系统故障诊断和运维的效率。基于IPMI通用规则,可作为通用诊断方案适用于多种设备服务器以及交换机的SEL日志数据提取和诊断,并且分析多个故障原因之间的关系,定位到了具体的部件,避免了多个部件的更换,降低了运维成本。并且可以识别出同类型问题多次发声,同部件多次返修等隐藏问题并给出了防御性的措施,消除了重复发生问题,避免了多次维修的隐患。
基于同一发明构思,本发明一实施例提供一种系统故障诊断装置。参考图6,图6是本发明一实施例提出的系统故障诊断装置600的示意图。如图6所示,该装置包括:
故障数据提取模块601,用于对系统日志数据进行故障数据分类提取,得到多种不同类型的故障数据;
部件状态信息确定模块602,用于根据所述多种不同类型的故障数据,得到所有故障部件的部件状态信息;
故障诊断模块603,用于根据所述故障部件的部件状态信息,通过对应的故障诊断模块,对不同类型的故障部件分别进行故障关联分析,得到多个故障原因;
综合分析模块604,用于基于二线固化规则,对所述多个故障原因进行综合分析,得到最终故障原因。
可选地,所述故障数据提取模块包括:
故障数据查找子模块,用于根据预先设定的故障关键字,在所述系统日志数据中查找所述故障关键字对应的故障数据;
故障数据分类子模块,用于将所述故障数据按照所述故障关键字的类别进行分类,得到所述多种不同类型的故障数据。
可选地,所述部件状态信息确定模块包括:
部件相关数据确定子模块,用于针对每个类型的所述故障数据,确定所述故障数据中包括的故障部件的相关故障数据;
部件状态信息确定子模块,用于根据所述故障部件的相关故障数据,确定所述每故障部件的部件状态信息,所述部件状态信息包括:部件名称,部件故障内容,部件故障状态。
可选地,在根据所述故障部件的部件状态信息,通过对应的故障诊断模块,对不同类型的故障部件分别进行故障关联分析,得到多个故障原因之前,所述方法还包括:
当所述部件状态信息中存在无法解析的部件名称编码时,对所述部件名称编码进行提取,得到目标部件名称编码;
在预先设置的部件名称编码库中,查找所述目标部件名称编码对应的部件名称,得到目标部件名称;
使用所述目标部件名称替换所述故障数据中的部件名称编码,得到所述部件状态信息。
可选地,所述故障诊断模块包括:
部件类型确定子模块,用于根据所述故障部件的部件状态信息,确定所述故障部件的部件类型;
相关类型部件确定子模块,用于根据所述故障部件的部件类型,确定所述故障部件的相关类型部件;
故障原因确定子模块,用于通过所述故障部件以及所述相关类型部件对应的故障诊断模块,对所述故障部件以及所述故障部件的相关类型部件进行故障关联分析,得到所述故障原因。
可选地,所述故障原因确定子模块包括:
故障诊断模块确定子模块,用于根据预设的部件与故障诊断模块之间的对应关系,确定所述故障部件以及所述故障部件的相关类型部件对应的故障诊断模块;
故障关联分析子模块,用于通过所述故障诊断模块,根据预设的故障诊断规则,对所述故障部件以及所述故障部件的相关类型部件进行故障关联分析,得到所述故障原因。
可选地,所述综合分析模块包括:
第一原因确定子模块,用于当所述多个故障原因对应的故障诊断模块之间的关系为平行关系时,将所述故障原因进行输出,得到所述最终故障原因;
第二原因确定子模块,用于当所述多个故障原因对应的故障诊断模块之间的关系为关联关系时,根据预设的故障诊断规则,对所述多个故障原因进行关联分析,得到所述最终故障原因。
基于同一发明构思,本发明另一实施例提供一种可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如本发明上述任一实施例所述的系统故障诊断方法中的步骤。
基于同一发明构思,本发明另一实施例提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行时实现本发明上述任一实施例所述的系统故障诊断方法中的步骤。
对于装置实施例而言,由于其与方法实施例基本相似,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。
本领域内的技术人员应明白,本发明实施例可提供为方法、装置、或计算机程序产品。因此,本发明实施例可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明实施例是参照根据本发明实施例的方法、终端设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理终端设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理终端设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理终端设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理终端设备上,使得在计算机或其他可编程终端设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程终端设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
尽管已描述了本发明实施例的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例做出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本发明实施例范围的所有变更和修改。
最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者终端设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者终端设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者终端设备中还存在另外的相同要素。
以上对本发明所提供的系统故障诊断方法、装置、设备及存储介质,进行了详细介绍,本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。

Claims (10)

1.一种系统故障诊断方法,其特征在于,所述方法包括:
对系统日志数据进行故障数据分类提取,得到多种不同类型的故障数据;
根据所述多种不同类型的故障数据,得到所有故障部件的部件状态信息;
根据所述故障部件的部件状态信息,通过对应的故障诊断模块,对不同类型的故障部件分别进行故障关联分析,得到多个故障原因;
基于二线固化规则,对所述多个故障原因进行综合分析,得到最终故障原因。
2.根据权利要求1所述的方法,其特征在于,所述对系统日志进行故障数据分类提取,得到多种不同类型的故障数据,包括:
根据预先设定的故障关键字,在所述系统日志数据中查找所述故障关键字对应的故障数据;
将所述故障数据按照所述故障关键字的类别进行分类,得到所述多种不同类型的故障数据。
3.根据权利要求1所述的方法,其特征在于,所述根据所述多种不同类型的故障数据,得到所有故障部件的部件状态信息,包括:
针对每个类型的所述故障数据,确定所述故障数据中包括的故障部件的相关故障数据;
根据所述故障部件的相关故障数据,确定所述每故障部件的部件状态信息,所述部件状态信息包括:部件名称,部件故障内容,部件故障状态。
4.根据权利要求1所述的方法,其特征在于,在根据所述故障部件的部件状态信息,通过对应的故障诊断模块,对不同类型的故障部件分别进行故障关联分析,得到多个故障原因之前,所述方法还包括:
当所述部件状态信息中存在无法解析的部件名称编码时,对所述部件名称编码进行提取,得到目标部件名称编码;
在预先设置的部件名称编码库中,查找所述目标部件名称编码对应的部件名称,得到目标部件名称;
使用所述目标部件名称替换所述故障数据中的部件名称编码,得到所述部件状态信息。
5.根据权利要求1所述的方法,其特征在于,所述根据所述故障部件的部件状态信息,通过对应的故障诊断模块,对不同类型的故障部件分别进行故障关联分析,得到多个故障原因,包括:
根据所述故障部件的部件状态信息,确定所述故障部件的部件类型;
根据所述故障部件的部件类型,确定所述故障部件的相关类型部件;
通过所述故障部件以及所述相关类型部件对应的故障诊断模块,对所述故障部件以及所述故障部件的相关类型部件进行故障关联分析,得到所述故障原因。
6.根据权利要求5所述的方法,其特征在于,所述通过所述故障部件以及所述相关类型部件对应的故障诊断模块,对所述故障部件以及所述故障部件的相关类型部件进行故障关联分析,得到所述故障原因,包括:
根据预设的部件与故障诊断模块之间的对应关系,确定所述故障部件以及所述故障部件的相关类型部件对应的故障诊断模块;
通过所述故障诊断模块,根据预设的故障诊断规则,对所述故障部件以及所述故障部件的相关类型部件进行故障关联分析,得到所述故障原因。
7.根据权利要求1所述的方法,其特征在于,所述基于二线固化规则,对所述多个故障原因进行综合分析,得到最终故障原因,包括:
当所述多个故障原因对应的故障诊断模块之间的关系为平行关系时,将所述故障原因进行输出,得到所述最终故障原因;
当所述多个故障原因对应的故障诊断模块之间的关系为关联关系时,根据预设的故障诊断规则,对所述多个故障原因进行关联分析,得到所述最终故障原因。
8.一种系统故障诊断装置,其特征在于,所述装置包括:
故障数据提取模块,用于对系统日志数据进行故障数据分类提取,得到多种不同类型的故障数据;
部件状态信息确定模块,用于根据所述多种不同类型的故障数据,得到所有故障部件的部件状态信息;
故障诊断模块,用于根据所述故障部件的部件状态信息,通过对应的故障诊断模块,对不同类型的故障部件分别进行故障关联分析,得到多个故障原因;
综合分析模块,用于基于二线固化规则,对所述多个故障原因进行综合分析,得到最终故障原因。
9.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该计算机程序被处理器执行时,实现如权利要求1至7任一所述的方法中的步骤。
10.一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时,实现如权利要求1至7任一所述的方法的步骤。
CN202211684907.5A 2022-12-27 2022-12-27 一种系统故障诊断方法、装置、设备及存储介质 Pending CN116126574A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211684907.5A CN116126574A (zh) 2022-12-27 2022-12-27 一种系统故障诊断方法、装置、设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211684907.5A CN116126574A (zh) 2022-12-27 2022-12-27 一种系统故障诊断方法、装置、设备及存储介质

Publications (1)

Publication Number Publication Date
CN116126574A true CN116126574A (zh) 2023-05-16

Family

ID=86309431

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211684907.5A Pending CN116126574A (zh) 2022-12-27 2022-12-27 一种系统故障诊断方法、装置、设备及存储介质

Country Status (1)

Country Link
CN (1) CN116126574A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117093405A (zh) * 2023-10-18 2023-11-21 苏州元脑智能科技有限公司 一种服务器故障诊断方法、装置、设备和介质

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117093405A (zh) * 2023-10-18 2023-11-21 苏州元脑智能科技有限公司 一种服务器故障诊断方法、装置、设备和介质
CN117093405B (zh) * 2023-10-18 2024-02-09 苏州元脑智能科技有限公司 一种服务器故障诊断方法、装置、设备和介质

Similar Documents

Publication Publication Date Title
US10931511B2 (en) Predicting computer network equipment failure
US8386854B2 (en) Automatic analysis of log entries through use of clustering
TW202009705A (zh) 用以自動管理發生於資料中心系統的硬體錯誤事件的方法及其系統
US9720758B2 (en) Diagnostic analysis tool for disk storage engineering and technical support
CN111209131A (zh) 一种基于机器学习确定异构系统的故障的方法和系统
US7213176B2 (en) Adaptive log file scanning utility
CN112308126A (zh) 故障识别模型训练方法、故障识别方法、装置及电子设备
US10248517B2 (en) Computer-implemented method, information processing device, and recording medium
CN111722952A (zh) 业务系统的故障分析方法、系统、设备和存储介质
JP6482743B1 (ja) リスク評価装置、リスク評価システム、リスク評価方法、及び、リスク評価プログラム
CN116126574A (zh) 一种系统故障诊断方法、装置、设备及存储介质
CN110489260B (zh) 故障识别方法、装置及bmc
CN115168168A (zh) 一种服务器故障预测方法、系统、设备及介质
JP6574533B2 (ja) リスク評価装置、リスク評価システム、リスク評価方法、及び、リスク評価プログラム
CN113708986B (zh) 服务器监控装置、方法及计算机可读存储介质
CN113392000A (zh) 测试用例执行结果分析方法、装置、设备及存储介质
JP6482742B1 (ja) リスク評価装置、リスク評価システム、リスク評価方法、及び、リスク評価プログラム
JP2012203684A (ja) It障害予兆検知装置及びプログラム
CN111581044A (zh) 集群优化方法、装置、服务器及介质
Taerat et al. Using log information to perform statistical analysis on failures encountered by large-scale HPC deployments
CN117407207B (zh) 一种内存故障处理方法、装置、电子设备及存储介质
CN117851956B (zh) 基于数据分析的机电设备故障诊断方法、系统及终端
CN114253846B (zh) 自动化测试异常定位方法、装置、设备及可读存储介质
WO2023047806A1 (ja) 情報処理装置、および自動分析システム
CN113112036A (zh) 车辆的数据处理方法、装置以及计算机设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination