CN112650611B - 一种批量诊断服务器故障的方法及系统 - Google Patents

一种批量诊断服务器故障的方法及系统 Download PDF

Info

Publication number
CN112650611B
CN112650611B CN202011463170.5A CN202011463170A CN112650611B CN 112650611 B CN112650611 B CN 112650611B CN 202011463170 A CN202011463170 A CN 202011463170A CN 112650611 B CN112650611 B CN 112650611B
Authority
CN
China
Prior art keywords
log
firmware
state
information
server
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202011463170.5A
Other languages
English (en)
Other versions
CN112650611A (zh
Inventor
孔涛
王吉宏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Suzhou Inspur Intelligent Technology Co Ltd
Original Assignee
Suzhou Inspur Intelligent Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Suzhou Inspur Intelligent Technology Co Ltd filed Critical Suzhou Inspur Intelligent Technology Co Ltd
Priority to CN202011463170.5A priority Critical patent/CN112650611B/zh
Publication of CN112650611A publication Critical patent/CN112650611A/zh
Application granted granted Critical
Publication of CN112650611B publication Critical patent/CN112650611B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/079Root cause analysis, i.e. error or fault diagnosis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0751Error or fault detection not based on redundancy
    • G06F11/0754Error or fault detection not based on redundancy by exceeding limits
    • G06F11/076Error or fault detection not based on redundancy by exceeding limits by exceeding a count or rate limit, e.g. word- or bit count limit
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0766Error or fault reporting or storing

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Quality & Reliability (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Debugging And Monitoring (AREA)

Abstract

本发明公开了一种批量诊断服务器故障的方法及系统,包括获取选择日志和硬件日志;检测选择日志一天内是否被清除过,若未被清除,则检测固件中告警信息最近一天告警次数是否超过8次;若超过,则检测固件最新选择日志状态并检测硬件日志中对应的固件的状态;若最近一天告警次数未超过8次则结束操作;若清除则直接检测硬件日志中对应的固件的状态;获取硬件日志中的状态并分别检测不同状态下对应的时间段内选择日志中是否出现过对应的固件故障;通过上述方式,本发明能够通过采集服务器上的选择日志和硬件日志,并能快速的输出诊断结果;这样可以不仅能够节省人力、降低对运维人员技术要求而且降低了服务器因故障产生的宕机率。

Description

一种批量诊断服务器故障的方法及系统
技术领域
本发明涉及服务器故障诊断领域,特别是涉及一种批量诊断服务器故障的方法及系统。
背景技术
目前,服务器故障是困扰服务器厂商问题之一,妥善解决客户服务器故障是服务器厂商应尽义务。现有的解决服务器故障的方式,是通过客服人员到客户现场解决服务器故障,并将客户服务器的日志等信息拷贝回来,通过人工对日志进行分析。但这种解决故障的方式,客服人员出差成本高,需要付出较大的人力成本;采用人工分析方式,分析准确性效率不高;并且,服务器故障日志作为重要的数据源,没有合理利用开发。
目前服务器种类多,服务器上固件种类繁多,现有的方法无法实现统一有效的兼容所有机型和每种机型上所有类型固件的故障诊断的问题;并且运维机房中服务器数量非常庞大,少则数百台,多则上万台服务武器,如果只使用一种单机版的诊断工具,一个是花费的时间多,工作量大,另一个是很难实现做到实时监控等问题;现有技术中无法解决服务器故障诊断准确率及定位精准的问题。
发明内容
本发明主要解决的技术问题是提供一种批量诊断服务器故障的方法及系统,能够批量高并发的通过服务器BMC接口采集服务器上的sel日志和sdr日志,并能快速的输出诊断结果;这样可以不仅能够节省人力、降低对运维人员技术要求而且降低了服务器因故障产生的宕机率。
为解决上述技术问题,本发明采用的一个技术方案是:提供一种批量诊断服务器故障的方法,包括:获取服务器中选择日志和硬件日志;
检测选择日志第一预设时间段内是否被清除;
若被清除,则检测硬件日志中对应的固件的状态;
若未被清除,则检测固件中告警信息次数,并判断是否超过告警次数阈值,若未超过告警次数阈值,则服务器无故障,若超过告警次数阈值,则检查选择日志状态,若选择日志状态为“取消评估”,则服务器无故障,否则,检测硬件日志中固件的状态;
根据检测的固件的状态分别检测不同固件状态下选择日志中是否出现过对应的固件故障,若出现过则提取故障信息并与服务器中配置文件中的解决方法进行关联性分析,确定故障产生的原因。
进一步,所述检测选择日志第一预设时间段内是否被清除包括以下步骤:
所述检测选择日志第一预设时间段内是否被清除包括以下步骤:
根据正则表达式检测选择日志能否匹配清除命令;
若能匹配清除命令,则选择日志第一预设时间段内被清除,使用分隔符将选择日志分割为若干段,并将若干段中第二段记为清除选择日志日期;
若不能匹配清除命令,则获取选择日志中最后一行的信息,记为最新选择日志日期;
比较清除选择日志日期和最新选择日志日期,若清除选择日志日期和最新选择日志日期相同,则选择日志第一预设时间段内被清除,否则选择日志第一预设时间段内未被清除。
进一步,所述检测固件中告警信息次数包括:
根据服务器配置文件中诊断规则读取选择日志中与诊断规则相匹配的日志信息;从相匹配的日志信息中提取固件信息;
循环遍历固件信息,以固件信息中固件的类型和关键字为命令,从选择日志中匹配出符合固件的类型和关键字命令的日志信息并获取最后一行日志信息,记为“最后行”;
从“最后行”中提取日期信息记为最后日期;
以最后日期、固件的类型和关键字为命令从选择日志中得出固件中告警信息次数。
进一步,所述检测硬件日志中对应的固件的状态包括以下步骤:
检测固件信息是否在硬件日志中;
若固件信息在硬件日志中,则检查固件信息对应的硬件日志中的状态是否为:“完好”或“无问题”;
若不为“完好”或“无问题”,则输出“风险”;
若为“完好”或“无问题”,则检查固件状态为“禁止读取状态”、“只读事件状态”或“其他状态”;
若固件信息不在硬件日志中,则输出错误固件状态。
进一步,若固件状态为禁止读取状态,则输出禁止读取,并检测选择日志中第二预设时间段内的日志能否匹配所述固件的类型和关键字的命令,若能匹配,则通过分隔符分割“最后行”,将所述“最后行”中第五个字段记为故障信息。
进一步,若固件状态为只读事件状态,则输出只读,并检测选择日志中第三预设时间段内的日志能否匹配所述固件的类型和关键字的命令,若能匹配,则通过分隔符分割“最后行”,将所述“最后行”中第五个字段记为故障信息。
进一步,若固件状态不为只读事件状态或禁止读取状态,则固件状态为其他状态,则通过关键字命令匹配硬件日志中信息,若能匹配,则输出“风险”;若不能匹配,则服务器无故障。
进一步,所述输出错误固件状态包括:
检测选择日志中第四预设时间段内的日志能否匹配所述固件的类型和关键字的命令,若能匹配,则通过分隔符分割“最后行”,将所述“最后行”中第五个字段记为故障信息。
进一步,所述输出“风险”包括:通过分隔符分割“最后行”,将所述“最后行”中第五个字段记为故障信息
一种批量诊断服务器故障的系统,包括:获取日志模块、检测日志模块、判断模块和检测固件状态模块、解析故障模块;
所述获取日志模块获取服务器中的选择日志和硬件日志;
所述检测日志模块检测选择日志第一预设时间段内是否被清除过,若被清除过,则通知所述判断模块检测固件状态,若未被清除,则通知所述判断模块检测固件中告警信息次数;
所述判断模块检测固件告警次数,并判断固件告警次数是否超过告警次数阈值,若未超过告警次数阈值,则服务器无故障,若超过告警次数阈值,则检查选择日志状态,若选择日志状态为“取消评估”,则服务器无故障,否则检测固件状态;
所述检测固件状态模块获取所述判断模块检测的固件的状态并分别检测不同状态下选择日志中是否出现过对应的固件故障,若出现,则提取故障信息;
所述解析故障模块提取故障信息并与服务器中配置文件中的解决方法进行关联性分析,确定故障产生的原因。
本发明的有益效果是:本发明可有效的解决了因服务器型号不同诊断工具不兼容的问题且支持大批量的服务器同时进行扫描诊断在不影响服务器本身业务应用的情况下能够快速、准确的定位出服务器故障或者故障隐患,并提供解决方案,并且本方案上手操作简单。
附图说明
图1是本发明一种批量诊断服务器故障的方法一较佳实施例的流程图;
图2是本发明一种批量诊断服务器故障的方法中检测sdr中对应的固件sensor的状态流程图;
图3是本发明一种批量诊断服务器故障的系统架构示意图。
具体实施方式
下面结合附图对本发明的较佳实施例进行详细阐述,以使本发明的优点和特征能更易于被本领域技术人员理解,从而对本发明的保护范围做出更为清楚明确的界定。
本发明实施例包括:
见图1,一种批量诊断服务器故障的方法,包括:
获取服务器上CPU的内核数cores,然后根据内核数设置能够在该服务器上并发的最大线程数;
开启服务器故障诊断线程,故障诊断线程为通过ipmitool工具访问需要诊断服务器的BMC接口,发送sel list和sdr list all指令分别获取sel日志和sdr日志;
根据正则表达式检测sel日志能否匹配清除命令“Event Logging Disabled.*Logarea reset/cleared”,若能匹配,则被清除,使用“|”分隔符分割匹配到的日志信息,并将分割后的第二段信息记为清除sel日志日期;若不能匹配,则获取sel日志中最后一行的日志信息,记为最新sel日志日期;将最新sel日志日期用“|”分隔符与前面的sel日志信息分割开;将清除sel日志日期和最新日志日期进行比较,检测sel日志最近第一预设时间段内是否被清除过,若日期相同,则被清除过;否则未被清除;
若被清除过,则直接检测sdr中对应的固件sensor的状态,否则继续下面的操作;
读取服务器配置文件中的诊断规则,并循环遍历sel日志,sel日志中的日志信息与诊断规则进行匹配,若能匹配到,则从诊断规则中分别提取固件类型sensorType、关键字keyWord;若不能匹配到,则无故障;
提取方式如下:获取分割后的第一个字段记为固件类型sensorType,以“.”分割;获取分割后的最后一个字段记为关键字keyWord,以“*”分割;
提取诊断规则样式如下:Power.*AC lost。
然后根据诊断规则获取sel日志中所有能与诊断规则匹配到的日志信息并提取固件信息sensor;
以如下日志信息为例进行提取,
2a|10/24/2018|14:43:58|Processor CPU0_Status|Presence detected|Deasserted
即:编号|日期|时间|处理器CPU0状态|检测到存在|取消评估
日志信息中以“|”分割,获取分割后的第四个字段,并将第四个字段按照空格分割,获取分割后的最后一个字段,即为“CPU0_Status”。
循环遍历固件信息sensor,以“sensorType.*sensor.*keyWord”为匹配规则匹配sel日志中所有能够匹配到的日志信息,并获取最后一行时间最新的一条日志信息记为最后行Lastline,并从最后行Lastline中已取出日期信息记为LastDate,然后以最后日期、固件的类型和关键字为命令“lastDate.*sensorType.*sensor.*keyWord”匹配sel日志,匹配出的信息即可得出最新一天固件的告警次数。
若最近一天固件的告警次数超过告警次数阈值,则将所述Lastline按照“|”分割,获取分割中最后一个字段,将最后一个字段记为sel日志的状态:状态state;
若最近一天固件的告警次数未超过告警次数阈值,则无故障。
若state的值为“取消评估Deasserted”,则跳过所述固件的诊断;
若state的值不为“取消评估Deasserted”,则检测sdr中对应的固件sensor的状态。
见图2,检测sdr中对应的固件sensor的状态包括
首先检测固件sensor是否存在sdr日志中,若不存在则输出:错误固件noSensor;然后检测sel日志中第四预设时间段内的日志能否匹配上以固件的类型和关键字为命令“sensorType.*sensor.*keyWord”,若能匹配上,则以“|”为分隔符,将LastLine中从左往右数第5个字段记为故障信息reason;
若存在sdr日志中,则检查固件sensor对应的sdr日志中的状态是否为:ok完好状态或ns无问题状态;
若不是,则输出“风险risky”,以“|”为分隔符,将LastLine中从左往右数第5个字段记为故障信息reason;若是则获取sdr日志中对应固件sensor行中的信息状态;样例如下:
以“|”分割sdr日志信息,为CPU_ResourceRate|D0h|ns|3.0|No Reading
获取分割后的最后一个字段记为固件状态sensorStatus,则固件状态sensorStatus为禁止读取状态No Reading。
若固件状态sensorStatus为只读事件状态“Event-Only”,则输出只读eventOnly,并检测sel日志中第三预设时间段的日志能否与“sensorType.*sensor.*keyWord”匹配,若能匹配,则以“|”为分隔符,将LastLine中从左往右数第5个字段记为故障信息reason;
若固件状态sensorStatus为禁止读取状态“No Reading”,则输出禁止读取noReading;并检测sel日志中第二预设时间段的日志能否与“sensorType.*sensor.*keyWord”匹配,若能匹配,则以“|”为分隔符,将LastLine中从左往右数第5个字段记为故障信息reason;若不能匹配,则无故障;
若固件状态sensorStatus不为只读事件状态“Event-Only”或禁止读取状态“NoReading”,将该固件状态命名为其他状态;则通过“sensor.*keyWord”匹配sdr中的日志信息,若能匹配到,则输出:“风险risky”;若不能匹配,则无故障。
然后判断故障信息reason的内容是否为空,若为空,则无故障原因,若不为空,则从所述服务器配置文件中读取与故障信息reason相对应的解决方案,并执行解决方案中的method方法,通过关联性分析确定故障产生的原因。
Method方法确定逻辑如下:
先检查sel日志中是否存在进风口出风口温度告警,
若进风口温度高提示环境温度过高,则解决方案为:建议检查机房环境;
若出风口温度高,则解决方案为:先检查风扇有无低转速或不在位告警然后建议检查导风罩;
若以上都不是,解决方案为:建议开问题单,并将该问题提升。
其中,第一预设时间段为一天;第四预设时间段为7天,第三预设时间段为21天,第二预设时间段为28天,告警次数阈值为8次;sel日志为选择日志,sdr日志为硬件日志。
见图3,基于与前述实施例中一种批量诊断服务器故障的方法同样的发明构思,本说明书实施例还提供一种批量诊断服务器故障的系统,包括:获取日志模块、检测日志模块、判断模块和检测固件状态模块、解析故障模块;
所述获取日志模块获取服务器中的选择日志和硬件日志;
所述检测日志模块检测选择日志第一预设时间段内是否被清除过,若被清除过,则通知所述判断模块检测固件状态,若未被清除,则通知所述判断模块检测固件中告警信息次数;
所述判断模块检测固件告警次数,并判断固件告警次数是否超过告警次数阈值,若未超过告警次数阈值,则服务器无故障,若超过告警次数阈值,则检查选择日志状态,若选择日志状态为“取消评估”,则服务器无故障,否则检测固件状态;
所述检测固件状态模块获取所述判断模块检测的固件的状态并分别检测不同状态下选择日志中是否出现过对应的固件故障,若出现,则提取故障信息;
所述解析故障模块提取故障信息并与服务器中配置文件中的解决方法进行关联性分析,确定故障产生的原因。
以上所述仅为本发明的实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。

Claims (10)

1.一种批量诊断服务器故障的方法,其特征在于,包括:
获取服务器中选择日志和硬件日志;
检测选择日志第一预设时间段内是否被清除;
若被清除,则检测硬件日志中对应的固件的状态;
若未被清除,则检测固件中告警信息次数,并判断是否超过告警次数阈值,若未超过告警次数阈值,则服务器无故障,若超过告警次数阈值,则检查选择日志状态,若选择日志状态为“取消评估”,则服务器无故障,否则,检测硬件日志中固件的状态;
根据检测的固件的状态分别检测不同固件状态下选择日志中是否出现过对应的固件故障,若出现过则提取故障信息并与服务器中配置文件中的解决方法进行关联性分析,确定故障产生的原因。
2.根据权利要求1所述的一种批量诊断服务器故障的方法,其特征在于:所述检测选择日志第一预设时间段内是否被清除包括以下步骤:
根据正则表达式检测选择日志能否匹配清除命令;
若能匹配清除命令,则选择日志第一预设时间段内被清除,使用分隔符将选择日志分割为若干段,并将若干段中第二段记为清除选择日志日期;
若不能匹配清除命令,则获取选择日志中最后一行的信息,记为最新选择日志日期;
比较清除选择日志日期和最新选择日志日期,若清除选择日志日期和最新选择日志日期相同,则选择日志第一预设时间段内被清除,否则选择日志第一预设时间段内未被清除。
3.根据权利要求1所述的一种批量诊断服务器故障的方法,其特征在于:
所述检测固件中告警信息次数包括:
根据服务器配置文件中诊断规则读取选择日志中与诊断规则相匹配的日志信息;从相匹配的日志信息中提取固件信息;
循环遍历固件信息,以固件信息中固件的类型和关键字为命令,从选择日志中匹配出符合固件的类型和关键字命令的日志信息并获取最后一行日志信息,记为“最后行”;
从“最后行”中提取日期信息记为最后日期;
以最后日期、固件的类型和关键字为命令从选择日志中得出固件中告警信息次数。
4.根据权利要求3所述的一种批量诊断服务器故障的方法,其特征在于:所述检测硬件日志中对应的固件的状态包括以下步骤:
检测固件信息是否在硬件日志中;
若固件信息在硬件日志中,则检查固件信息对应的硬件日志中的状态是否为:“完好”或“无问题”;
若不为“完好”或“无问题”,则输出“风险”;
若为“完好”或“无问题”,则检查固件状态为“禁止读取状态”、“只读事件状态”或“其他状态”;
若固件信息不在硬件日志中,则输出错误固件状态。
5.根据权利要求4所述的一种批量诊断服务器故障的方法,其特征在于:
若固件状态为禁止读取状态,则输出禁止读取,并检测选择日志中第二预设时间段内的日志能否匹配所述固件的类型和关键字的命令,若能匹配,则通过分隔符分割“最后行”,将所述“最后行”中第五个字段记为故障信息。
6.根据权利要求4所述的一种批量诊断服务器故障的方法,其特征在于:
若固件状态为只读事件状态,则输出只读,并检测选择日志中第三预设时间段内的日志能否匹配所述固件的类型和关键字的命令,若能匹配,则通过分隔符分割“最后行”,将所述“最后行”中第五个字段记为故障信息。
7.根据权利要求4所述的一种批量诊断服务器故障的方法,其特征在于:若固件状态不为只读事件状态或禁止读取状态,则固件状态为其他状态,则通过关键字命令匹配硬件日志中信息,若能匹配,则输出“风险”;若不能匹配,则服务器无故障。
8.根据权利要求4所述的一种批量诊断服务器故障的方法,其特征在于:所述输出错误固件状态包括:
检测选择日志中第四预设时间段内的日志能否匹配所述固件的类型和关键字的命令,若能匹配,则通过分隔符分割“最后行”,将所述“最后行”中第五个字段记为故障信息。
9.根据权利要求4或7所述的一种批量诊断服务器故障的方法,其特征在于:所述输出“风险”包括:通过分隔符分割“最后行”,将所述“最后行”中第五个字段记为故障信息。
10.一种批量诊断服务器故障的系统,其特征在于,包括:获取日志模块、检测日志模块、判断模块和检测固件状态模块、解析故障模块;
所述获取日志模块获取服务器中的选择日志和硬件日志;
所述检测日志模块检测选择日志第一预设时间段内是否被清除过,若被清除过,则通知所述判断模块检测固件状态,若未被清除,则通知所述判断模块检测固件中告警信息次数;
所述判断模块检测固件告警次数,并判断固件告警次数是否超过告警次数阈值,若未超过告警次数阈值,则服务器无故障,若超过告警次数阈值,则检查选择日志状态,若选择日志状态为“取消评估”,则服务器无故障,否则检测固件状态;
所述检测固件状态模块获取所述判断模块检测的固件的状态并分别检测不同状态下选择日志中是否出现过对应的固件故障,若出现,则提取故障信息;
所述解析故障模块提取故障信息并与服务器中配置文件中的解决方法进行关联性分析,确定故障产生的原因。
CN202011463170.5A 2020-12-11 2020-12-11 一种批量诊断服务器故障的方法及系统 Active CN112650611B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011463170.5A CN112650611B (zh) 2020-12-11 2020-12-11 一种批量诊断服务器故障的方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011463170.5A CN112650611B (zh) 2020-12-11 2020-12-11 一种批量诊断服务器故障的方法及系统

Publications (2)

Publication Number Publication Date
CN112650611A CN112650611A (zh) 2021-04-13
CN112650611B true CN112650611B (zh) 2022-07-12

Family

ID=75353840

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011463170.5A Active CN112650611B (zh) 2020-12-11 2020-12-11 一种批量诊断服务器故障的方法及系统

Country Status (1)

Country Link
CN (1) CN112650611B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114020586A (zh) * 2021-11-10 2022-02-08 江苏域固威芯科技有限公司 一种利用BMC获取Event日志对服务器故障进行快速报警的方法

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106385331A (zh) * 2016-09-08 2017-02-08 努比亚技术有限公司 一种基于日志的监控告警方法及系统
CN107018023A (zh) * 2017-04-17 2017-08-04 广东浪潮大数据研究有限公司 一种服务器诊断方法、装置及系统
CN111030857A (zh) * 2019-12-06 2020-04-17 深圳前海微众银行股份有限公司 网络告警方法、装置、系统与计算机可读存储介质

Also Published As

Publication number Publication date
CN112650611A (zh) 2021-04-13

Similar Documents

Publication Publication Date Title
CN111209131B (zh) 一种基于机器学习确定异构系统的故障的方法和系统
WO2020052147A1 (zh) 监测设备故障检测方法及装置
CN113282461B (zh) 传输网的告警识别方法和装置
CN104850485A (zh) 一种基于bmc远程诊断服务器开机故障的方法及系统
CN111459700A (zh) 设备故障的诊断方法、诊断装置、诊断设备及存储介质
CN117474357B (zh) 基于深度学习的配电房运维管理方法及系统
CN113708986B (zh) 服务器监控装置、方法及计算机可读存储介质
US20240272975A1 (en) Method and system for upgrading cpe firmware
CN112100048B (zh) 一种服务器自适应巡检方法及装置
CN114255784A (zh) 一种基于声纹识别的变电站设备故障诊断方法及相关装置
CN112650611B (zh) 一种批量诊断服务器故障的方法及系统
US8327189B1 (en) Diagnosing an incident on a computer system using a diagnostics analyzer database
CN115878430A (zh) Pcie设备故障监控方法、装置、通信设备及存储介质
JP6640348B2 (ja) データ解析システム
US8949669B1 (en) Error detection, correction and triage of a storage array errors
CN111309584A (zh) 数据处理方法、装置、电子设备及存储介质
CN112524077A (zh) 检测风机故障的方法及装置、系统
CN115270896B (zh) 一种用于识别航空发动机主轴承松动故障的智能诊断方法
CN112885049B (zh) 基于运行数据的智能电缆预警系统、方法及装置
CN114629786A (zh) 日志实时分析方法、装置、存储介质及系统
CN111884830B (zh) 一种基于bmc保留故障现场的方法及装置
CN113220585A (zh) 一种故障自动诊断方法及相关装置
CN111103003B (zh) 实验仪器监控数据的甄别方法、装置、设备及存储介质
CN113064776A (zh) 一种bmc故障的诊断方法及装置
JP2021149156A (ja) 保守支援システム及び保守支援方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant