CN109491819A - 一种诊断服务器故障的方法和系统 - Google Patents
一种诊断服务器故障的方法和系统 Download PDFInfo
- Publication number
- CN109491819A CN109491819A CN201811295884.2A CN201811295884A CN109491819A CN 109491819 A CN109491819 A CN 109491819A CN 201811295884 A CN201811295884 A CN 201811295884A CN 109491819 A CN109491819 A CN 109491819A
- Authority
- CN
- China
- Prior art keywords
- condition
- server
- log
- failure
- module
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
- 238000000034 method Methods 0.000 title claims abstract description 33
- 238000003745 diagnosis Methods 0.000 title claims abstract description 30
- 230000015654 memory Effects 0.000 claims description 23
- 230000004888 barrier function Effects 0.000 claims description 3
- 238000004590 computer program Methods 0.000 description 6
- 230000006870 function Effects 0.000 description 5
- 238000010586 diagram Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 230000001360 synchronised effect Effects 0.000 description 2
- UPPMZCXMQRVMME-UHFFFAOYSA-N valethamate Chemical compound CC[N+](C)(CC)CCOC(=O)C(C(C)CC)C1=CC=CC=C1 UPPMZCXMQRVMME-UHFFFAOYSA-N 0.000 description 2
- 235000000332 black box Nutrition 0.000 description 1
- 244000085682 black box Species 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 230000002860 competitive effect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 230000008030 elimination Effects 0.000 description 1
- 238000003379 elimination reaction Methods 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 230000007257 malfunction Effects 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/07—Responding to the occurrence of a fault, e.g. fault tolerance
- G06F11/0703—Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
- G06F11/079—Root cause analysis, i.e. error or fault diagnosis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/30—Monitoring
- G06F11/34—Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment
- G06F11/3466—Performance evaluation by tracing or monitoring
- G06F11/3476—Data logging
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- General Engineering & Computer Science (AREA)
- Quality & Reliability (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Computer Hardware Design (AREA)
- Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Debugging And Monitoring (AREA)
Abstract
一种诊断服务器故障的方法,包括以下步骤:经由日志收集工具收集服务器日志;经由日志分析模块将服务器日志中报错关键词与服务器故障规则知识库模块中的条件表进行匹配,并返回匹配到的条件ID;经由故障匹配模块将返回的条件ID与服务器故障规则知识库模块中的故障表进行匹配;根据条件ID与故障表的匹配结果,经由故障解释输出模块输出发生故障的设备信息和解决方法。本发明还公开了相应的诊断服务器故障的系统。通过本发明的方法和系统,能够实现对服务器的自动化诊断,降低了人力成本,提高了分析故障的效率,并且可以不断补充知识库,提高故障诊断准确率。
Description
技术领域
本领域涉及计算机领域,并且更具体地涉及一种诊断服务器故障的方法和系统。
背景技术
服务器是提供计算服务的设备,由于服务器需要响应服务请求,并进行处理,因此一般来说服务器应具备承担服务并且保障服务的能力。如今在竞争日益激烈的服务器市场中,服务器的可靠性成为越来越重要的指标。服务器出现故障后的停机时间是服务器可靠性的重要组成部分。
服务器运行过程伴随着日志记录,不管服务器是正常工作,还是发生了部件故障,系统日志都会有相应记录。由此,服务器发生故障时,管理员除了通过指示灯状态判断故障原因,大部分还是依靠日志来判定机器发生了什么故障。管理员可以通过带内或带外的方式,收集服务器产生的日志,通过查看日志中的报错信息,判定服务器产生了什么故障并给出解决建议。
一线工程师对服务器的故障排查,已经形成了一套规则;服务器日志中打印什么样的信息,对应发生什么样的故障,工程师通过现场实施已经积累了大部分故障的诊断经验。这些经验足可以作为指导工程师现场运维的规范。
然而这套经验规则未能在工程师中全面推广,工程师由于所在客户现场的不同,互相之间缺少相应经验的沟通,增加了重复劳动,消耗人力、时间。
发明内容
有鉴于此,本发明实施例的目的在于提出一种诊断服务器故障的方法和系统,能够实现对服务器的自动化诊断,降低了人力成本,提高了分析故障的效率,并且可以不断补充知识库,提高故障诊断准确率。
基于上述目的,本发明的实施例的一个方面提供了一种诊断服务器故障的方法,包括以下步骤:
1)经由日志收集工具收集服务器日志;
2)经由日志分析模块将服务器日志中的报错关键词与服务器故障规则知识库模块中的条件表进行匹配,并返回匹配到的条件ID;
3)经由故障匹配模块将返回的条件ID与服务器故障规则知识库模块中的故障表进行匹配;和
4)根据条件ID与故障表的匹配结果,经由故障解释输出模块输出发生故障的设备信息和解决方法。
根据本发明的一个实施例,经由日志收集工具收集服务器日志包括:日志收集工具将黑盒日志解析为文本文件。
根据本发明的一个实施例,条件表包括报错关键词与条件ID的对应关系。
根据本发明的一个实施例,故障表包括条件ID组合与发生故障的设备信息和解决办法的对应关系。
根据本发明的一个实施例,条件ID组合包括至少一个条件ID。
本发明的实施例的另一个方面,还提供了一种诊断服务器故障的系统,包括:
处理器;
存储器,存储器存储有处理器可运行的程序代码,其中程序代码包括:
日志收集工具,日志收集工具用于收集服务器日志;
服务器故障规则知识库模块,服务器故障规则知识库模块用于存储服务器故障规则知识库;
日志分析模块,日志分析模块用于将服务器日志中报错关键词与服务器故障规则知识库模块中的条件表进行匹配,并返回匹配到的条件ID;
故障匹配模块,用于将返回的条件ID与服务器故障规则知识库模块中的故障表进行匹配;和
故障解释输出模块,用于根据条件ID与故障表的匹配结果,输出发生故障的设备信息和解决方法。
根据本发明的一个实施例,日志收集工具用于将黑盒日志解析为文本文件。
根据本发明的一个实施例,条件表包括报错关键词与条件ID的对应关系。
根据本发明的一个实施例,故障表包括条件ID组合与发生故障的设备信息和解决办法的对应关系。
根据本发明的一个实施例,条件ID组合包括至少一个条件ID。
本发明具有以下有益技术效果:本发明实施例提供的诊断服务器故障的方法和系统,通过经由日志收集工具收集服务器日志;经由日志分析模块将服务器日志中报错关键词与服务器故障规则知识库模块中的条件表进行匹配,并返回匹配到的条件ID;经由故障匹配模块将返回的条件ID与服务器故障规则知识库模块中的故障表进行匹配;根据条件ID与故障表的匹配结果,经由故障解释输出模块输出发生故障的设备信息和解决方法的技术方案,能够实现对服务器的自动化诊断,降低了人力成本,提高了分析故障的效率,并且可以不断补充知识库,提高故障诊断准确率。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的实施例。
图1为根据本发明一个实施例的诊断服务器故障的方法的示意性流程图;
图2为根据本发明一个实施例的诊断服务器故障的系统的示意性框图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚明白,以下结合具体实施例,并参照附图,对本发明实施例进一步详细说明。
基于上述目的,本发明的实施例的第一个方面,提出了一种诊断服务器故障的方法一个实施例。图1示出的是该方法的示意性流程图。
如图1中所示,该方法可以包括以下步骤:
步骤S101,经由日志收集工具收集服务器日志;
步骤S102,经由日志分析模块将服务器日志中报错关键词与服务器故障规则知识库模块中的条件表进行匹配,并返回匹配到的条件ID;
步骤S103,经由故障匹配模块将返回的条件ID与服务器故障规则知识库模块中的故障表进行匹配;
步骤S104,根据条件ID与故障表的匹配结果,经由故障解释输出模块输出发生故障的设备信息和解决方法。
通过以上技术方案,能够实现对服务器的自动化诊断,降低了人力成本,提高了分析故障的效率,并且可以不断补充知识库,提高故障诊断准确率。
在本发明的一个优选实施例中,条件表包括报错关键词与条件ID的对应关系。例如由下表1中所示:
表1
在本发明的一个优选实施例中,故障表包括条件ID组合与发生故障的设备信息和解决办法的对应关系,例如由下表2中所示:
表2
ID | 故障名称 | 解决方法 | 条件组合 |
1 | PCIE总线故障 | 更换PCIE设备 | (A,B) |
2 | 处理器IERR | 不影响处理器性能,可忽略 | (C) |
在本发明的一个优选实施例中,条件ID组合包括至少一个条件ID。
表1中,条件A需要读取sel_elist.txt日志,查找“PCIE Error”和“Critical BusError”关键词,如果日志中有记录,则此条件A成立。故障1的判断需要条件A、条件B都成立,故障2的判断则只需要条件C成立即可。
日志分析模块遍历服务器日志,根据知识库中的条件读取对应日志,查找条件中的关键词,如果成立,把条件ID加入到集合ConditionSet中。
故障匹配模块读取知识库中的故障表记录,查看每条故障的条件组合是否是ConditionSet集合的子集,如果是,则此故障成立,输出该故障对应的解决方法。
在本发明的一个优选实施例中,日志收集工具可以存储在存储器中,经由网络连接到服务器中的存储器中,可以将服务器中以二进制文件形式存储的黑盒日志解析成记录服务器运行记录的文本文件,然后将该文本文件传输到报错信息检索模块。通过该技术方案,可以实现自动地解析黑盒日志,节省了人力和时间。
示例性实施例1
使用本发明的方法对一台发生PCIE总线故障的NF5270M4服务器进行分析。
第一步,借助日志收集工具收集到服务器日志;
第二步,访问故障规则知识库,读取条件规则表(参考表1),根据条件读取日志,查找到sel_elist.txt日志中报错信息“[Jun 20 2018 11:40:03]:PCIE Error:Busno 0Devno 3 Funcno 2 Critical Bus Error assertion.”及blackbox.log日志中报错信息“[Oct 31 2016 07:02:52]:PCIE:(Bus0-Dev3-Func2)Error:Bus Uncorrectable Error”,则ConditionSet集合中记录条件ID(A,B);
第三步,访问故障规则知识库,读取故障规则表(参考表2),故障1对应的条件组合(A,B)正好是ConditionSet的子集,满足条件,输出故障信息;
最后判断该服务器的PCIE设备出现了故障,更换该设备即可。
需要说明的是,本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,可以通过计算机程序来指令相关硬件来完成,上述的程序可存储于计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,所述的存储介质可为磁碟、光盘、只读存储器(Read-Only Memory,ROM)或随机存取存储器(RandomAccess Memory,RAM)等。上述计算机程序的实施例,可以达到与之对应的前述任意方法实施例相同或者相类似的效果。
此外,根据本发明实施例公开的方法还可以被实现为由CPU执行的计算机程序,该计算机程序可以存储在计算机可读存储介质中。在该计算机程序被CPU执行时,执行本发明实施例公开的方法中限定的上述功能。
基于上述目的,本发明的第二个方面,提出了一种诊断服务器故障的系统的一个实施例。图2为该系统200的示意性框图。如图2中所示,该系统200可以包括处理器;存储器,存储器存储有处理器可运行的程序代码,其中程序代码包括:用于收集服务器日志的日志收集工具201、用于存储服务器故障规则知识库的服务器故障规则知识库模块202、用于将服务器日志中报错关键词与服务器故障规则知识库模块202中的条件表进行匹配,并返回匹配到的条件ID的日志分析模块203、用于将返回的条件ID与服务器故障规则知识库模块202中的故障表进行匹配的故障匹配模块204;以及,用于根据条件ID与故障表的匹配结果输出发生故障的设备信息和解决方法的故障解释输出模块205。
服务器故障规则知识库模块202、日志分析模块203、故障匹配模块204可以是在一个或多个计算装置(例如服务器、个人电脑等)上实施的计算机可读指令(例如软件),该指令存储在与此相关(例如硬盘、存储器等)的计算机可读介质(也简称为处理器可读介质)上。
在本发明的一个优选实施例中,日志收集工具201可以存储在存储器中,经由网络连接到服务器中的存储器中,可以将服务器中以二进制文件形式存储的黑盒日志解析成记录服务器运行记录的文本文件,然后将该文本文件传输到报错信息检索模块201。
在一些实施例中,故障解释输出模块可以是视觉输出模块,例如液晶显示器、有机发光二极管显示器、平板显示器、固态显示器等,或者可以是听觉输出模块,例如扬声器等。故障解释输出模块也可以将发生故障的设备信息传输到移动设备中,例如移动电话、平板电脑、笔记本电脑等。故障解释输出模块也可以与打印机等相连,直接打印出发生故障的设备信息。通过该技术方案,可以直观清楚地接收到发生故障的设备信息。
在本发明的一个优选实施例中,条件表为报错关键词与条件ID的对应关系。
在本发明的一个优选实施例中,故障表为条件ID组合与发生故障的设备信息和解决办法的对应关系。
在本发明的一个优选实施例中,条件ID组合包括至少一个条件ID。
另外,该系统可以被设置成执行上述方法。该系统还可以被设置成当服务器出现故障时,自动地运行该系统进行故障分析。该系统还可以被设置成当需要对服务器进行故障分析时,由工作人员手动地启动该系统进行故障分析。
需要特别指出的是,上述系统的实施例采用了上述方法的实施例来具体说明各模块的工作过程,本领域技术人员能够很容易想到,将这些模块应用到上述方法的其他实施例中。
此外,典型地,本发明实施例公开所述的系统、设备等可为各种电子终端设备,例如手机、个人数字助理(PDA)、平板电脑(PAD)、智能电视等,也可以是大型终端设备,如服务器等,因此本发明实施例公开的保护范围不应限定为某种特定类型的系统、设备。
此外,上述方法步骤以及系统单元或模块也可以利用控制器以及用于存储使得控制器实现上述步骤或单元或模块功能的计算机程序的计算机可读存储介质实现。
此外,应该明白的是,实现本发明的方法和系统所采用的计算机可读存储介质(例如,存储器)可以是易失性存储器或非易失性存储器,或者可以包括易失性存储器和非易失性存储器两者。作为例子而非限制性的,非易失性存储器可以包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦写可编程ROM(EEPROM)或快闪存储器。易失性存储器可以包括随机存取存储器(RAM),该RAM可以充当外部高速缓存存储器。作为例子而非限制性的,RAM可以以多种形式获得,比如同步RAM(DRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据速率SDRAM(DDR SDRAM)、增强SDRAM(ESDRAM)、同步链路DRAM(SLDRAM)以及直接Rambus RAM(DRRAM)。所公开的方面的存储设备意在包括但不限于这些和其它合适类型的存储器。
本领域技术人员还将明白的是,结合这里的公开所描述的各种示例性逻辑块、模块、电路和算法步骤可以被实现为电子硬件、计算机软件或两者的组合。为了清楚地说明硬件和软件的这种可互换性,已经就各种示意性组件、方块、模块、电路和步骤的功能对其进行了一般性的描述。这种功能是被实现为软件还是被实现为硬件取决于具体应用以及施加给整个系统的设计约束。本领域技术人员可以针对每种具体应用以各种方式来实现所述的功能,但是这种实现决定不应被解释为导致脱离本发明实施例公开的范围。
上述实施例,特别是任何“优选”实施例是实现的可能示例,并且仅为了清楚地理解本发明的原理而提出。可以在不脱离本文所描述的技术的精神和原理的情况下对上述实施例进行许多变化和修改。所有修改旨在被包括在本公开的范围内并且由所附权利要求保护。
Claims (10)
1.一种诊断服务器故障的方法,其特征在于,包括以下步骤:
1)经由日志收集工具收集服务器日志;
2)经由日志分析模块将所述服务器日志中的报错关键词与服务器故障规则知识库模块中的条件表进行匹配,并返回匹配到的条件ID;
3)经由故障匹配模块将返回的所述条件ID与所述服务器故障规则知识库模块中的故障表进行匹配;和
4)根据所述条件ID与所述故障表的匹配结果,经由故障解释输出模块输出发生故障的设备信息和解决方法。
2.根据权利要求1所述的诊断服务器故障的方法,其特征在于,经由日志收集工具收集服务器日志包括:
所述日志收集工具将黑盒日志解析为文本文件。
3.根据权利要求2所述的诊断服务器故障的方法,其特征在于,所述条件表包括所述报错关键词与所述条件ID的对应关系。
4.根据权利要求2所述的诊断服务器故障的方法,其特征在于,所述故障表包括条件ID组合与发生故障的设备信息和解决办法的对应关系。
5.根据权利要求4所述的诊断服务器故障的方法,其特征在于,所述条件ID组合包括至少一个所述条件ID。
6.一种诊断服务器故障的系统,其特征在于,包括:
处理器;
存储器,所述存储器存储有所述处理器可运行的程序代码,其中所述程序代码包括:
日志收集工具,所述日志收集工具用于收集服务器日志;
服务器故障规则知识库模块,所述服务器故障规则知识库模块用于存储服务器故障规则知识库;
日志分析模块,所述日志分析模块用于将所述服务器日志中报错关键词与所述服务器故障规则知识库模块中的条件表进行匹配,并返回匹配到的条件ID;
故障匹配模块,用于将返回的所述条件ID与所述服务器故障规则知识库模块中的故障表进行匹配;和
故障解释输出模块,用于根据所述条件ID与所述故障表的匹配结果,输出发生故障的设备信息和解决方法。
7.根据权利要求6所述的诊断服务器故障的系统,其特征在于,所述日志收集工具用于将所述黑盒日志解析为文本文件。
8.根据权利要求6所述的诊断服务器故障的系统,其特征在于,所述条件表包括所述报错关键词与所述条件ID的对应关系。
9.根据权利要求6所述的诊断服务器故障的系统,其特征在于,所述故障表包括条件ID组合与发生故障的设备信息和解决办法的对应关系。
10.根据权利要求9所述的诊断服务器故障的系统,其特征在于,所述条件ID组合包括至少一个所述条件ID。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811295884.2A CN109491819A (zh) | 2018-11-01 | 2018-11-01 | 一种诊断服务器故障的方法和系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811295884.2A CN109491819A (zh) | 2018-11-01 | 2018-11-01 | 一种诊断服务器故障的方法和系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN109491819A true CN109491819A (zh) | 2019-03-19 |
Family
ID=65692131
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811295884.2A Withdrawn CN109491819A (zh) | 2018-11-01 | 2018-11-01 | 一种诊断服务器故障的方法和系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109491819A (zh) |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110955551A (zh) * | 2019-11-26 | 2020-04-03 | 上海新炬网络技术有限公司 | 一种基于tomcat中间件的故障智能诊断装置 |
CN110968447A (zh) * | 2019-12-02 | 2020-04-07 | 安徽三实信息技术服务有限公司 | 一种服务器主机巡检系统 |
CN111625382A (zh) * | 2020-05-21 | 2020-09-04 | 浪潮电子信息产业股份有限公司 | 一种服务器故障诊断方法、装置、设备及介质 |
CN112068981A (zh) * | 2020-09-24 | 2020-12-11 | 中国人民解放军国防科技大学 | Linux操作系统中基于知识库的故障扫描恢复方法及系统 |
CN112463425A (zh) * | 2020-11-13 | 2021-03-09 | 苏州浪潮智能科技有限公司 | 一种服务器的诊断规则缓存调整方法、装置及电子设备 |
CN112988537A (zh) * | 2021-03-11 | 2021-06-18 | 山东英信计算机技术有限公司 | 一种服务器故障诊断方法、装置及相关设备 |
CN112988444A (zh) * | 2021-03-25 | 2021-06-18 | 腾讯科技(深圳)有限公司 | 用于服务器集群故障诊断的处理方法 |
CN113777476A (zh) * | 2021-08-30 | 2021-12-10 | 苏州浪潮智能科技有限公司 | 一种gpu故障诊断系统、诊断方法、设备及可读存储介质 |
CN117615057A (zh) * | 2023-11-22 | 2024-02-27 | 中电金信数字科技集团有限公司 | 故障检测方法、装置、系统、计算机设备和存储介质 |
-
2018
- 2018-11-01 CN CN201811295884.2A patent/CN109491819A/zh not_active Withdrawn
Cited By (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110955551A (zh) * | 2019-11-26 | 2020-04-03 | 上海新炬网络技术有限公司 | 一种基于tomcat中间件的故障智能诊断装置 |
CN110968447A (zh) * | 2019-12-02 | 2020-04-07 | 安徽三实信息技术服务有限公司 | 一种服务器主机巡检系统 |
CN111625382B (zh) * | 2020-05-21 | 2022-06-10 | 浪潮电子信息产业股份有限公司 | 一种服务器故障诊断方法、装置、设备及介质 |
CN111625382A (zh) * | 2020-05-21 | 2020-09-04 | 浪潮电子信息产业股份有限公司 | 一种服务器故障诊断方法、装置、设备及介质 |
CN112068981A (zh) * | 2020-09-24 | 2020-12-11 | 中国人民解放军国防科技大学 | Linux操作系统中基于知识库的故障扫描恢复方法及系统 |
CN112463425B (zh) * | 2020-11-13 | 2022-07-22 | 苏州浪潮智能科技有限公司 | 一种服务器的诊断规则缓存调整方法、装置及电子设备 |
CN112463425A (zh) * | 2020-11-13 | 2021-03-09 | 苏州浪潮智能科技有限公司 | 一种服务器的诊断规则缓存调整方法、装置及电子设备 |
CN112988537A (zh) * | 2021-03-11 | 2021-06-18 | 山东英信计算机技术有限公司 | 一种服务器故障诊断方法、装置及相关设备 |
CN112988444A (zh) * | 2021-03-25 | 2021-06-18 | 腾讯科技(深圳)有限公司 | 用于服务器集群故障诊断的处理方法 |
CN112988444B (zh) * | 2021-03-25 | 2023-03-14 | 腾讯科技(深圳)有限公司 | 用于服务器集群故障诊断的处理方法、处理装置、及处理设备、用于服务器故障诊断的方法及计算机可读存储介质 |
CN113777476A (zh) * | 2021-08-30 | 2021-12-10 | 苏州浪潮智能科技有限公司 | 一种gpu故障诊断系统、诊断方法、设备及可读存储介质 |
CN113777476B (zh) * | 2021-08-30 | 2024-02-23 | 苏州浪潮智能科技有限公司 | 一种gpu故障诊断系统、诊断方法、设备及可读存储介质 |
CN117615057A (zh) * | 2023-11-22 | 2024-02-27 | 中电金信数字科技集团有限公司 | 故障检测方法、装置、系统、计算机设备和存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109491819A (zh) | 一种诊断服务器故障的方法和系统 | |
US10437703B2 (en) | Correlation of source code with system dump information | |
US8108724B2 (en) | Field replaceable unit failure determination | |
CN103458086B (zh) | 一种智能手机及其故障检测方法 | |
CN112308126A (zh) | 故障识别模型训练方法、故障识别方法、装置及电子设备 | |
CN106649071B (zh) | 进程内部日志上报的方法和装置 | |
CN112527484B (zh) | 工作流断点续跑方法、装置、计算机设备及可读存储介质 | |
CN104202201A (zh) | 一种日志处理方法、装置及终端 | |
US20140215279A1 (en) | Scalable structured data store operations | |
CN113098715B (zh) | 一种信息处理方法、装置、系统、介质和计算设备 | |
CN113672456A (zh) | 应用平台的模块化自监听方法、系统、终端及存储介质 | |
KR20200142896A (ko) | 디지털 설비의 고장 유형 분석 시스템 및 방법 | |
CN110291505A (zh) | 减少应用的恢复时间 | |
CN114860487A (zh) | 一种内存故障识别方法及一种内存故障隔离方法 | |
CN113961478A (zh) | 一种内存故障记录方法以及装置 | |
CN106776728A (zh) | 基于日志文件分析的代码检查方法、系统及开发平台 | |
CN105825641A (zh) | 一种业务报警方法和装置 | |
CN113392000A (zh) | 测试用例执行结果分析方法、装置、设备及存储介质 | |
CN108920297A (zh) | 一种诊断黑盒日志中pcie报错信息的方法和系统 | |
KR101288535B1 (ko) | 통신 시스템 모니터링 방법 및 이를 위한 장치 | |
JP2018180982A (ja) | 情報処理装置、およびログ記録方法 | |
CN110457194A (zh) | 电子设备稳定性预警方法、系统、装置、设备和存储介质 | |
CN110968456A (zh) | 分布式存储系统中故障磁盘的处理方法及装置 | |
CN111797032B (zh) | 存储结构、方法、装置、设备及可读存储介质 | |
JP2009087136A (ja) | 障害修復システムおよび障害修復方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WW01 | Invention patent application withdrawn after publication | ||
WW01 | Invention patent application withdrawn after publication |
Application publication date: 20190319 |