CN112286709B - 一种服务器硬件故障的诊断方法、诊断装置及诊断设备 - Google Patents

一种服务器硬件故障的诊断方法、诊断装置及诊断设备 Download PDF

Info

Publication number
CN112286709B
CN112286709B CN202011181637.7A CN202011181637A CN112286709B CN 112286709 B CN112286709 B CN 112286709B CN 202011181637 A CN202011181637 A CN 202011181637A CN 112286709 B CN112286709 B CN 112286709B
Authority
CN
China
Prior art keywords
server
information
error reporting
readable
control chips
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202011181637.7A
Other languages
English (en)
Other versions
CN112286709A (zh
Inventor
于云杰
韩红瑞
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Suzhou Inspur Intelligent Technology Co Ltd
Original Assignee
Suzhou Inspur Intelligent Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Suzhou Inspur Intelligent Technology Co Ltd filed Critical Suzhou Inspur Intelligent Technology Co Ltd
Priority to CN202011181637.7A priority Critical patent/CN112286709B/zh
Publication of CN112286709A publication Critical patent/CN112286709A/zh
Application granted granted Critical
Publication of CN112286709B publication Critical patent/CN112286709B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0751Error or fault detection not based on redundancy
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/079Root cause analysis, i.e. error or fault diagnosis
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Abstract

本发明公开了一种服务器硬件故障的诊断方法,从多项电源的角度出发,根据各多项电源控制芯片的可读取报错信息进行判断,若与服务器部件对应的各多项电源控制芯片的可读取报错信息的类型均为报错,则确定服务器部件出现故障;若与服务器部件对应的各多项电源控制芯片的可读取报错信息的类型不均为报错,则确定服务器主板出现故障,从而可以高效地定位服务器硬件故障原因,大幅度提高运维人员解决问题的效率。本发明还公开了一种服务器硬件故障的诊断装置、诊断设备及计算机可读存储介质,具有上述有益效果。

Description

一种服务器硬件故障的诊断方法、诊断装置及诊断设备
技术领域
本发明涉及服务器监控技术领域,特别是涉及一种服务器硬件故障的诊断方法、诊断装置、诊断设备及计算机可读存储介质。
背景技术
近年随着信息技术的快速发展,数据处理量出现爆发式增长,数据中心的业务量急剧增加。数据中心的服务器数量也随之增加,近年来大型数据中心的服务器数量逐步达到了数万乃至十万台的量级,如何高效的运营维护这些服务器正常的工作以及当服务器出现问题时如何迅速定位问题快速维修是一个亟待解决的问题。然而,现有的服务器硬件故障定位方案通常是在服务器出现故障时,通过拆开机箱进行线下量测、分析的方式来定位故障,不仅浪费了大量人力,还导致服务器较长时间的中断运行。
发明内容
本发明的目的是提供一种服务器硬件故障的诊断方法、诊断装置、诊断设备及计算机可读存储介质,用于快速、自动化地定位服务器硬件的故障,节约人力成本。
为解决上述技术问题,本发明提供一种服务器硬件故障的诊断方法,包括:
获取各多项电源控制芯片的可读取报错信息;
若与服务器部件对应的各所述多项电源控制芯片的可读取报错信息的类型均为报错,则确定所述服务器部件出现故障;
若与所述服务器部件对应的各所述多项电源控制芯片的可读取报错信息的类型不均为报错,则确定服务器主板出现故障。
可选的,所述可读取报错信息的类型具体包括:电源欠压保护信息、输出项错误信息、输入欠压保护信息、输入过压保护信息、输出欠压保护信息、输出过压保护信息、输出过流保护信息、输出短路保护信息、过温保护信息和过温报警信息。
可选的,所述若与服务器部件对应的各所述多项电源控制芯片的可读取报错信息的类型均为报错,则确定所述服务器部件出现故障,具体为:
若与服务器部件对应的各所述多项电源控制芯片的可读取报错信息的类型均为报错,则根据与所述可读取报错信息的类型均为报错对应的所述多项电源控制芯片的地址确定出现故障的服务器部件。
可选的,还包括:
输出与服务器硬件故障类型对应的服务器硬件故障报警信号。
可选的,所述获取各多项电源控制芯片的可读取报错信息,具体为:
通过轮询的方式读取各所述多项电源控制芯片的可读取报错信息。
可选的,所述获取各多项电源控制芯片的可读取报错信息,具体为:
当接收到的复杂可编程逻辑器读取的电源正常信号为异常断电信号时,读取与所述异常断电信号对应的服务器部件处的各所述多项电源控制芯片的可读取报错信息。
可选的,所述诊断方法应用于基板管理控制器。
为解决上述技术问题,本发明还提供一种服务器硬件故障的诊断装置,包括:
获取单元,用于获取各多项电源控制芯片的可读取报错信息;
判断单元,用于在与服务器部件对应的各所述多项电源控制芯片的可读取报错信息的类型均为报错时,则确定所述服务器部件出现故障;在与所述服务器部件对应的各所述多项电源控制芯片的可读取报错信息的类型不均为报错,则确定服务器主板出现故障。
为解决上述技术问题,本发明还提供一种服务器硬件故障的诊断设备,包括:
存储器,用于存储指令,所述指令包括上述任意一项所述服务器硬件故障的诊断方法的步骤;
处理器,用于执行所述指令。
为解决上述技术问题,本发明还提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现如上述任意一项所述服务器硬件故障的诊断方法的步骤。
本发明所提供的服务器硬件故障的诊断方法,从多项电源的角度出发,根据各多项电源控制芯片的可读取报错信息进行判断,若与服务器部件对应的各多项电源控制芯片的可读取报错信息的类型均为报错,则确定服务器部件出现故障;若与服务器部件对应的各多项电源控制芯片的可读取报错信息的类型不均为报错,则确定服务器主板出现故障,从而可以高效地定位服务器硬件故障原因,大幅度提高运维人员解决问题的效率。
本发明还提供一种服务器硬件故障的诊断装置、诊断设备及计算机可读存储介质,具有上述有益效果,在此不再赘述。
附图说明
为了更清楚的说明本发明实施例或现有技术的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单的介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为基板管理控制器对多项电源的监控拓扑图;
图2为本发明实施例提供的一种服务器硬件故障的诊断方法的流程图;
图3为本发明实施例提供的一种服务器硬件故障的诊断装置的结构示意图;
图4为本发明实施例提供的一种服务器硬件故障的诊断设备的结构示意图。
具体实施方式
本发明的核心是提供一种服务器硬件故障的诊断方法、诊断装置、诊断设备及计算机可读存储介质,用于快速、自动化地定位服务器硬件的故障,节约人力成本。
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
图1为基板管理控制器对多项电源的监控拓扑图;图2为本发明实施例提供的一种服务器硬件故障的诊断方法的流程图。
服务器系统的主要部件包括电源供应单元(Power supply unit,PSU)、CPU、内存、图形处理器(Graphics Processing Unit,GPU)、硬盘、磁盘阵列(Redundant Arrays ofIndependent Disks,RAID)等,而这些服务器部件都搭载在服务器主板上运行。服务器主板为固设有连接器、PCI-E线缆、电源转换器、时钟芯片、SMT贴片等的PCB板。这些服务器部件及服务器主板都是本发明实施例提供的服务器硬件故障的诊断方法的诊断对象。
如图1所示,通用2路服务器的一般配置为1个服务器主板、2个CPU、32个内存、24个硬盘,每个服务器部件由多个电源供电。基板管理控制器(BMC)首先对各服务器部件的多项电源的地址进行配置,并对这些地址进行实时轮询读取信息。
如图2所示,发明实施例提供的服务器硬件故障的诊断方法包括:
S201:获取各多项电源控制芯片的可读取报错信息。
S202:若与服务器部件对应的各多项电源控制芯片的可读取报错信息的类型均为报错,则确定服务器部件出现故障。
S203:若与服务器部件对应的各多项电源控制芯片的可读取报错信息的类型不均为报错,则确定服务器主板出现故障。
在具体实施中,为节约CPU资源,且由于基板管理控制器(Baseboard ManagementController,BMC)本身具有轮询各多项电源控制芯片的功能,在本发明实施例提供的服务器硬件故障的诊断方法可以应用于基板管理控制器。
表1本发明实施例提供的一种多项电源可读取报错信息列表
Figure BDA0002750352900000041
Figure BDA0002750352900000051
多项电源控制芯片为针对多项电源设置的状态监控芯片,基板管理控制器通过轮询的方式从各多项电源控制芯片处读取到多项电源的运行信息。以XDPE14284型号的多项电源控制芯片为例,一种多项电源可读取报错信息列表如表1所示,可以看到,可读取报错信息的类型具体包括:电源欠压保护信息、输出项错误信息、输入欠压保护信息、输入过压保护信息、输出欠压保护信息、输出过压保护信息、输出过流保护信息、输出短路保护信息、过温保护信息和过温报警信息等。
在现有技术中,基板管理控制器在读取多项电源的运行状态后,只是传输给上一级的CPU而不做任何处理。而在本发明实施例提供的服务器硬件故障的诊断方法中,利用多项电源的运行状态信息来定位服务器硬件故障,充分利用了这些信息。
对于步骤S201来说,可以利用基板管理控制器原本通过轮询的方式读取各多项电源控制芯片的可读取报错信息的方式来获取各多项电源控制芯片的可读取报错信息,即由基板管理控制器在轮询到每个多项电源控制芯片的可读取报错信息后,检查是否为报错状态,以此进行故障定位。
为快速定位服务器硬件故障,步骤S201还可以通过当接收到的复杂可编程逻辑器(Complex Programming logic device,CPLD)读取的电源正常(Power Good,PG)信号为异常断电信号时,读取与异常断电信号对应的服务器部件处的各多项电源控制芯片的可读取报错信息。当服务器异常掉电或关机时,复杂可编程逻辑器读取异常断电的电源的PG信号,然后将中断信号发送给基板管理控制器,基板管理控制器读取对应的多项电源控制芯片的可读取报错信息(例如表1所示),根据设定好的判断逻辑判断故障是否为服务器主板故障或服务器部件故障。
具体判断机制如步骤S202和步骤S203所示,当与服务器部件对应的各多项电源控制芯片的可读取报错信息的类型均为报错,则确定服务器部件出现故障。当与服务器部件对应的各多项电源控制芯片的可读取报错信息的类型不均为报错,则确定服务器主板出现故障。例如,假设图1所示的CPU0电源有四个,则当四个电源对应的多项电源控制芯片的可读取报错信息均为报错时,则认为CPU0出现故障,需要说明的是,此时并不代表服务器主板没有出现故障;若四个电源对应的多项电源控制芯片的可读取报错信息中仅有单项为报错时,则认为是服务器主板出现故障,CPU0未出现故障。当出现某个服务器部对应的各多项电源控制芯片的可读取报错信息的类型均为报错的情况时,则需要综合多个服务器部件对应的多项电源控制芯片来判断服务器主板是否故障。
而当出现步骤S202的状况,即与服务器部件对应的各多项电源控制芯片的可读取报错信息的类型均为报错使,确定服务器部件出现故障,具体为:
若与服务器部件对应的各多项电源控制芯片的可读取报错信息的类型均为报错,则根据与可读取报错信息的类型均为报错对应的多项电源控制芯片的地址确定出现故障的服务器部件。
如表1所示,当与服务器部件对应的各多项电源控制芯片的可读取报错信息的类型均为报错时,根据基板管理控制器预先为各项电源设定的地址,查找与可读取报错信息的类型均为报错对应的多项电源控制芯片的地址确定出现故障的服务器部件。例如当CPU0的多项电源(0x40、0x41、0x42、0x43)对应的多项电源控制芯片的可读取报错信息均为报错时,从可读取报错信息记载的电源地址(0x40、0x41、0x42、0x43)即可确定CPU0出现故障。
本发明实施例提供的服务器硬件故障的诊断方法,从多项电源的角度出发,根据各多项电源控制芯片的可读取报错信息进行判断,若与服务器部件对应的各多项电源控制芯片的可读取报错信息的类型均为报错,则确定服务器部件出现故障;若与服务器部件对应的各多项电源控制芯片的可读取报错信息的类型不均为报错,则确定服务器主板出现故障,从而可以高效地定位服务器硬件故障原因,大幅度提高运维人员解决问题的效率。
在上述实施例的基础上,本发明实施例提供的服务器硬件故障的诊断方法还包括:
输出与服务器硬件故障类型对应的服务器硬件故障报警信号。
在具体实施中,基板管理控制器可以将出现故障的服务器部件的情况或是服务器主板的情况发送至CPU,或是基板管理控制器控制对应的报警指示灯亮起,以提示运维人员服务器硬件故障类型。
上文详述了服务器硬件故障的诊断方法对应的各个实施例,在此基础上,本发明还公开了与上述方法对应的服务器硬件故障的诊断装置、设备及计算机可读存储介质。
图3为本发明实施例提供的一种服务器硬件故障的诊断装置的结构示意图。
如图3所示,本发明实施例提供的服务器硬件故障的诊断装置包括:
获取单元301,用于获取各多项电源控制芯片的可读取报错信息;
判断单元302,用于在与服务器部件对应的各多项电源控制芯片的可读取报错信息的类型均为报错时,则确定服务器部件出现故障;在与服务器部件对应的各多项电源控制芯片的可读取报错信息的类型不均为报错,则确定服务器主板出现故障。
进一步的,本发明实施例提供的服务器硬件故障的诊断装置还可以包括:
输出单元,用于输出与服务器硬件故障类型对应的服务器硬件故障报警信号。
由于装置部分的实施例与方法部分的实施例相互对应,因此装置部分的实施例请参见方法部分的实施例的描述,这里暂不赘述。
图4为本发明实施例提供的一种服务器硬件故障的诊断设备的结构示意图。
如图4所示,本发明实施例提供的服务器硬件故障的诊断设备包括:
存储器410,用于存储指令,所述指令包括上述任意一项实施例所述的服务器硬件故障的诊断方法的步骤;
处理器420,用于执行所述指令。
其中,处理器420可以包括一个或多个处理核心,比如3核心处理器、8核心处理器等。处理器420可以采用数字信号处理DSP(Digital Signal Processing)、现场可编程门阵列FPGA(Field-Programmable Gate Array)、可编程逻辑阵列PLA(Programmable LogicArray)中的至少一种硬件形式来实现。处理器420也可以包括主处理器和协处理器,主处理器是用于对在唤醒状态下的数据进行处理的处理器,也称中央处理器CPU(CentralProcessing Unit);协处理器是用于对在待机状态下的数据进行处理的低功耗处理器。在一些实施例中,处理器420可以集成有图像处理器GPU(Graphics Processing Unit),GPU用于负责显示屏所需要显示的内容的渲染和绘制。一些实施例中,处理器420还可以包括人工智能AI(Artificial Intelligence)处理器,该AI处理器用于处理有关机器学习的计算操作。
存储器410可以包括一个或多个计算机可读存储介质,该计算机可读存储介质可以是非暂态的。存储器410还可包括高速随机存取存储器,以及非易失性存储器,比如一个或多个磁盘存储设备、闪存存储设备。本实施例中,存储器410至少用于存储以下计算机程序411,其中,该计算机程序411被处理器420加载并执行之后,能够实现前述任一实施例公开的服务器硬件故障的诊断方法中的相关步骤。另外,存储器410所存储的资源还可以包括操作系统412和数据413等,存储方式可以是短暂存储或者永久存储。其中,操作系统412可以为Windows。数据413可以包括但不限于上述方法所涉及到的数据。
在一些实施例中,服务器硬件故障的诊断设备还可包括有显示屏430、电源440、通信接口450、输入输出接口460、传感器470以及通信总线480。
本领域技术人员可以理解,图4中示出的结构并不构成对服务器硬件故障的诊断设备的限定,可以包括比图示更多或更少的组件。
本申请实施例提供的服务器硬件故障的诊断设备,包括存储器和处理器,处理器在执行存储器存储的程序时,能够实现如上所述的服务器硬件故障的诊断方法,效果同上。
需要说明的是,以上所描述的装置、设备实施例仅仅是示意性的,例如,模块的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个模块或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或模块的间接耦合或通信连接,可以是电性,机械或其它的形式。作为分离部件说明的模块可以是或者也可以不是物理上分开的,作为模块显示的部件可以是或者也可以不是物理模块,即可以位于一个地方,或者也可以分布到多个网络模块上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能模块可以集成在一个处理模块中,也可以是各个模块单独物理存在,也可以两个或两个以上模块集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。
集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,执行本发明各个实施例所述方法的全部或部分步骤。
为此,本发明实施例还提供一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,计算机程序被处理器执行时实现如服务器硬件故障的诊断方法的步骤。
该计算机可读存储介质可以包括:U盘、移动硬盘、只读存储器ROM(Read-OnlyMemory)、随机存取存储器RAM(Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
本实施例中提供的计算机可读存储介质所包含的计算机程序能够在被处理器执行时实现如上所述的服务器硬件故障的诊断方法的步骤,效果同上。
以上对本发明所提供的一种服务器硬件故障的诊断方法、诊断装置、诊断设备及计算机可读存储介质进行了详细介绍。说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置、设备及计算机可读存储介质而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以对本发明进行若干改进和修饰,这些改进和修饰也落入本发明权利要求的保护范围内。
还需要说明的是,在本说明书中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

Claims (9)

1.一种服务器硬件故障的诊断方法,其特征在于,包括:
获取各多项电源控制芯片的可读取报错信息;
若与服务器部件对应的各所述多项电源控制芯片的可读取报错信息的类型均为报错,则确定所述服务器部件出现故障;
若与所述服务器部件对应的各所述多项电源控制芯片的可读取报错信息的类型不均为报错,则确定服务器主板出现故障;
其中,所述若与服务器部件对应的各所述多项电源控制芯片的可读取报错信息的类型均为报错,则确定所述服务器部件出现故障,具体为:
若与服务器部件对应的各所述多项电源控制芯片的可读取报错信息的类型均为报错,则根据与所述可读取报错信息的类型均为报错对应的所述多项电源控制芯片的地址确定出现故障的服务器部件。
2.根据权利要求1所述的诊断方法,其特征在于,所述可读取报错信息的类型具体包括:电源欠压保护信息、输出项错误信息、输入欠压保护信息、输入过压保护信息、输出欠压保护信息、输出过压保护信息、输出过流保护信息、输出短路保护信息、过温保护信息和过温报警信息。
3.根据权利要求1所述的诊断方法,其特征在于,还包括:
输出与服务器硬件故障类型对应的服务器硬件故障报警信号。
4.根据权利要求1所述的诊断方法,其特征在于,所述获取各多项电源控制芯片的可读取报错信息,具体为:
通过轮询的方式读取各所述多项电源控制芯片的可读取报错信息。
5.根据权利要求1所述的诊断方法,其特征在于,所述获取各多项电源控制芯片的可读取报错信息,具体为:
当接收到的复杂可编程逻辑器读取的电源正常信号为异常断电信号时,读取与所述异常断电信号对应的服务器部件处的各所述多项电源控制芯片的可读取报错信息。
6.根据权利要求1所述的诊断方法,其特征在于,所述诊断方法应用于基板管理控制器。
7.一种服务器硬件故障的诊断装置,其特征在于,包括:
获取单元,用于获取各多项电源控制芯片的可读取报错信息;
判断单元,用于在与服务器部件对应的各所述多项电源控制芯片的可读取报错信息的类型均为报错时,则确定所述服务器部件出现故障;在与所述服务器部件对应的各所述多项电源控制芯片的可读取报错信息的类型不均为报错,则确定服务器主板出现故障;
其中,若与服务器部件对应的各所述多项电源控制芯片的可读取报错信息的类型均为报错,则确定所述服务器部件出现故障,具体为:
若与服务器部件对应的各所述多项电源控制芯片的可读取报错信息的类型均为报错,则根据与所述可读取报错信息的类型均为报错对应的所述多项电源控制芯片的地址确定出现故障的服务器部件。
8.一种服务器硬件故障的诊断设备,其特征在于,包括:
存储器,用于存储指令,所述指令包括权利要求1至6任意一项所述服务器硬件故障的诊断方法的步骤;
处理器,用于执行所述指令。
9.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至6任意一项所述服务器硬件故障的诊断方法的步骤。
CN202011181637.7A 2020-10-29 2020-10-29 一种服务器硬件故障的诊断方法、诊断装置及诊断设备 Active CN112286709B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011181637.7A CN112286709B (zh) 2020-10-29 2020-10-29 一种服务器硬件故障的诊断方法、诊断装置及诊断设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011181637.7A CN112286709B (zh) 2020-10-29 2020-10-29 一种服务器硬件故障的诊断方法、诊断装置及诊断设备

Publications (2)

Publication Number Publication Date
CN112286709A CN112286709A (zh) 2021-01-29
CN112286709B true CN112286709B (zh) 2022-07-08

Family

ID=74353381

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011181637.7A Active CN112286709B (zh) 2020-10-29 2020-10-29 一种服务器硬件故障的诊断方法、诊断装置及诊断设备

Country Status (1)

Country Link
CN (1) CN112286709B (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113064747B (zh) * 2021-03-26 2022-10-28 山东英信计算机技术有限公司 一种服务器启动过程中的故障定位方法、系统及装置
CN113341827A (zh) * 2021-06-18 2021-09-03 南昌华勤电子科技有限公司 电源芯片的控制方法和设备
CN113868001B (zh) * 2021-09-10 2023-08-08 苏州浪潮智能科技有限公司 一种内存修复结果的检查方法、系统及计算机存储介质
CN114441964B (zh) * 2022-04-08 2022-07-08 苏州浪潮智能科技有限公司 一种存储系统供电过程中的故障定位方法、装置以及介质
CN117591378B (zh) * 2024-01-17 2024-04-05 苏州元脑智能科技有限公司 一种服务器的温度控制方法、系统、设备及存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107832164A (zh) * 2017-11-20 2018-03-23 郑州云海信息技术有限公司 一种基于Ceph的故障硬盘处理的方法及装置
CN108920314A (zh) * 2018-06-26 2018-11-30 郑州云海信息技术有限公司 一种故障硬件定位方法、装置、系统及可读存储介质
CN111767184A (zh) * 2020-09-01 2020-10-13 苏州浪潮智能科技有限公司 一种故障诊断方法、装置及电子设备和存储介质

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107832164A (zh) * 2017-11-20 2018-03-23 郑州云海信息技术有限公司 一种基于Ceph的故障硬盘处理的方法及装置
CN108920314A (zh) * 2018-06-26 2018-11-30 郑州云海信息技术有限公司 一种故障硬件定位方法、装置、系统及可读存储介质
CN111767184A (zh) * 2020-09-01 2020-10-13 苏州浪潮智能科技有限公司 一种故障诊断方法、装置及电子设备和存储介质

Also Published As

Publication number Publication date
CN112286709A (zh) 2021-01-29

Similar Documents

Publication Publication Date Title
CN112286709B (zh) 一种服务器硬件故障的诊断方法、诊断装置及诊断设备
CN112948157B (zh) 服务器故障定位方法、装置、系统及计算机可读存储介质
CN111752776B (zh) 一种服务器的循环上下电测试方法和系统
CN104794033A (zh) 一种基于bmc的cpu低频故障的定位方法及装置
CN111414268A (zh) 故障处理方法、装置及服务器
CN110928719A (zh) Ssd低功耗模式异常处理方法、装置、计算机设备及存储介质
CN114328102A (zh) 设备状态监控方法、装置、设备及计算机可读存储介质
CN113127299A (zh) 服务器运维方法、装置、系统及计算机可读存储介质
CN112527582A (zh) 服务器线缆的检测方法、检测装置、检测设备及存储介质
CN111124818B (zh) 一种扩展器Expander的监控方法、装置及设备
CN117149491A (zh) 一种电源监测方法、系统、装置及存储介质
CN114265489B (zh) 电源故障监测方法、装置、电子设备及存储介质
CN102053888A (zh) 运算装置的自我检测方法与系统
CN115543707A (zh) 硬盘故障的检测方法、系统和装置、存储介质及电子装置
CN114936135A (zh) 一种异常检测方法、装置及可读存储介质
CN114218001A (zh) 故障修复方法、装置、电子设备及可读存储介质
CN111475378B (zh) 一种扩展器Expander的监控方法、装置及设备
CN114189429A (zh) 一种服务器集群故障的监测系统、方法、装置及介质
CN113076210A (zh) 服务器故障诊断结果通知方法、系统、终端及存储介质
CN113708986A (zh) 服务器监控装置、方法及计算机可读存储介质
TWI823556B (zh) 記憶體異常檢測系統、主機板、電子裝置及異常檢測方法
CN117055718B (zh) 一种服务器功耗检测系统、方法、装置、设备和存储介质
CN114884021B (zh) 一种供电电路的供电控制方法及相关组件
CN112486785B (zh) 一种服务器定位宕机阶段的方法、系统、终端及存储介质
CN216210909U (zh) 一种cpu降频控制系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant