CN116820823A - 一种故障原因确定方法、装置、设备及介质 - Google Patents

一种故障原因确定方法、装置、设备及介质 Download PDF

Info

Publication number
CN116820823A
CN116820823A CN202310796858.2A CN202310796858A CN116820823A CN 116820823 A CN116820823 A CN 116820823A CN 202310796858 A CN202310796858 A CN 202310796858A CN 116820823 A CN116820823 A CN 116820823A
Authority
CN
China
Prior art keywords
component
power consumption
fault
value
failure
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310796858.2A
Other languages
English (en)
Inventor
王培培
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Suzhou Inspur Intelligent Technology Co Ltd
Original Assignee
Suzhou Inspur Intelligent Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Suzhou Inspur Intelligent Technology Co Ltd filed Critical Suzhou Inspur Intelligent Technology Co Ltd
Priority to CN202310796858.2A priority Critical patent/CN116820823A/zh
Publication of CN116820823A publication Critical patent/CN116820823A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/079Root cause analysis, i.e. error or fault diagnosis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3058Monitoring arrangements for monitoring environmental properties or parameters of the computing system or of the computing system component, e.g. monitoring of power, currents, temperature, humidity, position, vibrations
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/32Monitoring with visual or acoustical indication of the functioning of the machine
    • G06F11/324Display of status information
    • G06F11/327Alarm or error message display

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Quality & Reliability (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Computing Systems (AREA)
  • Debugging And Monitoring (AREA)

Abstract

本发明公开了一种故障原因确定方法、装置、设备及介质,涉及服务器技术领域。方案通过获取服务器内各部件的电流值和功耗值,将各部件的电流值与功耗值分别与对应的阈值进行比较,以判断部件是否发生故障,实现了故障部件的定位;进一步将故障部件的功耗值与其控制器的工作功耗值进行比较,以确定故障部件是总线数据传输故障还是部件供电硬件故障,实现了故障部件的故障原因和故障类型的定位,从而使运维人员及时定位部件故障原因并进行相应地维护处理,大大提高了服务器运维效率。

Description

一种故障原因确定方法、装置、设备及介质
技术领域
本发明涉及服务器技术领域,特别是涉及一种故障原因确定方法、装置、设备及介质。
背景技术
目前,服务器中一般包含中央处理器(Central Processing Unit,CPU)、内存(Memory)、硬盘(Hard Disk Drive)以及高速串行计算机扩展总线标准(PeripheralComponent Interconnect Express,PCIE)卡等部件。在服务器使用过程中,服务器内部的部件可能会出现故障,导致服务器上电开机时系统无法识别故障部件,服务器无法正常工作。因此,为了保证服务器正常运行,对故障部件的定位是服务器运维的重点之一。
当前对服务器中故障部件的定位是通过部件的在位信号实现:当系统未识别到某一部件,但该部件的在位信号显示部件在位时,认为该部件为故障部件。然而,这种方式仅能用于定位故障部件,不能确定故障部件的故障原因,例如供电故障、信号故障等,需要运维人员人工分析故障原因,效率低下。
鉴于上述问题,如何确定服务器内故障部件的故障原因,提高服务器运维效率,是该领域技术人员亟待解决的问题。
发明内容
本发明的目的是提供一种故障原因确定方法、装置、设备及介质,以确定服务器内故障部件的故障原因,提高服务器运维效率。
为解决上述技术问题,本发明提供一种故障原因确定方法,应用于基板管理控制器;所述方法包括:
获取服务器内各部件的电流值和功耗值;
判断各所述部件是否所述电流值不大于对应的电流阈值,且所述功耗值不大于对应的功耗阈值;
若所述部件的所述电流值不大于对应的所述电流阈值,且所述功耗值不大于对应的所述功耗阈值,则确认所述部件为故障部件,并判断所述故障部件的所述功耗值是否大于所述故障部件对应控制器的工作功耗值;
若所述功耗值大于所述工作功耗值,则确认所述故障部件的故障原因为总线数据传输故障;
若所述功耗值不大于所述工作功耗值,则确认所述故障部件的故障原因为部件供电硬件故障。
一方面,所述获取服务器内各部件的电流值和功耗值包括:
通过电流功耗监控芯片获取各所述部件的供电线路上的精密电阻两端的电压值;
分别根据各所述电压值和对应所述精密电阻的电阻值获取对应的所述部件的所述电流值和所述功耗值。
另一方面,在所述判断各所述部件是否所述电流值不大于对应的电流阈值,且所述功耗值不大于对应的功耗阈值之前,还包括:
获取预先存储于带电可擦可编程只读存储器中的各所述部件对应的所述电流阈值和所述功耗阈值。
另一方面,在所述确认所述故障部件的故障原因为总线数据传输故障之后,还包括:
生成所述故障部件的故障日志;
读取所述故障部件对应的所述控制器记录的故障数据,以查看所述故障原因。
另一方面,在所述确认所述故障部件的故障原因为部件供电硬件故障之后,还包括:
生成所述故障部件的故障日志;
输出表征部件供电硬件故障的告警信息。
另一方面,在所述确认所述部件为故障部件之后,还包括:
判断所述故障部件是否为所述服务器的必要部件;
若是,则禁止所述服务器上电开机,输出表征更换所述故障部件的告警信息;
若否,则控制所述服务器上电开机,设置所述故障部件不运行。
另一方面,当确定各所述部件的所述电流值大于对应的所述电流阈值,且所述功耗值大于对应的所述功耗阈值时,还包括:
输出所述服务器可以正常上电开机的提示信息。
为解决上述技术问题,本发明还提供一种故障原因确定装置,应用于基板管理控制器;所述装置包括:
获取模块,用于获取服务器内各部件的电流值和功耗值;
第一判断模块,用于判断各所述部件是否所述电流值不大于对应的电流阈值,且所述功耗值不大于对应的功耗阈值;若所述部件的所述电流值不大于对应的所述电流阈值,且所述功耗值不大于对应的所述功耗阈值,则触发第一确认模块;
所述第一确认模块,用于确认所述部件为故障部件,并触发第二判断模块;
所述第二判断模块,用于判断所述故障部件的所述功耗值是否大于所述故障部件对应控制器的工作功耗值;若所述功耗值大于所述工作功耗值,则触发第二确认模块,若所述功耗值不大于所述工作功耗值,则触发第三确认模块;
所述第二确认模块,用于确认所述故障部件的故障原因为总线数据传输故障;
所述第三确认模块,用于确认所述故障部件的故障原因为部件供电硬件故障。
为解决上述技术问题,本发明还提供一种故障原因确定设备,包括:
存储器,用于存储计算机程序;
处理器,用于执行所述计算机程序时实现上述的故障原因确定方法的步骤。
为解决上述技术问题,本发明还提供一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现上述的故障原因确定方法的步骤。
本发明所提供的故障原因确定方法,应用于基板管理控制器;通过获取服务器内各部件的电流值和功耗值;判断各部件是否电流值不大于对应的电流阈值,且功耗值不大于对应的功耗阈值;若部件的电流值不大于对应的电流阈值,且功耗值不大于对应的功耗阈值,则确认部件为故障部件,并判断故障部件的功耗值是否大于故障部件对应控制器的工作功耗值;若功耗值大于工作功耗值,则确认故障部件的故障原因为总线数据传输故障;若功耗值不大于工作功耗值,则确认故障部件的故障原因为部件供电硬件故障。由此可知,上述方案首先将各部件的电流值与功耗值分别与对应的阈值进行比较,以判断部件是否发生故障,实现了故障部件的定位;进一步将故障部件的功耗值与其控制器的工作功耗值进行比较,以确定故障部件是总线数据传输故障还是部件供电硬件故障,实现了故障部件的故障原因和故障类型的定位,从而使运维人员及时定位部件故障原因并进行相应地维护处理,大大提高了服务器运维效率。
此外,本发明还提供了一种故障原因确定装置、设备及介质,效果同上。
附图说明
为了更清楚地说明本发明实施例,下面将对实施例中所需要使用的附图做简单的介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的一种故障原因确定方法的流程图;
图2为本发明实施例提供的部件故障定位的原理图;
图3为本发明实施例提供的一种故障原因确定装置的示意图;
图4为本发明实施例提供的一种故障原因确定设备的示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下,所获得的所有其他实施例,都属于本发明保护范围。
本发明的核心是提供一种故障原因确定方法、装置、设备及介质,以确定服务器内故障部件的故障原因,提高服务器运维效率。
为了使本技术领域的人员更好地理解本发明方案,下面结合附图和具体实施方式对本发明作进一步的详细说明。
服务器内部包含多个部件。当服务器上电开机时,系统会初始化各个部件,并对各个部件进行识别,然后达到服务器正常工作条件。在服务器使用过程中由于部件故障,例如硬盘供电故障、PCIE卡工作状态异常等,服务器上电开机之后可能会识别不到某个部件,此时该部件未正常工作,影响服务器功能。
当前在服务器出现部件故障时,只能定位故障部件,无法直接判断是部件供电故障还是信号传输问题造成的部件不识别,不利于运维人员对服务器进行快速维护。鉴于上述问题,本发明提供了一种故障原因确定方法,应用于服务器的基板管理控制器(Baseboard Management Controller,BMC)中。
图1为本发明实施例提供的一种故障原因确定方法的流程图。方法应用于基板管理控制器;如图1所示,方法包括:
S10:获取服务器内各部件的电流值和功耗值。
在具体实施中,首先获取服务器内各部件的电流值和功耗值。可以理解的是,服务器内包含多个部件,例如CPU、内存、硬盘、网卡、显卡以及其他PCIE卡等部件,各部件正常运行以满足服务器的工作需求。为了对这些部件是否发生故障进行判断,需要分别获取CPU、内存、硬盘、网卡、显卡以及其他PCIE卡等部件的电流值和功耗值,从而能够根据电流值和功耗值确定对应部件的运行情况。
需要注意的是,本实施例中对于各部件的电流值和功耗值的获取方式不做限制,根据具体的实施情况而定。在一些实施例中,可通过放大器或电流功耗监控芯片(currentpower monitor IC)采集电流信息,进一步计算功耗情况。
S11:判断各部件是否电流值不大于对应的电流阈值,且功耗值不大于对应的功耗阈值;若部件的电流值不大于对应的电流阈值,且功耗值不大于对应的功耗阈值,则进入步骤S12。
可以理解的是,由于各部件之间存在差异,运行时的功耗不尽相同,因此在比较电流值和功耗值时,对应的电流阈值和功耗阈值也不尽相同。在具体实施中,各部件对应的电流阈值和功耗阈值已知并存储于服务器内部。本实施例中对于各部件对应的电流阈值和功耗阈值不做限制,根据具体的部件情况而定。进一步地,为了定位故障部件,判断各部件是否电流值不大于对应的电流阈值,且功耗值不大于对应的功耗阈值;若部件的电流值不大于对应的电流阈值,且功耗值不大于对应的功耗阈值,则进入步骤S12。若否,则确认全部部件均未发生故障,可返回再次获取服务器内各部件的电流值和功耗值,以对部件是否故障进行持续监测。
S12:确认部件为故障部件,并判断故障部件的功耗值是否大于故障部件对应控制器的工作功耗值;若功耗值大于工作功耗值,则进入步骤S13,若功耗值不大于工作功耗值,则进入步骤S14。
S13:确认故障部件的故障原因为总线数据传输故障。
S14:确认故障部件的故障原因为部件供电硬件故障。
当确认部件的电流值不大于对应的电流阈值,且功耗值不大于对应的功耗阈值时,则认为该部件为故障部件,实现了故障部件的定位。为了确认故障部件的故障原因和类型,需要进一步判断故障部件的功耗值是否大于故障部件对应控制器的工作功耗值。
可以理解的是,服务器内各部件均对应存在各自的控制器,例如微控制单元(Micro Controller Unit,MCU)。部件的控制器用于控制部件的运行,以及对部件运行数据进行记录。在部件正常运行过程中,控制器的工作功耗值是对应部件的功耗值的一部分。因此,将故障部件的功耗值与故障部件对应控制器的工作功耗值进行比较,能够确定故障部件的控制器是否正常工作。
具体地,当确认故障部件的功耗值大于故障部件对应控制器的工作功耗值时,确认故障部件对应的控制器正常工作,不是部件硬件问题,确认故障部件的故障原因为总线数据传输故障。当确认故障部件的功耗值不大于故障部件对应控制器的工作功耗值时,确认故障部件对应的控制器未正常工作,故障部件的电压调节模块(voltage regulatemodule)异常,没有正常上电,确认故障部件的故障原因为部件供电硬件故障。以此,实现了故障部件的故障原因及类型的定位。
本实施例中,获取服务器内各部件的电流值和功耗值;判断各部件是否电流值不大于对应的电流阈值,且功耗值不大于对应的功耗阈值;若部件的电流值不大于对应的电流阈值,且功耗值不大于对应的功耗阈值,则确认部件为故障部件,并判断故障部件的功耗值是否大于故障部件对应控制器的工作功耗值;若功耗值大于工作功耗值,则确认故障部件的故障原因为总线数据传输故障;若功耗值不大于工作功耗值,则确认故障部件的故障原因为部件供电硬件故障。由此可知,上述方案首先将各部件的电流值与功耗值分别与对应的阈值进行比较,以判断部件是否发生故障,实现了故障部件的定位;进一步将故障部件的功耗值与其控制器的工作功耗值进行比较,以确定故障部件是总线数据传输故障还是部件供电硬件故障,实现了故障部件的故障原因和故障类型的定位,从而使运维人员及时定位部件故障原因并进行相应地维护处理,大大提高了服务器运维效率。
为了更好地获取服务器内各部件的电流值和功耗值,在上述实施例的基础上,作为一种优选的实施例,获取服务器内各部件的电流值和功耗值包括:
S100:通过电流功耗监控芯片获取各部件的供电线路上的精密电阻两端的电压值。
S101:分别根据各电压值和对应精密电阻的电阻值获取对应的部件的电流值和功耗值。
图2为本发明实施例提供的部件故障定位的原理图。如图2所示,在具体实施中,BMC与电流功耗监控芯片通过双向二线制同步串行总线(Inter-Integrated Circuit,I2C)连接,控制并通过电流功耗监控芯片分别获取各部件的供电线路上的精密电阻两端的电压值。可以理解的是,精密电阻设置于电压调节模块与部件之间,通过获取精密电阻两端的电压值,能够确定电压调节模块对部件的供电情况。
具体地,在得到了部件的供电线路上的精密电阻两端的电压值之后,根据电压值和对应精密电阻的电阻值能够计算出该部件的电流值,进而根据电流值计算出功耗值。
本实施例中,通过电流功耗监控芯片获取各部件的供电线路上的精密电阻两端的电压值,分别根据各电压值和对应精密电阻的电阻值获取对应的部件的电流值和功耗值,以便于后续对部件是否故障进行判断。
为了更便捷地获取到电流阈值和功耗阈值,在上述实施例的基础上,作为一种优选的实施例,在判断各部件是否电流值不大于对应的电流阈值,且功耗值不大于对应的功耗阈值之前,还包括:
S15:获取预先存储于带电可擦可编程只读存储器中的各部件对应的电流阈值和功耗阈值。
带电可擦可编程只读存储器(Electrically Erasable Programmable read onlymemory,EEPROM)是用户可更改的只读存储器(Read-Only Memory,ROM),其可通过高于普通电压的作用来擦除和重编程(重写)。不像可擦编程只读存储器(Erasable ProgrammableRead Only Memory,EPROM)芯片,EEPROM不需从计算机中取出即可修改。在本实施例中,EEPROM用于存储各部件对应的电流阈值和功耗阈值。由于服务器内部部件可能会随服务器工作需求更换和调整,EEPROM内部存储的部件对应的电流阈值和功耗阈值也需要跟随修改,因此通过EEPROM能够更好地存储各部件对应的电流阈值和功耗阈值。
如图2所示,BMC通过I2C总线挂载EEPROM。EEPROM中存储各部件对应的电流阈值和功耗阈值。因此,在分别判断各部件是否电流值不大于对应的电流阈值,且功耗值不大于对应的功耗阈值之前,需要首先分别获取预先存储于带电可擦可编程只读存储器中的各部件对应的电流阈值和功耗阈值,进而进行部件是否故障的判断。
本实施例中,通过EEPROM实现了各部件对应的电流阈值和功耗阈值更好地存储,有利于后续部件是否故障的判断。
为了确认故障原因内容,在上述实施例的基础上,作为一种优选的实施例,在确认故障部件的故障原因为总线数据传输故障之后,还包括:
S16:生成故障部件的故障日志。
S17:读取故障部件对应的控制器记录的故障数据,以查看故障原因。
在具体实施中,在确认故障部件的故障原因为总线数据传输故障之后,为了得到具体的故障原因内容,BMC生成故障部件的故障日志,对当前部件发生故障进行记录。由于此时故障部件的控制器正常运行,因此可进一步读取故障部件对应的控制器记录的更底层、更详细的故障数据,从中查看到故障原因的内容,以便于运维人员对故障部件进行维护。
为了使运维人员获知发生部件故障,在上述实施例的基础上,作为一种优选的实施例,在确认故障部件的故障原因为部件供电硬件故障之后,还包括:
S18:生成故障部件的故障日志。
S19:输出表征部件供电硬件故障的告警信息。
当发生部件供电硬件故障时,故障部件的控制器无法正常工作,也就无法记录故障数据。因此为了使运维人员获取故障部件发生故障,在具体实施中,在确认故障部件的故障原因为部件供电硬件故障之后,BMC生成故障部件的故障日志,对当前部件发生故障进行记录;进一步输出表征部件供电硬件故障的告警信息,从而提示运维人员需要对故障部件进行维护。
为了更合理地对故障部件进行处置,在上述实施例的基础上,作为一种优选的实施例,在确认部件为故障部件之后,还包括:
S20:判断故障部件是否为服务器的必要部件。若是,则进入步骤S21;若否,则进入步骤S22。
S21:禁止服务器上电开机,输出表征更换故障部件的告警信息;
S22:控制服务器上电开机,设置故障部件不运行。
在具体实施中,在确认部件为故障部件之后,判断故障部件是否为服务器的必要部件。需要注意的是,对于部件是否是服务器的必要部件的判定取决于服务器的工作需求。例如,当服务器的工作需求中不涉及图像处理工作时,服务器中的显卡即为非必要部件;当服务器的工作需求中不涉及网络通讯交互时,服务器中的网卡即为非必要部件。
因此,当确认故障部件为服务器的必要部件时,由于部件故障,无法满足服务器正常的工作需求,此时需要禁止服务器上电开机,输出表征更换故障部件的告警信息,提示运维人员对故障部件进行更换,以保证服务器的工作需求。而当确认故障部件不为服务器的必要部件时,故障部件对服务器工作无影响,此时可以控制服务器上电开机,并通过系统设置故障部件不运行,从而既保证了服务器的工作需求,又对故障部件进行了隔离。以此更合理地实现了对故障部件的处置。
同时,在一些实施例中,当确定各部件的电流值大于对应的电流阈值,且功耗值大于对应的功耗阈值,也就是服务器中各部件均未发生故障时,还可输出服务器可以正常上电开机的提示信息。以此使用户获知可以对服务器开机上电,还可以作为表征服务器部件正常的信息对用户进行提示,以便用户更好地掌握服务器的情况。
此外,在一些实施例中还可将部件在位检测与上述实施例提供的方法进行结合,以实现更加简便、准确的部件故障原因的定位,具体如下:
如图2所示,设置输入输出(I/O)端口扩展器(例如PCA9555)于BMC和各部件之间,通过I2C总线进行连接。BMC能够通过输入输出端口扩展器得到各部件的在位信号PRSNT_N,进而确定部件是否在位:如果部件的在位信号PRSNT_N是低电平,则代表部件在位;如果服务器系统没有识别到部件,但是在位信号PRSNT_N显示部件在位,则定义为部件故障。由上述实施例可知,在确认部件故障之后,可获取故障部件的功耗值和对应控制器的工作功耗值,判断故障部件的功耗值是否大于故障部件对应控制器的工作功耗值;若大于,则确认故障部件的故障原因为总线数据传输故障,若不大于,则确认故障部件的故障原因为部件供电硬件故障。以此,实现了部件在位检测与故障原因确定方法的结合,能够更加快捷准确地定位部件故障原因。
在上述实施例中,对于故障原因确定方法进行了详细描述,本发明还提供故障原因确定装置对应的实施例。
图3为本发明实施例提供的一种故障原因确定装置的示意图。装置应用于基板管理控制器;如图3所示,故障原因确定装置包括:
获取模块10,用于获取服务器内各部件的电流值和功耗值。
第一判断模块11,用于判断各部件是否电流值不大于对应的电流阈值,且功耗值不大于对应的功耗阈值;若部件的电流值不大于对应的电流阈值,且功耗值不大于对应的功耗阈值,则触发第一确认模块12。
第一确认模块12,用于确认部件为故障部件,并触发第二判断模块13。
第二判断模块13,用于判断故障部件的功耗值是否大于故障部件对应控制器的工作功耗值;若功耗值大于工作功耗值,则触发第二确认模块14,若功耗值不大于工作功耗值,则触发第三确认模块15。
第二确认模块14,用于确认故障部件的故障原因为总线数据传输故障。
第三确认模块15,用于确认故障部件的故障原因为部件供电硬件故障。
作为一种优选的实施例,获取模块包括:
电压获取模块,用于通过电流功耗监控芯片获取各部件的供电线路上的精密电阻两端的电压值;
电流功耗信息获取模块,用于分别根据各电压值和对应精密电阻的电阻值获取对应的部件的电流值和功耗值。
作为一种优选的实施例,还包括:
阈值获取模块,用于在判断各部件是否电流值不大于对应的电流阈值,且功耗值不大于对应的功耗阈值之前,获取预先存储于带电可擦可编程只读存储器中的各部件对应的电流阈值和功耗阈值。
作为一种优选的实施例,还包括:
第一故障日志生成模块,用于在确认故障部件的故障原因为总线数据传输故障之后,生成故障部件的故障日志;
读取模块,用于读取故障部件对应的控制器记录的故障数据,以查看故障原因。
作为一种优选的实施例,还包括:
第二故障日志生成模块,用于在确认故障部件的故障原因为部件供电硬件故障之后,生成故障部件的故障日志;
供电硬件故障告警模块,用于输出表征部件供电硬件故障的告警信息。
作为一种优选的实施例,还包括:
第三判断模块,用于在确认部件为故障部件之后,判断故障部件是否为服务器的必要部件;若是,则触发禁止模块,若否,则触发控制模块。
禁止模块,用于禁止服务器上电开机,输出表征更换故障部件的告警信息;
控制模块,用于控制服务器上电开机,设置故障部件不运行。
作为一种优选的实施例,还包括:
上电提示模块,用于当确定各部件的电流值大于对应的电流阈值,且功耗值大于对应的功耗阈值时,输出服务器可以正常上电开机的提示信息。
本实施例中,故障原因确定装置包括获取模块、第一判断模块、第一确认模块、第二判断模块、第二确认模块和第三确认模块。故障原因确定装置在运行时能够实现故障原因确定方法的全部步骤。通过获取服务器内各部件的电流值和功耗值;判断各部件是否电流值不大于对应的电流阈值,且功耗值不大于对应的功耗阈值;若部件的电流值不大于对应的电流阈值,且功耗值不大于对应的功耗阈值,则确认部件为故障部件,并判断故障部件的功耗值是否大于故障部件对应控制器的工作功耗值;若功耗值大于工作功耗值,则确认故障部件的故障原因为总线数据传输故障;若功耗值不大于工作功耗值,则确认故障部件的故障原因为部件供电硬件故障。由此可知,上述方案首先将各部件的电流值与功耗值分别与对应的阈值进行比较,以判断部件是否发生故障,实现了故障部件的定位;进一步将故障部件的功耗值与其控制器的工作功耗值进行比较,以确定故障部件是总线数据传输故障还是部件供电硬件故障,实现了故障部件的故障原因和故障类型的定位,从而使运维人员及时定位部件故障原因并进行相应地维护处理,大大提高了服务器运维效率。
图4为本发明实施例提供的一种故障原因确定设备的示意图。如图4所示,故障原因确定设备包括:
存储器20,用于存储计算机程序。
处理器21,用于执行计算机程序时实现如上述实施例中所提到的故障原因确定方法的步骤。
本实施例提供的故障原因确定设备可以包括但不限于智能手机、平板电脑、笔记本电脑或台式电脑等。
其中,处理器21可以包括一个或多个处理核心,比如4核心处理器、8核心处理器等。处理器21可以采用数字信号处理器(Digital Signal Processor,DSP)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)、可编程逻辑阵列(Programmable LogicArray,PLA)中的至少一种硬件形式来实现。处理器21也可以包括主处理器和协处理器,主处理器是用于对在唤醒状态下的数据进行处理的处理器,也称中央处理器(CentralProcessing Unit,CPU);协处理器是用于对在待机状态下的数据进行处理的低功耗处理器。在一些实施例中,处理器21可以在集成有图形处理器(Graphics Processing Unit,GPU),GPU用于负责显示屏所需要显示的内容的渲染和绘制。一些实施例中,处理器21还可以包括人工智能(Artificial Intelligence,AI)处理器,该AI处理器用于处理有关机器学习的计算操作。
存储器20可以包括一个或多个计算机可读存储介质,该计算机可读存储介质可以是非暂态的。存储器20还可包括高速随机存取存储器,以及非易失性存储器,比如一个或多个磁盘存储设备、闪存存储设备。本实施例中,存储器20至少用于存储以下计算机程序201,其中,该计算机程序被处理器21加载并执行之后,能够实现前述任一实施例公开的故障原因确定方法的相关步骤。另外,存储器20所存储的资源还可以包括操作系统202和数据203等,存储方式可以是短暂存储或者永久存储。其中,操作系统202可以包括Windows、Unix、Linux等。数据203可以包括但不限于故障原因确定方法涉及到的数据。
在一些实施例中,故障原因确定设备还可包括有显示屏22、输入输出接口23、通信接口24、电源25以及通信总线26。
本领域技术人员可以理解,图4中示出的结构并不构成对故障原因确定设备的限定,可以包括比图示更多或更少的组件。
本实施例中,故障原因确定设备包括存储器和处理器。存储器用于存储计算机程序。处理器用于执行计算机程序时实现如上述实施例中所提到的故障原因确定方法的步骤。通过获取服务器内各部件的电流值和功耗值;判断各部件是否电流值不大于对应的电流阈值,且功耗值不大于对应的功耗阈值;若部件的电流值不大于对应的电流阈值,且功耗值不大于对应的功耗阈值,则确认部件为故障部件,并判断故障部件的功耗值是否大于故障部件对应控制器的工作功耗值;若功耗值大于工作功耗值,则确认故障部件的故障原因为总线数据传输故障;若功耗值不大于工作功耗值,则确认故障部件的故障原因为部件供电硬件故障。由此可知,上述方案首先将各部件的电流值与功耗值分别与对应的阈值进行比较,以判断部件是否发生故障,实现了故障部件的定位;进一步将故障部件的功耗值与其控制器的工作功耗值进行比较,以确定故障部件是总线数据传输故障还是部件供电硬件故障,实现了故障部件的故障原因和故障类型的定位,从而使运维人员及时定位部件故障原因并进行相应地维护处理,大大提高了服务器运维效率。
最后,本发明还提供一种计算机可读存储介质对应的实施例。计算机可读存储介质上存储有计算机程序,计算机程序被处理器执行时实现如上述方法实施例中记载的步骤。
可以理解的是,如果上述实施例中的方法以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(Read-Only Memory,ROM)、随机存取存储器(Random Access Memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
本实施例中,计算机可读存储介质上存储有计算机程序,计算机程序被处理器执行时实现如上述方法实施例中记载的步骤。通过获取服务器内各部件的电流值和功耗值;判断各部件是否电流值不大于对应的电流阈值,且功耗值不大于对应的功耗阈值;若部件的电流值不大于对应的电流阈值,且功耗值不大于对应的功耗阈值,则确认部件为故障部件,并判断故障部件的功耗值是否大于故障部件对应控制器的工作功耗值;若功耗值大于工作功耗值,则确认故障部件的故障原因为总线数据传输故障;若功耗值不大于工作功耗值,则确认故障部件的故障原因为部件供电硬件故障。由此可知,上述方案首先将各部件的电流值与功耗值分别与对应的阈值进行比较,以判断部件是否发生故障,实现了故障部件的定位;进一步将故障部件的功耗值与其控制器的工作功耗值进行比较,以确定故障部件是总线数据传输故障还是部件供电硬件故障,实现了故障部件的故障原因和故障类型的定位,从而使运维人员及时定位部件故障原因并进行相应地维护处理,大大提高了服务器运维效率。
以上对本发明所提供的一种故障原因确定方法、装置、设备及介质进行了详细介绍。说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以对本发明进行若干改进和修饰,这些改进和修饰也落入本发明权利要求的保护范围内。
还需要说明的是,在本说明书中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

Claims (10)

1.一种故障原因确定方法,其特征在于,应用于基板管理控制器;所述方法包括:
获取服务器内各部件的电流值和功耗值;
判断各所述部件是否所述电流值不大于对应的电流阈值,且所述功耗值不大于对应的功耗阈值;
若所述部件的所述电流值不大于对应的所述电流阈值,且所述功耗值不大于对应的所述功耗阈值,则确认所述部件为故障部件,并判断所述故障部件的所述功耗值是否大于所述故障部件对应控制器的工作功耗值;
若所述功耗值大于所述工作功耗值,则确认所述故障部件的故障原因为总线数据传输故障;
若所述功耗值不大于所述工作功耗值,则确认所述故障部件的故障原因为部件供电硬件故障。
2.根据权利要求1所述的故障原因确定方法,其特征在于,所述获取服务器内各部件的电流值和功耗值包括:
通过电流功耗监控芯片获取各所述部件的供电线路上的精密电阻两端的电压值;
分别根据各所述电压值和对应所述精密电阻的电阻值获取对应的所述部件的所述电流值和所述功耗值。
3.根据权利要求1所述的故障原因确定方法,其特征在于,在所述判断各所述部件是否所述电流值不大于对应的电流阈值,且所述功耗值不大于对应的功耗阈值之前,还包括:
获取预先存储于带电可擦可编程只读存储器中的各所述部件对应的所述电流阈值和所述功耗阈值。
4.根据权利要求1所述的故障原因确定方法,其特征在于,在所述确认所述故障部件的故障原因为总线数据传输故障之后,还包括:
生成所述故障部件的故障日志;
读取所述故障部件对应的所述控制器记录的故障数据,以查看所述故障原因。
5.根据权利要求1所述的故障原因确定方法,其特征在于,在所述确认所述故障部件的故障原因为部件供电硬件故障之后,还包括:
生成所述故障部件的故障日志;
输出表征部件供电硬件故障的告警信息。
6.根据权利要求1至5任意一项所述的故障原因确定方法,其特征在于,在所述确认所述部件为故障部件之后,还包括:
判断所述故障部件是否为所述服务器的必要部件;
若是,则禁止所述服务器上电开机,输出表征更换所述故障部件的告警信息;
若否,则控制所述服务器上电开机,设置所述故障部件不运行。
7.根据权利要求6所述的故障原因确定方法,其特征在于,当确定各所述部件的所述电流值大于对应的所述电流阈值,且所述功耗值大于对应的所述功耗阈值时,还包括:
输出所述服务器可以正常上电开机的提示信息。
8.一种故障原因确定装置,其特征在于,应用于基板管理控制器;所述装置包括:
获取模块,用于获取服务器内各部件的电流值和功耗值;
第一判断模块,用于判断各所述部件是否所述电流值不大于对应的电流阈值,且所述功耗值不大于对应的功耗阈值;若所述部件的所述电流值不大于对应的所述电流阈值,且所述功耗值不大于对应的所述功耗阈值,则触发第一确认模块;
所述第一确认模块,用于确认所述部件为故障部件,并触发第二判断模块;
所述第二判断模块,用于判断所述故障部件的所述功耗值是否大于所述故障部件对应控制器的工作功耗值;若所述功耗值大于所述工作功耗值,则触发第二确认模块,若所述功耗值不大于所述工作功耗值,则触发第三确认模块;
所述第二确认模块,用于确认所述故障部件的故障原因为总线数据传输故障;
所述第三确认模块,用于确认所述故障部件的故障原因为部件供电硬件故障。
9.一种故障原因确定设备,其特征在于,包括:
存储器,用于存储计算机程序;
处理器,用于执行所述计算机程序时实现如权利要求1至7任一项所述的故障原因确定方法的步骤。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1至7任一项所述的故障原因确定方法的步骤。
CN202310796858.2A 2023-06-30 2023-06-30 一种故障原因确定方法、装置、设备及介质 Pending CN116820823A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310796858.2A CN116820823A (zh) 2023-06-30 2023-06-30 一种故障原因确定方法、装置、设备及介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310796858.2A CN116820823A (zh) 2023-06-30 2023-06-30 一种故障原因确定方法、装置、设备及介质

Publications (1)

Publication Number Publication Date
CN116820823A true CN116820823A (zh) 2023-09-29

Family

ID=88128964

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310796858.2A Pending CN116820823A (zh) 2023-06-30 2023-06-30 一种故障原因确定方法、装置、设备及介质

Country Status (1)

Country Link
CN (1) CN116820823A (zh)

Similar Documents

Publication Publication Date Title
CN111324192A (zh) 一种系统板卡电源检测方法、装置、设备及存储介质
CN114003538B (zh) 一种智能网卡的识别方法及智能网卡
US8286034B2 (en) Accurate fault status tracking of variable access sensors
CN116107819A (zh) 一种服务器启动故障检测系统、方法、装置以及介质
CN110457907A (zh) 一种固件程序检测方法和装置
CN113672306B (zh) 服务器组件自检异常恢复方法、装置、系统及介质
CN103809988B (zh) 一种信息处理方法及电子设备
CN112834898B (zh) 一种存储设备电源芯片稳定性的测试方法、装置及设备
CN110096882B (zh) 一种设备运行过程中的安全度量方法
CN112783721B (zh) 一种i2c总线监控的方法、装置、系统及存储介质
CN112670948B (zh) 一种板卡保护方法、系统及装置
US20070005860A1 (en) Interrupt control system and method
CN117251333A (zh) 一种硬盘信息获取方法、装置、设备及存储介质
CN116820823A (zh) 一种故障原因确定方法、装置、设备及介质
CN113272785B (zh) 一种挂载文件系统的方法、终端设备及存储介质
CN110968456B (zh) 分布式存储系统中故障磁盘的处理方法及装置
CN108984330B (zh) 一种控制存储设备的方法、装置及电子设备
CN105378586A (zh) 确定电源模块的故障状态
CN111176958A (zh) 信息监测方法、系统和存储介质
CN110248181A (zh) 外接设备自复位方法、装置、系统和计算机可读介质
CN109634796A (zh) 一种计算机的故障诊断方法、装置及系统
CN112732498B (zh) 模拟设备单点上下电的测试方法、装置、设备及存储介质
CN113254304A (zh) 一种服务器关机类型的确定方法、服务器及存储介质
CN111399871A (zh) 一种hba卡的系统更新方法、装置、设备及介质
CN113625855B (zh) 一种服务器系统的电源控制方法、系统、介质及设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination