CN109240863A - 一种cpu故障定位方法、装置、设备及存储介质 - Google Patents

一种cpu故障定位方法、装置、设备及存储介质 Download PDF

Info

Publication number
CN109240863A
CN109240863A CN201811002320.5A CN201811002320A CN109240863A CN 109240863 A CN109240863 A CN 109240863A CN 201811002320 A CN201811002320 A CN 201811002320A CN 109240863 A CN109240863 A CN 109240863A
Authority
CN
China
Prior art keywords
cpu
fault
status information
current
device status
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201811002320.5A
Other languages
English (en)
Inventor
靳先奇
乔英良
颜伟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhengzhou Yunhai Information Technology Co Ltd
Original Assignee
Zhengzhou Yunhai Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhengzhou Yunhai Information Technology Co Ltd filed Critical Zhengzhou Yunhai Information Technology Co Ltd
Priority to CN201811002320.5A priority Critical patent/CN109240863A/zh
Publication of CN109240863A publication Critical patent/CN109240863A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/22Detection or location of defective computer hardware by testing during standby operation or during idle time, e.g. start-up testing
    • G06F11/2205Detection or location of defective computer hardware by testing during standby operation or during idle time, e.g. start-up testing using arrangements specific to the hardware being tested
    • G06F11/2236Detection or location of defective computer hardware by testing during standby operation or during idle time, e.g. start-up testing using arrangements specific to the hardware being tested to test CPU or processors

Landscapes

  • Engineering & Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Hardware Design (AREA)
  • Quality & Reliability (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Debugging And Monitoring (AREA)

Abstract

本发明公开了一种CPU故障定位方法,应用于服务器BMC,该方法包括以下步骤:在监测到CPU发生故障时,确定当前故障的故障类型;抓取与故障类型相关的当前设备状态信息;将当前设备状态信息存储到设定存储位置,以基于当前设备状态信息对CPU故障进行分析定位。应用本发明实施例所提供的技术方案,BMC及时抓取CPU发生故障时的设备状态信息,使得运维人员可以基于当前设备状态信息对CPU故障进行分析定位,可以提高定位准确性,提高故障分析的可行性和服务器运行的安全性。本发明还公开了一种CPU故障定位装置、设备及存储介质,具有相应技术效果。

Description

一种CPU故障定位方法、装置、设备及存储介质
技术领域
本发明涉及计算机应用技术领域,特别是涉及一种CPU故障定位方法、装置、设备及存储介质。
背景技术
随着计算机技术的快速发展,大数据、云服务被关注程度越来越高,各大运营商及众多互联网企业对服务器数量的需求逐年增长,对服务器性能的要求也是越来越高。在服务器CPU(Central Processing Unit,中央处理器)运行过程中,可能会发生故障,如何对故障进行准确定位,成为提高服务器性能的技术手段之一。
目前,CPU发生故障时,会将告警信息发送给BMC(Baseboard ManagementController,基板管理控制器),BMC再将告警信息发送给告警服务器。运维人员通过告警服务器获取到告警信息后,对故障进行分析定位。
但是,因为CPU告警类型较多,有些告警持续时间较短,当故障发生后,运维人员获取到告警信息对其进行分析时,现象大都已经消失,无法获取到更多有效信息进行分析,使得故障定位准确性较低、难度较大。
发明内容
本发明的目的是提供一种CPU故障定位方法、装置、设备及存储介质,以对CPU故障进行准确定位,提高故障分析的可行性和服务器运行的安全性。
为解决上述技术问题,本发明提供如下技术方案:
一种CPU故障定位方法,应用于服务器BMC,所述方法包括:
在监测到CPU发生故障时,确定当前故障的故障类型;
抓取与所述故障类型相关的当前设备状态信息;
将所述当前设备状态信息存储到设定存储位置,以基于所述当前设备状态信息对CPU故障进行分析定位。
在本发明的一种具体实施方式中,还包括:
在监测所述CPU的过程中,如果接收到所述CPU的告警信息,则确定所述CPU发生故障。
在本发明的一种具体实施方式中,还包括:
基于所述当前故障的告警信息及所述当前设备状态信息,生成故障日志;
将所述故障日志保存到本地日志文件中。
在本发明的一种具体实施方式中,还包括:
将所述故障日志上报给远程日志服务器。
在本发明的一种具体实施方式中,所述当前设备状态信息至少包括当前CPU寄存器信息、当前CPU温度信息和当前CPU电压信息。
一种CPU故障定位装置,应用于服务器BMC,所述装置包括:
故障类型确定模块,用于在监测到CPU发生故障时,确定当前故障的故障类型;
状态信息抓取模块,用于抓取与所述故障类型相关的当前设备状态信息;
状态信息存储模块,用于将所述当前设备状态信息存储到设定存储位置,以基于所述当前设备状态信息对CPU故障进行分析定位。
在本发明的一种具体实施方式中,还包括:
故障确定模块,用于在监测所述CPU的过程中,如果接收到所述CPU的告警信息,则确定所述CPU发生故障。
在本发明的一种具体实施方式中,还包括:
故障日志生成模块,用于基于所述当前故障的告警信息及所述当前设备状态信息,生成故障日志;
故障日志保存模块,用于将所述故障日志保存到本地日志文件中;
故障日志上报模块,用于将所述故障日志上报给远程日志服务器。
一种CPU故障定位设备,应用于服务器BMC,包括:
存储器,用于存储计算机程序;
处理器,用于执行所述计算机程序时实现上述任一项所述CPU故障定位方法的步骤。
一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现上述任一项所述CPU故障定位方法的步骤。
应用本发明实施例所提供的技术方案,服务器BMC在监测到CPU发生故障时,确定当前故障的故障类型,抓取与故障类型相关的当前设备状态信息,将当前设备状态信息存储到设定存储位置,以基于当前设备状态信息对CPU故障进行分析定位。BMC及时抓取CPU发生故障时的设备状态信息,使得运维人员可以基于当前设备状态信息对CPU故障进行分析定位,可以提高定位准确性,提高故障分析的可行性和服务器运行的安全性。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例中一种CPU故障定位方法的实施流程图;
图2为本发明实施例中一种CPU故障定位装置的结构示意图;
图3为本发明实施例中一种CPU故障定位设备的结构示意图。
具体实施方式
为了使本技术领域的人员更好地理解本发明方案,下面结合附图和具体实施方式对本发明作进一步的详细说明。显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明的核心是提供一种CPU故障定位方法,该方法可以应用于服务器BMC,BMC可以对服务器的CPU进行管理。在监测到CPU发生故障时,将抓取到的当前设备状态信息存储到设定存储位置,以使运维人员获取到CPU故障发生的第一时间的设备状态信息,并基于该设备状态信息对CPU故障进行分析定位,提高定位准确性。
参见图1所示,为本发明实施例所提供的一种CPU故障定位方法,该方法可以包括以下步骤:
S110:在监测到CPU发生故障时,确定当前故障的故障类型。
在CPU运行过程中,BMC可以对CPU的运行状态进行监测。在监测CPU的过程中,如果接收到CPU的告警信息,则可以确定CPU发生故障。
在实际应用中,CPU发生故障时,会向BMC发送相应的告警信息,在告警信息中可以携带故障类型信息。BMC接收到CPU发送的告警信息,即可确定CPU发生了故障,在这种情况下,可以先确定当前故障的故障类型。
CPU的故障类型可以包括指令相关故障、计数相关故障、程序相关故障等。
S120:抓取与故障类型相关的当前设备状态信息。
BMC在监测到CPU发生故障,并确定当前故障的故障类型后,即可抓取与该故障类型相关的当前设备状态信息,以获取到CPU发生故障的第一时间的设备状态信息。当前设备状态信息至少包括当前CPU寄存器信息、当前CPU温度信息和当前CPU电压信息。还可以包括当前CPU处理业务信息、当前CPU占用率信息等。
如故障类型为指令相关故障,则可以抓取当前CPU中指令寄存器信息、当前CPU温度信息和当前CPU电压信息等;如故障类型为计数相关故障,则可以抓取当前CPU中计数寄存器信息、当前CPU温度信息和当前CPU电压信息等。
不同故障类型对应于不同的设备状态信息,可以预先设定相应的对应关系,并下发给BMC,BMC在确定CPU发生故障的故障类型时,根据该对应关系可以获知当前故障的故障类型对应哪些设备状态信息,并进行相应的抓取操作。
S130:将当前设备状态信息存储到设定存储位置,以基于当前设备状态信息对CPU故障进行分析定位。
在本发明实施例中,BMC抓取到与故障类型相关的当前设备状态信息后,可以将抓取到的当前设备状态信息存储到设定存储位置,如存储到黑盒日志中,为故障的分析及解决保留重要的数据信息。运维人员在该存储位置可以获取到CPU发生故障时的设备状态信息,基于当前设备状态信息可以对CPU故障进行分析定位,有利于CPU故障的及时诊断解决。
应用本发明实施例所提供的方法,服务器BMC在监测到CPU发生故障时,确定当前故障的故障类型,抓取与故障类型相关的当前设备状态信息,将当前设备状态信息存储到设定存储位置,以基于当前设备状态信息对CPU故障进行分析定位。BMC及时抓取CPU发生故障时的设备状态信息,使得运维人员可以基于当前设备状态信息对CPU故障进行分析定位,可以提高定位准确性,提高故障分析的可行性和服务器运行的安全性。
在本发明的一个实施例中,该方法还可以包括以下步骤:
步骤一:基于当前故障的告警信息及当前设备状态信息,生成故障日志;
步骤二:将故障日志保存到本地日志文件中。
为便于描述,将上述两个步骤结合起来进行说明。
BMC抓取到与故障类型相关的当前设备状态信息后,可以基于当前故障的告警信息及当前设备状态信息,生成故障日志,在故障日志中记录相关信息。
将故障日志保存到本地日志文件中,后续运维人员通过查询本地日志文件可以获取到相关故障日志。
在本发明的一个实施例中,该方法还可以包括以下步骤:
将故障日志上报给远程日志服务器。
在服务器集群中,每个服务器可以将故障日志上报给远程日志服务器,远程日志服务器存储各个服务器上报的故障日志,方便运维人员对各个服务器的故障日志进行联合分析,定位问题。
相应于上面的方法实施例,本发明实施例还提供了一种CPU故障定位装置,应用于服务器BMC,下文描述的一种CPU故障定位装置与上文描述的一种CPU故障定位方法可相互对应参照。
参见图2所示,该装置包括以下模块:
故障类型确定模块210,用于在监测到CPU发生故障时,确定当前故障的故障类型;
状态信息抓取模块220,用于抓取与故障类型相关的当前设备状态信息;
状态信息存储模块230,用于将当前设备状态信息存储到设定存储位置,以基于当前设备状态信息对CPU故障进行分析定位。
应用本发明实施例所提供的装置,服务器BMC在监测到CPU发生故障时,确定当前故障的故障类型,抓取与故障类型相关的当前设备状态信息,将当前设备状态信息存储到设定存储位置,以基于当前设备状态信息对CPU故障进行分析定位。BMC及时抓取CPU发生故障时的设备状态信息,使得运维人员可以基于当前设备状态信息对CPU故障进行分析定位,可以提高定位准确性,提高故障分析的可行性和服务器运行的安全性。
在本发明的一种具体实施方式中,还包括:
故障确定模块,用于在监测CPU的过程中,如果接收到CPU的告警信息,则确定CPU发生故障。
在本发明的一种具体实施方式中,还包括:
故障日志生成模块,用于基于当前故障的告警信息及当前设备状态信息,生成故障日志;
故障日志保存模块,用于将故障日志保存到本地日志文件中。
在本发明的一种具体实施方式中,还包括:
故障日志上报模块,用于将故障日志上报给远程日志服务器。
在本发明的一种具体实施方式中,当前设备状态信息至少包括当前CPU寄存器信息、当前CPU温度信息和当前CPU电压信息。
相应于上面的方法实施例,本发明实施例还提供了一种CPU故障定位设备,应用于服务器BMC,参见图3所示,该设备包括:
存储器310,用于存储计算机程序;
处理器320,用于执行计算机程序时实现上述CPU故障定位方法的步骤。
相应于上面的方法实施例,本发明实施例还提供了一种计算机可读存储介质,计算机可读存储介质上存储有计算机程序,计算机程序被处理器执行时实现上述CPU故障定位方法的步骤。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其它实施例的不同之处,各个实施例之间相同或相似部分互相参见即可。
专业人员还可以进一步意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件模块,或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。
本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的技术方案及其核心思想。应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以对本发明进行若干改进和修饰,这些改进和修饰也落入本发明权利要求的保护范围内。

Claims (10)

1.一种CPU故障定位方法,其特征在于,应用于服务器BMC,所述方法包括:
在监测到CPU发生故障时,确定当前故障的故障类型;
抓取与所述故障类型相关的当前设备状态信息;
将所述当前设备状态信息存储到设定存储位置,以基于所述当前设备状态信息对CPU故障进行分析定位。
2.根据权利要求1所述的CPU故障定位方法,其特征在于,还包括:
在监测所述CPU的过程中,如果接收到所述CPU的告警信息,则确定所述CPU发生故障。
3.根据权利要求2所述的CPU故障定位方法,其特征在于,还包括:
基于所述当前故障的告警信息及所述当前设备状态信息,生成故障日志;
将所述故障日志保存到本地日志文件中。
4.根据权利要求3所述的CPU故障定位方法,其特征在于,还包括:
将所述故障日志上报给远程日志服务器。
5.根据权利要求1至4之中任一项所述的CPU故障定位方法,其特征在于,所述当前设备状态信息至少包括当前CPU寄存器信息、当前CPU温度信息和当前CPU电压信息。
6.一种CPU故障定位装置,其特征在于,应用于服务器BMC,所述装置包括:
故障类型确定模块,用于在监测到CPU发生故障时,确定当前故障的故障类型;
状态信息抓取模块,用于抓取与所述故障类型相关的当前设备状态信息;
状态信息存储模块,用于将所述当前设备状态信息存储到设定存储位置,以基于所述当前设备状态信息对CPU故障进行分析定位。
7.根据权利要求6所述的CPU故障定位装置,其特征在于,还包括:
故障确定模块,用于在监测所述CPU的过程中,如果接收到所述CPU的告警信息,则确定所述CPU发生故障。
8.根据权利要求7所述的CPU故障定位装置,其特征在于,还包括:
故障日志生成模块,用于基于所述当前故障的告警信息及所述当前设备状态信息,生成故障日志;
故障日志保存模块,用于将所述故障日志保存到本地日志文件中;
故障日志上报模块,用于将所述故障日志上报给远程日志服务器。
9.一种CPU故障定位设备,其特征在于,应用于服务器BMC,包括:
存储器,用于存储计算机程序;
处理器,用于执行所述计算机程序时实现如权利要求1至5任一项所述CPU故障定位方法的步骤。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1至5任一项所述CPU故障定位方法的步骤。
CN201811002320.5A 2018-08-30 2018-08-30 一种cpu故障定位方法、装置、设备及存储介质 Pending CN109240863A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811002320.5A CN109240863A (zh) 2018-08-30 2018-08-30 一种cpu故障定位方法、装置、设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811002320.5A CN109240863A (zh) 2018-08-30 2018-08-30 一种cpu故障定位方法、装置、设备及存储介质

Publications (1)

Publication Number Publication Date
CN109240863A true CN109240863A (zh) 2019-01-18

Family

ID=65068161

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811002320.5A Pending CN109240863A (zh) 2018-08-30 2018-08-30 一种cpu故障定位方法、装置、设备及存储介质

Country Status (1)

Country Link
CN (1) CN109240863A (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110427303A (zh) * 2019-07-30 2019-11-08 新华三技术有限公司成都分公司 一种故障告警方法及装置
CN110502394A (zh) * 2019-08-08 2019-11-26 苏州浪潮智能科技有限公司 服务器故障处理方法、装置、可读存储介质及bmc
CN111314115A (zh) * 2020-01-19 2020-06-19 苏州浪潮智能科技有限公司 一种基于idl日志的告警方法、装置、设备及可读介质
CN111581058A (zh) * 2020-05-09 2020-08-25 西安易朴通讯技术有限公司 故障管理方法、装置、设备及计算机可读存储介质
CN113076210A (zh) * 2021-03-26 2021-07-06 山东英信计算机技术有限公司 服务器故障诊断结果通知方法、系统、终端及存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012079266A (ja) * 2010-10-06 2012-04-19 Nec Computertechno Ltd 情報処理装置、故障部位判別方法および故障部位判別プログラム
CN108010559A (zh) * 2017-12-20 2018-05-08 郑州云海信息技术有限公司 一种存储设备告警系统及方法
CN108280011A (zh) * 2018-01-16 2018-07-13 北京小米移动软件有限公司 日志抓取方法及装置
CN108287775A (zh) * 2018-03-01 2018-07-17 郑州云海信息技术有限公司 一种服务器故障检测的方法、装置、设备及存储介质
CN108388489A (zh) * 2018-02-27 2018-08-10 郑州云海信息技术有限公司 一种服务器故障诊断方法、系统、设备及存储介质

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012079266A (ja) * 2010-10-06 2012-04-19 Nec Computertechno Ltd 情報処理装置、故障部位判別方法および故障部位判別プログラム
CN108010559A (zh) * 2017-12-20 2018-05-08 郑州云海信息技术有限公司 一种存储设备告警系统及方法
CN108280011A (zh) * 2018-01-16 2018-07-13 北京小米移动软件有限公司 日志抓取方法及装置
CN108388489A (zh) * 2018-02-27 2018-08-10 郑州云海信息技术有限公司 一种服务器故障诊断方法、系统、设备及存储介质
CN108287775A (zh) * 2018-03-01 2018-07-17 郑州云海信息技术有限公司 一种服务器故障检测的方法、装置、设备及存储介质

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110427303A (zh) * 2019-07-30 2019-11-08 新华三技术有限公司成都分公司 一种故障告警方法及装置
CN110502394A (zh) * 2019-08-08 2019-11-26 苏州浪潮智能科技有限公司 服务器故障处理方法、装置、可读存储介质及bmc
CN111314115A (zh) * 2020-01-19 2020-06-19 苏州浪潮智能科技有限公司 一种基于idl日志的告警方法、装置、设备及可读介质
CN111581058A (zh) * 2020-05-09 2020-08-25 西安易朴通讯技术有限公司 故障管理方法、装置、设备及计算机可读存储介质
CN111581058B (zh) * 2020-05-09 2024-03-19 西安易朴通讯技术有限公司 故障管理方法、装置、设备及计算机可读存储介质
CN113076210A (zh) * 2021-03-26 2021-07-06 山东英信计算机技术有限公司 服务器故障诊断结果通知方法、系统、终端及存储介质

Similar Documents

Publication Publication Date Title
CN109240863A (zh) 一种cpu故障定位方法、装置、设备及存储介质
US11657309B2 (en) Behavior analysis and visualization for a computer infrastructure
CN110224894B (zh) 一种智能变电站过程层网络监测管理系统
US9672085B2 (en) Adaptive fault diagnosis
JP6025753B2 (ja) パフォーマンス・メトリックを監視するためのコンピュータによって実施される方法、コンピュータ可読記憶媒体、およびシステム
US8892960B2 (en) System and method for determining causes of performance problems within middleware systems
CN106130786B (zh) 一种网络故障的检测方法及装置
CN109412870A (zh) 告警监控方法及平台、服务器、存储介质
CN104022904B (zh) 分布式机房it设备统一管理平台
US10489711B1 (en) Method and apparatus for predictive behavioral analytics for IT operations
CN109947616A (zh) 一种基于OpenStack技术的云操作系统的自动化监控运维系统
CN114500250B (zh) 一种云模式下体系联动的综合运维系统及方法
CN103716173A (zh) 一种存储监控系统及监控告警发布的方法
CN109034423A (zh) 一种故障预警判定的方法、装置、设备及存储介质
CN104574219A (zh) 电网业务信息系统运行工况的监测预警方法及系统
CN112380089A (zh) 一种数据中心监控预警方法及系统
CN114024834A (zh) 故障定位方法、装置、电子设备及可读存储介质
CN112596975A (zh) 对网络设备进行监控处理的方法、系统、设备和存储介质
CN107635003A (zh) 系统日志的管理方法、装置及系统
CN111488258A (zh) 一种用于软硬件运行状态分析与预警的系统
CN114356499A (zh) Kubernetes集群告警根因分析方法及装置
CN106911519A (zh) 一种数据采集监控方法及装置
CN111124830A (zh) 一种微服务的监控方法及装置
CN108199901A (zh) 硬件报修方法、系统、设备、硬件管理服务器与存储介质
CN108287774A (zh) 一种服务器的故障诊断方法、装置、设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20190118