CN109960638A - Bmc启动原因记录方法、系统、装置及可读存储介质 - Google Patents

Bmc启动原因记录方法、系统、装置及可读存储介质 Download PDF

Info

Publication number
CN109960638A
CN109960638A CN201910313334.7A CN201910313334A CN109960638A CN 109960638 A CN109960638 A CN 109960638A CN 201910313334 A CN201910313334 A CN 201910313334A CN 109960638 A CN109960638 A CN 109960638A
Authority
CN
China
Prior art keywords
bmc
reason
value
starting
register
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
CN201910313334.7A
Other languages
English (en)
Inventor
王成威
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Suzhou Wave Intelligent Technology Co Ltd
Original Assignee
Suzhou Wave Intelligent Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Suzhou Wave Intelligent Technology Co Ltd filed Critical Suzhou Wave Intelligent Technology Co Ltd
Priority to CN201910313334.7A priority Critical patent/CN109960638A/zh
Publication of CN109960638A publication Critical patent/CN109960638A/zh
Withdrawn legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/079Root cause analysis, i.e. error or fault diagnosis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/34Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment
    • G06F11/3466Performance evaluation by tracing or monitoring
    • G06F11/3476Data logging

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Quality & Reliability (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Computer Hardware Design (AREA)
  • Stored Programmes (AREA)

Abstract

本申请公开了一种BMC启动原因记录方法,包括:获取用于记录BMC故障信息的寄存器的目标位的value值及寄存器内部的目标文件;根据value值和目标文件得到对应的BMC启动原因;将启动原因存储到syslog中。在实际应用中,采用本申请的方案,当BMC启动时,根据相应的寄存器的目标位和目标文件判断BMC的重启原因,并记录至syslog日志中,在定位BMC故障时,有效减少时间成本和人力成本。本申请还公开了一种BMC启动原因记录系统、装置及可读存储介质,具有和上述BMC启动原因记录方法相同的有益效果。

Description

BMC启动原因记录方法、系统、装置及可读存储介质
技术领域
本申请涉及BMC领域,特别是涉及一种BMC启动原因记录方法、系统、装置及可读存储介质。
背景技术
基板管理控制器(Baseboard Management Controller,简称BMC)是服务器特有的管理控制器,BMC异常重启主要有以下三种,分别为BMC异常掉电启动、BMC IPMI(Intelligent Platform Management Interface,智能平台管理接口)命令重启、BMC内部主进程异常触发watchdog(看门狗)重启,当BMC重启后再次运行时,目前BMC的重启记录只包括重启次数,运维人员无法确定BMC的重启原因,在后续对BMC进行故障定位时,难度较大,浪费大量时间成本和人力成本。
因此,如何提供一种解决上述技术问题的方案是本领域技术人员目前需要解决的问题。
发明内容
本申请的目的是提供一种BMC启动原因记录方法、系统、装置及可读存储介质,当BMC启动时,根据相应的寄存器的目标位和目标文件判断BMC的重启原因,并记录至syslog日志中,在定位BMC故障时,有效减少时间成本和人力成本。
为解决上述技术问题,本申请提供了一种BMC启动原因记录方法,包括:
获取用于记录BMC故障信息的寄存器的目标位的value值及所述寄存器内部的目标文件;
根据所述value值和所述目标文件得到对应的BMC启动原因;
将所述启动原因存储到syslog中。
优选的,所述将所述启动原因存储到syslog中之后,该BMC启动原因记录方法还包括:
将所述启动原因上传至日志服务器。
优选的,所述根据所述value值和所述目标文件得到对应的BMC启动原因的过程具体为:
当所述value值和默认值相同时,判断所述寄存器中是否存在所述目标文件,若是,则判定所述BMC启动原因为BMC异常掉电后重启,若否,则判定所述BMC启动原因为首次启动;
当所述value值和所述默认值不相同时,判断所述目标文件的内部值是否为1,若是,则判定所述BMC启动原因为主进程异常触发watchdog重启;若否,则判定所述BMC启动原因为BMC IPMI命令重启。
优选的,所述将所述启动原因存储到syslog中之后,该BMC启动原因记录方法还包括:
将所述目标文件的内部值清零。
优选的,所述寄存器为Aspeed2500芯片寄存器SPIRA8。
为解决上述技术问题,本申请还提供了一种BMC启动原因记录系统,包括:
获取模块,用于获取用于记录BMC故障信息的寄存器的目标位的value值及所述寄存器内部的目标文件;
原因确定模块,用于根据所述value值和所述目标文件得到对应的BMC启动原因;
存储模块,用于将所述启动原因存储到syslog中。
优选的,该BMC启动原因记录系统还包括:
上传模块,用于将所述启动原因上传至日志服务器。
优选的,所述原因确定模块,具体用于:
当所述value值和默认值相同时,判断所述寄存器中是否存在所述目标文件,若是,则判定所述BMC启动原因为BMC异常掉电后重启,若否,则判定所述BMC启动原因为首次启动;
当所述value值和所述默认值不相同时,判断所述目标文件的内部值是否为1,若是,则判定所述BMC启动原因为主进程异常触发watchdog重启;若否,则判定所述BMC启动原因为BMC IPMI命令重启。
为解决上述技术问题,本申请还提供了一种BMC启动原因记录装置,包括:
存储器,用于存储计算机程序;
处理器,用于执行所述计算机程序时实现如上文任意一项所述BMC启动原因记录方法的步骤。
为解决上述技术问题,本申请还提供了一种可读存储介质,所述可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如上文任意一项所述BMC启动原因记录方法的步骤。
本申请提供了一种BMC启动原因记录方法,包括:获取用于记录BMC故障信息的寄存器的目标位的value值及寄存器内部的目标文件;根据value值和目标文件得到对应的BMC启动原因;将启动原因存储到syslog中。可见,在实际应用中,采用本申请的方案,当BMC启动时,根据相应的寄存器的目标位和目标文件判断BMC的重启原因,并记录至syslog日志中,在定位BMC故障时,有效减少时间成本和人力成本。本申请还提供了一种BMC启动原因记录系统、装置及可读存储介质,具有和上述BMC启动原因记录方法相同的有益效果。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对现有技术和实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本申请所提供的一种BMC启动原因记录方法的步骤流程图;
图2为本申请所提供的一种BMC启动原因记录系统的结构示意图。
具体实施方式
本申请的核心是提供一种BMC启动原因记录方法、系统、装置及可读存储介质,当BMC启动时,根据相应的寄存器的目标位和目标文件判断BMC的重启原因,并记录至syslog日志中,在定位BMC故障时,有效减少时间成本和人力成本。
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
请参照图1,图1为本申请所提供的一种BMC启动原因记录方法的步骤流程图,包括:
步骤1:获取用于记录BMC故障信息的寄存器的目标位的value值及寄存器内部的目标文件;
具体的,参照背景技术所述,BMC异常重启原因主要有以下三种,分别为BMC异常掉电重启、BMC IPMI命令重启、BMC内部主进程异常触发watchdog重启,本申请以Aspeed2500芯片寄存器SPIRA8对本申请的方案进行说明,Aspeed2500芯片寄存器SPIRA8属于LockControl寄存器,若该寄存器被写入1时,只有在SRST引脚Active触发后,该寄存器才能被置成0,即在上述三种BMC重启原因中,只有整个主板意外断电,才能恢复SPIRA8寄存器默认配置,其他情况均维持设置SPIRA8寄存器信息值。当然,除了可以选用上述型号的寄存器,还可以选择其他可实现相同功能的寄存器,本申请在此不做限定。
步骤2:根据value值和目标文件得到对应的BMC启动原因;
步骤3:将启动原因存储到syslog中。
可以理解的是,BMC内部主进程异常退出触发watchdog重启,当IPMIMain主进程被kill无法完成喂狗操作时,会直接重启整个BMC系统。Procmanager作为进程管理器,将会把BMC下所有主要进程IPMIMain、cdserver、fdserver、hdserver、adviser和MCTPMain等均注册到管理器中,实时监控和记录当前每一个进程的工作状态;在软件watchdog进程中实时获取IPMIMain主进程状态,若IPMIMain主进程异常退出,将value=1存储在内存器的/conf/firstboot文件中。
具体的,BMC启动首先获取SPIRA8bit0的value值,value值的默认值为0,可以理解的是,当BMC首次启动时,SPIRA8bit0的value值为0,如果获取到SPIRA8bit0的value值为0则可能是BMC首次启动,或服务器系统异常掉电重启,然后判断/conf/firstboot文件(即目标文件)是否存在,通过目标文件存在与否来区别BMC是否首次上电,若不存在,即为首次上电,需要创建该文件,并记录首次BMC上电到syslog中,同时设置SPIRA8bit0的value值为1,并设置/conf/firstboot文件内部value值为0,以便寄存器可以记录下一次BMC启动原因;若目标文件存在,则说明系统异常掉电过,则记录BMC重启原因为BMC异常掉电至syslog中,然后设置SPIRA8bit0的value值为1,并设置/conf/firstboot文件内部value值为0;若获取到的SPIRA8bit0的value值为1,读取/conf/firstboot文件内部值为1,判断属于内部BMCwatchdog触发导致BMC重启,并记录至syslog中,然后设置/conf/firstboot文件内部value值为0;若SPIRA8bit0的value值为1,读取/conf/firstboot文件内部值为0,判断IPMICommand导致BMC重启,并记录至syslog中。
本申请提供了一种BMC启动原因记录方法,包括:获取用于记录BMC故障信息的寄存器的目标位的value值及寄存器内部的目标文件;根据value值和目标文件得到对应的BMC启动原因;将启动原因存储到syslog中。可见,在实际应用中,采用本申请的方案,当BMC启动时,根据相应的寄存器的目标位和目标文件判断BMC的重启原因,并记录至syslog日志中,在定位BMC故障时,有效减少时间成本和人力成本。
在上述实施例的基础上:
作为一种优选的实施例,将启动原因存储到syslog中之后,该BMC启动原因记录方法还包括:
将启动原因上传至日志服务器。
具体的,将启动原因此处到syslog后,可以自动上传到日志服务器中,在定位BMC故障时,能有效地减少时间成本与人力成本。
请参照图2,图2为本申请所提供的一种BMC启动原因记录系统的结构示意图,包括:
获取模块1,用于获取用于记录BMC故障信息的寄存器的目标位的value值及所述寄存器内部的目标文件;
原因确定模块2,用于根据所述value值和所述目标文件得到对应的BMC启动原因;
存储模块3,用于将所述启动原因存储到syslog中。
优选的,该BMC启动原因记录系统还包括:
上传模块,用于将所述启动原因上传至日志服务器。
优选的,所述原因确定模块2,具体用于:
当所述value值和默认值相同时,判断所述寄存器中是否存在所述目标文件,若是,则判定所述BMC启动原因为BMC异常掉电后重启,若否,则判定所述BMC启动原因为首次启动;
当所述value值和所述默认值不相同时,判断所述目标文件的内部值是否为1,若是,则判定所述BMC启动原因为主进程异常触发watchdog重启;若否,则判定所述BMC启动原因为BMC IPMI命令重启。
本申请所提供的一种BMC启动原因记录系统,具有和上述BMC启动原因记录方法相同的有益效果。
对于本申请所提供的一种BMC启动原因记录系统的介绍请参照上述实施例,本申请在此不再赘述。
相应的,本申请还提供了一种BMC启动原因记录装置,包括:
存储器,用于存储计算机程序;
处理器,用于执行所述计算机程序时实现如上文任意一项所述BMC启动原因记录方法的步骤。
本申请所提供的一种BMC启动原因记录装置,具有和上述BMC启动原因记录方法相同的有益效果。
对于本申请所提供的一种BMC启动原因记录装置的介绍请参照上述实施例,本申请在此不再赘述。
相应的,本申请还提供了一种可读存储介质,所述可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如上文任意一项所述BMC启动原因记录方法的步骤。
本申请所提供的一种可读存储介质,具有和上述BMC启动原因记录方法相同的有益效果。
对于本申请所提供的一种可读存储介质的介绍请参照上述实施例,本申请在此不再赘述。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本申请。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下,在其他实施例中实现。因此,本申请将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims (10)

1.一种BMC启动原因记录方法,其特征在于,包括:
获取用于记录BMC故障信息的寄存器的目标位的value值及所述寄存器内部的目标文件;
根据所述value值和所述目标文件得到对应的BMC启动原因;
将所述启动原因存储到syslog中。
2.根据权利要求1所述的BMC启动原因记录方法,其特征在于,所述将所述启动原因存储到syslog中之后,该BMC启动原因记录方法还包括:
将所述启动原因上传至日志服务器。
3.根据权利要求1所述的BMC启动原因记录方法,其特征在于,所述根据所述value值和所述目标文件得到对应的BMC启动原因的过程具体为:
当所述value值和默认值相同时,判断所述寄存器中是否存在所述目标文件,若是,则判定所述BMC启动原因为BMC异常掉电后重启,若否,则判定所述BMC启动原因为首次启动;
当所述value值和所述默认值不相同时,判断所述目标文件的内部值是否为1,若是,则判定所述BMC启动原因为主进程异常触发watchdog重启;若否,则判定所述BMC启动原因为BMC IPMI命令重启。
4.根据权利要求1所述的BMC启动原因记录方法,其特征在于,所述将所述启动原因存储到syslog中之后,该BMC启动原因记录方法还包括:
将所述目标文件的内部值清零。
5.根据权利要求1-4任意一项所述的BMC启动原因记录方法,其特征在于,所述寄存器为Aspeed2500芯片寄存器SPIRA8。
6.一种BMC启动原因记录系统,其特征在于,包括:
获取模块,用于获取用于记录BMC故障信息的寄存器的目标位的value值及所述寄存器内部的目标文件;
原因确定模块,用于根据所述value值和所述目标文件得到对应的BMC启动原因;
存储模块,用于将所述启动原因存储到syslog中。
7.根据权利要求6所述的BMC启动原因记录系统,其特征在于,该BMC启动原因记录系统还包括:
上传模块,用于将所述启动原因上传至日志服务器。
8.根据权利要求6所述的BMC启动原因记录系统,其特征在于,所述原因确定模块,具体用于:
当所述value值和默认值相同时,判断所述寄存器中是否存在所述目标文件,若是,则判定所述BMC启动原因为BMC异常掉电后重启,若否,则判定所述BMC启动原因为首次启动;
当所述value值和所述默认值不相同时,判断所述目标文件的内部值是否为1,若是,则判定所述BMC启动原因为主进程异常触发watchdog重启;若否,则判定所述BMC启动原因为BMC IPMI命令重启。
9.一种BMC启动原因记录装置,其特征在于,包括:
存储器,用于存储计算机程序;
处理器,用于执行所述计算机程序时实现如权利要求1-5任意一项所述BMC启动原因记录方法的步骤。
10.一种可读存储介质,其特征在于,所述可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1-5任意一项所述BMC启动原因记录方法的步骤。
CN201910313334.7A 2019-04-18 2019-04-18 Bmc启动原因记录方法、系统、装置及可读存储介质 Withdrawn CN109960638A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910313334.7A CN109960638A (zh) 2019-04-18 2019-04-18 Bmc启动原因记录方法、系统、装置及可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910313334.7A CN109960638A (zh) 2019-04-18 2019-04-18 Bmc启动原因记录方法、系统、装置及可读存储介质

Publications (1)

Publication Number Publication Date
CN109960638A true CN109960638A (zh) 2019-07-02

Family

ID=67026291

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910313334.7A Withdrawn CN109960638A (zh) 2019-04-18 2019-04-18 Bmc启动原因记录方法、系统、装置及可读存储介质

Country Status (1)

Country Link
CN (1) CN109960638A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110933363A (zh) * 2019-10-25 2020-03-27 苏州浪潮智能科技有限公司 一种服务器故障的录像记录方法、系统及设备
CN111176946A (zh) * 2019-12-29 2020-05-19 山东英信计算机技术有限公司 Sel日志记录方法、装置、设备及存储介质
CN117729092A (zh) * 2023-08-02 2024-03-19 荣耀终端有限公司 一种重启原因的确定方法及电子设备

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102141939A (zh) * 2010-02-01 2011-08-03 杭州华三通信技术有限公司 可记录整机重启原因的装置
CN109086155A (zh) * 2018-07-27 2018-12-25 郑州云海信息技术有限公司 服务器故障定位方法、装置、设备及计算机可读存储介质

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102141939A (zh) * 2010-02-01 2011-08-03 杭州华三通信技术有限公司 可记录整机重启原因的装置
CN109086155A (zh) * 2018-07-27 2018-12-25 郑州云海信息技术有限公司 服务器故障定位方法、装置、设备及计算机可读存储介质

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110933363A (zh) * 2019-10-25 2020-03-27 苏州浪潮智能科技有限公司 一种服务器故障的录像记录方法、系统及设备
CN111176946A (zh) * 2019-12-29 2020-05-19 山东英信计算机技术有限公司 Sel日志记录方法、装置、设备及存储介质
CN111176946B (zh) * 2019-12-29 2022-04-22 山东英信计算机技术有限公司 Sel日志记录方法、装置、设备及存储介质
CN117729092A (zh) * 2023-08-02 2024-03-19 荣耀终端有限公司 一种重启原因的确定方法及电子设备

Similar Documents

Publication Publication Date Title
CN109086155A (zh) 服务器故障定位方法、装置、设备及计算机可读存储介质
CN109960638A (zh) Bmc启动原因记录方法、系统、装置及可读存储介质
CN110594180A (zh) 一种服务器散热控制器的控制方法及系统
US9201601B2 (en) Reducing required battery capacity for data backup in a storage system with multiple controllers
JP2009530709A5 (zh)
CN101325610A (zh) 虚拟磁带库备份系统以及磁盘电源控制方法
CN112462920B (zh) 一种电源控制的方法、装置、服务器及存储介质
CN101593082A (zh) 一种管理存储设备电源电路的装置、方法和计算机
US7240189B2 (en) Fast resume to normal operation of a computer in a power saving mode
CN102736928B (zh) 快速唤醒计算机系统方法与计算机系统
US20140115112A1 (en) Server system and message processing method thereof
CN102929761B (zh) 一种应对崩溃性错误的系统及方法
CN103500138A (zh) 一种电源管理方法、系统及移动终端
CN109445561B (zh) 一种应用于服务器上的掉电保护系统,方法及服务器
CN107436826B (zh) 一种冷数据处理方法及终端
JP5223688B2 (ja) 無停電電源装置の管理装置および管理方法
US20120054524A1 (en) Method and system for reducing power consumption of peripherals in an emergency shut-down
CN113760459A (zh) 虚拟机故障检测方法、存储介质和虚拟化集群
CN112698870A (zh) 开关机管理方法、计算设备及存储介质
CN106331036B (zh) 一种服务器控制方法及装置
CN105320615A (zh) 数据存储方法和数据存储装置
JP7299517B2 (ja) 装置、方法、およびシステム
TWI479307B (zh) 電腦及其記憶體運行錯誤時的重啟方法
CN113257330B (zh) 存储装置掉电保护的测试方法、测试装置以及存储介质
CN113326072B (zh) 一种飞腾服务器平台下基于非易失内存的实时监控方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WW01 Invention patent application withdrawn after publication
WW01 Invention patent application withdrawn after publication

Application publication date: 20190702