CN117093402A - 设备掉电后psu ac丢失事件的记录方法及装置 - Google Patents

设备掉电后psu ac丢失事件的记录方法及装置 Download PDF

Info

Publication number
CN117093402A
CN117093402A CN202311185225.4A CN202311185225A CN117093402A CN 117093402 A CN117093402 A CN 117093402A CN 202311185225 A CN202311185225 A CN 202311185225A CN 117093402 A CN117093402 A CN 117093402A
Authority
CN
China
Prior art keywords
psu
black box
loss
box log
log
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202311185225.4A
Other languages
English (en)
Inventor
张永涛
邵发志
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangdong Dongqin Technology Co ltd
Original Assignee
Guangdong Dongqin Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangdong Dongqin Technology Co ltd filed Critical Guangdong Dongqin Technology Co ltd
Priority to CN202311185225.4A priority Critical patent/CN117093402A/zh
Publication of CN117093402A publication Critical patent/CN117093402A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0706Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment
    • G06F11/0718Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment in an object-oriented system
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0793Remedial or corrective actions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/14Error detection or correction of the data by redundancy in operation
    • G06F11/1402Saving, restoring, recovering or retrying
    • G06F11/1446Point-in-time backing up or restoration of persistent data
    • G06F11/1458Management of the backup or restore process
    • G06F11/1469Backup restoration techniques
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Quality & Reliability (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Power Sources (AREA)
  • Debugging And Monitoring (AREA)

Abstract

本申请提供一种设备掉电后PSU AC丢失事件的记录方法及装置,应用于计算机技术。通过在BMC启动后,获取PSU的当前电源状态,在当前电源状态为AC正常时,检测PSU的黑盒日志中是否存在PSU AC丢失的标志位,其中,黑盒日志可记录PSU AC丢失的标志位,在所有PSU的黑盒日志中均存在PSU AC丢失的标志位说明该计算设备存在AC掉电情况,从而借助PSU的黑盒日志中存在的PSU AC丢失的标志位,以及从计算设备的非易失区域中读取计算设备上一次掉电前记录的最新时间戳,还原PSU AC掉电时间点手段,实现设备掉电后PSU AC丢失事件的记录,该方式无须为计算设备增设超级电容或者电池,从而达到降低成本的效果。

Description

设备掉电后PSU AC丢失事件的记录方法及装置
技术领域
本申请涉及计算机技术,尤其涉及一种设备掉电后PSU AC丢失事件的记录方法及装置。
背景技术
随着计算机技术的进步,对计算设备的性能提出了更高的要求,而电源供应单元(Power Supply Unit,简称PSU),也称为电源供应器或电源单元,其作为服务器等计算设备的重要组成部分,主要负责将交流电(Alternating Current,简称AC)转换为计算设备所需的直流电,为计算设备提供稳定、可靠的电力供应,因此PSU稳定性和可用性直接影响计算设备的性能。目前,在计算设备的使用过程中,会出现因PSU AC丢失(PSU AC lost)导致计算设备异常的情况,因此需对设备掉电后PSU AC丢失事件进行记录。
相关技术中,可通过基板管理控制器(Baseboard Management Controller,简称BMC)抓取PSU AC丢失事件进而进行记录,但在设备掉电后,BMC抓取PSU AC丢失事件需依赖超级电容或者电池。具体地,在设备掉电后,超级电容或者电池可使得计算设备的主板(BMC设置在主板上)维持一定的掉电时间,方便BMC抓取PSU AC丢失事件。这种方案须为计算设备增设超级电容或者电池,极大地增加成本。
发明内容
本申请提供一种设备掉电后PSU AC丢失事件的记录方法及装置,用以解决BMC抓取PSU AC丢失事件需依赖超级电容或者电池导致的成本高问题。
第一方面,本申请提供一种设备掉电后PSU AC丢失事件的记录方法,应用于计算设备中的BMC,该记录方法包括:
响应BMC启动,获取PSU的当前电源状态;
若当前电源状态为AC正常,则检测PSU的黑盒日志中是否存在PSU AC丢失的标志位,其中,黑盒日志可记录PSU AC丢失的标志位;
响应检测到黑盒日志中存在PSU AC丢失的标志位,则清除非易失区域中的黑盒日志,针对下一PSU执行获取PSU的当前电源状态的步骤。
响应检测到所有PSU的黑盒日志均存在PSU AC丢失的标志位,从计算设备的非易失区域中读取计算设备上一次掉电前记录的最新时间戳,非易失区域中周期性写入时间戳;
将PSU的PSU AC丢失事件和最新时间戳记录至系统事件日志(System Event log,简称SEL)中。
一种可能的实施方式中,上述检测PSU的黑盒日志中是否存在PSU AC丢失的标志位,可以包括:抓取PSU的黑盒日志;将黑盒日志存储至非易失区域,并检测PSU的黑盒日志中是否存在PSU AC丢失的标志位。
一种可能的实施方式中,上述将黑盒日志存储至非易失区域,可以包括:若非易失区域为嵌入式多媒体卡(Embedded Multi Media Card,简称EMMC)或闪存,则将黑盒日志以文件形式存储至非易失区域;若非易失区域为电可擦除可编程只读存储器(ElectricallyErasable Programmable read only memory,简称EEPROM),则直接将黑盒日志存储至非易失区域。
一种可能的实施方式中,非易失区域中还记录有存储的黑盒日志份数。对应地,上述将黑盒日志存储至非易失区域之前,该设备掉电后PSU AC丢失事件的记录方法还可以包括:判断非易失区域中记录的黑盒日志份数是否大于份数阈值;若是,则删除非易失区域中最先记录的黑盒日志。
一种可能的实施方式中,该设备掉电后PSU AC丢失事件的记录方法还可以包括:响应BMC启动,开启用于向非易失区域中周期性写入时间戳的线程。
一种可能的实施方式中,该设备掉电后PSU AC丢失事件的记录方法还可以包括:响应当前电源状态为AC异常,针对下一PSU执行获取PSU的当前电源状态的步骤;检测到黑盒日志中不存在PSU AC丢失的标志位,则清除非易失区域中的黑盒日志,针对下一PSU执行获取PSU的当前电源状态的步骤。
一种可能的实施方式中,该设备掉电后PSU AC丢失事件的记录方法还可以包括:周期性获取PSU的电源状态;若当前次获取的电源状态为AC正常,且上一次获取的电源状态为AC异常,则清除非易失区域中的黑盒日志。
第二方面,本申请提供一种设备掉电后PSU AC丢失事件的记录装置,应用于计算设备中的BMC,该记录装置包括:
获取模块,用于响应BMC启动,获取PSU的当前电源状态;
检测模块,用于在PSU的当前电源状态为AC正常时,检测PSU的黑盒日志中是否存在PSU AC丢失的标志位,其中,黑盒日志可记录PSU AC丢失的标志位;响应检测到黑盒日志中都存在PSU AC丢失的标志位,触发读取模块;
读取模块,用于从计算设备的非易失区域中读取计算设备上一次掉电前记录的最新时间戳,非易失区域中周期性写入时间戳;
记录模块,用于将PSU的PSU AC丢失事件和最新时间戳记录至SEL中。
一种可能的实施方式中,检测模块具体用于:抓取PSU的黑盒日志;将黑盒日志存储至非易失区域,并检测PSU的黑盒日志中是否存在PSU AC丢失的标志位。
一种可能的实施方式中,检测模块还用于:若非易失区域为EMMC或闪存,则将黑盒日志以文件形式存储至非易失区域;若非易失区域为EEPROM,则直接将黑盒日志存储至非易失区域。
一种可能的实施方式中,非易失区域中还记录有存储的黑盒日志份数。对应地,检测模块还用于:将黑盒日志存储至非易失区域之前,判断非易失区域中记录的黑盒日志份数是否大于份数阈值;若是,则删除非易失区域中最先记录的黑盒日志。
一种可能的实施方式中,设备掉电后PSU AC丢失事件的记录装置还可以包括:启动模块,用于响应BMC启动,开启用于向非易失区域中周期性写入时间戳的线程。
一种可能的实施方式中,获取模块还用于:响应PSU的当前电源状态为AC异常,针对下一PSU执行上述获取PSU的当前电源状态的步骤。
一种可能的实施方式中,检测模块还用于:检测到黑盒日志中不存在PSU AC丢失的标志位,则清除非易失区域中的黑盒日志,触发获取模块针对下一PSU执行上述获取PSU的当前电源状态的步骤。
一种可能的实施方式中,该PSU AC丢失事件的记录装置还可以包括:清除模块,用于周期性获取PSU的电源状态;在当前次获取的电源状态为AC正常,且上一次获取的电源状态为AC异常时,清除非易失区域中的黑盒日志。
第三方面,本申请提供一种计算设备,包括:存储器,处理器;
存储器,用于存储计算机执行指令;
处理器,用于执行上述计算机可执行指令,以实现如第一方面中任一项所述的设备掉电后PSU AC丢失事件的记录方法。
第四方面,本申请提供一种计算机可读存储介质,该计算机可读存储介质中存储有计算机执行指令,计算机执行指令被执行时用于实现如第一方面中任一项所述的设备掉电后PSU AC丢失事件的记录方法。
第五方面,本申请提供一种计算机程序产品,包括计算机程序,该计算机程序被执行时实现第一方面中任一项所述的设备掉电后PSU AC丢失事件的记录方法。
本申请提供的设备掉电后PSU AC丢失事件的记录方法及装置,通过在BMC启动后,获取PSU的当前电源状态,在当前电源状态为AC正常时,检测PSU的黑盒日志中是否存在PSUAC丢失的标志位,其中,黑盒日志可记录PSU AC丢失的标志位,在所有PSU的黑盒日志中均存在PSU AC丢失的标志位说明该计算设备存在AC掉电情况,从而借助PSU的黑盒日志中存在的PSU AC丢失的标志位,以及从计算设备的非易失区域中读取计算设备上一次掉电前记录的最新时间戳,还原PSU AC掉电时间点手段,实现设备掉电后PSU AC丢失事件的记录,该方式无须为计算设备增设超级电容或者电池,从而达到降低成本的效果。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本申请的实施例,并与说明书一起用于解释本申请的原理。
图1为本申请一实施例提供的计算设备的结构示例图;
图2为本申请一实施例提供的设备掉电后PSU AC丢失事件的记录方法的流程示意图;
图3为本申请另一实施例提供的设备掉电后PSU AC丢失事件的记录方法的流程示意图;
图4为本申请一实施例提供的设备掉电后PSU AC丢失事件的记录装置的结构示意图;
图5为本申请一实施例提供的计算设备的结构示意图。
通过上述附图,已示出本申请明确的实施例,后文中将有更详细的描述。这些附图和文字描述并不是为了通过任何方式限制本申请构思的范围,而是通过参考特定实施例为本领域技术人员说明本申请的概念。
具体实施方式
这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本申请相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本申请的一些方面相一致的装置和方法的例子。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。
首先对本申请所涉及的名词进行解释:
黑盒日志,是指记录系统行为和事件的机制,通过将关键信息记录到一个类似黑盒子的存储器中,在系统出现故障或需要进行故障排查时提供参考。
BMC,是服务器、网络通讯设备等计算设备的基本核心功能子系统,负责计算设备的硬件状态管理、操作系统管理、健康状态管理和功耗管理等核心功能。在本申请中,BMC通过监测PSU的电源状态来记录PSU AC丢失事件。
网络通讯设备,指用于建立、维护或扩展计算机网络的硬件设备,包括路由器、交换机、网桥、网卡等。网络通讯设备与服务器共同构成计算机网络的基础架构。网络通讯设备负责将数据从源地址传送到目标地址;服务器则是负责接收、处理并响应这些数据。网络通讯设备提供物理连接和数据传输功能,确保数据能够流动;服务器则是存储、计算和服务的功能。
设备掉电,也即主机完全掉电,是指整个计算设备包括PSU在内的所有电源失去供电,导致计算设备无法使用。
PSU存在AC掉电,PSU无法提供电力供应,但可能仍然有部分能够继续工作。
时间戳,是用于表示某一时刻或事件发生的具体时间值,通常是一个数字或字符串,用来记录自某个参考点以来的经过时间或日期。
SEL,是一种记录计算设备硬件和系统事件的日志,通常用于服务器、主板、固件和操作系统等领域,以帮助系统管理员或技术人员进行故障排查和监控。
针对相关技术中,为在设备掉电后,BMC抓取PSU AC丢失事件须为计算设备增设超级电容或者电池,极大地增加成本的问题,目前业界多数硬件方案为不加超级电容或者电池的设计,但硬件方案的硬件时序不足以给BMC长时间供电,只能依赖通用的输入输出(General Purpose Input Output,简称GPIO)中断或者复杂可编程逻辑器件(ComplexProgrammable Logic Device,简称CPLD)来抓取PSU AC丢失事件,这种会有概率性无法记录到PSU AC丢失事件,还有可能对BMC的文件系统造成损坏。
因此,基于相关技术中为计算设备增设超级电容或者电池导致增加成本的问题,本申请提供一种设备掉电后PSU AC丢失事件的记录方案,在无超级电容和电池情形等硬件依赖条件时,在BMC启动后,借助PSU的黑盒日志信息和时间戳,还原AC掉电时间点,从而降低成本。
图1为本申请一实施例提供的计算设备的结构示例图。本申请实施例参考图1,对于计算设备,或称为“计算机系统”,其组成包含PSU 101、主机102和BMC 103,其中,主机102与BMC 103通过管理总线或接口连接,使得BMC 103能够检测和管理主机102,并远程访问和控制主机102;BMC 103与PSU 101之间通过电源线进行连接,BMC 103通过监测和控制PSU101的电源状态来保证电力供应的稳定性和可靠性。
下面以具体地实施例对本申请的技术方案以及本申请的技术方案如何解决上述技术问题进行详细说明。下面这几个具体的实施例可以相互结合,对于相同或相似的概念或过程可能在某些实施例中不再赘述。下面将结合附图,对本申请的实施例进行描述。
图2为本申请一实施例提供的设备掉电后PSU AC丢失事件的记录方法的流程示意图。本申请实施例提供一种设备掉电后PSU AC丢失事件的记录方法,其执行主体为应用于计算设备中的BMC,应理解,该计算设备可以为任意具有BMC和一个及以上PSU的设备,例如服务器或网络通讯设备。如图2所示,该设备掉电后PSU AC丢失事件的记录方法包括:
S201、响应BMC启动,获取PSU的当前电源状态。
通常情况下,计算设备上电,BMC启动。在BMC启动后,BMC的功能开始运作,获取PSU的当前电源状态。
可以理解,当前电源状态是PSU在当前时刻下AC的状态,具体可以为AC异常或AC正常。其中,AC异常说明计算设备出现了电源或电力供应的问题,例如电源连接不正确、插座或电线出现故障,或有电力中断或其他问题影响设备的正常运行,也就是说该问题可能是由于该PSU的AC丢失引起的,即发生PSU AC丢失事件;AC正常说明该PSU的AC没丢失,即未发生PSU AC丢失事件。
S202、若当前电源状态为AC正常,则检测PSU的黑盒日志中是否存在PSU AC丢失的标志位。
其中,黑盒日志可记录PSU AC丢失的标志位。
在当前电源状态为AC正常的情况下,检测PSU的黑盒日志中是否存在PSU AC丢失的标志位,以确定计算设备此次出现电源或电力供应问题是否是因为PSU AC丢失。
其中,PSU AC丢失的标志位是用于指示AC丢失的信号。当电源出现故障、电力中断或其他问题导致不能正常提供AC电源时,该PSU对应的黑盒日志中记录PSU AC丢失的标志位,以便管理人员或操作人员能够及时采取措施。
示例地,在PSU的黑盒日志中,PSU AC丢失的标志位可通过Status Word的BIT5被置1来表示,若Status Word的BIT5被置1,则意味着该PSU发生过PSU AC丢失,若StatusWord的BIT5没被置1,则意味着该PSU未发生PSU AC丢失。
S203、响应检测到黑盒日志中存在PSU AC丢失的标志位,则清除非易失区域中的黑盒日志,针对下一PSU执行获取PSU的当前电源状态的步骤。
S204、响应检测到所有PSU的黑盒日志均存在PSU AC丢失的标志位,从计算设备的非易失区域中读取该计算设备上一次掉电前记录的最新时间戳。
其中,非易失区域中周期性写入时间戳。非易失区域是存储器中的一部分,用于存储数据,并具有非易失性,即在断电或重启后仍能保持数据的完整性,因此,在计算设备掉电时,已存储至非易失区域中的数据不会丢失。
在本申请中,BMC启动后,非易失区域中被周期性写入时间戳。其中,周期性写入时间戳的周期,可根据实际需要进行调整,本申请实施例不对其进行限制,示例地,在BMC启动后,每0.5小时写入时间戳至非易失区域。这样,非易失区域中不断有新的时间戳写入,即使设备掉电,没有超级电容或电池支撑记录PSU AC丢失事件,但可以依据最新时间戳进行PSUAC丢失事件的时间还原。
S205、将PSU的PSU AC丢失事件和最新时间戳记录至SEL中。
通过该步骤在SEL中为每个PSU AC丢失事件添加时间戳,既可以完全记录PSU AC丢失事件,又能将掉电时的时间戳记录下来,以帮助管理人员和/或技术人员查找PSU AC丢失发生的时间,从而更好地理解系统的运行状态和发现异常情况。
本申请实例提供的设备掉电后PSU AC丢失事件的记录方法,通过在BMC启动后,获取PSU的当前电源状态,在当前电源状态为AC正常时,检测PSU的黑盒日志中是否存在PSUAC丢失的标志位,其中,黑盒日志可记录PSU AC丢失的标志位,在所有PSU的黑盒日志中均存在PSU AC丢失的标志位说明该计算设备存在AC掉电情况,从而借助PSU的黑盒日志中存在的PSU AC丢失的标志位,以及从计算设备的非易失区域中读取计算设备上一次掉电前记录的最新时间戳,还原PSU AC掉电时间点手段,实现设备掉电后PSU AC丢失事件的记录,该方式无须为计算设备增设超级电容或者电池,从而达到降低成本的效果。
另外,在当前电源状态为AC正常情况下才检测PSU的黑盒日志中是否存在PSU AC丢失的标志位,从而能够防止出现误报PSU AC丢失事件的情况,提升PSU AC丢失事件记录的准确性。
在上述实施例的基础上,一种可能的实施方式中,S202中检测PSU的黑盒日志中是否存在PSU AC丢失的标志位,可以包括:抓取PSU的黑盒日志;将黑盒日志存储至非易失区域,并检测PSU的黑盒日志中是否存在PSU AC丢失的标志位。其中,抓取黑盒日志时,每次抓取的日志量可以是固定的,也可以根据实际情况自适应调整,具体视需求设置。
通过本实施方式,在极大地降低成本的同时,及时保留PSU的黑盒日志到非易失区域,保证历史黑盒日志的记录,方便查询历史黑盒日志详细内容。
进一步地,将黑盒日志存储至非易失区域,可以包括:若非易失区域为EMMC或闪存,则将黑盒日志以文件形式存储至非易失区域;若非易失区域为EEPROM,则直接将黑盒日志存储至非易失区域。即,将黑盒日志存储至非易失区域,可以至少包括以下两种存储方式:
第一种存储方式,通过文件形式存储。例如,对于EMMC或闪存,可以先将黑盒日志写入文件,然后将写入黑盒日志的文件存储至非易失区域。
第二种存储方式,直接存储。例如,对于EEPROM,直接将黑盒日志存储至非易失区域。
补充说明的是,具体存储方式可根据非易失区域的特性进行适应调整,以可将黑盒日志存储至非易失区域为准,且非易失区域也不以上述示例为限制,其还可以是其他非易失存储介质包含的非易失区域。
本申请实施例通过不同的非易失区域选择不同的黑盒日志存储方式,能够有效记录黑盒日志。
可选地,非易失区域中还记录有存储的黑盒日志份数。对应地,上述将黑盒日志存储至非易失区域之前,该设备掉电后PSU AC丢失事件的记录方法还可以包括:判断非易失区域中记录的黑盒日志份数是否大于份数阈值;若是,则删除非易失区域中最先记录的黑盒日志。其中,份数阈值是根据具体的需求和系统设计的,可配置;最先记录的黑盒日志是指最早生成或产生的日志。
本申请实施例中,在非易失区域存入黑盒日志之前,先判断非易失区域中记录的黑盒日志份数是否大于份数阈值,通过在非易失区域中记录的黑盒日志份数大于份数阈值时,删除非易失区域中最先记录的黑盒日志,保留新的黑盒日志,以能够管理和控制日志存储空间,并确保足够的存储空间用于记录新的黑盒日志。
可选的,计算设备包含多个PSU,对应地,设备掉电后PSU AC丢失事件的记录方法还可以包括:响应当前电源状态为AC异常,针对下一PSU执行获取PSU的当前电源状态的步骤;检测到黑盒日志中不存在PSU AC丢失的标志位,则清除非易失区域中的黑盒日志,针对下一PSU执行上述获取PSU的当前电源状态的步骤。
图3为本申请另一实施例提供的设备掉电后PSU AC丢失事件的记录方法的流程示意图。计算设备包含多个PSU,参考图3,计算设备中的BMC执行以下设备掉电后PSU AC丢失事件的记录方法包含的步骤:
开始,即BMC启动。
S301、开启用于向非易失区域中周期性写入时间戳的线程。
S302、通过线程读取当前时间。
S303、向非易失区域中周期性写入时间戳。
即,通过线程定时向非易失区域写入时间戳。
S304、获取PSU的当前电源状态。
通过当前电源状态的具体情况,确定下一步操作:若当前电源状态为AC正常,则执行S305;若当前电源状态为AC异常,表明PSU没供电,此时不需要考虑其掉电情况,则执行S307。
S305、检测PSU的黑盒日志中是否存在PSU AC丢失的标志位。
若是,即检测到黑盒日志中存在PSU AC丢失的标志位,则执行S306;若否,即检测到黑盒日志中不存在PSU AC丢失的标志位,则执行S306。
S306、清除非易失区域中的黑盒日志。通过清除非易失区域中黑盒日志的操作,方便下次记录,且能够有效避免出现误判计算设备包含的全部PSU均存在PSU AC丢失事件现象,实现完全记录PSU全掉AC的日志和时间戳,提高PSU AC丢失事件记录的准确性,达到软件精准的定位。
S307、读取下一PSU,并针对下一PSU执行S304。
即轮询下一个PSU,以检测其是否发生过PSU AC丢失事件。如此反复,直到轮询完计算设备包含的所有的PSU为止。
S308、检测所有黑盒日志是否均存在PSU AC丢失的标志位。
若是,即检测到所有黑盒日志均存在PSU AC丢失的标志位,则执行S309;
若否,即检测到所有黑盒日志至少有一个不存在PSU AC丢失的标志位,则执行S311。
S309、从计算设备的非易失区域中读取该计算设备上一次掉电前记录的最新时间戳。
S310、将PSU的PSU AC丢失事件和最新时间戳记录至SEL中。
S311、结束。
以上S304至S307的具体描述,可分别参考图2所示实施例中对应步骤S201至S203,此处不再赘述。
进一步地,上述的PSU AC记录方法中,还包括:周期性获取PSU的电源状态;若当前次获取的电源状态为AC正常,且上一次获取的电源状态为AC异常,则清除非易失区域中的黑盒日志。
该步骤中,若当前次获取的电源状态为AC正常,且上一次获取的电源状态为AC异常时,则需要进行黑盒日志的清除工作,其原因在于黑盒日志出现了AC丢失的标志,如果重启BMC时,会启动计算设备抓取黑盒日志,从而出现误报情况,因此这里通过清除黑盒日志来降低误报的概率。
下述为本申请装置实施例,可以用于执行本申请方法实施例。对于本申请装置实施例中未披露的细节,请参照本申请方法实施例。
图4为本申请一实施例提供的设备掉电后PSU AC丢失事件的记录装置的结构示意图。本申请实施例提供一种设备掉电后PSU AC丢失事件的记录装置,应用于计算设备中的BMC。如图4所示,该设备掉电后PSU AC丢失事件的记录装置400包括:
获取模块401,用于响应BMC启动,获取PSU的当前电源状态;
检测模块402,用于在PSU的当前电源状态为AC正常时,检测PSU的黑盒日志中是否存在PSU AC丢失的标志位,其中,黑盒日志可记录PSU AC丢失的标志位;响应检测到黑盒日志中都存在PSU AC丢失的标志位,触发读取模块;
读取模块403,用于从计算设备的非易失区域中读取计算设备上一次记录的最新时间戳,非易失区域中周期性写入时间戳;
记录模块404,用于将PSU的PSU AC丢失事件和最新时间戳记录至SEL中。
一种可能的实施方式中,检测模块402具体用于:抓取PSU的黑盒日志;将黑盒日志存储至非易失区域,并检测PSU的黑盒日志中是否存在PSU AC丢失的标志位。
可选地,检测模块402还可以用于:若非易失区域为EMMC或闪存,则将黑盒日志以文件形式存储至非易失区域;若非易失区域为EEPROM,则直接将黑盒日志存储至非易失区域。
一些实施例中,非易失区域中还记录有存储的黑盒日志份数。对应地,检测模块402还可以用于:将黑盒日志存储至非易失区域之前,判断非易失区域中记录的黑盒日志份数是否大于份数阈值;若是,则删除非易失区域中最先记录的黑盒日志。
进一步地,设备掉电后PSU AC丢失事件的记录装置400还可以包括:启动模块(未图示),用于响应BMC启动,开启用于向非易失区域中周期性写入时间戳的线程。
可选地,计算设备包含多个PSU,对应地,检测模块402还可以用于:检测到黑盒日志中不存在PSU AC丢失的标志位,则清除非易失区域中的黑盒日志,触发获取模块针对下一PSU执行上述获取PSU的当前电源状态的步骤。
可选地,该设备掉电后PSU AC丢失事件的记录装置400还可以包括:清除模块(未图示),用于周期性获取PSU的电源状态,在当前次获取的电源状态为AC正常,且上一次获取的电源状态为AC异常时,以及在PSU的当前电源状态为AC正常,检测PSU的黑盒日志中是否存在PSU AC丢失的标志位时,清除非易失区域中的黑盒日志。
本申请实施例提供的设备掉电后PSU AC丢失事件的记录装置,可以用于执行上述任一所示方法实施例提供的技术方案,其实现原理和技术效果类似,此处不再赘述。
图5为本申请一实施例提供的计算设备的结构示意图。如图5所示,本申请实施例提供的计算设备500可以包括:处理器501和存储器502,其中:
存储器502,用于存储计算机执行指令;
处理器501,用于执行存储器502存储的计算机执行指令,以实现前述方法实施例所描述的设备掉电后PSU AC丢失事件的记录方法。
应理解,处理器501可以是中央处理单元(Central Processing Unit,简称CPU),还可以是其它通用处理器、数字信号处理器(Digital Signal Processor,简称DSP)、专用集成电路(Application Specific Integrated Circuit,简称ASIC)等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合申请所公开的方法的步骤可以直接体现为硬件处理器执行完成,或者用处理器中的硬件及软件模块组合执行完成。存储器502可能包含高速随机存取存储器(Random Access Memory,简称RAM),也可能还包括非易失性存储NVM(non-volatile memory),例如至少一个磁盘存储器,还可以为U盘、移动硬盘、只读存储器、磁盘或光盘等。
可选的,该计算设备500还可以包括通信接口503。在具体实现上,如果通信接口503、存储器502和处理器501独立实现,则通信接口503、存储器502和处理器501可以通过总线相互连接并完成相互间的通信。总线可以是工业标准体系结构(Industry StandardArchitecture,简称ISA)总线、外部设备互连(Peripheral Component,简称PCI)总线或扩展工业标准体系结构(Extended Industry Standard Architecture,简称EISA)总线等。总线可以分为地址总线、数据总线、控制总线等,但并不表示仅有一根总线或一种类型的总线。
可选的,在具体实现上,如果通信接口503、存储器502和处理器501集成在一块芯片上实现,则通信接口503、存储器502和处理器501可以通过内部接口完成通信。
在本申请所提供的几个实施例中,应该理解到,所揭露的设备和方法,可以通过其它的方式实现。例如,以上所描述的设备实施例仅仅是示意性的,例如,模块的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个模块可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。
本申请实施例还提供一种计算机可读存储介质,该计算机可读存储介质中存储有计算机执行指令,该计算机执行指令被执行时用于实现前述任一实施例的设备掉电后PSUAC丢失事件的记录方法。
可以理解,该计算机可读存储介质可以是由任何类型的易失性或非易失性存储设备或者它们的组合实现,如静态随机存取存储器(Static Random Access Memory,简称SRAM),电可擦除可编程只读存储器(Electrically Erasable Programmable Read OnlyMemory,简称EEPROM),可擦除可编程只读存储器(Erasable Programmable Read OnlyMemory,简称EPROM),可编程只读存储器(Programmable Read Only Memory,简称PROM),只读存储器(Read Only Memory,简称ROM),磁存储器,快闪存储器,磁盘或光盘。可读存储介质可以是通用或专用计算机能够存取的任何可用介质。
一种示例性的计算机可读存储介质耦合至处理器,从而使处理器能够从该计算机可读存储介质读取信息,且可向该计算机可读存储介质写入信息。当然,计算机可读存储介质也可以是处理器的组成部分。处理器和计算机可读存储介质可以位于ASIC中。当然,处理器和计算机可读存储介质也可以作为分立组件存在于电子设备中。
上述以软件功能模块的形式实现的集成的模块,可以存储在一个计算机可读存储介质中。上述软件功能模块存储在一个计算机可读存储介质中,包括若干指令用以使得一台计算设备(可以是个人计算机,服务器,或者网络设备等)或处理器执行本申请各个实施例方法的部分步骤。
本申请实施例还提供一种计算机程序产品,包括计算机程序,该计算机程序被执行时实现前述任一实施例的设备掉电后PSU AC丢失事件的记录方法。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分能够以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台计算设备(可以是计算机,服务器或者网络通讯设备等)执行本申请各个实施例的方法。
最后应说明的是:以上各实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述各实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本申请各实施例技术方案的范围。

Claims (10)

1.一种设备掉电后PSU AC丢失事件的记录方法,其特征在于,应用于计算设备中的基板管理控制器BMC,所述记录方法包括:
响应BMC启动,获取电源供应单元PSU的当前电源状态;
若所述当前电源状态为交流电AC正常,则检测所述PSU的黑盒日志中是否存在PSU AC丢失的标志位,其中,所述黑盒日志可记录PSU AC丢失的标志位;
响应检测到所述黑盒日志中存在PSU AC丢失的标志位,则清除所述黑盒日志,针对下一PSU执行所述获取PSU的当前电源状态的步骤;
响应检测到所有PSU的黑盒日志均存在PSU AC丢失的标志位,从所述计算设备的非易失区域中读取所述计算设备上一次掉电前记录的最新时间戳,所述非易失区域中周期性写入时间戳;
将所述PSU的PSU AC丢失事件和所述最新时间戳记录至系统事件日志SEL中。
2.根据权利要求1所述的记录方法,其特征在于,所述检测所述PSU的黑盒日志中是否存在PSU AC丢失的标志位,包括:
抓取所述PSU的黑盒日志;
将所述黑盒日志存储至所述非易失区域,并检测所述PSU的黑盒日志中是否存在PSUAC丢失的标志位。
3.根据权利要求2所述的记录方法,其特征在于,将所述黑盒日志存储至所述非易失区域,包括:
若所述非易失区域为嵌入式多媒体卡EMMC或闪存,则将所述黑盒日志以文件形式存储至所述非易失区域;
若所述非易失区域为电可擦除可编程只读存储器EEPROM,则直接将所述黑盒日志存储至所述非易失区域。
4.根据权利要求2所述的记录方法,其特征在于,所述非易失区域中还记录有存储的黑盒日志份数,将所述黑盒日志存储至所述非易失区域之前,还包括:
判断所述非易失区域中记录的黑盒日志份数是否大于份数阈值;
若是,则删除所述非易失区域中最先记录的黑盒日志。
5.根据权利要求1至3中任一项所述的记录方法,其特征在于,还包括:
响应BMC启动,开启用于向所述非易失区域中周期性写入时间戳的线程。
6.根据权利要求1至3中任一项所述的记录方法,其特征在于,还包括:
响应所述当前电源状态为AC异常,针对下一PSU执行所述获取PSU的当前电源状态的步骤;
检测到所述黑盒日志中不存在PSU AC丢失的标志位,则清除所述非易失区域中的黑盒日志,针对下一PSU执行所述获取PSU的当前电源状态的步骤。
7.根据权利要求1至3中任一项所述的记录方法,其特征在于,还包括:
周期性获取PSU的电源状态;
若当前次获取的电源状态为AC正常,且上一次获取的电源状态为AC异常,则清除所述非易失区域中的黑盒日志。
8.一种设备掉电后PSU AC丢失事件的记录装置,其特征在于,应用于计算设备中的基板管理控制器BMC,所述记录装置包括:
获取模块,用于响应BMC启动,获取电源供应单元PSU的当前电源状态;
检测模块,用于在所述PSU的当前电源状态为AC正常时,检测所述PSU的黑盒日志中是否存在PSU AC丢失的标志位,其中,所述黑盒日志可记录PSU AC丢失的标志位;响应检测到所述黑盒日志中都存在PSU AC丢失的标志位,触发读取模块;
所述读取模块,用于从所述计算设备的非易失区域中读取所述计算设备上一次记录的最新时间戳,所述非易失区域中周期性写入时间戳;
记录模块,用于将所述PSU的PSU AC丢失事件和所述最新时间戳记录至系统事件日志SEL中。
9.一种计算设备,其特征在于,包括:存储器,处理器;
所述存储器,用于存储计算机执行指令;
所述处理器,用于执行所述计算机可执行指令,以实现如权利要求1至7中任一项所述的设备掉电后PSU AC丢失事件的记录方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有计算机执行指令,所述计算机执行指令被执行时用于实现如权利要求1至7中任一项所述的设备掉电后PSU AC丢失事件的记录方法。
CN202311185225.4A 2023-09-13 2023-09-13 设备掉电后psu ac丢失事件的记录方法及装置 Pending CN117093402A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311185225.4A CN117093402A (zh) 2023-09-13 2023-09-13 设备掉电后psu ac丢失事件的记录方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311185225.4A CN117093402A (zh) 2023-09-13 2023-09-13 设备掉电后psu ac丢失事件的记录方法及装置

Publications (1)

Publication Number Publication Date
CN117093402A true CN117093402A (zh) 2023-11-21

Family

ID=88771821

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311185225.4A Pending CN117093402A (zh) 2023-09-13 2023-09-13 设备掉电后psu ac丢失事件的记录方法及装置

Country Status (1)

Country Link
CN (1) CN117093402A (zh)

Similar Documents

Publication Publication Date Title
US8468389B2 (en) Firmware recovery system and method of baseboard management controller of computing device
CN111324192A (zh) 一种系统板卡电源检测方法、装置、设备及存储介质
US7461303B2 (en) Monitoring VRM-induced memory errors
US20090150721A1 (en) Utilizing A Potentially Unreliable Memory Module For Memory Mirroring In A Computing System
US20170149925A1 (en) Processing cache data
US10275330B2 (en) Computer readable non-transitory recording medium storing pseudo failure generation program, generation method, and generation apparatus
US20240053812A1 (en) Power supply control method and apparatus, and server and non-volatile storage medium
CN114691025A (zh) 日志记录方法、装置、设备和存储介质
US7266628B2 (en) System and method of retiring events upon device replacement
CN110221932B (zh) 计算机及其控制方法
JP6880961B2 (ja) 情報処理装置、およびログ記録方法
CN113626262A (zh) 一种bmc恢复方法、系统、设备以及介质
JP2017078998A (ja) 情報処理装置およびログ管理方法、並びにコンピュータ・プログラム
US6871291B2 (en) Method for recording power failure time of a computer system
CN117093402A (zh) 设备掉电后psu ac丢失事件的记录方法及装置
JP2012247937A (ja) 情報処理装置、ログ記憶制御プログラムおよびログ記憶制御方法
US7743277B2 (en) System and method for detecting and reducing data corruption in a storage device
CN113742166A (zh) 一种服务器系统器件日志记录方法、装置及系统
US8589729B1 (en) Data preservation system and method
JP5422490B2 (ja) 計算機システム及びi/o故障カード特定方法
US20220075533A1 (en) Storage apparatus and control system for the same
JP5011159B2 (ja) システム監視回路を備えた計算機
JP6981098B2 (ja) 復旧制御装置、復旧制御システム、復旧制御方法、及び、復旧制御プログラム
CN108415788B (zh) 用于对无响应处理电路作出响应的数据处理设备和方法
JP2017151511A (ja) 情報処理装置、動作ログ取得方法および動作ログ取得プログラム

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination