CN115168097A - 异常时自动溯源端口受控情况的方法、装置、设备、介质 - Google Patents

异常时自动溯源端口受控情况的方法、装置、设备、介质 Download PDF

Info

Publication number
CN115168097A
CN115168097A CN202210908260.3A CN202210908260A CN115168097A CN 115168097 A CN115168097 A CN 115168097A CN 202210908260 A CN202210908260 A CN 202210908260A CN 115168097 A CN115168097 A CN 115168097A
Authority
CN
China
Prior art keywords
value
control register
bmc
port
control
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210908260.3A
Other languages
English (en)
Inventor
毕延瑶
靳先奇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Suzhou Inspur Intelligent Technology Co Ltd
Original Assignee
Suzhou Inspur Intelligent Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Suzhou Inspur Intelligent Technology Co Ltd filed Critical Suzhou Inspur Intelligent Technology Co Ltd
Priority to CN202210908260.3A priority Critical patent/CN115168097A/zh
Publication of CN115168097A publication Critical patent/CN115168097A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0706Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment
    • G06F11/0745Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment in an input/output transactions management context
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0766Error or fault reporting or storing
    • G06F11/0772Means for error signaling, e.g. using interrupts, exception flags, dedicated error registers
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0766Error or fault reporting or storing
    • G06F11/0787Storage of error reports, e.g. persistent data storage, storage using memory protection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/079Root cause analysis, i.e. error or fault diagnosis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0793Remedial or corrective actions

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Quality & Reliability (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Debugging And Monitoring (AREA)

Abstract

本发明属于BMC端口故障定位技术领域,具体提供一种异常时自动溯源端口受控情况的方法、装置、设备、介质,所述方法包括如下步骤:BMC启动时,读取控制寄存器的值,当读取的控制寄存器的值与预期设定值一致时,记录BMC端口的输出值和控制寄存器的值;BMC运行过程中异常发生时,再次记录BMC端口的输出值和控制寄存器的值,通过与BMC启动时的记录的值进行比对,定位相关的控制寄存器的范围;将定位的指定范围内的控制寄存器根据BMC启动时记录的控制寄存器的值进行置位,异常再次发生时,记录异常发生时指定范围内的控制寄存器的值为最终控制记录;将最终控制记录与串口日志比对,产生新的日志并输出。提高了排查错误的效率。

Description

异常时自动溯源端口受控情况的方法、装置、设备、介质
技术领域
本发明涉及BMC端口故障定位技术领域,具体涉及一种异常时自动溯源端口受控情况的方法、装置、设备、介质。
背景技术
BMC是服务器远端管理控制器,英文全称为Baseboard Management Controller,又为基板管理控制器。BMC可以在服务器未开机,操作系统未启动的情况下监测系统健康状态,监测网卡等外设是否正常运行。BMC能通过对下位设备发出控制信号控制其它部件工作,信号或是基于BMC对自身收集的信息做出的处理,或是对CPU/BIOS/CPLD等上位部件的控制命令的转达,常用IPMI命令对软硬件接口层层调用,对控制寄存器发出命令,修改端口配置。最终是通过端口输出值来控制下位部件。这个过程中,所传达的信息在多个部件、多个层次间流转,一旦在某个层次处理有误,或者某个部件发出了错误指令,就会导致BMC芯片端口输出异常。
异常的处理过程一般是由BMC开发人员先分析问题可能的原因,对有关的处理进程进行DEBUG,从IPMI命令发出的层次开始排查,查看串口打印,用gpiotool,devmem,i2c-test等工具辅助;当对BMC自身的排查过程中不能找到错误源头时,需要联络BIOS、EE、CPLD工程师联合排查。
每次手动执行上述工具,只能查询一个或一组控制寄存器,效率较低。且执行时只能读取控制寄存器在执行时刻的值,无法读取其在某时间段内的变化历史。定位错误效率低,需要反复重启捕捉错误。串口日志仅能即时输出软件上层发生的事件,采集到的硬件底层信息不带有时间信息,两者不能结合。因此无法直接确定端口配置出错,是源于BMC启动时应用层写的控制寄存器出错、BMC加载的驱动出错还是哪些部件启动时向BMC发出了错误的控制信息,需要多部件团队协调。
发明内容
每次手动执行上述工具,只能查询一个或一组控制寄存器,效率较低。且执行时只能读取控制寄存器在执行时刻的值,无法读取其在某时间段内的变化历史。定位错误效率低,需要反复重启捕捉错误。串口日志仅能即时输出软件上层发生的事件,采集到的硬件底层信息不带有时间信息,两者不能结合,本发明提供一种异常时自动溯源端口受控情况的方法、装置、设备、介质。
第一方面,本发明技术方案提供一种异常时自动溯源端口受控情况的方法,包括如下步骤:
BMC启动时,读取控制寄存器的值,当读取的控制寄存器的值与预期设定值一致时,记录BMC端口的输出值和控制寄存器的值;
BMC运行过程中异常发生时,再次记录BMC端口的输出值和控制寄存器的值,通过与BMC启动时的记录的值进行比对,定位相关的控制寄存器的范围;其中,相关的控制寄存器的范围定义为指定范围;
BMC继续运行,并将定位的指定范围内的控制寄存器根据BMC启动时记录的控制寄存器的值进行置位,持续记录该指定范围内的控制寄存器的变化,异常再次发生时,记录异常发生时指定范围内的控制寄存器的值为最终控制记录;
将最终控制记录与串口日志比对,产生新的日志并输出。
进一步的,BMC启动时,读取控制寄存器的值,当读取的控制寄存器的值与预期设定值一致时,记录BMC端口的输出值和控制寄存器的值的步骤包括:
BMC启动时,读取控制寄存器的值;
判断读取的控制寄存器的值是否与预期设定值一致;
若是,记录BMC端口的输出值和控制寄存器的值;
若否,立即报错并修正控制寄存器的值。
进一步的,BMC启动时,读取控制寄存器的值,当读取的控制寄存器的值与预期设定值一致时,记录BMC端口的输出值和控制寄存器的值的步骤中,记录BMC端口的输出值和控制寄存器的值的步骤包括:
记录BMC所有端口的输出值为输出记录一;
读取所有控制寄存器的值保存为控制记录一。
进一步的,BMC运行过程中异常发生时,再次记录BMC端口的输出值和控制寄存器的值,通过与BMC启动时的记录的值进行比对,定位相关的控制寄存器的范围的步骤包括:
BMC运行过程中异常发生时,再次记录BMC所有端口的输出值为输出记录二;
比较输出记录一与输出记录二,将不同的输出记录生成端口定位范围记录;
依据端口定位范围记录与控制记录一,得到控制定位范围记录。
进一步的,BMC继续运行,并将定位的指定范围内的控制寄存器根据BMC启动时记录的控制寄存器的值进行置位,持续记录该指定范围内的控制寄存器的变化,异常再次发生时,记录异常发生时指定范围内的控制寄存器的值为最终控制记录的步骤包括:
BMC继续运行,将端口定位范围记录内的端口输出值写为输出记录一中的值,再对控制定位范围记录内指定的控制寄存器写为控制记录一中的值;
持续记录所述指定的控制寄存器的变化及时间戳,异常再次发生时,记录所述指定的控制寄存器的值为最终控制记录。
进一步的,将最终控制记录与串口日志比对,产生新的日志并输出的步骤包括:
根据时间戳,将最终控制记录与串口日志比对;
将比对结果结合串口日志在串口控制台输出;
根据输出的日志判断对控制寄存器修改的进程进而定位到端口配置错误的源头。
第二方面,本发明技术方案还提供一种异常时自动溯源端口受控情况的装置,包括检测模块、比较模块和控制模块;
BMC启动完成后,BMC系统主进程向控制模块发送通知信号;
控制模块收到BMC启动完成的通知后,通知检测模块开始运行;
检测模块,读取和记录BMC启动时BMC端口的输出值和控制寄存器的值;BMC运行过程中异常发生时,再次记录BMC端口的输出值和控制寄存器的值;将定位的指定范围内的控制寄存器根据BMC启动时记录的控制寄存器的值进行置位,持续记录该指定范围内的控制寄存器的变化,异常再次发生时,记录异常发生时指定范围内的控制寄存器的值为最终控制记录;
比较模块,用于比较读取的控制寄存器的值与预期设定值以及BMC运行过程中异常发生时,再次记录的控制寄存器的值与BMC启动时的记录的值进行比对,定位相关的控制寄存器的范围;其中,相关的控制寄存器的范围定义为指定范围;还用于将最终控制记录与串口日志比对,产生新的日志并输出。
进一步的,检测模块包括读取单元、写单元、记录单元;
读取单元,用于接收到读通知后读取端口输出值为输出记录,或读取控制寄存器的值为控制记录;
写单元,用于接收到写通知时,按照记录文件和指定范围,向控制寄存器或端口输出值寄存器写入值;
记录单元,用于将读取单元读取的值保存为输出记录或控制记录。
进一步的,比较模块,具体用于比较输出记录一与输出记录二,将不同的输出记录生成端口定位范围记录。
进一步的,记录单元,还用于BMC继续运行,将端口定位范围记录内的端口输出值写为输出记录一中的值,再对控制定位范围记录内指定的控制寄存器写为控制记录一中的值;持续记录所述指定的控制寄存器的变化及时间戳,异常再次发生时,记录所述指定的控制寄存器的值为最终控制记录。
比较模块,具体用于根据时间戳,将最终控制记录与串口日志比对;将比对结果结合串口日志在串口控制台输出。
工作人员根据输出的日志判断对控制寄存器修改的进程进而定位到端口配置错误的源头。
BMC启动时,若控制寄存器的值与预期设定值不符,则立即报错并修正。异常发生时,记录BMC端口的输出值和控制寄存器的值,通过与BMC启动时的初次记录进行比对,通过比较两次控制寄存器的值定位相关的控制寄存器的范围;
BMC系统进程继续运行,并将输出值寄存器和控制寄存器根据初次记录置位,持续记录该范围内的控制寄存器的变化,直到异常再次发生。即可得到异常发生指定范围的控制寄存器的变化历史。
将串口日志与上一步得到的记录比对,产生新的日志并输出,判断哪个进程对控制寄存器进行了修改,即可定位到端口配置错误的源头。这样就对端口配置异常与进程发出对端口的异常控制指令两个事件建立直接联系。对异常发生前相关控制寄存器的值的变化历史进行回溯,按照记录的时间戳,对原本定向输出到日志的上层调试消息进行加工处理,定位到进程出错位置,最终输出。
第三方面,本发明技术方案还提供一种电子设备,所述电子设备包括:
至少一个处理器;以及,
与所述至少一个处理器通信连接的存储器;其中,
存储器存储有可被至少一个处理器执行的计算机程序指令,所述计算机程序指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行如第一方面所述的异常时自动溯源端口受控情况的方法。
第四方面,本发明技术方案还提供一种非暂态计算机可读存储介质,所述非暂态计算机可读存储介质存储计算机指令,所述计算机指令使所述计算机执行如第一方面所述的异常时自动溯源端口受控情况的方法。
从以上技术方案可以看出,本发明具有以下优点:在BMC启动时,检查控制寄存器初值并自动修正;在BMC启动后,定位并记录与异常相关的控制寄存器的变化历史,不需升级和重启BMC,即可对端口配置的错误修改进行溯源。充分收集和利用了问题发生时BMC上产生的信息,尽可能避免反复启动和升级以捕捉异常。提高了研发人员排查错误的效率,尤其是为概率性异常的溯源提供了极大便利。
此外,本发明设计原理可靠,结构简单,具有非常广泛的应用前景。
由此可见,本发明与现有技术相比,具有突出的实质性特点和显著地进步,其实施的有益效果也是显而易见的。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,对于本领域普通技术人员而言,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明一个实施例的方法的示意性流程图。
图2是本发明另一个实施例的方法的示意性流程图。
图3是本发明一个实施例的装置的简述流程。
具体实施方式
为了使本技术领域的人员更好地理解本发明中的技术方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。
如图1所示,本发明实施例提供一种异常时自动溯源端口受控情况的方法,包括如下步骤:
步骤1:BMC启动时,读取控制寄存器的值,当读取的控制寄存器的值与预期设定值一致时,记录BMC端口的输出值和控制寄存器的值;
步骤2:BMC运行过程中异常发生时,再次记录BMC端口的输出值和控制寄存器的值,通过与BMC启动时的记录的值进行比对,定位相关的控制寄存器的范围;其中,相关的控制寄存器的范围定义为指定范围;
步骤3:BMC继续运行,并将定位的指定范围内的控制寄存器根据BMC启动时记录的控制寄存器的值进行置位,持续记录该指定范围内的控制寄存器的变化,异常再次发生时,记录异常发生时指定范围内的控制寄存器的值为最终控制记录;
步骤4:将最终控制记录与串口日志比对,产生新的日志并输出。
适用于与BMC的端口配置有关的异常,这些异常可能是由于BMC的某些进程对BMC芯片的控制寄存器进行了异常的修改造成的。例如在位状态无法正常获取、异常重启、RAID组建异常、服务器系统启动时的屏幕显示异常等场景。本方法可以有效缩小代码排查范围、提高此类问题的排查速度。
如图2所示,在有些实施例中,BMC启动时,读取控制寄存器的值,当读取的控制寄存器的值与预期设定值一致时,记录BMC端口的输出值和控制寄存器的值的步骤包括:
步骤11:BMC启动时,读取控制寄存器的值;
步骤12:判断读取的控制寄存器的值是否与预期设定值一致;
若是,执行步骤13;若否,执行步骤14;
步骤13:记录BMC端口的输出值和控制寄存器的值;
步骤14:立即报错并修正控制寄存器的值。
在有些实施例中,BMC启动时,读取控制寄存器的值,当读取的控制寄存器的值与预期设定值一致时,记录BMC端口的输出值和控制寄存器的值的步骤中,记录BMC端口的输出值和控制寄存器的值的步骤包括:
记录BMC所有端口的输出值为输出记录一;
读取所有控制寄存器的值保存为控制记录一。
相应的,BMC运行过程中异常发生时,再次记录BMC端口的输出值和控制寄存器的值,通过与BMC启动时的记录的值进行比对,定位相关的控制寄存器的范围的步骤包括:
步骤21:BMC运行过程中异常发生时,再次记录BMC所有端口的输出值为输出记录二;
步骤22:比较输出记录一与输出记录二,将不同的输出记录生成端口定位范围记录;
步骤23:依据端口定位范围记录与控制记录一,得到控制定位范围记录。
在有些实施例中,BMC继续运行,并将定位的指定范围内的控制寄存器根据BMC启动时记录的控制寄存器的值进行置位,持续记录该指定范围内的控制寄存器的变化,异常再次发生时,记录异常发生时指定范围内的控制寄存器的值为最终控制记录的步骤包括:
步骤31:BMC继续运行,将端口定位范围记录内的端口输出值写为输出记录一中的值,再对控制定位范围记录内指定的控制寄存器写为控制记录一中的值;
步骤32:持续记录所述指定的控制寄存器的变化及时间戳,异常再次发生时,记录所述指定的控制寄存器的值为最终控制记录。
在有些实施例中,将最终控制记录与串口日志比对,产生新的日志并输出的步骤包括:
步骤41:根据时间戳,将最终控制记录与串口日志比对;
步骤42:将比对结果结合串口日志在串口控制台输出;
进一步的,根据输出的日志判断对控制寄存器修改的进程进而定位到端口配置错误的源头。
如图3所示,本发明实施例还提供一种异常时自动溯源端口受控情况的装置,包括检测模块、比较模块和控制模块;
BMC启动完成后,BMC系统主进程向控制模块发送通知信号;
控制模块收到BMC启动完成的通知后,通知检测模块开始运行;
检测模块,读取和记录BMC启动时BMC端口的输出值和控制寄存器的值;BMC运行过程中异常发生时,再次记录BMC端口的输出值和控制寄存器的值;将定位的指定范围内的控制寄存器根据BMC启动时记录的控制寄存器的值进行置位,持续记录该指定范围内的控制寄存器的变化,异常再次发生时,记录异常发生时指定范围内的控制寄存器的值为最终控制记录;
比较模块,用于比较读取的控制寄存器的值与预期设定值以及BMC运行过程中异常发生时,再次记录的控制寄存器的值与BMC启动时的记录的值进行比对,定位相关的控制寄存器的范围;其中,相关的控制寄存器的范围定义为指定范围;还用于将最终控制记录与串口日志比对,产生新的日志并输出。需要说明的是,检测模块的每一次动作需要接受到控制模块的通知后开始执行。
在有些实施例中,检测模块包括读取单元、写单元、记录单元;
读取单元,读取单元,用于接收到读通知后读取端口输出值为输出记录,或读取控制寄存器的值为控制记录;
比较模块,具体用于当输出读取的控制寄存器的值与预期设定值不一致时,立即报错并修正控制寄存器的值,还用于比较输出记录一与输出记录二,将不同的输出记录生成端口定位范围记录;
写单元,用于BMC继续运行,将端口定位范围记录内的端口输出值写为输出记录一中的值,再对控制定位范围记录内指定的控制寄存器写为控制记录一中的值;
记录单元,持续记录所述指定的控制寄存器的变化及时间戳,异常再次发生时,记录所述指定的控制寄存器的值为最终控制记录。
在有些实施例中,比较模块,具体用于比较输出记录一与输出记录二,将不同的输出记录生成端口定位范围记录。
记录单元,还用于BMC继续运行,将端口定位范围记录内的端口输出值写为输出记录一中的值,再对控制定位范围记录内指定的控制寄存器写为控制记录一中的值;持续记录所述指定的控制寄存器的变化及时间戳,异常再次发生时,记录所述指定的控制寄存器的值为最终控制记录。
比较模块,具体用于根据时间戳,将最终控制记录与串口日志比对;将比对结果结合串口日志在串口控制台输出。
工作人员根据输出的日志判断对控制寄存器修改的进程进而定位到端口配置错误的源头。
检测模块,接收控制模块发来的信号,通过mmap读或写端口的输出值和控制寄存器,将读取的内容生成记录文件。
控制模块,接收BMC发送的通知信号,向检测模块发送“开始写”、“开始读”的信号。
运行过程如下。
检测启动:BMC启动完成后,BMC系统主进程向控制模块发送通知信号。控制模块收到BMC启动完成的通知后,通知检测模块开始运行。
检测模块读取此时BMC芯片所有控制寄存器的值,检测此时的端口配置是否与预期一致,SCU(系统控制寄存器组)的值,决定了端口的使能,控制寄存器的复位和时钟设置等。因此比较模块将SCU与其预期设定进行比对,若不一致则报错并修正。
端口相应的控制寄存器的值,决定了端口的功能实现,即端口的模式、功能配置、引脚功能/输入输出方向等。因此对端口相应的控制寄存器的值进行记录。
检测模块记录所有端口的输出值,保存为输出记录一。检测模块读取所有控制寄存器的值,保存为控制记录一。
BMC系统进程继续运行,当错误发生时,再次读取全部端口的输出值,保存为输出记录二;比较输出记录一与输出记录二,产生端口定位范围记录;依据端口定位范围记录与控制记录一,得到控制定位范围记录。
将端口定位范围内的端口输出值写为输出记录一中的值,再对控制定位范围记录指定的控制寄存器写为控制记录一中的值。BMC继续运行,并持续记录控制寄存器的变化及时间戳,直到问题再现,停止读取。
从电平置位到重复出错期间的,对指定控制寄存器的记录,即为最终控制记录。
根据时间戳,将最终控制记录与串口日志比对、结合后在串口控制台输出,得出BMC哪个进程发出了什么指令,对控制寄存器进行了哪些修改,从而造成了端口配置错误。
在BMC启动时,检查控制寄存器初值并自动修正;在BMC启动后,定位并记录与异常相关的控制寄存器的变化历史,不需升级和重启BMC,即可对端口配置的错误修改进行溯源。
本发明实施例还提供一种电子设备,所述电子设备包括:处理器、通信接口、存储器和总线,其中,处理器,通信接口,存储器通过总线完成相互间的通信。总线可以用于电子设备与传感器之间的信息传输。处理器可以调用存储器中的逻辑指令,以执行如下方法:步骤1:BMC启动时,读取控制寄存器的值,当读取的控制寄存器的值与预期设定值一致时,记录BMC端口的输出值和控制寄存器的值;步骤2:BMC运行过程中异常发生时,再次记录BMC端口的输出值和控制寄存器的值,通过与BMC启动时的记录的值进行比对,定位相关的控制寄存器的范围;其中,相关的控制寄存器的范围定义为指定范围;步骤3:BMC继续运行,并将定位的指定范围内的控制寄存器根据BMC启动时记录的控制寄存器的值进行置位,持续记录该指定范围内的控制寄存器的变化,异常再次发生时,记录异常发生时指定范围内的控制寄存器的值为最终控制记录;步骤4:将最终控制记录与串口日志比对,产生新的日志并输出。
在有些实施例中,处理器可以调用存储器中的逻辑指令,以执行如下方法:步骤11:BMC启动时,读取控制寄存器的值;步骤12:判断读取的控制寄存器的值是否与预期设定值一致;若是,执行步骤13;若否,执行步骤14;步骤13:记录BMC端口的输出值和控制寄存器的值;步骤14:立即报错并修正控制寄存器的值。
在有些实施例中,处理器可以调用存储器中的逻辑指令,以执行如下方法:步骤21:BMC运行过程中异常发生时,再次记录BMC所有端口的输出值为输出记录二;步骤22:比较输出记录一与输出记录二,将不同的输出记录生成端口定位范围记录;步骤23:依据端口定位范围记录与控制记录一,得到控制定位范围记录。
此外,上述的存储器中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
本发明实施例提供一种非暂态计算机可读存储介质,该非暂态计算机可读存储介质存储计算机指令,该计算机指令使计算机执行上述方法实施例所提供的方法,例如包括:步骤1:BMC启动时,读取控制寄存器的值,当读取的控制寄存器的值与预期设定值一致时,记录BMC端口的输出值和控制寄存器的值;步骤2:BMC运行过程中异常发生时,再次记录BMC端口的输出值和控制寄存器的值,通过与BMC启动时的记录的值进行比对,定位相关的控制寄存器的范围;其中,相关的控制寄存器的范围定义为指定范围;步骤3:BMC继续运行,并将定位的指定范围内的控制寄存器根据BMC启动时记录的控制寄存器的值进行置位,持续记录该指定范围内的控制寄存器的变化,异常再次发生时,记录异常发生时指定范围内的控制寄存器的值为最终控制记录;步骤4:将最终控制记录与串口日志比对,产生新的日志并输出。
尽管通过参考附图并结合优选实施例的方式对本发明进行了详细描述,但本发明并不限于此。在不脱离本发明的精神和实质的前提下,本领域普通技术人员可以对本发明的实施例进行各种等效的修改或替换,而这些修改或替换都应在本发明的涵盖范围内/任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以所述权利要求的保护范围为准。

Claims (10)

1.一种异常时自动溯源端口受控情况的方法,其特征在于,包括如下步骤:
BMC启动时,读取控制寄存器的值,当读取的控制寄存器的值与预期设定值一致时,记录BMC端口的输出值和控制寄存器的值;
BMC运行过程中异常发生时,再次记录BMC端口的输出值和控制寄存器的值,通过与BMC启动时的记录的值进行比对,定位相关的控制寄存器的范围;其中,相关的控制寄存器的范围定义为指定范围;
BMC继续运行,并将定位的指定范围内的控制寄存器根据BMC启动时记录的控制寄存器的值进行置位,持续记录该指定范围内的控制寄存器的变化,异常再次发生时,记录异常发生时指定范围内的控制寄存器的值为最终控制记录;
将最终控制记录与串口日志比对,产生新的日志并输出。
2.根据权利要求1所述的异常时自动溯源端口受控情况的方法,其特征在于,BMC启动时,读取控制寄存器的值,当读取的控制寄存器的值与预期设定值一致时,记录BMC端口的输出值和控制寄存器的值的步骤包括:
BMC启动时,读取控制寄存器的值;
判断读取的控制寄存器的值是否与预期设定值一致;
若是,记录BMC端口的输出值和控制寄存器的值;
若否,立即报错并修正控制寄存器的值。
3.根据权利要求2所述的异常时自动溯源端口受控情况的方法,其特征在于,BMC启动时,读取控制寄存器的值,当读取的控制寄存器的值与预期设定值一致时,记录BMC端口的输出值和控制寄存器的值的步骤中,记录BMC端口的输出值和控制寄存器的值的步骤包括:
记录BMC所有端口的输出值为输出记录一;
读取所有控制寄存器的值保存为控制记录一。
4.根据权利要求3所述的异常时自动溯源端口受控情况的方法,其特征在于,BMC运行过程中异常发生时,再次记录BMC端口的输出值和控制寄存器的值,通过与BMC启动时的记录的值进行比对,定位相关的控制寄存器的范围的步骤包括:
BMC运行过程中异常发生时,再次记录BMC所有端口的输出值为输出记录二;
比较输出记录一与输出记录二,将不同的输出记录生成端口定位范围记录;
依据端口定位范围记录与控制记录一,得到控制定位范围记录。
5.根据权利要求4所述的异常时自动溯源端口受控情况的方法,其特征在于,BMC继续运行,并将定位的指定范围内的控制寄存器根据BMC启动时记录的控制寄存器的值进行置位,持续记录该指定范围内的控制寄存器的变化,异常再次发生时,记录异常发生时指定范围内的控制寄存器的值为最终控制记录的步骤包括:
BMC继续运行,将端口定位范围记录内的端口输出值写为输出记录一中的值,再对控制定位范围记录内指定的控制寄存器写为控制记录一中的值;
持续记录所述指定的控制寄存器的变化及时间戳,异常再次发生时,记录所述指定的控制寄存器的值为最终控制记录。
6.根据权利要求5所述的异常时自动溯源端口受控情况的方法,其特征在于,将最终控制记录与串口日志比对,产生新的日志并输出的步骤包括:
根据时间戳,将最终控制记录与串口日志比对;
将比对结果结合串口日志在串口控制台输出;
根据输出的日志判断对控制寄存器修改的进程进而定位到端口配置错误的源头。
7.一种异常时自动溯源端口受控情况的装置,其特征在于,包括检测模块、比较模块和控制模块;
BMC启动完成后,BMC系统主进程向控制模块发送通知信号;
控制模块收到BMC启动完成的通知后,通知检测模块开始运行;
检测模块,读取和记录BMC启动时BMC端口的输出值和控制寄存器的值;BMC运行过程中异常发生时,再次记录BMC端口的输出值和控制寄存器的值;将定位的指定范围内的控制寄存器根据BMC启动时记录的控制寄存器的值进行置位,持续记录该指定范围内的控制寄存器的变化,异常再次发生时,记录异常发生时指定范围内的控制寄存器的值为最终控制记录;
比较模块,用于比较读取的控制寄存器的值与预期设定值,当二者不一致时,产生日志并输出,并向检测模块发送写通知;以及BMC运行过程中异常发生时,再次记录的控制寄存器的值与BMC启动时的记录的值进行比对,定位相关的控制寄存器的范围;其中,相关的控制寄存器的范围定义为指定范围;还用于将最终控制记录与串口日志比对,产生新的日志并输出。
8.根据权利要求7所述的异常时自动溯源端口受控情况的装置,其特征在于,检测模块包括读取单元、写单元、记录单元;
读取单元,当接收到读通知时,读取控制寄存器或端口输出值寄存器的值;
写单元,当接收到写通知时,按照记录文件和指定范围,向控制寄存器或端口输出值寄存器写入值;
记录单元,用于将读取单元所得数据存储到记录文件。
9.一种电子设备,其特征在于,所述电子设备包括:
至少一个处理器;以及,
与所述至少一个处理器通信连接的存储器;其中,
存储器存储有可被至少一个处理器执行的计算机程序指令,所述计算机程序指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行如权利要求1至6中任一项权利要求所述的异常时自动溯源端口受控情况的方法。
10.一种非暂态计算机可读存储介质,其特征在于,所述非暂态计算机可读存储介质存储计算机指令,所述计算机指令使所述计算机执行如权利要求1至6任一项权利要求所述的异常时自动溯源端口受控情况的方法。
CN202210908260.3A 2022-07-29 2022-07-29 异常时自动溯源端口受控情况的方法、装置、设备、介质 Pending CN115168097A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210908260.3A CN115168097A (zh) 2022-07-29 2022-07-29 异常时自动溯源端口受控情况的方法、装置、设备、介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210908260.3A CN115168097A (zh) 2022-07-29 2022-07-29 异常时自动溯源端口受控情况的方法、装置、设备、介质

Publications (1)

Publication Number Publication Date
CN115168097A true CN115168097A (zh) 2022-10-11

Family

ID=83477834

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210908260.3A Pending CN115168097A (zh) 2022-07-29 2022-07-29 异常时自动溯源端口受控情况的方法、装置、设备、介质

Country Status (1)

Country Link
CN (1) CN115168097A (zh)

Similar Documents

Publication Publication Date Title
US6532552B1 (en) Method and system for performing problem determination procedures in hierarchically organized computer systems
WO2021169260A1 (zh) 一种系统板卡电源检测方法、装置、设备及存储介质
TWI229796B (en) Method and system to implement a system event log for system manageability
WO2015196365A1 (zh) 一种故障处理方法、相关装置及计算机
KR101949115B1 (ko) 디바이스 드라이버 검출 에러들의 자가 진단 및 자동 진단 데이터 수집
CN107111595B (zh) 用于检测早期引导错误的方法、设备及系统
US20220342740A1 (en) Method and Device for Detecting Memory Downgrade Error
CN111221800A (zh) 数据库迁移方法、装置、电子设备及存储介质
CN117389790B (zh) 可恢复故障的固件检测系统、方法、存储介质及服务器
JP2003122599A (ja) 計算機システムおよび計算機システムにおけるプログラム実行監視方法
CN115373997A (zh) 一种多核SoC的板卡固件异常监测及核心数据导出方法
EP3534259B1 (en) Computer and method for storing state and event log relevant for fault diagnosis
CN115168097A (zh) 异常时自动溯源端口受控情况的方法、装置、设备、介质
CN111400153A (zh) 一种串口日志的启动方法、装置和计算机可读存储介质
CN115827298A (zh) 一种服务器开机故障定位方法、装置、终端及存储介质
CN115757099A (zh) 平台固件保护恢复功能自动测试方法和装置
CN100369009C (zh) 使用系统管理中断信号的监控系统及方法
JP6217086B2 (ja) 情報処理装置、エラー検出機能診断方法およびコンピュータプログラム
CN113742113A (zh) 一种嵌入式系统健康管理方法、设备及储存介质
CN112346786B (zh) 应用于开机阶段及开机后运行阶段的除错信息纪录方法
JPH1115661A (ja) Cpuの自己診断方法
JP2002229811A (ja) 論理分割システムの制御方法
CN116489001A (zh) 交换机故障诊断及恢复方法、装置、交换机及存储介质
CN117555719A (zh) 一种系统异常定位的方法、装置、存储介质及电子设备
US7065691B2 (en) Apparatus and method for saving precise system state following exceptions

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination