CN118034983A - Pmic电源故障的处理方法、装置、计算机设备及存储介质 - Google Patents
Pmic电源故障的处理方法、装置、计算机设备及存储介质 Download PDFInfo
- Publication number
- CN118034983A CN118034983A CN202410217156.9A CN202410217156A CN118034983A CN 118034983 A CN118034983 A CN 118034983A CN 202410217156 A CN202410217156 A CN 202410217156A CN 118034983 A CN118034983 A CN 118034983A
- Authority
- CN
- China
- Prior art keywords
- pmic
- power failure
- memory
- tested
- ddr5
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000012545 processing Methods 0.000 title claims abstract description 27
- 238000003672 processing method Methods 0.000 title abstract description 7
- 230000015654 memory Effects 0.000 claims abstract description 335
- 238000000034 method Methods 0.000 claims description 36
- 230000002159 abnormal effect Effects 0.000 claims description 18
- 230000006870 function Effects 0.000 claims description 15
- 230000002411 adverse Effects 0.000 abstract description 3
- 230000000694 effects Effects 0.000 abstract description 3
- 238000002955 isolation Methods 0.000 description 10
- 238000010586 diagram Methods 0.000 description 4
- 238000012360 testing method Methods 0.000 description 4
- 238000004891 communication Methods 0.000 description 3
- 238000012549 training Methods 0.000 description 3
- 230000005856 abnormality Effects 0.000 description 2
- 238000001514 detection method Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 239000007787 solid Substances 0.000 description 2
- 230000001960 triggered effect Effects 0.000 description 2
- 238000013459 approach Methods 0.000 description 1
- 230000001627 detrimental effect Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 239000002245 particle Substances 0.000 description 1
- 238000012827 research and development Methods 0.000 description 1
- 239000000758 substrate Substances 0.000 description 1
- 238000010998 test method Methods 0.000 description 1
- 238000012956 testing procedure Methods 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
Landscapes
- Techniques For Improving Reliability Of Storages (AREA)
Abstract
本发明涉及服务器技术领域,公开了PMIC电源故障的处理方法、装置、计算机设备及存储介质,该方法包括:预先为基板管理控制器的系统事件日志定义PMIC电源故障字段;在内存上电阶段,根据待测DDR5内存的PMIC寄存器确定待测DDR5内存是否存在PMIC电源故障;在待测DDR5内存存在PMIC电源故障的情况下,根据PMIC电源故障字段向基板管理控制器上报系统事件日志信息;禁用待测DDR5内存所在的内存通道。本发明在存在电源故障时向基板管理控制器上报相应的系统事件日志信息,使得用户基于基板管理控制器的系统事件日志可以方便地确定PMIC电源故障的具体位置,以及详细的故障信息,从而可以及时更换故障的DDR5内存,避免因PMIC电源故障造成的不良影响。
Description
技术领域
本发明涉及服务器技术领域,具体涉及PMIC电源故障的处理方法、装置、计算机设备及存储介质。
背景技术
新一代DDR5(Double Data Rate 5,第五代双倍速率)内存中设有逻辑芯片PMIC(Power Management Integrated Circuit,电源管理集成电路),利用PMIC实现了内存的电源管理从主板转移到DIMM(Dual-Inline-Memory-Modules,双列直插式存储模块)本身。PMIC可以优化DDR5内存的电源负载,但并在上电阶段可以实现PMIC电源故障隔离。
由于内存参考代码(Memory Reference Code,MRC)在检测到DDR5内存的PMIC电源故障时,会直接禁用故障内存所在通道(Channel),导致用户难以准确定位电源故障内存的位置,难以及时准确地处理内存电源故障。
发明内容
有鉴于此,本发明提供了一种PMIC电源故障的处理方法、装置、计算机设备及存储介质,以解决难以准确定位电源故障内存位置的问题。
第一方面,本发明提供了一种PMIC电源故障的处理方法,包括:
预先为基板管理控制器的系统事件日志定义PMIC电源故障字段;所述PMIC电源故障字段包括PMIC电源故障信息字段以及DDR5内存位置字段;
在内存上电阶段,根据待测DDR5内存的PMIC寄存器确定所述待测DDR5内存是否存在PMIC电源故障;
在所述待测DDR5内存存在PMIC电源故障的情况下,根据所述PMIC电源故障字段向所述基板管理控制器上报系统事件日志信息;所述系统事件日志信息包括所述PMIC电源故障的故障信息以及所述待测DDR5内存的位置信息;
禁用所述待测DDR5内存所在的内存通道。
在一些可选的实施方式中,所述根据待测DDR5内存的PMIC寄存器确定所述待测DDR5内存是否存在PMIC电源故障,包括:
将所述内存上电阶段分为电压调节器使能前的第一阶段和电压调节器使能后的第二阶段;
在所述第一阶段和/或所述第二阶段,分别读取所述待测DDR5内存的相应PMIC寄存器,根据读取结果确定所述待测DDR5内存是否存在PMIC电源故障。
在一些可选的实施方式中,所述在所述第一阶段和/或所述第二阶段,分别读取所述待测DDR5内存的相应PMIC寄存器,根据读取结果确定所述待测DDR5内存是否存在PMIC电源故障,包括:
在电压调节器使能前的第一阶段,读取待测PMIC的错误日志寄存器中用于表示降压调节器输出电压或临界温度的第一数据位;所述待测PMIC为所述待测DDR5内存的PMIC;
根据所述第一数据位的数值确定所述降压调节器输出电压或所述临界温度是否异常;
在所述降压调节器输出电压或所述临界温度异常的情况下,确定所述待测DDR5内存存在第一阶段的PMIC电源故障,并生成表示在第一阶段所述降压调节器输出电压或所述临界温度异常的故障信息;
向不存在第一阶段的PMIC电源故障的DDR5内存的PMIC广播电压调节器使能命令,以使能PMIC的电压调节器;
在电压调节器使能后的第二阶段,在所述待测DDR5内存不存在第一阶段的PMIC电源故障的情况下,读取所述待测PMIC的状态寄存器中用于表示带内中断状态的第二数据位,并读取所述待测PMIC的配置寄存器中用于表示电压调节器使能状态的第三数据位;
根据所述第二数据位的数值确定是否触发带内中断,根据所述第三数据位的数值确定电压调节器是否使能失败;
在触发带内中断或电压调节器使能失败的情况下,确定所述待测DDR5内存存在第二阶段的PMIC电源故障,并生成表示在第二阶段触发带内中断或电压调节器使能失败的故障信息。
在一些可选的实施方式中,所述在所述第一阶段和/或所述第二阶段,分别读取所述待测DDR5内存的相应PMIC寄存器,根据读取结果确定所述待测DDR5内存是否存在PMIC电源故障,还包括:
在电压调节器使能前的第一阶段,若无法读取待测PMIC的错误日志寄存器,生成表示在第一阶段寄存器读取失败的故障信息。
在一些可选的实施方式中,所述基板管理控制器的系统事件日志包括命令数据;
所述预先为基板管理控制器的系统事件日志定义PMIC电源故障字段,包括:
为所述命令数据的第一事件数据中的错误类型字段新增表示PMIC存在故障的错误类型;
将所述命令数据的第二事件数据中的多个未定义数据位,定义为用于表示PMIC电源故障发生阶段的阶段字段,以及用于表示PMIC电源故障发生原因的PMIC电源故障类型字段;
利用所述命令数据的第三事件数据表示DDR5内存位置字段;所述DDR5内存位置字段包括:处理器插槽编号字段、内存通道编号字段和DDR5内存编号字段。
在一些可选的实施方式中,该方法还包括:
在内存上电阶段,在所述待测DDR5内存存在PMIC电源故障的情况下,启动屏幕显示功能,在屏幕中显示所述PMIC电源故障的故障信息以及所述待测DDR5内存的位置信息。
在一些可选的实施方式中,所述在屏幕中显示所述PMIC电源故障的故障信息以及所述待测DDR5内存的位置信息,包括:
在屏幕中以突出显示方式,显示所述PMIC电源故障的故障信息以及所述待测DDR5内存的位置信息;所述突出显示方式包括:高亮显示、以预设颜色显示、以预设频率显示中的至少一种。
第二方面,本发明提供了一种PMIC电源故障的处理装置,包括:
定义模块,用于预先为基板管理控制器的系统事件日志定义PMIC电源故障字段;所述PMIC电源故障字段包括PMIC电源故障信息字段以及DDR5内存位置字段;
故障确定模块,用于在内存上电阶段,根据待测DDR5内存的PMIC寄存器确定所述待测DDR5内存是否存在PMIC电源故障;
上报模块,用于在所述待测DDR5内存存在PMIC电源故障的情况下,根据所述PMIC电源故障字段向所述基板管理控制器上报系统事件日志信息;所述系统事件日志信息包括所述PMIC电源故障的故障信息以及所述待测DDR5内存的位置信息;
禁用模块,用于禁用所述待测DDR5内存所在的内存通道。
第三方面,本发明提供了一种计算机设备,包括:存储器和处理器,存储器和处理器之间互相通信连接,存储器中存储有计算机指令,处理器通过执行计算机指令,从而执行上述第一方面或其对应的任一实施方式的PMIC电源故障的处理方法。
第四方面,本发明提供了一种计算机可读存储介质,该计算机可读存储介质上存储有计算机指令,计算机指令用于使计算机执行上述第一方面或其对应的任一实施方式的PMIC电源故障的处理方法。
本发明在内存上电阶段读取待测DDR5内存的PMIC寄存器,从而可以确定是否存在PMIC电源故障,并在存在故障时向基板管理控制器上报相应的系统事件日志信息,使得用户基于基板管理控制器的系统事件日志可以方便地确定PMIC电源故障的具体位置,以及详细的故障信息,从而可以及时更换故障的DDR5内存,避免因PMIC电源故障造成的不良影响。
附图说明
为了更清楚地说明本发明具体实施方式或相关技术中的技术方案,下面将对具体实施方式或相关技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是根据本发明实施例的PMIC电源故障的处理方法的流程示意图;
图2是根据本发明实施例的另一PMIC电源故障的处理方法的流程示意图;
图3是根据本发明实施例的PMIC的上电时序图;
图4是根据本发明实施例的再一PMIC电源故障的处理方法的流程示意图;
图5是根据本发明实施例的PMIC电源故障的处理装置的结构框图;
图6是本发明实施例的计算机设备的硬件结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
PMIC是一种电源管理集成电路芯片,做为新一代DDR5内存中的一个重要组成部分,实现了内存的电源管理从主板转移到DIMM本身,它帮助调节DDR5内存中不同组件的供电,例如DRAM(Dynamic Random Access Memory,动态随机存取存储器)颗粒、RCD(Registering Clock Driver,时钟缓存寄存器)、SPD(Serial Presence Detect,串行存在检测)集线器等所需的供电,可以更好地细化DDR5 DIMM电源负载,这让电源管理的颗粒度更小,可以更加省电。
服务器一般可以支持多个DDR5内存,典型的DDR5服务器平台可能具有多达32个DDR5 DIMM插槽。例如,服务器平台支持两路处理器(CPU),每路处理器支持八个内存通道,每个内存通道支持2个DDR5 DIMM插槽,则两路处理器可支持32个DDR5 DIMM插槽,即该服务器平台共可支持32个DDR5 DIMM,每个DDR5 DIMM由各自的PMIC实现电源管理。
其中,PMIC作为一颗逻辑芯片,BIOS(Basic Input Output System,基本输入输出系统)在系统开机启动过程中,可以通过对PMIC寄存器进行配置,去具体控制每一路内存的上电时序,同时也可以读取到每一路电的大致情况。当一个或多个DDR5 DIMM遇到PMIC电源故障时,会生成VR(Voltage Regulator电压调节器)关闭事件;在这种环境中,希望服务器平台继续通电,并且故障PMIC不会干扰服务器平台的操作,这就需要对故障PMIC进行故障隔离。
PMIC的故障隔离是在服务器启动过程中,BIOS在内存参考代码(MRC)执行阶段完成的,且PMIC故障隔离的最小粒度是内存通道。具体地,
BIOS代码集成内存参考代码(MRC),主要负责对内存初始化,包括内存检测、内存训练、内存测试、设置内存相关参数等,并可以在内存上电阶段,当检测到有故障的PMIC后,禁用故障PMIC所在通道,即禁用故障DDR5DIMM所在通道,从而可以隔离故障PMIC,实现对DDR5内存中PMIC电源故障的隔离。
由于内存参考代码(MRC)在检测到DDR5内存的PMIC电源故障后,会直接禁用故障DDR5内存所在内存通道,而每个内存通道可以支持多个DDR5内存,导致无法精准定位故障内存位置。并且,当DDR5内存存在其他禁用故障时,也会禁用相应内存通道,导致无法明确区分其他内存禁用故障隔离,即用户无法直接知道该内存故障是否与PMIC电源故障有关。
在这种情况下,一般需要用户运行多次试错测试或抓取更详细的BIOS串口信息,传递给后端研发进行分析定位,来识别是否为PMIC电源故障,并找到故障内存的准确位置。这种方式费时费力,难以快速准确地找到故障内存,导致PMIC电源故障可能长期存在,这也可能对内存和主板电压造成不良影响。
本发明实施例提供的一种PMIC电源故障的处理方法,优化DDR5内存电源故障的上报,将因PMIC电源故障隔导致的内存禁用故障,增加到基板管理控制器的系统事件日志故障里面,在BIOS启动过程中,可以通过基板管理控制器的系统事件日志记录该PMIC电源故障的详细报错信息,方便用户查看相应的PMIC电源故障信息及故障内存定位。
根据本发明实施例,提供了一种PMIC电源故障的处理方法实施例,需要说明的是,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
在本实施例中提供了一种PMIC电源故障的处理方法,可用于BIOS。图1是根据本发明实施例的PMIC电源故障的处理方法的流程图,如图1所示,该流程包括以下步骤。
步骤S101,预先为基板管理控制器的系统事件日志定义PMIC电源故障字段;该PMIC电源故障字段包括PMIC电源故障信息字段以及DDR5内存位置字段。
本实施例中,在DDR5内存中的PMIC存在故障时,即在DDR5内存存在PMIC电源故障时,为便于用户快速定位到该PMIC电源故障,将与该PMIC电源故障相关的信息以系统事件日志(System Event Log,SEL)的形式发送至基板管理控制器(Baseboard ManagementController,BMC),使得用户基于该基板管理控制器的系统事件日志即可方便地获取到与PMIC电源故障相关的信息,从而定位到存在PMIC电源故障的DDR5内存。该DDR5内存具体可以为DDR5 DIMM。
其中,为能够向基板管理控制器发送相应的故障信息,需要为基板管理控制器的系统事件日志定义相应的字段,本实施例中,将该字段称为PMIC电源故障字段。
具体地,该PMIC电源故障字段包括PMIC电源故障信息字段,基于该PMIC电源故障信息字段可以记录PMIC电源故障的故障信息,比如发生该PMIC电源故障的具体原因等。并且,该PMIC电源故障字段还DDR5内存位置字段,基于该DDR5内存位置字段可以方便地定位到发生PMIC电源故障的DDR5内存;例如,该DDR5内存位置字段可以表示DDR5内存所属的处理器、内存通道等。
步骤S102,在内存上电阶段,根据待测DDR5内存的PMIC寄存器确定待测DDR5内存是否存在PMIC电源故障。
本实施例中,服务器支持多个DDR5内存,BIOS可以对这些DDR5内存均进行电源故障处理,为方便描述,将需要进行电源故障管理的DDR5内存称为待测DDR5内存;可以理解,服务器中的任意DDR5内存均可作为待测DDR5内存,在存在多个待测DDR5内存时,BIOS可以按照相同的处理逻辑,对每个待测DDR5内存进行电源故障处理。
在内存上电阶段,待测DDR5内存的PMIC寄存器中,可能存在表示是否存在PMIC电源故障的数据位,BIOS读取这些数据位,基于读取到的数据即可确定待测DDR5内存的PMIC是否存在PMIC电源故障,并可以确定该PMIC电源故障的具体情况,例如该PMIC电源故障为电压过高或过低、临界温度异常等。
例如,服务器上电开机后,BIOS可以执行相应的内存参考代码(MRC),在内存参考代码跑到内存上电阶段(例如,PowerOnMem函数)后,即可使能DDR5内存的PMIC,并对PMIC寄存器进行数据读取。
步骤S103,在待测DDR5内存存在PMIC电源故障的情况下,根据PMIC电源故障字段向基板管理控制器上报系统事件日志信息;该系统事件日志信息包括PMIC电源故障的故障信息以及待测DDR5内存的位置信息。
本实施例中,若待测DDR5内存不存在PMIC电源故障,则按照常规方式,正常启动该待测DDR5内存即可。相反地,若通过读取待测DDR5内存的PMIC寄存器,确定该待测DDR5内存存在PMIC电源故障,此时可以根据与基板管理控制器预先约定的PMIC电源故障字段,生成符合该PMIC电源故障字段的信息,即系统事件日志信息,将该系统事件日志信息上报给基板管理控制器,使得基板管理控制器可以根据该系统事件日志信息,解析得到PMIC电源故障的具体情况。
其中,该系统事件日志信息包括PMIC电源故障的故障信息,该故障信息具体可以表示PMIC电源故障的具体类型、或者产生原因等。并且,系统事件日志信息还包括待测DDR5内存的位置信息,该位置信息表示发生故障的待测DDR5内存位于哪一位置,例如,该故障信息具体可以包括该待测DDR5内存所属的处理器、内存通道等。基于该位置信息可以快速准确地定位到发生故障的DDR5内存,基于该故障信息可以使得用户有针对性的解决该PMIC电源故障,保障,系统稳定运行。
步骤S104,禁用待测DDR5内存所在的内存通道。
本实施例中,将内存通道作为PMIC故障隔离的最小粒度,即当待测DDR5内存存在PMIC电源故障时,禁用该待测DDR5内存所在的内存通道,以实现禁用有故障的DDR5内存。可以理解,当内存通道支持多个DDR5内存时,禁用该内存通道会禁用多个DDR5内存,但由于向基板管理控制器上报了系统事件日志信息,故仍然可以实现对故障DDR5内存的定位,并确定故障的具体原因。
本实施例提供的PMIC电源故障的处理方法,在内存上电阶段读取待测DDR5内存的PMIC寄存器,从而可以确定是否存在PMIC电源故障,并在存在故障时向基板管理控制器上报相应的系统事件日志信息,使得用户基于基板管理控制器的系统事件日志可以方便地确定PMIC电源故障的具体位置,以及详细的故障信息,从而可以及时更换故障的DDR5内存,避免因PMIC电源故障造成的不良影响。
在本实施例中提供了一种PMIC电源故障的处理方法,可用于BIOS,图2是根据本发明实施例的PMIC电源故障的处理方法的流程图,如图2所示,该流程包括以下步骤。
步骤S201,预先为基板管理控制器的系统事件日志定义PMIC电源故障字段;该PMIC电源故障字段包括PMIC电源故障信息字段以及DDR5内存位置字段。
详细请参见图1所示实施例的步骤S101,在此不再赘述。
在一些可选的实施方式中,基板管理控制器的系统事件日志包括命令数据(Command Data),该命令数据具体包括多个事件数据(Event Data),本实施例中,利用该命令数据中的多个事件数据,定义PMIC电源故障字段。
具体地,命令数据中具体包括第一事件数据(Event Data 1)、第二事件数据(Event Data 2)、第三事件数据(Event Data 3),上述步骤S201“预先为基板管理控制器的系统事件日志定义PMIC电源故障字段”可以包括以下步骤A1至步骤A3。
步骤A1,为命令数据的第一事件数据中的错误类型字段新增表示PMIC存在故障的错误类型。
本实施例中,第一事件数据(Event Data 1)包括错误类型字段(Error Type),或者说,第一事件数据是包括错误类型字段的事件数据。其中,第一事件数据的低四位(Bit[3:0])为该错误类型字段,可表示为Event Data 1Bit[3:0]=Error Type。该错误类型字段中包含已有的错误类型,本实施例中,为该错误类型字段增加新的错误类型,新增的错误类型即可表示PMIC存在故障,或者说存在PMIC电源故障。
例如,将该错误类型字段的数值增加0x3,即当第一事件数据的低四位为0x3(即0011)时,则表示存在PMIC电源故障。具体地,当BIOS基于PMIC寄存器确定存在PMIC电源故障时,即可将该第一事件数据的低四位设置为0x3。
步骤A2,将命令数据的第二事件数据中的多个未定义数据位,定义为用于表示PMIC电源故障发生阶段的阶段字段,以及用于表示PMIC电源故障发生原因的PMIC电源故障类型字段。
为了能够表示故障信息,需要新增能够表示故障信息的字段,但BIOS与基板管理控制器之间的通信协议比较固定,增加字段改动较大;本实施例中,利用第二事件数据中的未定义数据位,来表示故障信息,或者说,第二事件数据是存在未定义数据位的事件数据。
顾名思义,未定义数据位指的是当前还没有定义功能的数据位。具体地,第二事件数据的低三位(Bit[2:0])是已经被定义的,例如第二事件数据的最低位(Event Data 2Bit[0])表示当前/上次Boot错误(Current/Last Boot Error),即第二事件数据的第四位(Bit[3])、第五位(Bit[4])等是未定义数据位,故可以基于这些未定义数据位表示故障信息。
其中,为便于详细划分具体的PMIC电源故障,将内存上电阶段分为第一阶段(Phase 1)和第二阶段(Phase 2),该阶段字段用于表示PMIC电源故障发生在第一阶段,还是第二阶段;后续详细介绍该第一阶段和第二阶段。本实施例中,需要表示的故障信息包括PMIC电源故障类型(PMIC Power fail type),以及PMIC电源故障所属的阶段(Phase),因此,需要新增用于表示PMIC电源故障发生阶段的阶段字段,以及用于表示PMIC电源故障发生原因的PMIC电源故障类型字段。
例如,可以将第二事件数据的第四位(Bit[3])作为阶段字段,即Event Data2Bit[3]=PMIC phase;例如,若第二事件数据的第四位(Bit[3])为0,表示第一阶段,为1,表示第二阶段。并且,将第二事件数据的第五位和第六位(Bit[5:4])作为PMIC电源故障类型字段,即Event Data 2Bit[5:4]=PMIC Power fail type;其中,在不同的阶段,PMIC电源故障类型字段的同一数值可以表示不同的含义,即表示不同类型的PMIC电源故障。
例如,在Event data 2bit[3]为0时,即PMIC电源故障属于第一阶段时,此时,Event data 2bit[5:4]为0x0(即00),表示第一阶段获取寄存器失败(Phase1Get Registerfail),为0x1(即01),表示第一阶段电压失败(Phase1 voltage fail:01),为0x2(即10),表示第一阶段临界温度(Phase1 Critical Temperature),即临界温度异常,例如临界温度偏高。在Event data 2bit[3]为1时,即PMIC电源故障属于第二阶段时,Event data 2bit[5:4]为0x0(即00),表示第二阶段带内中断(In Band Interrupt,IBI)错误(Phase 2IBIerror),为0x1(即01),表示第二阶段隔离错误(Phase 2Isolation error),此时表示电压调节器(VR)使能失败。
可选地,上述步骤A2“将命令数据的第二事件数据中的多个未定义数据位,定义为用于表示PMIC电源故障发生阶段的阶段字段,以及用于表示PMIC电源故障发生原因的PMIC电源故障类型字段”,具体可以包括以下步骤A21至步骤A
步骤A21,将第二事件数据中的多个未定义数据位中的最低位,作为用于表示PMIC电源故障发生阶段的阶段字段。
本实施例中,由于可以只将内存上电阶段分为第一阶段和第二阶段,即可以只将内存上电阶段分为两个阶段,相应地,该阶段字段只需要1bit的数据即可,其位数是比较固定的。
以多个未定义数据位中的最低位表示该阶段字段,在其余未定义数据位的功能定义发生变化时,不会影响该阶段字段,即不需要改变该阶段字段的功能定义。
例如,第二事件数据的低三位(Bit[2:0])是已经被定义的,故未定义数据位中的最低位,是第二事件数据的第四位,即Bit[3],因此,可以将第二事件数据的第四位作为该阶段字段。
步骤A22,确定第一种类数量和第二种类数量;该第一种类数量为第一阶段的PMIC电源故障的种类数量,该第二种类数量为第二阶段的PMIC电源故障的种类数量。
例如,第一阶段的PMIC电源故障具体包括:无法读取待测PMIC的错误日志寄存器、降压调节器输出电压异常、临界温度异常,故该第一种类数量为3;第二阶段的PMIC电源故障具体包括:触发带内中断(即,带内中断错误)、电压调节器使能失败(即隔离错误),故该第二种类数量为2。
步骤A23,根据该第一种类数量和第二种类数量确定PMIC电源故障类型字段的位数,且该PMIC电源故障类型字段的位数满足:
其中,N为PMIC电源故障类型字段的位数,n1为第一种类数量,n2为第二种类数量;max(n1,n2)表示取第一种类数量和第二种类数量中的较大值;表示向上取整函数。
步骤A24,选取该位数的未定义数据位作为PMIC电源故障类型字段。
本实施例中,该PMIC电源故障类型字段需要能够表示不同阶段的PMIC电源故障,故其需要能够表示第一种类数量和第二种类数量中的较大数量的PMIC电源故障;基于上式可以简单准确地确定PMIC电源故障类型字段的位数,从而可以合理的设置PMIC电源故障类型字段。
步骤A3,利用命令数据的第三事件数据表示DDR5内存位置字段;DDR5内存位置字段包括:处理器插槽编号字段、内存通道编号字段和DDR5内存编号字段。
本实施例中,第三事件数据表示DDR5内存位置字段,其具体可以表示DDR5内存所属的处理器插槽、内存通道、以及所属内存通道的第几个DDR5内存;相应的,该DDR5内存位置字段包括:处理器插槽编号字段、内存通道编号字段和DDR5内存编号字段。
例如,第三事件数据的低两位表示DDR5内存编号字段,以DDR5内存为DDR5 DIMM为例,可表示为:Event Data 3Bit[1:0]:DIMM Number;第三事件数据的中三位表示内存通道编号字段,可表示为:Event Data 3Bit[4:2]:Channel Number;第三事件数据的高三位表示处理器插槽编号字段,可表示为:Event Data 3Bit[7:5]:CPU Socket Number。
可以理解,若以上述第三事件数据表示DDR5内存编号字段,供可以支持八个CPU,每个CPU支持八个内存通道,每个内存通道支持四个DDR5 DIMM插槽。
具体地,该命令数据的一种形式可参见下表1所示。
表1
步骤S202,在内存上电阶段,根据待测DDR5内存的PMIC寄存器确定待测DDR5内存是否存在PMIC电源故障。
具体地,上述步骤S202“根据待测DDR5内存的PMIC寄存器确定待测DDR5内存是否存在PMIC电源故障”包括以下步骤S2021至步骤S2022。
步骤S2021,将内存上电阶段分为电压调节器使能前的第一阶段和电压调节器使能后的第二阶段。
本实施例中,服务器上电开机,通过应用VIN_Bulk(衬底输入电源)和VIN_Mgmt(管理输入电源)两种输入电源,为服务器的DDR5内存通电,且BIOS等待PMIC的电压调节器(VR)使能(VR Enable),例如等待tVIN_Mgmt和tVIN_Bulk信号使能。
根据PMIC的电压调节器是否使能,将内存上电阶段分为第一阶段和第二阶段;其中,第一阶段为电压调节器使能前的阶段,第二阶段为电压调节器使能后的阶段。
其中,PMIC的上电时序可参见图3所示,此处不做详述。
步骤S2022,在第一阶段和/或第二阶段,分别读取待测DDR5内存的相应PMIC寄存器,根据读取结果确定待测DDR5内存是否存在PMIC电源故障。
本实施例中,在第一阶段、第二阶段,DDR5内存的PMIC可能分别存在PMIC电源故障,可以对于两个阶段的PMIC电源故障均进行检测,也可以在PMIC存在第一阶段的PMIC电源故障时,不需要进入第二阶段,即不需要检测该PMIC的第二阶段是否存在PMIC电源故障。
在一些可选的实施方式中,上述步骤S2022“在第一阶段和/或第二阶段,分别读取待测DDR5内存的相应PMIC寄存器,根据读取结果确定待测DDR5内存是否存在PMIC电源故障”可以包括以下步骤B1至步骤B7。
步骤B1,在电压调节器使能前的第一阶段,读取待测PMIC的错误日志寄存器中用于表示降压调节器输出电压或临界温度的第一数据位;待测PMIC为待测DDR5内存的PMIC。
本实施例中,为方便描述,将待测DDR5内存的PMIC称为“待测PMIC”。在PMIC的电压调节器使能前,即在第一阶段,读取待测PMIC的错误日志寄存器;其中,有可能无法读取该错误日志寄存器,可选地,在无法读取待测PMIC的错误日志寄存器的情况下,生成表示在第一阶段寄存器读取失败的故障信息。
若能够读取待测PMIC的错误日志寄存器,则可基于该错误日志寄存器中的具体数值,确定是否存在相应的PMIC电源故障。
具体地,该错误日志寄存器是PMIC的一种状态寄存器,其地址为0x05;该错误日志寄存器中的低三位(bit[2:0])的数值,可以表示PMIC是否存在电压错误或临界温度是否异常,即该错误日志寄存器中的低三位即为第一数据位。
步骤B2,根据第一数据位的数值确定降压调节器输出电压或临界温度是否异常。
其中,若错误日志寄存器的低三位为0x2,则表示降压调节器输出电压过高或过低(Buck Regulator Output Over or Under Voltage),或者,若错误日志寄存器的低三位为0x3,表示临界温度(Critical Temperature)。在这些情况下,均可认为PMIC电源状态是异常的,即存在相应的PMIC电源故障。
步骤B3,在降压调节器输出电压或临界温度异常的情况下,确定待测DDR5内存存在第一阶段的PMIC电源故障,并生成表示在第一阶段降压调节器输出电压或临界温度异常的故障信息。
本实施例中,若降压调节器输出电压或临界温度异常,即若第一数据位为0x2或0x3,则可以确定该待测DDR5内存存在第一阶段的PMIC电源故障,从而可以生成相应的故障信息。
其中,该第一阶段的PMIC电源故障具体包括:无法读取待测PMIC的错误日志寄存器、降压调节器输出电压异常、临界温度异常。基于上述表1,可以将第二事件数据的Bit[3]设为0,将第二事件数据的Bit[5:4]设为相应的数值(00、01、10)。
此外,也可以基于第三事件数据表示该待测DDR5内存的位置信息。
步骤B4,向不存在第一阶段的PMIC电源故障的DDR5内存的PMIC广播电压调节器使能命令,以使能PMIC的电压调节器。
本实施例中,若待测DDR5内存存在第一阶段的PMIC电源故障,则可直接禁用该待测DDR5内存所在的内存通道,即在该待测DDR5内存的VR使能前,即已经禁用了该待测DDR5内存,不需要在对其VR进行使能。例如,可以通过给PMIC的配置寄存器0x32写0,从而关闭该PMIC的VR,并禁用同一通道中的所有DDR5内存。
若该待测DDR5内存不存在第一阶段的PMIC电源故障,则可对其VR进行使能,以进入第二阶段。
具体地,BIOS可以通过广播的方式,向当前的DDR5内存的PMIC广播电压调节器使能命令,以使能这些PMIC的电压调节器。
其中,将PMIC的非易失性存储器(NVM)中阈值和配置寄存器(地址为0x2F)bit[2]设置为1,关闭PMIC安全模式,从而允许所有PMIC寄存器写访问独立于CAMP(Control AndMonitor Port,控制和监控端口)输入信号,能够清除PMIC全局状态;之后向所有DDR5内存的PMIC广播VR使能命令,使能DDR5内存的PMIC的电压调节器(VR)。
步骤B5,在电压调节器使能后的第二阶段,在待测DDR5内存不存在第一阶段的PMIC电源故障的情况下,读取待测PMIC的状态寄存器中用于表示带内中断状态的第二数据位,并读取待测PMIC的配置寄存器中用于表示电压调节器使能状态的第三数据位。
步骤B6,根据第二数据位的数值确定是否触发带内中断,根据第三数据位的数值确定电压调节器是否使能失败。
本实施例中,若待测DDR5内存不存在第一阶段的PMIC电源故障,则可以进入第二阶段。在第二阶段,BIOS读取待测PMIC的状态寄存器和配置寄存器,该状态寄存器的地址为0x0A,该配置寄存器的地址为0x32。
具体地,待测PMIC的状态寄存器的第二位(bit[1])表示是否带内中断状态(IBI_STATUS),即该第二位(bit[1])是表示带内中断状态的第二数据位;若状态寄存器的第二位(bit[1])为1,则表示触发带内中断,即带内中断异常。待测PMIC的配置寄存器的第八位(bit[7])表示电压调节器使能状态(VR ENABLE),即该第八位(bit[7])是表示电压调节器使能状态的第三数据位;若配置寄存器的第八位(bit[7])为0,表示电压调节器使能失败。
步骤B7,在触发带内中断或电压调节器使能失败的情况下,确定待测DDR5内存存在第二阶段的PMIC电源故障,并生成表示在第二阶段触发带内中断或电压调节器使能失败的故障信息。
本实施例中,若触发带内中断或电压调节器使能失败,此时即可确定待测DDR5内存存在第二阶段的PMIC电源故障,从而可以生成相应的故障信息。
其中,该第二阶段的PMIC电源故障具体包括:触发带内中断(即,带内中断错误)、电压调节器使能失败(即隔离错误)。基于上述表1,可以将第二事件数据的Bit[3]设为1,将第二事件数据的Bit[5:4]设为相应的数值(00、01)。
若待测DDR5内存存在第二阶段的PMIC电源故障,则也可禁用该待测DDR5内存所在的内存通道。例如,可以通过给该PMIC待测DDR5内存的配置寄存器0x32写0,从而关闭该PMIC的VR,并禁用同一通道中的所有DDR5内存。
步骤S203,在待测DDR5内存存在PMIC电源故障的情况下,根据PMIC电源故障字段向基板管理控制器上报系统事件日志信息;该系统事件日志信息包括PMIC电源故障的故障信息以及待测DDR5内存的位置信息。
详细请参见图1所示实施例的步骤S103,在此不再赘述。
在一些可选的实施方式中,该方法还包括以下步骤C1。
步骤C1,在内存上电阶段,在待测DDR5内存存在PMIC电源故障的情况下,启动屏幕显示功能,在屏幕中显示PMIC电源故障的故障信息以及待测DDR5内存的位置信息。
本实施例中,在确定PMIC电源故障的故障信息以及待测DDR5内存的位置信息后,除了将其上报至基板管理控制器,还在BIOS启动时,在屏幕中显示该信息,即显示PMIC电源故障的故障信息以及待测DDR5内存的位置信息,使得用户基于屏幕显示内容可以及时得知当前存在PMIC电源故障,以及PMIC电源故障的具体信息。
可选地,上述步骤C1“在屏幕中显示PMIC电源故障的故障信息以及待测DDR5内存的位置信息”可以包括:在屏幕中以突出显示方式,显示PMIC电源故障的故障信息以及待测DDR5内存的位置信息;突出显示方式包括:高亮显示、以预设颜色显示、以预设频率显示中的至少一种。
本实施例中,在显示PMIC电源故障的相关信息时,可以对这些信息进行高亮显示,例如增加显示亮度;或者,可以以预设颜色显示,例如以红色字体显示这些信息;或者,也可以以预设频率显示,即通过闪烁的方式显示这些信息。通过突出显示这些信息,可以便于用于及时得知当前存在PMIC电源故障。
步骤S204,禁用待测DDR5内存所在的内存通道。
详细请参见图1所示实施例的步骤S104,在此不再赘述。
其中,在禁用内存通道后,对于电压调节器成功使能的PMIC,其可以使CAMP信号浮动,并且上拉电阻器将CAMP信号拉高,表明所有PMIC(即DDR5 DIMM)都已成功通电,之后即可设置PMIC的通电电压(包括Vdd和VddQ电压),并继续执行MRC内存训练和内存测试程序,最后配置函数,重置PMIC安全模式。
本实施例中,由于将内存上电阶段分为第一阶段和第二阶段,在这两个阶段可以分别检测是否存在PMIC电源故障,若存在PMIC电源故障,则可以在屏幕中显示相应的信息,并向基板管理控制器进行上报。参见图4所示,整个过程具体包括以下步骤S401至步骤S413。
步骤S401,服务器开机上电,等待使能。
其中,服务器上电开机,通过应用VIN_Bulk和VIN_Mgmt两种输入电源,为服务器的DDR5内存通电,且BIOS等待PMIC的电压调节器(VR)使能(VR Enable)。
BIOS的内存参考代码(MRC)跑到内存上电阶段(PowerOnMem函数),去使能DDR5内存的PMIC。
步骤S402,在第一阶段,检查PMIC的错误日志寄存器;若错误日志寄存器表示存在PMIC电源故障,则继续步骤S403,否则继续步骤S407。
步骤S403,确定第一阶段的第一PMIC错误信息。该第一错误信息具体包括第一阶段的PMIC电源故障的故障信息以及待测DDR5内存的位置信息。
步骤S404,屏幕显示第一PMIC错误信息。
例如,可以在屏幕显示错误码、故障阶段、位置信息和具体的错误原因。例如,可以在屏幕显示0x46+DDR5 Power failue phase1+CPUx_Cy_Dz+具体错误原因;其中,0x46表示错误码,CPUx例如可以为CPU0/CPU1…,其表示故障DDR5内存属于哪一CPU;Cy例如可以为C0,C1…C8,具体表示内存通道信息,Dz可以为D0,D1等,具体表示DDR5 DIMM的槽位信息。
步骤S405,向BMC上报第一PMIC错误信息。该第一PMIC错误信息即为一种系统事件日志信息。
步骤S406,禁用故障DDR5内存所在的内存通道。
步骤S407,对PMIC的VR使能。
步骤S408,检查PMIC的状态寄存器和配置寄存器;若状态寄存器或配置寄存器表示存在PMIC电源故障,则继续步骤S409,否则继续步骤S413。
步骤S409,确定第二阶段的第二PMIC错误信息。该第二错误信息具体包括第二阶段的PMIC电源故障的故障信息以及待测DDR5内存的位置信息。
步骤S410,屏幕显示第二PMIC错误信息。
步骤S411,向BMC上报第二PMIC错误信息。
步骤S412,禁用故障DDR5内存所在的内存通道。
步骤S413,正常处理无故障的DDR5内存。
例如,设置PMIC Vdd和VddQ电压,继续执行MRC内存训练和内存测试程序,在最后配置函数重置PMIC安全模式等。
本实施例提供的PMIC电源故障的处理方法,利用命令数据中的三个事件数据,可以方便地与BMC约定系统事件日志的信息格式,从而可以实现向BMC上报系统事件日志信息;将内存上电阶段分为两个阶段,可以更准确地定位PMIC电源故障的具体原因。在确定存在PMIC电源故障时,屏幕显示相应的PMIC电源故障信息,并向BMC上报该信息,使得用户可以及时注意到DDR5内存存在电源故障,并可以基于BMC的系统事件日志查看多个DDR5内存或多个服务器中的PMIC电源故障,方便进行故障处理。
在本实施例中还提供了一种PMIC电源故障的处理装置,该装置用于实现上述实施例及优选实施方式,已经进行过说明的不再赘述。如以下所使用的,术语“模块”可以是实现预定功能的软件和/或硬件的组合。尽管以下实施例所描述的装置较佳地以软件来实现,但是硬件,或者软件和硬件的组合的实现也是可能并被构想的。
本实施例提供一种PMIC电源故障的处理装置,如图5所示,包括:
定义模块501,用于预先为基板管理控制器的系统事件日志定义PMIC电源故障字段;所述PMIC电源故障字段包括PMIC电源故障信息字段以及DDR5内存位置字段;
故障确定模块502,用于在内存上电阶段,根据待测DDR5内存的PMIC寄存器确定所述待测DDR5内存是否存在PMIC电源故障;
上报模块503,用于在所述待测DDR5内存存在PMIC电源故障的情况下,根据所述PMIC电源故障字段向所述基板管理控制器上报系统事件日志信息;所述系统事件日志信息包括所述PMIC电源故障的故障信息以及所述待测DDR5内存的位置信息;
禁用模块504,用于禁用所述待测DDR5内存所在的内存通道。
在一些可选的实施方式中,所述故障确定模块502根据待测DDR5内存的PMIC寄存器确定所述待测DDR5内存是否存在PMIC电源故障,包括:
将所述内存上电阶段分为电压调节器使能前的第一阶段和电压调节器使能后的第二阶段;
在所述第一阶段和/或所述第二阶段,分别读取所述待测DDR5内存的相应PMIC寄存器,根据读取结果确定所述待测DDR5内存是否存在PMIC电源故障。
在一些可选的实施方式中,所述故障确定模块502在所述第一阶段和/或所述第二阶段,分别读取所述待测DDR5内存的相应PMIC寄存器,根据读取结果确定所述待测DDR5内存是否存在PMIC电源故障,包括:
在电压调节器使能前的第一阶段,读取待测PMIC的错误日志寄存器中用于表示降压调节器输出电压或临界温度的第一数据位;所述待测PMIC为所述待测DDR5内存的PMIC;
根据所述第一数据位的数值确定所述降压调节器输出电压或所述临界温度是否异常;
在所述降压调节器输出电压或所述临界温度异常的情况下,确定所述待测DDR5内存存在第一阶段的PMIC电源故障,并生成表示在第一阶段所述降压调节器输出电压或所述临界温度异常的故障信息;
向不存在第一阶段的PMIC电源故障的DDR5内存的PMIC广播电压调节器使能命令,以使能PMIC的电压调节器;
在电压调节器使能后的第二阶段,在所述待测DDR5内存不存在第一阶段的PMIC电源故障的情况下,读取所述待测PMIC的状态寄存器中用于表示带内中断状态的第二数据位,并读取所述待测PMIC的配置寄存器中用于表示电压调节器使能状态的第三数据位;
根据所述第二数据位的数值确定是否触发带内中断,根据所述第三数据位的数值确定电压调节器是否使能失败;
在触发带内中断或电压调节器使能失败的情况下,确定所述待测DDR5内存存在第二阶段的PMIC电源故障,并生成表示在第二阶段触发带内中断或电压调节器使能失败的故障信息。
在一些可选的实施方式中,所述故障确定模块502在所述第一阶段和/或所述第二阶段,分别读取所述待测DDR5内存的相应PMIC寄存器,根据读取结果确定所述待测DDR5内存是否存在PMIC电源故障,还包括:
在电压调节器使能前的第一阶段,若无法读取待测PMIC的错误日志寄存器,生成表示在第一阶段寄存器读取失败的故障信息。
在一些可选的实施方式中,所述基板管理控制器的系统事件日志包括命令数据;
所述定义模块501预先为基板管理控制器的系统事件日志定义PMIC电源故障字段,包括:
为所述命令数据的第一事件数据中的错误类型字段新增表示PMIC存在故障的错误类型;
将所述命令数据的第二事件数据中的多个未定义数据位,定义为用于表示PMIC电源故障发生阶段的阶段字段,以及用于表示PMIC电源故障发生原因的PMIC电源故障类型字段;
利用所述命令数据的第三事件数据表示DDR5内存位置字段;所述DDR5内存位置字段包括:处理器插槽编号字段、内存通道编号字段和DDR5内存编号字段。
在一些可选的实施方式中,该装置还包括显示模块,用于:
在内存上电阶段,在所述待测DDR5内存存在PMIC电源故障的情况下,启动屏幕显示功能,在屏幕中显示所述PMIC电源故障的故障信息以及所述待测DDR5内存的位置信息。
在一些可选的实施方式中,所述显示模块在屏幕中显示所述PMIC电源故障的故障信息以及所述待测DDR5内存的位置信息,包括:
在屏幕中以突出显示方式,显示所述PMIC电源故障的故障信息以及所述待测DDR5内存的位置信息;所述突出显示方式包括:高亮显示、以预设颜色显示、以预设频率显示中的至少一种。
上述各个模块和单元的更进一步的功能描述与上述对应实施例相同,在此不再赘述。
本实施例中的PMIC电源故障的处理装置是以功能单元的形式来呈现,这里的单元是指ASIC(Application Specific Integrated Circuit,专用集成电路)电路,包括执行一个或多个软件或固定程序的处理器和存储器,和/或其他可以提供上述功能的器件。
本发明实施例还提供一种计算机设备,具有上述图5所示的PMIC电源故障的处理装置。
请参阅图6,图6是本发明可选实施例提供的一种计算机设备的结构示意图,如图6所示,该计算机设备包括:一个或多个处理器10、存储器20,以及用于连接各部件的接口,包括高速接口和低速接口。各个部件利用不同的总线互相通信连接,并且可以被安装在公共主板上或者根据需要以其它方式安装。处理器可以对在计算机设备内执行的指令进行处理,包括存储在存储器中或者存储器上以在外部输入/输出装置(诸如,耦合至接口的显示设备)上显示GUI的图形信息的指令。在一些可选的实施方式中,若需要,可以将多个处理器和/或多条总线与多个存储器一起使用。同样,可以连接多个计算机设备,各个设备提供部分必要的操作(例如,作为服务器阵列、一组刀片式服务器、或者多处理器系统)。图6中以一个处理器10为例。
处理器10可以是中央处理器,网络处理器或其组合。其中,处理器10还可以进一步包括硬件芯片。上述硬件芯片可以是专用集成电路,可编程逻辑器件或其组合。上述可编程逻辑器件可以是复杂可编程逻辑器件,现场可编程逻辑门阵列,通用阵列逻辑或其任意组合。
其中,所述存储器20存储有可由至少一个处理器10执行的指令,以使所述至少一个处理器10执行实现上述实施例示出的方法。
存储器20可以包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需要的应用程序;存储数据区可存储根据计算机设备的使用所创建的数据等。此外,存储器20可以包括高速随机存取存储器,还可以包括非瞬时存储器,例如至少一个磁盘存储器件、闪存器件、或其他非瞬时固态存储器件。在一些可选的实施方式中,存储器20可选包括相对于处理器10远程设置的存储器,这些远程存储器可以通过网络连接至该计算机设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
存储器20可以包括易失性存储器,例如,随机存取存储器;存储器也可以包括非易失性存储器,例如,快闪存储器,硬盘或固态硬盘;存储器20还可以包括上述种类的存储器的组合。
该计算机设备还包括通信接口30,用于该计算机设备与其他设备或通信网络通信。
本发明实施例还提供了一种计算机可读存储介质,上述根据本发明实施例的方法可在硬件、固件中实现,或者被实现为可记录在存储介质,或者被实现通过网络下载的原始存储在远程存储介质或非暂时机器可读存储介质中并将被存储在本地存储介质中的计算机代码,从而在此描述的方法可被存储在使用通用计算机、专用处理器或者可编程或专用硬件的存储介质上的这样的软件处理。其中,存储介质可为磁碟、光盘、只读存储记忆体、随机存储记忆体、快闪存储器、硬盘或固态硬盘等;进一步地,存储介质还可以包括上述种类的存储器的组合。可以理解,计算机、处理器、微处理器控制器或可编程硬件包括可存储或接收软件或计算机代码的存储组件,当软件或计算机代码被计算机、处理器或硬件访问且执行时,实现上述实施例示出的方法。
虽然结合附图描述了本发明的实施例,但是本领域技术人员可以在不脱离本发明的精神和范围的情况下做出各种修改和变型,这样的修改和变型均落入由所附权利要求所限定的范围之内。
Claims (10)
1.一种PMIC电源故障的处理方法,其特征在于,所述方法包括:
预先为基板管理控制器的系统事件日志定义PMIC电源故障字段;所述PMIC电源故障字段包括PMIC电源故障信息字段以及DDR5内存位置字段;
在内存上电阶段,根据待测DDR5内存的PMIC寄存器确定所述待测DDR5内存是否存在PMIC电源故障;
在所述待测DDR5内存存在PMIC电源故障的情况下,根据所述PMIC电源故障字段向所述基板管理控制器上报系统事件日志信息;所述系统事件日志信息包括所述PMIC电源故障的故障信息以及所述待测DDR5内存的位置信息;
禁用所述待测DDR5内存所在的内存通道。
2.根据权利要求1所述的方法,其特征在于,所述根据待测DDR5内存的PMIC寄存器确定所述待测DDR5内存是否存在PMIC电源故障,包括:
将所述内存上电阶段分为电压调节器使能前的第一阶段和电压调节器使能后的第二阶段;
在所述第一阶段和/或所述第二阶段,分别读取所述待测DDR5内存的相应PMIC寄存器,根据读取结果确定所述待测DDR5内存是否存在PMIC电源故障。
3.根据权利要求2所述的方法,其特征在于,所述在所述第一阶段和/或所述第二阶段,分别读取所述待测DDR5内存的相应PMIC寄存器,根据读取结果确定所述待测DDR5内存是否存在PMIC电源故障,包括:
在电压调节器使能前的第一阶段,读取待测PMIC的错误日志寄存器中用于表示降压调节器输出电压或临界温度的第一数据位;所述待测PMIC为所述待测DDR5内存的PMIC;
根据所述第一数据位的数值确定所述降压调节器输出电压或所述临界温度是否异常;
在所述降压调节器输出电压或所述临界温度异常的情况下,确定所述待测DDR5内存存在第一阶段的PMIC电源故障,并生成表示在第一阶段所述降压调节器输出电压或所述临界温度异常的故障信息;
向不存在第一阶段的PMIC电源故障的DDR5内存的PMIC广播电压调节器使能命令,以使能PMIC的电压调节器;
在电压调节器使能后的第二阶段,在所述待测DDR5内存不存在第一阶段的PMIC电源故障的情况下,读取所述待测PMIC的状态寄存器中用于表示带内中断状态的第二数据位,并读取所述待测PMIC的配置寄存器中用于表示电压调节器使能状态的第三数据位;
根据所述第二数据位的数值确定是否触发带内中断,根据所述第三数据位的数值确定电压调节器是否使能失败;
在触发带内中断或电压调节器使能失败的情况下,确定所述待测DDR5内存存在第二阶段的PMIC电源故障,并生成表示在第二阶段触发带内中断或电压调节器使能失败的故障信息。
4.根据权利要求3所述的方法,其特征在于,所述在所述第一阶段和/或所述第二阶段,分别读取所述待测DDR5内存的相应PMIC寄存器,根据读取结果确定所述待测DDR5内存是否存在PMIC电源故障,还包括:
在电压调节器使能前的第一阶段,若无法读取待测PMIC的错误日志寄存器,生成表示在第一阶段寄存器读取失败的故障信息。
5.根据权利要求3所述的方法,其特征在于,所述基板管理控制器的系统事件日志包括命令数据;
所述预先为基板管理控制器的系统事件日志定义PMIC电源故障字段,包括:
为所述命令数据的第一事件数据中的错误类型字段新增表示PMIC存在故障的错误类型;
将所述命令数据的第二事件数据中的多个未定义数据位,定义为用于表示PMIC电源故障发生阶段的阶段字段,以及用于表示PMIC电源故障发生原因的PMIC电源故障类型字段;
利用所述命令数据的第三事件数据表示DDR5内存位置字段;所述DDR5内存位置字段包括:处理器插槽编号字段、内存通道编号字段和DDR5内存编号字段。
6.根据权利要求1至5中任一项所述的方法,其特征在于,还包括:
在内存上电阶段,在所述待测DDR5内存存在PMIC电源故障的情况下,启动屏幕显示功能,在屏幕中显示所述PMIC电源故障的故障信息以及所述待测DDR5内存的位置信息。
7.根据权利要求6所述的方法,其特征在于,所述在屏幕中显示所述PMIC电源故障的故障信息以及所述待测DDR5内存的位置信息,包括:
在屏幕中以突出显示方式,显示所述PMIC电源故障的故障信息以及所述待测DDR5内存的位置信息;所述突出显示方式包括:高亮显示、以预设颜色显示、以预设频率显示中的至少一种。
8.一种PMIC电源故障的处理装置,其特征在于,所述装置包括:
定义模块,用于预先为基板管理控制器的系统事件日志定义PMIC电源故障字段;所述PMIC电源故障字段包括PMIC电源故障信息字段以及DDR5内存位置字段;
故障确定模块,用于在内存上电阶段,根据待测DDR5内存的PMIC寄存器确定所述待测DDR5内存是否存在PMIC电源故障;
上报模块,用于在所述待测DDR5内存存在PMIC电源故障的情况下,根据所述PMIC电源故障字段向所述基板管理控制器上报系统事件日志信息;所述系统事件日志信息包括所述PMIC电源故障的故障信息以及所述待测DDR5内存的位置信息;
禁用模块,用于禁用所述待测DDR5内存所在的内存通道。
9.一种计算机设备,其特征在于,包括:
存储器和处理器,所述存储器和所述处理器之间互相通信连接,所述存储器中存储有计算机指令,所述处理器通过执行所述计算机指令,从而执行权利要求1至7中任一项所述的PMIC电源故障的处理方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机指令,所述计算机指令用于使计算机执行权利要求1至7中任一项所述的PMIC电源故障的处理方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410217156.9A CN118034983A (zh) | 2024-02-27 | 2024-02-27 | Pmic电源故障的处理方法、装置、计算机设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410217156.9A CN118034983A (zh) | 2024-02-27 | 2024-02-27 | Pmic电源故障的处理方法、装置、计算机设备及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN118034983A true CN118034983A (zh) | 2024-05-14 |
Family
ID=91003685
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202410217156.9A Pending CN118034983A (zh) | 2024-02-27 | 2024-02-27 | Pmic电源故障的处理方法、装置、计算机设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN118034983A (zh) |
-
2024
- 2024-02-27 CN CN202410217156.9A patent/CN118034983A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
WO2021169260A1 (zh) | 一种系统板卡电源检测方法、装置、设备及存储介质 | |
US20090150721A1 (en) | Utilizing A Potentially Unreliable Memory Module For Memory Mirroring In A Computing System | |
CN112286709B (zh) | 一种服务器硬件故障的诊断方法、诊断装置及诊断设备 | |
US9405717B2 (en) | Memory device debugging on host platforms | |
US8504877B2 (en) | Method and system for platform independent fault management | |
TWI759719B (zh) | 快閃記憶體控制器及用於快閃記憶體控制器的方法 | |
US10528110B2 (en) | Method for diagnosing power supply failure in a wireless communication device | |
CN109117299B (zh) | 服务器的侦错装置及其侦错方法 | |
CN113608684B (zh) | 内存信息获取方法、装置、系统、电子设备及存储介质 | |
CN117707884A (zh) | 一种监控电源管理芯片的方法、系统、设备和介质 | |
WO2024124862A1 (zh) | 基于服务器的内存处理方法和装置、处理器及电子设备 | |
CN118034983A (zh) | Pmic电源故障的处理方法、装置、计算机设备及存储介质 | |
TWI779682B (zh) | 電腦系統、電腦伺服器及其啟動方法 | |
US11762033B2 (en) | Power failure monitoring device and power failure monitoring method | |
CN104678292A (zh) | 一种复杂可编程逻辑器件cpld测试方法和装置 | |
US11593209B2 (en) | Targeted repair of hardware components in a computing device | |
CN116662042A (zh) | 内存装置及其工作方法、计算机可读存储介质及设备 | |
TW202242655A (zh) | 儲存有限狀態機之狀態資料的方法、電腦系統、及電腦程式產品 | |
US10732699B2 (en) | Redundancy in distribution of voltage-frequency scaling parameters | |
US20190310800A1 (en) | Method for accessing code sram and electronic device | |
TWI789983B (zh) | 電源管理方法及電源管理裝置 | |
CN114121138B (zh) | 内存电压测试方法、装置、计算设备及系统 | |
US20200183803A1 (en) | System For Completely Testing Communication Links Inside Processor According To Processor Information And Method Thereof | |
CN116755919A (zh) | 启动控制方法和装置、芯片及其调试系统 | |
CN117950346A (zh) | 硬件处理器系统监测方法、装置、设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |