CN115686896A - 扩展内存错误处理方法、系统、电子设备及存储介质 - Google Patents

扩展内存错误处理方法、系统、电子设备及存储介质 Download PDF

Info

Publication number
CN115686896A
CN115686896A CN202211183262.7A CN202211183262A CN115686896A CN 115686896 A CN115686896 A CN 115686896A CN 202211183262 A CN202211183262 A CN 202211183262A CN 115686896 A CN115686896 A CN 115686896A
Authority
CN
China
Prior art keywords
fault
host
information
memory
silk
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211183262.7A
Other languages
English (en)
Inventor
王海梦
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Suzhou Inspur Intelligent Technology Co Ltd
Original Assignee
Suzhou Inspur Intelligent Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Suzhou Inspur Intelligent Technology Co Ltd filed Critical Suzhou Inspur Intelligent Technology Co Ltd
Priority to CN202211183262.7A priority Critical patent/CN115686896A/zh
Publication of CN115686896A publication Critical patent/CN115686896A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Debugging And Monitoring (AREA)

Abstract

本申请提供了一种扩展内存故障处理方法、系统、电子设备及存储介质,包括:基于开放性互联协议连接主机与内存扩展池;故障发生时,基于预设规则获取故障ID;主机基于故障ID确定对应的故障狭槽口;主机基于故障狭槽口以及预存在内存扩展池内的位置信息表,获取对应的故障丝印信息;基于故障丝印信息更换故障终端设备。实现了利用故障上报机制准确定位故障设备,并基于预存的位置信息来提供故障设备对应的丝印信息,以方便现场工程师更快的定位故障设备;适用范围广,方便灵活。

Description

扩展内存错误处理方法、系统、电子设备及存储介质
技术领域
本发明涉及计算机技术领域,特别涉及一种扩展内存错误处理方法、系统、电子设备及存储介质。
背景技术
随着高性能计算、人工智能以及机器学习等技术的兴起,加速器越来越多的被运用来补充CPU算力不足的问题;而为了解决CPU、内存扩展以及加速器缓存一致性的问题,开放性互联协议(CXL,Compute Express Link)协议由此诞生。开放性互联协议允许CPU的内存和附加设备上的内存之间保持一致性。这样,内存之间可以资源共享以获取更高的性能,从而无需要求数据在不同设备之间的拷贝,进一步节省了内存空间,因此开放性互联协议的应用在未来有很大的发展空间。
但现阶段对于开放性互联协议的运用还在1.1版本阶段,同时由于intel芯片的限制,基于开放性互联协议的设备只支持type3也就是内存扩展设备。但是对于此类需要用过线缆连接的内存的错误上报存在一定的问题。由于之前内存都处在主板上,对于内存狭槽(slot)和主板丝印都是可以硬编码(hardcode)到固件(firmware)中,故障上报时,只需要“查表”即可,但是现在内存扩展池可能有不同的类型,狭槽和丝印信息也会有所不同,固件中不再能硬编码这些信息,因此无法实现对故障存储设备的准备定位。
因此,亟需一种针对这种应用场景,能够实现对故障定位的处理方法,以解决现有技术的上述技术问题。
发明内容
为了解决现有技术的不足,本发明的主要目的在于提供一种扩展内存错误处理方法、系统、电子设备及存储介质,以解决现有技术的上述技术问题。
为了达到上述目的,第一方面本发明提供了一种扩展内存错误处理方法,所述方法包括:
基于开放性互联协议连接主机与内存扩展池;
故障发生时,基于预设规则获取故障ID;
所述主机基于所述故障ID确定对应的故障狭槽口;
所述主机基于所述故障狭槽口以及预存在所述内存扩展池内的位置信息表,获取对应的故障丝印信息;
基于所述故障丝印信息更换故障终端设备。
在一些实施例中,所述内存扩展池包括内存控制器以及多个上行端口;
其中,所述内存控制器基于开放性互联协议与所述主机内的主机控制器进行通信;
所述上行端口内包含多个狭槽口,用于连接终端设备。
在一些实施例中,应用于所述内存扩展池,所述方法包括:
收集每一所述狭槽口的丝印信息;
基于所述狭槽口与对应的丝印信息生成所述位置信息表并存储在现场可更换单元中;
其中,所述现场可更换单元提供查询接口。
在一些实施例中,所述故障发生时,基于预设规则获取故障ID,包括:
主机对应的下行端口、所述内存扩展池对应的上行端口以及终端设备分别基于高级错误报告机制,上报故障信息至事件收集器,所述故障信息至少包括故障ID。
在一些实施例中,所述主机基于所述故障ID确定对应的故障狭槽口,包括:
查询所述事件收集器内是否存在所述故障ID;
若所述事件收集器内存在所述故障ID,则触发系统管理中断,基本输入输出系统进入系统管理模式;
基本输入输出系统基于所述故障ID,遍历所述主机连接的所有终端设备对应的设备拓扑,以确定故障狭槽口。
在一些实施例中,所述方法还包括:
机器上电后,所述主机与所述内存控制器交换信息以获取所述位置信息表;
其中,所述主机与所述内存控制器交换信息的方式包括:
利用基本输入输出系统基于ipmi命令访问内存控制器和/或
利用主机控制器访问所述内存控制器交换信息。
在一些实施例中,所述基于所述故障丝印信息更换故障终端设备,还包括:
所述主机内基本输入输出系统基于所述故障丝印信息生成报错信息;
所述基本输入输出系统基于ipmi命令将所述报错信息发送给所述主机控制器;
所述主机控制器基于所述报错信息,生成故障提示以提示用户更换所述故障丝印信息定位到的故障终端设备。
第二方面,本申请提供了一种扩展内存故障处理系统,所述系统包括:
内存扩展模块,用于基于开放性互联协议连接主机与内存扩展池;
故障检测模块,用于故障发生时,基于预设规则获取故障ID;
故障处理模块,用于利用所述主机基于所述故障ID确定对应的故障狭槽口;
数据处理模块,用于所述主机基于所述故障狭槽口以及预存在所述内存扩展池内的位置信息表,获取对应的故障丝印信息;
所述故障处理模块,还用于基于所述故障丝印信息更换故障终端设备。
第三方面,本申请提供了一种电子设备,所述电子设备包括:
一个或多个处理器;
以及与所述一个或多个处理器关联的存储器,所述存储器用于存储程序指令,所述程序指令在被所述一个或多个处理器读取执行时,执行如下操作:
基于开放性互联协议连接主机与内存扩展池;
故障发生时,基于预设规则获取故障ID;
所述主机基于所述故障ID确定对应的故障狭槽口;
所述主机基于所述故障狭槽口以及预存在所述内存扩展池内的位置信息表,获取对应的故障丝印信息;
基于所述故障丝印信息更换故障终端设备。
第四方面,本申请还提供了一种计算机可读存储介质,所述存储介质上存储计算机程序,所述计算机程序使得计算机执行如下操作:
基于开放性互联协议连接主机与内存扩展池;
故障发生时,基于预设规则获取故障ID;
所述主机基于所述故障ID确定对应的故障狭槽口;
所述主机基于所述故障狭槽口以及预存在所述内存扩展池内的位置信息表,获取对应的故障丝印信息;
基于所述故障丝印信息更换故障终端设备。
本申请实现的有益效果为:
本申请提供了一种扩展内存故障处理方法,包括:基于开放性互联协议连接主机与内存扩展池;故障发生时,基于预设规则获取故障ID;所述主机基于所述故障ID确定对应的故障狭槽口;所述主机基于所述故障狭槽口以及预存在所述内存扩展池内的位置信息表,获取对应的故障丝印信息;基于所述故障丝印信息更换故障终端设备。实现了利用故障上报机制准确定位故障设备,并基于预存的位置信息来提供故障设备对应的丝印信息,以方便现场工程师更快的定位故障设备;适用性广,方便灵活。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图,其中:
图1是本申请实施例提供的内存扩展池与主机连接方法示意图;
图2是本申请实施例提供的错误上报机制示意图;
图3是本申请实施例提供的扩展内存故障处理方法示意图;
图4是本申请实施例提供的扩展内存故障处理系统架构图;
图5是本申请实施例提供的电子设备结构图。
具体实施方式
为使本申请的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
应当理解,在本申请的描述中,除非上下文明确要求,否则整个说明书和权利要求书中的“包括”、“包含”等类似词语应当解释为包含的含义而不是排他或穷举的含义;也就是说,是“包括但不限于”的含义。
还应当理解,术语“第一”、“第二”等仅用于描述目的,而不能理解为指示或暗示相对重要性。此外,在本申请的描述中,除非另有说明,“多个”的含义是两个或两个以上。
需要注意的是,术语“S1”、“S2”等仅用于步骤的描述目的,并非特别指称次序或顺位的意思,亦非用以限定本申请,其仅仅是为了方便描述本申请的方法,而不能理解为指示步骤的先后顺序。另外,各个实施例之间的技术方案可以相互结合,但是必须是以本领域普通技术人员能够实现为基础,当技术方案的结合出现相互矛盾或无法实现时应当认为这种技术方案的结合不存在,也不在本申请要求的保护范围之内。
实施例一
针对基于开放性互联协议连接的内存扩展设备,本申请实施例了提供一种扩展内存错误处理方法,具体的,过程包括:
S1、故障发生时,基于预设规则获取故障ID。
本申请实施例应用于基于开放性互联协议连接至主机的内存扩展设备,各内存扩展设备构成内存扩展池,图1公开了一种典型的内存扩展池与主机服务器的连接方法,如图1所示,内存扩展池中并不存在单独的基本输入输出系统(BIOS,Basic Input OutputSystem),但是内存扩展池中存在单独的基板管理控制器(BMC,Baseboard ManagementController),记为内存控制器,其中内存扩展池还包括多个上行端口,上述上行端口内包含多个狭槽口(slot),用于连接终端设备即内存扩展设备,如DIMM(Dual Inline MemoryModule,双列直插内存模块)等。主机服务器基于HP接口与内存扩展池的上行端口进行连接,同时内存扩展池内的内存控制器与主机内的主机控制器相连接,可交换信息。
其中,所述内存控制器基于开放性互联协议与所述主机内的主机控制器进行通信;
所述上行端口内包含多个狭槽口,用于连接终端设备。
本申请实施例采用AER(Advanced Error Reporting,高级错误报告)错误报告机制,对故障进行报告,AER错误报告机制相对于其他已有的错误报告机制而言,还支持以下特性:在登记实际发生的错误类型时,有更好的粒度(Granularity,可以理解为区分度或者精确度)、区分各种不可校正错误的严重程度、支持登记包头中的错误、为Root通过中断报告接收到的错误消息提供了标准化的控制机制、可以定位错误源在PCIe体系结构中的位置以及能够独立地屏蔽某种(或者多种)错误类型的报告;因此本申请实施例采用AER错误报告机制以增强故障检测的准确性。可以理解的是,本申请实施例中还可采用其他准确性较高的且可应用于开放性互联协议中的错误报告机制,本申请对具体的错误报告机制不做限定。
如图2所示,本申请实施在故障发生时,主机对应的下行端口(HP/DP)、内存扩展池对应的上行端口(UP)以及终端设备分别基于高级错误报告机制,分别进行记录后上报故障信息至事件收集器RCEC,Root Complex Event Collector),故障信息至少包括故障ID(Request ID),其中故障ID为故障进行上报时自动生成的,用于指示发生故障的设备。
S2、主机基于故障ID确定对应的故障狭槽口。
具体的,主机查询事件收集器内是否存在所述故障ID,如果事件收集器内存在上述故障ID,那么主机将会触发系统管理中断(SMI,System Management Interrupt),此时主机内的基本输入输出系统会进入系统管理模式(SMM,System Management Mode),SMM是一个对所有Intel处理器都统一的标准体系结构特性,提供了一种透明的机制,在SMM下,当保存当前正在运行程序的整个上下文(Context)时,处理器切换到一个分离的地址空间。然后SMM指定的代码或许被透明的执行。当从SMM返回时,处理器将回到被系统管理中断之前的状态。此时,因此在这种模式下,可实现在不影响主机处理后续工作的情况下,利用基本输入输出系统基于故障ID,遍历所述主机连接的所有终端设备对应的设备拓扑,以确定故障狭槽口。
S3、主机基于故障狭槽口以及预存在内存扩展池内的位置信息表,获取对应的故障丝印信息。
具体的,上述位置信息表预先存储在内存扩展池中,由内存扩展池中的内存控制器收集内存扩展池内各个狭槽口的丝印信息并填入现场可更换单元(FRU,Field ReplaceUnit中,并基于各个狭槽口与对应的丝印信息生成所述位置信息表并存储在现场可更换单元中;其中,不同终端设备上的丝印信息也不一致,通常会包括如下的信息,logo、IC的名称、IC的其他信息(如架构)、批号、生产日期(或出厂日期)、产地和Pin1的信息等。
上述现场可更换单元提供查询接口以供主机获取上述位置信息表,具体的,机器上电后,主机通过与内存控制器进行信息交换以获取上述位置信息表,其中,主机与内存控制器交换信息的方式包括但不限于以下两种方式:利用主机内的基本输入输出系统基于ipmi(Intelligent Platform Management Interface,智能平台管理接口)命令访问内存控制器以及利用主机控制器直接访问内存控制器进行信息交换。本申请实施例,提前在内存扩展池内的现场可更换单元中写入丝印信息,在可更换内存扩展机箱的应用场景下,如果需要适配不同信号的内存扩展机箱,可直接通过更换现场可更换单元即可实现,灵活方便,可在不修改主机基本输入输出系统的情况下适配各个型号的内存扩展机箱。主机根据获取到的故障狭槽口,查询位置信息表并确定与故障狭槽口对应的故障丝印信息。
S4、基于故障丝印信息更换故障终端设备。
具体的,主机内基本输入输出系统基于故障丝印信息生成报错信息;基本输入输出系统基于ipmi命令将所述报错信息发送给所述主机控制器;主机控制器基于报错信息,生成故障提示以提示用工作人员更换故障丝印信息定位到的故障终端设备。
实施例二
对应上述实施例一,本申请实施例还提供了一种扩展内存错误处理方法,如图3所示,具体如下:
3100、基于开放性互联协议连接主机与内存扩展池;
所述内存扩展池包括内存控制器以及多个上行端口;
其中,所述内存控制器基于开放性互联协议与所述主机内的主机控制器进行通信;
所述上行端口内包含多个狭槽口,用于连接终端设备。
优选的,应用于所述内存扩展池,所述方法包括:
3110、收集每一所述狭槽口的丝印信息;
3120、基于所述狭槽口与对应的丝印信息生成所述位置信息表并存储在现场可更换单元中;
其中,所述现场可更换单元提供查询接口。
3200、故障发生时,基于预设规则获取故障ID;
优选的,所述故障发生时,基于预设规则获取故障ID,包括:
3210、主机对应的下行端口、所述内存扩展池对应的上行端口以及终端设备分别基于高级错误报告机制,上报故障信息至事件收集器,所述故障信息至少包括故障ID。
3300、所述主机基于所述故障ID确定对应的故障狭槽口;
优选的,所述主机基于所述故障ID确定对应的故障狭槽口,包括:
3310、查询所述事件收集器内是否存在所述故障ID;
3320、若所述事件收集器内存在所述故障ID,则触发系统管理中断,基本输入输出系统进入系统管理模式;
3330、基本输入输出系统基于所述故障ID,遍历所述主机连接的所有终端设备对应的设备拓扑,以确定故障狭槽口。
3400、所述主机基于所述故障狭槽口以及预存在所述内存扩展池内的位置信息表,获取对应的故障丝印信息;
优选的,所述方法还包括:
3410、机器上电后,所述主机与所述内存控制器交换信息以获取所述位置信息表;
其中,所述主机与所述内存控制器交换信息的方式包括:
利用基本输入输出系统基于ipmi命令访问内存控制器和/或
利用主机控制器访问所述内存控制器交换信息。
3500、基于所述故障丝印信息更换故障终端设备。
优选的,所述基于所述故障丝印信息更换故障终端设备,还包括:
3510、所述主机内基本输入输出系统基于所述故障丝印信息生成报错信息;
3520、所述基本输入输出系统基于ipmi命令将所述报错信息发送给所述主机控制器;
3530、所述主机控制器基于所述报错信息,生成故障提示以提示用户更换所述故障丝印信息定位到的故障终端设备。
实施例三
如图4所示,对应上述实施例一和实施例二,本申请实施例提供了一种扩展内存错误处理系统,所述系统包括:
内存扩展模块410,用于基于开放性互联协议连接主机与内存扩展池;
故障检测模块420,用于故障发生时,基于预设规则获取故障ID;
故障处理模块430,用于利用所述主机基于所述故障ID确定对应的故障狭槽口;
数据处理模块440,用于所述主机基于所述故障狭槽口以及预存在所述内存扩展池内的位置信息表,获取对应的故障丝印信息;
所述故障处理模块430,还用于基于所述故障丝印信息更换故障终端设备。
在一些实施例中,所述内存扩展池包括内存控制器以及多个上行端口;
其中,所述内存控制器基于开放性互联协议与所述主机内的主机控制器进行通信;
所述上行端口内包含多个狭槽口,用于连接终端设备。
在一些实施例中,所述内存扩展模块410还用于收集每一所述狭槽口的丝印信息;所述内存扩展模块410还用于基于所述狭槽口与对应的丝印信息生成所述位置信息表并存储在现场可更换单元中;
其中,所述现场可更换单元提供查询接口。
在一些实施例中,所述故障检测模块420还用于利用主机对应的下行端口、所述内存扩展池对应的上行端口以及终端设备分别基于高级错误报告机制,上报故障信息至事件收集器,所述故障信息至少包括故障ID。
在一些实施例中,所述故障处理模块430还用于利用主机查询所述事件收集器内是否存在所述故障ID;若所述事件收集器内存在所述故障ID,则所述故障处理模块430还用于触发系统管理中断,基本输入输出系统进入系统管理模式;所述故障处理模块430还用于利用基本输入输出系统基于所述故障ID,遍历所述主机连接的所有终端设备对应的设备拓扑,以确定故障狭槽口。
在一些实施例中,所述数据处理模块440还用于在机器上电后,利用所述主机与所述内存控制器交换信息以获取所述位置信息表;其中,所述主机与所述内存控制器交换信息的方式包括:利用基本输入输出系统基于ipmi命令访问内存控制器和/或利用主机控制器访问所述内存控制器交换信息。
在一些实施例中,所述故障处理模块430还用于利用所述主机内基本输入输出系统基于所述故障丝印信息生成报错信息;所述故障处理模块430还用于利用所述基本输入输出系统基于ipmi命令将所述报错信息发送给所述主机控制器;所述故障处理模块430还用于利用所述主机控制器基于所述报错信息,生成故障提示以提示用户更换所述故障丝印信息定位到的故障终端设备。
实施例四
对应上述所有实施例,本申请实施例提供一种电子设备,包括:
一个或多个处理器;以及与所述一个或多个处理器关联的存储器,所述存储器用于存储程序指令,所述程序指令在被所述一个或多个处理器读取执行时,执行如下步骤:
步骤A、基于开放性互联协议连接主机与内存扩展池;
步骤B、故障发生时,基于预设规则获取故障ID;
步骤C、所述主机基于所述故障ID确定对应的故障狭槽口;
步骤D、所述主机基于所述故障狭槽口以及预存在所述内存扩展池内的位置信息表,获取对应的故障丝印信息;
步骤E、基于所述故障丝印信息更换故障终端设备。
其中,所述内存扩展池包括内存控制器以及多个上行端口;所述内存控制器基于开放性互联协议与所述主机内的主机控制器进行通信;所述上行端口内包含多个狭槽口,用于连接终端设备。
在一些实施例中,还执行如下步骤:
收集每一所述狭槽口的丝印信息;
基于所述狭槽口与对应的丝印信息生成所述位置信息表并存储在现场可更换单元中;
其中,所述现场可更换单元提供查询接口。
在一些实施例中,还执行如下步骤:
主机对应的下行端口、所述内存扩展池对应的上行端口以及终端设备分别基于高级错误报告机制,上报故障信息至事件收集器,所述故障信息至少包括故障ID。
在一些实施例中,还执行如下步骤:
查询所述事件收集器内是否存在所述故障ID;
若所述事件收集器内存在所述故障ID,则触发系统管理中断,基本输入输出系统进入系统管理模式;
利用基本输入输出系统基于所述故障ID,遍历所述主机连接的所有终端设备对应的设备拓扑,以确定故障狭槽口。
在一些实施例中,还执行如下步骤:
机器上电后,利用所述主机与所述内存控制器交换信息以获取所述位置信息表;
其中,所述主机与所述内存控制器交换信息的方式包括:
利用基本输入输出系统基于ipmi命令访问内存控制器和/或
利用主机控制器访问所述内存控制器交换信息。
在一些实施例中,还执行如下步骤:
利用所述主机内基本输入输出系统基于所述故障丝印信息生成报错信息;
利用所述基本输入输出系统基于ipmi命令将所述报错信息发送给所述主机控制器;
利用所述主机控制器基于所述报错信息,生成故障提示以提示用户更换所述故障丝印信息定位到的故障终端设备。
其中,图5示例性的展示出了电子设备的架构,具体可以包括处理器510,视频显示适配器511,磁盘驱动器512,输入/输出接口513,网络接口514,以及存储器520。上述处理器510、视频显示适配器511、磁盘驱动器512、输入/输出接口513、网络接口514,与存储器520之间可以通过总线530进行通信连接。
其中,处理器510可以采用通用的CPU(Central Processing Unit,中央处理器)、微处理器、应用专用集成电路(Application Specific Integrated Circuit,ASIC)、或者一个或多个集成电路等方式实现,用于执行相关程序,以实现本申请所提供的技术方案。
存储器520可以采用ROM(Read Only Memory,可编写存储器)、RAM(Random AccessMemory,随机存取存储器)、静态终端设备,动态终端设备等形式实现。存储器520可以存储用于控制电子设备500执行的操作系统521,用于控制电子设备500的低级别操作的基本输入输出系统(BIOS)522。另外,还可以存储网页浏览器523,数据存储管理系统524,以及图标字体处理系统525等等。上述图标字体处理系统525就可以是本申请实施例中具体实现前述各步骤操作的应用程序。总之,在通过软件或者固件来实现本申请所提供的技术方案时,相关的程序代码保存在存储器520中,并由处理器510来调用执行。
输入/输出接口513用于连接输入/输出模块,以实现信息输入及输出。输入输出/模块可以作为组件配置在设备中(图中未示出),也可以外接于设备以提供相应功能。其中输入设备可以包括键盘、鼠标、触摸屏、麦克风、各类传感器等,输出设备可以包括显示器、扬声器、振动器、指示灯等。
网络接口514用于连接通信模块(图中未示出),以实现本设备与其他设备的通信交互。其中通信模块可以通过有线方式(例如USB、网线等)实现通信,也可以通过无线方式(例如移动网络、WIFI、蓝牙等)实现通信。
总线530包括一通路,在设备的各个组件(例如处理器510、视频显示适配器511、磁盘驱动器512、输入/输出接口513、网络接口514,与存储器520)之间传输信息。
另外,该电子设备500还可以从虚拟资源对象领取条件信息数据库中获得具体领取条件的信息,以用于进行条件判断,等等。
需要说明的是,尽管上述设备仅示出了处理器510、视频显示适配器511、磁盘驱动器512、输入/输出接口513、网络接口514,存储器520,总线530等,但是在具体实施过程中,该设备还可以包括实现正常执行所必需的其他组件。此外,本领域的技术人员可以理解的是,上述设备中也可以仅包含实现本申请方案所必需的组件,而不必包含图中所示的全部组件。
实施例六
对应上述所有实施例,本申请实施例还提供一种计算机可读存储介质,其特征在于,其存储计算机程序,所述计算机程序使得计算机如下操作:
基于开放性互联协议连接主机与内存扩展池;
故障发生时,基于预设规则获取故障ID;
所述主机基于所述故障ID确定对应的故障狭槽口;
所述主机基于所述故障狭槽口以及预存在所述内存扩展池内的位置信息表,获取对应的故障丝印信息;
基于所述故障丝印信息更换故障终端设备。
其中,所述内存扩展池包括内存控制器以及多个上行端口;所述内存控制器基于开放性互联协议与所述主机内的主机控制器进行通信;所述上行端口内包含多个狭槽口,用于连接终端设备。
所述计算机还执行如下操作:收集每一所述狭槽口的丝印信息;基于所述狭槽口与对应的丝印信息生成所述位置信息表并存储在现场可更换单元中;其中,所述现场可更换单元提供查询接口。
所述计算机还执行如下操作:控制主机对应的下行端口、所述内存扩展池对应的上行端口以及终端设备分别基于高级错误报告机制,上报故障信息至事件收集器,所述故障信息至少包括故障ID。
所述计算机还执行如下操作:查询所述事件收集器内是否存在所述故障ID;若所述事件收集器内存在所述故障ID,则触发系统管理中断,基本输入输出系统进入系统管理模式;基本输入输出系统基于所述故障ID,遍历所述主机连接的所有终端设备对应的设备拓扑,以确定故障狭槽口。
所述计算机还执行如下操作:机器上电后,利用所述主机与所述内存控制器交换信息以获取所述位置信息表;其中,所述主机与所述内存控制器交换信息的方式包括:利用基本输入输出系统基于ipmi命令访问内存控制器和/或利用主机控制器访问所述内存控制器交换信息。
所述计算机还执行如下操作:控制所述主机内基本输入输出系统基于所述故障丝印信息生成报错信息;控制所述基本输入输出系统基于ipmi命令将所述报错信息发送给所述主机控制器;控制所述主机控制器基于所述报错信息,生成故障提示以提示用户更换所述故障丝印信息定位到的故障终端设备。
通过以上的实施方式的描述可知,本领域的技术人员可以清楚地了解到本申请可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,云服务端,或者网络设备等)执行本申请各个实施例或者实施例的某些部分所述的方法。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于系统或系统实施例而言,由于其基本相似于方法实施例,所以描述得比较简单,相关之处参见方法实施例的部分说明即可。以上所描述的系统及系统实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
以上所述仅为本申请的较佳实施例,并不用以限制本申请,凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。

Claims (10)

1.一种扩展内存错误处理方法,其特征在于,所述方法包括:
基于开放性互联协议连接主机与内存扩展池;
故障发生时,基于预设规则获取故障ID;
所述主机基于所述故障ID确定对应的故障狭槽口;
所述主机基于所述故障狭槽口以及预存在所述内存扩展池内的位置信息表,获取对应的故障丝印信息;
基于所述故障丝印信息更换故障终端设备。
2.根据权利要求1所述的方法,其特征在于,
所述内存扩展池包括内存控制器以及多个上行端口;
其中,所述内存控制器基于开放性互联协议与所述主机内的主机控制器进行通信;
所述上行端口内包含多个狭槽口,用于连接终端设备。
3.根据权利要求1所述的方法,其特征在于,应用于所述内存扩展池,所述方法包括:
收集每一所述狭槽口的丝印信息;
基于所述狭槽口与对应的丝印信息生成所述位置信息表并存储在现场可更换单元中;
其中,所述现场可更换单元提供查询接口。
4.根据权利要求3所述的方法,其特征在于,所述故障发生时,基于预设规则获取故障ID,包括:
主机对应的下行端口、所述内存扩展池对应的上行端口以及终端设备分别基于高级错误报告机制,上报故障信息至事件收集器,所述故障信息至少包括故障ID。
5.根据权利要求4所述的方法,其特征在于,所述主机基于所述故障ID确定对应的故障狭槽口,包括:
查询所述事件收集器内是否存在所述故障ID;
若所述事件收集器内存在所述故障ID,则触发系统管理中断,基本输入输出系统进入系统管理模式;
基本输入输出系统基于所述故障ID,遍历所述主机连接的所有终端设备对应的设备拓扑,以确定故障狭槽口。
6.根据权利要求1所述的方法,其特征在于,所述方法还包括:
机器上电后,所述主机与所述内存控制器交换信息以获取所述位置信息表;
其中,所述主机与所述内存控制器交换信息的方式包括:
利用基本输入输出系统基于ipmi命令访问内存控制器和/或
利用主机控制器访问所述内存控制器交换信息。
7.根据权利要求4所述的方法,其特征在于,所述基于所述故障丝印信息更换故障终端设备,还包括:
所述主机内基本输入输出系统基于所述故障丝印信息生成报错信息;
所述基本输入输出系统基于ipmi命令将所述报错信息发送给所述主机控制器;
所述主机控制器基于所述报错信息,生成故障提示以提示用户更换所述故障丝印信息定位到的故障终端设备。
8.一种扩展内存错误处理系统,其特征在于,所述系统包括:
内存扩展模块,用于基于开放性互联协议连接主机与内存扩展池;
故障检测模块,用于故障发生时,基于预设规则获取故障ID;
故障处理模块,用于利用所述主机基于所述故障ID确定对应的故障狭槽口;
数据处理模块,用于所述主机基于所述故障狭槽口以及预存在所述内存扩展池内的位置信息表,获取对应的故障丝印信息;
所述故障处理模块,还用于基于所述故障丝印信息更换故障终端设备。
9.一种电子设备,其特征在于,所述电子设备包括:
一个或多个处理器;
以及与所述一个或多个处理器关联的存储器,所述存储器用于存储程序指令,所述程序指令在被所述一个或多个处理器读取执行时,执行权利要求1-7任一所述方法。
10.一种计算机可读存储介质,其特征在于,其存储计算机程序,所述计算机程序使得计算机执行权利要求1-7中任一所述方法。
CN202211183262.7A 2022-09-27 2022-09-27 扩展内存错误处理方法、系统、电子设备及存储介质 Pending CN115686896A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211183262.7A CN115686896A (zh) 2022-09-27 2022-09-27 扩展内存错误处理方法、系统、电子设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211183262.7A CN115686896A (zh) 2022-09-27 2022-09-27 扩展内存错误处理方法、系统、电子设备及存储介质

Publications (1)

Publication Number Publication Date
CN115686896A true CN115686896A (zh) 2023-02-03

Family

ID=85063291

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211183262.7A Pending CN115686896A (zh) 2022-09-27 2022-09-27 扩展内存错误处理方法、系统、电子设备及存储介质

Country Status (1)

Country Link
CN (1) CN115686896A (zh)

Similar Documents

Publication Publication Date Title
CN109471770B (zh) 一种系统管理方法和装置
US9952963B2 (en) System on chip and corresponding monitoring method
US7543191B2 (en) Method and apparatus for isolating bus failure
TW201714432A (zh) 管理方法、服務控制器裝置以及非暫態電腦可讀取媒體
CN111414268B (zh) 故障处理方法、装置及服务器
CN105183575A (zh) 处理器故障的诊断方法、装置及系统
CN112286709A (zh) 一种服务器硬件故障的诊断方法、诊断装置及诊断设备
WO2021004256A1 (zh) 一种节点故障时进行节点切换的方法及相关设备
CN114003445B (zh) Bmc的i2c监控功能测试方法、系统、终端及存储介质
CN109547274A (zh) 一种维护板切换方法、装置及第一网络设备
CN110727611B (zh) 一种带状态监测的可配置一致性验证系统
CN112650612A (zh) 一种内存故障定位方法及装置
CN114564334B (zh) 一种mrpc数据处理方法、系统及相关组件
CN115686896A (zh) 扩展内存错误处理方法、系统、电子设备及存储介质
CN116340068A (zh) 一种服务器、主板及一种服务器的外接设备故障定位方法
CN116126613A (zh) 一种PCIe设备的位置检测方法、装置、电子设备及存储介质
CN114003416B (zh) 内存错误动态处理方法、系统、终端及存储介质
CN115599617A (zh) 总线检测方法、装置、服务器及电子设备
CN117873853B (zh) 数据记录方法、装置、电子设备及介质
JPWO2008120383A1 (ja) 情報処理装置、障害処理方法
WO2024016864A1 (zh) 处理器、获取信息的方法、单板及网络设备
CN115629825B (zh) 一种服务器及其资产信息获取方法、提供方法和装置
CN117234793B (zh) 数据存储方法、系统、设备及介质
US11797368B2 (en) Attributing errors to input/output peripheral drivers
CN113535494B (zh) 一种设备调试的方法及电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination