CN113961478A - 一种内存故障记录方法以及装置 - Google Patents

一种内存故障记录方法以及装置 Download PDF

Info

Publication number
CN113961478A
CN113961478A CN202111140428.2A CN202111140428A CN113961478A CN 113961478 A CN113961478 A CN 113961478A CN 202111140428 A CN202111140428 A CN 202111140428A CN 113961478 A CN113961478 A CN 113961478A
Authority
CN
China
Prior art keywords
fault
information
memory
space
failure
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111140428.2A
Other languages
English (en)
Inventor
陈昊
高春筱
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
New H3C Cloud Technologies Co Ltd
Original Assignee
New H3C Cloud Technologies Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by New H3C Cloud Technologies Co Ltd filed Critical New H3C Cloud Technologies Co Ltd
Priority to CN202111140428.2A priority Critical patent/CN113961478A/zh
Publication of CN113961478A publication Critical patent/CN113961478A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F12/00Accessing, addressing or allocating within memory systems or architectures
    • G06F12/02Addressing or allocation; Relocation
    • G06F12/0223User address space allocation, e.g. contiguous or non contiguous base addressing
    • G06F12/023Free address space management
    • G06F12/0238Memory management in non-volatile memory, e.g. resistive RAM or ferroelectric memory
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3003Monitoring arrangements specially adapted to the computing system or computing system component being monitored
    • G06F11/3037Monitoring arrangements specially adapted to the computing system or computing system component being monitored where the computing system component is a memory, e.g. virtual memory, cache
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3065Monitoring arrangements determined by the means or processing involved in reporting the monitored data

Abstract

本说明书提供一种内存故障记录方法以及装置,涉及通信技术领域。一种内存故障记录方法,应用于服务器的处理器,包括:若确定内存发生故障,则对故障内存进行检测;获取故障内存的故障信息;将故障信息发送至服务器的基板管理控制器BMC,以使BMC将故障信息写入至故障内存的串行存在检测SPD空间。通过上述方法,可以提高服务器的可靠性。

Description

一种内存故障记录方法以及装置
技术领域
本说明书涉及通信技术领域,尤其涉及一种内存故障记录方法以及装置。
背景技术
随着互联网的发展,服务器作为承载业务的重要设备应用也随之增加,因此,如何稳定可靠地工作就成为了服务器的重要指标之一。在对外支持业务运行的情况下,服务器中的各器件不可避免的会出现故障,那么,记录出现故障的器件以及该器件故障的原因对于服务器的维护具有很大的作用,尤其是针对服务器中内存的故障。
在服务器中设置有处理器、BMC(基板管理控制器,Baseboard ManagementController)和内存等。在当前的实现中,若内存出现故障,处理器在通过BIOS(基础输入输出系统,Basic Input Output System)后,会将相关的故障信息记录到BMC中,这些故障信息的记录与内存本身的关联性较弱。在服务器的运维过程中,可能会由于成本的考虑而保留替换下来的内存,并将其插接到其他的服务器中使用,此时,由于该内存与原记录的BMC分离,在另一服务器上无法复现该内存曾经出现的故障,从而导致重复的使用了故障的内存,降低服务器的可靠性。
发明内容
为克服相关技术中存在的问题,本说明书提供了一种内存故障记录方法以及装置。
结合本说明书实施方式的第一方面,本申请提供了一种内存故障记录方法,应用于服务器的处理器,包括:
若确定内存发生故障,则对故障内存进行检测;
获取故障内存的故障信息;
将故障信息发送至服务器的基板管理控制器BMC,以使BMC将故障信息写入至故障内存的串行存在检测SPD空间。
可选的,将故障信息发送至服务器的BMC,包括:
分别向服务器的BMC发送事件日志以及系统诊断日志,其中,事件日志和系统诊断日志中分别携带有部分故障信息。
结合本说明书实施方式的第二方面,本申请提供了一种内存故障记录方法,应用于服务器的BMC,包括:
接收处理器所发送的、针对故障内存所获取的故障信息;
获取故障内存的状态信息;
将故障信息和状态信息写入至故障内存的SPD空间。
进一步的,在获取故障内存的状态信息之后,还包括
将故障信息和状态信息记录于BMC的存储空间,其中,故障信息包括故障类型,SPD空间中根据不同的故障类型被划分有至少两块记录空间;
将故障信息和状态信息写入至故障内存的SPD空间,包括:
将不同故障类型的故障信息以及该故障信息所对应的状态信息写入到SPD空间内不同的记录空间中。
可选的,在将不同故障类型的故障信息以及该故障信息所对应的状态信息写入到SPD空间内不同的记录空间中之前,还包括:
若SPD空间中不存在空闲的记录空间,则停止向SPD空间写入;
将不同故障类型的故障信息以及该故障信息所对应的状态信息写入到SPD空间内不同的记录空间中,具体为:
若SPD空间中存在空闲的记录空间,将不同故障类型的故障信息以及该故障信息所对应的状态信息写入到SPD空间内不同的记录空间中。
可选的,在将故障信息和状态信息记录于BMC的存储空间之后,还包括:
根据故障信息,确定第一故障次数,其中,故障次数用于表示故障内存发生相同故障的次数;
在BMC的存储空间中记录与该故障信息相对应第一故障次数;
将故障信息和状态信息写入至故障内存的SPD空间,包括:
若SPD空间已被写满,则确定SPD空间中已写入的故障信息所对应的第二故障次数;
若第一故障次数大于第二故障次数且第二故障次数小于预设次数,则将故障信息和状态信息写入至故障内存的SPD空间,替换已写入的故障信息和该故障信息所对应的状态信息。
结合本说明书实施方式的第三方面,本申请提供了一种内存故障记录装置,应用于服务器的处理器,包括:
检测单元,用于若确定内存发生故障,则对故障内存进行检测;
获取单元,用于获取故障内存的故障信息;
发送单元,用于将故障信息发送至服务器的BMC,以使BMC将故障信息写入至故障内存的串行存在检测SPD空间。
可选的,发送单元,包括:
分别向服务器的BMC发送事件日志以及系统诊断日志,其中,事件日志和系统诊断日志中分别携带有部分故障信息。
结合本说明书实施方式的第四方面,本申请提供了一种内存故障记录装置,应用于服务器的BMC,包括:
接收单元,用于接收处理器所发送的、针对故障内存所获取的故障信息;
获取单元,用于获取故障内存的状态信息;
写入单元,用于将故障信息和状态信息写入至故障内存的SPD空间。
可选的,该装置,还包括
记录单元,用于将故障信息和状态信息记录于BMC的存储空间,其中,故障信息包括故障类型,SPD空间中根据不同的故障类型被划分有至少两块记录空间;
写入单元,包括:
第一写入模块,用于将不同故障类型的故障信息以及该故障信息所对应的状态信息写入到SPD空间内不同的记录空间中。
可选的,写入单元,还包括:
停止模块,用于若SPD空间中不存在空闲的记录空间,则停止向SPD空间写入;
第一写入模块,具体用于若SPD空间中存在空闲的记录空间,将不同故障类型的故障信息以及该故障信息所对应的状态信息写入到SPD空间内不同的记录空间中。
可选的,该装置,还包括:
计数单元,用于根据故障信息,确定第一故障次数,在BMC的存储空间中记录与该故障信息相对应第一故障次数,其中,故障次数用于表示故障内存发生相同故障的次数;
写入单元,包括:
确认模块,用于若SPD空间已被写满,则确定SPD空间中已写入的故障信息所对应的第二故障次数;
替换模块,用于若第一故障次数大于第二故障次数且第二故障次数小于预设次数,则将故障信息和状态信息写入至故障内存的SPD空间,替换已写入的故障信息和该故障信息所对应的状态信息。
本说明书的实施方式提供的技术方案可以包括以下有益效果:
本说明书实施方式中,在处理器检测到内存发生故障后,对故障内存进行检测获取故障信息,并将该故障信息传输给BMC,BMC继而获取该故障内存的状态信息,并将所接收到的故障信息和状态信息下发至故障内存的SPD空间进行存储,使故障内存能够在非易失性存储器中记录该自身的故障信息,从而使故障内存保持自身的故障信息,即使在将该故障内存切换至服务器中的其他位置或者另一服务器时,工作人员也可以确定故障内存所存在的问题,避免严重故障的内存被错误地使用,提高了服务器的可靠性。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本说明书。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本说明书的实施方式,并与说明书一起用于解释本说明书的原理。
图1是本申请所涉及的一种内存故障记录方法的流程图,适用于服务器中的处理器;
图2是本申请的实施方式所涉及的一种服务器的结构示意图;
图3是本申请所涉及的另一种内存故障记录方法的流程图,适用于服务器中的BMC;
图4是本申请所涉及的一种内存故障记录装置的结构示意图,适用于服务器中的处理器;
图5本申请所涉及的另一种内存故障记录方法的结构示意图,适用于服务器中的BMC。
具体实施方式
这里将详细地对示例性实施方式进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施方式中所描述的实施方式并不代表与本说明书相一致的所有实施方式。
本申请提供了一种内存故障记录方法,应用于服务器的处理器,如图1所示,包括:
S100、若确定内存发生故障,则对故障内存进行检测。
S101、获取故障内存的故障信息。
在如图2所示的服务器中,设置有处理器、BMC以及内存,其中,处理器和BMC分别通过I2C总线(集成电路总线,Inter-Integrated Circuit)连接至内存。在内存上设置有SPD(串行存在检查,Serial Presence Detect)空间,该SPD空间是内存上所设置的一个EEPROM(带电可擦可编程只读存储器,Electrically Erasable Programmable Read OnlyMemory),用于存储内存的相关参数,例如,工作电压、速度、工作频率和容量等。由于该SPD空间具有一定的预留空间,因此,可以在该SPD空间中划分出多块存储空间用于存储该内存的故障信息,该存储空间后续可以称为记录空间。一块记录空间可以存储一条故障类型的故障信息,一般来说,内存的故障包含两种类型,即CE(可修正错误,Correctable Error)和UCE(不可修正错误,UnCorrectable Error)。在SPD空间中可以根据不同的故障类型分配多段记录空间所存储的内容,在该记录空间中还可以存储发生故障时,内存的状态信息,比如温度等,这些状态信息对辅助实现故障诊断。
举例而言,在SPD空间中可以划分出两段记录空间,每一块记录空间可以设置16字节,其中,第一块记录空间可以记录CE类的故障信息,第二块记录空间可以记录UCE类的故障信息。当然,记录空间的数量不限于两块,也可以设置更多,并且可以不均等地分配给不同类型的故障信息,比如在SPD空间中划分出四块记录空间,将其中的三块记录空间分配给UCE类的故障信息,将其中的一块记录空间分配给CE类的故障信息。
这样分配是因为对于服务器而言,CE类的故障可以被服务器自身修复,或者说这类故障并不会造成服务器的功能失效,而UCE类的故障无法被服务器自身修复,可能造成服务器的宕机。作为工作人员而言,对于CE类的故障的关注度并不高,而相对而言更需要了解UCE类的故障。
在服务器运行过程中,若内存出现故障,则会产生故障中断上送服务器的处理器,此时,处理器可以基于该故障中断对该故障内存进行检测,确定出故障信息。该故障信息可以包含故障类型(即UCE类故障和CE类故障)和第一故障位置,该第一故障位置可以包含Socket(处理器位置)、Channel(通道)、Dimm(模块)、Rank(模组)和Chip(存储芯片)等相关信息,通过这些信息可以粗略的标识出内存故障出现的位置。当然,如果希望得到更加准确的故障位置,故障信息中还可以进一步包括第二故障位置,即包含Bank group(存储矩阵库组)、Bank(存储矩阵库)、Column(列)和Row(行)。
通过第一故障位置,可以确定出故障发生在哪一个Chip上,在此基础上结合第二故障位置,则可以确定出故障发生在哪一个Cell(存储单元)上,该存储单元即可以理解为内存中最小的存储颗粒。
其中,处理器检测故障内存,并确定出故障类型为常见的实现方式,在此不再赘述。
S102、将故障信息发送至服务器的BMC,以使BMC将故障信息写入至故障内存的SPD空间。
在获取到故障信息后,处理器可以将故障信息发送至BMC。在BMC中设置有存储空间,BMC可以将获取到的故障信息存储到存储空间中,以供后续告警等处理。比如,BMC可以将该故障信息反馈给外部的管理设备,以使工作人员远程监控服务器中各器件的工作状态。并且,为了使故障内存能够保持自身所出现的故障,BMC还可以将该故障信息写入到该故障内存的SPD空间中。针对BMC的处理后续进行描述。
进一步的,步骤S102、将故障信息发送至服务器的BMC,包括:
S102A、分别向服务器的BMC发送事件日志以及系统诊断日志。
在处理器和BMC之间的交互,可以基于IPMI(智能平台管理接口,IntelligentPlatform Management Interface)通过KCS(键盘控制控制器方式,Keyboard ControllerStyle)通道进行。在处理器确定内存故障后,分别获取第一故障信息,或者第一故障信息和第二故障信息,并将第一故障信息携带在事件日志中发送给BMC。如果处理器也检测到了第二故障信息,则可以单独设置另一日志,后续称为系统诊断日志,该系统诊断日志可以携带更为详细的第二故障信息。
在BMC接收到事件日志和系统诊断日志后,分别进行解析,以获取其中携带的不同的故障信息并存储到自身的存储空间中。为了建立事件日志和系统诊断日志之间的关联,二者都需要携带故障内存的识别信息,比如在在系统诊断日志中也可以携带故障内存的Socket(插座)、Channel(通道)、Dimm(模块)等信息,这些信息可以使BMC确定出处理器所连接的多个内存中的一个内存。
在BMC中,结合事件日志和系统诊断日志,可以生成针对一次故障的故障记录。由于BMC所需要记录的故障是针对处理器所连接的全部内存,因此,BMC中用于记录故障的存储空间要远大于一个内存中所设置的、用于存储故障信息的SPD空间。需要说明的是,处理器和BMC之间的交互故障信息的方式不限于上述的事件日志和故障日志,也可以基于其他的协议或其他的方式,在此不再赘述。
相对应的,本申请还提供了一种内存故障记录方法,应用于服务器的BMC,如图3所示,包括:
S200、接收处理器所发送的、针对故障内存所获取的故障信息。
S201、获取故障内存的状态信息。
通过上述的处理器和BMC之间的交互,BMC可以接收到处理器检测得到的故障信息。并且,BMC在服务器运行过程中,会持续性地获取服务器中所设置的各传感器等器件的状态信息。以温度传感器为例,该温度传感器用于检测服务器内部的环境温度,在BMC中可以设置周期性的检测。
在BMC接收到处理器所发送的故障信息时,可以一并存储最近一次检测到的温度等状态信息,这些状态信息可以辅助工作人员判断内存出现故障的故障原因。比如若BMC检测到的温度过高,则可以从过热产生的原因来排查该内存故障。
另外,该状态信息还可以是经由电压传感器或电流传感器所获取到的电压或电流,通过该电压和电流的信息,工作人员可以从服务器中的电路故障入手排查内存故障。当然,所需要获取的状态信息也可以基于需求进行设置,对此不做限制。
S202、将故障信息和状态信息写入至故障内存的SPD空间。
此后,BMC可以基于与内存之间的通道,即通过I2C总线,将故障信息和状态信息一并写入到SPD空间中。
可选的,在步骤S201、获取故障内存的状态信息之后,还包括
S203、将故障信息和状态信息记录于BMC的存储空间。
故障信息包括故障类型,相对应的,可以在SPD空间中根据不同的故障类型被划分有至少两块记录空间。BMC在接收到故障信息并获取到状态信息时,在自身的存储空间中存储该故障信息和状态信息,这是由于BMC的存储空间相对较大,可以维护有更多的故障信息。
并且,BMC还可以基于与外部管理设备的数据交互,将所有的故障信息反馈到管理设备上进行显示,以使工作人员能够掌握更加全面的故障信息。
步骤S203、将故障信息和状态信息写入至故障内存的SPD空间,包括:
S203A、将不同故障类型的故障信息以及该故障信息所对应的状态信息写入到SPD空间内不同的记录空间中。
在SPD空间中划分出一块记录空间用于记录CE类的故障信息,划分出三块记录空间用于记录UCE类的故障信息。每一块记录空间可以设置有若干字节,以16字节为例,从SPD空间0x190位置开始,到0x1CF位置为止,设置有四块记录空间用于记录内存的故障信息,其中0x190~0x19F这16字节用来记录CE错误,0x1A0~0x1CF这48字节用来记录三条UCE错误。具体的可以如下表1所示。
Figure BDA0003283533750000091
Figure BDA0003283533750000101
针对一块记录空间,00H字节可以用于记录故障类型,即CE类或UCE类,01H可以用于记录故障次数,02H-03H可以用于第一故障位置,04H-07H可以用于记录第二故障位置,08H-0CH可以用于记录故障发生时的时间,0DH用于记录故障的设备标识,0EH用于记录故障时的温度,0FH用于记录校验信息。当然,上述的仅为一种形式,不限于此。
在BMC存储了故障信息和状态信息后,还可以通过筛选的方式选择存储到SPD空间的故障信息内容。比如在包含有一块记录空间用以记录CE类故障时,则可以从BMC中记录的多条故障信息中筛选出一条写入到CE类的记录空间中。比如,可以基于故障次数的多少,也可以基于故障次数和故障时间来确定。针对UCE类的故障信息,可以采用相类似的方式写入UCE类的记录空间中。
可选的,在步骤S203A、将不同故障类型的故障信息以及该故障信息所对应的状态信息写入到SPD空间内不同的记录空间中之前,还包括:
S203B、若SPD空间中不存在空闲的记录空间,则停止向SPD空间写入。
S203C、将不同故障类型的故障信息以及该故障信息所对应的状态信息写入到SPD空间内不同的记录空间中,具体为:
若SPD空间中存在空闲的记录空间,将不同故障类型的故障信息以及该故障信息所对应的状态信息写入到SPD空间内不同的记录空间中。
由于内存出现故障的情况并不常见,因此,在不需要准确地确定故障原因时,可以仅记录最初所出现的故障所对应的故障信息和状态信息,尤其是针对UCE类的故障。
假设在内存发生了三次UCE类的故障的情况下,该内存的SPD空间中所保留的三段UCE类的记录空间已经被写满。此时,即使BMC再次接收到UCE类的故障信息,BMC在确认到SPD空间中的UCE类的记录空间都已被占用的情况下,则可以仅在自身的存储空间中记录故障信息和状态信息,而不再向SPD空间写入,从而减少内存和BMC之间的交互,节省了内存和BMC的运算资源。
可选的,在步骤S203、将故障信息和状态信息记录于BMC的存储空间之后,还包括:
S204、根据故障信息,确定第一故障次数。
S205、在BMC的存储空间中记录与该故障信息相对应第一故障次数。
其中,故障次数用于表示故障内存发生相同故障的次数,在BMC的存储空间和内存的SPD空间中所记录的故障信息中,都可以存储该故障次数。
在BMC接收到故障信息并存储后,根据故障信息中的故障类型以及故障位置以及BMC中当前记录的故障信息确定出本次的故障信息是否已经被记录过。具体而言,首先,BMC可以判断故障类型,即接收到的故障信息为CE类故障还是UCE类故障;其次,BMC可以判断该故障信息中的故障位置是否与已经存储的故障信息的故障位置相同。如果二者都匹配,那么在BMC在自身的存储空间中写入时,无需覆盖原有的记录,只需要更新上一次记录中的部分信息即可。另外,BMC可以更新其中的故障时间和故障次数,并相对应的以最新的状态信息覆盖上一次记录中的状态信息即可。
为了使得内存中所携带的故障信息能够更加准确地反映该内存的故障情况,进一步的,步骤S203、将故障信息和状态信息写入至故障内存的SPD空间,包括:
S203D、若SPD空间已被写满,则确定SPD空间中已写入的故障信息所对应的第二故障次数。
在故障信息被写入到BMC并完成更新后,BMC还可以通过I2C总线确认SPD空间中所记录的故障信息,该故障信息中包含有第二故障次数。由于SPD空间中并不会全部记录处理器发送过来的故障信息,因此,故障内存的SPD空间中所存储的故障信息所包含的故障次数与BMC中的故障信息的故障次数并不一致。此时,BMC可以按照上述的方式确定是否相同的故障,不再重复描述。
S203E、若第一故障次数大于第二故障次数且第二故障次数小于预设次数,则将故障信息和状态信息写入至故障内存的SPD空间,替换已写入的故障信息和该故障信息所对应的状态信息。
在内存出现故障的时候,有一些故障可能出现的时间较早,但仅出现过很少的次数,这些故障可能无法最准确地反映内存最严重的故障。为了能够更新SPD空间中的故障信息,并且不会多于频繁地修改SPD空间中的内容。在BMC中可以设置预设次数,该预设次数可以认为是一个故障信息的界限值,当第二故障次数大于该预设次数时,则说明内存重复出现过若干次该故障,需要进行记录,此时,即使BMC判断出另一故障的故障次数已经超出了第二故障次数,也不会再更新SPD空间中的该故障信息。
相反的,如果SPD空间中已经记录的故障信息的第二故障次数没有超过预设次数,则在BMC判断出另一故障的故障次数超出了第二故障次数时,将会用本次故障的故障信息替换掉SPD空间中的故障信息。
这样一来,在SPD空间中所保留的故障信息可以是出现次数较多的故障,即使在该内存安装到另一服务器上时,也可以使得工作人员这些故障信息更准确地确定内存的可靠程度,提升了服务器运行的可靠性。
相对应的,本申请还提供了一种内存故障记录装置,如图4所示,应用于服务器的处理器,包括:
检测单元,用于若确定内存发生故障,则对故障内存进行检测;
获取单元,用于获取故障内存的故障信息;
发送单元,用于将故障信息发送至服务器的BMC,以使BMC将故障信息写入至故障内存的串行存在检测SPD空间。
可选的,发送单元,包括:
分别向服务器的BMC发送事件日志以及系统诊断日志,其中,事件日志和系统诊断日志中分别携带有部分故障信息。
相对应的,本申请还提供了一种内存故障记录装置,如图5所示,应用于服务器的BMC,包括:
接收单元,用于接收处理器所发送的、针对故障内存所获取的故障信息;
获取单元,用于获取故障内存的状态信息;
写入单元,用于将故障信息和状态信息写入至故障内存的SPD空间。
可选的,该装置,还包括
记录单元,用于将故障信息和状态信息记录于BMC的存储空间,其中,故障信息包括故障类型,SPD空间中根据不同的故障类型被划分有至少两块记录空间;
写入单元,包括:
第一写入模块,用于将不同故障类型的故障信息以及该故障信息所对应的状态信息写入到SPD空间内不同的记录空间中。
可选的,写入单元,还包括:
停止模块,用于若SPD空间中不存在空闲的记录空间,则停止向SPD空间写入;
第一写入模块,具体用于若SPD空间中存在空闲的记录空间,将不同故障类型的故障信息以及该故障信息所对应的状态信息写入到SPD空间内不同的记录空间中。
可选的,该装置,还包括:
计数单元,用于根据故障信息,确定第一故障次数,在BMC的存储空间中记录与该故障信息相对应第一故障次数,其中,故障次数用于表示故障内存发生相同故障的次数;
写入单元,包括:
确认模块,用于若SPD空间已被写满,则确定SPD空间中已写入的故障信息所对应的第二故障次数;
替换模块,用于若第一故障次数大于第二故障次数且第二故障次数小于预设次数,则将故障信息和状态信息写入至故障内存的SPD空间,替换已写入的故障信息和该故障信息所对应的状态信息。
本说明书实施方式中,在处理器检测到内存发生故障后,对故障内存进行检测获取故障信息,并将该故障信息传输给BMC,BMC继而获取该故障内存的状态信息,并将所接收到的故障信息和状态信息下发至故障内存的SPD空间进行存储,使故障内存能够在非易失性存储器中记录该自身的故障信息,从而使故障内存保持自身的故障信息,即使在将该故障内存切换至服务器中的其他位置或者另一服务器时,工作人员也可以确定故障内存所存在的问题,避免严重故障的内存被错误地使用,提高了服务器的可靠性。
应当理解的是,本说明书并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。
以上所述仅为本说明书的较佳实施方式而已,并不用以限制本说明书,凡在本说明书的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本说明书保护的范围之内。

Claims (12)

1.一种内存故障记录方法,其特征在于,应用于服务器的处理器,包括:
若确定内存发生故障,则对故障内存进行检测;
获取所述故障内存的故障信息;
将所述故障信息发送至所述服务器的基板管理控制器BMC,以使所述BMC将所述故障信息写入至所述故障内存的串行存在检测SPD空间。
2.根据权利要求1所述的方法,其特征在于,所述将所述故障信息发送至所述服务器的BMC,包括:
分别向所述服务器的BMC发送事件日志以及系统诊断日志,其中,所述事件日志和所述系统诊断日志中分别携带有部分所述故障信息。
3.一种内存故障记录方法,其特征在于,应用于服务器的BMC,包括:
接收处理器所发送的、针对故障内存所获取的故障信息;
获取所述故障内存的状态信息;
将所述故障信息和所述状态信息写入至所述故障内存的SPD空间。
4.根据权利要求3所述的方法,其特征在于,在所述获取所述故障内存的状态信息之后,还包括
将所述故障信息和所述状态信息记录于所述BMC的存储空间,其中,所述故障信息包括故障类型,所述SPD空间中根据不同的故障类型被划分有至少两块记录空间;
所述将所述故障信息和所述状态信息写入至所述故障内存的SPD空间,包括:
将不同故障类型的故障信息以及该故障信息所对应的状态信息写入到所述SPD空间内不同的记录空间中。
5.根据权利要求4所述的方法,其特征在于,在将不同故障类型的故障信息以及该故障信息所对应的状态信息写入到所述SPD空间内不同的记录空间中之前,还包括:
若所述SPD空间中不存在空闲的记录空间,则停止向所述SPD空间写入;
所述将不同故障类型的故障信息以及该故障信息所对应的状态信息写入到所述SPD空间内不同的记录空间中,具体为:
若所述SPD空间中存在空闲的记录空间,将不同故障类型的故障信息以及该故障信息所对应的状态信息写入到所述SPD空间内不同的记录空间中。
6.根据权利要求3所述的方法,其特征在于,在将所述故障信息和所述状态信息记录于所述BMC的存储空间之后,还包括:
根据所述故障信息,确定第一故障次数,其中,故障次数用于表示所述故障内存发生相同故障的次数;
在所述BMC的存储空间中记录与该故障信息相对应第一故障次数;
所述将所述故障信息和所述状态信息写入至所述故障内存的SPD空间,包括:
若所述SPD空间已被写满,则确定所述SPD空间中已写入的故障信息所对应的第二故障次数;
若所述第一故障次数大于所述第二故障次数且所述第二故障次数小于预设次数,则将所述故障信息和所述状态信息写入至所述故障内存的SPD空间,替换已写入的故障信息和该故障信息所对应的状态信息。
7.一种内存故障记录装置,其特征在于,应用于服务器的处理器,包括:
检测单元,用于若确定内存发生故障,则对故障内存进行检测;
获取单元,用于获取所述故障内存的故障信息;
发送单元,用于将所述故障信息发送至所述服务器的BMC,以使所述BMC将所述故障信息写入至所述故障内存的串行存在检测SPD空间。
8.根据权利要求7所述的装置,其特征在于,所述发送单元,包括:
分别向所述服务器的BMC发送事件日志以及系统诊断日志,其中,所述事件日志和所述系统诊断日志中分别携带有部分所述故障信息。
9.一种内存故障记录装置,其特征在于,应用于服务器的BMC,包括:
接收单元,用于接收处理器所发送的、针对故障内存所获取的故障信息;
获取单元,用于获取所述故障内存的状态信息;
写入单元,用于将所述故障信息和所述状态信息写入至所述故障内存的SPD空间。
10.根据权利要求9所述的装置,其特征在于,还包括
记录单元,用于将所述故障信息和所述状态信息记录于所述BMC的存储空间,其中,所述故障信息包括故障类型,所述SPD空间中根据不同的故障类型被划分有至少两块记录空间;
所述写入单元,包括:
第一写入模块,用于将不同故障类型的故障信息以及该故障信息所对应的状态信息写入到所述SPD空间内不同的记录空间中。
11.根据权利要求10所述的装置,其特征在于,所述写入单元,还包括:
停止模块,用于若所述SPD空间中不存在空闲的记录空间,则停止向所述SPD空间写入;
所述第一写入模块,具体用于若所述SPD空间中存在空闲的记录空间,将不同故障类型的故障信息以及该故障信息所对应的状态信息写入到所述SPD空间内不同的记录空间中。
12.根据权利要求9所述的装置,其特征在于,还包括:
计数单元,用于根据所述故障信息,确定第一故障次数,在所述BMC的存储空间中记录与该故障信息相对应第一故障次数,其中,故障次数用于表示所述故障内存发生相同故障的次数;
所述写入单元,包括:
确认模块,用于若所述SPD空间已被写满,则确定所述SPD空间中已写入的故障信息所对应的第二故障次数;
替换模块,用于若所述第一故障次数大于所述第二故障次数且所述第二故障次数小于预设次数,则将所述故障信息和所述状态信息写入至所述故障内存的SPD空间,替换已写入的故障信息和该故障信息所对应的状态信息。
CN202111140428.2A 2021-09-28 2021-09-28 一种内存故障记录方法以及装置 Pending CN113961478A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111140428.2A CN113961478A (zh) 2021-09-28 2021-09-28 一种内存故障记录方法以及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111140428.2A CN113961478A (zh) 2021-09-28 2021-09-28 一种内存故障记录方法以及装置

Publications (1)

Publication Number Publication Date
CN113961478A true CN113961478A (zh) 2022-01-21

Family

ID=79462608

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111140428.2A Pending CN113961478A (zh) 2021-09-28 2021-09-28 一种内存故障记录方法以及装置

Country Status (1)

Country Link
CN (1) CN113961478A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114780323A (zh) * 2022-06-17 2022-07-22 新华三信息技术有限公司 一种服务器中内存的故障检测方法、装置及设备
CN115269245A (zh) * 2022-07-21 2022-11-01 超聚变数字技术有限公司 一种内存故障处理方法及计算设备

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114780323A (zh) * 2022-06-17 2022-07-22 新华三信息技术有限公司 一种服务器中内存的故障检测方法、装置及设备
CN115269245A (zh) * 2022-07-21 2022-11-01 超聚变数字技术有限公司 一种内存故障处理方法及计算设备
CN115269245B (zh) * 2022-07-21 2024-03-19 超聚变数字技术有限公司 一种内存故障处理方法及计算设备

Similar Documents

Publication Publication Date Title
US8035911B2 (en) Cartridge drive diagnostic tools
EP1000395B1 (en) Apparatus and method for memory error detection and error reporting
US8108724B2 (en) Field replaceable unit failure determination
US6925540B2 (en) Systems and methods for chassis identification
CN113961478A (zh) 一种内存故障记录方法以及装置
US20080058961A1 (en) Methods and arrangements to collect data
WO2006110140A1 (en) System and method of reporting error codes in an electronically controlled device
CN105808407A (zh) 管理设备的方法、设备和设备管理控制器
CN109491819A (zh) 一种诊断服务器故障的方法和系统
CN111104283B (zh) 一种分布式存储系统的故障检测方法、装置、设备及介质
CN111414268A (zh) 故障处理方法、装置及服务器
CN213276627U (zh) 一种vpd信息的备份恢复系统
US8984333B2 (en) Automatic computer storage medium diagnostics
CN114860487A (zh) 一种内存故障识别方法及一种内存故障隔离方法
US20040162945A1 (en) Method and apparatus involving a hierarchy of field replaceable units containing stored data
CN113868058A (zh) 一种外设组件高速互联设备故障检测方法、装置及服务器
CN112650612A (zh) 一种内存故障定位方法及装置
JP2005018516A (ja) 記憶装置システム及び記憶装置システムの保守方法
JP2018180982A (ja) 情報処理装置、およびログ記録方法
CN110825547A (zh) 一种基于smbus的pcie卡异常恢复装置及方法
CN115480947A (zh) 一种内存条故障检测装置及检测方法
CN104678292A (zh) 一种复杂可编程逻辑器件cpld测试方法和装置
US7409605B2 (en) Storage system
CN112346922B (zh) 服务器装置及其通讯协议方法
CN114840599B (zh) 半导体源数据解析方法、etl系统、计算机设备和产品

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination