CN107463455A - 一种检测内存故障的方法及装置 - Google Patents

一种检测内存故障的方法及装置 Download PDF

Info

Publication number
CN107463455A
CN107463455A CN201710647895.1A CN201710647895A CN107463455A CN 107463455 A CN107463455 A CN 107463455A CN 201710647895 A CN201710647895 A CN 201710647895A CN 107463455 A CN107463455 A CN 107463455A
Authority
CN
China
Prior art keywords
flag bit
rmt
smart machine
log
ems memory
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201710647895.1A
Other languages
English (en)
Other versions
CN107463455B (zh
Inventor
何岚
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Lenovo Beijing Ltd
Original Assignee
Lenovo Beijing Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Lenovo Beijing Ltd filed Critical Lenovo Beijing Ltd
Priority to CN201710647895.1A priority Critical patent/CN107463455B/zh
Publication of CN107463455A publication Critical patent/CN107463455A/zh
Application granted granted Critical
Publication of CN107463455B publication Critical patent/CN107463455B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0706Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment
    • G06F11/073Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment in a memory management context, e.g. virtual memory or cache management
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/34Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment
    • G06F11/3466Performance evaluation by tracing or monitoring
    • G06F11/3476Data logging

Abstract

本发明公开了一种检测内存故障的方法及装置,该方法用于检测智能设备的内存,所述方法包括:当设置在所述智能设备的BMC中的标志位为预设值时,检测所述智能设备的RMT日志信息;通过获取命令访问所述RMT日志信息,从所述RMT日志信息的预设位置中获取存储的内存错误信息。该方法能够使用户可以便利的获取到内存故障信息,减少检测时间,有效提高检测效率,并且能够避免服务器等智能设备长时间的进行无效率的内存故障检测步骤,避免了系统资源的浪费。

Description

一种检测内存故障的方法及装置
技术领域
本发明涉及智能设备的检测领域,特别涉及一种检测内存故障的方法及装置。
背景技术
目前在服务器等智能设备运行初始化内存程序(MRC)时,特别是在初始化内存程序进行初始化的过程中会出现一些内存错误,但是对于这些内存错误的信息,因为没有适当的检测方式,只能找到简单的解析或描述,从而不能准确的解析内存出现错误的详细原因,例如,不能直接定位出某一根内存的哪组或者哪几组DQ(数据通道)信号有出现错误,还需要人工排查,十分不便。
发明内容
本发明实施例的目的在于提供一种检测内存故障的方法及装置,该方法能够使用户可以便利的获取到内存故障信息,减少检测时间,有效提高检测效率。
为了解决上述技术问题,本发明的实施例采用了如下技术方案:一种检测内存故障的方法,用于检测智能设备的内存,所述方法包括:
当设置在所述智能设备的BMC中的标志位为预设值时,检测所述智能设备的RMT日志信息;
通过获取命令访问所述RMT日志信息,从所述RMT日志信息的预设位置中获取存储的内存错误信息。
作为优选,所述方法还包括:
将所述RMT日志信息的预设位置中存储的所述内存错误信息存储在所述智能设备的扩展事件日志中;
通过所述扩展事件日志将所述内存错误信息发送至所述BMC。
作为优选,所述标志位包括第一标志位和第二标志位,所述的通过所述扩展事件日志将所述内存错误信息所述发送至所述BMC包括:
当所述第一标志位和第二标志位均为相应的预设值时,读取所述内存错误信息对应的多个数据单元值;
将多个所述数据单元值发送至所述BMC;
清除所述第二标志位的值。
作为优选,所述标志位包括第一标志位和第二标志位,所述的通过获取命令访问所述RMT日志信息,从所述RMT日志信息的预设位置中获取存储的内存错误信息包括:
在所述智能设备的BIOS的PEI阶段检测所述第一标志位和第二标志位的值;
当所述第一标志位和第二标志位均为相应的预设值时,通过智能平台管理接口命令访问所述RMT日志信息,并从所述RMT日志信息的预设位置中获取内存错误信息。
作为优选,所述内存错误信息包括出现错误的内存的数据通道信号状态信息。
本发明实施例还提供了一种检测内存故障的装置,用于检测智能设备的内存,所述装置包括相互连接的检测模块和获取模块:
所述检测模块配置为当设置在所述智能设备的BMC中的标志位为预设值时,检测所述智能设备的RMT日志信息;
所述获取模块配置为通过获取命令访问所述RMT日志信息,从所述RMT日志信息的预设位置中获取存储的内存错误信息。
作为优选,所述装置还包括存储模块和发送模块;
所述存储模块配置为将所述RMT日志信息的预设位置中存储的所述内存错误信息存储在所述智能设备的扩展事件日志中;
所述发送模块配置为通过所述扩展事件日志将所述内存错误信息发送至所述BMC。
作为优选,所述标志位包括第一标志位和第二标志位,所述发送模块包括读取单元,传送单元和清除单元;
所述读取单元配置为当所述第一标志位和第二标志位均为相应的预设值时,读取所述内存错误信息对应的多个数据单元值,并发送至所述传送单元;
所述传送单元分别与所述读取单元和清除单元连接,所述传送单元配置为将多个所述数据单元值发送至所述BMC,并使所述清除单元清除所述第二标志位的值。
作为优选,所述标志位包括第一标志位和第二标志位,所述获取模块进一步配置为在所述智能设备的BIOS的PEI阶段检测所述第一标志位和第二标志位的值,并当所述第一标志位和第二标志位均为相应的预设值时,通过智能平台管理接口命令访问所述RMT日志信息,并从所述RMT日志信息的预设位置中获取内存错误信息。
作为优选,所述内存错误信息包括出现错误的内存的数据通道信号状态信息。
本发明实施例的有益效果在于:该方法能够使用户可以便利的获取到内存故障信息,减少检测时间,有效提高检测效率,并且能够避免服务器等智能设备长时间的进行无效率的内存故障检测步骤,避免了系统资源的浪费。
附图说明
图1为本发明实施例的检测内存故障的方法的流程图;
图2为本发明实施例的检测内存故障的方法过程中的一种流程图;
图3为本发明实施例的检测内存故障的方法的步骤S4的流程图;
图4为本发明实施例的检测内存故障的方法的步骤S2的流程图;
图5为本发明实施例的检测内存故障的装置的结构框图;
图6为本发明实施例的检测内存故障的装置的工作流程图。
附图标记说明
1-检测内存故障的装置 2-检测模块 3-获取模块
4-存储模块 5-发送模块 6-BMC
具体实施方式
此处参考附图描述本发明的各种方案以及特征。
应理解的是,可以对此处发明的实施例做出各种修改。因此,上述说明书不应该视为限制,而仅是作为实施例的范例。本领域的技术人员将想到在本发明的范围和精神内的其他修改。
包含在说明书中并构成说明书的一部分的附图示出了本发明的实施例,并且与上面给出的对本发明的大致描述以及下面给出的对实施例的详细描述一起用于解释本发明的原理。
通过下面参照附图对给定为非限制性实例的实施例的优选形式的描述,本发明的这些和其它特性将会变得显而易见。
还应当理解,尽管已经参照一些具体实例对本发明进行了描述,但本领域技术人员能够确定地实现本发明的很多其它等效形式,它们具有如权利要求所述的特征并因此都位于借此所限定的保护范围内。
当结合附图时,鉴于以下详细说明,本发明的上述和其他方面、特征和优势将变得更为显而易见。
此后参照附图描述本发明的具体实施例;然而,应当理解,所发明的实施例仅仅是本发明的实例,其可采用多种方式实施。熟知和/或重复的功能和结构并未详细描述以避免不必要或多余的细节使得本发明模糊不清。因此,本文所发明的具体的结构性和功能性细节并非意在限定,而是仅仅作为权利要求的基础和代表性基础用于教导本领域技术人员以实质上任意合适的详细结构多样地使用本发明。
本说明书可使用词组“在一种实施例中”、“在另一个实施例中”、“在又一实施例中”或“在其他实施例中”,其均可指代根据本发明的相同或不同实施例中的一个或多个。
本发明实施例的一种检测内存故障的方法,用于检测智能设备的内存,能够检测出运行中的内存中的哪组或者哪几组DQ(数据通道)信号有出现错误,如图1所示,该方法包括:
S1,当设置在智能设备的BMC 6中的标志位为预设值时,检测智能设备的RMT(RankMargin test)日志信息。BMC 6(Baseboard Management Controller)为服务器等智能设备的基板管理控制器,具有本地和远程诊断,控制台支持,配置管理,硬件管理和故障排除的功能。在一个实施例中,可以通过智能设备的BIOS从BMC 6中的标志位存储器处获取标志位,从而根据标志位的值来做对应的操作。在本实施例中,当BMC 6中的标志位为预设值时,便能够启动检测智能设备的RMT(Rank Margin test)日志信息。
S2,通过获取命令打开整个设计逻辑,从而访问RMT日志信息,从RMT日志信息的预设位置中获取存储的内存错误信息。RMT日志信息中记录了包括内存日志的多种信息,例如错误历史记录或本身性能的变化信息等,在一个实施例中,智能设备的BIOS可以将错误信息抛出并记录在RMT日志信息的预设位置中,而RMT日志信息中的数据格式可以由用户自定义设定,例如可以利用脉冲宽度PW值记录错误信息,并可以以多组数字(数据单元值)来记录该错误信息。
在本发明的一个实施例中,如图2所示,检测内存故障的方法还包括:
S3,将RMT日志信息的预设位置中存储的内存错误信息存储在智能设备的扩展事件日志(extended SEL)中。在一个实施例中,扩展事件日志中内容规则,其存储的内容易于其他设备调用或查看,此外用户也可以方便的在扩展事件日志中查看相应的信息。
S4,通过扩展事件日志将内存错误信息发送至BMC 6。BMC 6具有本地和远程诊断和故障排除的功能,用户可以通过BMC 6来从本地或远程查看内存错误信息,例如通过远程客户端访问BMC 6从而查看需要的信息,此外BMC 6可以主动的从扩展事件日志中获取内存错误信息,以供用户查看从而使用户可以根据内存错误信息来修复相应的故障。
在本发明的一个实施例中,标志位包括第一标志位和第二标志位,第一标志位和第二标志位可以为执行相应命令的触发信号,例如,第一标志位可以是针对执行整个的检测内存故障的触发信号,第二标志位可以是针对将RMT日志信息的预设位置中存储的内存错误信息存储在智能设备的扩展事件日志中的触发信号,如图3所示,所述的通过扩展事件日志将内存错误信息发送至BMC 6包括:
S41,当第一标志位和第二标志位均为相应的预设值时,读取内存错误信息对应的多个数据单元值。例如当第一标志位从初始值0变为预设值1时则生成相应的触发信号,可以开始进行检测内存故障的操作,当第二标志位从初始值0变为预设值1时则生成相应的触发信号,可以开始进行从RMT日志信息的预设位置中抓取内存错误信息并存储到扩展事件日志(extended SEL)中,从而可以从扩展事件日志(extended SEL)中读取内存错误信息,而内存错误信息可以以多个数据单元值(每个数据单元值表示一组关于内存错误的数据)的形式表示,因此可以进一步读取数据单元值。
S42,将多个数据单元值发送至BMC 6。可以通过BMC 6记录该数据单元值,并且用户可以可通过BMC 6来查看该数据单元值,以便用户可以根据这些数据单元值来了解内存错误信息,以便用户可以针对内存错误信息进行排除故障的操作。
S43,清除第二标志位的值。清除第二标志位的值(例如将第二标志位由1变化为0)后,停止从RMT日志信息的预设位置中抓取内存错误信息并存储到扩展事件日志(extendedSEL)中,避免系统进行重复的抓取,节省系统资源。
在本发明的一个实施例中,标志位包括第一标志位和第二标志位,该第一标志位和第二标志位的功能以上内容已经做出详细说明在此不再赘述,如图4所示,所述的通过获取命令访问RMT日志信息,从RMT日志信息的预设位置中获取存储的内存错误信息包括:
S21,在智能设备的BIOS的PEI阶段检测第一标志位和第二标志位的值。BIOS具有多个运行阶段,例如具有SEC阶段,PEI阶段,DXE阶段和BDS阶段,在服务器等智能设备的BIOS的PEI阶段运行内存初始化程序(MRC),在初始化过程中遇到内存错误时会运行错误处理程序(error handler),在错误处理程序里侦测第一标志位和第二标志位的值,以便根据第一标志位和第二标志位的值的变化做出随后的操作。
S22,当第一标志位和第二标志位均为相应的预设值时,通过智能平台管理接口命令(IPMI command)打开整个设计逻辑,从而访问RMT日志信息,并从RMT日志信息的预设位置中获得内存错误信息。
在本发明的一个实施例中,内存错误信息包括出现错误的内存的数据通道信号状态信息。从数据通道信号(DQ信号)状态信息中可以清楚的获得是哪个地方的哪根内存的哪组或者哪几组数据通道信号出现了错误,并且与该错误有关的详细信息也可以通过数据通道信号状态信息中获得,用户获取到的数据通道信号状态信息后可以根据该信息进一步的排除硬件故障。
为了进一步详细说明该检测内存故障的方法,下面结合图6对该检测内存故障的方法的工作流程做进一步说明:
在服务器智能设备开机后,在初始化内存程序(MRC)初始化的过程中侦测第一标志位的值是否为1,在一个实施例中,从初始化内存程序(MRC)初始化时运行的错误处理程序(error handler)中侦测第一标志位的值是否为1,如果不是则进行开机后的其他操作,如果是则需要对第二标志位的值进行侦测,检查第二标志位的值是否为1,如果不为1则将第二标志位的值设置为1,从而继续进行该检测内存故障的方法,如果第二标志位的值为1,通过使用智能设备的RMT功能进行从RMT日志信息的预设位置中抓取内存错误信息(如抓取脉冲宽度PW值)并存储到扩展事件日志(extended SEL)中,然后发送给BMC 6,随后将清除第二标志位,在BIOS进入DXE阶段时,侦测第一标志位的值是否为1,如果不为1则不再进行内存检测,如果第一标志位的值为1则继续侦测第二标志位的值,如果此时第二标志位的值不为1则通过智能平台管理接口命令(IPMI command)关闭排除程序故障模式,并关闭智能设备的RMT功能,以继续进行BIOS的初始化操作,如果第二标志位的值为1则要通过智能平台管理接口命令(IPMI command)打开排除程序故障模式,并打开智能设备的RMT功能,并将智能设备进行重新启动,以再次进行检测内存故障的步骤。
本发明实施例还提供了一种检测内存故障的装置1,用于检测智能设备的内存,能够检测出运行中的内存中的哪组或者哪几组DQ(数据通道)信号有出现错误,如图5所示,该检测内存故障的装置1包括相互连接的检测模块2和获取模块3:
检测模块2配置为当设置在智能设备的BMC 6中的标志位为预设值时,检测智能设备的RMT日志信息。BMC 6(Baseboard Management Controller)为服务器等智能设备的基板管理控制器,具有本地和远程诊断,控制台支持,配置管理,硬件管理和故障排除的功能。标志位由初始值变化为预设值时相当于触发了相应的信号,驱动检测模块2检测智能设备的RMT日志信息,在一个实施例中,可以通过智能设备的BIOS从BMC 6中的标志位存储器处获取标志位,从而根据标志位的值来做对应的操作。在本实施例中,当BMC 6中的标志位为预设值时,检测模块2便能够启动检测智能设备的RMT(Rank Margin test)日志信息。
获取模块3配置为通过获取命令打开整个设计逻辑,从而访问RMT日志信息,从RMT日志信息的预设位置中获取存储的内存错误信息。在一个实施例中,智能设备的BIOS可以将错误信息抛出并记录在RMT日志信息的预设位置中,而RMT日志信息中的数据格式可以由用户自定义设定,例如可以利用脉冲宽度PW值记录错误信息,并可以以多组数字(数据单元值)来记录该错误信息。在本发明的一个实施例中,结合图5,该检测内存故障的装置1还包括存储模块4和发送模块5。
存储模块4配置为将RMT日志信息的预设位置中存储的内存错误信息存储在智能设备的扩展事件日志(extended SEL)中。在一个实施例中,其存储的内容易于其他设备调用或查看,此外用户也可以方便的在扩展事件日志中查看相应的信息。
发送模块5配置为通过扩展事件日志将内存错误信息发送至BMC 6。BMC 6具有本地和远程诊断和故障排除的功能,用户可以通过BMC 6来从本地或远程查看内存错误信息,例如通过远程客户端访问BMC 6从而查看需要的信息,此外BMC 6可以主动的从扩展事件日志中获取内存错误信息,以供用户查看从而使用户可以根据内存错误信息来修复相应的故障。
在本发明的一个实施例中,标志位包括第一标志位和第二标志位,第一标志位和第二标志位可以为执行相应命令的触发信号,例如,第一标志位可以作为执行整个的检测内存故障的触发信号,第二标志位可以作为将RMT日志信息的预设位置中存储的内存错误信息存储在智能设备的扩展事件日志中的触发信号。发送模块5包括读取单元,传送单元和清除单元。
读取单元配置为当第一标志位和第二标志位均为相应的预设值时,读取内存错误信息对应的多个数据单元值,并发送至传送单元。例如当第一标志位从初始值0变为预设值1时则生成相应的触发信号,可以开始进行检测内存故障的操作,当第二标志位从初始值0变为预设值1时则生成相应的触发信号,可以开始进行从RMT日志信息的预设位置中抓取内存错误信息并存储到扩展事件日志(extended SEL)中,从而使读取单元可以从扩展事件日志(extended SEL)中读取内存错误信息,而内存错误信息可以以多个数据单元值的形式表示,因此可以进一步读取数据单元值,并发送至传送单元。
传送单元分别与读取单元和清除单元连接,传送单元配置为将多个数据单元值发送至BMC 6,并使清除单元清除第二标志位的值。传送单元将多个数据单元值发送至BMC 6后,BMC 6既可以对所有的数据单元值进行操作,如查看调用等,方便用户对内存错误信息进行不同的操作。清除单元清除第二标志位的值(例如将第二标志位由1变化为0)后,获取模块3停止从RMT日志信息的预设位置中抓取内存错误信息并存储到扩展事件日志(extended SEL)中,避免系统进行重复的抓取,节省系统资源。
在本发明的一个实施例中,标志位包括第一标志位和第二标志位,该第一标志位和第二标志位的功能以上内容已经做出详细说明在此不再赘述。获取模块3进一步配置为在智能设备的BIOS的PEI阶段检测第一标志位和第二标志位的值,并当第一标志位和第二标志位均为相应的预设值时,通过智能平台管理接口命令(IPMI command)打开整个设计逻辑,从而访问RMT日志信息,并从RMT日志信息的预设位置中获取内存错误信息。BIOS具有多个运行阶段,例如具有SEC阶段,PEI阶段,DXE阶段和BDS阶段,在服务器等智能设备的BIOS的PEI阶段运行内存初始化程序(MRC),在初始化过程中遇到内存错误时会运行错误处理程序(error handler),在错误处理程序里侦测第一标志位和第二标志位的值,以便根据第一标志位和第二标志位的值的变化做出随后的操作。
在本发明的一个实施例中,内存错误信息包括出现错误的内存的数据通道信号状态信息。从数据通道信号(DQ信号)状态信息中可以清楚的获得是哪个地方的哪根内存的哪组或者哪几组数据通道信号出现了错误,并且与该错误有关的详细信息也可以通过数据通道信号状态信息中获得,用户获取到数据通道信号状态信息后可以根据该信息进一步的排除硬件故障。
为了进一步详细说明该检测内存故障的装置1,下面结合图6对该检测内存故障的装置1的工作流程做进一步说明:
在服务器智能设备开机后,在初始化内存程序(MRC)初始化的过程中侦测第一标志位的值是否为1,,在一个实施例中,从初始化内存程序(MRC)初始化时运行的错误处理程序(error handler)中侦测第一标志位的值是否为1,如果不是则进行开机后的其他操作,如果是则需要对第二标志位的值进行侦测,检查第二标志位的值是否为1,如果不为1则将第二标志位的值设置为1,从而继续进行内存故障检测,如果第二标志位的值为1,通过使用智能设备的RMT功能进行从RMT日志信息的预设位置中抓取内存错误信息(如抓取脉冲宽度PW值)并存储到扩展事件日志(extended SEL)中,然后发送给BMC 6,随后将清除第二标志位,在BIOS进入DXE阶段时,侦测第一标志位的值是否为1,如果不为1则不再进行内存检测,如果第一标志位的值为1则继续侦测第二标志位的值,如果此时第二标志位的值不为1则通过智能平台管理接口命令(IPMI command)关闭排除程序故障模式,并关闭智能设备的RMT功能,以继续进行BIOS的初始化操作,如果第二标志位的值为1则要通过智能平台管理接口命令(IPMI command)打开排除程序故障模式,并打开智能设备的RMT功能,并将智能设备进行重新启动,以再次进行检测内存故障的步骤。
以上实施例仅为本发明的示例性实施例,不用于限制本发明,本发明的保护范围由权利要求书限定。本领域技术人员可以在本发明的实质和保护范围内,对本发明做出各种修改或等同替换,这种修改或等同替换也应视为落在本发明的保护范围内。

Claims (10)

1.一种检测内存故障的方法,用于检测智能设备的内存,所述方法包括:
当设置在所述智能设备的BMC中的标志位为预设值时,检测所述智能设备的RMT日志信息;
通过获取命令访问所述RMT日志信息,从所述RMT日志信息的预设位置中获取存储的内存错误信息。
2.根据权利要求1所述的方法,所述方法还包括:
将所述RMT日志信息的预设位置中存储的所述内存错误信息存储在所述智能设备的扩展事件日志中;
通过所述扩展事件日志将所述内存错误信息发送至所述BMC。
3.根据权利要求2所述的方法,所述标志位包括第一标志位和第二标志位,所述的通过所述扩展事件日志将所述内存错误信息所述发送至所述BMC包括:
当所述第一标志位和第二标志位均为相应的预设值时,读取所述内存错误信息对应的多个数据单元值;
将多个所述数据单元值发送至所述BMC;
清除所述第二标志位的值。
4.根据权利要求1所述的方法,所述标志位包括第一标志位和第二标志位,所述的通过获取命令访问所述RMT日志信息,从所述RMT日志信息的预设位置中获取存储的内存错误信息包括:
在所述智能设备的BIOS的PEI阶段检测所述第一标志位和第二标志位的值;
当所述第一标志位和第二标志位均为相应的预设值时,通过智能平台管理接口命令访问所述RMT日志信息,并从所述RMT日志信息的预设位置中获取内存错误信息。
5.根据权利要求1所述的方法,所述内存错误信息包括出现错误的内存的数据通道信号状态信息。
6.一种检测内存故障的装置,用于检测智能设备的内存,所述装置包括相互连接的检测模块和获取模块:
所述检测模块配置为当设置在所述智能设备的BMC中的标志位为预设值时,检测所述智能设备的RMT日志信息;
所述获取模块配置为通过获取命令访问所述RMT日志信息,从所述RMT日志信息的预设位置中获取存储的内存错误信息。
7.根据权利要求6所述的装置,所述装置还包括存储模块和发送模块;
所述存储模块配置为将所述RMT日志信息的预设位置中存储的所述内存错误信息存储在所述智能设备的扩展事件日志中;
所述发送模块配置为通过所述扩展事件日志将所述内存错误信息发送至所述BMC。
8.根据权利要求7所述的装置,所述标志位包括第一标志位和第二标志位,所述发送模块包括读取单元,传送单元和清除单元;
所述读取单元配置为当所述第一标志位和第二标志位均为相应的预设值时,读取所述内存错误信息对应的多个数据单元值,并发送至所述传送单元;
所述传送单元分别与所述读取单元和清除单元连接,所述传送单元配置为将多个所述数据单元值发送至所述BMC,并使所述清除单元清除所述第二标志位的值。
9.根据权利要求6所述的装置,所述标志位包括第一标志位和第二标志位,所述获取模块进一步配置为在所述智能设备的BIOS的PEI阶段检测所述第一标志位和第二标志位的值,并当所述第一标志位和第二标志位均为相应的预设值时,通过智能平台管理接口命令访问所述RMT日志信息,并从所述RMT日志信息的预设位置中获取内存错误信息。
10.根据权利要求6所述的装置,所述内存错误信息包括出现错误的内存的数据通道信号状态信息。
CN201710647895.1A 2017-08-01 2017-08-01 一种检测内存故障的方法及装置 Active CN107463455B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710647895.1A CN107463455B (zh) 2017-08-01 2017-08-01 一种检测内存故障的方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710647895.1A CN107463455B (zh) 2017-08-01 2017-08-01 一种检测内存故障的方法及装置

Publications (2)

Publication Number Publication Date
CN107463455A true CN107463455A (zh) 2017-12-12
CN107463455B CN107463455B (zh) 2020-10-30

Family

ID=60547268

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710647895.1A Active CN107463455B (zh) 2017-08-01 2017-08-01 一种检测内存故障的方法及装置

Country Status (1)

Country Link
CN (1) CN107463455B (zh)

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108197008A (zh) * 2018-01-31 2018-06-22 郑州云海信息技术有限公司 一种日志收集方法、系统、装置及计算机可读存储介质
CN109240847A (zh) * 2018-09-27 2019-01-18 郑州云海信息技术有限公司 一种post过程中内存错误上报方法、装置、终端及存储介质
CN110780646A (zh) * 2019-09-21 2020-02-11 苏州浪潮智能科技有限公司 一种基于mes系统的内存质量预警方法
CN111176742A (zh) * 2019-12-31 2020-05-19 联想(北京)有限公司 初始化数据的处理方法及电子设备
CN111708652A (zh) * 2020-05-20 2020-09-25 新华三技术有限公司 一种故障修复方法及装置
CN111782472A (zh) * 2020-06-30 2020-10-16 平安科技(深圳)有限公司 系统异常检测方法、装置、设备及存储介质
WO2022247139A1 (zh) * 2021-05-28 2022-12-01 苏州浪潮智能科技有限公司 一种服务器的日志输出方法、系统及相关装置
CN115658373A (zh) * 2022-12-14 2023-01-31 苏州浪潮智能科技有限公司 基于服务器的内存处理方法和装置、处理器及电子设备
WO2023206957A1 (zh) * 2022-04-29 2023-11-02 苏州元脑智能科技有限公司 内存测试方法、装置、系统、设备及可读存储介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20070234123A1 (en) * 2006-03-31 2007-10-04 Inventec Corporation Method for detecting switching failure
CN103970661A (zh) * 2014-05-19 2014-08-06 浪潮电子信息产业股份有限公司 一种利用ipmi工具进行批量服务器内存故障检测的方法
US20140351517A1 (en) * 2013-05-22 2014-11-27 Pryor A. Garnett Validation of cache locking using instruction fetch and execution
CN104615518A (zh) * 2015-03-04 2015-05-13 浪潮集团有限公司 一种结合温度、电压变量的内存rank margin测试方法
CN106227616A (zh) * 2016-08-10 2016-12-14 浪潮电子信息产业股份有限公司 一种批量实现rmt自动测试的方法
CN106295276A (zh) * 2016-08-09 2017-01-04 浪潮电子信息产业股份有限公司 一种记录用户输入bios密码进入系统的方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20070234123A1 (en) * 2006-03-31 2007-10-04 Inventec Corporation Method for detecting switching failure
US20140351517A1 (en) * 2013-05-22 2014-11-27 Pryor A. Garnett Validation of cache locking using instruction fetch and execution
CN103970661A (zh) * 2014-05-19 2014-08-06 浪潮电子信息产业股份有限公司 一种利用ipmi工具进行批量服务器内存故障检测的方法
CN104615518A (zh) * 2015-03-04 2015-05-13 浪潮集团有限公司 一种结合温度、电压变量的内存rank margin测试方法
CN106295276A (zh) * 2016-08-09 2017-01-04 浪潮电子信息产业股份有限公司 一种记录用户输入bios密码进入系统的方法
CN106227616A (zh) * 2016-08-10 2016-12-14 浪潮电子信息产业股份有限公司 一种批量实现rmt自动测试的方法

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108197008A (zh) * 2018-01-31 2018-06-22 郑州云海信息技术有限公司 一种日志收集方法、系统、装置及计算机可读存储介质
CN109240847A (zh) * 2018-09-27 2019-01-18 郑州云海信息技术有限公司 一种post过程中内存错误上报方法、装置、终端及存储介质
CN110780646A (zh) * 2019-09-21 2020-02-11 苏州浪潮智能科技有限公司 一种基于mes系统的内存质量预警方法
CN111176742A (zh) * 2019-12-31 2020-05-19 联想(北京)有限公司 初始化数据的处理方法及电子设备
CN111176742B (zh) * 2019-12-31 2021-10-22 联想(北京)有限公司 初始化数据的处理方法及电子设备
CN111708652A (zh) * 2020-05-20 2020-09-25 新华三技术有限公司 一种故障修复方法及装置
CN111708652B (zh) * 2020-05-20 2023-12-26 新华三技术有限公司 一种故障修复方法及装置
CN111782472A (zh) * 2020-06-30 2020-10-16 平安科技(深圳)有限公司 系统异常检测方法、装置、设备及存储介质
CN111782472B (zh) * 2020-06-30 2022-04-26 平安科技(深圳)有限公司 系统异常检测方法、装置、设备及存储介质
WO2022247139A1 (zh) * 2021-05-28 2022-12-01 苏州浪潮智能科技有限公司 一种服务器的日志输出方法、系统及相关装置
WO2023206957A1 (zh) * 2022-04-29 2023-11-02 苏州元脑智能科技有限公司 内存测试方法、装置、系统、设备及可读存储介质
CN115658373A (zh) * 2022-12-14 2023-01-31 苏州浪潮智能科技有限公司 基于服务器的内存处理方法和装置、处理器及电子设备

Also Published As

Publication number Publication date
CN107463455B (zh) 2020-10-30

Similar Documents

Publication Publication Date Title
CN107463455A (zh) 一种检测内存故障的方法及装置
US9069668B2 (en) Diagnosing distributed applications using application logs and request processing paths
US9891971B1 (en) Automating the production of runbook workflows
US20050015382A1 (en) Electronic vulnerability and reliability assessment
CN107710683A (zh) 弹性即服务
CN108920314A (zh) 一种故障硬件定位方法、装置、系统及可读存储介质
US20220050765A1 (en) Method for processing logs in a computer system for events identified as abnormal and revealing solutions, electronic device, and cloud server
JP2015517152A (ja) モバイルデバイスサポートサービスを提供するためのシステム、方法、装置、およびコンピュータプログラム製品
CN1705281A (zh) 通信网络事件记录系统和方法
CN103220192A (zh) 一种对交换机配置的测试方法
EP2541418B1 (en) Method for increasing reliability in monitoring systems
WO2019144548A1 (zh) 安全测试方法、装置、计算机设备和存储介质
CN102075368A (zh) 一种业务故障诊断方法、装置和系统
CN105573872B (zh) 数据存储系统的硬盘维护方法和装置
CN109240847A (zh) 一种post过程中内存错误上报方法、装置、终端及存储介质
US10938623B2 (en) Computing element failure identification mechanism
CN107590017A (zh) 一种电子设备的检测方法和装置
CN110912760B (zh) 链路状态检测方法和装置
CN109582454A (zh) 一种分布式存储集群中的权限释放控制方法、装置及设备
CN107704548A (zh) 一种存储介质和对象数据的存储方法、装置及设备
CN100561953C (zh) 一种记录诊断数据的方法
CN113778759A (zh) 一种数据分发过程中的失败检测及恢复方法
CN113438120A (zh) Zabbix告警管理方法及系统、计算机可读存储介质
CN109246737B (zh) 云手机自动回收方法与系统
CN109309576B (zh) 一种故障社群检测方法及管理节点

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant