CN109086151A - 一种服务器上隔离内存故障的方法及装置 - Google Patents

一种服务器上隔离内存故障的方法及装置 Download PDF

Info

Publication number
CN109086151A
CN109086151A CN201710443794.2A CN201710443794A CN109086151A CN 109086151 A CN109086151 A CN 109086151A CN 201710443794 A CN201710443794 A CN 201710443794A CN 109086151 A CN109086151 A CN 109086151A
Authority
CN
China
Prior art keywords
memory
server
failure information
error
isolation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201710443794.2A
Other languages
English (en)
Inventor
李存龙
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
ZTE Corp
Original Assignee
ZTE Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ZTE Corp filed Critical ZTE Corp
Priority to CN201710443794.2A priority Critical patent/CN109086151A/zh
Publication of CN109086151A publication Critical patent/CN109086151A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/079Root cause analysis, i.e. error or fault diagnosis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0766Error or fault reporting or storing
    • G06F11/0778Dumping, i.e. gathering error/state information after a fault for later diagnosis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0766Error or fault reporting or storing
    • G06F11/0787Storage of error reports, e.g. persistent data storage, storage using memory protection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0793Remedial or corrective actions

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Quality & Reliability (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Debugging And Monitoring (AREA)
  • Techniques For Improving Reliability Of Storages (AREA)

Abstract

本发明公开了一种服务器上隔离内存故障的方法及装置,涉及服务器产品技术领域,其方法包括:在服务器上电或重启时,BIOS获取BMC存储的关于服务器内存发生故障的内存故障信息;所述BIOS通过根据服务器的接口配置对所述内存故障信息进行分析,判断发生故障的内存是否需要进行隔离处理;若判断所述发生故障的内存需要进行隔离处理,则BIOS确定所述发生故障的内存的隔离级别,并按照所确定的隔离级别对所述发生故障的内存进行隔离处理。

Description

一种服务器上隔离内存故障的方法及装置
技术领域
本发明涉及服务器产品技术领域,特别涉及一种服务器上隔离内存故障的方法及装置。
背景技术
在目前主流服务器上,如图1所示,内存在安装到服务器之前,产品线会对内存做一些必要的生产测试,筛查出存在风险或问题的内存;服务器在上电启动过程中,会使用不同的软件算法或硬件方法对内存做快速检测,对发现的故障内存进行隔离;在业务和操作系统过程运行阶段,通过ECC(Error Correcting Code,错误检查和纠正)对可纠正的内存错误进行记录、上报(有些服务器可以通过改变应用程序使用的内存空间映射来实现在线“隔离”恢复),对多bit不可纠正的错误做记录、上报,服务器断电后开箱更换或移除故障内存来实现真正的恢复。
这些方法存在如下多个缺陷:
服务器在上电启动过程,内存自检测试过程中反复卡死无法自愈恢复;硬件原因导致部分内存槽位反复出现内存错误,更换内存也无法根本解决;部分内存的错误出错的概率偏低,出现的周期规律不定,运维人员需要频繁应急处理故障,应急工作量巨大。
发明内容
根据本发明实施例提供的方案解决的技术问题是服务器在上电启动过程,发生故障的内存不能快速恢复业务。
根据本发明实施例提供的一种服务器上隔离内存故障的方法,包括:
在服务器上电或重启时,BIOS(Basic Input Output System,基本输入输出系统)获取BMC(Board Management Controller,基板管理控制器)存储的关于服务器内存发生故障的内存故障信息;
所述BIOS通过根据服务器的接口配置对所述内存故障信息进行分析,判断发生故障的内存是否需要进行隔离处理;
若判断所述发生故障的内存需要进行隔离处理,则BIOS确定所述发生故障的内存的隔离级别,并按照所确定的隔离级别对所述发生故障的内存进行隔离处理。
优选地,还包括:
在服务器操作系统运行期间,BIOS通过SMI(System Management Interruption,系统管理中断)获取并解析服务器内存发生故障的内存故障信息,并将所述内存故障信息发送给BMC进行存储。
优选地,所述BIOS通过SMI获取并解析服务器内存发生故障的内存故障信息,并将所述内存故障信息发送给BMC进行存储包括:
所述BIOS通过SMI对服务器内存进行实时监测,确定服务器内存是发生了不可纠正的内存错误还是发生了可纠正的内存错误;
若所述BIOS确定服务器内存发生了不可纠正的内存错误,则通过SMI对服务器内存发生的不可纠正的内存错误进行解析,得到第一内存故障信息,并将所述第一内存故障信息发送给BMC进行存储;
若所述BIOS确定服务器内存发生了可纠正的内存错误,则通过SMI对服务器内存发生的可纠正的内存错误进行解析,得到第二内存故障信息,并将所述第二内存故障信息发送给BMC进行存储。
优选地,所述服务器的接口配置包括不可纠正内存错误的接口配置和不可纠正内存错误的接口配置;其中,所述可纠正内存错误的接口配置包括可纠正内存隔离门限值和可纠正隔离级别;所述不可纠正内存错误的接口配置包括不可纠正内存隔离门限值和不可纠正隔离级别。
优选地,所述内存故障信息包括:内存所属CPU位置、节点、通道、槽位、芯片颗粒、行、列、错误级别、发生次数以及内存生产零件号;所述隔离级别包括处理器级、通道级、槽位级以及内存颗粒级。
根据本发明实施例提供的一种服务器上隔离内存故障的装置,包括:
获取模块,用于在服务器上电或重启时,获取BMC存储的关于服务器内存发生故障的内存故障信息;
判断模块,用于通过根据服务器的接口配置对所述内存故障信息进行分析,判断发生故障的内存是否需要进行隔离处理;
隔离模块,用于若判断所述发生故障的内存需要进行隔离处理,则确定所述发生故障的内存的隔离级别,并按照所确定的隔离级别对所述发生故障的内存进行隔离处理。
优选地,还包括:
发送单元,用于在服务器操作系统运行期间,通过SMI获取并解析服务器内存发生故障的内存故障信息,并将所述内存故障信息发送给BMC进行存储。
优选地,所述发送单元包括:
确定子单元,用于通过SMI对服务器内存进行实时监测,确定服务器内存是发生了不可纠正的内存错误还是发生了可纠正的内存错误;
发送子单元,用于当确定服务器内存发生了不可纠正的内存错误,则通过SMI对服务器内存发生的不可纠正的内存错误进行解析,得到第一内存故障信息,并将所述第一内存故障信息发送给BMC进行存储,以及当确定服务器内存发生了可纠正的内存错误,则通过SMI对服务器内存发生的可纠正的内存错误进行解析,得到第二内存故障信息,并将所述第二内存故障信息发送给BMC进行存储。
优选地,所述服务器的接口配置包括不可纠正内存错误的接口配置和不可纠正内存错误的接口配置;其中,所述可纠正内存错误的接口配置包括可纠正内存隔离门限值和可纠正隔离级别;所述不可纠正内存错误的接口配置包括不可纠正内存隔离门限值和不可纠正隔离级别。
优选地,所述内存故障信息包括:内存所属CPU(Central Processing Unit,中央处理器)位置、节点、通道、槽位、芯片颗粒、行、列、错误级别、发生次数以及内存生产零件号;所述隔离级别包括处理器级、通道级、槽位级以及内存颗粒级。
根据本发明实施例提供的方案,通过BIOS固件和借助带外管理BMC,对内存零件信息、位置信息和内存故障信息做匹配记录,并通过配置接口实施不同的内存隔离策略,可通过任何形式的服务器自愈或者重启,快速恢复业务,保证业务稳定可控。
附图说明
图1是现有技术提供的服务器系统架构图;
图2是本发明实施例提供的一种服务器上隔离内存故障的方法流程图;
图3是本发明实施例提供的一种服务器上隔离内存故障的装置示意图;
图4是本发明实施例提供的BIOS采集分析及隔离内存故障实现和运维流程图;
图5是本发明实施例提供的服务器上电或重启隔离故障内存示意图;
图6是本发明实施例提供的服务器正常运行期间内存多bit ECC故障分析和记录示意图;
图7是本发明实施例提供的服务器正常运行期间内存单bit ECC故障分析和记录示意图;
图8是本发明实施例提供的运维人员使用本装置步骤图。
具体实施方式
以下结合附图对本发明的优选实施例进行详细说明,应当理解,以下所说明的优选实施例仅用于说明和解释本发明,并不用于限定本发明。
图2是本发明实施例提供的一种服务器上隔离内存故障的方法流程图,如图2所示,包括:
步骤S201:在服务器上电或重启时,BIOS获取BMC存储的关于服务器内存发生故障的内存故障信息;
步骤S202:所述BIOS通过根据服务器的接口配置对所述内存故障信息进行分析,判断发生故障的内存是否需要进行隔离处理;
步骤S203:若判断所述发生故障的内存需要进行隔离处理,则BIOS确定所述发生故障的内存的隔离级别,并按照所确定的隔离级别对所述发生故障的内存进行隔离处理。
本发明实施例还包括:在服务器操作系统运行期间,BIOS通过SMI获取并解析服务器内存发生故障的内存故障信息,并将所述内存故障信息发送给BMC进行存储。
具体地说,所述BIOS通过SMI获取并解析服务器内存发生故障的内存故障信息,并将所述内存故障信息发送给BMC进行存储包括:所述BIOS通过SMI对服务器内存进行实时监测,确定服务器内存是发生了不可纠正的内存错误还是发生了可纠正的内存错误;若所述BIOS确定服务器内存发生了不可纠正的内存错误,则通过SMI对服务器内存发生的不可纠正的内存错误进行解析,得到第一内存故障信息,并将所述第一内存故障信息发送给BMC进行存储;若所述BIOS确定服务器内存发生了可纠正的内存错误,则通过SMI对服务器内存发生的可纠正的内存错误进行解析,得到第二内存故障信息,并将所述第二内存故障信息发送给BMC进行存储。
其中,所述服务器的接口配置包括不可纠正内存错误的接口配置和不可纠正内存错误的接口配置;其中,所述可纠正内存错误的接口配置包括可纠正内存隔离门限值和可纠正隔离级别;所述不可纠正内存错误的接口配置包括不可纠正内存隔离门限值和不可纠正隔离级别。
其中,所述内存故障信息包括:内存所属CPU位置、节点、通道、槽位、芯片颗粒、行、列、错误级别、发生次数以及内存生产零件号;所述隔离级别包括处理器级、通道级、槽位级以及内存颗粒级。
图3是本发明实施例提供的一种服务器上隔离内存故障的装置示意图,如图3所示,包括:获取模块301,用于在服务器上电或重启时,获取BMC存储的关于服务器内存发生故障的内存故障信息;判断模块302,用于通过根据服务器的接口配置对所述内存故障信息进行分析,判断发生故障的内存是否需要进行隔离处理;隔离模块303,用于若判断所述发生故障的内存需要进行隔离处理,则确定所述发生故障的内存的隔离级别,并按照所确定的隔离级别对所述发生故障的内存进行隔离处理。
本发明实施例还包括:发送单元,用于在服务器操作系统运行期间,通过SMI获取并解析服务器内存发生故障的内存故障信息,并将所述内存故障信息发送给BMC进行存储。其中,所述发送单元包括:确定子单元,用于通过SMI对服务器内存进行实时监测,确定服务器内存是发生了不可纠正的内存错误还是发生了可纠正的内存错误;发送子单元,用于当确定服务器内存发生了不可纠正的内存错误,则通过SMI对服务器内存发生的不可纠正的内存错误进行解析,得到第一内存故障信息,并将所述第一内存故障信息发送给BMC进行存储,以及当确定服务器内存发生了可纠正的内存错误,则通过SMI对服务器内存发生的可纠正的内存错误进行解析,得到第二内存故障信息,并将所述第二内存故障信息发送给BMC进行存储。
其中,所述服务器的接口配置包括不可纠正内存错误的接口配置和不可纠正内存错误的接口配置;其中,所述可纠正内存错误的接口配置包括可纠正内存隔离门限值和可纠正隔离级别;所述不可纠正内存错误的接口配置包括不可纠正内存隔离门限值和不可纠正隔离级别。
其中,所述内存故障信息包括:内存所属CPU位置、节点、通道、槽位、芯片颗粒、行、列、错误级别、发生次数以及内存生产零件号;所述隔离级别包括处理器级、通道级、槽位级以及内存颗粒级。
本发明实施例采用以下技术方案,服务器上电过程内存检查前后,BIOS将当前做测试的内存信息汇报给BMC,并打上必要的标记,附带零件信息保证唯一。业务(操作系统)中,BIOS通过已成熟的业界通用的带内的RAS(Reliability,Availability,Serviceability,可靠性、可用性、适用性)功能和MCA(Machine-Check Architectur,机器校验架构)、CSR(Configuration Space Registers,配置空间寄存器)机制,通过SMI获取并解析到出错的内存故障信息(带标签和零件信息),汇报给BMC进行存储;服务器每次上电或重启,BIOS向BMC索取已记录的内存故障信息,并根据服务器预置的接口配置,决定是否隔离和隔离的级别,在隔离处理后向BMC发送清除内存故障请求,以便BMC清除记录信息,并在SEL(System Event Log,系统事件日志)记录操作日志。其中,服务器是通过SMM(SystemManagement Module,系统管理模块)控制台或BMC WEB图形界面提供的配置接口,且设定了内存故障隔离(启用、关闭、门限)和隔离级别(通道、槽位、颗粒)。根据记录的操作日志信息,运维人员在服务器巡检或者合适的时间实施故障内存更换或服务器备件更换,统一实施,统一恢复。
图4是本发明实施例提供的BIOS采集分析及隔离内存故障实现和运维流程图,如图4所示,包括:在服务器上电时,BIOS向BMC索取已记录的内存故障信息,分析内存检查完成标记,并根据接口设置做内存隔离,隔离的内存不再做内存检测;未被隔离的内存检测,记录检测的内存标记,汇报给BMC;检测内存是否卡死,若卡死进行系统自愈,服务器进行重启;若未卡死,则服务器正常运行进入操作系统,并借助RAS和MCA功能,通过SMI记录内存单bit和多bit的ECC错误;内存多bit不可纠正ECC错误发生,服务器主动发起自愈;内存单bit可纠正错误,用户或运维可以手动发起复位修复,也可设定门限发起自愈;系统正常运行,维护人员在合适的时机更换内存。
图5是本发明实施例提供的服务器上电或重启隔离故障内存示意图,如图5所示,单板上电或重启过程中,BIOS向BMC索取已存储的内存故障信息。这些信息包括:内存所属CPU(Central Processing Unit,中央处理器)位置、节点(NODE)、通道、槽位、芯片颗粒、行、列、错误级别、发生次数、内存生产零件号。针对上电启动阶段内存检测过程中出现的卡死情形,分析检查起始、结束、成功、失败标记。提供接口设定,实现不同的隔离级别:处理器级、通道级、槽位级、内存颗粒级。隔离后上报信息清除BMC记录信息,通过SEL更新操作日志,记录下被隔离的内存信息及原因。默认接口配置为:可纠正的内存错误,同一内存颗粒累计达到10次隔离此内存颗粒;同一槽位的内存累计达到30次隔离本槽位的内存;同一通道下的两根或三根内存各自超过30次,隔离内存通道;同一CPU插座的各个通道都有隔离现象,隔离本CPU下的所有内存。不可纠正的内存错误,同一槽位的内存累计达到1次隔离本槽位的内存;同一通道下的两根或三根内存各自达到1次,隔离内存通道;同一CPU插座的各个通道各达到1次及以上,隔离本CPU下的所有内存。
图6是本发明实施例提供的服务器正常运行期间内存多bit ECC故障分析和记录示意图,如图6所示,包括:业务和操作系统运行期间,内存发生不可纠正的多bit ECC错误。BIOS通过SMI实时监控内存发生的错误,分析内存错误发生的物理位置详细信息,整理记录内存错误信息,通过KCS或黑匣子上报给BMC,BMC记录在自己的非易失存储Flash中。系统通过带外或带内手段自愈,服务器重启,重启后故障内存被隔离。当BIOS通过命令索取时,BMC回报给BIOS,收到BIOS清除内存故障请求时,BMC清除记录的内存故障信息,并记录操作日志信息。
图7是本发明实施例提供的服务器正常运行期间内存单bit ECC故障分析和记录示意图,如图7所示,包括:业务和操作系统运行期间,内存发生可纠正的单bit ECC错误。BIOS通过SMI实时监控内存发生的错误,分析内存错误发生的物理位置详细信息,通过命令向BMC获取已记录的可纠正内存错误信息,如果已存在,发送命令使BMC次数加1,如果不存在,计数1次;BMC记录到自己的Flash中,等待BIOS发命令获取。根据接口配置,超过门限后服务器通过带外自愈重启;或手工干预,在合适的时间重启自愈。BIOS向BMC索取已存储内存故障信息,根据接口配置,决定是否隔离和隔离的级别,隔离后清除BMC记录信息,BMC记录操作日志信息。
图8是本发明实施例提供的运维人员使用本装置步骤图,如图8所示,包括:在合适的时机,运维人员通过SMM WEB UI或BMC Web图形按钮一键获取操作日志SEL信息,取得故障内存隔离信息,批量针对性的更换故障内存或整台服务器(后者一般针对单板硬件原因触发的内存故障)。
根据本发明实施例提供的方案,具有以下几条:
1.通过带内的BIOS,在重启或下电再上电服务器时对故障内存实现隔离
2.内存故障信息由BIOS上报后记录入BMC Flash,信息不会丢失,可控可取;
3.服务器有SMM和BMC带外管理功能,Web UI设计,可以批量配置。
尽管上文对本发明进行了详细说明,但是本发明不限于此,本技术领域技术人员可以根据本发明的原理进行各种修改。因此,凡按照本发明原理所作的修改,都应当理解为落入本发明的保护范围。

Claims (10)

1.一种服务器上隔离内存故障的方法,包括:
在服务器上电或重启时,基本输入输出系统BIOS获取基板管理控制器BMC存储的关于服务器内存发生故障的内存故障信息;
所述BIOS通过根据服务器的接口配置对所述内存故障信息进行分析,判断发生故障的内存是否需要进行隔离处理;
若判断所述发生故障的内存需要进行隔离处理,则BIOS确定所述发生故障的内存的隔离级别,并按照所确定的隔离级别对所述发生故障的内存进行隔离处理。
2.根据权利要求1所述的方法,还包括:
在服务器操作系统运行期间,BIOS通过系统管理中断SMI获取并解析服务器内存发生故障的内存故障信息,并将所述内存故障信息发送给BMC进行存储。
3.根据权利要求2所述的方法,所述BIOS通过SMI获取并解析服务器内存发生故障的内存故障信息,并将所述内存故障信息发送给BMC进行存储包括:
所述BIOS通过SMI对服务器内存进行实时监测,确定服务器内存是发生了不可纠正的内存错误还是发生了可纠正的内存错误;
若所述BIOS确定服务器内存发生了不可纠正的内存错误,则通过SMI对服务器内存发生的不可纠正的内存错误进行解析,得到第一内存故障信息,并将所述第一内存故障信息发送给BMC进行存储;
若所述BIOS确定服务器内存发生了可纠正的内存错误,则通过SMI对服务器内存发生的可纠正的内存错误进行解析,得到第二内存故障信息,并将所述第二内存故障信息发送给BMC进行存储。
4.根据权利要求1所述的方法,所述服务器的接口配置包括不可纠正内存错误的接口配置和不可纠正内存错误的接口配置;其中,所述可纠正内存错误的接口配置包括可纠正内存隔离门限值和可纠正隔离级别;所述不可纠正内存错误的接口配置包括不可纠正内存隔离门限值和不可纠正隔离级别。
5.根据权利要求1所述的方法,所述内存故障信息包括:内存所属CPU位置、节点、通道、槽位、芯片颗粒、行、列、错误级别、发生次数以及内存生产零件号;所述隔离级别包括处理器级、通道级、槽位级以及内存颗粒级。
6.一种服务器上隔离内存故障的装置,包括:
获取模块,用于在服务器上电或重启时,获取基板管理控制器BMC存储的关于服务器内存发生故障的内存故障信息;
判断模块,用于通过根据服务器的接口配置对所述内存故障信息进行分析,判断发生故障的内存是否需要进行隔离处理;
隔离模块,用于若判断所述发生故障的内存需要进行隔离处理,则确定所述发生故障的内存的隔离级别,并按照所确定的隔离级别对所述发生故障的内存进行隔离处理。
7.根据权利要求6所述的装置,还包括:
发送单元,用于在服务器操作系统运行期间,通过系统管理中断SMI获取并解析服务器内存发生故障的内存故障信息,并将所述内存故障信息发送给BMC进行存储。
8.根据权利要求7所述的装置,所述发送单元包括:
确定子单元,用于通过SMI对服务器内存进行实时监测,确定服务器内存是发生了不可纠正的内存错误还是发生了可纠正的内存错误;
发送子单元,用于当确定服务器内存发生了不可纠正的内存错误,则通过SMI对服务器内存发生的不可纠正的内存错误进行解析,得到第一内存故障信息,并将所述第一内存故障信息发送给BMC进行存储,以及当确定服务器内存发生了可纠正的内存错误,则通过SMI对服务器内存发生的可纠正的内存错误进行解析,得到第二内存故障信息,并将所述第二内存故障信息发送给BMC进行存储。
9.根据权利要求6所述的装置,所述服务器的接口配置包括不可纠正内存错误的接口配置和不可纠正内存错误的接口配置;其中,所述可纠正内存错误的接口配置包括可纠正内存隔离门限值和可纠正隔离级别;所述不可纠正内存错误的接口配置包括不可纠正内存隔离门限值和不可纠正隔离级别。
10.根据权利要求6所述的装置,所述内存故障信息包括:内存所属CPU位置、节点、通道、槽位、芯片颗粒、行、列、错误级别、发生次数以及内存生产零件号;所述隔离级别包括处理器级、通道级、槽位级以及内存颗粒级。
CN201710443794.2A 2017-06-13 2017-06-13 一种服务器上隔离内存故障的方法及装置 Pending CN109086151A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710443794.2A CN109086151A (zh) 2017-06-13 2017-06-13 一种服务器上隔离内存故障的方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710443794.2A CN109086151A (zh) 2017-06-13 2017-06-13 一种服务器上隔离内存故障的方法及装置

Publications (1)

Publication Number Publication Date
CN109086151A true CN109086151A (zh) 2018-12-25

Family

ID=64838711

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710443794.2A Pending CN109086151A (zh) 2017-06-13 2017-06-13 一种服务器上隔离内存故障的方法及装置

Country Status (1)

Country Link
CN (1) CN109086151A (zh)

Cited By (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109753378A (zh) * 2019-01-02 2019-05-14 浪潮商用机器有限公司 一种内存故障的隔离方法、装置、系统及可读存储介质
CN109947586A (zh) * 2019-03-20 2019-06-28 浪潮商用机器有限公司 一种隔离故障设备的方法、装置和介质
CN109992477A (zh) * 2019-03-27 2019-07-09 联想(北京)有限公司 用于电子设备的信息处理方法、系统以及电子设备
CN110046061A (zh) * 2019-03-01 2019-07-23 华为技术有限公司 内存错误处理方法和装置
CN110187994A (zh) * 2019-05-28 2019-08-30 北京星网锐捷网络技术有限公司 一种故障隔离方法、设备和故障隔离系统
CN110532124A (zh) * 2019-09-06 2019-12-03 西安易朴通讯技术有限公司 内存隔离方法及装置
CN111124722A (zh) * 2019-10-30 2020-05-08 苏州浪潮智能科技有限公司 一种隔离故障内存的方法、设备及介质
CN111506460A (zh) * 2020-04-16 2020-08-07 Oppo广东移动通信有限公司 内存故障的处理方法、装置、移动终端及存储介质
CN111930553A (zh) * 2020-07-15 2020-11-13 烽火通信科技股份有限公司 一种服务器内存故障预警方法及系统
CN112015579A (zh) * 2019-05-29 2020-12-01 英业达科技有限公司 计算机装置与基本输入输出系统的检测方法
CN112231128A (zh) * 2020-09-11 2021-01-15 中科可控信息产业有限公司 内存错误处理方法、装置、计算机设备和存储介质
CN112732477A (zh) * 2021-04-01 2021-04-30 四川华鲲振宇智能科技有限责任公司 一种带外自检故障隔离的方法
CN112988442A (zh) * 2021-03-05 2021-06-18 山东英信计算机技术有限公司 一种服务器运行阶段传送故障信息的方法和设备
CN113282434A (zh) * 2021-07-19 2021-08-20 苏州浪潮智能科技有限公司 一种基于封装后修复技术的内存修复方法及相关组件
CN113568777A (zh) * 2021-09-27 2021-10-29 新华三半导体技术有限公司 一种故障处理方法、装置、网络芯片、设备及存储介质
CN113608908A (zh) * 2021-07-28 2021-11-05 烽火超微信息科技有限公司 服务器故障处理方法、系统、设备及可读存储介质
WO2021253708A1 (zh) * 2020-06-20 2021-12-23 华为技术有限公司 内存故障的处理方法、装置、设备及存储介质
CN114461436A (zh) * 2022-04-08 2022-05-10 苏州浪潮智能科技有限公司 一种内存故障处理方法、装置及计算机可读存储介质
CN114816822A (zh) * 2022-05-07 2022-07-29 宝德计算机系统股份有限公司 一种基于内存故障的服务器管理方法、装置以及系统

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102681909A (zh) * 2012-04-28 2012-09-19 浪潮电子信息产业股份有限公司 一种基于内存错误的服务器预警方法
CN103514068A (zh) * 2012-06-28 2014-01-15 北京百度网讯科技有限公司 内存故障自动定位方法
CN105677500A (zh) * 2016-01-05 2016-06-15 浪潮电子信息产业股份有限公司 一种实时服务器故障诊断的方法
CN105893166A (zh) * 2016-04-29 2016-08-24 浪潮电子信息产业股份有限公司 一种处理内存错误的方法及装置
CN106021014A (zh) * 2016-05-12 2016-10-12 浪潮电子信息产业股份有限公司 一种内存管理方法及装置
CN106445720A (zh) * 2016-10-11 2017-02-22 郑州云海信息技术有限公司 一种内存错误恢复方法和装置

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102681909A (zh) * 2012-04-28 2012-09-19 浪潮电子信息产业股份有限公司 一种基于内存错误的服务器预警方法
CN103514068A (zh) * 2012-06-28 2014-01-15 北京百度网讯科技有限公司 内存故障自动定位方法
CN105677500A (zh) * 2016-01-05 2016-06-15 浪潮电子信息产业股份有限公司 一种实时服务器故障诊断的方法
CN105893166A (zh) * 2016-04-29 2016-08-24 浪潮电子信息产业股份有限公司 一种处理内存错误的方法及装置
CN106021014A (zh) * 2016-05-12 2016-10-12 浪潮电子信息产业股份有限公司 一种内存管理方法及装置
CN106445720A (zh) * 2016-10-11 2017-02-22 郑州云海信息技术有限公司 一种内存错误恢复方法和装置

Cited By (28)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109753378A (zh) * 2019-01-02 2019-05-14 浪潮商用机器有限公司 一种内存故障的隔离方法、装置、系统及可读存储介质
WO2020177493A1 (zh) * 2019-03-01 2020-09-10 华为技术有限公司 内存错误处理方法和装置
CN110046061A (zh) * 2019-03-01 2019-07-23 华为技术有限公司 内存错误处理方法和装置
CN109947586A (zh) * 2019-03-20 2019-06-28 浪潮商用机器有限公司 一种隔离故障设备的方法、装置和介质
CN109992477A (zh) * 2019-03-27 2019-07-09 联想(北京)有限公司 用于电子设备的信息处理方法、系统以及电子设备
CN110187994A (zh) * 2019-05-28 2019-08-30 北京星网锐捷网络技术有限公司 一种故障隔离方法、设备和故障隔离系统
CN112015579A (zh) * 2019-05-29 2020-12-01 英业达科技有限公司 计算机装置与基本输入输出系统的检测方法
CN110532124A (zh) * 2019-09-06 2019-12-03 西安易朴通讯技术有限公司 内存隔离方法及装置
CN111124722A (zh) * 2019-10-30 2020-05-08 苏州浪潮智能科技有限公司 一种隔离故障内存的方法、设备及介质
CN111124722B (zh) * 2019-10-30 2022-11-29 苏州浪潮智能科技有限公司 一种隔离故障内存的方法、设备及介质
CN111506460A (zh) * 2020-04-16 2020-08-07 Oppo广东移动通信有限公司 内存故障的处理方法、装置、移动终端及存储介质
CN111506460B (zh) * 2020-04-16 2023-08-29 Oppo广东移动通信有限公司 内存故障的处理方法、装置、移动终端及存储介质
US12014791B2 (en) 2020-06-20 2024-06-18 Huawei Technologies Co., Ltd. Memory fault handling method and apparatus, device, and storage medium
WO2021253708A1 (zh) * 2020-06-20 2021-12-23 华为技术有限公司 内存故障的处理方法、装置、设备及存储介质
CN111930553B (zh) * 2020-07-15 2022-05-20 烽火通信科技股份有限公司 一种服务器内存故障预警方法及系统
CN111930553A (zh) * 2020-07-15 2020-11-13 烽火通信科技股份有限公司 一种服务器内存故障预警方法及系统
CN112231128A (zh) * 2020-09-11 2021-01-15 中科可控信息产业有限公司 内存错误处理方法、装置、计算机设备和存储介质
CN112988442B (zh) * 2021-03-05 2023-03-24 山东英信计算机技术有限公司 一种服务器运行阶段传送故障信息的方法和设备
CN112988442A (zh) * 2021-03-05 2021-06-18 山东英信计算机技术有限公司 一种服务器运行阶段传送故障信息的方法和设备
CN112732477A (zh) * 2021-04-01 2021-04-30 四川华鲲振宇智能科技有限责任公司 一种带外自检故障隔离的方法
CN113282434A (zh) * 2021-07-19 2021-08-20 苏州浪潮智能科技有限公司 一种基于封装后修复技术的内存修复方法及相关组件
CN113282434B (zh) * 2021-07-19 2021-10-29 苏州浪潮智能科技有限公司 一种基于封装后修复技术的内存修复方法及相关组件
CN113608908A (zh) * 2021-07-28 2021-11-05 烽火超微信息科技有限公司 服务器故障处理方法、系统、设备及可读存储介质
CN113608908B (zh) * 2021-07-28 2023-12-22 烽火超微信息科技有限公司 服务器故障处理方法、系统、设备及可读存储介质
CN113568777B (zh) * 2021-09-27 2022-04-22 新华三半导体技术有限公司 一种故障处理方法、装置、网络芯片、设备及存储介质
CN113568777A (zh) * 2021-09-27 2021-10-29 新华三半导体技术有限公司 一种故障处理方法、装置、网络芯片、设备及存储介质
CN114461436A (zh) * 2022-04-08 2022-05-10 苏州浪潮智能科技有限公司 一种内存故障处理方法、装置及计算机可读存储介质
CN114816822A (zh) * 2022-05-07 2022-07-29 宝德计算机系统股份有限公司 一种基于内存故障的服务器管理方法、装置以及系统

Similar Documents

Publication Publication Date Title
CN109086151A (zh) 一种服务器上隔离内存故障的方法及装置
TWI680369B (zh) 用以自動管理發生於資料中心系統的硬體錯誤事件的方法及其系統
CN105589776B (zh) 一种故障定位方法及服务器
US11966324B2 (en) Discovery crawler for application dependency discovery, reporting, and management tool
US11119874B2 (en) Memory fault detection
WO2017063505A1 (zh) 一种服务器硬件故障检测方法及其装置和服务器
CN104685474B (zh) 用于处理不可纠正的内存错误的方法及非瞬态处理器可读介质
CN105468484A (zh) 用于在存储系统中确定故障位置的方法和装置
US10931533B2 (en) System for network incident management
CN109284207A (zh) 硬盘故障处理方法、装置、服务器和计算机可读介质
US8977895B2 (en) Multi-core diagnostics and repair using firmware and spare cores
CN112002370B (zh) 一种识别磁盘异常的方法、装置及分布式存储系统
CN111414268A (zh) 故障处理方法、装置及服务器
US11687395B2 (en) Detecting and recovering from fatal storage errors
CN105607973A (zh) 一种虚拟机系统中设备故障处理的方法、装置及系统
CN111857555A (zh) 避免磁盘阵列的故障事件的方法、设备和程序产品
CN108710545A (zh) 一种远程监控故障自愈系统
US20100251029A1 (en) Implementing self-optimizing ipl diagnostic mode
CA3144664A1 (en) Determining problem dependencies in application dependency discovery, reporting, and management tool
CN112068935A (zh) kubernetes程序部署监控方法、装置以及设备
US20060168479A1 (en) Real time event logging and analysis in a software system
US10210033B2 (en) Managing component errors with a common software sensor based diagnostic method
US20160026518A1 (en) Recovery program using diagnostic results
CN114153712A (zh) 异常处理方法、装置、设备及存储介质
CN115237641A (zh) 故障检测的方法、装置、电子设备和可读介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20181225

RJ01 Rejection of invention patent application after publication