CN108763005A - 一种内存ecc故障报错方法及系统 - Google Patents

一种内存ecc故障报错方法及系统 Download PDF

Info

Publication number
CN108763005A
CN108763005A CN201810542788.7A CN201810542788A CN108763005A CN 108763005 A CN108763005 A CN 108763005A CN 201810542788 A CN201810542788 A CN 201810542788A CN 108763005 A CN108763005 A CN 108763005A
Authority
CN
China
Prior art keywords
error
ecc
bmc
memory
informations
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201810542788.7A
Other languages
English (en)
Other versions
CN108763005B (zh
Inventor
赵晓强
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhengzhou Yunhai Information Technology Co Ltd
Original Assignee
Zhengzhou Yunhai Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhengzhou Yunhai Information Technology Co Ltd filed Critical Zhengzhou Yunhai Information Technology Co Ltd
Priority to CN201810542788.7A priority Critical patent/CN108763005B/zh
Publication of CN108763005A publication Critical patent/CN108763005A/zh
Application granted granted Critical
Publication of CN108763005B publication Critical patent/CN108763005B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/22Detection or location of defective computer hardware by testing during standby operation or during idle time, e.g. start-up testing
    • G06F11/2205Detection or location of defective computer hardware by testing during standby operation or during idle time, e.g. start-up testing using arrangements specific to the hardware being tested
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/22Detection or location of defective computer hardware by testing during standby operation or during idle time, e.g. start-up testing
    • G06F11/2273Test methods

Abstract

本发明涉及服务器诊断技术领域,提供一种内存ECC故障报错方法及系统,方法包括:在BMC Trap功能开启时,调用与运行预先配置的内存压力测试程序;在内存压力测试过程中,及时获取错误检查和纠正ECC报错信息,并将获取到的ECC报错信息通过BMC Trap功能报送给对应给测试机;所述测试机接收到所述ECC报错信息后,确认是否为本机ECC报错信息;当确认是本机ECC报错时,控制中断压力测试并报错,从而实现对内存ECC故障的报错检测,而且不需要增加额外的预算,操作简单,经济实用,可有效提高服务器内存ECC报错的效率和准确性,适用于生产阶段的质量检测和售后客服的故障紧急处理等场景。

Description

一种内存ECC故障报错方法及系统
技术领域
本发明属于服务器诊断技术领域,尤其涉及一种内存ECC故障报错方法及系统。
背景技术
在当前服务器的生产阶段和售后阶段,均需要诊断工具来检测产品质量和发现产品故障,其中,内存压力测试是诊断服务器产品质量和发现故障的其中一种主要的方式。
以往的内存压力测试,只能在内压力测试全部跑完后,通过智能平台管理接口(Intelligent Platform Management Interface,IPMI)指令获取BMC LOG,才能确定本测试机有无内存ECC报错。在内存压力测试过程中,无法在ECC产生后及时中断测试报错,影响诊断和维修的效率。
发明内容
本发明的目的在于提供一种内存ECC故障报错方法,旨在解决现有技术中在内存压力测试过程中,无法在ECC产生后及时中断测试报错,影响诊断和维修的效率的问题。
本发明是这样实现的,一种内存ECC故障报错方法,所述方法包括下述步骤:
在BMC Trap功能开启时,调用与运行预先配置的内存压力测试程序;
在内存压力测试过程中,及时获取错误检查和纠正ECC报错信息,并将获取到的ECC报错信息通过BMC Trap功能报送给对应给测试机;
所述测试机接收到所述ECC报错信息后,确认是否为本机ECC报错信息;
当确认是本机ECC报错时,控制中断压力测试并报错。
作为一种改进的方案,所述在内存压力测试开启时,控制开启BMC Trap功能的步骤之前还包括下述步骤:
预先配置服务器诊断测试用的内存压力测试程序;
控制获取当前测试面的NET IP和BMC IP,并在所述NET IP和BMC IP之间建立绑定关系,同时将所述绑定关系上传至数据库。
作为一种改进的方案,所述同时将所述绑定关系上传至数据库的步骤之后还包括下述步骤:
判断在内存压力测试时,服务器是否开启BMC Trap功能;
若已开启,则执行所述在BMC Trap功能开启时,运行内存压力测试的步骤;
若未开启,则执行通过IPMI指令开启BMC Trap功能。
作为一种改进的方案,所述在内存压力测试过程中,及时获取错误检查和纠正ECC报错信息,并将获取到的ECC报错信息通过BMC Trap功能报送给对应给测试机的步骤具体包括下述步骤:
在压力测试过程中,控制运行用于对ECC故障信息进行监控的后台监控程序;
及时获取错误检查和纠正ECC报错信息;
若检测到有ECC报错,则BMC控制在局域网中广播所述ECC报错信息。
作为一种改进的方案,所述确认是否为本机ECC报错信息的依据是查询所述数据库中预先设置的绑定关系。
本发明的另一目的在于提供一种内存ECC故障报错系统,所述系统包括:
内存压力测试控制模块,用于在BMC Trap功能开启时,调用与运行预先配置的内存压力测试程序;
ECC报错信息获取报送模块,用于在内存压力测试过程中,及时获取错误检查和纠正ECC报错信息,并将获取到的ECC报错信息通过BMC Trap功能报送给对应给测试机;
报错信息确认模块,用于所述测试机接收到所述ECC报错信息后,确认是否为本机ECC报错信息;
压力测试中断模块,用于当确认是本机ECC报错时,控制中断压力测试并报错。
作为一种改进的方案,所述系统还包括:
内存压力测试程序预先配置模块,用于预先配置服务器诊断测试用的内存压力测试程序;
绑定关系建立模块,用于控制获取当前测试面的NET IP和BMC IP,并在所述NETIP和BMC IP之间建立绑定关系;
上传模块,用于将所述绑定关系上传至数据库。
作为一种改进的方案,所述系统还包括:
判断模块,用于判断在内存压力测试时,服务器是否开启BMC Trap功能;
Trap功能开启模块,用于若所述判断模块判断BMC Trap功能未开启,则执行通过IPMI指令开启BMC Trap功能;
若所述判断模块判断BMC Trap功能已开启,则执行所述内存压力测试控制模块在BMC Trap功能开启时,运行内存压力测试的步骤。
作为一种改进的方案,所述ECC报错信息获取报送模块具体包括下述步骤:
控台监控程序运行模块,用于在压力测试过程中,控制运行用于对ECC故障信息进行监控的后台监控程序;
ECC报错信息获取模块,用于及时获取错误检查和纠正ECC报错信息;
ECC报错信息广播模块,用于若检测到有ECC报错,则BMC控制在局域网中广播所述ECC报错信息。
作为一种改进的方案,所述确认是否为本机ECC报错信息的依据是查询所述数据库中预先设置的绑定关系。
在本发明实施例中,在BMC Trap功能开启时,调用与运行预先配置的内存压力测试程序;在内存压力测试过程中,及时获取错误检查和纠正ECC报错信息,并将获取到的ECC报错信息通过BMC Trap功能报送给对应给测试机;所述测试机接收到所述ECC报错信息后,确认是否为本机ECC报错信息;当确认是本机ECC报错时,控制中断压力测试并报错,从而实现对内存ECC故障的报错检测,而且不需要增加额外的预算,操作简单,经济实用,可有效提高服务器内存ECC报错的的效率和准确性,适用于生产阶段的质量检测和售后客服的故障紧急处理等场景。
附图说明
图1是本发明提供的内存ECC故障报错方法的实现流程图;
图2是本发明提供的在内存压力测试过程中,及时获取错误检查和纠正ECC报错信息,并将获取到的ECC报错信息通过BMC Trap功能报送给对应给测试机的实现流程图;
图3是本发明提供的内存ECC故障报错系统的结构框图;
图4是本发明提供的ECC报错信息获取报送模块的结构框图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
图1示出了本发明提供的内存ECC故障报错方法的实现流程图,其具体包括下述步骤:
在步骤S101中,在BMC Trap功能开启时,调用与运行预先配置的内存压力测试程序。
在该步骤中,在服务器的老化测试中有一个内存压力测试环节,各厂家的加压工具可能不同,但目的都是测试内存上的所有BIT。
在步骤S102中,在内存压力测试过程中,及时获取错误检查和纠正ECC报错信息,并将获取到的ECC报错信息通过BMC Trap功能报送给对应给测试机。
在该步骤中,当内存压力测试过程导致运算中的某BIT报错时,及ECC出现报错信息。
在步骤S103中,所述测试机接收到所述ECC报错信息后,确认是否为本机ECC报错信息。
在该步骤中,该确认是否为本机ECC报错信息的具体实现为:通过查询数据库的IP对应关系,获取是否为本机的ECC报错。
在步骤S104中,当确认是本机ECC报错时,控制中断压力测试并报错。
其中,在内存压力测试开启时,控制开启BMC Trap功能的步骤之前还包括下述步骤:
(1)预先配置服务器诊断测试用的内存压力测试程序;
(2)控制获取当前测试面的NET IP和BMC IP,并在所述NET IP和BMC IP之间建立绑定关系,同时将所述绑定关系上传至数据库。
在该实施例中,同时将所述绑定关系上传至数据库的步骤之后还包括下述步骤:
判断在内存压力测试时,服务器是否开启BMC Trap功能;
若已开启,则执行所述在BMC Trap功能开启时,运行内存压力测试的步骤;
若未开启,则执行通过IPMI指令开启BMC Trap功能。
在本发明实施例中,如图2所示,在内存压力测试过程中,及时获取错误检查和纠正ECC报错信息,并将获取到的ECC报错信息通过BMC Trap功能报送给对应给测试机的步骤具体包括下述步骤:
在步骤S201中,在压力测试过程中,控制运行用于对ECC故障信息进行监控的后台监控程序。
在步骤S202中,及时获取错误检查和纠正ECC报错信息。
在步骤S203中,若检测到有ECC报错,则BMC控制在局域网中广播所述ECC报错信息。
图3示出了本发明挺的内存ECC故障报错系统的结构框图,为了便于说明,图中仅给出了与本发明实施例相关的部分。
内存ECC故障报错系统包括:
内存压力测试控制模块11,用于在BMC Trap功能开启时,调用与运行预先配置的内存压力测试程序;
ECC报错信息获取报送模块12,用于在内存压力测试过程中,及时获取错误检查和纠正ECC报错信息,并将获取到的ECC报错信息通过BMC Trap功能报送给对应给测试机;
报错信息确认模块13,用于所述测试机接收到所述ECC报错信息后,确认是否为本机ECC报错信息;
压力测试中断模块14,用于当确认是本机ECC报错时,控制中断压力测试并报错。
其中,内存压力测试程序预先配置模块15,用于预先配置服务器诊断测试用的内存压力测试程序;
绑定关系建立模块16,用于控制获取当前测试面的NET IP和BMC IP,并在所述NETIP和BMC IP之间建立绑定关系;
上传模块17,用于将所述绑定关系上传至数据库。
在本发明实施例中,判断模块18,用于判断在内存压力测试时,服务器是否开启BMC Trap功能;
Trap功能开启模块19,用于若所述判断模块判断BMC Trap功能未开启,则执行通过IPMI指令开启BMC Trap功能;
若所述判断模块18判断BMC Trap功能已开启,则执行所述内存压力测试控制模块在BMC Trap功能开启时,运行内存压力测试的步骤。
在本发明实施例中,如图4所示,ECC报错信息获取报送模块12具体包括下述步骤:
控台监控程序运行模块20,用于在压力测试过程中,控制运行用于对ECC故障信息进行监控的后台监控程序;
ECC报错信息获取模块21,用于及时获取错误检查和纠正ECC报错信息;
ECC报错信息广播模块22,用于若检测到有ECC报错,则BMC控制在局域网中广播所述ECC报错信息。
在该实施例中,上述各个模块的功能如上述方法实施例所记载,在此不再赘述。
在本发明实施例中,在BMC Trap功能开启时,调用与运行预先配置的内存压力测试程序;在内存压力测试过程中,及时获取错误检查和纠正ECC报错信息,并将获取到的ECC报错信息通过BMC Trap功能报送给对应给测试机;所述测试机接收到所述ECC报错信息后,确认是否为本机ECC报错信息;当确认是本机ECC报错时,控制中断压力测试并报错,从而实现对内存ECC故障的报错检测,而且不需要增加额外的预算,操作简单,经济实用,可有效提高服务器内存ECC报错的的效率和准确性,适用于生产阶段的质量检测和售后客服的故障紧急处理等场景。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种内存ECC故障报错方法,其特征在于,所述方法包括下述步骤:
在BMC Trap功能开启时,调用与运行预先配置的内存压力测试程序;
在内存压力测试过程中,及时获取错误检查和纠正ECC报错信息,并将获取到的ECC报错信息通过BMC Trap功能报送给对应给测试机;
所述测试机接收到所述ECC报错信息后,确认是否为本机ECC报错信息;
当确认是本机ECC报错时,控制中断压力测试并报错。
2.根据权利要求1所述的内存ECC故障报错方法,其特征在于,所述在内存压力测试开启时,控制开启BMC Trap功能的步骤之前还包括下述步骤:
预先配置服务器诊断测试用的内存压力测试程序;
控制获取当前测试面的NET IP和BMC IP,并在所述NET IP和BMC IP之间建立绑定关系,同时将所述绑定关系上传至数据库。
3.根据权利要求2所述的内存ECC故障报错方法,其特征在于,所述同时将所述绑定关系上传至数据库的步骤之后还包括下述步骤:
判断在内存压力测试时,服务器是否开启BMC Trap功能;
若已开启,则执行所述在BMC Trap功能开启时,运行内存压力测试的步骤;
若未开启,则执行通过IPMI指令开启BMC Trap功能。
4.根据权利要求3所述的内存ECC故障报错方法,其特征在于,所述在内存压力测试过程中,及时获取错误检查和纠正ECC报错信息,并将获取到的ECC报错信息通过BMC Trap功能报送给对应给测试机的步骤具体包括下述步骤:
在压力测试过程中,控制运行用于对ECC故障信息进行监控的后台监控程序;
及时获取错误检查和纠正ECC报错信息;
若检测到有ECC报错,则BMC控制在局域网中广播所述ECC报错信息。
5.根据权利要求4所述的内存ECC故障报错方法,其特征在于,所述确认是否为本机ECC报错信息的依据是查询所述数据库中预先设置的绑定关系。
6.一种内存ECC故障报错系统,其特征在于,所述系统包括:
内存压力测试控制模块,用于在BMC Trap功能开启时,调用与运行预先配置的内存压力测试程序;
ECC报错信息获取报送模块,用于在内存压力测试过程中,及时获取错误检查和纠正ECC报错信息,并将获取到的ECC报错信息通过BMC Trap功能报送给对应给测试机;
报错信息确认模块,用于所述测试机接收到所述ECC报错信息后,确认是否为本机ECC报错信息;
压力测试中断模块,用于当确认是本机ECC报错时,控制中断压力测试并报错。
7.根据权利要求6所述的内存ECC故障报错系统,其特征在于,所述系统还包括:
内存压力测试程序预先配置模块,用于预先配置服务器诊断测试用的内存压力测试程序;
绑定关系建立模块,用于控制获取当前测试面的NET IP和BMC IP,并在所述NET IP和BMC IP之间建立绑定关系;
上传模块,用于将所述绑定关系上传至数据库。
8.根据权利要求7所述的内存ECC故障报错系统,其特征在于,所述系统还包括:
判断模块,用于判断在内存压力测试时,服务器是否开启BMC Trap功能;
Trap功能开启模块,用于若所述判断模块判断BMC Trap功能未开启,则执行通过IPMI指令开启BMC Trap功能;
若所述判断模块判断BMC Trap功能已开启,则执行所述内存压力测试控制模块在BMCTrap功能开启时,运行内存压力测试的步骤。
9.根据权利要求8所述的内存ECC故障报错系统,其特征在于,所述ECC报错信息获取报送模块具体包括下述步骤:
控台监控程序运行模块,用于在压力测试过程中,控制运行用于对ECC故障信息进行监控的后台监控程序;
ECC报错信息获取模块,用于及时获取错误检查和纠正ECC报错信息;
ECC报错信息广播模块,用于若检测到有ECC报错,则BMC控制在局域网中广播所述ECC报错信息。
10.根据权利要求9所述的内存ECC故障报错系统,其特征在于,所述确认是否为本机ECC报错信息的依据是查询所述数据库中预先设置的绑定关系。
CN201810542788.7A 2018-05-30 2018-05-30 一种内存ecc故障报错方法及系统 Active CN108763005B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810542788.7A CN108763005B (zh) 2018-05-30 2018-05-30 一种内存ecc故障报错方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810542788.7A CN108763005B (zh) 2018-05-30 2018-05-30 一种内存ecc故障报错方法及系统

Publications (2)

Publication Number Publication Date
CN108763005A true CN108763005A (zh) 2018-11-06
CN108763005B CN108763005B (zh) 2021-07-27

Family

ID=64004498

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810542788.7A Active CN108763005B (zh) 2018-05-30 2018-05-30 一种内存ecc故障报错方法及系统

Country Status (1)

Country Link
CN (1) CN108763005B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109710501A (zh) * 2018-12-18 2019-05-03 郑州云海信息技术有限公司 一种服务器数据传输稳定性的检测方法和系统
CN111625387A (zh) * 2020-05-27 2020-09-04 北京金山云网络技术有限公司 内存错误处理方法、装置及服务器
CN112463481A (zh) * 2020-11-23 2021-03-09 苏州浪潮智能科技有限公司 一种基于远程xdp功能测试bmc故障诊断功能的方法及系统

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090150721A1 (en) * 2007-12-10 2009-06-11 International Business Machines Corporation Utilizing A Potentially Unreliable Memory Module For Memory Mirroring In A Computing System
CN101477479A (zh) * 2009-01-08 2009-07-08 浪潮电子信息产业股份有限公司 一种测试内存兼容性和稳定性的方法
CN103970661A (zh) * 2014-05-19 2014-08-06 浪潮电子信息产业股份有限公司 一种利用ipmi工具进行批量服务器内存故障检测的方法
CN105677500A (zh) * 2016-01-05 2016-06-15 浪潮电子信息产业股份有限公司 一种实时服务器故障诊断的方法
US20160266975A1 (en) * 2015-03-09 2016-09-15 Samsung Electronics Co., Ltd. Memory devices and modules
CN107038098A (zh) * 2017-04-28 2017-08-11 郑州云海信息技术有限公司 一种可批量通过网络进行服务器内存诊断的方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090150721A1 (en) * 2007-12-10 2009-06-11 International Business Machines Corporation Utilizing A Potentially Unreliable Memory Module For Memory Mirroring In A Computing System
CN101477479A (zh) * 2009-01-08 2009-07-08 浪潮电子信息产业股份有限公司 一种测试内存兼容性和稳定性的方法
CN103970661A (zh) * 2014-05-19 2014-08-06 浪潮电子信息产业股份有限公司 一种利用ipmi工具进行批量服务器内存故障检测的方法
US20160266975A1 (en) * 2015-03-09 2016-09-15 Samsung Electronics Co., Ltd. Memory devices and modules
CN105677500A (zh) * 2016-01-05 2016-06-15 浪潮电子信息产业股份有限公司 一种实时服务器故障诊断的方法
CN107038098A (zh) * 2017-04-28 2017-08-11 郑州云海信息技术有限公司 一种可批量通过网络进行服务器内存诊断的方法

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109710501A (zh) * 2018-12-18 2019-05-03 郑州云海信息技术有限公司 一种服务器数据传输稳定性的检测方法和系统
CN109710501B (zh) * 2018-12-18 2021-10-29 郑州云海信息技术有限公司 一种服务器数据传输稳定性的检测方法和系统
CN111625387A (zh) * 2020-05-27 2020-09-04 北京金山云网络技术有限公司 内存错误处理方法、装置及服务器
CN111625387B (zh) * 2020-05-27 2024-03-29 北京金山云网络技术有限公司 内存错误处理方法、装置及服务器
CN112463481A (zh) * 2020-11-23 2021-03-09 苏州浪潮智能科技有限公司 一种基于远程xdp功能测试bmc故障诊断功能的方法及系统

Also Published As

Publication number Publication date
CN108763005B (zh) 2021-07-27

Similar Documents

Publication Publication Date Title
CN108763005A (zh) 一种内存ecc故障报错方法及系统
CN110427314B (zh) 一种计量自动化终端信息安全可靠性测试方法及系统
CN110212645B (zh) 一种用电信息采集终端停电事件上报方法及装置
CN108268023B (zh) 一种轨道交通站台门远程故障诊断方法及系统
CN109733238B (zh) 故障检测方法、装置、存储介质及处理器
CN102075789A (zh) 快速测试机顶盒的方法和系统
CN113561853B (zh) 燃料电池系统在线故障诊断方法及装置
CN111294652A (zh) 智能电视故障在线诊断方法、装置及控制器
CN111639769A (zh) 一种监控设备远程维护方法、装置以及电子设备
CN114255784A (zh) 一种基于声纹识别的变电站设备故障诊断方法及相关装置
CN117289085A (zh) 一种多线路故障分析诊断方法及系统
CN113783749B (zh) 一种基于网络端口检测设备故障的方法
KR102561675B1 (ko) 생산현장 가동 설비 상태 모니터링을 통한 고장진단 및 예측 시스템
CN111538654B (zh) 一种软件可靠性测试方法、系统、存储介质
CN116107794B (zh) 一种舰船软件故障自动诊断方法、系统及存储介质
JPH09205429A (ja) ネットワーク故障診断装置及び故障予測装置並びにその診断及び予測方法
CN115587312B (zh) 一种基于多维大数据分析的故障点定位方法和系统
CN110908354A (zh) 一种自动化测试检测装置和方法
CN111176970A (zh) 一种区块链测试架构及系统
CN102769539B (zh) 一种分布式网络设备转发故障诊断方法及设备
CN109783263B (zh) 一种服务器老化测试故障的处理方法和系统
CN112684300A (zh) 一种利用双向监测信息的主动配电网故障诊断方法及装置
CN113423946A (zh) 喷射器故障诊断装置以及喷射器故障诊断方法
CN113964935B (zh) 一种配电自动化终端工厂化全闭环调试方法及其系统
KR102572628B1 (ko) 생산설비 통합 관리 시스템

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant