CN109343988A - 一种测试不可修正错误降级成可修正错误功能的方法 - Google Patents

一种测试不可修正错误降级成可修正错误功能的方法 Download PDF

Info

Publication number
CN109343988A
CN109343988A CN201811067605.7A CN201811067605A CN109343988A CN 109343988 A CN109343988 A CN 109343988A CN 201811067605 A CN201811067605 A CN 201811067605A CN 109343988 A CN109343988 A CN 109343988A
Authority
CN
China
Prior art keywords
mistake
meclog
option
downgraded
test
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201811067605.7A
Other languages
English (en)
Inventor
梁恒勋
迟江波
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhengzhou Yunhai Information Technology Co Ltd
Original Assignee
Zhengzhou Yunhai Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhengzhou Yunhai Information Technology Co Ltd filed Critical Zhengzhou Yunhai Information Technology Co Ltd
Priority to CN201811067605.7A priority Critical patent/CN109343988A/zh
Publication of CN109343988A publication Critical patent/CN109343988A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0706Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment
    • G06F11/0721Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment within a central processing unit [CPU]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0706Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment
    • G06F11/073Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment in a memory management context, e.g. virtual memory or cache management
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0766Error or fault reporting or storing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0793Remedial or corrective actions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/44Arrangements for executing specific programs
    • G06F9/4401Bootstrapping
    • G06F9/4403Processor initialisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/44Arrangements for executing specific programs
    • G06F9/445Program loading or initiating
    • G06F9/44505Configuring for program initiating, e.g. using registry, configuration files

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Software Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Quality & Reliability (AREA)
  • Computer Security & Cryptography (AREA)
  • Test And Diagnosis Of Digital Computers (AREA)

Abstract

本发明提供一种测试不可修正错误降级成可修正错误功能的方法包括如下步骤:S1:在BIOS Setup中设置各选项参数;S2:检测Meclog是否安装,若是,执行步骤S3;若否,进行Meclog安装后执行步骤S3。S3:重启服务器,对Meclog进行测试;S4:若Meclog测试无误,链接测试工具Intel XDP,并运行进性clear处理;S5:根据测试的服务器中搭配内存的位置来进行测试;S6:注错成功后Linux下的Mcelog中就会出现相应的Patrol Scrub UCncorrected日志。

Description

一种测试不可修正错误降级成可修正错误功能的方法
技术领域
本发明涉及服务器测试技术领域,具体涉及一种测试不可修正错误降级成可修正错误功能的方法。
背景技术
随着大数据和互联网应用的兴起,服务器的应用范围越来越广。客户对于内存相关的测试也越来注重。由于内存的配置增多,客户对有关内存的报错更加关心。在测试Memory不可修正错误降级成可修正错误功能时之前没有具体的方法,而且客户还很注重这一块的报错机制。RAS性能指的是机器的可靠性(reliability)、可用性(availability)和可服务性(serviceability)。
发明内容
为了克服上述现有技术中的不足,本发明提供一种修正错误降级的测试方法,以解决上述技术问题。
一种测试不可修正错误降级成可修正错误功能的方法,包括如下步骤:
在BIOS Setup中设置各选项参数;
重启服务器,对Meclog进行测试;
根据测试的服务器中搭配内存的位置来进行测试。
进一步的,步骤在BIOS Setup中设置各选项参数包括:
设置可纠正的误差阈值;
设置iio配置选项中的iio dfx配置EV dfx特性;
设置lock chipset选项的属性;
进一步的,步骤在BIOS Setup中设置各选项参数还包括:
设置内存配置选项中的内存RAS配置选项的巡检周期。
进一步的,设置可纠正的误差阈值Correctable Error Threshold选项为1;
设置iio配置选项中的iio dfx配置EV dfx特性选项为Enable;
设置lock chipset选项的属性为disabled。
进一步的,设置内存配置选项中的内存RAS配置选项的巡检周期为1小时。每间1小时内存控制器扫描整个系统内存错误。
进一步的,步骤重启服务器,对Meclog进行测试之前,包括:
检测Meclog是否安装,若是,执行步骤重启服务器,对Meclog进行测试;若否,进行Meclog安装。
进一步的,步骤进行Meclog安装,包括:
将MCElog的rpm包进行解压;
进入解压出来的文件夹,进行编译安装,并对Meclog文件进行设置使故障日志只记录mcelog日志中,并不记录到系统日志中。
进一步的,步骤根据测试的服务器中搭配内存的位置来进行测试,之前还包括:
若Meclog测试无误,链接测试工具Intel XDP,并运行进性clear处理。
进一步的,该方法还包括:
注错成功后Linux下的Mcelog中就会出现相应的Patrol Scrub UCncorrected日志。
通过在Intel ITP-XDP支具给内存来进行模拟Memory不可修正错误降级成可修正错误功能,同时Linux下的Mcelog中会记录报错的日志。
从以上技术方案可以看出,本发明具有以下优点:本发明针对Memory不可修正错误降级成可修正错误功能进行测试,可以有效的去进行模拟报错。Memory不可修正错误降级成可修正错误功能这一块更好的有了保障,填补了这一部分的空白。更好的提高了产品的质量,加强了测试人员的工作效率。
此外,本发明设计原理可靠,结构简单,具有非常广泛的应用前景。
由此可见,本发明与现有技术相比,具有突出的实质性特点和显著地进步,其实施的有益效果也是显而易见的。
附图说明
图1为一种测试不可修正错误降级成可修正错误功能的方法流程图。
具体实施方式
下面结合附图并通过具体实施例对本发明进行详细阐述,以下实施例是对本发明的解释,而本发明并不局限于以下实施方式。
实施例一
如图1所示,一种测试不可修正错误降级成可修正错误功能的方法,包括如下步骤:
S1:在BIOS Setup中设置各选项参数;
S2:检测Meclog是否安装,若是,执行步骤S3;若否,进行Meclog安装后执行步骤S3。
S3:重启服务器,对Meclog进行测试;
S4:若Meclog测试无误,链接测试工具Intel XDP,并运行进性clear处理;
S5:根据测试的服务器中搭配内存的位置来进行测试;
S6:注错成功后Linux下的Mcelog中就会出现相应的Patrol Scrub UCncorrected日志。
步骤S1包括:
S11:设置可纠正的误差阈值;
S12:设置iio配置选项中的iio dfx配置EV dfx特性;
S13:设置lock chipset选项的属性;
S14:设置内存配置选项中的内存RAS配置选项的巡检周期。
步骤S2中进行Meclog安装,包括:
S21:将MCElog的rpm包进行解压;
S22:进入解压出来的文件夹,进行编译安装,并对Meclog文件进行设置使故障日志只记录mcelog日志中,并不记录到系统日志中。
通过在Intel ITP-XDP支具给内存来进行模拟Memory不可修正错误降级成可修正错误功能,同时Linux下的Mcelog中会记录报错的日志。
实施例二
在BIOS Setup中设置相关选项,把选项的值修改为以下情况:
可纠正的误差阈值Correctable Error Threshold选项默认值5000修改成1;
Processor菜单中的iio配置IIO Configuration选项中的IIO DFXConfiguration EV DFX Features选项默认值Disable修改成Enable;
lock chipset选项的默认值enabled修改成disabled;
Processor菜单中的内存配置Memory Configuration选项中的内存RAS配置Memory RAS Configuration选项的巡检周期Patrol Scrub Interval选项默认值24修改为1;每间隔设定时间内存控制器扫描整个系统内存错误。
在系统下进行安装MCElog的rpm包,命令如下:
Sudo rpm–ivh--force mcelog_xxx.rpm
重启服务器,用linux下自带的系统命令把Meclog的服务打开。运行servicemcelog status应无错误异常,提示如下:
redirecting to/bin/systemctl restart mcelog.service
[root@localhost log]#service mcelog status
redirecting to/bin/systemctl restart mcelog.service
mcelog.service-Machine Check Exception Logging Daemon
Loaded:loaded(/usr/lib/system/mcelog.service;enabled;vendor preset:enabled)
Active:active(running)since Fri 2018-03-16 06:14:54CST;2S ago
Process:7812ExecStart=/usr/sbin/mcelog--ignorenodve--daemon--syslog--logfile/var/log/mcelog(code=exited,status=0/SUCCESS)
Process:7802ExecStartPre=/etc/mcelog.setup(code=exited,status=0/SUCCESS)
Main PID:7814(mcelog)
CGroup:/system.slice/mcelog.service
7814/usr/sbin/mcelog--ignorenodev--daemon--logfile/var/log/mcelog
Mar16:14:54localhost.localdomain systemd[1]:Starting Machine CheckException Logging Daemon…
Mar16:14:54localhost.localdomain systemd[1]:Started Machine CheckException Logging Daemon.
[root@localhost log]#
链接测试工具Intel XDP,先运行工具中ei.clearMeminjectors(0)命令先进性clear处理。
然后根据测试的服务器中搭配内存的位置来进行测试,不同的Memory位置不同的参数。注错成功后Linux下的Mcelog中就会出现相应的Patrol Scrub UCncorrected日志。
机器搭配的内存为CPU-C0槽位(CPU0-channel2-dimm0)
XDP工具中的命令如下:
ei.injectMemError(socket=0,channel=2,dimm=0,rank=0,PatrolConsu me=True,errType="uce")
MCE 0
CPU 0BANK 17
MISC 900000180018086ADDR 765bdf00
TIME 1521212769Fri Mar 16 23:06:09 2018
MCG status:
MCi status
Corrected error
MCi_MISC register valid
MCi_ADDR register valid
MCA:MEMORY CONTROLLER MS_CHANNEL2_ERR
Transaction:Memory scrubbing error
MemCtr1:Uncorrected patrol scrub error
STATUS 8c000040001000c2MCGSTATUS 0
MCGCAP f000c14APICID 0SOCKETID 0
CPUID Vendor Intel Family 6Model 85
You have new mail in/var/spool.mail/root
[root@localhost log]#
本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”“第四”等(如果存在)是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims (9)

1.一种测试不可修正错误降级成可修正错误功能的方法,其特征在于,包括如下步骤:
在BIOS Setup中设置各选项参数;
重启服务器,对Meclog进行测试;
根据测试的服务器中搭配内存的位置来进行测试。
2.根据权利要求1所述的一种测试不可修正错误降级成可修正错误功能的方法,其特征在于,步骤在BIOS Setup中设置各选项参数包括:
设置可纠正的误差阈值;
设置iio配置选项中的iio dfx配置EV dfx特性;
设置lock chipset选项的属性。
3.根据权利要求2所述的一种测试不可修正错误降级成可修正错误功能的方法,其特征在于,步骤在BIOS Setup中设置各选项参数还包括:
设置内存配置选项中的内存RAS配置选项的巡检周期。
4.根据权利要求2所述的一种测试不可修正错误降级成可修正错误功能的方法,其特征在于,
设置可纠正的误差阈值Correctable Error Threshold选项为1;
设置iio配置选项中的iio dfx配置EV dfx特性选项为 Enable;
设置lock chipset选项的属性为disabled。
5.根据权利要求3所述的一种测试不可修正错误降级成可修正错误功能的方法,其特征在于,
设置内存配置选项中的内存RAS配置选项的巡检周期为1小时。
6.根据权利要求1所述的一种测试不可修正错误降级成可修正错误功能的方法,其特征在于,步骤重启服务器,对Meclog进行测试之前,包括:
检测Meclog是否安装,若是,执行步骤重启服务器,对Meclog进行测试;若否,进行Meclog安装。
7.根据权利要求6所述的一种测试不可修正错误降级成可修正错误功能的方法,其特征在于,步骤进行Meclog安装,包括:
将MCElog的rpm包进行解压;
进入解压出来的文件夹,进行编译安装,并对Meclog文件进行设置使故障日志只记录mcelog日志中,并不记录到系统日志中。
8.根据权利要求7所述的一种测试不可修正错误降级成可修正错误功能的方法,其特征在于,步骤根据测试的服务器中搭配内存的位置来进行测试,之前还包括:
若Meclog测试无误,链接测试工具Intel XDP,并运行进性clear处理。
9.根据权利要求1所述的一种测试不可修正错误降级成可修正错误功能的方法,其特征在于,该方法还包括:
注错成功后Linux下的Mcelog中就会出现相应的Patrol Scrub UCncorrected日志。
CN201811067605.7A 2018-09-13 2018-09-13 一种测试不可修正错误降级成可修正错误功能的方法 Pending CN109343988A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811067605.7A CN109343988A (zh) 2018-09-13 2018-09-13 一种测试不可修正错误降级成可修正错误功能的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811067605.7A CN109343988A (zh) 2018-09-13 2018-09-13 一种测试不可修正错误降级成可修正错误功能的方法

Publications (1)

Publication Number Publication Date
CN109343988A true CN109343988A (zh) 2019-02-15

Family

ID=65305477

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811067605.7A Pending CN109343988A (zh) 2018-09-13 2018-09-13 一种测试不可修正错误降级成可修正错误功能的方法

Country Status (1)

Country Link
CN (1) CN109343988A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111048141A (zh) * 2019-12-15 2020-04-21 浪潮电子信息产业股份有限公司 一种错误处理方法、装置、设备及计算机可读存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103198000A (zh) * 2013-04-02 2013-07-10 浪潮电子信息产业股份有限公司 一种linux系统下的故障内存位置定位方法
CN104484274A (zh) * 2014-12-24 2015-04-01 浪潮电子信息产业股份有限公司 一种基于itp工具的内存轮巡检查功能测试方法
CN105138438A (zh) * 2015-08-26 2015-12-09 浪潮电子信息产业股份有限公司 一种memory patrol scrub测试方法
US20170102995A1 (en) * 2015-10-09 2017-04-13 Qualcomm Incorporated System and method for providing operating system independent error control in a computing device

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103198000A (zh) * 2013-04-02 2013-07-10 浪潮电子信息产业股份有限公司 一种linux系统下的故障内存位置定位方法
CN104484274A (zh) * 2014-12-24 2015-04-01 浪潮电子信息产业股份有限公司 一种基于itp工具的内存轮巡检查功能测试方法
CN105138438A (zh) * 2015-08-26 2015-12-09 浪潮电子信息产业股份有限公司 一种memory patrol scrub测试方法
US20170102995A1 (en) * 2015-10-09 2017-04-13 Qualcomm Incorporated System and method for providing operating system independent error control in a computing device

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111048141A (zh) * 2019-12-15 2020-04-21 浪潮电子信息产业股份有限公司 一种错误处理方法、装置、设备及计算机可读存储介质
CN111048141B (zh) * 2019-12-15 2021-11-09 浪潮电子信息产业股份有限公司 一种错误处理方法、装置、设备及计算机可读存储介质

Similar Documents

Publication Publication Date Title
US10037238B2 (en) System and method for encoding exception conditions included at a remediation database
US10365961B2 (en) Information handling system pre-boot fault management
US8209658B2 (en) Method of creating signatures for classifying program failures
US7159146B2 (en) Analyzing system error messages
US10601640B1 (en) Enriched self-healing for cloud platforms
CN104536875A (zh) 一种基于ipmi的对服务器进行自动化重启测试的方法
US10140201B2 (en) Software defect detection tool
US20180173608A1 (en) Software Defect Analysis Tool
US20210157698A1 (en) Method, System, Storage Media And Device For Stress Test Of Baseboard Management Controllers
CN110554938B (zh) 一种基于脚本集合的bios测试方法、系统、终端及存储介质
Lu et al. Cloud API issues: an empirical study and impact
Dunagan et al. Towards a self-managing software patching process using black-box persistent-state manifests
WO2021101894A1 (en) Auto-recovery for software systems
CN109343988A (zh) 一种测试不可修正错误降级成可修正错误功能的方法
US9645874B2 (en) Analyzing OpenManage integration for troubleshooting log to determine root cause
US20220043728A1 (en) Method, apparatus, device and system for capturing trace of nvme hard disc
CN107526663A (zh) 一种基于带外管理与操作系统协同的开关机测试方法及系统
US20150067420A1 (en) Memory module errors
CN107562565A (zh) 一种验证内存Patrol Scurb功能的方法
CN111078476B (zh) 一种网卡驱动固件稳定性测试方法、系统、终端及存储介质
CN101562532A (zh) 一种基于网络环境自动获取计算机硬件信息的系统和方法
CN110674044B (zh) 功能自动化测试的覆盖率获取方法、系统、设备及介质
CN109783288A (zh) 一种自动化重启复位测试服务器稳定性的方法及系统
CN105159810B (zh) 对计算机系统的bios进行测试的方法及装置
WO2016201997A1 (zh) 一种自动化测试的方法、装置及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20190215