CN107562565A - 一种验证内存Patrol Scurb功能的方法 - Google Patents

一种验证内存Patrol Scurb功能的方法 Download PDF

Info

Publication number
CN107562565A
CN107562565A CN201710657195.0A CN201710657195A CN107562565A CN 107562565 A CN107562565 A CN 107562565A CN 201710657195 A CN201710657195 A CN 201710657195A CN 107562565 A CN107562565 A CN 107562565A
Authority
CN
China
Prior art keywords
scurb
internal memory
patrol
functions
bios
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201710657195.0A
Other languages
English (en)
Inventor
张晓涛
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhengzhou Yunhai Information Technology Co Ltd
Original Assignee
Zhengzhou Yunhai Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhengzhou Yunhai Information Technology Co Ltd filed Critical Zhengzhou Yunhai Information Technology Co Ltd
Priority to CN201710657195.0A priority Critical patent/CN107562565A/zh
Publication of CN107562565A publication Critical patent/CN107562565A/zh
Pending legal-status Critical Current

Links

Abstract

本发明涉及服务器内存测试领域,具体涉及一种验证内存Patrol Scurb功能的方法。该方法使用Intel DCI协议及DCI USB线工具,通过对内存MCE阈值的检测,验证内存RAS Patrol Scurb的功能是否正常。本发明所述的方法简单易行,操作方便,节约了测试人力资源。

Description

一种验证内存Patrol Scurb功能的方法
技术领域
本发明涉及服务器内存测试领域,具体涉及一种验证内存Patrol Scurb功能的方法。该方法使用Intel DCI协议及DCI USB线工具,通过对内存MCE阈值的检测,验证内存RASPatrol Scurb的功能是否正常。本发明所述的方法简单易行,操作方便,节约了测试人力资源。
背景技术
随着互联网的飞速发展,人们对服务器的需求量越来越大,对服务器的应用也越来越广泛,进而对服务器的各项指标的要求也越来越高。服务器需要更长时间工作,并且性能要稳定。服务器的稳定工作是检测服务器质量的关键因素。但是服务器长时间运行后,发生故障的概率增大。服务器发生故障概率最高的部件就是内存,因此对内存性能指标的检测是服务器出厂检测的重要一环。
服务器内存的稳定性主要体现在内存RAS性能上。RAS性能是指服务器的可靠性(Reliability)、可用性(Availability)以及可服务性(Serviceability),而内存子系统的RAS特性是服务器稳定性的重中之重。
内存的RAS特性是指在内存ECC校验技术的基础上发展出的用于提升内存容错能力、可靠性、可用性以及诊断功能的关键性技术,用于保证服务器长期稳定运行。作为高端服务器产品提供商,一款服务器在研发阶段需要对产品进行内存的RAS特性进行测试,更是内存子系统的主要测试项。对内存的RAS功验证也显得非常重要。
Patrol Scrubs(Memory Patrol Scrub:内存巡检清除)周期性地扫描整个系统内存的错误,如果遇到错误,则纠正并且写回到DIMM(Dual-Inline-Memory-Modules,即双列直插式存储模块)。Patrol Scrub这种特性主要用于防止单bit错误发展为uncorrectable的多bit错误。但是如何保证该功能在各种BIOS及搭配各种CPU的情况正确执行就需要专业的工具和方法去验证.
针对这种情况,本申请发明一种验证内存Patrol Scurb功能的方法,通过使用DCI协议及DCI USB线来进行验证操作。方法实用性强,操作简单易行。
发明内容
本申请所述验证方法的整个过程主要是利用DCI协议及DCI USB线来进行。
DCI是Intel提供的一种调试和验证CPU功能的工具,其优点是只需要USB3.0接口连接即可,而之前的XDP需打开机箱连接到主板上的特定接口,操作比较繁复。
当发生内存可修正错误(Memory correctable error)时,ECC和奇偶检验位会对其进行校验纠正。Patrol Scrub作用是当轮询发现MCE(machine check exception)时,会将ECC校验纠正后的值写回内存中。
Patrol Scrub轮询之前,每读一次MCE所在地址的内存,就会报错一次,MCE阈值就会增加一次。
Patrol Scrub轮询后,每读一次MCE所在内存的地址,不会报错,MCE阈值不会增加,因为MCE所在内存地址的值已经修复回正确的值。
具体地,本申请请求保护一种验证内存Patrol Scurb功能的方法,其特征在于,该方法具体包括如下步骤:
设置BIOS中Patrol Scrub的使能项为Enable;
设置BIOS中Patrol Scrub的巡检间隔时间;
连接DCI USB线到测试机及辅助机的USB 3.0接口;
辅助机端安装Intel工具软件,并选择所测平台对应的DCI协议;
在控制端系统中使用Python控制台,触发错误,查看阈值是否加1;
等待设置的巡检时间后,触发错误,查看阈值是否加1;
重启后,进入BIOS SETUP关闭Partrol Scurb功能;
重复上述步骤看阈值是否会相应增加,如果会增加则说明Partol Scurb不再循环检查内存地址。
如上所述的验证内存Patrol Scurb功能的方法,其特征还在于,在设置BIOS项中,将Demand Scrub设置为Disable。
如上所述的验证内存Patrol Scurb功能的方法,其特征还在于,辅助机端安装Intel工具软件为PDT工具包。
具体实施方式
下面通过一个实施例对本发明所述验证具体实现步骤进行说明:
1、预设BIOS参数:
进入BIOS setup修改如下选项
1)Patrol Scrub:Enable
2)Patrol Scrub Interval:1(1代表1小时巡检一次)
3)Demand Scrub:Disable
读取内存时如果遇到ECC错误,则纠正这个错误,并且把正确的数据写入出问题的DIMM里。这种RAS特性主要防止反复纠正访问的内存地址,因为如果出错不纠正,则每次需要ECC纠错,这样会造成带宽的浪费。
2、在辅助机端安装工具软件。
本实施例中安装的是Platform Debug Toolkit(PDT)O1716Release Notes 1.0.6678.400
3、设置工具软件参数
打开Intel PDT工具包中的configuration console并选择所测平台对应的DCI协议。
4、连接DCI USB线到测试机及辅助机的USB 3.0接口;
5、在控制端系统中验证Patrol Scrub的功能
1)控制端系统中打开Cscripts脚本文件中的Python控制台
2)Python控制台中输入指令,先查看内存信息,确认
ei.injectMemError()//触发error
mem(0)//读MCE产生所在地址,在正确信息写回前,每读一次,MCE阈值就会增加1,因为此时没有到patrol scurb巡检时间。
ras.adddc_status_check(socket=0,mc=0)//看阈值是否加1
等待设置的巡检时间后,输入命令mem(0)再对该地址进行读取操作,查看Count数量会不会发生变化,因为Partrol Scurb功能已经将错误数据纠正并写回原地址。
6、恢复BIOS设置
重启进入BIOS SETUP关闭Partrol Scurb功能。
重复1-5步骤,查看内存错误计数器是否会相应增加,如果会增加则说明PartolScurb不再循环检查内存地址。
显而易见地,上面所示的仅仅是本发明的一个具体实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据该实施方式获得其他的技术方案,都属于本发明保护的范围。
本发明所述的技术方案也可以进行调整后,应用到所有Intel X86并支持CPU RAS功能的平台,对RAS Partrol Scurb功能验证,方法简单可行且技术效果显著,在实践中可以得到应用广泛。

Claims (3)

1.一种验证内存Patrol Scurb功能的方法,其特征在于,该方法具体包括如下步骤:
设置BIOS中Patrol Scrub的使能项为Enable;
设置BIOS中Patrol Scrub的巡检间隔时间;
连接DCI USB线到测试机及辅助机的USB 3.0接口;
辅助机端安装Intel工具软件,并选择所测平台对应的DCI协议;
在控制端系统中使用Python控制台,触发错误,查看阈值是否加1;
等待设置的巡检时间后,触发错误,查看阈值是否加1;
重启后,进入BIOS SETUP关闭Partrol Scurb功能;
重复上述步骤看阈值是否会相应增加,如果会增加则说明Partol Scurb不再循环检查内存地址。
2.如权利要求1所述的验证内存Patrol Scurb功能的方法,其特征还在于,在设置BIOS项中,将Demand Scrub设置为Disable。
3.如权利要求2所述的验证内存Patrol Scurb功能的方法,其特征还在于,辅助机端安装Intel工具软件为PDT工具包。
CN201710657195.0A 2017-08-03 2017-08-03 一种验证内存Patrol Scurb功能的方法 Pending CN107562565A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710657195.0A CN107562565A (zh) 2017-08-03 2017-08-03 一种验证内存Patrol Scurb功能的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710657195.0A CN107562565A (zh) 2017-08-03 2017-08-03 一种验证内存Patrol Scurb功能的方法

Publications (1)

Publication Number Publication Date
CN107562565A true CN107562565A (zh) 2018-01-09

Family

ID=60975097

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710657195.0A Pending CN107562565A (zh) 2017-08-03 2017-08-03 一种验证内存Patrol Scurb功能的方法

Country Status (1)

Country Link
CN (1) CN107562565A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108600043A (zh) * 2018-04-02 2018-09-28 郑州云海信息技术有限公司 连接服务器和控制端的方法、服务器Memory功能模块测试方法
CN109710445A (zh) * 2018-12-27 2019-05-03 联想(北京)有限公司 内存校正方法和电子设备
CN111048141A (zh) * 2019-12-15 2020-04-21 浪潮电子信息产业股份有限公司 一种错误处理方法、装置、设备及计算机可读存储介质

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104317690A (zh) * 2014-10-21 2015-01-28 浪潮电子信息产业股份有限公司 一种基于ITP工具的Memory Demand Scrub测试方法
CN105138438A (zh) * 2015-08-26 2015-12-09 浪潮电子信息产业股份有限公司 一种memory patrol scrub测试方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104317690A (zh) * 2014-10-21 2015-01-28 浪潮电子信息产业股份有限公司 一种基于ITP工具的Memory Demand Scrub测试方法
CN105138438A (zh) * 2015-08-26 2015-12-09 浪潮电子信息产业股份有限公司 一种memory patrol scrub测试方法

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108600043A (zh) * 2018-04-02 2018-09-28 郑州云海信息技术有限公司 连接服务器和控制端的方法、服务器Memory功能模块测试方法
CN109710445A (zh) * 2018-12-27 2019-05-03 联想(北京)有限公司 内存校正方法和电子设备
CN109710445B (zh) * 2018-12-27 2020-11-20 联想(北京)有限公司 内存校正方法和电子设备
CN111048141A (zh) * 2019-12-15 2020-04-21 浪潮电子信息产业股份有限公司 一种错误处理方法、装置、设备及计算机可读存储介质
CN111048141B (zh) * 2019-12-15 2021-11-09 浪潮电子信息产业股份有限公司 一种错误处理方法、装置、设备及计算机可读存储介质

Similar Documents

Publication Publication Date Title
Yin et al. An empirical study on configuration errors in commercial and open source systems
US10204698B2 (en) Method to dynamically inject errors in a repairable memory on silicon and a method to validate built-in-self-repair logic
CN103198000A (zh) 一种linux系统下的故障内存位置定位方法
CN104484274B (zh) 一种基于itp工具的内存轮巡检查功能测试方法
US9594670B2 (en) Managing software dependencies during software testing and debugging
CN107562565A (zh) 一种验证内存Patrol Scurb功能的方法
CN104268052A (zh) 一种基于ITP工具的Memory Rank Spare测试方法
US11194703B2 (en) System testing infrastructure for analyzing soft failures in active environment
US11442831B2 (en) Method, apparatus, device and system for capturing trace of NVME hard disc
CN101211292A (zh) 系统内存间错误检测及修正功能验证之系统及其方法
US20100251029A1 (en) Implementing self-optimizing ipl diagnostic mode
US11609842B2 (en) System testing infrastructure for analyzing and preventing soft failure in active environment
CN112650612A (zh) 一种内存故障定位方法及装置
CN109408272B (zh) 一种存储故障处理方法与装置
WO2021056913A1 (zh) 基于i2c通讯的故障定位方法、装置及系统
CN107562583A (zh) 一种在x86平台上自动测试内存ras特性的方法
US11593209B2 (en) Targeted repair of hardware components in a computing device
US8739130B2 (en) Quality assurance testing
US11593256B2 (en) System testing infrastructure for detecting soft failure in active environment
Xu et al. Real-Time Diagnosis of Configuration Errors for Software of AI Server Infrastructure
JP6217086B2 (ja) 情報処理装置、エラー検出機能診断方法およびコンピュータプログラム
CN112947964A (zh) 一种芯片的固件更新方法、装置、设备及存储介质
CN111475400A (zh) 一种业务平台的验证方法及相关设备
de Assis et al. Amplifying Tests for Cross-Platform Apps through Test Patterns.
US20200174875A1 (en) Secure forking of error telemetry data to independent processing units

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20180109