CN107562565A - 一种验证内存Patrol Scurb功能的方法 - Google Patents
一种验证内存Patrol Scurb功能的方法 Download PDFInfo
- Publication number
- CN107562565A CN107562565A CN201710657195.0A CN201710657195A CN107562565A CN 107562565 A CN107562565 A CN 107562565A CN 201710657195 A CN201710657195 A CN 201710657195A CN 107562565 A CN107562565 A CN 107562565A
- Authority
- CN
- China
- Prior art keywords
- scurb
- internal memory
- patrol
- functions
- bios
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Abstract
本发明涉及服务器内存测试领域,具体涉及一种验证内存Patrol Scurb功能的方法。该方法使用Intel DCI协议及DCI USB线工具,通过对内存MCE阈值的检测,验证内存RAS Patrol Scurb的功能是否正常。本发明所述的方法简单易行,操作方便,节约了测试人力资源。
Description
技术领域
本发明涉及服务器内存测试领域,具体涉及一种验证内存Patrol Scurb功能的方法。该方法使用Intel DCI协议及DCI USB线工具,通过对内存MCE阈值的检测,验证内存RASPatrol Scurb的功能是否正常。本发明所述的方法简单易行,操作方便,节约了测试人力资源。
背景技术
随着互联网的飞速发展,人们对服务器的需求量越来越大,对服务器的应用也越来越广泛,进而对服务器的各项指标的要求也越来越高。服务器需要更长时间工作,并且性能要稳定。服务器的稳定工作是检测服务器质量的关键因素。但是服务器长时间运行后,发生故障的概率增大。服务器发生故障概率最高的部件就是内存,因此对内存性能指标的检测是服务器出厂检测的重要一环。
服务器内存的稳定性主要体现在内存RAS性能上。RAS性能是指服务器的可靠性(Reliability)、可用性(Availability)以及可服务性(Serviceability),而内存子系统的RAS特性是服务器稳定性的重中之重。
内存的RAS特性是指在内存ECC校验技术的基础上发展出的用于提升内存容错能力、可靠性、可用性以及诊断功能的关键性技术,用于保证服务器长期稳定运行。作为高端服务器产品提供商,一款服务器在研发阶段需要对产品进行内存的RAS特性进行测试,更是内存子系统的主要测试项。对内存的RAS功验证也显得非常重要。
Patrol Scrubs(Memory Patrol Scrub:内存巡检清除)周期性地扫描整个系统内存的错误,如果遇到错误,则纠正并且写回到DIMM(Dual-Inline-Memory-Modules,即双列直插式存储模块)。Patrol Scrub这种特性主要用于防止单bit错误发展为uncorrectable的多bit错误。但是如何保证该功能在各种BIOS及搭配各种CPU的情况正确执行就需要专业的工具和方法去验证.
针对这种情况,本申请发明一种验证内存Patrol Scurb功能的方法,通过使用DCI协议及DCI USB线来进行验证操作。方法实用性强,操作简单易行。
发明内容
本申请所述验证方法的整个过程主要是利用DCI协议及DCI USB线来进行。
DCI是Intel提供的一种调试和验证CPU功能的工具,其优点是只需要USB3.0接口连接即可,而之前的XDP需打开机箱连接到主板上的特定接口,操作比较繁复。
当发生内存可修正错误(Memory correctable error)时,ECC和奇偶检验位会对其进行校验纠正。Patrol Scrub作用是当轮询发现MCE(machine check exception)时,会将ECC校验纠正后的值写回内存中。
Patrol Scrub轮询之前,每读一次MCE所在地址的内存,就会报错一次,MCE阈值就会增加一次。
Patrol Scrub轮询后,每读一次MCE所在内存的地址,不会报错,MCE阈值不会增加,因为MCE所在内存地址的值已经修复回正确的值。
具体地,本申请请求保护一种验证内存Patrol Scurb功能的方法,其特征在于,该方法具体包括如下步骤:
设置BIOS中Patrol Scrub的使能项为Enable;
设置BIOS中Patrol Scrub的巡检间隔时间;
连接DCI USB线到测试机及辅助机的USB 3.0接口;
辅助机端安装Intel工具软件,并选择所测平台对应的DCI协议;
在控制端系统中使用Python控制台,触发错误,查看阈值是否加1;
等待设置的巡检时间后,触发错误,查看阈值是否加1;
重启后,进入BIOS SETUP关闭Partrol Scurb功能;
重复上述步骤看阈值是否会相应增加,如果会增加则说明Partol Scurb不再循环检查内存地址。
如上所述的验证内存Patrol Scurb功能的方法,其特征还在于,在设置BIOS项中,将Demand Scrub设置为Disable。
如上所述的验证内存Patrol Scurb功能的方法,其特征还在于,辅助机端安装Intel工具软件为PDT工具包。
具体实施方式
下面通过一个实施例对本发明所述验证具体实现步骤进行说明:
1、预设BIOS参数:
进入BIOS setup修改如下选项
1)Patrol Scrub:Enable
2)Patrol Scrub Interval:1(1代表1小时巡检一次)
3)Demand Scrub:Disable
读取内存时如果遇到ECC错误,则纠正这个错误,并且把正确的数据写入出问题的DIMM里。这种RAS特性主要防止反复纠正访问的内存地址,因为如果出错不纠正,则每次需要ECC纠错,这样会造成带宽的浪费。
2、在辅助机端安装工具软件。
本实施例中安装的是Platform Debug Toolkit(PDT)O1716Release Notes 1.0.6678.400
3、设置工具软件参数
打开Intel PDT工具包中的configuration console并选择所测平台对应的DCI协议。
4、连接DCI USB线到测试机及辅助机的USB 3.0接口;
5、在控制端系统中验证Patrol Scrub的功能
1)控制端系统中打开Cscripts脚本文件中的Python控制台
2)Python控制台中输入指令,先查看内存信息,确认
ei.injectMemError()//触发error
mem(0)//读MCE产生所在地址,在正确信息写回前,每读一次,MCE阈值就会增加1,因为此时没有到patrol scurb巡检时间。
ras.adddc_status_check(socket=0,mc=0)//看阈值是否加1
等待设置的巡检时间后,输入命令mem(0)再对该地址进行读取操作,查看Count数量会不会发生变化,因为Partrol Scurb功能已经将错误数据纠正并写回原地址。
6、恢复BIOS设置
重启进入BIOS SETUP关闭Partrol Scurb功能。
重复1-5步骤,查看内存错误计数器是否会相应增加,如果会增加则说明PartolScurb不再循环检查内存地址。
显而易见地,上面所示的仅仅是本发明的一个具体实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据该实施方式获得其他的技术方案,都属于本发明保护的范围。
本发明所述的技术方案也可以进行调整后,应用到所有Intel X86并支持CPU RAS功能的平台,对RAS Partrol Scurb功能验证,方法简单可行且技术效果显著,在实践中可以得到应用广泛。
Claims (3)
1.一种验证内存Patrol Scurb功能的方法,其特征在于,该方法具体包括如下步骤:
设置BIOS中Patrol Scrub的使能项为Enable;
设置BIOS中Patrol Scrub的巡检间隔时间;
连接DCI USB线到测试机及辅助机的USB 3.0接口;
辅助机端安装Intel工具软件,并选择所测平台对应的DCI协议;
在控制端系统中使用Python控制台,触发错误,查看阈值是否加1;
等待设置的巡检时间后,触发错误,查看阈值是否加1;
重启后,进入BIOS SETUP关闭Partrol Scurb功能;
重复上述步骤看阈值是否会相应增加,如果会增加则说明Partol Scurb不再循环检查内存地址。
2.如权利要求1所述的验证内存Patrol Scurb功能的方法,其特征还在于,在设置BIOS项中,将Demand Scrub设置为Disable。
3.如权利要求2所述的验证内存Patrol Scurb功能的方法,其特征还在于,辅助机端安装Intel工具软件为PDT工具包。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710657195.0A CN107562565A (zh) | 2017-08-03 | 2017-08-03 | 一种验证内存Patrol Scurb功能的方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710657195.0A CN107562565A (zh) | 2017-08-03 | 2017-08-03 | 一种验证内存Patrol Scurb功能的方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN107562565A true CN107562565A (zh) | 2018-01-09 |
Family
ID=60975097
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710657195.0A Pending CN107562565A (zh) | 2017-08-03 | 2017-08-03 | 一种验证内存Patrol Scurb功能的方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN107562565A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108600043A (zh) * | 2018-04-02 | 2018-09-28 | 郑州云海信息技术有限公司 | 连接服务器和控制端的方法、服务器Memory功能模块测试方法 |
CN109710445A (zh) * | 2018-12-27 | 2019-05-03 | 联想(北京)有限公司 | 内存校正方法和电子设备 |
CN111048141A (zh) * | 2019-12-15 | 2020-04-21 | 浪潮电子信息产业股份有限公司 | 一种错误处理方法、装置、设备及计算机可读存储介质 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104317690A (zh) * | 2014-10-21 | 2015-01-28 | 浪潮电子信息产业股份有限公司 | 一种基于ITP工具的Memory Demand Scrub测试方法 |
CN105138438A (zh) * | 2015-08-26 | 2015-12-09 | 浪潮电子信息产业股份有限公司 | 一种memory patrol scrub测试方法 |
-
2017
- 2017-08-03 CN CN201710657195.0A patent/CN107562565A/zh active Pending
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104317690A (zh) * | 2014-10-21 | 2015-01-28 | 浪潮电子信息产业股份有限公司 | 一种基于ITP工具的Memory Demand Scrub测试方法 |
CN105138438A (zh) * | 2015-08-26 | 2015-12-09 | 浪潮电子信息产业股份有限公司 | 一种memory patrol scrub测试方法 |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108600043A (zh) * | 2018-04-02 | 2018-09-28 | 郑州云海信息技术有限公司 | 连接服务器和控制端的方法、服务器Memory功能模块测试方法 |
CN109710445A (zh) * | 2018-12-27 | 2019-05-03 | 联想(北京)有限公司 | 内存校正方法和电子设备 |
CN109710445B (zh) * | 2018-12-27 | 2020-11-20 | 联想(北京)有限公司 | 内存校正方法和电子设备 |
CN111048141A (zh) * | 2019-12-15 | 2020-04-21 | 浪潮电子信息产业股份有限公司 | 一种错误处理方法、装置、设备及计算机可读存储介质 |
CN111048141B (zh) * | 2019-12-15 | 2021-11-09 | 浪潮电子信息产业股份有限公司 | 一种错误处理方法、装置、设备及计算机可读存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Yin et al. | An empirical study on configuration errors in commercial and open source systems | |
US10204698B2 (en) | Method to dynamically inject errors in a repairable memory on silicon and a method to validate built-in-self-repair logic | |
CN103198000A (zh) | 一种linux系统下的故障内存位置定位方法 | |
CN104484274B (zh) | 一种基于itp工具的内存轮巡检查功能测试方法 | |
US9594670B2 (en) | Managing software dependencies during software testing and debugging | |
CN107562565A (zh) | 一种验证内存Patrol Scurb功能的方法 | |
CN104268052A (zh) | 一种基于ITP工具的Memory Rank Spare测试方法 | |
US11194703B2 (en) | System testing infrastructure for analyzing soft failures in active environment | |
US11442831B2 (en) | Method, apparatus, device and system for capturing trace of NVME hard disc | |
CN101211292A (zh) | 系统内存间错误检测及修正功能验证之系统及其方法 | |
US20100251029A1 (en) | Implementing self-optimizing ipl diagnostic mode | |
US11609842B2 (en) | System testing infrastructure for analyzing and preventing soft failure in active environment | |
CN112650612A (zh) | 一种内存故障定位方法及装置 | |
CN109408272B (zh) | 一种存储故障处理方法与装置 | |
WO2021056913A1 (zh) | 基于i2c通讯的故障定位方法、装置及系统 | |
CN107562583A (zh) | 一种在x86平台上自动测试内存ras特性的方法 | |
US11593209B2 (en) | Targeted repair of hardware components in a computing device | |
US8739130B2 (en) | Quality assurance testing | |
US11593256B2 (en) | System testing infrastructure for detecting soft failure in active environment | |
Xu et al. | Real-Time Diagnosis of Configuration Errors for Software of AI Server Infrastructure | |
JP6217086B2 (ja) | 情報処理装置、エラー検出機能診断方法およびコンピュータプログラム | |
CN112947964A (zh) | 一种芯片的固件更新方法、装置、设备及存储介质 | |
CN111475400A (zh) | 一种业务平台的验证方法及相关设备 | |
de Assis et al. | Amplifying Tests for Cross-Platform Apps through Test Patterns. | |
US20200174875A1 (en) | Secure forking of error telemetry data to independent processing units |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20180109 |