CN107480019A - 一种基于Intel Skylake处理器的服务器内存Rank Spare测试方法 - Google Patents

一种基于Intel Skylake处理器的服务器内存Rank Spare测试方法 Download PDF

Info

Publication number
CN107480019A
CN107480019A CN201710667217.1A CN201710667217A CN107480019A CN 107480019 A CN107480019 A CN 107480019A CN 201710667217 A CN201710667217 A CN 201710667217A CN 107480019 A CN107480019 A CN 107480019A
Authority
CN
China
Prior art keywords
server
rank
spare
measured
memory
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201710667217.1A
Other languages
English (en)
Inventor
齐煜
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhengzhou Yunhai Information Technology Co Ltd
Original Assignee
Zhengzhou Yunhai Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhengzhou Yunhai Information Technology Co Ltd filed Critical Zhengzhou Yunhai Information Technology Co Ltd
Priority to CN201710667217.1A priority Critical patent/CN107480019A/zh
Publication of CN107480019A publication Critical patent/CN107480019A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/22Detection or location of defective computer hardware by testing during standby operation or during idle time, e.g. start-up testing
    • G06F11/2273Test methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/22Detection or location of defective computer hardware by testing during standby operation or during idle time, e.g. start-up testing
    • G06F11/26Functional testing
    • G06F11/273Tester hardware, i.e. output processing circuits
    • G06F11/2736Tester hardware, i.e. output processing circuits using a dedicated service processor for test

Landscapes

  • Engineering & Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Hardware Design (AREA)
  • Quality & Reliability (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Techniques For Improving Reliability Of Storages (AREA)
  • Hardware Redundancy (AREA)

Abstract

本发明提供了一种基于Intel Skylake处理器的服务器内存Rank Spare测试方法,属于计算机技术领域。所述方法包括下述步骤:首先准备待测服务器和Windows控制端;然后用ITP工具连接待测服务器和Windows控制端;接下来由控制端输入指令,给待测服务器内存上注入内存Error;然后继续给该Rank注错,直至Error数目达到阈值;最后查看寄存器确认Rank Spare生效。本发明通过模拟实际生产中出现的内存Error,来验证内存Rank Spare功能是否生效。此方法操作简单,可快速直接的判断出内存Rank Spare功能是否正常工作,有效确保了服务器的可靠性和安全性。

Description

一种基于Intel Skylake处理器的服务器内存Rank Spare测 试方法
技术领域
本发明涉及计算机技术领域,具体来说涉及一种基于Intel Skylake处理器的服务器内存Rank Spare测试方法。
背景技术
随着服务器领域技术的不断发展,各类行业对服务器运行的安全可靠性要求越来越高。作为服务器产品的提供商,一款服务器无论是在研发阶段还是生产阶段都需要对产品进行安全性测试,从而严格保证该产品的安全性,其主要体现在RAS性能上。
RAS性能指的是机器的可靠性(Reliability)、可用性(Availability)和可服务性(Serviceability),RAS性能作为一个整体,其作用在于确保整个系统尽可能长期可靠的运行而不下线,并且具备足够强大的容错机制。RAS特性中一个重要的部分就是CPU的RAS特性,对于稳定性和可靠性要求高的用户来说,CPU或者内存错误很可能会引起致命性的问题。
Memory RAS有几个重要的功能,其中的Rank Spare功能可以对内存出现达到阈值的Error做到容错热备功能,但在系统的正常运行中或者出现了内存error的时候,无法直接了解到Rank Spare功能是否正常工作。基于此,本发明提供一种基于Intel服务器最新Purley平台,针对Skylake处理器功能上,通过模拟注入内存Error,确认寄存器的相应位bit是否置位正确来验证内存Rank Spare功能是否成功实现。
发明内容
本发明提供一种基于Intel Skylake处理器的服务器内存Rank Spare测试方法,通过人为给内存注入Error来触发内存Rank Spare功能,精准的判断Rank Spare功能是否生效。
为解决上述技术问题,本发明采用如下技术方案:
一种基于Intel Skylake处理器的服务器内存Rank Spare测试方法,其包括下述步骤:
S1、准备待测服务器和Windows控制端;
S2、用ITP工具连接待测服务器和Windows控制端;
S3、在待测服务器的BIOS Setup中,设置Memory Rank Spare功能启动,即将所要设为spare的内存rank设置为enable,同时设置DIMM的阈值Spare Error Threshold;
S4、在Windows控制端输入查看待测服务器内存信息的指令,确认当前内存中Rank上的Error数目为0;
S5、在Windows控制端输入给待测服务器内存中的Rank上注入内存Error的指令;
S6、输入指令#go释放机器;
S7、待注错结束后,输入指令查看相应内存中的Rank上Error数目增加1;
S8、继续给该Rank注入内存Error,直到Error数目达到内存设置的阈值,此时当前Rank不能继续工作,任何对当前Rank的访问都被转移到被设为Spare的Spare Rank上。
S9、输入指令#sv.socket0.uncore0.imc0_sparing_patrol_status.show,若寄存器显示
0x00000001:patrol_complete(02:02),
0x00000001:copy_complete(01:01),
0x00000000:copy_in_progress(00:00),
则表示Spare Rank功能生效,以后任何对Rank的访问都直接被转移访问到SpareRank上。
基于上述方案,本发明做如下优化:
优选的,如上所述测试方法的S2中,所述的待测服务器为基于Intel Purley平台的服务器,所述的Windows控制端是指安装.Netframework3.5和.Netframework4.0、安装工具Platform Debug Toolkit,并且拷贝有相应的Cscripts脚本的Windows控制端平台。
进一步的,如上所述测试方法的S3中,对待测服务器的Memory Rank Spare和Spare Error Threshold设置完成后,保持设置后退出,然后重启待测服务器,使待测试机重新进入操作系统。
进一步的,如上所述测试方法的S4中,查看待测服务器内存信息的过程为:
在Windows控制端打开软件工具Platform Debug Toolkit,选择系统相应的平台后,点击Apply连接上待测服务器;
然后在控制端系统中打开Cscripts脚本文件中的Python控制台;
在Python控制台中输入指令#mc.dimminfo(socket=0),查看内存信息。
进一步的,所述S5、S8中的内存Error注入、S6中的释放指令、S7中的查看指令以及S9中的寄存器显示指令,均在Python控制台中输入。
发明内容中提供的效果仅仅是实施例的效果,而不是发明所有的全部效果,上述技术方案中的一个技术方案具有如下优点或有益效果:
本发明的服务器内存Rank Spare测试方法,适用于Intel Purley平台,支持Skylake处理器的X86服务器产品。本方法通过Cscripts脚本人为的给内存地址注入Error来模拟实际应用中出现的情况,来触发Memory Rank Spare功能,通过查看寄存器的返回值实现精准的判断Rank Spare功能是否生效。该测试方法操作简单,但能全方位的检测出Spare的Rank和非Spare的Rank是否正常工作,验证Rank Spare功能是否生效,实用性较强,有效确保了服务器的可靠性和安全性。
附图说明
图1是本发明的测试方法示意图;
图2是本发明实施例的具体测试操作流程图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
如图1所示,本发明的一种基于Intel Skylake处理器的服务器内存Rank Spare测试方法,其测试思路为:首先准备待测服务器和Windows控制端;然后用ITP工具连接待测服务器和Windows控制端;接下来由控制端输入指令,给待测服务器内存上注入内存Error;然后继续给该Rank注错,直至Error数目达到阈值;最后查看寄存器确认Rank Spare生效。
具体而言,如图2所示,本发明测试方法的具体操作步骤包括:
S1、准备待测服务器,确保服务器能够顺利开机进入操作系统,所述待测服务器为基于Intel Purley平台的服务器;
S2、准备Windows控制端平台,所述的Windows控制端平台是指安装.Netframework3.5和.Netframework4.0、安装工具Platform Debug Toolkit,并且拷贝有相应的Cscripts脚本的平台;
S3、用ITP工具连接待测服务器和Windows控制端,具体将ITP工具的一端连接在待测服务器计算板的XDP接口上,另一端插接在Windows控制端平台的USB接口上;
S4、在待测服务器的BIOS Setup中,设置Memory Rank Spare功能启动,即将所要设为spare的内存rank设置为enable,同时设置DIMM的阈值Spare Error Threshold,例如可将阈值设置为2;
S5、保存待测服务器的上述设置后退出,重启服务器,使待测机重新进入操作系统;
S6、在Windows控制端打开软件工具Platform Debug Toolkit,选择系统相应的平台后,点击Apply连接上待测服务器;
S7、在控制端系统中打开Cscripts脚本文件中的Python控制台;
S8、在Python控制台中输入指令#mc.dimminfo(socket=0),查看内存信息,确认当前内存中Rank上的Error数目为0;
S9、在Python控制台中输入给待测内存中的Rank上注入内存Error的指令,本实施例中,可选择给0x0这个内存地址注错,具体注错指令为#ei.injectMemError();
S10、输入指令释放机器,由于服务器在上一步操作中被默认锁定以防止其他误操作影响注错过程,因此需要通过指令释放机器;
S11、在Python控制台中输入指令#go释放机器;
S12、在Python控制台中输入指令#mc.dimminfo(socket=0),查看相应内存中的Rank上Error数目增加1;
S13、继续给该Rank注入内存Error,直到Error数目达到内存设置的阈值,此时当前Rank不能继续工作,任何对当前Rank的访问都被转移到被设为Spare的Spare Rank上。
S14、输入指令#sv.socket0.uncore0.imc0_sparing_patrol_status.show,确认Fail Rank的访问是否被转移到Spare Rank,若寄存器进行如下显示
0x00000001:patrol_complete(02:02)--,
0x00000001:copy_complete(01:01)--,
0x00000000:copy_in_progress(00:00)--,
则表示Spare Rank功能生效,对Rank的访问已被转移到Spare Rank上。
本实施例提供的服务器内存Rank Spare测试方法,通过模拟实际生产中出现的内存Error,来验证内存Rank Spare功能是否生效。此方法操作简单,可快速直接的判断出内存Rank Spare功能是否正常工作,有效确保了服务器的可靠性和安全性。
以上所述仅为本发明的较佳实施例而已,并不用以限定本发明,对于本技术领域的技术人员来说,在不脱离本发明原理的前提下所作的任何修改、改进和等同替换等,均包含在本发明的保护范围内。

Claims (5)

1.一种基于Intel Skylake处理器的服务器内存Rank Spare测试方法,其特征在于,所述测试方法包括下述步骤:
S1、准备待测服务器和Windows控制端;
S2、用ITP工具连接待测服务器和Windows控制端;
S3、在待测服务器的BIOS Setup中,设置Memory Rank Spare功能启动,即将所要设为spare的内存rank设置为enable,同时设置DIMM的阈值Spare Error Threshold;
S4、在Windows控制端输入查看待测服务器内存信息的指令,确认当前内存中Rank上的Error数目为0;
S5、在Windows控制端输入给待测服务器内存中的Rank上注入内存Error的指令;
S6、输入指令释放机器;
S7、待注错结束后,输入指令查看相应内存中的Rank上Error数目增加1;
S8、继续给该Rank注入内存Error,直到Error数目达到内存设置的阈值,此时当前Rank不能继续工作,任何对当前Rank的访问都被转移到被设为Spare的Spare Rank上。
S9、输入指令#sv.socket0.uncore0.imc0_sparing_patrol_status.show,若寄存器显示
0x00000001:patrol_complete(02:02),
0x00000001:copy_complete(01:01),
0x00000000:copy_in_progress(00:00),
则表示Spare Rank功能生效,当前对Rank的访问都被转移到Spare Rank上。
2.根据权利要求1所述的基于Intel Skylake处理器的服务器内存Rank Spare测试方法,其特征在于,所述S1中,待测服务器为基于Intel Purley平台的服务器,Windows控制端是指安装.Netframework3.5和.Netframework4.0、安装工具Platform DebugToolkit,并且拷贝有相应的Cscripts脚本的Windows控制端平台。
3.根据权利要求1所述的基于Intel Skylake处理器的服务器内存Rank Spare测试方法,其特征在于,所述S2中,ITP工具的一端连接在待测服务器计算板的XDP接口上,另一端插接在Windows控制端平台的USB接口上。
4.根据权利要求1所述的基于Intel Skylake处理器的服务器内存Rank Spare测试方法,其特征在于,所述S3中,对待测服务器的Memory Rank Spare和Spare Error Threshold设置完成后,保持设置后退出,然后重启待测服务器,使待测试机重新进入操作系统。
5.根据权利要求1所述的基于Intel Skylake处理器的服务器内存Rank Spare测试方法,其特征在于,所述S4中,查看待测服务器内存信息过程为:
在Windows控制端打开软件工具Platform Debug Toolkit,选择系统相应的平台后,点击Apply连接上待测服务器;
然后在控制端系统中打开Cscripts脚本文件中的Python控制台;
在Python控制台中输入指令#mc.dimminfo(socket=0),查看内存信息。
CN201710667217.1A 2017-08-07 2017-08-07 一种基于Intel Skylake处理器的服务器内存Rank Spare测试方法 Pending CN107480019A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710667217.1A CN107480019A (zh) 2017-08-07 2017-08-07 一种基于Intel Skylake处理器的服务器内存Rank Spare测试方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710667217.1A CN107480019A (zh) 2017-08-07 2017-08-07 一种基于Intel Skylake处理器的服务器内存Rank Spare测试方法

Publications (1)

Publication Number Publication Date
CN107480019A true CN107480019A (zh) 2017-12-15

Family

ID=60598761

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710667217.1A Pending CN107480019A (zh) 2017-08-07 2017-08-07 一种基于Intel Skylake处理器的服务器内存Rank Spare测试方法

Country Status (1)

Country Link
CN (1) CN107480019A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108600043A (zh) * 2018-04-02 2018-09-28 郑州云海信息技术有限公司 连接服务器和控制端的方法、服务器Memory功能模块测试方法
CN109101377A (zh) * 2018-07-18 2018-12-28 郑州云海信息技术有限公司 一种内存sddc的测试方法
CN109101383A (zh) * 2018-08-09 2018-12-28 郑州云海信息技术有限公司 一种内存检测的测试方法及系统

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080010435A1 (en) * 2005-06-24 2008-01-10 Michael John Sebastian Smith Memory systems and memory modules
CN104268052A (zh) * 2014-10-21 2015-01-07 浪潮电子信息产业股份有限公司 一种基于ITP工具的Memory Rank Spare测试方法
CN104317690A (zh) * 2014-10-21 2015-01-28 浪潮电子信息产业股份有限公司 一种基于ITP工具的Memory Demand Scrub测试方法
CN104484274A (zh) * 2014-12-24 2015-04-01 浪潮电子信息产业股份有限公司 一种基于itp工具的内存轮巡检查功能测试方法
CN105138438A (zh) * 2015-08-26 2015-12-09 浪潮电子信息产业股份有限公司 一种memory patrol scrub测试方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080010435A1 (en) * 2005-06-24 2008-01-10 Michael John Sebastian Smith Memory systems and memory modules
CN104268052A (zh) * 2014-10-21 2015-01-07 浪潮电子信息产业股份有限公司 一种基于ITP工具的Memory Rank Spare测试方法
CN104317690A (zh) * 2014-10-21 2015-01-28 浪潮电子信息产业股份有限公司 一种基于ITP工具的Memory Demand Scrub测试方法
CN104484274A (zh) * 2014-12-24 2015-04-01 浪潮电子信息产业股份有限公司 一种基于itp工具的内存轮巡检查功能测试方法
CN105138438A (zh) * 2015-08-26 2015-12-09 浪潮电子信息产业股份有限公司 一种memory patrol scrub测试方法

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108600043A (zh) * 2018-04-02 2018-09-28 郑州云海信息技术有限公司 连接服务器和控制端的方法、服务器Memory功能模块测试方法
CN109101377A (zh) * 2018-07-18 2018-12-28 郑州云海信息技术有限公司 一种内存sddc的测试方法
CN109101383A (zh) * 2018-08-09 2018-12-28 郑州云海信息技术有限公司 一种内存检测的测试方法及系统

Similar Documents

Publication Publication Date Title
CN104268052B (zh) 一种基于ITP工具的Memory Rank Spare测试方法
CN104484274B (zh) 一种基于itp工具的内存轮巡检查功能测试方法
CN104317690B (zh) 一种基于ITP工具的Memory Demand Scrub测试方法
CN107480019A (zh) 一种基于Intel Skylake处理器的服务器内存Rank Spare测试方法
KR20090118863A (ko) 오퍼레이팅 시스템 메모리 핫 애드를 시뮬레이션하여 파워온 시간을 감소시키는 방법
US6604237B1 (en) Apparatus for journaling during software deployment and method therefor
CN104536303A (zh) 一种故障注入方法
US9535820B2 (en) Technologies for application validation in persistent memory systems
US10191827B2 (en) Methods, systems, and computer readable media for utilizing loopback operations to identify a faulty subsystem layer in a multilayered system
CN107943643A (zh) 一种基于moc板卡硬件dc测试方法与系统
CN107301103A (zh) 一种调整国产处理器的内存参数的方法及装置
CN105138438A (zh) 一种memory patrol scrub测试方法
CN106598654A (zh) 一种在线更新PowerPC主板引导芯片的方法
CN107480023A (zh) 一种磁盘故障注入的方法及系统
US6745145B2 (en) Methods and systems for enhanced automated system testing
CN117687664A (zh) 一种dsp的在线升级配置方法及装置
US11763913B2 (en) Automated testing of functionality of multiple NVRAM cards
CN111124780A (zh) 一种UPI Link降速测试方法、系统、终端及存储介质
CN110704315A (zh) 一种嵌入式软件测试的故障注入装置
US20180052881A1 (en) System and method to automate validating media redirection in testing process
CN106504797A (zh) 测试存储器中RAID IO led灯的自动化方法
CN108418707A (zh) 通信系统中双cpld互相在线备份升级方法及业务单板
CN107562583A (zh) 一种在x86平台上自动测试内存ras特性的方法
CN107562565A (zh) 一种验证内存Patrol Scurb功能的方法
CN106874049A (zh) 基于stm32 iap的在线程序更新方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20171215