CN107908490B - 一种服务器dc测试中gpu寄存器可靠性验证方法与系统 - Google Patents

一种服务器dc测试中gpu寄存器可靠性验证方法与系统 Download PDF

Info

Publication number
CN107908490B
CN107908490B CN201711099213.4A CN201711099213A CN107908490B CN 107908490 B CN107908490 B CN 107908490B CN 201711099213 A CN201711099213 A CN 201711099213A CN 107908490 B CN107908490 B CN 107908490B
Authority
CN
China
Prior art keywords
register information
gpu
gpu register
temporary
standard
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201711099213.4A
Other languages
English (en)
Other versions
CN107908490A (zh
Inventor
贠雄斌
范鹏飞
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Suzhou Inspur Intelligent Technology Co Ltd
Original Assignee
Suzhou Inspur Intelligent Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Suzhou Inspur Intelligent Technology Co Ltd filed Critical Suzhou Inspur Intelligent Technology Co Ltd
Priority to CN201711099213.4A priority Critical patent/CN107908490B/zh
Publication of CN107908490A publication Critical patent/CN107908490A/zh
Application granted granted Critical
Publication of CN107908490B publication Critical patent/CN107908490B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/008Reliability or availability analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/22Detection or location of defective computer hardware by testing during standby operation or during idle time, e.g. start-up testing
    • G06F11/2205Detection or location of defective computer hardware by testing during standby operation or during idle time, e.g. start-up testing using arrangements specific to the hardware being tested
    • G06F11/2236Detection or location of defective computer hardware by testing during standby operation or during idle time, e.g. start-up testing using arrangements specific to the hardware being tested to test CPU or processors

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Quality & Reliability (AREA)
  • General Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Hardware Design (AREA)
  • Debugging And Monitoring (AREA)

Abstract

本发明提供一种服务器DC测试中GPU寄存器可靠性验证方法与系统,所述方法包括:在服务器正常工作状态下获取GPU寄存器信息,作为标准GPU寄存器信息;执行DC测试过程中获取每次重启操作后的GPU寄存器信息,作为临时GPU寄存器信息;将所述的临时GPU寄存器信息与标准GPU寄存器信息进行比对,如果相同,则输出结果为PASS;否则为FAIL;将每次重启操作后的输出结果汇总,如果全部输出结果都为PASS,则GPU寄存器可靠性验证通过;否则不通过。本发明采用分别在正常工作状态下和DC测试过程中两种状态下的GPU寄存器信息进行比对,从而检测报错信息,完成对GPU寄存器的可靠性验证,可以及时发现DC测试中GPU的异常信息,且测试过程操作简单,有效保证了服务器的可靠性。

Description

一种服务器DC测试中GPU寄存器可靠性验证方法与系统
技术领域
本发明涉及服务器测试领域,特别是一种服务器DC测试中GPU寄存器可靠性验证方法与系统。
背景技术
图形处理器(简称GPU),是一种专门在个人电脑、服务器、游戏机和一些移动设备(如平板电脑、智能手机)等设备进行图像运算工作的微处理器。与CPU类似,只不过GPU是专门为执行复杂的数学和几何运算而设计的,这些计算是图形渲染所必需的,现今某些快速的GPU集成的晶体管数量甚至超过了普通CPU。
目前GPU在服务器领域的运用相当广泛,而服务器的运行需要保证高度的可靠性,因此当服务器含有GPU时,需要对其进行一系列的可靠性测试,以保证未来交付用户使用时,不会出现异常。
服务器测试中,一种总要的可靠性测试项目就是DC测试,所谓的DC测试就是对服务器不断做重启操作。以往的DC测试,只是简单的重复开关机操作,测试完毕后,通过对系统日志和BMC日志进行分析,判断其是否出现过异常情况。这种测试方式可检测部分GPU信息,但是无法检测GPU端口寄存器有无报错信息,而GPU的报错信息对于GPU是否正常工作具有非常重要的意义。
发明内容
本发明的目的是提供一种服务器DC测试中GPU寄存器可靠性验证方法与系统,旨在解决现有DC测试中无法检测GPU端口寄存器是否存在报错信息的问题,可以及时发现DC测试中GPU的异常信息,保证服务器的可靠性。
为达到上述技术目的,本发明提供了一种服务器DC测试中GPU寄存器可靠性验证方法,包括以下步骤:
在服务器正常工作状态下获取GPU寄存器信息,作为标准GPU寄存器信息;
执行DC测试过程中获取每次重启操作后的GPU寄存器信息,作为临时GPU寄存器信息;
将所述的临时GPU寄存器信息与标准GPU寄存器信息进行比对,如果相同,则输出结果为PASS;否则为FAIL;
将每次重启操作后的输出结果汇总,如果全部输出结果都为PASS,则GPU寄存器可靠性验证通过;否则不通过。
优选地,所述将所述的临时GPU寄存器信息与标准GPU寄存器信息进行比对具体为:比对临时GPU寄存器信息与标准GPU寄存器信息中的PCI设备的速率状态LnkSta、UE在寄存器的状态UESta和CE在寄存器的状态CESta三个参数是否相同。
优选地,所述GPU寄存器信息的获取利用lspci工具来完成。
优选地,所述临时GPU寄存器信息存放于临时存储文件中,在每次重启过程中比对操作完成后即删除该临时文件。
本发明还提供了一种服务器DC测试中GPU寄存器可靠性验证系统,包括:
标准GPU寄存器信息模块,用于在服务器正常工作状态下获取GPU寄存器信息,作为标准GPU寄存器信息;
临时GPU寄存器信息模块,用于执行DC测试过程中获取每次重启操作后的GPU寄存器信息,作为临时GPU寄存器信息;
比对模块,用于将所述的临时GPU寄存器信息与标准GPU寄存器信息进行比对,如果相同,则输出结果为PASS;否则为FAIL;
汇总模块,用于将每次重启操作后的输出结果汇总,如果全部输出结果都为PASS,则GPU寄存器可靠性验证通过;否则不通过。
优选地,所述比对模块包括:
LnkSta比对单元,用于比对临时GPU寄存器信息与标准GPU寄存器信息中的PCI设备的速率状态LnkSta是否相同;
UESta比对单元,用于比对临时GPU寄存器信息与标准GPU寄存器信息中的UE在寄存器的状态UESta是否相同;
CESta比对单元,用于比对临时GPU寄存器信息与标准GPU寄存器信息中的CE在寄存器的状态CESta是否相同。
优选地,所述标准GPU寄存器信息模块包括:
标准GPU寄存器信息获取单元,用于在服务器正常工作状态下获取GPU寄存器信息,作为标准GPU寄存器信息;
标准GPU寄存器信息保存单元,用于将标准GPU寄存器信息输出到存储文件。
优选地,所述临时GPU寄存器信息模块包括:
临时GPU寄存器信息获取单元,用于在执行DC测试过程中获取每次重启操作后的GPU寄存器信息,作为临时GPU寄存器信息;
标准GPU寄存器信息保存单元,用于将临时GPU寄存器信息输出到临时存储文件。
优选地,所述系统还包括:
临时GPU寄存器信息删除模块,用于在每次重启过程中比对操作完成后即删除所述临时存储文件。
发明内容中提供的效果仅仅是实施例的效果,而不是发明所有的全部效果,上述技术方案中的一个技术方案具有如下优点或有益效果:
与现有技术相比,本发明采用通过lspci工具分别在正常工作状态下和DC测试过程中获取GPU寄存器信息,并将两种状态下的GPU寄存器信息进行比对,从而检测报错信息,完成对GPU寄存器的可靠性验证,解决了现有DC测试中无法检测GPU端口寄存器是否存在报错信息的问题,可以及时发现DC测试中GPU的异常信息,且测试过程操作简单,有效保证了服务器的可靠性。
附图说明
图1为本发明实施例中所提供的一种服务器DC测试中GPU寄存器可靠性验证方法流程图;
图2为本发明实施例中所提供的一种服务器DC测试中GPU寄存器可靠性验证系统结构框图。
具体实施方式
为了能清楚说明本方案的技术特点,下面通过具体实施方式,并结合其附图,对本发明进行详细阐述。下文的公开提供了许多不同的实施例或例子用来实现本发明的不同结构。为了简化本发明的公开,下文中对特定例子的部件和设置进行描述。此外,本发明可以在不同例子中重复参考数字和/或字母。这种重复是为了简化和清楚的目的,其本身不指示所讨论各种实施例和/或设置之间的关系。应当注意,在附图中所图示的部件不一定按比例绘制。本发明省略了对公知组件和处理技术及工艺的描述以避免不必要地限制本发明。
下面结合附图对本发明实施例所提供的一种服务器DC测试中GPU寄存器可靠性验证方法与系统进行详细说明。
如图1所示,本发明实施例公开了一种服务器DC测试中GPU寄存器可靠性验证方法,包括以下步骤:
在服务器正常工作状态下获取GPU寄存器信息,作为标准GPU寄存器信息;
执行DC测试过程中获取每次重启操作后的GPU寄存器信息,作为临时GPU寄存器信息;
将所述的临时GPU寄存器信息与标准GPU寄存器信息进行比对,如果相同,则输出结果为PASS;否则为FAIL;
将每次重启操作后的输出结果汇总,如果全部输出结果都为PASS,则GPU寄存器可靠性验证通过;否则不通过。
由于GPU外插在服务器的PCIE插槽上,因此可以采用lspci工具来获取GPU寄存器信息。
lspci是一个用来显示系统中所有PCI总线设备或者连接到该总线上的所有设备的工具。利用lspci指令可以获取所有PCI设备的busID,在设备列表中选择GPU设备的busID,通过下述命令来获取寄存器信息:
lspci-s$busId–vvv
对获取到的寄存器信息进行查询检测,确定其是否含有报错信息,具体为以下操作:
在进行DC测试之前,将正常的GPU寄存器信息进行保存,并以此为标准,将后续DC测试中每次重启后的GPU寄存器信息同该标准进行对比,以此来发现GPU是否存在异常。
通过下述命令:
lspci-s$busId-vvv>gpuspec
将正常的GPU寄存器信息保存至gpuspec文件中,并作为比对标准。
执行DC测试,在每次重启时,都需要执行下述命令:
lspci-s$busId-vvv>tmp.log
将每一次DC测试过程中的GPU寄存器信息保存至临时文件tmp.log中,并将tmp.log文件与gpuspec文件中的部分参数进行比对,包括:PCI设备的速率状态LnkSta、UE在寄存器的状态UESta和CE在寄存器的状态CESta。
上述三个参数的获取通过以下命令执行:
lspci -s $busId -vvv |grep LnkSta
lspci -s $busId -vvv |grep UESta
lspci -s $busId -vvv |grep CESta
如果两者一致,则输出结果为PASS,如果不一致,则为FAIL,并将每次DC测试过程中的输出结果输出保存至result_summary.log文件中。在每次比对操作完成后,所述tmp.log文件即删除,防止占用存储空间。
将上述指令编写脚本,运行该脚本,执行DC测试。
DC测试执行完毕后,检查result_summary.log文件,如果文件中每次重启后的输出结果均为PASS,则本次GPU寄存器的可靠性验证通过;如果存在输出结果为FAIL的情况,则本次GPU寄存器的可靠性验证不通过。
本发明实施例采用通过lspci工具分别在正常工作状态下和DC测试过程中获取GPU寄存器信息,并将两种状态下的GPU寄存器信息进行比对,从而检测报错信息,完成对GPU寄存器的可靠性验证,解决了现有DC测试中无法检测GPU端口寄存器是否存在报错信息的问题,可以及时发现DC测试中GPU的异常信息,且测试过程操作简单,有效保证了服务器的可靠性。
如图2所示,本发明实施例还公开了一种服务器DC测试中GPU寄存器可靠性验证系统,包括:
标准GPU寄存器信息模块,用于在服务器正常工作状态下获取GPU寄存器信息,作为标准GPU寄存器信息;
所述标准GPU寄存器信息模块包括:
标准GPU寄存器信息获取单元,用于在服务器正常工作状态下获取GPU寄存器信息,作为标准GPU寄存器信息;
标准GPU寄存器信息保存单元,用于将标准GPU寄存器信息输出到存储文件。
临时GPU寄存器信息模块,用于执行DC测试过程中获取每次重启操作后的GPU寄存器信息,作为临时GPU寄存器信息;
所述临时GPU寄存器信息模块包括:
临时GPU寄存器信息获取单元,用于在执行DC测试过程中获取每次重启操作后的GPU寄存器信息,作为临时GPU寄存器信息;
标准GPU寄存器信息保存单元,用于将临时GPU寄存器信息输出到临时存储文件。
比对模块,用于将所述的临时GPU寄存器信息与标准GPU寄存器信息进行比对,如果相同,则输出结果为PASS;否则为FAIL;
所述比对模块包括:
LnkSta比对单元,用于比对临时GPU寄存器信息与标准GPU寄存器信息中的PCI设备的速率状态LnkSta是否相同;
UESta比对单元,用于比对临时GPU寄存器信息与标准GPU寄存器信息中的UE在寄存器的状态UESta是否相同;
CESta比对单元,用于比对临时GPU寄存器信息与标准GPU寄存器信息中的CE在寄存器的状态CESta是否相同。
汇总模块,用于将每次重启操作后的输出结果汇总,如果全部输出结果都为PASS,则GPU寄存器可靠性验证通过;否则不通过。
所述系统还包括临时GPU寄存器信息删除模块,用于在每次重启过程中比对操作完成后即删除所述临时存储文件。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。

Claims (7)

1.一种服务器DC测试中GPU寄存器可靠性验证方法,其特征在于,包括以下步骤:
在服务器正常工作状态下获取GPU寄存器信息,作为标准GPU寄存器信息;
执行DC测试过程中获取每次重启操作后的GPU寄存器信息,作为临时GPU寄存器信息;
将所述的临时GPU寄存器信息与标准GPU寄存器信息进行比对,包括比对临时GPU寄存器信息与标准GPU寄存器信息中的PCI设备的速率状态LnkSta、UE在寄存器的状态UESta和CE在寄存器的状态CESta三个参数是否相同,如果相同,则输出结果为PASS;否则为FAIL;
将每次重启操作后的输出结果汇总,如果全部输出结果都为PASS,则GPU寄存器可靠性验证通过;否则不通过。
2.根据权利要求1所述的一种服务器DC测试中GPU寄存器可靠性验证方法,其特征在于,所述GPU寄存器信息的获取利用lspci工具来完成。
3.根据权利要求1所述的一种服务器DC测试中GPU寄存器可靠性验证方法,其特征在于,所述临时GPU寄存器信息存放于临时存储文件中,在每次重启过程中比对操作完成后即删除该临时存储文件。
4.一种服务器DC测试中GPU寄存器可靠性验证系统,其特征在于,包括:
标准GPU寄存器信息模块,用于在服务器正常工作状态下获取GPU寄存器信息,作为标准GPU寄存器信息;
临时GPU寄存器信息模块,用于执行DC测试过程中获取每次重启操作后的GPU寄存器信息,作为临时GPU寄存器信息;
比对模块,用于将所述的临时GPU寄存器信息与标准GPU寄存器信息进行比对,包括比对临时GPU寄存器信息与标准GPU寄存器信息中的PCI设备的速率状态LnkSta、UE在寄存器的状态UESta和CE在寄存器的状态CESta三个参数是否相同,如果相同,则输出结果为PASS;否则为FAIL;
汇总模块,用于将每次重启操作后的输出结果汇总,如果全部输出结果都为PASS,则GPU寄存器可靠性验证通过;否则不通过。
5.根据权利要求4所述的一种服务器DC测试中GPU寄存器可靠性验证系统,其特征在于,所述标准GPU寄存器信息模块包括:
标准GPU寄存器信息获取单元,用于在服务器正常工作状态下获取GPU寄存器信息,作为标准GPU寄存器信息;
标准GPU寄存器信息保存单元,用于将标准GPU寄存器信息输出到存储文件。
6.根据权利要求4所述的一种服务器DC测试中GPU寄存器可靠性验证系统,其特征在于,所述临时GPU寄存器信息模块包括:
临时GPU寄存器信息获取单元,用于在执行DC测试过程中获取每次重启操作后的GPU寄存器信息,作为临时GPU寄存器信息;
临时GPU寄存器信息保存单元,用于将临时GPU寄存器信息输出到临时存储文件。
7.根据权利要求6所述的一种服务器DC测试中GPU寄存器可靠性验证系统,其特征在于,所述系统还包括:
临时GPU寄存器信息删除模块,用于在每次重启过程中比对操作完成后即删除所述临时存储文件。
CN201711099213.4A 2017-11-09 2017-11-09 一种服务器dc测试中gpu寄存器可靠性验证方法与系统 Active CN107908490B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201711099213.4A CN107908490B (zh) 2017-11-09 2017-11-09 一种服务器dc测试中gpu寄存器可靠性验证方法与系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201711099213.4A CN107908490B (zh) 2017-11-09 2017-11-09 一种服务器dc测试中gpu寄存器可靠性验证方法与系统

Publications (2)

Publication Number Publication Date
CN107908490A CN107908490A (zh) 2018-04-13
CN107908490B true CN107908490B (zh) 2021-02-05

Family

ID=61844711

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201711099213.4A Active CN107908490B (zh) 2017-11-09 2017-11-09 一种服务器dc测试中gpu寄存器可靠性验证方法与系统

Country Status (1)

Country Link
CN (1) CN107908490B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109344082B (zh) * 2018-11-01 2021-10-12 郑州云海信息技术有限公司 一种自动测试寄存器的方法与系统
CN109710501B (zh) * 2018-12-18 2021-10-29 郑州云海信息技术有限公司 一种服务器数据传输稳定性的检测方法和系统
CN109885438A (zh) * 2019-02-27 2019-06-14 苏州浪潮智能科技有限公司 一种fpga可靠性测试方法、系统、终端及存储介质
CN111338862B (zh) * 2020-02-16 2022-07-19 苏州浪潮智能科技有限公司 一种gpu模式切换稳定性测试方法、系统、终端及存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101299200A (zh) * 2008-06-11 2008-11-05 北京星网锐捷网络技术有限公司 一种处理器系统、设备及故障处理方法
CN107257303A (zh) * 2017-07-28 2017-10-17 郑州云海信息技术有限公司 一种在服务器系统重启过程中对网卡进行自动检测的方法
CN107273257A (zh) * 2017-06-23 2017-10-20 郑州云海信息技术有限公司 一种Linux系统下自动进行硬盘乱序检验的方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102375767A (zh) * 2010-08-17 2012-03-14 鸿富锦精密工业(深圳)有限公司 计算机重启测试系统及方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101299200A (zh) * 2008-06-11 2008-11-05 北京星网锐捷网络技术有限公司 一种处理器系统、设备及故障处理方法
CN107273257A (zh) * 2017-06-23 2017-10-20 郑州云海信息技术有限公司 一种Linux系统下自动进行硬盘乱序检验的方法
CN107257303A (zh) * 2017-07-28 2017-10-17 郑州云海信息技术有限公司 一种在服务器系统重启过程中对网卡进行自动检测的方法

Also Published As

Publication number Publication date
CN107908490A (zh) 2018-04-13

Similar Documents

Publication Publication Date Title
CN107908490B (zh) 一种服务器dc测试中gpu寄存器可靠性验证方法与系统
US8370816B2 (en) Device, method and computer program product for evaluating a debugger script
US7565579B2 (en) Post (power on self test) debug system and method
US11573872B2 (en) Leveraging low power states for fault testing of processing cores at runtime
CN105204968B (zh) 一种故障内存检测方法和装置
US8862942B2 (en) Method of system for detecting abnormal interleavings in concurrent programs
US20160300044A1 (en) Anti-debugging method
WO2019214109A1 (zh) 测试过程的监控装置、方法及计算机可读存储介质
CN103973515A (zh) 一种网卡稳定性测试方法
CN107590017B (zh) 一种电子设备的检测方法和装置
US9529489B2 (en) Method and apparatus of testing a computer program
US10970191B2 (en) Semiconductor device and debug method
US20140172344A1 (en) Method, system and apparatus for testing multiple identical components of multi-component integrated circuits
CN112420117B (zh) 测试sram的方法、装置、计算机设备及存储介质
US20140281719A1 (en) Explaining excluding a test from a test suite
TWI497279B (zh) 除錯裝置及除錯方法
CN107844703B (zh) 一种基于Android平台Unity3D游戏的客户端安全检测方法及装置
US9372949B1 (en) Guided exploration of circuit design states
CN115757099A (zh) 平台固件保护恢复功能自动测试方法和装置
CN114035846A (zh) 一种指令验证方法及指令验证装置
US11474922B2 (en) Fault content identification device, fault content identification method, and recording medium in which fault content identification program is stored
CN108279991B (zh) 一种快速定位计算机设备机率性死机问题的方法
CN113868048B (zh) 一种设备信息的确定方法、装置及设备
CN102567159A (zh) 内存检测方法
CN110858163A (zh) 数据处理方法、装置和机器可读介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right

Effective date of registration: 20210106

Address after: Building 9, No.1, guanpu Road, Guoxiang street, Wuzhong Economic Development Zone, Wuzhong District, Suzhou City, Jiangsu Province

Applicant after: SUZHOU LANGCHAO INTELLIGENT TECHNOLOGY Co.,Ltd.

Address before: Room 1601, floor 16, 278 Xinyi Road, Zhengdong New District, Zhengzhou City, Henan Province

Applicant before: ZHENGZHOU YUNHAI INFORMATION TECHNOLOGY Co.,Ltd.

TA01 Transfer of patent application right
GR01 Patent grant
GR01 Patent grant