CN109086184A - 一种服务器linux系统下GPU压力测试的监控方法 - Google Patents

一种服务器linux系统下GPU压力测试的监控方法 Download PDF

Info

Publication number
CN109086184A
CN109086184A CN201810790715.XA CN201810790715A CN109086184A CN 109086184 A CN109086184 A CN 109086184A CN 201810790715 A CN201810790715 A CN 201810790715A CN 109086184 A CN109086184 A CN 109086184A
Authority
CN
China
Prior art keywords
gpu
log
follows
nvidia
pressure test
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201810790715.XA
Other languages
English (en)
Inventor
程佳佳
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhengzhou Yunhai Information Technology Co Ltd
Original Assignee
Zhengzhou Yunhai Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhengzhou Yunhai Information Technology Co Ltd filed Critical Zhengzhou Yunhai Information Technology Co Ltd
Priority to CN201810790715.XA priority Critical patent/CN109086184A/zh
Publication of CN109086184A publication Critical patent/CN109086184A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3003Monitoring arrangements specially adapted to the computing system or computing system component being monitored
    • G06F11/3024Monitoring arrangements specially adapted to the computing system or computing system component being monitored where the computing system component is a central processing unit [CPU]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3051Monitoring arrangements for monitoring the configuration of the computing system or of the computing system component, e.g. monitoring the presence of processing resources, peripherals, I/O links, software programs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/34Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment
    • G06F11/3409Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment for performance assessment

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computing Systems (AREA)
  • Quality & Reliability (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Hardware Design (AREA)
  • Mathematical Physics (AREA)
  • Debugging And Monitoring (AREA)

Abstract

本发明涉及一种服务器linux系统下GPU压力测试的监控方法,其特征在于,包括以下步骤:S1:测试前将日志信息清空或检查无误的情况下,启动压测程序;S2:启动监控程序,关注下是否有报错信息弹出。S3:测试结束后,需要检查监控信息结果,有问题需要反查,定位下是否为服务器本身的问题。

Description

一种服务器linux系统下GPU压力测试的监控方法
技术领域
本发明属于服务器测试技术领域,具体涉及一种服务器linux系统下GPU压力测试的监控方法。
背景技术
随着社会的快速发展,人们对高网络性能、快速存储、大量内存、超高计算能力的GPU的需求越来越大,产品对gpu的需求也越来越大。作为服务器的重要组成部件,它的稳定定直接关乎着机器能否稳定工作。
在服务器的常规测试项目中,GPU的压力测试常作为重要程度最高、优先级最高的测试内容。常用的GPU压力测试程序很多,例如nbody、gpu-burn-master、nvqul_stress等等。
传统GPU压测方法只需关注压力是否正常运行、测试结束后程序原生log是否有异常、系统log是否有异常即可,对于测试期间出现的频率波动、温度及功耗异常、压力duty值等监控不到。此为现有技术的不足之处。
因此,针对现有技术中的上述缺陷,提供设计一种服务器linux系统下GPU压力测试的监控方法;以解决现有技术中的上述缺陷,是非常有必要的。
发明内容
本发明的目的在于,针对上述现有技术存在的缺陷,提供设计一种服务器linux系统下GPU压力测试的监控方法,以解决上述技术问题。
为实现上述目的,本发明给出以下技术方案:
一种服务器linux系统下GPU压力测试的监控方法,其特征在于,包括以下步骤:
S1:测试前将日志信息清空或检查无误的情况下,启动压测程序;
S2:启动监控程序,关注下是否有报错信息弹出。
S3:测试结束后,需要检查监控信息结果,有问题(有监控信息报警)需要反查,定位下是否为服务器本身的问题。
作为优选,所述步骤S1具体包括以下步骤:
S11:设置时间、驱动版本参数,具体指令如下:
time=`date+"%Y-%m-%d%H:%M:%S"`
driver=`nvidia-smi|grep-i version`
DAC=`nvidia-smi-q|grep-A1"Default App"|grep-i mhz|sort|uniq-c|awk'{print$4}'`
nu=`lspci|grep-i nvi|wc-l`
stress_nu=`nvidia-smi|grep"100%"|wc-l`。
作为优选,所述步骤S2具体包括以下步骤:
S21:测试log的检查环节,如存在此文件则会测试前删除,创建收集日志的文件夹;具体指令如下:
S22:驱动的检查环节,如未安装成功有报错提示;具体指令如下:
S23:每隔2秒一次循环检查,确认GPU全部加压成功
S24:收集每秒频率日志,包括GPU温度、GPU温度、内存和GPU的使用率、内存和GPU的频率;具体指令如下:
echo"TIMES:$time">>mhz_results/nvidia_dmon.log
echo"$driver">>mhz_results/nvidia_dmon.log
nvidia-smi dmon|tee-a mhz_results/nvidia_dmon.log
S25:加压过程中收集低于基准频率的“bus id”以及降频日志直到压力测试完成;具体指令如下:
作为优选,所述步骤S3包括以下步骤:
S31:关闭收集频率日志的进程,具体指令如下:
killall nvidia-smi
S32:检查日志并输出大的pass或fail图案,具体指令如下:
本发明的有益效果在于,配合压测程序使用,实现了GPU压测过程中对关键信息的监控,对于故障分析和服务器质量评估提供了参考,可使用在服务器的常规测试中。此外,本发明设计原理可靠,结构简单,具有非常广泛的应用前景。
由此可见,本发明与现有技术相比,具有突出的实质性特点和显著地进步,其实施的有益效果也是显而易见的。
具体实施方式
下面通过具体实施例对本发明进行详细阐述,以下实施例是对本发明的解释,而本发明并不局限于以下实施方式。
本实施例提供的一种服务器linux系统下GPU压力测试的监控方法,其特征在于,包括以下步骤:
S1:测试前将日志信息清空或检查无误的情况下,启动压测程序;
S2:启动监控程序,关注下是否有报错信息弹出。
S3:测试结束后,需要检查监控信息结果,有问题(有监控信息报警)需要反查,定位下是否为服务器本身的问题。
本实施例中,所述步骤S1具体包括以下步骤:
S11:设置时间、驱动版本参数,具体指令如下:
time=`date+"%Y-%m-%d%H:%M:%S"`
driver=`nvidia-smi|grep-i version`
DAC=`nvidia-smi-q|grep-A1"Default App"|grep-i mhz|sort|uniq-c|awk'{print$4}'`
nu=`lspci|grep-i nvi|wc-l`
stress_nu=`nvidia-smi|grep"100%"|wc-l`。
本实施例中,所述步骤S2具体包括以下步骤:
S21:测试log的检查环节,如存在此文件则会测试前删除,创建收集日志的文件夹;具体指令如下:
S22:驱动的检查环节,如未安装成功有报错提示;具体指令如下:
S23:每隔2秒一次循环检查,确认GPU全部加压成功
S24:收集每秒频率日志,包括GPU温度、GPU温度、内存和GPU的使用率、内存和GPU的频率;具体指令如下:
echo"TIMES:$time">>mhz_results/nvidia_dmon.log
echo"$driver">>mhz_results/nvidia_dmon.log
nvidia-smi dmon|tee-a mhz_results/nvidia_dmon.log
S25:加压过程中收集低于基准频率的“bus id”以及降频日志直到压力测试完成;具体指令如下:
本实施例中,所述步骤S3包括以下步骤:
S31:关闭收集频率日志的进程,具体指令如下:
killall nvidia-smi
S32:检查日志并输出大的pass或fail图案,具体指令如下:
以上公开的仅为本发明的优选实施方式,但本发明并非局限于此,任何本领域的技术人员能思之的没有创造性的变化,以及在不脱离本发明原理前提下所作的若干改进和润饰,都应落在本发明的保护范围内。

Claims (4)

1.一种服务器linux系统下GPU压力测试的监控方法,其特征在于,包括以下步骤:
S1:测试前将日志信息清空或检查无误的情况下,启动压测程序;
S2:启动监控程序,关注下是否有报错信息弹出。
S3:测试结束后,需要检查监控信息结果,有问题需要反查,定位下是否为服务器本身的问题。
2.根据权利要求1所述的一种服务器linux系统下GPU压力测试的监控方法,其特征在于,所述步骤S1具体包括以下步骤:
S11:设置时间、驱动版本参数,具体指令如下:
3.根据权利要求1或2所述的一种服务器linux系统下GPU压力测试的监控方法,其特征在于,所述步骤S2具体包括以下步骤:
S21:测试log的检查环节,如存在此文件则会测试前删除,创建收集日志的文件夹;具体指令如下:
S22:驱动的检查环节,如未安装成功有报错提示;具体指令如下:
S23:每隔2秒一次循环检查,确认GPU全部加压成功
S24:收集每秒频率日志,包括GPU温度、GPU温度、内存和GPU的使用率、内存和GPU的频率;具体指令如下:
echo"TIMES:$time">>mhz_results/nvidia_dmon.log
echo"$driver">>mhz_results/nvidia_dmon.log
nvidia-smi dmon|tee-a mhz_results/nvidia_dmon.log
S25:加压过程中收集低于基准频率的“bus id”以及降频日志直到压力测试完成;具体指令如下:
4.根据权利要求3所述的一种服务器linux系统下GPU压力测试的监控方法,其特征在于,所述步骤S3包括以下步骤:
S31:关闭收集频率日志的进程,具体指令如下:
killall nvidia-smi
S32:检查日志并输出大的pass或fail图案,具体指令如下:
CN201810790715.XA 2018-07-18 2018-07-18 一种服务器linux系统下GPU压力测试的监控方法 Pending CN109086184A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810790715.XA CN109086184A (zh) 2018-07-18 2018-07-18 一种服务器linux系统下GPU压力测试的监控方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810790715.XA CN109086184A (zh) 2018-07-18 2018-07-18 一种服务器linux系统下GPU压力测试的监控方法

Publications (1)

Publication Number Publication Date
CN109086184A true CN109086184A (zh) 2018-12-25

Family

ID=64837757

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810790715.XA Pending CN109086184A (zh) 2018-07-18 2018-07-18 一种服务器linux系统下GPU压力测试的监控方法

Country Status (1)

Country Link
CN (1) CN109086184A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110175096A (zh) * 2019-05-21 2019-08-27 苏州浪潮智能科技有限公司 一种gpu加压测试方法、系统、终端及存储介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103984627A (zh) * 2014-05-15 2014-08-13 浪潮电子信息产业股份有限公司 一种Linux服务器的内存压力测试方法
CN104268046A (zh) * 2014-10-17 2015-01-07 浪潮电子信息产业股份有限公司 一种Linux下人工交互的NVIDIA GPU自动化测试方法
CN106055445A (zh) * 2016-06-14 2016-10-26 浪潮电子信息产业股份有限公司 一种cpu压力自动测试方法
CN106326067A (zh) * 2016-08-05 2017-01-11 浪潮电子信息产业股份有限公司 一种在压力测试下对cpu性能进行监控的方法及装置
CN106371969A (zh) * 2016-08-25 2017-02-01 浪潮电子信息产业股份有限公司 一种服务器linux系统下MEM压力测试的监控方法
CN106649005A (zh) * 2016-09-30 2017-05-10 郑州云海信息技术有限公司 基于shell的内存ras特性自动化压力测试方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103984627A (zh) * 2014-05-15 2014-08-13 浪潮电子信息产业股份有限公司 一种Linux服务器的内存压力测试方法
CN104268046A (zh) * 2014-10-17 2015-01-07 浪潮电子信息产业股份有限公司 一种Linux下人工交互的NVIDIA GPU自动化测试方法
CN106055445A (zh) * 2016-06-14 2016-10-26 浪潮电子信息产业股份有限公司 一种cpu压力自动测试方法
CN106326067A (zh) * 2016-08-05 2017-01-11 浪潮电子信息产业股份有限公司 一种在压力测试下对cpu性能进行监控的方法及装置
CN106371969A (zh) * 2016-08-25 2017-02-01 浪潮电子信息产业股份有限公司 一种服务器linux系统下MEM压力测试的监控方法
CN106649005A (zh) * 2016-09-30 2017-05-10 郑州云海信息技术有限公司 基于shell的内存ras特性自动化压力测试方法

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110175096A (zh) * 2019-05-21 2019-08-27 苏州浪潮智能科技有限公司 一种gpu加压测试方法、系统、终端及存储介质

Similar Documents

Publication Publication Date Title
CN102141808B (zh) 汽轮发电机组嵌入式故障预诊断系统及方法
CN106056273B (zh) 一种基于故障树的冗余电动泵本体失效可靠性监测方法
CN109086184A (zh) 一种服务器linux系统下GPU压力测试的监控方法
CN108827458A (zh) 一种风力发电机叶片固有频率在线识别方法
CN104348413A (zh) 基于数据分析的自适应光伏防窃电方法
CN103399185A (zh) 一种基于智能电表反窃电的计算机系统
CN107559228B (zh) 基于双频谱数据检测和诊断风机故障的方法
CN113447875A (zh) 一种拆回智能电能表剩余寿命评估方法及系统
CN115270896B (zh) 一种用于识别航空发动机主轴承松动故障的智能诊断方法
JP2003256034A (ja) 発電プラントのデータ管理方法
CN106371969A (zh) 一种服务器linux系统下MEM压力测试的监控方法
CN103034209A (zh) 一种在线测量数据准确性甄别方法
Giannuzzi et al. Generator coherency analysis in entso-e continental system: Current status and ongoing developments in italian and swiss case
CN203101342U (zh) 无载气油色谱在线监测装置
CN108287074A (zh) 一种v型机燃烧状况在线监测诊断方法
CN110703730A (zh) 一种基于mes中数据采集测试方法和装置
CN110399242A (zh) 基于Hadoop平台的信息维护管理系统
CN206412837U (zh) 一种基于gprs网络的远程电力检修装置
Wang Based on the Big Data Audit Risk Model Audit Process Research
CN202736114U (zh) 基于业务规则技术的智慧档案管理系统
CN103048963A (zh) 一种电机智能化实时监测与控制系统
Ying et al. The Impact of Carbon Emission Trading on Firm Labor Income Share
Zhao et al. Study for Requirements Analysis Method of Aviation Equipment Test and Diagnosis
CN102509247A (zh) Ems系统一键智能体检方法
CN113609475A (zh) 一种高效软件开发管理系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20181225