CN109086184A - 一种服务器linux系统下GPU压力测试的监控方法 - Google Patents
一种服务器linux系统下GPU压力测试的监控方法 Download PDFInfo
- Publication number
- CN109086184A CN109086184A CN201810790715.XA CN201810790715A CN109086184A CN 109086184 A CN109086184 A CN 109086184A CN 201810790715 A CN201810790715 A CN 201810790715A CN 109086184 A CN109086184 A CN 109086184A
- Authority
- CN
- China
- Prior art keywords
- gpu
- log
- follows
- nvidia
- pressure test
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/30—Monitoring
- G06F11/3003—Monitoring arrangements specially adapted to the computing system or computing system component being monitored
- G06F11/3024—Monitoring arrangements specially adapted to the computing system or computing system component being monitored where the computing system component is a central processing unit [CPU]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/30—Monitoring
- G06F11/3051—Monitoring arrangements for monitoring the configuration of the computing system or of the computing system component, e.g. monitoring the presence of processing resources, peripherals, I/O links, software programs
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/30—Monitoring
- G06F11/34—Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment
- G06F11/3409—Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment for performance assessment
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Computing Systems (AREA)
- Quality & Reliability (AREA)
- General Physics & Mathematics (AREA)
- Computer Hardware Design (AREA)
- Mathematical Physics (AREA)
- Debugging And Monitoring (AREA)
Abstract
本发明涉及一种服务器linux系统下GPU压力测试的监控方法,其特征在于,包括以下步骤:S1:测试前将日志信息清空或检查无误的情况下,启动压测程序;S2:启动监控程序,关注下是否有报错信息弹出。S3:测试结束后,需要检查监控信息结果,有问题需要反查,定位下是否为服务器本身的问题。
Description
技术领域
本发明属于服务器测试技术领域,具体涉及一种服务器linux系统下GPU压力测试的监控方法。
背景技术
随着社会的快速发展,人们对高网络性能、快速存储、大量内存、超高计算能力的GPU的需求越来越大,产品对gpu的需求也越来越大。作为服务器的重要组成部件,它的稳定定直接关乎着机器能否稳定工作。
在服务器的常规测试项目中,GPU的压力测试常作为重要程度最高、优先级最高的测试内容。常用的GPU压力测试程序很多,例如nbody、gpu-burn-master、nvqul_stress等等。
传统GPU压测方法只需关注压力是否正常运行、测试结束后程序原生log是否有异常、系统log是否有异常即可,对于测试期间出现的频率波动、温度及功耗异常、压力duty值等监控不到。此为现有技术的不足之处。
因此,针对现有技术中的上述缺陷,提供设计一种服务器linux系统下GPU压力测试的监控方法;以解决现有技术中的上述缺陷,是非常有必要的。
发明内容
本发明的目的在于,针对上述现有技术存在的缺陷,提供设计一种服务器linux系统下GPU压力测试的监控方法,以解决上述技术问题。
为实现上述目的,本发明给出以下技术方案:
一种服务器linux系统下GPU压力测试的监控方法,其特征在于,包括以下步骤:
S1:测试前将日志信息清空或检查无误的情况下,启动压测程序;
S2:启动监控程序,关注下是否有报错信息弹出。
S3:测试结束后,需要检查监控信息结果,有问题(有监控信息报警)需要反查,定位下是否为服务器本身的问题。
作为优选,所述步骤S1具体包括以下步骤:
S11:设置时间、驱动版本参数,具体指令如下:
time=`date+"%Y-%m-%d%H:%M:%S"`
driver=`nvidia-smi|grep-i version`
DAC=`nvidia-smi-q|grep-A1"Default App"|grep-i mhz|sort|uniq-c|awk'{print$4}'`
nu=`lspci|grep-i nvi|wc-l`
stress_nu=`nvidia-smi|grep"100%"|wc-l`。
作为优选,所述步骤S2具体包括以下步骤:
S21:测试log的检查环节,如存在此文件则会测试前删除,创建收集日志的文件夹;具体指令如下:
S22:驱动的检查环节,如未安装成功有报错提示;具体指令如下:
S23:每隔2秒一次循环检查,确认GPU全部加压成功
S24:收集每秒频率日志,包括GPU温度、GPU温度、内存和GPU的使用率、内存和GPU的频率;具体指令如下:
echo"TIMES:$time">>mhz_results/nvidia_dmon.log
echo"$driver">>mhz_results/nvidia_dmon.log
nvidia-smi dmon|tee-a mhz_results/nvidia_dmon.log
S25:加压过程中收集低于基准频率的“bus id”以及降频日志直到压力测试完成;具体指令如下:
作为优选,所述步骤S3包括以下步骤:
S31:关闭收集频率日志的进程,具体指令如下:
killall nvidia-smi
S32:检查日志并输出大的pass或fail图案,具体指令如下:
本发明的有益效果在于,配合压测程序使用,实现了GPU压测过程中对关键信息的监控,对于故障分析和服务器质量评估提供了参考,可使用在服务器的常规测试中。此外,本发明设计原理可靠,结构简单,具有非常广泛的应用前景。
由此可见,本发明与现有技术相比,具有突出的实质性特点和显著地进步,其实施的有益效果也是显而易见的。
具体实施方式
下面通过具体实施例对本发明进行详细阐述,以下实施例是对本发明的解释,而本发明并不局限于以下实施方式。
本实施例提供的一种服务器linux系统下GPU压力测试的监控方法,其特征在于,包括以下步骤:
S1:测试前将日志信息清空或检查无误的情况下,启动压测程序;
S2:启动监控程序,关注下是否有报错信息弹出。
S3:测试结束后,需要检查监控信息结果,有问题(有监控信息报警)需要反查,定位下是否为服务器本身的问题。
本实施例中,所述步骤S1具体包括以下步骤:
S11:设置时间、驱动版本参数,具体指令如下:
time=`date+"%Y-%m-%d%H:%M:%S"`
driver=`nvidia-smi|grep-i version`
DAC=`nvidia-smi-q|grep-A1"Default App"|grep-i mhz|sort|uniq-c|awk'{print$4}'`
nu=`lspci|grep-i nvi|wc-l`
stress_nu=`nvidia-smi|grep"100%"|wc-l`。
本实施例中,所述步骤S2具体包括以下步骤:
S21:测试log的检查环节,如存在此文件则会测试前删除,创建收集日志的文件夹;具体指令如下:
S22:驱动的检查环节,如未安装成功有报错提示;具体指令如下:
S23:每隔2秒一次循环检查,确认GPU全部加压成功
S24:收集每秒频率日志,包括GPU温度、GPU温度、内存和GPU的使用率、内存和GPU的频率;具体指令如下:
echo"TIMES:$time">>mhz_results/nvidia_dmon.log
echo"$driver">>mhz_results/nvidia_dmon.log
nvidia-smi dmon|tee-a mhz_results/nvidia_dmon.log
S25:加压过程中收集低于基准频率的“bus id”以及降频日志直到压力测试完成;具体指令如下:
本实施例中,所述步骤S3包括以下步骤:
S31:关闭收集频率日志的进程,具体指令如下:
killall nvidia-smi
S32:检查日志并输出大的pass或fail图案,具体指令如下:
以上公开的仅为本发明的优选实施方式,但本发明并非局限于此,任何本领域的技术人员能思之的没有创造性的变化,以及在不脱离本发明原理前提下所作的若干改进和润饰,都应落在本发明的保护范围内。
Claims (4)
1.一种服务器linux系统下GPU压力测试的监控方法,其特征在于,包括以下步骤:
S1:测试前将日志信息清空或检查无误的情况下,启动压测程序;
S2:启动监控程序,关注下是否有报错信息弹出。
S3:测试结束后,需要检查监控信息结果,有问题需要反查,定位下是否为服务器本身的问题。
2.根据权利要求1所述的一种服务器linux系统下GPU压力测试的监控方法,其特征在于,所述步骤S1具体包括以下步骤:
S11:设置时间、驱动版本参数,具体指令如下:
3.根据权利要求1或2所述的一种服务器linux系统下GPU压力测试的监控方法,其特征在于,所述步骤S2具体包括以下步骤:
S21:测试log的检查环节,如存在此文件则会测试前删除,创建收集日志的文件夹;具体指令如下:
S22:驱动的检查环节,如未安装成功有报错提示;具体指令如下:
S23:每隔2秒一次循环检查,确认GPU全部加压成功
S24:收集每秒频率日志,包括GPU温度、GPU温度、内存和GPU的使用率、内存和GPU的频率;具体指令如下:
echo"TIMES:$time">>mhz_results/nvidia_dmon.log
echo"$driver">>mhz_results/nvidia_dmon.log
nvidia-smi dmon|tee-a mhz_results/nvidia_dmon.log
S25:加压过程中收集低于基准频率的“bus id”以及降频日志直到压力测试完成;具体指令如下:
。
4.根据权利要求3所述的一种服务器linux系统下GPU压力测试的监控方法,其特征在于,所述步骤S3包括以下步骤:
S31:关闭收集频率日志的进程,具体指令如下:
killall nvidia-smi
S32:检查日志并输出大的pass或fail图案,具体指令如下:
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810790715.XA CN109086184A (zh) | 2018-07-18 | 2018-07-18 | 一种服务器linux系统下GPU压力测试的监控方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810790715.XA CN109086184A (zh) | 2018-07-18 | 2018-07-18 | 一种服务器linux系统下GPU压力测试的监控方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN109086184A true CN109086184A (zh) | 2018-12-25 |
Family
ID=64837757
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810790715.XA Pending CN109086184A (zh) | 2018-07-18 | 2018-07-18 | 一种服务器linux系统下GPU压力测试的监控方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109086184A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110175096A (zh) * | 2019-05-21 | 2019-08-27 | 苏州浪潮智能科技有限公司 | 一种gpu加压测试方法、系统、终端及存储介质 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103984627A (zh) * | 2014-05-15 | 2014-08-13 | 浪潮电子信息产业股份有限公司 | 一种Linux服务器的内存压力测试方法 |
CN104268046A (zh) * | 2014-10-17 | 2015-01-07 | 浪潮电子信息产业股份有限公司 | 一种Linux下人工交互的NVIDIA GPU自动化测试方法 |
CN106055445A (zh) * | 2016-06-14 | 2016-10-26 | 浪潮电子信息产业股份有限公司 | 一种cpu压力自动测试方法 |
CN106326067A (zh) * | 2016-08-05 | 2017-01-11 | 浪潮电子信息产业股份有限公司 | 一种在压力测试下对cpu性能进行监控的方法及装置 |
CN106371969A (zh) * | 2016-08-25 | 2017-02-01 | 浪潮电子信息产业股份有限公司 | 一种服务器linux系统下MEM压力测试的监控方法 |
CN106649005A (zh) * | 2016-09-30 | 2017-05-10 | 郑州云海信息技术有限公司 | 基于shell的内存ras特性自动化压力测试方法 |
-
2018
- 2018-07-18 CN CN201810790715.XA patent/CN109086184A/zh active Pending
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103984627A (zh) * | 2014-05-15 | 2014-08-13 | 浪潮电子信息产业股份有限公司 | 一种Linux服务器的内存压力测试方法 |
CN104268046A (zh) * | 2014-10-17 | 2015-01-07 | 浪潮电子信息产业股份有限公司 | 一种Linux下人工交互的NVIDIA GPU自动化测试方法 |
CN106055445A (zh) * | 2016-06-14 | 2016-10-26 | 浪潮电子信息产业股份有限公司 | 一种cpu压力自动测试方法 |
CN106326067A (zh) * | 2016-08-05 | 2017-01-11 | 浪潮电子信息产业股份有限公司 | 一种在压力测试下对cpu性能进行监控的方法及装置 |
CN106371969A (zh) * | 2016-08-25 | 2017-02-01 | 浪潮电子信息产业股份有限公司 | 一种服务器linux系统下MEM压力测试的监控方法 |
CN106649005A (zh) * | 2016-09-30 | 2017-05-10 | 郑州云海信息技术有限公司 | 基于shell的内存ras特性自动化压力测试方法 |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110175096A (zh) * | 2019-05-21 | 2019-08-27 | 苏州浪潮智能科技有限公司 | 一种gpu加压测试方法、系统、终端及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN102141808B (zh) | 汽轮发电机组嵌入式故障预诊断系统及方法 | |
CN106056273B (zh) | 一种基于故障树的冗余电动泵本体失效可靠性监测方法 | |
CN109086184A (zh) | 一种服务器linux系统下GPU压力测试的监控方法 | |
CN108827458A (zh) | 一种风力发电机叶片固有频率在线识别方法 | |
CN104348413A (zh) | 基于数据分析的自适应光伏防窃电方法 | |
CN103399185A (zh) | 一种基于智能电表反窃电的计算机系统 | |
CN107559228B (zh) | 基于双频谱数据检测和诊断风机故障的方法 | |
CN113447875A (zh) | 一种拆回智能电能表剩余寿命评估方法及系统 | |
CN115270896B (zh) | 一种用于识别航空发动机主轴承松动故障的智能诊断方法 | |
JP2003256034A (ja) | 発電プラントのデータ管理方法 | |
CN106371969A (zh) | 一种服务器linux系统下MEM压力测试的监控方法 | |
CN103034209A (zh) | 一种在线测量数据准确性甄别方法 | |
Giannuzzi et al. | Generator coherency analysis in entso-e continental system: Current status and ongoing developments in italian and swiss case | |
CN203101342U (zh) | 无载气油色谱在线监测装置 | |
CN108287074A (zh) | 一种v型机燃烧状况在线监测诊断方法 | |
CN110703730A (zh) | 一种基于mes中数据采集测试方法和装置 | |
CN110399242A (zh) | 基于Hadoop平台的信息维护管理系统 | |
CN206412837U (zh) | 一种基于gprs网络的远程电力检修装置 | |
Wang | Based on the Big Data Audit Risk Model Audit Process Research | |
CN202736114U (zh) | 基于业务规则技术的智慧档案管理系统 | |
CN103048963A (zh) | 一种电机智能化实时监测与控制系统 | |
Ying et al. | The Impact of Carbon Emission Trading on Firm Labor Income Share | |
Zhao et al. | Study for Requirements Analysis Method of Aviation Equipment Test and Diagnosis | |
CN102509247A (zh) | Ems系统一键智能体检方法 | |
CN113609475A (zh) | 一种高效软件开发管理系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20181225 |