CN111488249B - 一种gpu掉卡恢复对训练任务影响的测试方法及装置 - Google Patents

一种gpu掉卡恢复对训练任务影响的测试方法及装置 Download PDF

Info

Publication number
CN111488249B
CN111488249B CN202010306950.2A CN202010306950A CN111488249B CN 111488249 B CN111488249 B CN 111488249B CN 202010306950 A CN202010306950 A CN 202010306950A CN 111488249 B CN111488249 B CN 111488249B
Authority
CN
China
Prior art keywords
gpu
card
training task
gpu card
recovery
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010306950.2A
Other languages
English (en)
Other versions
CN111488249A (zh
Inventor
周华楠
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Suzhou Inspur Intelligent Technology Co Ltd
Original Assignee
Suzhou Inspur Intelligent Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Suzhou Inspur Intelligent Technology Co Ltd filed Critical Suzhou Inspur Intelligent Technology Co Ltd
Priority to CN202010306950.2A priority Critical patent/CN111488249B/zh
Publication of CN111488249A publication Critical patent/CN111488249A/zh
Application granted granted Critical
Publication of CN111488249B publication Critical patent/CN111488249B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/22Detection or location of defective computer hardware by testing during standby operation or during idle time, e.g. start-up testing
    • G06F11/2205Detection or location of defective computer hardware by testing during standby operation or during idle time, e.g. start-up testing using arrangements specific to the hardware being tested
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/22Detection or location of defective computer hardware by testing during standby operation or during idle time, e.g. start-up testing
    • G06F11/2247Verification or detection of system hardware configuration
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/22Detection or location of defective computer hardware by testing during standby operation or during idle time, e.g. start-up testing
    • G06F11/26Functional testing
    • G06F11/261Functional testing by simulating additional hardware, e.g. fault simulation

Landscapes

  • Engineering & Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Hardware Design (AREA)
  • Quality & Reliability (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Test And Diagnosis Of Digital Computers (AREA)

Abstract

本发明公开一种GPU掉卡恢复对训练任务影响的测试方法及装置,所述训练任务为神经网络模型训练任务,运行GPU掉卡脚本,模拟GPU掉卡;检测训练任务是否停止运行;若训练任务停止运行,则运行GPU恢复脚本,模拟GPU恢复;检测训练任务是否恢复正常运行;输出训练任务是否恢复正常运行的检测结果。本发明无需人工往复插拔,避免多次插拔GPU卡对GPU卡和服务器性能的影响,并且节约测试时间。

Description

一种GPU掉卡恢复对训练任务影响的测试方法及装置
技术领域
本发明涉及GPU掉卡恢复领域,具体涉及一种GPU掉卡恢复对神经网络模型训练任务影响的测试方法及装置。
背景技术
在AI平台的各个节点上执行神经网络模型的训练任务时, 往往会出现GPU卡(Graphics Processing Unit,图形处理器)丢失等故障的情况,当节点中的某个GPU卡故障时,会导致该节点上所有的训练任务都无法正常执行。但有时工作人员将GPU恢复后,训练任务仍不能恢复正常,造成训练故障。因此,需要训练前测试GPU卡掉卡恢复后是否能保证训练任务正常恢复。目前的测试过程是直接拔掉GPU卡,多次操作,不仅对GPU卡的性能造成影响,而且需要往返实验室,浪费较多时间。
发明内容
为解决上述问题,本发明提供一种GPU掉卡恢复对训练任务影响的测试方法及装置,可自动模拟GPU掉卡和恢复,保护GPU卡,且节约测试时间。
本发明的技术方案是:一种GPU掉卡恢复对训练任务影响的测试方法,所述训练任务为神经网络模型训练任务,包括以下步骤:
运行GPU掉卡脚本,模拟GPU掉卡;
检测训练任务是否停止运行;
若训练任务停止运行,则运行GPU恢复脚本,模拟GPU恢复;
检测训练任务是否恢复正常运行;
输出训练任务是否恢复正常运行的检测结果。
进一步地,运行GPU掉卡脚本,模拟GPU掉卡,具体包括以下步骤:
发送卸载驱动命令,卸载GPU卡的驱动;
发送修改文件命令,修改GPU卡的配置文件。
进一步地,运行GPU掉卡脚本,模拟GPU掉卡,还包括以下步骤:
卸载GPU卡的驱动后,搜索GPU卡的驱动;
若搜索到GPU卡的驱动,则继续发送卸载驱动命令,卸载GPU卡的驱动;
若搜索不到GPU卡的驱动,则发送修改文件命令,修改GPU卡的配置文件,并进入下一步;
检测配置文件是否与预设配置文件不相同;
若配置文件与预设配置文件不相同,则模拟GPU掉卡成功;
若配置文件与预设配置文件相同,则继续发送修改文件命令,修改GPU卡的配置文件。
进一步地,运行GPU恢复脚本,模拟GPU恢复,具体包括以下步骤:
发送重装驱动命令,重新安装GPU卡的驱动;
发送重配文件命令,重新配置GPU卡的配置文件。
进一步地,运行GPU恢复脚本,模拟GPU恢复,还包括以下步骤:
搜索GPU卡的驱动,并检测配置文件是否与预设配置文件相同;
若搜索到GPU卡的驱动,且配置文件与预设配置文件相同,则模拟GPU恢复成功;
否则,模拟GPU卡恢复不成功,继续运行GPU恢复脚本,模拟GPU恢复。
进一步地,该方法还包括以下步骤:
模拟GPU掉卡后,若检测训练任务未停止运行,则输出训练任务未停止运行提示,并停止测试。
本发明的技术方案还包括一种GPU掉卡恢复对训练任务影响的测试装置,所述训练任务为神经网络模型训练任务,包括,
模拟掉卡模块:运行GPU掉卡脚本,模拟GPU掉卡;
模拟恢复模块:运行GPU恢复脚本,模拟GPU恢复;
检测平台运行模块:检测训练任务运行状态;
结果输出模块:输出训练任务是否恢复正常运行的检测结果。
进一步地,模拟掉卡模块包括,
卸载驱动单元:发送卸载驱动命令,卸载GPU卡的驱动;
修改文件单元:发送修改文件命令,修改GPU卡的配置文件。
进一步地,模拟恢复模块包括,
重装驱动单元:发送重装驱动命令,重新安装GPU卡的驱动;
重配文件单元:发送重配文件命令,重新配置GPU卡的配置文件。
进一步地,该装置还包括,
输出提示模块:模拟GPU掉卡后,若检测训练任务未停止运行,则输出训练任务未停止运行提示。
本发明提供的一种GPU掉卡恢复对训练任务影响的测试方法及装置,通过测试脚本自动模拟GPU掉卡和恢复,在成功模拟后检测训练任务状态。具体可通过自动卸载重置GPU卡驱动和自动修改重置配置文件的方式模拟GPU掉卡和恢复,无需人工往复插拔,避免多次插拔GPU卡对GPU卡和服务器性能的影响,并且节约测试时间。
附图说明
图1是本发明具体实施例一方法流程示意图;
图2是本发明具体实施例一模拟GPU掉卡方法流程示意图;
图3是本发明具体实施例二结构示意框图。
具体实施方式
下面结合附图并通过具体实施例对本发明进行详细阐述,以下实施例是对本发明的解释,而本发明并不局限于以下实施方式。
实施例一
如图1所示,本实施例提供一种GPU掉卡恢复对训练任务影响的测试方法,该训练任务为神经网络模型训练任务,可自动模拟GPU掉卡和恢复,包括以下步骤:
S1,运行GPU掉卡脚本,模拟GPU掉卡;
S2,检测训练任务是否停止运行;
S3,若训练任务停止运行,则运行GPU恢复脚本,模拟GPU恢复;
S4,检测训练任务是否恢复正常运行;
S5,输出训练任务是否恢复正常运行的检测结果。
若训练任务恢复正常运行,则GPU掉卡再恢复后对训练任务无影响,可在恢复后正常运行,否则不能正常运行,需要工作人员更换GPU卡或做其他预防操作。本方法通过测试脚本自动模拟GPU掉卡和恢复,可自动重复多次,无需直接拔掉GPU卡,避免多次插拔对GPU卡和服务器的影响,并节省测试时间。
优选地,本实施例通过卸载重装驱动和修改重置配置文件模拟GPU卡的掉卡和恢复,操作简单,且测试高效。
具体地,上述步骤S1包括以下步骤:
发送卸载驱动命令,卸载GPU卡的驱动;
发送修改文件命令,修改GPU卡的配置文件。
如图2所示,为保证可成功模拟GPU掉卡,避免后续测试失效,步骤S1优选实施过程可包括以下步骤:
S101,发送卸载驱动命令,卸载GPU卡的驱动;
S102, 搜索GPU卡的驱动;
S103,若搜索到GPU卡的驱动,则返回步骤S101,否则进入下一步;
S104,发送修改文件命令,修改GPU卡的配置文件;
S105,检测配置文件是否与预设配置文件不相同;
S106,若配置文件与预设配置文件不相同,则模拟GPU掉卡成功;若配置文件与预设配置文件相同,则返回步骤S104。
需要说明的是,可预设卸载驱动和修改配置文件次数,若超过预设次数后,仍不能成功卸载或修改,可终止测试并发出提示。
本实施例中,修改配置文件可为增加一条GPU卡数的信息,当然也可以是其他修改方式,保证配置文件不与预设配置文件相同即可。
在以上模拟GPU掉卡的基础上,本实施例步骤S3中模拟GPU卡恢复,相应可通过重装驱动和重置文件的方式实现。
步骤S3运行GPU恢复脚本,模拟GPU恢复,具体包括:
发送重装驱动命令,重新安装GPU卡的驱动;
发送重配文件命令,重新配置GPU卡的配置文件。
同样,应检测是否能成功模拟恢复,在重新安装GPU卡的驱动和重新配置GPU卡的配置文件后,实施以下步骤:
搜索GPU卡的驱动,并检测配置文件是否与预设配置文件相同;
若搜索到GPU卡的驱动,且配置文件与预设配置文件相同,则模拟GPU恢复成功;
否则,模拟GPU卡恢复不成功,继续运行GPU恢复脚本,模拟GPU恢复。
需要说明的是,可预设运行GPU恢复脚本次数,若超过预设次数后,仍不能成功模拟GPU卡恢复,可终止测试,发出提示。另外,在发送重装驱动命令,重新安装GPU卡的驱动可将掉卡节点重启,安装GPU卡驱动之后,重置配置文件之前再次重启节点,以避免后续不能正确搜索到驱动和检测到配置文件。
本实施例中,步骤S2检测训练任务是否停止运行,若检测训练任务未停止运行,则输出训练任务未停止运行提示,并停止测试。可避免后续测试有误。
实施例二
如图3所示,本实施例提供一种GPU掉卡恢复对训练任务影响的测试装置,训练任务为神经网络模型训练任务,包括以下功能模块:
模拟掉卡模块11:运行GPU掉卡脚本,模拟GPU掉卡;
模拟恢复模块12:运行GPU恢复脚本,模拟GPU恢复;
检测平台运行模块13:检测训练任务运行状态;
结果输出模块14:输出训练任务是否恢复正常运行的检测结果。
需要说明的是,检测平台运行模块13所检测训练任务运行状态是指训练任务是否停止或正常运行。
本实施例通过卸载驱动和修改配置文件的方式模拟掉卡,模拟掉卡模块11包括以下功能单元:
卸载驱动单元:发送卸载驱动命令,卸载GPU卡的驱动;
修改文件单元:发送修改文件命令,修改GPU卡的配置文件。
卸载GPU卡的驱动并修改GPU卡的配置文件,可成功模拟GPU掉卡。
相应地,本实施例通过重装驱动和重置配置文件的方式模拟恢复,模拟恢复模块12具体包括以下功能单元:
重装驱动单元:发送重装驱动命令,重新安装GPU卡的驱动;
重配文件单元:发送重配文件命令,重新配置GPU卡的配置文件。
本实施例还设置输出提示模块15,用于模拟GPU掉卡后,若检测训练任务未停止运行,则输出训练任务未停止运行提示。给工作人员相关提示,便于解决测试问题。
以上公开的仅为本发明的优选实施方式,但本发明并非局限于此,任何本领域的技术人员能思之的没有创造性的变化,以及在不脱离本发明原理前提下所作的若干改进和润饰,都应落在本发明的保护范围内。

Claims (8)

1.一种GPU掉卡恢复对训练任务影响的测试方法,所述训练任务为神经网络模型训练任务,其特征在于,包括以下步骤:
运行GPU掉卡脚本,模拟GPU掉卡,具体包括:发送卸载驱动命令,卸载GPU卡的驱动;发送修改文件命令,修改GPU卡的配置文件;
检测训练任务是否停止运行;
若训练任务停止运行,则运行GPU恢复脚本,模拟GPU恢复;
检测训练任务是否恢复正常运行;
输出训练任务是否恢复正常运行的检测结果。
2.根据权利要求1所述的GPU掉卡恢复对训练任务影响的测试方法,其特征在于,运行GPU掉卡脚本,模拟GPU掉卡,还包括以下步骤:
卸载GPU卡的驱动后,搜索GPU卡的驱动;
若搜索到GPU卡的驱动,则继续发送卸载驱动命令,卸载GPU卡的驱动;
若搜索不到GPU卡的驱动,则发送修改文件命令,修改GPU卡的配置文件,并进入下一步;
检测配置文件是否与预设配置文件不相同;
若配置文件与预设配置文件不相同,则模拟GPU掉卡成功;
若配置文件与预设配置文件相同,则继续发送修改文件命令,修改GPU卡的配置文件。
3.根据权利要求1或2所述的GPU掉卡恢复对训练任务影响的测试方法,其特征在于,运行GPU恢复脚本,模拟GPU恢复,具体包括以下步骤:
发送重装驱动命令,重新安装GPU卡的驱动;
发送重配文件命令,重新配置GPU卡的配置文件。
4.根据权利要求3所述的GPU掉卡恢复对训练任务影响的测试方法,其特征在于,运行GPU恢复脚本,模拟GPU恢复,还包括以下步骤:
搜索GPU卡的驱动,并检测配置文件是否与预设配置文件相同;
若搜索到GPU卡的驱动,且配置文件与预设配置文件相同,则模拟GPU恢复成功;
否则,模拟GPU卡恢复不成功,继续运行GPU恢复脚本,模拟GPU恢复。
5.根据权利要求1或2所述的GPU掉卡恢复对训练任务影响的测试方法,其特征在于,该方法还包括以下步骤:
模拟GPU掉卡后,若检测训练任务未停止运行,则输出训练任务未停止运行提示,并停止测试。
6.一种GPU掉卡恢复对训练任务影响的测试装置,所述训练任务为神经网络模型训练任务,其特征在于,包括,
模拟掉卡模块:运行GPU掉卡脚本,模拟GPU掉卡;
模拟恢复模块:运行GPU恢复脚本,模拟GPU恢复;
检测平台运行模块:检测训练任务运行状态;
结果输出模块:输出训练任务是否恢复正常运行的检测结果;
其中,模拟掉卡模块包括,
卸载驱动单元:发送卸载驱动命令,卸载GPU卡的驱动;
修改文件单元:发送修改文件命令,修改GPU卡的配置文件。
7.根据权利要求6所述的GPU掉卡恢复对训练任务影响的测试装置,其特征在于,模拟恢复模块包括,
重装驱动单元:发送重装驱动命令,重新安装GPU卡的驱动;
重配文件单元:发送重配文件命令,重新配置GPU卡的配置文件。
8.根据权利要求6或7所述的GPU掉卡恢复对训练任务影响的测试装置,其特征在于,该装置还包括,
输出提示模块:模拟GPU掉卡后,若检测训练任务未停止运行,则输出训练任务未停止运行提示。
CN202010306950.2A 2020-04-17 2020-04-17 一种gpu掉卡恢复对训练任务影响的测试方法及装置 Active CN111488249B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010306950.2A CN111488249B (zh) 2020-04-17 2020-04-17 一种gpu掉卡恢复对训练任务影响的测试方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010306950.2A CN111488249B (zh) 2020-04-17 2020-04-17 一种gpu掉卡恢复对训练任务影响的测试方法及装置

Publications (2)

Publication Number Publication Date
CN111488249A CN111488249A (zh) 2020-08-04
CN111488249B true CN111488249B (zh) 2023-01-10

Family

ID=71794915

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010306950.2A Active CN111488249B (zh) 2020-04-17 2020-04-17 一种gpu掉卡恢复对训练任务影响的测试方法及装置

Country Status (1)

Country Link
CN (1) CN111488249B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113438470B (zh) * 2021-06-18 2022-12-09 苏州浪潮智能科技有限公司 视频转码器掉卡模拟测试方法、装置、终端及存储介质

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103678067A (zh) * 2013-12-19 2014-03-26 大唐微电子技术有限公司 一种智能卡掉电测试方法、测试设备和被测设备
CN108614754A (zh) * 2018-08-17 2018-10-02 北京航星中云科技有限公司 一种基于飞腾平台的服务器掉电测试方法及装置

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103678067A (zh) * 2013-12-19 2014-03-26 大唐微电子技术有限公司 一种智能卡掉电测试方法、测试设备和被测设备
CN108614754A (zh) * 2018-08-17 2018-10-02 北京航星中云科技有限公司 一种基于飞腾平台的服务器掉电测试方法及装置

Also Published As

Publication number Publication date
CN111488249A (zh) 2020-08-04

Similar Documents

Publication Publication Date Title
CN106339248A (zh) 软件远程升级方法及系统
CN109728943B (zh) 故障模拟器及计算机联锁can总线通信故障测试方法
CN111506345B (zh) 一种非型闪存指令组合验证方法、系统、存储介质和终端
CN117421217B (zh) 一种软件功能自动测试方法、系统、终端及介质
CN111488249B (zh) 一种gpu掉卡恢复对训练任务影响的测试方法及装置
CN101715577A (zh) 能够执行来自模拟系统的命令和来自诊断模块的命令的电子卡及相关的模拟方法
CN112668011B (zh) 一种云容器集群的部署方法及系统
CN116680101A (zh) 一种操作系统宕机检测方法及装置、消除方法及装置
CN109408088A (zh) Cpld升级方法、装置、系统和计算机可读存储介质
CN115658409A (zh) 一种异常检测方法、装置、主机设备、系统及存储介质
US10613963B2 (en) Intelligent packet analyzer circuits, systems, and methods
CN116545961B (zh) 一种网络交换机集群智能检测方法及系统
CN112069023A (zh) 一种存储链路监控系统及方法
CN112231170B (zh) 一种数据交互卡监管方法、系统、终端及存储介质
CN111552263B (zh) 用于检查工业设施的方法、计算机可读存储介质和系统
CN111444032A (zh) 一种计算机系统故障修复方法、系统及设备
CN106021056A (zh) 一种Arinc429通信芯片自动测试系统及测试方法
CN111986707B (zh) 一种磁盘链路异常处理测试方法及装置
CN115408217A (zh) 一种Riser卡PG信号异常测试方法、装置、终端及存储介质
CN115312115B (zh) 闪存芯片挂起功能的验证方法、装置、设备及介质
CN115952080B (zh) 一种agent极限情况稳定性测试方法及装置
CN112172875A (zh) 列车自动控制系统运行故障分析方法及装置
CN117349096A (zh) 一种调试服务器的方法、装置、设备及介质
CN110471684A (zh) 可检验可靠性的升级验证方法及系统
CN115525493A (zh) 一种外设设备测试的方法、装置、电子设备以及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant