CN111488249B - 一种gpu掉卡恢复对训练任务影响的测试方法及装置 - Google Patents
一种gpu掉卡恢复对训练任务影响的测试方法及装置 Download PDFInfo
- Publication number
- CN111488249B CN111488249B CN202010306950.2A CN202010306950A CN111488249B CN 111488249 B CN111488249 B CN 111488249B CN 202010306950 A CN202010306950 A CN 202010306950A CN 111488249 B CN111488249 B CN 111488249B
- Authority
- CN
- China
- Prior art keywords
- gpu
- card
- training task
- gpu card
- recovery
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000012549 training Methods 0.000 title claims abstract description 80
- 238000011084 recovery Methods 0.000 title claims abstract description 64
- 238000012360 testing method Methods 0.000 title claims abstract description 34
- 238000000034 method Methods 0.000 title claims description 24
- 238000001514 detection method Methods 0.000 claims abstract description 12
- 238000003062 neural network model Methods 0.000 claims abstract description 9
- 238000010998 test method Methods 0.000 claims abstract description 3
- 238000004088 simulation Methods 0.000 claims description 15
- 238000012986 modification Methods 0.000 claims description 14
- 230000004048 modification Effects 0.000 claims description 14
- 238000012545 processing Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 238000003780 insertion Methods 0.000 description 1
- 230000037431 insertion Effects 0.000 description 1
- 230000003449 preventive effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/22—Detection or location of defective computer hardware by testing during standby operation or during idle time, e.g. start-up testing
- G06F11/2205—Detection or location of defective computer hardware by testing during standby operation or during idle time, e.g. start-up testing using arrangements specific to the hardware being tested
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/22—Detection or location of defective computer hardware by testing during standby operation or during idle time, e.g. start-up testing
- G06F11/2247—Verification or detection of system hardware configuration
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/22—Detection or location of defective computer hardware by testing during standby operation or during idle time, e.g. start-up testing
- G06F11/26—Functional testing
- G06F11/261—Functional testing by simulating additional hardware, e.g. fault simulation
Landscapes
- Engineering & Computer Science (AREA)
- General Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Computer Hardware Design (AREA)
- Quality & Reliability (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
- Test And Diagnosis Of Digital Computers (AREA)
Abstract
本发明公开一种GPU掉卡恢复对训练任务影响的测试方法及装置,所述训练任务为神经网络模型训练任务,运行GPU掉卡脚本,模拟GPU掉卡;检测训练任务是否停止运行;若训练任务停止运行,则运行GPU恢复脚本,模拟GPU恢复;检测训练任务是否恢复正常运行;输出训练任务是否恢复正常运行的检测结果。本发明无需人工往复插拔,避免多次插拔GPU卡对GPU卡和服务器性能的影响,并且节约测试时间。
Description
技术领域
本发明涉及GPU掉卡恢复领域,具体涉及一种GPU掉卡恢复对神经网络模型训练任务影响的测试方法及装置。
背景技术
在AI平台的各个节点上执行神经网络模型的训练任务时, 往往会出现GPU卡(Graphics Processing Unit,图形处理器)丢失等故障的情况,当节点中的某个GPU卡故障时,会导致该节点上所有的训练任务都无法正常执行。但有时工作人员将GPU恢复后,训练任务仍不能恢复正常,造成训练故障。因此,需要训练前测试GPU卡掉卡恢复后是否能保证训练任务正常恢复。目前的测试过程是直接拔掉GPU卡,多次操作,不仅对GPU卡的性能造成影响,而且需要往返实验室,浪费较多时间。
发明内容
为解决上述问题,本发明提供一种GPU掉卡恢复对训练任务影响的测试方法及装置,可自动模拟GPU掉卡和恢复,保护GPU卡,且节约测试时间。
本发明的技术方案是:一种GPU掉卡恢复对训练任务影响的测试方法,所述训练任务为神经网络模型训练任务,包括以下步骤:
运行GPU掉卡脚本,模拟GPU掉卡;
检测训练任务是否停止运行;
若训练任务停止运行,则运行GPU恢复脚本,模拟GPU恢复;
检测训练任务是否恢复正常运行;
输出训练任务是否恢复正常运行的检测结果。
进一步地,运行GPU掉卡脚本,模拟GPU掉卡,具体包括以下步骤:
发送卸载驱动命令,卸载GPU卡的驱动;
发送修改文件命令,修改GPU卡的配置文件。
进一步地,运行GPU掉卡脚本,模拟GPU掉卡,还包括以下步骤:
卸载GPU卡的驱动后,搜索GPU卡的驱动;
若搜索到GPU卡的驱动,则继续发送卸载驱动命令,卸载GPU卡的驱动;
若搜索不到GPU卡的驱动,则发送修改文件命令,修改GPU卡的配置文件,并进入下一步;
检测配置文件是否与预设配置文件不相同;
若配置文件与预设配置文件不相同,则模拟GPU掉卡成功;
若配置文件与预设配置文件相同,则继续发送修改文件命令,修改GPU卡的配置文件。
进一步地,运行GPU恢复脚本,模拟GPU恢复,具体包括以下步骤:
发送重装驱动命令,重新安装GPU卡的驱动;
发送重配文件命令,重新配置GPU卡的配置文件。
进一步地,运行GPU恢复脚本,模拟GPU恢复,还包括以下步骤:
搜索GPU卡的驱动,并检测配置文件是否与预设配置文件相同;
若搜索到GPU卡的驱动,且配置文件与预设配置文件相同,则模拟GPU恢复成功;
否则,模拟GPU卡恢复不成功,继续运行GPU恢复脚本,模拟GPU恢复。
进一步地,该方法还包括以下步骤:
模拟GPU掉卡后,若检测训练任务未停止运行,则输出训练任务未停止运行提示,并停止测试。
本发明的技术方案还包括一种GPU掉卡恢复对训练任务影响的测试装置,所述训练任务为神经网络模型训练任务,包括,
模拟掉卡模块:运行GPU掉卡脚本,模拟GPU掉卡;
模拟恢复模块:运行GPU恢复脚本,模拟GPU恢复;
检测平台运行模块:检测训练任务运行状态;
结果输出模块:输出训练任务是否恢复正常运行的检测结果。
进一步地,模拟掉卡模块包括,
卸载驱动单元:发送卸载驱动命令,卸载GPU卡的驱动;
修改文件单元:发送修改文件命令,修改GPU卡的配置文件。
进一步地,模拟恢复模块包括,
重装驱动单元:发送重装驱动命令,重新安装GPU卡的驱动;
重配文件单元:发送重配文件命令,重新配置GPU卡的配置文件。
进一步地,该装置还包括,
输出提示模块:模拟GPU掉卡后,若检测训练任务未停止运行,则输出训练任务未停止运行提示。
本发明提供的一种GPU掉卡恢复对训练任务影响的测试方法及装置,通过测试脚本自动模拟GPU掉卡和恢复,在成功模拟后检测训练任务状态。具体可通过自动卸载重置GPU卡驱动和自动修改重置配置文件的方式模拟GPU掉卡和恢复,无需人工往复插拔,避免多次插拔GPU卡对GPU卡和服务器性能的影响,并且节约测试时间。
附图说明
图1是本发明具体实施例一方法流程示意图;
图2是本发明具体实施例一模拟GPU掉卡方法流程示意图;
图3是本发明具体实施例二结构示意框图。
具体实施方式
下面结合附图并通过具体实施例对本发明进行详细阐述,以下实施例是对本发明的解释,而本发明并不局限于以下实施方式。
实施例一
如图1所示,本实施例提供一种GPU掉卡恢复对训练任务影响的测试方法,该训练任务为神经网络模型训练任务,可自动模拟GPU掉卡和恢复,包括以下步骤:
S1,运行GPU掉卡脚本,模拟GPU掉卡;
S2,检测训练任务是否停止运行;
S3,若训练任务停止运行,则运行GPU恢复脚本,模拟GPU恢复;
S4,检测训练任务是否恢复正常运行;
S5,输出训练任务是否恢复正常运行的检测结果。
若训练任务恢复正常运行,则GPU掉卡再恢复后对训练任务无影响,可在恢复后正常运行,否则不能正常运行,需要工作人员更换GPU卡或做其他预防操作。本方法通过测试脚本自动模拟GPU掉卡和恢复,可自动重复多次,无需直接拔掉GPU卡,避免多次插拔对GPU卡和服务器的影响,并节省测试时间。
优选地,本实施例通过卸载重装驱动和修改重置配置文件模拟GPU卡的掉卡和恢复,操作简单,且测试高效。
具体地,上述步骤S1包括以下步骤:
发送卸载驱动命令,卸载GPU卡的驱动;
发送修改文件命令,修改GPU卡的配置文件。
如图2所示,为保证可成功模拟GPU掉卡,避免后续测试失效,步骤S1优选实施过程可包括以下步骤:
S101,发送卸载驱动命令,卸载GPU卡的驱动;
S102, 搜索GPU卡的驱动;
S103,若搜索到GPU卡的驱动,则返回步骤S101,否则进入下一步;
S104,发送修改文件命令,修改GPU卡的配置文件;
S105,检测配置文件是否与预设配置文件不相同;
S106,若配置文件与预设配置文件不相同,则模拟GPU掉卡成功;若配置文件与预设配置文件相同,则返回步骤S104。
需要说明的是,可预设卸载驱动和修改配置文件次数,若超过预设次数后,仍不能成功卸载或修改,可终止测试并发出提示。
本实施例中,修改配置文件可为增加一条GPU卡数的信息,当然也可以是其他修改方式,保证配置文件不与预设配置文件相同即可。
在以上模拟GPU掉卡的基础上,本实施例步骤S3中模拟GPU卡恢复,相应可通过重装驱动和重置文件的方式实现。
步骤S3运行GPU恢复脚本,模拟GPU恢复,具体包括:
发送重装驱动命令,重新安装GPU卡的驱动;
发送重配文件命令,重新配置GPU卡的配置文件。
同样,应检测是否能成功模拟恢复,在重新安装GPU卡的驱动和重新配置GPU卡的配置文件后,实施以下步骤:
搜索GPU卡的驱动,并检测配置文件是否与预设配置文件相同;
若搜索到GPU卡的驱动,且配置文件与预设配置文件相同,则模拟GPU恢复成功;
否则,模拟GPU卡恢复不成功,继续运行GPU恢复脚本,模拟GPU恢复。
需要说明的是,可预设运行GPU恢复脚本次数,若超过预设次数后,仍不能成功模拟GPU卡恢复,可终止测试,发出提示。另外,在发送重装驱动命令,重新安装GPU卡的驱动可将掉卡节点重启,安装GPU卡驱动之后,重置配置文件之前再次重启节点,以避免后续不能正确搜索到驱动和检测到配置文件。
本实施例中,步骤S2检测训练任务是否停止运行,若检测训练任务未停止运行,则输出训练任务未停止运行提示,并停止测试。可避免后续测试有误。
实施例二
如图3所示,本实施例提供一种GPU掉卡恢复对训练任务影响的测试装置,训练任务为神经网络模型训练任务,包括以下功能模块:
模拟掉卡模块11:运行GPU掉卡脚本,模拟GPU掉卡;
模拟恢复模块12:运行GPU恢复脚本,模拟GPU恢复;
检测平台运行模块13:检测训练任务运行状态;
结果输出模块14:输出训练任务是否恢复正常运行的检测结果。
需要说明的是,检测平台运行模块13所检测训练任务运行状态是指训练任务是否停止或正常运行。
本实施例通过卸载驱动和修改配置文件的方式模拟掉卡,模拟掉卡模块11包括以下功能单元:
卸载驱动单元:发送卸载驱动命令,卸载GPU卡的驱动;
修改文件单元:发送修改文件命令,修改GPU卡的配置文件。
卸载GPU卡的驱动并修改GPU卡的配置文件,可成功模拟GPU掉卡。
相应地,本实施例通过重装驱动和重置配置文件的方式模拟恢复,模拟恢复模块12具体包括以下功能单元:
重装驱动单元:发送重装驱动命令,重新安装GPU卡的驱动;
重配文件单元:发送重配文件命令,重新配置GPU卡的配置文件。
本实施例还设置输出提示模块15,用于模拟GPU掉卡后,若检测训练任务未停止运行,则输出训练任务未停止运行提示。给工作人员相关提示,便于解决测试问题。
以上公开的仅为本发明的优选实施方式,但本发明并非局限于此,任何本领域的技术人员能思之的没有创造性的变化,以及在不脱离本发明原理前提下所作的若干改进和润饰,都应落在本发明的保护范围内。
Claims (8)
1.一种GPU掉卡恢复对训练任务影响的测试方法,所述训练任务为神经网络模型训练任务,其特征在于,包括以下步骤:
运行GPU掉卡脚本,模拟GPU掉卡,具体包括:发送卸载驱动命令,卸载GPU卡的驱动;发送修改文件命令,修改GPU卡的配置文件;
检测训练任务是否停止运行;
若训练任务停止运行,则运行GPU恢复脚本,模拟GPU恢复;
检测训练任务是否恢复正常运行;
输出训练任务是否恢复正常运行的检测结果。
2.根据权利要求1所述的GPU掉卡恢复对训练任务影响的测试方法,其特征在于,运行GPU掉卡脚本,模拟GPU掉卡,还包括以下步骤:
卸载GPU卡的驱动后,搜索GPU卡的驱动;
若搜索到GPU卡的驱动,则继续发送卸载驱动命令,卸载GPU卡的驱动;
若搜索不到GPU卡的驱动,则发送修改文件命令,修改GPU卡的配置文件,并进入下一步;
检测配置文件是否与预设配置文件不相同;
若配置文件与预设配置文件不相同,则模拟GPU掉卡成功;
若配置文件与预设配置文件相同,则继续发送修改文件命令,修改GPU卡的配置文件。
3.根据权利要求1或2所述的GPU掉卡恢复对训练任务影响的测试方法,其特征在于,运行GPU恢复脚本,模拟GPU恢复,具体包括以下步骤:
发送重装驱动命令,重新安装GPU卡的驱动;
发送重配文件命令,重新配置GPU卡的配置文件。
4.根据权利要求3所述的GPU掉卡恢复对训练任务影响的测试方法,其特征在于,运行GPU恢复脚本,模拟GPU恢复,还包括以下步骤:
搜索GPU卡的驱动,并检测配置文件是否与预设配置文件相同;
若搜索到GPU卡的驱动,且配置文件与预设配置文件相同,则模拟GPU恢复成功;
否则,模拟GPU卡恢复不成功,继续运行GPU恢复脚本,模拟GPU恢复。
5.根据权利要求1或2所述的GPU掉卡恢复对训练任务影响的测试方法,其特征在于,该方法还包括以下步骤:
模拟GPU掉卡后,若检测训练任务未停止运行,则输出训练任务未停止运行提示,并停止测试。
6.一种GPU掉卡恢复对训练任务影响的测试装置,所述训练任务为神经网络模型训练任务,其特征在于,包括,
模拟掉卡模块:运行GPU掉卡脚本,模拟GPU掉卡;
模拟恢复模块:运行GPU恢复脚本,模拟GPU恢复;
检测平台运行模块:检测训练任务运行状态;
结果输出模块:输出训练任务是否恢复正常运行的检测结果;
其中,模拟掉卡模块包括,
卸载驱动单元:发送卸载驱动命令,卸载GPU卡的驱动;
修改文件单元:发送修改文件命令,修改GPU卡的配置文件。
7.根据权利要求6所述的GPU掉卡恢复对训练任务影响的测试装置,其特征在于,模拟恢复模块包括,
重装驱动单元:发送重装驱动命令,重新安装GPU卡的驱动;
重配文件单元:发送重配文件命令,重新配置GPU卡的配置文件。
8.根据权利要求6或7所述的GPU掉卡恢复对训练任务影响的测试装置,其特征在于,该装置还包括,
输出提示模块:模拟GPU掉卡后,若检测训练任务未停止运行,则输出训练任务未停止运行提示。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010306950.2A CN111488249B (zh) | 2020-04-17 | 2020-04-17 | 一种gpu掉卡恢复对训练任务影响的测试方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010306950.2A CN111488249B (zh) | 2020-04-17 | 2020-04-17 | 一种gpu掉卡恢复对训练任务影响的测试方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111488249A CN111488249A (zh) | 2020-08-04 |
CN111488249B true CN111488249B (zh) | 2023-01-10 |
Family
ID=71794915
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010306950.2A Active CN111488249B (zh) | 2020-04-17 | 2020-04-17 | 一种gpu掉卡恢复对训练任务影响的测试方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111488249B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113438470B (zh) * | 2021-06-18 | 2022-12-09 | 苏州浪潮智能科技有限公司 | 视频转码器掉卡模拟测试方法、装置、终端及存储介质 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103678067A (zh) * | 2013-12-19 | 2014-03-26 | 大唐微电子技术有限公司 | 一种智能卡掉电测试方法、测试设备和被测设备 |
CN108614754A (zh) * | 2018-08-17 | 2018-10-02 | 北京航星中云科技有限公司 | 一种基于飞腾平台的服务器掉电测试方法及装置 |
-
2020
- 2020-04-17 CN CN202010306950.2A patent/CN111488249B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103678067A (zh) * | 2013-12-19 | 2014-03-26 | 大唐微电子技术有限公司 | 一种智能卡掉电测试方法、测试设备和被测设备 |
CN108614754A (zh) * | 2018-08-17 | 2018-10-02 | 北京航星中云科技有限公司 | 一种基于飞腾平台的服务器掉电测试方法及装置 |
Also Published As
Publication number | Publication date |
---|---|
CN111488249A (zh) | 2020-08-04 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106339248A (zh) | 软件远程升级方法及系统 | |
CN109728943B (zh) | 故障模拟器及计算机联锁can总线通信故障测试方法 | |
CN111506345B (zh) | 一种非型闪存指令组合验证方法、系统、存储介质和终端 | |
CN117421217B (zh) | 一种软件功能自动测试方法、系统、终端及介质 | |
CN111488249B (zh) | 一种gpu掉卡恢复对训练任务影响的测试方法及装置 | |
CN101715577A (zh) | 能够执行来自模拟系统的命令和来自诊断模块的命令的电子卡及相关的模拟方法 | |
CN112668011B (zh) | 一种云容器集群的部署方法及系统 | |
CN116680101A (zh) | 一种操作系统宕机检测方法及装置、消除方法及装置 | |
CN109408088A (zh) | Cpld升级方法、装置、系统和计算机可读存储介质 | |
CN115658409A (zh) | 一种异常检测方法、装置、主机设备、系统及存储介质 | |
US10613963B2 (en) | Intelligent packet analyzer circuits, systems, and methods | |
CN116545961B (zh) | 一种网络交换机集群智能检测方法及系统 | |
CN112069023A (zh) | 一种存储链路监控系统及方法 | |
CN112231170B (zh) | 一种数据交互卡监管方法、系统、终端及存储介质 | |
CN111552263B (zh) | 用于检查工业设施的方法、计算机可读存储介质和系统 | |
CN111444032A (zh) | 一种计算机系统故障修复方法、系统及设备 | |
CN106021056A (zh) | 一种Arinc429通信芯片自动测试系统及测试方法 | |
CN111986707B (zh) | 一种磁盘链路异常处理测试方法及装置 | |
CN115408217A (zh) | 一种Riser卡PG信号异常测试方法、装置、终端及存储介质 | |
CN115312115B (zh) | 闪存芯片挂起功能的验证方法、装置、设备及介质 | |
CN115952080B (zh) | 一种agent极限情况稳定性测试方法及装置 | |
CN112172875A (zh) | 列车自动控制系统运行故障分析方法及装置 | |
CN117349096A (zh) | 一种调试服务器的方法、装置、设备及介质 | |
CN110471684A (zh) | 可检验可靠性的升级验证方法及系统 | |
CN115525493A (zh) | 一种外设设备测试的方法、装置、电子设备以及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |