CN109815075B - 一种gpgpu链结速度的检测方法及装置 - Google Patents

一种gpgpu链结速度的检测方法及装置 Download PDF

Info

Publication number
CN109815075B
CN109815075B CN201910150799.5A CN201910150799A CN109815075B CN 109815075 B CN109815075 B CN 109815075B CN 201910150799 A CN201910150799 A CN 201910150799A CN 109815075 B CN109815075 B CN 109815075B
Authority
CN
China
Prior art keywords
link speed
gpgpu
detection
actual
idle
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910150799.5A
Other languages
English (en)
Other versions
CN109815075A (zh
Inventor
蔡顺承
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Suzhou Inspur Intelligent Technology Co Ltd
Original Assignee
Suzhou Inspur Intelligent Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Suzhou Inspur Intelligent Technology Co Ltd filed Critical Suzhou Inspur Intelligent Technology Co Ltd
Priority to CN201910150799.5A priority Critical patent/CN109815075B/zh
Publication of CN109815075A publication Critical patent/CN109815075A/zh
Application granted granted Critical
Publication of CN109815075B publication Critical patent/CN109815075B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Debugging And Monitoring (AREA)

Abstract

本发明公开了一种GPGPU链结速度的检测方法,该方法通过检测脚本监控GPGPU的运行状态;当GPGPU处于不同状态时,利用检测脚本中的不同检测逻辑检测GPGPU当前状态下的实际链结速度,并将检测到的实际链结速度与预先存储的参考链结速度进行对比,若二者一致,则表明当前状态下的实际链结速度正常,则将当前状态下的链结速度标记为正常。整个检测过程通过检测脚本完成,无需人工干预,因此能够节约人力,提高检测效率,且检测脚本的自动检测过程避免了人工检测的错漏,能够提高检测结果的准确性。相应地,本发明公开的一种GPGPU链结速度的检测装置、设备及可读存储介质,也同样具有上述技术效果。

Description

一种GPGPU链结速度的检测方法及装置
技术领域
本发明涉及计算机技术领域,更具体地说,涉及一种GPGPU链结速度的检测方法、装置、设备及可读存储介质。
背景技术
GPGPU(General-purpose computing on graphics processingunits,简称GPGPU)即通用图形处理器,其一般用于计算原本由中央处理器处理的通用计算任务,以此提高计算效率。
GPGPU作为一种高效能运算产品,整体瓦数一般较高,为了实现节能,GPGPU在开机状态、加压状态和闲置状态分别对应有不同的链结速度,即开机链结速度、加压链结速度和闲置链结速度。链结速度即为GPGPU与CPU之间的数据传输速度。请参见图8,GPGPU0与CPU0通过Gen3x16PCI Express连接,因此GPGPU0的链结速度即为GPGPU0与CPU0通过Gen3x16PCIExpress的传输数据的速度。
为了确定连接有GPGPU的系统的稳定性,需要时常检测GPGPU在开机状态、加压状态和闲置状态下分别对应的链结速度。在现有技术中,一般由工作人员在GPGPU的不同运行状态下手动检测链结速度,而后对检测到的链结速度进行记录,以便确定检测到的链结速度是否正常。而GPGPU链结速度的检测工作需要工作人员具有丰富的专业知识和工作经验,因此经过培训的专业技术人员才能胜任此工作;手动检测的过程比较繁琐,检测时间一般较长,从而导致检测效率低下;且人工检测过程不免会出现错漏,无法保障检测结果的准确性。故现有技术对于GPGPU链结速度的检测方式的检测效率较低,也无法保障检测结果的准确性。
因此,如何提高GPGPU链结速度的检测效率和准确率,是本领域技术人员需要解决的问题。
发明内容
本发明的目的在于提供一种GPGPU链结速度的检测方法、装置、设备及可读存储介质,以提高GPGPU链结速度的检测效率和准确率。
为实现上述目的,本发明实施例提供了如下技术方案:
一种GPGPU链结速度的检测方法,包括:
通过预设的检测脚本监控GPGPU的运行状态;
当所述GPGPU处于开机状态时,利用所述检测脚本中的第一检测逻辑检测所述GPGPU的实际开机链结速度;判断所述实际开机链结速度与预先存储的所述GPGPU的参考开机链结速度是否一致;若是,则将所述GPGPU的开机链结速度标记为正常;
当所述GPGPU处于加压状态时,利用所述检测脚本中的第二检测逻辑检测所述GPGPU的实际加压链结速度;判断所述实际加压链结速度与预先存储的所述GPGPU的参考加压链结速度是否一致;若是,则将所述GPGPU的加压链结速度标记为正常;
当所述GPGPU处于闲置状态时,利用所述检测脚本中的第三检测逻辑检测所述GPGPU的实际闲置链结速度;判断所述实际闲置链结速度与预先存储的所述GPGPU的参考闲置链结速度是否一致;若是,则将所述GPGPU的闲置链结速度标记为正常。
其中,当所述实际开机链结速度与所述参考开机链结速度不一致时,还包括:
将所述GPGPU的开机链结速度标记为异常。
其中,当所述实际加压链结速度与所述参考加压链结速度不一致时,还包括:
将所述GPGPU的加压链结速度标记为异常。
其中,当所述实际闲置链结速度与所述参考闲置链结速度不一致时,还包括:
将所述GPGPU的闲置链结速度标记为异常。
其中,还包括:
当所述GPGPU的开机链结速度、加压链结速度和闲置链结速度均正常时,确定所述GPGPU的链结速度检测成功,并记录检测成功的次数;
当所述检测成功的次数超过预设的阈值时,输出所述GPGPU的链结速度检测通过的提示信息。
其中,还包括:
当所述检测成功的次数未超过预设的阈值,且所述GPGPU重新开机时,通过所述检测脚本中的所述第一检测逻辑、所述第二检测逻辑和所述第三检测逻辑重新检测所述GPGPU的开机链结速度、加压链结速度和闲置链结速度。
一种GPGPU链结速度的检测装置,包括:
监控模块,用于通过预设的检测脚本监控GPGPU的运行状态;
第一检测模块,用于当所述GPGPU处于开机状态时,利用所述检测脚本中的第一检测逻辑检测所述GPGPU的实际开机链结速度;判断所述实际开机链结速度与预先存储的所述GPGPU的参考开机链结速度是否一致;若是,则将所述GPGPU的开机链结速度标记为正常;
第二检测模块,用于当所述GPGPU处于加压状态时,利用所述检测脚本中的第二检测逻辑检测所述GPGPU的实际加压链结速度;判断所述实际加压链结速度与预先存储的所述GPGPU的参考加压链结速度是否一致;若是,则将所述GPGPU的加压链结速度标记为正常;
第三检测模块,用于当所述GPGPU处于闲置状态时,利用所述检测脚本中的第三检测逻辑检测所述GPGPU的实际闲置链结速度;判断所述实际闲置链结速度与预先存储的所述GPGPU的参考闲置链结速度是否一致;若是,则将所述GPGPU的闲置链结速度标记为正常。
其中,还包括:
记录模块,用于当所述GPGPU的开机链结速度、加压链结速度和闲置链结速度均正常时,确定所述GPGPU的链结速度检测成功,并记录检测成功的次数;
输出模块,用于当所述检测成功的次数超过预设的阈值时,输出所述GPGPU的链结速度检测通过的提示信息。
一种GPGPU链结速度的检测设备,包括:
存储器,用于存储计算机程序;
处理器,用于执行所述计算机程序时实现上述任意一项所述的GPGPU链结速度的检测方法的步骤。
一种可读存储介质,所述可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现上述任意一项所述的GPGPU链结速度的检测方法的步骤。
通过以上方案可知,本发明实施例提供的一种GPGPU链结速度的检测方法,包括:通过预设的检测脚本监控GPGPU的运行状态;当所述GPGPU处于开机状态时,利用所述检测脚本中的第一检测逻辑检测所述GPGPU的实际开机链结速度;判断所述实际开机链结速度与预先存储的所述GPGPU的参考开机链结速度是否一致;若是,则将所述GPGPU的开机链结速度标记为正常;当所述GPGPU处于加压状态时,利用所述检测脚本中的第二检测逻辑检测所述GPGPU的实际加压链结速度;判断所述实际加压链结速度与预先存储的所述GPGPU的参考加压链结速度是否一致;若是,则将所述GPGPU的加压链结速度标记为正常;当所述GPGPU处于闲置状态时,利用所述检测脚本中的第三检测逻辑检测所述GPGPU的实际闲置链结速度;判断所述实际闲置链结速度与预先存储的所述GPGPU的参考闲置链结速度是否一致;若是,则将所述GPGPU的闲置链结速度标记为正常。
可见,所述方法通过检测脚本监控GPGPU的运行状态;当GPGPU处于不同状态时,利用检测脚本中的不同检测逻辑检测GPGPU当前状态下的实际链结速度,并进一步将检测到的实际链结速度与预先存储的参考链结速度进行对比,若二者一致,则表明当前状态下的实际链结速度正常,则将当前状态下的链结速度标记为正常。整个检测过程通过检测脚本完成,无需人工干预,因此能够节约人力,提高检测效率,且检测脚本的自动检测过程避免了人工检测的错漏,能够提高检测结果的准确性。
相应地,本发明实施例提供的一种GPGPU链结速度的检测装置、设备及可读存储介质,也同样具有上述技术效果。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例公开的一种GPGPU链结速度的检测方法流程图;
图2为本发明实施例公开的一种GPGPU开机链结速度的检测方法流程图;
图3为本发明实施例公开的一种GPGPU加压链结速度的检测方法流程图;
图4为本发明实施例公开的一种GPGPU闲置链结速度的检测方法流程图;
图5为本发明实施例公开的一种GPGPU链结速度的检测脚本逻辑示意图;
图6为本发明实施例公开的一种GPGPU链结速度的检测装置示意图;
图7为本发明实施例公开的一种GPGPU链结速度的检测设备示意图;
图8为本发明实施例公开的一种GPGPU与CPU连接关系示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明实施例公开了一种GPGPU链结速度的检测方法、装置、设备及可读存储介质,以提高GPGPU链结速度的检测效率和准确率。
参见图1,本发明实施例提供的一种GPGPU链结速度的检测方法,包括:
S101、通过预设的检测脚本监控GPGPU的运行状态;当GPGPU处于开机状态时,执行S102;当GPGPU处于加压状态时,执行S103;当GPGPU处于闲置状态时,执行S104;
其中,检测链结速度可采用lspci命令实现。也就是说,在检测脚本中,一般可采用lspci命令检测链结速度。
S102、利用检测脚本中的第一检测逻辑检测GPGPU的实际开机链结速度;判断实际开机链结速度与预先存储的GPGPU的参考开机链结速度是否一致;若是,则将GPGPU的开机链结速度标记为正常;
S103、利用检测脚本中的第二检测逻辑检测GPGPU的实际加压链结速度;判断实际加压链结速度与预先存储的GPGPU的参考加压链结速度是否一致;若是,则将GPGPU的加压链结速度标记为正常;
若需要测试该检测脚本,可通过CUDA工具包对GPGPU进行加压。
S104、利用检测脚本中的第三检测逻辑检测GPGPU的实际闲置链结速度;判断实际闲置链结速度与预先存储的GPGPU的参考闲置链结速度是否一致;若是,则将GPGPU的闲置链结速度标记为正常。
具体的,为了便于管理各个参考链结速度,可将参考开机链结速度、参考加压链结速度、参考闲置链结速度预先存储至预先建立的文件,形成基线对照档。参考开机链结速度、参考加压链结速度、参考闲置链结速度可在GPGPU开启启动时,从GPGPU连接的系统的存储介质中获得。
可见,本实施例提供了一种GPGPU链结速度的检测方法,所述方法通过检测脚本监控GPGPU的运行状态;当GPGPU处于不同状态时,利用检测脚本中的不同检测逻辑检测GPGPU当前状态下的实际链结速度,并进一步将检测到的实际链结速度与预先存储的参考链结速度进行对比,若二者一致,则表明当前状态下的实际链结速度正常,则将当前状态下的链结速度标记为正常。整个检测过程通过检测脚本完成,无需人工干预,因此能够节约人力,提高检测效率,且检测脚本的自动检测过程避免了人工检测的错漏,能够提高检测结果的准确性。
本发明实施例公开了另一种GPGPU链结速度的检测方法,相对于上一实施例,本实施例对技术方案作了进一步的说明和优化。本发明实施例提供了另一种GPGPU链结速度的检测方法,包括:GPGPU开机链结速度检测方法、GPGPU加压链结速度检测方法和GPGPU闲置链结速度检测方法。
请参见图2,图2为本发明实施例提供的一种GPGPU开机链结速度检测方法,包括:
S201、当GPGPU处于开机状态时,利用检测脚本中的第一检测逻辑检测GPGPU的实际开机链结速度;
S202、判断实际开机链结速度与预先存储的GPGPU的参考开机链结速度是否一致;若是,则执行S203;若否,则执行S204;
S203、将GPGPU的开机链结速度标记为正常;
S204、将GPGPU的开机链结速度标记为异常。
请参见图3,图3为本发明实施例提供的一种GPGPU加压链结速度检测方法,包括:
S301、当GPGPU处于加压状态时,利用检测脚本中的第二检测逻辑检测GPGPU的实际加压链结速度;
S302、判断实际加压链结速度与预先存储的GPGPU的参考加压链结速度是否一致;若是,则执行S303;若否,则执行S304;
S303、将GPGPU的加压链结速度标记为正常;
S304、将GPGPU的加压链结速度标记为异常。
请参见图4,图4为本发明实施例提供的一种GPGPU闲置链结速度检测方法,包括:
S401、当GPGPU处于闲置状态时,利用检测脚本中的第三检测逻辑检测GPGPU的实际闲置链结速度;
S402、判断实际闲置链结速度与预先存储的GPGPU的参考闲置链结速度是否一致;若是,则执行S403;若否,则执行S404;
S403、将GPGPU的闲置链结速度标记为正常;
S404、将GPGPU的闲置链结速度标记为异常。
需要说明的是,GPGPU开机链结速度检测方法对应第一检测逻辑,GPGPU加压链结速度检测方法对应第二检测逻辑,GPGPU闲置链结速度检测方法对应第三检测逻辑。GPGPU开机链结速度检测方法、GPGPU加压链结速度检测方法和GPGPU闲置链结速度检测方法是三个独立的检测方法,三者之间一般没有关联关系。但在实际应用过程中,可以将检测脚本中的检测逻辑设计为串联关系,具体请参见图5,图5所示的检测脚本与GPGPU的工作流程相匹配。因为一般GPGPU的工作流程为:开机启动,加压工作和降压闲置,因此检测脚本中的第一检测逻辑、第二检测逻辑和第三检测逻辑可以设计为如图5所示的串联关系。
在图5中,OS表示GPGPU的软件系统,RunMe.sh为检测脚本的名称。为了多次检测GPGPU在不同状态下的链结速度,图5所示的检测脚本采用了回圈测试法,测试次数设置为100次。其中,在检测过程中,若检测到任意实际链接速度异常,则会中断该检测脚本的运行。
具体的,检测脚本RunMe.sh设定为OS开机自动登入,GPGPU启动后自动运行。参考开机链结速度、参考加压链结速度、参考闲置链结速度可预先存入基线对照档。检测脚本可写入/root/.bash_profile路径。
若GPGPU实际链结速度与基线对照档中的参考链结速度不一致,则停止运行脚本,并判定此次检测失败;若在100次测试中,三种状态下的实际链结速度与基线对照档中的参考链结速度均一致,则GPGPU链结速度检测通过。
可见,本实施例提供了一种GPGPU链结速度的检测方法,所述方法细分为GPGPU开机链结速度检测方法、GPGPU加压链结速度检测方法和GPGPU闲置链结速度检测方法。GPGPU开机链结速度检测方法对应第一检测逻辑,GPGPU加压链结速度检测方法对应第二检测逻辑,GPGPU闲置链结速度检测方法对应第三检测逻辑。当GPGPU处于不同状态时,利用检测脚本中的不同检测逻辑检测GPGPU当前状态下的实际链结速度,并进一步将检测到的实际链结速度与预先存储的参考链结速度进行对比,若二者一致,则表明当前状态下的实际链结速度正常,则将当前状态下的链结速度标记为正常。整个检测过程通过检测脚本完成,无需人工干预,因此能够节约人力,提高检测效率,且检测脚本的自动检测过程避免了人工检测的错漏,能够提高检测结果的准确性。
基于上述任意实施例,需要说明的是,还包括:
当所述GPGPU的开机链结速度、加压链结速度和闲置链结速度均正常时,确定所述GPGPU的链结速度检测成功,并记录检测成功的次数;
当所述检测成功的次数超过预设的阈值时,输出所述GPGPU的链结速度检测通过的提示信息。
其中,还包括:
当所述检测成功的次数未超过预设的阈值,且所述GPGPU重新开机时,通过所述检测脚本中的所述第一检测逻辑、所述第二检测逻辑和所述第三检测逻辑重新检测所述GPGPU的开机链结速度、加压链结速度和闲置链结速度。
具体的,为了确定连接有GPGPU的系统的稳定性,需要多次检测GPGPU在不同状态下的链结速度,因此在GPGPU每次开机后,都通过预设的检测脚本中的第一检测逻辑、第二检测逻辑和第三检测逻辑检测GPGPU的开机链结速度、加压链结速度和闲置链结速度,以便获得足够的可靠数据。若多次检测均表明GPGPU的链结速度正常,则表明当前系统的稳定性较高;若多次检测均表明GPGPU的链结速度存在异常,则表明当前系统的稳定性有待提高,那么技术人员便可以对当前系统进行优化,并排查是否存在故障。
当然,在GPGPU从开机启动到关机的过程中,可以根据GPGPU的运行状态,多次检测GPGPU的实际链结速度并进行对此。即:在GPGPU从开机启动到关机的过程中,每个运行状态对应的检测次数可以不做限定。
下面对本发明实施例提供的一种GPGPU链结速度的检测装置进行介绍,下文描述的一种GPGPU链结速度的检测装置与上文描述的一种GPGPU链结速度的检测方法可以相互参照。
参见图6,本发明实施例提供的一种GPGPU链结速度的检测装置,包括:
监控模块601,用于通过预设的检测脚本监控GPGPU的运行状态;
第一检测模块602,用于当所述GPGPU处于开机状态时,利用所述检测脚本中的第一检测逻辑检测所述GPGPU的实际开机链结速度;判断所述实际开机链结速度与预先存储的所述GPGPU的参考开机链结速度是否一致;若是,则将所述GPGPU的开机链结速度标记为正常;
第二检测模块603,用于当所述GPGPU处于加压状态时,利用所述检测脚本中的第二检测逻辑检测所述GPGPU的实际加压链结速度;判断所述实际加压链结速度与预先存储的所述GPGPU的参考加压链结速度是否一致;若是,则将所述GPGPU的加压链结速度标记为正常;
第三检测模块604,用于当所述GPGPU处于闲置状态时,利用所述检测脚本中的第三检测逻辑检测所述GPGPU的实际闲置链结速度;判断所述实际闲置链结速度与预先存储的所述GPGPU的参考闲置链结速度是否一致;若是,则将所述GPGPU的闲置链结速度标记为正常。
其中,还包括:
记录模块,用于当所述GPGPU的开机链结速度、加压链结速度和闲置链结速度均正常时,确定所述GPGPU的链结速度检测成功,并记录检测成功的次数;
输出模块,用于当所述检测成功的次数超过预设的阈值时,输出所述GPGPU的链结速度检测通过的提示信息。
其中,还包括:
第一标记模块,用于当所述实际开机链结速度与所述参考开机链结速度不一致时,将所述GPGPU的开机链结速度标记为异常。
其中,还包括:
第二标记模块,用于当所述实际加压链结速度与所述参考加压链结速度不一致时,将所述GPGPU的加压链结速度标记为异常。
其中,还包括:
第三标记模块,用于当所述实际闲置链结速度与所述参考闲置链结速度不一致时,将所述GPGPU的闲置链结速度标记为异常。
其中,还包括:
当所述检测成功的次数未超过预设的阈值,且所述GPGPU重新开机时,通过所述检测脚本中的所述第一检测逻辑、所述第二检测逻辑和所述第三检测逻辑重新检测所述GPGPU的开机链结速度、加压链结速度和闲置链结速度。
可见,本实施例提供了一种GPGPU链结速度的检测装置,包括:监控模块,第一检测模块、第二检测模块以及第三检测模块。具体的,由监控模块通过预设的检测脚本监控GPGPU的运行状态;当GPGPU处于开机状态时,第一检测模块利用检测脚本中的第一检测逻辑检测GPGPU的实际开机链结速度;判断实际开机链结速度与预先存储的GPGPU的参考开机链结速度是否一致;若是,则将GPGPU的开机链结速度标记为正常;当GPGPU处于加压状态时,第二检测模块利用检测脚本中的第二检测逻辑检测GPGPU的实际加压链结速度;判断实际加压链结速度与预先存储的GPGPU的参考加压链结速度是否一致;若是,则将GPGPU的加压链结速度标记为正常;当GPGPU处于闲置状态时,第三检测模块利用检测脚本中的第三检测逻辑检测GPGPU的实际闲置链结速度;判断实际闲置链结速度与预先存储的GPGPU的参考闲置链结速度是否一致;若是,则将GPGPU的闲置链结速度标记为正常。如此各个模块之间分工合作,各司其职,从而提高了GPGPU链结速度的检测效率和准确率。
下面对本发明实施例提供的一种GPGPU链结速度的检测设备进行介绍,下文描述的一种GPGPU链结速度的检测设备与上文描述的一种GPGPU链结速度的检测方法及装置可以相互参照。
参见图7,本发明实施例提供的一种GPGPU链结速度的检测设备,包括:
存储器701,用于存储计算机程序;
处理器702,用于执行所述计算机程序时实现上述任意实施例所述的GPGPU链结速度的检测方法的步骤。
下面对本发明实施例提供的一种可读存储介质进行介绍,下文描述的一种可读存储介质与上文描述的一种GPGPU链结速度的检测方法、装置及设备可以相互参照。
一种可读存储介质,所述可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如上述任意实施例所述的GPGPU链结速度的检测方法的步骤。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims (10)

1.一种GPGPU链结速度的检测方法,其特征在于,包括:
通过预设的检测脚本监控GPGPU的运行状态;
当所述GPGPU处于开机状态时,利用所述检测脚本中的第一检测逻辑检测所述GPGPU的实际开机链结速度;判断所述实际开机链结速度与预先存储的所述GPGPU的参考开机链结速度是否一致;若是,则将所述GPGPU的开机链结速度标记为正常;
当所述GPGPU处于加压状态时,利用所述检测脚本中的第二检测逻辑检测所述GPGPU的实际加压链结速度;判断所述实际加压链结速度与预先存储的所述GPGPU的参考加压链结速度是否一致;若是,则将所述GPGPU的加压链结速度标记为正常;
当所述GPGPU处于闲置状态时,利用所述检测脚本中的第三检测逻辑检测所述GPGPU的实际闲置链结速度;判断所述实际闲置链结速度与预先存储的所述GPGPU的参考闲置链结速度是否一致;若是,则将所述GPGPU的闲置链结速度标记为正常;
其中,链结速度为GPGPU与CPU之间的数据传输速度。
2.根据权利要求1所述的GPGPU链结速度的检测方法,其特征在于,当所述实际开机链结速度与所述参考开机链结速度不一致时,还包括:
将所述GPGPU的开机链结速度标记为异常。
3.根据权利要求2所述的GPGPU链结速度的检测方法,其特征在于,当所述实际加压链结速度与所述参考加压链结速度不一致时,还包括:
将所述GPGPU的加压链结速度标记为异常。
4.根据权利要求3所述的GPGPU链结速度的检测方法,其特征在于,当所述实际闲置链结速度与所述参考闲置链结速度不一致时,还包括:
将所述GPGPU的闲置链结速度标记为异常。
5.根据权利要求1-4任意一项所述的GPGPU链结速度的检测方法,其特征在于,还包括:
当所述GPGPU的开机链结速度、加压链结速度和闲置链结速度均正常时,确定所述GPGPU的链结速度检测成功,并记录检测成功的次数;
当所述检测成功的次数超过预设的阈值时,输出所述GPGPU的链结速度检测通过的提示信息。
6.根据权利要求5所述的GPGPU链结速度的检测方法,其特征在于,还包括:
当所述检测成功的次数未超过预设的阈值,且所述GPGPU重新开机时,通过所述检测脚本中的所述第一检测逻辑、所述第二检测逻辑和所述第三检测逻辑重新检测所述GPGPU的开机链结速度、加压链结速度和闲置链结速度。
7.一种GPGPU链结速度的检测装置,其特征在于,包括:
监控模块,用于通过预设的检测脚本监控GPGPU的运行状态;
第一检测模块,用于当所述GPGPU处于开机状态时,利用所述检测脚本中的第一检测逻辑检测所述GPGPU的实际开机链结速度;判断所述实际开机链结速度与预先存储的所述GPGPU的参考开机链结速度是否一致;若是,则将所述GPGPU的开机链结速度标记为正常;
第二检测模块,用于当所述GPGPU处于加压状态时,利用所述检测脚本中的第二检测逻辑检测所述GPGPU的实际加压链结速度;判断所述实际加压链结速度与预先存储的所述GPGPU的参考加压链结速度是否一致;若是,则将所述GPGPU的加压链结速度标记为正常;
第三检测模块,用于当所述GPGPU处于闲置状态时,利用所述检测脚本中的第三检测逻辑检测所述GPGPU的实际闲置链结速度;判断所述实际闲置链结速度与预先存储的所述GPGPU的参考闲置链结速度是否一致;若是,则将所述GPGPU的闲置链结速度标记为正常;
其中,链结速度为GPGPU与CPU之间的数据传输速度。
8.根据权利要求7所述的GPGPU链结速度的检测装置,其特征在于,还包括:
记录模块,用于当所述GPGPU的开机链结速度、加压链结速度和闲置链结速度均正常时,确定所述GPGPU的链结速度检测成功,并记录检测成功的次数;
输出模块,用于当所述检测成功的次数超过预设的阈值时,输出所述GPGPU的链结速度检测通过的提示信息。
9.一种GPGPU链结速度的检测设备,其特征在于,包括:
存储器,用于存储计算机程序;
处理器,用于执行所述计算机程序时实现如权利要求1-6任意一项所述的GPGPU链结速度的检测方法的步骤。
10.一种可读存储介质,其特征在于,所述可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1-6任意一项所述的GPGPU链结速度的检测方法的步骤。
CN201910150799.5A 2019-02-28 2019-02-28 一种gpgpu链结速度的检测方法及装置 Active CN109815075B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910150799.5A CN109815075B (zh) 2019-02-28 2019-02-28 一种gpgpu链结速度的检测方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910150799.5A CN109815075B (zh) 2019-02-28 2019-02-28 一种gpgpu链结速度的检测方法及装置

Publications (2)

Publication Number Publication Date
CN109815075A CN109815075A (zh) 2019-05-28
CN109815075B true CN109815075B (zh) 2020-07-03

Family

ID=66607799

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910150799.5A Active CN109815075B (zh) 2019-02-28 2019-02-28 一种gpgpu链结速度的检测方法及装置

Country Status (1)

Country Link
CN (1) CN109815075B (zh)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105302687A (zh) * 2015-12-10 2016-02-03 浪潮电子信息产业股份有限公司 一种基于linux下的硬盘盘序检测方法
CN105808400A (zh) * 2016-04-01 2016-07-27 浪潮电子信息产业股份有限公司 一种易应用的服务器老化测试方法
CN105959175A (zh) * 2016-04-21 2016-09-21 南开大学 基于GPU加速的kNN算法的网络流量分类方法
US9558094B2 (en) * 2014-05-12 2017-01-31 Palo Alto Research Center Incorporated System and method for selecting useful smart kernels for general-purpose GPU computing
US10146666B1 (en) * 2017-08-29 2018-12-04 Facebook, Inc. Systems and methods for improving comparative performance test results of mobile applications
CN109194533A (zh) * 2018-07-16 2019-01-11 上证所信息网络有限公司 数据传输延迟的测评方法及装置

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102541679B (zh) * 2011-12-30 2014-02-26 曙光信息产业股份有限公司 一种用于测试gpu卡的方法和系统
CN104268046A (zh) * 2014-10-17 2015-01-07 浪潮电子信息产业股份有限公司 一种Linux下人工交互的NVIDIA GPU自动化测试方法
CN109376029B (zh) * 2018-09-27 2021-11-19 郑州云海信息技术有限公司 一种scsi硬盘异常超时的处理方法及处理系统
CN109582519A (zh) * 2018-12-06 2019-04-05 郑州云海信息技术有限公司 一种服务器GPU设备powercycle稳定性测试方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9558094B2 (en) * 2014-05-12 2017-01-31 Palo Alto Research Center Incorporated System and method for selecting useful smart kernels for general-purpose GPU computing
CN105302687A (zh) * 2015-12-10 2016-02-03 浪潮电子信息产业股份有限公司 一种基于linux下的硬盘盘序检测方法
CN105808400A (zh) * 2016-04-01 2016-07-27 浪潮电子信息产业股份有限公司 一种易应用的服务器老化测试方法
CN105959175A (zh) * 2016-04-21 2016-09-21 南开大学 基于GPU加速的kNN算法的网络流量分类方法
US10146666B1 (en) * 2017-08-29 2018-12-04 Facebook, Inc. Systems and methods for improving comparative performance test results of mobile applications
CN109194533A (zh) * 2018-07-16 2019-01-11 上证所信息网络有限公司 数据传输延迟的测评方法及装置

Also Published As

Publication number Publication date
CN109815075A (zh) 2019-05-28

Similar Documents

Publication Publication Date Title
US9720761B2 (en) System fault detection and processing method, device, and computer readable storage medium
CN111752776B (zh) 一种服务器的循环上下电测试方法和系统
CN106789306B (zh) 通信设备软件故障检测收集恢复方法和系统
CN104424084A (zh) 服务器的系统错误信息侦测系统及方法
CN104636221A (zh) 一种计算机系统故障处理方法和装置
US11853150B2 (en) Method and device for detecting memory downgrade error
CN110704228B (zh) 一种固态硬盘异常处理方法及系统
CN105243004A (zh) 一种故障资源检测方法及装置
CN104598340A (zh) 硬件故障的检测系统、电子装置及方法
CN111078484B (zh) 系统升级的断电测试方法、装置、设备及存储介质
CN116775141A (zh) 异常检测方法、装置、计算机设备及存储介质
CN113672306B (zh) 服务器组件自检异常恢复方法、装置、系统及介质
CN109815075B (zh) 一种gpgpu链结速度的检测方法及装置
CN102780207A (zh) 电压保护系统及方法
TW201516665A (zh) 伺服器之系統錯誤資訊偵測系統及方法
CN111124818B (zh) 一种扩展器Expander的监控方法、装置及设备
CN117055533A (zh) 一种车载系统故障处理方法、装置、设备及介质
CN112181740A (zh) 一种排除故障的方法、装置及存储介质
CN113778732A (zh) 业务板卡的故障定位方法及装置
CN107179911A (zh) 一种重启管理引擎的方法和设备
CN113868001A (zh) 一种内存修复结果的检查方法、系统及计算机存储介质
CN112165407A (zh) 一种bmc与电源模块通信的检测系统及方法
CN111352789B (zh) 一种用于服务器的交流循环测试方法、装置及存储介质
CN113836035B (zh) 电池管理系统测试方法、装置及电子设备
CN113127277B (zh) 一种设备测试方法、装置、电子设备及可读存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant