CN112069006B - 一种检测分析gpu速率状态的方法、装置及计算机可读介质 - Google Patents

一种检测分析gpu速率状态的方法、装置及计算机可读介质 Download PDF

Info

Publication number
CN112069006B
CN112069006B CN202010890085.0A CN202010890085A CN112069006B CN 112069006 B CN112069006 B CN 112069006B CN 202010890085 A CN202010890085 A CN 202010890085A CN 112069006 B CN112069006 B CN 112069006B
Authority
CN
China
Prior art keywords
gpu
rate
current
rate switching
text file
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010890085.0A
Other languages
English (en)
Other versions
CN112069006A (zh
Inventor
孔祥源
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Suzhou Inspur Intelligent Technology Co Ltd
Original Assignee
Suzhou Inspur Intelligent Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Suzhou Inspur Intelligent Technology Co Ltd filed Critical Suzhou Inspur Intelligent Technology Co Ltd
Priority to CN202010890085.0A priority Critical patent/CN112069006B/zh
Publication of CN112069006A publication Critical patent/CN112069006A/zh
Application granted granted Critical
Publication of CN112069006B publication Critical patent/CN112069006B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/22Detection or location of defective computer hardware by testing during standby operation or during idle time, e.g. start-up testing
    • G06F11/2205Detection or location of defective computer hardware by testing during standby operation or during idle time, e.g. start-up testing using arrangements specific to the hardware being tested
    • G06F11/2236Detection or location of defective computer hardware by testing during standby operation or during idle time, e.g. start-up testing using arrangements specific to the hardware being tested to test CPU or processors
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Hardware Design (AREA)
  • Quality & Reliability (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Debugging And Monitoring (AREA)

Abstract

本发明公开了一种检测分析GPU速率状态的方法、装置及计算机可读介质,属于检测分析GPU速率状态的技术领域。该方法包括:读取GPU的GPUPCIE设备总线号,并建立GPU序列号与GPU PCIE设备总线号之间的映射关系;基于所述映射关系依次提取当前GPU进行速率切换测试;在GPU进行速率切换测试时,根据当前GPU速率状态对其进行速率切换测试,并将每次速率切换测试的结果记录在GPU最终结果文本文件和GPU速率切换文本文件;发生故障时,根据PCIE设备总线号查找并分析对应的GPU最终结果文本文件或GPU速率切换文本文件。

Description

一种检测分析GPU速率状态的方法、装置及计算机可读介质
技术领域
本发明涉及检测分析GPU速率状态的技术领域,具体为一种检测分析GPU速率状态的方法、装置及计算机可读介质。
背景技术
人工智能是计算机学科的一个分支,近三十年来它获得了迅速的发展,在很多学科领域都获得了广泛应用,并取得了丰硕的成果,人工智能已逐步成为一个独立的分支,无论在理论和实践上都已自成一个系统。而人工智能技术需要通过AI服务器作为载体来实现。 AI服务器主要指的是采用异构形式的服务器,目前广泛使用的是CPU+GPU的异构形式。随着技术的发展,AI计算等对服务器的性能以及稳定性提出了更高的要求。如何设计稳定性及可靠性更高的服务器成为了一项技术挑战。在AI服务器的研发与设计过程中,一般会使用多项测试来保证服务器的稳定性。其中对GPU进行速率切换测试成为一种有效的测试GPU稳定性的一种测试手段,该测试对GPU分别进行Gen1,Gen2,Gen3三种速率模式下的切换测试,检测GPU是否能在长期的测试过程中的稳定性。然而在对GPU进行速率切换测试时,容易出现一些小概率性速率切换测试失败的情况,此时需要研发人员实时的了解分析GPU运行状态,对问题进行分析定位。
在现有分析方法中,在运行速率切换测试过程中,一般使用研发人员手动的获取当前系统的中某个GPU的PCIE设备总线号(BUS NUMBER),然后通过lspci指令获取某个GPU的某个特定时刻速率状态。
一个系统中,可能包含若干个GPU,且每个整机系统中的GPU PCIE设备总线号可能存在差异。在这种情况下,研发测试人员需要对系统中的所有GPU的PCIE设备总线号逐个确定,然后进行逐个GPU速率状态确定,测试效率比较低。
现有技术中,当GPU进行速率切换测试过程中,研发人员手动通过lspci指令,只能掌握在GPU在某一个时刻速率状态信息,并不能实时的对整个测试过程中的GPU速率状态信息进行抓取,也无法分析GPU速率切换的时间间隔,所以也无法在GPU速率切换出现异常失败时,实时的获取GPU速率切换测试的异常点。由于GPU速率切换测试是小概率的事件,这极大的增加了分析定位问题的困难。
发明内容
本发明的目的在于提供一种检测分析GPU速率状态的方法、装置及计算机可读介质,为研发人员进行问题定位提供了关键信息,提高了分析定位问题的效率的检测分析GPU速率状态的方法,以解决上述背景技术中提出的问题。
为实现上述目的,本发明提供如下技术方案:一种检测分析GPU速率状态的方法,包括:
读取GPU的GPU PCIE设备总线号,并建立GPU序列号与GPU PCIE设备总线号之间的映射关系;
基于所述映射关系依次提取当前GPU进行速率切换测试;
在GPU进行速率切换测试时,根据当前GPU速率状态对其进行速率切换测试,并将每次速率切换测试的结果记录在GPU最终结果文本文件和GPU速率切换文本文件;
发生故障时,根据PCIE设备总线号查找并分析对应的GPU最终结果文本文件或GPU速率切换文本文件。
进一步的,在GPU进行速率切换测试时,根据当前GPU速率状态对其进行速率切换测试,并将每次速率切换测试的结果记录在GPU最终结果文本文件和GPU速率切换文本文件的步骤,包括:
当前GPU速率切换测试开始时,将当前循环数、当前系统时间、当前GPU的速率状态保存至GPU最终结果文本文件中,将当前循环数、当前GPU序列号、当前GPU的速率状态保存至GPU速率切换文本文件;
当速率切换测试开始新的循环时,更新GPU最终结果文本文件和GPU速率切换文本文件;
当前GPU的速率状态发生变化时,将速率状态变化信息更新至GPU最终结果文本文件和GPU速率切换文本文件。
进一步的,在GPU进行速率切换测试时,根据当前GPU速率状态对其进行速率切换测试,并将每次速率切换测试的结果记录在GPU最终结果文本文件和GPU速率切换文本文件的步骤之后,还包括:
判断当前GPU速率切换测试是否已完成;
若否,则进行当速率切换测试的新的循环。
进一步的,判断当前GPU速率切换测试是否已完成的步骤之后,还包括:
若是,则判断所有的GPU是否都已完成速率切换测试;
若不是所有的GPU都已完成速率切换测试,则返回基于所述映射关系依次提取当前GPU进行速率切换测试的步骤。
进一步的,将速率状态变化信息更新至GPU最终结果文本文件和GPU速率切换文本文件的步骤包括:
将当前GPU速率状态改变次数、当前系统时间、当前GPU速率状态、发生速率切换时GPU速率切换程序日志的最后一行内容保存至GPU最终结果文本文件;
将GPU速率变化所持续的时间间隔、当前GPU的速率状态保存至GPU速率切换文本文件。
进一步的,当速率切换测试开始新的循环时,更新GPU最终结果文本文件和GPU速率切换文本文件的步骤之前,还包括:
将当前循环数赋值给最新循环数,并重新获取当前循环数;
通过判断当前循环数与最新循环数是否相等,确定速率切换测试是否开始了新的循环。
进一步的,当前GPU的速率状态发生变化时,将速率状态变化信息更新至GPU最终结果文本文件和GPU速率切换文本文件的步骤之前,还包括:
将当前速率状态赋值给最新速率状态,并重新获取当前速率状态;
通过判断当前速率状态与最新速率状态是否相等,确定GPU的速率状态是否发生了变化。
进一步的,速率状态包括Gen1,Gen2或Gen3。
本发明还提供一种检测分析GPU速率状态的装置,包括:
映射模块,用于读取GPU的GPU PCIE设备总线号,并建立GPU序列号与GPU PCIE设备总线号之间的映射关系;
提取模块,用于基于所述映射关系依次提取当前GPU进行速率切换测试;
测试模块,用于在GPU进行速率切换测试时,根据当前GPU速率状态对其进行速率切换测试,并将每次速率切换测试的结果记录在GPU最终结果文本文件和GPU速率切换文本文件;
分析模块,用于发生故障时,根据PCIE设备总线号查找并分析对应的GPU最终结果文本文件或GPU速率切换文本文件。
本发明还提供一种具有处理器可执行的非易失的程序代码的计算机可读介质,所述程序代码使所述处理器执行上述的方法。
与现有技术相比,本发明的有益效果是:
该发明提供的检测分析GPU速率状态的方法,能够自动获取当前系统中的所有GPU的PCIE设备总线号,可以根据当前运行速率切换测试的GPU的PCIE设备总线号,实时的获取GPU速率切换测试时,Gen1,Gen2,Gen3三个速率切换的时刻,速率切换的时间间隔,以及速率切换时,速率切换测试日志的最后一行内容,并将分析结果保存在本地GPU速率状态日志中,提高了分析定位问题的效率,适用于大部分AI服务器系统中,具备一定的通用性。
附图说明
图1为本发明提供的检测分析GPU速率状态的方法的流程图;
图2为本发明提供的检测分析GPU速率状态的方法的详细流程图;
图3为本发明中的测试GPU选择顺序示意图;
图4为本发明中的GPUPCIE设总线号删除示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
请参阅图1,本发明提供一种技术方案:一种检测分析GPU速率状态的方法,包括:
读取GPU的GPU PCIE设备总线号,并建立GPU序列号与GPU PCIE设备总线号之间的映射关系;
基于所述映射关系依次提取当前GPU进行速率切换测试;
在GPU进行速率切换测试时,根据当前GPU速率状态对其进行速率切换测试,并将每次速率切换测试的结果记录在GPU最终结果文本文件和GPU速率切换文本文件;
发生故障时,根据PCIE设备总线号查找并分析对应的GPU最终结果文本文件或GPU速率切换文本文件。
本发明提供的检测分析GPU速率状态的方法,能够自动获取当前系统中的所有GPU的PCIE设备总线号,可以根据当前运行速率切换测试的GPU的PCIE设备总线号,实时的获取GPU速率切换测试时,Gen1,Gen2,Gen3三个速率切换的时刻,速率切换的时间间隔,以及速率切换时,速率切换测试日志的最后一行内容,并将分析结果保存在本地GPU速率状态日志中,提高了分析定位问题的效率,适用于大部分AI服务器系统中,具备一定的通用性。
请参阅图2,在另一种可能的实施方式中,该检测分析GPU速率状态的方法,包括:
读取GPU的GPU PCIE设备总线号,并建立GPU序列号与GPU PCIE设备总线号之间的映射关系;
基于所述映射关系依次提取当前GPU进行速率切换测试;
当前GPU速率切换测试开始时,将当前循环数、当前系统时间、当前GPU的速率状态保存至GPU最终结果文本文件中,将当前循环数、当前GPU序列号、当前GPU的速率状态保存至GPU速率切换文本文件;
将当前循环数赋值给最新循环数,并重新获取当前循环数;
通过判断当前循环数与最新循环数是否相等,确定速率切换测试是否开始了新的循环。
当速率切换测试开始新的循环时,更新GPU最终结果文本文件和GPU速率切换文本文件;
将当前速率状态赋值给最新速率状态,并重新获取当前速率状态;
通过判断当前速率状态与最新速率状态是否相等,确定GPU的速率状态是否发生了变化。
当前GPU的速率状态发生变化时,将速率状态变化信息更新至GPU最终结果文本文件和GPU速率切换文本文件。
具体的,将当前GPU速率状态改变次数、当前系统时间、当前GPU速率状态、发生速率切换时GPU速率切换程序日志的最后一行内容保存至GPU最终结果文本文件。将GPU速率变化所持续的时间间隔、当前GPU的速率状态保存至GPU速率切换文本文件。
进一步的,该方法还包括:
判断当前GPU速率切换测试是否已完成;
若否,则进行当速率切换测试的新的循环;若是,则判断所有的GPU是否都已完成速率切换测试。
若不是所有的GPU都已完成速率切换测试,则返回基于所述映射关系依次提取当前GPU进行速率切换测试的步骤。若所有的GPU都已完成速率切换测试,则结束整个速度切换测试进程。
linux系统中读取的数据信息存放在本地文件中,文件命名为GPU内部装置总线文本,GPU内部装置总线数值为linux系统下GPU的内部装置总线数值。
读取linux系统中GPU的GPU PCIE设备总线号,并将信息存放在本地文件中GPU内部装置总线文本中获取GPU PCIE设备总线号的序列号,并按照序列号的大小排列,将读取的二进制的数据通过A\D数据转换模块进行转码,转换成解码之前的文字。
检测GPU速率切换程序是否已经开始对该GPU进行速率切换时,先读取GPU速率切换程序的数据,将检测到的GPU速率切换程序的数据与未开始对该GPU进行速率切换时的数据进行比对,若没有开始对该GPU进行速率切换,则自动等待,若已开始对该GPU进行速率切换,则保存当前GPU的速率状态信息到本地文件中。
GPU最终结果文本文件中保存信息的时候,当前GPU速率切换测试循环数当前循环,当前系统时间,当前GPU的速率状态Gen1,Gen2或Gen3,GPU速率切换文本文件中保存信息主要包括当前GPU速率切换测试循环数当前循环,当前GPU的序列号GPU数值,当前GPU的速率状态Gen1,Gen2或Gen3。
当判断当前GPU的速率切换测试是否已经完成,先读取GPU速率切换程序的数据,将检测到的GPU速率切换程序的数据与未开始对该GPU进行速率切换时的数据进行比对,再判断当前GPU的速率切换测试是否已经完成。
当判断GPU速率切换程序是否开始新的循环测试,即当前循环与最终循环是否相等的时候,使GPU速率切换程序中循环测试,即当前循环与最终循环不等时已开始则更新当前GPU的速率状态信息到本地文件中,文件包括GPU最终结果文本与GPU速率切换文本,其中,GPU最终结果文本文件中更新保存信息主要包括当前GPU速率切换测试循环数当前循环与当前系统时间,当前GPU的速率状态为Gen1,Gen2或Gen3,GPU速率切换文本文件中更新保存信息主要包括当前GPU速率切换测试循环数当前循环,当前GPU的序列号GPU,当前GPU的速率状态Gen1,Gen2或Gen3。
判断当前GPU速率是否已经发生变化,即电流速度是否与最终电流速度相等,先读取GPU速率切换程序的数据,将检测到的电流速度与最终电流速度的数据与未开始对该GPU进行速率切换时的数据进行比对,若电流速度与最终电流速度不等,GPU速率状态已经发生变化,将速率状态变化信息更新保存在本地文件中GPU最终结果文本,GPU速率切换文本中,包括当前GPU速率状态改变次数k,系统时间,当前GPU速率Gen1,Gen2或Gen3,发生速率切换时,GPU速率切换程序日志的最后一行内容GPU速率切换文本包括GPU速率变化所持续的时间间隔,当前GPU的速率状态。
判断当前系统下所有的GPU是否都已完成测试,重新获取GPU PCIE设备总线号,并判断GPU内部装置总线文本是否为空,若文件非空,从GPU内部装置总线文本中按顺序依次读取GPU的PCIE设备总线号,并在GPU文本中,查找到其对应的序列号GPU_serial_numbe,若GPU内部装置总线文本文件为空,当前系统下所有的GPU都已完成测试。
一颗GPU会在当前文件夹下生成两个对应的GPU速率切换分析日志文件中GPU最终结果文本,同时GPU速率切换序列号,$GPU的GPU序列号的值为GPU0,GPU1,GPU2,每个GPU拥有唯一的GPU速率状态信息分析日志,文件GPU最终结果文本,GPU速率切换序列号。
$GPU为GPU序列号的值,为GPU0,GPU1,GPU2,每个GPU拥有唯一的GPU速率状态信息分析日志,如GPU0对应的速率状态日志文件为resultGPU0.txt和speedchangeGPU0.txt。如果系统中有N个GPU,则在速率切换测试结束后,会在当前文件夹下生成N个GPU最终结果文本和N个 GPU速率切换文本 文件。在发现某颗GPU发生速率切换测试失败时,可以查找对应的日志文件,分析问题发生的时刻以及其他异常信息等。如GPU0在速率切换时失败,则在当前文件夹下 resultGPU0.txt和speedchangeGPU0.txt 中可以找到当前GPU在速率切换测试过程中的速率状态分析日志,然后对问题进行定位分析,极大的提高了研发人员分析处理问题的效率。
本发明还提供一种检测分析GPU速率状态的装置,包括:
映射模块,用于读取GPU的GPU PCIE设备总线号,并建立GPU序列号与GPU PCIE设备总线号之间的映射关系;
提取模块,用于基于所述映射关系依次提取当前GPU进行速率切换测试;
测试模块,用于在GPU进行速率切换测试时,根据当前GPU速率状态对其进行速率切换测试,并将每次速率切换测试的结果记录在GPU最终结果文本文件和GPU速率切换文本文件;
分析模块,用于发生故障时,根据PCIE设备总线号查找并分析对应的GPU最终结果文本文件或GPU速率切换文本文件。
本发明还提供一种具有处理器可执行的非易失的程序代码的计算机可读介质,所述程序代码使所述处理器执行上述的方法。
实施例1,
读取GPU信息模块
在一个整机系统下,每个GPU都有唯一的PCIE设备总线号,在进行测试前,程序会对当前系统下所有的GPU的PCIE设备总线号进行数据采集,并将这些信息存放在GPU内部装置总线文本中,获取方法为lspci -d 关键词1:|grep -i 关键词2|awk '{print $1}'>>GPU内部装置总线文本;其中关键词1为GPU厂商信息;关键词2为从打印结果中获取系统下所有GPU的PCIE设备总线号的关键字,获取到的PCIE设备总线号形式为xx:xx.x,数据在GPU内部装置总线文本文件中的组织形式如下:
Figure 736401DEST_PATH_IMAGE002
GPU信息在GPUbus.txt文件中的组织形式
GPU序列号与PCIE设备总线号映射模块:
GPU序列号一般为GPU0,GPU1,GPU2,…依次类推。GPU序列号为分析结果文件中GPU的唯一标识。GPU序列号一般情况下,与系统PCIE设备总线号大小一一对应,即GPU序列号小的GPU对应的PCIE设备总线号也是小的。映射方法为:
echo GPU$m-$i>>GPU文本;其中,$m为阿拉伯数字,取值范围为0到N-1,N为当前系统中GPU数量,$i为GPU内部装置总线文本中的GPU的PCIE设备总线号,映射关系保存在GPU文本文件中。数据在GPU文本中组织形式如下:
Figure 732170DEST_PATH_IMAGE004
GPU序列号与PCIE设备总线号映射关系组织形式
测试GPU选择模块:
如图3所示,在进行测试时,程序会从GPU内部装置总线文本中按顺序依次读取PCIE设备总线号,然后执行对该GPU的速率状态信息进行检测和分析。当GPU内部装置总线文本为空时,则说明当前系统下所有的GPU都已完成GPU速率切换测试,则结束程序。
GPU信息删除模块:
如图4所示,当某个GPU已完成GPU速率切换测试,则执行GPU信息删除模块,将该GPU的PCIE设备总线号从GPU内部装置总线文本中删除,若19:00.0测试完成,则从GPU内部装置总线文本中删除该行,下次执行GPU选择模块时选择的GPUPCIE设备总线号为19:04.0。
GPU速率状态信息保存模块:
在执行速率切换模块时,需要对当前的GPU速率状态进行实时保存,保存文件有:GPU最终结果文本和GPU速率切换文本。其中$GPU为GPU序列号的值,为GPU0,GPU1,GPU2等等。每个GPU拥有唯一的GPU速率状态信息保存文件,如GPU0对应的速率状态保存文件为resultGPU0.txt和speedchangeGPU0.txt。
GPU最终结果文本对GPU详细变化信息进行保存,包括如下信息:当前GPU速率状态改变次数k、系统时间、当前GPU速率Gen1,Gen2或Gen3,发生速率切换时,GPU速率切换程序日志的最后一行内容,第一行表示当前GPU执行第一个循环的速率切换;第二行表示初始系统时间,第三行表示初始GPU速率;第四行表示当前GPU第一个循环的第一次速率切换;第五行表示发生速率切换的系统时间,第六行表示发送速率切换时,速率切换程序所生成日志的最后一行内容,依次类推,直至当前GPU速率切换结束。
Figure 574224DEST_PATH_IMAGE006
GPU最终结果文本文件内容组织形式
GPU速率切换文本包括了GPU速率状态变化的简要信息,包括GPU速率变化所持续的时间间隔,当前GPU的速率状态,第一行表示GPU0第一个循环测试开始,第二行表示GPU执行速率变化时的初始速率,第三行表示经过时间间隔timeskew1后,GPU速率切换为GPUspeed2,依次类推,直至当前GPU速率切换结束。
Figure DEST_PATH_IMAGE008
GPU速率切换文本文件内容组织形式
本发明提供了一种检测分析GPU速率状态的方法,能够自动获取当前系统中的所有GPU的PCIE设备总线号,可以根据当前运行速率切换测试的GPU的PCIE设备总线号,实时的获取GPU速率切换测试时,Gen1,Gen2,Gen3三个速率切换的时刻,速率切换的时间间隔,以及速率切换时,速率切换测试日志的最后一行内容,并将分析结果保存在本地GPU速率状态日志中,为研发人员进行问题定位提供了关键信息,提高了分析定位问题的效率,适用于大部分AI服务器系统中,具备一定的通用性。
尽管已经示出和描述了本发明的实施例,对于本领域的普通技术人员而言,可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由所附权利要求及其等同物限定。

Claims (10)

1.一种检测分析GPU速率状态的方法,其特征在于:包括:
读取GPU的PCIE设备总线号,并建立GPU序列号与PCIE设备总线号之间的映射关系;
基于所述映射关系依次提取当前GPU进行速率切换测试;
在GPU进行速率切换测试时,根据当前GPU速率状态对其进行速率切换测试,并将每次速率切换测试的结果记录在GPU最终结果文本文件和GPU速率切换文本文件;
发生故障时,根据PCIE设备总线号查找并分析对应的GPU最终结果文本文件或GPU速率切换文本文件。
2.根据权利要求1所述的一种检测分析GPU速率状态的方法,其特征在于:在GPU进行速率切换测试时,根据当前GPU速率状态对其进行速率切换测试,并将每次速率切换测试的结果记录在GPU最终结果文本文件和GPU速率切换文本文件的步骤,包括:
当前GPU速率切换测试开始时,将当前循环数、当前系统时间、当前GPU的速率状态保存至GPU最终结果文本文件中,将当前循环数、当前GPU序列号、当前GPU的速率状态保存至GPU速率切换文本文件;
当速率切换测试开始新的循环时,更新GPU最终结果文本文件和GPU速率切换文本文件;
当前GPU的速率状态发生变化时,将速率状态变化信息更新至GPU最终结果文本文件和GPU速率切换文本文件。
3.根据权利要求1所述的一种检测分析GPU速率状态的方法,其特征在于:在GPU进行速率切换测试时,根据当前GPU速率状态对其进行速率切换测试,并将每次速率切换测试的结果记录在GPU最终结果文本文件和GPU速率切换文本文件的步骤之后,还包括:
判断当前GPU速率切换测试是否已完成;
若否,则进行当速率切换测试的新的循环。
4.根据权利要求3所述的一种检测分析GPU速率状态的方法,其特征在于:判断当前GPU速率切换测试是否已完成的步骤之后,还包括:
若是,则判断所有的GPU是否都已完成速率切换测试;
若不是所有的GPU都已完成速率切换测试,则返回基于所述映射关系依次提取当前GPU进行速率切换测试的步骤。
5.根据权利要求2所述的一种检测分析GPU速率状态的方法,其特征在于:将速率状态变化信息更新至GPU最终结果文本文件和GPU速率切换文本文件的步骤包括:
将当前GPU速率状态改变次数、当前系统时间、当前GPU速率状态、发生速率切换时GPU速率切换程序日志的最后一行内容保存至GPU最终结果文本文件;
将GPU速率变化所持续的时间间隔、当前GPU的速率状态保存至GPU速率切换文本文件。
6.根据权利要求2所述的一种检测分析GPU速率状态的方法,其特征在于:当速率切换测试开始新的循环时,更新GPU最终结果文本文件和GPU速率切换文本文件的步骤之前,还包括:
将当前循环数赋值给最新循环数,并重新获取当前循环数;
通过判断当前循环数与最新循环数是否相等,确定速率切换测试是否开始了新的循环。
7.根据权利要求2所述的一种检测分析GPU速率状态的方法,其特征在于:当前GPU的速率状态发生变化时,将速率状态变化信息更新至GPU最终结果文本文件和GPU速率切换文本文件的步骤之前,还包括:
将当前速率状态赋值给最新速率状态,并重新获取当前速率状态;
通过判断当前速率状态与最新速率状态是否相等,确定GPU的速率状态是否发生了变化。
8.根据权利要求1所述的一种检测分析GPU速率状态的方法,其特征在于:速率状态包括Gen1,Gen2或Gen3。
9.一种检测分析GPU速率状态的装置,其特征在于:包括:
映射模块,用于读取GPU的GPU PCIE设备总线号,并建立GPU序列号与GPU PCIE设备总线号之间的映射关系;
提取模块,用于基于所述映射关系依次提取当前GPU进行速率切换测试;
测试模块,用于在GPU进行速率切换测试时,根据当前GPU速率状态对其进行速率切换测试,并将每次速率切换测试的结果记录在GPU最终结果文本文件和GPU速率切换文本文件;
分析模块,用于发生故障时,根据PCIE设备总线号查找并分析对应的GPU最终结果文本文件或GPU速率切换文本文件。
10.一种具有处理器可执行的非易失的程序代码的计算机可读介质,其特征在于,所述程序代码使所述处理器执行如权利要求1至8任一项所述的方法。
CN202010890085.0A 2020-08-28 2020-08-28 一种检测分析gpu速率状态的方法、装置及计算机可读介质 Active CN112069006B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010890085.0A CN112069006B (zh) 2020-08-28 2020-08-28 一种检测分析gpu速率状态的方法、装置及计算机可读介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010890085.0A CN112069006B (zh) 2020-08-28 2020-08-28 一种检测分析gpu速率状态的方法、装置及计算机可读介质

Publications (2)

Publication Number Publication Date
CN112069006A CN112069006A (zh) 2020-12-11
CN112069006B true CN112069006B (zh) 2022-12-27

Family

ID=73659834

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010890085.0A Active CN112069006B (zh) 2020-08-28 2020-08-28 一种检测分析gpu速率状态的方法、装置及计算机可读介质

Country Status (1)

Country Link
CN (1) CN112069006B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117591380B (zh) * 2024-01-18 2024-05-03 芯动微电子科技(武汉)有限公司 一种总线性能监测的方法和装置

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111338874B (zh) * 2020-02-29 2022-05-31 苏州浪潮智能科技有限公司 一种测试gpu速率切换的方法及系统

Also Published As

Publication number Publication date
CN112069006A (zh) 2020-12-11

Similar Documents

Publication Publication Date Title
CN109710508B (zh) 测试方法、测试装置、测试设备及计算机可读存储介质
CN110532347B (zh) 一种日志数据处理方法、装置、设备和存储介质
CN110891000B (zh) 一种gpu带宽性能的检测方法、系统及相关装置
CN111241389A (zh) 基于矩阵的敏感词过滤方法、装置、电子设备、存储介质
CN111881455A (zh) 一种固件安全分析的方法及装置
CN113190220A (zh) Json文件差异化对比方法及装置
CN112069006B (zh) 一种检测分析gpu速率状态的方法、装置及计算机可读介质
CN113282854A (zh) 数据请求响应方法、装置、电子设备及存储介质
CN117873905B (zh) 一种代码同源检测的方法、装置、设备及介质
CN112256517A (zh) 基于lstm-dssm的虚拟化平台的日志分析方法及装置
CN115061908A (zh) 缺陷代码的定位方法、装置、存储介质及计算机设备
CN117873839A (zh) 复杂算力系统的故障检测方法、装置、设备和存储介质
CN111309584A (zh) 数据处理方法、装置、电子设备及存储介质
CN109446077A (zh) 一种数据库测试方法及装置
CN117112522A (zh) 并发进程日志管理方法、装置、设备和存储介质
CN110162729B (zh) 建立浏览器指纹以及识别浏览器类型的方法、装置
CN114116811B (zh) 日志处理方法、装置、设备及存储介质
CN116340172A (zh) 基于测试场景的数据收集方法、装置及测试用例检测方法
CN115934548A (zh) 一种基于信息检索的语句级软件缺陷定位方法及系统
CN112988558B (zh) 测试执行方法、装置、电子设备及存储介质
CN112380111B (zh) 一种基于新项目的即时缺陷定位方法及系统
CN114090673A (zh) 一种多数据源的数据处理方法、设备及存储介质
CN113742208A (zh) 一种软件检测方法、装置、设备及计算机可读存储介质
CN116414610B (zh) 异常日志片段的获取方法、装置、设备及存储介质
CN111338956A (zh) 一种自动化的压测方法、装置、设备和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant