CN116627746A - 一种gpu服务器的测试设备及方法 - Google Patents

一种gpu服务器的测试设备及方法 Download PDF

Info

Publication number
CN116627746A
CN116627746A CN202310898060.9A CN202310898060A CN116627746A CN 116627746 A CN116627746 A CN 116627746A CN 202310898060 A CN202310898060 A CN 202310898060A CN 116627746 A CN116627746 A CN 116627746A
Authority
CN
China
Prior art keywords
test
modules
module
gpu
active
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202310898060.9A
Other languages
English (en)
Other versions
CN116627746B (zh
Inventor
赵彦钧
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sichuan Huakun Zhenyu Intelligent Technology Co ltd
Original Assignee
Sichuan Huakun Zhenyu Intelligent Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sichuan Huakun Zhenyu Intelligent Technology Co ltd filed Critical Sichuan Huakun Zhenyu Intelligent Technology Co ltd
Priority to CN202310898060.9A priority Critical patent/CN116627746B/zh
Publication of CN116627746A publication Critical patent/CN116627746A/zh
Application granted granted Critical
Publication of CN116627746B publication Critical patent/CN116627746B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/22Detection or location of defective computer hardware by testing during standby operation or during idle time, e.g. start-up testing
    • G06F11/2205Detection or location of defective computer hardware by testing during standby operation or during idle time, e.g. start-up testing using arrangements specific to the hardware being tested
    • G06F11/2236Detection or location of defective computer hardware by testing during standby operation or during idle time, e.g. start-up testing using arrangements specific to the hardware being tested to test CPU or processors
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/22Detection or location of defective computer hardware by testing during standby operation or during idle time, e.g. start-up testing
    • G06F11/2268Logging of test results
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/22Detection or location of defective computer hardware by testing during standby operation or during idle time, e.g. start-up testing
    • G06F11/2273Test methods
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Hardware Design (AREA)
  • Quality & Reliability (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)

Abstract

本发明属于数据处理技术领域,提出了一种GPU服务器的测试设备及方法,设备包括:GPU模组获取单元、GPU模组组网计算单元、测试模组计算单元、至少两个GPU模组槽位、测试模组配置单元和测试单元;方法包括:将主动测试模组配置为能够对数据包进行数据收发,以及能够统计链路误码,并用于将被动测试模组配置为跳线模组,且只能将进入被动测试模组的数据包进行内部环回后直接发送出去;基于测试程序控制主动测试模组的测试过程,统计链路误码,得到测试结果,并根据测试结果,判断不同组网情况下主动测试模组和被动测试模组形成的链路是否正常。本发明可以通过上述测试模组来替换高成本的GPUOAM/SXM模组,降低测试成本。

Description

一种GPU服务器的测试设备及方法
技术领域
本发明涉及数据处理技术领域,特别涉及一种GPU服务器的测试设备及方法。
背景技术
GPU服务器除了标准的PCIe形态GPU卡之外,要想获得更高的GPU计算性能,就需要使用NVIDIA提出的SXM形态或者Open Compute Project (OCP)组织提出的OAM形态的GPU模块/模组。这种GPU模组对外提供高速连接器,以便于插在载板上。无论哪种形态的GPU模块,为了承载多个GPU模块,PCB载板需要设计成多个高速信号互联,并提供多个高密高速信号连接器。这些OAM/SXM模组往往要求Full Mesh互联,因此,每个OAM模组和其他OAM模组之间,都需要较多的高速信号互联。
一个典型的GPU模组载板示意图如图1所示,以4个GPU模组为例,G1、G2、G3、G4是可以安装GPUOAM/SXM模组的。在生产出如上载板之后,生产时需要对连接部分的连线通路进行对应的通断测试和压力测试的。
常规的做法是,在G1、G2、G3、G4为主,安装对应的GPU OAM/SXM模组,然后接入系统,运行对应的GPU软件,测试各个模组见的连线通路是否正常。
如此高的速率给硬件设计带来了极大的挑战,同时,对于在生产制造中如何有效的、高效的检测载板的可靠性和稳定性,也是亟需解决的问题。
如使用OAM/SXM模组来作为测试设备,价格太过昂贵,无法在生产批量落地。因此,如何有效检测且满足成本较低的GPU载板测试是本领域亟需解决的技术问题。
发明内容
本发明的目的在于提供一种GPU服务器的测试设备及方法,能够有效的、高效的检测载板的可靠性和稳定性,且成本较低。
本发明解决其技术问题,采用的技术方案是:
一方面,本发明提供了一种GPU服务器的测试设备,包括:
GPU模组获取单元,用于获取GPU模组载板中GPU模组的数量,GPU模组至少为两个;
GPU模组组网计算单元,用于基于GPU模组的数量计算出GPU模组的组网情况;
测试模组计算单元,用于基于GPU模组的组网情况计算主动测试模组的数量以及被动测试模组的数量;
至少两个GPU模组槽位,用于根据计算出的主动测试模组的数量以及被动测试模组的数量,将主动测试模组和被动测试模组放置在对应GPU模组槽位上;
测试模组配置单元,用于将主动测试模组配置为能够对数据包进行数据收发,以及能够统计链路误码,并用于将被动测试模组配置为跳线模组,且只能将进入被动测试模组的数据包进行内部环回后直接发送出去;
测试单元,用于基于测试程序控制主动测试模组在测试周期内,不同组网情况对应的链路场景下:主动测试模组和主动测试模组,或者主动测试模组和被动测试模组形成的链路中的测试过程,统计链路误码,得到测试结果,并根据测试结果,判断不同组网情况下主动测试模组和被动测试模组形成的链路是否正常。
另一方面,本发明还提供了一种GPU服务器的测试方法,应用于所述的一种GPU服务器的测试设备,包括如下步骤:
获取GPU模组载板中GPU模组的数量,GPU模组至少为两个;
基于GPU模组的数量计算出GPU模组的组网情况;
基于GPU模组的组网情况计算主动测试模组的数量以及被动测试模组的数量;
根据计算出的主动测试模组的数量以及被动测试模组的数量,将主动测试模组和被动测试模组放置在对应GPU模组槽位上;
将主动测试模组配置为能够对数据包进行数据收发,以及能够统计链路误码,并用于将被动测试模组配置为跳线模组,且只能将进入被动测试模组的数据包进行内部环回后直接发送出去;
基于测试程序控制主动测试模组在测试周期内,不同组网情况对应的链路场景下:主动测试模组和主动测试模组,或者主动测试模组和被动测试模组形成的链路中的测试过程,统计链路误码,得到测试结果,并根据测试结果,判断不同组网情况下主动测试模组和被动测试模组形成的链路是否正常。
作为进一步说明,当GPU模组的数量为两个时,在一个GPU模组槽位上放置一个第一主动测试模组,在另一个GPU模组槽位上放置一个第二主动测试模组,第一主动测试模组和第二主动测试模组均能够互相自发自收数据包;
基于测试程序控制这两个主动测试模组在测试周期内,当前组网情况对应的链路场景下:主动测试模组和主动测试模组形成的链路中的测试过程,统计这两个主动测试模组之间形成的链路中的链路误码,并判断其是否超过第一链路误码预设值,当未超过时,则表示两个主动测试模组之间的链路正常,否则不正常。
作为进一步说明,当GPU模组的数量为两个时,在一个GPU模组槽位上放置一个主动测试模组,在另一个GPU模组槽位上放置一个被动测试模组;
基于测试程序控制主动测试模组在测试周期内,当前组网情况对应的链路场景下:主动测试模组和被动测试模组形成的链路中的测试过程,统计这两个测试模组之间形成的链路中的链路误码,并判断其是否超过第二链路误码预设值,当未超过时,则表示两个测试模组之间的链路正常,否则不正常。
作为进一步说明,当GPU模组的数量为四个时,在一个GPU模组槽位上放置一个主动测试模组,分别在另外三个GPU模组槽位上分别放置一个被动测试模组,这三个被动测试模组均作为跳线模组;
基于测试程序控制主动测试模组在测试周期内,当前组网情况对应的四个GPU模组直接互联链路或者交叉链路的场景下:主动测试模组和三个被动测试模组形成的链路中的测试过程,统计这四个测试模组之间形成的链路中的链路误码,并判断其是否超过第三链路误码预设值,当未超过时,则表示四个测试模组之间的链路正常,否则不正常。
作为进一步说明,当GPU模组的数量为四个时,分别在两个GPU模组槽位上分别放置一个主动测试模组,分别在另外两个GPU模组槽位上分别放置一个被动测试模组,这两个被动测试模组均作为跳线模组;
基于测试程序控制主动测试模组在测试周期内,当前组网情况对应的四个GPU模组双向交叉链路的场景下:两个主动测试模组和两个被动测试模组形成的链路中的测试过程,统计这四个测试模组之间形成的链路中的链路误码,并判断其是否超过第四链路误码预设值,当未超过时,则表示四个测试模组之间的链路正常,否则不正常。
本发明的有益效果是:通过上述一种GPU服务器的测试设备及方法,本发明单独设置了一个载板测试设备,用于有效的、高效的检测载板的可靠性和稳定性,且不再使用OAM/SXM模组来作为测试设备,而是通过使用被动测试模组的方式,极大的降低了成本。
附图说明
图1为背景技术中一个典型的GPU模组载板示意图;
图2为本发明实施例1中一种GPU服务器的测试设备的组成结构示意图;
图3为本发明实施例3中在被测载板上安装测试模组T1、T2、T3、T4的链路示意图;
图4为本发明实施例3中放置两个主动测试模组测试时的链路示意图;
图5为本发明实施例3中放置一个主动测试模组和一个被动测试模组测试时的链路示意图;
图6为本发明实施例3中4个GPU模组互联的情况,被动测试模组T2有变形T2a、T2b、T2c时的链路示意图;
图7为本发明实施例3中交叉互联的链路示意图;
图8为本发明实施例3中对于同时测试交叉的链路示意图;
图9为本发明实施例3中双向交叉的场景使用两个主动模组T1、T2的链路示意图;
图10为本发明实施例3中对于八个GPU模组的链路示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。
实施例1
本实施例提供的是一种GPU服务器的测试设备,其组成结构示意图见图2,其中,该设备包括:
GPU模组获取单元,用于获取GPU模组载板中GPU模组的数量,GPU模组至少为两个;
GPU模组组网计算单元,用于基于GPU模组的数量计算出GPU模组的组网情况;
测试模组计算单元,用于基于GPU模组的组网情况计算主动测试模组的数量以及被动测试模组的数量;
至少两个GPU模组槽位,用于根据计算出的主动测试模组的数量以及被动测试模组的数量,将主动测试模组和被动测试模组放置在对应GPU模组槽位上;
测试模组配置单元,用于将主动测试模组配置为能够对数据包进行数据收发,以及能够统计链路误码,并用于将被动测试模组配置为跳线模组,且只能将进入被动测试模组的数据包进行内部环回后直接发送出去;
测试单元,用于基于测试程序控制主动测试模组在测试周期内,不同组网情况对应的链路场景下:主动测试模组和主动测试模组,或者主动测试模组和被动测试模组形成的链路中的测试过程,统计链路误码,得到测试结果,并根据测试结果,判断不同组网情况下主动测试模组和被动测试模组形成的链路是否正常。
通过本实施例的上述设备,可以完全不使用OAM/SXM模组来作为测试设备,大大降低了载板测试成本,且测试链路可以依据GPU模组的数量而定,不同数量的GPU模组,可以对应有不同的测试链路,测试过程高效,由于测试链路可以根据不同组网情况而定,其仅需要根据主动测试模组和被动测试模组的配置数量进行设定即可获取,只需要统计链路误码的数量即可判断出同组网情况下主动测试模组和被动测试模组形成的链路是否正常,测试链路相对稳定。
实施例2
在实施例1的基础上,本实施例提供的是一种GPU服务器的测试方法,应用于所述的一种GPU服务器的测试设备,包括如下步骤:
S1、获取GPU模组载板中GPU模组的数量,GPU模组至少为两个;
S2、基于GPU模组的数量计算出GPU模组的组网情况;
S3、基于GPU模组的组网情况计算主动测试模组的数量以及被动测试模组的数量;
S4、根据计算出的主动测试模组的数量以及被动测试模组的数量,将主动测试模组和被动测试模组放置在对应GPU模组槽位上;
S5、将主动测试模组配置为能够对数据包进行数据收发,以及能够统计链路误码,并用于将被动测试模组配置为跳线模组,且只能将进入被动测试模组的数据包进行内部环回后直接发送出去;
S6、基于测试程序控制主动测试模组在测试周期内,不同组网情况对应的链路场景下:主动测试模组和主动测试模组,或者主动测试模组和被动测试模组形成的链路中的测试过程,统计链路误码,得到测试结果,并根据测试结果,判断不同组网情况下主动测试模组和被动测试模组形成的链路是否正常。
需要指出的是,当GPU模组的数量为两个时,在一个GPU模组槽位上放置一个第一主动测试模组,在另一个GPU模组槽位上放置一个第二主动测试模组,第一主动测试模组和第二主动测试模组均能够互相自发自收数据包;基于测试程序控制这两个主动测试模组在测试周期内,当前组网情况对应的链路场景下:主动测试模组和主动测试模组形成的链路中的测试过程,统计这两个主动测试模组之间形成的链路中的链路误码,并判断其是否超过第一链路误码预设值,当未超过时,则表示两个主动测试模组之间的链路正常,否则不正常。
当GPU模组的数量为两个时,在一个GPU模组槽位上放置一个主动测试模组,在另一个GPU模组槽位上放置一个被动测试模组;基于测试程序控制主动测试模组在测试周期内,当前组网情况对应的链路场景下:主动测试模组和被动测试模组形成的链路中的测试过程,统计这两个测试模组之间形成的链路中的链路误码,并判断其是否超过第二链路误码预设值,当未超过时,则表示两个测试模组之间的链路正常,否则不正常。
当GPU模组的数量为四个时,在一个GPU模组槽位上放置一个主动测试模组,分别在另外三个GPU模组槽位上分别放置一个被动测试模组,这三个被动测试模组均作为跳线模组;基于测试程序控制主动测试模组在测试周期内,当前组网情况对应的四个GPU模组直接互联链路或者交叉链路的场景下:主动测试模组和三个被动测试模组形成的链路中的测试过程,统计这四个测试模组之间形成的链路中的链路误码,并判断其是否超过第三链路误码预设值,当未超过时,则表示四个测试模组之间的链路正常,否则不正常。
当GPU模组的数量为四个时,分别在两个GPU模组槽位上分别放置一个主动测试模组,分别在另外两个GPU模组槽位上分别放置一个被动测试模组,这两个被动测试模组均作为跳线模组;基于测试程序控制主动测试模组在测试周期内,当前组网情况对应的四个GPU模组双向交叉链路的场景下:两个主动测试模组和两个被动测试模组形成的链路中的测试过程,统计这四个测试模组之间形成的链路中的链路误码,并判断其是否超过第四链路误码预设值,当未超过时,则表示四个测试模组之间的链路正常,否则不正常。
实施例3
参见图3,在被测载板上,可以安装测试模组T1、T2、T3、T4。
参见图4,具体测试时,以两个GPU模组之间的通路为例,一个模组槽位上,放置一个主动测试模组T1,一个模组槽位上,放置一个主动测试模组T2,T1、T2测试模组具备对外发送/接收测试包的能力,T1、T2测试模组具备检测接收包以及统计链路误码的能力,T1、T2模组互相自发自收,统计链路误码,测试程序控制T1、T2的测试过程,并根据测试结果,判断两个模组之间的链路是否正常。
参见图5,对图4的测试模组进行了优化,以检测两个模组之间的链路为例:一个模组槽位上,放置一个主动测试模组T1,一个模组槽位上,防止一个被动测试模组T2,T1测试模组具备对外发送/接收测试包的能力,T1测试模组具备检测接收包以及统计链路误码的能力,T2测试模组仅仅是一个跳线模组,内部环回,把进入的测试包直接发送回去,T1测试模组自发自收,统计链路误码,测试程序控制T1的测试过程,并根据测试结果,判断两个模组之间的链路是否正常。
对于4个GPU模组互联的情况,被动测试模组T2有如下变形T2a、T2b、T2c等。测试包流向及测试过程类似,如图6所示,其中,测试过程与两个测试模组的测试过程类似,T2a\T2b\T2c仅仅作为跳线模组,直连。
参见图7的交叉互联的链路示意图,T2被动测试模组只是把信号作环回,其余类似组网情况不再赘述。
参见图8,对于同时测试交叉链路的场景,考虑只使用T1为主动模组,其他为被动模组。
参见图9,对于双向交叉的场景,考虑使用两个主动模组T1、T2。
参见图10,对于八个GPU或者16个GPU活其他变种的场景,均可采用上述基本模式,灵活组合即可,但基本原理都与本实施例前述一致,因此不再赘述。
本实施例完整的测试了GPU服务器OAM/SXM模组载板的连接器、PCB的状态。通过使用被动测试模组的方式,极大的降低了成本。
以上仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (6)

1.一种GPU服务器的测试设备,其特征在于,包括:
GPU模组获取单元,用于获取GPU模组载板中GPU模组的数量,GPU模组至少为两个;
GPU模组组网计算单元,用于基于GPU模组的数量计算出GPU模组的组网情况;
测试模组计算单元,用于基于GPU模组的组网情况计算主动测试模组的数量以及被动测试模组的数量;
至少两个GPU模组槽位,用于根据计算出的主动测试模组的数量以及被动测试模组的数量,将主动测试模组和被动测试模组放置在对应GPU模组槽位上;
测试模组配置单元,用于将主动测试模组配置为能够对数据包进行数据收发,以及能够统计链路误码,并用于将被动测试模组配置为跳线模组,且只能将进入被动测试模组的数据包进行内部环回后直接发送出去;
测试单元,用于基于测试程序控制主动测试模组在测试周期内,不同组网情况对应的链路场景下:主动测试模组和主动测试模组,或者主动测试模组和被动测试模组形成的链路中的测试过程,统计链路误码,得到测试结果,并根据测试结果,判断不同组网情况下主动测试模组和被动测试模组形成的链路是否正常。
2.一种GPU服务器的测试方法,应用于如权利要求1所述的一种GPU服务器的测试设备,其特征在于,包括如下步骤:
获取GPU模组载板中GPU模组的数量,GPU模组至少为两个;
基于GPU模组的数量计算出GPU模组的组网情况;
基于GPU模组的组网情况计算主动测试模组的数量以及被动测试模组的数量;
根据计算出的主动测试模组的数量以及被动测试模组的数量,将主动测试模组和被动测试模组放置在对应GPU模组槽位上;
将主动测试模组配置为能够对数据包进行数据收发,以及能够统计链路误码,并用于将被动测试模组配置为跳线模组,且只能将进入被动测试模组的数据包进行内部环回后直接发送出去;
基于测试程序控制主动测试模组在测试周期内,不同组网情况对应的链路场景下:主动测试模组和主动测试模组,或者主动测试模组和被动测试模组形成的链路中的测试过程,统计链路误码,得到测试结果,并根据测试结果,判断不同组网情况下主动测试模组和被动测试模组形成的链路是否正常。
3.根据权利要求2所述的一种GPU服务器的测试方法,其特征在于,当GPU模组的数量为两个时,在一个GPU模组槽位上放置一个第一主动测试模组,在另一个GPU模组槽位上放置一个第二主动测试模组,第一主动测试模组和第二主动测试模组均能够互相自发自收数据包;
基于测试程序控制这两个主动测试模组在测试周期内,当前组网情况对应的链路场景下:主动测试模组和主动测试模组形成的链路中的测试过程,统计这两个主动测试模组之间形成的链路中的链路误码,并判断其是否超过第一链路误码预设值,当未超过时,则表示两个主动测试模组之间的链路正常,否则不正常。
4.根据权利要求2所述的一种GPU服务器的测试方法,其特征在于,当GPU模组的数量为两个时,在一个GPU模组槽位上放置一个主动测试模组,在另一个GPU模组槽位上放置一个被动测试模组;
基于测试程序控制主动测试模组在测试周期内,当前组网情况对应的链路场景下:主动测试模组和被动测试模组形成的链路中的测试过程,统计这两个测试模组之间形成的链路中的链路误码,并判断其是否超过第二链路误码预设值,当未超过时,则表示两个测试模组之间的链路正常,否则不正常。
5.根据权利要求2所述的一种GPU服务器的测试方法,其特征在于,当GPU模组的数量为四个时,在一个GPU模组槽位上放置一个主动测试模组,分别在另外三个GPU模组槽位上分别放置一个被动测试模组,这三个被动测试模组均作为跳线模组;
基于测试程序控制主动测试模组在测试周期内,当前组网情况对应的四个GPU模组直接互联链路或者交叉链路的场景下:主动测试模组和三个被动测试模组形成的链路中的测试过程,统计这四个测试模组之间形成的链路中的链路误码,并判断其是否超过第三链路误码预设值,当未超过时,则表示四个测试模组之间的链路正常,否则不正常。
6.根据权利要求2所述的一种GPU服务器的测试方法,其特征在于,当GPU模组的数量为四个时,分别在两个GPU模组槽位上分别放置一个主动测试模组,分别在另外两个GPU模组槽位上分别放置一个被动测试模组,这两个被动测试模组均作为跳线模组;
基于测试程序控制主动测试模组在测试周期内,当前组网情况对应的四个GPU模组双向交叉链路的场景下:两个主动测试模组和两个被动测试模组形成的链路中的测试过程,统计这四个测试模组之间形成的链路中的链路误码,并判断其是否超过第四链路误码预设值,当未超过时,则表示四个测试模组之间的链路正常,否则不正常。
CN202310898060.9A 2023-07-21 2023-07-21 一种gpu服务器的测试设备及方法 Active CN116627746B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310898060.9A CN116627746B (zh) 2023-07-21 2023-07-21 一种gpu服务器的测试设备及方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310898060.9A CN116627746B (zh) 2023-07-21 2023-07-21 一种gpu服务器的测试设备及方法

Publications (2)

Publication Number Publication Date
CN116627746A true CN116627746A (zh) 2023-08-22
CN116627746B CN116627746B (zh) 2023-09-15

Family

ID=87638562

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310898060.9A Active CN116627746B (zh) 2023-07-21 2023-07-21 一种gpu服务器的测试设备及方法

Country Status (1)

Country Link
CN (1) CN116627746B (zh)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108280004A (zh) * 2018-01-22 2018-07-13 郑州云海信息技术有限公司 一种sxm2 gpu链路测试板卡及测试方法
CN112231158A (zh) * 2020-09-28 2021-01-15 苏州浪潮智能科技有限公司 一种测试多卡gpgpu集群浮点运算性能的方法及装置
DE102019218448A1 (de) * 2019-11-28 2021-06-02 Zf Friedrichshafen Ag Testen von Kombinationen aus Software und Hardware
TW202219760A (zh) * 2020-11-06 2022-05-16 圓剛科技股份有限公司 協同運算裝置及其協同運算方法
CN116074160A (zh) * 2023-02-06 2023-05-05 深圳市赋风科技有限公司 一种gpu渲染计算节点集群虚拟组网公网转发方法
CN116340073A (zh) * 2023-05-26 2023-06-27 苏州浪潮智能科技有限公司 测试方法、装置及系统

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108280004A (zh) * 2018-01-22 2018-07-13 郑州云海信息技术有限公司 一种sxm2 gpu链路测试板卡及测试方法
DE102019218448A1 (de) * 2019-11-28 2021-06-02 Zf Friedrichshafen Ag Testen von Kombinationen aus Software und Hardware
CN112231158A (zh) * 2020-09-28 2021-01-15 苏州浪潮智能科技有限公司 一种测试多卡gpgpu集群浮点运算性能的方法及装置
TW202219760A (zh) * 2020-11-06 2022-05-16 圓剛科技股份有限公司 協同運算裝置及其協同運算方法
CN116074160A (zh) * 2023-02-06 2023-05-05 深圳市赋风科技有限公司 一种gpu渲染计算节点集群虚拟组网公网转发方法
CN116340073A (zh) * 2023-05-26 2023-06-27 苏州浪潮智能科技有限公司 测试方法、装置及系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
蒋文斌;王宏斌;刘湃;陈雨浩;: "基于AVX2指令集的深度学习混合运算策略", 清华大学学报(自然科学版), vol. 60, no. 05, pages 47 - 53 *

Also Published As

Publication number Publication date
CN116627746B (zh) 2023-09-15

Similar Documents

Publication Publication Date Title
US6507923B1 (en) Integrated multi-channel fiber channel analyzer
CN1809176B (zh) 基于数字配线架的对线方法及其对线装置
US5842007A (en) Method and system for transferring high level control messaging framing and payload data in a serial stream in a communications system
CN116627746B (zh) 一种gpu服务器的测试设备及方法
CN101667991B (zh) 一种设置预加重和/或均衡参数的方法及装置
CN112214446A (zh) 板级RapidIO网络管理电路及网络管理方法
CN115729872A (zh) 一种计算设备及pcie线缆连接的检测方法
US20040153685A1 (en) Detecting intermittent losses of synchronization in a fibre channel loop
CN111324070B (zh) 基于fpga的ct串行探测器模块集群的调试方法
US7064961B2 (en) Communication device
CN101136807B (zh) 基于端口vlan的交换芯片端口检测方法
CN112219373B (zh) 海缆故障判断方法和装置
CN209842621U (zh) 高密度e1接口信令采集主板
CN114116584A (zh) 接口板卡、用户设备及cpu的测试系统
CN111984486A (zh) 一种cpu网络接口性能测试板卡、测试系统及测试方法
EP0870379A1 (en) Routine testing parity maintenance
US7478005B2 (en) Technique for testing interconnections between electronic components
CN116502585B (zh) 一种层叠式大容量信号采集传输系统及其设计方法
CN215956387U (zh) 误码测试装置
CN211856798U (zh) 一种系统板卡侦错装置
CN217087913U (zh) 一种200g光信号复用控制板卡
US6937157B1 (en) Smart cable for design of high density metallic cross connect systems
CN116184014A (zh) 一种可调链路损耗的芯片测试装置及方法
CN112256512B (zh) 一种基于glink总线的验证及测试通用系统
CN113726425B (zh) 一种有线通信方法、装置、设备及可读存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant