CN111352787B - 一种gpu拓扑连接检测方法、装置、设备及存储介质 - Google Patents

一种gpu拓扑连接检测方法、装置、设备及存储介质 Download PDF

Info

Publication number
CN111352787B
CN111352787B CN202010176197.XA CN202010176197A CN111352787B CN 111352787 B CN111352787 B CN 111352787B CN 202010176197 A CN202010176197 A CN 202010176197A CN 111352787 B CN111352787 B CN 111352787B
Authority
CN
China
Prior art keywords
gpu
cable
cpld
topology
dial switch
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010176197.XA
Other languages
English (en)
Other versions
CN111352787A (zh
Inventor
李然
慈潭龙
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Inspur Power Commercial Systems Co Ltd
Original Assignee
Inspur Power Commercial Systems Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Inspur Power Commercial Systems Co Ltd filed Critical Inspur Power Commercial Systems Co Ltd
Priority to CN202010176197.XA priority Critical patent/CN111352787B/zh
Publication of CN111352787A publication Critical patent/CN111352787A/zh
Application granted granted Critical
Publication of CN111352787B publication Critical patent/CN111352787B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/22Detection or location of defective computer hardware by testing during standby operation or during idle time, e.g. start-up testing
    • G06F11/2205Detection or location of defective computer hardware by testing during standby operation or during idle time, e.g. start-up testing using arrangements specific to the hardware being tested
    • G06F11/221Detection or location of defective computer hardware by testing during standby operation or during idle time, e.g. start-up testing using arrangements specific to the hardware being tested to test buses, lines or interfaces, e.g. stuck-at or open line faults
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/22Detection or location of defective computer hardware by testing during standby operation or during idle time, e.g. start-up testing
    • G06F11/2273Test methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/32Monitoring with visual or acoustical indication of the functioning of the machine
    • G06F11/324Display of status information
    • G06F11/325Display of status information by lamps or LED's
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/32Monitoring with visual or acoustical indication of the functioning of the machine
    • G06F11/324Display of status information
    • G06F11/327Alarm or error message display
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Abstract

本申请公开了一种GPU拓扑连接检测方法、装置、设备及存储介质,该方法包括:在GPU服务器中增设CPLD和与CPLD连接的拨码开关;通过调节拨码开关来选定用户所需的GPU拓扑的配置并发送至CPLD;在接上电源后无需开机,通过CPLD根据预先建立的不同GPU拓扑与CPLD接收的线缆ID之间的对应关系,判断当前线缆是否按照用户所需的GPU拓扑进行连接。这样通过拨码开关可以实现根据不同用户选定不同的GPU拓扑并将配置的GPU拓扑发送给CPLD,CPLD可以在GPU服务器插上电源的瞬间判断配置的GPU拓扑与实际的线缆接法是否匹配,进而自动检查线缆是否按照用户所需的GPU拓扑进行连接,操作简单,效率高。

Description

一种GPU拓扑连接检测方法、装置、设备及存储介质
技术领域
本发明涉及GPU服务器领域,特别是涉及一种GPU拓扑连接检测方法、装置、设备及存储介质。
背景技术
随着AI市场飞速发展、服务越来越智能化,图形处理器(Graphics ProcessingUnit,GPU)服务器已经成为各个AI公司的必需品。而对于各种各样的服务,单颗GPU已经无法满足人们的需求,从而在一个GPU服务器内,GPU的数量也在逐渐增多。随着GPU数量的增加,对于GPU的拓扑结构也有不同的需求。
目前,主流的GPU工作拓扑结构分别为balance、common以及cascade。图1至图3分别示出了这三种GPU工作拓扑的连接方式。而实现GPU工作拓扑的方式主要有两种:一种是通过开关切换,这种方式会引入多余的芯片,并且会使服务器增加更多的板卡数量或者PCB层数,从而导致成本的增加;另一种是使用线缆的方式,这种方式可以减小服务器尺寸,并且更为灵活。
但是,对于使用线缆的方式实现不同的GPU工作拓扑时,目前除了开机后登录系统查看设备是否符合拓扑外,没有别的办法查看线缆是否按照需求连接的。这就导致一个问题,若线缆接错了,就只能开机后,在OS下查看拓扑才能发现,然后需要关机重新更换线缆,操作较为复杂。
因此,如何自动检验GPU拓扑与接线方式是否匹配,是本领域技术人员亟待解决的技术问题。
发明内容
有鉴于此,本发明的目的在于提供一种GPU拓扑连接检测方法、装置、设备及存储介质,可以自动检验GPU拓扑与实际的线缆接法是否匹配,操作简单,效率高。其具体方案如下:
一种GPU拓扑连接检测方法,包括:
在GPU服务器中增设CPLD和与所述CPLD连接的拨码开关;
通过调节所述拨码开关来选定用户所需的GPU拓扑的配置并发送至所述CPLD;
在接上电源后无需开机,通过所述CPLD根据预先建立的不同GPU拓扑与所述CPLD接收的线缆ID之间的对应关系,判断当前线缆是否按照用户所需的GPU拓扑进行连接。
优选地,在本发明实施例提供的上述GPU拓扑连接检测方法中,判断当前线缆是否按照用户所需的GPU拓扑进行连接,具体包括:
将所述拨码开关发送的GPU拓扑的配置与当前线缆发送的线缆ID进行对比;
若对比结果与预先建立的所述对应关系不匹配,确定所述线缆连接错误;
若对比结果与预先建立的所述对应关系匹配,确定所述线缆连接正确。
优选地,在本发明实施例提供的上述GPU拓扑连接检测方法中,在确定所述线缆连接错误的同时,还包括:
将连接错误的所述线缆对应的警示灯点亮,以提醒相关人员更换所述线缆。
优选地,在本发明实施例提供的上述GPU拓扑连接检测方法中,还包括:
当未调节所述拨码开关时,在开机的瞬间,通过所述CPLD将当前线缆对应的警示灯全部点亮且闪烁,以提醒相关人员未配置GPU拓扑。
优选地,在本发明实施例提供的上述GPU拓扑连接检测方法中,通过调节所述拨码开关来选定用户所需的GPU拓扑的配置,具体包括:
当所述拨码开关为两位二进制拨码开关时,通过调节所述拨码开关将用户所需的GPU拓扑分别配置为01、10和11;其中00为未配置状态。
本发明实施例还提供了一种GPU拓扑连接检测装置,包括:CPLD和与所述CPLD连接的拨码开关;其中,
所述拨码开关,用于设置用户所需的GPU拓扑的配置并发送至所述CPLD;
所述CPLD,用于在接上电源后无需开机,根据预先建立的不同GPU拓扑与所述CPLD接收的线缆ID之间的对应关系,判断当前线缆是否按照用户所需的GPU拓扑进行连接。
优选地,在本发明实施例提供的上述GPU拓扑连接检测装置中,所述CPLD,具体用于将所述拨码开关发送的GPU拓扑的配置与当前线缆发送的线缆ID进行对比;若对比结果与预先建立的所述对应关系不匹配,确定所述线缆连接错误,同时将连接错误的所述线缆对应的警示灯点亮,以提醒相关人员更换所述线缆;若对比结果与预先建立的所述对应关系匹配,确定所述线缆连接正确。
优选地,在本发明实施例提供的上述GPU拓扑连接检测装置中,所述CPLD,还用于当未调节所述拨码开关时,在开机的瞬间,将当前线缆对应的警示灯全部点亮且闪烁,以提醒相关人员未配置GPU拓扑。
本发明实施例还提供了一种GPU拓扑连接检测设备,包括处理器和存储器,其中,所述处理器执行所述存储器中保存的计算机程序时实现如本发明实施例提供的上述GPU拓扑连接检测方法。
本发明实施例还提供了一种计算机可读存储介质,用于存储计算机程序,其中,所述计算机程序被处理器执行时实现如本发明实施例提供的上述GPU拓扑连接检测方法。
从上述技术方案可以看出,本发明所提供的一种GPU拓扑连接检测方法、装置、设备及存储介质,包括:在GPU服务器中增设CPLD和与CPLD连接的拨码开关;通过调节拨码开关来选定用户所需的GPU拓扑的配置并发送至CPLD;在接上电源后无需开机,通过CPLD根据预先建立的不同GPU拓扑与CPLD接收的线缆ID之间的对应关系,判断当前线缆是否按照用户所需的GPU拓扑进行连接。
本发明通过增设的拨码开关可以实现根据不同用户选定不同的GPU拓扑并将配置的GPU拓扑发送给CPLD,CPLD可以在GPU服务器插上电源的瞬间判断配置的GPU拓扑与实际的线缆接法是否匹配,进而自动检查线缆是否按照用户所需的GPU拓扑进行连接,由于不需要开机进入系统,只需要插上电源就可以检查出线缆是否接错,操作简单易行,提高了工作效率。
附图说明
为了更清楚地说明本发明实施例或相关技术中的技术方案,下面将对实施例或相关技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1至图3分别为现有的三种GPU工作拓扑的连接方式;
图4为本发明实施例提供的GPU拓扑连接检测方法流程图;
图5为本发明实施例提供的自动检验GPU拓扑与接线方式是否匹配的框架图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明提供一种GPU拓扑连接检测方法,如图4所示,包括以下步骤:
S401、在GPU服务器中增设CPLD和与CPLD连接的拨码开关;
S402、通过调节拨码开关来选定用户所需的GPU拓扑的配置并发送至CPLD;
在实际应用中,通过增设的拨码开关,首先根据不同用户需求,选定使用哪种GPU工作拓扑,如balance、common或cascade,然后将配置的GPU拓扑发送给CPLD;
S403、在接上电源后无需开机,通过CPLD根据预先建立的不同GPU拓扑与CPLD接收的线缆ID之间的对应关系,判断当前线缆是否按照用户所需的GPU拓扑进行连接;
需要说明的是,不同的线缆接法会发送给CPLD不同的拓扑密码(如二进制数字窜),该拓扑密码就是线缆ID;根据预先建立的不同GPU拓扑与CPLD接收的线缆ID之间的对应关系,以及拨码开关发送的GPU拓扑的配置,通过CPLD就可以判断当前接好的线缆是否按照用户所需的GPU拓扑进行连接。
在本发明实施例提供的上述GPU拓扑连接检测方法中,通过增设的拨码开关可以实现根据不同用户选定不同的GPU拓扑并将配置的GPU拓扑发送给CPLD,CPLD可以在GPU服务器插上电源的瞬间判断配置的GPU拓扑与实际的线缆接法是否匹配,进而自动检查线缆是否按照用户所需的GPU拓扑进行连接,由于不需要开机进入系统,只需要插上电源就可以检查出线缆是否接错,操作简单易行,提高了工作效率。
在具体实施时,在本发明实施例提供的上述GPU拓扑连接检测方法中,步骤S402通过调节拨码开关来选定用户所需的GPU拓扑的配置,具体可以包括:当拨码开关为两位二进制拨码开关时,通过调节拨码开关将用户所需的GPU拓扑分别配置为01、10和11;其中00为未配置状态。例如:balance配置为01,common配置为10,cascade配置为11。
在具体实施时,在本发明实施例提供的上述GPU拓扑连接检测方法中,步骤S403判断当前线缆是否按照用户所需的GPU拓扑进行连接,具体可以包括:将拨码开关发送的GPU拓扑的配置与当前线缆发送的线缆ID进行对比;若对比结果与预先建立的对应关系不匹配,确定线缆连接错误;若对比结果与预先建立的对应关系匹配,确定线缆连接正确。
在实际应用中,假设拨码开关发送的GPU拓扑的配置为01,预先建立的对应关系是GPU拓扑的配置为01时,CPLD接收的线缆ID应为00,若当前线缆发送的线缆ID为01,说明对比结果与预先建立的对应关系不匹配,确定线缆连接错误,需要更换线缆,重新连接;若当前线缆发送的线缆ID为00,说明对比结果与预先建立的对应关系0匹配,确定线缆连接正确。
进一步地,在具体实施时,在本发明实施例提供的上述GPU拓扑连接检测方法中,在确定线缆连接错误的同时,还可以包括:将连接错误的线缆对应的警示灯点亮,以提醒相关人员更换线缆。
需要注意的是,在自动检查GPU线缆是否插错的同时,可以定位线缆插错的位置。具体地,在配置的GPU拓扑与实际的线缆接法不匹配时,CPLD可以通过线缆对应的警示灯确认是哪根线缆接的有问题而不需要等到进入系统后再确认接法是否正确,例如将接错的线缆对应的警示灯(如红色灯)点亮,让组装机器的工作人员及时更改。
在具体实施时,在本发明实施例提供的上述GPU拓扑连接检测方法中,还可以包括:当未调节拨码开关时,在开机的瞬间,通过CPLD将当前线缆对应的警示灯全部点亮且闪烁,以提醒相关人员未配置GPU拓扑。
下面以两路GPU服务器为例对本发明实施例提供的上述GPU拓扑连接检测方法进行详细的说明:
如图5所示,conn0、conn1、conn2为主板接GPU的连接器;conn3、conn4、conn5为GPU板的连接器。L1为conn3的警示灯;L2为conn5的警示灯。图5中GPU板上有一个两位二进制拨码开关(即能实现00/01/10/11)。
下表一是预先建立的不同GPU拓扑与CPLD接收的线缆ID之间的对应关系:
表一
具体的方法步骤如下:首先通过拨码开关设置用户所需的GPU拓扑(01/10/11),其中00为未配置状态;如果配置人员忘记调节拨码开关,在开机的瞬间,CPLD会使L1和L2灯闪烁,以提醒工作人员未配置GPU拓扑。在选定完GPU拓扑后,线缆的连接关系也完成,在接上电源后无需开机,CPLD会将拨码开关选定的配置与线缆实际接法的进行对比,当CPLD对比出两边的设置(ID)不匹配的时候,会以拨码开关选择的配置为准,然后对比线缆实际连接设置,将错误的线缆ID值对应的警示灯点亮,提醒工作人员线缆连接错误。
通过使用上面描述的方法,可以在GPU服务器插上电源的瞬间就知道线缆是否按照用户所需的GPU拓扑连接正确,而不需要开机且进入OS系统查看,如果接法不正确,可以通过线缆状态灯确认哪根线缆接错。
基于同一发明构思,本发明实施例还提供了一种GPU拓扑连接检测装置,由于该装置解决问题的原理与前述一种GPU拓扑连接检测方法相似,因此该装置的实施可以参见GPU拓扑连接检测方法的实施,重复之处不再赘述。
在具体实施时,本发明实施例提供的GPU拓扑连接检测装置,具体包括:CPLD和与CPLD连接的拨码开关;其中,
拨码开关,用于设置用户所需的GPU拓扑的配置并发送至CPLD;
CPLD,用于在接上电源后无需开机,根据预先建立的不同GPU拓扑与CPLD接收的线缆ID之间的对应关系,判断当前线缆是否按照用户所需的GPU拓扑进行连接。
在本发明实施例提供的上述GPU拓扑连接检测装置中,通过拨码开关可以实现根据不同用户选定不同的GPU拓扑并将配置的GPU拓扑发送给CPLD,CPLD可以在GPU服务器插上电源的瞬间自动检查线缆是否按照用户所需的GPU拓扑进行连接,操作简单,工作效率高。
在具体实施时,在本发明实施例提供的上述GPU拓扑连接检测装置中,CPLD,具体可以用于将拨码开关发送的GPU拓扑的配置与当前线缆发送的线缆ID进行对比;若对比结果与预先建立的对应关系不匹配,确定线缆连接错误,同时将连接错误的线缆对应的警示灯点亮,以提醒相关人员更换线缆;若对比结果与预先建立的对应关系匹配,确定线缆连接正确。
进一步地,在具体实施时,在本发明实施例提供的上述GPU拓扑连接检测装置中,CPLD,还可以用于当未调节拨码开关时,在开机的瞬间,将当前线缆对应的警示灯全部点亮且闪烁,以提醒相关人员未配置GPU拓扑。
关于上述部件更加具体的工作过程可以参考前述实施例公开的相应内容,在此不再进行赘述。
相应的,本发明实施例还公开了一种GPU拓扑连接检测设备,包括处理器和存储器;其中,处理器执行存储器中保存的计算机程序时实现前述实施例公开的GPU拓扑连接检测方法。
关于上述方法更加具体的过程可以参考前述实施例中公开的相应内容,在此不再进行赘述。
进一步的,本发明还公开了一种计算机可读存储介质,用于存储计算机程序;计算机程序被处理器执行时实现前述公开的GPU拓扑连接检测方法。
关于上述方法更加具体的过程可以参考前述实施例中公开的相应内容,在此不再进行赘述。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其它实施例的不同之处,各个实施例之间相同或相似部分互相参见即可。对于实施例公开的装置、设备、存储介质而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
专业人员还可以进一步意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。
结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件模块,或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。
本发明实施例提供的一种GPU拓扑连接检测方法、装置、设备及存储介质,包括:在GPU服务器中增设CPLD和与CPLD连接的拨码开关;通过调节拨码开关来选定用户所需的GPU拓扑的配置并发送至CPLD;在接上电源后无需开机,通过CPLD根据预先建立的不同GPU拓扑与CPLD接收的线缆ID之间的对应关系,判断当前线缆是否按照用户所需的GPU拓扑进行连接。这样通过增设的拨码开关可以实现根据不同用户选定不同的GPU拓扑并将配置的GPU拓扑发送给CPLD,CPLD可以在GPU服务器插上电源的瞬间判断配置的GPU拓扑与实际的线缆接法是否匹配,进而自动检查线缆是否按照用户所需的GPU拓扑进行连接,由于不需要开机进入系统,只需要插上电源就可以检查出线缆是否接错,操作简单易行,提高了工作效率。
最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
以上对本发明所提供的GPU拓扑连接检测方法、装置、设备及存储介质进行了详细介绍,本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。

Claims (10)

1.一种GPU拓扑连接检测方法,其特征在于,包括:
在GPU服务器中增设CPLD和与所述CPLD连接的拨码开关;
通过调节所述拨码开关来选定用户所需的GPU拓扑的配置并发送至所述CPLD;
在接上电源后无需开机,通过所述CPLD根据预先建立的不同GPU拓扑与所述CPLD接收的GPU线缆ID之间的对应关系,判断当前GPU线缆是否按照用户所需的GPU拓扑进行连接。
2.根据权利要求1所述的GPU拓扑连接检测方法,其特征在于,判断当前GPU线缆是否按照用户所需的GPU拓扑进行连接,具体包括:
将所述拨码开关发送的GPU拓扑的配置与当前GPU线缆发送的GPU线缆ID进行对比;
若对比结果与预先建立的所述对应关系不匹配,确定所述GPU线缆连接错误;
若对比结果与预先建立的所述对应关系匹配,确定所述GPU线缆连接正确。
3.根据权利要求2所述的GPU拓扑连接检测方法,其特征在于,在确定所述GPU线缆连接错误的同时,还包括:
将连接错误的所述GPU线缆对应的警示灯点亮,以提醒相关人员更换所述GPU线缆。
4.根据权利要求1所述的GPU拓扑连接检测方法,其特征在于,还包括:
当未调节所述拨码开关时,在开机的瞬间,通过所述CPLD将当前GPU线缆对应的警示灯全部点亮且闪烁,以提醒相关人员未配置GPU拓扑。
5.根据权利要求1所述的GPU拓扑连接检测方法,其特征在于,通过调节所述拨码开关来选定用户所需的GPU拓扑的配置,具体包括:
当所述拨码开关为两位二进制拨码开关时,通过调节所述拨码开关将用户所需的GPU拓扑分别配置为01、10和11;其中00为未配置状态。
6.一种GPU拓扑连接检测装置,其特征在于,包括:CPLD和与所述CPLD连接的拨码开关;其中,
所述拨码开关,用于设置用户所需的GPU拓扑的配置并发送至所述CPLD;
所述CPLD,用于在接上电源后无需开机,根据预先建立的不同GPU拓扑与所述CPLD接收的GPU线缆ID之间的对应关系,判断当前GPU线缆是否按照用户所需的GPU拓扑进行连接。
7.根据权利要求6所述的GPU拓扑连接检测装置,其特征在于,所述CPLD,具体用于将所述拨码开关发送的GPU拓扑的配置与当前GPU线缆发送的GPU线缆ID进行对比;若对比结果与预先建立的所述对应关系不匹配,确定所述GPU线缆连接错误,同时将连接错误的所述GPU线缆对应的警示灯点亮,以提醒相关人员更换所述GPU线缆;若对比结果与预先建立的所述对应关系匹配,确定所述GPU线缆连接正确。
8.根据权利要求7所述的GPU拓扑连接检测装置,其特征在于,所述CPLD,还用于当未调节所述拨码开关时,在开机的瞬间,将当前GPU线缆对应的警示灯全部点亮且闪烁,以提醒相关人员未配置GPU拓扑。
9.一种GPU拓扑连接检测设备,其特征在于,包括处理器和存储器,其中,所述处理器执行所述存储器中保存的计算机程序时实现如权利要求1至5任一项所述的GPU拓扑连接检测方法。
10.一种计算机可读存储介质,其特征在于,用于存储计算机程序,其中,所述计算机程序被处理器执行时实现如权利要求1至5任一项所述的GPU拓扑连接检测方法。
CN202010176197.XA 2020-03-13 2020-03-13 一种gpu拓扑连接检测方法、装置、设备及存储介质 Active CN111352787B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010176197.XA CN111352787B (zh) 2020-03-13 2020-03-13 一种gpu拓扑连接检测方法、装置、设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010176197.XA CN111352787B (zh) 2020-03-13 2020-03-13 一种gpu拓扑连接检测方法、装置、设备及存储介质

Publications (2)

Publication Number Publication Date
CN111352787A CN111352787A (zh) 2020-06-30
CN111352787B true CN111352787B (zh) 2023-08-18

Family

ID=71192806

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010176197.XA Active CN111352787B (zh) 2020-03-13 2020-03-13 一种gpu拓扑连接检测方法、装置、设备及存储介质

Country Status (1)

Country Link
CN (1) CN111352787B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112463704B (zh) * 2020-11-25 2022-11-11 苏州浪潮智能科技有限公司 一种机箱拓扑识别方法、装置、设备及存储介质
CN113064850A (zh) * 2021-04-09 2021-07-02 中科可控信息产业有限公司 拓扑检测处理方法、装置、服务器及可读存储介质

Citations (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104750166A (zh) * 2015-03-30 2015-07-01 福州瑞芯微电子有限公司 一种动态时钟拓扑结构的共享方法及装置
CN105324958A (zh) * 2013-06-19 2016-02-10 阿尔卡特朗讯公司 在配电通信网络中提供安全通信的方法、服务器以及客户端
CN206162318U (zh) * 2016-10-26 2017-05-10 郑州云海信息技术有限公司 一种具有供电线缆排置结构的gpu
CN107632953A (zh) * 2017-09-14 2018-01-26 郑州云海信息技术有限公司 一种gpu箱pcie扩展互连拓扑装置
CN107911251A (zh) * 2017-12-08 2018-04-13 锐捷网络股份有限公司 一种网络设备配置方法、装置和介质
CN108845970A (zh) * 2018-05-30 2018-11-20 郑州云海信息技术有限公司 一种自由切换gpu服务器拓扑的装置及方法
CN108934013A (zh) * 2017-05-26 2018-12-04 中兴通讯股份有限公司 一种无线网络功能虚拟化方法及装置
CN109002411A (zh) * 2018-07-24 2018-12-14 郑州云海信息技术有限公司 自动配置gpu扩展箱的方法、系统及可自动配置的gpu扩展箱
CN109189627A (zh) * 2018-10-08 2019-01-11 郑州云海信息技术有限公司 一种硬盘故障监控检测方法、装置、终端及存储介质
CN109753396A (zh) * 2019-01-16 2019-05-14 浪潮商用机器有限公司 一种存储系统的线缆自检方法、系统及服务器
US10325343B1 (en) * 2017-08-04 2019-06-18 EMC IP Holding Company LLC Topology aware grouping and provisioning of GPU resources in GPU-as-a-Service platform
CN110347625A (zh) * 2019-09-06 2019-10-18 深圳市同泰怡信息技术有限公司 一种无线缆切换gpu拓扑的方法、装置以及设备
CN110377556A (zh) * 2019-06-26 2019-10-25 苏州浪潮智能科技有限公司 基于Retimer的通用计算模块与异构计算模块的适配装置及方法
CN110554881A (zh) * 2019-08-02 2019-12-10 苏州浪潮智能科技有限公司 一种基于cpld的交换芯片工作模式远程切换系统及方法

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20130339978A1 (en) * 2012-06-13 2013-12-19 Advanced Micro Devices, Inc. Load balancing for heterogeneous systems
US10375038B2 (en) * 2016-11-30 2019-08-06 International Business Machines Corporation Symmetric multiprocessing management
US10733690B2 (en) * 2018-05-17 2020-08-04 Intel Corporation GPU mixed primitive topology type processing

Patent Citations (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105324958A (zh) * 2013-06-19 2016-02-10 阿尔卡特朗讯公司 在配电通信网络中提供安全通信的方法、服务器以及客户端
CN104750166A (zh) * 2015-03-30 2015-07-01 福州瑞芯微电子有限公司 一种动态时钟拓扑结构的共享方法及装置
CN206162318U (zh) * 2016-10-26 2017-05-10 郑州云海信息技术有限公司 一种具有供电线缆排置结构的gpu
CN108934013A (zh) * 2017-05-26 2018-12-04 中兴通讯股份有限公司 一种无线网络功能虚拟化方法及装置
US10325343B1 (en) * 2017-08-04 2019-06-18 EMC IP Holding Company LLC Topology aware grouping and provisioning of GPU resources in GPU-as-a-Service platform
CN107632953A (zh) * 2017-09-14 2018-01-26 郑州云海信息技术有限公司 一种gpu箱pcie扩展互连拓扑装置
CN107911251A (zh) * 2017-12-08 2018-04-13 锐捷网络股份有限公司 一种网络设备配置方法、装置和介质
CN108845970A (zh) * 2018-05-30 2018-11-20 郑州云海信息技术有限公司 一种自由切换gpu服务器拓扑的装置及方法
CN109002411A (zh) * 2018-07-24 2018-12-14 郑州云海信息技术有限公司 自动配置gpu扩展箱的方法、系统及可自动配置的gpu扩展箱
CN109189627A (zh) * 2018-10-08 2019-01-11 郑州云海信息技术有限公司 一种硬盘故障监控检测方法、装置、终端及存储介质
CN109753396A (zh) * 2019-01-16 2019-05-14 浪潮商用机器有限公司 一种存储系统的线缆自检方法、系统及服务器
CN110377556A (zh) * 2019-06-26 2019-10-25 苏州浪潮智能科技有限公司 基于Retimer的通用计算模块与异构计算模块的适配装置及方法
CN110554881A (zh) * 2019-08-02 2019-12-10 苏州浪潮智能科技有限公司 一种基于cpld的交换芯片工作模式远程切换系统及方法
CN110347625A (zh) * 2019-09-06 2019-10-18 深圳市同泰怡信息技术有限公司 一种无线缆切换gpu拓扑的方法、装置以及设备

Also Published As

Publication number Publication date
CN111352787A (zh) 2020-06-30

Similar Documents

Publication Publication Date Title
CN111352787B (zh) 一种gpu拓扑连接检测方法、装置、设备及存储介质
CN106055438A (zh) 一种快速定位主板上内存条异常的方法及系统
US20070143058A1 (en) System and method for testing an input/output functional board
WO2014082275A1 (zh) 线缆插接情况的检测方法及装置
CN111856256A (zh) 快充设备测试系统及其测试方法
CN114623756B (zh) 插接到位检测装置及电子设备
CN110618744A (zh) 一种新型的GPU Carrier板卡
US8769178B2 (en) Shock test device
US6944425B2 (en) Method and apparatus for providing wireless diagnostics, authentication, and redundancy of wired circuitry
CN109933498A (zh) 一种硬盘的混合点灯系统、控制装置及服务器
US7216241B2 (en) Self-testing power supply which indicates when an output voltage is within tolerance while not coupled to an external load
CN113868037B (zh) 一种判断硬盘背板线缆连接准确性的系统和方法
CN116010141A (zh) 一种多路服务器启动异常定位方法、装置及其介质
CN115687021A (zh) 一种服务器内存部署方法及服务器
CN113726543B (zh) 运维业务处理方法、装置、系统、服务器及存储介质
CN110955565A (zh) 服务器及其侦错方法
CN111144733B (zh) 平台识别方法、装置、计量自动化终端和可读存储介质
CN114327013B (zh) 一种psu供电故障的检测方法、装置及服务器
CN105847503B (zh) 一种手机主板与子板连接状态检测装置
US20240119023A1 (en) Multicore system and method for communication within the same
CN219201722U (zh) 软排线测试装置
CN114200346A (zh) 一种服务器系统内线缆通断检测装置和方法
CN214896250U (zh) 一种可靠性实验室监控电路
US11729063B1 (en) Visually guided topology wiring
CN114935968B (zh) 一种电源板卡和服务器

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant