CN108173735A - 一种GPU Box服务器级联通信方法、装置及系统 - Google Patents
一种GPU Box服务器级联通信方法、装置及系统 Download PDFInfo
- Publication number
- CN108173735A CN108173735A CN201810044572.8A CN201810044572A CN108173735A CN 108173735 A CN108173735 A CN 108173735A CN 201810044572 A CN201810044572 A CN 201810044572A CN 108173735 A CN108173735 A CN 108173735A
- Authority
- CN
- China
- Prior art keywords
- gpu box
- servers
- gpu
- box servers
- next stage
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000004891 communication Methods 0.000 title claims abstract description 108
- 238000000034 method Methods 0.000 title claims abstract description 35
- 238000001514 detection method Methods 0.000 claims description 3
- 238000012545 processing Methods 0.000 description 11
- 238000010586 diagram Methods 0.000 description 3
- 238000013473 artificial intelligence Methods 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000005611 electricity Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 230000001105 regulatory effect Effects 0.000 description 1
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L67/00—Network arrangements or protocols for supporting network services or applications
- H04L67/14—Session management
- H04L67/141—Setup of application sessions
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L12/00—Data switching networks
- H04L12/28—Data switching networks characterised by path configuration, e.g. LAN [Local Area Networks] or WAN [Wide Area Networks]
- H04L12/40—Bus networks
- H04L12/40006—Architecture of a communication node
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T1/00—General purpose image data processing
- G06T1/20—Processor architectures; Processor configuration, e.g. pipelining
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L41/00—Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
- H04L41/04—Network management architectures or arrangements
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L41/00—Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
- H04L41/12—Discovery or management of network topologies
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L69/00—Network arrangements, protocols or services independent of the application payload and not provided for in the other groups of this subclass
- H04L69/16—Implementation or adaptation of Internet protocol [IP], of transmission control protocol [TCP] or of user datagram protocol [UDP]
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L12/00—Data switching networks
- H04L12/28—Data switching networks characterised by path configuration, e.g. LAN [Local Area Networks] or WAN [Wide Area Networks]
- H04L12/40—Bus networks
- H04L2012/40208—Bus networks characterized by the use of a particular bus standard
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L41/00—Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
- H04L41/16—Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks using machine learning or artificial intelligence
Landscapes
- Engineering & Computer Science (AREA)
- Computer Networks & Wireless Communication (AREA)
- Signal Processing (AREA)
- Computer Security & Cryptography (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Computer And Data Communications (AREA)
- Data Exchanges In Wide-Area Networks (AREA)
Abstract
本发明公开了一种GPU Box服务器级联通信方法、装置及系统,包括通过上电后的GPU Box服务器中的基板管理控制器BMC对i2c通信总线进行检测,确定是否存在与GPU Box服务器对应的下一级GPU Box服务器,若是,则通过GPU Box服务器中的BMC从i2c通信总线中读取下一级GPU Box服务器的IP地址和位置信息;将下一级GPU Box服务器的IP地址和位置信息存储至GPU Box服务器的数据结构中以便总控制服务器读取GPU Box服务器的数据结构,并依据该数据结构中存储的IP地址和位置信息建立与下一级GPU Box服务器之间的网络通信。实现了总控制服务器对相应的GPU Box服务器的通信管理。
Description
技术领域
本发明实施例涉及服务器管理技术领域,特别是涉及一种GPU Box服务器级联通信方法、装置及系统。
背景技术
随着人工智能的发展,深度学习在人工智能领域的应用越来越广泛,应用市场对GPU(Graphics Processing Unit,图形处理器)box服务器的需求越来越大,因此,对GPUbox服务器的开发成为目前炙手可热的项目。GPU box服务器上集成有大量的GPU模块,用于对大量数据的处理与计算,具有优越的性能。将多个GPU box服务器级联在一起,可以进一步提高GPU box整机柜的数据处理和运算能力。那么,如何对GPU box整机柜上不同的GPUbox服务器进行通信管理便成为了一项极为重要的管理需求。
因此,如何提供一种解决上述技术问题的GPU box服务器级联通信方法、装置及系统成为本领域技术人员目前亟待解决的问题。
发明内容
本发明实施例的目的是提供一种GPU Box服务器级联通信方法、装置及系统,能够实现总控制服务器对相应的GPU Box服务器的通信管理,保证了GPU Box服务器的运行性能,大大提升了GPU Box服务器的数据处理和计算能力。
为解决上述技术问题,本发明实施例提供了一种GPU Box服务器级联通信方法,包括:
S11:通过上电后的GPU Box服务器中的基板管理控制器BMC对i2c通信总线进行检测,以确定是否存在与所述GPU Box服务器对应的下一级GPU Box服务器,如果是,则进入S12;
S12:通过所述GPU Box服务器中的BMC从所述i2c通信总线中读取所述下一级GPUBox服务器的IP地址和位置信息;
S13:将所述下一级GPU Box服务器的IP地址和位置信息存储至所述GPU Box服务器的数据结构中,以便总控制服务器读取所述GPU Box服务器的数据结构,并依据所述GPUBox服务器的数据结构中存储的IP地址和位置信息建立所述总控制服务器与所述下一级GPU Box服务器之间的网络通信。
可选的,所述方法还包括:
通过所述总控制服务器从所述i2c通信总线中读取所述GPU Box服务器的IP地址,并依据所述GPU Box服务器的IP地址建立所述总控制服务器与所述GPU Box服务器的网络通信。
可选的,通过所述GPU Box服务器中的BMC从所述i2c通信总线中读取所述下一级GPU Box服务器的IP地址和位置信息之后,还包括:
通过所述GPU Box服务器中的BMC从所述i2c通信总线读取所述下一级GPU Box服务器的数据结构;所述下一级GPU Box服务器的数据结构中存储有与所述下一级GPU Box服务器对应的下级GPU Box服务器的IP地址和位置信息;
将所述下一级GPU Box服务器的数据结构中存储的、与所述下一级GPU Box服务器对应的下级GPU Box服务器的IP地址和位置信息添加至所述GPU Box服务器的数据结构中,以便所述总控制服务器依据所述GPU Box服务器的数据结构中存储的各个IP地址和相应的位置信息建立所述总控制服务器与相应的GPU Box服务器之间的网络通信。
可选的,通过所述GPU Box服务器中的BMC从所述i2c通信总线中读取所述下一级GPU Box服务器的IP地址和位置信息之后,还包括:
依据所述下一级GPU Box服务器的IP地址建立所述GPU Box服务器与所述下一级GPU Box服务器之间的网络通信。
可选的,通过所述GPU Box服务器中的BMC从所述i2c通信总线读取所述下一级GPUBox服务器的数据结构之后,还包括:
依据所述下一级GPU Box服务器的数据结构中存储的、与所述下一级GPU Box服务器对应的下级GPU Box服务器的IP地址建立所述GPU Box服务器与所述下级GPU Box服务器之间的网络通信。
本发明实施例相应的提供了一种GPU Box服务器级联通信装置,包括
检测模块,用于通过上电后的GPU Box服务器中的基板管理控制器BMC对i2c通信总线进行检测,以确定是否存在与所述GPU Box服务器对应的下一级GPU Box服务器,如果是,则触发读取模块;
所述读取模块,用于通过所述GPU Box服务器中的BMC从所述i2c通信总线中读取所述下一级GPU Box服务器的IP地址和位置信息;
存储模块,用于将所述下一级GPU Box服务器的IP地址和位置信息存储至所述GPUBox服务器的数据结构中,以便总控制服务器读取所述GPU Box服务器的数据结构,并依据所述GPU Box服务器的数据结构中存储的IP地址和位置信息建立所述总控制服务器与所述下一级GPU Box服务器之间的网络通信。
可选的,还包括:
建立模块,用于通过所述总控制服务器从所述i2c通信总线中读取所述GPU Box服务器的IP地址,并依据所述GPU Box服务器的IP地址建立所述总控制服务器与所述GPU Box服务器的网络通信。
本发明实施例提供了一种GPU Box服务器级联通信系统,包括如上述所述GPU Box服务器级联通信装置。
本发明实施例提供了一种GPU Box服务器级联通信方法、装置及系统,包括通过上电后的GPU Box服务器中的基板管理控制器BMC对i2c通信总线进行检测,以确定是否存在与GPU Box服务器对应的下一级GPU Box服务器,如果是,则通过GPU Box服务器中的BMC从i2c通信总线中读取下一级GPU Box服务器的IP地址和位置信息;将下一级GPU Box服务器的IP地址和位置信息存储至GPU Box服务器的数据结构中,以便总控制服务器读取GPU Box服务器的数据结构,并依据GPU Box服务器的数据结构中存储的IP地址和位置信息建立总控制服务器与下一级GPU Box服务器之间的网络通信。
本发明实施例中的GPU Box服务器在上电后,位于该GPU Box服务器内部的BMC将通过i2c通信总线检测该GPU Box服务器的下一级GPU Box服务器是否存在,并且当存在下一级GPU Box服务器时,通过i2c通信总线即可读出下一级GPU Box服务器的IP地址及其位置信息,并将下一级GPU Box服务器的IP地址及其位置信息存储至自身的数据结构,总控制服务器通过读取GPU Box服务器的数据结构便可以获取下一级GPU Box服务器的IP地址和位置信息,总控制服务器依据该IP地址和相应的位置信息建立与下一级GPU Box服务器之间的网络通信,从而实现总控制服务器对相应的GPU Box服务器的通信管理,保证了GPUBox服务器的运行性能,大大提升了GPU Box服务器的数据处理和计算能力。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对现有技术和实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的一种GPU Box服务器级联通信方法的流程示意图;
图2为本发明实施例提供的一种GPU Box服务器级联通信装置的结构示意图。
具体实施方式
本发明实施例提供了一种GPU Box服务器级联通信方法、装置及系统,能够实现总控制服务器对相应的GPU Box服务器的通信管理,保证了GPU Box服务器的运行性能,大大提升了GPU Box服务器的数据处理和计算能力。
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
请参照图1,图1为本发明实施例提供的一种GPU Box服务器级联通信方法的流程示意图。
该方法包括:
S11:通过上电后的GPU Box服务器中的BMC(Baseboard Management Controller,基板管理控制器)对i2c通信总线进行检测,以确定是否存在与GPU Box服务器对应的下一级GPU Box服务器,如果是,则进入S12;
S12:通过GPU Box服务器中的BMC从i2c通信总线中读取下一级GPU Box服务器的IP地址和位置信息;
S13:将下一级GPU Box服务器的IP地址和位置信息存储至GPU Box服务器的数据结构中,以便总控制服务器读取GPU Box服务器的数据结构,并依据GPU Box服务器的数据结构中存储的IP地址和位置信息建立总控制服务器与下一级GPU Box服务器之间的网络通信。
需要说明的是,在整机柜中部署多个GPU Box服务器时,可以预先通过i2c通信总线将各个GPU Box服务器进行物理连接,总控制服务器也通过i2c通信总线与各个GPU Box服务器进行物理连接,每个GPU Box服务器中均具有一个BMC。本申请中,当GPU Box服务器上电后,位于GPU Box服务器中的BMC就会对i2c通信总线进行检测,由于i2c通信总线会记录接入的各个GPU Box服务器的具体信息,所以通过i2c总线即可判断出当前的GPU Box服务器是否存在下一级GPU Box服务器,也即,在当前的GPU Box服务器的下面是否有接入下一级GPU Box服务器,如果有,则当前的GPU Box服务器中的BMC可以通过i2c总线读取下一级GPU Box服务器的IP地址和位置信息,并且将下一级GPU Box服务器的IP地址和位置信息存储至自身的数据结构中,总控制服务器可以通过读取该当前的GPU Box服务器中的数据结构获取位于该当前的GPU Box服务器下级的GPU Box服务器(即下一级GPU Box服务器)的IP地址和位置信息,总控制服务器依据该IP地址即可建立与该下一级GPU Box服务器的网络通信,依据相应的位置信息确定该下一级GPU Box服务器的在多个GPU Box服务器构成的级联拓扑中的位置,以实现总控制服务器对相应的GPU Box服务器的通信管理。
具体的,整机柜中的每个上电后的GPU Box服务器中的BMC均会对i2c总线进行检测,以检测出是否存在与该BMC对应的GPU Box服务器的下一级GPU Box服务器。例如,i2c总线上连接有3个GPU Box服务器,级别从上至下依次为第一GPU Box服务器、第二GPU Box服务器和第三GPU Box服务器,则在3个GPU Box服务器上电后,位于第一GPU Box服务器内部的BMC会通过i2c检测是否存在下一级GPU Box服务器,第二GPU Box服务器中的BMC也会通过i2c检测是否存在下一级GPU Box服务器,第三GPU Box服务器中的BMC也会通过i2c检测是否存在下一级GPU Box服务器。第一GPU Box服务器内部的BMC通过对i2c检测可知,存在下一级GPU Box服务器,该下一级GPU Box服务器为第二GPU Box服务器,此时获取第二GPUBox服务器的IP地址及位置信息,存储至第一GPU Box服务器的数据结构中;第二GPU Box服务器内部的BMC通过对i2c检测可知,存在下一级GPU Box服务器(即第三GPU Box服务器),此时获取第三GPU Box服务器的IP地址及位置信息,并存储至第二GPU Box服务器的数据结构中;第三GPU Box服务器内部的BMC通过对i2c检测可知,不存在相应的下一级GPU Box服务器,也即第三GPU Box服务器为最后一级GPU Box服务器。
具体的,对于i2c总线上连接有3个GPU Box服务器时,建立总控制服务器与相应的GPU Box服务器之间的网络通信的过程具体为:
总控制服务器可以通过i2c直接与第一GPU Box服务器进行通信控制,总控制服务器可以通过i2c通信总线读取第一GPU Box服务器的数据结构,并通过该数据结构中记录的第二GPU Box服务器的IP地址建立总控制服务器与第二GPU Box服务器的网络通信,依据相应的位置信息确定该第二GPU Box服务器与第一GPU Box服务器的层级关系;当总控制服务器需要建立与第三GPU Box服务器之间的网络通信时,则总控制服务器可以通过i2c通信总线和第一GPU Box服务器读取第二GPU Box服务器中的数据结构,从而读取第三GPU Box服务器的IP地址和位置信息,并进一步建立与第三GPU Box服务器之间的网络通信,以及确定第二GPU Box服务器和第三GPU Box服务器的层级关系。
进一步的,该方法还包括:
通过总控制服务器从i2c通信总线中读取GPU Box服务器的IP地址,并依据GPUBox服务器的IP地址建立总控制服务器与GPU Box服务器的网络通信。
需要说明的是,为了进一步提高对整机柜中的各个GPU Box服务器的控制管理,本发明实施例中的总控制服务器不仅可以建立与下一级GPU Box服务器的网络通信,还可以依据当前的GPU Box服务器的IP建立与本级GPU Box服务器的网络通信。例如,本发明实施例中的总控制服务器可以依据第一GPU Box服务器的IP地址建立与第一GPU Box服务器的网络通信,进一步提高数据处理和计算能力。
更进一步的,通过GPU Box服务器中的BMC从i2c通信总线中读取下一级GPU Box服务器的IP地址和位置信息之后,还包括:
通过GPU Box服务器中的BMC从i2c通信总线读取下一级GPU Box服务器的数据结构;下一级GPU Box服务器的数据结构中存储有与下一级GPU Box服务器对应的下级GPUBox服务器的IP地址和位置信息;
将下一级GPU Box服务器的数据结构中存储的、与下一级GPU Box服务器对应的下级GPU Box服务器的IP地址和位置信息添加至GPU Box服务器的数据结构中,以便总控制服务器依据GPU Box服务器的数据结构中存储的各个IP地址和相应的位置信息建立总控制服务器与相应的GPU Box服务器之间的网络通信。
需要说明的是,每个GPU Box服务器在获取其下一级GPU Box服务器的IP地址和位置信息后,会将该IP地址和位置信息存储至该GPU Box服务器的数据结构中,所以,该下一级GPU Box服务器在检测到存在与其对应的下级GPU Box服务器时,也会将该下级GPU Box服务器的IP地址和位置信息存储至自身的数据结构中,对于当前的GPU Box服务器在读取该下一级GPU Box服务器的IP地址和位置信息后,还可以读取该下一级GPU Box服务器的数据结构,从而获取相应的下级GPU Box服务器的IP地址和位置信息,并将其添加至当前的GPU Box服务器的数据结构中,从而可知当前的GPU Box服务器的数据结构中不仅存储了下一级GPU Box服务器的IP地址可以位置信息,还存储有下一级GPU Box服务器的下级GPUBox服务器的IP地址和位置信息。由此可知,通过不断的检测和获取,可以使当前的GPU Box服务器获取到位于其下面的各级GPU Box服务器的IP地址和相应的位置信息,总控制服务器只需要读取当前的GPU Box服务器的数据结构即可获取位于该当前的GPU Box服务器下的各级GPU Box服务器的IP地址和位置信息,以便快速获得各个GPU Box服务器之间的位置关系,及快速建立总控制服务器与各个GPU Box服务器之间的网络通信。
本发明实施例中,整机柜中的总控制服务器与各个GPU Box服务器之间都能够组成一个稳定的通信模式,以进一步提高通信效率及系统的数据处理和计算能力。从而就可以在整机柜上部署大批量的GPU Box服务器节点,实现GPU Box服务器的集群,大大提高服务器的性能。
进一步的,通过GPU Box服务器中的BMC从i2c通信总线中读取下一级GPU Box服务器的IP地址和位置信息之后,还包括:
依据下一级GPU Box服务器的IP地址建立GPU Box服务器与下一级GPU Box服务器之间的网络通信。
需要说明的是,本发明实施例中还可以建立当前的GPU Box服务器与其下一级GPUBox服务器之间的网络通信,从而可以实现当前的GPU Box服务器与其下一级GPU Box服务器之间快速通信,提高通信效率及整体计算性能。
更进一步的,通过GPU Box服务器中的BMC从i2c通信总线读取下一级GPU Box服务器的数据结构之后,还包括:
依据下一级GPU Box服务器的数据结构中存储的、与下一级GPU Box服务器对应的下级GPU Box服务器的IP地址建立GPU Box服务器与下级GPU Box服务器之间的网络通信。
需要说明的是,本发明实施例中除了建立当前的GPU Box服务器与其下一级GPUBox服务器之间的网络通信之外,还可以建立当前的GPU Box服务器与其下一级GPU Box服务器的下级GPU Box服务器之间的网络通信。
具体的,当前的GPU Box服务器在读取下一级GPU Box服务器的数据结构之后,可以根据该数据结构中记录的下级GPU Box服务器的IP地址建立当前的GPU Box服务器与下一级GPU Box服务器的下级GPU Box服务器之间的网络通信。也即,上一级GPU Box服务器可以通过读取当前的GPU Box服务器中的数据结构获取下一级GPU Box服务器的IP地址,从而依据该IP地址建立上一级GPU Box服务器和下一级GPU Box服务器之间的网络通信,两者可以直接通过该网络通信进行通信,上一级GPU Box服务器无需通过当前GPU Box服务器与下一级GPU Box服务器进行通信,大大提高通信效率及系统的数据处理和计算能力。
可以理解的是,依据上述方法可以建立任意两个GPU Box服务器之间的通信,从而便可以实现任意两个GPU Box服务器之间的直接通信,无需经过中间各级GPU Box服务器与待通信的GPU Box服务器进行通信,使系统的通信能力大大增强。
本发明实施例中的GPU Box服务器在上电后,位于该GPU Box服务器内部的BMC将通过i2c通信总线检测该GPU Box服务器的下一级GPU Box服务器是否存在,并且当存在下一级GPU Box服务器时,通过i2c通信总线即可读出下一级GPU Box服务器的IP地址及其位置信息,并将下一级GPU Box服务器的IP地址及其位置信息存储至自身的数据结构,总控制服务器通过读取GPU Box服务器的数据结构便可以获取下一级GPU Box服务器的IP地址和位置信息,总控制服务器依据该IP地址和相应的位置信息建立与下一级GPU Box服务器之间的网络通信,从而实现总控制服务器对相应的GPU Box服务器的通信管理,保证了GPUBox服务器的运行性能,大大提升了GPU Box服务器的数据处理和计算能力。
在上述实施例的基础上,本发明实施例还相应的公开了一种GPU Box服务器级联通信装置,具体请参照图2。该装置包括:
检测模块1,用于通过上电后的GPU Box服务器中的BMC对i2c通信总线进行检测,以确定是否存在与GPU Box服务器对应的下一级GPU Box服务器,如果是,则触发读取模块2;
读取模块2,用于通过GPU Box服务器中的BMC从i2c通信总线中读取下一级GPUBox服务器的IP地址和位置信息;
存储模块3,用于将下一级GPU Box服务器的IP地址和位置信息存储至GPU Box服务器的数据结构中,以便总控制服务器读取GPU Box服务器的数据结构,并依据GPU Box服务器的数据结构中存储的IP地址和位置信息建立总控制服务器与下一级GPU Box服务器之间的网络通信。
可选的,该装置还包括:
建立模块4,用于通过总控制服务器从i2c通信总线中读取GPU Box服务器的IP地址,并依据GPU Box服务器的IP地址建立总控制服务器与GPU Box服务器的网络通信。
需要说明的是,本发明实施例可以实现整机柜中各个GPU Box服务器之间进行通信,以及对各个GPU Box服务器进行快速有效的控制管理,保证GPU Box服务器的运行性能,并大大提升GPU Box服务器的数据处理和计算能力。
另外,对于本发明实施例中所涉及到的GPU Box服务器级联通信方法的具体介绍请参照上述方法实施例,本申请在此不再赘述。
在上述实施例的基础上,本发明实施例还提供了一种GPU Box服务器级联通信系统,该系统包括如上述GPU Box服务器级联通信装置。
需要说明的是,本发明实施例具有与上述方法实施例相同的有益效果,并且对于本发明实施例中所涉及到的GPU Box服务器级联通信方法的具体介绍请参照上述方法实施例,本申请在此不再赘述。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
还需要说明的是,在本说明书中,诸如术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其他实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。
Claims (8)
1.一种GPU Box服务器级联通信方法,其特征在于,包括:
S11:通过上电后的GPU Box服务器中的基板管理控制器BMC对i2c通信总线进行检测,以确定是否存在与所述GPU Box服务器对应的下一级GPU Box服务器,如果是,则进入S12;
S12:通过所述GPU Box服务器中的BMC从所述i2c通信总线中读取所述下一级GPU Box服务器的IP地址和位置信息;
S13:将所述下一级GPU Box服务器的IP地址和位置信息存储至所述GPU Box服务器的数据结构中,以便总控制服务器读取所述GPU Box服务器的数据结构,并依据所述GPU Box服务器的数据结构中存储的IP地址和位置信息建立所述总控制服务器与所述下一级GPUBox服务器之间的网络通信。
2.根据权利要求1所述的GPU Box服务器级联通信方法,其特征在于,所述方法还包括:
通过所述总控制服务器从所述i2c通信总线中读取所述GPU Box服务器的IP地址,并依据所述GPU Box服务器的IP地址建立所述总控制服务器与所述GPU Box服务器的网络通信。
3.根据权利要求2所述的GPU Box服务器级联通信方法,其特征在于,通过所述GPU Box服务器中的BMC从所述i2c通信总线中读取所述下一级GPU Box服务器的IP地址和位置信息之后,还包括:
通过所述GPU Box服务器中的BMC从所述i2c通信总线读取所述下一级GPU Box服务器的数据结构;所述下一级GPU Box服务器的数据结构中存储有与所述下一级GPU Box服务器对应的下级GPU Box服务器的IP地址和位置信息;
将所述下一级GPU Box服务器的数据结构中存储的、与所述下一级GPU Box服务器对应的下级GPU Box服务器的IP地址和位置信息添加至所述GPU Box服务器的数据结构中,以便所述总控制服务器依据所述GPU Box服务器的数据结构中存储的各个IP地址和相应的位置信息建立所述总控制服务器与相应的GPU Box服务器之间的网络通信。
4.根据权利要求1所述的GPU Box服务器级联通信方法,其特征在于,通过所述GPU Box服务器中的BMC从所述i2c通信总线中读取所述下一级GPU Box服务器的IP地址和位置信息之后,还包括:
依据所述下一级GPU Box服务器的IP地址建立所述GPU Box服务器与所述下一级GPUBox服务器之间的网络通信。
5.根据权利要求3所述的GPU Box服务器级联通信方法,其特征在于,通过所述GPU Box服务器中的BMC从所述i2c通信总线读取所述下一级GPU Box服务器的数据结构之后,还包括:
依据所述下一级GPU Box服务器的数据结构中存储的、与所述下一级GPU Box服务器对应的下级GPU Box服务器的IP地址建立所述GPU Box服务器与所述下级GPU Box服务器之间的网络通信。
6.一种GPU Box服务器级联通信装置,其特征在于,包括
检测模块,用于通过上电后的GPU Box服务器中的基板管理控制器BMC对i2c通信总线进行检测,以确定是否存在与所述GPU Box服务器对应的下一级GPU Box服务器,如果是,则触发读取模块;
所述读取模块,用于通过所述GPU Box服务器中的BMC从所述i2c通信总线中读取所述下一级GPU Box服务器的IP地址和位置信息;
存储模块,用于将所述下一级GPU Box服务器的IP地址和位置信息存储至所述GPU Box服务器的数据结构中,以便总控制服务器读取所述GPU Box服务器的数据结构,并依据所述GPU Box服务器的数据结构中存储的IP地址和位置信息建立所述总控制服务器与所述下一级GPU Box服务器之间的网络通信。
7.根据权利要求6所述的GPU Box服务器级联通信装置,其特征在于,还包括:
建立模块,用于通过所述总控制服务器从所述i2c通信总线中读取所述GPU Box服务器的IP地址,并依据所述GPU Box服务器的IP地址建立所述总控制服务器与所述GPU Box服务器的网络通信。
8.一种GPU Box服务器级联通信系统,其特征在于,包括如权利要求6或7所述GPU Box服务器级联通信装置。
Priority Applications (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810044572.8A CN108173735B (zh) | 2018-01-17 | 2018-01-17 | 一种GPU Box服务器级联通信方法、装置及系统 |
PCT/CN2018/103436 WO2019140921A1 (zh) | 2018-01-17 | 2018-08-31 | 一种GPU Box服务器级联通信方法、装置及系统 |
US16/962,859 US11641405B2 (en) | 2018-01-17 | 2018-08-31 | GPU box server cascade communication method, device, and system |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810044572.8A CN108173735B (zh) | 2018-01-17 | 2018-01-17 | 一种GPU Box服务器级联通信方法、装置及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN108173735A true CN108173735A (zh) | 2018-06-15 |
CN108173735B CN108173735B (zh) | 2020-08-25 |
Family
ID=62514515
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810044572.8A Active CN108173735B (zh) | 2018-01-17 | 2018-01-17 | 一种GPU Box服务器级联通信方法、装置及系统 |
Country Status (3)
Country | Link |
---|---|
US (1) | US11641405B2 (zh) |
CN (1) | CN108173735B (zh) |
WO (1) | WO2019140921A1 (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109002411A (zh) * | 2018-07-24 | 2018-12-14 | 郑州云海信息技术有限公司 | 自动配置gpu扩展箱的方法、系统及可自动配置的gpu扩展箱 |
CN109218112A (zh) * | 2018-11-06 | 2019-01-15 | 英业达科技有限公司 | 服务器、服务器之间的级联系统及方法 |
WO2019140921A1 (zh) * | 2018-01-17 | 2019-07-25 | 郑州云海信息技术有限公司 | 一种GPU Box服务器级联通信方法、装置及系统 |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114968478A (zh) * | 2018-03-06 | 2022-08-30 | 华为技术有限公司 | 一种数据处理的方法、装置、服务器和系统 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20100080228A1 (en) * | 2008-09-30 | 2010-04-01 | Richard Kwapniewski | Demand-based distribution of internet protocol routing information across a network |
CN102571452A (zh) * | 2012-02-20 | 2012-07-11 | 华为技术有限公司 | 多节点管理的方法和系统 |
CN104869098A (zh) * | 2014-02-20 | 2015-08-26 | 深圳市爱科赛科技有限公司 | 一种通过级联服务器进行数据传输的方法及装置 |
CN107239346A (zh) * | 2017-06-09 | 2017-10-10 | 郑州云海信息技术有限公司 | 一种整机柜计算资源池节点及计算资源池化架构 |
Family Cites Families (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7835307B2 (en) * | 2008-03-14 | 2010-11-16 | International Business Machines Corporation | Network discovery tool |
US8667110B2 (en) * | 2009-12-22 | 2014-03-04 | Intel Corporation | Method and apparatus for providing a remotely managed expandable computer system |
US9489924B2 (en) * | 2012-04-19 | 2016-11-08 | Nvidia Corporation | Boot display device detection and selection techniques in multi-GPU devices |
US10169275B2 (en) * | 2015-11-27 | 2019-01-01 | International Business Machines Corporation | System, method, and recording medium for topology-aware parallel reduction in an accelerator |
US10325343B1 (en) * | 2017-08-04 | 2019-06-18 | EMC IP Holding Company LLC | Topology aware grouping and provisioning of GPU resources in GPU-as-a-Service platform |
CN108173735B (zh) * | 2018-01-17 | 2020-08-25 | 苏州浪潮智能科技有限公司 | 一种GPU Box服务器级联通信方法、装置及系统 |
-
2018
- 2018-01-17 CN CN201810044572.8A patent/CN108173735B/zh active Active
- 2018-08-31 WO PCT/CN2018/103436 patent/WO2019140921A1/zh active Application Filing
- 2018-08-31 US US16/962,859 patent/US11641405B2/en active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20100080228A1 (en) * | 2008-09-30 | 2010-04-01 | Richard Kwapniewski | Demand-based distribution of internet protocol routing information across a network |
CN102571452A (zh) * | 2012-02-20 | 2012-07-11 | 华为技术有限公司 | 多节点管理的方法和系统 |
CN104869098A (zh) * | 2014-02-20 | 2015-08-26 | 深圳市爱科赛科技有限公司 | 一种通过级联服务器进行数据传输的方法及装置 |
CN107239346A (zh) * | 2017-06-09 | 2017-10-10 | 郑州云海信息技术有限公司 | 一种整机柜计算资源池节点及计算资源池化架构 |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2019140921A1 (zh) * | 2018-01-17 | 2019-07-25 | 郑州云海信息技术有限公司 | 一种GPU Box服务器级联通信方法、装置及系统 |
US11641405B2 (en) | 2018-01-17 | 2023-05-02 | Zhengzhou Yunhai Information Technology Co., Ltd. | GPU box server cascade communication method, device, and system |
CN109002411A (zh) * | 2018-07-24 | 2018-12-14 | 郑州云海信息技术有限公司 | 自动配置gpu扩展箱的方法、系统及可自动配置的gpu扩展箱 |
CN109002411B (zh) * | 2018-07-24 | 2021-04-27 | 郑州云海信息技术有限公司 | 自动配置gpu扩展箱的方法、系统及可自动配置的gpu扩展箱 |
CN109218112A (zh) * | 2018-11-06 | 2019-01-15 | 英业达科技有限公司 | 服务器、服务器之间的级联系统及方法 |
Also Published As
Publication number | Publication date |
---|---|
WO2019140921A1 (zh) | 2019-07-25 |
US11641405B2 (en) | 2023-05-02 |
CN108173735B (zh) | 2020-08-25 |
US20200351355A1 (en) | 2020-11-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108173735A (zh) | 一种GPU Box服务器级联通信方法、装置及系统 | |
EP2260611B1 (en) | Automated power topology discovery | |
CN106155260B (zh) | 服务器的系统与管理方法以及计算机可读存储介质 | |
CN107104824B (zh) | 一种网络拓扑确定方法和装置 | |
CN109298771A (zh) | 充放电方法及其系统以及非暂态计算机可读存储介质 | |
CN104272654B (zh) | 用于链路聚合中自适应快速启动的方法和装置 | |
CN105991694B (zh) | 一种实现分布式服务调用的方法与设备 | |
CN103607424B (zh) | 一种服务器连接方法及服务器系统 | |
CN105389244B (zh) | 一种服务器监控方法及装置 | |
CN109194617A (zh) | Xml报文的自动解析、封装方法和装置 | |
CN109802855B (zh) | 一种故障定位方法及装置 | |
CN111124277A (zh) | 一种深度学习数据集缓存方法、系统、终端及存储介质 | |
CN105912448A (zh) | 服务器系统及其用以增强存储器容错能力的方法 | |
CN108616402A (zh) | 一种远端设备的管理方法及系统 | |
CN108965134B (zh) | 报文转发方法及装置 | |
CN101924699A (zh) | 报文转发处理方法、系统和运营商边缘设备 | |
CN109254839A (zh) | 确定任务触发时间的方法、构建任务定时器的方法及系统 | |
US20140286339A1 (en) | Hardware Acceleration for Routing Programs | |
CN110191204A (zh) | 一种内网设备间通信方法、系统、装置及计算机存储介质 | |
CN108027794A (zh) | 用于在私有高速缓存中使用直接数据放置进行自动处理器核关联管理和通信的技术 | |
CN109873714A (zh) | 云计算节点配置更新方法及终端设备 | |
CN113835823A (zh) | 资源调度方法和装置、电子设备、计算机可读存储介质 | |
CN110519354A (zh) | 一种分布式对象存储系统及其业务处理方法和存储介质 | |
CN110417789A (zh) | 服务器连接方法、电子设备、系统及介质 | |
CN108650306A (zh) | 一种游戏视频缓存方法、装置及计算机存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
TA01 | Transfer of patent application right | ||
TA01 | Transfer of patent application right |
Effective date of registration: 20200727 Address after: 215100 No. 1 Guanpu Road, Guoxiang Street, Wuzhong Economic Development Zone, Suzhou City, Jiangsu Province Applicant after: SUZHOU LANGCHAO INTELLIGENT TECHNOLOGY Co.,Ltd. Address before: 450018 Henan province Zheng Dong New District of Zhengzhou City Xinyi Road No. 278 16 floor room 1601 Applicant before: ZHENGZHOU YUNHAI INFORMATION TECHNOLOGY Co.,Ltd. |
|
GR01 | Patent grant | ||
GR01 | Patent grant |