CN108173735A - 一种GPU Box服务器级联通信方法、装置及系统 - Google Patents

一种GPU Box服务器级联通信方法、装置及系统 Download PDF

Info

Publication number
CN108173735A
CN108173735A CN201810044572.8A CN201810044572A CN108173735A CN 108173735 A CN108173735 A CN 108173735A CN 201810044572 A CN201810044572 A CN 201810044572A CN 108173735 A CN108173735 A CN 108173735A
Authority
CN
China
Prior art keywords
gpu box
servers
gpu
box servers
next stage
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201810044572.8A
Other languages
English (en)
Other versions
CN108173735B (zh
Inventor
靳先奇
乔英良
班华堂
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Suzhou Inspur Intelligent Technology Co Ltd
Original Assignee
Zhengzhou Yunhai Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhengzhou Yunhai Information Technology Co Ltd filed Critical Zhengzhou Yunhai Information Technology Co Ltd
Priority to CN201810044572.8A priority Critical patent/CN108173735B/zh
Publication of CN108173735A publication Critical patent/CN108173735A/zh
Priority to PCT/CN2018/103436 priority patent/WO2019140921A1/zh
Priority to US16/962,859 priority patent/US11641405B2/en
Application granted granted Critical
Publication of CN108173735B publication Critical patent/CN108173735B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/14Session management
    • H04L67/141Setup of application sessions
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L12/00Data switching networks
    • H04L12/28Data switching networks characterised by path configuration, e.g. LAN [Local Area Networks] or WAN [Wide Area Networks]
    • H04L12/40Bus networks
    • H04L12/40006Architecture of a communication node
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T1/00General purpose image data processing
    • G06T1/20Processor architectures; Processor configuration, e.g. pipelining
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/04Network management architectures or arrangements
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/12Discovery or management of network topologies
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L69/00Network arrangements, protocols or services independent of the application payload and not provided for in the other groups of this subclass
    • H04L69/16Implementation or adaptation of Internet protocol [IP], of transmission control protocol [TCP] or of user datagram protocol [UDP]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L12/00Data switching networks
    • H04L12/28Data switching networks characterised by path configuration, e.g. LAN [Local Area Networks] or WAN [Wide Area Networks]
    • H04L12/40Bus networks
    • H04L2012/40208Bus networks characterized by the use of a particular bus standard
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/16Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks using machine learning or artificial intelligence

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Computer Security & Cryptography (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Computer And Data Communications (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)

Abstract

本发明公开了一种GPU Box服务器级联通信方法、装置及系统,包括通过上电后的GPU Box服务器中的基板管理控制器BMC对i2c通信总线进行检测,确定是否存在与GPU Box服务器对应的下一级GPU Box服务器,若是,则通过GPU Box服务器中的BMC从i2c通信总线中读取下一级GPU Box服务器的IP地址和位置信息;将下一级GPU Box服务器的IP地址和位置信息存储至GPU Box服务器的数据结构中以便总控制服务器读取GPU Box服务器的数据结构,并依据该数据结构中存储的IP地址和位置信息建立与下一级GPU Box服务器之间的网络通信。实现了总控制服务器对相应的GPU Box服务器的通信管理。

Description

一种GPU Box服务器级联通信方法、装置及系统
技术领域
本发明实施例涉及服务器管理技术领域,特别是涉及一种GPU Box服务器级联通信方法、装置及系统。
背景技术
随着人工智能的发展,深度学习在人工智能领域的应用越来越广泛,应用市场对GPU(Graphics Processing Unit,图形处理器)box服务器的需求越来越大,因此,对GPUbox服务器的开发成为目前炙手可热的项目。GPU box服务器上集成有大量的GPU模块,用于对大量数据的处理与计算,具有优越的性能。将多个GPU box服务器级联在一起,可以进一步提高GPU box整机柜的数据处理和运算能力。那么,如何对GPU box整机柜上不同的GPUbox服务器进行通信管理便成为了一项极为重要的管理需求。
因此,如何提供一种解决上述技术问题的GPU box服务器级联通信方法、装置及系统成为本领域技术人员目前亟待解决的问题。
发明内容
本发明实施例的目的是提供一种GPU Box服务器级联通信方法、装置及系统,能够实现总控制服务器对相应的GPU Box服务器的通信管理,保证了GPU Box服务器的运行性能,大大提升了GPU Box服务器的数据处理和计算能力。
为解决上述技术问题,本发明实施例提供了一种GPU Box服务器级联通信方法,包括:
S11:通过上电后的GPU Box服务器中的基板管理控制器BMC对i2c通信总线进行检测,以确定是否存在与所述GPU Box服务器对应的下一级GPU Box服务器,如果是,则进入S12;
S12:通过所述GPU Box服务器中的BMC从所述i2c通信总线中读取所述下一级GPUBox服务器的IP地址和位置信息;
S13:将所述下一级GPU Box服务器的IP地址和位置信息存储至所述GPU Box服务器的数据结构中,以便总控制服务器读取所述GPU Box服务器的数据结构,并依据所述GPUBox服务器的数据结构中存储的IP地址和位置信息建立所述总控制服务器与所述下一级GPU Box服务器之间的网络通信。
可选的,所述方法还包括:
通过所述总控制服务器从所述i2c通信总线中读取所述GPU Box服务器的IP地址,并依据所述GPU Box服务器的IP地址建立所述总控制服务器与所述GPU Box服务器的网络通信。
可选的,通过所述GPU Box服务器中的BMC从所述i2c通信总线中读取所述下一级GPU Box服务器的IP地址和位置信息之后,还包括:
通过所述GPU Box服务器中的BMC从所述i2c通信总线读取所述下一级GPU Box服务器的数据结构;所述下一级GPU Box服务器的数据结构中存储有与所述下一级GPU Box服务器对应的下级GPU Box服务器的IP地址和位置信息;
将所述下一级GPU Box服务器的数据结构中存储的、与所述下一级GPU Box服务器对应的下级GPU Box服务器的IP地址和位置信息添加至所述GPU Box服务器的数据结构中,以便所述总控制服务器依据所述GPU Box服务器的数据结构中存储的各个IP地址和相应的位置信息建立所述总控制服务器与相应的GPU Box服务器之间的网络通信。
可选的,通过所述GPU Box服务器中的BMC从所述i2c通信总线中读取所述下一级GPU Box服务器的IP地址和位置信息之后,还包括:
依据所述下一级GPU Box服务器的IP地址建立所述GPU Box服务器与所述下一级GPU Box服务器之间的网络通信。
可选的,通过所述GPU Box服务器中的BMC从所述i2c通信总线读取所述下一级GPUBox服务器的数据结构之后,还包括:
依据所述下一级GPU Box服务器的数据结构中存储的、与所述下一级GPU Box服务器对应的下级GPU Box服务器的IP地址建立所述GPU Box服务器与所述下级GPU Box服务器之间的网络通信。
本发明实施例相应的提供了一种GPU Box服务器级联通信装置,包括
检测模块,用于通过上电后的GPU Box服务器中的基板管理控制器BMC对i2c通信总线进行检测,以确定是否存在与所述GPU Box服务器对应的下一级GPU Box服务器,如果是,则触发读取模块;
所述读取模块,用于通过所述GPU Box服务器中的BMC从所述i2c通信总线中读取所述下一级GPU Box服务器的IP地址和位置信息;
存储模块,用于将所述下一级GPU Box服务器的IP地址和位置信息存储至所述GPUBox服务器的数据结构中,以便总控制服务器读取所述GPU Box服务器的数据结构,并依据所述GPU Box服务器的数据结构中存储的IP地址和位置信息建立所述总控制服务器与所述下一级GPU Box服务器之间的网络通信。
可选的,还包括:
建立模块,用于通过所述总控制服务器从所述i2c通信总线中读取所述GPU Box服务器的IP地址,并依据所述GPU Box服务器的IP地址建立所述总控制服务器与所述GPU Box服务器的网络通信。
本发明实施例提供了一种GPU Box服务器级联通信系统,包括如上述所述GPU Box服务器级联通信装置。
本发明实施例提供了一种GPU Box服务器级联通信方法、装置及系统,包括通过上电后的GPU Box服务器中的基板管理控制器BMC对i2c通信总线进行检测,以确定是否存在与GPU Box服务器对应的下一级GPU Box服务器,如果是,则通过GPU Box服务器中的BMC从i2c通信总线中读取下一级GPU Box服务器的IP地址和位置信息;将下一级GPU Box服务器的IP地址和位置信息存储至GPU Box服务器的数据结构中,以便总控制服务器读取GPU Box服务器的数据结构,并依据GPU Box服务器的数据结构中存储的IP地址和位置信息建立总控制服务器与下一级GPU Box服务器之间的网络通信。
本发明实施例中的GPU Box服务器在上电后,位于该GPU Box服务器内部的BMC将通过i2c通信总线检测该GPU Box服务器的下一级GPU Box服务器是否存在,并且当存在下一级GPU Box服务器时,通过i2c通信总线即可读出下一级GPU Box服务器的IP地址及其位置信息,并将下一级GPU Box服务器的IP地址及其位置信息存储至自身的数据结构,总控制服务器通过读取GPU Box服务器的数据结构便可以获取下一级GPU Box服务器的IP地址和位置信息,总控制服务器依据该IP地址和相应的位置信息建立与下一级GPU Box服务器之间的网络通信,从而实现总控制服务器对相应的GPU Box服务器的通信管理,保证了GPUBox服务器的运行性能,大大提升了GPU Box服务器的数据处理和计算能力。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对现有技术和实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的一种GPU Box服务器级联通信方法的流程示意图;
图2为本发明实施例提供的一种GPU Box服务器级联通信装置的结构示意图。
具体实施方式
本发明实施例提供了一种GPU Box服务器级联通信方法、装置及系统,能够实现总控制服务器对相应的GPU Box服务器的通信管理,保证了GPU Box服务器的运行性能,大大提升了GPU Box服务器的数据处理和计算能力。
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
请参照图1,图1为本发明实施例提供的一种GPU Box服务器级联通信方法的流程示意图。
该方法包括:
S11:通过上电后的GPU Box服务器中的BMC(Baseboard Management Controller,基板管理控制器)对i2c通信总线进行检测,以确定是否存在与GPU Box服务器对应的下一级GPU Box服务器,如果是,则进入S12;
S12:通过GPU Box服务器中的BMC从i2c通信总线中读取下一级GPU Box服务器的IP地址和位置信息;
S13:将下一级GPU Box服务器的IP地址和位置信息存储至GPU Box服务器的数据结构中,以便总控制服务器读取GPU Box服务器的数据结构,并依据GPU Box服务器的数据结构中存储的IP地址和位置信息建立总控制服务器与下一级GPU Box服务器之间的网络通信。
需要说明的是,在整机柜中部署多个GPU Box服务器时,可以预先通过i2c通信总线将各个GPU Box服务器进行物理连接,总控制服务器也通过i2c通信总线与各个GPU Box服务器进行物理连接,每个GPU Box服务器中均具有一个BMC。本申请中,当GPU Box服务器上电后,位于GPU Box服务器中的BMC就会对i2c通信总线进行检测,由于i2c通信总线会记录接入的各个GPU Box服务器的具体信息,所以通过i2c总线即可判断出当前的GPU Box服务器是否存在下一级GPU Box服务器,也即,在当前的GPU Box服务器的下面是否有接入下一级GPU Box服务器,如果有,则当前的GPU Box服务器中的BMC可以通过i2c总线读取下一级GPU Box服务器的IP地址和位置信息,并且将下一级GPU Box服务器的IP地址和位置信息存储至自身的数据结构中,总控制服务器可以通过读取该当前的GPU Box服务器中的数据结构获取位于该当前的GPU Box服务器下级的GPU Box服务器(即下一级GPU Box服务器)的IP地址和位置信息,总控制服务器依据该IP地址即可建立与该下一级GPU Box服务器的网络通信,依据相应的位置信息确定该下一级GPU Box服务器的在多个GPU Box服务器构成的级联拓扑中的位置,以实现总控制服务器对相应的GPU Box服务器的通信管理。
具体的,整机柜中的每个上电后的GPU Box服务器中的BMC均会对i2c总线进行检测,以检测出是否存在与该BMC对应的GPU Box服务器的下一级GPU Box服务器。例如,i2c总线上连接有3个GPU Box服务器,级别从上至下依次为第一GPU Box服务器、第二GPU Box服务器和第三GPU Box服务器,则在3个GPU Box服务器上电后,位于第一GPU Box服务器内部的BMC会通过i2c检测是否存在下一级GPU Box服务器,第二GPU Box服务器中的BMC也会通过i2c检测是否存在下一级GPU Box服务器,第三GPU Box服务器中的BMC也会通过i2c检测是否存在下一级GPU Box服务器。第一GPU Box服务器内部的BMC通过对i2c检测可知,存在下一级GPU Box服务器,该下一级GPU Box服务器为第二GPU Box服务器,此时获取第二GPUBox服务器的IP地址及位置信息,存储至第一GPU Box服务器的数据结构中;第二GPU Box服务器内部的BMC通过对i2c检测可知,存在下一级GPU Box服务器(即第三GPU Box服务器),此时获取第三GPU Box服务器的IP地址及位置信息,并存储至第二GPU Box服务器的数据结构中;第三GPU Box服务器内部的BMC通过对i2c检测可知,不存在相应的下一级GPU Box服务器,也即第三GPU Box服务器为最后一级GPU Box服务器。
具体的,对于i2c总线上连接有3个GPU Box服务器时,建立总控制服务器与相应的GPU Box服务器之间的网络通信的过程具体为:
总控制服务器可以通过i2c直接与第一GPU Box服务器进行通信控制,总控制服务器可以通过i2c通信总线读取第一GPU Box服务器的数据结构,并通过该数据结构中记录的第二GPU Box服务器的IP地址建立总控制服务器与第二GPU Box服务器的网络通信,依据相应的位置信息确定该第二GPU Box服务器与第一GPU Box服务器的层级关系;当总控制服务器需要建立与第三GPU Box服务器之间的网络通信时,则总控制服务器可以通过i2c通信总线和第一GPU Box服务器读取第二GPU Box服务器中的数据结构,从而读取第三GPU Box服务器的IP地址和位置信息,并进一步建立与第三GPU Box服务器之间的网络通信,以及确定第二GPU Box服务器和第三GPU Box服务器的层级关系。
进一步的,该方法还包括:
通过总控制服务器从i2c通信总线中读取GPU Box服务器的IP地址,并依据GPUBox服务器的IP地址建立总控制服务器与GPU Box服务器的网络通信。
需要说明的是,为了进一步提高对整机柜中的各个GPU Box服务器的控制管理,本发明实施例中的总控制服务器不仅可以建立与下一级GPU Box服务器的网络通信,还可以依据当前的GPU Box服务器的IP建立与本级GPU Box服务器的网络通信。例如,本发明实施例中的总控制服务器可以依据第一GPU Box服务器的IP地址建立与第一GPU Box服务器的网络通信,进一步提高数据处理和计算能力。
更进一步的,通过GPU Box服务器中的BMC从i2c通信总线中读取下一级GPU Box服务器的IP地址和位置信息之后,还包括:
通过GPU Box服务器中的BMC从i2c通信总线读取下一级GPU Box服务器的数据结构;下一级GPU Box服务器的数据结构中存储有与下一级GPU Box服务器对应的下级GPUBox服务器的IP地址和位置信息;
将下一级GPU Box服务器的数据结构中存储的、与下一级GPU Box服务器对应的下级GPU Box服务器的IP地址和位置信息添加至GPU Box服务器的数据结构中,以便总控制服务器依据GPU Box服务器的数据结构中存储的各个IP地址和相应的位置信息建立总控制服务器与相应的GPU Box服务器之间的网络通信。
需要说明的是,每个GPU Box服务器在获取其下一级GPU Box服务器的IP地址和位置信息后,会将该IP地址和位置信息存储至该GPU Box服务器的数据结构中,所以,该下一级GPU Box服务器在检测到存在与其对应的下级GPU Box服务器时,也会将该下级GPU Box服务器的IP地址和位置信息存储至自身的数据结构中,对于当前的GPU Box服务器在读取该下一级GPU Box服务器的IP地址和位置信息后,还可以读取该下一级GPU Box服务器的数据结构,从而获取相应的下级GPU Box服务器的IP地址和位置信息,并将其添加至当前的GPU Box服务器的数据结构中,从而可知当前的GPU Box服务器的数据结构中不仅存储了下一级GPU Box服务器的IP地址可以位置信息,还存储有下一级GPU Box服务器的下级GPUBox服务器的IP地址和位置信息。由此可知,通过不断的检测和获取,可以使当前的GPU Box服务器获取到位于其下面的各级GPU Box服务器的IP地址和相应的位置信息,总控制服务器只需要读取当前的GPU Box服务器的数据结构即可获取位于该当前的GPU Box服务器下的各级GPU Box服务器的IP地址和位置信息,以便快速获得各个GPU Box服务器之间的位置关系,及快速建立总控制服务器与各个GPU Box服务器之间的网络通信。
本发明实施例中,整机柜中的总控制服务器与各个GPU Box服务器之间都能够组成一个稳定的通信模式,以进一步提高通信效率及系统的数据处理和计算能力。从而就可以在整机柜上部署大批量的GPU Box服务器节点,实现GPU Box服务器的集群,大大提高服务器的性能。
进一步的,通过GPU Box服务器中的BMC从i2c通信总线中读取下一级GPU Box服务器的IP地址和位置信息之后,还包括:
依据下一级GPU Box服务器的IP地址建立GPU Box服务器与下一级GPU Box服务器之间的网络通信。
需要说明的是,本发明实施例中还可以建立当前的GPU Box服务器与其下一级GPUBox服务器之间的网络通信,从而可以实现当前的GPU Box服务器与其下一级GPU Box服务器之间快速通信,提高通信效率及整体计算性能。
更进一步的,通过GPU Box服务器中的BMC从i2c通信总线读取下一级GPU Box服务器的数据结构之后,还包括:
依据下一级GPU Box服务器的数据结构中存储的、与下一级GPU Box服务器对应的下级GPU Box服务器的IP地址建立GPU Box服务器与下级GPU Box服务器之间的网络通信。
需要说明的是,本发明实施例中除了建立当前的GPU Box服务器与其下一级GPUBox服务器之间的网络通信之外,还可以建立当前的GPU Box服务器与其下一级GPU Box服务器的下级GPU Box服务器之间的网络通信。
具体的,当前的GPU Box服务器在读取下一级GPU Box服务器的数据结构之后,可以根据该数据结构中记录的下级GPU Box服务器的IP地址建立当前的GPU Box服务器与下一级GPU Box服务器的下级GPU Box服务器之间的网络通信。也即,上一级GPU Box服务器可以通过读取当前的GPU Box服务器中的数据结构获取下一级GPU Box服务器的IP地址,从而依据该IP地址建立上一级GPU Box服务器和下一级GPU Box服务器之间的网络通信,两者可以直接通过该网络通信进行通信,上一级GPU Box服务器无需通过当前GPU Box服务器与下一级GPU Box服务器进行通信,大大提高通信效率及系统的数据处理和计算能力。
可以理解的是,依据上述方法可以建立任意两个GPU Box服务器之间的通信,从而便可以实现任意两个GPU Box服务器之间的直接通信,无需经过中间各级GPU Box服务器与待通信的GPU Box服务器进行通信,使系统的通信能力大大增强。
本发明实施例中的GPU Box服务器在上电后,位于该GPU Box服务器内部的BMC将通过i2c通信总线检测该GPU Box服务器的下一级GPU Box服务器是否存在,并且当存在下一级GPU Box服务器时,通过i2c通信总线即可读出下一级GPU Box服务器的IP地址及其位置信息,并将下一级GPU Box服务器的IP地址及其位置信息存储至自身的数据结构,总控制服务器通过读取GPU Box服务器的数据结构便可以获取下一级GPU Box服务器的IP地址和位置信息,总控制服务器依据该IP地址和相应的位置信息建立与下一级GPU Box服务器之间的网络通信,从而实现总控制服务器对相应的GPU Box服务器的通信管理,保证了GPUBox服务器的运行性能,大大提升了GPU Box服务器的数据处理和计算能力。
在上述实施例的基础上,本发明实施例还相应的公开了一种GPU Box服务器级联通信装置,具体请参照图2。该装置包括:
检测模块1,用于通过上电后的GPU Box服务器中的BMC对i2c通信总线进行检测,以确定是否存在与GPU Box服务器对应的下一级GPU Box服务器,如果是,则触发读取模块2;
读取模块2,用于通过GPU Box服务器中的BMC从i2c通信总线中读取下一级GPUBox服务器的IP地址和位置信息;
存储模块3,用于将下一级GPU Box服务器的IP地址和位置信息存储至GPU Box服务器的数据结构中,以便总控制服务器读取GPU Box服务器的数据结构,并依据GPU Box服务器的数据结构中存储的IP地址和位置信息建立总控制服务器与下一级GPU Box服务器之间的网络通信。
可选的,该装置还包括:
建立模块4,用于通过总控制服务器从i2c通信总线中读取GPU Box服务器的IP地址,并依据GPU Box服务器的IP地址建立总控制服务器与GPU Box服务器的网络通信。
需要说明的是,本发明实施例可以实现整机柜中各个GPU Box服务器之间进行通信,以及对各个GPU Box服务器进行快速有效的控制管理,保证GPU Box服务器的运行性能,并大大提升GPU Box服务器的数据处理和计算能力。
另外,对于本发明实施例中所涉及到的GPU Box服务器级联通信方法的具体介绍请参照上述方法实施例,本申请在此不再赘述。
在上述实施例的基础上,本发明实施例还提供了一种GPU Box服务器级联通信系统,该系统包括如上述GPU Box服务器级联通信装置。
需要说明的是,本发明实施例具有与上述方法实施例相同的有益效果,并且对于本发明实施例中所涉及到的GPU Box服务器级联通信方法的具体介绍请参照上述方法实施例,本申请在此不再赘述。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
还需要说明的是,在本说明书中,诸如术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其他实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims (8)

1.一种GPU Box服务器级联通信方法,其特征在于,包括:
S11:通过上电后的GPU Box服务器中的基板管理控制器BMC对i2c通信总线进行检测,以确定是否存在与所述GPU Box服务器对应的下一级GPU Box服务器,如果是,则进入S12;
S12:通过所述GPU Box服务器中的BMC从所述i2c通信总线中读取所述下一级GPU Box服务器的IP地址和位置信息;
S13:将所述下一级GPU Box服务器的IP地址和位置信息存储至所述GPU Box服务器的数据结构中,以便总控制服务器读取所述GPU Box服务器的数据结构,并依据所述GPU Box服务器的数据结构中存储的IP地址和位置信息建立所述总控制服务器与所述下一级GPUBox服务器之间的网络通信。
2.根据权利要求1所述的GPU Box服务器级联通信方法,其特征在于,所述方法还包括:
通过所述总控制服务器从所述i2c通信总线中读取所述GPU Box服务器的IP地址,并依据所述GPU Box服务器的IP地址建立所述总控制服务器与所述GPU Box服务器的网络通信。
3.根据权利要求2所述的GPU Box服务器级联通信方法,其特征在于,通过所述GPU Box服务器中的BMC从所述i2c通信总线中读取所述下一级GPU Box服务器的IP地址和位置信息之后,还包括:
通过所述GPU Box服务器中的BMC从所述i2c通信总线读取所述下一级GPU Box服务器的数据结构;所述下一级GPU Box服务器的数据结构中存储有与所述下一级GPU Box服务器对应的下级GPU Box服务器的IP地址和位置信息;
将所述下一级GPU Box服务器的数据结构中存储的、与所述下一级GPU Box服务器对应的下级GPU Box服务器的IP地址和位置信息添加至所述GPU Box服务器的数据结构中,以便所述总控制服务器依据所述GPU Box服务器的数据结构中存储的各个IP地址和相应的位置信息建立所述总控制服务器与相应的GPU Box服务器之间的网络通信。
4.根据权利要求1所述的GPU Box服务器级联通信方法,其特征在于,通过所述GPU Box服务器中的BMC从所述i2c通信总线中读取所述下一级GPU Box服务器的IP地址和位置信息之后,还包括:
依据所述下一级GPU Box服务器的IP地址建立所述GPU Box服务器与所述下一级GPUBox服务器之间的网络通信。
5.根据权利要求3所述的GPU Box服务器级联通信方法,其特征在于,通过所述GPU Box服务器中的BMC从所述i2c通信总线读取所述下一级GPU Box服务器的数据结构之后,还包括:
依据所述下一级GPU Box服务器的数据结构中存储的、与所述下一级GPU Box服务器对应的下级GPU Box服务器的IP地址建立所述GPU Box服务器与所述下级GPU Box服务器之间的网络通信。
6.一种GPU Box服务器级联通信装置,其特征在于,包括
检测模块,用于通过上电后的GPU Box服务器中的基板管理控制器BMC对i2c通信总线进行检测,以确定是否存在与所述GPU Box服务器对应的下一级GPU Box服务器,如果是,则触发读取模块;
所述读取模块,用于通过所述GPU Box服务器中的BMC从所述i2c通信总线中读取所述下一级GPU Box服务器的IP地址和位置信息;
存储模块,用于将所述下一级GPU Box服务器的IP地址和位置信息存储至所述GPU Box服务器的数据结构中,以便总控制服务器读取所述GPU Box服务器的数据结构,并依据所述GPU Box服务器的数据结构中存储的IP地址和位置信息建立所述总控制服务器与所述下一级GPU Box服务器之间的网络通信。
7.根据权利要求6所述的GPU Box服务器级联通信装置,其特征在于,还包括:
建立模块,用于通过所述总控制服务器从所述i2c通信总线中读取所述GPU Box服务器的IP地址,并依据所述GPU Box服务器的IP地址建立所述总控制服务器与所述GPU Box服务器的网络通信。
8.一种GPU Box服务器级联通信系统,其特征在于,包括如权利要求6或7所述GPU Box服务器级联通信装置。
CN201810044572.8A 2018-01-17 2018-01-17 一种GPU Box服务器级联通信方法、装置及系统 Active CN108173735B (zh)

Priority Applications (3)

Application Number Priority Date Filing Date Title
CN201810044572.8A CN108173735B (zh) 2018-01-17 2018-01-17 一种GPU Box服务器级联通信方法、装置及系统
PCT/CN2018/103436 WO2019140921A1 (zh) 2018-01-17 2018-08-31 一种GPU Box服务器级联通信方法、装置及系统
US16/962,859 US11641405B2 (en) 2018-01-17 2018-08-31 GPU box server cascade communication method, device, and system

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810044572.8A CN108173735B (zh) 2018-01-17 2018-01-17 一种GPU Box服务器级联通信方法、装置及系统

Publications (2)

Publication Number Publication Date
CN108173735A true CN108173735A (zh) 2018-06-15
CN108173735B CN108173735B (zh) 2020-08-25

Family

ID=62514515

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810044572.8A Active CN108173735B (zh) 2018-01-17 2018-01-17 一种GPU Box服务器级联通信方法、装置及系统

Country Status (3)

Country Link
US (1) US11641405B2 (zh)
CN (1) CN108173735B (zh)
WO (1) WO2019140921A1 (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109002411A (zh) * 2018-07-24 2018-12-14 郑州云海信息技术有限公司 自动配置gpu扩展箱的方法、系统及可自动配置的gpu扩展箱
CN109218112A (zh) * 2018-11-06 2019-01-15 英业达科技有限公司 服务器、服务器之间的级联系统及方法
WO2019140921A1 (zh) * 2018-01-17 2019-07-25 郑州云海信息技术有限公司 一种GPU Box服务器级联通信方法、装置及系统

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114968478A (zh) * 2018-03-06 2022-08-30 华为技术有限公司 一种数据处理的方法、装置、服务器和系统

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20100080228A1 (en) * 2008-09-30 2010-04-01 Richard Kwapniewski Demand-based distribution of internet protocol routing information across a network
CN102571452A (zh) * 2012-02-20 2012-07-11 华为技术有限公司 多节点管理的方法和系统
CN104869098A (zh) * 2014-02-20 2015-08-26 深圳市爱科赛科技有限公司 一种通过级联服务器进行数据传输的方法及装置
CN107239346A (zh) * 2017-06-09 2017-10-10 郑州云海信息技术有限公司 一种整机柜计算资源池节点及计算资源池化架构

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7835307B2 (en) * 2008-03-14 2010-11-16 International Business Machines Corporation Network discovery tool
US8667110B2 (en) * 2009-12-22 2014-03-04 Intel Corporation Method and apparatus for providing a remotely managed expandable computer system
US9489924B2 (en) * 2012-04-19 2016-11-08 Nvidia Corporation Boot display device detection and selection techniques in multi-GPU devices
US10169275B2 (en) * 2015-11-27 2019-01-01 International Business Machines Corporation System, method, and recording medium for topology-aware parallel reduction in an accelerator
US10325343B1 (en) * 2017-08-04 2019-06-18 EMC IP Holding Company LLC Topology aware grouping and provisioning of GPU resources in GPU-as-a-Service platform
CN108173735B (zh) * 2018-01-17 2020-08-25 苏州浪潮智能科技有限公司 一种GPU Box服务器级联通信方法、装置及系统

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20100080228A1 (en) * 2008-09-30 2010-04-01 Richard Kwapniewski Demand-based distribution of internet protocol routing information across a network
CN102571452A (zh) * 2012-02-20 2012-07-11 华为技术有限公司 多节点管理的方法和系统
CN104869098A (zh) * 2014-02-20 2015-08-26 深圳市爱科赛科技有限公司 一种通过级联服务器进行数据传输的方法及装置
CN107239346A (zh) * 2017-06-09 2017-10-10 郑州云海信息技术有限公司 一种整机柜计算资源池节点及计算资源池化架构

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019140921A1 (zh) * 2018-01-17 2019-07-25 郑州云海信息技术有限公司 一种GPU Box服务器级联通信方法、装置及系统
US11641405B2 (en) 2018-01-17 2023-05-02 Zhengzhou Yunhai Information Technology Co., Ltd. GPU box server cascade communication method, device, and system
CN109002411A (zh) * 2018-07-24 2018-12-14 郑州云海信息技术有限公司 自动配置gpu扩展箱的方法、系统及可自动配置的gpu扩展箱
CN109002411B (zh) * 2018-07-24 2021-04-27 郑州云海信息技术有限公司 自动配置gpu扩展箱的方法、系统及可自动配置的gpu扩展箱
CN109218112A (zh) * 2018-11-06 2019-01-15 英业达科技有限公司 服务器、服务器之间的级联系统及方法

Also Published As

Publication number Publication date
WO2019140921A1 (zh) 2019-07-25
US11641405B2 (en) 2023-05-02
CN108173735B (zh) 2020-08-25
US20200351355A1 (en) 2020-11-05

Similar Documents

Publication Publication Date Title
CN108173735A (zh) 一种GPU Box服务器级联通信方法、装置及系统
EP2260611B1 (en) Automated power topology discovery
CN106155260B (zh) 服务器的系统与管理方法以及计算机可读存储介质
CN107104824B (zh) 一种网络拓扑确定方法和装置
CN109298771A (zh) 充放电方法及其系统以及非暂态计算机可读存储介质
CN104272654B (zh) 用于链路聚合中自适应快速启动的方法和装置
CN105991694B (zh) 一种实现分布式服务调用的方法与设备
CN103607424B (zh) 一种服务器连接方法及服务器系统
CN105389244B (zh) 一种服务器监控方法及装置
CN109194617A (zh) Xml报文的自动解析、封装方法和装置
CN109802855B (zh) 一种故障定位方法及装置
CN111124277A (zh) 一种深度学习数据集缓存方法、系统、终端及存储介质
CN105912448A (zh) 服务器系统及其用以增强存储器容错能力的方法
CN108616402A (zh) 一种远端设备的管理方法及系统
CN108965134B (zh) 报文转发方法及装置
CN101924699A (zh) 报文转发处理方法、系统和运营商边缘设备
CN109254839A (zh) 确定任务触发时间的方法、构建任务定时器的方法及系统
US20140286339A1 (en) Hardware Acceleration for Routing Programs
CN110191204A (zh) 一种内网设备间通信方法、系统、装置及计算机存储介质
CN108027794A (zh) 用于在私有高速缓存中使用直接数据放置进行自动处理器核关联管理和通信的技术
CN109873714A (zh) 云计算节点配置更新方法及终端设备
CN113835823A (zh) 资源调度方法和装置、电子设备、计算机可读存储介质
CN110519354A (zh) 一种分布式对象存储系统及其业务处理方法和存储介质
CN110417789A (zh) 服务器连接方法、电子设备、系统及介质
CN108650306A (zh) 一种游戏视频缓存方法、装置及计算机存储介质

Legal Events

Date Code Title Description
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right
TA01 Transfer of patent application right

Effective date of registration: 20200727

Address after: 215100 No. 1 Guanpu Road, Guoxiang Street, Wuzhong Economic Development Zone, Suzhou City, Jiangsu Province

Applicant after: SUZHOU LANGCHAO INTELLIGENT TECHNOLOGY Co.,Ltd.

Address before: 450018 Henan province Zheng Dong New District of Zhengzhou City Xinyi Road No. 278 16 floor room 1601

Applicant before: ZHENGZHOU YUNHAI INFORMATION TECHNOLOGY Co.,Ltd.

GR01 Patent grant
GR01 Patent grant