CN107748726A

CN107748726A - 一种gpu箱

Info

Publication number: CN107748726A
Application number: CN201711066112.7A
Authority: CN
Inventors: 李岩
Original assignee: Zhengzhou Yunhai Information Technology Co Ltd
Current assignee: Zhengzhou Yunhai Information Technology Co Ltd
Priority date: 2017-11-02
Filing date: 2017-11-02
Publication date: 2018-03-02
Anticipated expiration: 2037-11-02
Also published as: CN107748726B

Abstract

本发明提供一种GPU箱，包括PCIE switch模块，PCIE switch模块连接有GPU互联模块、对外接口模块以及管理模块，管理模块还与GPU互联模块和对外接口模块连接；PCIE switch模块包括三个PCIE扩展单元；对外接口模块包括第一对外接口、第二对外接口、第一PCIE插槽、第二PCIE插槽、第三PCIE插槽以及第四PCIE插槽；GPU互联模块包括八个GPU；八个GPU之间互联；管理模块包括I2C扩展单元、模数转换单元以及控制信号扩展单元。本发明实现GPU箱的独立设计，保证GPU性能最大化，传输延迟低，扩展性好。

Description

一种GPU箱

技术领域

本发明属于服务器板卡设计领域，具体涉及一种GPU箱。

背景技术

GPU，Graphics Processor Unit的缩写，图形处理器。

SXM2，显示处理器公司Nvdia定义的高性能处理器模块类型，支持NVLink互联总线。

NVLink，作为超越PCI-e的高性能互联技术，NVLink实现了CPU-GPU和GPU-GPU之间的超高速数据传输,其中NVLink1互联速度达到20GB/s，NVLINK2互联速度达到25GB/s。

随着人工智能和高性能计算的兴起，GPU运算的优势在高性能计算机的体现越来越明显，相较于传统的CPU处理器，具有超高的处理核心，更适合并行运算的人工智能和高性能要求，GPU服务器已经成为服务器下个快速增长点。

现在的GPU设计基本上是采用通用PCIE插槽接口，基本上都是集成到服务器内部，和服务器本身绑定，作为GPU 服务器或者高性能服务器销售。

标准的PCIE接口是通用服务器常用的设计方式，但由于前期架构规划，服务器本身只有单一GPU的时候，设计是没有问题的，但是应用于人工智能和高性能的服务器现在需要使用更多的GPU 处理器，这样PCIE 结构就会成为GPU之间数据交换处理的瓶颈，严重影响多GPU架构下多GPU的性能发挥。

GPU 和CPU处理器的集成设计，绑定了GPU和CPU 的应用场景，一旦应用达到GPU使用的上限时，只能通过网络做分布式互联方案，这样服务器本身的处理性能就会卡在网络带宽和延迟上，无法更高的提高服务器的性能。

CPU 和GPU 之间的互联架构是固定的，无法根据不同的应用场景调整合适的CPU和GPU 之间的互联拓扑，以达到一个浮点运算（GPU 优势项）和整数运算（CPU优势项）的合理配置。

此为现有技术的不足，因此，针对现有技术中的上述缺陷，提供一种GPU箱，是非常有必要的。

发明内容

本发明的目的在于，针对上述多GPU下,GPU与CPU之间的互联架构无法调整的缺陷，提供一种GPU箱，以解决上述技术问题。

为实现上述目的，本发明给出以下技术方案：

一种GPU箱，包括PCIE switch模块，PCIE switch模块连接有GPU互联模块、对外接口模块以及管理模块，管理模块还与GPU互联模块和对外接口模块连接；

PCIE switch模块包括第一PCIE扩展单元，第一PCIE扩展单元连接有第二PCIE扩展单元和第三PCIE扩展单元；

第一PCIE扩展单元还与对外接口模块连接，对外接口模块包括第一对外接口、第二对外接口、第一PCIE插槽、第二PCIE插槽、第三PCIE插槽以及第四PCIE插槽；第一对外接口和第二对外接口均与第一PCIE扩展单元连接，第一PCIE扩展单元还连接第二PCIE插槽和第三PCIE插槽，第二PCIE扩展单元连接第一PCIE插槽，第三PCIE扩展单元连接第四PCIE插槽；

GPU互联模块包括第一GPU、第二GPU、第三GPU、第四GPU、第五GPU、第六GPU、第七GPU以及第八GPU；

第一GPU、第二GPU、第三GPU以及第四GPU均与第二PCIE扩展单元连接，第五GPU、第六GPU、第七GPU以及第八GPU均与第三PCIE扩展单元连接；

第一GPU与第二GPU、第三GPU、第四GPU以及第五GPU通过第一互联总线连接，第二GPU与第三GPU、第四GPU以及第六GPU通过第一互联总线连接，

第三GPU与第四GPU以及第七GPU通过第一互联总线连接，

第四GPU与第八GPU通过第一互联总线连接，

第五GPU与第六GPU、第七GPU以及第八GPU通过第一互联总线连接，

第六GPU与第七GPU以及第八GPU通过第一互联总线连接，

第七GPU与第八GPU通过第一互联总线连接，

第一GPU与第二GPU以及第五GPU还通过第二互联总线连接，

第二GPU与第四GPU还通过第二互联总线连接，

第三GPU与第四GPU以及第七GPU还通过第二互联总线连接，

第五GPU与第六GPU还通过第二互联总线连接，

第六GPU与第八GPU还通过第二互联总线连接，

第七GPU与第八GPU还通过第二互联总线连接；

管理模块包括I2C扩展单元、模数转换单元以及控制信号扩展单元；

I2C扩展单元与第一对外接口连接，I2C扩展单元与第一GPU、第二GPU、第三GPU、第四GPU、第五GPU、第六GPU、第七GPU以及第八GPU分别连接；

模数转换单元与第一对外接口连接，模数转换单元与第一GPU的电源、第二GPU的电源、第三GPU的电源、第四GPU的电源、第五GPU的电源、第六GPU的电源、第七GPU的电源以及第八GPU的电源分别连接；

控制信号扩展单元与第一对外接口连接，控制信号扩展单元与第一PCIE扩展单元通过两个信号控制线连接。

I2C扩展单元通过I2C链路扩展8组I2C链路分别连接到8个GPU,可以实时监测8个GPU的状态，模数转换单元用于收集板卡上8个CPU的电源的工作信息，控制信息扩展单元扩展出两个控制信号，控制第一PCIE扩展单元的工作模式，当控制信息扩展单元扩展的两个控制信号为00时（默认配置），保证第一PCIE扩展单元处于虚拟扩展模式工作，虚拟扩展模式下，第一PCIE扩展单元上行端口为两组PCIE×16，当控制信息扩展单元扩展的两个控制信号为01时，第一PCIE扩展单元处于基础模式，基础模式下，第一PCIE扩展单元上行端口为一组PCIE×16，另一种PCIE×16不工作。第二PCIE扩展单元和第三PCIE扩展单元工作在虚拟扩展模式，不可更改工作模式。

进一步地，对外接口模块还包括时钟单元，时钟单元包括第一时钟缓冲器和第二时钟缓冲器；

第一时钟缓冲器连接第一PCIE扩展单元、第二PCIE扩展单元、第三PCIE扩展单元、第一PCIE插槽、第二PCIE插槽、第三PCIE插槽、第四PCIE插槽、第一GPU、第二GPU、第三GPU、第四GPU、第五GPU、第六GPU、第七GPU以及第八GPU；第一缓冲器还通过第一对外接口连接有第一时钟；

第二时钟缓冲器连接第一GPU、第二GPU、第三GPU、第四GPU、第五GPU、第六GPU、第七GPU以及第八GPU，第二时钟缓冲器还连接有第二时钟。

第一时钟缓冲器和第二时钟缓冲器实现了时钟隔离,保证了GPU上行时钟同源和下行时钟同源；第一GPU、第二GPU、第三GPU、第四GPU、第五GPU、第六GPU、第七GPU以及第八GPU的下行时钟均和第二时钟同源；第一GPU、第二GPU、第三GPU、第四GPU、第五GPU、第六GPU、第七GPU以及第八GPU的上联设备包括第一PCIE扩展单元、第二PCIE扩展单元、第三PCIE扩展单元、第一PCIE插槽、第二PCIE插槽、第三PCIE插槽以及第四PCIE插槽（四张高速互联卡）同第一时钟同源，由于第一时钟采用服务器系统的时钟，满足了PCIE规范中CPU和PCIE设备之间时钟同源的要求，保证了GPU箱的稳定性。

进一步地，所述第一PCIE扩展单元、第二PCIE扩展单元以及第三PCIE扩展单元均采用PEX9797型号的PCIE扩展芯片。

进一步地，所述第一对外接口和第二对外接口均分别采用2×Slimline×8的接口。第一对外接口和第二对外接口使用标准的simline接口，分别为一组PCIE×16的接口，可以和任何具有slimline接口的服务器连接，保证GPU箱的灵活性。

进一步地，第一GPU、第二GPU、第三GPU、第四GPU、第五GPU、第六GPU、第七GPU以及第八GPU均采用Nvdia的SXM2型号的GPU。

进一步地，第一PCIE扩展单元、第二PCIE扩展单元以及第三PCIE扩展单元均通过SPI总线分别连接一个128K的EEPROM。

进一步地，第一PCIE插槽、第二PCIE插槽、第三PCIE插槽以及第四PCIE插槽均采用16位的PCIE插槽。第一PCIE插槽、第二PCIE插槽、第三PCIE插槽以及第四PCIE插槽用于安装高速互联线缆卡infiniBand卡，不同的GPU箱可以通过四张高速互联线缆卡互联，GPU之间通过GPU高速互联技术连接，而不需要通过CPU和软件参与实现GPU之间的数据传输，第一PCIE扩展单元与第二PCIE扩展单元和第三PCIE扩展单元之间传输延迟低至us级别，单张高速互联卡可以达到100Gbps，保证多GPU箱之间的互联不会影响GPU性能。

进一步地，I2C扩展单元采用PCA9548型号的I2C扩展芯片，模数转换单元采用ADC128型号的模数转换芯片，控制信号扩展单元采用PCA9555型号的控制信号扩展芯片。

进一步地，第一互联总线采用NVLINK1链路，第二互联总线采用NVLINK2链路。NVLINK1链路是Nvidia定义的GPU之间连接通常使用的链路，互联速度达到20GB/s；NVLINK2是下一代GPU之间的连接链路，互联速度达到25GB/s。

进一步地，第一时钟缓冲器采用9ZX21901BKLFT型号的时钟缓冲芯片，第二时钟缓冲器采用9DB833AGILFT型号的时钟缓冲芯片，第一时钟采用南桥芯片的100MHZ的参考时钟，第二时钟采用型号为UX52F62008型号的156.25Mhz的晶振。

本发明的有益效果在于：

本发明实现了GPU箱的独立设计，GPU性能保证了最大化，传输延迟低，扩展型号，可以灵活配置搭配使用，提供了一种高性能的GPU箱。

此外，本发明设计原理可靠，结构简单，具有非常广泛的应用前景。

由此可见，本发明与现有技术相比，具有突出的实质性特点和显著的进步，其实施的有益效果也是显而易见的。

附图说明

图1为本发明拓扑图；

图2为本发明GPU互联模块、PCIEswitch模块以及对外接口模块内部连接示意图；

图3为本发明时钟单元内部连接示意图；

图4为本发明管理模块内部连接示意图；

其中，1-GPU互联模块；1.1-第一GPU；1.1.1-第一GPU的电源；1.2-第二GPU；1.2.1-第二GPU的电源；1.3-第三GPU；1.3.1-第三GPU的电源；1.4-第四GPU；1.4.1-第四GPU的电源；1.5-第五GPU；1.5.1-第五GPU的电源；1.6-第六GPU；1.6.1-第六GPU的电源；1.7-第七GPU；1.7.1-第七GPU的电源；1.8-第八GPU；1.8.1-第八GPU的电源；2-PCIE switch模块；2.1-第一PCIE扩展单元；2.2-第二PCIE扩展单元；2.3-第三PCIE扩展单元；3-对外接口模块；3.1-第一对外接口；3.2-第二对外接口；3.3-第一PCIE插槽；3.4-第二PCIE插槽；3.5-第三PCIE插槽；3.6-第四PCIE插槽；3.7-时钟单元；3.7.1-第一时钟缓冲器；3.7.2-第二时钟缓冲器；3.7.3-第二时钟；4-管理模块；4.1-I2C扩展单元；4.2-模数转换单元；4.3-控制信号扩展单元；5-第一时钟。

具体实施方式：

为使得本发明的目的、特征、优点能够更加的明显和易懂，下面将结合本发明具体实施例中的附图，对本发明中的技术方案进行清楚、完整地描述。

如图1所示，本发明提供一种GPU箱，包括PCIE switch模块2，PCIE switch模块2连接有GPU互联模块1、对外接口模块3以及管理模块4，管理模块4还与GPU互联模块1和对外接口模块3连接；

如图2所示，PCIE switch模块2包括第一PCIE扩展单元2.1，第一PCIE扩展单元2.1连接有第二PCIE扩展单元2.2和第三PCIE扩展单元2.3；所述第一PCIE扩展单元2.1、第二PCIE扩展单元2.2以及第三PCIE扩展单元2.3均采用PEX9797型号的PCIE扩展芯片；

第一PCIE扩展单元2.1还与对外接口模块3连接，对外接口模块3包括第一对外接口3.1、第二对外接口3.2、第一PCIE插槽3.3、第二PCIE插槽3.4、第三PCIE插槽3.5以及第四PCIE插槽3.6；第一对外接口3.1和第二对外接口3.2均与第一PCIE扩展单元2.1连接，第一PCIE扩展单元2.1还连接第二PCIE插槽3.4和第三PCIE插槽3.5，第二PCIE扩展单元2.2连接第一PCIE插槽3.3，第三PCIE扩展单元2.3连接第四PCIE插槽3.6；

第一PCIE扩展单元2.1、第二PCIE扩展单元2.2以及第三PCIE扩展单元2.3均通过SPI总线分别连接有一个128K的EEPROM；

所述第一对外接口3.1和第二对外接口3.2均分别采用2×Slimline×8的接口。第一对外接口和第二对外接口使用标准的simline接口，分别为一组PCIE×16的接口，可以和任何具有slimline接口的服务器连接，保证GPU箱的灵活性；

第一PCIE插槽3.3、第二PCIE插槽3.4、第三PCIE插槽3.5以及第四PCIE插槽3.6均采用16位的PCIE插槽。第一PCIE插槽、第二PCIE插槽、第三PCIE插槽以及第四PCIE插槽用于安装高速互联线缆卡infiniBand卡，不同的GPU箱可以通过四张高速互联线缆卡互联，GPU之间通过GPU高速互联技术连接，而不需要通过CPU和软件参与实现GPU之间的数据传输，第一PCIE扩展单元与第二PCIE扩展单元和第三PCIE扩展单元之间传输延迟低至us级别，单张高速互联卡可以达到100Gbps，保证多GPU箱之间的互联不会影响GPU性能；

GPU互联模块1包括第一GPU1.1、第二GPU1.2、第三GPU1.3、第四GPU（1.4）、第五GPU1.5、第六GPU1.6、第七GPU1.7以及第八GPU1.8；第一GPU1.1、第二GPU1.2、第三GPU1.3、第四GPU1.4、第五GPU1.5、第六GPU1.6、第七GPU1.7以及第八GPU1.8均采用Nvdia的SXM2型号的GPU；

第一GPU1.1、第二GPU1.2、第三GPU1.3以及第四GPU1.4均与第二PCIE扩展单元2.2连接，第五GPU1.5、第六GPU1.6、第七GPU1.7以及第八GPU1.8均与第三PCIE扩展单元2.3连接；

第一GPU1.1与第二GPU1.2、第三GPU1.3、第四GPU1.4以及第五GPU1.5通过第一互联总线连接，第二GPU1.2与第三GPU1.3、第四GPU1.4以及第六GPU1.6通过第一互联总线连接，

第三GPU1.3与第四GPU1.4以及第七GPU1.7通过第一互联总线连接，

第四GPU1.4与第八GPU1.8通过第一互联总线连接，

第五GPU1.5与第六GPU1.6、第七GPU1.7以及第八GPU1.8通过第一互联总线连接，

第六GPU1.6与第七GPU1.7以及第八GPU1.8通过第一互联总线连接，

第七GPU1.7与第八GPU1.8通过第一互联总线连接，

第一GPU1.1与第二GPU1.2以及第五GPU1.5还通过第二互联总线连接，

第二GPU1.2与第四GPU1.4还通过第二互联总线连接，

第三GPU1.3与第四GPU1.4以及第七GPU1.7还通过第二互联总线连接，

第五GPU1.5与第六GPU1.6还通过第二互联总线连接，

第六GPU1.6与第八GPU1.8还通过第二互联总线连接，

第七GPU1.7与第八GPU1.8还通过第二互联总线连接；

第一互联总线采用NVLINK1链路，第二互联总线采用NVLINK2链路；NVLINK1链路是Nvidia定义的GPU之间连接通常使用的链路，互联速度达到20GB/s；NVLINK2是下一代GPU之间的连接链路，互联速度达到25GB/s；

如图4所示，管理模块4包括I2C扩展单元4.1、模数转换单元4.2以及控制信号扩展单元4.3；

I2C扩展单元4.1与第一对外接口3.1连接，I2C扩展单元3.1与第一GPU1.1、第二GPU1.2、第三GPU1.3、第四GPU1.4、第五GPU1.5、第六GPU1.6、第七GPU1.7以及第八GPU1.8分别连接；

模数转换单元4.2与第一对外接口3.1连接，模数转换单元4.2与第一GPU的电源1.1.1、第二GPU的电源1.2.1、第三GPU的电源1.3.1、第四GPU的电源1.4.1、第五GPU的电源1.5.1、第六GPU的电源1.6.1、第七GPU的电源1.7.1以及第八GPU的电源1.8.1分别连接；

控制信号扩展单元4.3与第一对外接口 3.1连接，控制信号扩展单元4.3与第一PCIE扩展单元2.1通过两个信号控制线连接；

I2C扩展单元4.1采用PCA9548型号的I2C扩展芯片，模数转换单元4.2采用ADC128型号的模数转换芯片，控制信号扩展单元4.3采用PCA9555型号的控制信号扩展芯片；

如图3所示，对外接口模块3还包括时钟单元3.7，时钟单元3.7包括第一时钟缓冲器3.7.1和第二时钟缓冲器3.7.2；

第一时钟缓冲器3.7.1连接第一PCIE扩展单元2.1、第二PCIE扩展单元2.2、第三PCIE扩展单元2.3、第一PCIE插槽3.3、第二PCIE插槽3.4、第三PCIE插槽3.5、第四PCIE插槽3.6、第一GPU1.1、第二GPU1.2、第三GPU1.3、第四GPU1.4、第五GPU1.5、第六GPU1.6、第七GPU1.7以及第八GPU1.8；第一缓冲器3.7.1还通过第一对外接口3.1连接有第一时钟5；

第二时钟缓冲器3.7.2连接第一GPU1.1、第二GPU1.2、第三GPU1.3、第四GPU1.4、第五GPU1.5、第六GPU1.6、第七GPU1.7以及第八GPU1.8，第二时钟缓冲器3.7.2还连接有第二时钟3.7.3；第一时钟缓冲器3.7.1采用9ZX21901BKLFT型号的时钟缓冲芯片，第二时钟缓冲器3.7.2采用9DB833AGILFT型号的时钟缓冲芯片，第一时钟5采用南桥芯片的100MHZ的参考时钟，第二时钟3.7.3采用型号为UX52F62008型号的156.25Mhz的晶振；

第一时钟缓冲器和第二时钟缓冲器实现了时钟隔离，保证了GPU上行时钟同源和下行时钟同源；第一GPU、第二GPU、第三GPU、第四GPU、第五GPU、第六GPU、第七GPU以及第八GPU的下行时钟均和第二时钟同源；第一GPU、第二GPU、第三GPU、第四GPU、第五GPU、第六GPU、第七GPU以及第八GPU的上联设备包括第一PCIE扩展单元、第二PCIE扩展单元、第三PCIE扩展单元、第一PCIE插槽、第二PCIE插槽、第三PCIE插槽以及第四PCIE插槽（四张高速互联卡）同第一时钟同源，由于第一时钟采用服务器系统的时钟，满足了PCIE规范中CPU和PCIE设备之间时钟同源的要求，保证了GPU箱的稳定性。

本发明保证GPU之间直接通过NVLINK1和NVLINK2互联访问，GPU之间速率高达20GB/s，GPU箱之间通过高速互联卡实现多GPU箱互联，互联速率达100Gbps，数据延迟us级别，GPU箱上行端口实现标准slimline接口化，可以和不同服务器进行适配，且上行端口可灵活配置成两组PCIE×16和一组PCIE×16。

PCIE，peripheral component interconnect express的缩写，高速串行计算机扩展总线。

PCIE switch，PCIE开关。

SLIMLINE是一种连接器，SLIMLINESAS对应的规范是SFF8654。

I²C，Inter-Integrated Circuit的简称，内部集成总线。

EEPROM，Electrically Erasable Programmable read only memory的简称，电可擦可编程只读存储器，一种掉电后数据不丢失的存储芯片。 EEPROM 可以在电脑上或专用设备上擦除已有信息，重新编程，一般用在即插即用。

InfiniBand架构，是一种支持多并发链接的“转换线缆”技术，在这种技术中，每种链接都可以达到2.5 Gbps的运行速度。这种架构在一个链接的时候速度是500 MB/秒，四个链接的时候速度是2 GB/秒，12个链接的时候速度可以达到6 GB /秒。

本发明的实施例是说明性的，而非限定性的，上述实施例只是帮助理解本发明，因此本发明不限于具体实施方式中所述的实施例，凡是由本领域技术人员根据本发明的技术方案得出的其他的具体实施方式，同样属于本发明保护的范围。

Claims

1.一种GPU箱，其特征在于，包括PCIE switch模块（2），PCIE switch模块（2）连接有GPU互联模块（1）、对外接口模块（3）以及管理模块（4），管理模块（4）还与GPU互联模块（1）和对外接口模块（3）连接；

PCIE switch模块（2）包括第一PCIE扩展单元（2.1），第一PCIE扩展单元（2.1）连接有第二PCIE扩展单元（2.2）和第三PCIE扩展单元（2.3）；

第一PCIE扩展单元（2.1）还与对外接口模块（3）连接，对外接口模块（3）包括第一对外接口（3.1）、第二对外接口（3.2）、第一PCIE插槽（3.3）、第二PCIE插槽（3.4）、第三PCIE插槽（3.5）以及第四PCIE插槽（3.6）；第一对外接口（3.1）和第二对外接口（3.2）均与第一PCIE扩展单元（2.1）连接，第一PCIE扩展单元（2.1）还连接第二PCIE插槽（3.4）和第三PCIE插槽（3.5），第二PCIE扩展单元（2.2）连接第一PCIE插槽（3.3），第三PCIE扩展单元（2.3）连接第四PCIE插槽（3.6）；

GPU互联模块（1）包括第一GPU（1.1）、第二GPU（1.2）、第三GPU（1.3）、第四GPU（1.4）、第五GPU（1.5）、第六GPU（1.6）、第七GPU（1.7）以及第八GPU（1.8）；

第一GPU（1.1）、第二GPU（1.2）、第三GPU（1.3）以及第四GPU（1.4）均与第二PCIE扩展单元（2.2）连接，第五GPU（1.5）、第六GPU（1.6）、第七GPU（1.7）以及第八GPU（1.8）均与第三PCIE扩展单元（2.3）连接；

第一GPU（1.1）与第二GPU（1.2）、第三GPU（1.3）、第四GPU（1.4）以及第五GPU（1.5）通过第一互联总线连接，第二GPU（1.2）与第三GPU（1.3）、第四GPU（1.4）以及第六GPU（1.6）通过第一互联总线连接，

第三GPU（1.3）与第四GPU（1.4）以及第七GPU（1.7）通过第一互联总线连接，

第四GPU（1.4）与第八GPU（1.8）通过第一互联总线连接，

第五GPU（1.5）与第六GPU（1.6）、第七GPU（1.7）以及第八GPU（1.8）通过第一互联总线连接，

第六GPU（1.6）与第七GPU（1.7）以及第八GPU（1.8）通过第一互联总线连接，

第七GPU（1.7）与第八GPU（1.8）通过第一互联总线连接，

第一GPU（1.1）与第二GPU（1.2）以及第五GPU（1.5）还通过第二互联总线连接，

第二GPU（1.2）与第四GPU（1.4）还通过第二互联总线连接，

第三GPU（1.3）与第四GPU（1.4）以及第七GPU（1.7）还通过第二互联总线连接，

第五GPU（1.5）与第六GPU（1.6）还通过第二互联总线连接，

第六GPU（1.6）与第八GPU（1.8）还通过第二互联总线连接，

第七GPU（1.7）与第八GPU（1.8）还通过第二互联总线连接；

管理模块（4）包括I2C扩展单元（4.1）、模数转换单元（4.2）以及控制信号扩展单元（4.3）；

I2C扩展单元（4.1）与第一对外接口（3.1）连接，I2C扩展单元（3.1）与第一GPU（1.1）、第二GPU（1.2）、第三GPU（1.3）、第四GPU（1.4）、第五GPU（1.5）、第六GPU（1.6）、第七GPU（1.7）以及第八GPU（1.8）分别连接；

模数转换单元（4.2）与第一对外接口（3.1）连接，模数转换单元（4.2）与第一GPU的电源（1.1.1）、第二GPU的电源（1.2.1）、第三GPU的电源（1.3.1）、第四GPU的电源（1.4.1）、第五GPU的电源（1.5.1）、第六GPU的电源（1.6.1）、第七GPU的电源（1.7.1）以及第八GPU的电源（1.8.1）分别连接；

控制信号扩展单元（4.3）与第一对外接口（3.1）连接，控制信号扩展单元（4.3）与第一PCIE扩展单元（2.1）通过两个信号控制线连接。

2.如权利要求1所述的一种GPU箱，其特征在于，对外接口模块（3）还包括时钟单元（3.7），时钟单元（3.7）包括第一时钟缓冲器（3.7.1）和第二时钟缓冲器（3.7.2）；

第一时钟缓冲器（3.7.1）连接第一PCIE扩展单元（2.1）、第二PCIE扩展单元（2.2）、第三PCIE扩展单元（2.3）、第一PCIE插槽（3.3）、第二PCIE插槽（3.4）、第三PCIE插槽（3.5）、第四PCIE插槽（3.6）、第一GPU（1.1）、第二GPU（1.2）、第三GPU（1.3）、第四GPU（1.4）、第五GPU（1.5）、第六GPU（1.6）、第七GPU（1.7）以及第八GPU（1.8）；第一缓冲器（3.7.1）还通过第一对外接口（3.1）连接有第一时钟（5）；

第二时钟缓冲器（3.7.2）连接第一GPU（1.1）、第二GPU(1.2)、第三GPU(1.3)、第四GPU(1.4)、第五GPU(1.5)、第六GPU(1.6)、第七GPU（1.7）以及第八GPU（1.8），第二时钟缓冲器（3.7.2）还连接有第二时钟（3.7.3）。

3.如权利要求1所述的一种GPU箱，其特征在于，所述第一PCIE扩展单元（2.1）、第二PCIE扩展单元（2.2）以及第三PCIE扩展单元（2.3）均采用PEX9797型号的PCIE扩展芯片。

4.如权利要求1所述的一种GPU箱，其特征在于，所述第一对外接口（3.1）和第二对外接口（3.2）均分别采用2×Slimline×8的接口。

5.如权利要求1所述的一种GPU箱，其特征在于，第一GPU（1.1）、第二GPU(1.2)、第三GPU(1.3)、第四GPU(1.4)、第五GPU(1.5)、第六GPU(1.6)、第七GPU（1.7）以及第八GPU（1.8）均采用Nvdia的SXM2型号的GPU。

6.如权利要求1所述的一种GPU箱，其特征在于，第一PCIE扩展单元（2.1）、第二PCIE扩展单元（2.2）以及第三PCIE扩展单元（2.3）均通过SPI总线分别连接有一个128K的EEPROM。

7.如权利要求1所述的一种GPU箱，其特征在于，第一PCIE插槽（3.3）、第二PCIE插槽（3.4）、第三PCIE插槽（3.5）以及第四PCIE插槽（3.6）均采用16位的PCIE插槽。

8.如权利要求1所述的一种GPU箱，其特征在于，I2C扩展单元（4.1）采用PCA9548型号的I2C扩展芯片，模数转换单元（4.2）采用ADC128型号的模数转换芯片，控制信号扩展单元（4.3）采用PCA9555型号的控制信号扩展芯片。

9.如权利要求1所述的一种GPU箱，其特征在于，第一互联总线采用NVLINK1链路，第二互联总线采用NVLINK2链路。

10.如权利要求2所述的一种GPU箱，其特征在于，第一时钟缓冲器（3.7.1）采用9ZX21901BKLFT型号的时钟缓冲芯片，第二时钟缓冲器（3.7.2）采用9DB833AGILFT型号的时钟缓冲芯片，第一时钟（5）采用南桥芯片的100MHZ的参考时钟，第二时钟（3.7.3）采用型号为UX52F62008型号的156.25Mhz的晶振。