CN210129218U

CN210129218U - 一种基于sxm3的8gpu box拓扑设计系统

Info

Publication number: CN210129218U
Application number: CN201921401428.1U
Authority: CN
Inventors: 戴金锐; 孔祥涛
Original assignee: Suzhou Wave Intelligent Technology Co Ltd
Current assignee: Suzhou Wave Intelligent Technology Co Ltd
Priority date: 2019-08-27
Filing date: 2019-08-27
Publication date: 2020-03-06
Anticipated expiration: 2029-08-27

Abstract

本实用新型公开了一种基于SXM3的8GPU BOX拓扑设计系统，包括：八个SXM3 GPU模块，三颗NVLink Switch芯片和三颗PCIE Switch芯片在8GPU BOX上通过两颗PCIe Switch来替代HGX‑2上的9颗Retimer，同时通过3颗NVLink Switch来实现8个SXM3 GPU模块的互联。在同样的8GPU服务器拓扑下，相比基于HGX‑2的系统拓扑，本方案可以显著减少Retimer的数目和NVLink Switch的数目，降低成本。同时整机系统的功耗也会降低，系统散热效果会更好。

Description

一种基于SXM3的8GPU BOX拓扑设计系统

技术领域

本实用新型涉及服务器技术领域，尤其是一种基于SXM3的8GPU BOX拓扑设计系统。

背景技术

SXM3是以NVIDIATesla V100为核心的具有NVLink接口的GPU模块，GPU内存达32GB，显存带宽可达900GB/s，NVLink的双向互联可达300GB/s,深度学习性能可达125TeraFLOPS，为深度学习提供卓越性能。

目前市场上存在的基于SXM3的8GPU BOX主要为NVIDIA自行研发的HGX-2。HGX-2是一个包括8个SXM3和NVIDIANVLink Fabric的8GPU全互联的基板，两个HGX-2基板可以通过NVLink Fabric实现16GPU全互联。其中8个GPU上行均有1颗PCIe X16 Retimer用于PCIe信号质量提升，NVLink Fabric由6个NVSwich芯片组成，6个NVSwitch接到一个PCIe Switch上来实现Host对NVSwitch的管理，在该PCIe Switch的上行也有一颗PCIe Retimer来改善信号质量。

HGX-2的设计是为了实现16GPU通过NVLink Fabric全互联，使深度学习性能得到最大化的提升，在某些性能要求不是太高的应用场景中，8GPU服务器的性能足够满足应用要求，选择HGX-2Baseboard作为8GPU服务器的8GPU BOX计算模块，NVIDIA要求的拓扑如图1所示，根据8GPU拓扑要求，两颗CPU各出1组PCIe Gen3 X16信号到交换层的两颗PCIeSwitch，两颗PCIe Switch下行各出4组PCIe Gen3 X16信号到HGX-2上8颗GPU上，其中一个PCIe Switch下行出一组PCIe Gen3 X4到HGX-2上管理6颗NVLink Switch的PCIe Switch上。

如图2所示，现有8GPU BOX即HGX-2，8颗SXM3 GPU模块上行均有一颗PCIe X16Retimer来改善信号质量，同时用来管理6颗NVLink Switch的PCIe Switch上行也有一颗用于改善信号质量的PCIe X4 Retimer。HGX-2上8颗GPU通过6颗NVLink Switch互联，达到2400GB/s的带宽，同时6颗NVLink Switch通过高速信号连接器与另一个HGX-2上的6颗NVLink Switch互联，实现16GPU全互联。HGX-2通过FPGA来进行管理以及上下电时序的控制。HGX-2采用54V供电方案，整机功耗最高可达3500W。

现有8GPU BOX设计方案，即HGX-2Baseboard，主要存在以下缺点：

①根据8GPU系统拓扑的要求，两颗CPU之间与8颗GPU之间需要两颗PCIe Switch作为交换层，PCIe Switch本身可以起到Retimer的中继作用，HGX-2之所以在GPU上行加Retimer是为了灵活满足不同设计方案，实际上在8GPU BOX的应用中，在PCIe Switch和8颗GPU以及管理PCIe Switch之间加9颗Retimer属于资源浪费；

②HGX-2上使用6颗NVLink Switch芯片来完成8颗GPU之间的NVLikn互联，达到2400GB/s的带宽，实际上6颗NVLink Switch芯片可以提供4800GB/s的带宽，HGX-2之所以使用6颗NVSwitch是因为便于扩展成16GPU互联系统。当作为8GPU BOX时，只需要3颗NVLinkSwitch便可以达到2400GB/s的互联带宽，6颗NVLink Switch对于8GPU BOX来说显然是一种浪费；

③HGX-2的整机功耗可达3500W，对于8GPU系统来说，过多不必要的设备资源导致不必要的功耗损失。

实用新型内容

本实用新型的目的是提供一种基于SXM3的8GPU BOX拓扑设计系统，解决现有基于SXM3的8GPU服务器中8GPU BOX资源浪费问题。

为实现上述目的，本实用新型采用下述技术方案：

一种基于SXM3的8GPU BOX拓扑设计系统，包括：八个SXM3 GPU模块，三颗NVLinkSwitch芯片和三颗PCIE Switch芯片：PCIE Switch1、PCIE Switch2、PCIE Switch3；所述PCIE Switch1和PCIE Switch2的上行端口分别外接连接器，所述PCIE Switch1的下行端口一路与PCIE Switch3的上行端口连接，另一路与八个SXM3 GPU模块连接；所述PCIESwitch2的下行端口与八个SXM3 GPU模块连接；所述PCIE Switch3的下行端口与三颗NVLink Switch芯片连接；所述三颗NVLink Switch芯片提供48组NVLink与八个SXM3GPU模块连接。

进一步地，所述PCIe Switch 1和PCIe Switch 2的上行端口各有一组PCIe Gen3X16连接到高密连接器上，用来与Host端进行PCIe的互联；PCIe Switch 1和PCIe Switch 2各有四组PCIe Gen3 X16连接到八个SXM3 GPU模块上。

进一步地，所述PCIe Switch 1的一组PCIe Gen3 X4与PCIe Switch 3的上行端口连接，PCIe Switch 3的三组PCIe Gen3 X2与3颗NVLink Switch芯片连接。

进一步地，每个SXM3 GPU模块与每个NVLink Switch芯片之间有两组NVLink信号，共计48组NVLink信号通道。

进一步地，所述系统还包括FPGA，所述FPGA通过连接器留有对外接口信号，包括开机信号、上电完成信号、复位信号以及其他一些信号，用来完成与Host端的整机集成。

进一步地，所述系统还与CPU连接，所述CPU与8GPU BOX之间通过两个PCIe Gen3Retimer连接。

实用新型内容中提供的效果仅仅是实施例的效果，而不是实用新型所有的全部效果，上述技术方案中的一个技术方案具有如下优点或有益效果：

本实用新型在8GPU BOX上通过两颗PCIe Switch来替代HGX-2上的9颗Retimer，同时通过3颗NVLink Switch来实现8个SXM3 GPU模块的互联。在同样的8GPU服务器拓扑下，相比基于HGX-2的系统拓扑，本方案可以显著减少Retimer的数目和NVLink Switch的数目，降低成本。同时整机系统的功耗也会降低，系统散热效果会更好。

附图说明

图1是HGX-28GPU拓扑示意图；

图2是现有技术方案示意图；

图3是本实用新型实施例一结构示意图；

图4是本实用新型实施例二结构示意图；

图5是本实用新型实施例三结构示意图。

具体实施方式

为能清楚说明本方案的技术特点，下面通过具体实施方式，并结合其附图，对本实用新型进行详细阐述。下文的公开提供了许多不同的实施例或例子用来实现本实用新型的不同结构。为了简化本实用新型的公开，下文中对特定例子的部件和设置进行描述。此外，本实用新型可以在不同例子中重复参考数字和/或字母。这种重复是为了简化和清楚的目的，其本身不指示所讨论各种实施例和/或设置之间的关系。应当注意，在附图中所图示的部件不一定按比例绘制。本实用新型省略了对公知组件和处理技术及工艺的描述以避免不必要地限制本实用新型。

如图3所示，基于SXM3的8GPU BOX拓扑设计系统，包括：八个SXM3GPU模块，三颗NVLink Switch芯片和三颗PCIE Switch芯片：PCIE Switch1、PCIE Switch2、PCIESwitch3；PCIE Switch1和PCIE Switch2的上行端口分别外接连接器，PCIE Switch1的下行端口一路与PCIE Switch3的上行端口连接，另一路与八个SXM3 GPU模块连接；PCIESwitch2的下行端口与八个SXM3GPU模块连接；PCIE Switch3的下行端口与三颗NVLinkSwitch芯片连接；三颗NVLink Switch芯片提供48组NVLink与八个SXM3 GPU模块连接。

在8GPU BOX中，采用两颗PCIe Switch下各出四组PCIe Gen3 X16到8颗GPU的方式来代替Retimer，同时PCIe Switch 1的下行端口出一组PCIe Gen3X4到PCIe Switch 3的上行端口用来管理NVLink Switch芯片。HGX-2 Baseboard上共有6个NVLink Switch，每个NVLink Switch和每个SXM3 GPU模块间各有一组NVLink，共48组NVLink，同时出48组NVLink到连接器，用于和另一块HGX-2Baseboard上6个NVLink Switch互联，从而组成16GPU系统，实际上只需要3个NVLink Switch便可以提供48组NVLink连接到8个SXM3 GPU模块。由于不需要进行16GPU互联，因此使用3颗NVLink Switch芯片即可满足8GPU的互联，达到2400GB/s的带宽。在供电方面，由于GPU需要54V电压驱动，因此本实用新型采用54V电源方案；在系统管理方面，本实用新型采用FPGA来进行系统管理，同时也由FPGA控制上电时序。

如图4所示，PCIe Switch 1和PCIe Switch 2的上行端口各有一组PCIe Gen3X16连接到高密连接器上，用来与Host端进行PCIe的互联；PCIe Switch 1和PCIe Switch 2各有四组PCIe Gen3 X16连接到八个SXM3 GPU模块上。

PCIe Switch 1的一组PCIe Gen3 X4与PCIe Switch 3的上行端口连接，PCIeSwitch 3的三组PCIe Gen3 X2与3颗NVLink Switch芯片连接。

每个SXM3 GPU模块与每个NVLink Switch芯片之间有两组NVLink信号，共计48组NVLink信号通道。本实用新型8GPU BOX上8个SXM3 GPU模块通过3个NVLink Switch进行互联，每个GPU与NVLink Switch之间有两组NVLink信号，从而达到2400GB/s的带宽。相比较HGX-2，减少了3个NVLink Switch。

采用FPGA来对系统进行管理，通过FPGA来实现I2C协议，对整个系统进行管理。同时，FPGA控制整个GPU BOX上下电时序，通过连接器留有对外接口信号，包括开机信号(PWR_en)、上电完成信号(PWR_ok)、复位信号(Reset)以及其他一些信号(MISC)，用来完成与Host端的整机集成；采用54V供电方案，由电源连接器输入到8GPU BOX板内，经过不同的电源管理芯片，供给不同电压需求的模块。

系统主要有PCIe Clock和NVLink Clock两种时钟需求，其中PCIe Switch,SXM3GPU模块,NVLink Switch需要100MHz PCIe Clock,SXM3 GPU模块和NVLink Switch还需要有156.25MHz的NVLink Clock。通过连接器预留的时钟信号接口输入给8GPU BOX上的ClockBuffer来产生需要的时钟给各个模块。

使用本实用新型8GPU Box作为计算模块的服务器应用系统如图5所示，在CPU与8GPU BOX之间通过两个PCIe Gen3 Retimer连接，来改善PCIe信号质量，相比较图2中基于HGX-2的8GPU BOX服务器系统，采用本实用新型方案的8GPU BOX可以省去7颗PCIe Gen3Retimer和3颗NVLink Switch芯片，同时芯片数量的减少也会使得功耗降低。

上述虽然结合附图对本实用新型的具体实施方式进行了描述，但并非对本实用新型保护范围的限制，所属领域技术人员应该明白，在本实用新型的技术方案的基础上，本领域技术人员不需要付出创造性劳动即可做出的各种修改或变形仍在本实用新型的保护范围以内。

Claims

1.一种基于SXM3的8GPU BOX拓扑设计系统，其特征是，包括：八个SXM3GPU模块，三颗NVLink Switch芯片和三颗PCIE Switch芯片：PCIE Switch1、PCIE Switch2、PCIESwitch3；所述PCIE Switch1和PCIE Switch2的上行端口分别外接连接器，所述PCIESwitch1的下行端口一路与PCIE Switch3的上行端口连接，另一路与八个SXM3GPU模块连接；所述PCIE Switch2的下行端口与八个SXM3GPU模块连接；所述PCIE Switch3的下行端口与三颗NVLink Switch芯片连接；所述三颗NVLink Switch芯片提供48组NVLink与八个SXM3GPU模块连接。

2.如权利要求1所述的基于SXM3的8GPU BOX拓扑设计系统，其特征是，所述PCIeSwitch 1和PCIe Switch 2的上行端口各有一组PCIe Gen3X16连接到高密连接器上，用来与Host端进行PCIe的互联；PCIe Switch 1和PCIe Switch 2各有四组PCIe Gen3X16连接到八个SXM3GPU模块上。

3.如权利要求2所述的基于SXM3的8GPU BOX拓扑设计系统，其特征是，所述PCIeSwitch 1的一组PCIe Gen3X4与PCIe Switch 3的上行端口连接，PCIe Switch 3的三组PCIe Gen3X2与3颗NVLink Switch芯片连接。

4.如权利要求1所述的基于SXM3的8GPU BOX拓扑设计系统，其特征是，每个SXM3GPU模块与每个NVLink Switch芯片之间有两组NVLink信号，共计48组NVLink信号通道。

5.如权利要求1所述的基于SXM3的8GPU BOX拓扑设计系统，其特征是，所述系统还包括FPGA，所述FPGA通过连接器留有对外接口信号，包括开机信号、上电完成信号、复位信号以及其他一些信号，用来完成与Host端的整机集成。

6.如权利要求1所述的基于SXM3的8GPU BOX拓扑设计系统，其特征是，所述系统还与CPU连接，所述CPU与8GPU BOX之间通过两个PCIe Gen3Retimer连接。