CN108845970A

CN108845970A - 一种自由切换gpu服务器拓扑的装置及方法

Info

Publication number: CN108845970A
Application number: CN201810542386.7A
Authority: CN
Inventors: 王辉
Original assignee: Zhengzhou Yunhai Information Technology Co Ltd
Current assignee: Zhengzhou Yunhai Information Technology Co Ltd
Priority date: 2018-05-30
Filing date: 2018-05-30
Publication date: 2018-11-20
Anticipated expiration: 2038-05-30
Also published as: WO2019227837A1; CN108845970B

Abstract

本发明涉及服务器架构技术领域，提供一种自由切换GPU服务器拓扑的装置及方法，装置包括CPU板、GPU板、PCIE板和切换板，切换板上设置有PCIE Switch，PCIE Switch上引出有四个PCIE接口用于与CPU板、GPU板及PCIE板连接，切换板通过切换工作模式改变四个PCIE接口之间的连接关系，实现GPU服务器拓扑结构的改变。本发明通过引入切换板，配置切换板的工作模式，实现PCIE互联架构动态可调，使用户在免开箱的情况下，不用改变服务器内部架构便可实现两种拓扑架构之间的切换，满足不同场景的计算需求，提高数据中心的运维效率。

Description

一种自由切换GPU服务器拓扑的装置及方法

技术领域

本发明实施例涉及服务器架构技术领域，具体涉及一种自由切换GPU服务器拓扑的装置及方法。

背景技术

人工智能技术(简称AI)是未来的十大科技之一，AI对计算精度和计算复杂性的要求极高，这对其硬件载体的性能和可靠性提出了严峻挑战。GPU服务器集成了高密度的GPU群组，能够提供更高效的计算资源，因此广泛用于AI领域。GPU服务器采用CPU+GPU异构的计算架构，通常由CPU承担下发指令、控制计算等核心工作，GPU作为协处理器，接受CPU发来的数据在其内部进行计算，然后把结果反馈给CPU。GPU服务器的特性在于CPU和GPU之间需要频繁通讯，不同的AI场景其计算模式不尽相同，因此如何实现灵活的拓扑，满足不同应用场景的需求，是AI对其硬件载体提出的一个挑战。

现有技术中，GPU服务器的拓扑架构有负载均衡式拓扑结构和P2P式拓扑结构。负载均衡式拓扑结构的特点在于系统内的PCIE设备通信负荷被两个CPU均分，这种模式能够充分利用两个CPU资源，但是两个GPU板上的GPU设备在进行互访时，需要经过UPI总线，因此会影响到计算速度。P2P式拓扑结构的特点在于一个CPU集中与GPU进行通讯，另一个CPU集中负责外插网卡，所有的GPU设备都挂在一个CPU下，相互通讯时不需要经过UPI，GPU之间的通信效率有所提高。但其缺点在于某些情况下，两个CPU其中一方通信频繁、另一方闲置，出现负载差异较大的现象，导致CPU资源不能得到充分的利用。

基于上述问题，本发明提出一种自由切换GPU服务器拓扑的装置及方法，在免开箱的情况下实现两种拓扑架构间的自由切换，满足客户的使用需求。

发明内容

本发明实施例提供一种自由切换GPU服务器拓扑的装置及方法，在不用改变服务器内部架构的情况下实现两种拓扑架构的切换，满足不同场景的计算需求，提高数据中心的运维效率。

为解决上述技术问题，本发明公开了如下技术方案：

本发明第一方面提供了一种自由切换GPU服务器拓扑的装置，包括CPU板、GPU板和PCIE板，还包括有切换板，所述切换板上设置有PCIE Switch，PCIE Switch上引出有四个PCIE接口用于与CPU板、GPU板及PCIE板连接，所述切换板通过切换工作模式改变四个PCIE接口之间的连接关系，实现GPU服务器拓扑结构的改变。

基于上述方案，本装置做如下优化：

作为一种优化，所述切换板上的四个PCIE接口呈矩形排列，当呈平行分布的两列PCIE接口相互连通时，装置呈负载均衡式拓扑结构；当呈对角分布的两对PCIE接口相互连通时，装置呈P2P式拓扑结构。

进一步的，所述CPU板上设有CPU0和CPU1，CPU0和CPU1通过UPI互联，CPU0和CPU1分别引出两条X16PCIE链路，并在CPU板上引出对应的四个PCIE接口；

所述GPU板包括GPU1板和GPU2板，GPU1板和GPU2板左右对称布置，每个GPU板上设有用于把两路X16PCIE链路扩展为四路的PCIE Switch；

所述PCIE板设置于GPU1板和GPU2板之间，并扩展出4路PCIE X16。

如上所述的自由切换GPU服务器拓扑的装置，所述切换板设置于PCIE板与CPU板之间，切换板靠近PCIE板一侧的两个PCIE接口分别与PCIE板上的接口及GPU2板上的接口连接，切换板靠近CPU板一侧的两个PCIE接口分别与CPU0上的接口及CPU1上的接口连接。

本发明第二方面提供了一种自由切换GPU服务器拓扑的方法，所述方法包括以下步骤：

在硬件系统中设置切换板，并将切换板置于PCIE板与CPU板之间的位置；

在切换板上设置PCIE Switch，并在PCIE Switch上引出四个PCIE接口与CPU板、GPU板及PCIE板连接；

设置切换板的工作模式改变四个PCIE接口之间的连接关系，实现GPU服务器拓扑结构的改变。

进一步的，所述设置切换板的工作模式改变四个PCIE接口之间的连接关系，具体包括如下步骤：

将切换板设置为直通和交叉两种工作模式；

将PCIE Switch上引出的四个PCIE接口设置为矩形排列；

当将切换板设置为直通工作模式时，呈平行分布的两列PCIE接口相互连通，GPU服务器呈负载均衡式拓扑结构；当将切换板设置为交叉工作模式时，呈对角分布的两对PCIE接口相互连通，GPU服务器呈P2P式拓扑结构

如上所述的自由切换GPU服务器拓扑的方法，在所述CPU板上设置有CPU0和CPU1，CPU0和CPU1通过UPI互联分别引出两条X16PCIE链路，并在CPU板上引出对应的四个PCIE接口；将所述GPU板设置为GPU1板和GPU2板，每个GPU板上设有把两路X16PCIE链路扩展为四路的PCIE Switch；将所述PCIE板设置于GPU1板和GPU2板之间，并扩展出4路PCIE X16；将所述切换板靠近PCIE板一侧的两个PCIE接口分别与PCIE板上的接口及GPU2板上的接口连接，切换板靠近CPU板一侧的两个PCIE接口分别与CPU0上的接口及CPU1上的接口连接。

本申请的实施例提供的技术方案包括以下有益效果：

本申请实施例提供的一种自由切换GPU服务器拓扑的装置，包括CPU板、GPU板、PCIE板和切换板，切换板上设置有PCIE Switch，PCIE Switch上引出有四个PCIE接口与CPU板、GPU板及PCIE板连接，切换板通过切换工作模式改变四个PCIE接口之间的连接关系，实现GPU服务器拓扑结构的改变。本申请实施例的装置，通过引入切换板，配置切换板的工作模式，实现PCIE互联架构动态可调，使用户在免开箱的情况下，且不用改变服务器内部架构便可实现两种拓扑架构之间的切换，满足不同场景的计算需求，节省人工维护时间，提高数据中心的运维效率。

本发明第一方面提供的自由切换GPU服务器拓扑的装置，能够实现第二方面的自由切换GPU服务器拓扑的方法，并取得相同的效果。

附图说明

此处的附图被并入说明书中并构成说明书的一部分，示出了符合本申请的实施例，并与说明书一起用于解释本申请的原理。

图1为实施例提供的一种自由切换GPU服务器拓扑装置的结构示意图；

图2为图1中装置呈负载均衡式拓扑架构的结构示意图；

图3为图1中装置呈P2P式拓扑架构的结构示意图；

图4为实施例提供的一种自由切换GPU服务器拓扑方法的流程示意图。

附图标记：

1-GPU1板，2-PCIE板，3-GPU2板，4-CPU板，5-切换板。

具体实施方式

为使本技术领域的人员更好地理解本发明中的技术方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本发明保护的范围。

图1为本申请实施例提供的一种自由切换GPU服务器拓扑装置的结构示意图，由图1可知，本实施例的拓扑装置包括CPU板4、GPU板、PCIE板2和切换板5，所述切换板上设置有PCIE Switch，PCIE Switch上引出有四个PCIE接口用于与CPU板4、GPU板及PCIE板2连接，切换板5设置为直通和交叉两种工作模式，通过切换工作模式改变四个PCIE接口之间的连接关系，实现GPU服务器拓扑结构的改变。

具体而言，如图1所示，CPU板4上设有CPU0和CPU1，CPU0和CPU1通过UPI互联，CPU0和CPU1分别引出两条X16PCIE链路，并在CPU板上引出对应的四个PCIE接口。GPU板包括GPU1板1和GPU2板3，GPU1板1和GPU2板3左右对称布置，每个GPU板上设有用于把两路X16PCIE链路扩展为四路的PCIE Switch。PCIE板2设置于GPU1板1和GPU2板3之间，并扩展出4路PCIEX16。切换板5设置于PCIE板与CPU板之间，切换板5上的四个PCIE接口呈矩形排列，切换板5靠近PCIE板一侧的两个PCIE接口分别与PCIE板上的接口及GPU2板上的接口连接，切换板靠近CPU板一侧的两个PCIE接口分别与CPU0上的接口及CPU1上的接口连接。

如图1、图2所示，当切换板为直通工作模式时，呈平行分布的两列PCIE接口相互连通，即图1中的⑼、⑾接口相通，⑽、⑿接口相通，即图1中的⑷与⒁连接，⑻与⒂连接，GPU服务器呈图2所示的负载均衡式拓扑结构，此种拓扑结构相比于P2P式拓扑结构，可更充分的利用两个CPU资源。

如图1、图3所示，当切换板为交叉工作模式时，呈对角分布的两对PCIE接口相互连通，即图1中的⑼、⑿接口相通，⑽、⑾接口相通，即图1中的⑷与⒂连接，⑻与⒁连接，GPU服务器呈图3所示的P2P式拓扑结构，此种拓扑结构相比于负载均衡式拓扑结构，更好的提高了GPU之间的通信效率。

如上所述，通过配置切换板PCIE switch的不同模式，可以实现服务器两种拓扑架构之间的免开箱切换，满足不同应用场景下的计算需求，进而更好的满足客户需求。

图4为本申请实施例提供的一种自由切换GPU服务器拓扑方法的流程示意图，由图4可知，本实施例的拓扑方法包括以下步骤：

S1、在硬件系统中设置切换板，并将切换板置于PCIE板与CPU板之间的位置；

S2、在切换板上设置PCIE Switch，并在PCIE Switch上引出四个PCIE接口与CPU板、GPU板及PCIE板连接；

S3、设置切换板的工作模式改变四个PCIE接口之间的连接关系，实现GPU服务器拓扑结构的改变。

进一步的，所述步骤S3中设置切换板的工作模式改变四个PCIE接口之间的连接关系，具体包括如下步骤：

将切换板设置为直通和交叉两种工作模式；

将PCIE Switch上引出的四个PCIE接口设置为矩形排列；

当切换板为直通工作模式时，呈平行分布的两列PCIE接口相互连通，GPU服务器呈负载均衡式拓扑结构；当切换板为交叉工作模式时，呈对角分布的两对PCIE接口相互连通，GPU服务器呈P2P式拓扑结构。

具体而言，如上所述的一种自由切换GPU服务器拓扑的方法，在所述CPU板上设置有CPU0和CPU1，CPU0和CPU1通过UPI互联分别引出两条X16PCIE链路，并在CPU板上引出对应的四个PCIE接口；将所述GPU板设置为GPU1板和GPU2板，每个GPU板上设有把两路X16PCIE链路扩展为四路的PCIE Switch；将所述PCIE板设置于GPU1板和GPU2板之间，并扩展出4路PCIE X16；将所述切换板靠近PCIE板一侧的两个PCIE接口分别与PCIE板上的接口及GPU2板上的接口连接，切换板靠近CPU板一侧的两个PCIE接口分别与CPU0上的接口及CPU1上的接口连接。

以上所述仅是本发明的具体实施方式，使本领域技术人员能够理解或实现本发明。对这些实施例的多种修改对本领域的技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下，在其它实施例中实现。因此，本发明将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种自由切换GPU服务器拓扑的装置，包括CPU板、GPU板和PCIE板，其特征在于，还包括切换板，所述切换板上设置有PCIE Switch，PCIE Switch上引出有四个PCIE接口用于与CPU板、GPU板及PCIE板连接，所述切换板通过切换工作模式改变四个PCIE接口之间的连接关系，实现GPU服务器拓扑结构的改变。

2.根据权利要求1所述的一种自由切换GPU服务器拓扑的装置，其特征在于，所述切换板上的四个PCIE接口呈矩形排列，当呈平行分布的两列PCIE接口相互连通时，装置呈负载均衡式拓扑结构；当呈对角分布的两对PCIE接口相互连通时，装置呈P2P式拓扑结构。

3.根据权利要求2所述的一种自由切换GPU服务器拓扑的装置，其特征在于，所述CPU板上设有CPU0和CPU1，CPU0和CPU1通过UPI互联，CPU0和CPU1分别引出两条X16PCIE链路，并在CPU板上引出对应的四个PCIE接口。

4.根据权利要求3所述的一种自由切换GPU服务器拓扑的装置，其特征在于，所述GPU板包括GPU1板和GPU2板，GPU1板和GPU2板左右对称布置，每个GPU板上设有用于把两路X16PCIE链路扩展为四路的PCIE Switch。

5.根据权利要求4所述的一种自由切换GPU服务器拓扑的装置，其特征在于，所述PCIE板设置于GPU1板和GPU2板之间，并扩展出4路PCIE X16。

6.根据权利要求5所述的一种自由切换GPU服务器拓扑的装置，其特征在于，所述切换板设置于PCIE板与CPU板之间，切换板靠近PCIE板一侧的两个PCIE接口分别与PCIE板上的接口及GPU2板上的接口连接，切换板靠近CPU板一侧的两个PCIE接口分别与CPU0上的接口及CPU1上的接口连接。

7.一种自由切换GPU服务器拓扑的方法，其特征在于，包括以下步骤：

8.根据权利要求7所述的一种自由切换GPU服务器拓扑的方法，其特征在于，所述设置切换板的工作模式改变四个PCIE接口之间的连接关系，具体包括如下步骤：

将切换板设置为直通和交叉两种工作模式；

将PCIE Switch上引出的四个PCIE接口设置为矩形排列；

9.根据权利要求8所述的一种自由切换GPU服务器拓扑的方法，其特征在于，在所述CPU板上设置有CPU0和CPU1，CPU0和CPU1通过UPI互联分别引出两条X16PCIE链路，并在CPU板上引出对应的四个PCIE接口；将所述GPU板设置为GPU1板和GPU2板，每个GPU板上设有把两路X16PCIE链路扩展为四路的PCIE Switch；将所述PCIE板设置于GPU1板和GPU2板之间，并扩展出4路PCIE X16；将所述切换板靠近PCIE板一侧的两个PCIE接口分别与PCIE板上的接口及GPU2板上的接口连接，切换板靠近CPU板一侧的两个PCIE接口分别与CPU0上的接口及CPU1上的接口连接。