CN108874726A

CN108874726A - 一种gpu整机柜pcie链路互联系统及方法

Info

Publication number: CN108874726A
Application number: CN201810516383.6A
Authority: CN
Inventors: 王玲燕
Original assignee: Zhengzhou Yunhai Information Technology Co Ltd
Current assignee: Zhengzhou Yunhai Information Technology Co Ltd
Priority date: 2018-05-25
Filing date: 2018-05-25
Publication date: 2018-11-23

Abstract

本发明实施例公开了一种GPU整机柜PCIE链路互联系统及方法，互联系统包括计算节点、GPU集群节点和两者之间的PCIE连接总线，所述互联系统还包括信号调整板卡，所述信号调整板卡用于调整计算节点和GPU集群节点的互联信号质量。与现有技术相比，本发明将原有在GPU集群节点上的信号调整模块独立出来，设计独立的信号调整板卡，专门用于信号质量的调整，在更改计算节点时，不再对GPU集群节点进行调整。从而缩小影响面，方便产品调试，节省开发成本。

Description

一种GPU整机柜PCIE链路互联系统及方法

技术领域

本发明涉及GPU整机柜互联架构技术领域,具体地说是一种GPU整机柜PCIE链路互联系统及方法。

背景技术

目前AI(Artificial Insemination，人工智能)技术飞速发展，高运算性能的整机柜架构也出现了空前的研发高涨。而目前NVIDIA发布的高计算性能的GPU(GraphicProcessing Unit，图像处理器)卡，在计算性能上占据了领先的地位。将多个GPU卡进行并行连接组成一个GPU卡计算集群搭配计算服务器成了业界不断提高计算性能的计算系统。而整机柜以其高密度便捷性成为整个计算系统的部署方式。

GPU整机柜由计算节点和GPU集群节点共同组成，计算节点和GPU集群的连接总线是PCIE3.0(Peripheral Component Interconnect Express，一种高速串行总线标准)总线。GPU卡也同样采用PCIE3.0总线，因此这种直接的扩展连接成为部署GPU集群最有效的方式。

目前计算节点和GPU集群是两个独立的系统，其并不是板对板连接的，两个系统之间的交互是通过PCIE线缆来进行连接的，受开发设计限制，计算节点和GPU集群节点的组合是固定的，在更换计算节点时，GPU集群节点也要做相应的重新设计，需要重新开发调整驱动参数，板卡重新打板备货，不利于产品交付，产品设计开发不够灵活，浪费开发资源。

发明内容

本发明实施例中提供了一种GPU整机柜PCIE链路互联系统及方法，以解决现有技术中产品设计开发不够灵活，浪费开发资源的问题。

为了解决上述技术问题，本发明实施例公开了如下技术方案：

本发明第一方面提供了一种GPU整机柜PCIE链路互联系统，包括计算节点、GPU集群节点和两者之间的PCIE连接总线，所述互联系统还包括信号调整板卡，所述信号调整板卡用于调整计算节点和GPU集群节点的互联信号质量。

结合第一方面，在第一方面第一种可能的实现方式中，所述计算节点和GPU集群节点均采用标准PCIEx16插槽进行互联信号的连接。

结合第一方面，在第一方面第二种可能的实现方式中，所述信号调整板卡包括连接计算节点的第一信号调整板卡和连接GPU集群节点的第二信号调整板卡，所述第一信号调整板卡和第二信号调整板卡通过PCIE总线连接。

结合第一方面，在第一方面第一或第二种可能的实现方式中，所述信号调整板卡包括驱动IC和高密口，通过调整驱动IC的参数，优化互联信号的传输质量，所述高密口用于第一信号调整板卡和第二信号调整板卡的连接。

结合第一方面，在第一方面或第二种可能的实现方式中，所述高密口包括4个连接器，每个连接器支持PCIEx4连接。

本发明第二方面提供了一种GPU整机柜PCIE链路互联方法，包括以下步骤：

在计算节点上和GPU集群节点上分别设置信号调整板卡；

两个信号调整板卡之间通过PCIE总线连接；

计算节点和GPU集群节点通过信号调整板卡和PCIE总线实现信号互联。

结合第二方面，在第二方面第一种可能的实现方式中，所述计算节点和GPU集群节点均采用标准PCIEx16插槽进行互联信号的连接。

结合第二方面，在第二方面第一种可能的实现方式中，所述信号调整板卡上设置高密口，两信号调整板卡通过所述高密口连接PCIE总线。

结合第二方面，在第二方面第一种可能的实现方式中，所述高密口包括4个连接器，每个连接器支持PCIEx4连接。

结合第二方面，在第二方面第二种可能的实现方式中，所述信号调整板卡包括驱动IC，通过调整驱动IC的参数，优化互联信号的传输质量。

本发明第一方面的所述互联系统能够实现第一方面及第一方面的各实现方式中的方法，并取得相同的效果。

发明内容中提供的效果仅仅是实施例的效果，而不是发明所有的全部效果，上述技术方案中的一个技术方案具有如下优点或有益效果：

1、将原有在GPU集群节点上的信号调整模块独立出来，设计独立的信号调整板卡，专门用于信号质量的调整，从而将产品搭配影响的模块集中到一个小板卡上，在更改计算节点时，不再对GPU集群节点进行调整。从而缩小影响面，方便产品调试，节省开发成本。

2、将计算节点以及GPU集群节点的对外连接接口都设计为PCIEx16插槽的标准接口。这些标准接口可连接信号调整板卡，有利于模块统一化，增强产品的兼容性。

3、通过将计算节点和GPU集群节点的互联架构调整后，后续产品只需要设计相关功能，互联部分不需要单独设计，量产后可作为计算系统中的模块进行自由搭配，丰富了产品的形态。

4、信号调整板卡上设计高密口，通过高密口实现两信号调整板卡的互联，设计简单，使用方便，且有利于降低信号的传输损耗。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，对于本领域普通技术人员而言，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明的系统结构示意图；

图2是本发明所述系统实施例的结构示意图；

图3是本发明所述高密口其一连接器的结构示意图；

图4是本发明互联方法的流程示意图。

具体实施方式

为能清楚说明本方案的技术特点，下面通过具体实施方式，并结合其附图，对本发明进行详细阐述。下文的公开提供了许多不同的实施例或例子用来实现本发明的不同结构。为了简化本发明的公开，下文中对特定例子的部件和设置进行描述。此外，本发明可以在不同例子中重复参考数字和/或字母。这种重复是为了简化和清楚的目的，其本身不指示所讨论各种实施例和/或设置之间的关系。应当注意，在附图中所图示的部件不一定按比例绘制。本发明省略了对公知组件和处理技术及工艺的描述以避免不必要地限制本发明。

如图1所示，本发明的一种GPU整机柜PCIE链路互联系统，包括计算节点、GPU集群节点以及分别与两者连接的信号调整板卡，两信号调整板卡之间通过PCIE总线连接，信号调整板卡用于调整计算节点和GPU集群节点的互联信号质量。

如图2所示，计算节点以及GPU集群节点都采用标准PCIEx16插槽进行互联信号连接。信号调整板卡是一块PCIEx16标准接口的板卡，所有连接的PCIE3.0信号质量集中到这一款板卡上进行调试，不再对GPU集群节点进行重新调试开发，所有的设计变更只需要在这一个板卡上进行调试。在更改计算节点时，不再对GPU集群节点进行调整。从而缩小影响面，方便产品调试，节省开发成本。

信号调整板卡包括连接计算节点的第一信号调整板卡和连接GPU集群节点的第二信号调整板卡，第一信号调整板卡和第二信号调整板卡通过PCIE总线连接。

第一信号调整板卡和第二信号调整板卡之间的线缆为PCIEx16线缆，在信号调整板卡上设置高密口，采用高密口连接PCIEx16接口，实现信号调整板卡之间的互联。

高密口可使用FCI 10112628-101LF，包括4个连接器，每个连接器支持PCIEx4连接。如图3所示，1个连接器的接收端RX和发送端TX分别连接PCIEx16总线的其中4条lane，连接器的接地端(GND)均接地，其他三个连接器连接按照图3所示连接方式连接PCIEx16的其余12条lane。

信号调整板卡还包括驱动IC，驱动IC可采用TI的DS80PCI800SQE，8通道的PCIE3.0信号调整IC。信号调整小板卡尺寸为标准半高尺寸。

如图4所示，本发明的一种GPU整机柜PCIE链路互联方法，包括以下步骤：

S1,在计算节点上和GPU集群节点上分别设置信号调整板卡；

信号调整板卡为具有PCIEx16金手指接口的PCIE信号调整卡，采用TIDS80PCI800SQE作为驱动IC，对外连接口采用高密口连接，高密口可采用FCI10112628-101LF。

S2,两个信号调整板卡之间通过PCIE总线连接；

信号调整板卡通过其上的高密口实现PCIE连接，高密口包括4个连接器，每个连接器连接PCIEx16的4条lane。

S3,计算节点和GPU集群节点通过信号调整板卡和PCIE总线实现信号互联。

计算节点和GPU集群节点的PCIE互联信号同样接PCIEx16插槽，信号调整板卡对GPU集群节点的信号进行调整后输入到计算节点的CPU。

硬件互联后，调整信号调整板上驱动IC的参数，进行信号传输质量的优化，使整个计算系统稳定连接。

驱动IC的参数是一种信号补偿，分别对信号的幅值和振荡周期宽度进行调整，通过量测信号的眼图来找到最优参数，并进行设定。

以上所述只是本发明的优选实施方式，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也被视为本发明的保护范围。

Claims

1.一种GPU整机柜PCIE链路互联系统，包括计算节点、GPU集群节点和两者之间的PCIE连接总线，其特征是：所述互联系统还包括信号调整板卡，所述信号调整板卡用于调整计算节点和GPU集群节点的互联信号质量。

2.根据权利要求1所述的一种GPU整机柜PCIE链路互联系统，其特征是：所述计算节点和GPU集群节点均采用标准PCIEx16插槽进行互联信号的连接。

3.根据权利要求1所述的一种GPU整机柜PCIE链路互联系统，其特征是：所述信号调整板卡包括连接计算节点的第一信号调整板卡和连接GPU集群节点的第二信号调整板卡，所述第一信号调整板卡和第二信号调整板卡通过PCIE总线连接。

4.根据权利要求1-3任一项所述的一种GPU整机柜PCIE链路互联系统，其特征是：所述信号调整板卡包括驱动IC和高密口，通过调整驱动IC的参数，优化互联信号的传输质量，所述高密口用于第一信号调整板卡和第二信号调整板卡的连接。

5.根据权利要求4所述的一种GPU整机柜PCIE链路互联系统，其特征是：所述高密口包括4个连接器，每个连接器支持PCIEx4连接。

6.一种GPU整机柜PCIE链路互联方法，其特征是：包括以下步骤：

在计算节点上和GPU集群节点上分别设置信号调整板卡；

两个信号调整板卡之间通过PCIE总线连接；

7.根据权利要求6所述的一种GPU整机柜PCIE链路互联方法，其特征是：所述计算节点和GPU集群节点均采用标准PCIEx16插槽进行互联信号的连接。

8.根据权利要求7所述的一种GPU整机柜PCIE链路互联方法，其特征是：所述信号调整板卡上设置高密口，两信号调整板卡通过所述高密口连接PCIE总线。

9.根据权利要求8所述的一种GPU整机柜PCIE链路互联方法，其特征是：所述高密口包括4个连接器，每个连接器支持PCIEx4连接。

10.根据权利要求6-9任一项所述的一种GPU整机柜PCIE链路互联方法，其特征是：所述信号调整板卡包括驱动IC，通过调整驱动IC的参数，优化互联信号的传输质量。