CN109410117A

CN109410117A - 图形处理器系统

Info

Publication number: CN109410117A
Application number: CN201811307597.9A
Authority: CN
Inventors: 许继委; 吕宏根
Original assignee: Inventec Pudong Technology Corp; Inventec Corp
Current assignee: Inventec Pudong Technology Corp; Inventec Corp
Priority date: 2018-11-05
Filing date: 2018-11-05
Publication date: 2019-03-01
Anticipated expiration: 2038-11-05
Also published as: CN109410117B

Abstract

本发明提供一种图形处理器系统，包括：一中央处理器；一第一高速串行计算机扩展总线标准交换机与中央处理器相连；一第二高速串行计算机扩展总线标准交换机与第一高速串行计算机扩展总线标准交换机相连，下行连接复数个图形处理器；一第三高速串行计算机扩展总线标准交换机与第一高速串行计算机扩展总线标准交换机相连，下行连接复数个图形处理器；一管理板与第一高速串行计算机扩展总线标准交换机、第二高速串行计算机扩展总线标准交换机和第三高速串行计算机扩展总线标准交换机分别相连，进行管理设置。本发明实现了多主机和多终端之间的灵活通信，解决了GPU相互之间的P2P通信带宽偏低的问题。

Description

图形处理器系统

技术领域

本发明属于数据处理技术领域，涉及一种数据处理系统，特别是涉及一种图形处理器系统。

背景技术

随着虚拟现实和人工智能技术的快速发展，对具有海量数据计算和处理能力的系统的需求逐渐攀升。图形处理器(Graphics Processing Unit，GPU)正是以高计算性能著称，近年来显得格外受欢迎。

GPU又称显示核心、视觉处理器、显示芯片，其是一种专门在个人电脑、工作站、游戏机和一些移动设备(如平板电脑、智能手机等)上执行图像运算工作的微处理器。GPU的用途是将计算机系统所需要的显示信息进行转换驱动，并向显示器提供行扫描信号，控制显示器的正确显示，是连接显示器和个人电脑主板的重要元件，也是“人机对话”的重要设备之一。

在实际应用中，采用多GPU系统来增强图形处理能力是常用手段，但由于GPU与CPU(中央处理器)之间通信接口的限制，以及GPU与GPU之间通信带宽的限制，多GPU系统的图形处理能力也是受限的，并不能随着GPU数量的增多而呈现指数增强的效果。

发明内容

鉴于以上所述现有技术的缺点，本发明的目的在于提供一种图形处理器系统，用于解决现有多GPU系统的通信速率低的问题。

为实现上述目的及其他相关目的，本发明提供一种图形处理器系统，所述图形处理器系统包括：一中央处理器；一第一高速串行计算机扩展总线标准交换机，与所述中央处理器相连；一第二高速串行计算机扩展总线标准交换机，与所述第一高速串行计算机扩展总线标准交换机相连；所述第二高速串行计算机扩展总线标准交换机下行连接复数个图形处理器；一第三高速串行计算机扩展总线标准交换机，与所述第一高速串行计算机扩展总线标准交换机相连；所述第三高速串行计算机扩展总线标准交换机下行连接复数个图形处理器；一管理板，与所述第一高速串行计算机扩展总线标准交换机、第二高速串行计算机扩展总线标准交换机和第三高速串行计算机扩展总线标准交换机分别相连，对所述第一高速串行计算机扩展总线标准交换机、第二高速串行计算机扩展总线标准交换机和第三高速串行计算机扩展总线标准交换机进行管理设置。

于本发明的一实施例中，所述第一高速串行计算机扩展总线标准交换机包括：至少一第一主机端口，用于与所述中央处理器通信相连；至少二个第一光纤通信端口，用于分别与所述第二高速串行计算机扩展总线标准交换机和所述第三高速串行计算机扩展总线标准交换机通信相连；至少一第一上行端口，用于与所述管理板通信相连。

于本发明的一实施例中，所述第二高速串行计算机扩展总线标准交换机包括：至少一第二光纤通信端口，用于与所述第一高速串行计算机扩展总线标准交换机的一第一光纤通信端口通信相连；至少一第二上行端口，用于与所述管理板通信相连；至少一第二下行端口，用于与图形处理器通信相连。

于本发明的一实施例中，所述第三高速串行计算机扩展总线标准交换机包括：至少一第三光纤通信端口，用于与所述第一高速串行计算机扩展总线标准交换机的另一第一光纤通信端口通信相连；至少一第三上行端口，用于与所述管理板通信相连；至少一第三下行端口，用于与图形处理器通信相连。

于本发明的一实施例中，所述第二高速串行计算机扩展总线标准交换机下行连接的一图形处理器发出一传输线脉冲时，所述第二高速串行计算机扩展总线标准交换机的对应第二下行端口接收所述传输线脉冲，并向上发出第二总线汇报；所述第二高速串行计算机扩展总线标准交换机的其他第二下行端口监听所述第二总线汇报，若所述第二总线汇报包含的地址属于所述第二高速串行计算机扩展总线标准交换机的其他第二下行端口之一，则所述第二高速串行计算机扩展总线标准交换机对应的第二下行端口接收所述传输线脉冲；若所述第二总线汇报包含的地址不属于所述第二高速串行计算机扩展总线标准交换机的其他第二下行端口之一，则所述第二高速串行计算机扩展总线标准交换机的第二光纤通信端口向上转发所述传输线脉冲至所述第一高速串行计算机扩展总线标准交换机。

于本发明的一实施例中，所述第一高速串行计算机扩展总线标准交换机对应的一第一光纤通信端口接收所述传输线脉冲，并向上发出第一总线汇报；所述第一高速串行计算机扩展总线标准交换机的另一第一光纤通信端口监听所述第一总线汇报，若所述第一总线汇报包含的地址属于所述第一高速串行计算机扩展总线标准交换机的另一第一光纤通信端口，则所述第一高速串行计算机扩展总线标准交换机的另一第一光纤通信端口接收所述传输线脉冲，并向下转发所述传输线脉冲。

于本发明的一实施例中，所述第三高速串行计算机扩展总线标准交换机的第三光纤通信端口接收所述传输线脉冲，并向下转发第三总线汇报；所述第三高速串行计算机扩展总线标准交换机的第三下行端口监听所述第三总线汇报，若所述第三总线汇报包含的地址属于所述第三高速串行计算机扩展总线标准交换机的第三下行端口之一，则所述第三高速串行计算机扩展总线标准交换机对应的第三下行端口接收所述传输线脉冲，并向下转发所述传输线脉冲；与所述第三高速串行计算机扩展总线标准交换机对应的第三下行端口相连的图形处理器接收所述传输线脉冲。

于本发明的一实施例中，所述第二高速串行计算机扩展总线标准交换机下行连接的复数个图形处理器彼此间通过NVLink端口通信或通过所述第二高速串行计算机扩展总线标准交换机通信。

于本发明的一实施例中，所述第三高速串行计算机扩展总线标准交换机下行连接复数个图形处理器彼此间通过NVLink端口通信或通过所述第三高速串行计算机扩展总线标准交换机通信。

于本发明的一实施例中，所述管理板对所述第一高速串行计算机扩展总线标准交换机、第二高速串行计算机扩展总线标准交换机和第三高速串行计算机扩展总线标准交换机进行动态管理。

于本发明的一实施例中，所述第二高速串行计算机扩展总线标准交换机的一第二下行端口与网卡相连；或/和所述第三高速串行计算机扩展总线标准交换机的一第三下行端口与网卡相连。

如上所述，本发明所述的图形处理器系统，具有以下有益效果：

本发明所述的高速串行计算机扩展总线标准交换机的光纤通信模式主要用于多交换机组网，利用管理端口对交换机的动态管理，可以实现多主机(CPU中央处理器)和多终端(GPU图形处理器)之间的灵活通信。

本发明可以解决GPU相互之间的P2P通信带宽偏低的问题，可以给GPU和CPU之间提供高带宽，最多可以提供六组X16PCIE(高速串行计算机扩展总线标准)通信带宽。

本发明将二级高速串行计算机扩展总线标准交换机通过网卡接入网络中后，可实现同一网络中的不同GPU系统间的数据直接交换，而不需要经过CPU及其内存，极大地提高了GPU系统间的数据交换能力。

附图说明

图1显示为本发明实施例所述的图形处理器系统的一种示例性实现结构示意图。

图2显示为本发明实施例所述的第一高速串行计算机扩展总线标准交换机的一种示例性端口结构示意图。

图3显示为本发明实施例所述的第二高速串行计算机扩展总线标准交换机的一种示例性端口结构示意图。

图4显示为本发明实施例所述的第三高速串行计算机扩展总线标准交换机的一种示例性端口结构示意图。

图5显示为本发明实施例所述的第三高速串行计算机扩展总线标准交换机的一种示例性图形处理器之间的通信流程示意图。

图6显示为本发明实施例所述的GPU与GPU之间的一种示例性通信结构示意图。

图7显示为本发明实施例所述的GPU与CPU之间的一种示例性通信结构示意图。

图8显示为本发明实施例所述的GPU与CPU之间的另一种示例性通信结构示意图。

元件标号说明

100 图形处理器系统

110 中央处理器

120 第一高速串行计算机扩展总线标准交换机

130 第二高速串行计算机扩展总线标准交换机

140 第三高速串行计算机扩展总线标准交换机

150，160 图形处理器

170 管理板

S501～S512 步骤

具体实施方式

以下通过特定的具体实例说明本发明的实施方式，本领域技术人员可由本说明书所揭露的内容轻易地了解本发明的其他优点与功效。本发明还可以通过另外不同的具体实施方式加以实施或应用，本说明书中的各项细节也可以基于不同观点与应用，在没有背离本发明的精神下进行各种修饰或改变。需说明的是，在不冲突的情况下，以下实施例及实施例中的特征可以相互组合。

需要说明的是，以下实施例中所提供的图示仅以示意方式说明本发明的基本构想，遂图式中仅显示与本发明中有关的组件而非按照实际实施时的组件数目、形状及尺寸绘制，其实际实施时各组件的型态、数量及比例可为一种随意的改变，且其组件布局型态也可能更为复杂。

多图形处理器(Graphics Processing Unit，GPU)系统除了对GPU与中央处理器(Central Processing Unit Processor，CPU)之间有高带宽性能有需求之外，还要求GPU之间有很高的带宽能力，即P2P(Peer to Peer，点对点)带宽。

为便于描述，后续说明书和附图中将采用业内英文缩写简称来描述，中央处理器为CPU，图形处理器为GPU，高速串行计算机扩展总线标准为PCIE。

为了提高多GPU系统的带宽，本发明提供一种图形处理器系统，如图1所示，所述图形处理器系统100包括：一中央处理器(CPU)110，一第一高速串行计算机扩展总线标准(Peripheral Component Interconnect Express，PCIE)交换机120，一第二高速串行计算机扩展总线标准(Peripheral Component Interconnect Express，PCIE)交换机130，一第三高速串行计算机扩展总线标准(Peripheral Component Interconnect Express，PCIE)交换机140，或/和一管理板170。

所述第一PCIE交换机120与所述CPU110相连。

参见图2所示，于本发明一实施例中，所述第一PCIE交换机120包括：至少一第一主机端口121，至少二个第一光纤通信端口122，或/和至少一第一上行端口123。所述至少一第一主机端口121用于与所述CPU通信相连；所述至少二个第一光纤通信端口122用于分别与所述第二PCIE交换机和所述第三PCIE交换机通信相连；所述至少一第一上行端口123用于与所述管理板通信相连。

所述第二PCIE交换机130与所述第一PCIE交换机120相连；所述第二PCIE交换机130下行连接复数个GPU150。所述第二PCIE交换机130下行连接的复数个GPU150彼此间通过NVLink端口通信或通过所述第二PCIE交换机130通信。

参见图3所示，于本发明一实施例中，所述第二PCIE交换机130包括：至少一第二光纤通信端口131，至少一第二上行端口132，或/和至少一第二下行端口133。所述至少一第二光纤通信端口131用于与所述第一PCIE交换机的一第一光纤通信端口122通信相连；所述至少一第二上行端口132用于与所述管理板170通信相连；所述至少一第二下行端口133用于与GPU150通信相连。所述第二PCIE交换机的一第二下行端口133可与网卡相连。

所述第三PCIE交换机140与所述第一PCIE交换机120相连；所述第三PCIE交换机140下行连接复数个GPU160。所述第三PCIE交换机140下行连接复数个GPU160彼此间通过NVLink端口通信或通过所述第三PCIE交换机140通信。

参见图4所示，于本发明一实施例中，所述第三PCIE交换机140包括：至少一第三光纤通信端口141，至少一第三上行端口142，或/和至少一第三下行端口143。所述至少一第三光纤通信端口141用于与所述第一PCIE交换机的另一第一光纤通信端口122通信相连；所述至少一第三上行端口142用于与所述管理板170通信相连；所述至少一第三下行端口143用于与GPU160通信相连。所述第三PCIE交换机的一第三下行端口143可与网卡相连。

所述管理板170与所述第一PCIE交换机120、第二PCIE交换机130和第三PCIE交换机140分别相连，对所述第一PCIE交换机、第二PCIE交换机和第三PCIE交换机进行管理设置。于本发明一实施例中，所述管理板可对所述第一PCIE交换机、第二PCIE交换机和第三PCIE交换机进行动态管理。

于本发明一实施例中，若所述第二PCIE交换机下行连接的一GPU与所述第三PCIE交换机下行连接的一GPU之间需要进行通信，则通信过程可参见图5所示，包括：

S501，所述第二PCIE交换机下行连接的一GPU发出一传输线脉冲；

S502，所述第二PCIE交换机的对应第二下行端口接收所述传输线脉冲，并向上发出第二总线汇报；

S503，所述第二PCIE交换机的其他第二下行端口监听所述第二总线汇报；

S504，若所述第二总线汇报包含的地址属于所述第二PCIE交换机的其他第二下行端口之一，则所述第二PCIE交换机对应的第二下行端口接收所述传输线脉冲；

S505，若所述第二总线汇报包含的地址不属于所述第二PCIE交换机的其他第二下行端口之一，则所述第二PCIE交换机的第二光纤通信端口向上转发所述传输线脉冲至所述第一PCIE交换机；

S506，所述第一PCIE交换机对应的一第一光纤通信端口接收所述传输线脉冲，并向上发出第一总线汇报；

S507，所述第一PCIE交换机的另一第一光纤通信端口监听所述第一总线汇报；

S508，若所述第一总线汇报包含的地址属于所述第一PCIE交换机的另一第一光纤通信端口，则所述第一PCIE交换机的另一第一光纤通信(fabric)端口接收所述传输线脉冲，并向下转发所述传输线脉冲；

S509，所述第三PCIE交换机的第三光纤通信端口接收所述传输线脉冲，并向下转发第三总线汇报；

S510，所述第三PCIE交换机的第三下行端口监听所述第三总线汇报；

S511，若所述第三总线汇报包含的地址属于所述第三PCIE交换机的第三下行端口之一，则所述第三PCIE交换机对应的第三下行端口接收所述传输线脉冲，并向下转发所述传输线脉冲；

S512，与所述第三PCIE交换机对应的第三下行端口相连的GPU接收所述传输线脉冲。

本发明中，NVLink是英伟达(NVIDIA)开发并推出的一种总线及其通信协议。NVLink采用点对点结构、串列传输，用于GPU与GPU之间的连接，也可用于CPU与GPU之间的连接。NVLink端口是GPU与GPU之间或者CPU与GPU之间的点对点通信端口。

如图6所示，NVLink端口实现了GPU与GPU之间的直接通信，但每个GPU只有六组NVLink，当系统中的GPU数量达到八个时，NVLink就无法涵盖所有GPU的通信。

如图7所示，在八GPU系统中，CPU端至少要提供两组X16的PCIE端口，然后利用PCIE交换机扩展出八组X16的PCIE端口；当只有一级PCIE交换机时，左右两半部分的GPU只能透过CPU做P2P通信。当有两级PCIE交换机时，可以利用PCIE交换机同一桥下两个不同下行端口之间可以P2P通信的特性，但仅限于只有一个上行端口的基本模式。这种拓扑结构下，GPU系统与CPU之间只有一组X16PCIE端口，带宽远远不够。因此，将三个PCIE交换机的工作模式调整为光纤通信(fabric)模式，向下八组PCIE端口和八个GPU相连，向上两组PCIE端口和CPU相连，一级PCIE交换机分别和两个二级PCIE交换机相连，三个PCIE交换机各有一个管理端口通过PEX8608挂在一个管理板(mCPU)上，如图8所示。

图8所示的三个PCIE交换机(PEX9797)均设置为光纤通信(fabric)模式，第一个PCIE交换机的port0和port4设置为主机端口(host port)，与CPU的两个根端口(rootport)相连，如果CPU的PCIE资源充足，另外可以将第一个PCIE交换机的port16和port20也设置为主机端口(host port)和CPU相连，这样可以给GPU和CPU的通信提供最大的带宽性能。第一个PCIE交换机的port8和port12分别与第二、三个PCIE交换机的port0相连，均设置为光纤通信端口(fabric port)；三个PCIE交换机的port24均设置为管理端口(managementport)，作为上行端口，通过PEX8608与管理板(mCPU)相连；其余均为下行端口和PCIE设备相连，包括八个GPU。如果接网卡的话，插在第二、三个PCIE交换机的下行端口上即可。

图8所示的系统启动顺序如下：

1)启动GPU板子；

2)启动mCPU系统，并启动mCPU fabric driver(光纤驱动器)，分配GPU0-3给Hostport0，分配GPU4-7给Host port 4；

3)启动Host系统。

以GPU0与GPU4通信为例，TLP(Transmission Line Pulse，传输线脉冲)传输过程为：

1)GPU0发出TLP，switch 2的port4接收该TLP，并向上发出总线事物；

2)Switch2(即第二PCIE交换机)上的其它port监听，发现没有port的AddressTrap(地址陷阱)包含这个地址，于是由该switch2的upstream port(上行端口port 0)向上转发；

3)Switch1的port 8收到TLP，并向上发出总线事物，switch1的port 12包含这个地址，所以port 12接收这个TLP，并向下转发该TLP；

4)Switch 3的upstream port(上行端口)接收该TLP，并向下发出总线事物，switch 3的port4包含该TLP的地址，将接收该TLP，并向下发TLP；

5)GPU4接收该TLP。

本发明所述的PCIE交换机的光纤通信模式主要用于多交换机组网，利用管理端口对交换机的动态管理，可以实现多主机(CPU)和多终端(GPU)之间的灵活通信。

本发明可以解决GPU相互之间的P2P通信带宽偏低的问题，可以给GPU和CPU之间提供高带宽，最多可以提供六组X16PCIE通信带宽。

本发明将二级PCIE交换机通过网卡接入网络中后，可实现同一网络中的不同GPU系统间的数据直接交换，而不需要经过CPU及其内存，极大地提高了GPU系统间的数据交换能力。

综上所述，本发明有效克服了现有技术中的种种缺点而具高度产业利用价值。

上述实施例仅例示性说明本发明的原理及其功效，而非用于限制本发明。任何熟悉此技术的人士皆可在不违背本发明的精神及范畴下，对上述实施例进行修饰或改变。因此，举凡所属技术领域中具有通常知识者在未脱离本发明所揭示的精神与技术思想下所完成的一切等效修饰或改变，仍应由本发明的权利要求所涵盖。

Claims

1.一种图形处理器系统，其特征在于，所述图形处理器系统包括：

一中央处理器；

一第一高速串行计算机扩展总线标准交换机，与所述中央处理器相连；

一第二高速串行计算机扩展总线标准交换机，与所述第一高速串行计算机扩展总线标准交换机相连；所述第二高速串行计算机扩展总线标准交换机下行连接复数个图形处理器；

一第三高速串行计算机扩展总线标准交换机，与所述第一高速串行计算机扩展总线标准交换机相连；所述第三高速串行计算机扩展总线标准交换机下行连接复数个图形处理器；

一管理板，与所述第一高速串行计算机扩展总线标准交换机、第二高速串行计算机扩展总线标准交换机和第三高速串行计算机扩展总线标准交换机分别相连，对所述第一高速串行计算机扩展总线标准交换机、第二高速串行计算机扩展总线标准交换机和第三高速串行计算机扩展总线标准交换机进行管理设置。

2.根据权利要求1所述的图形处理器系统，其特征在于，所述第一高速串行计算机扩展总线标准交换机包括：

至少一第一主机端口，用于与所述中央处理器通信相连；

至少二个第一光纤通信端口，用于分别与所述第二高速串行计算机扩展总线标准交换机和所述第三高速串行计算机扩展总线标准交换机通信相连；

至少一第一上行端口，用于与所述管理板通信相连。

3.根据权利要求2所述的图形处理器系统，其特征在于，所述第二高速串行计算机扩展总线标准交换机包括：

至少一第二光纤通信端口，用于与所述第一高速串行计算机扩展总线标准交换机的一第一光纤通信端口通信相连；

至少一第二上行端口，用于与所述管理板通信相连；

至少一第二下行端口，用于与图形处理器通信相连。

4.根据权利要求3所述的图形处理器系统，其特征在于，所述第三高速串行计算机扩展总线标准交换机包括：

至少一第三光纤通信端口，用于与所述第一高速串行计算机扩展总线标准交换机的另一第一光纤通信端口通信相连；

至少一第三上行端口，用于与所述管理板通信相连；

至少一第三下行端口，用于与图形处理器通信相连。

5.根据权利要求4所述的图形处理器系统，其特征在于：所述第二高速串行计算机扩展总线标准交换机下行连接的一图形处理器发出一传输线脉冲时，所述第二高速串行计算机扩展总线标准交换机的对应第二下行端口接收所述传输线脉冲，并向上发出第二总线汇报；所述第二高速串行计算机扩展总线标准交换机的其他第二下行端口监听所述第二总线汇报，若所述第二总线汇报包含的地址属于所述第二高速串行计算机扩展总线标准交换机的其他第二下行端口之一，则所述第二高速串行计算机扩展总线标准交换机对应的第二下行端口接收所述传输线脉冲；若所述第二总线汇报包含的地址不属于所述第二高速串行计算机扩展总线标准交换机的其他第二下行端口之一，则所述第二高速串行计算机扩展总线标准交换机的第二光纤通信端口向上转发所述传输线脉冲至所述第一高速串行计算机扩展总线标准交换机。

6.根据权利要求5所述的图形处理器系统，其特征在于：所述第一高速串行计算机扩展总线标准交换机对应的一第一光纤通信端口接收所述传输线脉冲，并向上发出第一总线汇报；所述第一高速串行计算机扩展总线标准交换机的另一第一光纤通信端口监听所述第一总线汇报，若所述第一总线汇报包含的地址属于所述第一高速串行计算机扩展总线标准交换机的另一第一光纤通信端口，则所述第一高速串行计算机扩展总线标准交换机的另一第一光纤通信端口接收所述传输线脉冲，并向下转发所述传输线脉冲。

7.根据权利要求6所述的图形处理器系统，其特征在于：所述第三PCIE交换机的第三光纤通信端口接收所述传输线脉冲，并向下转发第三总线汇报；所述第三PCIE交换机的第三下行端口监听所述第三总线汇报，若所述第三总线汇报包含的地址属于所述第三高速串行计算机扩展总线标准交换机的第三下行端口之一，则所述第三高速串行计算机扩展总线标准交换机对应的第三下行端口接收所述传输线脉冲，并向下转发所述传输线脉冲；与所述第三高速串行计算机扩展总线标准交换机对应的第三下行端口相连的图形处理器接收所述传输线脉冲。

8.根据权利要求1所述的图形处理器系统，其特征在于：所述第二高速串行计算机扩展总线标准交换机下行连接的复数个图形处理器彼此间通过NVLink端口通信或通过所述第二高速串行计算机扩展总线标准交换机通信。

9.根据权利要求1所述的图形处理器系统，其特征在于：所述第三高速串行计算机扩展总线标准交换机下行连接复数个图形处理器彼此间通过NVLink端口通信或通过所述第三高速串行计算机扩展总线标准交换机通信。

10.根据权利要求9所述的图形处理器系统，其特征在于：所述管理板对所述第一高速串行计算机扩展总线标准交换机、第二高速串行计算机扩展总线标准交换机和第三高速串行计算机扩展总线标准交换机进行动态管理。

11.根据权利要求4所述的图形处理器系统，其特征在于：所述第二高速串行计算机扩展总线标准交换机的一第二下行端口与网卡相连；或/和所述第三高速串行计算机扩展总线标准交换机的一第三下行端口与网卡相连。