CN111597139B

CN111597139B - 一种gpu的通信方法、系统、设备以及介质

Info

Publication number: CN111597139B
Application number: CN202010399956.9A
Authority: CN
Inventors: 罗建刚
Original assignee: Suzhou Inspur Intelligent Technology Co Ltd
Current assignee: Suzhou Inspur Intelligent Technology Co Ltd
Priority date: 2020-05-13
Filing date: 2020-05-13
Publication date: 2023-01-06
Anticipated expiration: 2040-05-13
Also published as: CN111597139A

Abstract

本发明公开了一种GPU的通信方法，包括以下步骤：获取多个GPU的拓扑图；利用所述拓扑图建立具有边权和点权的有向图；根据所述边权和所述点权构建树形通信结构图和环形通信结构图；分别统计所述树形通信结构图和所述环形通信结构图的通道数量；响应于所述树形通信结构图的通道数量大于所述环形通信结构图的通道数量，所述多个GPU利用所述树形通信结构图进行通信；响应于所述树形通信结构图的通道数量不大于所述环形通信结构图的通道数量，所述多个GPU利用所述环形通信结构图进行通信。本发明还公开了一种系统、计算机设备以及可读存储介质。本发明提出的方案不仅能够尽可能利用GPU之间的通信通道，还能保证每个节点的收发的负载均衡。

Description

一种GPU的通信方法、系统、设备以及介质

技术领域

本发明涉及GPU领域，具体涉及一种GPU的通信方法、系统、设备以及存储介质。

背景技术

在现有的GPU通信方法中应用较多的是环形通信方法与Double Binary tree方法。其中环形通信方法可以有效的采用Pipeline技术，使其具有良好的扩展性，在大数据量传输时应用较多。而Double Binary tree方法，往往在小数据量时使用。

环形通信算法可以有效的利用pipeline技术，在多GPU上有良好的扩展性。但是该算法必须建立有效的环形通道，可能由于服务器的配置不同或者多种互连方式的共用，导致无法建立有效的通信拓扑，导致通信效率的低下。而现有的开源通信库近乎都采用了环形通信算法，也不能够很好的解决该问题。

发明内容

有鉴于此，为了克服上述问题的至少一个方面，本发明实施例提出一种GPU的通信方法，包括以下步骤：

获取多个GPU的拓扑图；

利用所述拓扑图建立具有边权和点权的有向图；

根据所述边权和所述点权构建树形通信结构图和环形通信结构图；

分别统计所述树形通信结构图和所述环形通信结构图的通道数量；

响应于所述树形通信结构图的通道数量大于所述环形通信结构图的通道数量，所述多个GPU利用所述树形通信结构图进行通信；

响应于所述树形通信结构图的通道数量不大于所述环形通信结构图的通道数量，所述多个GPU利用所述环形通信结构图进行通信。

在一些实施例中，根据所述边权和所述点权构建树形通信结构图，进一步包括：

利用所述有向图的连接边的数量确定所述树形通信结构图的第一数量，并根据点权确定所述树形通信结构图的第二数量；

比较所述第一数量和所述第二数量的大小，并将较小值作为所述树形通信结构图的最终数量。

在一些实施例中，还包括：

根据所述有向图中的每一个GPU节点的点权进行从小到大的排序；

根据所述排序结果，依次选择点权最小的GPU节点作为树形通信结构图的祖先节点，并选择最小的所述边权的方向进行深度优先遍历以构建所述树形通信结构图；

在每次构建所述树形通信结构图后更新所述有向图，直到遍历所有GPU节点，并返回对所述有向图中的每一个GPU节点的点权进行从小到大的排序的步骤，直到构建的所述树形通信结构图的数量达到所述最终数量。

在一些实施例中，统计所述树形通信结构图的通道数量，进一步包括：

根据所述最终数量以及每一个所述树形通信结构图的连接边的数量统计所述通道数量。

在一些实施例中，根据所述边权和所述点权构建环形通信结构图，进一步包括：

利用所述有向图的连接边的数量确定所述环形通信结构图的第一数量，并根据边权确定所述环形通信结构图的第二数量；

比较所述第一数量和所述第二数量的大小，并将较小值作为所述环形通信结构图的最终数量。

在一些实施例中，还包括：

将所述有向图中的第一个GPU节点作为起始节点，按照预设顺序遍历连接下一个GPU节点，直至形成所述环形通信结构图；

更新所述有向图，返回形成所述环形通信结构图的步骤，直到形成的所述环形通信结构图的数量达到所述最终数量。

在一些实施例中，统计所述环形通信结构图的通道数量，进一步包括：

根据所述最终数量以及每一个所述环形通信结构图的连接边的数量统计所述通道数量。

基于同一发明构思，根据本发明的另一个方面，本发明的实施例还提供了一种GPU的通信系统，包括：

获取模块，所述获取模块配置为获取多个GPU的拓扑图；

建立模块，所述建立模块配置为利用所述拓扑图建立具有边权和点权的有向图；

构建模块，所述构建模块配置为根据所述边权和所述点权构建树形通信结构图和环形通信结构图；

统计模块，所述统计模块配置为分别统计所述树形通信结构图和所述环形通信结构图的通道数量；

第一响应模块，所述第一响应模块配置为响应于所述树形通信结构图的通道数量大于所述环形通信结构图的通道数量，所述多个GPU利用所述树形通信结构图进行通信；

第二响应模块，所述第二响应模块配置为响应于所述树形通信结构图的通道数量不大于所述环形通信结构图的通道数量，所述多个GPU利用所述环形通信结构图进行通信。

基于同一发明构思，根据本发明的另一个方面，本发明的实施例还提供了一种计算机设备，包括：

至少一个处理器；以及

存储器，所述存储器存储有可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时执行如上所述的任一种GPU的通信方法的步骤。

基于同一发明构思，根据本发明的另一个方面，本发明的实施例还提供了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时执行如上所述的任一种GPU的通信方法的步骤。

本发明具有以下有益技术效果之一：本发明提出的方案不仅能够尽可能利用GPU之间的通信通道，还能保证每个节点的收发的负载均衡。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的实施例。

图1为本发明的实施例提供的GPU的通信方法的流程示意图；

图2A为多个GPU的结构拓扑图；

图2B为根据图2A生成的有向图；

图3为本发明的实施例提供的树形通信结构图的示意图；

图4为得到第一棵树形通信结构图后，更新后的有向图的示意图；

图5为由图2B得到的5个树形通信结构图；

图6为本发明的实施例提供的环形通信结构图的示意图；

图7为得到第一棵环形通信结构图后，更新后的有向图的示意图；

图8为由图2B得到的2个环形通信结构图；

图9为图2A示出的结构拓扑图中GPU的连接方式示意图；

图10为利用NCCL进行通信时所利用的通道的示意图；

图11是采用树形通信结构图进行通信时与nccl的对比测试数据；

图12是采用树形通信结构图进行通信时与vgg16的对比测试数据；

图13是采用树形通信结构图进行通信时与resnet50的对比测试数据；

图14为本发明的实施例提供的GPU的通信系统的结构示意图；

图15为本发明的实施例提供的计算机设备的结构示意图；

图16为本发明的实施例提供的计算机可读存储介质的结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚明白，以下结合具体实施例，并参照附图，对本发明实施例进一步详细说明。

需要说明的是，本发明实施例中所有使用“第一”和“第二”的表述均是为了区分两个相同名称非相同的实体或者非相同的参量，可见“第一”“第二”仅为了表述的方便，不应理解为对本发明实施例的限定，后续实施例对此不再一一说明。

根据本发明的一个方面，本发明的实施例提出一种GPU的通信方法，如图1所示，其可以包括步骤：S1，获取多个GPU的拓扑图；S2，利用所述拓扑图建立具有边权和点权的有向图；S3，根据所述边权和所述点权构建树形通信结构图和环形通信结构图；S4，分别统计所述树形通信结构图和所述环形通信结构图的通道数量；S5，响应于所述树形通信结构图的通道数量大于所述环形通信结构图的通道数量，所述多个GPU利用所述树形通信结构图进行通信；S6，响应于所述树形通信结构图的通道数量不大于所述环形通信结构图的通道数量，所述多个GPU利用所述环形通信结构图进行通信。

深度学习的大规模数据并行训练带来了越来越大的时间开销，面对不断增加的硬件结构复杂性，现有的传输通信方法无法有效地利用可用带宽。这已经逐渐成为了神经网络大规模训练的瓶颈。为了解决这个问题，本发明提出的基于树形结构的传输方案，有效的避免了环形通信方法在有时无法建立有效拓扑的问题，不仅能够尽可能利用GPU之间的通信通道，还能保证每个节点的收发的负载均衡。而且在特殊的GPU拓扑下，最高获得了7.85倍的加速效果。

在一些实施例中，在步骤S2利用所述拓扑图建立具有边权和点权的有向图中，点权为每个节点所连接边的数量，边权为两个节点之间所连接边的数量，以图2A示出的多个GPU的结构拓扑以及图2B则为根据图2A生成的有向图为例，如GPU1所在节点，点权为6；GPU1和GPU2之间的边的边权为2。

在一些实施例中，步骤S3根据所述边权和所述点权构建树形通信结构图，进一步包括：

具体的，树形通信结构图的数量受连接边和点权两个条件的约束，需要通过两种方式的计算，然后取较小值。如图2B所示，受连接边约束时，总通道数(连接边数量)为10，建立一棵树形通信结构图所需边的数量为2(当节点个数为n时，所需边的数量为n-1)。因此在总通道数的约束下树形通信结构图的数量为5(10/2)。受点权的约束时，图2B中点权最小的为6(GPU1和GPU 2)。因此，根据图2B所示的有向图确定的树形通信结构图的数量为5。在一些实施例中，还可以先将节点进行合并后，确定可以创建的树形通信结构图的数量。

在一些实施例中，方法还包括：

具体的，根据有向图，以点权大小排序所有的GPU节点，并优先选择最小的节点作为树的祖先节点，采用深度优先遍历，建立树形通信结构图。并且在深度优先遍历时，优先选择边权较小的方向。由图2B可得，应从GPU1出发，遍历到边权较小的GPU2，再到GPU3。生成的第一棵树如图3所示。接着更新有向图(如图4所示，图4为得到第一棵树形通信结构图后，更新后的有向图示意图)，根据之前的排序结果，寻找点权第二小的节点(GPU2)，得到下一棵树形通信结构图。如果所有的节点均已遍历，则根据更新后的有向图，重新对节点进行排序。直至得到上述步骤中计算出的树形通信结构图的数量为止。如图5所示，图5示出了由图2B得到的5个树形通信结构图。

需要说明的是如果最终树形通信结构图的数量由点权决定，该点只能当作祖先节点或者叶节点，也即在进行深度遍历时，当遍历到该节点时，如果该节点作为了中间节点，则舍弃本次得到的属性通信结构图。

在一些实施例中，在步骤S5，响应于所述树形通信结构图的通道数量大于所述环形通信结构图的通道数量，所述多个GPU利用所述树形通信结构图进行通信中，具体的，在得到多个树形通信结构图后，即可根据多个树形通信结构图进行通信，通信算法主要分为两步，第一步子节点将数据发送给父节点，父节点进行接收并进行规约操作，其父节点再以此向上发送直至根节点。第二步根节点将其规约后的数据，发送给子节点，依次向下发送直到叶节点。在传统Binary tree结构中，祖先节点和叶节点只进行发送或者接收任务，因此容易造成其发送接收的负载不均衡。而本发明提出的树形通信结构图更加灵活不受其结构的制约，而且能够保证每个节点的收发的负载均衡，例如，如图5示出的5个树形通信结构图，每个节点均进行3次收，3次发。

在一些实施例中，步骤S4中统计所述树形通信结构图的通道数量，进一步包括：

具体的，所述树形通信结构图的通道数量为所有的所述树形通信结构图的连接边的数量之和，例如，如图5示出的5个树形通信结构图，通道数量为10。

具体的，环形通信结构图的数量受两个条件的约束，需要通过两种方式的计算，然后取较小值。环形通信结构图的总数受总通道数(连接边)的约束，以如图2B所示的有向图为例，其总通道数(连接边数量)为10，建立一棵环形通信结构图所需边的数量为3(当节点个数为n时，所需边的数量为n)。因此在总通道数的约束下其环形通信结构图的数量为3(10/3)。环形通信结构图的总数受边权的约束，在如图2B中边权最小的为2(GPU1和GPU2之间)。综上环形通信结构图的数量为2。

在一些实施例中，方法还包括：

具体的，按顺序将GPU1作为起始节点，并按照顺序去遍历连接下一个节点，直至形成环路为止。一般采用递归实现，不能形成环路则退回上个节点再次寻找。寻找的第一个环形通信结构图如图6所示。然后更新有向图，重复上述步骤，直至找到计算出来的环形通信结构图的数量为止。第一次更新后的有向图如图7所示，根据该规则图2A所示的多个GPU拓扑得到的环形通信结构图的数量为2，如图8所示。

具体的，所述环形通信结构图的通道数量为所有的所述环形通信结构图的连接边的数量之和，例如，如图8出的2个环形通信结构图，通道数量为6。

在一些实施例中，步骤S6，响应于所述树形通信结构图的通道数量不大于所述环形通信结构图的通道数量，所述多个GPU利用所述环形通信结构图进行通信中，具体的，在环形通信方法中每个GPU只接收自己左邻居的数据并将数据发送给右邻居，让数据在GPU形成的环内流动。ALL_Reduce方式则是深度学习中，最常用的通信方式。以ALL_Reduce通信方式为例，后简称为Ring_allreduce方法。Ring_allreduce的过程分为两大步，第一步是scatter_reduce，第二步是All_gather。第一步将某部分数据均等的分为n块，然后指定左右邻居，然后执行n-1次规约操作，其中在第i次操作中GPU-j会将自己的第(j-i)％n块数据发送给右邻居，并接受左邻据的(j-i-1)％n块数据。并将接受来的数据进行reduce操作。第二步工作则是通过环形通信的方法，将每个GPU获得reduce数据发送到每个GPU当中。

本发明提出的方案是以基本的树型结构进行组合，与环形通信相比可以利用更多的通信通道，实现更好的通信拓扑。并且利用nccl库代码作为对比(nccl是当今最流行、应用最广泛的GPU通信库，在大数据量时主要采用了环形通信方法)。图2A所示的通信拓扑是最常见的结构之一，如图9所示，GPU之间通过PCIE和NVLINK进行连接，其中PCIE双向连接带宽为16GB/s，NVLINK双向带宽为50GB/s，在NCCL中为了建立有效的通信拓扑不得不采用PCIE作为通道传输因此理想传输带宽为16GB/s，而树形通信结构则可有效的利用更高效的NVLINK传输通道，达到最高为50GB/s的数据传输。如图10所示，NCCL虽然可以有效的利用NVLINK建立传输通道，但是也浪费了2条NVLINK传输通道，而树形通信结构图则可以有效的利用其全部通道。

本发明方案以树型结构为基础，扩展为新的传输方法，有效的避免了环形通信方法在有时无法建立高效通信拓扑的问题。并在NF5468M5 AI服务器(nvlink架构)上进行了测试。图11是与nccl的对比测试数据。从图中可得在服务器5468上，采用树形通信结构图(S_TREE)的方法最高获得了7.85倍的通信加速，平均获得了2.35倍的加速。加速比在1到7.85之间。可以看出在某些特殊的GPU拓扑下，nccl采用的环形通信算法由于无法获得有效的拓扑，导致只能采用PCIE进行通信，速度最低处仅为7.8GB/s。这严重影响了程序效率，容易成为大规模机器学习训练的瓶颈。图12和图13展示了其vgg16和resnet50的测试数据对比，其中resnet50的加速比在1～1.26之间，平均加速比为1.09，vgg16的加速比在1与2.0之间平均加速比为1.34，可以看出，本文方法有效的解决了其现有方法，在环形通信无法有效的利用其传输通道时，导致的传输效率低下的问题，取得了良好的加速效果。

基于同一发明构思，根据本发明的另一个方面，本发明的实施例还提供了一种GPU的通信系统400，如图14所示，包括：

获取模块401，所述获取模块401配置为获取多个GPU的拓扑图；

建立模块402，所述建立模块402配置为利用所述拓扑图建立具有边权和点权的有向图；

构建模块403，所述构建模块403配置为根据所述边权和所述点权构建树形通信结构图和环形通信结构图；

统计模块404，所述统计模块404配置为分别统计所述树形通信结构图和所述环形通信结构图的通道数量；

第一响应模块405，所述第一响应模块405配置为响应于所述树形通信结构图的通道数量大于所述环形通信结构图的通道数量，所述多个GPU利用所述树形通信结构图进行通信；

第二响应模块406，所述第二响应模块406配置为响应于所述树形通信结构图的通道数量不大于所述环形通信结构图的通道数量，所述多个GPU利用所述环形通信结构图进行通信。

基于同一发明构思，根据本发明的另一个方面，如图15所示，本发明的实施例还提供了一种计算机设备501，包括：

至少一个处理器520；以及

存储器510，存储器510存储有可在处理器上运行的计算机程序511，处理器520执行程序时执行如上的任一种GPU的通信方法的步骤。

基于同一发明构思，根据本发明的另一个方面，如图16所示，本发明的实施例还提供了一种计算机可读存储介质601，计算机可读存储介质601存储有计算机程序指令610，计算机程序指令610被处理器执行时执行如上的任一种GPU的通信方法的步骤。

最后需要说明的是，本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，可以通过计算机程序来指令相关硬件来完成，的程序可存储于一计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，的存储介质可为磁碟、光盘、只读存储记忆体(ROM)或随机存储记忆体(RAM)等。上述计算机程序的实施例，可以达到与之对应的前述任意方法实施例相同或者相类似的效果。

此外，典型地，本发明实施例公开的装置、设备等可为各种电子终端设备，例如手机、个人数字助理(PDA)、平板电脑(PAD)、智能电视等，也可以是大型终端设备，如服务器等，因此本发明实施例公开的保护范围不应限定为某种特定类型的装置、设备。本发明实施例公开的客户端可以是以电子硬件、计算机软件或两者的组合形式应用于上述任意一种电子终端设备中。

此外，根据本发明实施例公开的方法还可以被实现为由CPU执行的计算机程序，该计算机程序可以存储在计算机可读存储介质中。在该计算机程序被CPU执行时，执行本发明实施例公开的方法中限定的上述功能。

此外，上述方法步骤以及系统单元也可以利用控制器以及用于存储使得控制器实现上述步骤或单元功能的计算机程序的计算机可读存储介质实现。

此外，应该明白的是，本文的计算机可读存储介质(例如，存储器)可以是易失性存储器或非易失性存储器，或者可以包括易失性存储器和非易失性存储器两者。作为例子而非限制性的，非易失性存储器可以包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦写可编程ROM(EEPROM)或快闪存储器。易失性存储器可以包括随机存取存储器(RAM)，该RAM可以充当外部高速缓存存储器。作为例子而非限制性的，RAM可以以多种形式获得，比如同步RAM(DRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据速率SDRAM(DDRSDRAM)、增强SDRAM(ESDRAM)、同步链路DRAM(SLDRAM)、以及直接Rambus RAM(DRRAM)。所公开的方面的存储设备意在包括但不限于这些和其它合适类型的存储器。

本领域技术人员还将明白的是，结合这里的公开所描述的各种示例性逻辑块、模块、电路和算法步骤可以被实现为电子硬件、计算机软件或两者的组合。为了清楚地说明硬件和软件的这种可互换性，已经就各种示意性组件、方块、模块、电路和步骤的功能对其进行了一般性的描述。这种功能是被实现为软件还是被实现为硬件取决于具体应用以及施加给整个系统的设计约束。本领域技术人员可以针对每种具体应用以各种方式来实现的功能，但是这种实现决定不应被解释为导致脱离本发明实施例公开的范围。

结合这里的公开所描述的各种示例性逻辑块、模块和电路可以利用被设计成用于执行这里功能的下列部件来实现或执行：通用处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、现场可编程门阵列(FPGA)或其它可编程逻辑器件、分立门或晶体管逻辑、分立的硬件组件或者这些部件的任何组合。通用处理器可以是微处理器，但是可替换地，处理器可以是任何传统处理器、控制器、微控制器或状态机。处理器也可以被实现为计算设备的组合，例如，DSP和微处理器的组合、多个微处理器、一个或多个微处理器结合DSP和/或任何其它这种配置。

结合这里的公开所描述的方法或算法的步骤可以直接包含在硬件中、由处理器执行的软件模块中或这两者的组合中。软件模块可以驻留在RAM存储器、快闪存储器、ROM存储器、EPROM存储器、EEPROM存储器、寄存器、硬盘、可移动盘、CD-ROM、或本领域已知的任何其它形式的存储介质中。示例性的存储介质被耦合到处理器，使得处理器能够从该存储介质中读取信息或向该存储介质写入信息。在一个替换方案中，存储介质可以与处理器集成在一起。处理器和存储介质可以驻留在ASIC中。ASIC可以驻留在用户终端中。在一个替换方案中，处理器和存储介质可以作为分立组件驻留在用户终端中。

在一个或多个示例性设计中，功能可以在硬件、软件、固件或其任意组合中实现。如果在软件中实现，则可以将功能作为一个或多个指令或代码存储在计算机可读介质上或通过计算机可读介质来传送。计算机可读介质包括计算机存储介质和通信介质，该通信介质包括有助于将计算机程序从一个位置传送到另一个位置的任何介质。存储介质可以是能够被通用或专用计算机访问的任何可用介质。作为例子而非限制性的，该计算机可读介质可以包括RAM、ROM、EEPROM、CD-ROM或其它光盘存储设备、磁盘存储设备或其它磁性存储设备，或者是可以用于携带或存储形式为指令或数据结构的所需程序代码并且能够被通用或专用计算机或者通用或专用处理器访问的任何其它介质。此外，任何连接都可以适当地称为计算机可读介质。例如，如果使用同轴线缆、光纤线缆、双绞线、数字用户线路(DSL)或诸如红外线、无线电和微波的无线技术来从网站、服务器或其它远程源发送软件，则上述同轴线缆、光纤线缆、双绞线、DSL或诸如红外线、无线电和微波的无线技术均包括在介质的定义。如这里所使用的，磁盘和光盘包括压缩盘(CD)、激光盘、光盘、数字多功能盘(DVD)、软盘、蓝光盘，其中磁盘通常磁性地再现数据，而光盘利用激光光学地再现数据。上述内容的组合也应当包括在计算机可读介质的范围内。

以上是本发明公开的示例性实施例，但是应当注意，在不背离权利要求限定的本发明实施例公开的范围的前提下，可以进行多种改变和修改。根据这里描述的公开实施例的方法权利要求的功能、步骤和/或动作不需以任何特定顺序执行。此外，尽管本发明实施例公开的元素可以以个体形式描述或要求，但除非明确限制为单数，也可以理解为多个。

应当理解的是，在本文中使用的，除非上下文清楚地支持例外情况，单数形式“一个”旨在也包括复数形式。还应当理解的是，在本文中使用的“和/或”是指包括一个或者一个以上相关联地列出的项目的任意和所有可能组合。

上述本发明实施例公开实施例序号仅仅为了描述，不代表实施例的优劣。

本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成，也可以通过程序来指令相关的硬件完成，的程序可以存储于一种计算机可读存储介质中，上述提到的存储介质可以是只读存储器，磁盘或光盘等。

所属领域的普通技术人员应当理解：以上任何实施例的讨论仅为示例性的，并非旨在暗示本发明实施例公开的范围(包括权利要求)被限于这些例子；在本发明实施例的思路下，以上实施例或者不同实施例中的技术特征之间也可以进行组合，并存在如上的本发明实施例的不同方面的许多其它变化，为了简明它们没有在细节中提供。因此，凡在本发明实施例的精神和原则之内，所做的任何省略、修改、等同替换、改进等，均应包含在本发明实施例的保护范围之内。

Claims

1.一种GPU的通信方法，其特征在于，包括以下步骤：

获取多个GPU的拓扑图；

利用所述拓扑图建立具有边权和点权的有向图；

响应于所述树形通信结构图的通道数量不大于所述环形通信结构图的通道数量，所述多个GPU利用所述环形通信结构图进行通信；

所述树形通信结构图的通道数量为所有的所述树形通信结构图的连接边的数量之和，所述环形通信结构图的通道数量为所有的所述环形通信结构图的连接边的数量之和。

2.如权利要求1所述的方法，其特征在于，根据所述边权和所述点权构建树形通信结构图，进一步包括：

3.如权利要求2所述的方法，其特征在于，还包括：

4.如权利要求3所述的方法，其特征在于，统计所述树形通信结构图的通道数量，进一步包括：

5.如权利要求1所述的方法，其特征在于，根据所述边权和所述点权构建环形通信结构图，进一步包括：

6.如权利要求5所述的方法，其特征在于，还包括：

将所述有向图中的第一个GPU节点作为起始节点，按照预设顺序遍历连接的下一个GPU节点，直至形成所述环形通信结构图；

7.如权利要求6所述的方法，其特征在于，统计所述环形通信结构图的通道数量，进一步包括：

8.一种GPU的通信系统，其特征在于，包括：

获取模块，所述获取模块配置为获取多个GPU的拓扑图；

统计模块，所述统计模块配置为分别统计所述树形通信结构图和所述环形通信结构图的通道数量，所述树形通信结构图的通道数量为所有的所述树形通信结构图的连接边的数量之和，所述环形通信结构图的通道数量为所有的所述环形通信结构图的连接边的数量之和；

9.一种计算机设备，包括：

至少一个处理器；以及

存储器，所述存储器存储有可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时执行如权利要求1-7任意一项所述的方法的步骤。

10.一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，其特征在于，所述计算机程序被处理器执行时执行如权利要求1-7任意一项所述的方法的步骤。