CN115129651B

CN115129651B - 一种多gpu数据传输方法、装置、设备及存储介质

Info

Publication number: CN115129651B
Application number: CN202210751156.8A
Authority: CN
Inventors: 罗建刚; 王申领
Original assignee: Suzhou Inspur Intelligent Technology Co Ltd
Current assignee: Suzhou Inspur Intelligent Technology Co Ltd
Priority date: 2022-06-29
Filing date: 2022-06-29
Publication date: 2024-06-07
Anticipated expiration: 2042-06-29
Also published as: CN115129651A

Abstract

本发明涉及计算机技术领域，尤其涉及一种多GPU数据传输方法、装置、设备及存储介质。所述方法包括：对同一服务器挂载的多个GPU进行排序以生成GPU序列，其中，GPU总个数为偶数，每个GPU均持有大小相同内容不同的数据；基于倍增算法确定本次执行数据拷贝的分组步长；从所述GPU序列的头或尾开始，将间隔等于分组步长减一的两个GPU组成一组；遍历所有分组以使属于同一组的两个GPU互相拷贝对方当前持有的数据；响应于所有分组均完成数据拷贝，则返回执行所述基于倍增算法确定本次执行数据拷贝的分组步长的步骤。本发明的方案与传统环形通信相比可以有效的降低通信延迟，避免了带宽的浪费，显著提升了数据传输效率。

Description

一种多GPU数据传输方法、装置、设备及存储介质

技术领域

本发明涉及计算机技术领域，尤其涉及一种多GPU数据传输方法、装置、设备及存储介质。

背景技术

逐渐成熟的机器学习算法，如深度神经网络(DNN)、卷积神经网络(CNN)等，可以在许多实际应用中实现前所未有的性能并解决了许多领域的难题，例如语音识别，文本处理以及图像识别等。但是在单GPU(Graphics Processing Unit，图形处理器或显示核心)上往往需要很长时间进行训练，效率过低一定程度上制约了其应用。减少训练时间最广泛使用的方法是执行数据并行训练。在数据并行训练中，每个GPU都具有模型参数的完整副本，并且GPU经常与参与训练的其他GPU交换参数，这导致了极大的通信成本，并且在通信缓慢时成为系统瓶颈。为了解决训练时的通信瓶颈，可以从硬件和软件两个方面解决。在硬件方面，我们采用更先进的GPU互联技术，如PCIE、NVLINK、NVSWITCH等。在Nvlink中最高可以提供300GB/s的带宽。在软件方面，采用先进的现代通信库，例如NVIDIA的集体通信库(NCCL)，Uber的Horovod和百度的Ring AllReduce等。

在现有的通信方法中应用较多的是环形通信方法与Double Binary tree(双二叉树)方法。其中环形通信方法可以有效的采用Pipeline(流水线)技术，使其具有良好的扩展性，在大数据量传输时应用较多。而Double Binary tree方法，往往在小数据量时使用。环形通信算法是GPU通信的常用方法，常在数据量较大时使用。请参照图1A所示，环形通信方法中每个GPU只接收自己左邻居的数据并将数据发送给右邻居，让数据在GPU形成的环内流动。

为了更加清楚解释环形通信方法，以ALL_Gather通信方式为例，环形通信方法如图1B所示，后简称为Ring_allgather方法。Ring_allgather中我们将某部分数据均等的分为n块，然后指定左右邻居，然后执行n-1次发送接受操作，其中在第i次操作中GPU-j会将自己的第(j-i)％n块数据发送给右邻居，并接受左邻据的(j-i-1)％n块数据。在n-1次操作后，每个GPU会获得各个GPU的所有数据。以all_gather为例其算法复杂度为(p-1)α+((p-1)/p)nβ，其中p为GPU的数量，n为传输数据大小，α为传输延迟，β单位数据的传输时间。虽然环形通信算法可以有效的利用pipeline技术,在多GPU上有良好的扩展性，但是在某些服务器架构下会浪费其GPU传输带宽，且环形算法会带来较大的传输延迟，容易形成深度学习的计算瓶颈。

发明内容

鉴于深度学习的大规模数据并行训练带来了越来越大的时间开销，这已经逐渐成为了神经网络大规模训练的瓶颈。为了提高通信效率，本发明提供了一种多GPU数据传输方法、一种多GPU数据传输装置、一种计算机设备及一种存储介质。

根据本发明的第一方面，提供了一种多GPU数据传输方法，所述方法包括：

对同一服务器挂载的多个GPU进行排序以生成GPU序列，其中，GPU总个数为偶数，每个GPU均持有大小相同内容不同的数据；

基于倍增算法确定本次执行数据拷贝的分组步长；

从所述GPU序列的头或尾开始，将间隔等于分组步长减一的两个GPU组成一组；

遍历所有分组以使属于同一组的两个GPU互相拷贝对方当前持有的数据；

响应于所有分组均完成数据拷贝，则返回执行所述基于倍增算法确定本次执行数据拷贝的分组步长的步骤。

在一些实施例中，所述服务器包括两个通过QPI协议通信的CPU，每个CPU通过PCIeSwitch挂载四个GPU，同一PCIe Switch挂载的四个CPU分为两对，且每对GPU采用NVLink协议通信。

在一些实施例中，所述对同一服务器挂载的多个GPU进行排序以生成GPU序列的步骤包括：

获取服务器每个CPU所挂载的GPU，以及各个GPU之间的通信协议；

以每个CPU为单位执行以下步骤：将采用NVLink协议通信的两个GPU连续排列得到若干第一序列，拼接所述若干第一序列得到第二序列；

遍历所有CPU以得到每个CPU对应的第二序列，并对所有第二序列进行拼接以得到所述GPU序列。

在一些实施例中，所述基于倍增算法确定本次执行数据拷贝的分组步长的步骤包括：

获取任意一个GPU执行数据拷贝的完成次数；

基于公式L＝2ⁿ计算分组步长，其中，L表示分组步长，n表示GPU执行数据拷贝的完成次数。

在一些实施例中，所述方法还包括：

响应于每个GPU均持有所有其他GPU的数据，则结束数据传输。

在一些实施例中，每个GPU持有的数据均为深度学习训练数据。

根据本发明的第二方面，提供了一种多GPU数据传输装置，所述装置包括：

排序模块，所述排序模块配置用于对同一服务器挂载的多个GPU进行排序以生成GPU序列，其中，GPU总个数为偶数，每个GPU均持有大小相同内容不同的数据；

确定模块，所述确定模块配置用于基于倍增算法确定本次执行数据拷贝的分组步长；

分组模块，所述分组模块配置用于从所述GPU序列的头或尾开始，将间隔等于分组步长减一的两个GPU组成一组；

数据拷贝模块，所述数据拷贝模块配置用于遍历所有分组以使属于同一组的两个GPU互相拷贝对方当前持有的数据；

返回模块，所述返回模块配置用于响应于所有分组均完成数据拷贝，则返回执行所述基于倍增算法确定本次执行数据拷贝的分组步长的步骤。

在一些实施例中，所述排序模块进一步配置用于：

在一些实施例中，所述确定模块进一步配置用于：

获取任意一个GPU执行数据拷贝的完成次数；

在一些实施例中，所述装置还包括配置用于执行以下步骤的模块：

响应于每个GPU均持有所有其他GPU的数据，则结束数据传输。

根据本发明的第三方面，还提供了一种计算机设备，该计算机设备包括：

至少一个处理器；以及

存储器，存储器存储有可在处理器上运行的计算机程序，处理器执行程序时执行前述的多GPU数据传输方法，所述方法包括：

基于倍增算法确定本次执行数据拷贝的分组步长；

根据本发明的第四方面，还提供了一种计算机可读存储介质，计算机可读存储介质存储有计算机程序，计算机程序被处理器执行时执行前述的多GPU数据传输方法，所述方法包括：

基于倍增算法确定本次执行数据拷贝的分组步长；

上述一种多GPU数据传输方法，对现有多GPU的环形通信方式进行了改进，通过先对多个GPU进行排序，然后再基于倍增算法确定本次执行数据拷贝的分组步长，进而使用分组步长对GPU序列进行两两分组，属于同于组的GPU拷贝彼此持有的数据，与传统环形通信相比可以有效的降低通信延迟，避免了带宽的浪费，显著提升了数据传输效率。

此外，本发明还提供了一种多GPU数据传输装置、一种计算机设备和一种计算机可读存储介质，同样能实现上述技术效果，这里不再赘述。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的实施例。

图1A为多GPU环形通信连接结构示意图；

图1B为应用图1A结构传递数据的示意图；

图2为本发明一个实施例提供的一种多GPU数据传输方法的流程示意图；

图3为本发明另一个实施例提供的采用倍增算法传递数据过程示意图；

图4为本发明又一个实施例提供的NF54XX系列服务器拓扑结构示意图；

图5为本发明另一个实施例提供的一种多GPU数据传输装置的结构示意图；

图6为本发明另一个实施例中计算机设备的内部结构图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚明白，以下结合具体实施例，并参照附图，对本发明实施例进一步详细说明。

需要说明的是，本发明实施例中所有使用“第一”和“第二”的表述均是为了区分两个相同名称非相同的实体或者非相同的参量，可见“第一”“第二”仅为了表述的方便，不应理解为对本发明实施例的限定，后续实施例对此不再一一说明。

在一个实施例中，请参照图2所示，本发明提供了一种多GPU数据传输方法100，具体来说所述方法包括以下步骤，

步骤101，对同一服务器挂载的多个GPU进行排序以生成GPU序列，其中，GPU总个数为偶数，每个GPU均持有大小相同内容不同的数据；

步骤102，基于倍增算法确定本次执行数据拷贝的分组步长；

步骤103，从所述GPU序列的头或尾开始，将间隔等于分组步长减一的两个GPU组成一组；

步骤104，遍历所有分组以使属于同一组的两个GPU互相拷贝对方当前持有的数据；

步骤105，响应于所有分组均完成数据拷贝，则返回执行所述基于倍增算法确定本次执行数据拷贝的分组步长的步骤。

在一些实施例中，请参照图3所示，所述服务器包括两个通过QPI(Quick PathInterconnect)协议通信的CPU，每个CPU通过PCIe Switch挂载四个GPU，同一PCIe Switch挂载的四个CPU分为两对，且每对GPU采用NVLink协议通信。

其中，QPI是一种基于包传输的串行式高速点对点连接协议，采用差分信号与专门的时钟进行传输。在延迟方面，QPI与FSB几乎相同，却可以提升更高的访问带宽。一组QPI具有20条数据传输线，以及发送(TX)和接收方(RX)的时钟信号。NVLink是英伟达(NVIDIA)开发并推出的一种总线及其通信协议。NVLink采用点对点结构、串列传输，用于中央处理器(CPU)与图形处理器(GPU)之间的连接，也可用于多个图形处理器之间的相互连接。

在一些实施例中，前述步骤101，对同一服务器挂载的多个GPU进行排序以生成GPU序列具体包括以下步骤：

在一些实施例中，前述步骤102，基于倍增算法确定本次执行数据拷贝的分组步长具体包括以下步骤：

获取任意一个GPU执行数据拷贝的完成次数；

在一些实施例中，所述方法还包括：

响应于每个GPU均持有所有其他GPU的数据，则结束数据传输。

在又一个实施例中，为了便于理解，下面将上述多GPU数据传输方法应用于图3所示的NF54XX系列服务器为例，如图4所示所述方法包括以下步骤：

步骤一，距离为1的GPU拷贝彼此数据。

步骤二，距离为2的GPU拷贝自己的数据以及在前一步中接收到的数据。

步骤三，距离为4的GPU拷贝它们自己的数据以及它们在前两步中接收到的数据。

经过步骤一至步骤三的传递该方法可以在lg(p)次内完成环形算法数据传递过程，该算法的算法复杂度为lg(pα)+((p-1)/p)nβ。而环形通信算法复杂度为(p-1)α+((p-1)/p)nβ。可以看出在核数较多时，倍增通信算法中有效的减少了通信延迟项。采用图3的结构GPU之间通过QOI、PCIE和NVLINK进行连接，其中QPI带宽为12.8GB/s，PCIE带宽为16GB/s，NVLINK带宽为250GB/s。在环形通信算法中，在8个GPU卡运行时GPU的环路为0->1->2->3->4->5->6->7->(0),在此环路中在GPU3和GPU4传输只能采用QPI进行传输，导致整个链路的传输效率理论最高仅为12.8GB/s。浪费了PCIE和NVLINK的高传输带宽。而在倍增通信算法中在步骤一中，数据传输采用的是NVLINK传输(1/7数据)，在步骤二中采用的PCIE传输(2/7数据)，在步骤三中采用的是QPI传输(4/7数据)。因此理论上倍增通信算法，在此架构上理论上最多可以获得18％以上的通信加速。

在又一个实施例中，请参照图5所示，本发明还提供了一种多GPU数据传输装置200，所述装置包括：

排序模块201，所述排序模块201配置用于对同一服务器挂载的多个GPU进行排序以生成GPU序列，其中，GPU总个数为偶数，每个GPU均持有大小相同内容不同的数据；

确定模块202，所述确定模块202配置用于基于倍增算法确定本次执行数据拷贝的分组步长；

分组模块203，所述分组模块203配置用于从所述GPU序列的头或尾开始，将间隔等于分组步长减一的两个GPU组成一组；

数据拷贝模块204，所述数据拷贝模块204配置用于遍历所有分组以使属于同一组的两个GPU互相拷贝对方当前持有的数据；

返回模块205，所述返回模块205配置用于响应于所有分组均完成数据拷贝，则返回执行所述基于倍增算法确定本次执行数据拷贝的分组步长的步骤。

上述一种多GPU数据传输装置，对现有多GPU的环形通信方式进行了改进，通过先对多个GPU进行排序，然后再基于倍增算法确定本次执行数据拷贝的分组步长，进而使用分组步长对GPU序列进行两两分组，属于同于组的GPU拷贝彼此持有的数据，与传统环形通信相比可以有效的降低通信延迟，避免了带宽的浪费，显著提升了数据传输效率。

在一些实施例中，所述排序模块201进一步配置用于：

在一些实施例中，所述确定模块202进一步配置用于：

获取任意一个GPU执行数据拷贝的完成次数；

在一些实施例中，所述装置还包括用于执行以下步骤的模块：

响应于每个GPU均持有所有其他GPU的数据，则结束数据传输。

需要说明的是，关于多GPU数据传输装置的具体限定可以参见上文中对多GPU数据传输方法的限定，在此不再赘述。上述多GPU数据传输装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

根据本发明的另一方面，提供了一种计算机设备，该计算机设备可以是服务器，其内部结构图请参照图6所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时实现以上所述的多GPU数据传输方法，具体来说，所述方法包括以下步骤：

基于倍增算法确定本次执行数据拷贝的分组步长；

上述一种计算机设备，对现有多GPU的环形通信方式进行了改进，通过先对多个GPU进行排序，然后再基于倍增算法确定本次执行数据拷贝的分组步长，进而使用分组步长对GPU序列进行两两分组，属于同于组的GPU拷贝彼此持有的数据，与传统环形通信相比可以有效的降低通信延迟，避免了带宽的浪费，显著提升了数据传输效率。

获取任意一个GPU执行数据拷贝的完成次数；

在一些实施例中，所述方法还包括：

响应于每个GPU均持有所有其他GPU的数据，则结束数据传输。

根据本发明的又一方面，提供了一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现以上所述的多GPU数据传输方法，具体来说，包括执行以下步骤：

基于倍增算法确定本次执行数据拷贝的分组步长；

上述一种存储介质，对现有多GPU的环形通信方式进行了改进，通过先对多个GPU进行排序，然后再基于倍增算法确定本次执行数据拷贝的分组步长，进而使用分组步长对GPU序列进行两两分组，属于同于组的GPU拷贝彼此持有的数据，与传统环形通信相比可以有效的降低通信延迟，避免了带宽的浪费，显著提升了数据传输效率。

获取任意一个GPU执行数据拷贝的完成次数；

在一些实施例中，所述方法还包括：

响应于每个GPU均持有所有其他GPU的数据，则结束数据传输。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

Claims

1.一种多GPU数据传输方法，其特征在于，所述方法包括：

基于倍增算法确定本次执行数据拷贝的分组步长；

2.根据权利要求1所述的多GPU数据传输方法，其特征在于，所述服务器包括两个通过QPI协议通信的CPU，每个CPU通过PCIe Switch挂载四个GPU，同一PCIe Switch挂载的四个CPU分为两对，且每对GPU采用NVLink协议通信。

3.根据权利要求2所述的多GPU数据传输方法，其特征在于，所述对同一服务器挂载的多个GPU进行排序以生成GPU序列的步骤包括：

4.根据权利要求1所述的多GPU数据传输方法，其特征在于，所述基于倍增算法确定本次执行数据拷贝的分组步长的步骤包括：

获取任意一个GPU执行数据拷贝的完成次数；

5.根据权利要求1所述的GPU数据传输方法，其特征在于，所述方法还包括：

响应于每个GPU均持有所有其他GPU的数据，则结束数据传输。

6.根据权利要求1所述的GPU数据传输方法，其特征在于，每个GPU持有的数据均为深度学习训练数据。

7.一种多GPU数据传输装置，其特征在于，所述装置包括：

8.根据权利要求7所述的多GPU数据传输装置，其特征在于，所述服务器包括两个通过QPI协议通信的CPU，每个CPU通过PCIe Switch挂载四个GPU，同一PCIe Switch挂载的四个CPU分为两对，且每对GPU采用NVLink协议通信。

9.一种计算机设备，其特征在于，包括：

至少一个处理器；以及

存储器，所述存储器存储有可在所述处理器中运行的计算机程序，所述处理器执行所述程序时执行权利要求1-6任意一项所述的多GPU数据传输方法。

10.一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，其特征在于，所述计算机程序被处理器执行时执行权利要求1-6任意一项所述的多GPU数据传输方法。