CN110647999A

CN110647999A - 一种基于拓扑结构提高深度学习训练速度的方法及装置

Info

Publication number: CN110647999A
Application number: CN201910785997.9A
Authority: CN
Inventors: 王超
Original assignee: Suzhou Wave Intelligent Technology Co Ltd
Current assignee: Suzhou Wave Intelligent Technology Co Ltd
Priority date: 2019-08-23
Filing date: 2019-08-23
Publication date: 2020-01-03

Abstract

本发明为了解决现有技术中存在的问题，创新提出了一种基于拓扑结构提高深度学习训练速度的方法，包括：获取CPU以及GPU的拓扑信息；根据训练任务判断所需GPU的数量、GPU优先级关系、CPU以及GPU的拓扑关系，选择与GPU具有互联关系的CPU和所述GPU进行绑定，执行深度学习训练任务，本发明还提出了一种基于拓扑结构提高深度学习训练速度的装置，通过将与GPU具有互联关系的CPU和GPU绑定执行训练任务，省去GPU和不直接互联的CPU的通讯时间和带宽限制，有效提高了深度学习训练任务速度，降低训练任务所需时间，提高的深度学习训练的效率。

Description

一种基于拓扑结构提高深度学习训练速度的方法及装置

技术领域

本发明涉及深度学习领域，尤其是涉及一种基于拓扑结构提高深度学习训练速度的方法及装置。

背景技术

近年来深度学习发展迅速，图像处理、语音识别等领域都取得了飞速发展。例如在图片识别上，神经网络结构快速演进，分类的网络结构迅速发展。随着模型层次越来越深，参数越来越多，模型能力也越来越强，随着模型复杂度不断增长、训练样本的指数级增长。

深度学习训练任务，尤其对于复杂模型和大规模数据集训练会耗费大量时间，并且现今的主流深度学习框架在单机和分布式训练过程中都会有使用GPU和CPU来处理不同的过程。如利用GPU进行矩阵计算和张量操作等，而CPU则进行一部分简单的训练数据的预处理和梯度处理、消息广播等任务。

但是如何提高深度学习训练任务速度，降低训练任务所需时间，尤其对于复杂模型和大规模数据集训练，目前现有技术中并未有相关的方法解决。

发明内容

本发明为了解决现有技术中存在的问题，创新提出了一种基于拓扑结构提高深度学习训练速度的方法及装置，有效提高了深度学习训练任务速度，降低训练任务所需时间，提高的深度学习训练的效率。

本发明第一方面提供了一种基于拓扑结构提高深度学习训练速度的方法，包括：

获取CPU以及GPU的拓扑信息并进行保存；

根据训练任务判断所需GPU是否为一个，如果判断结果为是，根据拓扑信息，选择与该GPU具有互联关系的CPU和所述GPU进行绑定，执行深度学习训练任务；

如果判断结果为否，根据GPU拓扑信息确定GPU的优先级关系，根据所述GPU的优先级关系确定GPU的编号，根据确定的GPU编号依次选择与该GPU具有互联关系的CPU和所述GPU进行绑定，执行深度学习训练任务。

结合第一方面，在第一方面第一种可能的实现方式中，所述训练任务包括单机单卡任务以及单机多卡任务，其中单机单卡任务为单个计算设备单个GPU完成的训练任务，所述单机多卡任务为单个计算设备多个GPU完成的训练任务。

结合第一方面，在第一方面第二种可能的实现方式中，进一步地，所述保存形式为数据库或列表。

结合第一方面，在第一方面第三种可能的实现方式中，所述GPU的优先级关系具体包括：第一优先级为具有nvlink方式连接的GPU，第二优先级为具有PCIE switch方式连接的GPU,第三优先级为具有PCIE方式连接的GPU，其中，第一优先级高于第二优先级，第二优先级高于第三优先级。

进一步地，所述第二优先级中PCIE switch方式具体包括PIX模式，PXB模式。

结合第一方面，在第一方面第四种可能的实现方式中，所述第三优先级中PCIE方式具体包括PHB模式,NODE模式，SYS模式。

结合第一方面，在第一方面第五种可能的实现方式中，当训练任务判断所需GPU为一个时，根据拓扑信息，和所述GPU进行绑定的CPU数目为4个。

结合第一方面，在第一方面第六种可能的实现方式中，选取与GPU的绑定的CPU两两不同。

本发明第二方面提供了一种基于拓扑结构提高深度学习训练速度的装置，包括：

获取模块，获取CPU以及GPU的拓扑信息并进行保存；

判断模块，根据训练任务判断所需GPU是否为一个，如果判断结果为是，根据拓扑信息，选择与该GPU具有互联关系的CPU和所述GPU进行绑定，执行深度学习训练任务；

多卡选择模块，如果判断结果为否，根据GPU拓扑信息确定GPU的优先级关系，根据所述GPU的优先级关系确定GPU的编号，根据确定的GPU编号依次选择与该GPU具有互联关系的CPU和所述GPU进行绑定，执行深度学习训练任务。

本发明采用的技术方案包括以下技术效果：

本发明省去GPU和不直接互联的CPU的通讯时间和带宽限制，有效提高了深度学习训练任务速度，降低训练任务所需时间，提高的深度学习训练的效率。

应当理解的是以上的一般描述以及后文的细节描述仅是示例性和解释性的，并不能限制本发明。

附图说明

为了更清楚说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单介绍，显而易见的，对于本领域普通技术人员而言，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明方案中实施例一方法的流程示意图；

图2为本发明方案中实施例二装置的结构示意图。

具体实施方式

为能清楚说明本方案的技术特点，下面通过具体实施方式，并结合其附图，对本发明进行详细阐述。下文的公开提供了许多不同的实施例或例子用来实现本发明的不同结构。为了简化本发明的公开，下文中对特定例子的部件和设置进行描述。此外，本发明可以在不同例子中重复参考数字和/或字母。这种重复是为了简化和清楚的目的，其本身不指示所讨论各种实施例和/或设置之间的关系。应当注意，在附图中所图示的部件不一定按比例绘制。本发明省略了对公知组件和处理技术及工艺的描述以避免不必要地限制本发明。

实施例一

如图1所示，本发明提供了一种基于拓扑结构提高深度学习训练速度的方法，包括：

S1，获取CPU以及GPU的拓扑信息并进行保存；

S2，根据训练任务判断所需GPU是否为一个，如果判断结果为是，执行步骤S3；如果判断结果为否，执行步骤S4；

S3，根据拓扑信息，选择与该GPU具有互联关系的CPU和所述GPU进行绑定，执行深度学习训练任务；

S4，根据GPU拓扑信息确定GPU的优先级关系，根据所述GPU的优先级关系确定GPU的编号，根据确定的GPU编号依次选择与该GPU具有互联关系的CPU和所述GPU进行绑定，执行深度学习训练任务。

在步骤S1中通过nvidia驱动工具收集计算设备(例如服务器等)的CPU和GPU的拓扑信息，保存形式为数据库或列表，对获取的拓扑信息进行记录保存，以供后期任务提交查询时使用。。

在步骤S2中，其中，训练任务包括单机单卡任务以及单机多卡任务，其中单机单卡任务为单个计算设备单个GPU完成的训练任务，单机多卡任务为单个计算设备多个GPU完成的训练任务。根据训练任务将所需要的GPU的数目分为单机单卡(单个计算设备单个GPU)以及单机多卡(单个计算设备多个GPU)，判断所需GPU是否为一个，如果判断结果为是，则为单机单卡任务，如果判断结果为否，则为单机多卡任务。

在步骤S3中，在训练任务配置时，然后在拓扑信息找到该GPU(用户可以指定，如不指定则按默认顺序指定，默认顺序为预先存储在计算设备数据库中，顺序可以根据GPU编号，也可以根据其他规则)，如果用户指定CPU的个数，则选择相应数量的与该GPU具有互联关系(具有亲和性)的CPU和所述GPU进行绑定，如果用户没有指定CPU个数，则默认1个GPU配备4个CPU(经过实际测试后，该数量具有最好的加速效果)，在与该GPU具有互联关系(具有亲和性)的CPU中选择4个和所述GPU进行绑定，一起进行训练任务。

在步骤S4中，根据GPU拓扑信息确定GPU的优先级关系，根据所述GPU的优先级关系确定GPU的编号，根据确定的GPU编号依次选择与该GPU具有互联关系的CPU和所述GPU进行绑定，其中，选择CPU时，根据用户指定CPU的个数，则从该GPU具有互联关系(具有亲和性)的CPU中选择相应数量的CPU，执行深度学习训练任务。例如根据优先级关系选择GPU0、GPU1、GPU2，与GPU0具有互联关系的CPU为CPU0、CPU1、CPU2、CPU3，与GPU1具有互联关系的CPU为CPU4、CPU5、CPU6、CPU7、CPU8、CPU9、CPU10、CPU11，与GPU2具有互联关系的CPU为CPU4、CPU5、CPU6、CPU7、CPU8、CPU9、CPU10、CPU11，用户指定的CPU的数量为2个，则可以选取与GPU0具有互联关系的CPU0、CPU1和GPU0绑定，可以选取与GPU1具有互联关系的CPU4、CPU5和GPU1绑定，可以选取与GPU2具有互联关系的CPU6、CPU7,和GPU2绑定，一起执行训练任务。

优选地，选取与GPU的绑定的CPU两两不同，这样CPU绑定使用可以做到独占模式，将会更大的提高训练速度。

其中，GPU的优先级关系具体包括：第一优先级为具有nvlink方式连接的GPU，第二优先级为具有PCIE switch方式连接的GPU,第三优先级为具有PCIE方式连接的GPU，其中，第一优先级高于第二优先级，第二优先级高于第三优先级。

第一优先级中nvlink方式具体包括NV模式。第二优先级中PCIEswitch方式具体包括PIX模式(connection traversing a single PCIE switch,通过单个PCIE总线的连接)，PXB模式(connection traversing multiple PCIE switches(without traversing thePCIE host bridge)，跨越多个PCIE总线的连接(不跨PCIE主机桥))。第三优先级中PCIE方式具体包括PHB(connection traversing PCIE as well as a PCIE host bridge(typically the CPU)，通过PCIe和PCIe主机桥(通常是CPU)的连接)模式，NODE模式，SYS模式。

如上表一所示，以计算设备包含3GPU+72逻辑核心)的cpu和gpu的拓扑结构为例进行说明，其中，X表示self，SYS模式表示

connection traversing PCIE as well as the SMP interconnect betweenNUMA nodes，eg QPI/UPI(通过PCIe的连接以及NUMA节点之间的SMP互连，例如QPI(QuickPath Interconnect，快速通道互联)总线或UPI(Intel Ultra Path Interconnect,英特尔超路径连接)总线)，NODE模式表示connection traversing PCIE as wellas theinterconnect between PCIE host bridge within a NUMAnode(通过PCIe的连接以及NUMA节点内PCIe主机桥之间的互连)，从图中可以看出在没有使用nvidia的nvlink技术(GPU互联技术)的设备上，GPU和CPU之间具有一定的拓扑结构，如gGPU0和CPU(0-17，36-53)相互直接互通，GPU1和CPU(18-35,54-71)直接互通，而且GPU与GPU之间的互联也是不同方式的(SYS模式和NODE模式)，这样在具体深度学习训练任务时就可以将直接互联的CPU和GPU组合使用，这样就省去GPU和不直接互联的CPU的通讯时间和带宽限制。

以下是一组以表一的拓扑结构，GPU和与GPU具有互联关系的CPU经过绑定的测试结果：

第一组：GPU0和GPU1一起使用，并且绑定编号在18-32之间的CPU(即没有互联关系的CPU)，训练速度为:331images/s；

第二组：GPU1和GPU2一起使用，并且绑定编号在18-32之前的CPU，(即具有互联关系的CPU)，训练速度为：361images/s；

可以看出第二组训练速度361images/s相比于331images/s，提高了约有10％，所使用的CPU均与GPU1，GPU2具有互联关系(亲和性)，减少了数据在不同拓扑结构间的CPU和GPU传输，所以能够提升训练速度，并且两组测试结果均是在GPU和GPU之间使用传统的PCIE连接方式进行的，如果使用PCIE switch或者nvlink的方式则会提升的更多。

如上表二所示，其中NV1表示connection traversing a bondedset of 1nvlinks(GPU之间通过一组NVLink链路连接)，NV2表示connection traversing a bondedset of 2 nvlinks(GPU之间通过两组NVLink链路连接)。在具有大量CPU和GPU的设备上，其拓扑结构会更加复杂，GPU具有nvlink技术并且进行了互联，这样需要充分考虑到GPU和GPU，GPU和CPU的拓扑关系来达最佳的组合。

本发明通过将与GPU具有互联关系的CPU和GPU绑定执行训练任务，省去GPU和不直接互联的CPU的通讯时间和带宽限制，有效提高了深度学习训练任务速度，降低训练任务所需时间，提高的深度学习训练的效率。

实施例二

如图2所示，本发明技术方案还提供了一种基于拓扑结构提高深度学习训练速度的装置，包括：

获取模块101，获取CPU以及GPU的拓扑信息并进行保存；

判断模块102，根据训练任务判断所需GPU是否为一个，如果判断结果为是，根据拓扑信息，选择与该GPU具有互联关系的CPU和所述GPU进行绑定，执行深度学习训练任务；

多卡选择模块103，如果判断结果为否，根据GPU拓扑信息确定GPU的优先级关系，根据所述GPU的优先级关系确定GPU的编号，根据确定的GPU编号依次选择与该GPU具有互联关系的CPU和所述GPU进行绑定，执行深度学习训练任务。

本发明技术方案主要是对单个计算设备中包含的CPU以及GPU拓扑结构进行分析，即单机单卡以及单机多卡，对多个计算设备(即多机多卡)也有一定的借鉴意义。

上述虽然结合附图对本发明的具体实施方式进行了描述，但并非对本发明保护范围的限制，所属领域技术人员应该明白，在本发明的技术方案的基础上，本领域技术人员不需要付出创造性劳动即可做出的各种修改或变形仍在本发明的保护范围以内。

Claims

1.一种基于拓扑结构提高深度学习训练速度的方法，其特征是，包括：

获取CPU以及GPU的拓扑信息并进行保存；

2.根据权利要求1所述的基于拓扑结构提高深度学习训练速度的方法，其特征是，所述训练任务包括单机单卡任务以及单机多卡任务，其中单机单卡任务为单个计算设备单个GPU完成的训练任务，所述单机多卡任务为单个计算设备多个GPU完成的训练任务。

3.根据权利要求1所述的基于拓扑结构提高深度学习训练速度的方法，其特征是，所述保存形式为数据库或列表。

4.根据权利要求1所述的基于拓扑结构提高深度学习训练速度的方法，其特征是，所述GPU的优先级关系具体包括：第一优先级为具有nvlink方式连接的GPU，第二优先级为具有PCIE switch方式连接的GPU,第三优先级为具有PCIE方式连接的GPU，其中，第一优先级高于第二优先级，第二优先级高于第三优先级。

5.根据权利要求4所述的基于拓扑结构提高深度学习训练速度的方法，其特征是，所述第二优先级中PCIE switch方式具体包括PIX模式，PXB模式。

6.根据权利要求4所述的基于拓扑结构提高深度学习训练速度的方法，其特征是，所述第三优先级中PCIE方式具体包括PHB模式,NODE模式，SYS模式。

7.根据权利要求1所述的基于拓扑结构提高深度学习训练速度的方法，其特征是，当训练任务判断所需GPU为一个时，根据拓扑信息，和所述GPU进行绑定的CPU数目为4个。

8.根据权利要求1所述的基于拓扑结构提高深度学习训练速度的方法，其特征是，选取与GPU的绑定的CPU两两不同。

9.一种基于拓扑结构提高深度学习训练速度的装置，其特征是，包括：

获取模块，获取CPU以及GPU的拓扑信息并进行保存；