CN111858440A

CN111858440A - 一种分布式数据并行训练系统、方法、终端及存储介质

Info

Publication number: CN111858440A
Application number: CN202010536162.2A
Authority: CN
Inventors: 王晓飞; 魏健
Original assignee: Suzhou Inspur Intelligent Technology Co Ltd
Current assignee: Suzhou Inspur Intelligent Technology Co Ltd
Priority date: 2020-06-12
Filing date: 2020-06-12
Publication date: 2020-10-30

Abstract

本发明提供一种分布式数据并行训练系统、方法、终端及存储介质，包括：CPU、PCIe交换机、GPU和NVMe固态硬盘，所述GPU有多个，多个所述的GPU和所述NVMe固态硬盘分别与所述PCIe交换机通信连接，所述PCIe交换机与所述CPU通信连接；所述NVMe固态硬盘用于存放训练数据；所述PCIe交换机用于将所述训练数据下发给多个所述的GPU；所述GPU用于进行数据训练并产生训练模型；所述CPU用于处理训练模型的参数。本发明提出了一种将训练数据集放入NVMe固态硬盘，由此解决训练数据集下发过程出现的GPU与CPU之间的PCIe总线拥堵问题，提高了训练效率。

Description

一种分布式数据并行训练系统、方法、终端及存储介质

技术领域

本发明属于深度学习技术领域，具体涉及一种分布式数据并行训练系统、方法、终端及存储介质。

背景技术

随着科技的发展，人工智能已在图像、语音等多个领域上取得了重大的突破，并掀起新的科技革命，在可预见的未来，整个互联网都将因此发生翻天覆地的变化，而作为人工智能主要技术，深度学习正在被广泛的研究和应用。

TensorFlow是目前广泛使用的深度学习框架之一，其支持CPU和GPU的分布式训练。TensorFlow的分布式训练分为数据并行和模型并行两种方式，其中使用模型并行方式训练的模型准确度不稳定，所以目前主要使用数据并行方式训练，该方式下每个GPU上的训练模型相同，但训练数据不同。数据并行方式下使用同步更新参数和异步更新参数求平均参数。同步更新是指每个GPU根据损失计算各自的参数，CPU汇总所有GPU的参数，并求平均参数，根据平均参数更新模型参数，损失下降稳定，容易得到最优解。异步更新是指不用等所有GPU的参数，每个GPU均可更新参数，损失下降过程抖动较大，参数容易移出最优解。所以目前广泛使用同步更新参数的数据并行方式进行训练。

目前多卡GPU服务器使用PCIE总线和NVlink总线两种结构，大部分使用PCIE总线结构，且分布式训练基本采用相同性能GPU。目前使用PCIE接口的GPU服务器是使用PCIeSwitch连接多个GPU和CPU进行通信，训练数据集先分批次由硬盘上传至内存再通过PCIe总线传至GPU，多GPU使用同步更新参数的数据并行方式进行训练，该批次的数据训练完成后，GPU产生的模型参数会同时上传至CPU得到参数平均值，然后再下发给GPU，训练下一批次数据集，如此循环训练。对于单机多卡训练来说在训练数据集下发、模型参数上传和参数平均值下发三个过程容易出现GPU与CPU之间的PCIe总线拥堵，此时所有GPU都需要等待，训练效率较低。

发明内容

针对现有技术的上述不足，本发明提供一种分布式数据并行训练系统、方法、终端及存储介质，以解决上述技术问题。

第一方面，本发明提供一种分布式数据并行训练系统，包括：CPU、PCIe交换机、GPU和NVMe固态硬盘，所述GPU有多个，多个所述的GPU和所述NVMe固态硬盘分别与所述PCIe交换机通信连接，所述PCIe交换机与所述CPU通信连接；

所述NVMe固态硬盘用于存放训练数据；

所述PCIe交换机用于将所述训练数据下发给多个所述的GPU；

所述GPU用于进行数据训练并产生训练模型；

所述CPU用于处理训练模型的参数。

第二方面，本发明提供一种分布式数据并行训练方法包括：

将NVMe固态硬盘分区为缓存空间和训练数据存放空间；

将所述训练数据按批次上传至所述缓存空间，并通过PCIe交换机下发至GPU；

GPU对所有批次的训练数据进行一对一训练，得到训练参数；

CPU根据所有批次的训练参数更新GPU的模型参数，得到最优训练模型。

进一步的，所述方法还包括：

获取GPU的个数；

将所述训练数据划分成与所述GPU的个数相同的批次。

进一步的，所述CPU根据所有批次的训练参数更新GPU的模型参数，包括：

CPU获取所有批次的训练参数，并按照批次数量求取训练参数的平均值；

CPU将所述训练参数的平均值下发给所有GPU；

GPU根据所述训练参数的平均值重新优化训练模型。

进一步的，所述方法还包括：

检测训练数据是否全部训练完成：

若是则清空缓存空间。

进一步的，所述将NVMe固态硬盘分区为缓存空间和训练数据存放空间，包括：

将NVMe固态硬盘分区为两个区域；

将所述两个区域格式化为两个文件系统，将训练数据写入一个文件系统，并指定另一个文件系统为缓存空间。

第三方面，提供一种终端，包括：

处理器、存储器，其中，

该存储器用于存储计算机程序，

该处理器用于从存储器中调用并运行该计算机程序，使得终端执行上述的终端的方法。

第四方面，提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有指令，当其在计算机上运行时，使得计算机执行上述各方面所述的方法。

本发明的有益效果在于，

本发明提供的一种分布式数据并行训练系统、方法、终端及存储介质，本发明是针对在GPU性能相同且使用PCIE接口的GPU服务器中使用同步更新参数的数据并行方式的分布式训练存在效率低下的问题，提出了一种将训练数据集放入NVMe固态硬盘，训练数据通过PCIe交换机直接下发给GPU，GPU训练完成后，新一批次的训练数据不需要等待模型参数更新，可直接从NVMe固态硬盘再次下发给GPU，由此解决训练数据集下发过程出现的GPU与CPU之间的PCIe总线拥堵问题，提高了训练效率。

此外，本发明设计原理可靠，结构简单，具有非常广泛的应用前景。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，对于本领域普通技术人员而言，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明一个实施例的系统的示意性框图。

图2是本发明一个实施例的方法的示意性流程图。

图3为本发明实施例提供的一种终端的结构示意图。

具体实施方式

为了使本技术领域的人员更好地理解本发明中的技术方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本发明保护的范围。

下面对本发明中出现的关键术语进行解释。

TensorFlow：是一个基于数据流编程的符号数学系统，被广泛应用于各类机器学习算法的编程实现，其前身是谷歌的神经网络算法库。

NVLink：是英伟达开发并推出的一种总线及其通信协议。NVLink采用点对点结构、串列传输，用于中央处理器(CPU)与图形处理器(GPU)之间的连接，也可用于多个图形处理器之间的相互连接。

PCIe交换机：主要作用将PCIe设备互联,芯片与其设备的通信协议都是PCIe；

Fdisk：是linux一个创建和维护分区表的程序,它兼容DOS类型的分区表、BSD或者SUN类型的磁盘列表。

Mkfs：该命令用来在特定的分区创建linux文件系统,

实施例1

如图1所示，本实施例提供一种分布式数据并行训练系统，包括：CPU、PCIe交换机、GPU和NVMe固态硬盘，所述GPU有多个，多个所述的GPU和所述NVMe固态硬盘分别与所述PCIe交换机通信连接，所述PCIe交换机与所述CPU通信连接；

所述NVMe固态硬盘用于存放训练数据；

所述PCIe交换机用于将所述训练数据下发给多个所述的GPU；

所述GPU用于进行数据训练并产生训练模型；

所述CPU用于处理训练模型的参数。

图2是本发明一个实施例的方法的示意性流程图。其中，图1执行主体可以为一种分布式数据并行训练系统。

如图2所示，该方法100包括：

步骤110，将NVMe固态硬盘分区为缓存空间和训练数据存放空间；

步骤120，将所述训练数据按批次上传至所述缓存空间，并通过PCIe交换机下发至GPU；

步骤130，GPU对所有批次的训练数据进行一对一训练，得到训练参数；

步骤140，CPU根据所有批次的训练参数更新GPU的模型参数，得到最优训练模型。

可选地，作为本发明一个实施例，所述方法还包括：

获取GPU的个数；

将所述训练数据划分成与所述GPU的个数相同的批次。

可选地，作为本发明一个实施例，所述CPU根据所有批次的训练参数更新GPU的模型参数，包括：

CPU将所述训练参数的平均值下发给所有GPU；

GPU根据所述训练参数的平均值重新优化训练模型。

可选地，作为本发明一个实施例，所述方法还包括：

检测训练数据是否全部训练完成：

若是则清空缓存空间。

可选地，作为本发明一个实施例，所述将NVMe固态硬盘分区为缓存空间和训练数据存放空间，包括：

将NVMe固态硬盘分区为两个区域；

为了便于对本发明的理解，下面以本发明一种分布式数据并行训练方法的原理，结合实施例中TensorFlow的分布式训练的过程，对本发明提供的一种分布式数据并行训练方法做进一步的描述。

具体的，所述一种分布式数据并行训练方法包括：

1、计算GPU个数N；

2、使用硬盘分区命令(“fdisk”)将NVMe固态硬盘分区为两个部分；

3、使用创建文件系统命令(“mkfs”)将NVMe固态硬盘第一部分格式化为文件系统F1，第二部分格式化为文件系统F2；

4、在F2中创建缓存文件tf.cache，并将训练数据写入F1；

在tf.data.Dataset类中调用cache(tf.cache)，将F2设置为TensorFlow的缓存空间C；tf.data.Dataset.cache命令可以在本地存储中缓存数据集；此处tf.data.Dataset.cache(tf.cache)中使用NVMe固态硬盘中的tf.cache文件作为TensorFlow的训练数据缓存，即指定TensorFlow在NVMe固态硬盘的F2中缓存数据，因此F2即为TensorFlow的缓存空间C；

5、提交深度学习训练任务；

步骤1-4实在进行训练任务之前做的操作，在进行训练任务之前需要保证新的训练数据被写入固态硬盘；

6、从文件系统F1中取出N个批次训练数据，并按照批次上传至缓存空间C，再通过PCIe交换机直接下发至N个GPU，且每个GPU训练1个批次；

7、所有GPU利用其内部的训练模型对训练数据进行训练，训练完成后清空C；

8、将GPU训练产生的模型参数按照批次上传至CPU，同时步骤7仍在进行；

9、模型参数上传后，CPU计算所述模型参数的平均值，并将所述平均值下发GPU；CPU汇总所有GPU的参数，并求平均参数，根据平均参数更新模型参数，从而得到在本次训练中训练模型最优解；

10、当有新的训练数据时，将新的训练数据写入文件系统F1，重复步骤5-9，经过循环训练GPU不断更新训练模型的最优解，最终得到最优训练模型。

图3为本发明实施例提供的一种终端系统300的结构示意图，该终端系统300可以用于执行本发明实施例提供的一种分布式数据并行训练方法。

其中，该终端系统300可以包括：处理器310、存储器320及通信单元330。这些组件通过一条或多条总线进行通信，本领域技术人员可以理解，图中示出的服务器的结构并不构成对本发明的限定，它既可以是总线形结构，也可以是星型结构，还可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

其中，该存储器320可以用于存储处理器310的执行指令，存储器320可以由任何类型的易失性或非易失性存储终端或者它们的组合实现，如静态随机存取存储器(SRAM)，电可擦除可编程只读存储器(EEPROM)，可擦除可编程只读存储器(EPROM)，可编程只读存储器(PROM)，只读存储器(ROM)，磁存储器，快闪存储器，磁盘或光盘。当存储器320中的执行指令由处理器310执行时，使得终端300能够执行以下上述方法实施例中的部分或全部步骤。

处理器310为存储终端的控制中心，利用各种接口和线路连接整个电子终端的各个部分，通过运行或执行存储在存储器320内的软件程序和/或模块，以及调用存储在存储器内的数据，以执行电子终端的各种功能和/或处理数据。所述处理器可以由集成电路(Integrated Circuit，简称IC)组成，例如可以由单颗封装的IC所组成，也可以由连接多颗相同功能或不同功能的封装IC而组成。举例来说，处理器310可以仅包括中央处理器(Central Processing Unit，简称CPU)。在本发明实施方式中，CPU可以是单运算核心，也可以包括多运算核心。

通信单元330，用于建立通信信道，从而使所述存储终端可以与其它终端进行通信。接收其他终端发送的用户数据或者向其他终端发送用户数据。

本发明还提供一种计算机存储介质，其中，该计算机存储介质可存储有程序，该程序执行时可包括本发明提供的各实施例中的部分或全部步骤。所述的存储介质可为磁碟、光盘、只读存储记忆体(英文：read-only memory，简称：ROM)或随机存储记忆体(英文：random access memory，简称：RAM)等。

因此，本发明是针对在GPU性能相同且使用PCIE接口的GPU服务器中使用同步更新参数的数据并行方式的分布式训练存在效率低下的问题，提出了一种将训练数据集放入NVMe固态硬盘，训练数据通过PCIe交换机直接下发给GPU，GPU训练完成后，新一批次的训练数据不需要等待模型参数更新，可直接从NVMe固态硬盘再次下发给GPU，由此解决训练数据集下发过程出现的GPU与CPU之间的PCIe总线拥堵问题，提高了训练效率，本实施例所能达到的技术效果可以参见上文中的描述，此处不再赘述。

本领域的技术人员可以清楚地了解到本发明实施例中的技术可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解，本发明实施例中的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中如U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质，包括若干指令用以使得一台计算机终端(可以是个人计算机，服务器，或者第二终端、网络终端等)执行本发明各个实施例所述方法的全部或部分步骤。

本说明书中各个实施例之间相同相似的部分互相参见即可。尤其，对于终端实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例中的说明即可。

在本发明所提供的几个实施例中，应该理解到，所揭露的系统和方法，可以通过其它的方式实现。例如，以上所描述的系统实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，系统或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。

尽管通过参考附图并结合优选实施例的方式对本发明进行了详细描述，但本发明并不限于此。在不脱离本发明的精神和实质的前提下，本领域普通技术人员可以对本发明的实施例进行各种等效的修改或替换，而这些修改或替换都应在本发明的涵盖范围内/任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应所述以权利要求的保护范围为准。

Claims

1.一种分布式数据并行训练系统，其特征在于，包括：CPU、PCIe交换机、GPU和NVMe固态硬盘，所述GPU有多个，多个所述的GPU和所述NVMe固态硬盘分别与所述PCIe交换机通信连接，所述PCIe交换机与所述CPU通信连接；

所述NVMe固态硬盘用于存放训练数据；

所述PCIe交换机用于将所述训练数据下发给多个所述的GPU；

所述GPU用于进行数据训练并产生训练模型；

所述CPU用于处理训练模型的参数。

2.一种分布式数据并行训练方法，其特征在于，包括：

将NVMe固态硬盘分区为缓存空间和训练数据存放空间；

GPU对所有批次的训练数据进行一对一训练，得到训练参数；

3.根据权利要求2所述的一种分布式数据并行训练方法，其特征在于，所述方法还包括：

获取GPU的个数；

将所述训练数据划分成与所述GPU的个数相同的批次。

4.根据权利要求2所述的一种分布式数据并行训练方法，其特征在于，所述CPU根据所有批次的训练参数更新GPU的模型参数，包括：

CPU将所述训练参数的平均值下发给所有GPU；

GPU根据所述训练参数的平均值重新优化训练模型。

5.根据权利要求2所述的一种分布式数据并行训练方法，其特征在于，所述方法还包括：

检测训练数据是否全部训练完成：

若是则清空缓存空间。

6.根据权利要求2所述的一种分布式数据并行训练方法，其特征在于，所述将NVMe固态硬盘分区为缓存空间和训练数据存放空间，包括：

将NVMe固态硬盘分区为两个区域；

7.一种终端，其特征在于，包括：

处理器；

用于存储处理器的执行指令的存储器；

其中，所述处理器被配置为执行权利要求2-6任一项所述的方法。

8.一种存储有计算机程序的计算机可读存储介质，其特征在于，该程序被处理器执行时实现如权利要求2-6中任一项所述的方法。