CN113642734A

CN113642734A - 一种深度学习模型的分布式训练方法、装置以及计算设备

Info

Publication number: CN113642734A
Application number: CN202010394002.9A
Authority: CN
Inventors: 樊士庆; 孟晨; 王思宇; 龙国平; 杨军
Original assignee: Alibaba Group Holding Ltd
Current assignee: Alibaba Group Holding Ltd
Priority date: 2020-05-11
Filing date: 2020-05-11
Publication date: 2021-11-12

Abstract

本发明公开了一种深度学习模型的分布式训练方法、装置以及计算设备。方法包括：在每个训练步中，从训练数据集中获取预定数目个训练数据，作为批量训练数据；计算所述深度学习模型的模型参数在所述批量训练数据上的梯度，作为本地梯度；计算预定数目个训练步的本地梯度的累加值，作为累加梯度；与其他计算节点进行通信，交换彼此的累加梯度；计算所有计算节点的累加梯度的梯度平均值，基于所述梯度平均值对所述模型参数进行更新。

Description

一种深度学习模型的分布式训练方法、装置以及计算设备

技术领域

本发明涉及数据处理技术领域，具体涉及一种深度学习模型的分布式训练方法、装置以及计算设备。

背景技术

深度学习是业界逐渐流行的计算和机器学习实现方法，可被用于图像、语音、视频、机器翻译等多种场景。以机器翻译为例，基于神经网络的机器翻译的效果明显提升，近年来得到不断发展。目前在某些语种和场景下，译文质量甚至可以达到人工翻译的水平。

数据并行(Data Parallel)是对深度学习模型进行分布式训练的一种形式，其把训练数据分成多份，在不同计算节点上训练。如果计算节点没有共享的公共内存，只有容量受限的本地内存，而训练数据集的规模很大，无法存储于本地内存，就需要对训练数据集进行划分，分配到各个计算节点上，然后计算节点依据各自分配的局部数据对深度学习模型进行训练。在分布式训练过程中，各计算节点需要与其他节点进行通信，以交换梯度数据。

然而，现有的分布式训练方法中，各计算节点的通信计算比(计算节点与其他计算节点进行通信的时间与计算节点进行梯度计算的时间，二者的比值)比较高，从而使得计算节点的硬件资源利用率不高，进而使得分布式训练的训练效率低下。

发明内容

鉴于上述问题，提出了本发明以便提供一种克服上述问题或者至少部分地解决上述问题的深度学习模型的分布式训练方法、装置以及计算设备。

根据本发明的一个方面，提供了一种深度学习模型的分布式训练方法，应用于分布式计算系统中，所述分布式计算系统包括多个计算节点，对于所述多个计算节点中的任一计算节点，在该计算节点上执行如下步骤：

在每个训练步中，从训练数据集中获取预定数目个训练数据，作为批量训练数据；

计算所述深度学习模型的模型参数在所述批量训练数据上的梯度，作为本地梯度；

计算预定数目个训练步的本地梯度的累加值，作为累加梯度；

与其他计算节点进行通信，交换彼此的累加梯度；

计算所有计算节点的累加梯度的梯度平均值，基于所述梯度平均值对所述模型参数进行更新。

可选地，在根据本发明的分布式训练方法中，所述从训练数据集中获取预定数目个训练数据，作为批量训练数据，包括：采用随机采样的方式从所述训练数据集中获取预定数目个训练数据，作为所述批量训练数据。

可选地，根据本发明的分布式训练方法，还包括：预先将所述训练数据集划分为若干个训练数据子集，所述多个计算节点中的各计算节点分别对应一个不同的训练数据子集，并将各训练数据子集划分为多个批量训练数据。

可选地，在根据本发明的分布式训练方法中，所述计算所述深度学习模型的模型参数在所述批量训练数据上的梯度，作为本地梯度，包括：将所述批量训练数据输入到所述深度学习模型执行前向传播，计算所述深度学习模型的模型损失；基于所述模型损失执行反向传播，计算所述模型参数在所述批量训练数据上的梯度，作为本地梯度。

可选地，在根据本发明的分布式训练方法中，所述与其他计算节点进行通信，交换彼此的累加梯度，包括：采用All-reduce的方式与其他计算节点进行通信，交换彼此的累加梯度。

可选地，在根据本发明的分布式训练方法中，所述基于所述梯度平均值对所述模型参数进行更新，包括：基于所述梯度平均值，采用梯度下降法对所述模型参数进行更新。

可选地，根据本发明的分布式训练方法，还包括：当所述深度学习模型收敛，或者，对所述模型参数的更新次数达到预设次数时，停止训练。

可选地，在根据本发明的分布式训练方法中，所述计算节点为CPU设备、GPU设备或者NPU设备。

根据本发明的另一方面，提供一种分布式训练装置，包括：

数据获取单元，适于在每个训练步中，从训练数据集中获取预定数目个训练数据，作为批量训练数据；

梯度计算单元，适于计算所述深度学习模型的模型参数在所述批量训练数据上的梯度，作为本地梯度；

梯度累加单元，适于计算预定数目个训练步的本地梯度的累加值，作为累加梯度；

梯度交换单元，适于与其他计算节点进行通信，交换彼此的累加梯度；

参数更新单元，适于计算所有计算节点的累加梯度的梯度平均值，基于所述梯度平均值对所述模型参数进行更新。

根据本发明的又一方面，提供一种分布式训练系统，包括多个计算节点，所述多个计算节点的任一计算节点适于执行如上所述的方法。

根据本发明的又一个方面，提供一种计算设备，包括：至少一个处理器；和存储有程序指令的存储器，其中，所述程序指令被配置为适于由所述至少一个处理器执行，所述程序指令包括用于执行上述方法的指令。

根据本发明的又一个方面，提供一种存储有程序指令的可读存储介质，当所述程序指令被计算设备读取并执行时，使得所述计算设备执行上述的方法。

本发明通过优化深度学习的分布式训练流程，将梯度计算与梯度更新(基于梯度进行参数更新)两个过程分离，每执行预定次数次梯度计算后，再执行一次梯度数据的交换和参数更新，相比于每执行一次梯度计算就进行梯度交换和参数更新，降低了分布式训练节点之间的通信频次，降低了通信计算比，从而实现了在不需要改变模型、同等硬件资源配置的情况下，提升系统的吞吐率以及硬件资源利用率，进而提高分布式训练的训练效率。

上述说明仅是本发明技术方案的概述，为了能够更清楚了解本发明的技术手段，而可依照说明书的内容予以实施，并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂，以下特举本发明的具体实施方式。

附图说明

通过阅读下文优选实施方式的详细描述，各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的，而并不认为是对本发明的限制。而且在整个附图中，用相同的参考符号表示相同的部件。在附图中：

图1示出了根据本发明一个实施例所应用的数据中心的结构图；

图2示出了根据本发明一个实施例的数据中心中一个服务器的内部结构图；

图3是根据本发明一个实施例服务器内部的调度单元和加速单元的连接关系图；

图4是根据本公开一个实施例的加速单元核的内部结构图；

图5示出了根据本发明一个实施例的深度学习模型的分布式训练方法500的流程图；

图6示出了根据本发明一个实施例的分布式训练装置600的示意图；

图7示出了本发明实施例中梯度累加、交换以及梯度更新的示意图；

图8a～8c示出了梯度计算、梯度交换和梯度更新的时间分布示意图。

具体实施方式

下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例，然而应当理解，可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反，提供这些实施例是为了能够更透彻地理解本公开，并且能够将本公开的范围完整的传达给本领域的技术人员。

首先介绍本发明实施例的分布式训练方法的实施环境。

数据中心

数据中心是全球协作的特定设备网络，用来在互联网网络基础设施上传递、加速、展示、计算、存储数据信息。在今后的发展中，数据中心也将会成为企业竞争的资产。随着数据中心应用的广泛化，人工智能等越来越多地应用到数据中心。而神经网络作为人工智能的重要技术，已经大量应用到数据中心大数据分析运算中。

在传统的大型数据中心，网络结构通常如图1所示，即互连网络模型(hierarchical inter-networking model)。这个模型包含了以下部分：

服务器140：各服务器140是数据中心的处理和存储实体，数据中心中大量数据的处理和存储都是由这些服务器140完成的。

接入交换机130：接入交换机130是用来让服务器140接入到数据中心中的交换机。一台接入交换机130接入多台服务器140。接入交换机130通常位于机架顶部，所以它们也被称为机顶(Top of Rack)交换机，它们物理连接服务器。

汇聚交换机120：每台汇聚交换机120连接多台接入交换机130，同时提供其他的服务，例如防火墙，入侵检测，网络分析等。

核心交换机110：核心交换机110为进出数据中心的包提供高速的转发，为汇聚交换机120提供连接性。整个数据中心的网络分为L3层路由网络和L2层路由网络，核心交换机110为通常为整个数据中心的网络提供一个弹性的L3层路由网络。

通常情况下，汇聚交换机120是L2和L3层路由网络的分界点，汇聚交换机120以下的是L2网络，以上是L3网络。每组汇聚交换机管理一个传送点(POD，Point Of Delivery)，每个POD内都是独立的VLAN网络。服务器在POD内迁移不必修改IP地址和默认网关，因为一个POD对应一个L2广播域。

汇聚交换机120和接入交换机130之间通常使用生成树协议(STP，Spanning TreeProtocol)。STP使得对于一个VLAN网络只有一个汇聚层交换机120可用，其他的汇聚交换机120在出现故障时才被使用(。也就是说，在汇聚交换机120的层面，做不到水平扩展，因为就算加入多个汇聚交换机120，仍然只有一个在工作。

服务器

由于服务器140是数据中心真实的处理设备，图2示出了一个服务器140内部的结构框图。服务器140包括有总线连接的存储器210、调度单元集群270和加速单元集群280。调度单元集群270包括多个调度单元220。加速单元集群280包括多个加速单元230。加速单元在本公开实施例中主要是为了加速深度学习模型的运算处理速度而设计的专门处理单元，可以体现为专门为深度学习模型运算处理设计的处理单元(NPU)、图形处理单元(GPU)、专用集成电路(ASIC)和现场可编程门阵列(FPGA)等。调度单元是对加速单元进行调度、向各加速单元分配要执行的待执行指令序列的处理单元，它可以采用中央处理单元(CPU)、专用集成电路(ASIC)、现场可编程门阵列(FPGA)等多种形式。

传统的中央处理单元的架构设计，使得在架构中控制单元、存储单元占用了很大一部分空间，而计算单元占用的空间反而不足，因此其在逻辑控制方面十分有效，而在大规模并行计算方面则效率不够。因此，开发出了各种专门的加速单元，用来针对不同功能和不同领域的计算进行更有效的提高运算速度的处理。本发明提出的加速单元是专用于加速深度学习模型的运算处理速度的处理单元。它是采用数据驱动并行计算的架构，用于处理深度学习模型的各网络节点的大量运算(例如卷积、池化等)的处理单元。由于各网络节点的大量运算(例如卷积、池化等)中的数据和中间结果在整个计算过程中紧密联系，会被经常用到，用现有的中央处理单元构架，由于中央处理单元的核内的内存容量很小，因此要大量频繁访问核外存储器，造成处理的低效。采用这种专用于加速深度学习模型的运算处理速度的加速单元，由于其每个核中具有适于模型计算用到的存储容量的片上内存，避免频繁访问核外部的存储器，就能大大提高处理效率，提高计算性能。

加速单元230要接受调度单元220的调度。如图2所示，存储器210中存储有各种深度学习模型，包括这些模型的节点和节点的权重数据等。这些深度学习模型当需要时被图2中的一个调度单元220部署到一个加速单元230。即，调度单元220可以通过指令的形式向加速单元230发送模型中的参数(如各节点的权重)在存储器210中的地址。加速单元230在实际使用该深度学习模型进行计算时，就会根据这些参数(例如权重)在存储器210中的地址，直接在存储器210中寻址这些参数，将其暂存在其片上内存中。加速单元230在实际使用该深度学习模型进行计算时，调度单元220还会将模型的输入参数通过指令的形式发送给加速单元230，暂存在加速单元230的片上内存中。这样，加速单元230就可以根据这些输入参数和模型中的参数(例如权重)进行推理计算。

调度单元和加速单元的内部结构

下面结合图3的调度单元220与加速单元230的内部结构图，具体说明调度单元220是如何调度加速单元230进行工作的。

如图3所示，调度单元220内包含多个处理器核222和被多个处理器核222共享的高速缓存221。每个处理器核222包括取指令单元203、指令译码单元224、指令发射单元225和指令执行单元226。

取指令单元223用于将要执行的指令从存储器210中搬运到指令寄存器(可以是图2示出的寄存器堆229中的一个用于存放指令的寄存器)中，并接收下一个取指地址或根据取指算法计算获得下一个取指地址，取指算法例如包括：根据指令长度递增地址或递减地址。

取出指令后，调度单元220进入指令译码阶段，指令译码单元224按照预定的指令格式，对取回的指令进行解码，以获得取回的指令所需的操作数获取信息，从而为指令执行单元226的操作做准备。操作数获取信息例如指向立即数、寄存器或其他能够提供源操作数的软件/硬件。

指令发射单元225位于指令译码单元224与指令执行单元226之间，用于指令的调度和控制，以将各个指令高效地分配至不同的指令执行单元226，使得多个指令的并行操作成为可能。

指令发射单元225将指令发射到指令执行单元226后，指令执行单元226开始执行指令。但如果该指令执行单元226判断该指令应该是加速单元执行的，则将其转发到相应的加速单元执行。例如，如果该指令是一条深度学习模型的推理(inference)的指令，指令执行单元226不再执行该指令，而是将该指令通过总线发送到加速单元230，由加速单元230执行。

加速单元30内部包括多个核236(图3中示出了4个核，但本领域技术人员应当理解，加速单元230中也可以包含其它数目的核236)、命令处理器237、直接存储访问机制235、和总线通道231。

总线通道231是指令从总线进出加速单元230的通道。

直接存储器访问(DMA，Direct Memory Access)机制235是一些计算机总线架构提供的功能，它能使数据从附加设备直接写入计算机主板的存储器上。这种方式相比于设备之间所有的数据传输都要通过调度单元的方式，大大提高了数据访问的效率。正是因为有这样的机制，加速单元230的核可以直接访问存储器210，读取深度学习模型中的参数(例如各节点的权重)等，大大提高了数据访问效率。

命令处理器237将由调度单元220发送至加速单元230的指令分配给核236执行。指令执行单元226将需要加速单元230执行的待执行指令序列发送给加速单元230。该待执行指令序列从总线通道231进入后，缓存在命令处理器237，由命令处理器237选择核236，将指令序列分配给其执行。另外，命令处理器237还负责核236之间的同步操作。

加速单元核

图4是根据本公开一个实施例的加速单元核236的内部结构图。

在一个实施例中，如图4所示，加速单元核236包括张量引擎310、池化引擎320、存储器拷贝引擎330、定序器350、指令缓存器340、片上内存360、常数缓冲器370。

命令处理器237分配给加速单元核236的指令序列首先进入指令缓存器340缓存。然后，定序器350从指令缓存器340中按照先进先出的顺序取指令，根据指令的性质分配给张量引擎310、池化引擎320、或存储器拷贝引擎330执行。张量引擎310负责处理深度学习模型中的卷积和矩阵乘法等相关操作。池化引擎320负责处理深度学习模型中的池化操作。存储器拷贝引擎330负责核236内的片上内存360存储的操作数向核236间共享的存储器、或者其它核236内的片上内存360的拷贝。定序器350根据取出的指令是卷积、矩阵乘法、池化、还是操作数拷贝等操作性质，决定将指令分配给张量引擎310，池化引擎320，还是存储器拷贝引擎330。

片上内存360是存储深度学习模型中的权重参数、以及深度学习模型实际使用时的输入参数和各种中间结果的核内存储器。常数缓冲器370是存储深度学习模型中除权重参数之外的其它常量参数(例如，神经网络模型中的超参)的缓冲器。如上所述，在调度单元220将深度学习模型预先配置在加速单元230的过程中，调度单元220通过指令的形式向加速单元230发送模型中的参数在存储器210中的地址。这些参数包括节点的权重和其它参数(例如超参)。对于权重，加速单元230在实际的深度学习模型运算时，将它从存储器210相应的位置取出，放在片上内存360中。对于其它参数，加速单元230在实际的深度学习模型运算时，从存储器210相应的位置取出，放在常数缓冲器370中。另外，当实际开始推理(inference)的指令由命令处理器237分配给核236执行后，指令中的输入参数(给神经网络模型的输入)也存储在片上内存360。另外，当张量引擎310和池化引擎320进行卷积或池化运算后，得到的各种中间结果也存放在片上内存360中。

本发明实施例的分布式训练方法可以在上述的数据中心中执行，具体地，数据中心包括的多个服务器中的每个加速单元可以分别视为一个计算节点，多个计算节点可以组成为用于分布式训练的分布式训练系统，这些计算节点可以为CPU设备、GPU设备、NPU(神经网络处理器)设备或者其他类型的计算设备，计算节点之间呈环形连接、网形连接或者其他方式连接。

计算节点可以从存储器210中获取深度学习模型和训练数据子集，并基于获取的训练数据子集对深度学习进行训练。在模型训练过程中，计算节点需要与其他计算节点交换梯度数据，并基于所有计算节点的梯度数据平均值，来更新深度学习的网络参数(模型参数)，例如，采用梯度下降法更新深度学习的网络参数。

数据并行(Data Parallel)是对神经网络模型进行分布式训练的一种形式，其把训练数据分成多份，在不同计算节点上训练。如果计算节点没有共享的公共内存，只有容量受限的本地内存，而训练数据集的规模很大，无法存储于本地内存，就需要对训练数据集进行划分，分配到各个计算节点上，然后计算节点依据各自分配的局部数据对深度学习模型进行训练。

深度学习模型的一种分布式训练流程为：

(1)计算节点在每个训练步中，从训练数据集中获取一训练数据子集，通常，训练数据子集的训练数据的数目比训练数据集包括的训练数据的数目要小很多，因此，也可以称为小批量(mini-batch)的训练数据；

(2)基于小批量训练数据执行前向传播，并计算损失函数(模型损失，loss)；

(3)基于损失函数执行反向传播，计算模型参数(权重、偏置等)在小批量训练数据上的梯度，得到本地梯度；

(4)与其他计算节点交换梯度数据，并计算所有计算节点的本地梯度的梯度平均值，基于梯度平均值，采用梯度下降法更新深度学习模型的模型参数；

(5)重复步骤(1)～(4)，直到模型收敛或者对模型参数的更新次数达到预设次数时，停止训练。

需要说明的是，在本发明实施例中，一个训练步是指计算节点获取训练数据子集、基于训练数据子集执行前向传播和反向传播以计算参数梯度所包括的过程，不包括对参数进行更新的过程。

在执行分布式训练时，输入小批量数据的规模(batch size)受制于计算节点的内存的大小，例如，计算节点为GPU设备时，则受制于GPU显存的大小，这样带来的缺点如下：

(1)较小批量的梯度在计算更新时不如更大小批量的梯度稳定，相应地，学习率也只能取较小的值，这导致模型收敛速度受限；

(2)用户不能基于有限GPU显存限制的情况，进行更大小批量规模的实验，否则直接发生显存溢出；

(3)在模型单个训练步上，通信计算比较高，导致分布式训练的训练效率低下。

于是，本发明通过优化深度学习模型的分布式训练流程，将梯度计算与梯度更新(基于梯度进行参数更新)两个过程分离，每执行预定次数次梯度计算后，再执行一次梯度数据的交换和参数更新，相比于每执行一次梯度计算就进行梯度交换和参数更新，降低了分布式训练节点之间的通信频次，降低了通信计算比，从而实现了在不需要改变模型、同等硬件资源配置的情况下，提升系统的吞吐率以及硬件资源利用率，进而提高分布式训练的训练效率。

图5示出了根据本发明一个实施例的深度学习模型的分布式训练方法500的流程图。方法500应用于深度学习模型的分布式计算系统中，在分布式计算系统的每个计算节点中执行，计算节点具体可以实现为前述的加速单元230。方法500可以应用于图像、语音、视频、机器翻译等多种场景，例如，在图像场景下，相应的深度学习模型可以为图像分类模型、目标检测模型等；在机器翻译场景下，相应的深度学习模型可以为神经网络机器翻译模型。其中，神经网络机器翻译模型是一个序列到序列模型，具有通过门循环单元制作的编码器、通过门循环单元制作的编码器以及注意力机制。

在执行分布式训练前，每个计算节点会获取待训练的深度学习模型，且深度学习模型的模型参数的初始值已经预先设置好。然后，方法500进入步骤S510。

如图5所示，在步骤S510中，在每个训练步中，从训练数据集中预定数目个训练数据，作为批量训练数据。为便于表述，将获取的批量数据称为小批量(mini-batch)训练数据。

训练数据的类型可以是：图像样本，语音样本，自然语言处理样本。例如，待训练的深度学习模型是神经网络机器翻译模型时，每条训练数据是一个文本对，该文本对是第一语种文本与第二语种文本的对应关系。本发明实施例中，分布式训练采用数据并行(DataParallel)方式。在数据并行方式下，需要深度学习模型的训练数据集进行划分。本发明实施例提供如下两种划分方式。

方式1，基于随机采样的方式

将存储器中存储的训练数据集作为采样的数据源，计算节点采用随机采样的方式从所述训练数据集中获取多个训练数据，作为小批量训练数据。具体可以通过有放回的方式进行随机采样，这样可以保证每个计算节点上的局部训练数据与原训练数据是独立同分布的。另外，每个训练步获取的训练数据的条数，即小批量数据的规模(batch size)，可以根据计算节点的内存大小来确定。

方式2，基于置乱切分的方式

将训练数据集进行乱序排序，按照计算节点的个数将打乱后的数据顺序划分成相应的小份，将每个小份作为一个训练数据子集分配给一个计算节点；然后将每个训练数据子集划分为预定数目(iter_size，例如取4或8)个小批量训练数据，在每个训练步中，计算设备从数据存储装置中获取属于自己的一个小批量训练数据。

需要说明的是，在本发明实施例中，训练步(local_step)指的是在某个计算节点中，完成小批量训练数据的获取和基于小批量训练数据进行本地梯度计算的步骤，不包括基于梯度进行模型参数的过程。

在步骤S520中，计算深度学习模型的模型参数在小批量训练数据上梯度，作为本地梯度，完成一个训练步。

在一种实现方式中，可以将小批量训练数据输入到深度学习模型执行前向传播，计算模型损失(损失函数，loss)，然后，基于模型损失执行反向传播，计算模型参数在小批量训练数据上的梯度，作为本地梯度。这里的梯度通常是一个梯度向量，深度学习模型的每个模型参数对应该梯度向量中的一个元素。

重复执行上述步骤S510和步骤S520预定数目(iter_size，例如取4或8)次，即在计算节点中执行预定数目个训练步后，方法300进入步骤S330。

在步骤S530中，计算预定数目个训练步的本地梯度累加值，作为累加梯度(Gradient accumulation，GA)。具体地，是将预定数目个训练步中每个训练步的本地梯度进行累加，得到该累加梯度。可以在计算节点中设置一个本地的梯度缓存变量accum_grad，每完成一个训练步，将该训练步计算出来的本地梯度累加到accum_grad中，完成预定数目个训练步后，accum_grad中存储的数据即为累加梯度。

在步骤S540中，计算节点与多个计算节点中的其他计算节点进行通信，交换彼此的累加梯度，即所有计算节点进行本地累加梯度的同步。具体地，可以采用All-reduce的方式与其他计算节点进行通信，交换彼此的累加梯度。梯度累加、交换以及梯度更新(基于梯度进行参数更新)的过程请参见图7(图中示出了三个计算节点GPU1、GPU2和GPU3)。

需要说明的是，不同的计算节点的处理速度可能有差别，因为是同步训练，最快执行完本地iter_size轮梯度累加的计算节点也需要等待最慢完成这一行为的计算节点，等所有计算节点上的累加梯度都准备好了之后才能开始所有计算节点之间的梯度通信。

在步骤S550中，计算所有计算节点的累加梯度的梯度平均值，基于所述梯度平均值对深度学习模型的模型参数进行更新，例如，采用梯度下降法对所述模型参数进行更新，从而完成一次全局迭代。

重复执行上述步骤S510～步骤S550，直至深度学习模型收敛，或者，全局迭代次数(即对模型参数的更新次数)达到预设次数时，停止训练，每个计算设备上的深度学习模型即为训练好的深度学习模型。

在一个实施例中，待训练的深度学习模型为神经网络机器翻译模型，则，将最终的模型参数应用到模型中，得到训练好的数据网络机器翻译模型，然后，基于所述神经网络机器翻译模型翻译待翻译信息，得到翻译结果，并输出所述翻译结果。

图6示出了根据本发明一个实施例的文本信息生成装置600的示意图，设置在分布式训练系统的计算节点中。参照图6，装置500包括：

数据获取单元610，适于在每个训练步中，从训练数据集中获取预定数目个训练数据，作为批量训练数据；

梯度计算单元620，适于计算深度学习模型的模型参数在批量训练数据上的梯度，作为本地梯度；

梯度累加单元630，适于计算预定数目个训练步的本地梯度累加值，作为累加梯度；

梯度交换单元640，适于与其他计算节点进行通信，交换彼此的累加梯度；

参数更新单元650，适于计算所有计算节点的累加梯度的梯度平均值，基于梯度平均值对深度学习模型的参数进行更新。

数据获取单元610、梯度计算单元620、梯度累加单元630、梯度交换单元640和参数更新单元650的所执行的具体处理，可参照上述方法500，这里不做赘述。

本发明通过优化深度学习的分布式训练流程，将梯度计算与梯度更新(基于梯度进行参数更新)两个过程分离，能够实现任意batch大小(等同于iter_size个mini-batch之和)的模型训练，每执行预定次数次梯度计算后，再执行一次梯度数据的交换和参数更新，相比于每执行一次梯度计算就进行梯度交换和参数更新，降低了分布式训练节点之间的通信频次，降低了通信计算比，从而实现了在不需要改变模型、同等硬件资源配置的情况下，提升系统的吞吐率以及硬件资源利用率，进而提高分布式训练的训练效率。

具体分析如下：

假设一个模型一个global_step中本地梯度计算(前向传播-反向传播，FW-BW)、多计算节点间梯度同步以及本地梯度更新(apply)三部分时间占比为70％：20％：10％，如图8a所示。

若连续训练3个global_step，则每个global_step内都需要进行一轮多卡梯度同步，这时计算占比为70％。具体地计算、通信及梯度更新三部分随时间分布如图8b所示。

若使用本发明实施例提出的梯度累加功能，并设置iter_size＝3,即每隔3轮global_step再执行一次多计算节点间梯度通信以及本地梯度更新。此时3个global_step的端到端时间由300％缩短到了下图的240％，训练速度提升了25％，如图8c所示。

这里描述的各种技术可结合硬件或软件，或者它们的组合一起实现。从而，本发明的方法和设备，或者本发明的方法和设备的某些方面或部分可采取嵌入有形媒介，例如可移动硬盘、U盘、软盘、CD-ROM或者其它任意机器可读的存储介质中的程序代码(即指令)的形式，其中当程序被载入诸如计算机之类的机器，并被所述机器执行时，所述机器变成实践本发明的设备。

在程序代码在可编程计算机上执行的情况下，计算设备一般包括处理器、处理器可读的存储介质(包括易失性和非易失性存储器和/或存储元件)，至少一个输入装置，和至少一个输出装置。其中，存储器被配置用于存储程序代码；处理器被配置用于根据该存储器中存储的所述程序代码中的指令，执行本发明的方法。

以示例而非限制的方式，可读介质包括可读存储介质和通信介质。可读存储介质存储诸如计算机可读指令、数据结构、程序模块或其它数据等信息。通信介质一般以诸如载波或其它传输机制等已调制数据信号来体现计算机可读指令、数据结构、程序模块或其它数据，并且包括任何信息传递介质。以上的任一种的组合也包括在可读介质的范围之内。

在此处所提供的说明书中，算法和显示不与任何特定计算机、虚拟系统或者其它设备固有相关。各种通用系统也可以与本发明的示例一起使用。根据上面的描述，构造这类系统所要求的结构是显而易见的。此外，本发明也不针对任何特定编程语言。应当明白，可以利用各种编程语言实现在此描述的本发明的内容，并且上面对特定语言所做的描述是为了披露本发明的较佳实施方式。

在此处所提供的说明书中，说明了大量具体细节。然而，能够理解，本发明的实施例可以在没有这些具体细节的情况下被实践。在一些实例中，并未详细示出公知的方法、结构和技术，以便不模糊对本说明书的理解。

类似地，应当理解，为了精简本公开并帮助理解各个发明方面中的一个或多个，在上面对本发明的示例性实施例的描述中，本发明的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而，并不应将该公开的方法解释成反映如下意图：即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多特征。更确切地说，如下面的权利要求书所反映的那样，发明方面在于少于前面公开的单个实施例的所有特征。因此，遵循具体实施方式的权利要求书由此明确地并入该具体实施方式，其中每个权利要求本身都作为本发明的单独实施例。

本领域那些技术人员应当理解在本文所公开的示例中的设备的模块或单元或组件可以布置在如该实施例中所描述的设备中，或者可替换地可以定位在与该示例中的设备不同的一个或多个设备中。前述示例中的模块可以组合为一个模块或者此外可以分成多个子模块。

本领域那些技术人员可以理解，可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件，以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外，可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述，本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。

此外，本领域的技术人员能够理解，尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征，但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。例如，在下面的权利要求书中，所要求保护的实施例的任意之一都可以以任意的组合方式来使用。

此外，所述实施例中的一些在此被描述成可以由计算机系统的处理器或者由执行所述功能的其它装置实施的方法或方法元素的组合。因此，具有用于实施所述方法或方法元素的必要指令的处理器形成用于实施该方法或方法元素的装置。此外，装置实施例的在此所述的元素是如下装置的例子：该装置用于实施由为了实施该发明的目的的元素所执行的功能。

如在此所使用的那样，除非另行规定，使用序数词“第一”、“第二”、“第三”等等来描述普通对象仅仅表示涉及类似对象的不同实例，并且并不意图暗示这样被描述的对象必须具有时间上、空间上、排序方面或者以任意其它方式的给定顺序。

尽管根据有限数量的实施例描述了本发明，但是受益于上面的描述，本技术领域内的技术人员明白，在由此描述的本发明的范围内，可以设想其它实施例。此外，应当注意，本说明书中使用的语言主要是为了可读性和教导的目的而选择的，而不是为了解释或者限定本发明的主题而选择的。因此，在不偏离所附权利要求书的范围和精神的情况下，对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。对于本发明的范围，对本发明所做的公开是说明性的而非限制性的，本发明的范围由所附权利要求书限定。

Claims

1.一种深度学习模型的分布式训练方法，应用于分布式计算系统中，所述分布式计算系统包括多个计算节点，对于所述多个计算节点中的任一计算节点，在该计算节点上执行如下步骤：

与其他计算节点进行通信，交换彼此的累加梯度；

2.如权利要求1所述的方法，其中，所述从训练数据集中获取预定数目个训练数据，作为批量训练数据，包括：

采用随机采样的方式从所述训练数据集中获取预定数目个训练数据，作为所述批量训练数据。

3.如权利要求1所述的方法，还包括：

预先将所述训练数据集划分为若干个训练数据子集，所述多个计算节点中的各计算节点分别对应一个不同的训练数据子集，并将各训练数据子集划分为多个批量训练数据。

4.如权利要求1至3中任一项所述的方法，其中，所述计算所述深度学习模型的模型参数在所述批量训练数据上的梯度，作为本地梯度，包括：

将所述批量训练数据输入到所述深度学习模型执行前向传播，计算所述深度学习模型的模型损失；

基于所述模型损失执行反向传播，计算所述模型参数在所述批量训练数据上的梯度，作为本地梯度。

5.如权利要求1至4中任一项所述的方法，其中，所述与其他计算节点进行通信，交换彼此的累加梯度，包括：

采用All-reduce的方式与其他计算节点进行通信，交换彼此的累加梯度。

6.如权利要求1至5中任一项所述的方法，其中，所述基于所述梯度平均值对所述模型参数进行更新，包括：

基于所述梯度平均值，采用梯度下降法对所述模型参数进行更新。

7.如权利要求1至6中任一项所述的方法，还包括：

当所述深度学习模型收敛，或者，对所述模型参数的更新次数达到预设次数时，停止训练。

8.如权利要求1至7中任一项所述的方法，其中，所述计算节点为CPU设备、GPU设备或者NPU设备。

9.一种分布式训练装置，包括：

10.一种分布式训练系统，包括多个计算节点，所述多个计算节点中的任一计算节点适于执行如权利要求1-8中任一项所述的方法。

11.一种计算设备，包括：

至少一个处理器；和

存储有程序指令的存储器，其中，所述程序指令被配置为适于由所述至少一个处理器执行，所述程序指令包括用于执行如权利要求1-8中任一项所述方法的指令。

12.一种存储有程序指令的可读存储介质，当所述程序指令被计算设备读取并执行时，使得所述计算设备执行如权利要求1-8中任一项所述的方法。