CN106297774A

CN106297774A - 一种神经网络声学模型的分布式并行训练方法及系统

Info

Publication number: CN106297774A
Application number: CN201510291080.5A
Authority: CN
Inventors: 那兴宇; 王智超; 潘接林; 颜永红
Original assignee: Institute of Acoustics CAS; Beijing Kexin Technology Co Ltd
Current assignee: Institute of Acoustics CAS; Beijing Kexin Technology Co Ltd
Priority date: 2015-05-29
Filing date: 2015-05-29
Publication date: 2017-01-04
Anticipated expiration: 2035-05-29
Also published as: CN106297774B

Abstract

本发明提供一种神经网络声学模型的分布式并行训练方法及系统，所述方法包含：步骤101)将各组训练数据分别输入一个客户端；步骤102)客户端接收输入的训练数据，并采用总线在客户端设置的若干个GPU和第一CPU之间传递参数，所述参数包含：模型权重和梯度；各个GPU基于输入的模型权重参数计算梯度，并将计算得到的梯度输入至第一CPU中；第一CPU利用GPU上传的梯度更新客户端中的模型副本，将更新后的权重参数回传给各个GPU，用于进行新的梯度计算，同时，第一CPU累积各GPU输入的梯度，根据累积结果更新参数服务器中的模型；步骤103)采用网络资源将各个客户端CPU累积得到的最新的梯度信息输入服务器，然后更新服务器中存储的神经网络声学模型。

Description

一种神经网络声学模型的分布式并行训练方法及系统

技术领域

本发明属于语音识别领域，是一种利用多台计算机节点，并行训练神经网络以提高神经网络声学模型的训练速度的方法，具体涉及一种神经网络声学模型的分布式并行训练方法及系统。

背景技术

目前利用大数据量和深度神经网络(Deep Neural Network，DNN)建立声学模型的方法已经在语音识别领域取得了突出的成果，使得最终的识别准确度提升了相对20％～30％。

DNN是一种以连接权重和结点来模拟人脑中神经元工作的技术，可以视作一种分类器，DNN结构主要包括输入层，隐层和输出层，相邻层的结点之间有带权重的线连接，输出层的结点数量由目标类别数量所决定，数据从输入层进入网络，经由一系列的权重计算和非线性激活函数，最终到达输出层，得到该数据被分为每一类的概率值。在语音识别领域中，DNN的输入为语音特征，输出为音素状态。由于DNN具有很强的非线性表达能力，能够对输入的语音特征进行更好的转换表达，以用于输出层的分类，同时，数据量越大，DNN的层数越多，参数量越大，训练所得到的神经网络分类能力越好，最终的识别准确率越高，但是神经网络的训练采用误差反向传播(Error Back Propagation)和随机梯度下降(Stochastic Gradient Descent，SGD)的收敛方式，训练速度极慢。在当今的大数据时代，神经网络声学模型的训练通常需要数千甚至数万小时的语音数据，即使使用目前浮点计算能力最强的GPU(Graphics Processing Unit)进行辅助运算，仍需要数月时间完成一次模型的训练，这在研究和实际应用中都是不能接受的。因此针对神经网络训练周期过长的问题，对神经网络训练并行化问题的研究变得尤为重要。

然而，由于分布式训练神经网络的过程中，参数传递频繁，对网络带宽的要求极高，因此目前大部分的神经网络并行训练系统采用一台机器，在其中插入多块GPU卡的方式来实现，但这种方式有其局限性，最多只能使用四块GPU卡，能够提供的加速效果有限。

发明内容

本发明的目的在于，为了克服上述问题，本发明提供一种神经网络声学模型的分布式并行训练方法。

为了实现上述目的，本发明提供一种神经网络声学模型的分布式并行训练方法，所述方法包含：

步骤101)将各组训练数据分别输入一个客户端；

步骤102)客户端接收输入的训练数据，并采用总线在客户端设置的若干个GPU和第一CPU之间传递参数，所述参数包含：模型权重和梯度；

各个GPU基于输入的模型权重参数计算梯度，并将计算得到的梯度输入至第一CPU中；

第一CPU利用GPU上传的梯度更新客户端中的模型副本，将更新后的权重参数回传给各个GPU，用于进行新的梯度计算，同时，第一CPU累积各GPU输入的梯度，根据累积结果更新参数服务器中的模型；

步骤103)采用网络资源将各个客户端CPU累积得到的最新的梯度信息输入服务器，然后更新服务器中存储的神经网络声学模型；

其中，各个客户端按照固定的队列顺序依次循环上传计算得到的梯度至服务器；所述服务器还向各个客户端发送模型权重信息，该模型权重信息用于替换客户端中的模型副本，作为各GPU计算新梯度的依据。

可选的，上述客户端上设置的GPU的数目为：

\hat{K} = \frac{N \cdot T_{calc}^{frm}}{M \cdot T_{comm}^{float} - T_{calc}^{upd}}

其中，N为第一CPU每次计算的数据块的大小，为单帧数据的梯度计算时间，M为神经网络声学模型的大小，为单个浮点数在网络中的传递时间，为神经网络声学模型的更新时间。

可选的，上述步骤102)进一步包含：

步骤102-1)选定第一CPU每次计算的数据块的大小M；

步骤102-2)将长度为M的选定的数据块再分割成更小的数据块，再将各个更小的数据块分发至一块GPU中；

步骤102-3)GPU对输入的更小的数据块进行计算得到梯度，具体计算可以选用如下方法和公式：首先计算各层节点的误差，利用误差回传公式：其中，E为输出节点与答案标注之间的误差，y为各层节点的值，为后一层的误差，f(x)为激活函数，常用sigmoid函数：然后利用误差进行梯度计算：其中，为输入节点的值

可选的，上述步骤103)之后还包含：

对梯度加入冲量项进行平滑计算，且加入冲量项的神经网络模型的更新公式为：

w(m+1)＝w(m)+(1-α)▽w(m)+α▽w(m-1)

其中，w为模型权重，▽w为梯度，α冲量项。

可选的，根据客户端与服务器之间的网络带宽确定客户端的数量。

此外，本发明还提供了一种神经网络声学模型的分布式并行训练系统，所述系统包含客户端和服务器；

所述客户端用于计算梯度，并将计算的梯度发送至服务器进行神经网络的模型更新；

所述客户端上设置若干个GPU，各GPU通过总线将梯度参数发送至第一CPU，且客户端的数目大于1，各个客户端按照固定的队列顺序依次循环上传计算得到的梯度至服务器；

所述客户端与服务器通过网络资源相互通信，且客户端的数量根据网络带宽确定。

进一步可选的，上述GPU卡进一步包含：

输入端，用于接收第一CPU输出的模型权重值；

处理模块，用于根据模型权重值计算梯度；

输出端，用于将计算得到的梯度输入至第一CPU。

可选的，上述第一CPU进一步包含：

输入端，用于接收各GPU计算的梯度；

更新模块，将接收的梯度加到模型副本中，更新模型副本；

存储模块，存储一次迭代中各GPU上传的梯度，并对所有梯度进行累加，为参数服务器中的模型更新做准备；

输出端，两个输出端口，端口一将更新后的模型副本输出至GPU，端口二将累积的梯度输出至参数服务器。

可选的，上述服务器进一步包含：

输入端，用于接收客户端上传的累积梯度；

时序控制模块，控制各客户端上传梯度的次序，使得客户端依据固定的队列次序依次上传梯度；

更新模块，将从客户端接收的累积梯度加到模型中，更新模型权重参数；

输出端，将更新后的模型输出至相应客户端。

与现有技术相比，本发明的优点在于：采用两级ASGD架构，第一级中的参数传输通过总线进行，速度极快，只有第二级传输涉及到网络传输，减少了神经网络分布式并行训练过程中参数通过网络传递的频率，有效的解决了网络带宽瓶颈对于并行化训练带来的阻碍问题，能够让我们可以同时利用多台机器多块GPU卡进行神经网络的训练，大大缩短了训练周期。同时两级的架构使得模型逐级更新，在第一级系统中minibatch相对较小，使得单机系统中模型每次更新的步长较小，防止了模型的发散，而且能够保证计算所得梯度的稳定性，保证模型最终收敛到一个较好的局部最优点。

附图说明

附图1是本发明所提出的神经网络分布式并行训练的总体架构图；

附图2是本发明中神经网络训练的时间分布图；

附图3为消息传递接口(MPI)传输速率与发送数据块大小的关系曲线。

具体实施方式

下面结合附图和优选实施例对本发明的方法进行详细说明。

本发明的主要目的在于解决神经网络训练周期过长的难题，通过采用两级异步随机梯度下降(ASGD)的架构来降低分布式训练中模型参数在网络中的传递频率，从而解决由于网络带宽瓶颈而阻碍神经网络训练并行化拓展的问题，使得我们可以利用多台计算机，每台计算机利用多块GPU卡进行神经网络声学模型的分布式并行训练，大大缩短训练周期。具体描述如下：

如图1所示，为两级异步随机梯度下降分布式系统架构图，第一级为单机ASGD系统，在单机系统中，一块GPU卡作为一台客户端，负责计算梯度(▽w)，每计算一个数据块(minibatch)，将梯度上传至参数服务器，CPU作为参数服务器，接收梯度，按公式(1)进行模型权重(w)的更新，并向GPU发送更新后的模型参数；第二级为多机ASGD系统，每台单机系统作为客户端，单机中CPU在接收到GPU计算所得梯度后，进行模型更新的同时对梯度进行累积得到▽w'，当累积梯度达到设定数据量(一个cache)后，上传累积梯度至总参数服务器，总参数服务器按公式(1)进行总模型更新，并将更新后的模型发送至客户端。

w(m)＝w(m-1)+▽w (1)

为了最大程度提高训练速度，我们采用了梯度计算与参数传递并行的方式，即每台计算机计算1/2cache时，开始上传梯度，同时利用旧的模型继续进行梯度计算，这样有效利用了计算资源和网络资源，减少了等待时间。

同时，为保证训练过程中模型能够稳定的收敛，防止由于计算机性能差异导致部分性能较差的计算机所得到的梯度与总体模型之间延迟过大的问题，须严格规定每台计算机节点上传梯度的次序。

实施例

1、两级ASGD系统的构建

附图1为本发明所提出的两级ASGD神经网络系统架构图，整体架构由多台客户端和一台参数服务器构成，其中客户端负责计算梯度，参数服务器负责更新模型，参数通过以太网在客户端和参数服务器之间传递，构成上层(第二级)ASGD系统；每台客户端内部的CPU与各GPU之间则构成底层(第一级)ASGD系统，参数通过总线在CPU和GPU之间传递。基于两级ASGD系统进行模型训练的过程为：首先，训练开始时参数服务器中的模型会进行初始化(随机值)，将初始化后的模型发送至各客户端(CPU中)，若每个客户端使用4块GPU卡(G1,G2,G3,G4)，则4块GPU跟据CPU中模型副本计算梯度，每个GPU计算一个minibatch大小的数据块，计算完毕后，G1上传▽w₁至CPU，CPU更新模型副本(此时参数服务器中的模型不更新)，G1利用CPU中更新后的模型继续进行梯度计算，此时G2上传▽w₂至CPU，CPU再次更新模型，G2利用CPU更新后的模型继续进行梯度计算，G3，G4依次类推；CPU更新模型副本的同时会累积▽w₁，▽w₂……，直到累积至一个cache大小的数据块后得到▽w'，客户端将▽w'上传至参数服务器，更新服务器中的模型，更新后的模型被传回客户端，用于新的梯度计算，其他客户端依次类推。

2、计算最优计算节点数量

如附图2所示，分布式并行神经网络的训练耗时分为两部分，计算时间和传递参数时间，其中计算时间又分为两部分，模型更新时间和梯度计算时间，模型更新算法为两个固定的矩阵相加，由于模型结构固定，此部分时间也为固定，且相对用时较少，而梯度计算时间与一次计算的数据块(cache)大小有关系，cache越大，所需时间越长；传递参数的时间则与网络带宽有关系。由于我们采用计算与传参并行的方式，当计算时间等于传参时间，即T_cal＝T_comm时，每块GPU的计算能力和网络的传输能力同时饱和，可以避免等待，得到最优加速比。选定cache的大小后，将cache分割成较小的数据块(minibatch)，每个minibatch分布到一块GPU中计算，因此cache越大，每台客户端中可以用到的GPU卡数越多，并行化程度越高，但是较大的cache会导致累积的梯度步长过大，模型容易发散，须综合性能和速度两方面因素考虑，每台客户端中使用的最优GPU卡数K的计算公式为：

\hat{K} = \frac{N \cdot T_{calc}^{frm}}{M \cdot T_{comm}^{float} - T_{calc}^{upd}}

其中，N为cache大小，为单帧数据的梯度计算时间，M为模型大小，为单个浮点数的网络中传递时间，为模型更新时间。上述参数与硬件有关，根据计算机以及网络带宽的参数可计算得出或者通过测试得出。

系统中客户端的数量则可根据网络带宽的情况而定，可尽量使带宽饱和。

3、模型切分

系统中参数的传递通过MPI接口实现，MPI的传输特性如图3所示，为使MPI传输效率最高，我们对模型进行拆分，以2M为单位进行传输。

4、梯度平滑和加锁

针对ASGD方法模型和梯度之间有延迟的问题通过加入冲量项(momentum)技术，对梯度进行平滑计算，减小有害梯度对于模型的影响。加入冲量项后的模型的更新公式变更为：

w(m+1)＝w(m)+(1-α)▽w(m)+α▽w(m-1)

其中，w为模型权重，▽w为梯度，α冲量项。

同时，客户端之间的性能可能会存在微小差异，因为硬件因素导致训练过程中部分客户端的梯度上传至参数服务器端时产生延迟，使得客户端计算的梯度与参数服务器中的模型之间产生严重的不匹配，导致模型发散。考虑到这种情况，我们在系统中加入锁，保证每台客户端按照严格的顺序上传梯度至参数服务器。

近年来，在语音识别领域中，神经网络取代传统混合高斯模型用于声学建模取得了重大突破，然而神经网络的训练周期长使得在实际应用和理论研究中产生很多不便，在大数据时代的今天，问题显得尤为突出，因此研究如何高效地训练神经网络变得尤为重要。本发明主要提出一种两级异步随机梯度下降的分布式训练方法，将数据平均分配到多台计算机服务器来并行地训练神经网络，并采用双缓存技术来使得训练过程中的梯度计算和模型参数传递并行进行，克服以太网的带宽瓶颈问题，有效利用计算机的计算能力和网络的传输能力，实现最大的加速比。同时针对异步分布式训练中模型参数与梯度之间存在延迟的问题通过加入冲量项对梯度做平滑，有效缓解了有害梯度对模型产生的影响。最终实现大大缩短神经网络声学模型训练周期的目的。

最后所应说明的是，以上实施例仅用以说明本发明的技术方案而非限制。尽管参照实施例对本发明进行了详细说明，本领域的普通技术人员应当理解，对本发明的技术方案进行修改或者等同替换，都不脱离本发明技术方案的精神和范围，其均应涵盖在本发明的权利要求范围当中。

Claims

1.一种神经网络声学模型的分布式并行训练方法，所述方法包含：

步骤101)将各组训练数据分别输入一个客户端；

2.根据权利要求1所述的神经网络声学模型的分布式并行训练方法，其特征在于，所述客户端上设置的GPU的数目为：

\hat{K} = \frac{N \cdot T_{calc}^{frm}}{M \cdot T_{comm}^{float} - T_{calc}^{upd}}

3.根据权利要求1所述的神经网络声学模型的分布式并行训练方法，其特征在于，所述步骤102)进一步包含：

步骤102-1)选定第一CPU每次计算的数据块的大小M；

步骤102-3)GPU基于模型权重参数对输入的更小的数据块进行计算得到梯度。

4.根据权利要求1所述的神经网络声学模型的分布式并行训练方法，其特征在于，所述步骤103)之后还包含：

w (m + 1) = w (m) + (1 - α) &dtri; w (m) + α &dtri; w (m - 1)

其中，w为模型权重，为梯度，α冲量项。

5.根据权利要求1所述的神经网络声学模型的分布式并行训练方法，其特征在于，根据客户端与服务器之间的网络带宽确定客户端的数量。

6.一种神经网络声学模型的分布式并行训练系统，其特征在于，所述系统包含客户端和服务器，其特征在于，

7.根据权利要求6所述的神经网络声学模型的分布式并行训练系统，其特征在于，所述GPU卡进一步包含：