CN106297774A - 一种神经网络声学模型的分布式并行训练方法及系统 - Google Patents
一种神经网络声学模型的分布式并行训练方法及系统 Download PDFInfo
- Publication number
- CN106297774A CN106297774A CN201510291080.5A CN201510291080A CN106297774A CN 106297774 A CN106297774 A CN 106297774A CN 201510291080 A CN201510291080 A CN 201510291080A CN 106297774 A CN106297774 A CN 106297774A
- Authority
- CN
- China
- Prior art keywords
- gradient
- model
- client
- gpu
- cpu
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Abstract
本发明提供一种神经网络声学模型的分布式并行训练方法及系统,所述方法包含:步骤101)将各组训练数据分别输入一个客户端;步骤102)客户端接收输入的训练数据,并采用总线在客户端设置的若干个GPU和第一CPU之间传递参数,所述参数包含:模型权重和梯度;各个GPU基于输入的模型权重参数计算梯度,并将计算得到的梯度输入至第一CPU中;第一CPU利用GPU上传的梯度更新客户端中的模型副本,将更新后的权重参数回传给各个GPU,用于进行新的梯度计算,同时,第一CPU累积各GPU输入的梯度,根据累积结果更新参数服务器中的模型;步骤103)采用网络资源将各个客户端CPU累积得到的最新的梯度信息输入服务器,然后更新服务器中存储的神经网络声学模型。
Description
技术领域
本发明属于语音识别领域,是一种利用多台计算机节点,并行训练神经网络以提高神经网络声学模型的训练速度的方法,具体涉及一种神经网络声学模型的分布式并行训练方法及系统。
背景技术
目前利用大数据量和深度神经网络(Deep Neural Network,DNN)建立声学模型的方法已经在语音识别领域取得了突出的成果,使得最终的识别准确度提升了相对20%~30%。
DNN是一种以连接权重和结点来模拟人脑中神经元工作的技术,可以视作一种分类器,DNN结构主要包括输入层,隐层和输出层,相邻层的结点之间有带权重的线连接,输出层的结点数量由目标类别数量所决定,数据从输入层进入网络,经由一系列的权重计算和非线性激活函数,最终到达输出层,得到该数据被分为每一类的概率值。在语音识别领域中,DNN的输入为语音特征,输出为音素状态。由于DNN具有很强的非线性表达能力,能够对输入的语音特征进行更好的转换表达,以用于输出层的分类,同时,数据量越大,DNN的层数越多,参数量越大,训练所得到的神经网络分类能力越好,最终的识别准确率越高,但是神经网络的训练采用误差反向传播(Error Back Propagation)和随机梯度下降(Stochastic Gradient Descent,SGD)的收敛方式,训练速度极慢。在当今的大数据时代,神经网络声学模型的训练通常需要数千甚至数万小时的语音数据,即使使用目前浮点计算能力最强的GPU(Graphics Processing Unit)进行辅助运算,仍需要数月时间完成一次模型的训练,这在研究和实际应用中都是不能接受的。因此针对神经网络训练周期过长的问题,对神经网络训练并行化问题的研究变得尤为重要。
然而,由于分布式训练神经网络的过程中,参数传递频繁,对网络带宽的要求极高,因此目前大部分的神经网络并行训练系统采用一台机器,在其中插入多块GPU卡的方式来实现,但这种方式有其局限性,最多只能使用四块GPU卡,能够提供的加速效果有限。
发明内容
本发明的目的在于,为了克服上述问题,本发明提供一种神经网络声学模型的分布式并行训练方法。
为了实现上述目的,本发明提供一种神经网络声学模型的分布式并行训练方法,所述方法包含:
步骤101)将各组训练数据分别输入一个客户端;
步骤102)客户端接收输入的训练数据,并采用总线在客户端设置的若干个GPU和第一CPU之间传递参数,所述参数包含:模型权重和梯度;
各个GPU基于输入的模型权重参数计算梯度,并将计算得到的梯度输入至第一CPU中;
第一CPU利用GPU上传的梯度更新客户端中的模型副本,将更新后的权重参数回传给各个GPU,用于进行新的梯度计算,同时,第一CPU累积各GPU输入的梯度,根据累积结果更新参数服务器中的模型;
步骤103)采用网络资源将各个客户端CPU累积得到的最新的梯度信息输入服务器,然后更新服务器中存储的神经网络声学模型;
其中,各个客户端按照固定的队列顺序依次循环上传计算得到的梯度至服务器;所述服务器还向各个客户端发送模型权重信息,该模型权重信息用于替换客户端中的模型副本,作为各GPU计算新梯度的依据。
可选的,上述客户端上设置的GPU的数目为:
其中,N为第一CPU每次计算的数据块的大小,为单帧数据的梯度计算时间,M为神经网络声学模型的大小,为单个浮点数在网络中的传递时间,为神经网络声学模型的更新时间。
可选的,上述步骤102)进一步包含:
步骤102-1)选定第一CPU每次计算的数据块的大小M;
步骤102-2)将长度为M的选定的数据块再分割成更小的数据块,再将各个更小的数据块分发至一块GPU中;
步骤102-3)GPU对输入的更小的数据块进行计算得到梯度,具体计算可以选用如下方法和公式:首先计算各层节点的误差,利用误差回传公式:其中,E为输出节点与答案标注之间的误差,y为各层节点的值,为后一层的误差,f(x)为激活函数,常用sigmoid函数:然后利用误差进行梯度计算:其中,为输入节点的值
可选的,上述步骤103)之后还包含:
对梯度加入冲量项进行平滑计算,且加入冲量项的神经网络模型的更新公式为:
w(m+1)=w(m)+(1-α)▽w(m)+α▽w(m-1)
其中,w为模型权重,▽w为梯度,α冲量项。
可选的,根据客户端与服务器之间的网络带宽确定客户端的数量。
此外,本发明还提供了一种神经网络声学模型的分布式并行训练系统,所述系统包含客户端和服务器;
所述客户端用于计算梯度,并将计算的梯度发送至服务器进行神经网络的模型更新;
所述客户端上设置若干个GPU,各GPU通过总线将梯度参数发送至第一CPU,且客户端的数目大于1,各个客户端按照固定的队列顺序依次循环上传计算得到的梯度至服务器;
所述客户端与服务器通过网络资源相互通信,且客户端的数量根据网络带宽确定。
进一步可选的,上述GPU卡进一步包含:
输入端,用于接收第一CPU输出的模型权重值;
处理模块,用于根据模型权重值计算梯度;
输出端,用于将计算得到的梯度输入至第一CPU。
可选的,上述第一CPU进一步包含:
输入端,用于接收各GPU计算的梯度;
更新模块,将接收的梯度加到模型副本中,更新模型副本;
存储模块,存储一次迭代中各GPU上传的梯度,并对所有梯度进行累加,为参数服务器中的模型更新做准备;
输出端,两个输出端口,端口一将更新后的模型副本输出至GPU,端口二将累积的梯度输出至参数服务器。
可选的,上述服务器进一步包含:
输入端,用于接收客户端上传的累积梯度;
时序控制模块,控制各客户端上传梯度的次序,使得客户端依据固定的队列次序依次上传梯度;
更新模块,将从客户端接收的累积梯度加到模型中,更新模型权重参数;
输出端,将更新后的模型输出至相应客户端。
与现有技术相比,本发明的优点在于:采用两级ASGD架构,第一级中的参数传输通过总线进行,速度极快,只有第二级传输涉及到网络传输,减少了神经网络分布式并行训练过程中参数通过网络传递的频率,有效的解决了网络带宽瓶颈对于并行化训练带来的阻碍问题,能够让我们可以同时利用多台机器多块GPU卡进行神经网络的训练,大大缩短了训练周期。同时两级的架构使得模型逐级更新,在第一级系统中minibatch相对较小,使得单机系统中模型每次更新的步长较小,防止了模型的发散,而且能够保证计算所得梯度的稳定性,保证模型最终收敛到一个较好的局部最优点。
附图说明
附图1是本发明所提出的神经网络分布式并行训练的总体架构图;
附图2是本发明中神经网络训练的时间分布图;
附图3为消息传递接口(MPI)传输速率与发送数据块大小的关系曲线。
具体实施方式
下面结合附图和优选实施例对本发明的方法进行详细说明。
本发明的主要目的在于解决神经网络训练周期过长的难题,通过采用两级异步随机梯度下降(ASGD)的架构来降低分布式训练中模型参数在网络中的传递频率,从而解决由于网络带宽瓶颈而阻碍神经网络训练并行化拓展的问题,使得我们可以利用多台计算机,每台计算机利用多块GPU卡进行神经网络声学模型的分布式并行训练,大大缩短训练周期。具体描述如下:
如图1所示,为两级异步随机梯度下降分布式系统架构图,第一级为单机ASGD系统,在单机系统中,一块GPU卡作为一台客户端,负责计算梯度(▽w),每计算一个数据块(minibatch),将梯度上传至参数服务器,CPU作为参数服务器,接收梯度,按公式(1)进行模型权重(w)的更新,并向GPU发送更新后的模型参数;第二级为多机ASGD系统,每台单机系统作为客户端,单机中CPU在接收到GPU计算所得梯度后,进行模型更新的同时对梯度进行累积得到▽w',当累积梯度达到设定数据量(一个cache)后,上传累积梯度至总参数服务器,总参数服务器按公式(1)进行总模型更新,并将更新后的模型发送至客户端。
w(m)=w(m-1)+▽w (1)
为了最大程度提高训练速度,我们采用了梯度计算与参数传递并行的方式,即每台计算机计算1/2cache时,开始上传梯度,同时利用旧的模型继续进行梯度计算,这样有效利用了计算资源和网络资源,减少了等待时间。
同时,为保证训练过程中模型能够稳定的收敛,防止由于计算机性能差异导致部分性能较差的计算机所得到的梯度与总体模型之间延迟过大的问题,须严格规定每台计算机节点上传梯度的次序。
实施例
1、两级ASGD系统的构建
附图1为本发明所提出的两级ASGD神经网络系统架构图,整体架构由多台客户端和一台参数服务器构成,其中客户端负责计算梯度,参数服务器负责更新模型,参数通过以太网在客户端和参数服务器之间传递,构成上层(第二级)ASGD系统;每台客户端内部的CPU与各GPU之间则构成底层(第一级)ASGD系统,参数通过总线在CPU和GPU之间传递。基于两级ASGD系统进行模型训练的过程为:首先,训练开始时参数服务器中的模型会进行初始化(随机值),将初始化后的模型发送至各客户端(CPU中),若每个客户端使用4块GPU卡(G1,G2,G3,G4),则4块GPU跟据CPU中模型副本计算梯度,每个GPU计算一个minibatch大小的数据块,计算完毕后,G1上传▽w1至CPU,CPU更新模型副本(此时参数服务器中的模型不更新),G1利用CPU中更新后的模型继续进行梯度计算,此时G2上传▽w2至CPU,CPU再次更新模型,G2利用CPU更新后的模型继续进行梯度计算,G3,G4依次类推;CPU更新模型副本的同时会累积▽w1,▽w2……,直到累积至一个cache大小的数据块后得到▽w',客户端将▽w'上传至参数服务器,更新服务器中的模型,更新后的模型被传回客户端,用于新的梯度计算,其他客户端依次类推。
2、计算最优计算节点数量
如附图2所示,分布式并行神经网络的训练耗时分为两部分,计算时间和传递参数时间,其中计算时间又分为两部分,模型更新时间和梯度计算时间,模型更新算法为两个固定的矩阵相加,由于模型结构固定,此部分时间也为固定,且相对用时较少,而梯度计算时间与一次计算的数据块(cache)大小有关系,cache越大,所需时间越长;传递参数的时间则与网络带宽有关系。由于我们采用计算与传参并行的方式,当计算时间等于传参时间,即Tcal=Tcomm时,每块GPU的计算能力和网络的传输能力同时饱和,可以避免等待,得到最优加速比。选定cache的大小后,将cache分割成较小的数据块(minibatch),每个minibatch分布到一块GPU中计算,因此cache越大,每台客户端中可以用到的GPU卡数越多,并行化程度越高,但是较大的cache会导致累积的梯度步长过大,模型容易发散,须综合性能和速度两方面因素考虑,每台客户端中使用的最优GPU卡数K的计算公式为:
其中,N为cache大小,为单帧数据的梯度计算时间,M为模型大小,为单个浮点数的网络中传递时间,为模型更新时间。上述参数与硬件有关,根据计算机以及网络带宽的参数可计算得出或者通过测试得出。
系统中客户端的数量则可根据网络带宽的情况而定,可尽量使带宽饱和。
3、模型切分
系统中参数的传递通过MPI接口实现,MPI的传输特性如图3所示,为使MPI传输效率最高,我们对模型进行拆分,以2M为单位进行传输。
4、梯度平滑和加锁
针对ASGD方法模型和梯度之间有延迟的问题通过加入冲量项(momentum)技术,对梯度进行平滑计算,减小有害梯度对于模型的影响。加入冲量项后的模型的更新公式变更为:
w(m+1)=w(m)+(1-α)▽w(m)+α▽w(m-1)
其中,w为模型权重,▽w为梯度,α冲量项。
同时,客户端之间的性能可能会存在微小差异,因为硬件因素导致训练过程中部分客户端的梯度上传至参数服务器端时产生延迟,使得客户端计算的梯度与参数服务器中的模型之间产生严重的不匹配,导致模型发散。考虑到这种情况,我们在系统中加入锁,保证每台客户端按照严格的顺序上传梯度至参数服务器。
近年来,在语音识别领域中,神经网络取代传统混合高斯模型用于声学建模取得了重大突破,然而神经网络的训练周期长使得在实际应用和理论研究中产生很多不便,在大数据时代的今天,问题显得尤为突出,因此研究如何高效地训练神经网络变得尤为重要。本发明主要提出一种两级异步随机梯度下降的分布式训练方法,将数据平均分配到多台计算机服务器来并行地训练神经网络,并采用双缓存技术来使得训练过程中的梯度计算和模型参数传递并行进行,克服以太网的带宽瓶颈问题,有效利用计算机的计算能力和网络的传输能力,实现最大的加速比。同时针对异步分布式训练中模型参数与梯度之间存在延迟的问题通过加入冲量项对梯度做平滑,有效缓解了有害梯度对模型产生的影响。最终实现大大缩短神经网络声学模型训练周期的目的。
最后所应说明的是,以上实施例仅用以说明本发明的技术方案而非限制。尽管参照实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,对本发明的技术方案进行修改或者等同替换,都不脱离本发明技术方案的精神和范围,其均应涵盖在本发明的权利要求范围当中。
Claims (9)
1.一种神经网络声学模型的分布式并行训练方法,所述方法包含:
步骤101)将各组训练数据分别输入一个客户端;
步骤102)客户端接收输入的训练数据,并采用总线在客户端设置的若干个GPU和第一CPU之间传递参数,所述参数包含:模型权重和梯度;
各个GPU基于输入的模型权重参数计算梯度,并将计算得到的梯度输入至第一CPU中;
第一CPU利用GPU上传的梯度更新客户端中的模型副本,将更新后的权重参数回传给各个GPU,用于进行新的梯度计算,同时,第一CPU累积各GPU输入的梯度,根据累积结果更新参数服务器中的模型;
步骤103)采用网络资源将各个客户端CPU累积得到的最新的梯度信息输入服务器,然后更新服务器中存储的神经网络声学模型;
其中,各个客户端按照固定的队列顺序依次循环上传计算得到的梯度至服务器;所述服务器还向各个客户端发送模型权重信息,该模型权重信息用于替换客户端中的模型副本,作为各GPU计算新梯度的依据。
2.根据权利要求1所述的神经网络声学模型的分布式并行训练方法,其特征在于,所述客户端上设置的GPU的数目为:
其中,N为第一CPU每次计算的数据块的大小,为单帧数据的梯度计算时间,M为神经网络声学模型的大小,为单个浮点数在网络中的传递时间,为神经网络声学模型的更新时间。
3.根据权利要求1所述的神经网络声学模型的分布式并行训练方法,其特征在于,所述步骤102)进一步包含:
步骤102-1)选定第一CPU每次计算的数据块的大小M;
步骤102-2)将长度为M的选定的数据块再分割成更小的数据块,再将各个更小的数据块分发至一块GPU中;
步骤102-3)GPU基于模型权重参数对输入的更小的数据块进行计算得到梯度。
4.根据权利要求1所述的神经网络声学模型的分布式并行训练方法,其特征在于,所述步骤103)之后还包含:
对梯度加入冲量项进行平滑计算,且加入冲量项的神经网络模型的更新公式为:
其中,w为模型权重,为梯度,α冲量项。
5.根据权利要求1所述的神经网络声学模型的分布式并行训练方法,其特征在于,根据客户端与服务器之间的网络带宽确定客户端的数量。
6.一种神经网络声学模型的分布式并行训练系统,其特征在于,所述系统包含客户端和服务器,其特征在于,
所述客户端用于计算梯度,并将计算的梯度发送至服务器进行神经网络的模型更新;
所述客户端上设置若干个GPU,各GPU通过总线将梯度参数发送至第一CPU,且客户端的数目大于1,各个客户端按照固定的队列顺序依次循环上传计算得到的梯度至服务器;
所述客户端与服务器通过网络资源相互通信,且客户端的数量根据网络带宽确定。
7.根据权利要求6所述的神经网络声学模型的分布式并行训练系统,其特征在于,所述GPU卡进一步包含:
输入端,用于接收第一CPU输出的模型权重值;
处理模块,用于根据模型权重值计算梯度;
输出端,用于将计算得到的梯度输入至第一CPU。
8.根据权利要求7所述的神经网络声学模型的分布式并行训练系统,其特征在于,所述第一CPU进一步包含:
输入端,用于接收各GPU计算的梯度;
更新模块,将接收的梯度加到模型副本中,更新模型副本;
存储模块,存储一次迭代中各GPU上传的梯度,并对所有梯度进行累加,为参数服务器中的模型更新做准备;
输出端,两个输出端口,端口一将更新后的模型副本输出至GPU,端口二将累积的梯度输出至参数服务器。
9.根据权利要求7所述的神经网络声学模型的分布式并行训练系统,其特征在于,所述服务器进一步包含:
输入端,用于接收客户端上传的累积梯度;
时序控制模块,控制各客户端上传梯度的次序,使得客户端依据固定的队列次序依次上传梯度;
更新模块,将从客户端接收的累积梯度加到模型中,更新模型权重参数;
输出端,将更新后的模型输出至相应客户端。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510291080.5A CN106297774B (zh) | 2015-05-29 | 2015-05-29 | 一种神经网络声学模型的分布式并行训练方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510291080.5A CN106297774B (zh) | 2015-05-29 | 2015-05-29 | 一种神经网络声学模型的分布式并行训练方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN106297774A true CN106297774A (zh) | 2017-01-04 |
CN106297774B CN106297774B (zh) | 2019-07-09 |
Family
ID=57656279
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201510291080.5A Active CN106297774B (zh) | 2015-05-29 | 2015-05-29 | 一种神经网络声学模型的分布式并行训练方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN106297774B (zh) |
Cited By (35)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107358951A (zh) * | 2017-06-29 | 2017-11-17 | 阿里巴巴集团控股有限公司 | 一种语音唤醒方法、装置以及电子设备 |
CN109102075A (zh) * | 2018-07-26 | 2018-12-28 | 联想(北京)有限公司 | 一种分布式训练中的梯度更新方法及相关设备 |
CN109117953A (zh) * | 2018-09-11 | 2019-01-01 | 北京迈格威科技有限公司 | 网络参数训练方法和系统、服务器、客户端及存储介质 |
CN109754060A (zh) * | 2017-11-06 | 2019-05-14 | 阿里巴巴集团控股有限公司 | 一种神经网络机器学习模型的训练方法及装置 |
CN109816042A (zh) * | 2019-02-01 | 2019-05-28 | 北京达佳互联信息技术有限公司 | 数据分类模型训练的方法、装置、电子设备和存储介质 |
CN109857565A (zh) * | 2019-01-18 | 2019-06-07 | 深圳壹账通智能科技有限公司 | 数据处理方法、装置、计算机设备及存储介质 |
CN109919311A (zh) * | 2019-03-13 | 2019-06-21 | 北京地平线机器人技术研发有限公司 | 生成指令序列的方法、执行神经网络运算的方法和装置 |
CN109919313A (zh) * | 2019-01-31 | 2019-06-21 | 华为技术有限公司 | 一种梯度传输的方法及分布式训练系统 |
CN110019830A (zh) * | 2017-09-20 | 2019-07-16 | 腾讯科技(深圳)有限公司 | 语料处理、词向量获取方法及装置、存储介质及设备 |
CN110084380A (zh) * | 2019-05-10 | 2019-08-02 | 深圳市网心科技有限公司 | 一种迭代训练方法、设备、系统及介质 |
EP3506095A3 (en) * | 2017-12-29 | 2019-09-25 | INTEL Corporation | Communication optimizations for distributed machine learning |
CN110379416A (zh) * | 2019-08-15 | 2019-10-25 | 腾讯科技(深圳)有限公司 | 一种神经网络语言模型训练方法、装置、设备及存储介质 |
CN110378472A (zh) * | 2019-07-24 | 2019-10-25 | 苏州浪潮智能科技有限公司 | 一种深度神经网络模型的数据并行训练方法、装置及设备 |
CN110503194A (zh) * | 2019-08-09 | 2019-11-26 | 苏州浪潮智能科技有限公司 | 一种分布式并行训练的方法和系统 |
CN110689109A (zh) * | 2018-07-04 | 2020-01-14 | 三星电子株式会社 | 神经网络方法和装置 |
CN110716986A (zh) * | 2019-10-17 | 2020-01-21 | 华普通用技术研究(广州)有限公司 | 一种大数据分析系统及其应用方法 |
WO2020042902A1 (zh) * | 2018-08-29 | 2020-03-05 | 深圳追一科技有限公司 | 语音识别的方法、系统和存储介质 |
CN110942138A (zh) * | 2019-11-13 | 2020-03-31 | 华中科技大学 | 一种混合内存环境下深度神经网络的训练方法和系统 |
CN111105006A (zh) * | 2018-10-26 | 2020-05-05 | 杭州海康威视数字技术股份有限公司 | 一种深度学习网络训练系统及方法 |
CN111105016A (zh) * | 2019-12-06 | 2020-05-05 | 浪潮电子信息产业股份有限公司 | 一种数据处理方法、装置、电子设备及可读存储介质 |
CN111133456A (zh) * | 2017-09-14 | 2020-05-08 | 赛灵思公司 | 在集成电路中实现神经网络的系统和方法 |
CN111226228A (zh) * | 2017-10-19 | 2020-06-02 | 森田公司 | 用于定制神经网络的系统和方法 |
CN111368991A (zh) * | 2018-12-25 | 2020-07-03 | 杭州海康威视数字技术股份有限公司 | 深度学习模型的训练方法、装置及电子设备 |
CN111722937A (zh) * | 2019-03-21 | 2020-09-29 | 阿里巴巴集团控股有限公司 | 深度学习权重更新方法、装置 |
CN111783932A (zh) * | 2019-04-03 | 2020-10-16 | 华为技术有限公司 | 训练神经网络的方法和装置 |
CN111860828A (zh) * | 2020-06-15 | 2020-10-30 | 北京仿真中心 | 一种神经网络的训练方法、存储介质和设备 |
CN112052950A (zh) * | 2020-08-24 | 2020-12-08 | 北京达佳互联信息技术有限公司 | 神经网络训练方法、模型计算服务器及存储介质 |
WO2021047201A1 (zh) * | 2019-09-12 | 2021-03-18 | 上海依图信息技术有限公司 | 一种语音识别方法及装置 |
CN112598118A (zh) * | 2021-03-03 | 2021-04-02 | 成都晓多科技有限公司 | 有监督学习的标注异常处理方法、装置、存储介质及设备 |
CN112988382A (zh) * | 2021-03-12 | 2021-06-18 | 中国科学院自动化研究所 | 基于分布式深度学习的医学影像智能分析系统 |
CN113255931A (zh) * | 2021-05-31 | 2021-08-13 | 浙江大学 | 一种在模型训练过程中调整配置参数的方法及装置 |
US11373266B2 (en) | 2017-05-05 | 2022-06-28 | Intel Corporation | Data parallelism and halo exchange for distributed machine learning |
WO2022206717A1 (zh) * | 2021-03-31 | 2022-10-06 | 华为技术有限公司 | 一种模型训练方法及装置 |
CN115829053A (zh) * | 2022-11-25 | 2023-03-21 | 北京百度网讯科技有限公司 | 模型运行策略确定方法、装置、电子设备以及存储介质 |
CN111722937B (zh) * | 2019-03-21 | 2024-05-10 | 阿里巴巴集团控股有限公司 | 深度学习权重更新方法、装置 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH0219960A (ja) * | 1988-07-08 | 1990-01-23 | Hitachi Ltd | ニユーラル・ネツトワークと、それを用いた音響信号分析装置及び方法 |
CN103680496A (zh) * | 2013-12-19 | 2014-03-26 | 百度在线网络技术(北京)有限公司 | 基于深层神经网络的声学模型训练方法、主机和系统 |
CN103810999A (zh) * | 2014-02-27 | 2014-05-21 | 清华大学 | 基于分布式神经网络的语言模型训练方法及其系统 |
CN104143327A (zh) * | 2013-07-10 | 2014-11-12 | 腾讯科技(深圳)有限公司 | 一种声学模型训练方法和装置 |
CN104463324A (zh) * | 2014-11-21 | 2015-03-25 | 长沙马沙电子科技有限公司 | 一种基于大规模高性能集群的卷积神经网络并行处理方法 |
-
2015
- 2015-05-29 CN CN201510291080.5A patent/CN106297774B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH0219960A (ja) * | 1988-07-08 | 1990-01-23 | Hitachi Ltd | ニユーラル・ネツトワークと、それを用いた音響信号分析装置及び方法 |
CN104143327A (zh) * | 2013-07-10 | 2014-11-12 | 腾讯科技(深圳)有限公司 | 一种声学模型训练方法和装置 |
CN103680496A (zh) * | 2013-12-19 | 2014-03-26 | 百度在线网络技术(北京)有限公司 | 基于深层神经网络的声学模型训练方法、主机和系统 |
CN103810999A (zh) * | 2014-02-27 | 2014-05-21 | 清华大学 | 基于分布式神经网络的语言模型训练方法及其系统 |
CN104463324A (zh) * | 2014-11-21 | 2015-03-25 | 长沙马沙电子科技有限公司 | 一种基于大规模高性能集群的卷积神经网络并行处理方法 |
Non-Patent Citations (2)
Title |
---|
LAKE TAHOE ECT: "Large Scale Distributed Deep Networks", 《NIPS"12 PROCEEDINGS OF THE 25TH INTERNATIONAL CONFERENCE ON NEURAL INFORMATION PROCESSING》 * |
ZHICHAO WANG, ETC: "TWO-STAGE ASGD FRAMEWORK FOR PARALLEL TRAINING OF DNN ACOUSTIC MODELS USING ETHERNET", 《ASRU 2015》 * |
Cited By (58)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11373266B2 (en) | 2017-05-05 | 2022-06-28 | Intel Corporation | Data parallelism and halo exchange for distributed machine learning |
WO2019001428A1 (zh) * | 2017-06-29 | 2019-01-03 | 阿里巴巴集团控股有限公司 | 一种语音唤醒方法、装置以及电子设备 |
CN107358951A (zh) * | 2017-06-29 | 2017-11-17 | 阿里巴巴集团控股有限公司 | 一种语音唤醒方法、装置以及电子设备 |
US10748524B2 (en) | 2017-06-29 | 2020-08-18 | Alibaba Group Holding Limited | Speech wakeup method, apparatus, and electronic device |
TWI692751B (zh) * | 2017-06-29 | 2020-05-01 | 香港商阿里巴巴集團服務有限公司 | 語音喚醒方法、裝置以及電子設備 |
CN111133456A (zh) * | 2017-09-14 | 2020-05-08 | 赛灵思公司 | 在集成电路中实现神经网络的系统和方法 |
CN111133456B (zh) * | 2017-09-14 | 2023-09-05 | 赛灵思公司 | 在集成电路中实现神经网络的系统和方法 |
CN110019830B (zh) * | 2017-09-20 | 2022-09-23 | 腾讯科技(深圳)有限公司 | 语料处理、词向量获取方法及装置、存储介质及设备 |
CN110019830A (zh) * | 2017-09-20 | 2019-07-16 | 腾讯科技(深圳)有限公司 | 语料处理、词向量获取方法及装置、存储介质及设备 |
CN111226228B (zh) * | 2017-10-19 | 2023-12-22 | 森田公司 | 用于定制神经网络的系统和方法 |
CN111226228A (zh) * | 2017-10-19 | 2020-06-02 | 森田公司 | 用于定制神经网络的系统和方法 |
CN109754060B (zh) * | 2017-11-06 | 2023-08-25 | 阿里巴巴集团控股有限公司 | 一种神经网络机器学习模型的训练方法及装置 |
CN109754060A (zh) * | 2017-11-06 | 2019-05-14 | 阿里巴巴集团控股有限公司 | 一种神经网络机器学习模型的训练方法及装置 |
US11704565B2 (en) | 2017-12-29 | 2023-07-18 | Intel Corporation | Communication optimizations for distributed machine learning |
EP3506095A3 (en) * | 2017-12-29 | 2019-09-25 | INTEL Corporation | Communication optimizations for distributed machine learning |
US11270201B2 (en) | 2017-12-29 | 2022-03-08 | Intel Corporation | Communication optimizations for distributed machine learning |
CN110689109A (zh) * | 2018-07-04 | 2020-01-14 | 三星电子株式会社 | 神经网络方法和装置 |
CN110689109B (zh) * | 2018-07-04 | 2024-04-12 | 三星电子株式会社 | 神经网络方法和装置 |
CN109102075A (zh) * | 2018-07-26 | 2018-12-28 | 联想(北京)有限公司 | 一种分布式训练中的梯度更新方法及相关设备 |
WO2020042902A1 (zh) * | 2018-08-29 | 2020-03-05 | 深圳追一科技有限公司 | 语音识别的方法、系统和存储介质 |
CN109117953B (zh) * | 2018-09-11 | 2021-11-09 | 北京迈格威科技有限公司 | 网络参数训练方法和系统、服务器、客户端及存储介质 |
CN109117953A (zh) * | 2018-09-11 | 2019-01-01 | 北京迈格威科技有限公司 | 网络参数训练方法和系统、服务器、客户端及存储介质 |
CN111105006A (zh) * | 2018-10-26 | 2020-05-05 | 杭州海康威视数字技术股份有限公司 | 一种深度学习网络训练系统及方法 |
CN111105006B (zh) * | 2018-10-26 | 2023-08-04 | 杭州海康威视数字技术股份有限公司 | 一种深度学习网络训练系统及方法 |
CN111368991B (zh) * | 2018-12-25 | 2023-05-26 | 杭州海康威视数字技术股份有限公司 | 深度学习模型的训练方法、装置及电子设备 |
CN111368991A (zh) * | 2018-12-25 | 2020-07-03 | 杭州海康威视数字技术股份有限公司 | 深度学习模型的训练方法、装置及电子设备 |
CN109857565A (zh) * | 2019-01-18 | 2019-06-07 | 深圳壹账通智能科技有限公司 | 数据处理方法、装置、计算机设备及存储介质 |
CN109919313B (zh) * | 2019-01-31 | 2021-06-08 | 华为技术有限公司 | 一种梯度传输的方法及分布式训练系统 |
CN109919313A (zh) * | 2019-01-31 | 2019-06-21 | 华为技术有限公司 | 一种梯度传输的方法及分布式训练系统 |
CN109816042A (zh) * | 2019-02-01 | 2019-05-28 | 北京达佳互联信息技术有限公司 | 数据分类模型训练的方法、装置、电子设备和存储介质 |
CN109919311A (zh) * | 2019-03-13 | 2019-06-21 | 北京地平线机器人技术研发有限公司 | 生成指令序列的方法、执行神经网络运算的方法和装置 |
CN109919311B (zh) * | 2019-03-13 | 2020-04-10 | 北京地平线机器人技术研发有限公司 | 生成指令序列的方法、执行神经网络运算的方法和装置 |
CN111722937A (zh) * | 2019-03-21 | 2020-09-29 | 阿里巴巴集团控股有限公司 | 深度学习权重更新方法、装置 |
CN111722937B (zh) * | 2019-03-21 | 2024-05-10 | 阿里巴巴集团控股有限公司 | 深度学习权重更新方法、装置 |
CN111783932A (zh) * | 2019-04-03 | 2020-10-16 | 华为技术有限公司 | 训练神经网络的方法和装置 |
CN110084380A (zh) * | 2019-05-10 | 2019-08-02 | 深圳市网心科技有限公司 | 一种迭代训练方法、设备、系统及介质 |
CN110378472A (zh) * | 2019-07-24 | 2019-10-25 | 苏州浪潮智能科技有限公司 | 一种深度神经网络模型的数据并行训练方法、装置及设备 |
CN110503194A (zh) * | 2019-08-09 | 2019-11-26 | 苏州浪潮智能科技有限公司 | 一种分布式并行训练的方法和系统 |
CN110503194B (zh) * | 2019-08-09 | 2022-05-24 | 苏州浪潮智能科技有限公司 | 一种分布式并行训练的方法和系统 |
CN110379416A (zh) * | 2019-08-15 | 2019-10-25 | 腾讯科技(深圳)有限公司 | 一种神经网络语言模型训练方法、装置、设备及存储介质 |
CN110379416B (zh) * | 2019-08-15 | 2021-10-22 | 腾讯科技(深圳)有限公司 | 一种神经网络语言模型训练方法、装置、设备及存储介质 |
WO2021047201A1 (zh) * | 2019-09-12 | 2021-03-18 | 上海依图信息技术有限公司 | 一种语音识别方法及装置 |
CN110716986A (zh) * | 2019-10-17 | 2020-01-21 | 华普通用技术研究(广州)有限公司 | 一种大数据分析系统及其应用方法 |
CN110942138B (zh) * | 2019-11-13 | 2022-02-15 | 华中科技大学 | 一种混合内存环境下深度神经网络的训练方法和系统 |
CN110942138A (zh) * | 2019-11-13 | 2020-03-31 | 华中科技大学 | 一种混合内存环境下深度神经网络的训练方法和系统 |
CN111105016B (zh) * | 2019-12-06 | 2023-04-28 | 浪潮电子信息产业股份有限公司 | 一种数据处理方法、装置、电子设备及可读存储介质 |
CN111105016A (zh) * | 2019-12-06 | 2020-05-05 | 浪潮电子信息产业股份有限公司 | 一种数据处理方法、装置、电子设备及可读存储介质 |
CN111860828B (zh) * | 2020-06-15 | 2023-11-28 | 北京仿真中心 | 一种神经网络的训练方法、存储介质和设备 |
CN111860828A (zh) * | 2020-06-15 | 2020-10-30 | 北京仿真中心 | 一种神经网络的训练方法、存储介质和设备 |
CN112052950A (zh) * | 2020-08-24 | 2020-12-08 | 北京达佳互联信息技术有限公司 | 神经网络训练方法、模型计算服务器及存储介质 |
CN112598118A (zh) * | 2021-03-03 | 2021-04-02 | 成都晓多科技有限公司 | 有监督学习的标注异常处理方法、装置、存储介质及设备 |
CN112598118B (zh) * | 2021-03-03 | 2021-06-25 | 成都晓多科技有限公司 | 有监督学习的标注异常处理方法、装置、存储介质及设备 |
CN112988382B (zh) * | 2021-03-12 | 2023-09-19 | 中国科学院自动化研究所 | 基于分布式深度学习的医学影像智能分析系统 |
CN112988382A (zh) * | 2021-03-12 | 2021-06-18 | 中国科学院自动化研究所 | 基于分布式深度学习的医学影像智能分析系统 |
WO2022206717A1 (zh) * | 2021-03-31 | 2022-10-06 | 华为技术有限公司 | 一种模型训练方法及装置 |
CN113255931A (zh) * | 2021-05-31 | 2021-08-13 | 浙江大学 | 一种在模型训练过程中调整配置参数的方法及装置 |
CN115829053A (zh) * | 2022-11-25 | 2023-03-21 | 北京百度网讯科技有限公司 | 模型运行策略确定方法、装置、电子设备以及存储介质 |
CN115829053B (zh) * | 2022-11-25 | 2023-09-19 | 北京百度网讯科技有限公司 | 模型运行策略确定方法、装置、电子设备以及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN106297774B (zh) | 2019-07-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106297774A (zh) | 一种神经网络声学模型的分布式并行训练方法及系统 | |
CN109299781A (zh) | 基于动量和剪枝的分布式深度学习系统 | |
CN106062786A (zh) | 用于训练神经网络的计算系统 | |
CN110533183A (zh) | 一种流水线分布式深度学习中异构网络感知的模型划分与任务放置方法 | |
CN109887282A (zh) | 一种基于层级时序图卷积网络的路网交通流预测方法 | |
CN107918794A (zh) | 基于计算阵列的神经网络处理器 | |
CN110889509B (zh) | 一种基于梯度动量加速的联合学习方法及装置 | |
CN106156810A (zh) | 通用机器学习算法模型训练方法、系统和计算节点 | |
CN106201651A (zh) | 神经形态芯片的模拟器 | |
CN103150596A (zh) | 一种反向传播神经网络dnn的训练系统 | |
CN112784968A (zh) | 一种加速分布式深度神经网络训练的混合流水线并行方法 | |
Pinjare et al. | Implementation of neural network back propagation training algorithm on FPGA | |
US20210056416A1 (en) | Distributed Deep Learning System | |
Jiang et al. | Fedmp: Federated learning through adaptive model pruning in heterogeneous edge computing | |
CN104573720A (zh) | 一种无线传感器网络中核分类器的分布式训练方法 | |
CN110197217A (zh) | 一种基于深度交错融合分组卷积网络的图像分类方法 | |
CN106355003A (zh) | 基于t分布的马尔科夫链蒙特卡洛自动历史拟合方法及系统 | |
CN112182938A (zh) | 基于迁移学习-多保真度建模的介观结构件力学性能预测方法 | |
CN109657794A (zh) | 一种基于指令队列的分布式深度神经网络性能建模方法 | |
CN106934454A (zh) | 三维片上网络中基于Petri网的测试规划方法 | |
Chen et al. | Service delay minimization for federated learning over mobile devices | |
CN113672684B (zh) | 一种面向非独立同分布数据的分层用户训练管理系统及方法 | |
Luo et al. | A novel adaptive gradient compression scheme: Reducing the communication overhead for distributed deep learning in the Internet of Things | |
Kaveh et al. | Enhanced dandelion optimizer for optimum design of steel frames | |
CN109564637A (zh) | 用于极端吞吐量神经网络的可扩展流突触超级计算机 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |