CN112861991A - 一种面向神经网络异步训练的学习率调整方法 - Google Patents

一种面向神经网络异步训练的学习率调整方法 Download PDF

Info

Publication number
CN112861991A
CN112861991A CN202110254554.4A CN202110254554A CN112861991A CN 112861991 A CN112861991 A CN 112861991A CN 202110254554 A CN202110254554 A CN 202110254554A CN 112861991 A CN112861991 A CN 112861991A
Authority
CN
China
Prior art keywords
learning rate
gradient
gradients
delay
neural network
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110254554.4A
Other languages
English (en)
Other versions
CN112861991B (zh
Inventor
李尹健
卢宇彤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sun Yat Sen University
Original Assignee
Sun Yat Sen University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sun Yat Sen University filed Critical Sun Yat Sen University
Priority to CN202110254554.4A priority Critical patent/CN112861991B/zh
Publication of CN112861991A publication Critical patent/CN112861991A/zh
Application granted granted Critical
Publication of CN112861991B publication Critical patent/CN112861991B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/16Matrix or vector computation, e.g. matrix-matrix or matrix-vector multiplication, matrix factorization
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • General Engineering & Computer Science (AREA)
  • Software Systems (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computing Systems (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Analysis (AREA)
  • Computational Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Pure & Applied Mathematics (AREA)
  • Mathematical Optimization (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Algebra (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种面向神经网络异步训练的学习率调整方法,所述方法包括以下步骤:初始化参数;将神经网络的参数发送给所有空闲的计算节点;直到已经接收了c个计算结果;对于c个接收的计算梯度,分别调整它们的学习率;使用步骤S4中得到的学习率和接收的c个梯度,对网络进行一步梯度下降的更新;判断网络精度是否满足要求。若已达到要求,则完成训练,将回应2发送给所有计算节点,退出;否则回到步骤B,并将回应1发送给所有本轮计算完成的节点,进行下一轮循环的训练。本发明的有益效果在于,延迟梯度的学习率不再会随着数目的增多而线性上升,同时在计算时考虑到了当前接收的其它梯度的延迟情况和样本批量大小,将整体的学习率调整得更加平衡、更加科学。

Description

一种面向神经网络异步训练的学习率调整方法
技术领域
本发明属于人工智能-神经网络优化技术研究技术领域,特别涉及一种面向神经网络异步训练的学习率调整方法。
技术背景
随着当前的数据集日趋膨胀,训练的模型(如深度神经网络)的参数也越来越多,随机梯度下降优化(SGD)成为了当前有监督学习算法的核心。
这种训练方法是由若干次的循环优化构成的。在每一轮循环中,在训练集中随机抽取若干个样本,让它们通过神经网络,根据神经网络对它们的计算结果和实际结果的差距计算损失(LOSS);然后根据这个损失对网络进行反向传播,计算神经网络中每个参数对于损失的梯度,最终根据该梯度对参数进行优化。
在若干次这样的循环优化后,神经网络的损失会越来越小,每次的计算结果与真实结果越来越接近,即完成了训练。
本发明注重的是在多设备、多异构节点的分布式环境下对神经网络的训练过程进行加速。目前广泛采用的分布式优化方法是参数服务器法。具体而言,是将神经网络的参数存放在一个服务器中。在每轮计算循环中数服务器将网络参数发送给所有的计算节点;然后每个计算节点随机抽取样本,计算损失和梯度,并将计算的梯度发回给参数服务器;参数服务器在接收了若干计算节点的结果后进行综合,计算得到一个平均的梯度,并根据这个梯度对网络进行优化,完成一轮循环。
根据服务器更新参数的频率,参数服务器法可以分为异步和同步两种。同步训练法中,参数服务器需要接收完所有的计算节点的结果后才进行参数更新,将最新的网络参数发回给所有计算节点,完成该轮训练。而在异步训练法中,参数服务器每轮训练仅需要等待一部分节点计算完成,就可以进行参数更新、发回最新参数。
对于异步训练法,由于节点间不再需要相互等待,因此每个计算节点在计算的过程中,服务器的参数往往已经被其它计算节点更新了,导致节点的计算结果与当前服务器的全局网络应当得到的结果不同。这期间服务器被更新的次数被称为梯度延时,同时参与计算的节点越多,平均梯度延时就会越大,误差也会越大。梯度延时的存在,不仅会降低模型最终的精确率,更会降低模型的收敛速度,在严重的时候甚至会直接导致模型无法收敛。
现有的方法,对延迟梯度的处理的方法过于简单,仅仅除以它的延迟就作为最终的学习率进行更新了。这样做存在以下几个问题:
1、数值设定没有确切的理论依据,而仅仅是启发式地进行设定。并且其中的超参数也难以界定,只能通过实验来选择。
2、这类方法忽略了其它影响因素,如minibatch大小、当前minibatch中其余梯度的延迟带来的影响。
3、这类方法仅仅线性地将旧梯度的效果等同于新梯度的若干分之一,实际上隐含着若干个旧梯度的更新效果就可以等同于一个新梯度的假设。该假设同样也是没有得到证明,而只是启发式地确立的。
因为这些问题的存在,导致了这些简单的学习率调整方式仅仅只能在工人数量较少,或者每个工人每轮计算的minibatch的大小极小时才能有好的效果。一旦这两个条件无法全部满足,训练产生的网络的准确率就会大幅降低。在实验上对该现象做了详细阐述,并指出(工人数量N*每个工人的batchsize)的值越大,异步更新的效果也就越差。
发明内容
鉴于现有技术的缺陷,本发明旨在于提供一种面向神经网络异步训练的学习率调整方法,在使用了本发明的学习率调整方式后,对延迟梯度的学习率设置更加科学。在使用第一部分的技术时,随着延迟梯度的数量增大,其学习率会线性上升,在实践中就反映为网络收敛速度变慢、网络收敛后的精度下降。
为了实现上述目的,本发明采用的技术方案如下:
一种面向神经网络异步训练的学习率调整方法,所述方法包括以下步骤:
S1初始化参数;
S2将神经网络的参数发送给所有空闲的计算节点:对在上一次循环中计算完成并已经提交了计算结果的所有节点,参数服务器将更新后的参数分别发给它们,让它们开始下一轮的计算;在此步骤后整体进入下一轮计算,当前轮次tglob=tglob+1,将所有接收了最新网络的节点的轮次更新等于总体轮次ti=tglob
S3等待任一节点计算完毕;接收其计算结果,反复执行此操作,直到已经接收了c个计算结果;
S4对于c个接收的计算梯度,分别调整它们的学习率;
S5使用步骤S4中得到的学习率和接收的c个梯度,对网络进行一步梯度下降的更新;
S6判断网络精度是否满足要求。若已达到要求,则完成训练,将回应2发送给所有计算节点,退出;否则回到步骤B,并将回应1发送给所有本轮计算完成的节点,进行下一轮循环的训练。
需要说明的是,所述需要初始化的参数至少包括:神经网络的相关超参数,如学习率、批次大小;将当前总体轮次tglob设置为0以及随机初始化神经网络中的所有参数。
需要说明的是,所述随机初始化神经网络中的所有参数的初始方法是将所有卷积层和全链接层的所有参数按标准正态分布N(0,1)初始化,对所有BN层的γ初始化为1,β初始化为0。
需要说明的是,所述步骤S4还包括:
S4.1输入:
(1)服务器接收的c个梯度;
(2)每个梯度对应的延迟li,i=1,2,...c;计算方式为li=tglob-ti
(3)每个梯度计算时使用的样本数量bi,i=1,2,...,c;
(4)超参数:θ、b0、r0;其中θ用于衡量异步误差,越大则认为延迟对梯度的准确率影响越大;b0是正常单机训练时的样本批量大小,r0是正常单机训练时的学习率;
S4.2将所有梯度按照延迟从小到大排序,计算每个延迟下所有梯度的批量大小的和;
如有3个延迟为2的梯度,他们的批量大小均为128,那么在这一步中将它们合并成一个批量大小为384,延迟为2的梯度。
在这一步后,可以得到一个合并后的延迟-批量大小数列:
l1,b'1;l2,b'2;...;lc1,b'c1
其中c1是不同的延迟数,是第i小的梯度的合并后的批量大小。因为相同延迟的梯度会被合并,所以c1≤c;
S4.3由步骤S4.2中的数列,得以下矩阵方程:b'i
AX=D
其中:
A=A1+A2
Figure BDA0002967505640000051
Figure BDA0002967505640000052
Figure BDA0002967505640000053
是本次训练所有梯度的延迟的均值;
Figure BDA0002967505640000054
Figure BDA0002967505640000061
Figure BDA0002967505640000062
求解X。得到解x1,x2,...,xc1+1
Figure BDA0002967505640000063
A′=A1..c1,1..c1(即令A′等于A的前c1行和前c1列)
S4.4由以下公式,计算出c个梯度分别最终的学习率:
Figure BDA0002967505640000064
Figure BDA0002967505640000065
其中i=1,2,...c;i'=1,2,...,c1,i'是原来第i个梯度被合并、排序后的编号;
S4.5输出r1,r2,...,rc
*在c=1的时候,参数服务器仅接收一个梯度,步骤E1-E4可以简化为以下公式:
Figure BDA0002967505640000066
其中:
l是接收的梯度的延迟,b是接收的梯度的批量大小,r′是修改后的学习率。
本发明的有益效果在于,延迟梯度的学习率不再会随着数目的增多而线性上升,同时在计算时考虑到了当前接收的其它梯度的延迟情况和样本批量大小,将整体的学习率调整得更加平衡、更加科学。在实践中,计算节点数量较多、且每个计算节点的小批量大小较大时,该创新算法可以显著提高网络收敛速度和网络收敛后的精度。
附图说明
图1为本发明方法的流程示意图;
图2为本发明步骤4的流程示意图。
具体实施例
以下将结合附图对本发明作进一步的描述,需要说明的是,本实施例以本技术方案为前提,给出了详细的实施方式和具体的操作过程,但本发明的保护范围并不限于本实施例。
如图1所示,本发明为一种面向神经网络异步训练的学习率调整方法,所述方法包括以下步骤:
S1初始化参数;
S2将神经网络的参数发送给所有空闲的计算节点:对在上一次循环中计算完成并已经提交了计算结果的所有节点,参数服务器将更新后的参数分别发给它们,让它们开始下一轮的计算;在此步骤后整体进入下一轮计算,当前轮次tglob=tglob+1,将所有接收了最新网络的节点的轮次更新等于总体轮次ti=tglob
S3等待任一节点计算完毕;接收其计算结果,反复执行此操作,直到已经接收了c个计算结果;
S4对于c个接收的计算梯度,分别调整它们的学习率;
S5使用步骤S4中得到的学习率和接收的c个梯度,对网络进行一步梯度下降的更新;
S6判断网络精度是否满足要求。若已达到要求,则完成训练,将回应2发送给所有计算节点,退出;否则回到步骤B,并将回应1发送给所有本轮计算完成的节点,进行下一轮循环的训练。
进一步的,所述需要初始化的参数至少包括:神经网络的相关超参数,如学习率、批次大小;将当前总体轮次tglob设置为0以及随机初始化神经网络中的所有参数。
更进一步的,所述随机初始化神经网络中的所有参数的初始方法是将所有卷积层和全链接层的所有参数按标准正态分布N(0,1)初始化,对所有BN层的γ初始化为1,β初始化为0。
进一步的,如图2所示,所述步骤S4还包括:
S4.1输入:
(1)服务器接收的c个梯度;
(2)每个梯度对应的延迟li,i=1,2,...c;计算方式为li=tglob-ti
(3)每个梯度计算时使用的样本数量bi,i=1,2,...,c;
(4)超参数:θ、b0、r0;其中θ用于衡量异步误差,越大则认为延迟对梯度的准确率影响越大;b0是正常单机训练时的样本批量大小,r0是正常单机训练时的学习率;
S4.2将所有梯度按照延迟从小到大排序,计算每个延迟下所有梯度的批量大小的和;
如有3个延迟为2的梯度,他们的批量大小均为128,那么在这一步中将它们合并成一个批量大小为384,延迟为2的梯度。
在这一步后,可以得到一个合并后的延迟-批量大小数列:
l1,b'1;l2,b'2;...;lc1,b'c1
其中c1是不同的延迟数,b'i是第i小的梯度的合并后的批量大小。因为相同延迟的梯度会被合并,所以c1≤c;
S4.3由步骤S4.2中的数列,得以下矩阵方程:
AX=D
其中:
A=A1+A2
Figure BDA0002967505640000091
Figure BDA0002967505640000092
Figure BDA0002967505640000093
是本次训练所有梯度的延迟的均值;
Figure BDA0002967505640000094
Figure BDA0002967505640000095
Figure BDA0002967505640000101
求解X。得到解x1,x2,...,xc1+1
Figure BDA0002967505640000102
A′=A1..c1,1..c1(即令A′等于A的前c1行和前c1列)
S4.4由以下公式,计算出c个梯度分别最终的学习率:
Figure BDA0002967505640000103
Figure BDA0002967505640000104
其中i=1,2,...c;i'=1,2,...,c1,i'是原来第i个梯度被合并、排序后的编号;
S4.5输出r1,r2,...,rc
*在c=1的时候,参数服务器仅接收一个梯度,步骤E1-E4可以简化为以下公式:
Figure BDA0002967505640000105
其中:
l是接收的梯度的延迟,b是接收的梯度的批量大小,r′是修改后的学习率。
在使用了本发明的学习率调整方式后,对延迟梯度的学习率设置更加科学。在使用第一部分的技术时,随着延迟梯度的数量增大,其学习率会线性上升,在实践中就反映为网络收敛速度变慢、网络收敛后的精度下降。
而使用了该发明的方式后,延迟梯度的学习率不再会随着数目的增多而线性上升,同时在计算时考虑到了当前接收的其它梯度的延迟情况和样本批量大小,将整体的学习率调整得更加平衡、更加科学。在实践中,与第一部分的算法相比,在计算节点数量较多、且每个计算节点的小批量大小较大时,该创新算法可以显著提高网络收敛速度和网络收敛后的精度。
对于本领域的技术人员来说,可以根据以上的技术方案和构思,给出各种相应的改变,而所有的这些改变,都应该包括在本发明权利要求的保护范围之内。

Claims (4)

1.一种面向神经网络异步训练的学习率调整方法,其特征在于,所述方法包括以下步骤:
S1初始化参数;
S2将神经网络的参数发送给所有空闲的计算节点:对在上一次循环中计算完成并已经提交了计算结果的所有节点,参数服务器将更新后的参数分别发给它们,让它们开始下一轮的计算;在此步骤后整体进入下一轮计算,当前轮次tglob=tglob+1,将所有接收了最新网络的节点的轮次更新等于总体轮次ti=tglob
S3等待任一节点计算完毕;接收其计算结果,反复执行此操作,直到已经接收了c个计算结果;
S4对于c个接收的计算梯度,分别调整它们的学习率;
S5使用步骤S4中得到的学习率和接收的c个梯度,对网络进行一步梯度下降的更新;
S6判断网络精度是否满足要求。若已达到要求,则完成训练,将回应2发送给所有计算节点,退出;否则回到步骤B,并将回应1发送给所有本轮计算完成的节点,进行下一轮循环的训练。
2.根据权利要求1所述的面向神经网络异步训练的学习率调整方法,其特征在于,所述需要初始化的参数至少包括:神经网络的相关超参数,如学习率、批次大小;将当前总体轮次tglob设置为0以及随机初始化神经网络中的所有参数。
3.根据权利要求2所述的面向神经网络异步训练的学习率调整方法,其特征在于,所述随机初始化神经网络中的所有参数的初始方法是将所有卷积层和全链接层的所有参数按标准正态分布N(0,1)初始化,对所有BN层的γ初始化为1,β初始化为0。
4.根据权利要求1所述的面向神经网络异步训练的学习率调整方法,其特征在于,所述步骤S4还包括:
S4.1输入:
(1)服务器接收的c个梯度;
(2)每个梯度对应的延迟li,i=1,2,...c;计算方式为li=tglob-ti
(3)每个梯度计算时使用的样本数量bi,i=1,2,...,c;
(4)超参数:θ、b0、r0;其中θ用于衡量异步误差,越大则认为延迟对梯度的准确率影响越大;b0是正常单机训练时的样本批量大小,r0是正常单机训练时的学习率;
S4.2将所有梯度按照延迟从小到大排序,计算每个延迟下所有梯度的批量大小的和;
如有3个延迟为2的梯度,他们的批量大小均为128,那么在这一步中将它们合并成一个批量大小为384,延迟为2的梯度。
在这一步后,可以得到一个合并后的延迟-批量大小数列:
l1,b'1;l2,b'2;...;lc1,b'c1
其中c1是不同的延迟数,b'i是第i小的梯度的合并后的批量大小。因为相同延迟的梯度会被合并,所以c1≤c;
S4.3由步骤S4.2中的数列,得以下矩阵方程:
AX=D
其中:
A=A1+A2
Figure FDA0002967505630000031
Figure FDA0002967505630000032
Figure FDA0002967505630000033
是本次训练所有梯度的延迟的均值;
Figure FDA0002967505630000034
Figure FDA0002967505630000035
Figure FDA0002967505630000036
求解X。得到解x1,x2,...,xc1+1
Figure FDA0002967505630000037
A′=A1..c1,1..c1(即令A′等于A的前c1行和前c1列)
S4.4由以下公式,计算出c个梯度分别最终的学习率:
Figure FDA0002967505630000038
Figure FDA0002967505630000039
其中i=1,2,...c;i'=1,2,...,c1,i'是原来第i个梯度被合并、排序后的编号;
S4.5输出r1,r2,...,rc
*在c=1的时候,参数服务器仅接收一个梯度,步骤E1-E4可以简化为以下公式:
Figure FDA0002967505630000041
其中:
l是接收的梯度的延迟,b是接收的梯度的批量大小,r′是修改后的学习率。
CN202110254554.4A 2021-03-09 2021-03-09 一种面向神经网络异步训练的学习率调整方法 Active CN112861991B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110254554.4A CN112861991B (zh) 2021-03-09 2021-03-09 一种面向神经网络异步训练的学习率调整方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110254554.4A CN112861991B (zh) 2021-03-09 2021-03-09 一种面向神经网络异步训练的学习率调整方法

Publications (2)

Publication Number Publication Date
CN112861991A true CN112861991A (zh) 2021-05-28
CN112861991B CN112861991B (zh) 2023-04-14

Family

ID=75993451

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110254554.4A Active CN112861991B (zh) 2021-03-09 2021-03-09 一种面向神经网络异步训练的学习率调整方法

Country Status (1)

Country Link
CN (1) CN112861991B (zh)

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108537335A (zh) * 2017-03-06 2018-09-14 南京理工大学 一种自适应学习率的bp神经网络算法
CN108959728A (zh) * 2018-06-12 2018-12-07 杭州法动科技有限公司 基于深度学习的射频器件参数优化方法
CN109165724A (zh) * 2018-08-06 2019-01-08 哈工大大数据(哈尔滨)智能科技有限公司 一种基于神经网络的梯度下降迭代次数预测方法及装置
CN109492753A (zh) * 2018-11-05 2019-03-19 中山大学 一种去中心化的随机梯度下降的方法
CN109902818A (zh) * 2019-01-15 2019-06-18 中国科学院信息工程研究所 一种面向深度学习训练任务的分布式加速方法及系统
US20190258924A1 (en) * 2018-02-17 2019-08-22 Advanced Micro Devices, Inc. Optimized asynchronous training of neural networks using a distributed parameter server with eager updates
CN111052155A (zh) * 2017-09-04 2020-04-21 华为技术有限公司 异步梯度平均的分布式随机梯度下降法

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108537335A (zh) * 2017-03-06 2018-09-14 南京理工大学 一种自适应学习率的bp神经网络算法
CN111052155A (zh) * 2017-09-04 2020-04-21 华为技术有限公司 异步梯度平均的分布式随机梯度下降法
US20190258924A1 (en) * 2018-02-17 2019-08-22 Advanced Micro Devices, Inc. Optimized asynchronous training of neural networks using a distributed parameter server with eager updates
CN108959728A (zh) * 2018-06-12 2018-12-07 杭州法动科技有限公司 基于深度学习的射频器件参数优化方法
CN109165724A (zh) * 2018-08-06 2019-01-08 哈工大大数据(哈尔滨)智能科技有限公司 一种基于神经网络的梯度下降迭代次数预测方法及装置
CN109492753A (zh) * 2018-11-05 2019-03-19 中山大学 一种去中心化的随机梯度下降的方法
CN109902818A (zh) * 2019-01-15 2019-06-18 中国科学院信息工程研究所 一种面向深度学习训练任务的分布式加速方法及系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
陈孟强 等: ""基于HPC环境的深度学习并行优化"", 《计算机工程与科学》 *

Also Published As

Publication number Publication date
CN112861991B (zh) 2023-04-14

Similar Documents

Publication Publication Date Title
CN112101530B (zh) 神经网络训练方法、装置、设备及存储介质
US10482380B2 (en) Conditional parallel processing in fully-connected neural networks
CN108959728B (zh) 基于深度学习的射频器件参数优化方法
CN114756383B (zh) 一种分布式计算方法、系统、设备及存储介质
CN109299781A (zh) 基于动量和剪枝的分布式深度学习系统
Wang et al. Modelling the Dynamics of Regret Minimization in Large Agent Populations: a Master Equation Approach.
CN106156810A (zh) 通用机器学习算法模型训练方法、系统和计算节点
CN107229966B (zh) 一种模型数据更新方法、装置及系统
CN109919313B (zh) 一种梯度传输的方法及分布式训练系统
CN112686383B (zh) 一种通信并行的分布式随机梯度下降的方法、系统及装置
CN109445386B (zh) 一种基于onba的云制造任务最短生产时间调度方法
CN109472347A (zh) 一种分布式深度学习的梯度压缩方法
CN112862088A (zh) 一种基于流水线环形参数通信的分布式深度学习方法
WO2020198132A1 (en) Residual semi-recurrent neural networks
CN111176810B (zh) 基于优先级的气象水文数据处理调度系统
CN112104563A (zh) 一种拥塞控制方法及装置
CN112861991B (zh) 一种面向神经网络异步训练的学习率调整方法
JPH07200512A (ja) 最適化問題解決装置
US8700541B2 (en) Modeling method of neuro-fuzzy system
CN111612155A (zh) 一种分布式机器学习系统及适用于其的通信调度方法
CN111027671A (zh) 一种基于模型结构特性的分布式深度学习通信方法和系统
CN115115064A (zh) 一种半异步联邦学习方法及系统
CN113627519B (zh) 具有压缩和延迟补偿的分布式随机梯度下降方法
JP7181585B2 (ja) 学習システム、学習方法、およびプログラム
JP2778915B2 (ja) 生産スケジュール作成装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant