CN112862088A - 一种基于流水线环形参数通信的分布式深度学习方法 - Google Patents

一种基于流水线环形参数通信的分布式深度学习方法 Download PDF

Info

Publication number
CN112862088A
CN112862088A CN202110063425.7A CN202110063425A CN112862088A CN 112862088 A CN112862088 A CN 112862088A CN 202110063425 A CN202110063425 A CN 202110063425A CN 112862088 A CN112862088 A CN 112862088A
Authority
CN
China
Prior art keywords
gradient
communication
training
pipeline
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110063425.7A
Other languages
English (en)
Other versions
CN112862088B (zh
Inventor
谢俊豪
杜云飞
卢宇彤
钟康游
郭贵鑫
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sun Yat Sen University
Original Assignee
Sun Yat Sen University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sun Yat Sen University filed Critical Sun Yat Sen University
Priority to CN202110063425.7A priority Critical patent/CN112862088B/zh
Publication of CN112862088A publication Critical patent/CN112862088A/zh
Application granted granted Critical
Publication of CN112862088B publication Critical patent/CN112862088B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/30Arrangements for executing machine instructions, e.g. instruction decode
    • G06F9/38Concurrent instruction execution, e.g. pipeline, look ahead
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/54Interprogram communication
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent

Abstract

本发明为克服集群训练速度低、训练时间开销大的缺陷,提出一种基于流水线环形参数通信的分布式深度学习方法,包括以下步骤:获取训练模型,采用所述训练模型对集群中的计算节点进行初始化;采用流水线随机梯度下降法对集群中的计算节点进行分布式训练,执行训练模型更新、梯度计算,且期间并行执行梯度通信;当节点在本地上完成第i轮梯度计算后,对梯度数据进行压缩,然后启动通信线程执行环形AllReduce操作,同时启动第i+1轮迭代训练,至完成迭代训练。本发明采用环形AllReduce算法,通过环形通信来避免像参数服务器框架服务器节点的通信拥堵问题,通过本地流水线并行重叠计算与通信,减少时间消耗。

Description

一种基于流水线环形参数通信的分布式深度学习方法
技术领域
本发明涉及深度学习技术领域,更具体地,涉及一种基于流水线环形参数通 信的分布式深度学习方法。
背景技术
在多台机器上进行集群并行化计算的分布式深度学习逐步成为技术创新和 发展的焦点。分布式深度学习需要频繁的通信和大量数据的交换,而网络接口的 带宽有限,导致神经网络训练的大部分时间用于数据传递,如果使用GPU进行 加速,由于计算时间减少而通信量不变,通信消耗所占的时间比例将进一步增加, 这成为制约并行化发展的瓶颈。
对于模型训练加速问题,目前主要有2种解决方式:一种是通过等价数学变 换、稀疏量化、低精度训练方法降低计算的复杂度;另一种是组合若干个计算节 点的资源,实现可扩展的模型存储与训练加速,最大化计算硬件的利用率,代表 性的工作有参数服务器理论与All-Reduce算法。All-Reduce是一种将所有process 中的目标数组(即表示All),减少为单个数组(即表示Reduce)并将结果数组 返回给所有process的操作。一般的分布式AllReduce算法是利用一个机器去收 集各节点的梯度数据,然后将更新后的梯度发回各节点,然而这种方法存在梯度 收集节点的通信时间随着集群节点数的增长而线性增长的缺陷,存在计算时间 长、集群训练速度低的问题。
发明内容
本发明为克服上述现有技术所述的集群训练速度低、训练时间开销大的缺 陷,提供一种基于流水线环形参数通信的分布式深度学习方法。
为解决上述技术问题,本发明的技术方案如下:
一种基于流水线环形参数通信的分布式深度学习方法,包括以下步骤:
获取训练模型,采用所述训练模型对集群中的计算节点进行初始化;
采用流水线随机梯度下降法对集群中的计算节点进行分布式训练,执行训练 模型更新、梯度计算,且期间并行执行梯度通信;
当节点在本地上完成第i轮梯度计算后,对梯度数据进行压缩,然后启动通 信线程执行环形AllReduce操作,同时启动第i+1轮迭代训练,至完成迭代训练。
作为优选方案,所述集群中的每个计算节点定义有两个标记数组
Figure BDA0002903242050000021
Figure BDA0002903242050000022
以及一个模型状态存储数组m;其中标记数组
Figure BDA0002903242050000023
标记对应迭代轮的 本地梯度计算是否完成,标记数组
Figure BDA0002903242050000024
标记对应迭代轮的集群梯度更新是否完 成。
作为优选方案,还包括以下步骤:设置流水线依赖值P,根据流水线依赖值 P采用流水线随机梯度下降法对集群中的计算节点进行分布式训练;在进行训练 模型更新过程中,第i轮迭代的模型更新仅依赖于第i-P轮迭代的计算结果。
作为优选方案,对集群中的计算节点执行训练模型更新、梯度计算的步骤包 括:
对集群中的计算节点执行第i轮迭代训练时:
当i=1或2时,则直接对模型进行更新;
当i>2时,检测标记数组
Figure BDA0002903242050000025
若标志为真,则用第i-P轮迭代的 参数更新结果对模型进行更新,将更新后的模型存储在本地为m[i],且完成梯度 计算后,对更新后的梯度数据进行压缩,并将标记数组
Figure BDA0002903242050000026
的值置为真; 若标志为假,则等待所依赖迭代轮参数更新的完成。
作为优选方案,完成梯度计算后,对更新后的梯度数据进行截断式有损压缩。
作为优选方案,所述截断式有损压缩的具体步骤包括将通信数据由32bit截 断至16bit。
作为优选方案,并行执行梯度通信的步骤包括:
对集群中的计算节点执行第i轮迭代训练时:
检测标记数组
Figure BDA0002903242050000027
若标志为真,则启动梯度通信线程,执行环形 AllReduce操作,对各节点的梯度数据相加取平均值,解压缩更新后的梯度数据, 将其保存在本地,并将标记数组
Figure BDA0002903242050000028
的值置为真;同时启动i+1轮迭代训 练,形成流水线并行,至完成迭代训练;若标志为假,则等待对应迭代轮的本地 梯度完成计算。
作为优选方案,执行环形AllReduce操作的具体步骤包括:
(1)数据分散:将集群作为一个有向环形拓扑结构,将通信数据分为n块, 并从0开始进行编号;执行第i轮数据分散时,节点j沿着环形拓扑结构将本地 的(j-i+n)%n号数据块发送到下一节点,接收来自上一节点的(j-i-1+n)%n号 数据块,节点将接收到的数据块与本地对应的数据块相加;执行n-1次数据分散 后,每个节点都拥有其中一块的完整数据;
(2)数据集中:在第i轮数据集中时,节点j沿着环形拓扑结构将本地的 (j-i-1+n)%n号完整数据块发送到下一个节点,同时接收来自上一个节点的 (j-i+n)%n号完整数据块,节点用接收到的数据块替换本地对应的数据块;完 成n-1次集中后,每个节点将拥有所有块的完整数据。
作为优选方案,采用顺序梯度通信方式执行环形AllReduce操作。
作为优选方案,所述集群中的每个计算节点定义有迭代次数K。
与现有技术相比,本发明技术方案的有益效果是:本发明采用环形AllReduce 算法,通过环形通信来避免像参数服务器框架服务器节点的通信拥堵问题,通过 本地流水线并行重叠计算与通信,减少时间消耗;通过采用流水线随机梯度下降 法控制参数的过时程度,避免参数过时影响模型的训练和收敛,此外还通过截断 式有损压缩减少通信量,进一步缩短通信时间。
附图说明
图1为基于流水线环形参数通信的分布式深度学习方法的流程图。
图2为基于流水线环形参数通信的分布式深度学习方法的伪代码示意图。
图3为流水线随机梯度下降训练方法的原理图。
图4为环形AllReduce算法的原理图。
图5为环形AllReduce算法通信方式的示意图。
具体实施方式
附图仅用于示例性说明,不能理解为对本专利的限制;
对于本领域技术人员来说,附图中某些公知结构及其说明可能省略是可以理 解的。
下面结合附图和实施例对本发明的技术方案做进一步的说明。
实施例1
本实施例提出一种基于流水线环形参数通信的分布式深度学习方法,如图 1~2所示,为本实施例的基于流水线环形参数通信的分布式深度学习方法的流程 图。
本实施例提出的基于流水线环形参数通信的分布式深度学习方法中,包括以 下步骤:
S1:获取训练模型,采用所述训练模型对集群中的计算节点进行初始化。
在模型开始训练前,采用存储在本地的训练模型对集群中的计算节点进行初 始化,同时为每个节点定义相同的损失函数l、优化器A、迭代次数K和流水线 依赖值P等模型训练相关参数;对集群中的每个计算节点定义有两个标记数组
Figure BDA0002903242050000041
Figure BDA0002903242050000042
以及一个模型状态存储数组m;其中标记数组
Figure BDA0002903242050000043
标记对应 迭代轮的本地梯度计算是否完成,标记数组
Figure BDA0002903242050000044
标记对应迭代轮的集群梯度更 新是否完成。
S2:采用流水线随机梯度下降法对集群中的计算节点进行分布式训练,执行 训练模型更新、梯度计算,且期间并行执行梯度通信;当节点在本地上完成第i 轮梯度计算后,对梯度数据进行压缩,然后启动通信线程执行环形AllReduce操 作,同时启动第i+1轮迭代训练,至完成迭代训练。
其中,根据流水线依赖值P对集群中的计算节点执行训练模型更新、梯度计 算,其具体步骤如下:
对集群中的计算节点执行第i轮迭代训练时:
当i=1或2时,则直接对模型进行更新;
当i>2时,检测标记数组
Figure BDA0002903242050000045
若标志为真,则用第i-P轮迭代的 参数更新结果对模型进行更新,将更新后的模型存储在本地为m[i],且完成梯度 计算后,对更新后的梯度数据进行压缩,并将标记数组
Figure BDA0002903242050000046
的值置为真; 若标志为假,则等待所依赖迭代轮参数更新的完成。
完成梯度计算后,对更新后的梯度数据进行截断式有损压缩。在本实施例中, 截断式有损压缩的具体步骤包括将通信数据由32bit截断至16bit。
本实施例中,在执行训练模型更新、梯度计算的期间并行执行梯度通信,其 具体步骤如下:
对集群中的计算节点执行第i轮迭代训练时:
检测标记数组
Figure BDA0002903242050000047
若标志为真,则启动梯度通信线程,执行环形 AllReduce操作,对各节点的梯度数据相加取平均值,解压缩更新后的梯度数据, 将其保存在本地,并将标记数组
Figure BDA0002903242050000048
的值置为真;同时启动i+1轮迭代训 练,形成流水线并行,至完成迭代训练;若标志为假,则等待对应迭代轮的本地 梯度完成计算。
本实施例中,采用顺序梯度通信方式执行环形AllReduce操作,其具体步骤 如下:
(1)数据分散:将集群作为一个有向环形拓扑结构,将通信数据分为n块, 并从0开始进行编号;执行第i轮数据分散时,节点j沿着环形拓扑结构将本地 的(j-i+n)%n号数据块发送到下一节点,接收来自上一节点的(j-i-1+n)%n号 数据块,节点将接收到的数据块与本地对应的数据块相加;执行n-1次数据分散 后,每个节点都拥有其中一块的完整数据;
(2)数据集中:在第i轮数据集中时,节点j沿着环形拓扑结构将本地的 (j-i-1+n)%n号完整数据块发送到下一个节点,同时接收来自上一个节点的 (j-i+n)%n号完整数据块,节点用接收到的数据块替换本地对应的数据块;完 成n-1次集中后,每个节点将拥有所有块的完整数据。
本实施例中采用流水线随机梯度下降(SGD)训练方法用于集群节点的本地 训练,是一种模型训练和集群通信并行的训练方法,在分布式训练中,模型的每 次迭代可以分为三步,分别是模型更新,梯度计算和梯度通信。传统顺序SGD 的训练时间等于每次迭代所有步骤消耗时间的总和,这样的训练时间显然不理 想。而流水线SGD方法通过模型更新和梯度计算与梯度通信的适当并行,以适 度的梯度过时为代价来加速模型的训练。流水线SGD法提出流水线依赖值P, 流水线依赖值P表示第i轮迭代的模型更新仅仅依赖于第i-P轮迭代的计算结果, 以此来重叠计算和通信的时间,即第i轮的参数通信与第i+1轮的计算并行,其 原理图如图3所示。本实施例通过设置流水线依赖值控制参数的过时程度,避免 参数过时影响模型的训练和收敛,此外还通过截断式有损压缩减少通信量,进一 步缩短通信时间。
采用流水线依赖值为p的流水线SGD的训练时间为:
Figure BDA0002903242050000051
而采用传统的顺序SGD的训练时间为:
T同步SGD=K·(t更新+t计算+t通信)
其中,K表示迭代次数,t更新、t计算、t通信分别表示模型更新、梯度计算和 梯度通信的时间。显然,采用本实施例提出的流水线SGD法能够有效减分布式 深度学习的少总训练时间,且在集群范围内仍保持同步更新。
本实施例提出的环形AllReduce在整个集群上进行梯度收集,然后每个节点 在本地上进行reduce更新操作。与一般的分布式AllReduce方法相比,环形 AllReduce的核心在于取消了Reducer数据节点,让数据在集群中环向流动,可 以充分利用每个节点的带宽,平衡通信,避免猝发式网络拥堵问题。其原理图如 图4所示。其中,环形AllReduce中的数据分散操作如(a)~(c)所示,数据集中 操作如(c)~(e)所示。
此外,考虑到环形AllReduce算法的通信次数较多,采用传统的梯度通信方 法,即每完成一部分参数的梯度计算就立刻进行通信,存在通信开销大的问题。 本实施例采用顺序梯度通信方式,如图5所示,依次经过前向传播和反向传播完 成梯度计算后再按顺序进行参数通信。
构建时间模型对通信开销进行分析其中需要考虑:每次迭代训练的时间取决 于本地更新计算和通信时间的大小关系;每次通信都存在网络延迟;数据分散步 骤中节点对梯度的reduce操作的时间;网络传输速度和每次迭代集群的同步时 间。结合时间模型分析,采用传统的梯度通信方法的时间开销为:
Figure BDA0002903242050000061
采用顺序梯度通信方式的时间开销为:
Figure BDA0002903242050000062
其中,K为迭代次数,2(n-1)·p为集群通信次数,n为集群节点数,p为反 向传播过程中切分的参数块数,l1为通信的网络延迟,s为模型大小(即梯度参 数的数据量),l2为网络传输速率,l3为数据分散阶段的reduce速度,t同步为每 次迭代集群的同步时间。显然,在通信资源首先和通信主导训练时间的情况下, 采用顺序梯度通信方式的时间开销小于传统的梯度通信方法。
在环形AllReduce算法中,每次的梯度更新,都需要进行2(n-1)次通信,其 中n为集群大小。而在数据分散阶段,节点在进行数据通信的同时要进行reduce 操作。
一般情况下,通信的时间花费大于reduce操作,因而通信时间可以隐藏reduce时间。当采用简单压缩(通常为有损压缩)时,通信时间将变短而reduce 时间变长(加入压缩和解压缩步骤),在确保reduce时间不会过长的情况下, 通信和reduce所花费的总时间将减少,有利于加速模型的训练,因此本实施例 提出采用截断式有损压缩方法,将通信数据由32bit截断至16bit,其中虽然存在 精度损失,但在大部分训练场景下,后16bit的数据几乎都是0,这种损失对模 型收敛的影响较小,且其带来的训练加速效果大于精度损失的代价,模型的收敛 速度更快。
相同或相似的标号对应相同或相似的部件;
附图中描述位置关系的用语仅用于示例性说明,不能理解为对本专利的限 制;
显然,本发明的上述实施例仅仅是为清楚地说明本发明所作的举例,而并非 是对本发明的实施方式的限定。对于所属领域的普通技术人员来说,在上述说明 的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施 方式予以穷举。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进 等,均应包含在本发明权利要求的保护范围之内。

Claims (10)

1.一种基于流水线环形参数通信的分布式深度学习方法,其特征在于,包括以下步骤:
获取训练模型,采用所述训练模型对集群中的计算节点进行初始化;
采用流水线随机梯度下降法对集群中的计算节点进行分布式训练,执行训练模型更新、梯度计算,且期间并行执行梯度通信;
当节点在本地上完成第i轮梯度计算后,对梯度数据进行压缩,然后启动通信线程执行环形AllReduce操作,同时启动第i+1轮迭代训练,至完成迭代训练。
2.根据权利要求1所述的基于流水线环形参数通信的分布式深度学习方法,其特征在于,所述集群中的每个计算节点定义有两个标记数组
Figure FDA0002903242040000011
Figure FDA0002903242040000012
以及一个模型状态存储数组m;其中标记数组
Figure FDA0002903242040000013
标记对应迭代轮的本地梯度计算是否完成,标记数组
Figure FDA0002903242040000014
标记对应迭代轮的集群梯度更新是否完成。
3.根据权利要求2所述的基于流水线环形参数通信的分布式深度学习方法,其特征在于,还包括以下步骤:设置流水线依赖值P,根据流水线依赖值P采用流水线随机梯度下降法对集群中的计算节点进行分布式训练;在进行训练模型更新过程中,第i轮迭代的模型更新仅依赖于第i-P轮迭代的计算结果。
4.根据权利要求3所述的基于流水线环形参数通信的分布式深度学习方法,其特征在于,对集群中的计算节点执行训练模型更新、梯度计算的步骤包括:
对集群中的计算节点执行第i轮迭代训练时:
当i=1或2时,则直接对模型进行更新;
当i>2时,检测标记数组
Figure FDA0002903242040000015
若标志为真,则用第i-P轮迭代的参数更新结果对模型进行更新,将更新后的模型存储在本地为m[i],且完成梯度计算后,对更新后的梯度数据进行压缩,并将标记数组
Figure FDA0002903242040000016
的值置为真;若标志为假,则等待所依赖迭代轮参数更新的完成。
5.根据权利要求4所述的基于流水线环形参数通信的分布式深度学习方法,其特征在于,完成梯度计算后,对更新后的梯度数据进行截断式有损压缩。
6.根据权利要求5所述的基于流水线环形参数通信的分布式深度学习方法,其特征在于,所述截断式有损压缩的具体步骤包括将通信数据由32bit截断至16bit。
7.根据权利要求4所述的基于流水线环形参数通信的分布式深度学习方法,其特征在于,并行执行梯度通信的步骤包括:
对集群中的计算节点执行第i轮迭代训练时:
检测标记数组
Figure FDA0002903242040000021
若标志为真,则启动梯度通信线程,执行环形AllReduce操作,对各节点的梯度数据相加取平均值,解压缩更新后的梯度数据,将其保存在本地,并将标记数组
Figure FDA0002903242040000022
的值置为真;同时启动i+1轮迭代训练,形成流水线并行,至完成迭代训练;若标志为假,则等待对应迭代轮的本地梯度完成计算。
8.根据权利要求7所述的基于流水线环形参数通信的分布式深度学习方法,其特征在于,执行环形AllReduce操作的具体步骤包括:
(1)数据分散:将集群作为一个有向环形拓扑结构,将通信数据分为n块,并从0开始进行编号;执行第i轮数据分散时,节点j沿着环形拓扑结构将本地的(j-i+n)%n号数据块发送到下一节点,接收来自上一节点的(j-i-1+n)%n号数据块,节点将接收到的数据块与本地对应的数据块相加;执行n-1次数据分散后,每个节点都拥有其中一块的完整数据;
(2)数据集中:在第i轮数据集中时,节点j沿着环形拓扑结构将本地的(j-i-1+n)%n号完整数据块发送到下一个节点,同时接收来自上一个节点的(j-i+n)%n号完整数据块,节点用接收到的数据块替换本地对应的数据块;完成n-1次集中后,每个节点将拥有所有块的完整数据。
9.根据权利要求7所述的基于流水线环形参数通信的分布式深度学习方法,其特征在于,采用顺序梯度通信方式执行环形AllReduce操作。
10.根据权利要求1~9任一项所述的基于流水线环形参数通信的分布式深度学习方法,其特征在于,所述集群中的每个计算节点定义有迭代次数K。
CN202110063425.7A 2021-01-18 2021-01-18 一种基于流水线环形参数通信的分布式深度学习方法 Active CN112862088B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110063425.7A CN112862088B (zh) 2021-01-18 2021-01-18 一种基于流水线环形参数通信的分布式深度学习方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110063425.7A CN112862088B (zh) 2021-01-18 2021-01-18 一种基于流水线环形参数通信的分布式深度学习方法

Publications (2)

Publication Number Publication Date
CN112862088A true CN112862088A (zh) 2021-05-28
CN112862088B CN112862088B (zh) 2023-11-07

Family

ID=76006631

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110063425.7A Active CN112862088B (zh) 2021-01-18 2021-01-18 一种基于流水线环形参数通信的分布式深度学习方法

Country Status (1)

Country Link
CN (1) CN112862088B (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113469341A (zh) * 2021-07-07 2021-10-01 河海大学 一种基于版本差异的流水线并行训练节点权重分配方法
CN113627519A (zh) * 2021-08-07 2021-11-09 中国人民解放军国防科技大学 具有压缩和延迟补偿的分布式随机梯度下降方法
CN115906982A (zh) * 2022-11-15 2023-04-04 北京百度网讯科技有限公司 分布式训练方法、梯度通信方法、装置及电子设备
CN116070720A (zh) * 2023-03-23 2023-05-05 山东海量信息技术研究院 基于分布式集群的数据处理方法、系统、设备及存储介质
CN116258197A (zh) * 2023-05-16 2023-06-13 之江实验室 基于参数计算和通信调度的分布式训练加速方法和系统
CN116955365A (zh) * 2023-09-21 2023-10-27 浪潮电子信息产业股份有限公司 梯度数据同步方法、模型训练方法、系统、设备及介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108986063A (zh) * 2018-07-25 2018-12-11 浪潮(北京)电子信息产业有限公司 梯度融合的方法、装置及计算机可读存储介质
CN109816042A (zh) * 2019-02-01 2019-05-28 北京达佳互联信息技术有限公司 数据分类模型训练的方法、装置、电子设备和存储介质
CN110222841A (zh) * 2019-06-17 2019-09-10 苏州思必驰信息科技有限公司 基于间距损失函数的神经网络训练方法和装置
CN111027708A (zh) * 2019-11-29 2020-04-17 杭州电子科技大学舟山同博海洋电子信息研究院有限公司 一种面向分布式机器学习的参数通信优化方法
CN111382844A (zh) * 2020-03-11 2020-07-07 华南师范大学 一种深度学习模型的训练方法及装置
CN111882060A (zh) * 2020-07-20 2020-11-03 中国人民解放军国防科技大学 用于机器学习的单步延迟随机梯度下降训练方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108986063A (zh) * 2018-07-25 2018-12-11 浪潮(北京)电子信息产业有限公司 梯度融合的方法、装置及计算机可读存储介质
CN109816042A (zh) * 2019-02-01 2019-05-28 北京达佳互联信息技术有限公司 数据分类模型训练的方法、装置、电子设备和存储介质
CN110222841A (zh) * 2019-06-17 2019-09-10 苏州思必驰信息科技有限公司 基于间距损失函数的神经网络训练方法和装置
CN111027708A (zh) * 2019-11-29 2020-04-17 杭州电子科技大学舟山同博海洋电子信息研究院有限公司 一种面向分布式机器学习的参数通信优化方法
CN111382844A (zh) * 2020-03-11 2020-07-07 华南师范大学 一种深度学习模型的训练方法及装置
CN111882060A (zh) * 2020-07-20 2020-11-03 中国人民解放军国防科技大学 用于机器学习的单步延迟随机梯度下降训练方法

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113469341A (zh) * 2021-07-07 2021-10-01 河海大学 一种基于版本差异的流水线并行训练节点权重分配方法
CN113627519A (zh) * 2021-08-07 2021-11-09 中国人民解放军国防科技大学 具有压缩和延迟补偿的分布式随机梯度下降方法
CN115906982A (zh) * 2022-11-15 2023-04-04 北京百度网讯科技有限公司 分布式训练方法、梯度通信方法、装置及电子设备
CN115906982B (zh) * 2022-11-15 2023-10-24 北京百度网讯科技有限公司 分布式训练方法、梯度通信方法、装置及电子设备
CN116070720A (zh) * 2023-03-23 2023-05-05 山东海量信息技术研究院 基于分布式集群的数据处理方法、系统、设备及存储介质
CN116258197A (zh) * 2023-05-16 2023-06-13 之江实验室 基于参数计算和通信调度的分布式训练加速方法和系统
CN116258197B (zh) * 2023-05-16 2023-09-08 之江实验室 基于参数计算和通信调度的分布式训练加速方法和系统
CN116955365A (zh) * 2023-09-21 2023-10-27 浪潮电子信息产业股份有限公司 梯度数据同步方法、模型训练方法、系统、设备及介质
CN116955365B (zh) * 2023-09-21 2024-02-09 浪潮电子信息产业股份有限公司 梯度数据同步方法、模型训练方法、系统、设备及介质

Also Published As

Publication number Publication date
CN112862088B (zh) 2023-11-07

Similar Documents

Publication Publication Date Title
CN112862088A (zh) 一种基于流水线环形参数通信的分布式深度学习方法
CN114756383B (zh) 一种分布式计算方法、系统、设备及存储介质
CN111382844B (zh) 一种深度学习模型的训练方法及装置
CN110533183B (zh) 流水线分布式深度学习中异构网络感知的任务放置方法
CN110135573B (zh) 一种深度学习模型的训练方法、计算设备以及系统
US20190279088A1 (en) Training method, apparatus, chip, and system for neural network model
CN111741054A (zh) 一种移动用户深度神经网络计算卸载时延最小化方法
CN113159287B (zh) 一种基于梯度稀疏的分布式深度学习方法
CN109214512B (zh) 一种深度学习的参数交换方法、装置、服务器及存储介质
CN109032630B (zh) 一种参数服务器中全局参数的更新方法
CN114418129A (zh) 一种深度学习模型训练方法及相关装置
CN113627519B (zh) 具有压缩和延迟补偿的分布式随机梯度下降方法
CN115994567A (zh) 一种深度神经网络模型并行计算任务异步调度方法
CN110276689B (zh) 基于动态决策的智能合约实现方法
Mao et al. AdaLearner: An adaptive distributed mobile learning system for neural networks
CN115186806A (zh) 一种支持跨节点自动微分的分布式图神经网络训练方法
Kim et al. Efficient large-scale deep learning framework for heterogeneous multi-gpu cluster
CN116663639B (zh) 一种梯度数据同步方法、系统、装置及介质
CN111597035A (zh) 基于多线程的仿真引擎时间推进方法及系统
CN113824650B (zh) 一种分布式深度学习系统中的参数传输调度算法及系统
CN115129471A (zh) 面向大规模gpu集群的分布式局部随机梯度下降方法
CN115550173A (zh) 一种基于wfbp和链路特性的动态计算通信调度方法
CN109388733B (zh) 一种面向图数据处理引擎的优化方法
CN113821313A (zh) 一种任务调度方法、装置及电子设备
CN114298277B (zh) 一种基于层稀疏化的分布式深度学习训练方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant