CN109902818A - 一种面向深度学习训练任务的分布式加速方法及系统 - Google Patents
一种面向深度学习训练任务的分布式加速方法及系统 Download PDFInfo
- Publication number
- CN109902818A CN109902818A CN201910035752.4A CN201910035752A CN109902818A CN 109902818 A CN109902818 A CN 109902818A CN 201910035752 A CN201910035752 A CN 201910035752A CN 109902818 A CN109902818 A CN 109902818A
- Authority
- CN
- China
- Prior art keywords
- gpu
- parameter
- training
- cluster
- minibatch
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Abstract
本发明涉及一种面向深度学习训练任务的分布式加速方法及系统。该方法的步骤包括:(1)搭建分布式GPU训练集群;(2)采用换入换出策略,调节分布式GPU训练集群中单个GPU工作节点上的minibatch size;(3)根据步骤2)确定的minibatch size调整学习率;(4)采用步骤(2)和(3)确定的超参数minibatch size和学习率进行深度学习训练。本发明在不影响训练准确率的前提下,简单高效地通过减少集群间参数更新通信的次数大幅度地压缩通信时间,相较于单GPU模式,在多GPU模式下能够充分提高集群扩展效率,对超深神经网络模型的训练过程实现加速。
Description
技术领域
本发明属于深度学习领域,具体地说是针对分布式GPU集群训练超深神经网络模型过程中存在的集群扩展效率低、训练慢的问题,提出了一种加速方法,减少训练所需时间。
背景技术
近几年来,大数据驱动的深度学习技术在人工智能的多个领域均取得了可观的性能提升,神经网络模型越来越深,数据规模越来越大已成为目前的基本趋势。复杂的网络模型往往需要更多的训练数据才可获得优秀的泛化能力,然而,训练深模型大数据这样的组合却有着极大的挑战。深度学习训练任务属于典型的计算密集型任务,因此常采用分布式GPU(Graphics Processing Unit-图形处理器)集群进行训练。集群中分别运行两种任务:1)所有服务器的CPU(Central Processing Unit,中央处理器)端构成分布式参数服务器,参数在各个服务器上分片存储,参数服务器负责保存以及更新网络模型参数;2)每个GPU作为独立的工作节点,输入训练数据计算求取参数的更新梯度值。一次迭代的基本流程是:1)所有工作节点从参数服务器端拉取最新模型参数;2)所有工作节点对分发到自己节点的数据进行前向反向计算求的参数梯度值;3)所有工作节点将自己求得的参数梯度值发送给参数服务器,参数服务器汇总所有工作节点的结果,然后更新参数值。
分布式训练的理想扩展效率应正比于GPU工作节点的个数,然而,在实际训练过程中却常达不到理想效率,甚至比单个GPU训练更慢,这主要是由于集群间的通信造成的。上述迭代过程中的步骤1)和3)由于参数更新均发生集群间通信,对于超深神经网络结构,模型参数更多,通信量更大,此外,如果集群越大,则通信结构越复杂,两者都会造成通信时间变长甚至抵消多GPU并行节省的计算时间。因此,有效解决分布式训练过程中的通信问题对于提高集群扩展效率最终实现加速有重要意义。
深度学习的训练过程是一个不断重复迭代的过程,每次迭代都会重复上述的3个步骤,因此减轻通信负载有两种途径,分别是减少每次迭代的通信量和减少迭代的次数(即通信次数)。已有的技术大多集中于第一种途径,通过量化、稀疏化梯度的方式对发送的梯度进行压缩处理,达到减少单次通信量的目的,但该方法在大多数情况下会降低最终训练准确率。因此,本发明致力于第二种途径,深度学习任务训练的样本数是通常固定的,若每次迭代每个工作节点可处理的minibatch size增大,则整体迭代次数会降低,即达到减少通信次数的目标。
发明内容
鉴于以上所述现有技术存在的问题和不足,本发明要解决的技术问题是提供一种面向深度学习训练任务的分布式加速方法及系统,该方法通过减少通信次数来降低分布式通信时间开销,对整个训练任务实现加速并保证最终训练准确率。
为解决上述问题,本发明采用下述技术方案:
一种面向深度学习训练任务的分布式加速方法,其具体步骤如下:
(1)、搭建分布式GPU训练集群,包括:划分参数服务器和工作节点、确定通信架构;
(2)、采用换入换出策略,调节单个GPU工作节点上的minibatch size;
(3)、根据minibatch size调整学习率;
(4)、采用步骤(2)和(3)确定的超参数minibatch size和学习率开始训练直至结束。
其中,minibatch size是小批量尺寸,是指每次训练一起处理的样本数;学习率是运用梯度下降算法进行优化时,权重的更新规则中,在梯度项前相乘的一个系数。
上述步骤(1)中所述的搭建分布式GPU训练集群,其具体步骤如下:
(1-1)、构建参数服务器保存和更新模型参数,集群中所有服务器的CPU端集体构成参数服务器,所有模型参数均匀地分片存储在各个CPU端内存中,参数更新由CPU完成,对外暴露推送和拉取两种操作以供工作节点调用,推送操作指的是参数服务器接收工作节点发送来的梯度,拉取操作指的是参数服务器向工作节点发送更新后的参数;
(1-2)、构建工作节点执行运算操作,多节点间采用数据并行模式,每个GPU节点上均保留完整的模型,不同节点同一时间处理不同的训练数据,一个iteration(迭代)计算结束后,所有节点同时向参数服务器调用推送接口发送参数,待参数服务器更新参数后,再调用拉取接口将最新的参数拉取到本地替换旧参数;
(1-3)、确定通信框架,总体结构为同一服务器上挂载的多个GPU卡与本机CPU端构成星型拓扑进行局部通信,多服务器之间采用点对点socket全局通信,发送梯度时,各服务器上的多GPU工作节点将各自的梯度通过PCIe总线传输汇总至CPU端,CPU端随后将本机汇总的梯度值通过查找对应参数分片位置发送至对应的服务器,相应地,GPU工作节点接收新参数时数据按照与发送相反的方向传输。
上述步骤(2)中所述的采用换入换出策略调整minibatch size,其具体步骤如下:
(2-1)、换入换出策略使用的是由作者Minsoo Rhu发表的题为《vDNN:VirtualizedDeep Neural Networks for Scalable memory efficient neural network design》中的方法,将训练过程中的所有不参与当前GPU计算的数据全部换出到CPU内存中存储,当再次需要被GPU计算访问时,再换回到GPU内存,换入换出操作由PCIe总线通信完成;
(2-2)、确定minibatch size,采用换入换出策略后,训练过程所需的GPU内存从网络级减小为层级,可通过遍历求出当前训练网络所有层中需内存空间最大的层,然后用GPU内存大小除以该最大层相关数据大小便可得出可训练的最大minibatch size。
上述步骤(3)中所述的调整学习率,其具体步骤如下:
为了不影响最后训练准确率,学习率应随着minibatch size自适应地按比例调整,一个iteration的整体minibatch size等于单个GPU工作节点的minibatch size乘以集群中所有GPU的个数,相应地,分布式集群训练的最佳学习率设定为单机模式的学习率乘以集群中的GPU个数,整体minibatch size增加多少倍,学习率同样增加相同的倍数。
与上面方法对应地,本发明还提供一种面向深度学习训练任务的分布式加速系统,其包括:
分布式GPU训练集群,包括用于保存和更新模型参数的参数服务器,以及用于执行运算操作的工作节点;
minibatch size调节模块,负责采用换入换出策略,调节分布式GPU训练集群中单个GPU工作节点上的minibatch size;
学习率调整模块,负责根据所述minibatch size调节模块确定的minibatch size调整学习率;
训练模块,负责采用所述minibatch size调节模块和所述学习率调整模块确定的超参数minibatch size和学习率进行深度学习训练。
本发明的面向深度学习训练任务的分布式加速方法与现有的技术相比较,具有以下有益效果:该方法在不影响训练准确率的前提下,简单高效地通过减少集群间参数更新通信的次数大幅度地压缩通信时间,相较于单GPU模式,在多GPU模式下充分提高集群扩展效率,对超深神经网络模型的训练过程实现加速。
附图说明
图1为本发明的一种面向深度学习训练任务的分布式加速方法的流程;
图2为步骤(1)中搭建的分布式GPU训练集群;
具体实施方式
下面将结合附图和具体实施例对本发明做进一步的说明。
参照图1,本实施例提供一种面向深度学习训练任务的分布式加速方法,该方法包括如下步骤:
(1)、搭建分布式GPU训练集群,包括:划分参数服务器和工作节点、确定通信架构,参照图2,其具体步骤如下:
(1-1)、构建参数服务器保存和更新模型参数,集群中所有服务器的CPU端集体构成参数服务器,所有模型参数均匀地分片存储在各个CPU端内存中,参数更新有CPU完成,对外暴露推送和拉取两种操作以供工作节点调用,推送操作指的是参数服务器接收工作节点发送来的梯度,拉取操作指的是参数服务器向工作节点发送更新后的参数;
(1-2)、构建工作节点执行运算操作,多节点间采用数据并行模式,每个GPU节点上均保留完整的模型,不同节点同一时间处理不同的训练数据,一个iteration计算结束后,所有节点同时向参数服务器调用推送接口发送参数,待参数服务器更新参数后,再调用拉取接口将最新的参数拉取到本地替换旧参数;
(1-3)、确定通信框架,总体结构为同一服务器上挂载的多个GPU卡与本机CPU端构成星型拓扑进行局部通信,多服务器之间采用点对点socket全局通信,发送梯度时,各服务器上的多GPU工作节点将各自的梯度通过PCIe总线传输汇总至CPU端,CPU端随后将本机汇总的梯度值通过查找对应参数分片位置发送至对应的服务器,相应地,GPU工作节点接收新参数时数据按照与发送相反的方向传输。
(2)、采用换入换出策略,调节单个GPU工作节点上的minibatch size,其具体步骤如下:
(2-1)、换入换出策略使用的是由作者Minsoo Rhu发表的题为《vDNN:VirtualizedDeep Neural Networks for Scalable memory efficient neural network design》中的方法,将训练过程中的所有不参与当前GPU计算的数据全部换出到CPU内存中存储,当再次需要被GPU计算访问时,再换回到GPU内存,换入换出操作由PCIe总线通信完成;
(2-2)、确定minibatch size,采用换入换出策略后,训练过程所需的GPU内存从网络级减小为层级,可通过遍历求出当前训练网络所有层中需内存空间最大的层,然后用GPU内存大小除以该最大层相关数据大小便可得出可训练的最大minibatch size。
(3)、根据minibatch size调整学习率,其具体步骤如下:
为了不影响最后训练准确率,学习率应随着minibatch size自适应地调整,一个iteration的整体minibatch size等于单个GPU工作节点的minibatch size乘以集群中所有GPU的个数,相应地,分布式集群训练的最佳学习率设定为单机模式的学习率乘以集群中的GPU个数,学习率与整体minibatch size成线性缩放关系。
(4)、采用步骤(2)和(3)确定的超参数minibatch size和学习率开始训练直至结束。
实验数据:实验环境采用8块NVIDIA Tesla M40GPU卡,分别在8台服务器上。采用ImageNet数据集,训练Resnet-101网络,实验结果如表1所示,本发明的方法可实现7.2倍的加速,超过Caffe的4.6的加速效果。
表1.实验结果
本发明另一实施例提供一种面向深度学习训练任务的分布式加速系统,其包括:
分布式GPU训练集群,包括用于保存和更新模型参数的参数服务器,以及用于执行运算操作的工作节点;
minibatch size调节模块,负责采用换入换出策略,调节分布式GPU训练集群中单个GPU工作节点上的minibatch size;
学习率调整模块,负责根据所述minibatch size调节模块确定的minibatch size调整学习率;
训练模块,负责采用所述minibatch size调节模块和所述学习率调整模块确定的超参数minibatch size和学习率进行深度学习训练。
上述各模块的具体实现方式参见前文对本发明方法的说明。
以上实施例仅用以说明本发明的技术方案而非对其进行限制,本领域的普通技术人员可以对本发明的技术方案进行修改或者等同替换,而不脱离本发明的原理和范围,本发明的保护范围应以权利要求书所述为准。
Claims (10)
1.一种面向深度学习训练任务的分布式加速方法,其特征在于,包括以下步骤:
(1)搭建分布式GPU训练集群;
(2)采用换入换出策略,调节分布式GPU训练集群中单个GPU工作节点上的minibatchsize;
(3)根据步骤2)确定的minibatch size调整学习率;
(4)采用步骤(2)和(3)确定的超参数minibatch size和学习率进行深度学习训练。
2.根据权利要求1所述的方法,其特征在于,步骤(1)包括:
(1-1)构建参数服务器,用于保存和更新模型参数;
(1-2)构建工作节点,用于执行运算操作;
(1-3)确定参数服务器和工作节点的通信框架。
3.根据权利要求2所述的方法,其特征在于,步骤(1-1)中所有服务器的CPU端集体构成参数服务器,所有模型参数均匀地分片存储在各个CPU端内存中,参数更新由CPU完成,对外暴露推送和拉取两种操作以供工作节点调用。
4.根据权利要求2所述的方法,其特征在于,步骤(1-2)中多节点间采用数据并行模式,每个GPU节点上均保留完整的模型,不同节点同一时间处理不同的训练数据,一个迭代计算结束后,所有节点同时向参数服务器调用推送接口发送参数,待参数服务器更新参数后,再调用拉取接口将最新的参数拉取到本地替换旧参数。
5.根据权利要求2所述的方法,其特征在于,步骤(1-3)所述通信框架为:同一服务器上挂载的多个GPU卡与本机CPU端构成星型拓扑进行局部通信,多服务器之间采用点对点socket全局通信;发送梯度时,各服务器上的多GPU工作节点将各自的梯度通过PCIe总线传输汇总至CPU端,CPU端随后将本机汇总的梯度值通过查找对应参数分片位置发送至对应的服务器,GPU工作节点接收新参数时数据按照与发送相反的方向传输。
6.根据权利要求1所述的方法,其特征在于,步骤(2)所述换入换出策略将训练过程中的所有不参与当前GPU计算的数据全部换出到CPU内存中存储,当再次需要被GPU计算访问时,再换回到GPU内存,换入换出操作由PCIe总线通信完成。
7.根据权利要求6所述的方法,其特征在于,步骤(2)采用换入换出策略后,训练过程所需的GPU内存从网络级减小为层级,通过遍历求出当前训练网络所有层中需内存空间最大的层,然后用GPU内存大小除以该最大层相关数据大小,得出可训练的最大minibatchsize。
8.根据权利要求1所述的方法,其特征在于,步骤(3)中,学习率随着minibatch size自适应地按比例调整,一个迭代的整体minibatch size等于单个GPU工作节点的minibatchsize乘以集群中所有GPU的个数,分布式集群训练的最佳学习率设定为单机模式的学习率乘以集群中的GPU个数,整体minibatch size增加多少倍,学习率同样增加相同的倍数。
9.一种面向深度学习训练任务的分布式加速系统,其特征在于,包括:
分布式GPU训练集群,包括用于保存和更新模型参数的参数服务器,以及用于执行运算操作的工作节点;
minibatch size调节模块,负责采用换入换出策略,调节分布式GPU训练集群中单个GPU工作节点上的minibatch size;
学习率调整模块,负责根据所述minibatch size调节模块确定的minibatch size调整学习率;
训练模块,负责采用所述minibatch size调节模块和所述学习率调整模块确定的超参数minibatch size和学习率进行深度学习训练。
10.根据权利要求9所述的系统,其特征在于,所述分布式GPU训练集群中,所有服务器的CPU端集体构成参数服务器,所有模型参数均匀地分片存储在各个CPU端内存中,参数更新由CPU完成,对外暴露推送和拉取两种操作以供工作节点调用;多节点间采用数据并行模式,每个GPU节点上均保留完整的模型,不同节点同一时间处理不同的训练数据,一个迭代计算结束后,所有节点同时向参数服务器调用推送接口发送参数,待参数服务器更新参数后,再调用拉取接口将最新的参数拉取到本地替换旧参数。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910035752.4A CN109902818B (zh) | 2019-01-15 | 2019-01-15 | 一种面向深度学习训练任务的分布式加速方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910035752.4A CN109902818B (zh) | 2019-01-15 | 2019-01-15 | 一种面向深度学习训练任务的分布式加速方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109902818A true CN109902818A (zh) | 2019-06-18 |
CN109902818B CN109902818B (zh) | 2021-05-25 |
Family
ID=66943755
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910035752.4A Active CN109902818B (zh) | 2019-01-15 | 2019-01-15 | 一种面向深度学习训练任务的分布式加速方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109902818B (zh) |
Cited By (25)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110379416A (zh) * | 2019-08-15 | 2019-10-25 | 腾讯科技(深圳)有限公司 | 一种神经网络语言模型训练方法、装置、设备及存储介质 |
CN110378472A (zh) * | 2019-07-24 | 2019-10-25 | 苏州浪潮智能科技有限公司 | 一种深度神经网络模型的数据并行训练方法、装置及设备 |
CN110490319A (zh) * | 2019-07-30 | 2019-11-22 | 成都蓉奥科技有限公司 | 基于融合神经网络参数的分布式深度强化学习 |
CN110503194A (zh) * | 2019-08-09 | 2019-11-26 | 苏州浪潮智能科技有限公司 | 一种分布式并行训练的方法和系统 |
CN110689136A (zh) * | 2019-09-06 | 2020-01-14 | 广东浪潮大数据研究有限公司 | 一种深度学习模型获得方法、装置、设备及存储介质 |
CN110689045A (zh) * | 2019-08-23 | 2020-01-14 | 苏州千视通视觉科技股份有限公司 | 一种深度学习模型的分布式训练方法及装置 |
CN110942138A (zh) * | 2019-11-13 | 2020-03-31 | 华中科技大学 | 一种混合内存环境下深度神经网络的训练方法和系统 |
CN111507474A (zh) * | 2020-06-18 | 2020-08-07 | 四川大学 | 一种动态调整Batch-size的神经网络分布式训练方法 |
CN111738432A (zh) * | 2020-08-10 | 2020-10-02 | 电子科技大学 | 一种支持自适应并行计算的神经网络处理电路 |
CN111898424A (zh) * | 2020-06-19 | 2020-11-06 | 贝壳技术有限公司 | 文字识别模型训练方法、装置、电子设备及存储介质 |
CN111898740A (zh) * | 2020-07-31 | 2020-11-06 | 北京达佳互联信息技术有限公司 | 预测模型的模型参数更新方法及装置 |
CN112035261A (zh) * | 2020-09-11 | 2020-12-04 | 杭州海康威视数字技术股份有限公司 | 数据处理方法及系统 |
CN112199885A (zh) * | 2020-09-09 | 2021-01-08 | 北京达佳互联信息技术有限公司 | 一种分布式模型训练系统及应用方法 |
CN112463189A (zh) * | 2020-11-20 | 2021-03-09 | 中国人民解放军国防科技大学 | 基于通信操作稀疏化的分布式深度学习多步延迟更新方法 |
WO2021056390A1 (zh) * | 2019-09-25 | 2021-04-01 | 浪潮电子信息产业股份有限公司 | 卷积神经网络模型同步训练方法、集群及可读存储介质 |
CN112784989A (zh) * | 2019-11-08 | 2021-05-11 | 阿里巴巴集团控股有限公司 | 推理系统、推理方法、电子设备及计算机存储介质 |
CN112861991A (zh) * | 2021-03-09 | 2021-05-28 | 中山大学 | 一种面向神经网络异步训练的学习率调整方法 |
WO2021103479A1 (zh) * | 2019-11-25 | 2021-06-03 | 北京百度网讯科技有限公司 | 用于训练深度学习模型的方法和装置 |
CN113515370A (zh) * | 2021-04-28 | 2021-10-19 | 之江实验室 | 一种面向大规模深度神经网络的分布式训练方法 |
WO2021208558A1 (zh) * | 2020-04-16 | 2021-10-21 | 苏州浪潮智能科技有限公司 | 一种深度学习大模型训练的方法、系统、设备及介质 |
CN114035937A (zh) * | 2021-10-15 | 2022-02-11 | 北京潞晨科技有限公司 | 一种基于人工智能的分布式训练和推理方法、系统、设备和可读存储介质 |
CN114429223A (zh) * | 2022-01-26 | 2022-05-03 | 上海富数科技有限公司 | 异构模型建立方法及装置 |
CN115860114A (zh) * | 2022-11-07 | 2023-03-28 | 北京百度网讯科技有限公司 | 深度学习模型的训练方法、装置、电子设备及存储介质 |
CN116187426A (zh) * | 2022-11-09 | 2023-05-30 | 北京百度网讯科技有限公司 | 深度学习模型的模型参数多流广播方法及其装置 |
CN117093871A (zh) * | 2023-10-16 | 2023-11-21 | 之江实验室 | 一种面向深度学习分布式训练测评方法和系统 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106027300A (zh) * | 2016-05-23 | 2016-10-12 | 深圳市飞仙智能科技有限公司 | 一种应用神经网络的智能机器人参数优化系统及方法 |
US20170024849A1 (en) * | 2015-07-23 | 2017-01-26 | Sony Corporation | Learning convolution neural networks on heterogeneous cpu-gpu platform |
CN106971198A (zh) * | 2017-03-03 | 2017-07-21 | 北京市计算中心 | 一种基于深度学习的尘肺病等级判定方法及系统 |
CN107018184A (zh) * | 2017-03-28 | 2017-08-04 | 华中科技大学 | 分布式深度神经网络集群分组同步优化方法及系统 |
-
2019
- 2019-01-15 CN CN201910035752.4A patent/CN109902818B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20170024849A1 (en) * | 2015-07-23 | 2017-01-26 | Sony Corporation | Learning convolution neural networks on heterogeneous cpu-gpu platform |
CN106027300A (zh) * | 2016-05-23 | 2016-10-12 | 深圳市飞仙智能科技有限公司 | 一种应用神经网络的智能机器人参数优化系统及方法 |
CN106971198A (zh) * | 2017-03-03 | 2017-07-21 | 北京市计算中心 | 一种基于深度学习的尘肺病等级判定方法及系统 |
CN107018184A (zh) * | 2017-03-28 | 2017-08-04 | 华中科技大学 | 分布式深度神经网络集群分组同步优化方法及系统 |
Non-Patent Citations (2)
Title |
---|
CHEN MENG,ET AL.: "Training Deeper Models by GPU Memory Optimization on TensorFlow", 《31ST CONFERENCE ON NEURAL INFORMATION PROCESSING SYSTEMS (NIPS 2017)》 * |
高放: "面向片上异构多核系统的机器学习算法并行化技术研究", 《中国博士学位论文全文数据库 信息科技辑》 * |
Cited By (40)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110378472A (zh) * | 2019-07-24 | 2019-10-25 | 苏州浪潮智能科技有限公司 | 一种深度神经网络模型的数据并行训练方法、装置及设备 |
CN110490319A (zh) * | 2019-07-30 | 2019-11-22 | 成都蓉奥科技有限公司 | 基于融合神经网络参数的分布式深度强化学习 |
CN110490319B (zh) * | 2019-07-30 | 2020-06-26 | 成都蓉奥科技有限公司 | 一种基于融合神经网络参数的分布式深度强化学习方法 |
CN110503194A (zh) * | 2019-08-09 | 2019-11-26 | 苏州浪潮智能科技有限公司 | 一种分布式并行训练的方法和系统 |
CN110503194B (zh) * | 2019-08-09 | 2022-05-24 | 苏州浪潮智能科技有限公司 | 一种分布式并行训练的方法和系统 |
CN110379416B (zh) * | 2019-08-15 | 2021-10-22 | 腾讯科技(深圳)有限公司 | 一种神经网络语言模型训练方法、装置、设备及存储介质 |
CN110379416A (zh) * | 2019-08-15 | 2019-10-25 | 腾讯科技(深圳)有限公司 | 一种神经网络语言模型训练方法、装置、设备及存储介质 |
CN110689045A (zh) * | 2019-08-23 | 2020-01-14 | 苏州千视通视觉科技股份有限公司 | 一种深度学习模型的分布式训练方法及装置 |
CN110689136B (zh) * | 2019-09-06 | 2022-07-05 | 广东浪潮大数据研究有限公司 | 一种深度学习模型获得方法、装置、设备及存储介质 |
CN110689136A (zh) * | 2019-09-06 | 2020-01-14 | 广东浪潮大数据研究有限公司 | 一种深度学习模型获得方法、装置、设备及存储介质 |
WO2021056390A1 (zh) * | 2019-09-25 | 2021-04-01 | 浪潮电子信息产业股份有限公司 | 卷积神经网络模型同步训练方法、集群及可读存储介质 |
CN112784989B (zh) * | 2019-11-08 | 2024-05-03 | 阿里巴巴集团控股有限公司 | 推理系统、推理方法、电子设备及计算机存储介质 |
CN112784989A (zh) * | 2019-11-08 | 2021-05-11 | 阿里巴巴集团控股有限公司 | 推理系统、推理方法、电子设备及计算机存储介质 |
CN110942138A (zh) * | 2019-11-13 | 2020-03-31 | 华中科技大学 | 一种混合内存环境下深度神经网络的训练方法和系统 |
CN110942138B (zh) * | 2019-11-13 | 2022-02-15 | 华中科技大学 | 一种混合内存环境下深度神经网络的训练方法和系统 |
WO2021103479A1 (zh) * | 2019-11-25 | 2021-06-03 | 北京百度网讯科技有限公司 | 用于训练深度学习模型的方法和装置 |
WO2021208558A1 (zh) * | 2020-04-16 | 2021-10-21 | 苏州浪潮智能科技有限公司 | 一种深度学习大模型训练的方法、系统、设备及介质 |
CN111507474A (zh) * | 2020-06-18 | 2020-08-07 | 四川大学 | 一种动态调整Batch-size的神经网络分布式训练方法 |
CN111507474B (zh) * | 2020-06-18 | 2022-07-01 | 四川大学 | 一种动态调整Batch-size的神经网络分布式训练方法 |
CN111898424A (zh) * | 2020-06-19 | 2020-11-06 | 贝壳技术有限公司 | 文字识别模型训练方法、装置、电子设备及存储介质 |
CN111898740A (zh) * | 2020-07-31 | 2020-11-06 | 北京达佳互联信息技术有限公司 | 预测模型的模型参数更新方法及装置 |
CN111898740B (zh) * | 2020-07-31 | 2021-07-20 | 北京达佳互联信息技术有限公司 | 预测模型的模型参数更新方法及装置 |
CN111738432A (zh) * | 2020-08-10 | 2020-10-02 | 电子科技大学 | 一种支持自适应并行计算的神经网络处理电路 |
CN112199885A (zh) * | 2020-09-09 | 2021-01-08 | 北京达佳互联信息技术有限公司 | 一种分布式模型训练系统及应用方法 |
CN112199885B (zh) * | 2020-09-09 | 2021-07-06 | 北京达佳互联信息技术有限公司 | 一种分布式模型训练系统及应用方法 |
CN112035261A (zh) * | 2020-09-11 | 2020-12-04 | 杭州海康威视数字技术股份有限公司 | 数据处理方法及系统 |
CN112463189A (zh) * | 2020-11-20 | 2021-03-09 | 中国人民解放军国防科技大学 | 基于通信操作稀疏化的分布式深度学习多步延迟更新方法 |
CN112463189B (zh) * | 2020-11-20 | 2022-04-22 | 中国人民解放军国防科技大学 | 基于通信操作稀疏化的分布式深度学习多步延迟更新方法 |
CN112861991A (zh) * | 2021-03-09 | 2021-05-28 | 中山大学 | 一种面向神经网络异步训练的学习率调整方法 |
CN113515370A (zh) * | 2021-04-28 | 2021-10-19 | 之江实验室 | 一种面向大规模深度神经网络的分布式训练方法 |
CN113515370B (zh) * | 2021-04-28 | 2024-03-12 | 之江实验室 | 一种面向大规模深度神经网络的分布式训练方法 |
CN114035937A (zh) * | 2021-10-15 | 2022-02-11 | 北京潞晨科技有限公司 | 一种基于人工智能的分布式训练和推理方法、系统、设备和可读存储介质 |
CN114429223B (zh) * | 2022-01-26 | 2023-11-07 | 上海富数科技有限公司 | 异构模型建立方法及装置 |
CN114429223A (zh) * | 2022-01-26 | 2022-05-03 | 上海富数科技有限公司 | 异构模型建立方法及装置 |
CN115860114B (zh) * | 2022-11-07 | 2023-09-08 | 北京百度网讯科技有限公司 | 深度学习模型的训练方法、装置、电子设备及存储介质 |
CN115860114A (zh) * | 2022-11-07 | 2023-03-28 | 北京百度网讯科技有限公司 | 深度学习模型的训练方法、装置、电子设备及存储介质 |
CN116187426A (zh) * | 2022-11-09 | 2023-05-30 | 北京百度网讯科技有限公司 | 深度学习模型的模型参数多流广播方法及其装置 |
CN116187426B (zh) * | 2022-11-09 | 2024-04-19 | 北京百度网讯科技有限公司 | 深度学习模型的模型参数多流广播方法及其装置 |
CN117093871A (zh) * | 2023-10-16 | 2023-11-21 | 之江实验室 | 一种面向深度学习分布式训练测评方法和系统 |
CN117093871B (zh) * | 2023-10-16 | 2024-02-13 | 之江实验室 | 一种面向深度学习分布式训练测评方法和系统 |
Also Published As
Publication number | Publication date |
---|---|
CN109902818B (zh) | 2021-05-25 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109902818A (zh) | 一种面向深度学习训练任务的分布式加速方法及系统 | |
Liu et al. | Adaptive asynchronous federated learning in resource-constrained edge computing | |
CN106297774B (zh) | 一种神经网络声学模型的分布式并行训练方法及系统 | |
Khorasani et al. | Scalable simd-efficient graph processing on gpus | |
US10204140B2 (en) | Massively parallel and in-memory execution of grouping and aggregation in a heterogeneous system | |
CN105045856B (zh) | 一种基于Hadoop的大数据遥感卫星数据处理系统 | |
US20170091668A1 (en) | System and method for network bandwidth aware distributed learning | |
CN108228970B (zh) | 结构动力学分析显式异步长并行计算方法 | |
CN110830292B (zh) | 面向医疗大数据的云雾混合路径确定方法 | |
CN103581332A (zh) | HDFS架构及HDFS架构中NameNode节点的压力分解方法 | |
CN108287763A (zh) | 参数交换方法、工作节点以及参数服务器系统 | |
CN104580503A (zh) | 一种高效动态负载均衡的处理大规模数据的系统及方法 | |
Ye et al. | Hippie: A data-paralleled pipeline approach to improve memory-efficiency and scalability for large dnn training | |
CN109636709B (zh) | 一种适用于异构平台的图计算方法 | |
CN114884908A (zh) | 一种数据同步方法、装置、设备及存储介质 | |
CN113014649B (zh) | 一种基于深度学习的云物联负载均衡方法、装置及设备 | |
CN111680791B (zh) | 适用于异构环境中的通信方法、装置、系统 | |
CN106856509A (zh) | 一种基于knl集群的大规模数据的处理方法及系统 | |
CN116303219A (zh) | 一种网格文件的获取方法、装置及电子设备 | |
Ho et al. | Adaptive communication for distributed deep learning on commodity GPU cluster | |
Mavriplis | Viscous flow analysis using a parallel unstructured multigrid solver | |
CN115879543A (zh) | 一种模型训练方法、装置、设备、介质及系统 | |
CN113342313B (zh) | 一种基于参数服务器异步更新Spark MLlib中线性分类模型参数的方法 | |
CN111241204B (zh) | 一种梯度数据的同步方法、装置、设备及存储介质 | |
CN105610621B (zh) | 一种分布式系统架构任务级参数动态调整的方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |