CN108986063A - 梯度融合的方法、装置及计算机可读存储介质 - Google Patents

梯度融合的方法、装置及计算机可读存储介质 Download PDF

Info

Publication number
CN108986063A
CN108986063A CN201810826851.XA CN201810826851A CN108986063A CN 108986063 A CN108986063 A CN 108986063A CN 201810826851 A CN201810826851 A CN 201810826851A CN 108986063 A CN108986063 A CN 108986063A
Authority
CN
China
Prior art keywords
tensor
fusion
buffer area
gradient
input
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201810826851.XA
Other languages
English (en)
Inventor
黄雪
刘姝
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Inspur Beijing Electronic Information Industry Co Ltd
Original Assignee
Inspur Beijing Electronic Information Industry Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Inspur Beijing Electronic Information Industry Co Ltd filed Critical Inspur Beijing Electronic Information Industry Co Ltd
Priority to CN201810826851.XA priority Critical patent/CN108986063A/zh
Publication of CN108986063A publication Critical patent/CN108986063A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T5/00Image enhancement or restoration
    • G06T5/50Image enhancement or restoration using two or more images, e.g. averaging or subtraction
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20212Image combination
    • G06T2207/20221Image fusion; Image merging

Landscapes

  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)

Abstract

本发明公开了一种梯度融合的方法,确定深度学习分布式训练架构中各个节点上的输入张量,然后将输入张量逐个转移到融合缓冲区,判断融合缓冲区的输入张量的数量是否大于预设张量数量,若大于,则对融合缓冲区内的输入张量进行allreduce算法处理,得到输出张量。可见,本发明根据融合缓冲区内张量数量与预设张量数量的大小来决定是否继续转移张量,相较于根据缓冲区内全部张量的大小进行梯度融合的方法,解决了张量大小差异较大导致阈值难以选取的问题,避免了计算融合缓冲区内各个张量大小并累加的过程,因而简化了梯度融合的过程并提高了效率。本发明还提供了一种梯度融合的装置及计算机可读存储介质,其作用与上述方法的作用相对应。

Description

梯度融合的方法、装置及计算机可读存储介质
技术领域
本发明涉及深度学习领域,特别涉及一种梯度融合的方法、装置及计算机可读存储介质。
背景技术
深度学习在过去几年中取得了长足的发展,尤其在语音、图像、机器翻译、自然语言处理等领域更是取得了飞跃式的提升,深度学习训练需要海量的数据,这就需要超大规模参数的网络模型拟合。如果训练数据不足,如果网络模型参数太少,会造成欠拟合,模型精度较低。目前常见网络模型参数已经上亿,参数大小达到数GB。数据并行训练方式要求每个GPU节点拥有一份完整的模型参数副本,并在融合梯度时发送和接收完整的梯度数据,巨大的通信数据量给多机多卡并行训练带来了极大的网络通信压力。
分布式节点可以通过参数服务器架构通信。这种架构下,在每个迭代中,每个worker从mini-batch中读取自己的那部分,计算属于自己的梯度,并将这些梯度发送到一个或多个参数服务器。参数服务器会聚合来自设备的所有梯度,并等待所有设备完成,然后在下一次迭代中计算新模型,再广播给所有设备。这种架构参数服务器的网络带宽是瓶颈,容易造成网络堵塞。
allreduce算法原是HPC领域一种比较成熟的通信算法,百度将其引入到深度学习训练框架中,进一步优化,开发了一种称环形归约的通信模式——Ring allreduce。Ringallreduce完全抛弃了参数服务器,通过均衡网络负载来减少通信时间,理论上可以做到线性加速。此外Ring-allreduce还可以将深层神经网络中较低层的梯度计算与高层梯度的传输重叠,从而进一步减少训练时间。allreduce算法被越来越多的应用的深度学习框架中,比如NVIDIA Caffe,以及Horovod,其中Horovod是基于TensorFlow的一种分布式训练通信框架。
虽然allreduce算法在参数足够多的情况下可以最大化利用网络,但工作效率和速度都不如参数少的情况,解决这个问题的一个重要方法就是梯度融合梯度被逐个复制到一个缓冲区中,随后这个缓冲区进行通信,而不是一个接一个地传递梯度。通信之后,缓冲区中的更新值将被复制回每个梯度。在这种方法中,梯度融合在一起进行通信,可以有效减轻延迟问题,目前已经在NVIDIA Caffe和Horovod中实现。
为实现梯度融合,NVIDIA Caffe和Horovod都选择了缓冲区的阈值大小来控制Allreduce消息大小。以Horovod为例,梯度融合的方法如下(张量是一种数据类型,这里张量指的是梯度):
确定融合缓冲区阈值,并初始化融合缓冲区大小为0;确定要归约哪些张量;对于每个张量,计算归约张量的大小,若融合缓冲区大小小于等于缓冲区阈值,则将所选张量的数据复制到融合缓冲区;若融合缓冲区大小大于缓冲区阈值,则在融合缓冲区上执行allreduce操作;执行完allreduce操作后,将融合缓冲区中的数据复制到输出张量中;重复直到没有需要归约的张量。
但是,由于模型中的各梯度的大小差别很大,融合梯度的最佳缓冲区阈值很难实现,必须手动调整缓冲区的阈值大小以获得最佳性能,这通常需要大量实验,尤其是当DNN模型有很多层时,可见该方法中的缓冲区阈值的选取较为困难,选取起来比较复杂。
发明内容
本发明的目的是提供一种梯度融合的方法、装置及计算机可读存储介质,用以解决传统的梯度融合方法中缓冲区阈值的选取较为困难,选取过程复杂的问题。
为解决上述技术问题,本发明提供了一种梯度融合的方法,应用于深度学习分布式训练中,包括:
预先确定深度学习分布式训练架构中各个节点上的输入张量;
将所述输入张量逐个转移到融合缓冲区,并判断所述融合缓冲区内的输入张量的数量是否大于预设张量数量;
若所述输入张量的数量大于预设张量数量,则对所述融合缓冲区内的输入张量进行allreduce算法处理,得到输出张量。
其中,在所述预先确定需要进行allreduce算法处理的多个输入张量之前,包括:
初始化融合缓冲区。
其中,所述深度学习分布式训练结构中各个节点都设置有所述融合缓冲区。
其中,在所述若所述输入张量的数量大于预设张量数量,则对所述融合缓冲区内的输入张量进行allreduce算法处理,得到输出张量之后,包括:
将所述输出张量转移到与所述融合缓冲区相对应的节点上。
此外,本发明还提供了一种梯度融合的装置,应用于深度学习分布式训练中,包括:
输入张量确定模块:用于预先确定深度学习分布式训练架构中各个节点上的输入张量;
输入张量转移模块:用于将所述输入张量逐个转移到融合缓冲区,并判断所述融合缓冲区内的输入张量的数量是否大于预设张量数量;
allreduce算法模块:用于若所述输入张量的数量大于预设张量数量,则对所述融合缓冲区内的输入张量进行allreduce算法处理,得到输出张量。
其中,所述梯度融合的装置还包括:
融合缓冲区初始化模块:用于初始化融合缓冲区。
其中,所述梯度融合的装置还包括:
输出张量转移模块:用于将所述输出张量转移到与所述融合缓冲区相对应的节点上。
最后,本发明还提供了一种计算机可读存储介质,应用于深度学习分布式训练中,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如上所述的方法的步骤。
本发明所提供的一种梯度融合的方法,在深度学习分布式训练的过程中,预先确定深度学习分布式训练架构中各个节点上的输入张量,然后将输入张量逐个转移到融合缓冲区,并判断融合缓冲区的输入张量的数量是否大于预设张量数量,若大于,则对融合缓冲区内的输入张量进行allreduce算法处理,得到输出张量。可见,本发明提供的方法,在梯度融合时,根据融合缓冲区内张量数量与预设张量数量的大小关系来决定是否继续向融合缓冲区转移张量,相较于传统的根据缓冲区内各个张量大小的和来进行梯度融合的方法,解决了由于各个张量大小差异较大导致的阈值难以选取的问题,还避免了计算融合缓冲区内各个张量大小并累加的过程,因而简化了梯度融合的过程并提高了梯度融合的效率。
本发明还提供了一种梯度融合的装置及计算机可读存储介质,其作用与上述方法的作用相对应,这里不再赘述。
附图说明
为了更清楚的说明本发明实施例或现有技术的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单的介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明提供的一种梯度融合的方法实施例的实现流程图;
图2为本发明提供一种梯度融合中张量数量对性能影响的实验结果图;
图3为本发明提供的一种梯度融合的装置实施例的结构框图。
具体实施方式
本发明的核心是提供一种梯度融合的方法、装置及计算机可读存储介质,简化了梯度融合的过程并提高了梯度融合的效率。
为了使本技术领域的人员更好地理解本发明方案,下面结合附图和具体实施方式对本发明作进一步的详细说明。显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
下面对本发明提供的一种梯度融合的方法实施例进行介绍,参见图1,该实施例应用于深度学习分布式训练中,具体包括:
步骤S101:预先确定深度学习分布式训练架构中各个节点上的输入张量。
具体的,在步骤S101之前,还可以初始化融合缓冲区,将融合缓冲区中张量数量设置为0。此外,还可以设置好融合缓冲区的阈值,即预设张量数量。本实施例不限定初始化融合缓冲区以及设置预设张量数量的先后顺序。
这里的预设张量数量指的是预先设置的、用于在梯度融合过程中与融合缓冲区内的输入张量的数量进行对比,以便于决定是否继续向融合缓冲区转移输入张量的数量。预设张量数量在梯度融合之前为可以调整的,但在梯度融合过程中为固定的。
需要说明的是,张量为一种数据类型,本发明中所涉及的张量均指梯度。步骤S101中各个节点上的输入张量指的是需要进行归约的张量。
步骤S102:将所述输入张量逐个转移到融合缓冲区,并判断所述融合缓冲区内的输入张量的数量是否大于预设张量数量。
具体的,可以将输入张量组成梯度队列,然后在梯度融合的过程中,将所述梯度队列中的输入张量逐个转移到融合缓冲区。
值得一提的是,梯度队列的各个输入张量的先后顺序可以为按照预设规则确定的,也可以为随机的。另外,梯度队列的队列大小,即梯度队列允许包含的输入张量的数量,可以为步骤S101中全部输入张量的数量,也可以为其他数量,优选的,可以设置为上述预设张量数量。
特别说明,本实施例中所述深度学习分布式训练结构中各个节点可以都设置有所述融合缓冲区,也就是说,每个节点都对应一个融合缓冲区,用于进行梯度融合。
步骤S103:若所述输入张量的数量大于预设张量数量,则对所述融合缓冲区内的输入张量进行allreduce算法处理,得到输出张量。
具体的,在得到输出张量之后,可以将所述输出张量转移到与所述融合缓冲区相对应的节点上。
本实施例所提供的方法,可以基于Horovod实现,实验环境具体可以如下:
软件环境:TensorFlow,优化后的Horovod,ResNet-50模型,ImageNet数据集;
每个节点所配置的硬件环境:
CPU:2路2.50GHz Intel(R)Xeon(R)CPU E5-2682v4;
GPU:8*NVIDIA Tesla P100;
主机内存:480GB;
网络:25GB以太网。
具体算法可以如下:
为证明预设张量数量的设置的重要性,还测试了在ResNet-50模型中allreduce融合梯度的数量对性能的影响。如图2所示,预设张量数量b的值对性能起着重要的作用,性能随着b的增加而增加,并在最佳点附近变平,然后性能随着b的增加而减小,在2个节点上实现的最佳性能出现在b=48处,而对于16个节点的最佳性能出现在b=64。
当神经网络模型是像在TensorFlow/horovod中一样由线程池计算时,那么,准备通信的梯度的顺序是在运行时才确定的,当使用内存大小阈值用于融合梯度时,在每次迭代时融合梯度的数量b是变化的,从图2可以看出,预设张量数量b对模型的性能影响较大。而本实施例中的预设张量数量b可以为恒定不变的,也就是一直使用最优的b值,因此能达到最好的性能。
综上所述,本实施例所提供的一种梯度融合的方法,在梯度融合时,根据融合缓冲区内张量数量与预设张量数量的大小关系来决定是否继续向融合缓冲区转移张量,相较于传统的根据缓冲区内各个张量大小的和来进行梯度融合的方法,解决了由于各个张量大小差异较大导致的阈值难以选取的问题,还避免了计算融合缓冲区内各个张量大小并累加的过程,因而简化了梯度融合的过程并提高了梯度融合的效率。
下面对本发明实施例提供的一种梯度融合的装置实施例进行介绍,下文描述的一种梯度融合的装置与上文描述的一种梯度融合的方法可相互对应参照。
参见图3,该装置实施例应用于深度学习分布式训练中,具体包括:
输入张量确定模块301:用于预先确定深度学习分布式训练架构中各个节点上的输入张量。
具体的,还包括融合缓冲区初始化模块300,融合缓冲区初始化模块300用于初始化融合缓冲区,将融合缓冲区内的张量数量设置为0。
输入张量转移模块302:用于将所述输入张量逐个转移到融合缓冲区,并判断所述融合缓冲区内的输入张量的数量是否大于预设张量数量。
allreduce算法模块303:用于若所述输入张量的数量大于预设张量数量,则对所述融合缓冲区内的输入张量进行allreduce算法处理,得到输出张量。
在得到输入张量之后,还可以包括输出张量转移模块304,输出张量转移模块304用于将所述输出张量转移到与所述融合缓冲区相对应的节点上。
本实施例提供的一种梯度融合的装置实施例用于实现前述的一种梯度融合的方法,因此该装置中的具体实施方式可见前文中的一种梯度融合的方法的实施例部分,例如,输入张量确定模块301、输入张量转移模块302、allreduce算法模块303,分别用于实现上述一种梯度融合的方法中步骤S101,S102,S103。所以,其具体实施方式可以参照相应的各个部分实施例的描述,在此不再展开介绍。
另外,由于本实施例提供的一种梯度融合的装置实施例用于实现前述的一种梯度融合的方法,因此其作用与上述方法的作用相对应,这里不再赘述。
最后,本发明还提供了一种计算机可读存储介质,应用于深度学习分布式训练中,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如上所述的方法的步骤。
由于本实施例提供的一种计算机可读存储介质用于实现前述的一种梯度融合的方法,因此其实现过程可以参见上述一种梯度融合的方法实施例,这里对其实现过程不再展开介绍,另外其作用也与上述方法的作用相对应,这里也不再赘述。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其它实施例的不同之处,各个实施例之间相同或相似部分互相参见即可。对于实施例公开的装置而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
专业人员还可以进一步意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件模块,或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。
以上对本发明所提供的一种梯度融合的方法、装置及计算机可读存储介质进行了详细介绍。本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想。应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以对本发明进行若干改进和修饰,这些改进和修饰也落入本发明权利要求的保护范围内。

Claims (8)

1.一种梯度融合的方法,应用于深度学习分布式训练中,其特征在于,包括:
预先确定深度学习分布式训练架构中各个节点上的输入张量;
将所述输入张量逐个转移到融合缓冲区,并判断所述融合缓冲区内的输入张量的数量是否大于预设张量数量;
若所述输入张量的数量大于预设张量数量,则对所述融合缓冲区内的输入张量进行allreduce算法处理,得到输出张量。
2.如权利要求1所述的方法,其特征在于,在所述预先确定需要进行allreduce算法处理的多个输入张量之前,包括:
初始化融合缓冲区。
3.如权利要求1所述的方法,其特征在于,所述深度学习分布式训练结构中各个节点都设置有所述融合缓冲区。
4.如权利要求3所述的方法,其特征在于,在所述若所述输入张量的数量大于预设张量数量,则对所述融合缓冲区内的输入张量进行allreduce算法处理,得到输出张量之后,包括:
将所述输出张量转移到与所述融合缓冲区相对应的节点上。
5.一种梯度融合的装置,应用于深度学习分布式训练中,其特征在于,包括:
输入张量确定模块:用于预先确定深度学习分布式训练架构中各个节点上的输入张量;
输入张量转移模块:用于将所述输入张量逐个转移到融合缓冲区,并判断所述融合缓冲区内的输入张量的数量是否大于预设张量数量;
allreduce算法模块:用于若所述输入张量的数量大于预设张量数量,则对所述融合缓冲区内的输入张量进行allreduce算法处理,得到输出张量。
6.如权利要求5所述的装置,其特征在于,还包括:
融合缓冲区初始化模块:用于初始化融合缓冲区。
7.如权利要求5所述的装置,其特征在于,还包括:
输出张量转移模块:用于将所述输出张量转移到与所述融合缓冲区相对应的节点上。
8.一种计算机可读存储介质,应用于深度学习分布式训练中,其特征在于,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1-4任意一项所述的方法的步骤。
CN201810826851.XA 2018-07-25 2018-07-25 梯度融合的方法、装置及计算机可读存储介质 Pending CN108986063A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810826851.XA CN108986063A (zh) 2018-07-25 2018-07-25 梯度融合的方法、装置及计算机可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810826851.XA CN108986063A (zh) 2018-07-25 2018-07-25 梯度融合的方法、装置及计算机可读存储介质

Publications (1)

Publication Number Publication Date
CN108986063A true CN108986063A (zh) 2018-12-11

Family

ID=64551105

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810826851.XA Pending CN108986063A (zh) 2018-07-25 2018-07-25 梯度融合的方法、装置及计算机可读存储介质

Country Status (1)

Country Link
CN (1) CN108986063A (zh)

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109871942A (zh) * 2019-02-19 2019-06-11 上海商汤智能科技有限公司 神经网络的训练方法和装置、系统、存储介质
CN110096356A (zh) * 2019-03-22 2019-08-06 北京达佳互联信息技术有限公司 资源调度方法、装置、电子设备及存储介质
CN110619388A (zh) * 2019-09-20 2019-12-27 北京金山数字娱乐科技有限公司 一种分布式训练中梯度同步方法及装置
CN111526169A (zh) * 2019-02-01 2020-08-11 阿里巴巴集团控股有限公司 通过网络发送数据的方法、介质、服务器和计算机设备
CN112001455A (zh) * 2020-09-29 2020-11-27 北京百度网讯科技有限公司 模型训练方法、装置以及电子设备
CN112463056A (zh) * 2020-11-28 2021-03-09 苏州浪潮智能科技有限公司 一种多节点分布式训练方法、装置、设备及可读介质
CN112862088A (zh) * 2021-01-18 2021-05-28 中山大学 一种基于流水线环形参数通信的分布式深度学习方法
CN115936095A (zh) * 2023-02-20 2023-04-07 浪潮电子信息产业股份有限公司 一种参数梯度同步方法、装置、设备及存储介质
CN116644803A (zh) * 2023-07-27 2023-08-25 浪潮电子信息产业股份有限公司 分布式协同训练控制方法、系统、装置、设备及存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080152203A1 (en) * 2005-02-03 2008-06-26 Koninklijke Philips Electronics N.V. Radial Adaptive Filter for Metal Artifact Correction
CN106157317A (zh) * 2016-07-21 2016-11-23 武汉大学 基于弥散张量引导的高分辨率遥感影像融合评价方法
CN106598913A (zh) * 2016-12-23 2017-04-26 郑州云海信息技术有限公司 一种knl集群加速求解方法及装置
CN107908794A (zh) * 2017-12-15 2018-04-13 广东工业大学 一种数据挖掘的方法、系统、设备及计算机可读存储介质

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080152203A1 (en) * 2005-02-03 2008-06-26 Koninklijke Philips Electronics N.V. Radial Adaptive Filter for Metal Artifact Correction
CN106157317A (zh) * 2016-07-21 2016-11-23 武汉大学 基于弥散张量引导的高分辨率遥感影像融合评价方法
CN106598913A (zh) * 2016-12-23 2017-04-26 郑州云海信息技术有限公司 一种knl集群加速求解方法及装置
CN107908794A (zh) * 2017-12-15 2018-04-13 广东工业大学 一种数据挖掘的方法、系统、设备及计算机可读存储介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
ALEXANDER SERGEEV 等: "Horovod:fast and easy distributed deep learning in TensorFlow", 《ARXIV》 *

Cited By (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111526169A (zh) * 2019-02-01 2020-08-11 阿里巴巴集团控股有限公司 通过网络发送数据的方法、介质、服务器和计算机设备
CN111526169B (zh) * 2019-02-01 2022-06-14 阿里巴巴集团控股有限公司 通过网络发送数据的方法、介质、服务器和计算机设备
CN109871942A (zh) * 2019-02-19 2019-06-11 上海商汤智能科技有限公司 神经网络的训练方法和装置、系统、存储介质
CN109871942B (zh) * 2019-02-19 2021-06-11 上海商汤智能科技有限公司 神经网络的训练方法和装置、系统、存储介质
CN110096356B (zh) * 2019-03-22 2022-06-03 北京达佳互联信息技术有限公司 资源调度方法、装置、电子设备及存储介质
CN110096356A (zh) * 2019-03-22 2019-08-06 北京达佳互联信息技术有限公司 资源调度方法、装置、电子设备及存储介质
CN110619388A (zh) * 2019-09-20 2019-12-27 北京金山数字娱乐科技有限公司 一种分布式训练中梯度同步方法及装置
CN110619388B (zh) * 2019-09-20 2024-04-02 北京金山数字娱乐科技有限公司 一种分布式训练中梯度同步方法及装置
CN112001455A (zh) * 2020-09-29 2020-11-27 北京百度网讯科技有限公司 模型训练方法、装置以及电子设备
CN112001455B (zh) * 2020-09-29 2024-02-20 北京百度网讯科技有限公司 模型训练方法、装置以及电子设备
CN112463056B (zh) * 2020-11-28 2023-06-09 苏州浪潮智能科技有限公司 一种多节点分布式训练方法、装置、设备及可读介质
CN112463056A (zh) * 2020-11-28 2021-03-09 苏州浪潮智能科技有限公司 一种多节点分布式训练方法、装置、设备及可读介质
CN112862088A (zh) * 2021-01-18 2021-05-28 中山大学 一种基于流水线环形参数通信的分布式深度学习方法
CN112862088B (zh) * 2021-01-18 2023-11-07 中山大学 一种基于流水线环形参数通信的分布式深度学习方法
CN115936095A (zh) * 2023-02-20 2023-04-07 浪潮电子信息产业股份有限公司 一种参数梯度同步方法、装置、设备及存储介质
CN116644803A (zh) * 2023-07-27 2023-08-25 浪潮电子信息产业股份有限公司 分布式协同训练控制方法、系统、装置、设备及存储介质
CN116644803B (zh) * 2023-07-27 2023-11-03 浪潮电子信息产业股份有限公司 分布式协同训练控制方法、系统、装置、设备及存储介质

Similar Documents

Publication Publication Date Title
CN108986063A (zh) 梯度融合的方法、装置及计算机可读存储介质
Kim et al. A probabilistic approach for determining the control mode in CREAM
CN106030562B (zh) 网络处理器中的分组整形
CN108122032A (zh) 一种神经网络模型训练方法、装置、芯片和系统
CN109242094A (zh) 用于执行人工神经网络正向运算的装置和方法
CN109492753A (zh) 一种去中心化的随机梯度下降的方法
CN107276827A (zh) 一种分布式存储系统中Qos的实现方法及装置
CN106550042B (zh) 多线程下载方法和装置及计算设备
CN109819161A (zh) 一种帧率的调整方法、装置、终端及可读存储介质
JP2017129896A (ja) 機械学習装置、機械学習方法及び機械学習プログラム
CN108122031A (zh) 一种低功耗的神经网络加速器架构
CN105739956B (zh) 计算机系统的构建智能规则模型的方法及系统
CN103218260A (zh) 虚拟机迁移方法和装置
CN109635927A (zh) 一种卷积神经网络训练方法及装置
CN116450312A (zh) 面向流水线并行训练的调度策略确定方法及系统
CN114172820A (zh) 跨域sfc动态部署方法、装置、计算机设备及存储介质
CN110262847A (zh) 应用程序启动加速方法、装置及机器可读存储介质
CN106909449A (zh) 一种移动终端程序的计算迁移方法与装置
GB2599348A (en) Method and system for autoscaling containers in a cloud-native core network
CN113010312B (zh) 一种超参数调优方法、装置及存储介质
CN107357592A (zh) 一种基于状态机机制的事件处理方法及装置
CN111324630A (zh) 基于mpi的神经网络架构搜索并行化方法和设备
WO2020164644A2 (zh) 神经网络模型拆分方法、装置、计算机设备和存储介质
Guo et al. AccUDNN: A GPU memory efficient accelerator for training ultra-deep neural networks
CN109547241A (zh) 一种基于Markov算法的面向NUMA架构的虚拟网络功能部署方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20181211