CN112288083A - 一种神经网络分布式训练方法、装置、设备及存储介质 - Google Patents

一种神经网络分布式训练方法、装置、设备及存储介质 Download PDF

Info

Publication number
CN112288083A
CN112288083A CN202011130809.8A CN202011130809A CN112288083A CN 112288083 A CN112288083 A CN 112288083A CN 202011130809 A CN202011130809 A CN 202011130809A CN 112288083 A CN112288083 A CN 112288083A
Authority
CN
China
Prior art keywords
training
neural network
gradient
node
network model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202011130809.8A
Other languages
English (en)
Inventor
周宇浩
叶庆
张海伦
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Individual
Original Assignee
Individual
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Individual filed Critical Individual
Priority to CN202011130809.8A priority Critical patent/CN112288083A/zh
Publication of CN112288083A publication Critical patent/CN112288083A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Feedback Control In General (AREA)

Abstract

本申请提供了一种神经网络分布式训练方法、装置、设备及存储介质,涉及机器学习技术领域。该方法改进了分布式神经网络的训练架构,提高分布式训练中各个节点的计算资源利用率,包括:针对集群中的每个节点,建立同步进程以及与同步进程并行运行的训练进程;节点根据同步进程的状态信息,确定训练进程的第N个训练周期;在第N个训练周期内,节点对目标神经网络模型进行训练,得到本地梯度;节点累加本地梯度,得到累计梯度;节点在训练进程中进行第N+1个训练周期的训练时,在同步进程中与其他节点同步累计梯度,计算获得第一平均梯度;在节点在同步进程中利用第一平均梯度更新第N个训练周期结束时的目标神经网络模型的参数。

Description

一种神经网络分布式训练方法、装置、设备及存储介质
技术领域
本申请涉及机器学习技术领域,特别是涉及一种神经网络分布式训练方法、装置、设备及存储介质。
背景技术
基于大型数据集对神经网络进行训练在多个领域获得令人印象深刻的性能表现,例如:在图像识别、自然语言处理,欺诈检测和推荐系统等领域利用大型数据集训练神经网络提高了应用的准确性。但基于大型数据集训练神经网络对计算设备的性能要求很高,单个计算设备很难完成。
分布式的神经网络训练使得训练复杂的神经网络,以及利用大规模训练数据集训练神经网络成为可能。但由于参与分布式训练的各节点存在性能差异,处理数据所需时间不同,因此存在部分节点资源浪费的情况。同时,节点之间存在不可避免的、耗时的信息交换过程,也导致了节点利用率低的问题。
发明内容
本申请实施例提供一种神经网络分布式训练方法、装置、设备及存储介质,改进分布式神经网络的训练架构,提高分布式训练中各个节点的计算资源利用率。
本申请实施例第一方面提供一种神经网络分布式训练方法,所述方法包括:
针对集群中的每个节点,建立同步进程以及与所述同步进程并行运行的训练进程;
所述节点根据所述同步进程的状态信息,确定所述训练进程的第N个训练周期,N为>0的整数;
在所述第N个训练周期内,所述节点在所述训练进程中对目标神经网络模型进行训练,得到本地梯度;
所述节点累加多次训练所述目标神经网络模型得到的本地梯度,得到累计梯度;
所述节点在所述训练进程中进行第N+1个训练周期的训练时,在所述同步进程中与共同训练所述目标神经网络模型的其他节点同步所述累计梯度,并基于其他节点的累计梯度,计算获得第一平均梯度;
在所述训练进程完成所述第N+1个训练周期的训练后,所述节点在所述同步进程中利用所述第一平均梯度更新第N个训练周期结束时的所述目标神经网络模型的参数。
可选地,所述方法还包括:
在所述训练进程设置计数器;其中,所述计数器用于记录所述目标神经网络模型在一个周期内的训练次数;
所述节点根据所述同步进程的状态信息,确定所述训练进程的第N个训练周期,包括:
初始化所述目标神经网络模型,确定所述训练进程的第1个训练周期;
取N=n+1,n为>0的整数,执行步骤:在所述同步进程的状态信息为空闲状态时,所述节点通过所述训练进程将同步状态赋值给所述同步进程的状态信息,以使所述同步进程进入同步状态;同时,所述节点将所述计数器记录的累计训练次数置为零,确定所述训练进程结束第N-1个训练周期并开始第N个训练周期。
可选地,在所述第N个训练周期内,所述节点在所述训练进程中对目标神经网络模型进行训练,得到本地梯度,包括:
依次取m从1至M,M为>1的整数,在所述第N个训练周期内对所述目标神经网络模型进行第m次训练,得到对应所述第m次训练的本地梯度;
在所述计数器记录的累计训练次数为零时,所述节点利用所述训练进程将所述目标神经网络模型的参数克隆到本地,得到克隆模型参数;
在所述计数器记录的累计训练次数不为零时,利用对应所述第m次训练的本地梯度更新所述克隆模型参数,并对所述计数器记录的累计训练次数加一,直至所述同步进程的状态信息被赋值为空闲状态。
可选地,所述节点累加多次训练所述目标神经网络模型得到的本地梯度,得到累计梯度,包括:
依次取m从1至M,M为>1的整数,在所述第N个训练周期内对所述目标神经网络模型进行第m次训练,得到对应所述第m次训练的本地梯度;
在m等于1时,将对应所述第m次训练的本地梯度存储至本地,得到对应所述第m次训练的累计梯度;
在m不等于1时,将对应所述第m次训练的本地梯度累加至对应所述第m-1次训练的累计梯度,得到对应所述第m次训练的累计梯度。
可选地,在所述同步进程的状态信息为空闲状态时,所述节点通过所述训练进程将同步状态赋值给所述同步进程的状态信息,以使所述同步进程进入同步状态之后,所述方法还包括:
在所述同步进程中,所述节点根据所述计数器记录的累计训练次数,获取在所述第N-1个训练周期结束时所述目标神经网络模型的参数,得到待更新的模型参数;
所述节点在所述同步进程中与共同训练所述目标神经网络模型的其他节点同步所述累计梯度,并基于其他节点的累计梯度,计算获得第一平均梯度,包括:
在所述同步进程是第一次进入同步状态的情况下,直接与所述目标神经网络模型的其他节点同步所述累计梯度,计算得到第一平均梯度;
在所述同步进程不是第一次进入同步状态的情况下,获取第二平均梯度;其中,所述第二平均梯度是所述节点同步对应所述第N-1个训练周期获得的累计梯度得到的;
利用所述第二平均梯度更新所述待更新的模型参数;
与所述目标神经网络模型的其他节点同步所述累计梯度,得到第一平均梯度。
可选地,所述节点在所述训练进程中进行第N+1个训练周期的训练时,在所述同步进程中与共同训练所述目标神经网络模型的其他节点同步所述累计梯度之后,所述方法还包括:
通过所述同步进程将同步状态赋值给所述同步进程的状态信息,以使所述训练进程完成所述第N+1个训练周期。
本申请实施例第二方面提供一种神经网络分布式训练装置,所述装置包括:
进程建立模块,用于针对集群中的每个节点,建立同步进程以及与所述同步进程并行运行的训练进程;
训练周期确定模块,用于使所述节点根据所述同步进程的状态信息,确定所述训练进程的第N个训练周期,N为>0的整数;
训练模块,用于在所述第N个训练周期内,所述节点在所述训练进程中对目标神经网络模型进行训练,得到本地梯度;
累加模块,用于使所述节点累加多次训练所述目标神经网络模型得到的本地梯度,得到累计梯度;
同步模块,用于使所述节点在所述训练进程中进行第N+1个训练周期的训练时,在所述同步进程中与共同训练所述目标神经网络模型的其他节点同步所述累计梯度,并基于其他节点的累计梯度,计算获得第一平均梯度;
更新模块,用于在所述训练进程完成所述第N+1个训练周期的训练后,所述节点在所述同步进程中利用所述第一平均梯度更新第N个训练周期结束时的所述目标神经网络模型的参数。
可选地,所述装置还包括:
设置模块,用于在所述训练进程设置计数器;其中,所述计数器用于记录所述目标神经网络模型在一个周期内的训练次数;
所述训练周期确定模块包括:
初始化子模块,用于初始化所述目标神经网络模型,确定所述训练进程的第1个训练周期;
训练周期确定子模块,用于取N=n+1,n为>0的整数,执行步骤:在所述同步进程的状态信息为空闲状态时,所述节点通过所述训练进程将同步状态赋值给所述同步进程的状态信息,以使所述同步进程进入同步状态;同时,所述节点将所述计数器记录的累计训练次数置为零,确定所述训练进程结束第N-1个训练周期并开始第N个训练周期。
可选地,所述训练模块包括:
第一训练子模块,用于依次取m从1至M,M为>1的整数,在所述第N个训练周期内对所述目标神经网络模型进行第m次训练,得到对应所述第m次训练的本地梯度;
克隆子模块,用于在所述计数器记录的累计训练次数为零时,所述节点利用所述训练进程将所述目标神经网络模型的参数克隆到本地,得到克隆模型参数;
第一更新子模块,用于在所述计数器记录的累计训练次数不为零时,利用对应所述第m次训练的本地梯度更新所述克隆模型参数,并对所述计数器记录的累计训练次数加一,直至所述同步进程的状态信息被赋值为空闲状态。
可选地,所述累加模块包括:
第二训练子模块,用于依次取m从1至M,M为>1的整数,在所述第N个训练周期内对所述目标神经网络模型进行第m次训练,得到对应所述第m次训练的本地梯度;
第一累计梯度,用于在m等于1时,将对应所述第m次训练的本地梯度存储至本地,得到对应所述第m次训练的累计梯度;
第二累计梯度,用于在m不等于1时,将对应所述第m次训练的本地梯度累加至对应所述第m-1次训练的累计梯度,得到对应所述第m次训练的累计梯度。
可选地,所述装置还包括:
参数获取模块,用于在所述同步进程中,所述节点根据所述计数器记录的累计训练次数,获取在所述第N-1个训练周期结束时所述目标神经网络模型的参数,得到待更新的模型参数;
所述同步模块包括:
第一同步子模块,用于在所述同步进程是第一次进入同步状态的情况下,直接与所述目标神经网络模型的其他节点同步所述累计梯度,计算得到第一平均梯度;
梯度获取子模块,用于在所述同步进程不是第一次进入同步状态的情况下,获取第二平均梯度;其中,所述第二平均梯度是所述节点同步对应所述第N-1个训练周期获得的累计梯度得到的;
第二更新子模块,用于利用所述第二平均梯度更新所述待更新的模型参数;
第一同步子模块,用于与所述目标神经网络模型的其他节点同步所述累计梯度,得到第一平均梯度。
可选地,所述装置还包括:
赋值模块,用于通过所述同步进程将同步状态赋值给所述同步进程的状态信息,以使所述训练进程完成所述第N+1个训练周期。
本申请实施例第三方面提供一种可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时,实现如本申请第一方面所述的方法中的步骤。
本申请实施例第四方面提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时,实现本申请第一方面所述的方法的步骤。
本申请实施例在节点设置并行运行的同步进程和训练进程,使训练进程依据同步进程的状态信息,在同步进程同步梯度的任务时,不断地重复当前周期本地训练任务,并以本地训练得到的梯度对累计梯度进行更新,在同步进程结束同步梯度的任务时,对累计的梯度进行同步,并以上一次同步得到的平均梯度更新神经网络模型在当前周期开始前的参数。在上述训练过程中,节点在同步梯度的过程中,训练进程一直计算,充分利用了节点的计算资源。同时,由于节点在训练进程中,一直更新的是累积梯度,在第N个训练周期结束后,才会利用累积梯度更新目标神经网络模型在第N个训练周期开始前的参数,目标神经网络不会受第N个训练周期内单次训练得到的梯度的影响,保证了目标神经网络参数的时效性,进而保证了目标神经网络的收敛性。
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对本申请实施例的描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是同步式随机梯度下降算法的时间线路图;
图2是本申请实施例神经网络分布式训练方法的步骤流程图;
图3是本申请实施例的一种示例中神经网络分布式训练方法的时间线路图;
图4是本申请实施例神经网络分布式训练的流程图;
图5是本申请实施例提出的神经网络分布式训练装置的结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请的一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
神经网络分布式训练是指多个节点共同对由神经网络构建的一个模型进行训练。节点可以是计算机设备,多个节点组成训练模型的集群,为了保证分布式训练时模型的收敛性,节点之间存在不可避免的、耗时的信息交换过程,在节点之间进行信息交换的过程中,节点不能对模型进行训练,进而导致集群的利用率降低。
以经典的同步式随机梯度下降(Synchronous Stochastic Gradient Descent,SSGD)算法为例,SSGD算法的训练过程主要分为以下四步:(1)SSGD均匀地分发整个训练数据集,集群中每个节点获得一份训练数据集采样。(2)各节点利用接收的训练数据集采样在本地对神经网络模型进行训练,计算模型梯度。(3)集群中各节点之间同步梯度信息,每个节点将获得一个平均所有节点梯度的全局平均梯度。(4)集群中的每个节点使用全局平均梯度对神经网络模型进行更新。
SSGD算法通过第(3)步维持神经网络训练时的收敛性,将第(3)步作为单独的同步数据阶段,在该同步数据阶段各节点同步梯度。图1是同步式随机梯度下降算法的时间线路图,如图1所示,节点1、节点2和节点3接收到相同大小的训练数据集采样后,开始本地训练阶段,由于节点1、节点2和节点3的性能不同,所以节点1、节点2和节点3完成本地训练阶段的时间也不同,而节点1、节点2和节点3又需要在同一时间开始同步梯度,不可避免地部分节点会在本地训练阶段和同步数据阶段之间产生闲置时间,造成节点计算资源的浪费。此外,想较于闲置时间,同步数据阶段花费的时间更长,处于同步数据阶段的节点1、节点2和节点3完全处于等待状态,其处理核心(CPU、GPU)在同步数据阶段几乎没有负载,因此,同步数据阶段相较于闲置时间,会造成更大的资源浪费。
另一方面,利用SSGD算法训练神经网络模型的分布式训练过程中的四步高度耦合,即必须在第(3)步同步梯度信息完成后,各节点才能利用同步后的梯度对神经网络模型进行更新,导致同步数据阶段无法与本地训练阶段重合。
为缓解分布式神经网络模型训练中,各节点的数据同步阶段过长的问题,相关领域提出的解决方法包括:(1)增大训练过程中的批训练数据大小(Batch-size),批训练数据大小的增大可以显著降低SSGD的周期数,使得同步次数降低,同步时间也由此降低,但其会导致节点的训练时间增长(单次的训练量增大),对单个节点的配置要求增高以及模型的泛化能力下降。(2)节点周期性地同步。节点进行多次本地训练后再进行一次同步,从而通过降低同步频率的方法降低同步时间,但会导致模型的收敛率降低,并且两次同步之间需要的本地训练次数难以被确定。(3)数据压缩方法。节点在同步前对数据进行压缩,同步后再对数据解压,通过减少单次同步时间的方法降低整个训练过程的同步时间。数据压缩方法虽然可以大大降低同步时间,但它会在训练过程中引入额外的步骤,包括采样,压缩,解压缩等,一定程度上抵消了省下的同步时间。
为了提高分布式训练神经网络模型的效率,申请人改进了分布式神经网络的训练架构,提出本地训练和同步梯度并行的训练方法,在参与训练的每个节点初始化两个进程,一个进程不间断地进行本地训练,另一个进程不间断地同步梯度,保证单个节点的硬件(CPU、GPU)利用率提高,进而提升整个分布式集群的利用率。
图2是本申请实施例神经网络分布式训练方法的步骤流程图,图3是本申请实施例的一种示例中神经网络分布式训练方法的时间线路图,如图2和图3所示,训练神经网络包括以下步骤:
步骤S21:针对集群中的每个节点,建立同步进程以及与所述同步进程并行运行的训练进程;
集群是指参与分布式训练神经网络模型的多个节点组成的分布式集群。
同步进程和训练进程同享一个集群内编号,其同享的集群内编号由同步进程和训练进程所在节点决定。示例地,集群内有Q个计算机设备,每个计算机设备有不同的集群内编号,计算机设备A的集群内编号是i,那么计算机设备A建立的同步进程和训练进程同享的集群内编号是i。
同步进程和训练进程通过内存进行数据交流,即同步进程可以读取训练进程的部分数据,训练进程也可以读取同步进程的部分数据。
步骤S22:所述节点根据所述同步进程的状态信息,确定所述训练进程的第N个训练周期,N为>0的整数;
集群中的每个节点根据本地的同步进程的状态信息,确定本地当前进行的训练周期的周期数。
同步进程的状态信息包括同步状态和空闲状态,假设节点A的训练进程中执行到第5个训练周期,在节点A的同步进程的状态信息为同步状态时,节点A一致持续第5个训练周期的本地训练,在节点A的同步进程的状态信息为空闲状态时,节点A开始执行第6个训练周期的本地训练。
步骤S23:在所述第N个训练周期内,所述节点在所述训练进程中对目标神经网络模型进行训练,得到本地梯度;
目标神经网络模型是指预先构建的待训练的神经网络,构建目标神经网络可以使用卷积神经网络、循环神经网络、前馈神经网络等。
步骤S24:所述节点累加多次训练所述目标神经网络模型得到的本地梯度,得到累计梯度;
在第N个训练周期内,节点会对目标神经网络模型进行多次训练,每次训练得到一个本地梯度,并累加每次训练得到的本地梯度,得到累计梯度。
示例地,假设第N个训练周期内,节点在训练进程中进行了3次本地训练,分别得到本地梯度ΔA1、ΔA2和ΔA3,那么累计梯度为:ΔA1+ΔA2+ΔA3
步骤S25:所述节点在所述训练进程中进行第N+1个训练周期的训练时,在所述同步进程中与共同训练所述目标神经网络模型的其他节点同步所述累计梯度,并基于其他节点的累计梯度,计算获得第一平均梯度;
在同步进程每一次与共同训练目标神经网络模型的其他节点同步累计梯度前,同步进程会首先确定共同训练目标神经网络模型的其他节点也进入了同步进程,才会共同开始同步。
第一平均梯度是指集群中的各节点同步第N个训练周期得到的累计梯度计算出的平均梯度。训练进程执行第N+1个训练周期的过程,与同步进程执行同步第N个训练周期得到的累计梯度的过程是同时进行的。
继续以上述示例进行说明,节点的训练进程在读取到同步进程的状态信息为空闲状态时,结束第N个训练周期,开始第N+1个训练周期,并在同步进程同步得到的累计梯度:ΔA1+ΔA2+ΔA3
如图3所示,假设除节点A外,集群中训练目标神经网络模型的节点还有节点B和节点C,基于同样的训练方法,节点B得到累计梯度:ΔB1+ΔB2+ΔB3,节点C得到累计梯度:ΔC1+ΔC2+ΔC3,节点A、节点B和节点C同步累计梯度:ΔA1+ΔA2+ΔA3、累计梯度:ΔB1+ΔB2+ΔB3和累计梯度:ΔC1+ΔC2+ΔC3,得到第一平均梯度:ΔA1+ΔA2+ΔA3+ΔB1+ΔB2+ΔB3+ΔC1+ΔC2+ΔC3/3。
步骤S26:在所述训练进程完成所述第N+1个训练周期的训练后,所述节点在所述同步进程中利用所述第一平均梯度更新第N个训练周期结束时的所述目标神经网络模型的参数。
节点在训练进程中进行第N+1个训练周期的训练时,在同步进程中与共同训练目标神经网络模型的其他节点同步累计梯度之后,执行步骤:通过同步进程将同步状态赋值给同步进程的状态信息,以使训练进程完成所述第N+1个训练周期。
以节点A为示例进行说明,节点A的训练进程完成第1个训练周期后,其同步进程开始同步第1个训练周期得到的累计梯度,得到平均梯度,由于同步梯度需要时间,该时间内神经网络也在持续训练中,因此先存储平均梯度,同时节点A的训练进程对目标神经网络模型进行第1个训练周期的训练,节点A的训练进程完成第2个训练周期后,先以存储的平均梯度更新第2个训练周期开始前目标神经网络模型的参数,由于第1个训练周期内目标神经网络模型没有进行任何更新,所以第2个训练周期开始前目标神经网络模型的参数也是目标神经网络模型的原始参数。
本申请实施例在节点设置并行运行的同步进程和训练进程,使训练进程依据同步进程的状态信息,在同步进程同步梯度的任务时,不断地重复当前周期本地训练任务,并以本地训练得到的梯度对累计梯度进行更新,在同步进程结束同步梯度的任务时,对累计的梯度进行同步,并以上一次同步得到的平均梯度更新神经网络模型在当前周期开始前的参数。在上述训练过程中,节点在同步梯度的过程中,训练进程一直计算,充分利用了节点的计算资源。同时,由于节点在训练进程中,一直更新的是累积梯度,在第N个训练周期结束后,才会利用累积梯度更新目标神经网络模型在第N个训练周期开始前的参数,目标神经网络不会受第N个训练周期内单次训练得到的梯度的影响,保证了目标神经网络参数的时效性,进而保证了目标神经网络的收敛性。
在本申请的另一个实施例中,训练进程中还可以设置计数器,通过计数器保证第N个训练周期内,在训练进程中对目标神经网络的有序训练,以及累计梯度的准确性。
在所述训练进程设置计数器;其中,所述计数器用于记录所述目标神经网络模型在一个周期内的训练次数;同步进程可以通过内存进行数据交流,读取训练进程中计数器的数据。
同步进程与训练进程都是训练执行的本地任务,基于该基本情况,节点根据同步进程的状态信息,确定训练进程的第N个训练周期包括以下步骤:
初始化所述目标神经网络模型,确定所述训练进程的第1个训练周期;
取N=n+1,n为>0的整数,执行步骤:在所述同步进程的状态信息为空闲状态时,所述节点通过所述训练进程将同步状态赋值给所述同步进程的状态信息,以使所述同步进程进入同步状态;同时,所述节点将所述计数器记录的累计训练次数置为零,确定所述训练进程结束第N-1个训练周期并开始第N个训练周期。
节点在开始训练目标神经网络模型前,会初始化训练进程和同步进程,初始化训练进程后,节点初始化目标神经网络模型的参数,确定开始对目标神经网络模型执行第1个训练周期内的训练,并初始化计数器,使计数器从零开始计数。训练进程读取同步进程的状态信息,训练进程开始训练时,同步进程处于空闲状态,训练进程将同步状态赋值给同步进程,使同步进程开始执行同步任务,同时训练进程开始第2个训练周期内的训练,再次初始化计数器,使计数器归零,同步进程结束同步后,将空闲状态赋值给本身的状态信息,以使训练进程可以再次对状态信息赋值同步状态,以进入第2个训练周期,通过训练进程和同步进程不断对状态信息进行赋值,使训练进程依次执行完成第1个训练周期、第2个训练周期、第2个训练周期……至训练结束。
本申请实施例利用同步进程和训练进程可以通过共享内存进行交流的特点,采用对同步进程的状态信息进行赋值的方式,使训练进程在同步进程同步梯度时,执行当前的第N个训练周期,在同步进程结束梯度同步,开始下一次的训练,即开始第N+1个训练周期,不断循环,确定训练进程执行的训练周期。
本申请的另一个实施例详细说明了训练目标神经网络模型得到本地梯度,以及计算累计梯度的方法。
依次取m从1至M,M为>1的整数,在所述第N个训练周期内对所述目标神经网络模型进行第m次训练,得到对应第m次训练的本地梯度;在计数器记录的累计训练次数为零时,所述节点利用训练进程将目标神经网络模型的参数克隆到本地,得到克隆模型参数;在计数器记录的累计训练次数不为零时,利用对应第m次训练的本地梯度更新克隆模型参数,并对计数器记录的累计训练次数加一,直至同步进程的状态信息被赋值为空闲状态。
在一个训练周期内,只对目标神经网络模型的参数进行一次克隆,即在训练进程将同步状态赋值给同步进程的状态信息,训练进程的计数器归零之后,获取此时目标神经网络模型的参数,克隆到本地。
在每一个训练周期内,通过计数器记录训练次数,以使同步进程能够获取准确的用于更新的目标神经网络模型的状态。
利用SSGD算法训练神经网络模型的分布式训练过程中的四步高度耦合,现有技术无法单独执行神经网络模型的训练,也无法单独执行多个节点间的梯度同步,原因如下:假设节点1使用模型参数Wa计算得到本地梯度
Figure BDA0002735102740000131
此时,集群开始同步
Figure BDA0002735102740000132
并会在同步完成后使用
Figure BDA0002735102740000133
将Wa更新为Wa1。然而,由于集群在同步的时候仍然在训练,导致当上述同步完成时,Wa可能已经被更新了α次,变成了Wa+α。此时,若应用同步得到的
Figure BDA0002735102740000134
更新神经网络模型当前参数,则相当于模型Wa+α被使用Wa计算得到的
Figure BDA0002735102740000135
更新为W(a+α)1,显然W(a+α)不等于Wa1,严重干扰神经网络模型的收敛性。
针对上述问题,本申请实施例通过在第N个训练周期开始时,将目标神经网络模型的参数克隆到本地的方式,使第N个训练周期内目标神经网络模型每次训练得到的本地梯度都用于更新克隆到本地的参数,不影响目标神经网络模型本身的参数情况,在第N个训练周期结束后,各节点同步梯度,得到第一平均梯度,再在第N+1个训练周期完成后,利用第一平均梯度更新目标神经网络模型的参数。
在训练进程结束第N个训练周期后,同步进程执行梯度同步任务的步骤包括:节点判断当前同步进行是否执行第一次同步梯度任务,如果是第一次同步梯度任务,则直接与其他节点同步累计梯度。在同步进程是第一次进入同步状态的情况下,直接与目标神经网络模型的其他节点同步所述累计梯度,计算得到第一平均梯度;
如果不是第一次同步梯度任务,则在同步进程中,节点根据计数器记录的累计训练次数,获取在第N-1个训练周期结束时目标神经网络模型的参数,得到待更新的模型参数;
在同步进程不是第一次进入同步状态的情况下,获取第二平均梯度;其中,所述第二平均梯度是节点同步对应第N-1个训练周期获得的累计梯度得到的;利用第二平均梯度更新所述待更新的模型参数;与目标神经网络模型的其他节点同步所述累计梯度,得到第一平均梯度
假设第N个训练周期内,计数器记录的训练次数为counter,那么在第N个训练周期结束后,目标神经网络模型进行了e次训练,节点获取得到目标神经网络模型在第e-counter次训练时的参数,即目标神经网络模型在第N个训练周期开始前的参数,作为待更新的模型参数。
假设在第N个训练周期开始时,克隆目标神经网络模型的参数时,目标神经网络模型为WN,由于第N个训练周期内,克隆模型参数被本地梯度更新,保证了目标神经网络模型的参数不会改变,所以在第N个训练周期结束时,目标神经网络模型仍然为WN,此时,同步进程利用上一次同步得到的第二平均梯度更新目标神经网络模型在上一次训练周期结束后的模型参数WN-1,得到目标神经网络模型在进入第N+1次训练周期前的模型参数WN+1。在第N+1个训练周期结束后,同步进程利用训练WN得到的第一平均梯度更新在第N个训练周期结束时获取的目标神经网络的参数WN,以多次训练WN得到的平均后的累计梯度更新WN,解决了节点单独执行模型训练和梯度同步造成的梯度过期问题。
本申请另一个实施例依据计数器记录的训练次数,在第N个训练周期内,完成累计梯度的计算。
依次取m从1至M,M为>1的整数,在所述第N个训练周期内对所述目标神经网络模型进行第m次训练,得到对应所述第m次训练的本地梯度;在m等于1时,将对应所述第m次训练的本地梯度存储至本地,得到对应所述第m次训练的累计梯度;
在m不等于1时,将对应所述第m次训练的本地梯度累加至对应所述第m-1次训练的累计梯度,得到对应所述第m次训练的累计梯度。
m可以计数器记录的训练次数-1,在训练次数为零时,第N个训练周期内对目标神经网络模型进行第1次训练,克隆当前目标神经网络模型的参数,得到在第N个训练周期内代替目标神经网络模型被更新的克隆模型参数,训练得到本地梯度后,存储在本地。
在训练次数不为零时,第N个训练周期内对目标神经网络模型进行第2次训练中,训练得到本地梯度后,利用本地梯度更新第1次训练得到的克隆模型参数,并将本地梯度累加到存储在本地的第1次训练得到本地梯度,得到累计梯度1。在第3次训练中,训练得到本地梯度后,利用本地梯度更新第1次训练得到的克隆模型参数,并将本地梯度累加到存储在本地的累计梯度1,得到累计梯度2,以此循环,直至第N个训练周期结束。
本申请实施例依据计数器记录的训练次数,在第N个训练周期后,保证同步进程能够获得目标神经网络模型未开始第N个训练周期之前的参数,并保证累计梯度有序地累加,为得到准确的第一平均梯度提供基础。
图4是本申请实施例神经网络分布式训练的流程图,参考图4,本申请实施例执行神经网络分布式训练的过程如下:
首先介绍,同步进程和训练进程通过共享内存可以交流的数据包括:同步进程的状态信息、克隆模型参数、第i个节点在第N个训练周期进行第m次训练得到的本地梯度、第N个训练周期内的累计梯度
Figure BDA0002735102740000151
训练进行在第N个训练周期结束后本地总共的训练次数counter。
以pt表示训练进程、ps表示同步进程,W0表示目标神经网络模型的初始参数,status表示同步进程的状态信息,idling表示空闲状态,syncrhronizing表示同步状态,
Figure BDA0002735102740000152
表示节点在第N个训练周期进行第m次训练得到的本地梯度,replica表示克隆模型参数。e表示目标神经网络模型进行的本地训练的次数。
如图4所示,当status处于syncrhronizing状态时,表明ps正在执行同步任务;此时pt会检测counter是否为0。若counter为0,则pt将克隆当前的神经网络模型的全局参数到replica。然后,pt使用当前训练目标神经网络模型计算得到的梯度
Figure BDA0002735102740000161
更新克隆模replica并累加
Figure BDA0002735102740000162
Figure BDA0002735102740000163
中,最后pt将counter增加1。
当status处于idling状态时,表明ps正在闲置;此时pt命令ps开始同步并将status覆写位syncrhronizing。ps开始同步后,若存在上一次同步的梯度,则先使用上一次同步得到的梯度更新模型We-counter,然后ps开始同步上一次同步时pt本地训练累加的
Figure BDA0002735102740000164
最后将counter重置为0,将status覆写位idling。
本申请实施例提出在第N个训练周期内,节点在同步进程可以采用以下公式对目标神经网络模型进行更新:
Figure BDA0002735102740000165
其中,μ表示目标神经网络模型的学习率,n表示集群中的节点数,e1和e2表示在第N个训练周期内,节点进行了从e1开始到e2次的本地训练;
Figure BDA0002735102740000166
表示第i个节点在第e1次训练时,目标神经网络模型的参数;
Figure BDA0002735102740000167
表示在第i个节点在第N个训练周期内对目标神经网络模型进行第e次训练得到的本地梯度。
基于同一发明构思,本申请实施例提供一种神经网络分布式训练装置。图5是本申请实施例提出的神经网络分布式训练装置的结构示意图。如图5所示,该装置包括:
进程建立模块51,用于针对集群中的每个节点,建立同步进程以及与所述同步进程并行运行的训练进程;
训练周期确定模块52,用于使所述节点根据所述同步进程的状态信息,确定所述训练进程的第N个训练周期,N为>0的整数;
训练模块53,用于在所述第N个训练周期内,所述节点在所述训练进程中对目标神经网络模型进行训练,得到本地梯度;
累加模块54,用于使所述节点累加多次训练所述目标神经网络模型得到的本地梯度,得到累计梯度;
同步模块55,用于使所述节点在所述训练进程中进行第N+1个训练周期的训练时,在所述同步进程中与共同训练所述目标神经网络模型的其他节点同步所述累计梯度,并基于其他节点的累计梯度,计算获得第一平均梯度;
更新模块56,用于在所述训练进程完成所述第N+1个训练周期的训练后,所述节点在所述同步进程中利用所述第一平均梯度更新第N个训练周期结束时的所述目标神经网络模型的参数。
可选地,所述装置还包括:
设置模块,用于在所述训练进程设置计数器;其中,所述计数器用于记录所述目标神经网络模型在一个周期内的训练次数;
所述训练周期确定模块包括:
初始化子模块,用于初始化所述目标神经网络模型,确定所述训练进程的第1个训练周期;
训练周期确定子模块,用于取N=n+1,n为>0的整数,执行步骤:在所述同步进程的状态信息为空闲状态时,所述节点通过所述训练进程将同步状态赋值给所述同步进程的状态信息,以使所述同步进程进入同步状态;同时,所述节点将所述计数器记录的累计训练次数置为零,确定所述训练进程结束第N-1个训练周期并开始第N个训练周期。
可选地,所述训练模块包括:
第一训练子模块,用于依次取m从1至M,M为>1的整数,在所述第N个训练周期内对所述目标神经网络模型进行第m次训练,得到对应所述第m次训练的本地梯度;
克隆子模块,用于在所述计数器记录的累计训练次数为零时,所述节点利用所述训练进程将所述目标神经网络模型的参数克隆到本地,得到克隆模型参数;
第一更新子模块,用于在所述计数器记录的累计训练次数不为零时,利用对应所述第m次训练的本地梯度更新所述克隆模型参数,并对所述计数器记录的累计训练次数加一,直至所述同步进程的状态信息被赋值为空闲状态。
可选地,第二训练子模块,用于依次取m从1至M,M为>1的整数,在所述第N个训练周期内对所述目标神经网络模型进行第m次训练,得到对应所述第m次训练的本地梯度;
第一累计梯度,用于在m等于1时,将对应所述第m次训练的本地梯度存储至本地,得到对应所述第m次训练的累计梯度;
第二累计梯度,用于在m不等于1时,将对应所述第m次训练的本地梯度累加至对应所述第m-1次训练的累计梯度,得到对应所述第m次训练的累计梯度。
可选地,所述装置还包括:
参数获取模块,用于在所述同步进程中,所述节点根据所述计数器记录的累计训练次数,获取在所述第N-1个训练周期结束时所述目标神经网络模型的参数,得到待更新的模型参数;
可选地,所述同步模块包括:
第一同步子模块,用于在所述同步进程是第一次进入同步状态的情况下,直接与所述目标神经网络模型的其他节点同步所述累计梯度,计算得到第一平均梯度;
梯度获取子模块,用于在所述同步进程不是第一次进入同步状态的情况下,获取第二平均梯度;其中,所述第二平均梯度是所述节点同步对应所述第N-1个训练周期获得的累计梯度得到的;
第二更新子模块,用于利用所述第二平均梯度更新所述待更新的模型参数;
第一同步子模块,用于与所述目标神经网络模型的其他节点同步所述累计梯度,得到第一平均梯度。
可选地,所述装置还包括:
赋值模块,用于通过所述同步进程将同步状态赋值给所述同步进程的状态信息,以使所述训练进程完成所述第N+1个训练周期。
基于同一发明构思,本申请另一实施例提供一种可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如本申请上述任一实施例所述的神经网络分布式训练方法中的步骤。
基于同一发明构思,本申请另一实施例提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行时实现本申请上述任一实施例所述的神经网络分布式训练方法中的步骤。
对于装置实施例而言,由于其与方法实施例基本相似,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
本说明书中的各个实施例均采用递进或说明的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。
本领域内的技术人员应明白,本申请实施例的实施例可提供为方法、装置、或计算机程序产品。因此,本申请实施例可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请实施例是参照根据本申请实施例的方法、装置、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理终端设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理终端设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理终端设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理终端设备上,使得在计算机或其他可编程终端设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程终端设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
尽管已描述了本申请实施例的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例做出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本申请实施例范围的所有变更和修改。
最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者终端设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者终端设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者终端设备中还存在另外的相同要素。
以上对本申请所提供的一种神经网络分布式训练方法、装置、设备及存储介质,进行了详细介绍,以上实施例的说明只是用于帮助理解本申请的方法及其核心思想;同时,对于本领域的一般技术人员,依据本申请的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本申请的限制。

Claims (10)

1.一种神经网络分布式训练方法,其特征在于,所述方法包括:
针对集群中的每个节点,建立同步进程以及与所述同步进程并行运行的训练进程;
所述节点根据所述同步进程的状态信息,确定所述训练进程的第N个训练周期,N为>0的整数;
在所述第N个训练周期内,所述节点在所述训练进程中对目标神经网络模型进行训练,得到本地梯度;
所述节点累加多次训练所述目标神经网络模型得到的本地梯度,得到累计梯度;
所述节点在所述训练进程中进行第N+1个训练周期的训练时,在所述同步进程中与共同训练所述目标神经网络模型的其他节点同步所述累计梯度,并基于其他节点的累计梯度,计算获得第一平均梯度;
在所述训练进程完成所述第N+1个训练周期的训练后,所述节点在所述同步进程中利用所述第一平均梯度更新第N个训练周期结束时的所述目标神经网络模型的参数。
2.根据所述权利要求1所述的方法,其特征在于,所述方法还包括:
在所述训练进程设置计数器;其中,所述计数器用于记录所述目标神经网络模型在一个周期内的训练次数;
所述节点根据所述同步进程的状态信息,确定所述训练进程的第N个训练周期,包括:
初始化所述目标神经网络模型,确定所述训练进程的第1个训练周期;
取N=n+1,n为>0的整数,执行步骤:在所述同步进程的状态信息为空闲状态时,所述节点通过所述训练进程将同步状态赋值给所述同步进程的状态信息,以使所述同步进程进入同步状态;同时,所述节点将所述计数器记录的累计训练次数置为零,确定所述训练进程结束第N-1个训练周期并开始第N个训练周期。
3.根据权利要求2所述的方法,其特征在于,在所述第N个训练周期内,所述节点在所述训练进程中对目标神经网络模型进行训练,得到本地梯度,包括:
依次取m从1至M,M为>1的整数,在所述第N个训练周期内对所述目标神经网络模型进行第m次训练,得到对应所述第m次训练的本地梯度;
在所述计数器记录的累计训练次数为零时,所述节点利用所述训练进程将所述目标神经网络模型的参数克隆到本地,得到克隆模型参数;
在所述计数器记录的累计训练次数不为零时,利用对应所述第m次训练的本地梯度更新所述克隆模型参数,并对所述计数器记录的累计训练次数加一,直至所述同步进程的状态信息被赋值为空闲状态。
4.根据权利要求2所述的方法,其特征在于,所述节点累加多次训练所述目标神经网络模型得到的本地梯度,得到累计梯度,包括:
依次取m从1至M,M为>1的整数,在所述第N个训练周期内对所述目标神经网络模型进行第m次训练,得到对应所述第m次训练的本地梯度;
在m等于1时,将对应所述第m次训练的本地梯度存储至本地,得到对应所述第m次训练的累计梯度;
在m不等于1时,将对应所述第m次训练的本地梯度累加至对应所述第m-1次训练的累计梯度,得到对应所述第m次训练的累计梯度。
5.根据所述权利要求2所述的方法,其特征在于,在所述同步进程的状态信息为空闲状态时,所述节点通过所述训练进程将同步状态赋值给所述同步进程的状态信息,以使所述同步进程进入同步状态之后,所述方法还包括:
在所述同步进程中,所述节点根据所述计数器记录的累计训练次数,获取在所述第N-1个训练周期结束时所述目标神经网络模型的参数,得到待更新的模型参数;
所述节点在所述同步进程中与共同训练所述目标神经网络模型的其他节点同步所述累计梯度,并基于其他节点的累计梯度,计算获得第一平均梯度,包括:
在所述同步进程是第一次进入同步状态的情况下,直接与所述目标神经网络模型的其他节点同步所述累计梯度,计算得到第一平均梯度;
在所述同步进程不是第一次进入同步状态的情况下,获取第二平均梯度;其中,所述第二平均梯度是所述节点同步对应所述第N-1个训练周期获得的累计梯度得到的;
利用所述第二平均梯度更新所述待更新的模型参数;
与所述目标神经网络模型的其他节点同步所述累计梯度,得到第一平均梯度。
6.根据所述权利要求1所述的方法,其特征在于,所述节点在所述训练进程中进行第N+1个训练周期的训练时,在所述同步进程中与共同训练所述目标神经网络模型的其他节点同步所述累计梯度之后,所述方法还包括:
通过所述同步进程将同步状态赋值给所述同步进程的状态信息,以使所述训练进程完成所述第N+1个训练周期。
7.一种神经网络分布式训练装置,其特征在于,所述装置包括:
进程建立模块,用于针对集群中的每个节点,建立同步进程以及与所述同步进程并行运行的训练进程;
训练周期确定模块,用于使所述节点根据所述同步进程的状态信息,确定所述训练进程的第N个训练周期,N为>0的整数;
训练模块,用于在所述第N个训练周期内,所述节点在所述训练进程中对目标神经网络模型进行训练,得到本地梯度;
累加模块,用于使所述节点累加多次训练所述目标神经网络模型得到的本地梯度,得到累计梯度;
同步模块,用于使所述节点在所述训练进程中进行第N+1个训练周期的训练时,在所述同步进程中与共同训练所述目标神经网络模型的其他节点同步所述累计梯度,并基于其他节点的累计梯度,计算获得第一平均梯度;
更新模块,用于在所述训练进程完成所述第N+1个训练周期的训练后,所述节点在所述同步进程中利用所述第一平均梯度更新第N个训练周期结束时的所述目标神经网络模型的参数。
8.根据所述权利要求7所述的装置,其特征在于,所述装置还包括:
设置模块,用于在所述训练进程设置计数器;其中,所述计数器用于记录所述目标神经网络模型在一个周期内的训练次数;
所述训练周期确定模块包括:
初始化子模块,用于初始化所述目标神经网络模型,确定所述训练进程的第1个训练周期;
训练周期确定子模块,用于取N=n+1,n为>0的整数,执行步骤:在所述同步进程的状态信息为空闲状态时,所述节点通过所述训练进程将同步状态赋值给所述同步进程的状态信息,以使所述同步进程进入同步状态;同时,所述节点将所述计数器记录的累计训练次数置为零,确定所述训练进程结束第N-1个训练周期并开始第N个训练周期。
9.一种可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1-6任一所述的方法中的步骤。
10.一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行时实现如权利要求1-6任一所述的方法的步骤。
CN202011130809.8A 2020-10-21 2020-10-21 一种神经网络分布式训练方法、装置、设备及存储介质 Pending CN112288083A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011130809.8A CN112288083A (zh) 2020-10-21 2020-10-21 一种神经网络分布式训练方法、装置、设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011130809.8A CN112288083A (zh) 2020-10-21 2020-10-21 一种神经网络分布式训练方法、装置、设备及存储介质

Publications (1)

Publication Number Publication Date
CN112288083A true CN112288083A (zh) 2021-01-29

Family

ID=74424435

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011130809.8A Pending CN112288083A (zh) 2020-10-21 2020-10-21 一种神经网络分布式训练方法、装置、设备及存储介质

Country Status (1)

Country Link
CN (1) CN112288083A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2021136065A1 (zh) * 2019-12-30 2021-07-08 中兴通讯股份有限公司 深度学习方法、装置、网络设备和可读存储介质
CN114841341A (zh) * 2022-04-25 2022-08-02 北京百度网讯科技有限公司 模型训练及数据处理方法、装置、设备和存储介质
CN114862655A (zh) * 2022-05-18 2022-08-05 北京百度网讯科技有限公司 用于模型训练的运行控制方法、装置和电子设备
WO2022179007A1 (zh) * 2021-02-27 2022-09-01 上海商汤智能科技有限公司 基于分布式通信的神经网络训练方法、装置及存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20160078361A1 (en) * 2014-09-11 2016-03-17 Amazon Technologies, Inc. Optimized training of linear machine learning models
CN110348571A (zh) * 2016-11-29 2019-10-18 华为技术有限公司 一种神经网络模型训练方法、装置、芯片和系统
WO2020081399A1 (en) * 2018-10-15 2020-04-23 Nam Sung Kim Network-centric architecture and algorithms to accelerate distributed training of neural networks
CN111709533A (zh) * 2020-08-19 2020-09-25 腾讯科技(深圳)有限公司 机器学习模型的分布式训练方法、装置以及计算机设备
CN111723933A (zh) * 2020-06-03 2020-09-29 上海商汤智能科技有限公司 神经网络模型的训练方法和相关产品

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20160078361A1 (en) * 2014-09-11 2016-03-17 Amazon Technologies, Inc. Optimized training of linear machine learning models
CN110348571A (zh) * 2016-11-29 2019-10-18 华为技术有限公司 一种神经网络模型训练方法、装置、芯片和系统
WO2020081399A1 (en) * 2018-10-15 2020-04-23 Nam Sung Kim Network-centric architecture and algorithms to accelerate distributed training of neural networks
CN111723933A (zh) * 2020-06-03 2020-09-29 上海商汤智能科技有限公司 神经网络模型的训练方法和相关产品
CN111709533A (zh) * 2020-08-19 2020-09-25 腾讯科技(深圳)有限公司 机器学习模型的分布式训练方法、装置以及计算机设备

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
YUHAO ZHOU 等: "HPSGD:Hierarchical Parallel SGD With Stale Gradients Featuring", HTTPS://DOI.ORG/10.48550/ARXIV.2009.02701, 6 September 2020 (2020-09-06), pages 1 - 11 *

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2021136065A1 (zh) * 2019-12-30 2021-07-08 中兴通讯股份有限公司 深度学习方法、装置、网络设备和可读存储介质
WO2022179007A1 (zh) * 2021-02-27 2022-09-01 上海商汤智能科技有限公司 基于分布式通信的神经网络训练方法、装置及存储介质
CN114841341A (zh) * 2022-04-25 2022-08-02 北京百度网讯科技有限公司 模型训练及数据处理方法、装置、设备和存储介质
CN114841341B (zh) * 2022-04-25 2023-04-28 北京百度网讯科技有限公司 图像处理模型训练及图像处理方法、装置、设备和介质
CN114862655A (zh) * 2022-05-18 2022-08-05 北京百度网讯科技有限公司 用于模型训练的运行控制方法、装置和电子设备
CN114862655B (zh) * 2022-05-18 2023-03-10 北京百度网讯科技有限公司 用于模型训练的运行控制方法、装置和电子设备

Similar Documents

Publication Publication Date Title
CN112288083A (zh) 一种神经网络分布式训练方法、装置、设备及存储介质
CN110619388B (zh) 一种分布式训练中梯度同步方法及装置
CN113794748B (zh) 一种性能感知的服务功能链智能部署方法及装置
CN114756383A (zh) 一种分布式计算方法、系统、设备及存储介质
US11263539B2 (en) Distributed machine learning method and system
CN108446770B (zh) 一种基于采样的分布式机器学习慢节点处理系统及方法
CN110348571A (zh) 一种神经网络模型训练方法、装置、芯片和系统
CN110135573A (zh) 一种深度学习模型的训练方法、计算设备以及系统
CN111324630B (zh) 基于mpi的神经网络架构搜索并行化方法和设备
CN105553598B (zh) 一种基于m估计稳健回归的时间触发以太网时钟补偿方法
CN111105016A (zh) 一种数据处理方法、装置、电子设备及可读存储介质
CN103336719A (zh) 一种p2p模式下分布渲染系统及方法
CN112862088A (zh) 一种基于流水线环形参数通信的分布式深度学习方法
CN114650227A (zh) 一种分层联邦学习场景下的网络拓扑构建方法及系统
CN114356578B (zh) 自然语言处理模型的并行计算方法、装置、设备及介质
CN116339849A (zh) 移动边缘计算环境下多用户多任务计算卸载方法及系统
CN110600020B (zh) 一种梯度传输方法及装置
CN110472731A (zh) 一种分布式训练中梯度同步方法及装置
CN108495138A (zh) 一种基于gpu的整像素运动估计方法
CN117193992B (zh) 模型训练方法、任务调度方法、装置以及计算机存储介质
Nabli et al. DADAO: Decoupled accelerated decentralized asynchronous optimization
CN110633798B (zh) 一种分布式训练中参数更新方法及装置
CN116962438A (zh) 一种梯度数据同步方法、系统、电子设备及可读存储介质
CN112256653B (zh) 一种数据采样方法和装置
CN109871270A (zh) 调度方案生成方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination