CN112288083A

CN112288083A - 一种神经网络分布式训练方法、装置、设备及存储介质

Info

Publication number: CN112288083A
Application number: CN202011130809.8A
Authority: CN
Inventors: 周宇浩; 叶庆; 张海伦
Original assignee: Individual
Current assignee: Individual
Priority date: 2020-10-21
Filing date: 2020-10-21
Publication date: 2021-01-29

Abstract

本申请提供了一种神经网络分布式训练方法、装置、设备及存储介质，涉及机器学习技术领域。该方法改进了分布式神经网络的训练架构，提高分布式训练中各个节点的计算资源利用率，包括：针对集群中的每个节点，建立同步进程以及与同步进程并行运行的训练进程；节点根据同步进程的状态信息，确定训练进程的第N个训练周期；在第N个训练周期内，节点对目标神经网络模型进行训练，得到本地梯度；节点累加本地梯度，得到累计梯度；节点在训练进程中进行第N+1个训练周期的训练时，在同步进程中与其他节点同步累计梯度，计算获得第一平均梯度；在节点在同步进程中利用第一平均梯度更新第N个训练周期结束时的目标神经网络模型的参数。

Description

一种神经网络分布式训练方法、装置、设备及存储介质

技术领域

本申请涉及机器学习技术领域，特别是涉及一种神经网络分布式训练方法、装置、设备及存储介质。

背景技术

基于大型数据集对神经网络进行训练在多个领域获得令人印象深刻的性能表现，例如：在图像识别、自然语言处理，欺诈检测和推荐系统等领域利用大型数据集训练神经网络提高了应用的准确性。但基于大型数据集训练神经网络对计算设备的性能要求很高，单个计算设备很难完成。

分布式的神经网络训练使得训练复杂的神经网络，以及利用大规模训练数据集训练神经网络成为可能。但由于参与分布式训练的各节点存在性能差异，处理数据所需时间不同，因此存在部分节点资源浪费的情况。同时，节点之间存在不可避免的、耗时的信息交换过程，也导致了节点利用率低的问题。

发明内容

本申请实施例提供一种神经网络分布式训练方法、装置、设备及存储介质，改进分布式神经网络的训练架构，提高分布式训练中各个节点的计算资源利用率。

本申请实施例第一方面提供一种神经网络分布式训练方法，所述方法包括：

针对集群中的每个节点，建立同步进程以及与所述同步进程并行运行的训练进程；

所述节点根据所述同步进程的状态信息，确定所述训练进程的第N个训练周期，N为＞0的整数；

在所述第N个训练周期内，所述节点在所述训练进程中对目标神经网络模型进行训练，得到本地梯度；

所述节点累加多次训练所述目标神经网络模型得到的本地梯度，得到累计梯度；

所述节点在所述训练进程中进行第N+1个训练周期的训练时，在所述同步进程中与共同训练所述目标神经网络模型的其他节点同步所述累计梯度，并基于其他节点的累计梯度，计算获得第一平均梯度；

在所述训练进程完成所述第N+1个训练周期的训练后，所述节点在所述同步进程中利用所述第一平均梯度更新第N个训练周期结束时的所述目标神经网络模型的参数。

可选地，所述方法还包括：

在所述训练进程设置计数器；其中，所述计数器用于记录所述目标神经网络模型在一个周期内的训练次数；

所述节点根据所述同步进程的状态信息，确定所述训练进程的第N个训练周期，包括：

初始化所述目标神经网络模型，确定所述训练进程的第1个训练周期；

取N＝n+1，n为＞0的整数，执行步骤：在所述同步进程的状态信息为空闲状态时，所述节点通过所述训练进程将同步状态赋值给所述同步进程的状态信息，以使所述同步进程进入同步状态；同时，所述节点将所述计数器记录的累计训练次数置为零，确定所述训练进程结束第N-1个训练周期并开始第N个训练周期。

可选地，在所述第N个训练周期内，所述节点在所述训练进程中对目标神经网络模型进行训练，得到本地梯度，包括：

依次取m从1至M，M为＞1的整数，在所述第N个训练周期内对所述目标神经网络模型进行第m次训练，得到对应所述第m次训练的本地梯度；

在所述计数器记录的累计训练次数为零时，所述节点利用所述训练进程将所述目标神经网络模型的参数克隆到本地，得到克隆模型参数；

在所述计数器记录的累计训练次数不为零时，利用对应所述第m次训练的本地梯度更新所述克隆模型参数，并对所述计数器记录的累计训练次数加一，直至所述同步进程的状态信息被赋值为空闲状态。

可选地，所述节点累加多次训练所述目标神经网络模型得到的本地梯度，得到累计梯度，包括：

在m等于1时，将对应所述第m次训练的本地梯度存储至本地，得到对应所述第m次训练的累计梯度；

在m不等于1时，将对应所述第m次训练的本地梯度累加至对应所述第m-1次训练的累计梯度，得到对应所述第m次训练的累计梯度。

可选地，在所述同步进程的状态信息为空闲状态时，所述节点通过所述训练进程将同步状态赋值给所述同步进程的状态信息，以使所述同步进程进入同步状态之后，所述方法还包括：

在所述同步进程中，所述节点根据所述计数器记录的累计训练次数，获取在所述第N-1个训练周期结束时所述目标神经网络模型的参数，得到待更新的模型参数；

所述节点在所述同步进程中与共同训练所述目标神经网络模型的其他节点同步所述累计梯度，并基于其他节点的累计梯度，计算获得第一平均梯度，包括：

在所述同步进程是第一次进入同步状态的情况下，直接与所述目标神经网络模型的其他节点同步所述累计梯度，计算得到第一平均梯度；

在所述同步进程不是第一次进入同步状态的情况下，获取第二平均梯度；其中，所述第二平均梯度是所述节点同步对应所述第N-1个训练周期获得的累计梯度得到的；

利用所述第二平均梯度更新所述待更新的模型参数；

与所述目标神经网络模型的其他节点同步所述累计梯度，得到第一平均梯度。

可选地，所述节点在所述训练进程中进行第N+1个训练周期的训练时，在所述同步进程中与共同训练所述目标神经网络模型的其他节点同步所述累计梯度之后，所述方法还包括：

通过所述同步进程将同步状态赋值给所述同步进程的状态信息，以使所述训练进程完成所述第N+1个训练周期。

本申请实施例第二方面提供一种神经网络分布式训练装置，所述装置包括：

进程建立模块，用于针对集群中的每个节点，建立同步进程以及与所述同步进程并行运行的训练进程；

训练周期确定模块，用于使所述节点根据所述同步进程的状态信息，确定所述训练进程的第N个训练周期，N为＞0的整数；

训练模块，用于在所述第N个训练周期内，所述节点在所述训练进程中对目标神经网络模型进行训练，得到本地梯度；

累加模块，用于使所述节点累加多次训练所述目标神经网络模型得到的本地梯度，得到累计梯度；

同步模块，用于使所述节点在所述训练进程中进行第N+1个训练周期的训练时，在所述同步进程中与共同训练所述目标神经网络模型的其他节点同步所述累计梯度，并基于其他节点的累计梯度，计算获得第一平均梯度；

更新模块，用于在所述训练进程完成所述第N+1个训练周期的训练后，所述节点在所述同步进程中利用所述第一平均梯度更新第N个训练周期结束时的所述目标神经网络模型的参数。

可选地，所述装置还包括：

设置模块，用于在所述训练进程设置计数器；其中，所述计数器用于记录所述目标神经网络模型在一个周期内的训练次数；

所述训练周期确定模块包括：

初始化子模块，用于初始化所述目标神经网络模型，确定所述训练进程的第1个训练周期；

训练周期确定子模块，用于取N＝n+1，n为＞0的整数，执行步骤：在所述同步进程的状态信息为空闲状态时，所述节点通过所述训练进程将同步状态赋值给所述同步进程的状态信息，以使所述同步进程进入同步状态；同时，所述节点将所述计数器记录的累计训练次数置为零，确定所述训练进程结束第N-1个训练周期并开始第N个训练周期。

可选地，所述训练模块包括：

第一训练子模块，用于依次取m从1至M，M为＞1的整数，在所述第N个训练周期内对所述目标神经网络模型进行第m次训练，得到对应所述第m次训练的本地梯度；

克隆子模块，用于在所述计数器记录的累计训练次数为零时，所述节点利用所述训练进程将所述目标神经网络模型的参数克隆到本地，得到克隆模型参数；

第一更新子模块，用于在所述计数器记录的累计训练次数不为零时，利用对应所述第m次训练的本地梯度更新所述克隆模型参数，并对所述计数器记录的累计训练次数加一，直至所述同步进程的状态信息被赋值为空闲状态。

可选地，所述累加模块包括：

第二训练子模块，用于依次取m从1至M，M为＞1的整数，在所述第N个训练周期内对所述目标神经网络模型进行第m次训练，得到对应所述第m次训练的本地梯度；

第一累计梯度，用于在m等于1时，将对应所述第m次训练的本地梯度存储至本地，得到对应所述第m次训练的累计梯度；

第二累计梯度，用于在m不等于1时，将对应所述第m次训练的本地梯度累加至对应所述第m-1次训练的累计梯度，得到对应所述第m次训练的累计梯度。

可选地，所述装置还包括：

参数获取模块，用于在所述同步进程中，所述节点根据所述计数器记录的累计训练次数，获取在所述第N-1个训练周期结束时所述目标神经网络模型的参数，得到待更新的模型参数；

所述同步模块包括：

第一同步子模块，用于在所述同步进程是第一次进入同步状态的情况下，直接与所述目标神经网络模型的其他节点同步所述累计梯度，计算得到第一平均梯度；

梯度获取子模块，用于在所述同步进程不是第一次进入同步状态的情况下，获取第二平均梯度；其中，所述第二平均梯度是所述节点同步对应所述第N-1个训练周期获得的累计梯度得到的；

第二更新子模块，用于利用所述第二平均梯度更新所述待更新的模型参数；

第一同步子模块，用于与所述目标神经网络模型的其他节点同步所述累计梯度，得到第一平均梯度。

可选地，所述装置还包括：

赋值模块，用于通过所述同步进程将同步状态赋值给所述同步进程的状态信息，以使所述训练进程完成所述第N+1个训练周期。

本申请实施例第三方面提供一种可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时，实现如本申请第一方面所述的方法中的步骤。

本申请实施例第四方面提供一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述计算机程序时，实现本申请第一方面所述的方法的步骤。

本申请实施例在节点设置并行运行的同步进程和训练进程，使训练进程依据同步进程的状态信息，在同步进程同步梯度的任务时，不断地重复当前周期本地训练任务，并以本地训练得到的梯度对累计梯度进行更新，在同步进程结束同步梯度的任务时，对累计的梯度进行同步，并以上一次同步得到的平均梯度更新神经网络模型在当前周期开始前的参数。在上述训练过程中，节点在同步梯度的过程中，训练进程一直计算，充分利用了节点的计算资源。同时，由于节点在训练进程中，一直更新的是累积梯度，在第N个训练周期结束后，才会利用累积梯度更新目标神经网络模型在第N个训练周期开始前的参数，目标神经网络不会受第N个训练周期内单次训练得到的梯度的影响，保证了目标神经网络参数的时效性，进而保证了目标神经网络的收敛性。

附图说明

为了更清楚地说明本申请实施例的技术方案，下面将对本申请实施例的描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是同步式随机梯度下降算法的时间线路图；

图2是本申请实施例神经网络分布式训练方法的步骤流程图；

图3是本申请实施例的一种示例中神经网络分布式训练方法的时间线路图；

图4是本申请实施例神经网络分布式训练的流程图；

图5是本申请实施例提出的神经网络分布式训练装置的结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请的一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

神经网络分布式训练是指多个节点共同对由神经网络构建的一个模型进行训练。节点可以是计算机设备，多个节点组成训练模型的集群，为了保证分布式训练时模型的收敛性，节点之间存在不可避免的、耗时的信息交换过程，在节点之间进行信息交换的过程中，节点不能对模型进行训练，进而导致集群的利用率降低。

以经典的同步式随机梯度下降(Synchronous Stochastic Gradient Descent,SSGD)算法为例，SSGD算法的训练过程主要分为以下四步：(1)SSGD均匀地分发整个训练数据集，集群中每个节点获得一份训练数据集采样。(2)各节点利用接收的训练数据集采样在本地对神经网络模型进行训练，计算模型梯度。(3)集群中各节点之间同步梯度信息，每个节点将获得一个平均所有节点梯度的全局平均梯度。(4)集群中的每个节点使用全局平均梯度对神经网络模型进行更新。

SSGD算法通过第(3)步维持神经网络训练时的收敛性，将第(3)步作为单独的同步数据阶段，在该同步数据阶段各节点同步梯度。图1是同步式随机梯度下降算法的时间线路图，如图1所示，节点1、节点2和节点3接收到相同大小的训练数据集采样后，开始本地训练阶段，由于节点1、节点2和节点3的性能不同，所以节点1、节点2和节点3完成本地训练阶段的时间也不同，而节点1、节点2和节点3又需要在同一时间开始同步梯度，不可避免地部分节点会在本地训练阶段和同步数据阶段之间产生闲置时间，造成节点计算资源的浪费。此外，想较于闲置时间，同步数据阶段花费的时间更长，处于同步数据阶段的节点1、节点2和节点3完全处于等待状态，其处理核心(CPU、GPU)在同步数据阶段几乎没有负载，因此，同步数据阶段相较于闲置时间，会造成更大的资源浪费。

另一方面，利用SSGD算法训练神经网络模型的分布式训练过程中的四步高度耦合，即必须在第(3)步同步梯度信息完成后，各节点才能利用同步后的梯度对神经网络模型进行更新，导致同步数据阶段无法与本地训练阶段重合。

为缓解分布式神经网络模型训练中，各节点的数据同步阶段过长的问题，相关领域提出的解决方法包括：(1)增大训练过程中的批训练数据大小(Batch-size)，批训练数据大小的增大可以显著降低SSGD的周期数，使得同步次数降低，同步时间也由此降低，但其会导致节点的训练时间增长(单次的训练量增大)，对单个节点的配置要求增高以及模型的泛化能力下降。(2)节点周期性地同步。节点进行多次本地训练后再进行一次同步，从而通过降低同步频率的方法降低同步时间，但会导致模型的收敛率降低，并且两次同步之间需要的本地训练次数难以被确定。(3)数据压缩方法。节点在同步前对数据进行压缩，同步后再对数据解压，通过减少单次同步时间的方法降低整个训练过程的同步时间。数据压缩方法虽然可以大大降低同步时间，但它会在训练过程中引入额外的步骤，包括采样，压缩，解压缩等，一定程度上抵消了省下的同步时间。

为了提高分布式训练神经网络模型的效率，申请人改进了分布式神经网络的训练架构，提出本地训练和同步梯度并行的训练方法，在参与训练的每个节点初始化两个进程，一个进程不间断地进行本地训练，另一个进程不间断地同步梯度，保证单个节点的硬件(CPU、GPU)利用率提高，进而提升整个分布式集群的利用率。

图2是本申请实施例神经网络分布式训练方法的步骤流程图，图3是本申请实施例的一种示例中神经网络分布式训练方法的时间线路图，如图2和图3所示，训练神经网络包括以下步骤：

步骤S21：针对集群中的每个节点，建立同步进程以及与所述同步进程并行运行的训练进程；

集群是指参与分布式训练神经网络模型的多个节点组成的分布式集群。

同步进程和训练进程同享一个集群内编号，其同享的集群内编号由同步进程和训练进程所在节点决定。示例地，集群内有Q个计算机设备，每个计算机设备有不同的集群内编号，计算机设备A的集群内编号是i，那么计算机设备A建立的同步进程和训练进程同享的集群内编号是i。

同步进程和训练进程通过内存进行数据交流，即同步进程可以读取训练进程的部分数据，训练进程也可以读取同步进程的部分数据。

步骤S22：所述节点根据所述同步进程的状态信息，确定所述训练进程的第N个训练周期，N为＞0的整数；

集群中的每个节点根据本地的同步进程的状态信息，确定本地当前进行的训练周期的周期数。

同步进程的状态信息包括同步状态和空闲状态，假设节点A的训练进程中执行到第5个训练周期，在节点A的同步进程的状态信息为同步状态时，节点A一致持续第5个训练周期的本地训练，在节点A的同步进程的状态信息为空闲状态时，节点A开始执行第6个训练周期的本地训练。

步骤S23：在所述第N个训练周期内，所述节点在所述训练进程中对目标神经网络模型进行训练，得到本地梯度；

目标神经网络模型是指预先构建的待训练的神经网络，构建目标神经网络可以使用卷积神经网络、循环神经网络、前馈神经网络等。

步骤S24：所述节点累加多次训练所述目标神经网络模型得到的本地梯度，得到累计梯度；

在第N个训练周期内，节点会对目标神经网络模型进行多次训练，每次训练得到一个本地梯度，并累加每次训练得到的本地梯度，得到累计梯度。

示例地，假设第N个训练周期内，节点在训练进程中进行了3次本地训练，分别得到本地梯度ΔA₁、ΔA₂和ΔA₃，那么累计梯度为：ΔA₁+ΔA₂+ΔA₃。

步骤S25：所述节点在所述训练进程中进行第N+1个训练周期的训练时，在所述同步进程中与共同训练所述目标神经网络模型的其他节点同步所述累计梯度，并基于其他节点的累计梯度，计算获得第一平均梯度；

在同步进程每一次与共同训练目标神经网络模型的其他节点同步累计梯度前，同步进程会首先确定共同训练目标神经网络模型的其他节点也进入了同步进程，才会共同开始同步。

第一平均梯度是指集群中的各节点同步第N个训练周期得到的累计梯度计算出的平均梯度。训练进程执行第N+1个训练周期的过程，与同步进程执行同步第N个训练周期得到的累计梯度的过程是同时进行的。

继续以上述示例进行说明，节点的训练进程在读取到同步进程的状态信息为空闲状态时，结束第N个训练周期，开始第N+1个训练周期，并在同步进程同步得到的累计梯度：ΔA₁+ΔA₂+ΔA₃。

如图3所示，假设除节点A外，集群中训练目标神经网络模型的节点还有节点B和节点C，基于同样的训练方法，节点B得到累计梯度：ΔB₁+ΔB₂+ΔB₃，节点C得到累计梯度：ΔC₁+ΔC₂+ΔC₃，节点A、节点B和节点C同步累计梯度：ΔA₁+ΔA₂+ΔA₃、累计梯度：ΔB₁+ΔB₂+ΔB₃和累计梯度：ΔC₁+ΔC₂+ΔC₃，得到第一平均梯度：ΔA₁+ΔA₂+ΔA₃+ΔB₁+ΔB₂+ΔB₃+ΔC₁+ΔC₂+ΔC₃/3。

步骤S26：在所述训练进程完成所述第N+1个训练周期的训练后，所述节点在所述同步进程中利用所述第一平均梯度更新第N个训练周期结束时的所述目标神经网络模型的参数。

节点在训练进程中进行第N+1个训练周期的训练时，在同步进程中与共同训练目标神经网络模型的其他节点同步累计梯度之后，执行步骤：通过同步进程将同步状态赋值给同步进程的状态信息，以使训练进程完成所述第N+1个训练周期。

以节点A为示例进行说明，节点A的训练进程完成第1个训练周期后，其同步进程开始同步第1个训练周期得到的累计梯度，得到平均梯度，由于同步梯度需要时间，该时间内神经网络也在持续训练中，因此先存储平均梯度，同时节点A的训练进程对目标神经网络模型进行第1个训练周期的训练，节点A的训练进程完成第2个训练周期后，先以存储的平均梯度更新第2个训练周期开始前目标神经网络模型的参数，由于第1个训练周期内目标神经网络模型没有进行任何更新，所以第2个训练周期开始前目标神经网络模型的参数也是目标神经网络模型的原始参数。

在本申请的另一个实施例中，训练进程中还可以设置计数器，通过计数器保证第N个训练周期内，在训练进程中对目标神经网络的有序训练，以及累计梯度的准确性。

在所述训练进程设置计数器；其中，所述计数器用于记录所述目标神经网络模型在一个周期内的训练次数；同步进程可以通过内存进行数据交流，读取训练进程中计数器的数据。

同步进程与训练进程都是训练执行的本地任务，基于该基本情况，节点根据同步进程的状态信息，确定训练进程的第N个训练周期包括以下步骤：

节点在开始训练目标神经网络模型前，会初始化训练进程和同步进程，初始化训练进程后，节点初始化目标神经网络模型的参数，确定开始对目标神经网络模型执行第1个训练周期内的训练，并初始化计数器，使计数器从零开始计数。训练进程读取同步进程的状态信息，训练进程开始训练时，同步进程处于空闲状态，训练进程将同步状态赋值给同步进程，使同步进程开始执行同步任务，同时训练进程开始第2个训练周期内的训练，再次初始化计数器，使计数器归零，同步进程结束同步后，将空闲状态赋值给本身的状态信息，以使训练进程可以再次对状态信息赋值同步状态，以进入第2个训练周期，通过训练进程和同步进程不断对状态信息进行赋值，使训练进程依次执行完成第1个训练周期、第2个训练周期、第2个训练周期……至训练结束。

本申请实施例利用同步进程和训练进程可以通过共享内存进行交流的特点，采用对同步进程的状态信息进行赋值的方式，使训练进程在同步进程同步梯度时，执行当前的第N个训练周期，在同步进程结束梯度同步，开始下一次的训练，即开始第N+1个训练周期，不断循环，确定训练进程执行的训练周期。

本申请的另一个实施例详细说明了训练目标神经网络模型得到本地梯度，以及计算累计梯度的方法。

依次取m从1至M，M为＞1的整数，在所述第N个训练周期内对所述目标神经网络模型进行第m次训练，得到对应第m次训练的本地梯度；在计数器记录的累计训练次数为零时，所述节点利用训练进程将目标神经网络模型的参数克隆到本地，得到克隆模型参数；在计数器记录的累计训练次数不为零时，利用对应第m次训练的本地梯度更新克隆模型参数，并对计数器记录的累计训练次数加一，直至同步进程的状态信息被赋值为空闲状态。

在一个训练周期内，只对目标神经网络模型的参数进行一次克隆，即在训练进程将同步状态赋值给同步进程的状态信息，训练进程的计数器归零之后，获取此时目标神经网络模型的参数，克隆到本地。

在每一个训练周期内，通过计数器记录训练次数，以使同步进程能够获取准确的用于更新的目标神经网络模型的状态。

利用SSGD算法训练神经网络模型的分布式训练过程中的四步高度耦合，现有技术无法单独执行神经网络模型的训练，也无法单独执行多个节点间的梯度同步，原因如下：假设节点1使用模型参数W_a计算得到本地梯度

此时，集群开始同步

并会在同步完成后使用

将W_a更新为W_a1。然而，由于集群在同步的时候仍然在训练，导致当上述同步完成时，W_a可能已经被更新了α次，变成了W_a+α。此时，若应用同步得到的

更新神经网络模型当前参数，则相当于模型W_a+α被使用W_a计算得到的

更新为W_(a+α)1，显然W_(a+α)不等于W_a1，严重干扰神经网络模型的收敛性。

针对上述问题，本申请实施例通过在第N个训练周期开始时，将目标神经网络模型的参数克隆到本地的方式，使第N个训练周期内目标神经网络模型每次训练得到的本地梯度都用于更新克隆到本地的参数，不影响目标神经网络模型本身的参数情况，在第N个训练周期结束后，各节点同步梯度，得到第一平均梯度，再在第N+1个训练周期完成后，利用第一平均梯度更新目标神经网络模型的参数。

在训练进程结束第N个训练周期后，同步进程执行梯度同步任务的步骤包括：节点判断当前同步进行是否执行第一次同步梯度任务，如果是第一次同步梯度任务，则直接与其他节点同步累计梯度。在同步进程是第一次进入同步状态的情况下，直接与目标神经网络模型的其他节点同步所述累计梯度，计算得到第一平均梯度；

如果不是第一次同步梯度任务，则在同步进程中，节点根据计数器记录的累计训练次数，获取在第N-1个训练周期结束时目标神经网络模型的参数，得到待更新的模型参数；

在同步进程不是第一次进入同步状态的情况下，获取第二平均梯度；其中，所述第二平均梯度是节点同步对应第N-1个训练周期获得的累计梯度得到的；利用第二平均梯度更新所述待更新的模型参数；与目标神经网络模型的其他节点同步所述累计梯度，得到第一平均梯度

假设第N个训练周期内，计数器记录的训练次数为counter，那么在第N个训练周期结束后，目标神经网络模型进行了e次训练，节点获取得到目标神经网络模型在第e-counter次训练时的参数，即目标神经网络模型在第N个训练周期开始前的参数，作为待更新的模型参数。

假设在第N个训练周期开始时，克隆目标神经网络模型的参数时，目标神经网络模型为W_N，由于第N个训练周期内，克隆模型参数被本地梯度更新，保证了目标神经网络模型的参数不会改变，所以在第N个训练周期结束时，目标神经网络模型仍然为W_N，此时，同步进程利用上一次同步得到的第二平均梯度更新目标神经网络模型在上一次训练周期结束后的模型参数W_N-1，得到目标神经网络模型在进入第N+1次训练周期前的模型参数W_N+1。在第N+1个训练周期结束后，同步进程利用训练W_N得到的第一平均梯度更新在第N个训练周期结束时获取的目标神经网络的参数W_N，以多次训练W_N得到的平均后的累计梯度更新W_N，解决了节点单独执行模型训练和梯度同步造成的梯度过期问题。

本申请另一个实施例依据计数器记录的训练次数，在第N个训练周期内，完成累计梯度的计算。

依次取m从1至M，M为＞1的整数，在所述第N个训练周期内对所述目标神经网络模型进行第m次训练，得到对应所述第m次训练的本地梯度；在m等于1时，将对应所述第m次训练的本地梯度存储至本地，得到对应所述第m次训练的累计梯度；

m可以计数器记录的训练次数-1，在训练次数为零时，第N个训练周期内对目标神经网络模型进行第1次训练，克隆当前目标神经网络模型的参数，得到在第N个训练周期内代替目标神经网络模型被更新的克隆模型参数，训练得到本地梯度后，存储在本地。

在训练次数不为零时，第N个训练周期内对目标神经网络模型进行第2次训练中，训练得到本地梯度后，利用本地梯度更新第1次训练得到的克隆模型参数，并将本地梯度累加到存储在本地的第1次训练得到本地梯度，得到累计梯度1。在第3次训练中，训练得到本地梯度后，利用本地梯度更新第1次训练得到的克隆模型参数，并将本地梯度累加到存储在本地的累计梯度1，得到累计梯度2，以此循环，直至第N个训练周期结束。

本申请实施例依据计数器记录的训练次数，在第N个训练周期后，保证同步进程能够获得目标神经网络模型未开始第N个训练周期之前的参数，并保证累计梯度有序地累加，为得到准确的第一平均梯度提供基础。

图4是本申请实施例神经网络分布式训练的流程图，参考图4，本申请实施例执行神经网络分布式训练的过程如下：

首先介绍，同步进程和训练进程通过共享内存可以交流的数据包括：同步进程的状态信息、克隆模型参数、第i个节点在第N个训练周期进行第m次训练得到的本地梯度、第N个训练周期内的累计梯度

训练进行在第N个训练周期结束后本地总共的训练次数counter。

以p_t表示训练进程、p_s表示同步进程，W₀表示目标神经网络模型的初始参数，status表示同步进程的状态信息，idling表示空闲状态，syncrhronizing表示同步状态，

表示节点在第N个训练周期进行第m次训练得到的本地梯度，replica表示克隆模型参数。e表示目标神经网络模型进行的本地训练的次数。

如图4所示，当status处于syncrhronizing状态时，表明p_s正在执行同步任务；此时p_t会检测counter是否为0。若counter为0，则p_t将克隆当前的神经网络模型的全局参数到replica。然后，p_t使用当前训练目标神经网络模型计算得到的梯度

更新克隆模replica并累加

到

中，最后p_t将counter增加1。

当status处于idling状态时，表明p_s正在闲置；此时p_t命令p_s开始同步并将status覆写位syncrhronizing。p_s开始同步后，若存在上一次同步的梯度，则先使用上一次同步得到的梯度更新模型W_e-counter，然后p_s开始同步上一次同步时p_t本地训练累加的

最后将counter重置为0，将status覆写位idling。

本申请实施例提出在第N个训练周期内，节点在同步进程可以采用以下公式对目标神经网络模型进行更新：

其中，μ表示目标神经网络模型的学习率，n表示集群中的节点数，e₁和e₂表示在第N个训练周期内，节点进行了从e₁开始到e₂次的本地训练；

表示第i个节点在第e₁次训练时，目标神经网络模型的参数；

表示在第i个节点在第N个训练周期内对目标神经网络模型进行第e次训练得到的本地梯度。

基于同一发明构思，本申请实施例提供一种神经网络分布式训练装置。图5是本申请实施例提出的神经网络分布式训练装置的结构示意图。如图5所示，该装置包括：

进程建立模块51，用于针对集群中的每个节点，建立同步进程以及与所述同步进程并行运行的训练进程；

训练周期确定模块52，用于使所述节点根据所述同步进程的状态信息，确定所述训练进程的第N个训练周期，N为＞0的整数；

训练模块53，用于在所述第N个训练周期内，所述节点在所述训练进程中对目标神经网络模型进行训练，得到本地梯度；

累加模块54，用于使所述节点累加多次训练所述目标神经网络模型得到的本地梯度，得到累计梯度；

同步模块55，用于使所述节点在所述训练进程中进行第N+1个训练周期的训练时，在所述同步进程中与共同训练所述目标神经网络模型的其他节点同步所述累计梯度，并基于其他节点的累计梯度，计算获得第一平均梯度；

更新模块56，用于在所述训练进程完成所述第N+1个训练周期的训练后，所述节点在所述同步进程中利用所述第一平均梯度更新第N个训练周期结束时的所述目标神经网络模型的参数。

可选地，所述装置还包括：

所述训练周期确定模块包括：

可选地，所述训练模块包括：

可选地，第二训练子模块，用于依次取m从1至M，M为＞1的整数，在所述第N个训练周期内对所述目标神经网络模型进行第m次训练，得到对应所述第m次训练的本地梯度；

可选地，所述装置还包括：

可选地，所述同步模块包括：

可选地，所述装置还包括：

基于同一发明构思，本申请另一实施例提供一种可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如本申请上述任一实施例所述的神经网络分布式训练方法中的步骤。

基于同一发明构思，本申请另一实施例提供一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行时实现本申请上述任一实施例所述的神经网络分布式训练方法中的步骤。

对于装置实施例而言，由于其与方法实施例基本相似，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

本说明书中的各个实施例均采用递进或说明的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似的部分互相参见即可。

本领域内的技术人员应明白，本申请实施例的实施例可提供为方法、装置、或计算机程序产品。因此，本申请实施例可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请实施例是参照根据本申请实施例的方法、装置、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理终端设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理终端设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理终端设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理终端设备上，使得在计算机或其他可编程终端设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程终端设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

尽管已描述了本申请实施例的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例做出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本申请实施例范围的所有变更和修改。

最后，还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者终端设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者终端设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者终端设备中还存在另外的相同要素。

以上对本申请所提供的一种神经网络分布式训练方法、装置、设备及存储介质，进行了详细介绍，以上实施例的说明只是用于帮助理解本申请的方法及其核心思想；同时，对于本领域的一般技术人员，依据本申请的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本申请的限制。

Claims

1.一种神经网络分布式训练方法，其特征在于，所述方法包括：

2.根据所述权利要求1所述的方法，其特征在于，所述方法还包括：

3.根据权利要求2所述的方法，其特征在于，在所述第N个训练周期内，所述节点在所述训练进程中对目标神经网络模型进行训练，得到本地梯度，包括：

4.根据权利要求2所述的方法，其特征在于，所述节点累加多次训练所述目标神经网络模型得到的本地梯度，得到累计梯度，包括：

5.根据所述权利要求2所述的方法，其特征在于，在所述同步进程的状态信息为空闲状态时，所述节点通过所述训练进程将同步状态赋值给所述同步进程的状态信息，以使所述同步进程进入同步状态之后，所述方法还包括：

利用所述第二平均梯度更新所述待更新的模型参数；

6.根据所述权利要求1所述的方法，其特征在于，所述节点在所述训练进程中进行第N+1个训练周期的训练时，在所述同步进程中与共同训练所述目标神经网络模型的其他节点同步所述累计梯度之后，所述方法还包括：

7.一种神经网络分布式训练装置，其特征在于，所述装置包括：

8.根据所述权利要求7所述的装置，其特征在于，所述装置还包括：

所述训练周期确定模块包括：

9.一种可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现如权利要求1-6任一所述的方法中的步骤。

10.一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行时实现如权利要求1-6任一所述的方法的步骤。