CN110276455B

CN110276455B - 基于全局率权重的分布式深度学习系统

Info

Publication number: CN110276455B
Application number: CN201910530003.9A
Authority: CN
Inventors: 王堃; 沈楠; 张焌峰; 孙雁飞; 亓晋; 岳东
Original assignee: Nanjing University of Posts and Telecommunications
Current assignee: Nanjing University of Posts and Telecommunications
Priority date: 2019-06-19
Filing date: 2019-06-19
Publication date: 2022-08-30
Anticipated expiration: 2039-06-19
Also published as: CN110276455A

Abstract

一种基于全局率权重的分布式深度学习系统，所述系统包括多个工作节点和服务器；所述多个工作节点与所述服务器耦接；所述工作节点，适于按照预设的周期向服务器发送对应的网络分析参数；所述服务器，适于基于所述工作节点发送的网络分析参数，为工作节点分配对应的全局率学习权重。上述的方案，可以提高神经网络模型参数训练的效率。

Description

基于全局率权重的分布式深度学习系统

技术领域

本发明属于神经网络模型技术领域，特别是涉及一种基于全局率权重的分布式深度学习系统。

背景技术

随着深度学习的发展，数据增多计算规模增大，分布式深度学习变得愈发重要。面对大规模的分布式深度学习，如何才能够实现对分布式深度学习的高效处理，准确地为用户提供用户需求的服务，成为当今工业界和学术界一致关注的重要研究方向之一。为了提升分布式学习的效率和健壮性，只有正确处理工作节点掉队的问题，

但是，采用现有的分布式深度学习方法训练得到的神经网络模型参数，存在效率低下的问题。

发明内容

本发明解决的技术问题是如何提高神经网络模型参数训练的效率。

为了达到上述目的，本发明提供了一种基于全局率权重的分布式深度学习系统，所述系统包括多个工作节点和服务器；所述多个工作节点与所述服务器耦接；

所述工作节点，适于按照预设的周期向服务器发送对应的网络分析参数；

所述服务器，适于基于所述工作节点发送的网络分析参数，为工作节点分配对应的全局率学习权重。

可选地，所述工作节点，适于在参数训练阶段将对应的网络分析参数发送至所述服务器。

可选地，所述工作节点，适于将对应周期更新的局部训练参数与全局训练参数之间的差值与全局训练参数之间的差值作为所述网络分析参数。

可选地，所述服务器，适于基于所述差值，计算得到为所述工作节点分配的全局率学习权重。

可选地，所述服务器，适于采用如下的公式计算得到为所述工作节点分配的全局率学习权重：

其中，η表示工作节点的权重值，t表示预设的阈值，d表示所述工作节点更新的神经网络模型参数中局部训练参数与全局训练参数之间的差值，C表示预设的常数。

可选地，所述服务器，还适于基于所述工作节点发送的网络分析参数，对所述工作节点更新的局部训练参数进行过滤。

可选地，所述服务器，适于当确定所述差值大于或等于预设的阈值时，对所述工作节点更新的局部训练参数进行丢弃；当确定所述差值小于预设的阈值时，对所述工作节点更新的局部训练参数进行接收并保存。

与现有技术相比，本发明的有益效果为：

上述的方案，通过所述服务器基于所述工作节点发送的网络分析参数，为工作节点分配对应的全局率学习权重，为工作节点分配向适配的全局率学习权重，可以降低工作节点的掉队情形对神经网络模型训练的影响，故可以提高神经网络学习的效率。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例的一种基于全局率权重的分布式深度学习系统的结构示意图；

图2是本发明实施例的一种基于全局率权重的分布式深度学习方法的流程示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅为本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。本发明实施例中有关方向性指示(诸如上、下、左、右、前、后等)仅用于解释在某一特定姿态(如附图所示)下各部件之间的相对位置关系、运动情况等，如果该特定姿态发生改变时，则该方向性指示也相应地随之改变。

如背景技术所述，现有技术分布式中的深度学习方法存在着效率低下的问题。

本发明的技术方案通过上述的方案，通过所述服务器基于所述工作节点发送的网络分析参数，为工作节点分配对应的全局率学习权重，为工作节点分配向适配的全局率学习权重，可以降低工作节点的掉队情形对神经网络模型训练的影响，故可以提高神经网络学习的效率。

为使本发明的上述目的、特征和有益效果能够更为明显易懂，下面结合附图对本发明的具体实施例做详细的说明。

为了便于理解，下面将首先对本发明实施例中的基于全局率权重的分布式深度学习系统的结构进行简要的介绍。

图1是本发明实施例的一种基于全局率权重的分布式深度学习系统的结构示意图。参见图1，一种基于全局率权重的分布式深度学习系统，具体可以包括服务器1和多个工作节点21～2n(n为大于1的整数)。其中，每个所述工作节点21～2n均与所述服务器1相耦接。

图2是本发明实施例的一种基于全局率权重的分布式深度学习方法的流程示意图。参见图2，一种基于全局率权重的分布式深度学习方法，具体可以包括如下的步骤：

步骤S201：工作节点按照预设的周期向服务器发送对应的网络分析参数。

在具体实施中，所述工作节点发送所述网络分析参数的周期，并非工作节点的局部训练参数的训练周期，而是服务器对工作节点的全局率学习权重进行更新的周期，其可以根据实际的需要进行设置，如设置为工作节点的局部训练参数的周期的3至5倍长度等。在本发明一实施例中，所述工作节点发送的网络分析参数为工作节点在对应周期训练得到的神经网络模型的局部训练参数与全局训练参数之间的差值。

在本发明另一实施例中，为了提高分布式深度学习的资源利用率和效率，通过进程管理器将一个工作节点分为深度学习训练版块和网络分析版块。由于分布式深度学习通过参数迭代完成，每一次迭代分成参数上传阶段和参数接收阶段。在参数上传阶段，工作节点处于计算资源空歇期，进程管理器此时将计算资源分配给网络分析版块进行局部训练参数与全局训练参数之间的差值的计算；在参数接收阶段，进程管理器重新将计算资源分配给深度学习训练版块进行局部训练参数的迭代训练，此时传输信道处于空闲期，可以进行计算得到的差值参数的上传。

步骤S202：所述服务器基于所述工作节点发送的网络分析参数，为工作节点分配对应的全局率学习权重。

在本发明一实施例中，所述服务器基于工作节点发送的神经网络模型的局部训练参数与全局训练参数之间的差值，采用如下的公式计算得到为所述工作节点分配的全局率学习权重：

通过公式(1)可知，当所述工作节点更新的神经网络模型参数中局部训练参数与全局训练参数之间的差值越大时，表明工作节点的梯度延迟越大，即掉队情形越严重，分配给工作节点的全局率学习权重越小，从而可以有效降低掉队严重的工作节点训练的局部训练参数对训练结果的影响，加速神经网络模型的训练速度，提高学习的效率。

本发明一实施例中，所述基于全局率权重的分布式深度学习方法还包括：

步骤S203：所述服务器基于所述工作节点发送的网络分析参数，对所述工作节点更新的局部训练参数进行过滤。

在具体实施中，为了保证所获取的参数信息的有效性，减少对无效数据的存储和计算所带来的系统开销，所述服务器可以基于所述工作节点发送的网络分析参数，对严重掉队的工作节点更新的局部训练参数进行过滤。具体而言，所述服务器可以将所接收的所述工作节点发送的局部训练参数与全局训练参数之间的差值与预设的阈值进行比较；当确定所述差值大于或等于预设的阈值时，对所述工作节点更新的局部训练参数进行丢弃；否则，对所述工作节点更新的局部训练参数进行接收并保存。经过过滤，一些无效的或者过失的局部训练参数将不再占用系统资源。

本发明实施例还提供了一种计算机可读存储介质，其上存储有计算机指令，所述计算机指令运行时执行上述任一项所述的基于全局率权重的分布式深度学习方法的步骤。

本发明实施例还提供了一种终端，包括存储器和处理器，所述存储器上储存有能够在所述处理器上运行的计算机指令，所述处理器运行所述计算机指令时执行上述任一项所述的基于全局率权重的分布式深度学习方法的步骤。

采用本发明实施例中的上述方案，通过所述服务器基于所述工作节点发送的网络分析参数，为工作节点分配对应的全局率学习权重，为工作节点分配向适配的全局率学习权重，可以降低工作节点的掉队情形对神经网络模型训练的影响，故可以提高神经网络学习的效率。

以上显示和描述了本发明的基本原理、主要特征和本发明的优点。本行业的技术人员应该了解，本发明不受上述实施例的限制，上述实施例和说明书中描述的只是说明本发明的原理，在不脱离本发明精神和范围的前提下，本发明还会有各种变化和改进，本发明要求保护范围由所附的权利要求书、说明书及其等效物界定。

Claims

1.一种基于全局率权重的分布式深度学习系统，其特征在于，包括多个工作节点和服务器；所述多个工作节点与所述服务器耦接；

所述工作节点，适于按照预设的周期向服务器发送对应的网络分析参数，具体地，将对应周期更新的局部训练参数与全局训练参数之间的差值与全局训练参数之间的差值作为所述网络分析参数；

所述服务器，适于基于所述工作节点发送的网络分析参数，为工作节点分配对应的全局率学习权重，具体地，采用如下的公式基于所述差值，计算得到为所述工作节点分配的全局率学习权重：

2.根据权利要求1所述的基于全局率权重的分布式深度学习系统，其特征在于，所述工作节点，适于在参数训练阶段将对应的网络分析参数发送至所述服务器。

3.根据权利要求1所述的基于全局率权重的分布式深度学习系统，其特征在于，所述服务器，还适于基于所述工作节点发送的网络分析参数，对所述工作节点更新的局部训练参数进行过滤。

4.根据权利要求1所述的基于全局率权重的分布式深度学习系统，其特征在于，所述服务器，适于当确定所述差值大于或等于预设的阈值时，对所述工作节点更新的局部训练参数进行丢弃；当确定所述差值小于预设的阈值时，对所述工作节点更新的局部训练参数进行接收并保存。