CN116070719B

CN116070719B - 一种跨计算节点分布式训练高效通信方法及系统

Info

Publication number: CN116070719B
Application number: CN202310271228.3A
Authority: CN
Inventors: 彭涵阳; 秦爽; 余跃; 王进; 王晖; 李革; 高文
Original assignee: Peng Cheng Laboratory
Current assignee: Peng Cheng Laboratory
Priority date: 2023-03-20
Filing date: 2023-03-20
Publication date: 2023-07-14
Anticipated expiration: 2043-03-20
Also published as: CN116070719A

Abstract

本发明公开了一种跨计算节点分布式训练高效通信方法及系统，所述方法包括：在中心服务器上构建分布式训练机器学习模型；获取分布式训练机器学习模型中每个计算节点的本地更新量，并对本地更新量进行量化，得到量化后的本地更新量；根据量化后的本地更新量得到全局更新量，并对全局更新量进行量化，得到量化后的全局更新量；在各计算节点中，根据量化后的全局更新量更新分布式训练机器学习模型参数，得到更新后的分布式训练机器学习模型。本发明通过量化方法将计算节点间所需要通信的数据进行压缩以减少通讯数据量，不会影响最终收敛特性，从而减少通信时间，提高系统的整体训练效率。

Description

一种跨计算节点分布式训练高效通信方法及系统

技术领域

本发明涉及计算机深度学习技术领域，具体涉及一种跨计算节点分布式训练高效通信方法及系统。

背景技术

如今机器学习模型的规模越来越大，在单计算节点上训练大模型变得非常低效甚至变得不可能。超大规模智能模型在多计算节点甚至跨地域计算中心计算节点上进行分布式并行训练成为必然趋势。分布式并行训练模型的过程中，为保持最终模型的有效性，各计算节点需要频繁且大量地通信交换优化器所需要的数据，因此通信时间可能比各计算节点的本地计算时间更长，通信效率低下导致无法高效训练。

因此，现有技术还有待于改进和发展。

发明内容

本发明要解决的技术问题在于，针对现有技术的上述缺陷，提供一种跨计算节点分布式训练高效通信方法及系统，旨在解决现有技术中通信效率低下导致无法高效训练的问题。

本发明解决技术问题所采用的技术方案如下：

第一方面，本发明提供一种跨计算节点分布式训练高效通信方法，其中，所述方法包括：

在中心服务器上构建分布式训练机器学习模型；

获取所述分布式训练机器学习模型中每个计算节点的本地更新量，并对所述本地更新量进行量化，得到量化后的本地更新量；

根据所述量化后的本地更新量得到全局更新量，并对所述全局更新量进行量化，得到量化后的全局更新量；

在各计算节点中，根据所述量化后的全局更新量更新所述分布式训练机器学习模型参数，得到更新后的分布式训练机器学习模型。

在一种实现方式中，所述在中心服务器上构建分布式训练机器学习模型，包括：

构建所述分布式训练机器学习模型为

，

其中，

是所述分布式训练机器学习模型的d-维模型参数，/>

是参数维度，/>

是分布式计算节点的数目，/>

表示第/>

个计算节点标示，/>

是在第/>

个计算节点上随机采样的样本，/>

表示损失函数。

在一种实现方式中，所述在中心服务器上构建分布式训练机器学习模型后，还包括：

初始化所述分布式训练机器学习模型的模型参数；其中，所述分布式训练机器学习模型上所有计算节点的模型参数

都初始化为/>

，学习率为/>

，冲量因子固定为/>

，第/>

个计算节点上的本地冲量初始化为/>

，/>

，第/>

个计算节点上的本地误差补偿为/>

，全局误差补偿初始化为/>

。

在一种实现方式中，所述获取所述分布式训练机器学习模型中每个计算节点的本地更新量，包括：

在第

个计算节点上随机采样，得到样本/>

；

根据所述样本

，得到第/>

个计算节点上的本地梯度为

，其中/>

为梯度算子，/>

为更新时刻，/>

为/>

时刻的模型参数；

根据所述第

个计算节点上的本地梯度，得到第/>

个计算节点上的两个本地冲量为

和/>

，其中/>

为冲量因子；

根据所述第

个计算节点上的两个本地冲量，得到第/>

个计算节点上的所述本地更新量为

，其中/>

，/>

为所述本地冲量；

将在第

个计算节点上的所述本地更新量加上本地误差补偿，更新所述本地更新量为

，其中/>

为本地误差补偿。

在一种实现方式中，所述对所述本地更新量进行量化，得到量化后的本地更新量，包括：

在第

个计算节点上采用伯努利二值分布法将所述本地更新量进行量化，得到所述量化后的本地更新量为

，

其中

。

在一种实现方式中，所述对所述本地更新量进行量化，得到量化后的本地更新量之后，包括：

在第

个计算节点上更新误差补偿，得到更新的误差补偿为

。

在一种实现方式中，所述根据所述量化后的本地更新量得到全局更新量，并对所述全局更新量进行量化，得到量化后的全局更新量，包括：

将各计算节点的所述量化后的本地更新量进行平均，得到所述全局更新量为

；

将所述全局更新量加上全局误差补偿，更新所述全局更新量为

，其中/>

为所述全局误差补偿；

对所述全局更新量采用伯努利二值分布法进行量化，得到所述量化后的全局更新量为

，

其中

。

在一种实现方式中，所述根据所述量化后的本地更新量得到全局更新量，并对所述全局更新量进行量化，得到量化后的全局更新量之后，还包括：

更新所述全局误差补偿，得到更新的全局误差补偿为

。

在一种实现方式中，所述在各计算节点中，根据所述量化后的全局更新量更新所述分布式训练机器学习模型参数，得到更新后的分布式训练机器学习模型，包括：

将所述量化后的全局更新量

下发到各计算节点上；

在第

个计算节点上更新所述模型参数为/>

。

第二方面，本发明实施例还提供一种跨计算节点分布式训练高效通信装置，其中，所述装置包括：

模型构建模块，用于在中心服务器上构建分布式训练机器学习模型；

本地更新量量化模块，用于获取所述分布式训练机器学习模型中每个计算节点的本地更新量，并对所述本地更新量进行量化，得到量化后的本地更新量；

全局更新量量化模块，用于根据所述量化后的本地更新量得到全局更新量，并对所述全局更新量进行量化，得到量化后的全局更新量；

模型更新模块，用于在各计算节点中，根据所述量化后的全局更新量更新所述分布式训练机器学习模型参数，得到更新后的分布式训练机器学习模型。

在一种实现方式中，所述本地更新量量化模块包括：

本地更新量量化单元，用于在第

，

其中，

；

其中，

为更新时刻，/>

为/>

时刻第/>

个计算节点上的本地更新量，/>

是参数维度。

第三方面，本发明实施例还提供一种跨计算节点分布式训练高效通信系统，所述系统包括中心服务器、多个计算节点以及在所述系统上运行的跨计算节点分布式训练高效通信程序，所述处理器执行所述跨计算节点分布式训练高效通信程序时，实现如以上任一项所述的跨计算节点分布式训练高效通信方法的步骤。

第四方面，本发明实施例还提供一种计算机可读存储介质，其中，所述计算机可读存储介质上存储有跨计算节点分布式训练高效通信程序，所述跨计算节点分布式训练高效通信程序被处理器执行时，实现如以上任一项所述的跨计算节点分布式训练高效通信方法的步骤。

有益效果：与现有技术相比，本发明提供了一种跨计算节点分布式训练高效通信方法，首先分布式训练机器学习模型，并获取所述分布式训练机器学习模型中每个计算节点的本地更新量，然后对所述本地更新量进行量化，得到量化后的本地更新量。通过对本地更新量进行量化，可将每一次迭代步中计算节点间所需要通信的数据从32比特量化压缩到1比特，而不会影响最终收敛特性，从而减小通信时间，提高系统的整体训练效率。然后，对所述全局更新量进行量化，得到量化后的全局更新量以更新分布式训练机器学习模型，通过进一步压缩下发全局更新量时通信数据的比特值，提高通讯效率，以保证高效训练。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明中记载的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例提供的跨计算节点分布式训练高效通信方法流程示意图。

图2是本发明实施例提供的SGD和BinSGD在IMAGENET上训练ResNet-50网络时损失函数趋势图。

图3是本发明实施例提供的跨计算节点分布式训练高效通信装置的原理框图。

图4是本发明实施例提供的跨计算节点分布式训练高效通信系统的内部结构原理框图。

具体实施方式

为使本发明的目的、技术方案及效果更加清楚、明确，以下参照附图并举实施例对本发明进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。

本技术领域技术人员可以理解，除非特意声明，这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是，本发明的说明书中使用的措辞“包括”是指存在所述特征、整数、步骤、操作、元件和/或组件，但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件和/或它们的组。应该理解，当我们称元件被“连接”或“耦接”到另一元件时，它可以直接连接或耦接到其他元件，或者也可以存在中间元件。此外，这里使用的“连接”或“耦接”可以包括无线连接或无线耦接。这里使用的措辞“和/或”包括一个或更多个相关联的列出项的全部或任一单元和全部组合。

本技术领域技术人员可以理解，除非另外定义，这里使用的所有术语(包括技术术语和科学术语)，具有与本发明所属领域中的普通技术人员的一般理解相同的意义。还应该理解的是，诸如通用字典中定义的那些术语，应该被理解为具有与现有技术的上下文中的意义一致的意义，并且除非像这里一样被特定定义，否则不会用理想化或过于正式的含义来解释。

数据并行是指在分布式系统中不同计算节点同时并行运行训练同一批数据的不同子集并且在每次迭代步中都需要将不同计算节点间需要通信以聚合所有计算节点的梯度，它是分布式并行训练的最基本的一种并行技术。在保证最终训练后的评价指标无显著下降的前提下，将数据并行过程中将各计算节点和参数服务器之间通信交换数据进行压缩，可大大降低通信数据量，减少通信时间，提高训练效率。如今机器学习模型的规模越来越大，在单计算节点上训练大模型变得非常低效甚至变得不可能。超大规模智能模型在多计算节点甚至跨地域计算中心计算节点上进行分布式并行训练成为必然趋势。分布式并行训练模型的过程中，为保持最终模型的有效性，各计算节点需要频繁且大量地通信交换优化器所需要的数据，因此通信时间可能比各计算节点的本地计算时间更长，成为高效训练的瓶颈。

为了解决上述问题，本实施例提供了一种跨计算节点分布式训练高效通信方法，首先分布式训练机器学习模型，并获取所述分布式训练机器学习模型中每个计算节点的本地更新量，然后对所述本地更新量进行量化，得到量化后的本地更新量。通过对本地更新量进行量化，可将每一次迭代步中计算节点间所需要通信的数据从32比特量化压缩到1比特，而不会影响最终收敛特性，从而减小通信时间，提高系统的整体训练效率。然后，对所述全局更新量进行量化，得到量化后的全局更新量以更新分布式训练机器学习模型，通过进一步压缩下发全局更新量时通信数据的比特值，提高通讯效率，以保证高效训练。

示例性方法

本实施例提供一种跨计算节点分布式训练高效通信方法。如图1所示，所述方法包括如下步骤：

步骤S100、在中心服务器上构建分布式训练机器学习模型为

，

其中，

是所述分布式训练机器学习模型的d-维模型参数，/>

是参数维度，/>

是分布式计算节点的数目，/>

表示第/>

个计算节点标示，/>

是在第/>

个计算节点上随机采样的样本，/>

表示损失函数。

具体地，分布式计算是一种多计算节点协同计算的方法，和集中式计算是相对的。随着计算技术的发展，有些应用需要非常巨大的计算能力才能完成，如果采用集中式计算，需要耗费相当长的时间来完成。分布式计算将该应用分解成许多小的部分，分配给多台计算机进行处理。这样可以节约整体计算时间，大大提高计算效率。本发明构建的分布式训练机器学习模型可用于图像处理、卫星遥感、气象预测与数据分析等多个领域。

需要注意的是，本发明中所述的分布式训练机器学习模型包括常规的各计算节点和中心参数服务器通信的主从通信拓扑结构，也包括其它非主从式通信拓扑结点的通信上下行拓扑结构。

在一种实现方式中，所述步骤S100之后包括：

步骤M100、初始化所述分布式训练机器学习模型的模型参数；其中，所述分布式训练机器学习模型上所有计算节点的模型参数

都初始化为/>

，学习率为/>

，冲量因子固定为/>

，第/>

个计算节点上的本地冲量初始化为/>

，/>

，第/>

个计算节点上的本地误差补偿为/>

，全局误差补偿初始化为/>

。

具体地，在分布式训练机器学习模型的优化器中，每一次迭代步中每一个计算节点的计算过程中所需要的要素为：权重参数，学习率和更新量。其中权重参数和学习率每一个计算节点的本地都会维护一个副本，不需要计算节点通信。

举例说明，本发明可应用于图像处理，在数据集IMAGENET上训练ResNet-50网络。训练的具体参数如下所示，共有8台计算节点服务器，每台服务器上有8个Nvidia-A100GPU，计算节点服务器之间用10Gbps的以太网连接。训练集中的数据是图像，我们将图像的分辨率设置为224X224，每个GPU上每一轮训练放置32张图像。我们将全精度的随机梯度下降法（StochasticGradientDescent，SGD）作为对比基准，本实施例提出的算法命名为二值随机梯度下降法（BinaryStochasticGradientDescent，BinSGD）。SGD的初始学习率为0.2，学习率在30，60，90epoch时分别减小10倍，冲量因子

设置为0.9，权重衰减（WeightDecay）设置为0.0001。BinSGD的初始学习率为0.002，学习率在30，60，90epoch时分别减小10倍，冲量因子/>

设置为0.95，权重衰减（WeightDecay）设置为0.1。

步骤S200、获取所述分布式训练机器学习模型中每个计算节点的本地更新量，并对所述本地更新量进行量化，得到量化后的本地更新量；

具体地，本地更新量是各个计算节点分别计算出的各自更新量的平均值，需要各计算节点通信交换才能得到。若本地更新量的数值过大，会导致各计算节点需要频繁且大量地通信交换优化器所需要的数据，因此通信时间可能比各计算节点的本地计算时间更长，成为高效训练的瓶颈。在本发明的分布式训练机器学习模型中，各计算节点的本地更新量在通信前的各元素通过伯努利概率分布随机将元素的数值进行量化，以达到减小通信数据量的效果。

在一种实现方式中，所述步骤S200具体包括：

步骤S201、在第

个计算节点上随机采样，得到样本/>

；

步骤S202、根据所述样本

，得到第/>

个计算节点上的本地梯度为

，其中/>

为梯度算子，/>

为更新时刻，/>

为/>

时刻的模型参数；

步骤S203、根据所述第

个计算节点上的本地梯度，得到第/>

个计算节点上的两个本地冲量为

和/>

，其中/>

为冲量因子；

步骤S204、根据所述第

个计算节点上的两个本地冲量，得到第/>

个计算节点上的所述本地更新量为

，其中/>

，/>

为所述本地冲量；

具体地，步骤S203可以保证

和

中的对应元素/>

和/>

恒有/>

，因此步骤S204中的/>

中的元素/>

值一定在[-1，1]之间。

步骤S205、将在第

，其中/>

为本地误差补偿。

具体地，在第

个计算节点上的所述本地更新量上添加本地误差补偿可以使模型在训练过程中收敛更快，最终的推断性能更好。本地误差补偿可根据本地更新量进行更新。

步骤S206、在第

，

其中

。

具体地，

的值一定在[0，1]之间，因此可以直接利用伯努利二值分布随机将/>

中的元素/>

量化到1或者-1。本地更新量量化后的数据的期望值和未量化的数据相等，也就是说在此过程中只是带来了方差。在应用全精度随机梯度下降优化算法在小批量数据上训练也会带来方差，而且此方差一般来说比本发明中的本地更新量量化带来的方差更大，因此本专利提出的算法对收敛速率影响较小。

在一种实现方式中，所述步骤S200之后包括：

步骤M200、在第

个计算节点上更新误差补偿，得到更新的误差补偿为

。

步骤S300、根据所述量化后的本地更新量得到全局更新量，并对所述全局更新量进行量化，得到量化后的全局更新量；

在一种实现方式中，所述步骤S300具体包括：

步骤S301、将各计算节点的所述量化后的本地更新量进行平均，得到所述全局更新量为

；

步骤S302、将所述全局更新量加上全局误差补偿，更新所述全局更新量为

，其中/>

为所述全局误差补偿；

步骤S303、对所述全局更新量采用伯努利二值分布法进行量化，得到所述量化后的全局更新量为

，

其中

。

具体地，各计算节点将量化后的本地更新量数据通过上传通信链路上传到参数服务器。在参数服务器上，将接收到的各计算节点更新量数据进行平均，此时平均更新量的各元素的数值一定在[-1，1]之间，然后再次通过伯努利概率分布随机将元素的数值量化到+1或者-1。全局更新量量化后的数据的期望值和未量化的数据相等，也就是说在此过程中只是带来了方差。在应用全精度随机梯度下降优化算法在小批量数据上训练也会带来方差，而且此方差一般来说比本发明中的全局更新量量化带来的方差更大，因此本专利提出的算法对收敛速率影响较小。

举例说明，本实施中步骤M100中所述的分布式训练机器学习模型，具体收敛特性如图2所示，虽然与全精度32比特的SGD相比，BinSGD将计算节点服务器间的通信数据量化到1比特，计算节点间的通信量直接减少了32倍，但是BinSGD和SGD的收敛速率是基本相当的，从而从实践证明了BinSGD的有效性。

在一种实现方式中，所述步骤S300之后包括：

步骤M300、更新所述全局误差补偿，得到更新的全局误差补偿为

。

具体地，误差补偿就是人为地造出一种新的原始误差去抵消当前成为问题的原有的原始误差，并应尽量使两者大小相等，方向相反，从而达到减少加工误差，提高加工精度的目的。本实施例中，添加全局误差补偿可以使模型在训练过程中收敛更快，最终的推断性能更好。

步骤S400、在各计算节点中，根据所述量化后的全局更新量更新所述分布式训练机器学习模型参数，得到更新后的分布式训练机器学习模型。

将所述量化后的全局更新量

下发到各计算节点上；

在第

个计算节点上更新所述模型参数为/>

。

具体地，参数服务器再通过下载通信链路将更新量数据再下发到各计算节点上。最后，各计算节点优化器的所需要所有要素后进行一次迭代计算。经过优化的分布式训练机器学习模型，可以将每一次迭代步中计算节点间所需要通信的数据从32比特量化压缩到1比特，而不会影响最终收敛特性，从而减小通信时间，提高系统的整体训练效率。

需要注意的是，本方法中的通信拓扑结构，除常规的各计算节点和中心服务器通信的主从通信拓扑结构之外，还包括其它按本方法的量化方式的非主从式通信拓扑结点的通信上下行拓扑结构。

示例性装置

如图3中所示，本实施例还提供一种跨计算节点分布式训练高效通信装置，所述装置包括：

模型构建模块10，用于在中心服务器上构建分布式训练机器学习模型；

本地更新量量化模块20，用于获取所述分布式训练机器学习模型中每个计算节点的本地更新量，并对所述本地更新量进行量化，得到量化后的本地更新量；

全局更新量量化模块30，用于根据所述量化后的本地更新量得到全局更新量，并对所述全局更新量进行量化，得到量化后的全局更新量；

模型更新模块40，用于在各计算节点中，根据所述量化后的全局更新量更新所述分布式训练机器学习模型参数，得到更新后的分布式训练机器学习模型。

在一种实现方式中，所述模型构建模块10包括：

模型构建单元，用于构建所述分布式训练机器学习模型为

，

其中，

是所述分布式训练机器学习模型的d-维模型参数，/>

是参数维度，/>

是分布式计算节点的数目，/>

表示第/>

个计算节点标示，/>

是在第/>

个计算节点上随机采样的样本，/>

表示损失函数。

在一种实现方式中，所述装置还包括：

初始化单元，用于初始化所述分布式训练机器学习模型的模型参数；其中，所述分布式训练机器学习模型上所有计算节点的模型参数

都初始化为/>

，学习率为/>

，冲量因子固定为/>

，第/>

个计算节点上的本地冲量初始化为/>

，/>

，第/>

个计算节点上的本地误差补偿为/>

，全局误差补偿初始化为/>

。

在一种实现方式中，所述本地更新量量化模块20包括：

采样单元，用于在第

个计算节点上随机采样，得到样本/>

；

本地梯度获取单元，用于根据所述样本

，得到第/>

个计算节点上的本地梯度为

，其中/>

为梯度算子，/>

为更新时刻，/>

为/>

时刻的模型参数；

本地冲量获取单元，用于根据所述第

个计算节点上的本地梯度，得到第/>

个计算节点上的两个本地冲量为

和/>

，其中/>

为冲量因子；

本地更新量获取单元，用于根据所述第

个计算节点上的两个本地冲量，得到第/>

个计算节点上的所述本地更新量为

，其中/>

，/>

为所述本地冲量；

本地更新量更新单元，用于将在第

，其中/>

为本地误差补偿。

本地更新量量化单元，用于在第

，

其中

。

在一种实现方式中，所述装置还包括：

第一误差补偿单元，用于在第

个计算节点上更新误差补偿，得到更新的误差补偿为

。

在一种实现方式中，所述全局更新量量化模块30包括：

全局更新量获取单元，用于将各计算节点的所述量化后的本地更新量进行平均，得到所述全局更新量为

；

全局更新量更新单元，用于将所述全局更新量加上全局误差补偿，更新所述全局更新量为

，其中/>

为所述全局误差补偿；

全局更新量量化单元，用于对所述全局更新量采用伯努利二值分布法进行量化，得到所述量化后的全局更新量为

，

其中

。

在一种实现方式中，所述装置还包括：

第二误差补偿单元，用于更新所述全局误差补偿，得到更新的全局误差补偿为

。

在一种实现方式中，所述模型更新模块40，包括：

数据下发单元，用于将所述量化后的全局更新量

下发到各计算节点上；

模型参数更新单元，用于在第

个计算节点上更新所述模型参数为

。

在一个实施例中，如图4所示，提供一种跨计算节点分布式训练高效通信系统，所述系统包括中心服务器、多个计算节点以及在所述系统上运行的跨计算节点分布式训练高效通信程序，所述处理器执行所述跨计算节点分布式训练高效通信程序时，实现如下操作指令：

在中心服务器上构建分布式训练机器学习模型；

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本发明所提供的各实施例中所使用的对存储器、存储、运营数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器（ROM）、可编程ROM（PROM）、电可编程ROM（EPROM）、电可擦除可编程ROM（EEPROM）或闪存。易失性存储器可包括随机存取存储器（RAM）或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM（SRAM）、动态RAM（DRAM）、同步DRAM（SDRAM）、双运营数据率SDRAM（DDRSDRAM）、增强型SDRAM（ESDRAM）、同步链路（Synchlink）DRAM（SLDRAM）、存储器总线（Rambus）直接RAM（RDRAM）、直接存储器总线动态RAM（DRDRAM）、以及存储器总线动态RAM（RDRAM）等。

综上，本发明公开了一种跨计算节点分布式训练高效通信方法及系统，所述方法包括：在中心服务器上构建分布式训练机器学习模型；获取分布式训练机器学习模型中每个计算节点的本地更新量，并对本地更新量进行量化，得到量化后的本地更新量；根据量化后的本地更新量得到全局更新量，并对全局更新量进行量化，得到量化后的全局更新量；在各计算节点上，根据量化后的全局更新量更新分布式训练机器学习模型参数，得到更新后的分布式训练机器学习模型。本发明通过量化方法将计算节点间所需要通信的数据进行压缩以减少通讯数据量，不会影响最终收敛特性，从而减少通信时间，提高系统的整体训练效率。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种跨计算节点分布式训练高效通信方法，其特征在于，所述方法包括：

在中心服务器上构建分布式训练机器学习模型；

在各计算节点中，根据所述量化后的全局更新量更新所述分布式训练机器学习模型参数，得到更新后的分布式训练机器学习模型；

所述在中心服务器上构建分布式训练机器学习模型，包括：

在中心服务器上构建所述分布式训练机器学习模型为

，

其中，

是所述分布式训练机器学习模型的/>

-维模型参数，/>

是参数维度，/>

是分布式计算节点的数目，/>

表示第i个计算节点标示，/>

是在第i个计算节点上随机采样的样本，/>

表示损失函数；

所述在中心服务器上构建分布式训练机器学习模型后，还包括：

初始化所述分布式训练机器学习模型的模型参数和训练参数；其中，所述分布式训练机器学习模型上所有计算节点的模型参数

都初始化为/>

，学习率为/>

，冲量因子固定为

，第i个计算节点上的本地冲量初始化为/>

，/>

，第i个计算节点上的本地误差补偿为/>

，全局误差补偿初始化为/>

；

将所述模型参数和训练参数通过通信链路下传到各计算节点；

所述获取所述分布式训练机器学习模型中每个计算节点的本地更新量，包括：

在第i个计算节点上随机采样，得到样本

；

根据所述样本

，得到第i个计算节点上的本地梯度为

，其中/>

为梯度算子，/>

为更新时刻，/>

为/>

时刻的模型参数；

根据所述第i个计算节点上的本地梯度，得到第i个计算节点上的两个本地冲量为

和/>

，其中/>

为冲量因子；

根据所述第i个计算节点上的两个本地冲量，得到第i个计算节点上的所述本地更新量为

，其中/>

，/>

为所述本地冲量；

将在第i个计算节点上的所述本地更新量加上本地误差补偿，更新所述本地更新量为

，其中/>

为本地误差补偿。

2.根据权利要求1所述的跨计算节点分布式训练高效通信方法，其特征在于，所述对所述本地更新量进行量化，得到量化后的本地更新量，包括：

在第i个计算节点上采用伯努利二值分布法将所述本地更新量进行量化，得到所述量化后的本地更新量为

，

其中

。

3.根据权利要求2所述的跨计算节点分布式训练高效通信方法，其特征在于，所述对所述本地更新量进行量化，得到量化后的本地更新量之后，包括：

在第i个计算节点上更新误差补偿，得到更新的误差补偿为

。

4.根据权利要求2所述的跨计算节点分布式训练高效通信方法，其特征在于，所述根据所述量化后的本地更新量得到全局更新量，并对所述全局更新量进行量化，得到量化后的全局更新量，包括：

在中心服务器上将各计算节点的所述量化后的本地更新量进行平均，得到所述全局更新量为

；

，其中/>

为所述全局误差补偿；

对所述全局更新量采用伯努利二值分布法进行量化，得到中心服务器上的所述量化后的全局更新量为

，

其中

。

5.根据权利要求4所述的跨计算节点分布式训练高效通信方法，其特征在于，所述根据所述量化后的本地更新量得到全局更新量，并对所述全局更新量进行量化，得到量化后的全局更新量之后，还包括：

更新所述全局误差补偿，得到更新的全局误差补偿为

。

6.根据权利要求4所述的跨计算节点分布式训练高效通信方法，其特征在于，所述在各计算节点中，根据所述量化后的全局更新量更新所述分布式训练机器学习模型参数，得到更新后的分布式训练机器学习模型，包括：

将中心服务器上的所述量化后的全局更新量

下发到各计算节点上；

在第i个计算节点上更新所述模型参数为

。

7.一种跨计算节点分布式训练高效通信装置，其特征在于，所述装置包括：

模型更新模块，用于在各计算节点中，根据所述量化后的全局更新量更新所述分布式训练机器学习模型参数，得到更新后的分布式训练机器学习模型；

所述模型构建模块包括：

模型构建单元，用于在中心服务器上构建所述分布式训练机器学习模型为

，

其中，

是所述分布式训练机器学习模型的/>

-维模型参数，/>

是参数维度，/>

是分布式计算节点的数目，/>

表示第i个计算节点标示，/>

是在第i个计算节点上随机采样的样本，/>

表示损失函数；

所述装置还包括：

初始化单元，用于初始化所述分布式训练机器学习模型的模型参数和训练参数；其中，所述分布式训练机器学习模型上所有计算节点的模型参数

都初始化为/>

，学习率为/>

，冲量因子固定为/>

，第i个计算节点上的本地冲量初始化为/>

，/>

，第i个计算节点上的本地误差补偿为/>

，全局误差补偿初始化为/>

；将所述模型参数和训练参数通过通信链路下传到各计算节点；

所述本地更新量量化模块包括：

采样单元，用于在第i个计算节点上随机采样，得到样本

；

本地梯度获取单元，用于根据所述样本

，得到第i个计算节点上的本地梯度为

，其中/>

为梯度算子，/>

为更新时刻，/>

为/>

时刻的模型参数；

本地冲量获取单元，用于根据所述第i个计算节点上的本地梯度，得到第i个计算节点上的两个本地冲量为

和/>

，其中/>

为冲量因子；

本地更新量获取单元，用于根据所述第i个计算节点上的两个本地冲量，得到第i个计算节点上的所述本地更新量为

，其中/>

,/>

为所述本地冲量；

本地更新量更新单元，用于将在第i个计算节点上的所述本地更新量加上本地误差补偿，更新所述本地更新量为

，其中/>

为本地误差补偿。

8.根据权利要求7所述的跨计算节点分布式训练高效通信装置，其特征在于，所述本地更新量量化模块包括：

本地更新量量化单元，用于在第i个计算节点上采用伯努利二值分布法将本地更新量进行量化，得到量化后的本地更新量为

，

其中，

；

其中，

为更新时刻，/>

为/>

时刻第i个计算节点上的本地更新量，/>

是参数维度。

9.一种跨计算节点分布式训练高效通信系统，其特征在于，所述系统包括中心服务器、多个计算节点以及在所述系统上运行的跨计算节点分布式训练高效通信程序，所述系统执行所述跨计算节点分布式训练高效通信程序时，实现如权利要求1-6任一项所述的跨计算节点分布式训练高效通信方法的步骤。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有跨计算节点分布式训练高效通信程序，所述跨计算节点分布式训练高效通信程序被处理器执行时，实现如权利要求1-6任一项所述的跨计算节点分布式训练高效通信方法的步骤。