CN114756383A

CN114756383A - 一种分布式计算方法、系统、设备及存储介质

Info

Publication number: CN114756383A
Application number: CN202210671289.4A
Authority: CN
Inventors: 闫瑞栋; 刘璐; 金良; 徐聪
Original assignee: Suzhou Inspur Intelligent Technology Co Ltd
Current assignee: Suzhou Inspur Intelligent Technology Co Ltd
Priority date: 2022-06-15
Filing date: 2022-06-15
Publication date: 2022-07-15
Anticipated expiration: 2042-06-15
Also published as: WO2023240845A1; CN114756383B

Abstract

本申请提供一种分布式计算方法，涉及数据处理领域，包括：获取数据计算任务；拆分数据计算任务得到子任务，并将子任务部署至计算节点，同时配置分布式训练通用框架中各计算节点的并行模式；配置各计算节点之间的连接方式和通信同步方式；利用梯度优化算法或者非梯度优化算法对计算节点执行信息同步效率优化；聚合各计算节点产生的中间结果，并输出对应的最终计算结果。本申请能降低受到的硬件系统的限制约束，通过有效的分布式算法设计，缩小子任务训练空间，减少模型训练时间，能够有效提升模型训练精度、降低梯度与模型参数变量的存储开销。本申请还提供一种分布式计算系统、分布式计算设备及计算机可读存储介质，具有上述有益效果。

Description

一种分布式计算方法、系统、设备及存储介质

技术领域

本申请涉及数据处理领域，特别涉及一种分布式计算方法、系统、设备及存储介质。

背景技术

近年来，大数据、机器学习、深度学习、高性能计算以及互联网技术取得了重要进展，促进了计算机视觉、自然语言处理、语言识别、自动驾驶等领域的发展，并在学术界和产业界产生了深远影响。现阶段各领域产生的海量数据、超大参数规模的模型，如GPT-3、Bert等对人工智能训练方法性能以及算力资源提出了更高要求。为了解决大模型在大数据集上的有效训练问题，分布式训练技术逐渐引起了学术界和产业研究人员的广泛关注。分布式训练核心是利用“分而治之”的思想，首先将待训练的大模型或大数据集以模型并行、数据并行或混合并行的方式进行拆分，然后对拆分后小规模数据或模型单独训练，最后将所有局部训练结果再以某种方式进行聚合并输出全局训练结果。目前，研究人员同时开展软硬件层面分布式训练方法的研究：在软件层面，提出了各类优化器、优化算子的改进措施与训练策略；在硬件系统平台层面，设计了诸如基于混合异构算力的分布式计算系统等加速训练方法。

尽管现有一系列解决分布式训练的方法及装置，但依旧存在如下问题。对数据集或模型进行拆分时拆分不当，拆分后的子数据集或模型难以适合的计算节点，计算节点间通信效率低，不同计算节点产生的中间结果聚合效果差等诸多问题。

发明内容

本申请的目的是提供一种分布式计算系统、分布式计算方法、分布式计算设备及计算机可读存储介质，能够对分布式计算过程中的任务拆分、通信方式等过程优化，以提高分布式计算效果。

为解决上述技术问题，本申请提供一种分布式计算方法，具体技术方案如下：

获取数据计算任务；

拆分所述数据计算任务得到子任务，并将所述子任务部署至计算节点，同时配置分布式训练通用框架中各所述计算节点的并行模式；

配置各所述计算节点之间的连接方式和通信同步方式；

利用梯度优化算法或者非梯度优化算法对所述计算节点执行信息同步效率优化；

聚合各所述计算节点产生的中间结果，并输出所述数据计算任务对应的最终计算结果。

可选的，所述并行模式包括数据并行模式、模型并行模式和混合并行模式；所述数据并行模式包含基于样本的数据并行和基于样本维度的数据并行。

可选的，若采用基于样本的数据并行，所述将所述子任务部署至计算节点包括：

将各所述子任务通过有放回的随机采样和局部置乱采样部署至计算节点。

可选的，若采用基于样本维度的数据并行，且所述子任务包含若干维属性或特征，所述将所述子任务部署至计算节点包括：

将所述子任务按照所述属性或所述特征进行划分，得到任务样本；

将所述任务样本分配至相应的计算节点。

可选的，若所述并行模式为所述模型并行模式，还包括：

水平拆分分布式计算模型或垂直拆分分布式计算模型，以适配所述子任务。

可选的，配置各所述计算节点之间的连接方式和通信同步方式包括：

判断所述数据计算任务中是否包含指定连接方式；

若是，以所述指定连接方式构建分布式计算系统；所述指定连接方式包括中心化架构和去中心化架构中任一种；

解析所述数据计算任务，得到所述通信同步方式，并按照所述通信同步方式配置所述分布式计算系统中各节点之间的通信同步方式。

可选的，若所述指定连接方式为中心化架构，以所述指定连接方式构建分布式计算系统包括：

确定由计算节点构成的工作者和由一个或一组服务器节点构成的服务者；

其中，所述工作者用于完成局部训练任务，并通过客户端接口与所述服务者通信以获取最新的全局模型参数；将自身的局部参数发送至所述服务者；

所述服务者用于对各所述工作者发送的局部参数进行聚合，利用ADD或者SUM操作更新所述全局模型参数。

可选的，若所述指定连接方式为去中心化架构，以所述指定连接方式构建分布式计算系统包括：

确定由计算节点构成的工作者；

各所述工作者之间采用Reduce架构或Gossip架构进行信息交互，并构建分布式计算系统。

可选的，若所述分布式计算系统采用所述Reduce架构，每个所述工作者与其他所有工作者通信，并以广播的方式将本地信息传递给其他所有工作者。

可选的，若所述分布式计算系统采用所述Gossip架构，每个所述工作者与其邻居工作者通信。

可选的，若所述通信同步方式为同步通信，则按照所述通信同步方式配置所述分布式计算系统中各节点之间的通信同步方式包括：

按照同步通信配置所述分布式计算系统中各节点之间的通信同步方式；其中，在所述分布式训练系统中任一计算节点完成当前轮次迭代时，等待其他计算节点完成其当前轮次迭代任务后，所有所述计算节点开始处理下一轮次训练迭代任务。

可选的，所述通信同步方式为异步通信，则按照所述通信同步方式配置所述分布式计算系统中各节点之间的通信同步方式包括：

按照异步通信配置所述分布式计算系统中各节点之间的通信同步方式；其中，在所述分布式训练系统中任一计算节点完成当前轮次迭代时，继续处理下一轮次训练迭代任务。

可选的，聚合各所述计算节点产生的中间结果，并输出所述数据计算任务对应的最终计算结果包括：

采用加加聚合逻辑或集成聚合逻辑聚合各所述计算节点产生的中间结果，并输出所述数据计算任务对应的最终计算结果；

其中，所述加加聚合包含全聚合逻辑和部分聚合逻辑；所述全聚合逻辑用于为不同的计算节点赋予不同权重，并对所有所述计算节点产生的所述中间结果求加权和。

本申请还提供一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现如上所述的方法的步骤。

本申请还提供一种服务器，包括存储器和处理器，所述存储器中存有计算机程序，所述处理器调用所述存储器中的计算机程序时实现如上所述的方法的步骤。

本申请提供一种分布式计算方法，包括：获取数据计算任务；拆分所述数据计算任务得到子任务，并将所述子任务部署至计算节点，同时配置分布式训练通用框架中各所述计算节点的并行模式；配置各所述计算节点之间的连接方式和通信同步方式；利用梯度优化算法或者非梯度优化算法对所述计算节点执行信息同步效率优化；聚合各所述计算节点产生的中间结果，并输出所述数据计算任务对应的最终计算结果。

本申请实施例在接收到数据计算任务后，先对数据计算任务进行拆分，以得到各个子任务，从而将子任务部署至计算节点，执行分布式计算系统中并行模式、连接方式和通信同步方式的配置，并对计算节点之间的信息同步进行优化，从而执行分布式计算，降低受到的硬件系统的限制约束，通过有效的分布式算法设计，发掘影响深度学习模型训练的因素，建立准确可靠的分布式加速计算规则，缩小子任务训练空间，减少模型训练时间，能够有效提升模型训练精度、降低梯度与模型参数变量的存储开销。

本申请还提供一种分布式计算系统、分布式计算设备及计算机可读存储介质，具有上述有益效果，此处不再赘述。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1为本申请实施例所提供的一种分布式计算方法的流程图；

图2为本申请实施例所提供的中心化架构示意图；

图3为本申请实施例所提供的Reduce架构的去中心化架构示意图；

图4为本申请实施例所提供的Gossip架构的去中心化架构示意图；

图5为本申请实施例所提供的分布式计算系统的结构示意图。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

参见图1，图1为本申请实施例所提供的一种分布式计算方法的流程图，该方法包括：

S101：获取数据计算任务；

本步骤旨在获取数据计算任务，在此对于如何获取该数据计算任务不作限定，在本申请实施例的实际应用中，可以通过网络、数据链路接收云端或者其他分布式计算设备发送的数据计算任务。在此对于数据计算任务的具体内容也不作限定，其可以包含所需要执行数据计算的任务内容、可选择的计算方式等，以便应用本申请实施例采用适配的分布式计算系统或者分布式计算方法加以计算。

S102：拆分所述数据计算任务得到子任务，并将所述子任务部署至计算节点，同时配置分布式训练通用框架中各所述计算节点的并行模式；

本步骤旨在拆分数据计算任务，由于数据计算任务很可能是计算量和数据量均较为庞大的任务，因此本步骤可以先对数据计算任务进行拆分，从而得到子任务，在此对于具体的拆分方式不作限定，其通常可以按照数据计算任务适配分布式计算系统中的计算节点数量或者性能的方式进行任务拆分。

在拆分得到子任务后，将子任务部署至计算节点，同时配置计算节点的并行模式。在此对于采用的并行模式不作限定，可以包括但不限于数据并行、模型并行和混合并行等方式。当然也可以采用其他并行模式，在此不一一举例限定。

并行模式可以包括数据并行模式、模型并行模式和混合并行模式，而数据并行模式包含基于样本的数据并行和基于样本维度的数据并行。

若采用基于样本的数据并行，在执行本步骤时，可以将各所述子任务通过有放回的随机采样和局部置乱采样部署至计算节点。

若采用基于样本维度的数据并行，且所述子任务包含若干维属性或特征，在执行本步骤时，可以将所述子任务按照所述属性或所述特征进行划分，得到任务样本，再将所述任务样本分配至相应的计算节点。

此外，若并行模式为模型并行模式，可以水平拆分分布式计算模型或垂直拆分分布式计算模型，以适配所述子任务，例如神经网络模型按照不同的拆分方式可以分为水平拆分和竖直拆分。

需要注意的是，在进行分布式计算时，需要构建相应的分布式计算系统，从而完成分布式计算，本步骤的分布式训练通用框架为构建分布式计算系统的必要基础结构，可由本领域技术人员事先配置分布式计算所需要的基础框架内容，从而适配不同分布式计算需要。

S103：配置各所述计算节点之间的连接方式和通信同步方式；

本步骤在上一步骤的基础上，进一步对需要配置分布式计算系统中各计算节点的连接方式和通信同步方式，该连接方式指分布式计算系统中各计算节点指的通信拓扑架构，以及在该种通信拓扑架构中计算节点之间的通信方式。

作为本步骤的一种优选执行方式，可以按照如下步骤执行本步骤：

S1031：判断所述数据计算任务中是否包含指定连接方式；若是，在进入S1032；若否，以默认连接方式配置计算节点之间的连接方式；

S1032：以所述指定连接方式构建分布式计算系统；所述指定连接方式包括中心化架构和去中心化架构中任一种；

S1033：解析所述数据计算任务，得到所述通信同步方式，并按照所述通信同步方式配置所述分布式计算系统中各节点之间的通信同步方式。

若是数据计算任务中指定了连接方式，则以数据计算任务中的指定连接方式为准，对分布式计算系统中计算节点的连接方式进行配置，否则以默认连接方式进行配置，在此对于默认连接方式不作限定，可由本领域技术人员自定义设置。

参见图2至图4，图2为本申请实施例所提供的中心化架构示意图，图3为本申请实施例所提供的Reduce架构的去中心化架构示意图，图4为本申请实施例所提供的Gossip架构的去中心化架构示意图，下面对中心化架构和去中心化架构分别进行说明：

若指定连接方式为中心化架构，以指定连接方式构建分布式计算系统时可以先确定由计算节点构成的工作者和由一个或一组服务器节点构成的服务者。工作者用于完成局部训练任务，并通过客户端接口与服务者通信以获取最新的全局模型参数；将自身的局部参数发送至服务者。服务者用于对各工作者发送的局部参数进行聚合，利用ADD或者SUM操作更新全局模型参数。

若指定连接方式为去中心化架构，则只需要确定由计算节点构成的工作者，各工作者之间采用Reduce架构或Gossip架构进行信息交互，并构建分布式计算系统。若分布式计算系统采用所述Reduce架构，参见图3每个所述工作者与其他所有工作者通信，并以广播的方式将本地信息传递给其他所有工作者。若分布式计算系统采用Gossip架构，参见图4，每个工作者仅与其邻居工作者通信。

而通信同步方式包含同步通信和异步通信。若采用同步通信，可以按照同步通信配置所述分布式计算系统中各节点之间的通信同步方式；其中，在所述分布式训练系统中任一计算节点完成当前轮次迭代时，等待其他计算节点完成其当前轮次迭代任务后，所有所述计算节点开始处理下一轮次训练迭代任务。

若采用异步通信，可以按照异步通信配置所述分布式计算系统中各节点之间的通信同步方式。异步通信时，在分布式训练系统中任一计算节点完成当前轮次迭代时，可以直接继续处理下一轮次训练迭代任务。

S104：利用梯度优化算法或者非梯度优化算法对所述计算节点执行信息同步效率优化；

为了进一步提高分布式计算效率，可以利用梯度优化算法或者非梯度优化算法对所述计算节点执行信息同步效率优化，即进一步提高计算节点之间的信息同步，确保能尽快执行下一轮迭代计算。

深度学习中的优化问题采用分布式训练策略通常可以描述为如下的优化问题：

其中

表示一个

维参数向量，f(w)为全局函数，每个局部函数

是光滑的，

，

表示分布式计算节点数量。上述问题的代表性实例有逻辑回归中分类问题、多代理系统中能源消耗最小化问题等。

为了解决上述问题，一阶优化算法，如梯度下降(Gradient Descent, GD)算法发挥了基础性作用。GD算法的核心迭代步骤如下：

其中，

表示学习率，

表示在

在迭代中基于参数

和样本

的随机梯度。然而，GD在每次迭代中需要遍历完整的数据集并计算全梯度。如果数据集规模非常大，这将导致计算开销巨大。为了避免计算全梯度的问题，还可以进一步采用随机梯度下降(Stochastic Gradient Descent, SGD)算法，其核心迭代过程如下：

与GD算法相比，SGD在每次迭代中仅需计算一个样本的随机梯度，计算梯度的时间开销由

降低到了

，其中m表示数据集样本数量。但是，由于SGD采用单样本随机代替全梯度，因此产生了额外的“偏差”，该偏差被业界定义为“方差”。方差的存在会导致SGD算法收敛速度变慢。为了解决这个问题，小批量随机梯度下降(Mini-Batch SGD)算法被提出，其核心迭代规则如下：

其中，

是由多个随机样本构成的样本集合。

阶梯度优化算法，如自然梯度下降NGD方法的更新公式如下：

上式中，F为Fisher信息矩阵。

上文为部分优化算法的描述，在本申请的一种具体应用中，针对各计算节点处理子任务所得到的中间结果，在以产生最终计算结果前，可以利用梯度优化算法或者非梯度优化算法将中间结果作为所需要处理的数据进行优化计算，从而确保快速聚合。

此外，梯度计算或通信占GPU训练总时长的94%以上，严重制约了训练效率。因此，提升分布式训练通信效率尤为关键。通常，可采用降低通信量来提高通信效率。本步骤提出一种改进的1-bit压缩优化技术。下面分别介绍原始的1-bit压缩优化技术和改进的1-bit压缩技术。

原始的1-bit压缩技术定义为：

令C[*]表示压缩操作运算，

表示求向量的L1范数，

表示一个d维实数向量，sign(x)表示取向量x的符号，则对向量x取1-bit压缩操作：

上述压缩过程中虽然能够减少通信量，但在某些情况下会产生误码。例如对于向量x=[1,-2, 3]和向量y=[1, 2, 3]而言：

C[x]=（|1|+|-2|+|3|）/3 *(+)；

C[y]=（|1|+|2|+|3|)/3*(+)；

可见，上述两个向量压缩结果相同。换言之，不同的向量，采用原始的1-bit压缩后结果竟然相同，显然这种压缩会产生误码。相反地，压缩的目标应尽量做到差异化。为此，本步骤可采用一种改进的1-bit压缩技术规避上述问题。

改进后的1-bit压缩技术如下：

公式(*)采用向量的L2范数，以及引入了缩放因子

(通常0<λ<1)，用以解决原始1-bit压缩方法的误码问题。公式(**)主要作用在于限制压缩后的数据

与原始数据x之间的差距不能超过设置的常数

，从而尽可能地保证压缩精度。

因此，虽然不同的计算节点受限于自身硬件，以及要处理子任务的任务难度和数据量等，导致计算节点计算得到中间结果所需时长不同，但可以通过对输出的中间结果采用梯度优化或者非梯度优化，以压缩各计算节点得到的中间结果，从而使得各计算节点执行中间结果同步时所需时间相对集中，避免造成计算时长越长的中间结果所需要的同步时间越长，从而拖累整个系统得到中间结果的所需时长，进一步影响节点间的信息同步效率。

S105：聚合各所述计算节点产生的中间结果，并输出所述数据计算任务对应的最终计算结果。

在完成目标轮次的迭代计算后，通过聚合计算节点产生的中间结果，即可输出最终计算结果。

作为一种的执行方式，本步骤可以采用加加聚合逻辑或集成聚合逻辑聚合各所述计算节点产生的中间结果，并输出所述数据计算任务对应的最终计算结果。其中，加加聚合包含全聚合逻辑和部分聚合逻辑。全聚合逻辑用于为不同的计算节点赋予不同权重，并对所有计算节点产生的中间结果求加权和。

请参考图5，图5为本申请实施例所提供的分布式计算系统的结构示意图，与上述实施例提供的分布式计算方法可相互参考对照，该系统包括：

划分组件，用于拆分数据计算任务得到子任务，并将所述子任务部署至计算节点，同时配置分布式训练通用框架中各所述计算节点的并行模式；

通信组件，用于配置各所述计算节点之间的连接方式和通信同步方式；

算法优化组件，用于利用梯度优化算法或者非梯度优化算法对所述计算节点执行信息同步效率优化；

聚合组件，用于聚合各所述计算节点产生的中间结果，并输出所述数据计算任务对应的最终计算结果。

本申请实施例同的分布式计算系统主要包含划分组件、通信组件、算法优化组件和聚合组件，四个组件相辅相成，在分布式计算系统中起到不同的作用。下文针对四个组件逐一进行说明：

划分组件对应上一实施例中的步骤S102，主要用于拆分所需要执行的数据计算任务。该数据计算任务可以为数据集或者数据模型，从而拆分得到相应的子数据集或子模型。为了便于理解，本实施例统一以子任务进行描述。在拆分过程中，可以按照不同的拆分策略。本实施例在此提供几种计算节点的并行模式，而拆分策略可以按照所采用的并行模式采用相应的拆分方式。该并行模式可以包括数据并行模式、模型并行模式和混合并行模式，而数据并行模式可以进一步包含基于样本的数据并行和基于样本维度的数据并行。

对于数据并行模式，数据并行依赖于在并行计算环境中多个计算节点细分数据集实现分割计算。数据并行算法侧重于将数据分布在不同的并行计算节点上，并且各计算节点执行相同的计算模型。数据并行模式按照数据集不同的拆分策略分为基于样本的数据并行和基于样本维度的数据并行。基于样本的数据并行：假定分布式训练系统数据集包含

个数据样本和

个计算节点，将这

个样本通过有放回的随机采样与局部(全局)置乱采样两种方式分配至

个计算节点。基于样本维度的数据并行。假定数据集包含

个样本且每个样本具有

维属性或特征，分布式训练系统包括

个计算节点。基于样本维度的数据并行则是从样本属性维度出发，将

个样本按照不同的属性进行拆分，并把拆分后的样本子集分配至相应的计算节点。

对于模型并行模式，如果数据计算任务过大且无法通过单机方式实现存储，则需要对模型进行有效拆分使得训练任务变得可行。模型并行将模型参数拆分成多个子模型，并且各个子模型分配至不同的计算节点。值得注意的是由于神经网络模型的特殊性，即神经网络模型的分层结构使得其在应用模型并行方面具有显著优势。神经网络模型按照不同的拆分方式可以分为水平拆分和垂直拆分。

对于混合并行模式，为了克服数据并行和模型并行的不足，还可以设置一种混合并行的模式，即同时将数据并行模式与模型并行模式结合起来，使其能够应用于更复杂的模型训练任务中。

而通信组件能够利用多个计算节点间的协同合作加速完成训练任务，由于硬件设备、网络带宽和传输速率等因素的影响，分布式训练系统计算节点间的通信往往成为瓶颈，严重制约了训练性能。在这种情况下，通信组件的力求设计合理、高效的通信机制，减少通信开销。在设计通信机制时，不仅要考虑硬件系统层面的限制约束，还要兼顾软件算法层面的设计问题。本申请实施例中的通信组件主要从通信内容、通信拓扑、通信同步方式等方面对分布式计算过程中的通信过程进行优化。

具体的，通信内容与上文所采用的并行模式相关。在数据并行中，每个计算节点使用本地训练数据进行模型训练。为了达到全局模型一致性的目的，各计算节点需要同其他计算节点进行通信以获得其他计算节点的局部模型参数或更新，进而保持全局模型参数一致性。区别于数据并行，模型并行模式中各计算节点使用相同的数据来训练不同的子任务。例如，在神经网络模型训练过程中，某个计算节点的迭代必须依赖于其他节点的中间计算结果或输出，此时需要进行通信才能获得其他节点训练的中间结果及输出。

对于通信拓扑，不同的分布式系统架构产生了不同的通信方式，即分布式训练网络拓扑架构决定了通信方式。一般而言，分布式训练系统的通信拓扑架构是指各个计算节点之间的连接方式，包括物理拓扑和逻辑拓扑。物理拓扑主要包括Fat-Tree和BCube等在内的多种拓扑。逻辑拓扑包括中心化架构和去中心化架构。

中心化架构具有一个中心主节点来协调各个工作节点。中心化架构的代表是参数服务器(parameter 服务者, PS)架构。在PS架构中存在两种角色：工作者和服务者。前者通常由计算节点构成，而后者一般是一个或一组服务器节点构成。工作者主要负责如下操作：(1)基于其局部数据样本完成局部训练任务；(2)通过客户端接口与服务者进行通信，即从服务者处获取最新的全局模型参数并将其自身的局部参数发送到服务者处。服务者作为PS架构的核心部件主要完成如下操作：

(1)对各个工作者发送来的局部梯度进行聚合；

(2)通过ADD或SUM操作更新全局模型参数并返回至各个工作者处。

另外，PS架构在工作者和服务者之间逻辑上采用基于二部图的通信拓扑。换言之，通信只发生在服务者与工作者之间，而工作者与工作者之间不存在直接的通信。

中心化架构的瓶颈主要表现在中心服务者的通信拥塞问题，特别是随着工作者数量逐渐增加的情况下该问题尤为凸显。为了缓解中心化架构服务者节点的通信拥塞问题，研究人员提出了不包含中心服务者节点的去中心化架构。与中心化架构相比，去中心化架构中的工作者之间通过某些巧妙的通信设计进行信息交互，如All-Reduce架构。在All-reduce架构中，每个工作者需要与所有工作者进行通信，并以广播的方式将其本地信息传递给其他所有工作者。因此，每个工作者以该方式获取了所有工作者的信息，进而实现了全局信息同步。值得注意的是与All-Reduce相比，在Grossip架构中，每个工作者只与它的邻居工作者通信。

在分布式训练系统中，基于不同通信拓扑实现模型参数、梯度等信息的同步直接影响到算法的收敛性。一般地，通信同步方式主要包括同步通信和异步通信，也称之为同步算法和异步算法。

同步算法主要思想是：当分布式训练系统中的一个计算节点完成当前轮次迭代时，它必须等待其他计算节点完成其当前轮次迭代任务，然后它们才能共同处理下一轮次训练迭代任务。在此对于采用何种同步算法不作限定，以典型的同步算法，如整体同步并行(bulk synchronous parallel, BSP)算法为例。在BSP算法中，当某个计算节点完成当前迭代任务后，需要通过不同通信拓扑逻辑与其他计算节点同步模型参数或梯度等信息。然后，它们以相同的“起跑线”进入下一轮次迭代过程。为了保证迭代以相同的“起跑线”进行，BSP算法引入了一个全局同步障碍(synchronization barrier)。它的工作原理是要求那些处理能力较强且迭代速度快的计算节点都被强制在同步障碍处停止，等待其他处理能力较弱且迭代速度慢的计算节点完成其当前轮次迭代任务后，训练系统才会执行下一轮次迭代任务。

异步通信或异步算法主要思想是当系统中的某个计算节点完成其当前轮次迭代后，它可以继续执行下一轮次迭代而无需等待其他计算节点。异步算法可进一步细分为多机异步通信和单机多线程异步通信。

算法优化组件主要用于实现算法优化，主要包含以下两大类别算法：(1)梯度类优化算法，包括一阶优化算法和高阶优化算法；(2)非梯度类优化算法。具体而言，一阶优化算法主要有梯度下降（Gradient Descent, GD）、随机梯度下降(Stochastic GradientDescent, SGD)、mini-batch随机梯度下降、投影次梯度方法（Projected Sub-gradientMethod, PSG）等。二阶优化算法主要有Newton方法、拟Newton方法等。非梯度类优化算法主要有坐标下降方法（coordinate Descent Method, CDM）、原始对偶方法（Primal DualMethod）等。

聚合组件将各个计算节点产生的中间结果进行聚合，从而输出最终的训练结果有效的聚合方法会加速训练过程。一般地，聚合组件可以包括基于加和的聚合以及基于集成的聚合。

基于加和的聚合方法常见于数据并行模式，当全体计算节点完成各自训练任务后，聚合组件基于特定的聚合逻辑将计算节点产生的中间结果进行聚合。聚合逻辑一般包括全聚合与部分聚合。下面以参数服务器架构说明上述2种聚合逻辑。全聚合逻辑为不同计算节点赋予不同的权重，并对全体计算节点产生的中间结果求加权和。全聚合的优点是计算复杂性较低且易于实施，缺点是当使用同步并行算法框架的情形下，算法容易产生“拖累者”效应。为了克服全聚合的不足，研究人员提出了部分聚合逻辑，包括带备份节点的同步算法、异步ADMM算法以及去中心化算法。带备份节点的同步算法采取以空间换时间的策略。例如，聚合额外大约5%计算节点的中间结果能够有效提升算法精确性。异步ADMM则是控制最大延迟来聚合部分计算节点中间结果，从而避免学习到“拖累者”计算节点的不精确信息。去中心化算法则聚合少量邻居节点中间结果。

基于集成的聚合则可以用于解决非凸神经网络模型训练的聚合问题。例如，已有研究指出简单地对各计算节点的局部中间结果进行平均，并不能保证全局模型性能优于局部模型。因此，可以采用一种融合压缩的方法EC-DNN。此外，基于投票的聚合发挥了重要作用。与单机训练相比，算法在几乎不损失精度的前提下，保证模型训练过程快速收敛。

本申请实施例通过有效的分布式算法设计，发掘影响深度学习模型训练的因素，探索分布式架构、通信模式、梯度计算之间深层次的内在关联，建立准确可靠的分布式加速计算规则，缩小子任务训练空间，减少模型训练时间，能够有效提升模型训练精度、降低梯度与模型参数变量的存储开销。

本申请还提供了一种计算机可读存储介质，其上存有计算机程序，该计算机程序被执行时可以实现上述实施例所提供的步骤。该存储介质可以包括：U盘、移动硬盘、只读存储器（Read-Only Memory ，ROM）、随机存取存储器（Random Access Memory ，RAM）、磁碟或者光盘等各种可以存储程序代码的介质。

本申请还提供了一种服务器，可以包括存储器和处理器，所述存储器中存有计算机程序，所述处理器调用所述存储器中的计算机程序时，可以实现上述实施例所提供的步骤。当然所述服务器还可以包括各种网络接口，电源等组件。

说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。对于实施例提供的系统而言，由于其与实施例提供的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

本文中应用了具体个例对本申请的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本申请的方法及其核心思想。应当指出，对于本技术领域的普通技术人员来说，在不脱离本申请原理的前提下，还可以对本申请进行若干改进和修饰，这些改进和修饰也落入本申请权利要求的保护范围内。

还需要说明的是，在本说明书中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

Claims

1.一种分布式计算方法，其特征在于，包括：

获取数据计算任务；

配置各所述计算节点之间的连接方式和通信同步方式；

2.根据权利要求1所述的分布式计算方法，其特征在于，所述并行模式包括数据并行模式、模型并行模式和混合并行模式；所述数据并行模式包含基于样本的数据并行和基于样本维度的数据并行。

3.根据权利要求2所述的分布式计算方法，其特征在于，若采用基于样本的数据并行，所述将所述子任务部署至计算节点包括：

4.根据权利要求2所述的分布式计算方法，其特征在于，若采用基于样本维度的数据并行，且所述子任务包含若干维属性或特征，所述将所述子任务部署至计算节点包括：

将所述任务样本分配至相应的计算节点。

5.根据权利要求2所述的分布式计算方法，其特征在于，若所述并行模式为所述模型并行模式，还包括：

6.根据权利要求1所述的分布式计算方法，其特征在于，配置各所述计算节点之间的连接方式和通信同步方式包括：

判断所述数据计算任务中是否包含指定连接方式；

7.根据权利要求6所述的分布式计算方法，其特征在于，若所述指定连接方式为中心化架构，以所述指定连接方式构建分布式计算系统包括：

8.根据权利要求6所述的分布式计算方法，其特征在于，若所述指定连接方式为去中心化架构，以所述指定连接方式构建分布式计算系统包括：

确定由计算节点构成的工作者；

9.根据权利要求8所述的分布式计算方法，其特征在于，若所述分布式计算系统采用所述Reduce架构，每个所述工作者与其他所有工作者通信，并以广播的方式将本地信息传递给其他所有工作者。

10.根据权利要求8所述的分布式计算方法，其特征在于，若所述分布式计算系统采用所述Gossip架构，每个所述工作者与其邻居工作者通信。

11.根据权利要求6所述的分布式计算方法，其特征在于，若所述通信同步方式为同步通信，则按照所述通信同步方式配置所述分布式计算系统中各节点之间的通信同步方式包括：

12.根据权利要求6所述的分布式计算方法，其特征在于，所述通信同步方式为异步通信，则按照所述通信同步方式配置所述分布式计算系统中各节点之间的通信同步方式包括：

13.根据权利要求1所述的分布式计算方法，其特征在于，聚合各所述计算节点产生的中间结果，并输出所述数据计算任务对应的最终计算结果包括：

14.一种分布式计算系统，其特征在于，包括：

15.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1-13任一项所述的分布式计算方法的步骤。

16.一种分布式计算设备，其特征在于，包括存储器和处理器，所述存储器中存有计算机程序，所述处理器调用所述存储器中的计算机程序时实现如权利要求1-13任一项所述的分布式计算方法的步骤。