CN111105042B

CN111105042B - 一种并行消息处理方法、系统及相关装置

Info

Publication number: CN111105042B
Application number: CN201911285965.9A
Authority: CN
Inventors: 王超
Original assignee: Guangdong Inspur Big Data Research Co Ltd
Current assignee: Guangdong Inspur Smart Computing Technology Co Ltd
Priority date: 2019-12-13
Filing date: 2019-12-13
Publication date: 2023-07-25
Anticipated expiration: 2039-12-13
Also published as: CN111105042A

Abstract

本申请提供一种并行消息处理方法，包括：当第一运算器完成参数单元的计算时，发出归约操作请求至主控器，以便主控器将归约操作请求对应的参数单元全局广播至所有运算器，同时各运算器缓存参数单元；当第二运算器完成参数单元的计算得到归约数据后，第二运算器将归约数据与第二运算器缓存中的参数单元比对，生成第二运算器对应的位矢量信息；每当生成新的位矢量信息时，将各运算器对应的位矢量信息进行位与操作；根据位与操作结果执行归约操作。本申请避免了运算器频繁与主控器通信交互的弊端，主控器上的通讯压力明显减少，充分利用了带宽。本申请还提供一种并行消息处理方法、系统、计算机可读存储介质和深度学习设备，具有上述有益效果。

Description

一种并行消息处理方法、系统及相关装置

技术领域

本申请涉及数据处理领域，特别涉及一种并行消息处理方法、系统及相关装置。

背景技术

大规模分布式深度学习训练任务，尤其对于复杂模型和大规模数据集训练过程中会产生大量的消息体和消息队列，对于采用并行消息队列处理方式的数据并行分布式训练，多个GPU间独立运行各自训练数据，然后等待本节点或者其他节点的GPU完成训练然后采用不同策略来同步模型参数，此过程中产生大量的消息体和冗长的消息处理等待时间，计算单元越多，该过程所占用的时间越长。现今多个主流深度学习框架采用了消息并行处理方式进行数据并行分布式训练时产生的消息队列，但是都没有做相应优化导致在大规模计算机群上做分布式训练时有相当的性能损失。

发明内容

本申请的目的是提供一种并行消息处理方法、系统。计算机可读存储介质和深度学习设备，能够提高并行归约操作的执行效率。

为解决上述技术问题，本申请提供一种并行消息处理方法，具体技术方案如下：

当第一运算器完成参数单元的计算时，发出归约操作请求至主控器，以便所述主控器将所述参数单元全局广播至所有运算器；

当各运算器接收到所述参数单元后，各所述运算器缓存所述参数单元；

当第二运算器完成所述参数单元的计算得到归约数据后，所述第二运算器将所述归约数据与所述第二运算器缓存中的所述参数单元比对，生成所述第二运算器对应的位矢量信息；

每当生成新的位矢量信息时，将各所述运算器对应的位矢量信息进行位与操作；

根据位与操作结果执行所述归约操作。

其中，所述参数单元包括归约类型、归约范围和张量。

其中，各所述运算器缓存所述参数单元包括：

各所述运算器以pre-reduce消息格式缓存所述参数单元。

其中，根据位与操作结果执行所述归约操作包括：

若各运算器对应的位矢量信息的位与操作结果为1，则各运算器执行所述归约操作。

其中，若所述位与操作结果为0，还包括：

在位与操作结果为0的双方运算器执行对所述参数单元的计算后，重新执行双方运算器对应的位矢量信息的位与操作。

本申请还提供一种并行消息处理系统，包括：

请求发送模块，用于当第一运算器完成参数单元的计算时，发出归约操作请求至主控器，以便所述主控器将所述参数单元全局广播至所有运算器；

缓存模块，用于当各运算器接收到所述参数单元后，各所述运算器缓存所述参数单元；

位矢量生成模块，用于当第二运算器完成所述参数单元的计算得到归约数据后，所述第二运算器将所述归约数据与所述第二运算器缓存中的所述参数单元比对，生成所述第二运算器对应的位矢量信息；

位与比对模块，用于每当生成新的位矢量信息时，将各所述运算器对应的位矢量信息进行位与操作；

归约执行模块，用于根据位与操作结果执行所述归约操作。

其中，所述缓存模块包括：

缓存单元，用于各所述运算器以pre-reduce消息格式缓存所述参数单元。

其中，所述归约执行模块具体为若各运算器对应的位矢量信息的位与操作结果为1，控制各运算器执行所述归约操作的模块。

本申请还提供一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现如上所述的并行消息处理方法的步骤。

本申请还提供一种深度学习设备，包括存储器和处理器，所述存储器中存有计算机程序，所述处理器调用所述存储器中的计算机程序时实现如上所述的并行消息处理方法的步骤。

本申请提供一种并行消息处理方法，包括：当第一运算器完成参数单元的计算时，发出归约操作请求至主控器，以便所述主控器将所述参数单元全局广播至所有运算器；当各运算器接收到所述参数单元后，各所述运算器缓存所述参数单元；当第二运算器完成所述参数单元的计算得到归约数据后，所述第二运算器将所述归约数据与所述第二运算器缓存中的所述参数单元比对，生成所述第二运算器对应的位矢量信息；每当生成新的位矢量信息时，将各所述运算器对应的位矢量信息进行位与操作；根据位与操作结果执行所述归约操作。

本申请中运算器与主控器之间只通讯一次，即第一个完成训练的第一运算器提出请求，然后主控器做出广播，之后其他运算器都是与本地消息缓存进行比对和与其他运算器进行通信，如果所有运算器均已完成参数单元的计算则立即开始参数的归约操作，避免运算器频繁与主控器通信交互的弊端，主控器上的通讯压力明显减少，充分利用了带宽。本申请还提供一种并行消息处理方法、系统、计算机可读存储介质和深度学习设备，具有上述有益效果，此处不再赘述。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1为本申请实施例所提供的一种并行消息处理方法的流程图；

图2为本申请实施例所提供的一种并行消息处理系统结构示意图。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

当前Horovod深度学习框架采用了Message passing interface规范和归约的消息处理方式来进行分布式深度学习的训练，其架构中采用主控器-运算器结构，主控器作为消息处理中心接收运算器发来的归约操作请求和发送归约操作执行的命令给运算器，每个运算器在结束训练后发送归约操作请求和等待从主控器发来的被执行的消息，这期间等待的运算器就会被锁定，亦即不进行新的训练，等待本次归约操作真正执行时再进行新的训练，这样如果计算节点过多就会产生大量待归约的运算器处于block状态(即运算器无法进行新的训练)并产生巨大消息等待时间。

主控器-运算器结构中主控器会频繁的接收到来自多个运算器对同一消息内容的归约操作，因此主控器承担了大量通信请求和大量冗余消息传送，如果一次归约操作需要若干个运算器都执行完成后才操作，则主控器需要接收到运算器数量相等的请求后才发出执行操作的命令，这样主控器对所有运算器需要实时进行通讯，因此主控器承担了大量通信任务和消息处理负荷。在中小规模的训练集群中主控器瓶颈效应不明显，但是如果大规模(上千台计算节点，上万块GPU规模)集群上进行分布式训练，主控器-运算器结构的瓶颈则会被放大，巨量的计算节点产生巨量待执行归约操作的消息，如果不能及时进行操作，则会造成大量计算资源浪费以及通信带宽被大量消息请求和执行命令所占用。这样将造成巨大的资源浪费，因为带宽并没有被需要归约的模型参数所用，而且易造成堵塞，大大降低了训练速度。

为此，本申请提供一种并行消息处理方法，能够提高并行消息处理效率，具体内容如下：

请参考图1，图1为本申请实施例所提供的一种并行消息处理方法的流程图，该方法包括：

S101：当第一运算器完成参数单元的计算时，发出归约操作请求至主控器，以便所述主控器将所述参数单元全局广播至所有运算器；

本步骤旨在当第一运算器训练完成，需要对参数单元进行归约操作时，发送归约操作请求至主控器，此时主控器需要将归约操作请求对应的参数单元全局广播至所有的运算器。第一运算器指的是最先完成对参数单元计算的运算器。

在此对于参数单元的内容不作限定，参数单元可以包括类型、范围和tensor名称等等。

S102：当各运算器接收到所述参数单元后，各所述运算器缓存所述参数单元；

各运算器接收到主控器广播的参数单元后，保存该归约操作请求，同时缓存归约操作请求中的参数单元。在此对于各运算器如何保存该参数单元不作限定，例如可以以pre-reduce消息进行缓存。当然也可以缓存成其他消息格式。

容易理解的是，当各运算器接收到主控器广播的参数单元后，意味着已经存在训练完成并且请求进行归约操作的运算器。

S103：当第二运算器完成所述参数单元的计算得到归约数据后，所述第二运算器将所述归约数据与所述第二运算器缓存中的所述参数单元比对，生成所述第二运算器对应的位矢量信息；

在步骤S101和S102执行后，一旦有其他运算器完成了需要归约的参数训练，即执行对参数单元的计算后，该运算器会优先与自身的缓存进行比对。第二运算器可以为除第一运算器以外的任一运算器。由于在该运算器前已经存有其他运算器向主控器发送了归约操作的请求，且本地缓存中保存了参数单元。则该运算器无需再向主控器发送归约操作请求，而是将自身得到的归约数据与保存的参数单元相比对。换句话说，如果该运算器缓存中有了该参数需要归约的记录则进行一次记录，同时保存成位矢量的形式。

需要注意的是，生成为位矢量属于该运算器对应的位矢量信息。而位矢量信息用于区分运算器是否完成参数单元的计算，也即运算器是否需要进行归约操作。在此对于位矢量信息的表达方式不作限定，通常可用0或1表示。

举例而言，当前第一运算器1对参数单元T完成计算后，需要进行归约操作，此时向主控器发送归约操作请求。主控器接收到归约操作请求后，将参数单元T全局广播。此后，与主控器相连的所有运算器均接收到主控器的全局广播，并将参数单元T缓存。

此后，任一运算器N同样执行完对参数单元T的计算后，得到相应的归约数据，此时并不向主控器发送任何消息，而是将归约数据与自身缓存的参数单元比对，得到属于运算器N的位矢量信息。

S104：每当生成新的位矢量信息时，将各所述运算器对应的位矢量信息进行位与操作；

本步骤需要再新的位矢量信息生成时，将所有的运算器对应的位矢量信息进行一次位与操作，用于判断是否执行归约操作。这样操作后如果所有运算器上该需要进行归约操作的参数已经完成并相应的做好记录后就可以开始进行模型参数的归约操作。

容易理解的是，若运算器未完成参数单元的计算，则自然不存在属于该运算器的位矢量信息，或者，对应的位矢量信息为空或其他用于表示未完成参数单元计算的标识符。则进行位与操作时，无法得到对应的与结果。假设采用0和1分别表示未完成参数单元的计算和已完成参数单元的计算，则只有两个运算器的位矢量信息均为1才可以得到1的结果。同样的，对于多个运算器，只有各运算器的位矢量信息均为1结果才为1。需要注意的是，第一运算器同样应视为已完成参数单元计算。

S105：根据位与操作结果执行所述归约操作。

本步骤需要根据位与操作结果执行归约操作。同样以0和1分别表示未完成参数单元的计算和已完成参数单元的计算为例，若各运算器之间的位与操作结果均包括1，则各运算器执行归约操作。若存在任一运算器之间的位与操作结果为0，等待位与操作结果为0的双方运算器执行对参数单元的归约操作后，重新执行双方运算器对应的位矢量信息的位与操作。

可以理解的是，经过位与操作，若任意运算器未完成参数单元的计算，则所有运算器的位与结果一定为不可执行归约操作。因此，只有当所有的运算器均执行完对参数单元的计算后，即均准备进行归约操作后，得到的位与操作结果才为执行归约操作所必须的结果。

此外，应当理解的是，由于在分布式训练过程中可能存在对多个参数单元的计算过程，则位矢量信息可以同时包括多个元素，即可分别表示运算器对应每个参数单元的计算状态。例如可以采用{T_N|M_N}的格式，T_N为参数单元，M_N为参数单元T_N对应的位矢量信息。

由上述描述过程可以看出，本申请实施例中，运算器与主控器之间只通讯一次，即第一个完成训练的运算器提出请求，然后主控器做出广播，之后其他运算器都是与自己本地消息缓存进行比对和与其他运算器进行通信，如果所有运算器均已完成则立即开始参数的归约操作，这样就避免了之前所诉的频繁与主控器通信交互的弊端，主控器上的通讯压力明显减少，并且充分利用了带宽。

下面对本申请实施例提供的一种并行消息处理系统进行介绍，下文描述的并行消息处理系统与上文描述的一种并行消息处理方法可相互对应参照。

参见图2，图2为本申请实施例所提供的一种并行消息处理系统结构示意图，本申请还提供一种并行消息处理系统，包括：

请求发送模块100，用于当第一运算器完成参数单元的计算时，发出归约操作请求至主控器，以便所述主控器将所述参数单元全局广播至所有运算器；

缓存模块200，用于当各运算器接收到所述参数单元后，各所述运算器缓存所述参数单元；

位矢量生成模块300，用于当第二运算器完成所述参数单元的计算得到归约数据后，所述第二运算器将所述归约数据与所述第二运算器缓存中的所述参数单元比对，生成所述第二运算器对应的位矢量信息；

位与比对模块400，用于每当生成新的位矢量信息时，将各所述运算器对应的位矢量信息进行位与操作；

归约执行模块500，用于根据位与操作结果执行所述归约操作。

基于上述实施例，作为优选的实施例，所述缓存模块200可以包括：

基于上述实施例，作为优选的实施例，所述归约执行模块500具体为若各运算器对应的位矢量信息的位与操作结果为1，控制各运算器执行所述归约操作的模块。

本申请还提供了一种计算机可读存储介质，其上存有计算机程序，该计算机程序被执行时可以实现上述实施例所提供的步骤。该存储介质可以包括：U盘、移动硬盘、只读存储器(Read-Only Memory，ROM)、随机存取存储器(Random Access Memory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

本申请还提供了一种深度学习设备，可以包括存储器和处理器，所述存储器中存有计算机程序，所述处理器调用所述存储器中的计算机程序时，可以实现上述实施例所提供的步骤。当然所述深度学习设备还可以包括各种网络接口，电源等组件。

说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。对于实施例提供的系统而言，由于其与实施例提供的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

本文中应用了具体个例对本申请的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本申请的方法及其核心思想。应当指出，对于本技术领域的普通技术人员来说，在不脱离本申请原理的前提下，还可以对本申请进行若干改进和修饰，这些改进和修饰也落入本申请权利要求的保护范围内。

还需要说明的是，在本说明书中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

Claims

1.一种并行消息处理方法，其特征在于，包括：

根据位与操作结果执行归约操作。

2.根据权利要求1所述的并行消息处理方法，其特征在于，所述参数单元包括归约类型、归约范围和张量。

3.根据权利要求1所述的并行消息处理方法，其特征在于，各所述运算器缓存所述参数单元包括：

各所述运算器以pre-reduce消息格式缓存所述参数单元。

4.根据权利要求1所述的并行消息处理方法，其特征在于，根据位与操作结果执行所述归约操作包括：

5.根据权利要求4所述的并行消息处理方法，其特征在于，若所述位与操作结果为0，还包括：

6.一种并行消息处理系统，其特征在于，包括：

归约执行模块，用于根据位与操作结果执行所述归约操作。

7.根据权利要求6所述的并行消息处理系统，其特征在于，所述缓存模块包括：

8.根据权利要求6所述的并行消息处理系统，其特征在于，所述归约执行模块具体为若各运算器对应的位矢量信息的位与操作结果为1，控制各运算器执行所述归约操作的模块。

9.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1-5任一项所述的并行消息处理方法的步骤。

10.一种深度学习设备，其特征在于，包括存储器和处理器，所述存储器中存有计算机程序，所述处理器调用所述存储器中的计算机程序时实现如权利要求1-5任一项所述的并行消息处理方法的步骤。