CN115374914A

CN115374914A - 分布式训练方法、并行深度学习框架及电子设备

Info

Publication number: CN115374914A
Application number: CN202211299419.2A
Authority: CN
Inventors: 宦成颖; 卢亿雷
Original assignee: Beijing Baihai Technology Co ltd
Current assignee: Beijing Baihai Technology Co ltd
Priority date: 2022-10-24
Filing date: 2022-10-24
Publication date: 2022-11-22
Anticipated expiration: 2042-10-24
Also published as: CN115374914B

Abstract

本发明提供了一种分布式训练方法、并行深度学习框架及电子设备，该方法应用于并行深度学习框架，包括：获取待计算的计算图，并基于图神经网络将计算图划分为多个计算子图；将每个计算子图发送到不同的计算节点；在每个计算节点对计算子图进行并行计算。本发明能够提高分布式训练的性能。

Description

分布式训练方法、并行深度学习框架及电子设备

技术领域

本发明涉及深度学习技术领域，尤其是涉及一种分布式训练方法、并行深度学习框架及电子设备。

背景技术

深度学习算法常常被应用于各行各业中，例如计算机视觉、自然语言处理、自动驾驶等等。深度学习需要使用大规模数据来进行训练以及推理。然而在使用现有的深度学习框架，例如TensorFlow或者PyTorch对大规模数据进行训练或者推理时，现有的框架会产生大量的计算开销从而导致很低的性能以及很高的时间开销；使用分布式算法来对大规模深度学习模型进行训练是另一种处理方式，但是直接在深度学习模型上进行分布式学习将会导致GPU资源利用率非常低以及计算开销以及通信开销很高。因此，使用现有的深度学习框架进行分布式训练，性能较差。

发明内容

有鉴于此，本发明的目的在于提供一种分布式训练方法、并行深度学习框架及电子设备，能够提高分布式训练的性能。

为了实现上述目的，本发明实施例采用的技术方案如下：

第一方面，本发明实施例提供了一种分布式训练方法，该方法应用于并行深度学习框架，包括：获取待计算的计算图，并基于图神经网络将计算图划分为多个计算子图；将每个计算子图发送到不同的计算节点；在每个计算节点对计算子图进行并行计算。

在一种实施方式中，基于图神经网络将计算图划分为多个计算子图，包括：基于计算图确定多种计算图划分策略；基于图神经网络预测每种计算图划分策略的运行时间；基于计算图划分策略的运行时间确定目标计算图划分策略，并基于目标计算图划分策略对计算图进行划分，得到多个计算子图。

在一种实施方式中，基于图神经网络预测每种计算图划分策略的运行时间，包括：对于每种计算图划分策略，基于图神经网络预测计算图划分策略对应的每个子图的运行时间；将每个子图的运行时间的和，确定为计算图划分策略的运行时间。

在一种实施方式中，基于计算图划分策略的运行时间确定目标计算图划分策略，包括：采用贪心算法或者动态规划算法确定计算图划分策略的运行时间的最小运行时间；将最小运行时间对应的计算图划分策略确定为目标计算图划分策略。

在一种实施方式中，计算节点包括多个图形处理器GPU；在每个计算节点对计算子图进行并行计算，包括：将计算子图进行划分，得到多个目标子图；将目标子图发送至不同的GPU进行并行计算。

第二方面，本发明实施例提供了一种并行深度学习框架，包括：计算图划分模块，用于获取待计算的计算图，并基于图神经网络将计算图划分为多个计算子图；计算子图发送模块，用于将每个计算子图发送到不同的计算节点；计算模块，用于在每个计算节点对计算子图进行并行计算。

在一种实施方式中，计算图划分模块还用于：基于计算图确定多种计算图划分策略；基于图神经网络预测每种计算图划分策略的运行时间；基于计算图划分策略的运行时间确定目标计算图划分策略，并基于目标计算图划分策略对计算图进行划分，得到多个计算子图。

在一种实施方式中，计算节点包括多个图形处理器GPU；计算模块还用于：将计算子图进行划分，得到多个目标子图；将目标子图发送至不同的GPU进行并行计算。

第三方面，本发明实施例提供了一种电子设备，包括处理器和存储器，存储器存储有能够被处理器执行的计算机可执行指令，处理器执行计算机可执行指令以实现上述第一方面提供的任一项的方法的步骤。

第四方面，本发明实施例提供了一种计算机可读存储介质，计算机可读存储介质上存储有计算机程序，计算机程序被处理器运行时执行上述第一方面提供的任一项的方法的步骤。

本发明实施例带来了以下有益效果：

本发明实施例提供的上述分布式训练方法、并行深度学习框架及电子设备，该方法应用于并行深度学习框架，首先，获取待计算的计算图，并基于图神经网络将计算图划分为多个计算子图；然后，将每个计算子图发送到不同的计算节点；最后，在每个计算节点对计算子图进行并行计算。上述方法通过图神经网络对计算图进行高效划分，从所有划分中选择开销最小的划分方式，从而减少了时间开销，提升了训练性能；同时，在每个计算节点对计算子图进行并行计算，进一步提升了分布式训练的性能。

本发明的其他特征和优点将在随后的说明书中阐述，并且，部分地从说明书中变得显而易见，或者通过实施本发明而了解。本发明的目的和其他优点在说明书、权利要求书以及附图中所特别指出的结构来实现和获得。

为使本发明的上述目的、特征和优点能更明显易懂，下文特举较佳实施例，并配合所附附图，作详细说明如下。

附图说明

为了更清楚地说明本发明具体实施方式或现有技术中的技术方案，下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施方式，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的一种分布式训练方法的流程图；

图2为本发明实施例提供的一种计算图划分方法的流程图；

图3为本发明实施例提供的一种并行深度学习框架的结构示意图；

图4为本发明实施例提供的一种电子设备的结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合附图对本发明的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

目前，现有的大规模深度学习框架主要包括以下几种：（1）使用预先设定好的计算图划分方式来对神经网络模型进行划分，例如FlexFlow等等；（2）致力于算子内并行的框架，例如微软的DeepSpeed；（3）致力于Tensor Program优化的PET；（4）专门面向inference的TVM；（5）自动并行化深度学习框架，例如Dapple、Alpa。但是，基于上述几种深度学习框架进行分布式训练时，存在以下问题：

（1）对于使用预先设定好的计算图划分方式的深度学习框架，在面对不同的神经网络模型以及不同的设备时将需要手动更改模型的计算图划分方式。

（2）对于算子内并行的深度学习框架，没有考虑算子间的并行度，因此，并行度较低。

（3）对于致力于Tensor Program优化的深度学习框架，没有考虑混合并行算法，因此，并行度也很低。

（4）针对面向inference的深度学习框架，无法对大规模神经网络模型进行有效的训练。

（5）现有的自动并行化深度学习框架有着很高的自动化搜索复杂度。

综上所述，基于现有的深度学习框架进行分布式训练，并行度较低，性能较差。

基于此，本发明实施例提供的一种分布式训练方法、并行深度学习框架及电子设备，能够提高分布式训练的性能。

为便于对本实施例进行理解，首先对本发明实施例所公开的一种分布式训练方法进行详细介绍，该方法应用于并行深度学习框架，可以由电子设备执行，诸如智能手机、电脑、平板电脑等，参见图1所示的一种分布式训练方法的流程图，示意出该方法主要包括以下步骤S101至步骤S103：

步骤S101：获取待计算的计算图，并基于图神经网络将计算图划分为多个计算子图。

在一种实施方式中，可以采用图神经网络来对计算图进行划分，也即对神经网络模型进行有效划分。其中，图神经网络可以预测计算图中每个子图的大致运行时间。在每个子图的大致运行时间预测完成时，可以根据大致运行时间选择计算图划分策略，并根据选择的计算图划分策略将计算图划分为多个计算子图。

步骤S102：将每个计算子图发送到不同的计算节点。

步骤S103：在每个计算节点对计算子图进行并行计算。

在一种实施方式中，在将计算图划分成多个计算子图后，可以将把划分后的计算子图分配给不同的计算节点，并在每个计算节点内进行计算子图的并行计算；其中，每个计算子图代表一个计算过程，例如训练神经网络中的一部分。

本发明实施例提供的上述分布式训练方法，通过图神经网络对计算图进行高效划分，从所有划分中选择开销最小的划分方式，从而减少了时间开销，提升了训练性能；同时，在每个计算节点对计算子图进行并行计算，进一步提升了分布式训练的性能。

考虑到，图神经网络能够有效的学习出计算子图的特征，因此，在计算图中使用图神经网络可以学习出每个计算子图的大致计算开销，即运行时间。基于此，本发明实施例中可以使用图神经网络进行计算图的自动划分，在多种计算图划分策略中，选择开销最小的计算图划分策略进行划分。在具体实现时，参见图2所示，在基于图神经网络将计算图划分为多个计算子图时，可以采用包括但不限于以下方式，主要包括以下步骤S201至步骤S203：

步骤S201：基于计算图确定多种计算图划分策略。

在一种实施方式中，对于计算图的划分可能会有多种不同的划分策略，其中，不同的划分策略的计算开销也可能会不同，为了提升分布式训练的性能，减少计算开销，本发明实施中可以先确定多种计算划分策略，然后再从中选择最优的计算图划分策略对计算图进行划分。

步骤S202：基于图神经网络预测每种计算图划分策略的运行时间。

在具体实施中，在基于图神经网络预测每种计算图划分策略的运行时间时，可以采用包括但不限于以下方式：对于每种计算图划分策略，基于图神经网络预测计算图划分策略对应的每个子图的运行时间；将每个子图的运行时间的和，确定为计算图划分策略的运行时间。

在一种实施方式中，对于每种计算图划分策略，可以采用图神经网络预测出每个子图的大致运行时间，然后，计算出每一种计算图划分策略的运行时间（计算开销），即每个子图的运行时间的和。

步骤S203：基于计算图划分策略的运行时间确定目标计算图划分策略，并基于目标计算图划分策略对计算图进行划分，得到多个计算子图。

在具体实施中，在基于计算图划分策略的运行时间确定目标计算图划分策略时，可以采用包括但不限于以下方式：采用贪心算法或者动态规划算法确定计算图划分策略的运行时间的最小运行时间；将最小运行时间对应的计算图划分策略确定为目标计算图划分策略。

具体的，贪心算法指在对问题求解时，做出在当前看来是最好的选择。也就是说。不从整体最优上加以考虑，所做出的仅是在某种意义上的局部最优解。动态规划算法通常用于求解具有某种最优性质的问题，其基本思想是将待求解问题分解成若干个子问题，先求解子问题，然后从这些子问题的解得到原问题的解。

在一种实施方式中，在得到每种计算图划分策略的运行时间后，可以采用贪心算法或者动态规划算法对计算图划分策略进行挑选，从中选择运行时间最短的计算图划分策略作为最终的计算图划分策略，即采用贪心算法或者动态规划算法选择最小运行时间的计算图划分策略作为目标计算图划分策略。

具体的，由于计算图中每个子图Gi的运行时间可以使用图神经网络进行预测得到，因此，本发明实施例中可以通过贪心算法或者动态规划算法选择一种计算图划分策略：使得G=sigma(Gi)，即计算图总的运行时间最低。基于G=sigma(Gi)的划分，使用动态规划对计算图进行划分，最后，可以从所有划分中选择开销最小的计算图划分策略。

在一种实施方式中，计算节点包括多个图形处理器（Graphics Processing Unit，GPU），每个GPU负责一个算子，例如做矩阵乘法或者求导等操作，因此，为了提升GPU资源利用率，本发明实施例中计算子图可以进一步被划分在不同的GPU上进行训练。基于此，本发明实施例中，在每个计算节点对计算子图进行并行计算时，可以采用包括但不限于以下方式：将计算子图进行划分，得到多个目标子图；将目标子图发送至不同的GPU进行并行计算。

本发明实施例提供的上述分布式训练方法，在整体训练性能上，相比于现有技术，本发明在Mixture-of-Experts(MoE)数据集上能够获得最多9倍的性能提升；在自动化划分策略上，本发明使用图神经网络和贪心算法或者动态规划算法来进行神经网络模型的自动化划分，相比于现有的自动搜索算法，本发明能够最多获得4.2倍的性能提升。综上所述，本发明是海水里提供的上述方法有效的提升了分布式训练的性能。

本发明实施例还提供了一种并行深度学习框架，本发明实施例中可以使用ray作为通信引擎，在ray的基础上实现分布式深度学习框架，该框架包含根据深度学习代码导出计算图、对计算图和算子进行划分以及转换可执行代码。参见图3所示的一种并行深度学习框架的结构示意图，示意出该框架主要包括以下部分：

计算图划分模块301，用于获取待计算的计算图，并基于图神经网络将计算图划分为多个计算子图；

计算子图发送模块302，用于将每个计算子图发送到不同的计算节点；

计算模块303，用于在每个计算节点对计算子图进行并行计算。

本发明实施例提供的上述并行深度学习框架，通过图神经网络对计算图进行高效划分，从所有划分中选择开销最小的划分方式，从而减少了时间开销，提升了训练性能；同时，在每个计算节点对计算子图进行并行计算，进一步提升了分布式训练的性能。

在一种实施方式中，上述计算图划分模块301还用于：基于计算图确定多种计算图划分策略；基于图神经网络预测每种计算图划分策略的运行时间；基于计算图划分策略的运行时间确定目标计算图划分策略，并基于目标计算图划分策略对计算图进行划分，得到多个计算子图。

在一种实施方式中，上述计算图划分模块301还用于：对于每种计算图划分策略，基于图神经网络预测计算图划分策略对应的每个子图的运行时间；将每个子图的运行时间的和，确定为计算图划分策略的运行时间。

在一种实施方式中，上述计算图划分模块301还用于：采用贪心算法或者动态规划算法确定计算图划分策略的运行时间的最小运行时间；将最小运行时间对应的计算图划分策略确定为目标计算图划分策略。

在一种实施方式中，计算节点包括多个图形处理器GPU；上述计算模块303还用于：将计算子图进行划分，得到多个目标子图；将目标子图发送至不同的GPU进行并行计算。

需要说明的是，本发明实施例所提供的并行深度学习架构，其实现原理及产生的技术效果和前述方法实施例相同，为简要描述，并行深度学习架构实施例部分未提及之处，可参考前述方法实施例中相应内容。

本发明实施例还提供了一种电子设备，具体的，该电子设备包括处理器和存储装置；存储装置上存储有计算机程序，计算机程序在被处理器运行时执行如上实施方式的任一项所述的方法。

图4为本发明实施例提供的一种电子设备的结构示意图，该电子设备100包括：处理器40，存储器41，总线42和通信接口43，所述处理器40、通信接口43和存储器41通过总线42连接；处理器40用于执行存储器41中存储的可执行模块，例如计算机程序。

其中，存储器41可能包含高速随机存取存储器（RAM，Random Access Memory），也可能还包括非不稳定的存储器（non-volatile memory），例如至少一个磁盘存储器。通过至少一个通信接口43（可以是有线或者无线）实现该系统网元与至少一个其他网元之间的通信连接，可以使用互联网，广域网，本地网，城域网等。

总线42可以是ISA总线、PCI总线或EISA总线等。所述总线可以分为地址总线、数据总线、控制总线等。为便于表示，图4中仅用一个双向箭头表示，但并不表示仅有一根总线或一种类型的总线。

其中，存储器41用于存储程序，所述处理器40在接收到执行指令后，执行所述程序，前述本发明实施例任一实施例揭示的流过程定义的装置所执行的方法可以应用于处理器40中，或者由处理器40实现。

处理器40可能是一种集成电路芯片，具有信号的处理能力。在实现过程中，上述方法的各步骤可以通过处理器40中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器40可以是通用处理器，包括中央处理器(Central Processing Unit，简称CPU)、网络处理器(Network Processor，简称NP)等；还可以是数字信号处理器(Digital SignalProcessing，简称DSP)、专用集成电路(Application Specific Integrated Circuit，简称ASIC)、现成可编程门阵列(Field-Programmable Gate Array，简称FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本发明实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本发明实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成，或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器，闪存、只读存储器，可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器41，处理器40读取存储器41中的信息，结合其硬件完成上述方法的步骤。

本发明实施例所提供的可读存储介质的计算机程序产品，包括存储了程序代码的计算机可读存储介质，所述程序代码包括的指令可用于执行前面方法实施例中所述的方法，具体实现可参见前述方法实施例，在此不再赘述。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备（可以是个人计算机，服务器，或者网络设备等）执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器（ROM，Read-Only Memory）、随机存取存储器（RAM，Random Access Memory）、磁碟或者光盘等各种可以存储程序代码的介质。

最后应说明的是：以上所述实施例，仅为本发明的具体实施方式，用以说明本发明的技术方案，而非对其限制，本发明的保护范围并不局限于此，尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化，或者对其中部分技术特征进行等同替换；而这些修改、变化或者替换，并不使相应技术方案的本质脱离本发明实施例技术方案的精神和范围，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应所述以权利要求的保护范围为准。

Claims

1.一种分布式训练方法，其特征在于，所述方法应用于并行深度学习框架，包括：

获取待计算的计算图，并基于图神经网络将所述计算图划分为多个计算子图；

将每个所述计算子图发送到不同的计算节点；

在每个所述计算节点对所述计算子图进行并行计算。

2.根据权利要求1所述的方法，其特征在于，基于图神经网络将所述计算图划分为多个计算子图，包括：

基于所述计算图确定多种计算图划分策略；

基于所述图神经网络预测每种所述计算图划分策略的运行时间；

基于所述计算图划分策略的运行时间确定目标计算图划分策略，并基于所述目标计算图划分策略对所述计算图进行划分，得到多个计算子图。

3.根据权利要求2所述的方法，其特征在于，基于所述图神经网络预测每种所述计算图划分策略的运行时间，包括：

对于每种所述计算图划分策略，基于所述图神经网络预测所述计算图划分策略对应的每个子图的运行时间；

将每个所述子图的运行时间的和，确定为所述计算图划分策略的运行时间。

4.根据权利要求2所述的方法，其特征在于，基于所述计算图划分策略的运行时间确定目标计算图划分策略，包括：

采用贪心算法或者动态规划算法确定所述计算图划分策略的运行时间的最小运行时间；

将所述最小运行时间对应的所述计算图划分策略确定为目标计算图划分策略。

5.根据权利要求1所述的方法，其特征在于，所述计算节点包括多个图形处理器GPU；

在每个所述计算节点对所述计算子图进行并行计算，包括：

将所述计算子图进行划分，得到多个目标子图；

将所述目标子图发送至不同的GPU进行并行计算。

6.一种并行深度学习框架，其特征在于，包括：

计算图划分模块，用于获取待计算的计算图，并基于图神经网络将所述计算图划分为多个计算子图；

计算子图发送模块，用于将每个所述计算子图发送到不同的计算节点；

计算模块，用于在每个所述计算节点对所述计算子图进行并行计算。

7.根据权利要求6所述的并行深度学习框架，其特征在于，所述计算图划分模块还用于：

基于所述计算图确定多种计算图划分策略；

8.根据权利要求6所述的并行深度学习框架，其特征在于，所述计算节点包括多个图形处理器GPU；

所述计算模块还用于：将所述计算子图进行划分，得到多个目标子图；

将所述目标子图发送至不同的GPU进行并行计算。

9.一种电子设备，其特征在于，包括处理器和存储器，所述存储器存储有能够被所述处理器执行的计算机可执行指令，所述处理器执行所述计算机可执行指令以实现权利要求1至5任一项所述的方法的步骤。

10.一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，其特征在于，所述计算机程序被处理器运行时执行上述权利要求1至5任一项所述的方法的步骤。