CN111340235A

CN111340235A - 一种兼容多种训练方式的深度学习分布式训练方法与系统

Info

Publication number: CN111340235A
Application number: CN202010132499.7A
Authority: CN
Inventors: 朱红; 赵旭东
Original assignee: Suzhou Inspur Intelligent Technology Co Ltd
Current assignee: Suzhou Inspur Intelligent Technology Co Ltd
Priority date: 2020-02-29
Filing date: 2020-02-29
Publication date: 2020-06-26

Abstract

本发明提供了一种兼容多种训练方式的深度学习分布式训练方法与系统，本发明通过对深度学习分布式训练接口进行定义，兼容不同分布式训练实现方式，可有效减少用户在使用分布式算法进行模型训练时的代码改动量，用户只需定义一个，metatrainer的实例，并用该实例来训练模型，就可以适配不同的硬件计算规模；另外可有效的丰富用户在开发分布式模型训练过程中所能采用的算法及技术，可方便的在多个技术之间切换，只需在定义metatrainer实例时，选用不同的distributed_backend参数即可实现不同的分布式算法，使用同一个接口，即可兼容后台多种不同的分布式训练实现方式，从而大大减小用户在不同分布式算法间切换代码的难度。

Description

一种兼容多种训练方式的深度学习分布式训练方法与系统

技术领域

本发明涉及深度学习技术领域，特别是一种兼容多种训练方式的深度学习分布式训练方法与系统。

背景技术

目前，深度学习技术方兴未艾，在多个应用领域取得了长足的发展，展现出广阔的应用前景，这些应用领域包括人脸识别、推荐系统、智能语音助手以及无人驾驶等等。但是无论上述哪个领域，应用落地的前提都是设计和训练复杂的深度学习模型，可以看到的是，尽管现有硬件计算设备的计算能力与日俱增，比如现行通用的由Nvidia公司发布的V100GPU单卡的计算能力达到了120TFlops，但是这也不足以满足所有深度学习模型的训练需求，比如目前在自然语言处理领域广泛使用的bert模型，其如果使用单张V100 GPU卡进行训练的话，整个训练时间估计在一年以上。

因此需要更大规模的分布式深度学习计算来解决上述模型的训练问题。分布式深度学习即为在多个计算设备上同时对一个深度学习模型进行训练的方法。为了实施这一方法，诸多因素和细节都需要考虑并被合理的处理。常见的算法主要包括模型并行和数据并行，两者当中，数据并行的思路由于其实现相对简单，计算效率高，是应用更为普遍的一种方法。

当前典型的深度学习计算框架都或多或少的实现了一些基于数据并行的分布式训练方法，比如pytorch中的torch.nn.DataParallel模块和深度学习框架tensorflow中的mirroredstrategy(镜像)模块。对于tensorflow中的mirroredstrategy模块，其初始化一个strategy变量，并把模型定义、优化器定义以及模型的编译部分放到scope函数代码段中，然后按照常规的模型训练方式，即可实现分布式的模型训练。但其需要将大量的代码置于scope(作用域)函数下，如果模型的定义逻辑较为复杂的话，存在大量的代码修改，另外整个策略只适用于单个计算节点内有多个设备，比如有多个GPU卡的情况，不能方便的扩展到多个计算节点的分布式并行，从而在更大的计算规模上进行模型的并行训练。

为了解决上述问题，Uber的工程师开发的horovod分布式训练框架，通过接入mpi通信协议来实现跨计算节点的分布式通信方式。但其缺点是需要用户完成所有操作，任何遗漏都可造成模型训练过程的错误以及模型不收敛等意外情况，这些操作使得horovod对于不熟悉多进程计算过程的用户存在一定的使用门槛。

发明内容

本发明的目的是提供一种兼容多种训练方式的深度学习分布式训练方法与系统，旨在解决现有技术中缺少兼容多种训练方式的分布式训练框架的问题，实现使用同一个接口即可兼容后台多种不同的分布式训练实现方式，减小用户在不同分布式算法间切换代码的难度。

为达到上述技术目的，本发明提供了一种兼容多种训练方式的深度学习分布式训练方法，所述方法包括以下步骤：

S1、基于深度学习框架tensorflow定义一个统一的模型训练接口；

S2、模型训练接口在初始化时根据定义的GPU数目以及计算节点数目判断是否进行分布式训练；

S3、通过模型训练接口的算法策略参数指明实际的分布式算法策略，包括基于深度学习框架tensorflow中的镜像策略、基于深度学习框架horovod的策略以及默认策略；

S4、根据不同的算法策略执行相应的初始化工作；

S5、执行模型训练接口的运行函数，根据初始化的模型训练接口的实例不同执行不同的分布式训练。

优选地，所述步骤S4具体操作如下：

对于深度学习框架tensorflow中的镜像策略，需要执行两步操作，分别是初始化镜像策略的作用域函数，并在作用域函数的作用域内初始化需要训练的模型以及模型的优化器；

对于深度学习框架horovod的策略，需要执行的操作包括初始化horovod进程，并基于horovod的方法重新定义训练的优化器；

对于默认策略，执行默认内置算法。

优选地，所述步骤S5具体操作如下：

如果使用的是镜像策略，则运行函数在作用域函数的作用域内进行模型的训练任务；如果使用的是horovod策略，先根据运行函数输入的训练数据按照进程数进行拆分，然后每个进程再根据拆分到的数据进行训练，并在训练后对每个设备中的模型的梯度数据进行同步。

本发明还提供了一种兼容多种训练方式的深度学习分布式训练系统，所述系统包括：

接口定义模块，用于基于深度学习框架tensorflow定义一个统一的模型训练接口；

分布式训练判断模块，用于模型训练接口在初始化时根据定义的GPU数目以及计算节点数目判断是否进行分布式训练；

算法策略选择模块，用于通过模型训练接口的算法策略参数指明实际的分布式算法策略，包括基于深度学习框架tensorflow中的镜像策略、基于深度学习框架horovod的策略以及默认策略；

初始化模块，用于根据不同的算法策略执行相应的初始化工作；

分布式训练模块，用于执行模型训练接口的运行函数，根据初始化的模型训练接口的实例不同执行不同的分布式训练。

优选地，所述初始化模块包括：

镜像策略初始化单元，用于对于深度学习框架tensorflow中的镜像策略，需要执行两步操作，分别是初始化镜像策略的作用域函数，并在作用域函数的作用域内初始化需要训练的模型以及模型的优化器；

horovod策略初始化单元，用于对于深度学习框架horovod的策略，需要执行的操作包括初始化horovod进程，并基于horovod的方法重新定义训练的优化器；

默认策略初始化单元，用于对于默认策略，执行默认内置算法。

优选地，所述分布式训练模块包括：

镜像分布式训练单元，用于如果使用的是镜像策略，则运行函数在作用域函数的作用域内进行模型的训练任务；

horovod分布式训练单元，用于如果使用的是horovod策略，先根据fit函数输入的训练数据按照进程数进行拆分，然后每个进程再根据拆分到的数据进行训练，并在训练后对每个设备中的模型的梯度数据进行同步。

本发明还提供了一种兼容多种训练方式的深度学习分布式训练设备，包括：

存储器，用于存储计算机程序；

处理器，用于执行所述计算机程序，以实现所述的兼容多种训练方式的深度学习分布式训练方法。

本发明还提供了一种可读存储介质，用于保存计算机程序，其中，所述计算机程序被处理器执行时实现所述的兼容多种训练方式的深度学习分布式训练方法。

发明内容中提供的效果仅仅是实施例的效果，而不是发明所有的全部效果，上述技术方案中的一个技术方案具有如下优点或有益效果：

与现有技术相比，本发明通过对深度学习分布式训练接口进行定义，兼容不同分布式训练实现方式，可有效减少用户在使用分布式算法进行模型训练时的代码改动量，用户只需定义一个，metatrainer的实例，并用该实例来训练模型，就可以适配不同的硬件计算规模；另外可有效的丰富用户在开发分布式模型训练过程中所能采用的算法及技术，可方便的在多个技术之间切换，只需在定义metatrainer实例时，选用不同的distributed_backend参数即可实现不同的分布式算法，使用同一个接口，即可兼容后台多种不同的分布式训练实现方式，从而大大减小用户在不同分布式算法间切换代码的难度。

附图说明

图1为本发明实施例中所提供的一种兼容多种训练方式的深度学习分布式训练方法流程图；

图2为本发明实施例中所提供的一种metatrainer接口初始化流程图；

图3为本发明实施例中所提供的一种分布式训练过程示意图；

图4为本发明实施例中所提供的一种兼容多种训练方式的深度学习分布式训练系统框图。

具体实施方式

为了能清楚说明本方案的技术特点，下面通过具体实施方式，并结合其附图，对本发明进行详细阐述。下文的公开提供了许多不同的实施例或例子用来实现本发明的不同结构。为了简化本发明的公开，下文中对特定例子的部件和设置进行描述。此外，本发明可以在不同例子中重复参考数字和/或字母。这种重复是为了简化和清楚的目的，其本身不指示所讨论各种实施例和/或设置之间的关系。应当注意，在附图中所图示的部件不一定按比例绘制。本发明省略了对公知组件和处理技术及工艺的描述以避免不必要地限制本发明。

下面结合附图对本发明实施例所提供的一种兼容多种训练方式的深度学习分布式训练方法与系统进行详细说明。

如图1所示，本发明公开了一种兼容多种训练方式的深度学习分布式训练方法，所述方法包括以下步骤：

S4、根据不同的算法策略执行相应的初始化工作；

本发明实施例基于深度学习框架tensorflow定义一个统一的模型训练接口metatrainer以实现模型的训练过程。

该接口的定义如下：

trainer＝metatrainer(model,distributed_backend,gpus，nodes，args)

trainer.fit(dataset,epochs＝1)

在本发明实施例中，用户只需将整个模型训练中的model.fit()(运行函数)改为定义一个metatrainer的实例trainer，并根据该实例执行trainer.fit()函数即可完成分布式的训练过程。

通过指定参数distributed_backend来指明实际的分布式实现方法，将参数设置为mirroredstrategy时，表明指定通过tensorflow中的mirroredstrategy来实现分布式并行，参数distributed_backend也可以不指定，此时根据默认内置算法来实现并行。

参数gpus以及nodes来指明实际使用GPU数目以及计算节点数目。

metatrainer接口初始化时，会根据使用的GPU数和节点数以及用户设置的distributed_backend参数来选择初始化哪种类型的trainer实例，每种实例基于不同的分布式算法策略，包含三种策略，分别是基于tensorflow中的mirroredstrategy(镜像)策略、基于horovod的策略以及默认策略，默认策略在本发明实施例中表示为不使用多个计算设备的分布式训练，仅使用一个默认设备的计算策略。

在确定了需要初始化的策略之后，程序会根据该策略的需要对该策略进行实际的初始化工作，该工作根据所选择的策略不同而有很大的不同，对于mirroredstrategy策略，需要执行两步操作，分别是初始化mirroredstrategy的scope()(作用域函数)，并在scope()的作用域内初始化需要训练的模型以及模型的优化器等相关参数；对于horovod策略，需要执行的操作包括初始化horovod进程，并基于horovod的方法重新定义训练的优化器等，如图2所示。

在上述流程时，会先定义一个trainer的父类，并在此父类的基础上根据每个分布式策略的实际需要定义不同的子类，比如mirroredstrategy中初始化的scope实例，即为相应子类的一个变量。

metatrainer的fit函数代替了tensorflow.keras中的model.fit()函数来实际执行训练过程，两者的调用方式及输入参数完全相同。但metatrainer的fit函数根据实际初始化的metatrainer的实例不同，所要执行操作也不同。如果使用的是mirroredstrategy，则fit函数会在scope的作用域内进行模型的训练任务，来实现分布式训练的效果；如果使用的是horovod，则操作会相对复杂，其会先根据fit函数输入的训练数据按照进程数进行拆分，然后每个进程再根据拆分到的数据进行训练，并在训练后对每个设备中的模型的梯度数据进行同步，如图3所示。

本发明实施例通过对深度学习分布式训练接口进行定义，兼容不同分布式训练实现方式，可有效减少用户在使用分布式算法进行模型训练时的代码改动量，用户只需定义一个，metatrainer的实例，并用该实例来训练模型，就可以适配不同的硬件计算规模；另外可有效的丰富用户在开发分布式模型训练过程中所能采用的算法及技术，可方便的在多个技术之间切换，只需在定义metatrainer实例时，选用不同的distributed_backend参数即可实现不同的分布式算法，使用同一个接口，即可兼容后台多种不同的分布式训练实现方式，从而大大减小用户在不同分布式算法间切换代码的难度。

如图4所示，本发明实施例还公开了一种兼容多种训练方式的深度学习分布式训练系统，所述系统包括：

算法策略选择模块，用于通过模型训练接口的算法策略参数指明实际的分布式算法策略，包括基于深度学习框架tensorflow中的mirroredstrategy策略、基于深度学习框架horovod的策略以及默认策略；

分布式训练模块，用于执行模型训练接口的fit函数，根据初始化的模型训练接口的实例不同执行不同的分布式训练。

在本发明实施例中，用户只需将整个模型训练中的model.fit()函数改为定义一个metatrainer的实例trainer，并根据该实例执行trainer.fit()函数即可完成分布式的训练过程。

参数gpus以及nodes来指明实际使用GPU数目以及计算节点数目。

metatrainer接口初始化时，会根据使用的GPU数和节点数以及用户设置的distributed_backend参数来选择初始化哪种类型的trainer实例，每种实例基于不同的分布式算法策略，包含三种策略，分别是基于tensorflow中的mirroredstrategy策略、基于horovod的策略以及默认策略，默认策略在本发明实施例中表示为不使用多个计算设备的分布式训练，仅使用一个默认设备的计算策略。

所述初始化模块包括：

mirroredstrategy策略初始化单元，用于对于mirroredstrategy策略，执行两步操作，分别是初始化mirroredstrategy的scope，并在scope的作用域内初始化需要训练的模型以及模型的优化器；

horovod策略初始化单元，用于对于horovod策略，需要执行的操作包括初始化horovod进程，并基于horovod的方法重新定义训练的优化器；

所述分布式训练模块包括：

mirroredstrategy分布式训练单元，用于如果使用的是mirroredstrategy，则fit函数在scope的作用域内进行模型的训练任务；

horovod分布式训练单元，用于如果使用的是horovod，先根据fit函数输入的训练数据按照进程数进行拆分，然后每个进程再根据拆分到的数据进行训练，并在训练后对每个设备中的模型的梯度数据进行同步。

本发明实施例还公开了一种兼容多种训练方式的深度学习分布式训练设备，包括：

存储器，用于存储计算机程序；

本发明实施例还公开了一种可读存储介质，用于保存计算机程序，其中，所述计算机程序被处理器执行时实现所述的兼容多种训练方式的深度学习分布式训练方法。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种兼容多种训练方式的深度学习分布式训练方法，其特征在于，所述方法包括以下步骤：

S4、根据不同的算法策略执行相应的初始化工作；

2.根据权利要求1所述的一种兼容多种训练方式的深度学习分布式训练方法，其特征在于，所述步骤S4具体操作如下：

对于默认策略，执行默认内置算法。

3.根据权利要求1所述的一种兼容多种训练方式的深度学习分布式训练方法，其特征在于，所述步骤S5具体操作如下：

4.一种兼容多种训练方式的深度学习分布式训练系统，其特征在于，所述系统包括：

5.根据权利要求4所述的一种兼容多种训练方式的深度学习分布式训练系统，其特征在于，所述初始化模块包括：

6.根据权利要求4所述的一种兼容多种训练方式的深度学习分布式训练系统，其特征在于，所述分布式训练模块包括：

7.一种兼容多种训练方式的深度学习分布式训练设备，其特征在于，包括：

存储器，用于存储计算机程序；

处理器，用于执行所述计算机程序，以实现根据权利要求1至3任一项所述的兼容多种训练方式的深度学习分布式训练方法。

8.一种可读存储介质，其特征在于，用于保存计算机程序，其中，所述计算机程序被处理器执行时实现根据权利要求1至3任一项所述的兼容多种训练方式的深度学习分布式训练方法。