CN112329919B

CN112329919B - 模型训练方法及装置

Info

Publication number: CN112329919B
Application number: CN202011226521.0A
Authority: CN
Inventors: 程默; 吴鑫烜; 于佃海; 汤伟; 吴志华; 董大祥
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2020-11-05
Filing date: 2020-11-05
Publication date: 2022-07-29
Anticipated expiration: 2040-11-05
Also published as: CN112329919A

Abstract

本申请公开了模型训练方法及装置，涉及深度学习技术领域。具体实现方案为：根据模型训练中前向传播计算过程和反向传播计算过程中的操作所属的类型信息，将操作分配至对应的训练器；依据训练样本对初始模型执行如下训练操作，直至达到预设结束条件：针对于每个训练器，基于与其他训练器的信息交互，完成该训练器所包括的操作所对应的前向传播计算过程和反向传播计算过程，得到对应的梯度信息；通过参数服务器，根据每个训练器发送的梯度信息进行模型参数的更新。本方案使得训练器的运行性能与操作所需要的性能相匹配，充分发挥训练器运行性能，提高了模型训练速度。

Description

模型训练方法及装置

技术领域

本公开涉及计算机技术领域，具体涉及深度学习技术，为一种模型训练方法及装置。

背景技术

随着大数据浪潮的推动与深度学习技术的长足发展，深度学习所涉及的数据规模与模型规模都发生了惊人的增长。大数据+大模型的双重挑战，是单机训练无法承受之重，必须使用数据并行的分布式训练模式，才可以满足业务需求。目前，一般采用去中心化的分布式训练模式和中心化的分布式训练模式。

发明内容

本公开提供了一种模型训练方法、装置、设备以及存储介质。

根据第一方面，本公开提供了一种模型训练方法，包括：根据模型训练中前向传播计算过程和反向传播计算过程中的操作所属的类型信息，将操作分配至对应的训练器；依据训练样本对初始模型执行如下训练操作，直至达到预设结束条件：针对于每个训练器，基于与其他训练器的信息交互，完成该训练器所包括的操作所对应的前向传播计算过程和反向传播计算过程，得到对应的梯度信息；通过参数服务器，根据每个训练器发送的梯度信息进行模型参数的更新。

根据第二方面，本公开提供了一种模型训练装置，包括：分配单元，被配置成根据模型训练中前向传播计算过程和反向传播计算过程中的操作所属的类型信息，将操作分配至对应的训练器；训练单元，被配置成依据训练样本对初始模型执行如下训练操作，直至达到预设结束条件：针对于每个训练器，基于与其他训练器的信息交互，完成该训练器所包括的操作所对应的前向传播计算过程和反向传播计算过程，得到对应的梯度信息；通过参数服务器，根据每个训练器发送的梯度信息进行模型参数的更新。

根据第三方面，提供了一种电子设备，包括：至少一个处理器；以及与至少一个处理器通信连接的存储器；其中，存储器存储有可被至少一个处理器执行的指令，指令被至少一个处理器执行，以使至少一个处理器能够执行上述第一方面中任一项的方法。

根据第四方面，提供了一种存储有计算机指令的非瞬时计算机可读存储介质，计算机指令用于使计算机执行上述第一方面中任一项的方法。

根据本公开的技术，根据类型信息，将模型训练中前向传播计算过程和反向传播计算过程中的各操作分配至不同的训练器，使得训练器的运行性能与操作所需要的性能相匹配，充分发挥训练器运行性能，提高了模型训练速度。

应当理解，本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征，也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。

附图说明

附图用于更好地理解本方案，不构成对本公开的限定。其中：

图1是本公开的一个实施例可以应用于其中的示例性系统架构图；

图2是根据本公开的模型训练方法的一个实施例的流程图；

图3是根据本公开的模型训练方法的一个应用场景的示意图；

图4是根据本公开的模型训练方法的又一个实施例的流程图；

图5是根据本公开的模型训练装置协同配合的一个实施例的流程图；

图6是适于用来实现本公开的实施例的电子设备/终端设备或服务器的计算机系统的结构示意图。

具体实施方式

以下结合附图对本公开的示范性实施例做出说明，其中包括本公开实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本申请的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。

图1示出了可以应用本公开的模型训练方法及装置的示例性架构100。

如图1所示，系统架构100可以包括终端设备101、102、103，网络104和服务器105。网络104用以在终端设备101、102、103和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型，例如有线、无线通信链路或者光纤电缆等等。

终端设备101、102、103可以是支持网络连接从而进行信息交互和数据处理的硬件设备或软件。当终端设备101、102、103为硬件时，其可以是支持网络连接，信息交互、显示、处理等功能的各种电子设备，包括但不限于智能手机、平板电脑、车载电脑、膝上型便携计算机和台式计算机等等。当终端设备101、102、103为软件时，可以安装在上述所列举的电子设备中。其可以实现成例如用来提供分布式服务的多个软件或软件模块，也可以实现成单个软件或软件模块。在此不做具体限定。

服务器105可以是提供各种服务的服务器，例如获取终端设备101、102、103计算得到的梯度信息，进行模型参数更新的后台处理服务器。作为示例，服务器105可以是云端服务器。

需要说明的是，服务器可以是硬件，也可以是软件。当服务器为硬件时，可以实现成多个服务器组成的分布式服务器集群，也可以实现成单个服务器。当服务器为软件时，可以实现成多个软件或软件模块(例如用来提供分布式服务的软件或软件模块)，也可以实现成单个软件或软件模块。在此不做具体限定。

还需要说明的是，本公开的实施例所提供的模型训练方法可以由服务器执行，也可以由终端设备执行，还可以由服务器和终端设备彼此配合执行。相应地，模型训练装置包括的各个部分(例如各个单元、各个模块)可以全部设置于服务器中，也可以全部设置于终端设备中，还可以分别设置于服务器和终端设备中。

应该理解，图1中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要，可以具有任意数目的终端设备、网络和服务器。当模型训练方法运行于其上的电子设备不需要与其他电子设备进行数据传输时，该系统架构可以仅包括模型训练方法运行于其上的电子设备(例如服务器或终端设备)。

继续参考图2，示出了模型训练方法的一个实施例的流程200，包括以下步骤：

步骤201，根据模型训练中前向传播计算过程和反向传播计算过程中的操作所属的类型信息，将操作分配至对应的训练器。

本实施例中，模型训练方法的执行主体(例如图1中的服务器或终端设备)根据模型训练中前向传播计算过程和反向传播计算过程中的操作所属的类型信息，将操作分配至对应的训练器。

模型训练方法所训练的模型可以是各种深度学习模型，包括但不限于是卷积神经网络模型、循环神经网络模型、残差网络模型、对抗网络模型。一般情况下，深度学习模型的训练过程可以拆分为三步：通过前向传播计算过程得到损失(Loss)；通过反向传播计算过程得到梯度(Grad)；利用梯度更新模型参数。

作为示例，模型的整个训练过程如下：

首先，获取训练样本集。其中，训练样本集中的训练样本包括输入数据和数据标签。然后，基于机器学习算法，以训练样本中的输入数据作为输入，以数据标签作为期望输出，对初始模型进行训练。可以理解，其训练过程包括多次的循环训练，针对于每批次的训练样本，通过前向传播计算过程得到损失；通过反向传播计算过程得到梯度；利用梯度更新初始模型的参数，直至达到预设要求(例如损失收敛至最小值)。

本实施例中，将上述前向传播计算过程和反向传播计算过程进行进一步拆分，将前向传播计算过程和反向传播计算过程所包括的各操作(operation)，依据其所属的类型信息，分配至与类型信息对应的训练器。其中，操作表征网络模型中的最小执行单位。比如，需要进行训练的初始网络中的加法运算、乘法运算等都是操作。

作为示例，本实施例中，可以根据各操作在模型训练过程中的执行顺序，对各操作进行划分。具体的，可以将模型训练过程划分为多个执行顺序范围，每一个执行顺序范围对应于一个训练器。针对于每个执行顺序范围，上述执行主体将执行顺序处于该执行顺序范围内的操作分配至该执行顺序范围对应的训练器。

作为又一示例，上述执行主体可以根据执行上述操作所需要的运行能力，对操作进行划分，得到操作所属的类型。作为示例，当一项操作对存储性能要求较高，可以其部署于具有较高存储性能的训练器中；当一项操作对计算性能要求较高，可以其部署于具有较高计算性能的训练器中。

可以理解，本实施例中的不同训练器可以是运行于异构设备上的训练器。也即不同的训练器所采用的设备不同。作为示例，不同训练器可以分别是以CPU(CentralProcessing Unit,中央处理器)为主、以GPU(Graphics Processing Unit，图形处理器)为主的电子设备。

在本实施例的一些可选的实现方式中，类型信息包括输入输出密集型和计算密集型。对应的，训练器包括第一训练器和第二训练器。第一训练器用于设置输入输出密集型操作(例如，数据读取、Embedding(嵌入)查表、数据预处理)，第二训练器用于设置计算密集型操作。可以理解，第一训练器的信息输入、信息输出性能较好，第二训练器的信息计算性能较好。作为示例，第一训练器可以是以CPU为主的CPU训练器，第二训练器可以是以GPU为主的GPU训练器。

在本实现方式中，上述执行主体可以通过如下方式执行上述步骤：

针对于前向传播计算过程和反向传播计算过程中的每一个操作：响应于确定该操作为输入输出密集型操作，将该操作设置于第一预设训练器中；响应于确定该操作为计算密集型操作，将该操作设置于第二预设训练器中。

需要说明的是，本实施例中，针对于大数据规模与大模型规模的网络模型，各训练器可以是采用分布式设置的训练器。

步骤202，依据训练样本对初始模型执行如下训练操作，直至达到预设结束条件：

步骤2021，针对于每个训练器，基于与其他训练器的信息交互，完成该训练器所包括的操作所对应的前向传播计算过程和反向传播计算过程，得到对应的梯度信息。

本实施例中，上述执行主体可以针对于每个训练器，基于与其他训练器的信息交互，完成该训练器所包括的操作所对应的前向传播计算过程和反向传播计算过程，得到对应的梯度信息。

预设结束条件用于表征初始模型训练完成。作为示例，预设结束条件可以是训练次数达到预设时间阈值、训练时间达到预设时间阈值、损失收敛至最小值。在达到预设结束条件之前，上述执行主体依据训练样本一直对初始模型进行训练。

本实施例中，由于各训练器中所包括的操作是依据类型信息划分后的操作，处于不同训练器中的操作之间需要进行信息交互。作为示例，处于B训练器中的b操作，为处于A训练器中的a操作的后续操作，则b操作可能需要以a操作执行后得到的信息作为上下文信息，才能得以执行。可以理解，b操作得到的信息可能是其他操作的上下文信息。其中，上下文信息用于表征执行操作所需的输入信息。

在模型训练的前向传播计算过程中，依据信息传输方向，各训练器的操作按顺序执行所对应的前向传播计算过程；而在模型训练的反向传播计算过程中，依据信息传输方向(该信息传输方向与前向传播计算过程的信息传输方向相反)，各训练器的操作按顺序执行所对应的反向传播计算过程。各训练器在执行所包括的操作的反向传播计算过程后，可以得到对应的梯度信息。

针对于训练器包括第一训练器和第二训练器的情况，在本实施例的一些可选的实现方式中，第一训练器和第二训练器分别设有对应的信息队列。上述执行主体针对于第一训练器或第二训练器，基于该训练器所对应的信息队列，与其他训练器进行信息交互，完成该训练器所包括的操作所对应的前向传播计算过程和反向传播计算过程，得到对应的梯度信息。

信息队列中存储有所对应的训练器执行操作的上下文信息，通过信息队列实现了不同训练器之间的异步处理机制。

进一步的，第一训练器中对应设有第一队列和第二队列。第一队列包括执行第一训练器中的操作所需的全部上下文信息，可以理解，由于第一队列包括执行操作所需的全部上下文信息，上述执行主体可以依据第一队列中的上下文信息，通过第一训练器立即执行对应的操作。第二队列包括执行第一训练器中的操作所需的部分上下文信息，可以理解，由于第二队列只包括执行操作所需的部分上下文信息，因此第二队列需要等待其他操作执行后得到的信息补充第二队列中的部分上下文信息，得到全部的上下文信息。

第二训练器对应设有第三队列，第三队列包括执行第二训练器中的操作所需的全部上下文信息。可以理解，由于第三队列包括执行操作所需的全部上下文信息，上述执行主体可以依据第三队列中的上下文信息，通过第二训练器立即执行对应的操作。

需要说明的是，在分布式模型训练过程中，一般以一个批次(batch)的训练样本为一个任务，对模型进行训练。上述第一队列、第二队列、第三队列中，同样以任务为单位对上下文信息进行存储，每个队列中包括多个任务，每一个训练任务包括执行所对应的操作的上下文信息。

上述执行主体通过如下方式执行上述步骤2021：

第一，从第一队列中获取执行第一训练器中的操作所需的上下文信息，并执行第一训练器中的操作的前向传播计算过程，得到执行第二训练器中的操作所需的上下文信息。

其中，第二训练器中的操作为第一训练器中的操作的后续操作。

第二，将执行第二训练器中的操作所需的上下文信息添加至第三队列。

第三，从第三队列中获取执行第二训练器中的操作所需的上下文信息，并执行第二训练器中的操所的前向传播计算过程和反向传播计算过程，得到第二训练器对应的梯度信息。

第四，将执行第二训练器中的操作所得到的信息，作为执行第一训练器中的操作的反向传播计算过程所需的上下文信息，传输至第二队列，以补充第二队列中的部分上下文信息，得到执行第一训练器中的操作的反向传播计算过程所需的全部上下文信息。

第五，将补充后得到的执行第一训练器中的操作的反向传播计算过程所需的全部上下文信息，从第二队列转移至第一队列，以使第一训练器执行第一训练器中的操作的反向传播计算过程，得到第一训练器对应的梯度信息。

可以理解，在整个模型训练过程，上述执行主体可能执行以上述第一至第五步骤为循环单元的多次循环过程。

本实现方式中，在执行操作所需的上下文信息并不完整时，将部分上下文信息存储至第二队列，当其中的部分上下文信息被补充后，从第二队列进行第一队列。第一训练器和第二训练器可以从第一队列和第三队列中获取执行操作所需的全部上下文信息，并执行所对应的操作。从而提高了各训练器中的操作的执行效率，避免了因等待其他操作执行后，才能执行该操作而造成的时间浪费。

在本实施例的一些可选的实现方式中，第二训练器可以被进一步或分为多个子训练器。作为示例，多个子训练器可以包括以GPU为主的GPU子训练器、以NPU为主的NPU(Neural network Processing Unit，神经网络处理器)、以昆仑芯片(百度旗下的人工智能芯片)为主的昆仑子训练器等。多个子训练器中的每个子训练器对应设有信息队列，消息队列中包括所对应的子训练器执行操作所需的上下文信息。上述执行主体根据信息传输方向，针对于每个子训练器，通过该子训练器对应的信息队列与其他训练器进行数据交互，完成该子训练器所包括的操作所对应的前向传播计算过程和反向传播计算过程。

可以理解，通过待执行队列和等待队列，实现了每个子训练器之间的异步信息处理机制，提高了信息处理效率。

进一步的，每个子训练器对应设有待执行队列和等待队列。其中，待执行队列包括执行所对应的子训练器中的操作的全部上下文信息，可以理解，由于待执行队列包括执行操作所需的全部上下文信息，上述执行主体可以依据第一队列中的上下文信息，通过子训练器立即执行对应的操作。等待队列包括执行所对应的子训练器中的操作的部分上下文信息，可以理解，由于等待队列只包括执行操作所需的部分上下文信息，因此，等待队列需要等待其他操作执行后得到的信息补充等待队列中的部分上下文信息，得到全部的上下文信息。

需要说明的是，各子训练器的待执行队列、等待队列中，同样以任务为单位对上下文信息进行存储，每个队列中包括多个任务，每一个训练任务包括执行所对应的操作的上下文信息。

具体的，上述执行主体执行如下操作：

第一，将执行上一个子训练器中的操作的前向传播计算过程所得到的信息，作为执行该子训练器中的操作的前向传播计算过程所需的上下文信息，添加至该子训练器对应的待执行队列。

第二，从该子训练器对应的待执行队列中，获取执行该子训练器中的操作的前向传播计算过程所需的上下文信息，执行该子训练器中的操作的前向传播计算过程，并将所得到的信息作为执行下一个子训练器中的操作的前向传播计算过程的上下文信息，添加至下一个子训练器的待执行队列中。

上述第一至第二步骤可用于实现该训练器中的操作的前向传播计算过程。

第三，将执行下一个子训练器中的操作的反向传播计算过程所得到的信息，作为执行该子训练器中的操作的反向传播计算过程所需的上下文信息，添加至该子训练器对应的等待队列，以补充该等待队列中的部分上下文信息，得到执行该子训练器中的操作的反向传播计算过程所需的全部上下文信息。

第四，将补充后得到的、执行该子训练器中的操作的反向传播计算过程所需的全部上下文信息，从该子训练器对应的等待队列转移至该子训练器对应的待执行队列。

第五，从该子训练器对应的待执行队列中，获取执行该子训练器中的操作的反向传播计算过程的上下文信息，执行该子训练器中的操作的反向传播计算过程，并将所得到的信息添加至上一个子训练器对应的等待队列。

上述第三至第五步骤可实现该训练器中的操作的反向传播计算过程。

本实现方式中，第二训练器被进一步划分为多个子训练器，每个子训练器通过对应的队列实现信息的快速处理，进一步提高了操作的处理效率。

步骤2022，通过参数服务器，根据每个训练器的梯度信息进行模型参数的更新。

本实施例中，上述执行主体通过参数服务器，根据每个训练器的梯度信息进行模型参数的更新。其中，参数服务器为具有根据梯度信息进行模型参数更新功能的服务器。

本实施例中，上述执行主体可以首先从各训练器中获取对应的梯度信息，然后通过参数服务器进行模型参数的更新。其中，根据梯度信息尽心规模性参数更新的技术为本领域比较成熟的技术，在此不再赘述。

继续参见图3，图3是根据本实施例的模型训练方法的应用场景的一个示意图。在图3的应用场景中，初始模型为用于图像分类的深度学习模型。服务器301根据模型训练中前向传播计算过程和反向传播计算过程中的操作所属的类型信息，将操作分配至对应的训练器。其中，训练器包括设置输入输出密集型操作的第一训练器302和设置计算密集型操作的第二训练器303，其中，第一训练器例如可以是CPU为主的CPU训练器，第二训练器例如可以是GPU为主的GPU训练器。在分配各操作后，服务器301依据训练样本对初始模型执行如下训练操作：第一训练器301接收训练样本，完成其中的输入输出密集型操作的前向传播计算过程，得到第二训练器执行其计算密集型操作的上下文信息304。第二训练器303根据上下文信息304进行其计算密集型操作的前向传播计算过程和反向传播计算过程，得到第二训练器303对应的梯度信息305和第一训练器执行其输入输出密集型操作的反向传播计算过程的上下文信息306。第一训练器根据上下文信息305执行其计算密集型操作的反向传播计算过程，得到第一训练器302对应的梯度信息307。服务器301根据梯度信息305、307更新初始图像分类模型的参数，直至达到预设结束条件，得到训练后的图像分类模型。

本实施方式中，根据类型信息，将模型训练中前向传播计算过程和反向传播计算过程中的各操作分配至不同的训练器，使得训练器的运行性能与操作所需要的性能相匹配，充分发挥训练器运行性能，提高了模型训练速度。

在本实施例的一些可选的实现方式中，上述执行主体在各队列与各训练器之间，采用协程同步方式进行信息交互。

具体的，本实现方式中，上述执行主体采用BRPC(BaiDu Remote Procedure Call，百度远程过程调用)进行各队列与各训练器之间的信息交互。采用协程同步方式，可以解决race condition(资源竞争)问题。

在本实施例的一些可选的实现方式中，在模型训练过程中，采用异构存储机制，基于信息的更新频率，将信息存储至不同的异构存储设备中。

作为示例，上述执行主体可以将更新频率高的信息存储于响应速度和存储速度高的异构存储设备中；将更新频率第的信息存储于响应速度和存储速度低的异构存储设备中。

具体的，上述执行主体可以将更新频率超过第一频率阈值的信息存储至显存中；将更新频率处于第一频率阈值与第二频率阈值之间的信息存储至内存中，其中，第一频率阈值大于第二频率阈值；将更新频率低于第二频率阈值的信息存储至固态硬盘中。

在本实施例的一些可选的实现方式中，上述执行主体在模型训练过程中，基于负载均衡策略，调整各训练器之间的算力，以使各训练器的算力相匹配。

其中，算力相匹配用于表征各训练器之间的负载状态相匹配。如此，将使得各训练器之间均处于满额负载状态，达到各训练器之间的最佳运行状态，避免了各训练器中存在处于空闲状态的训练器，从而提高了模型训练速度和训练器的利用率。

继续参考图4，示出了根据本申请的模型训练方法的另一个实施例的示意性流程400，包括以下步骤：

步骤401，针对于前向传播计算过程和反向传播计算过程中的每一个操作：

步骤4011，响应于确定该操作为输入输出密集型操作，将该操作设置于第一预设训练器中。

步骤4012，响应于确定该操作为计算密集型操作，将该操作设置于第二预设训练器中。

步骤402，依据训练样本对初始模型执行如下训练操作，直至达到预设结束条件：

步骤4021，从第一队列中获取执行第一训练器中的操作所需的上下文信息，并执行第一训练器中的操作的前向传播计算过程，得到执行第二训练器中的操作所需的上下文信息。

步骤4022，将执行第二训练器中的操作所需的上下文信息添加至第三队列。

步骤4023，从第三队列中获取执行第二训练器中的操作所需的上下文信息，并执行第二训练器中的操所的前向传播计算过程和反向传播计算过程，得到第二训练器对应的梯度信息。

步骤4024，将执行第二训练器中的操作所得到的信息，作为执行第一训练器中的操作的反向传播计算过程所需的上下文信息，传输至第二队列，以补充第二队列中的部分上下文信息，得到执行第一训练器中的操作的反向传播计算过程所需的全部上下文信息。

步骤4025，将补充后得到的执行第一训练器中的操作的反向传播计算过程所需的全部上下文信息，从第二队列转移至第一队列，以使第一训练器执行第一训练器中的操作的反向传播计算过程，得到第一训练器对应的梯度信息。

步骤4026，通过参数服务器，根据每个训练器的梯度信息进行模型参数的更新。

本实施例中，从图4中可以看出，与图2对应的实施例相比，本实施例中的模型训练方法的流程400突出说明了各训练器的信息交互过程。如此，本实施例进一步提高了模型训练的速度。

进一步参考图5，作为对上述图2所示方法的实现，本公开提供了一种模型训练装置的一个实施例，该装置实施例与图2所示的方法实施例相对应，除下面所记载的特征外，该装置实施例还可以包括与图2所示的方法实施例相同或相应的特征，以及产生与图2所示的方法实施例相同或相应的效果。该装置具体可以应用于各种电子设备中。

如图5所示，本实施例的模型训练装置，包括：分配单元501，被配置成根据模型训练中前向传播计算过程和反向传播计算过程中的操作所属的类型信息，将操作分配至对应的训练器；训练单元502，被配置成依据训练样本对初始模型执行如下训练操作，直至达到预设结束条件：针对于每个训练器，基于与其他训练器的信息交互，完成该训练器所包括的操作所对应的前向传播计算过程和反向传播计算过程，得到对应的梯度信息；通过参数服务器，根据每个训练器发送的梯度信息进行模型参数的更新。

在本实施例的一些可选的实现方式中，训练器包括第一训练器和第二训练器，第一训练器用于设置输入输出密集型操作，第二训练器用于设置计算密集型操作。分配单元501进一步被配置成：针对于前向传播计算过程和反向传播计算过程中的每一个操作：响应于确定该操作为输入输出密集型操作，将该操作设置于第一预设训练器中；响应于确定该操作为计算密集型操作，将该操作设置于第二预设训练器中。

在本实施例的一些可选的实现方式中，第一训练器和第二训练器分别设有对应的信息队列；训练单元502，进一步被配置成：针对于第一训练器或第二训练器，基于该训练器所对应的信息队列，与其他训练器进行信息交互，完成该训练器所包括的操作所对应的前向传播计算过程和反向传播计算过程，得到对应的梯度信息。

在本实施例的一些可选的实现方式中，第一训练器中对应设有第一队列和第二队列，第一队列包括执行第一训练器中的操作所需的全部上下文信息，二队列包括执行第一训练器中的操作所需的部分上下文信息；第二训练器对应设有第三队列，第三队列包括执行第二训练器中的操作所需的全部上下文信息；训练单元502进一步被配置成：针对于第一训练器，执行如下操作：从第一队列中获取执行第一训练器中的操作所需的上下文信息，并执行第一训练器中的操作的前向传播计算过程，得到执行第二训练器中的操作所需的上下文信息，其中，第二训练器中的操作为第一训练器中的操作的后续操作；将执行第二训练器中的操作所得到的信息，作为执行第一训练器中的操作的反向传播计算过程所需的上下文信息，传输至第二队列，以补充第二队列中的部分上下文信息，得到执行第一训练器中的操作的反向传播计算过程所需的全部上下文信息；将补充后得到的执行第一训练器中的操作的反向传播计算过程所需的全部上下文信息，从第二队列转移至第一队列，以使第一训练器执行第一训练器中的操作的反向传播计算过程，得到第一训练器对应的梯度信息。

在本实施例的一些可选的实现方式中，训练单元502，进一步被配置成：针对于第二训练器，执行如下操作：将执行第二训练器中的操作所需的上下文信息添加至第三队列；从第三队列中获取执行第二训练器中的操作所需的上下文信息，并执行第二训练器中的操所的前向传播计算过程和反向传播计算过程，得到第二训练器对应的梯度信息。

在本实施例的一些可选的实现方式中，第二训练器中包括多个子训练器，多个子训练器中的每个子训练器对应设有信息队列。训练单元502进一步被配置成：根据信息传输方向，针对于每个子训练器，通过该子训练器对应的信息队列与其他训练器进行数据交互，完成该子训练器所包括的操作所对应的前向传播计算过程和反向传播计算过程。

在本实施例的一些可选的实现方式中，每个子训练器的信息队列包括待执行队列和等待队列，其中，待执行队列包括执行所对应的子训练器中的操作的全部上下文信息，等待队列包括执行所对应的子训练器中的操作的部分上下文信息；训练单元502，进一步被配置成：针对于该子训练器所包括的操作所对应的前向传播计算过程，执行如下操作：将执行上一个子训练器中的操作的前向传播计算过程所得到的信息，作为执行该子训练器中的操作的前向传播计算过程所需的上下文信息，添加至该子训练器对应的待执行队列；从该子训练器对应的待执行队列中，获取执行该子训练器中的操作的前向传播计算过程所需的上下文信息，执行该子训练器中的操作的前向传播计算过程，并将所得到的信息作为执行下一个子训练器中的操作的前向传播计算过程的上下文信息，添加至下一个子训练器的待执行队列中。

在本实施例的一些可选的实现方式中，训练单元502，进一步被配置成：针对于该子训练器所包括的操作所对应的反向传播计算过程，执行如下操作：将执行下一个子训练器中的操作的反向传播计算过程所得到的信息，作为执行该子训练器中的操作的反向传播计算过程所需的上下文信息，添加至该子训练器对应的等待队列，以补充该等待队列中的部分上下文信息，得到执行该子训练器中的操作的反向传播计算过程所需的全部上下文信息；将补充后得到的、执行该子训练器中的操作的反向传播计算过程所需的全部上下文信息，从该子训练器对应的等待队列转移至该子训练器对应的待执行队列；从该子训练器对应的待执行队列中，获取执行该子训练器中的操作的反向传播计算过程的上下文信息，执行该子训练器中的操作的反向传播计算过程，并将所得到的信息添加至上一个子训练器对应的等待队列。

在本实施例的一些可选的实现方式中，上述装置还包括：协程同步单元(图中未示出)，被配置成在各队列与各训练器之间，采用协程同步方式进行信息交互。

在本实施例的一些可选的实现方式中，上述装置还包括：异构存储单元(图中未示出)，被配置成在模型训练过程中，采用异构存储机制，基于信息的更新频率，将信息存储至不同的异构存储设备中。

在本实施例的一些可选的实现方式中，异构存储单元，进一步被配置成：将更新频率超过第一频率阈值的信息存储至显存中；将更新频率处于第一频率阈值与第二频率阈值之间的信息存储至内存中，其中，第一频率阈值大于第二频率阈值；将更新频率低于第二频率阈值的信息存储至固态硬盘中。

在本实施例的一些可选的实现方式中，上述装置还包括：调整单元(图中未示出)，被配置成在模型训练过程中，基于负载均衡策略，调整各训练器之间的算力，以使各训练器的算力相匹配。

根据本申请的实施例，本申请还提供了一种电子设备和一种可读存储介质。

如图6所示，是根据本申请实施例的模型训练方法的电子设备的框图。电子设备旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本申请的实现。

如图6所示，该电子设备包括：一个或多个处理器601、存储器602，以及用于连接各部件的接口，包括高速接口和低速接口。各个部件利用不同的总线互相连接，并且可以被安装在公共主板上或者根据需要以其它方式安装。处理器可以对在电子设备内执行的指令进行处理，包括存储在存储器中或者存储器上以在外部输入/输出装置(诸如，耦合至接口的显示设备)上显示GUI的图形信息的指令。在其它实施方式中，若需要，可以将多个处理器和/或多条总线与多个存储器和多个存储器一起使用。同样，可以连接多个电子设备，各个设备提供部分必要的操作(例如，作为服务器阵列、一组刀片式服务器、或者多处理器系统)。图6中以一个处理器601为例。

存储器602即为本申请所提供的非瞬时计算机可读存储介质。其中，存储器存储有可由至少一个处理器执行的指令，以使至少一个处理器执行本申请所提供的模型训练方法。本申请的非瞬时计算机可读存储介质存储计算机指令，该计算机指令用于使计算机执行本申请所提供的模型训练方法。

存储器602作为一种非瞬时计算机可读存储介质，可用于存储非瞬时软件程序、非瞬时计算机可执行程序以及模块，如本申请实施例中的模型训练方法对应的程序指令/模块(例如，附图5所示的分配单元501和训练单元502)。处理器601通过运行存储在存储器602中的非瞬时软件程序、指令以及模块，从而执行服务器的各种功能应用以及数据处理，即实现上述方法实施例中的模型训练方法。

存储器602可以包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需要的应用程序；存储数据区可存储根据模型训练方法的电子设备的使用所创建的数据等。此外，存储器602可以包括高速随机存取存储器，还可以包括非瞬时存储器，例如至少一个磁盘存储器件、闪存器件、或其他非瞬时固态存储器件。在一些实施例中，存储器602可选包括相对于处理器601远程设置的存储器，这些远程存储器可以通过网络连接至模型训练方法的电子设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

模型训练方法的电子设备还可以包括：输入装置603和输出装置604。处理器601、存储器602、输入装置603和输出装置604可以通过总线或者其他方式连接，图6中以通过总线连接为例。

输入装置603可接收输入的数字或字符信息，以及产生与模型训练方法的电子设备的用户设置以及功能控制有关的键信号输入，例如触摸屏、小键盘、鼠标、轨迹板、触摸板、指示杆、一个或者多个鼠标按钮、轨迹球、操纵杆等输入装置。输出装置604可以包括显示设备、辅助照明装置(例如，LED)和触觉反馈装置(例如，振动电机)等。该显示设备可以包括但不限于，液晶显示器(LCD)、发光二极管(LED)显示器和等离子体显示器。在一些实施方式中，显示设备可以是触摸屏。

此处描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、专用ASIC(专用集成电路)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储系统、该至少一个输入装置和该至少一个输出装置。

这些计算程序(也称作程序、软件、软件应用、或者代码)包括可编程处理器的机器指令，并且可以利用高级过程和/或面向对象的编程语言、和/或汇编/机器语言来实施这些计算程序。如本文使用的，术语“机器可读介质”和“计算机可读介质”指的是用于将机器指令和/或数据提供给可编程处理器的任何计算机程序产品、设备、和/或装置(例如，磁盘、光盘、存储器、可编程逻辑装置(PLD))，包括，接收作为机器可读信号的机器指令的机器可读介质。术语“机器可读信号”指的是用于将机器指令和/或数据提供给可编程处理器的任何信号。

为了提供与用户的交互，可以在计算机上实施此处描述的系统和技术，该计算机具有：用于向用户显示信息的显示装置(例如，CRT(阴极射线管)或者LCD(液晶显示器)监视器)；以及键盘和指向装置(例如，鼠标或者轨迹球)，用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈(例如，视觉反馈、听觉反馈、或者触觉反馈)；并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。

可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如，作为数据服务器)、或者包括中间件部件的计算系统(例如，应用服务器)、或者包括前端部件的计算系统(例如，具有图形用户页面或者网络浏览器的用户计算机，用户可以通过该图形用户页面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如，通信网络)来将系统的部件相互连接。通信网络的示例包括：局域网(LAN)、广域网(WAN)和互联网。

计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。

根据本申请实施例的技术方案，根据类型信息，将模型训练中前向传播计算过程和反向传播计算过程中的各操作分配至不同的训练器，使得训练器的运行性能与操作所需要的性能相匹配，充分发挥训练器运行性能，提高了模型训练速度。

应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本发申请中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本申请公开的技术方案所期望的结果，本文在此不进行限制。

上述具体实施方式，并不构成对本申请保护范围的限制。本领域技术人员应该明白的是，根据设计要求和其他因素，可以进行各种修改、组合、子组合和替代。任何在本申请的精神和原则之内所作的修改、等同替换和改进等，均应包含在本申请保护范围之内。

Claims

1.一种模型训练方法，包括：

根据模型训练中前向传播计算过程和反向传播计算过程中的操作所属的类型信息，将所述操作分配至对应的训练器，其中，不同的训练器运行于异构设备上，异构设备上的训练器满足所分配的操作的性能要求，所述类型信息包括输入输出密集型和计算密集型；

依据训练样本对初始模型执行如下训练操作，直至达到预设结束条件：针对于每个训练器，基于与其他训练器的信息交互，完成该训练器所包括的操作所对应的前向传播计算过程和反向传播计算过程，得到对应的梯度信息；通过参数服务器，根据每个训练器的梯度信息进行初始图像分类模型参数的更新；

将达到所述预设结束条件的初始图像分类模型确定为训练后的图像分类模型；

在模型训练过程中，采用异构存储机制，基于信息的更新频率，将信息存储至不同的异构存储设备中，包括：

将更新频率超过第一频率阈值的信息存储至显存中；

将更新频率处于所述第一频率阈值与第二频率阈值之间的信息存储至内存中，其中，所述第一频率阈值大于所述第二频率阈值；

将更新频率低于所述第二频率阈值的信息存储至固态硬盘中。

2.根据权利要求1所述的方法，其中，所述训练器包括第一训练器和第二训练器，所述第一训练器用于设置输入输出密集型操作，所述第二训练器用于设置计算密集型操作；

所述根据模型训练中前向传播计算过程和反向传播计算过程中的操作所属的类型信息，将所述操作分配至对应的训练器，包括：

针对于所述前向传播计算过程和所述反向传播计算过程中的每一个操作：

响应于确定该操作为输入输出密集型操作，将该操作设置于所述第一训练器中；

响应于确定该操作为计算密集型操作，将该操作设置于所述第二训练器中。

3.根据权利要求2所述的方法，其中，所述第一训练器和所述第二训练器分别设有对应的信息队列；

所述针对于每个训练器，基于与其他训练器的信息交互，完成该训练器所包括的操作所对应的前向传播计算过程和反向传播计算过程，得到对应的梯度信息，包括：

针对于所述第一训练器或所述第二训练器，基于该训练器所对应的信息队列，与其他训练器进行信息交互，完成该训练器所包括的操作所对应的前向传播计算过程和反向传播计算过程，得到对应的梯度信息。

4.根据权利要求3所述的方法，其中，所述第一训练器中对应设有第一队列和第二队列，所述第一队列包括执行所述第一训练器中的操作所需的全部上下文信息，所述二队列包括执行所述第一训练器中的操作所需的部分上下文信息；所述第二训练器对应设有第三队列，所述第三队列包括执行所述第二训练器中的操作所需的全部上下文信息；

针对于所述第一训练器，执行如下操作：

从所述第一队列中获取执行所述第一训练器中的操作所需的上下文信息，并执行所述第一训练器中的操作的前向传播计算过程，得到执行所述第二训练器中的操作所需的上下文信息，其中，所述第二训练器中的操作为所述第一训练器中的操作的后续操作；

将执行所述第二训练器中的操作所得到的信息，作为执行所述第一训练器中的操作的反向传播计算过程所需的上下文信息，传输至所述第二队列，以补充所述第二队列中的部分上下文信息，得到执行所述第一训练器中的操作的反向传播计算过程所需的全部上下文信息；

将补充后得到的执行所述第一训练器中的操作的反向传播计算过程所需的全部上下文信息，从所述第二队列转移至所述第一队列，以使所述第一训练器执行所述第一训练器中的操作的反向传播计算过程，得到所述第一训练器对应的梯度信息。

5.根据权利要求4所述的方法，其中，所述针对于每个训练器，基于与其他训练器的信息交互，完成该训练器所包括的操作所对应的前向传播计算过程和反向传播计算过程，得到对应的梯度信息，还包括：

针对于所述第二训练器，执行如下操作：

将执行所述第二训练器中的操作所需的上下文信息添加至所述第三队列；

从所述第三队列中获取执行所述第二训练器中的操作所需的上下文信息，并执行所述第二训练器中的操所的前向传播计算过程和反向传播计算过程，得到所述第二训练器对应的梯度信息。

6.根据权利要求1所述的方法，所述第二训练器中包括多个子训练器，所述多个子训练器中的每个子训练器对应设有信息队列；

根据信息传输方向，针对于每个子训练器，通过该子训练器对应的信息队列与其他训练器进行数据交互，完成该子训练器所包括的操作所对应的前向传播计算过程和反向传播计算过程。

7.根据权利要求6所述的方法，其中，每个子训练器的信息队列包括待执行队列和等待队列，其中，待执行队列包括执行所对应的子训练器中的操作的全部上下文信息，等待队列包括执行所对应的子训练器中的操作的部分上下文信息；

所述通过该子训练器对应的信息队列与其他训练器进行数据交互，完成该子训练器所包括的操作所对应的前向传播计算过程和反向传播计算过程，包括：

针对于该子训练器所包括的操作所对应的前向传播计算过程，执行如下操作：

将执行上一个子训练器中的操作的前向传播计算过程所得到的信息，作为执行该子训练器中的操作的前向传播计算过程所需的上下文信息，添加至该子训练器对应的待执行队列；

从该子训练器对应的待执行队列中，获取执行该子训练器中的操作的前向传播计算过程所需的上下文信息，执行该子训练器中的操作的前向传播计算过程，并将所得到的信息作为执行下一个子训练器中的操作的前向传播计算过程的上下文信息，添加至下一个子训练器的待执行队列中。

8.根据权利要求7所述的方法，其中，所述通过该子训练器对应的待执行队列和等待队列与其他训练器进行数据交互，完成该子训练器所包括的操作所对应的前向传播计算过程和反向传播计算过程，还包括：

针对于该子训练器所包括的操作所对应的反向传播计算过程，执行如下操作：

将执行下一个子训练器中的操作的反向传播计算过程所得到的信息，作为执行该子训练器中的操作的反向传播计算过程所需的上下文信息，添加至该子训练器对应的等待队列，以补充该等待队列中的部分上下文信息，得到执行该子训练器中的操作的反向传播计算过程所需的全部上下文信息；

将补充后得到的、执行该子训练器中的操作的反向传播计算过程所需的全部上下文信息，从该子训练器对应的等待队列转移至该子训练器对应的待执行队列；

从该子训练器对应的待执行队列中，获取执行该子训练器中的操作的反向传播计算过程的上下文信息，执行该子训练器中的操作的反向传播计算过程，并将所得到的信息添加至上一个子训练器对应的等待队列。

9.根据权利要求1-8任一所述的方法，其中，还包括：

在各队列与各训练器之间，采用协程同步方式进行信息交互。

10.根据权利要求1-8任一所述的方法，其中，还包括：

在模型训练过程中，基于负载均衡策略，调整各训练器之间的算力，以使各训练器的算力相匹配。

11.一种模型训练装置，包括：

分配单元，被配置成根据模型训练中前向传播计算过程和反向传播计算过程中的操作所属的类型信息，将所述操作分配至对应的训练器，其中，不同的训练器运行于异构设备上，异构设备上的训练器满足所分配的操作的性能要求，所述类型信息包括输入输出密集型和计算密集型；

训练单元，被配置成依据训练样本对初始模型执行如下训练操作，直至达到预设结束条件：针对于每个训练器，基于与其他训练器的信息交互，完成该训练器所包括的操作所对应的前向传播计算过程和反向传播计算过程，得到对应的梯度信息；通过参数服务器，根据每个训练器发送的梯度信息进行初始图像分类模型参数的更新；

确定单元，被配置成将达到所述预设结束条件的初始图像分类模型确定为训练后的图像分类模型；

异构存储单元，被配置成在模型训练过程中，采用异构存储机制，基于信息的更新频率，将信息存储至不同的异构存储设备中，包括：将更新频率超过第一频率阈值的信息存储至显存中；将更新频率处于所述第一频率阈值与第二频率阈值之间的信息存储至内存中，其中，所述第一频率阈值大于所述第二频率阈值；将更新频率低于所述第二频率阈值的信息存储至固态硬盘中。

12.根据权利要求11所述的装置，其中，所述训练器包括第一训练器和第二训练器，所述第一训练器用于设置输入输出密集型操作，所述第二训练器用于设置计算密集型操作；

所述分配单元，进一步被配置成：

针对于所述前向传播计算过程和所述反向传播计算过程中的每一个操作：响应于确定该操作为输入输出密集型操作，将该操作设置于所述第一训练器中；响应于确定该操作为计算密集型操作，将该操作设置于所述第二训练器中。

13.根据权利要求12所述的装置，其中，所述第一训练器和所述第二训练器分别设有对应的信息队列；

所述训练单元，进一步被配置成：

14.根据权利要求13所述的装置，其中，所述第一训练器中对应设有第一队列和第二队列，所述第一队列包括执行所述第一训练器中的操作所需的全部上下文信息，所述二队列包括执行所述第一训练器中的操作所需的部分上下文信息；所述第二训练器对应设有第三队列，所述第三队列包括执行所述第二训练器中的操作所需的全部上下文信息；

所述训练单元，进一步被配置成：

针对于所述第一训练器，执行如下操作：从所述第一队列中获取执行所述第一训练器中的操作所需的上下文信息，并执行所述第一训练器中的操作的前向传播计算过程，得到执行所述第二训练器中的操作所需的上下文信息，其中，所述第二训练器中的操作为所述第一训练器中的操作的后续操作；

15.根据权利要求14所述的装置，其中，所述训练单元，进一步被配置成：

针对于所述第二训练器，执行如下操作：将执行所述第二训练器中的操作所需的上下文信息添加至所述第三队列；

16.根据权利要求11所述的装置，所述第二训练器中包括多个子训练器，所述多个子训练器中的每个子训练器对应设有信息队列；

所述训练单元，进一步被配置成：

17.根据权利要求16所述的装置，其中，每个子训练器的信息队列包括待执行队列和等待队列，其中，待执行队列包括执行所对应的子训练器中的操作的全部上下文信息，等待队列包括执行所对应的子训练器中的操作的部分上下文信息；

所述训练单元，进一步被配置成：

从该子训练器对应的待执行队列中，获取执行该子训练器中的操作的前向传播计算过程所需的上下文信息，执行该子训练器中的操作的前向传播计算过程，并将所得到的信息作为执行下一个子训练器中的操作的前向传播计算过程的上下文信息，添加至下一个子训练器的待执行队列中；

将执行下一个子训练器中的操作的反向传播计算过程所得到的信息，作为执行该子训练器中的操作的反向传播计算过程所需的上下文信息，添加至该子训练器对应的等待队列，以补充该等待队列中的部分上下文信息，得到执行该子训练器中的操作的反向传播计算过程所需的全部上下文信息。

18.根据权利要求17所述的装置，其中，所述训练单元，进一步被配置成：

19.根据权利要求11-18任一所述的装置，其中，还包括：

协程同步单元，被配置成在各队列与各训练器之间，采用协程同步方式进行信息交互。

20.根据权利要求11-18任一所述的装置，其中，还包括：

调整单元，被配置成在模型训练过程中，基于负载均衡策略，调整各训练器之间的算力，以使各训练器的算力相匹配。

21.一种电子设备，其特征在于，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1-10中任一项所述的方法。

22.一种存储有计算机指令的非瞬时计算机可读存储介质，其特征在于，所述计算机指令用于使所述计算机执行权利要求1-10中任一项所述的方法。