CN112508188A

CN112508188A - 一种分布式模型训练系统、方法、装置、设备和存储介质

Info

Publication number: CN112508188A
Application number: CN202011399066.4A
Authority: CN
Inventors: 张俊钦
Original assignee: Beijing QIYI Century Science and Technology Co Ltd
Current assignee: Beijing QIYI Century Science and Technology Co Ltd
Priority date: 2020-12-01
Filing date: 2020-12-01
Publication date: 2021-03-16

Abstract

本发明实施例公开了一种分布式模型训练系统、方法、装置、设备和存储介质。该系统包括：主控进程向工作进程发送待训练目标模型对应的样本需求信息；工作进程根据样本需求信息从预设的存储设备中获取原始训练样本；将原始训练样本输入第一子模型，获取第一子模型输出的中间训练样本，并将中间训练样本向训练进程发送；第一子模型是目标模型中的部分模型；训练进程控制GPU利用中间训练样本训练第二子模型；第二子模型是目标模型中的另一个部分模型；在执行顺序上，第二子模型紧邻第一子模型并且位于第一子模型之后。本发明避免将目标模型在一个训练端进行训练，造成的CPU的处理速度不能满足GPU的处理速度的问题，解决了目标模型的训练瓶颈。

Description

一种分布式模型训练系统、方法、装置、设备和存储介质

技术领域

本发明涉及模型训练技术领域，特别是涉及一种分布式模型训练系统、方法、装置、设备和存储介质。

背景技术

目前，模型在使用之前，一般使用GPU(Graphics Processing Unit，图像处理器)对模型进行训练。具体而言，在对模型训练之前，需要通过服务器中的CPU(centralprocessing unit，中央处理器)创建一个训练进程，该训练进程包括多个训练线程。在多个训练线程中，第一训练线程用于从外部存储设备获取原始训练样本，对原始训练样本进行预处理，并将预处理后的原始训练样本存储到服务器的内存中；第二训练线程用于将预处理后的原始训练样本从内存中拷贝到显存中，并调用GPU，使GPU利用显存中预处理后的原始训练样本对模型进行训练。

但是，GPU的处理速度超过CPU的处理速度，而且很多情况下会调用多个GPU来进行一个模型训练，然而，CPU计算能力比较有限，尤其在预处理项较多的情况下，对CPU资源的消耗巨大，使得CPU获取和处理原始训练样本的速度不能满足GPU的训练速度，导致GPU的算力被浪费了。

发明内容

本发明实施例的目的在于提供一种分布式模型训练系统、方法、装置、设备和存储介质，以实现CPU获取和处理原始训练样本的速度不能满足GPU的训练速度的问题。具体技术方案如下：

在本发明实施的第一个方面，提供了一种分布式模型训练系统，包括：主控进程、工作进程和训练进程；其中，所述主控进程向所述工作进程发送待训练目标模型对应的样本需求信息；所述工作进程接收来自于所述主控进程的样本需求信息；根据所述样本需求信息从预设的存储设备中获取原始训练样本；将所述原始训练样本输入第一子模型，获取所述第一子模型输出的中间训练样本，并将所述中间训练样本向所述训练进程发送；其中，所述第一子模型是所述目标模型中的部分模型；所述训练进程接收来自于所述工作进程的中间训练样本；控制图形处理器GPU利用所述中间训练样本训练第二子模型；所述第二子模型是所述目标模型中的另一个部分模型；在执行顺序上，所述第二子模型紧邻所述第一子模型并且位于所述第一子模型之后。

在本发明实施的第二个方面，提供了一种分布式模型训练方法，在第一训练端的工作进程执行，包括：接收来自于第二训练端的主控进程的样本需求信息；根据所述样本需求信息从预设的存储设备中获取原始训练样本；将所述原始训练样本输入第一子模型，并获取所述第一子模型输出的中间训练样本；其中，所述第一子模型是待训练的目标模型中的部分模型；将所述中间训练样本向所述第二训练端的训练进程发送，以便所述训练进程根据所述中间训练样本训练第二子模型；其中，所述第二子模型是所述目标模型中的另一个部分模型；在执行顺序上，所述第二子模型紧邻所述第一子模型并且位于所述第一子模型之后。

其中，在所述将所述中间训练样本向所述第二训练端的训练进程发送同时或者之后，还包括：将预设的处理完成消息向所述第二训练端的主控进程发送，以便接收来自于所述第二训练端的主控进程的下一个样本需求信息。

其中，所述将所述中间训练样本向所述第二训练端的训练进程发送，包括：根据所述中间训练样本，生成具有预设样本格式的传输信息；将所述传输信息向所述训练进程发送；其中，在所述样本格式的传输信息中包括所述中间训练样本对应的稠密特征向量和/或稀疏特征向量。

其中，在所述将所述中间训练样本向所述第二训练端的训练进程发送之前，还包括：对所述中间训练样本执行压缩处理。

在本发明实施的第三个方面，提供了一种分布式模型训练方法，在第二训练端执行，包括：通过主控进程向第一训练端的工作进程发送待训练的目标模型对应的样本需求信息；通过训练进程接收来自于所述工作进程的中间训练样本；所述中间训练样本是将原始训练样本输入第一子模型后，所述第一子模型输出的结果；所述原始训练样本是所述第一训练端根据所述样本需求信息从预设的存储设备获取的；所述第一子模型是所述目标模型中的部分模型；通过所述训练进程控制图形处理器GPU利用所述中间训练样本训练第二子模型；所述第二子模型是所述目标模型中的另一个部分模型；在执行顺序上，所述第二子模型紧邻所述第一子模型并且位于所述第一子模型之后。

其中，所述通过所述训练进程控制图形处理器GPU利用所述中间训练样本训练第二子模型，包括：通过训练进程将接收到的所述中间训练样本存储到所述GPU对应的显存之中；其中，在通过主控进程向第一训练端的工作进程发送待训练的目标模型对应的样本需求信息之后，将预设的训练标志位设置为第一预设值；其中，所述第一预设值表示开始对所述第二子模型进行训练；在所述第一标志为第一标志的情况下，所述GPU从所述显存之中读取所述中间训练样本，并利用所述中间训练样本训练所述第二子模型。

其中，所述方法还包括：通过所述主控进程执行以下步骤：接收来自于所述工作进程的处理完成消息；根据所述处理完成消息的接收时间和所述样本需求信息的发送时间，确定所述第一训练端对所述原始训练样本的处理时长；根据所述第一训练端对所述原始训练样本的处理时长，确定下一次向所述工作进程发送的样本需求信息；其中，所述样本需求信息中携带所述处理时长对应的待所述第一训练端获取的原始训练样本的数量。

其中，在所述通过所述训练进程接收来自于所述工作进程的中间训练样本之后，还包括：在所述中间训练样本被所述工作进程执行压缩处理的情况下，对所述中间训练样本执行解压缩处理。

在本发明实施的第四个方面，提供了一种分布式模型训练装置，设置在第一训练端，包括：第一接收模块，用于接收来自于第二训练端的主控进程的样本需求信息；第一获取模块，用于根据所述样本需求信息从预设的存储设备中获取原始训练样本；第二获取模块，用于将所述原始训练样本输入第一子模型，并获取所述第一子模型输出的中间训练样本；其中，所述第一子模型是待训练的目标模型中的部分模型；第一发送模块，用于将所述中间训练样本向所述第二训练端的训练进程发送，以便所述训练进程根据所述中间训练样本训练第二子模型；其中，所述第二子模型是所述目标模型中的另一个部分模型；在执行顺序上，所述第二子模型紧邻所述第一子模型并且位于所述第一子模型之后。

在本发明实施的第五个方面，提供了一种分布式模型训练装置，设置在第二训练端，包括：第二发送模块，用于通过主控进程向第一训练端的工作进程发送待训练的目标模型对应的样本需求信息；第二接收模块，用于通过训练进程接收来自于所述工作进程的中间训练样本；其中，所述中间训练样本是将原始训练样本输入第一子模型后，所述第一子模型输出的结果；所述原始训练样本是所述第一训练端根据所述样本需求信息从预设的存储设备获取的；所述第一子模型是所述目标模型中的部分模型；训练控制模块，用于通过所述训练进程控制图形处理器GPU利用所述中间训练样本训练第二子模型；其中，所述第二子模型是所述目标模型中的另一个部分模型；在执行顺序上，所述第二子模型紧邻所述第一子模型并且位于所述第一子模型之后。

在本发明实施的第六个方面，提供了一种电子设备，包括处理器、通信接口、存储器和通信总线，其中，处理器，通信接口，存储器通过通信总线完成相互间的通信；存储器，用于存放计算机程序；处理器，用于执行存储器上所存放的程序时，实现上述在第一训练端执行的任一所述的方法步骤，或者，实现上述在第二训练端执行的任一项所述的方法步骤。

在本发明实施的第七个方面，还提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有指令，当其在计算机上运行时，使得计算机执行上述在第一训练端执行的任一所述的方法步骤，或者，执行上述在第二训练端执行的任一项所述的方法步骤。

在本发明实施的第八个方面，还提供了一种包含指令的计算机程序产品，当其在计算机上运行时，使得计算机执行上述在第一训练端执行的任一所述的方法步骤，或者，执行上述在第二训练端执行的任一项所述的方法步骤。

本发明实施例提供的一种分布式模型训练系统、方法、装置、设备和存储介质，通过将目标模型分割为多个子模型，将子模型部署到不同的训练端，将目标模型的训练压力分散到不同的训练端，原始训练样本的获取和处理在第一训练端执行，避免将目标模型在一个训练端进行训练，造成的CPU的处理速度不能满足GPU的处理速度的问题，解决了目标模型的训练瓶颈。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍。

图1是根据本发明一实施例的分布式模型训练系统的结构图；

图2是根据本发明一实施例的分布式模型训练系统的结构示意图；

图3是根据本发明一实施例的在第一训练端执行的分布式模型训练方法的流程图；

图4是根据本发明一实施例的在第二训练端执行的分布式模型训练方法的流程图；

图5是根据本发明一实施例的分布式模型训练方法的时序图；

图6是根据本发明一实施例的分布式模型训练方法的示意图；

图7为根据本发明一实施例的训练反馈步骤的流程图；

图8是根据本发明一实施例的训练反馈步骤的示意图；

图9是根据本发明一实施例的设置在第一训练端的分布式模型训练装置的结构图；

图10是根据本发明一实施例的设置在第二训练端的分布式模型训练装置的结构图；

图11是根据本发明一实施例的电子设备的结构图。

具体实施方式

下面将结合本发明实施例的附图，对本发明实施例中的技术方案进行描述。

本发明实施例提供了一种分布式模型训练系统。如图1所示，是根据本发明一实施例的分布式模型训练系统的结构图。

分布式模型训练系统包括：主控进程110、工作进程120和训练进程130。

主控进程110向工作进程120发送待训练目标模型对应的样本需求信息。

工作进程120接收来自于主控进程110的样本需求信息；根据样本需求信息从预设的存储设备中获取原始训练样本；将原始训练样本输入第一子模型，获取第一子模型输出的中间训练样本，并将中间训练样本向训练进程130发送；其中，第一子模型是目标模型中的部分模型。

训练进程130接收来自于工作进程120的中间训练样本；控制图形处理器GPU利用中间训练样本训练第二子模型；第二子模型是目标模型中的另一个部分模型；在执行顺序上，第二子模型紧邻第一子模型并且位于第一子模型之后。

在本发明实施例中，工作进程120可以设置在第一训练端。主控进程110和训练进程130可以设置在第二训练端。为了使本发明实施例的分布式模型训练系统更加清楚，下面对第一训练端和第二训练端的执行步骤分别进行描述。

进一步地，所述训练进程将接收到的所述中间训练样本存储到所述GPU对应的显存之中；其中，所述主控进程在向所述工作进程发送待训练目标模型对应的样本需求信息之后，将预设的训练标志位设置为第一预设值；其中，所述第一预设值表示开始对所述第二子模型进行训练；在所述第一标志为第一标志的情况下，所述GPU从所述显存之中读取所述中间训练样本，并利用所述中间训练样本训练所述第二子模型。

进一步地，所述工作进程在将所述中间训练样本向所述训练进程发送同时或者之后，将预设的处理完成消息向所述主控进程发送；所述主控进程在接收到所述处理完成消息之后，根据所述处理完成消息的接收时间和所述样本需求信息的发送时间，确定所述工作进程对所述原始训练样本的处理时长；根据所述工作进程对所述原始训练样本的处理时长，确定下一次向所述工作进程发送的样本需求信息；其中，所述样本需求信息中携带所述处理时长对应的待所述工作进程获取的原始训练样本的数量。

进一步地，所述工作进程根据所述中间训练样本，生成具有预设样本格式的传输信息；将所述传输信息向所述训练进程发送；其中，在所述样本格式的传输信息中包括所述中间训练样本对应的稠密特征向量和/或稀疏特征向量。

进一步地，所述工作进程在将所述中间训练样本向所述训练进程发送之前，对所述中间训练样本执行压缩处理；所述训练进程在所述中间训练样本被所述工作进程执行压缩处理的情况下，对所述中间训练样本执行解压缩处理。

本发明实施例通过将目标模型分割为多个子模型，将子模型部署到不同的训练端，将目标模型的训练压力分散到不同的训练端，原始训练样本的获取和处理在第一训练端执行，避免将目标模型在一个训练端进行训练，造成的CPU的处理速度不能满足GPU的处理速度的问题，解决了目标模型的训练瓶颈。

图2是根据本发明一实施例的分布式模型训练系统的结构示意图。

在该分布式模型训练系统，包括：多个第一训练端210，一个第二训练端220以及存储设备230。其中，该多个第一训练端210都部署第一子模型。第一子模型用于对原始训练样本进行预处理。第二训练端220部署第二子模型。

本实施例将目标模型的整个训练过程切分成不同的角色，包括：主控进程(Master)，训练进程和工作进程(Worker)。在训练目标模型时，每个第一训练端的CPU创建并运行工作进程120，第二训练端的CPU创建并运行训练进程130和主控进程110。

主控进程110用于控制样本需求信息的分发。工作进程120用于根据样本需求信息，不断读取和预处理数据集，然后将中间训练样本发送给训练进程130，以便训练进程130调用GPU140对目标模型进行训练，依次来解决在一台物理机上读取和预处理原始训练样本，并且训练目标模型，引发的训练瓶颈的问题。

基于上述系统架构，对本发明的分布式模型训练方法进行进一步地描述。

本发明实施例提供了一种在第一训练端执行的分布式模型训练方法。第一训练端为第一物理机或者用于进行模型训练的训练物理机中的第一容器。进一步地，本实施例的执行主体为第一训练端的CPU创建的工作进程。

如图3所示，是根据本发明一实施例的在第一训练端执行的分布式模型训练方法的流程图。

步骤S310，接收来自于第二训练端的主控进程的样本需求信息。

第二训练端为第二物理机或者训练物理机中的第二容器。

样本需求信息是用于训练目标模型的原始训练样本的信息。其中，目标模型是待训练的模型。原始训练样本是指训练目标模型使用的最初的样本。

样本需求信息包括但不限于：样本文件名称和/或样本特征向量信息。

样本文件名称是原始训练样本所在文件的名称。在所述文件中存储有多个原始训练样本。

样本特征向量信息是原始训练样本所在文件的信息。样本特征向量信息包括但不限于：原始训练样本所在文件的名称包含的字符，原始训练样本所在文件的存储地址。

步骤S320，根据所述样本需求信息从预设的存储设备中获取原始训练样本。

存储设备用于存储原始训练样本。其中，存储设备独立于第一训练端和第二训练端。该存储设备可以是分布式存储设备。在本实施例中，获取的原始训练样本的数量可以是多个。进一步地，在存储设备中存储多个文件。在每个文件中存储多个原始训练样本，即每个文件中存储一个原始训练样本集合；获取样本需求信息对应的文件中的全部或者部分原始训练样本。

当所述样本需求信息包括训练样本所在文件的名称时，在所述存储设备中查询该名称的文件，获取该文件中存储的多个原始训练样本。

当所述样本需求信息包括训练样本所在文件的名称包含的字符时，在预设的样本文件名称表中，查询包含该字符的样本文件名称；从所述存储设备中，查询该样本文件名称对应的文件；获取在该文件中存储的多个原始训练样本。

当所述样本需求信息包括训练样本所在文件的存储地址时，在所述存储设备中查询该存储地址的文件；获取该文件中存储的多个原始训练样本。

步骤S330，将所述原始训练样本输入第一子模型，并获取所述第一子模型输出的中间训练样本；所述第一子模型是待训练的目标模型中的部分模型。

第一子模型是待训练的目标模型中的部分模型。目标模型可以是深度学习神经网络模型。

第二子模型是所述目标模型中的另一个部分模型；在执行顺序上，所述第二子模型紧邻所述第一子模型并且位于所述第一子模型之后。

中间训练样本是指经过第一子模型处理的样本。例如：中间训练样本可以是经过第一子模型预处理的样本。

进一步地，第一子模型可以是目标模型中待训练的子模型，也可以是目标模型中用于对原始训练样本进行预处理的子模型。第二子模型为目标模型中待训练的子模型。

在第一子模型是目标模型中待训练的子模型时，在获取第一子模型输出的中间训练样本之后，根据中间训练样本，确定第一子模型的损失值，在第一子模型的损失值小于预设的损失阈值时，调整第一子模型中的参数。

在第一子模型是目标模型中用于预处理的子模型时，获取第一子模型输出的中间训练样本即可，无需对第一子模型中的参数进行调整。预处理包括但不限于：样本特征归一化，样本特征校验和非法值检测。

在本实施例中，在获取的原始训练样本的数量为多个时，可以根据第一子模型的功能，顺次将每个原始训练样本输入第一子模型，或者，将多个原始训练样本一起输入第一子模型。

步骤S340，将所述中间训练样本向所述第二训练端的训练进程发送，以便所述训练进程根据所述中间训练样本训练第二子模型；所述第二子模型是所述目标模型中的另一个部分模型；在执行顺序上，所述第二子模型紧邻所述第一子模型并且位于所述第一子模型之后。

本发明实施例采用分布式训练的方式，训练目标模型。也即是说，预先将目标模型分割为多个子模型，将多个子模型分别在不同的训练端进行训练。

具体而言，按照多个子模型的执行顺序，也即是多个子模型分别处理样本的时间顺序，对多个子模型进行从先到后的排序，并将多个子模型分别部署到不同的训练端中。其中，在多个子模型中，如果部分子模型并列执行，则在排序结果中，该部分子模型的排序位置也为并列。根据多个子模型的排序结果，前N(N≥1)个子模型共同部署的训练端用于获取原始训练样本并输出中间训练样本，后续子模型分别部署的训练端用于接收前一训练端输出的中间训练样本，并向下一个训练端输出处理后的中间序列样本。在本实施例中，根据排序结果，将首个排序位置的子模型部署的训练端作为第一训练端，将后续排序位置的子模型分别部署的训练端作为第二训练端。

在本实施例中，由于分布式训练是在不同的物理机或者容器中执行，所以为了前一个物理机或者容器的子模型输出的中间训练样本可以直接被后一个物理机或者容器中的子模型处理，在将中间训练样本向后一个训练端(第二训练端)发送之前，根据所述中间训练样本，生成具有预设样本格式的传输信息；将所述传输信息向所述第二训练端的训练进程发送；在所述样本格式的传输信息中包括所述中间训练样本对应的稠密(Dense)特征向量和/或稀疏(Sparse)特征向量。

稠密特征向量为中间训练样本的共性特征，即中间训练样本都有的特征。

稀疏特征向量为中间训练样本的个性特征，即中间训练样本独有的特征。

进一步地，在获取的原始训练样本的数量为多个时，中间训练样本的数量为一个或者多个。在中间训练样本的数量为多个的情况下，传输信息中的稠密特征向量包括多个中间训练样本分别对应的稠密特征，传输信息中的稀疏特征向量包括多个中间训练样本分别对应的稀疏特征。

例如：稠密特征向量的每一行特征对应一个中间训练样本。稀疏特征向量中的每一行对应一个中间训练样本。

所述样本格式可以采用如下格式：

其中，稠密特征向量包含在一个Map类型中，稠密特征的名称作为Key，对应的值是一个张量(Tensor)；稀疏特征向量也包含在一个Map类型中，稀疏特征的名称为Key，稀疏特征对应的值包含三个Tensor，该三个Tensor分别为索引(index)，值(value)和形状(shape)。

在本实施例中，在将所述中间训练样本向所述第二训练端的训练进程发送之前，还包括：对所述中间训练样本执行压缩处理。进一步地，在样本需求信息中还可以包括：发送数量。每次对该发送数量的中间训练样本执行压缩处理。

在本发明实施例中，将目标模型分割为多个子模型，将子模型部署到不同的训练端，将目标模型的训练压力分散到不同的训练端，原始训练样本的获取和处理在第一训练端执行，避免将目标模型在一个训练端进行训练，造成的CPU的处理速度不能满足GPU的处理速度的问题，解决了目标模型的训练瓶颈。

在本发明实施例中，自定义了预处理后的样本格式，兼容稠密特征和稀疏特征，也即是兼容了样本的共性特征和个性特征，从而使得本发明实施例可以处理各种的样本场景。

通过本发明实施例，可以提升GPU深度学习训练的效率，避免了由于需要大量的CPU来进行数据集预处理导致的训练瓶颈，提升了模型的训练速度，提升了模型的迭代速度，所以应用本发明实施例时，模型收敛速度较快。

下面针对在第二训练端执行的分布式模型训练方法进行描述。第二训练端为第二物理机或者用于进行模型训练的训练物理机中的第二容器。

如图4所示，是根据本发明一实施例的在第二训练端执行的分布式模型训练方法的流程图。

步骤S410，通过主控进程向第一训练端的工作进程发送待训练的目标模型对应的样本需求信息。

步骤S420，通过训练进程接收来自于所述工作进程的中间训练样本；所述中间训练样本是将原始训练样本输入第一子模型后，所述第一子模型输出的结果；所述原始训练样本是所述工作进程根据所述样本需求信息从预设的存储设备获取的；所述第一子模型是所述目标模型中的部分模型。

步骤S430，通过所述训练进程控制GPU利用所述中间训练样本训练第二子模型；所述第二子模型是所述目标模型中的另一个部分模型；在执行顺序上，所述第二子模型紧邻所述第一子模型并且位于所述第一子模型之后。

在本发明实施例中，预先将目标模型分割为多个子模型，每个子模型用于实现一个或多个功能。按照多个子模型分别处理样本的时间顺序，将前N(N≥1)个子模型部署到第一训练端，将其余子模型部署到第二训练端。

当然，本领域技术人员应当知道的是，根据目标模型的大小，可以设置多个训练端，在不同的训练端部署不同的子模型，当然，为了提高处理效率，也可以在多个训练端部署相同的子模型。在子模型部署完成之后，确定各个子模型分别处理样本的时间，按照处理时间从前到后的顺序，由首个子模型所在的训练端获取原始训练样本，将首个训练端的子模型输出的中间训练样本发送给第二个训练端，第二个训练端的子模型输出的中间训练样本发送给第三个训练端，以此类推，直到最后一个训练端的子模型处理完成。本发明实施例在各个子模型处理样本后，对各个子模型的参数进行调整，以便各个子模型的准确率。

图5是根据本发明一实施例的分布式模型训练方法的时序图。图6是根据本发明一实施例的分布式模型训练方法的示意图。

步骤S510，第二训练端220通过主控进程110向第一训练端210发送待训练的目标模型对应的样本需求信息。

在该样本需求信息中，包括：用于训练目标模型的原始训练样本所在文件的样本文件名称，原始训练样本的处理方式，待获取的原始训练样本的数量以及中间训练样本的发送方式。

原始训练样本的处理方式包括但不限于：样本打乱处理和样本重复处理。样本打乱处理是指将获取的原始训练样本的顺序打乱。样本重复处理是指对获取的全部或者部分原始训练样本进行复制。

中间训练样本的发送方式包括但不限于：发送数量和发送格式。发送格式为压缩处理或者非压缩处理。

具体而言，在启动对目标模型的训练之后，第二训练端220中的训练进程130向主控进程110发送训练开始消息；主控进程110读取目标模型对应的配置信息，在该配置信息中包括训练目标模型所需的样本文件名称；主控进程110根据目标模型对应的配置信息生成样本需求信息。该配置信息中还可以包括：原始训练样本是否需要打乱顺序，原始训练样本是否需要重复。

进一步地，在启动对目标模型的训练之后，可以接收来自于第一训练端210的工作进程110的样本需求获取请求；根据该样本需求获取请求，主控进程110读取目标模型对应的配置信息。

进一步地，由于第一训练端210的数量可以为多个，可以向不同的第一训练端210发送不同内容的样本需求信息。例如：在向处理速度较慢的第一训练端210发送的样本需求信息中，待获取的原始训练样本的数量较少，在向处理速度较快的第一训练端210发送的样本需求信息中，待获取的原始训练样本的数量较多。

步骤S520，第一训练端210通过工作进程120接收来自于第二训练端220的主控进程110的样本需求信息。

步骤S530，第一训练端210通过工作进程120根据所述样本需求信息从预设的存储设备中获取原始训练样本；将所述原始训练样本输入第一子模型，并获取所述第一子模型输出的中间训练样本。

步骤S540，第一训练端210通过工作进程120将所述中间训练样本向所述第二训练端220的训练进程130发送。

工作进程120可以根据样本需求信息中的发送数量，当然也可以根据当前网络情况，向第二训练端220的训练进程130发送该发送数量的中间训练样本。在向第二训练端220的训练进程130发送该发送数量的中间训练样本时，可以对该发送数量的中间训练样本进行压缩处理。

步骤S550，第二训练端220通过训练进程130接收来自于第一训练端210的中间训练样本，并将接收到的所述中间训练样本存储到所述GPU140对应的显存之中。

第二训练端220的训练进程130接收该发送数量的中间训练样本，并将该发送数量的中间训练样本存储到显存中。进一步地，如果该发送数量的中间训练样本被第一训练端210的工作进程120进行了压缩处理，则先对该发送数量的中间训练样本进行解压缩处理，在将该发送数量的中间训练样本存储到显存之中。

在本实施例中，训练进程130可以直接将中间训练样本存储到显存中，而非先存储到内存中，再由内存中向显存中拷贝，所以本发明实施例减少了内存和显存之间的拷贝消耗。

步骤S560，第二训练端220通过所述训练进程130控制所述GPU140利用所述显存中存储的所述中间训练样本训练所述第二子模型。

通过所述主控进程110将预设的训练标志位设置为第一预设值；其中，所述第一预设值表示开始对所述第二子模型进行训练；在所述第一标志为第一标志的情况下，所述GPU140从所述显存之中读取所述中间训练样本，并利用所述中间训练样本训练所述第二子模型。

第一预设值可以为True。在停止对第二子模型训练之后，通过主控进程110将训练标志位设置为第二预设值。第二预设值表示停止对第二子模型进行训练。该第二预设值可以为False。

在第二训练端220中，在GPU140确定第二子模型训练完成之后，也即是目标模型训练完成之后，向训练进程130发送训练完成消息；训练进程130向主控进程110发送训练停止消息；主控进程110向第一训练端210的工作进程120发送训练停止通知消息；第一训练端210的工作进程120在接收到训练停止通知消息之后，停止从存储设备获取原始训练样本。

本发明实施例将样本获取和预处理的职能分发到不同的物理机(第一训练端)的不同工作进程上进行处理，解决了单物理机上CPU的处理效率有限的问题，提升了模型训练的效率。

本发明实施例通过主控进程来控制样本文件名称的分发，这样可以对样本的处理进行灵活的控制，包括是否对样本进行多次重复，是否对样本文件进行顺序打乱等，都可以进行控制，这样可以有效提高训练的效果。本发明可以灵活自定义，将一些额外的计算分担给工作进程，比如样本归一化操作，以便减少训练进程的资源消耗。为了提升模型训练效率，可以在训练过程中，增加反馈机制，以便第二训练端根据第一训练端的处理情况，按需分配样本需求信息。

图7为根据本发明一实施例的训练反馈步骤的流程图。图8是根据本发明一实施例的训练反馈步骤的示意图。

步骤S710，第一训练端通过工作进程将预设的处理完成消息向所述第二训练端的主控进程发送，以便接收来自于所述第二训练端的主控进程的下一个样本需求信息。

步骤S720，第二训练端通过所述主控进程接收来自于所述第一训练端的处理完成消息。

步骤S730，第二训练端通过所述主控进程根据所述处理完成消息的接收时间和所述样本需求信息的发送时间，确定所述第一训练端对所述原始训练样本的处理时长。

步骤S740，第二训练端通过所述主控进程根据所述第一训练端对所述原始训练样本的处理时长，确定下一次向所述第一训练端发送的样本需求信息；其中，所述样本需求信息中携带所述处理时长对应的待所述第一训练端获取的原始训练样本的数量。

本发明实施例通过主控进程来控制样本文件名称的分发速度，这样可以对不同的工作进程的训练速度进行控制，如果有工作进程获取和预处理的速度比较慢，就可以控制样本文件名称分发的量少一些，处理比较快的工作进程的样本文件名称分发的量就多一些，均衡不同工作进程的处理速度，在整体上提升模型训练效率。

本发明实施例还提供了一种设置在第一训练端的分布式模型训练装置。如图9所示，是根据本发明一实施例的设置在第一训练端的分布式模型训练装置的结构图。

该设置在第一训练端的分布式模型训练装置，包括：第一接收模块910，第一获取模块920，第二获取模块930和第一发送模块940。

第一接收模块910，用于接收来自于第二训练端的样本需求信息。

第一获取模块920，用于根据所述样本需求信息从预设的存储设备中获取原始训练样本。

第二获取模块930，用于将所述原始训练样本输入第一子模型，并获取所述第一子模型输出的中间训练样本；其中，所述第一子模型是待训练的目标模型中的部分模型。

第一发送模块940，用于将所述中间训练样本向所述第二训练端发送，以便所述第二训练端根据所述中间训练样本训练第二子模型；其中，所述第二子模型是所述目标模型中的另一个部分模型；在执行顺序上，所述第二子模型紧邻所述第一子模型并且位于所述第一子模型之后。

本发明实施例所述的装置的功能已经上述方法实施例中进行了描述，故本发明实施例的描述中未详尽之处，可以参见前述实施例中的相关说明，在此不做赘述。

本发明实施例还提供了一种设置在第二训练端的分布式模型训练装置。如图10所示，是根据本发明一实施例的设置在第二训练端的分布式模型训练装置的结构图。

该设置在第二训练端的分布式模型训练装置，包括：第二发送模块1010，第二接收模块1020和训练控制模块1030。

第二发送模块1010，用于向第一训练端发送待训练的目标模型对应的样本需求信息。

第二接收模块1020，用于接收来自于第一训练端的中间训练样本；其中，所述中间训练样本是将原始训练样本输入第一子模型后，所述第一子模型输出的结果；所述原始训练样本是所述第一训练端根据所述样本需求信息从预设的存储设备获取的；所述第一子模型是所述目标模型中的部分模型。

训练控制模块1030，用于控制图形处理器GPU利用所述中间训练样本训练第二子模型；其中，所述第二子模型是所述目标模型中的另一个部分模型；在执行顺序上，所述第二子模型紧邻所述第一子模型并且位于所述第一子模型之后。

本发明实施例还提供了一种电子设备，如图11所示，包括处理器1110、通信接口1120、存储器1130和通信总线1140，其中，处理器1110，通信接口1120，存储器1130通过通信总线1140完成相互间的通信。

存储器1130，用于存放计算机程序。

处理器1110，用于执行存储器1130上所存放的程序时，实现如下在第一训练端的工作进程执行的步骤：接收来自于第二训练端的主控进程的样本需求信息；根据所述样本需求信息从预设的存储设备中获取原始训练样本；将所述原始训练样本输入第一子模型，并获取所述第一子模型输出的中间训练样本；其中，所述第一子模型是待训练的目标模型中的部分模型；将所述中间训练样本向所述第二训练端的训练进程发送，以便所述训练进程根据所述中间训练样本训练第二子模型；其中，所述第二子模型是所述目标模型中的另一个部分模型；在执行顺序上，所述第二子模型紧邻所述第一子模型并且位于所述第一子模型之后。

处理器1010，用于执行存储器1030上所存放的程序时，实现如下在第二训练端执行的步骤：通过主控进程向第一训练端的工作进程发送待训练的目标模型对应的样本需求信息；通过训练进程接收来自于所述工作进程的中间训练样本；所述中间训练样本是将原始训练样本输入第一子模型后，所述第一子模型输出的结果；所述原始训练样本是所述第一训练端根据所述样本需求信息从预设的存储设备获取的；所述第一子模型是所述目标模型中的部分模型；通过所述训练进程控制图形处理器GPU利用所述中间训练样本训练第二子模型；所述第二子模型是所述目标模型中的另一个部分模型；在执行顺序上，所述第二子模型紧邻所述第一子模型并且位于所述第一子模型之后。

上述终端提到的通信总线可以是外设部件互连标准(Peripheral ComponentInterconnect，简称PCI)总线或扩展工业标准结构(Extended Industry StandardArchitecture，简称EISA)总线等。该通信总线可以分为地址总线、数据总线、控制总线等。为便于表示，图中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

通信接口用于上述终端与其他设备之间的通信。

存储器可以包括随机存取存储器(Random Access Memory，简称RAM)，也可以包括非易失性存储器(non-volatile memory)，例如至少一个磁盘存储器。可选的，存储器还可以是至少一个位于远离前述处理器的存储装置。

上述的处理器可以是通用处理器，包括中央处理器(Central Processing Unit，简称CPU)、网络处理器(Network Processor，简称NP)等；还可以是数字信号处理器(Digital Signal Processing，简称DSP)、专用集成电路(Application SpecificIntegrated Circuit，简称ASIC)、现场可编程门阵列(Field－Programmable Gate Array，简称FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。

在本发明提供的又一实施例中，还提供了一种计算机可读存储介质，该计算机可读存储介质中存储有指令，当其在计算机上运行时，使得计算机执行上述实施例中任一所述的在第一训练端的工作进程执行的方法步骤，或者，执行上述实施例中任一所述的在第二训练端执行的方法步骤。

在本发明提供的又一实施例中，还提供了一种包含指令的计算机程序产品，当其在计算机上运行时，使得计算机执行上述实施例中任一所述的在第一训练端的工作进程执行的方法步骤，或者，执行上述实施例中任一所述的在第二训练端执行的方法步骤。

在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时，全部或部分地产生按照本发明实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一个计算机可读存储介质传输，例如，所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质，(例如，软盘、硬盘、磁带)、光介质(例如，DVD)、或者半导体介质(例如固态硬盘Solid State Disk(SSD))等。

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

本说明书中的各个实施例均采用相关的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于系统实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

以上所述仅为本发明的较佳实施例而已，并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所作的任何修改、等同替换、改进等，均包含在本发明的保护范围内。

Claims

1.一种分布式模型训练系统，其特征在于，包括：主控进程、工作进程和训练进程；其中，

所述主控进程向所述工作进程发送待训练目标模型对应的样本需求信息；

所述工作进程接收来自于所述主控进程的样本需求信息；根据所述样本需求信息从预设的存储设备中获取原始训练样本；将所述原始训练样本输入第一子模型，获取所述第一子模型输出的中间训练样本，并将所述中间训练样本向所述训练进程发送；其中，所述第一子模型是所述目标模型中的部分模型；

所述训练进程接收来自于所述工作进程的中间训练样本；控制图形处理器GPU利用所述中间训练样本训练第二子模型；所述第二子模型是所述目标模型中的另一个部分模型；在执行顺序上，所述第二子模型紧邻所述第一子模型并且位于所述第一子模型之后。

2.一种分布式模型训练方法，其特征在于，在第一训练端的工作进程执行，包括：

接收来自于第二训练端的主控进程的样本需求信息；

根据所述样本需求信息从预设的存储设备中获取原始训练样本；

将所述原始训练样本输入第一子模型，并获取所述第一子模型输出的中间训练样本；其中，所述第一子模型是待训练的目标模型中的部分模型；

将所述中间训练样本向所述第二训练端的训练进程发送，以便所述训练进程根据所述中间训练样本训练第二子模型；其中，所述第二子模型是所述目标模型中的另一个部分模型；在执行顺序上，所述第二子模型紧邻所述第一子模型并且位于所述第一子模型之后。

3.根据权利要求2所述的方法，其特征在于，在所述将所述中间训练样本向所述第二训练端的训练进程发送同时或者之后，还包括：

将预设的处理完成消息向所述第二训练端的主控进程发送，以便接收来自于所述第二训练端的主控进程的下一个样本需求信息。

4.根据权利要求2所述的方法，其特征在于，所述将所述中间训练样本向所述第二训练端的训练进程发送，包括：

根据所述中间训练样本，生成具有预设样本格式的传输信息；

将所述传输信息向所述训练进程发送；其中，在所述样本格式的传输信息中包括所述中间训练样本对应的稠密特征向量和/或稀疏特征向量。

5.根据权利要求2-4中任一项所述的方法，其特征在于，在所述将所述中间训练样本向所述第二训练端的训练进程发送之前，还包括：对所述中间训练样本执行压缩处理。

6.一种分布式模型训练方法，其特征在于，在第二训练端执行，包括：

通过主控进程向第一训练端的工作进程发送待训练的目标模型对应的样本需求信息；

通过训练进程接收来自于所述工作进程的中间训练样本；所述中间训练样本是将原始训练样本输入第一子模型后，所述第一子模型输出的结果；所述原始训练样本是所述工作进程根据所述样本需求信息从预设的存储设备获取的；所述第一子模型是所述目标模型中的部分模型；

通过所述训练进程控制图形处理器GPU利用所述中间训练样本训练第二子模型；所述第二子模型是所述目标模型中的另一个部分模型；在执行顺序上，所述第二子模型紧邻所述第一子模型并且位于所述第一子模型之后。

7.根据权利要求6所述的方法，其特征在于，

所述通过所述训练进程控制图形处理器GPU利用所述中间训练样本训练第二子模型，包括：

通过训练进程将接收到的所述中间训练样本存储到所述GPU对应的显存之中；其中，在通过主控进程向第一训练端的工作进程发送待训练的目标模型对应的样本需求信息之后，将预设的训练标志位设置为第一预设值；其中，所述第一预设值表示开始对所述第二子模型进行训练；在所述第一标志为第一标志的情况下，所述GPU从所述显存之中读取所述中间训练样本，并利用所述中间训练样本训练所述第二子模型。

8.根据权利要求6所述的方法，其特征在于，所述方法还包括：

通过所述主控进程执行以下步骤：

接收来自于所述工作进程的处理完成消息；

根据所述处理完成消息的接收时间和所述样本需求信息的发送时间，确定所述第一训练端对所述原始训练样本的处理时长；

根据所述第一训练端对所述原始训练样本的处理时长，确定下一次向所述工作进程发送的样本需求信息；其中，所述样本需求信息中携带所述处理时长对应的待所述第一训练端获取的原始训练样本的数量。

9.根据权利要求6-8中任一项所述的方法，其特征在于，在所述通过所述训练进程接收来自于所述工作进程的中间训练样本之后，还包括：

在所述中间训练样本被所述工作进程执行压缩处理的情况下，对所述中间训练样本执行解压缩处理。

10.一种分布式模型训练装置，其特征在于，设置在第一训练端，包括：

第一接收模块，用于接收来自于第二训练端的主控进程的样本需求信息；

第一获取模块，用于根据所述样本需求信息从预设的存储设备中获取原始训练样本；

第二获取模块，用于将所述原始训练样本输入第一子模型，并获取所述第一子模型输出的中间训练样本；其中，所述第一子模型是待训练的目标模型中的部分模型；

第一发送模块，用于将所述中间训练样本向所述第二训练端的训练进程发送，以便所述训练进程根据所述中间训练样本训练第二子模型；其中，所述第二子模型是所述目标模型中的另一个部分模型；在执行顺序上，所述第二子模型紧邻所述第一子模型并且位于所述第一子模型之后。

11.一种分布式模型训练装置，其特征在于，设置在第二训练端，包括：

第二发送模块，用于通过主控进程向第一训练端的工作进程发送待训练的目标模型对应的样本需求信息；

第二接收模块，用于通过训练进程接收来自于所述工作进程的中间训练样本；其中，所述中间训练样本是将原始训练样本输入第一子模型后，所述第一子模型输出的结果；所述原始训练样本是所述第一训练端根据所述样本需求信息从预设的存储设备获取的；所述第一子模型是所述目标模型中的部分模型；

训练控制模块，用于通过所述训练进程控制图形处理器GPU利用所述中间训练样本训练第二子模型；其中，所述第二子模型是所述目标模型中的另一个部分模型；在执行顺序上，所述第二子模型紧邻所述第一子模型并且位于所述第一子模型之后。

12.一种电子设备，其特征在于，包括处理器、通信接口、存储器和通信总线，其中，处理器，通信接口，存储器通过通信总线完成相互间的通信；

存储器，用于存放计算机程序；

处理器，用于执行存储器上所存放的程序时，实现权利要求2-5中任一所述的方法步骤，或者，实现权利要求6-9中任一项所述的方法步骤。

13.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现权利要求2-5中任一所述的方法步骤，或者，实现权利要求6-9中任一项所述的方法步骤。