CN112766498A

CN112766498A - 模型训练方法及装置

Info

Publication number: CN112766498A
Application number: CN202110130820.2A
Authority: CN
Inventors: 廉相如; 刘霁
Original assignee: Beijing Dajia Internet Information Technology Co Ltd
Current assignee: Beijing Dajia Internet Information Technology Co Ltd
Priority date: 2021-01-29
Filing date: 2021-01-29
Publication date: 2021-05-07
Anticipated expiration: 2041-01-29
Also published as: US20220245401A1; CN112766498B

Abstract

本公开示出了一种模型训练方法及装置，其中，模型训练方法包括：获取初始模型和训练样本集，训练样本集包括基于多媒体数据生成的多个训练样本；并行执行模型训练任务和模型融合任务；判断第一训练节点的本地模型是否满足训练终止条件，若满足，则停止训练，否则重复并行执行模型训练任务和模型融合任务的步骤，直到满足训练终止条件。由于模型训练任务和模型融合任务并行执行，各个训练节点不断地对本地模型进行训练更新，同时与其它训练节点的本地模型进行融合，使得每个训练节点都可以全速地进行模型训练，各个训练节点之间在进行模型融合时不存在等待关系，从而可以提高模型训练速度；另外，本方案无需设置参数节点，从而可以节省计算资源。

Description

模型训练方法及装置

技术领域

本公开涉及计算机技术领域，尤其涉及一种模型训练方法、装置、电子设备、计算机可读存储介质及计算机程序产品。

背景技术

随着神经网络与深度学习技术的不断发展，工业界越来越倾向于使用深度网络模型来进行各种数据的处理。

在对深度网络模型训练的过程中，由于模型的计算量和数据量都在不断增加，普通的单卡训练已经很难满足实际的效率需要，多卡、多机多卡的训练方式成为实际训练中重要的加速手段。然而，在公司或云端的生产环境中，训练集群往往由多种不同型号的机器组成，不同机器的计算速度以及网络带宽等参数可能都不相同，采用相关技术中的同步训练方式，训练过程中的每一步都需要等待最慢的训练机器完成训练，这样的训练过程造成大量资源浪费，并拖慢训练速度。

发明内容

本公开提供一种模型训练方法、装置、电子设备、计算机可读存储介质及计算机程序产品，以至少解决相关技术中模型训练的过程造成大量资源浪费且训练速度慢的问题。本公开的技术方案如下：

根据本公开的第一方面，提供一种模型训练方法，应用于训练网络中的第一训练节点，所述训练网络包括多个训练节点，所述第一训练节点为所述多个训练节点中的任意一个，所述方法包括：

获取初始模型和训练样本集，所述训练样本集包括基于多媒体数据生成的多个训练样本；

并行执行模型训练任务和模型融合任务，所述模型融合任务包括：从所述训练网络中选取第二训练节点，获取所述第二训练节点的本地模型，并对所述第一训练节点的本地模型和所述第二训练节点的本地模型进行融合，获得所述融合模型，并用所述融合模型替换所述第一训练节点的本地模型；在执行所述模型训练任务的过程中，所述第一训练节点的本地模型用于对所述训练样本中的多媒体数据进行属性预测，以根据所述属性预测结果更新所述第一训练节点的本地模型，在执行当次所述模型训练任务之前，所述第一训练节点的本地模型为以下之一：所述初始模型，前一次所述模型训练任务获得的模型和所述模型融合任务获得的融合模型；

判断所述第一训练节点的本地模型是否满足预设的训练终止条件，若满足，则停止执行所述模型训练任务和所述模型融合任务，若不满足，则重复所述并行执行模型训练任务和模型融合任务的步骤，直到满足预设的训练终止条件。

在一种可选的实现方式中，所述模型融合任务还包括：

将所述第一训练节点的本地模型发送至所述第二训练节点，以使所述第二训练节点对所述第一训练节点的本地模型和所述第二训练节点的本地模型进行融合，并用融合后的模型替换所述第二训练节点的本地模型。

在一种可选的实现方式中，所述对所述第一训练节点的本地模型和所述第二训练节点的本地模型进行融合，获得所述融合模型的步骤，包括：

计算所述第一训练节点的本地模型的参数和所述第二训练节点的本地模型的参数的加权平均值；

将所述加权平均值确定为所述融合模型的参数，获得所述融合模型。

在一种可选的实现方式中，执行所述模型融合任务的步骤，包括：

以预设时间间隔，执行所述模型融合任务，其中，所述预设时间间隔大于或等于对所述第一训练节点的本地模型进行单次训练的时长。

在一种可选的实现方式中，所述训练样本集还包括与所述训练样本中的多媒体数据对应的标注数据，所述模型训练任务包括：

基于所述第一训练节点的本地模型，对所述训练样本中的多媒体数据进行属性预测，得到输出数据；

根据所述输出数据以及所述多媒体数据对应的标注数据，确定所述第一训练节点的本地模型的参数梯度；

根据所述参数梯度更新所述第一训练节点的本地模型。

在一种可选的实现方式中，所述并行执行模型训练任务和模型融合任务的步骤，包括：

创建第一操作队列和第二操作队列，所述第一操作队列和所述第二操作队列并行执行；

在所述第一操作队列中执行所述模型训练任务，在所述第二操作队列中执行所述模型融合任务。

在一种可选的实现方式中，各所述训练节点的训练样本集不同。

在一种可选的实现方式中，各所述训练节点的初始模型一致。

在一种可选的实现方式中，所述训练终止条件包括：所述第一训练节点的本地模型的精度达到预设精度，或者对所述第一训练节点的本地模型进行训练的次数达到预设次数。

根据本公开的第二方面，提供一种模型训练装置，应用于训练网络中的第一训练节点，所述训练网络包括多个训练节点，所述第一训练节点为所述多个训练节点中的任意一个，所述装置包括：

获取模块，被配置为获取初始模型和训练样本集，所述训练样本集包括基于多媒体数据生成的多个训练样本；

训练模块，被配置为并行执行模型训练任务和模型融合任务，所述模型融合任务包括：从所述训练网络中选取第二训练节点，获取所述第二训练节点的本地模型，并对所述第一训练节点的本地模型和所述第二训练节点的本地模型进行融合，获得所述融合模型，并用所述融合模型替换所述第一训练节点的本地模型；在执行所述模型训练任务的过程中，所述第一训练节点的本地模型用于对所述训练样本中的多媒体数据进行属性预测，以根据所述属性预测结果更新所述第一训练节点的本地模型，在执行当次所述模型训练任务之前，所述第一训练节点的本地模型为以下之一：所述初始模型，前一次所述模型训练任务获得的模型和所述模型融合任务获得的融合模型；

判断模块，被配置为判断所述第一训练节点的本地模型是否满足预设的训练终止条件，若满足，则停止调用所述训练模块，若不满足，则重复调用所述训练模块，直到满足预设的训练终止条件。

在一种可选的实现方式中，所述训练模块还被配置为：

在一种可选的实现方式中，所述训练模块具体被配置为：

在一种可选的实现方式中，所述训练样本集还包括与所述训练样本中的多媒体数据对应的标注数据，所述训练模块具体被配置为：

根据所述参数梯度更新所述第一训练节点的本地模型。

在一种可选的实现方式中，所述训练模块具体被配置为：

根据本公开的第三方面，提供一种电子设备，所述电子设备包括：

处理器；

用于存储所述处理器可执行指令的存储器；

其中，所述处理器被配置为执行所述指令，以实现如第一方面所述的模型训练方法。

根据本公开的第四方面，提供一种计算机可读存储介质，当所述计算机可读存储介质中的指令由电子设备的处理器执行时，使得所述电子设备能够执行如第一方面所述的模型训练方法。

根据本公开的第五方面，提供一种计算机程序产品，包括计算机程序，所述计算机程序由电子设备的处理器执行时实现如第一方面所述的模型训练方法。

本公开的实施例提供的技术方案至少带来以下有益效果：

本公开技术方案提供了一种模型训练方法及装置，其中，模型训练方法应用于训练网络中的第一训练节点，训练网络包括多个训练节点，第一训练节点为多个训练节点中的任意一个，模型训练方法包括：获取初始模型和训练样本集，训练样本集包括基于多媒体数据生成的多个训练样本；并行执行模型训练任务和模型融合任务，模型融合任务包括：从训练网络中随机选取第二训练节点，获取第二训练节点的本地模型，并对第一训练节点的本地模型和第二训练节点的本地模型进行融合，获得融合模型，并用融合模型替换第一训练节点的本地模型；在执行模型训练任务的过程中，第一训练节点的本地模型用于对训练样本中的多媒体数据进行属性预测，以根据属性预测结果更新第一训练节点的本地模型，在执行当次模型训练任务之前，第一训练节点的本地模型为以下之一：初始模型，前一次模型训练任务获得的模型和模型融合任务获得的融合模型；之后判断第一训练节点的本地模型是否满足预设的训练终止条件，若满足，则停止执行模型训练任务和模型融合任务，若不满足，则重复并行执行模型训练任务和模型融合任务的步骤，直到满足预设的训练终止条件。

本公开技术方案中，由于模型训练任务和模型融合任务并行执行，各个训练节点不断地对本地模型进行训练更新，同时与其它训练节点的本地模型进行融合，使得每个训练节点都可以全速地进行模型训练，并且各个训练节点之间进行模型融合时不存在等待关系，从而可以提高模型训练速度；另外，本公开技术方案无需设置参数节点，从而可以节省计算资源。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本公开。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本公开的实施例，并与说明书一起用于解释本公开的原理，并不构成对本公开的不当限定。

图1是根据一示例性实施例示出的一种模型训练方法的流程图。

图2是示出了相关技术中的一种训练网络的架构图。

图3是根据一示例性实施例示出的一种训练网络的架构图。

图4是根据一示例性实施例示出的一种模型训练方法的流程图。

图5是根据一示例性实施例示出的一种模型训练方法的流程图。

图6是根据一示例性实施例示出的一种模型训练装置的结构框图。

图7是根据一示例性实施例示出的一种电子设备的框图。

图8是根据一示例性实施例示出的一种电子设备的框图。

具体实施方式

为了使本领域普通人员更好地理解本公开的技术方案，下面将结合附图，对本公开实施例中的技术方案进行清楚、完整地描述。

需要说明的是，本公开的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本公开的实施例能够以除了在这里图示或描述的那些以外的顺序实施。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。

相关技术中，分布式训练网络通常包括多个训练机，拓扑图如图2所示，多个训练机共享一个参数服务器(位于图2的虚线框内)，参数服务器用于模型的存储更新。在训练过程中，每个训练机都从参数服务器上获取最新的模型，基于该模型计算参数梯度，并将参数梯度异步传回参数服务器更新模型。具体地，在同步训练模式下，参数服务器在收到所有训练机传回的参数梯度后进行模型更新，之后再将最新的模型发送至各训练机。在异步训练模式下，参数服务器可以每收到一个训练机传回的参数梯度就进行一次模型更新，在训练机请求模型时直接将当前模型发送给训练机。相关技术中的这种分布式训练网络需要配置参数服务器资源，训练网络的架构复杂且成本高，另外训练速度也受限于参数服务器的带宽和算力。

为了解决上述问题，图1是根据一示例性实施例示出的一种模型训练方法的流程图，如图1所示，该模型训练方法可以应用于计算机视觉、自然语言处理或语音识别等领域中深度学习模型训练，包括以下步骤。

在步骤S11中，获取初始模型和训练样本集，该训练样本集包括基于多媒体数据生成的多个训练样本。

本实施例提供的模型训练方法，应用于训练网络中的第一训练节点，训练网络可以包括多个训练节点，第一训练节点为多个训练节点中的任意一个。各训练节点之间通过网络在通讯逻辑上连接为一个连通图，如图3所示。

其中，各训练节点可以位于不同的机器学习设备或计算机中，如图3所示，本实施例对此不作限定。在实际应用中，每台机器学习设备或计算机中也可以包括多个训练节点。

各训练节点可以包括一个或多个图形处理器(Graphics Processing Unit，GPU)、中央处理器(central processing unit，CPU)或数字信号处理器(Digital SignalProcessing，DSP)等处理器，本实施例对此不作限定。

在具体实现中，各训练节点可以包括一个图形处理器GPU，由于GPU对矩阵乘法和卷积具有高效的处理能力，因此通过将每个GPU作为一个训练节点执行本实施例提供的模型训练方法，可以更加高效地完成模型训练，并且与每个训练节点包括多个GPU的方案相比，可以更加充分地利用每个GPU的算力，避免计算资源的浪费。

本实施例中，第一训练节点的本地模型为深度学习模型，用于对多媒体数据进行属性预测，该属性预测例如可以是分类预测，或者，还可以是点击率预测，或者，在多媒体数据为图像数据时还可以是图像分割结果预测或者图像识别结果预测等。

在具体实现中，多个训练节点同时协作训练得到上述的深度学习模型，各训练节点之间以并行方式完成深度学习模型的训练。

在第一次训练之前，可以在各训练节点上存储有深度学习模型的初始模型，即初始化的深度学习模型，作为各训练节点的本地模型，并以该初始模型为基础对本地模型进行多次训练更新。在一种可选的实现方式中，各训练节点的初始模型可以一致，本实施例对此不作限定。通过设置各训练节点的初始模型一致，可以降低各训练节点算力不均衡的影响。

另外，还可以在各训练节点上存储有训练样本集，各训练节点的训练样本集可以相同或不同，本实施例对此不作限定。当各训练节点的训练样本集不同时，可以避免不同的训练节点对同一训练样本的重复训练，从而充分利用所有的计算资源，提高融合效率，实现高效的分布式训练。

其中，训练数据集可以包括基于多媒体数据生成的多个训练样本，多媒体数据包括视频数据、图像数据、音频数据和文本数据中的至少一种数据。

在步骤S12中，并行执行模型训练任务和模型融合任务，模型融合任务包括：从训练网络中选取第二训练节点，获取第二训练节点的本地模型，并对第一训练节点的本地模型和第二训练节点的本地模型进行融合，获得融合模型，并用融合模型替换第一训练节点的本地模型；在执行模型训练任务的过程中，第一训练节点的本地模型用于对训练样本中的多媒体数据进行属性预测，以根据属性预测结果更新第一训练节点的本地模型，在执行当次模型训练任务之前，第一训练节点的本地模型为以下之一：初始模型，前一次模型训练任务获得的模型和模型融合任务获得的融合模型。

其中，第二训练节点可以为训练网络中除第一训练节点之外的任意一个训练节点。第一训练节点和第二训练节点可以位于同一台机器学习设备或计算机中，也可以位于不同的机器学习设备或计算机中，本实施例对此不作限定。

第一训练节点的本地模型在执行模型训练任务的过程中不断更新。在执行模型训练任务的过程中，可以首先将训练样本中的多媒体数据输入第一训练节点的本地模型，通过第一训练节点的本地模型对训练样本中的多媒体数据进行属性预测，将第一训练节点的本地模型的输出作为属性预测结果，然后再根据属性预测结果更新第一训练节点的本地模型。后续实施例会对模型训练任务进行详细介绍。

在模型融合任务中，第一训练节点可以随机选择一个第二训练节点，获取第二训练节点的本地模型，并将第一训练节点的本地模型和第二训练节点的本地模型进行融合，获得融合模型，并用融合模型对第一训练节点的本地模型进行更新。模型融合任务独立于模型训练任务且不断异步执行。后续实施例会对模型融合任务进行详细介绍。

在第一次执行模型训练任务之前，第一训练节点的本地模型为初始模型。在中间训练过程中，在第N次执行模型训练任务之前，如果第一训练节点的本地模型由模型融合任务替换为融合模型，则在第N次训练之前，第一训练节点的本地模型为该融合模型；如果第一训练节点的本地模型未被模型融合任务替换为融合模型，则在第N次训练之前，第一训练节点的本地模型为前一次训练即第N-1次模型训练任务得到的模型。

本实施例中，各训练节点都可以不断地并行执行模型训练任务和模型融合任务，训练节点之间的模型融合完全不存在等待关系，所有的训练节点都可以全速执行模型训练任务，即使各训练节点的训练机器之间配置不同，也能充分发挥每一台机器的算力，从而提高模型训练速度。

在步骤S13中，判断第一训练节点的本地模型是否满足预设的训练终止条件，若满足，则停止执行模型训练任务和模型融合任务，若不满足，则重复并行执行模型训练任务和模型融合任务的步骤，直到满足预设的训练终止条件。

在一种可选的实现方式中，训练终止条件可以包括：第一训练节点的本地模型的精度达到预设精度，或者对第一训练节点的本地模型进行训练的次数达到预设次数。其中，对第一训练节点的本地模型进行训练的次数即执行模型训练任务的次数。通过设置上述训练终止条件，可以确保各训练节点上的本地模型可以收敛到同一个准确度。

在具体实现中，可以在每次训练完成之后或者以预设时长间隔，判断第一训练节点的本地模型是否满足预设的训练终止条件，如果不满足，则循环执行步骤S12至步骤S13，如果已满足，则结束训练。

在实际应用中，满足训练终止条件的第一训练节点的本地模型，即完成训练的深度学习模型可以用于对多媒体数据进行属性预测，例如可以对多媒体数据中的图像数据进行图像识别预测、图像分割预测等，或者可以对多媒体数据中的语音数据进行语音识别预测等，或者还可以对多媒体数据进行点击率预测等。

本公开实施例提供的异步分布式模型训练方法，由于模型训练任务和模型融合任务并行执行，各个训练节点可以不断地对本地模型进行训练更新，同时与其它训练节点的本地模型进行融合，这样每个训练节点都可以全速进行模型训练，并且各个训练节点之间进行模型融合时不存在等待关系，从而可以提高模型训练速度。另外，本公开技术方案无需设置参数节点，各训练节点由任意配置的训练机器构成即可完成分布式训练，具有训练架构简单，节省资源的优点，训练速度不再受限于参数节点的带宽和算力，能够充分利用所有的计算资源，实现高效的分布式训练。采用本实施例提供的技术方案，在多数训练场景下可以达到线性加速，即模型训练速度随机器总算力的增加成正比增加。

在一种可选的实现方式中，在步骤S12中的模型融合任务，还可以包括：将第一训练节点的本地模型发送至第二训练节点，以使第二训练节点对第一训练节点的本地模型和第二训练节点的本地模型进行融合，并用融合后的模型替换第二训练节点的本地模型。

在模型融合任务中，第一训练节点可以在获取第二训练节点的本地模型的同时，将第一训练节点的本地模型发送给第二训练节点，由第二训练节点对第一训练节点的本地模型和第二训练节点的本地模型进行融合，得到融合模型，并用融合模型替换第二训练节点的本地模型。在具体实现中，第二训练节点还可以根据本地的训练样本集对该融合模型进行训练，并对第二训练节点的本地模型进行更新。

本实现方式中，由于网络的发送带宽和接收带宽是独立的，因此，第一训练节点向第二训练节点发送本地模型的过程与接收第二训练节点本地模型的过程可以并行进行，从而进一步提高模型训练效率。

在模型融合任务中，在第一训练节点将第一训练节点的本地模型和第二训练节点的本地模型进行融合之后，用融合模型对第一训练节点的本地模型进行更新，同时还可以将融合模型发送给第二训练节点，使第二训练节点基于该融合模型对第二训练节点的本地模型进行更新。

在一种可选的实现方式中，在步骤S12中对第一训练节点的本地模型和第二训练节点的本地模型进行融合，获得融合模型的步骤可以包括：计算第一训练节点的本地模型的参数和第二训练节点的本地模型的参数的加权平均值；将加权平均值确定为融合模型的参数，获得融合模型。其中，各训练节点的权重系数可以根据实际需求设定，本实施例对此不作限定。

例如，可以计算第一训练节点的本地模型的参数和第二训练节点的本地模型的参数的平均值；将平均值确定为融合模型的参数，获得融合模型。

本实现方式中，通过对不同训练节点上本地模型的参数之间进行加权平均，可以消除算力不均衡对训练结果的影响，确保各训练节点上的本地模型都能收敛到同一准确度高的模型。

在一种可选的实现方式中，在步骤S12中并行执行模型训练任务和模型融合任务的步骤，包括：首先创建第一操作队列和第二操作队列，第一操作队列和第二操作队列并行执行；然后在第一操作队列中执行模型训练任务，在第二操作队列中执行模型融合任务。

其中，每个操作队列中的操作以指定的顺序执行。每个操作队列可以视为一个任务，并且这些任务可以并行执行。例如，操作队列可以为CUDA(Compute Unified DeviceArchitecture，统一计算设备架构)流。其中，CUDA流(CUDA Stream)是对应并发的概念，包括一组顺序执行的操作。多个CUDA流是对应并行的概念，使用多个CUDA流可以并行执行数据复制和核函数运算等操作。在第一训练节点中，可以创建两个并行执行的CUDA流，这两个CUDA流分别执行模型训练任务和模型融合任务。

本实现方式中，通过两个操作队列实现模型训练任务和模型融合任务的并行执行，可以提高运算性能，进一步提高模型训练速度。

在一种可选的实现方式中，在步骤S12中，可以以预设时间间隔，执行模型融合任务，其中，预设时间间隔大于或等于对第一训练节点的本地模型进行单次训练的时长。

在具体实现中，执行模型融合任务的预设时间间隔可以根据实际需求设定，本实施例对此不作限定。当预设时间间隔大于或等于对第一训练节点的本地模型进行单次训练的时长时，与不间断地执行模型融合任务的方案相比，可以减少训练节点之间的数据传输，节省网络开销。

在一种可选的实现方式中，训练样本集还可以包括与训练样本中的多媒体数据对应的标注数据，在步骤S12中模型训练任务可以包括：首先基于第一训练节点的本地模型，对训练样本中的多媒体数据进行属性预测，得到输出数据；根据输出数据以及多媒体数据对应的标注数据，确定第一训练节点的本地模型的参数梯度；根据参数梯度更新第一训练节点的本地模型。

其中，训练样本集中的各训练样本可以包括多媒体数据以及与该多媒体数据对应的标注数据。

在模型训练任务中，第一训练节点可以随机在训练样本集选取训练样本，第一训练节点的本地模型对该训练样本中的多媒体数据进行属性预测，属性预测结果即第一训练节点的本地模型的输出数据，然后根据输出数据以及训练样本中的标注数据，计算该训练样本对应的损失值，通过反向传播算法，对计算得到的损失值进行反向传播，可以确定参数梯度，根据该参数梯度对第一训练节点的本地模型的参数进行调整，实现第一训练节点的本地模型的更新。其中，参数梯度用于表示第一训练节点的本地模型中参数的调整量。模型训练的过程可以在各个训练节点的本地执行。

图4是根据一示例性实施例示出的一种模型训练方法的流程图，如图4所示，该模型训练方法应用于对图像识别模型进行训练的过程中，包括以下步骤：

在步骤S41中，获取图像识别模型的初始模型和训练样本集，该训练样本集包括基于图像数据生成的多个训练样本。

在步骤S42中，并行执行模型训练任务和模型融合任务，模型融合任务包括：从训练网络中选取第二训练节点，获取第二训练节点的图像识别模型，并对第一训练节点的图像识别模型和第二训练节点的图像识别模型进行融合，获得融合模型，并用融合模型替换第一训练节点的图像识别模型；在执行模型训练任务的过程中，第一训练节点的图像识别模型用于对训练样本中的图像数据进行识别，以根据识别结果更新第一训练节点的图像识别模型，在执行当次模型训练任务之前，第一训练节点的图像识别模型为以下之一：图像识别模型的初始模型，前一次模型训练任务获得的模型和模型融合任务获得的融合模型。

在步骤S43中，判断第一训练节点的图像识别模型是否满足预设的训练终止条件，若满足，则停止执行模型训练任务和模型融合任务，若不满足，则重复并行执行模型训练任务和模型融合任务的步骤，直到满足预设的训练终止条件。

在对图像识别模型进行第一训练之前，第一训练节点可以首先获取图像识别模型的初始模型和训练样本集。其中，图像识别模型的初始模型即初始化的图像识别模型。训练样本集中的各训练样本可以包括图像数据以及与该图像数据对应的标注数据。

之后，并行执行图像识别模型的模型训练任务和模型融合任务。在模型训练任务中，基于第一训练节点的图像识别模型的网络结构，对训练样本中的图像数据进行特征提取，将提取到的图像特征进行拼接处理，并将拼接处理后的特征进行全连接处理，依据全连接处理结果得到图像识别结果，并根据图像识别结果和训练样本中的标注数据确定计算该训练样本对应的损失值，通过反向传播算法，对计算得到的损失值进行反向传播，可以确定图像识别模型的参数梯度，根据该参数梯度对第一训练节点的图像识别模型的参数进行调整，实现第一训练节点的图像识别模型的更新。在模型融合任务中，第一训练节点可以不断地随机选择一个第二训练节点，获取第二训练节点的图像识别模型，并将第一训练节点的图像识别模型和第二训练节点的图像识别模型进行融合，获得融合模型，并用融合模型对第一训练节点的图像识别模型进行更新。模型融合任务独立于模型训练任务且不断异步执行。

上述各步骤的具体实现方式，可参见上述示例性实施例，这里不再赘述。

图像识别模型训练完成后，可以用于对图像数据进行识别，通过图像识别模型首先对图像数据进行特征提取，将提取到的图像特征进行拼接处理，并将拼接处理后的特征进行全连接处理，依据全连接处理结果得到图像识别结果。

由于在对图像识别模型进行训练时，模型训练任务和模型融合任务并行执行，各个训练节点可以不断地对图像识别模型进行训练更新，同时与其它训练节点的图像识别模型进行融合，这样每个训练节点都可以全速进行图像识别模型训练，并且各个训练节点之间进行图像识别模型融合时不存在等待关系，从而可以提高模型训练速度。另外，本公开技术方案无需设置参数节点，各训练节点由任意配置的训练机器构成即可完成图像识别模型的分布式训练，具有训练架构简单，节省资源的优点，训练速度不再受限于参数节点的带宽和算力，能够充分利用所有的计算资源，实现高效的分布式训练。

图5是根据一示例性实施例示出的一种模型训练方法的流程图，如图5所示，该模型训练方法应用于对推荐模型进行训练的过程中，包括以下步骤：

在步骤S51中，获取推荐模型的初始模型和训练样本集，该训练样本集包括基于推荐信息生成的多个训练样本。

本示例性实施例中，训练数据集中的训练样本包括当前推荐信息、历史行为信息和标注数据，标注数据为用户是否点击当前推荐信息，如果用户点击当前推荐信息，则标注数据为1，如果用户未点击当前推荐信息，则标注数据为0。推荐信息是多媒体数据，例如可以是视频数据、图像数据、音频数据和文本数据中的至少一种数据。

在步骤S52中，并行执行模型训练任务和模型融合任务，模型融合任务包括：从训练网络中选取第二训练节点，获取第二训练节点的推荐模型，并对第一训练节点的推荐模型和第二训练节点的推荐模型进行融合，获得融合模型，并用融合模型替换第一训练节点的推荐模型；在执行模型训练任务的过程中，第一训练节点的推荐模型用于对训练样本中的推荐信息进行点击率预测，以根据点击率预测结果更新第一训练节点的推荐模型，在执行当次模型训练任务之前，第一训练节点的推荐模型为以下之一：推荐模型的初始模型，前一次模型训练任务获得的模型和模型融合任务获得的融合模型。

在步骤S53中，判断第一训练节点的推荐模型是否满足预设的训练终止条件，若满足，则停止执行模型训练任务和模型融合任务，若不满足，则重复并行执行模型训练任务和模型融合任务的步骤，直到满足预设的训练终止条件。

在对推荐模型进行第一训练之前，第一训练节点可以首先获取推荐模型的初始模型和训练样本集。其中，推荐模型的初始模型即初始化的推荐模型。

之后，并行执行推荐模型的模型训练任务和模型融合任务。在模型训练任务中，基于第一训练节点的推荐模型的网络结构，对训练样本中的历史行为信息进行分析确定用户的偏好特征，并确定偏好特征与当前推荐信息的相似度，将该相似度作为推荐模型的点击率预测结果，并根据点击率预测结果和训练样本中的标注数据确定该训练样本对应的损失值，通过反向传播算法，对计算得到的损失值进行反向传播，可以确定推荐模型的参数梯度，根据该参数梯度对第一训练节点的推荐模型的参数进行调整，实现第一训练节点的推荐模型的更新。在模型融合任务中，第一训练节点可以不断地随机选择一个第二训练节点，获取第二训练节点的推荐模型，并将第一训练节点的推荐模型和第二训练节点的推荐模型进行融合，获得融合模型，并用融合模型对第一训练节点的推荐模型进行更新。模型融合任务独立于模型训练任务且不断异步执行。

推荐模型训练完成后，可以用于对多媒体数据进行点击率预测。多媒体数据例如可以是视频数据、图像数据、音频数据和文本数据中的至少一种数据。

由于在对推荐模型进行训练时，模型训练任务和模型融合任务并行执行，各个训练节点可以不断地对推荐模型进行训练更新，同时与其它训练节点的推荐模型进行融合，这样每个训练节点都可以全速进行推荐模型训练，并且各个训练节点之间进行推荐模型融合时不存在等待关系，从而可以提高模型训练速度。另外，本公开技术方案无需设置参数节点，各训练节点由任意配置的训练机器构成即可完成推荐模型的分布式训练，具有训练架构简单，节省资源的优点，训练速度不再受限于参数节点的带宽和算力，能够充分利用所有的计算资源，实现高效的分布式训练。

图6是根据一示例性实施例示出的一种模型训练装置框图，该模型训练装置应用于训练网络中的第一训练节点，所述训练网络包括多个训练节点，所述第一训练节点为所述多个训练节点中的任意一个，参照图6，该模型训练装置可以包括：

获取模块61，被配置为获取初始模型和训练样本集，所述训练样本集包括基于多媒体数据生成的多个训练样本；

训练模块62，被配置为并行执行模型训练任务和模型融合任务，所述模型融合任务包括：从所述训练网络中选取第二训练节点，获取所述第二训练节点的本地模型，并对所述第一训练节点的本地模型和所述第二训练节点的本地模型进行融合，获得所述融合模型，并用所述融合模型替换所述第一训练节点的本地模型；在执行所述模型训练任务的过程中，所述第一训练节点的本地模型用于对所述训练样本中的多媒体数据进行属性预测，以根据所述属性预测结果更新所述第一训练节点的本地模型，在执行当次所述模型训练任务之前，所述第一训练节点的本地模型为以下之一：所述初始模型，前一次所述模型训练任务获得的模型和所述模型融合任务获得的融合模型；

判断模块63，被配置为判断所述第一训练节点的本地模型是否满足预设的训练终止条件，若满足，则停止调用所述训练模块，若不满足，则重复调用所述训练模块，直到满足预设的训练终止条件。

在一种可选的实现方式中，所述训练模块还被配置为：

在一种可选的实现方式中，所述训练模块具体被配置为：

根据所述参数梯度更新所述第一训练节点的本地模型。

在一种可选的实现方式中，所述训练模块具体被配置为：

关于上述实施例中的装置，其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述，此处将不做详细阐述说明。

图7是本公开示出的一种电子设备800的框图。例如，电子设备800可以是移动电话，计算机，数字广播终端，消息收发设备，游戏控制台，平板设备，医疗设备，健身设备，个人数字助理等。

参照图7，电子设备800可以包括以下一个或组件：处理组件802，存储器804，电力组件806，多媒体组件808，音频组件810，输入/输出(I/O)的接口812，传感器组件814，以及通信组件816。

处理组件802通常控制电子设备800的整体操作，诸如与显示，电话呼叫，数据通信，相机操作和记录操作相关联的操作。处理组件802可以包括一个或处理器820来执行指令，以完成任一实施例所述的模型训练方法的全部或部分步骤。此外，处理组件802可以包括一个或模块，便于处理组件802和其他组件之间的交互。例如，处理组件802可以包括多媒体模块，以方便多媒体组件808和处理组件802之间的交互。

存储器804被配置为存储各种类型的数据以支持在设备800的操作。这些数据的示例包括用于在电子设备800上操作的任何应用程序或方法的指令，联系人数据，电话簿数据，消息，图片，视频等。存储器804可以由任何类型的易失性或非易失性存储设备或者它们的组合实现，如静态随机存取存储器(SRAM)，可擦除可编程只读存储器(EPROM)，可编程只读存储器(PROM)，只读存储器(ROM)，磁存储器，快闪存储器，磁盘或光盘。

电源组件806为电子设备800的各种组件提供电力。电源组件806可以包括电源管理系统，一个或电源，及其他与为电子设备800生成、管理和分配电力相关联的组件。

多媒体组件808包括在所述电子设备800和用户之间的提供一个输出接口的屏幕。在一些实施例中，屏幕可以包括液晶显示器(LCD)和触摸面板(TP)。如果屏幕包括触摸面板，屏幕可以被实现为触摸屏，以接收来自用户的输入信号。触摸面板包括一个或触摸传感器以感测触摸、滑动和触摸面板上的手势。所述触摸传感器可以不仅感测触摸或滑动动作的边界，而且还检测与所述触摸或滑动操作相关的持续时间和压力。在一些实施例中，多媒体组件808包括一个前置摄像头和/或后置摄像头。当设备800处于操作模式，如拍摄模式或视频模式时，前置摄像头和/或后置摄像头可以接收外部的多媒体数据。每个前置摄像头和后置摄像头可以是一个固定的光学透镜系统或具有焦距和光学变焦能力。

音频组件810被配置为输出和/或输入音频信号。例如，音频组件810包括一个麦克风(MIC)，当电子设备800处于操作模式，如呼叫模式、记录模式和语音识别模式时，麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器804或经由通信组件816发送。在一些实施例中，音频组件810还包括一个扬声器，用于输出音频信号。

I/O接口812为处理组件802和外围接口模块之间提供接口，上述外围接口模块可以是键盘，点击轮，按钮等。这些按钮可包括但不限于：主页按钮、音量按钮、启动按钮和锁定按钮。

传感器组件814包括一个或传感器，用于为电子设备800提供各个方面的状态评估。例如，传感器组件814可以检测到设备800的打开/关闭状态，组件的相对定位，例如所述组件为电子设备800的显示器和小键盘，传感器组件814还可以检测电子设备800或电子设备800一个组件的位置改变，用户与电子设备800接触的存在或不存在，电子设备800方位或加速/减速和电子设备800的温度变化。传感器组件814可以包括接近传感器，被配置用来在没有任何的物理接触时检测附近物体的存在。传感器组件814还可以包括光传感器，如CMOS或CCD图像传感器，用于在成像应用中使用。在一些实施例中，该传感器组件814还可以包括加速度传感器，陀螺仪传感器，磁传感器，压力传感器或温度传感器。

通信组件816被配置为便于电子设备800和其他设备之间有线或无线方式的通信。电子设备800可以接入基于通信标准的无线网络，如WiFi，运营商网络(如2G、3G、4G或5G)，或它们的组合。在一个示例性实施例中，通信组件816经由广播信道接收来自外部广播管理系统的广播信号或广播相关信息。在一个示例性实施例中，所述通信组件816还包括近场通信(NFC)模块，以促进短程通信。例如，在NFC模块可基于射频识别(RFID)技术，红外数据协会(IrDA)技术，超宽带(UWB)技术，蓝牙(BT)技术和其他技术来实现。

在示例性实施例中，电子设备800可以被一个或应用专用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理设备(DSPD)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、控制器、微控制器、微处理器或其他电子元件实现，用于执行任一实施例所述的模型训练方法。

在示例性实施例中，还提供了一种包括指令的计算机可读存储介质，例如包括指令的存储器804，上述指令可由电子设备800的处理器820执行以完成任一实施例所述的模型训练方法。例如，所述计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。

在示例性实施例中，还提供了一种计算机程序产品，该计算机程序产品包括可读性程序代码，该可读性程序代码可由装置800的处理器820执行以完成任一实施例所述的模型训练方法。可选地，该程序代码可以存储在装置800的存储介质中，计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。

图8是本公开示出的一种电子设备1900的框图。例如，电子设备1900可以被提供为一服务器。

参照图8，电子设备1900包括处理组件1922，其进一步包括一个或处理器，以及由存储器1932所代表的存储器资源，用于存储可由处理组件1922的执行的指令，例如应用程序。存储器1932中存储的应用程序可以包括一个或一个以上的每一个对应于一组指令的模块。此外，处理组件1922被配置为执行指令，以执行任一实施例所述的模型训练方法。

电子设备1900还可以包括一个电源组件1926被配置为执行电子设备1900的电源管理，一个有线或无线网络接口1950被配置为将电子设备1900连接到网络，和一个输入输出(I/O)接口1958。电子设备1900可以操作基于存储在存储器1932的操作系统，例如WindowsServerTM，MacOSXTM，UnixTM,LinuxTM，FreeBSDTM或类似。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本公开的其它实施方案。本公开旨在涵盖本公开的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本公开的真正范围和精神由下面的权利要求指出。

应当理解的是，本公开并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。

Claims

1.一种模型训练方法，其特征在于，应用于训练网络中的第一训练节点，所述训练网络包括多个训练节点，所述第一训练节点为所述多个训练节点中的任意一个，所述方法包括：

2.根据权利要求1所述的模型训练方法，其特征在于，所述模型融合任务还包括：

3.根据权利要求1所述的模型训练方法，其特征在于，所述对所述第一训练节点的本地模型和所述第二训练节点的本地模型进行融合，获得所述融合模型的步骤，包括：

4.根据权利要求1所述的模型训练方法，其特征在于，执行所述模型融合任务的步骤，包括：

5.根据权利要求1所述的模型训练方法，其特征在于，所述训练样本集还包括与所述训练样本中的多媒体数据对应的标注数据，所述模型训练任务包括：

根据所述参数梯度更新所述第一训练节点的本地模型。

6.根据权利要求1所述的模型训练方法，其特征在于，所述并行执行模型训练任务和模型融合任务的步骤，包括：

7.一种模型训练装置，其特征在于，应用于训练网络中的第一训练节点，所述训练网络包括多个训练节点，所述第一训练节点为所述多个训练节点中的任意一个，所述装置包括：

8.一种电子设备，其特征在于，所述电子设备包括：

处理器；

用于存储所述处理器可执行指令的存储器；

其中，所述处理器被配置为执行所述指令，以实现如权利要求1至6中任一项所述的模型训练方法。

9.一种计算机可读存储介质，当所述计算机可读存储介质中的指令由电子设备的处理器执行时，使得所述电子设备能够执行如权利要求1至6中任一项所述的模型训练方法。

10.一种计算机程序产品，包括计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至6中任一项所述的模型训练方法。