CN110866602A

CN110866602A - 一种集成多任务模型的方法和装置

Info

Publication number: CN110866602A
Application number: CN201911168569.8A
Authority: CN
Inventors: 杨新星; 李龙飞; 周俊
Original assignee: Alipay Hangzhou Information Technology Co Ltd
Current assignee: Alipay Hangzhou Information Technology Co Ltd
Priority date: 2019-11-25
Filing date: 2019-11-25
Publication date: 2020-03-06

Abstract

本说明书实施例提供了一种集成多任务模型的方法和装置，所述多任务模型当前包括与n个子任务分别对应的n个子模型，所述方法包括：基于预设的m个子网络，获取多个候选模型，每个候选模型通过将所述m个子网络中的一个子网络添加到所述多任务模型的n个子模型中至少一个子模型中而获取，其中，所述m个子网络具有不同的网络结构；使用预先准备的多个训练样本分别训练多个候选模型；使用预先准备的多个评估样本分别评估多个经训练的候选模型和当前的多任务模型；基于对各个候选模型和当前多任务模型的评估，在多个候选模型中的至少一个候选模型优于当前的多任务模型的情况中，从多个候选模型中确定最优候选模型作为更新的多任务模型。

Description

一种集成多任务模型的方法和装置

技术领域

本说明书实施例涉及机器学习技术领域，更具体地，涉及一种集成多任务模型的方法和装置。

背景技术

随着人工智能应用场景的增多，越来越多的子任务出现，导致了多任务学习(MTL)模型的兴起。给定m个学习任务，其中所有或一部分任务是相关但并不完全一样的，多任务学习的目标是通过使用这m个任务中包含的知识来帮助提升各个任务的性能。但是随着数据越来越多，场景越来越复杂，深度学习模型中的网络结构和其中的网络参数也越来越多。这样使得现在大部分的算法工程师都在设计深度学习模型中的网络结构以及调试其中参数。尤其在多任务学习中，随着任务的增多，任务之间共性和个性的平衡性，导致了其模型的复杂度急剧增加。这样耗费了大量的人力和物力，带来较大的成本。

因此，需要一种更有效的集成多任务模型的方案。

发明内容

本说明书实施例旨在提供一种更有效的集成多任务模型的方案，以解决现有技术中的不足。

为实现上述目的，本说明书一个方面提供一种集成多任务模型的方法，所述多任务模型当前包括与n个子任务分别对应的n个子模型，所述方法包括：

基于预设的m个子网络，获取多个候选模型，每个候选模型通过将所述m个子网络中的一个子网络添加到所述多任务模型的n个子模型中至少一个子模型中而获取，其中，所述m个子网络具有不同的网络结构；

使用预先准备的多个训练样本分别训练所述多个候选模型，其中，每个训练样本包括样本特征、与n个子任务分别对应的n个标签值；

使用预先准备的多个评估样本分别评估所述多个经训练的候选模型和当前的多任务模型，其中，每个评估样本包括样本特征、与n个子任务分别对应的n个标签值；

基于对各个候选模型和当前多任务模型的评估，在所述多个候选模型中的至少一个候选模型优于所述当前的多任务模型的情况中，从所述多个候选模型中确定最优候选模型作为更新的多任务模型。

在一个实施例中，每个子网络具有其预定层数、每层的预定神经元数、以及预定的每层与上一层的连接方式。

在一个实施例中，所述多个候选模型包括m*(2ⁿ-1)个候选模型。

在一个实施例中，使用预先准备的多个评估样本分别评估所述多个经训练的候选模型和当前的多任务模型包括，基于以下任一评估指标评估所述多个经训练的候选模型和当前的多任务模型：模型预测损失、AUC、准确率、精确率、召回率。

在一个实施例中，使用预先准备的多个训练样本分别训练所述多个候选模型包括，基于第一损失函数，使用预先准备的多个训练样本分别训练所述多个候选模型，其中，对于每个候选模型，所述第一损失函数中包括该候选模型中包括的各个子模型的预测损失。

在一个实施例中，所述第一损失函数中还包括与该候选模型中包括的每个子模型相关的正则项。

在一个实施例中，所述n个子任务包括预测商品点击率的第一任务和预测商品转换率的第二任务。

在一个实施例中，在每个候选模型中，所述添加的子网络与其所属的子模型之间的连接关系为预定多个连接关系中的一种。

本说明书另一方面提供一种集成多任务模型的装置，所述多任务模型当前包括与n个子任务分别对应的n个子模型，所述装置包括：

获取单元，配置为，基于预设的m个子网络，获取多个候选模型，每个候选模型通过将所述m个子网络中的一个子网络添加到所述多任务模型的n个子模型中至少一个子模型中而获取，其中，所述m个子网络具有不同的网络结构；

训练单元，配置为，使用预先准备的多个训练样本分别训练所述多个候选模型，其中，每个训练样本包括样本特征、与n个子任务分别对应的n个标签值；

评估单元，配置为，使用预先准备的多个评估样本分别评估所述多个经训练的候选模型和当前的多任务模型，其中，每个评估样本包括样本特征、与n个子任务分别对应的n个标签值；

确定单元，配置为，基于对各个候选模型和当前多任务模型的评估，在所述多个候选模型中的至少一个候选模型优于所述当前的多任务模型的情况中，从所述多个候选模型中确定最优候选模型作为更新的多任务模型。

在一个实施例中，所述评估单元还配置为，基于以下任一评估指标评估所述多个经训练的候选模型和当前的多任务模型：模型预测损失、AUC、准确率、精确率、召回率。

在一个实施例中，所述训练单元还配置为，基于第一损失函数，使用预先准备的多个训练样本分别训练所述多个候选模型，其中，对于每个候选模型，所述第一损失函数中包括该候选模型中包括的各个子模型的预测损失。

本说明书另一方面提供一种计算机可读存储介质，其上存储有计算机程序，当所述计算机程序在计算机中执行时，令计算机执行上述任一项方法。

本说明书另一方面提供一种计算设备，包括存储器和处理器，其特征在于，所述存储器中存储有可执行代码，所述处理器执行所述可执行代码时，实现上述任一项方法。

本说明书实施例提出一种自动集成多任务深度神经网络的训练方法，通过将集成学习与多任务深度学习相结合，从大数据中充分挖掘出各个任务之间的共性和个性，将各个任务的模型结构自动生成，从而降低了人为设计深度神经网络的复杂性。实验表明，通过此方法生成的多任务深度神经网络集成模型的效果超出人为设计的网络结构的性能。

附图说明

通过结合附图描述本说明书实施例，可以使得本说明书实施例更加清楚：

图1示出根据本说明书实施例的集成多任务模型的场景示意图；

图2示出根据本说明书实施例的一种集成多任务模型的方法流程图；

图3示意示出了基于子网络1获取的3个候选模型；

图4示出根据本说明书一个实施例的一种集成多任务模型的装置400。

具体实施方式

下面将结合附图描述本说明书实施例。

图1示出根据本说明书实施例的集成多任务模型的场景示意图。如图1中所示，多任务模型P中包括与多个任务分别对应的多个子模型，在图1中，示意示出了两个子模型，点击率(CTR)模型和转化率(CVR)模型。为了集成该多任务模型，需要预先准备好多个子网络，每个子网络具有不同的网络结构。图中示意示出了预先准备的三个子网络，以①标识的子网络1、以②标识的子网络2、和以③标识的子网络3，如图中所示，其中，子网络1具有两层(图中以纵向的两个神经元为一层)，每层包括两个神经元，子网络2包括三层，每层的神经元数为2个，子网络3包括三层，每层的神经元数为3个。可以理解，图中对子网络的结构仅仅是示意示出，在实际中，所述子网络通常包括更复杂的结构，例如，每层具有更多的神经元。另外，为了集成该多任务模型，还需要准备图中所示的训练样本集S₁和评估样本集S₂。

在初始，所述多任务模型P可以为空模型，可通过多次迭代来在其两个子模型的至少一个中添加所述任一子网络，从而集成该多任务模型。具体是，在其中一次迭代中，对于每个子网络，通过将该子网络添加到当前多任务模型的2个子模型中的至少一个子模型中，从而可获取3种候选模型，也就是说，通过三个子网络，共获取9种候选模型。通过训练样本集S₁分别训练这9种候选模型，并通过评估样本集S₂对经过训练的9种候选模型分别进行评估，在任一候选模型的评估效果优于当前的多任务模型P的情况中，从而选出最优的候选模型作为更新的多任务模型。在迭代次数未达到预定次数的情况中，则进入下一次迭代，以继续进行对该多任务模型P的集成。如图1中所示，在经过初始的两次迭代之后，所述两个子模型中分别包括了一个子网络，即，在转化率模型中包括了子网络1，在点击率模型中包括了子网络2。

可以理解，上述参考图1的描述仅仅为示意性的，而不是限定性的，下面将详细描述上述集成多任务模型的过程。

图2示出根据本说明书实施例的一种集成多任务模型的方法流程图，所述多任务模型当前包括与n个子任务分别对应的n个子模型，所述方法包括：

步骤S202，基于预设的m个子网络，获取多个候选模型，每个候选模型通过将所述m个子网络中的一个子网络添加到所述多任务模型的n个子模型中至少一个子模型中而获取，其中，所述m个子网络具有不同的网络结构；

步骤S204，使用预先准备的多个训练样本分别训练所述多个候选模型，其中，每个训练样本包括样本特征、与n个子任务分别对应的n个标签值；

步骤S206，使用预先准备的多个评估样本分别评估所述多个经训练的候选模型和当前的多任务模型，其中，每个评估样本包括样本特征、与n个子任务分别对应的n个标签值；

步骤S208，基于对各个候选模型和当前多任务模型的评估，在所述多个候选模型中的至少一个候选模型优于所述当前的多任务模型的情况中，从所述多个候选模型中确定最优候选模型作为更新的多任务模型。

首先，在步骤S202，基于预设的m个子网络，获取多个候选模型，每个候选模型通过将所述m个子网络中的一个子网络添加到所述多任务模型的n个子模型中至少一个子模型中而获取，其中，所述m个子网络具有不同的网络结构。

所述m个子网络可基于技术人员的经验预先准备。所述子网络的网络结构基于以下因素确定：网络层数、每层中的神经元数、以及每层与上一层的连接方式。也就是说，该m个子网络中相互之间必须有至少一个上述因素是不同的。参考图1，图1中示意示出了3个子网络，这3个子网络具有不同的网络结构。其中，子网络1具有两层，每层包括2个神经元，并且第2层与第一层的连接方式为全连接的方式，子网络2具有三层，每层包括2个神经元，并且第2层、第3层与其上一层的连接方式都为全连接的方式，子网络3具有三层，每层包括3个神经元，并且第2层、第3层与其上一层的连接方式都是全连接的方式，从而，子网络1、2、3各自的网络结构是相互不同的。可以理解，这里示意示出了子网络1、2、3的层连接方式都是全连接的方式，在实际中不限于此，例如，层连接方式还可以为卷积连接、延时连接等各种连接方式。

对于预设的m个子网络中的每个子网络，可以将该子网络添加到当前集成模型P中的n个子模型中的至少一个子模型中，从而可获取候选模型Q_i。假设，在将该子网络添加到当前模型P的一个子模型中时，对该子网络与所述子模型之间的连接方式只限定为一种连接方式，例如将该子网络与该子模型进行全连接，从而，对于每个子网络，存在2ⁿ-1种组合的添加方式，因此，可以至多获取2ⁿ-1个候选模型Q_i。可以理解，如果对该子网络与所述子模型的连接方式不限定为一种连接方式，而是可以为预定多种连接方式中的一种，则将存在更多组合的添加方式。

图3示意示出了基于子网络1获取的3个候选模型。如图3中所示，基于图1中当前的包括2个子模型的多任务模型P，将子网络1添加到其中至少一个子模型中共包括3(即2²-1＝3)种添加方式，即，在图3中以Q₁示出的第一种方式中，将子网络1添加到当前CVR子模型中，在图3中以Q₂示出的第二种方式中，将子网络1添加到当前的CTR子模型中，以及，在图3中以Q₃示出的第三种方式中，将子网络1同时添加到当前模型P的CVR子模型和CTR子模型中，从而可获取图3中的三个候选模型Q₁、Q₂和Q₃。对于图1中的子网络2和子网络3，可分别通过该方式获取与其对应的三个候选模型，从而，可至多获取9个候选模型。这里也假设，在将子网络添加到P模型中的一个子模型中之后，将子网络与所述子模型的连接方式只限于一种连接方式，例如全连接方式。

可以理解，在该步骤中，获取多个候选模型不限于获取全部2ⁿ-1个候选模型，而是也可以获取2ⁿ-1个候选模型中的部分候选模型，或者可如上文所述，基于添加的子网络与模型P的子模型之间的多种连接方式，可获取更多个候选模型，本说明书实施例对此不作限定。

在步骤S204，使用预先准备的多个训练样本分别训练所述多个候选模型，其中，每个训练样本包括样本特征、与n个子任务分别对应的n个标签值。

例如，对于上述包括CVR子模型和CTR子模型的候选模型，所述多个训练样本中的第k个训练样本可具有如下数据(x_k,y_k1,y_k2)，其中，x_k为样本的特征数据，y_k1为CVR子模型的标签值，y_k2为CTR子模型的标签值。通过使用该训练数据训练两个子模型，从而可学习各个子任务之间的联系和区别。例如，用户在购买商品的情况下，必定点击了该商品，即，如果y_k1＝1，则可得y_k2＝1，然而，用户在点击了该商品的情况下，不一定购买该商品，即，如果y_k2＝1，则有可能y_k1＝0，通过以该训练数据训练CVR子模型和CTR子模型，则可使得两个子模型体现该关联性和不同。

基于上述多个(例如K个)训练样本，假设候选模型中的CVR子模型由F₁(x)表示，CTR子模型由F₂(x)表示，可基于如公式(1)所示的损失函数通过例如梯度下降法等优化算法进行对每个候选模型的训练：

其中，θ为F₁(x)中的参数，β为F₂(x)中的参数，R(θ，β)为正则项，用于控制模型的大小，避免模型过于复杂导致过拟合。[L₁(F₁(x_k，θ)，y_k1)表示候选模型中的CVR子模型的损失函数，L₂(F₂(x_k，β)，y_k2)]表示候选模型中的CTR子模型的损失函数。其中，参考图2，例如，对于其中的候选模型Q₁，F₁(x)＝f₁(f₁(x))，F₂(x)＝f₂(x)，其中，假设f₁(x)表示子网络1，f₂(x)表示子网络2，对于其中的候选模型Q₂，F₁(x)＝f₁(x)，F₂(x)＝f₁(f₂(x))。各个子网络的初始参数例如可随机确定。

在步骤S206，使用预先准备的多个评估样本分别评估所述多个经训练的候选模型和当前的多任务模型，其中，每个评估样本包括样本特征、与n个子任务分别对应的n个标签值。

所述评估样本与所述训练样本的构成相同，即，包括样本的特征数据和各个子任务的标签值，通常，可同时准备训练样本和评估样本。

在训练好所述多个(例如，2ⁿ-1)候选模型Q_i之后，可使用多个评估样本对所述训练的候选模型Q_i和当前的多任务模型P进行评估。可基于多种评估指标进行评估，例如，如公式(1)所示的模型预测损失、AUC、准确率、精确率、召回率等等，在此不作限定。

在步骤S208，基于对各个候选模型和当前多任务模型的评估，在所述多个候选模型中的至少一个候选模型优于所述当前的多任务模型的情况中，从所述多个候选模型中确定最优候选模型作为更新的多任务模型。

基于上述对各个模型的评估，如果至少一个候选模型Q_i优于当前的多任务模型P，则说明该多任务模型P还可以进一步优化。在该情况中，基于对各个候选模型的评估值，选择评估效果最好的候选模型作为更新的多任务模型，并进入对该方法的下一次迭代。例如，对于图3中所示的三个候选模型Q₁、Q₂和Q₃，如果基于对Q₁、Q₂和Q₃的评估结果，可确定至少Q₂模型优于当前的多任务模型P，并且Q₂模型在Q₁、Q₂和Q₃中是最优的，则可将当前的多任务模型P更新为Q₂。

如果基于上述评估没有一个候选模型由于当前的多任务模型P，则说明该多任务模型P已经不能得到进一步的优化，因此，可结束对该方法的迭代。

在一个实施例中，可设定最大迭代次数，从而，在执行该方法之后，可判断迭代次数是否到达最大迭代次数，如果未到达该最大迭代次数，则对该最大迭代次数加1，并进入下一次迭代。

图4示出根据本说明书一个实施例的一种集成多任务模型的装置400，所述多任务模型当前包括与n个子任务分别对应的n个子模型，所述装置包括：

获取单元41，配置为，基于预设的m个子网络，获取多个候选模型，每个候选模型通过将所述m个子网络中的一个子网络添加到所述多任务模型的n个子模型中至少一个子模型中而获取，其中，所述m个子网络具有不同的网络结构；

训练单元42，配置为，使用预先准备的多个训练样本分别训练所述多个候选模型，其中，每个训练样本包括样本特征、与n个子任务分别对应的n个标签值；

评估单元43，配置为，使用预先准备的多个评估样本分别评估所述多个经训练的候选模型和当前的多任务模型，其中，每个评估样本包括样本特征、与n个子任务分别对应的n个标签值；

确定单元44，配置为，基于对各个候选模型和当前多任务模型的评估，在所述多个候选模型中的至少一个候选模型优于所述当前的多任务模型的情况中，从所述多个候选模型中确定最优候选模型作为更新的多任务模型。

在一个实施例中，所述评估单元43还配置为，基于以下任一评估指标评估所述多个经训练的候选模型和当前的多任务模型：模型预测损失、AUC、准确率、精确率、召回率。

在一个实施例中，所述训练单元42还配置为，基于第一损失函数，使用预先准备的多个训练样本分别训练所述多个候选模型，其中，对于每个候选模型，所述第一损失函数中包括该候选模型中包括的各个子模型的预测损失。

需要理解，本文中的“第一”，“第二”等描述，仅仅为了描述的简单而对相似概念进行区分，并不具有其他限定作用。

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于系统实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下，在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外，在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中，多任务处理和并行处理也是可以的或者可能是有利的。

本领域普通技术人员应该还可以进一步意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执轨道，取决于技术方案的特定应用和设计约束条件。本领域普通技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

结合本文中所公开的实施例描述的方法或算法的步骤可以用硬件、处理器执轨道的软件模块，或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。

以上所述的具体实施方式，对本发明的目的、技术方案和有益效果进行了进一步详细说明，所应理解的是，以上所述仅为本发明的具体实施方式而已，并不用于限定本发明的保护范围，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种集成多任务模型的方法，所述多任务模型当前包括与n个子任务分别对应的n个子模型，所述方法包括：

2.根据权利要求1所述的方法，其中，每个子网络具有其预定层数、每层的预定神经元数、以及预定的每层与上一层的连接方式。

3.根据权利要求1所述的方法，其中，所述多个候选模型包括m*(2ⁿ-1)个候选模型。

4.根据权利要求1所述的方法，其中，使用预先准备的多个评估样本分别评估所述多个经训练的候选模型和当前的多任务模型包括，基于以下任一评估指标评估所述多个经训练的候选模型和当前的多任务模型：模型预测损失、AUC、准确率、精确率、召回率。

5.根据权利要求1所述的方法，其中，使用预先准备的多个训练样本分别训练所述多个候选模型包括，基于第一损失函数，使用预先准备的多个训练样本分别训练所述多个候选模型，其中，对于每个候选模型，所述第一损失函数中包括该候选模型中包括的各个子模型的预测损失。

6.根据权利要求5所述的方法，其中，所述第一损失函数中还包括与该候选模型中包括的每个子模型相关的正则项。

7.根据权利要求1所述的方法，其中，所述n个子任务包括预测商品点击率的第一任务和预测商品转换率的第二任务。

8.根据权利要求1所述的方法，其中，在每个候选模型中，所述添加的子网络与其所属的子模型之间的连接关系为预定多个连接关系中的一种。

9.一种集成多任务模型的装置，所述多任务模型当前包括与n个子任务分别对应的n个子模型，所述装置包括：

10.根据权利要求9所述的装置，其中，每个子网络具有其预定层数、每层的预定神经元数、以及预定的每层与上一层的连接方式。

11.根据权利要求9所述的装置，其中，所述多个候选模型包括m*(2ⁿ-1)个候选模型。

12.根据权利要求9所述的装置，其中，所述评估单元还配置为，基于以下任一评估指标评估所述多个经训练的候选模型和当前的多任务模型：模型预测损失、AUC、准确率、精确率、召回率。

13.根据权利要求9所述的装置，其中，所述训练单元还配置为，基于第一损失函数，使用预先准备的多个训练样本分别训练所述多个候选模型，其中，对于每个候选模型，所述第一损失函数中包括该候选模型中包括的各个子模型的预测损失。

14.根据权利要求13所述的装置，其中，所述第一损失函数中还包括与该候选模型中包括的每个子模型相关的正则项。

15.根据权利要求9所述的装置，其中，所述n个子任务包括预测商品点击率的第一任务和预测商品转换率的第二任务。

16.根据权利要求9所述的装置，其中，在每个候选模型中，所述添加的子网络与其所属的子模型之间的连接关系为预定多个连接关系中的一种。

17.一种计算机可读存储介质，其上存储有计算机程序，当所述计算机程序在计算机中执行时，令计算机执行权利要求1-8中任一项的所述的方法。

18.一种计算设备，包括存储器和处理器，其特征在于，所述存储器中存储有可执行代码，所述处理器执行所述可执行代码时，实现权利要求1-8中任一项所述的方法。