CN114461911A

CN114461911A - 多任务模型训练方法、推广内容处理方法及相关装置

Info

Publication number: CN114461911A
Application number: CN202210121306.7A
Authority: CN
Inventors: 吴寅初; 佘琪; 赵修影
Original assignee: Beijing Youzhuju Network Technology Co Ltd
Current assignee: Beijing Youzhuju Network Technology Co Ltd
Priority date: 2022-02-09
Filing date: 2022-02-09
Publication date: 2022-05-10

Abstract

本公开提供了一种多任务模型训练方法、推广内容处理方法及相关装置，该多任务模型包括辅助网络、核心网络和前看梯度网络，该方法包括：获取样本特征向量，样本特征向量用于表征用户对推广内容的行为；将样本特征向量输入到辅助独占网络，得到辅助特征向量；将辅助特征向量输入到前看梯度网络得到梯度特征向量，梯度特征向量表征辅助特征向量对于核心网络的优化目标的贡献度；将梯度特征向量与辅助特征向量进行融合后，输入辅助输出网络，得到辅助输出网络的输出；根据辅助输出网络的输出以及辅助网络的优化目标和核心网络的优化目标更新辅助网络的权重，直至辅助网络满足第一训练停止条件。能够使多任务模型中的辅助任务有偏向性地优化核心任务。

Description

多任务模型训练方法、推广内容处理方法及相关装置

技术领域

本公开涉及人工智能技术领域，尤其涉及多任务模型训练方法、推广内容处理方法及相关装置。

背景技术

随着计算机技术尤其是人工智能技术的发展，人工智能技术的应用场景越来越广泛。例如，在推广内容(例如广告)推送的场景中，可以基于人工智能技术预测推广内容的转化率，进而基于该转化率向用户推送该推广内容。

为了提高模型的泛化能力，提高预测的转化率的准确性，通常采用多任务学习(muti task learning，MTL)的方式构建多任务模型。目前，基于人工主观经验选择多个任务(推广内容的转化率、观看推广内容的时长)，进行多任务学习，以提高多任务模型的学习效率以及泛化能力。

然而，对于推广内容而言，多任务模型通常会优化一个核心任务，例如优化预测转化率这一核心任务，如何在多任务场景下，使多任务模型中的辅助任务有偏向性地优化核心任务，是业界亟需解决的技术问题。

发明内容

本公开的目的在于：提供了多任务模型训练方法、推广内容处理方法、相关装置、电子设备、计算机可读存储介质以及计算机程序产品，能够在多任务场景下，使多任务模型中的辅助任务有偏向性地优化核心任务，满足业务需求。

第一方面，本公开提供了一种多任务模型训练方法，所述多任务模型包括辅助网络、核心网络和前看梯度网络，所述辅助网络包括辅助独占网络和辅助输出网络；所述方法包括：

获取样本特征向量，所述样本特征向量用于表征用户对推广内容的行为；

将所述样本特征向量输入到辅助独占网络，得到辅助特征向量；

将所述辅助特征向量输入到所述前看梯度网络得到梯度特征向量，所述梯度特征向量表征所述辅助特征向量对于所述核心网络的优化目标的贡献度；

将所述梯度特征向量与所述辅助特征向量进行融合后，输入所述辅助输出网络，得到所述辅助输出网络的输出；

根据所述辅助输出网络的输出以及所述辅助网络的优化目标和所述核心网络的优化目标更新所述辅助网络的权重，直至所述辅助网络满足第一训练停止条件。

第二方面，本公开提供了一种推广内容处理方法，包括：

获取用于表征用户对推广内容的行为的用户特征向量；

根据所述用户特征向量和多任务模型，获得所述多任务模型的推理结果；所述多任务模型通过上述第一方面中所述的方法得到；

根据所述推理结果，调整对所述推广内容的推广策略。

第三方面，本公开提供了一种多任务模型训练装置，所述多任务模型包括辅助网络、核心网络和前看梯度网络，所述辅助网络包括辅助独占网络和辅助输出网络；所述装置包括：

样本获取模块，用于获取样本特征向量，所述样本特征向量用于表征用户对推广内容的行为；

向量处理模块，用于将所述样本特征向量输入到辅助独占网络，得到辅助特征向量；将所述辅助特征向量输入到所述前看梯度网络得到梯度特征向量，所述梯度特征向量表征所述辅助特征向量对于所述核心网络的优化目标的贡献度；将所述梯度特征向量与所述辅助特征向量进行融合后，输入所述辅助输出网络，得到所述辅助输出网络的输出；

模型训练模块，用于根据所述辅助输出网络的输出以及所述辅助网络的优化目标和所述核心网络的优化目标更新所述辅助网络的权重，直至所述辅助网络满足第一训练停止条件。

第四方面，本公开提供了一种推广内容处理装置，包括：

获取模块，用于获取用于表征用户对推广内容的行为的用户特征向量；

推理模块，用于根据所述用户特征向量和多任务模型，获得所述多任务模型的推理结果；所述多任务模型通过上述第一方面中所述的方法得到；

处理模块，用于根据所述推理结果，调整对所述推广内容的推广策略。

第五方面，本公开提供一种计算机可读介质，其上存储有计算机程序，该程序被处理装置执行时实现本公开第一方面或第二方面中任一项所述方法的步骤。

第六方面，本公开提供一种电子设备，包括：

存储装置，其上存储有计算机程序；

处理装置，用于执行所述存储装置中的所述计算机程序，以实现本公开第一方面或第二方面中任一项所述方法的步骤。

第七方面，本公开提供了一种包含指令的计算机程序产品，当其在设备上运行时，使得设备执行上述第一方面或第二方面的任一种实现方式所述的方法。

从以上技术方案可以看出，本公开具有如下优点：

本公开提供了一种多任务模型训练方法，该多任务模型包括辅助网络、核心网络和前看梯度网络，该辅助网络包括辅助独占网络和辅助输出网络，该方法包括：先获取样本特征向量，该样本特征向量用于表征用户对推广内容的行为；然后将样本特征向量输入到辅助独占网络，得到辅助特征向量，将该辅助特征向量输入到前看梯度网络，得到梯度特征向量，该梯度特征向量表征辅助特征向量对于核心网络的优化目标的贡献度；接着将该梯度特征向量与辅助特征向量进行融合后，输入到辅助输出网络。由于辅助输出网络的输入包括了对于核心网络的优化目标的贡献度，因此辅助网络也能够优化核心网络的优化目标，从而使得该辅助网络能够有偏向性地优化核心任务的核心目标。最后，根据辅助输出网络的输出以及辅助网络的优化目标和核心网络的优化目标更新该辅助网络的权重，如辅助输出网络的输出满足辅助网络的优化目标和和核心网络的优化目标中的任一个时，即认为该样本特征向量为正样本对应的特征向量，从而能够进一步使得辅助网络有偏向性地优化核心网络的优化目标，满足业务需求。

本公开的其他特征和优点将在随后的具体实施方式部分予以详细说明。

附图说明

为了更清楚地说明本公开实施例的技术方法，下面将对实施例中所需使用的附图作以简单地介绍。

图1为本公开实施例提供的一种多任务模型训练方法的流程图；

图2为本公开实施例提供的一种多任务模型的示意图；

图3为本公开实施例提供的一种推广内容处理方法的流程图；

图4为本公开实施例提供的一种多任务模型训练装置的示意图；

图5为本公开实施例提供的一种推广内容处理装置的示意图；

图6为本公开实施例提供的一种电子设备的结构示意图。

具体实施方式

本公开实施例中的术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个该特征。

首先对本公开实施例中所涉及到的一些技术术语进行介绍。

多任务模型指基于多任务学习的方式构建的模型。多任务学习的核心在于：多个任务并行训练，并且互相共享已学到的特征。在推广内容推送场景中，通常也需要对多项内容进行预测，每一项内容可以抽象为一个任务，例如预测转化率、预测潜在用户、预测用户是否点击推广内容等。基于此，可以基于多任务学习的方式，构建多任务模型，以对多项内容进行预测。

推广内容是指用于宣传被推广的对象的内容，例如推广内容可以是广告等。一般的，可以预先训练人工智能模型，来预测用户被推广内容转化的转化率，进而基于该转化率，对推广内容进行后续处理。例如当转化率较高时，可以增加向该用户推送该推广内容的次数，当转化率较低时，可以减少向该用户推送该推广内容的次数等。如此，能够减少推广内容的无效投放，减少资源(例如计算资源、存储资源)浪费。

对于推广内容而言，多任务模型通常仅需要优化预测转化率这一核心任务，例如可以是核心网络的优化目标。如何在多任务场景下，使多任务模型中的辅助任务有偏向性地优化核心任务，是业界亟需解决的技术问题。

有鉴于此，本公开实施例提供了一种多任务模型训练方法，该方法可以由电子设备执行。电子设备可以是服务器。服务器可以是云服务器，例如是中心云计算集群中的中心服务器，或者是边缘云计算集群中的边缘服务器。当然，服务器也可以是本地数据中心中的服务器。本地数据中心是指用户直接控制的数据中心。

该多任务模型包括辅助网络、核心网络和前看梯度网络，辅助网络包括辅助独占网络和辅助输出网络，该方法包括获取样本特征向量，该样本特征向量用于表征用户对推广内容的行为；将样本特征向量输入到前看梯度网络，得到梯度特征向量，该梯度特征向量表征辅助特征向量对于核心网络的优化目标的贡献度；接着将该梯度特征向量与辅助特征向量进行融合后，输入到辅助输出网络。由于辅助输出网络的输入包括了对于核心网络的优化目标的贡献度，因此辅助网络也能够优化核心网络的优化目标，从而使得该辅助网络能够有偏向性地优化核心任务的核心目标。最后，根据辅助输出网络的输出以及辅助网络的优化目标和核心网络的优化目标更新该辅助网络的权重，如辅助输出网络的输出满足辅助网络的优化目标和和核心网络的优化目标中的任一个时，即认为该样本特征向量为正样本对应的特征向量，从而能够进一步使得辅助网络有偏向性地优化核心网络的优化目标，满足业务需求。

利用本公开实施例提供的多任务模型训练方法得到的多任务模型可以应用于多种场景。例如，推广内容推送场景中，多任务模型可以用于预测推广内容的转化率、推广内容的播放时长(推广内容开始播放起直至用户关闭该推广内容所经过的时长)。电子设备可以将用于表征用户对推广内容的行为的用户特征向量，输入到多任务模型，进而得到上述推理结果。接着电子设备可以基于推理结果，调整该推广内容的推广策略。例如推广内容的转化率大于或等于转化率阈值时，且推广内容的播放时长大于或等于时长阈值时，提高该推广内容的推广次数；推广内容的转化率小于转化率阈值时，且推广内容的播放时长小于时长阈值时，降低该推广内容的推广次数等。

为了使得本公开的技术方案更加清楚、易于理解，下面以电子设备的角度，对本公开实施例提供的多任务模型训练方法进行介绍。如图1所示，该图为本公开实施例提供的一种多任务模型训练方法的流程图，该方法包括：

S101、电子设备获取样本特征向量。

该样本特征向量用于表征用户对推广内容的行为，例如用户在历史时段对推广内容的行为。用户对推广内容的行为可以包括用户对推广内容进行观看的时长、用户是否对推广内容进行点击操作、用户所点击的推广内容的呈现类型(例如视频类型、图片类型等)、用户是否被推广内容转化等等。

需要说明的是，电子设备需要提前获取用户的授权，在获取到用户对相应数据(如上述用户对推广内容的行为)的授权使用后，电子设备才能获取到用户对推广内容的行为等数据。

S102、电子设备将样本特征向量输入到辅助独占网络，得到辅助特征向量。

为了便于理解，图2提供了一种多任务模型的示意图，该多任务模型200包括：共享网络210、辅助网络(包括辅助独占网络220和辅助输出网络230)、前看梯度网络240、核心网络(包括核心独占网络250和核心输出网络260)。

需要说明的是，上述共享网络210可以是深度神经网络、卷积神经网络或自注意力网络等；上述辅助独占网络220可以深度神经网络、卷积神经网络或自注意力网络等；上述核心独占网络250可以是深度神经网络、卷积神经网络或自注意力网络等。

在一些示例中，电子设备可以将样本特征向量输入到共享网络210，得到共享网络210输出的共享特征向量，然后，再将共享特征向量输入到辅助独占网络220后，得到辅助特征向量。

S103、电子设备将辅助特征向量输入到前看梯度网络，得到梯度特征向量。

该梯度特征向量表征辅助特征向量对于核心网络的优化目标的贡献度，也就是说，通过该梯度特征向量，能够得知该辅助特征向量中的哪一维向量，对于核心网络的优化目标的贡献度较大，辅助特征向量中的哪一维向量，对于核心网络的优化目标的贡献度较小。从而能够使得辅助网络偏向于对贡献度较大的向量进行注意力学习，进而实现有偏向性地优化核心网络的优化目标。

在一些示例中，该前看梯度网络基于核心网络的优化目标进行更新，例如，前看梯度网络的权重可以是仅基于核心网络的优化目标进行更新。在一些实施例中，可以基于核心网络的优化目标以及该前看梯度网络的输出和前看梯度网络的目标函数，计算该前看梯度网络的前看损失值，接着利用该前看损失值对前看梯度网络的权重进行更新。其中，可以根据前看损失值计算辅助独占网络输入到前看梯度网络的特征的梯度，作为前看梯度网络的监督信号，对前看梯度网络输出的梯度特征向量进行均方误差监督。

S104、电子设备将梯度特征向量与辅助特征向量进行融合后，输入辅助输出网络，得到辅助输出网络的输出。

电子设备将辅助特征向量输入到前看梯度网络240，得到梯度特征向量后，可以将该梯度特征向量与辅助特征向量进行融合，得到融合特征向量。作为一种示例，电子设备可以将梯度特征向量与辅助特征向量中的每一维向量进行对应相加，进而的得到融合特征向量。如此该融合特征向量也能够携带有对于核心网络的优化目标的贡献度的信息，从而使得该辅助网络有偏向地优化核心网络的优化目标。

S105、电子设备根据辅助输出网络的输出以及辅助网络的优化目标和核心网络的优化目标更新辅助网络的权重，直至辅助网络满足第一训练停止条件。

作为一种示例，辅助网络的优化目标可以是用户对推广内容的观看时长，核心网络的优化目标可以是用户被推广内容转化的转化率。

需要说明的是，辅助网络的个数并不仅仅局限于一个，也可以是多个，进一步的，每个辅助网络的优化目标可以不同。例如其他的辅助网络的优化目标可以是用户对推广内容的转发、点赞、评论等。

在一些示例中，辅助输出网络的输出满足辅助网络的优化目标或所述核心网络的优化目标时，样本特征向量为正样本对应的特征向量；辅助输出网络的输出不满足辅助网络的优化目标以及核心网络的优化目标时，样本特征向量为负样本对应的特征向量。也就是说，只要样本特征向量满足辅助网络的优化目标和核心网络的优化目标中的任一个时，即认为是正样本。不仅能够平衡正负样本的数量，而且还能够进一步促使辅助网络有偏向地的优化核心任务(即核心网络的优化目标)。

在一些实施例中，电子设备在得到辅助输出网络的输出后，可以根据该辅助输出网络的输出以及样本特征向量的标签值和辅助网络的目标函数确定第一损失值，接着根据该第一损失值更新辅助网络的权重，直至辅助网络满足第一训练停止条件。

需要说明的是，本公开实施例不具体限定第一训练停止条件，本领域技术人员可以根据实际需要设定第一训练停止条件。例如第一训练停止条件可以是辅助网络预测的准确率大于预设准确率等。

S106、电子设备将样本特征向量输入到核心独占网络，得到核心特征向量。

类似的，电子设备可以将样本特征向量输入到共享网络210，得到共享网络210输出的共享特征向量，然后，电子设备可以将共享特征向量输入到核心独占网络250，得到核心特征向量。

S107、电子设备将核心特征向量输入到核心输出网络，得到核心输出网络的输出。

S108、电子设备根据核心输出网络的输出以及核心网络的优化目标，更新核心网络的权重，直至核心网络满足第二训练停止条件。

在一些实施例中，电子设备在得到核心输出网络的输出后，可以根据该核心输出网络的输出以及样本特征向量的标签值和核心网络的目标函数确定第二损失值，接着根据该第二损失值更新核心网络的权重，直至核心网络满足第二训练停止条件。

需要说明的是，本公开实施例不具体限定第二训练停止条件，本领域技术人员可以根据实际需要设定第二训练停止条件。例如第二训练停止条件可以是核心网络预测的准确率大于预设准确率等。

本公开实施例不限定上述S102-S105以及S106-S108执行的先后顺序，在另一些实施例中，电子设备也可以先执行S106-S108，再执行S102-S105；也可以并行执行S102-S105以及S106-S108。

基于上述内容描述，本公开提供了一种多任务模型训练方法，该方法包括：先获取样本特征向量，该样本特征向量用于表征用户对推广内容的行为；然后将样本特征向量输入到辅助独占网络，得到辅助特征向量，将该辅助特征向量输入到前看梯度网络，得到梯度特征向量，该梯度特征向量表征辅助特征向量对于核心网络的优化目标的贡献度；接着将该梯度特征向量与辅助特征向量进行融合后，输入到辅助输出网络。由于辅助输出网络的输入包括了对于核心网络的优化目标的贡献度，因此辅助网络也能够优化核心网络的优化目标，从而使得该辅助网络能够有偏向性地优化核心任务的核心目标。最后，根据辅助输出网络的输出以及辅助网络的优化目标和核心网络的优化目标更新该辅助网络的权重，如辅助输出网络的输出满足辅助网络的优化目标和和核心网络的优化目标中的任一个时，即认为该样本特征向量为正样本对应的特征向量，从而能够进一步使得辅助网络有偏向性地优化核心网络的优化目标，满足业务需求。

本公开实施例还提供了一种推广内容处理方法，参见图3，该图为本公开实施例提供的一种推广内容处理方法的流程图，该方法包括：

S301、电子设备获取用于表征用户对推广内容的行为的用户特征向量。

用户特征向量与上述样本特征向量类似，不同之处在于，用户特征向量为本次预测所使用的数据，而样本特征向量为训练阶段所使用的数据。需要说明的是，电子设备需要提前获取用户的授权，在获取到用户对相应数据(如上述用户对推广内容的行为)的授权使用后，电子设备才能获取到用户对推广内容的行为等数据。

S302、电子设备根据用户特征向量和多任务模型，获得多任务模型的推理结果。

该多任务模型可以通过上述多任务模型训练方法得到，此处不再赘述。

S303、电子设备根据该推理结果，调整对推广内容的推广策略。

在一些示例中，当推理结果表明推广内容的转化率大于转化率阈值，且推广内容的播放时长大于时长阈值时，电子设备提高该推广内容的推广次数；当推广内容的转化率小于转化率阈值时，且推广内容的播放时长小于时长阈值时，电子设备降低该推广内容的推广次数。在另一些示例中，推广内容的呈现类型为预设类型(例如视频类型)，且推广内容中推广对象的信息为预设信息(例如指示该推广对象为游戏、虚拟物品或实物)时，电子设备提高该推广内容的推广次数。如此，减少推广内容的无效投放，减少资源浪费。

本公开实施例还提供了一种多任务模型训练装置，该多任务模型包括辅助网络、核心网络和前看梯度网络，所述辅助网络包括辅助独占网络和辅助输出网络。如图4所示，该多任务模型训练装置400包括：

样本获取模块401，用于获取样本特征向量，所述样本特征向量用于表征用户对推广内容的行为；

向量处理模块402，用于将所述样本特征向量输入到辅助独占网络，得到辅助特征向量；将所述辅助特征向量输入到所述前看梯度网络得到梯度特征向量，所述梯度特征向量表征所述辅助特征向量对于所述核心网络的优化目标的贡献度；将所述梯度特征向量与所述辅助特征向量进行融合后，输入所述辅助输出网络，得到所述辅助输出网络的输出；

模型训练模块403，用于根据所述辅助输出网络的输出以及所述辅助网络的优化目标和所述核心网络的优化目标更新所述辅助网络的权重，直至所述辅助网络满足第一训练停止条件。

可选的，所述前看梯度网络基于所述核心网络的优化目标进行更新。

可选的，所述核心网络包括核心独占网络和核心输出网络；所述向量处理模块402，还用于将所述样本特征向量输入到所述核心独占网络，得到核心特征向量；将所述核心特征向量输入到所述核心输出网络，得到所述核心输出网络的输出；所述模型训练模块403，还用于根据所述核心输出网络的输出以及所述核心网络的优化目标，更新所述核心网络的权重，直至所述核心网络满足第二训练停止条件。

可选的，所述向量处理模块402，还用于将所述样本特征向量输入到共享网络，获得共享特征向量；所述向量处理模块402，具体用于将所述共享特征向量输入到辅助独占网络，得到辅助特征向量，以及将所述共享特征向量输入到所述核心独占网络，得到核心特征向量。

可选的，所述辅助输出网络的输出满足所述辅助网络的优化目标或所述核心网络的优化目标时，所述样本特征向量为正样本对应的特征向量；所述辅助输出网络的输出不满足所述辅助网络的优化目标以及所述核心网络的优化目标时，所述样本特征向量为负样本对应的特征向量。

本公开实施例还提供了一种推广内容处理装置，如图5，该推广内容处理装置500包括：

获取模块501，用于获取用于表征用户对推广内容的行为的用户特征向量。

推理模块502，用于根据所述用户特征向量和多任务模型，获得所述多任务模型的推理结果；所述多任务模型通过上述多任务模型训练方法得到。

处理模块503，用于根据所述推理结果，调整对所述推广内容的推广策略。

上述各模块的功能在上一实施例中的方法步骤中已详细阐述，在此不做赘述。

下面参考图6，其示出了适于用来实现本公开实施例的电子设备600的结构示意图，图6示出的电子设备仅仅是一个示例，不应对本公开实施例的功能和使用范围带来任何限制。

如图6所示，电子设备600可以包括处理装置(例如中央处理器、图形处理器等)601，其可以根据存储在只读存储器(ROM)602中的程序或者从存储装置608加载到随机访问存储器(RAM)603中的程序而执行各种适当的动作和处理。在RAM 603中，还存储有电子设备600操作所需的各种程序和数据。处理装置601、ROM 602以及RAM 603通过总线604彼此相连。输入/输出(I/O)接口605也连接至总线604。

通常，以下装置可以连接至I/O接口605：包括例如触摸屏、触摸板、键盘、鼠标、摄像头、麦克风、加速度计、陀螺仪等的输入装置606；包括例如液晶显示器(LCD)、扬声器、振动器等的输出装置607；包括例如磁带、硬盘等的存储装置608；以及通信装置609。通信装置609可以允许电子设备600与其他设备进行无线或有线通信以交换数据。虽然图6示出了具有各种装置的电子设备600，但是应理解的是，并不要求实施或具备所有示出的装置。可以替代地实施或具备更多或更少的装置。

特别地，根据本公开的实施例，上文参考流程图描述的过程可以被实现为计算机软件程序。例如，本公开的实施例包括一种计算机程序产品，其包括承载在非暂态计算机可读介质上的计算机程序，该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中，该计算机程序可以通过通信装置609从网络上被下载和安装，或者从存储装置608被安装，或者从ROM 602被安装。在该计算机程序被处理装置601执行时，执行本公开实施例的方法中限定的上述功能。

需要说明的是，本公开上述的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本公开中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本公开中，计算机可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读信号介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于：电线、光缆、RF(射频)等等，或者上述的任意合适的组合。

在一些实施方式中，客户端、服务器可以利用诸如HTTP(HyperText TransferProtocol，超文本传输协议)之类的任何当前已知或未来研发的网络协议进行通信，并且可以与任意形式或介质的数字数据通信(例如，通信网络)互连。通信网络的示例包括局域网(“LAN”)，广域网(“WAN”)，网际网(例如，互联网)以及端对端网络(例如，ad hoc端对端网络)，以及任何当前已知或未来研发的网络。

上述计算机可读介质可以是上述电子设备中所包含的；也可以是单独存在，而未装配入该电子设备中。

上述计算机可读介质承载有一个或者多个程序，当上述一个或者多个程序被该电子设备执行时，使得该电子设备：获取样本特征向量，所述样本特征向量用于表征用户对推广内容的行为；将所述样本特征向量输入到辅助独占网络，得到辅助特征向量；将所述辅助特征向量输入到所述前看梯度网络得到梯度特征向量，所述梯度特征向量表征所述辅助特征向量对于所述核心网络的优化目标的贡献度；将所述梯度特征向量与所述辅助特征向量进行融合后，输入所述辅助输出网络，得到所述辅助输出网络的输出；根据所述辅助输出网络的输出以及所述辅助网络的优化目标和所述核心网络的优化目标更新所述辅助网络的权重，直至所述辅助网络满足第一训练停止条件；或者，

获取用于表征用户对推广内容的行为的用户特征向量；根据所述用户特征向量和多任务模型，获得所述多任务模型的推理结果；根据所述推理结果，调整对所述推广内容的推广策略。

可以以一种或多种程序设计语言或其组合来编写用于执行本公开的操作的计算机程序代码，上述程序设计语言包括但不限于面向对象的程序设计语言—诸如Java、Smalltalk、C++，还包括常规的过程式程序设计语言——诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)——连接到用户计算机，或者，可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。

附图中的流程图和框图，图示了按照本公开各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，该模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

描述于本公开实施例中所涉及到的模块可以通过软件的方式实现，也可以通过硬件的方式来实现。其中，模块的名称在某种情况下并不构成对该模块本身的限定，例如，第一获取模块还可以被描述为“获取至少两个网际协议地址的模块”。

本文中以上描述的功能可以至少部分地由一个或多个硬件逻辑部件来执行。例如，非限制性地，可以使用的示范类型的硬件逻辑部件包括：现场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、片上系统(SOC)、复杂可编程逻辑设备(CPLD)等等。

在本公开的上下文中，机器可读介质可以是有形的介质，其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备，或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。

根据本公开的一个或多个实施例，示例1提供了一种多任务模型训练方法，所述多任务模型包括辅助网络、核心网络和前看梯度网络，所述辅助网络包括辅助独占网络和辅助输出网络；所述方法包括：

根据本公开的一个或多个实施例，示例2提供了示例1的方法，所述前看梯度网络基于所述核心网络的优化目标进行更新。

根据本公开的一个或多个实施例，示例3提供了示例1或2的方法，所述核心网络包括核心独占网络和核心输出网络；所述方法还包括：

将所述样本特征向量输入到所述核心独占网络，得到核心特征向量；

将所述核心特征向量输入到所述核心输出网络，得到所述核心输出网络的输出；

根据所述核心输出网络的输出以及所述核心网络的优化目标，更新所述核心网络的权重，直至所述核心网络满足第二训练停止条件。

根据本公开的一个或多个实施例，示例4提供了示例3的方法，所述方法还包括：

将所述样本特征向量输入到共享网络，获得共享特征向量；

所述将所述样本特征向量输入到辅助独占网络，得到辅助特征向量，包括：

将所述共享特征向量输入到辅助独占网络，得到辅助特征向量；

所述将所述样本特征向量输入到所述核心独占网络，得到核心特征向量，包括：

将所述共享特征向量输入到所述核心独占网络，得到核心特征向量。

根据本公开的一个或多个实施例，示例5提供了示例1的方法，所述辅助输出网络的输出满足所述辅助网络的优化目标或所述核心网络的优化目标时，所述样本特征向量为正样本对应的特征向量；所述辅助输出网络的输出不满足所述辅助网络的优化目标以及所述核心网络的优化目标时，所述样本特征向量为负样本对应的特征向量。

根据本公开的一个或多个实施例，示例6提供了示例1的方法，所述辅助独占网络包括深度神经网络、卷积神经网络或自注意力网络；所述共享网络包括深度神经网络、卷积神经网络或自注意力网络。

根据本公开的一个或多个实施例，示例7提供示例1的方法，所述核心网络的优化目标包括所述用户被所述推广内容转化的转化率；所述辅助网络的优化目标包括所述用户对所述推广内容的观看时长。

以上描述仅为本公开的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解，本公开中所涉及的公开范围，并不限于上述技术特征的特定组合而成的技术方案，同时也应涵盖在不脱离上述公开构思的情况下，由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本公开中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。

此外，虽然采用特定次序描绘了各操作，但是这不应当理解为要求这些操作以所示出的特定次序或以顺序次序执行来执行。在一定环境下，多任务和并行处理可能是有利的。同样地，虽然在上面论述中包含了若干具体实现细节，但是这些不应当被解释为对本公开的范围的限制。在单独的实施例的上下文中描述的某些特征还可以组合地实现在单个实施例中。相反地，在单个实施例的上下文中描述的各种特征也可以单独地或以任何合适的子组合的方式实现在多个实施例中。

尽管已经采用特定于结构特征和/或方法逻辑动作的语言描述了本主题，但是应当理解所附权利要求书中所限定的主题未必局限于上面描述的特定特征或动作。相反，上面所描述的特定特征和动作仅仅是实现权利要求书的示例形式。关于上述实施例中的装置，其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述，此处将不做详细阐述说明。

Claims

1.一种多任务模型训练方法，其特征在于，所述多任务模型包括辅助网络、核心网络和前看梯度网络，所述辅助网络包括辅助独占网络和辅助输出网络；所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述前看梯度网络基于所述核心网络的优化目标进行更新。

3.根据权利要求1或2所述的方法，其特征在于，所述核心网络包括核心独占网络和核心输出网络；所述方法还包括：

4.根据权利要求3所述的方法，其特征在于，所述方法还包括：

将所述样本特征向量输入到共享网络，获得共享特征向量；

5.根据权利要求1所述的方法，其特征在于，所述辅助输出网络的输出满足所述辅助网络的优化目标或所述核心网络的优化目标时，所述样本特征向量为正样本对应的特征向量；

所述辅助输出网络的输出不满足所述辅助网络的优化目标以及所述核心网络的优化目标时，所述样本特征向量为负样本对应的特征向量。

6.根据权利要求1所述的方法，其特征在于，所述辅助独占网络包括深度神经网络、卷积神经网络或自注意力网络；所述共享网络包括深度神经网络、卷积神经网络或自注意力网络。

7.根据权利要求1所述的方法，其特征在于，所述核心网络的优化目标包括所述用户被所述推广内容转化的转化率；所述辅助网络的优化目标包括所述用户对所述推广内容的观看时长。

8.一种推广内容处理方法，其特征在于，包括：

获取用于表征用户对推广内容的行为的用户特征向量；

根据所述用户特征向量和多任务模型，获得所述多任务模型的推理结果；所述多任务模型通过所述权利要求1-7任一项所述的方法得到；

根据所述推理结果，调整对所述推广内容的推广策略。

9.一种多任务模型训练装置，其特征在于，所述多任务模型包括辅助网络、核心网络和前看梯度网络，所述辅助网络包括辅助独占网络和辅助输出网络；所述装置包括：

10.一种推广内容处理装置，其特征在于，包括：

推理模块，用于根据所述用户特征向量和多任务模型，获得所述多任务模型的推理结果；所述多任务模型通过所述权利要求1-7任一项所述的方法得到；

11.一种电子设备，其特征在于，包括：

存储装置，其上存储有计算机程序；

处理装置，用于执行所述存储装置中的所述计算机程序，以实现权利要求1至8中任一项所述的方法。

12.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理装置执行时实现权利要求1至8中任一项所述的方法。

13.一种计算机程序产品，其特征在于，当所述计算机程序产品在计算机上运行时，使得计算机执行如权利要求1至8中任一项所述的方法。