CN115410020A

CN115410020A - 多任务模型训练、多媒体资源推荐方法、装置及电子设备

Info

Publication number: CN115410020A
Application number: CN202110578564.3A
Authority: CN
Inventors: 赵致辰
Original assignee: Beijing Dajia Internet Information Technology Co Ltd
Current assignee: Beijing Dajia Internet Information Technology Co Ltd
Priority date: 2021-05-26
Filing date: 2021-05-26
Publication date: 2022-11-29

Abstract

本公开关于一种多任务模型训练、多媒体资源推荐方法、装置及电子设备。该训练方法可以包括：获取样本数据以及对应的多任务标签信息，样本数据包括样本用户属性特征和样本多媒体属性特征；将样本数据输入多任务模型进行多任务学习，得到多个任务对应的多个预测信息以及多任务模型中多个专家网络输出的特征信息；从多个专家网络中，确定多个任务各自对应的目标专家网络；基于多个任务各自对应的目标专家网络输出的特征信息，获取多个任务对应的多个监督预测信息；根据多个预测信息、多个监督预测信息以及多任务标签信息训练多任务模型，得到目标多任务模型。根据本公开提供的技术方案，能够均衡专家网络的学习以及提升推荐精度。

Description

多任务模型训练、多媒体资源推荐方法、装置及电子设备

技术领域

本公开涉及人工智能技术领域，尤其涉及一种多任务模型训练、多媒体资源推荐方法、装置及电子设备。

背景技术

在多媒体资源推荐中，推荐的目的一般是多样的，可能既考虑用户是否会点赞、转发，也会考虑用户是否会观看等，使得推荐是多任务的。相关技术中，一般使用多任务模型进行多任务学习，以实现多任务推荐。该多任务模型一般为MMOE(Multi-gated Mixture ofExpert)，该MMOE是基于多个门网络的多专家模型，其中包括多个专家网络和多个门网络，多个门网络对应的多个任务可以共享多个专家网络。这样虽然不用为每个任务训练单独的网络，但是专家网络具有“趋同性”，因为在训练过程中，较早占据优势的专家网络逐渐占主导地位，其他专家网络会变的冗余，该冗余的专家网络的输出接近噪声，使得训练过程受到影响，训练得到的多任务模型在用于推荐时，推荐不够准确。

发明内容

本公开提供一种多任务模型训练、多媒体资源推荐方法、装置及电子设备，以至少解决相关技术中如何均衡专家网络的学习以及提升目标多任务模型的推荐精度问题。本公开的技术方案如下：

根据本公开实施例的第一方面，提供一种多任务模型训练方法，包括：

获取样本数据以及对应的多任务标签信息，所述样本数据包括样本用户属性特征和样本多媒体属性特征；

将所述样本用户属性特征和所述样本多媒体属性特征输入所述多任务模型，进行多任务学习，得到多个任务对应的多个预测信息以及所述多任务模型中多个专家网络输出的特征信息；

从多个所述专家网络中，确定多个所述任务各自对应的目标专家网络；

基于多个所述任务各自对应的目标专家网络输出的特征信息，获取多个任务对应的多个监督预测信息；

根据所述多个预测信息、所述多个监督预测信息以及所述多任务标签信息训练所述多任务模型，得到目标多任务模型。

在一种可能的实现方式中，所述从多个所述专家网络中，确定多个所述任务各自对应的目标专家网络步骤包括：

获取多个所述任务与专家网络的映射配置信息；

根据所述映射配置信息，从所述多个专家网络中确定每个任务对应的目标专家网络。

在一种可能的实现方式中，在所述获取多个所述任务与专家网络的映射配置信息步骤之后，所述方法还包括：

基于所述映射配置信息，确定多个所述任务与多个所述专家网络的第一对应关系；

根据所述样本用户属性特征和所述样本多媒体属性特征，确定所述样本数据与多个所述专家网络的第二对应关系；

根据所述第一对应关系和所述第二对应关系，确定每个任务对应的目标专家网络。

在一种可能的实现方式中，所述根据所述样本用户属性特征和所述样本多媒体属性特征，确定所述样本数据与所述多个专家网络的第二对应关系步骤包括：

根据所述样本用户属性特征和所述样本多媒体属性特征，生成随机数；

根据所述随机数，确定所述第二对应关系。

在一种可能的实现方式中，所述根据所述第一对应关系和所述第二对应关系，确定每个任务对应的目标专家网络步骤包括：

根据所述第一对应关系，确定每个任务对应的第一目标专家网络；

根据所述第二对应关系，确定所述样本数据对应的第二目标专家网络；

确定每个任务对应的第一目标专家网络与所述第二目标专家网络存在交集的专家网络，作为每个任务对应的目标专家网络。

将所述样本用户属性特征和所述样本多媒体属性特征输入专家分配单元，所述专家分配单元根据所述样本用户属性特征和所述样本多媒体属性特征，生成随机数；并根据所述随机数，确定所述第二对应关系；

所述根据所述第一对应关系和所述第二对应关系，确定每个任务对应的目标专家网络步骤包括：

将所述第一对应关系和所述第二对应关系输入所述多个监督门网络，每个监督门网络根据所述第一对应关系，确定每个任务对应的第一目标专家网络；并根据所述第二对应关系，确定所述样本数据对应的第二目标专家网络；以及确定每个任务对应的第一目标专家网络与所述第二目标专家网络存在交集的专家网络，作为每个任务对应的目标专家网络。

在一种可能的实现方式中，所述根据所述多个预测信息、所述多个监督预测信息以及所述多任务标签信息训练所述多任务模型，得到目标多任务模型步骤包括：

根据所述多个预测信息和所述多任务标签信息，确定第一损失信息；

根据所述多个监督预测信息和所述多任务标签信息，确定第二损失信息；

基于所述第一损失信息和所述第二损失信息训练所述多任务模型，得到所述目标多任务模型。

在一种可能的实现方式中，所述第一损失信息包括与多个所述任务对应的多个第一子损失信息，所述第二损失信息包括与多个所述任务对应的多个第二子损失信息；所述基于所述第一损失信息和所述第二损失信息训练所述多任务模型，得到所述目标多任务模型步骤包括：

基于每个第一子损失信息，训练所述多任务模型中对应的门网络，得到目标门网络；

基于多个所述第一子损失信息和每个第二子损失信息，训练每个第二子损失信息对应的目标专家网络，得到第一专家网络；

获取所述多任务模型的全量专家网络中除所述目标专家网络以外的非目标专家网络；

基于多个所述第一子损失信息，训练所述非目标专家网络，得到第二专家网络；

根据所述目标门网络、所述第一专家网络和所述第二专家网络，得到所述目标多任务模型。

根据本公开实施例的第二方面，提供一种多媒体资源推荐方法，包括：

获取目标用户匹配的召回多媒体资源；

获取所述目标用户的目标用户属性特征以及所述召回多媒体资源对应的多媒体属性特征；

将所述目标用户属性特征和所述多媒体属性特征输入目标多任务模型，进行多任务预测处理，得到多任务预测结果；其中，所述目标多任务模型为基于上述第一方面中任一项所述方法得到的；

基于所述多任务预测结果，从所述召回多媒体资源中筛选目标多媒体资源；

向所述目标用户推荐所述目标多媒体资源。

根据本公开实施例的第三方面，提供一种多任务模型训练装置，包括：

样本信息获取模块，被配置为执行获取样本数据以及对应的多任务标签信息，所述样本数据包括样本用户属性特征和样本多媒体属性特征；

多任务学习模块，被配置为执行将所述样本用户属性特征和所述样本多媒体属性特征输入所述多任务模型，进行多任务学习，得到多个任务对应的多个预测信息以及所述多任务模型中多个专家网络输出的特征信息；

目标专家网络确定模块，被配置为执行从多个所述专家网络中，确定多个所述任务各自对应的目标专家网络；

监督预测信息获取模块，被配置为执行基于多个所述任务各自对应的目标专家网络输出的特征信息，获取多个任务对应的多个监督预测信息；

训练模块，被配置为执行根据所述多个预测信息、所述多个监督预测信息以及所述多任务标签信息训练所述多任务模型，得到目标多任务模型。

在一种可能的实现方式中，所述目标专家网络确定模块包括：

映射配置信息获取单元，被配置为执行获取多个所述任务与专家网络的映射配置信息；

第一目标专家网络确定单元，被配置为执行根据所述映射配置信息，从所述多个专家网络中确定每个任务对应的目标专家网络。

在一种可能的实现方式中，所述目标专家网络确定模块还包括：

第一对应关系确定单元，被配置为执行基于所述映射配置信息，确定多个所述任务与多个所述专家网络的第一对应关系；

第二对应关系确定单元，被配置为执行根据所述样本用户属性特征和所述样本多媒体属性特征，确定所述样本数据与多个所述专家网络的第二对应关系；

第二目标专家网络确定单元，被配置为执行根据所述第一对应关系和所述第二对应关系，确定每个任务对应的目标专家网络。

在一种可能的实现方式中，所述第二对应关系确定单元包括：

随机数生成子单元，被配置为执行根据所述样本用户属性特征和所述样本多媒体属性特征，生成随机数；所述随机数为所述多个专家网络对应序号中的部分序号；

第二对应关系确定子单元，被配置为执行根据所述随机数，确定所述第二对应关系。

在一种可能的实现方式中，所述第二目标专家网络确定单元包括：

第一目标专家网络确定子单元，被配置为执行根据所述第一对应关系，确定每个任务对应的第一目标专家网络；

第二目标专家网络确定子单元，被配置为执行根据所述第二对应关系，确定所述样本数据对应的第二目标专家网络；

目标专家网络确定子单元，被配置为执行确定每个任务对应的第一目标专家网络中与所述第二目标专家网络存在交集的的专家网络，作为每个任务对应的目标专家网络。

第二对应关系获取子单元，被配置为执行将所述样本用户属性特征和所述样本多媒体属性特征输入所述专家分配单元，所述专家分配单元根据所述样本用户属性特征和所述样本多媒体属性特征，生成随机数；并根据所述随机数，确定所述第二对应关系；

所述第二目标专家网络确定单元包括：

目标专家网络获取子单元，被配置为执行将所述第一对应关系和所述第二对应关系输入所述多个监督门网络，每个监督门网络根据所述第一对应关系，确定每个任务对应的第一目标专家网络；并根据所述第二对应关系，确定所述样本数据对应的第二目标专家网络；以及确定每个任务对应的第一目标专家网络与所述第二目标专家网络存在交集的专家网络，作为每个任务对应的目标专家网络。

在一种可能的实现方式中，所述训练模块包括：

第一损失信息确定单元，被配置为执行根据所述多个预测信息和所述多任务标签信息，确定第一损失信息；

第二损失信息确定单元，被配置为执行根据所述多个监督预测信息和所述多任务标签信息，确定第二损失信息；

训练单元，被配置为执行基于所述第一损失信息和所述第二损失信息训练所述多任务模型，得到所述目标多任务模型。

在一种可能的实现方式中，所述第一损失信息包括与多个所述任务对应的多个第一子损失信息，所述第二损失信息包括与多个所述任务对应的多个第二子损失信息；所述训练单元包括：

门网络训练子单元，被配置为执行基于每个第一子损失信息，训练所述多任务模型中对应的门网络，得到目标门网络；

第一专家网络获取子单元，被配置为执行基于多个所述第一子损失信息和每个第二子损失信息，训练每个第二子损失信息对应的目标专家网络，得到第一专家网络；

非目标专家网络获取子单元，被配置为执行获取所述多任务模型的全量专家网络中除所述目标专家网络以外的非目标专家网络；

第二专家网络获取子单元，被配置为执行基于多个所述第一子损失信息，训练所述非目标专家网络，得到第二专家网络；

目标多任务模型获取子单元，被配置为执行根据所述目标门网络、所述第一专家网络和所述第二专家网络，得到所述目标多任务模型。

根据本公开实施例的第四方面，提供了一种多媒体资源推荐装置，包括：

召回模块，被配置为执行获取目标用户匹配的召回多媒体资源；

属性信息获取模块，被配置为执行获取所述目标用户的目标用户属性特征以及所述召回多媒体资源对应的多媒体属性特征；

预测处理模块，被配置为执行将所述目标用户属性特征和所述多媒体属性特征输入目标多任务模型，进行多任务预测处理，得到多任务预测结果；其中，所述目标多任务模型为基于上述第三方面中多任务模型训练装置得到的；

筛选模块，被配置为执行基于所述多任务预测结果，从所述召回多媒体资源中筛选目标多媒体资源；

推荐模块，被配置为执行向所述目标用户推荐所述目标多媒体资源。

根据本公开实施例的第五方面，提供一种电子设备，包括：处理器；用于存储所述处理器可执行指令的存储器；其中，所述处理器被配置为执行所述指令，以实现如上述第一方面中任一项所述的方法以及如上述第二方面所述的方法。

根据本公开实施例的第六方面，提供一种计算机可读存储介质，当所述计算机可读存储介质中的指令由电子设备的处理器执行时，使得所述电子设备能够执行本公开实施例的第一方面中任一所述方法以及如上述第二方面所述的方法。

根据本公开实施例的第七方面，提供一种计算机程序产品，包括计算机指令，所述计算机指令被处理器执行时，使得计算机执行本公开实施例的第一方面中任一项所述方法以及如上述第二方面所述的方法。

本公开的实施例提供的技术方案至少带来以下有益效果：

通过从多个专家网络中，确定每个任务对应的目标专家网络；并基于特征信息以及每个任务对应的目标专家网络，获取多个任务对应的多个监督预测信息；从而可以结合多个预测信息以及多个监督预测信息，对多任务模型进行训练，实现了对多任务模型训练的监督约束，使得每个专家网络都能够学习到任务，从而可以避免专家网络冗余现象的出现，使得专家网络的学习可以是均衡的，进而可以提升多任务模型的整体学习能力；并且基于该训练方法得到的目标多任务模型，在推荐应用中可以提高推荐精度。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本公开。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本公开的实施例，并与说明书一起用于解释本公开的原理，并不构成对本公开的不当限定。

图1是根据一示例性实施例示出的一种应用环境的示意图。

图2是根据一示例性实施例示出的一种多任务模型训练方法的流程图。

图3是根据一示例性实施例示出的一种多任务模型的示意图。

图4是根据一示例性实施例示出的一种根据多个预测信息、多个监督预测信息以及多任务标签信息训练多任务模型，得到目标多任务模型的方法流程图。

图5是根据一示例性实施例示出的一种从多个专家网络中，确定每个任务对应的目标专家网络的方法流程图。

图6是根据一示例性实施例示出的一种从多个专家网络中，确定每个任务对应的目标专家网络的方法流程图。

图7是根据一示例性实施例示出的一种待训练模型的示意图。

图8是根据一示例性实施例示出的一种从多个专家网络中，确定每个任务对应的目标专家网络的方法流程图。

图9是根据一示例性实施例示出的一种多媒体资源推荐方法的流程图。

图10是根据一示例性实施例示出的一种多任务模型训练装置框图。

图11是根据一示例性实施例示出的一种多媒体资源推荐装置框图。

图12是根据一示例性实施例示出的一种用于多任务模型训练或多媒体资源推荐的电子设备的框图。

具体实施方式

为了使本领域普通人员更好地理解本公开的技术方案，下面将结合附图，对本公开实施例中的技术方案进行清楚、完整地描述。

需要说明的是，本公开的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本公开的实施例能够以除了在这里图示或描述的那些以外的顺序实施。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。

人工智能(Artificial Intelligence，AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。

近年来，随着人工智能技术研究和进步，人工智能技术在多个领域得到广泛应用，本公开实施例提供的方案涉及机器学习/深度学习、计算机视觉技术等技术，具体通过如下实施例进行说明：

请参阅图1，图1是根据一示例性实施例示出的一种应用环境的示意图，如图1所示，该应用环境可以包括服务器01和终端02。

在一个可选的实施例中，服务器01可以用于多任务模型的训练。具体的，服务器01可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN(Content Delivery Network，内容分发网络)、以及大数据和人工智能平台等基础云计算服务的云服务器。

在一个可选的实施例中，终端02可以使用服务器01训练的目标多任务模型进行多媒体资源的推荐。具体的，终端02可以包括但不限于智能手机、台式计算机、平板电脑、笔记本电脑、智能音箱、数字助理、增强现实(augmented reality，AR)/虚拟现实(virtualreality，VR)设备、智能可穿戴设备等类型的电子设备。可选的，电子设备上运行的操作系统可以包括但不限于安卓系统、IOS系统、linux、windows等。

此外，需要说明的是，图1所示的仅仅是本公开提供的图像处理方法的一种应用环境。终端02也可以进行多任务模型的训练，服务器01也可以用于多媒体资源的推荐。

本说明书实施例中，上述服务器01以及终端02可以通过有线或无线通信方式进行直接或间接地连接，本申请在此不做限制。

需要说明的是，以下图中示出的是一种可能的步骤顺序，实际上并不限定必须严格按照此顺序。有些步骤可以在互不依赖的情况下并行执行。本公开所涉及的用户信息(包括但不限于用户设备信息、用户个人信息、用户行为信息等)和数据(包括但不限于用于展示的数据、训练的数据等)，均为经用户授权或者经过各方充分授权的信息和数据。

图2是根据一示例性实施例示出的一种多任务模型训练方法的流程图。如图2所示，可以包括以下步骤。

在步骤S201中，获取样本数据以及对应的多任务标签信息，该样本数据可以包括样本用户属性特征和样本多媒体属性特征。

本说明书实施例中，样本用户属性特征可以是指样本用户的属性特征，例如可以包括样本用户的标识特征、样本用户的活跃度特征、样本用户的年龄特征等。样本多媒体属性特征可以是指样本多媒体的属性特征，例如可以包括样本多媒体的标识特征、样本多媒体的内容类型，比如体育类型、影视类型、美食类型等。在样本多媒体为样本视频时，样本多媒体的属性特征可以包括样本多媒体的标识特征、样本视频的内容类型、样本视频的长度类型，该长度类型可以包括长视频类型、短视频类型，本公开对这些均不作限定。其中，样本用户的活跃度特征可以表征该样本用户相对于对该样本多媒体的活跃度，例如，可以利用该样本用户在预设时段内请求该样本多媒体的次数来表征活跃度，在次数大于或等于预设次数时，可以表征活跃；在次数小于预设次数时，可以表征非活跃。

在步骤S203中，将样本用户属性特征和样本多媒体属性特征输入多任务模型，进行多任务学习，得到多个任务对应的多个预测信息以及多任务模型中多个专家网络输出的特征信息。

在一个示例中，该多任务模型可以为MMOE模型，该MMOE模型可以包括多个专家网络、多个门网络以及与多个门网络对应的多个塔网络，其中，该多个门网络和多个塔网络分别与多个任务对应，多个任务可以包括点赞、转发、播放预设时长等，该多个任务可以与多个任务标签对应。多个专家网络可以为多个神经网络。

以两个任务为例，如图3所示，MMOE模型可以包括多个专家网络、门网络A、门网络B、以及塔网络A和塔网络B。可选地，MMOE模型还可以包括底层神经网络和多个全连接层，底层神经网络可以连接多个全连接层，该多个全连接层可以连接多个专家网络，本公开的图3中未示出底层神经网络和多个全连接层。塔网络A和塔网络B可以分别连接对应的输出层，该图3中也未示出。

在进行多任务模型训练时，可以将样本用户属性特征和样本多媒体属性特征输入多任务模型，进行多任务学习，得到多个任务对应的多个预测信息以及多任务模型中多个专家网络输出的特征信息。其中，多个专家网络输出的特征信息可以是指多个专家网络分别输出的特征信息，即多个特征信息。每个任务对应的预测信息可以是指对每个任务的预测信息，以任务A是点赞任务为例，任务A对应的预测信息可以为点赞或非点赞。

其中，每个塔网络可以连接一个输出层，每个塔网络输出的结果可以经过对应输出层，该输出层可以输出预测信息。每个塔网络输出的结果可以是每个任务的预测概率。

以门网络A为例，可以通过以下公式(1)得到门网络A与多个专家网络输出的特征信息进行融合(如图3所示的

)的结果f^A(x)：

其中，N可以是专家网络的数量；g^A(x)可以是门网络A；g^A(x)_i可以是门网络A中第i专家网络的权重，门网络A中N个专家网络对应的权重和可以为1；f_i(x)可以是第i个专家网络输出的特征信息，其中的x可以是第i个专家网络的输入。

可选地，在得到f^A(x)后，可以将f^A(x)输入塔网络A、并经过对应输出层，得到任务A对应的预测信息。

在步骤S205中，从多个专家网络中，确定多个任务各自对应的目标专家网络。

实际应用中，为了约束MMOE的训练以保证多个专家网络学习的均衡性，可以从多个专家网络中，确定每个任务对应的目标专家网络。例如可以预先配置任务对应的专家网络，基于该对应关系，可以从多个专家网络中，确定每个任务对应的目标专家网络，使得每个专家都能够学习到任务。

在步骤S207中，基于多个任务各自对应的目标专家网络输出的特征信息，获取多个任务对应的多个监督预测信息。

本说明书实施例中，可以基于每个任务对应的目标专家网络输出的特征信息，确定每个任务对应的监督预测信息，例如，可以将每个任务对应的目标专家网络输出的特征信息的和作为监督预测信息，或者可以将每个任务对应的目标专家网络输出的特征信息的加权和作为监督预测信息，或者也可以参照MMOE中每个门网络与特征信息的处理方式(上述公式(1))，对每个任务对应的目标专家网络输出的特征信息进行处理，获取多个任务各自对应的监督预测信息，本公开对此不作限定，

在步骤S209中，根据多个预测信息、多个监督预测信息以及多任务标签信息训练多任务模型，得到目标多任务模型。

本说明书实施例中，可以根据多个预测信息、多个监督预测信息以及多任务标签信息，确定损失信息，从而可以根据损失信息训练多任务模型，得到目标多任务模型。例如，可以利用梯度下降法进行多任务模型的训练，得到目标多任务模型。

在一个示例中，如图4所示，该步骤S209可以包括以下步骤：

在步骤S401中，根据多个预测信息和多任务标签信息，确定第一损失信息；

在步骤S403中，根据多个监督预测信息和多任务标签信息，确定第二损失信息；

在步骤S405中，基于第一损失信息和第二损失信息训练多任务模型，得到目标多任务模型。

实际应用中，可以将多个预测信息与多任务标签信息的差值，作为第一损失信息；将多个监督预测信息与多任务标签信息的差值，作为第二损失信息；并可以基于第一损失信息和第二损失信息训练多任务模型，得到目标多任务模型，本公开对此不作限定。例如可以利用第一损失信息和第二损失信息分别训练多任务模型，得到目标多任务模型。通过两部分损失信息训练多任务模型，不仅保留了原MMOE的训练过程，还添加了监督预测信息以实现对MMOE训练过程的监督，使得监督预测信息可以参与训练，能够保证每个专家网络充分学习任务，并使得训练得到的目标多任务模型的预测结果更加精准。

可选地，可以周期性地获取多任务模型的参数，以得到目标多任务模型，例如，可以每10分钟获取训练中多任务模型的参数，以得到目标多任务模型，使得目标多任务模型可以适应实时性的推荐场景。

在一种可能的实现方式中，第一损失信息可以包括与多个任务对应的多个第一子损失信息，第二损失信息可以包括与多个任务对应的多个第二子损失信息；相应地，该步骤S405可以包括以下步骤：

基于每个第一子损失信息，训练多任务模型中对应的门网络，得到目标门网络；

基于多个第一子损失信息和每个第二子损失信息，训练每个第二子损失信息对应的目标专家网络，得到第一专家网络；

获取多任务模型的全量专家网络中除目标专家网络以外的非目标专家网络；

基于多个第一子损失信息，训练非目标专家网络，得到第二专家网络；

根据目标门网络、第一专家网络和第二专家网络，得到目标多任务模型。

在一个示例中，比如两个任务：任务A和任务B，如图3所示，基于门网络A对应的预测信息与多任务标签信息，可以得到任务A对应的第一子损失信息S1；同理可以得到任务B对应的第一子损失信息S2。如图7所示，可以基于监督门网络A’对应的监督预测信息与多任务标签信息，可以得到任务A’对应的第二子损失信息S3；同理可以得到任务B’对应的第二子损失信息S4。从而可以利用S1训练门网络A；利用S2训练门网络B；假设全量专家网络为专家网络1～8，确定的任务A对应的目标专家网络是专家网络2、4，任务B对应的目标专家网络是专家网络6；可以确定非目标专家网络是专家网络1、3、5、7-8。从而可以利用S1和S2训练专家网络1、3、5、7-8；利用S1、S2和S3训练专家网络2、4；利用S1、S2和S4训练专家网络6。通过利用不同的损失信息训练不同专家网络，而不同损失信息与不同任务对应，使得不同专家网络即可以学习到任务，又可以具有擅长的领域。

图5是根据一示例性实施例示出的一种从多个专家网络中，确定每个任务对应的目标专家网络的方法流程图。在一种可能的实现方式中，上述步骤S205可以包括以下步骤：

在步骤S501中，获取多个任务与专家网络的映射配置信息。

实际应用中，可以预先设置多个任务，并设置多个任务与专家网络的映射配置信息，本公开对此不作限定，只要让每个专家都能学习到任务，并且不同专家学习的任务具有差异化以使不同专家可以精通不同任务即可。

作为一个示例，假设专家网络为8个：专家网络1～专家网络8，多个任务为两个：任务A、任务B。可以预先设置多个任务与专家网络的映射配置信息如下表1：

表1

专家网络	任务
		专家网络1、专家网络2	任务A
专家网络3～专家网络6	任务A、任务B
		专家网络7、专家网络8	任务B

如表1所示，通过预先设置多个任务与专家网络的映射配置信息，可以分化专家网络精通的任务，每个专家网络对应的任务可以是多个任务中的全部任务或部分任务，这样差异化的设置，可以平衡专家网络的学习领域，提升专家网络的整体能力。

在步骤S503中，根据映射配置信息，从多个专家网络中确定每个任务对应的目标专家网络。

本说明书实施例中，可以根据映射配置信息，从多个专家网络中确定每个任务对应的目标专家网络。例如表1所示，可以确定任务A对应的目标专家网络为专家网络1～专家网络6。

通过配置专家网络与任务间的映射关系，可以保证每个专家网络均可以学习到任务，提升专家网络的能力；并且可以使得不同专家网络可以学习不同任务，使得不同专家网络可以具有各自擅长的任务，能够避免现有MMOE训练中MMOE学习中偏移的问题，使得具有各自擅长任务的专家网络在推荐应用时可以作出更精准的推荐。

图6是根据一示例性实施例示出的一种从多个专家网络中，确定每个任务对应的目标专家网络的方法流程图。在一种可能的实现方式中，在上述步骤S501之后，上述步骤S205还可以包括以下步骤：

在步骤S601中，基于映射配置信息，确定多个任务与专家网络的第一对应关系；

在步骤S603中，根据样本用户属性特征和样本多媒体属性特征，确定样本数据与专家网络的第二对应关系；

在步骤S605中，根据第一对应关系和第二对应关系，确定每个任务对应的目标专家网络。

实际应用中，为了使得每个专家网络可以学习到至少一个任务、且可以差异化的具有各自擅长的领域(不同样本数据可以表征不同领域)，可以结合映射配置信息以及样本属性信息，确定每个任务对应的目标专家网络。这里的样本属性信息可以是指样本用户属性特征和样本多媒体属性特征。基于此，可以基于映射配置信息，确定多个任务与专家网络的第一对应关系；并可以根据样本用户属性特征和样本多媒体属性特征，确定样本数据与专家网络的第二对应关系。在一个示例中，可以根据样本用户属性特征和样本多媒体属性特征，生成随机数；并可以根据随机数，确定第二对应关系，例如可以获取预先设置的随机数与专家网络的映射关系，可以基于该映射关系和随机数，确定第二对应关系。

在一个示例中，该随机数可以为多个专家网络对应序号中的部分序号；其中，本公开对生成随机数的方式或函数不作限定。通过生成随机数的方式确定对应的专家网络，使得具有相同样本用户属性特征和样本多媒体属性特征的样本数据，可以被相同的专家网络学习，不仅保证专家网络的整体能力多样性，还可以保证专家网络各自具有擅长的领域。

进一步地，在一种可能的实现方式中，上述步骤S605可以包括以下步骤：

根据第一对应关系，确定每个任务对应的第一目标专家网络；

根据第二对应关系，确定样本数据对应的第二目标专家网络；

确定每个任务对应的第一目标专家网络中与第二目标专家网络存在交集的的专家网络，作为每个任务对应的目标专家网络。

本说明书实施例中，可以融合第一对应关系和第二对应关系，将每个任务对应的第一目标专家网络中与第二目标专家网络存在交集的的专家网络，作为每个任务对应的目标专家网络。通过第一对应关系和第二对应关系的融合，不仅体现了专家网络与任务的配置关系，还体现了每个样本数据与专家网络的动态对应关系，使得训练时每个任务对应的目标专家网络可以是动态的，使得专家网络可以充分学习任务以及具有擅长的领域，从而使得多任务模型的训练更加有效，得到的目标多任务模型在预测时可以更加精准。

作为一个示例，假设专家网络有8个，对应的序号为1～8，即专家网络1～专家网络8；任务包括任务A、任务B。基于映射配置信息，确定多个任务与专家网络的第一对应关系可以为：任务A对应专家网络1～专家网络4、任务B对应专家网络5～专家网络8；根据样本用户属性特征和样本多媒体属性特征，生成随机数，该随机数可以为2、4、6。即该样本数据与专家网络的第二对应关系为：样本数据对应专家网络2、专家网络4、专家网络6。在一种可选的方式中，第一对应关系和第二对应关系可以通过掩码mask的方式确定，可以表示如下：

第二对应关系可以表示为“样本数据：[0,1,0,1,0,1,0,0]”；

第一对应关系可以包括如下：

任务A对应专家网络1～专家网络4可以表示为“任务A：[1,1,1,1,0,0,0,0]”；

任务B对应专家网络5～专家网络8可以表示为“任务B：[0,0,0,0,1,1,1,1]”。

其中，[]中可以表示8个专家网络的状态，若为1可以表示专家网络被选择，若为0可以表示专家网络未被选择。

根据第一对应关系：“任务A：[1,1,1,1,0,0,0,0]”、“任务B：[0,0,0,0,1,1,1,1]”，以及第二对应关系：“样本数据：[0,1,0,1,0,1,0,0]”，可以确定对于该条样本数据，每个任务对应的目标专家网络。例如，可以用“任务A：[1,1,1,1,0,0,0,0]”和“样本数据：[0,1,0,1,0,1,0,0]”作逻辑与操作，得到任务A对应的目标专家网络的mask：[0,1,0,1,0,0,0,0]，即专家网络2和专家网络4；基于同样的处理方式，可以得到任务B对应的目标专家网络：[0,0,0,0,0,1,0,0]，即专家网络6。

通过结合映射配置信息以及样本属性信息，确定每个任务对应的目标专家网络，既可以保证每个专家网络均可以充分学习到任务，平衡了多任务模型训练中专家网络学习偏移问题；又可以使得不同专家网络可以各自具有擅长的知识领域，形成了专家网络具有丰富多样的知识领域，从而可以提升多任务模型的推荐精准性。

可选地，在实际应用中，上述监督预测信息的获取可以通过专家分配单元和多个监督门网络执行，该多个监督门网络的数量可以与MMOE中多个门网络的数量相同，多个监督门网络对应的多个任务可以与MMOE中多个门网络对应的多个任务相同。基于此，待训练模型可以包括MMOE、专家分配单元和多个监督门网络，如图7所示。基于图7所示的待训练模型，在一种可能的实现方式中，图8是根据一示例性实施例示出的一种从多个专家网络中，确定每个任务对应的目标专家网络的方法流程图。上述步骤S603可以包括以下步骤：

在步骤S801中，将样本用户属性特征和样本多媒体属性特征输入专家分配单元，进行任务分配处理，得到第二对应关系；实际应用中，步骤S801中的专家分配单元，可以根据样本用户属性特征和样本多媒体属性特征，生成随机数；并可以根据随机数，确定第二对应关系。

相应地，上述步骤S605可以包括以下步骤：

在步骤S803中，将第一对应关系和第二对应关系输入多个监督门网络，每个监督门网络根据所述第一对应关系，确定每个任务对应的第一目标专家网络；并根据所述第二对应关系，确定所述样本数据对应的第二目标专家网络；以及确定每个任务对应的第一目标专家网络与所述第二目标专家网络存在交集的专家网络，作为每个任务对应的目标专家网络。

上述步骤S803中每个监督门网络的处理过程可以参见上述步骤S605的处理方式，在此不再赘述。

在一种可能的实现方式中，专家分配单元中还可以存储映射配置信息，相应地，该专家分配单元可以基于映射配置信息，确定多个任务与专家网络的第一对应关系。其中，该专家分配单元可以是编码网络，本公开对此不作限定。

可选地，如图7所示，待训练模型还可以包括塔网络A’、塔网络B’以及对应的输出层，多个监督门网络的输出可以与专家网络输出的特征信息进行融合处理，例如图7中的

具体可以参见上述公式(1)，融合的结果可以输入相应的塔网络，例如塔网络A’、塔网络B’；进一步地，还可以将每个塔网络的输出作为输出层的输入，得到监督预测信息。

通过设置专家分配单元和多个监督门网络以确定每个任务对应的目标专家网络，可以提高训练效率，并可以提升目标专家网络的推荐精准。

实际应用中，可以利用上述训练的目标多任务模型进行多媒体资源的推荐。图9是根据一示例性实施例示出的一种多媒体资源推荐方法的流程图。如图9所示，该多媒体资源推荐方法可以包括以下步骤：

在步骤S901中，获取目标用户匹配的召回多媒体资源；

在步骤S903中，获取目标用户的目标用户属性特征以及召回多媒体资源对应的多媒体属性特征；

在步骤S905中，将目标用户属性特征和多媒体属性特征输入目标多任务模型，进行多任务预测处理，得到多任务预测结果；

在步骤S907中，基于多任务预测结果，从召回多媒体资源中筛选目标多媒体资源；

在步骤S909中，向目标用户推荐目标多媒体资源。

实际应用中，在向目标用户推荐多媒体资源时，可以获取目标用户匹配的召回多媒体资源，例如可以与目标用户的画像信息匹配的召回多媒体资源。进一步地，可以对召回多媒体资源再次筛选，可以利用目标多任务模型执行该再次筛选。例如，可以获取目标用户的目标用户属性特征以及召回多媒体资源对应的多媒体属性特征，并可以将目标用户属性特征和多媒体属性特征输入目标多任务模型，进行多任务预测处理，得到多任务预测结果，比如两个任务：点赞、转发；可以从召回多媒体资源中筛选出预测结果为点赞和转发的多媒体资源，作为目标多媒体资源。进而可以向目标用户推荐目标多媒体资源，例如可以发送目标多媒体资源至目标用户的终端，以使终端展示目标多媒体资源。

通过上述训练方法得到的目标多任务模型进行多媒体资源的推荐，由于目标多任务模型中各专家网络均对任务进行了充分学习、且具有各自擅长的领域，可以平衡各自多媒体属性特征和用户属性特征，能够提升目标多媒体资源的精准性。

图10是根据一示例性实施例示出的一种多任务模型训练装置框图。参照图10，该装置可以包括：

样本信息获取模块1001，被配置为执行获取样本数据以及对应的多任务标签信息，样本数据包括样本用户属性特征和样本多媒体属性特征；

多任务学习模块1003，被配置为执行将样本用户属性特征和样本多媒体属性特征输入多任务模型，进行多任务学习，得到多个任务对应的多个预测信息以及多任务模型中多个专家网络输出的特征信息；

目标专家网络确定模块1005，被配置为执行从多个专家网络中，确定多个任务各自对应的目标专家网络；

监督预测信息获取模块1007，被配置为执行基于多个所述任务各自对应的目标专家网络输出的特征信息，获取多个任务对应的多个监督预测信息；

训练模块1009，被配置为执行根据多个预测信息、多个监督预测信息以及多任务标签信息训练多任务模型，得到目标多任务模型。

在一种可能的实现方式中，目标专家网络确定模块1005可以包括：

映射配置信息获取单元，被配置为执行获取多个任务与专家网络的映射配置信息；

第一目标专家网络确定单元，被配置为执行根据映射配置信息，从多个专家网络中确定每个任务对应的目标专家网络。

在一种可能的实现方式中，目标专家网络确定模块1005还可以包括：

第一对应关系确定单元，被配置为执行基于映射配置信息，确定多个任务与多个专家网络的第一对应关系；

第二对应关系确定单元，被配置为执行根据样本用户属性特征和样本多媒体属性特征，确定样本数据与多个专家网络的第二对应关系；

第二目标专家网络确定单元，被配置为执行根据第一对应关系和第二对应关系，确定每个任务对应的目标专家网络。

在一种可能的实现方式中，第二对应关系确定单元可以包括：

随机数生成子单元，被配置为执行根据样本用户属性特征和样本多媒体属性特征，生成随机数；随机数为多个专家网络对应序号中的部分序号；

第二对应关系确定子单元，被配置为执行根据随机数，确定第二对应关系。

在一种可能的实现方式中，第二目标专家网络确定单元包括：

第一目标专家网络确定子单元，被配置为执行根据第一对应关系，确定每个任务对应的第一目标专家网络；

第二目标专家网络确定子单元，被配置为执行根据第二对应关系，确定样本数据对应的第二目标专家网络；

目标专家网络确定子单元，被配置为执行确定每个任务对应的第一目标专家网络中与第二目标专家网络存在交集的的专家网络，作为每个任务对应的目标专家网络。

第二对应关系获取子单元，被配置为执行将样本用户属性特征和样本多媒体属性特征输入专家分配单元，该专家分配单元根据所述样本用户属性特征和所述样本多媒体属性特征，生成随机数；并根据所述随机数，确定所述第二对应关系；

第二目标专家网络确定单元包括：

目标专家网络获取子单元，被配置为执行将第一对应关系和第二对应关系输入多个监督门网络，每个监督门网络根据所述第一对应关系，确定每个任务对应的第一目标专家网络；并根据第二对应关系，确定样本数据对应的第二目标专家网络；以及确定每个任务对应的第一目标专家网络与第二目标专家网络存在交集的专家网络，作为每个任务对应的目标专家网络。

在一种可能的实现方式中，训练模块1009可以包括：

第一损失信息确定单元，被配置为执行根据多个预测信息和多任务标签信息，确定第一损失信息；

第二损失信息确定单元，被配置为执行根据多个监督预测信息和多任务标签信息，确定第二损失信息；

训练单元，被配置为执行基于第一损失信息和第二损失信息训练多任务模型，得到目标多任务模型。

在一种可能的实现方式中，第一损失信息可以包括与多个任务对应的多个第一子损失信息，第二损失信息可以包括与多个任务对应的多个第二子损失信息；训练单元可以包括：

门网络训练子单元，被配置为执行基于每个第一子损失信息，训练多任务模型中对应的门网络，得到目标门网络；

第一专家网络获取子单元，被配置为执行基于多个第一子损失信息和每个第二子损失信息，训练每个第二子损失信息对应的目标专家网络，得到第一专家网络；

非目标专家网络获取子单元，被配置为执行获取多任务模型的全量专家网络中除目标专家网络以外的非目标专家网络；

第二专家网络获取子单元，被配置为执行基于多个所述第一子损失信息，训练非目标专家网络，得到第二专家网络；

目标多任务模型获取子单元，被配置为执行根据目标门网络、第一专家网络和第二专家网络，得到目标多任务模型。

图11是根据一示例性实施例示出的一种多媒体资源推荐装置框图。参照图11，该装置可以包括：

召回模块1101，被配置为执行获取目标用户匹配的召回多媒体资源；

属性信息获取模块1103，被配置为执行获取目标用户的目标用户属性特征以及召回多媒体资源对应的多媒体属性特征；

预测处理模块1105，被配置为执行将目标用户属性特征和多媒体属性特征输入目标多任务模型，进行多任务预测处理，得到多任务预测结果；其中，目标多任务模型为基于上述多任务模型训练装置得到的；

筛选模块1107，被配置为执行基于多任务预测结果，从召回多媒体资源中筛选目标多媒体资源；

推荐模块1109，被配置为执行向目标用户推荐目标多媒体资源。

通过上述训练装置得到的目标多任务模型进行多媒体资源的推荐，由于目标多任务模型中各专家网络均对任务进行了充分学习、且具有各自擅长的领域，可以平衡各自多媒体属性特征和用户属性特征，能够提升目标多媒体资源的精准性。

关于上述实施例中的装置，其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述，此处将不做详细阐述说明。

图12是根据一示例性实施例示出的一种用于多任务模型训练或多媒体资源推荐的电子设备的框图，该电子设备可以是服务器，其内部结构图可以如图12所示。该电子设备包括通过系统总线连接的处理器、存储器和网络接口。其中，该电子设备的处理器用于提供计算和控制能力。该电子设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该电子设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种多任务模型训练或多媒体资源推荐的方法。

本领域技术人员可以理解，图12中示出的结构，仅仅是与本公开方案相关的部分结构的框图，并不构成对本公开方案所应用于其上的电子设备的限定，具体的电子设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在示例性实施例中，还提供了一种电子设备，包括：处理器；用于存储该处理器可执行指令的存储器；其中，该处理器被配置为执行该指令，以实现如本公开实施例中的多任务模型训练方法或多媒体资源推荐方法。

在示例性实施例中，还提供了一种计算机可读存储介质，当该计算机可读存储介质中的指令由电子设备的处理器执行时，使得电子设备能够执行本公开实施例中的多任务模型训练方法或多媒体资源推荐方法。计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。

在示例性实施例中，还提供了一种包含指令的计算机程序产品，当其在计算机上运行时，使得计算机执行本公开实施例中的多任务模型训练或多媒体资源推荐的方法。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，该计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本公开的其它实施方案。本申请旨在涵盖本公开的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本公开的真正范围和精神由下面的权利要求指出。

应当理解的是，本公开并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。

Claims

1.一种多任务模型训练方法，其特征在于，包括：

将所述样本用户属性特征和所述样本多媒体属性特征输入多任务模型，进行多任务学习，得到多个任务对应的多个预测信息以及所述多任务模型中多个专家网络输出的特征信息；

2.根据权利要求1所述的多任务模型训练方法，其特征在于，所述从多个所述专家网络中，确定多个所述任务各自对应的目标专家网络步骤包括：

获取多个所述任务与专家网络的映射配置信息；

3.根据权利要求2所述的多任务模型训练方法，其特征在于，在所述获取多个所述任务与专家网络的映射配置信息步骤之后，所述方法还包括：

4.根据权利要求3所述的多任务模型训练方法，其特征在于，所述根据所述样本用户属性特征和所述样本多媒体属性特征，确定所述样本数据与所述多个专家网络的第二对应关系步骤包括：

根据所述随机数，确定所述第二对应关系。

5.一种多媒体资源推荐方法，其特征在于，包括：

获取目标用户匹配的召回多媒体资源；

将所述目标用户属性特征和所述多媒体属性特征输入目标多任务模型，进行多任务预测处理，得到多任务预测结果；其中，所述目标多任务模型为基于所述权利要求1至4任一所述方法得到的；

向所述目标用户推荐所述目标多媒体资源。

6.一种多任务模型训练装置，其特征在于，包括：

多任务学习模块，被配置为执行将所述样本用户属性特征和所述样本多媒体属性特征输入多任务模型，进行多任务学习，得到多个任务对应的多个预测信息以及所述多任务模型中多个专家网络输出的特征信息；

7.一种多媒体资源推荐装置，其特征在于，包括：

预测处理模块，被配置为执行将所述目标用户属性特征和所述多媒体属性特征输入目标多任务模型，进行多任务预测处理，得到多任务预测结果；其中，所述目标多任务模型为基于所述权利要求6所述的多任务模型训练装置得到的；

8.一种电子设备，其特征在于，包括：

处理器；

用于存储所述处理器可执行指令的存储器；

其中，所述处理器被配置为执行所述指令，以实现如权利要求1至4中任一项所述的多任务模型训练方法或以实现如权利要求5所述的多媒体资源推荐方法。

9.一种计算机可读存储介质，当所述计算机可读存储介质中的指令由电子设备的处理器执行时，使得所述电子设备能够执行如权利要求1至4中任一项所述的多任务模型训练方法或如权利要求5所述的多媒体资源推荐方法。

10.一种计算机程序产品，包括计算机指令，其特征在于，所述计算机指令被处理器执行时实现权利要求1至4中任一项所述的多任务模型训练方法或权利要求5所述的多媒体资源推荐方法。