CN113254792B

CN113254792B - 训练推荐概率预测模型的方法、推荐概率预测方法及装置

Info

Publication number: CN113254792B
Application number: CN202110798567.8A
Authority: CN
Inventors: 伍海洋
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2021-07-15
Filing date: 2021-07-15
Publication date: 2021-11-02
Anticipated expiration: 2041-07-15
Also published as: CN113254792A

Abstract

本申请提供一种训练推荐概率预测模型的方法、推荐概率预测方法及装置，涉及人工智能技术领域，方法包括：在对推荐概率预测模型进行多轮迭代训练过程中，将从样本数据集中获取的样本数据，输入推荐概率预测模型，获得样本数据对应的预测推荐结果；根据样本数据对应的预测推荐结果和实际推荐结果，获得相应的基本损失值；基于基本损失值和第一调整值，获得相应的目标损失值；其中，第一调整值用于表征基于相应的样本数据获得的，每两个任务网络的输出结果的总差异程度，且第一调整值与目标损失值呈负相关；根据目标损失值，对推荐概率预测模型进行参数调整，以提高训练后的推荐概率预测模型的预测性能，进而提高对待预测信息的预测准确性。

Description

训练推荐概率预测模型的方法、推荐概率预测方法及装置

技术领域

本申请涉及人工智能技术领域，尤其涉及一种训练推荐概率预测模型的方法、推荐概率预测方法及装置。

背景技术

随着互联网技术的不断发展，各种网络信息层出不穷，例如文章、视频、图片、商品、广告等等，使得信息推荐系统得到了广泛应用。在实际应用中，当通过信息推荐系统向目标对象推荐文章、视频、图片等信息时，目的是达到以下推荐效果：目标对象点击了推荐信息，然后看完推荐信息的全部内容，并进行点赞、转发、评论等互动。

相关技术下，为了达到上述推荐效果，信息推荐系统通常采用训练后的多任务学习模型对各个待推荐信息的推荐概率进行预测，进而根据各个待推荐信息的推荐概率选择目标推荐信息。具体地，多任务学习模型可以通过多个神经网络学习不同维度的特征，进而结合多个神经网络的输出结果，分别预测点击率、观看完成率、互动率等推荐概率。

多任务学习模型的多个神经网络的输出结果具有差异性，有利于提升模型对于多个任务的预测性能。但是，目前的多任务学习模型通常存在多个神经网络的输出结果趋同的问题，即多个神经网络的输出结果差异很小，使得训练后的多任务学习模型的预测性能不高，这会对待预测信息的预测准确性造成影响。

发明内容

本申请实施例提供一种训练推荐概率预测模型的方法、推荐概率预测方法及装置，用于提高训练后的推荐概率预测模型的预测性能，进而提高对待预测信息的预测准确性。

第一方面，本申请实施例提供一种推荐概率预测方法，包括：

基于样本数据集对待训练的推荐概率预测模型进行多轮迭代训练，直到满足预设的收敛条件为止，并将最后一轮输出的推荐概率预测模型作为目标推荐概率预测模型，所述推荐概率预测模型包括多个任务网络，每个任务网络用于从一个特征维度对输入至所述推荐概率预测模型的样本数据进行特征提取，其中，在一轮迭代训练过程中，执行以下操作：

将从所述样本数据集中获取的样本数据，输入所述推荐概率预测模型，获得所述样本数据对应的预测推荐结果；

根据所述样本数据对应的预测推荐结果和实际推荐结果，获得相应的基本损失值；

基于所述基本损失值和第一调整值，获得相应的目标损失值；其中，所述第一调整值用于表征基于相应的样本数据获得的，每两个任务网络的输出结果的总差异程度，且所述第一调整值与所述目标损失值呈负相关；

根据所述目标损失值，对所述推荐概率预测模型进行参数调整。

第二方面，本申请实施例提供一种推荐概率预测方法，包括：

获取目标对象的目标属性，以及分别获取各个待推荐信息各自的目标特征；

将获得的所述目标属性和各个目标特征，分别输入已训练的目标推荐概率预测模型中，分别输出所述各个待推荐信息各自的预测推荐概率；其中，所述目标推荐概率预测模型是根据第一方面的任一种方法训练得到的。

第三方面，本申请实施例提供一种训练推荐概率预测模型的装置，包括：

训练模块，用于基于样本数据集对待训练的推荐概率预测模型进行多轮迭代训练，直到满足预设的收敛条件为止，并将最后一轮输出的推荐概率预测模型作为目标推荐概率预测模型，所述推荐概率预测模型包括多个任务网络，每个任务网络用于从一个特征维度对输入至所述推荐概率预测模型的样本数据进行特征提取，其中，在一轮迭代训练过程中，执行以下操作：

在一种可能的实施例中，所述将从所述样本数据集中获取的样本数据，输入所述推荐概率预测模型，获得所述样本数据对应的预测推荐结果时，所述训练模块，还用于：

将从所述样本数据集中获取的样本数据，输入所述推荐概率预测模型，分别获得所述多个任务网络各自的输出结果以及所述多个任务网络各自对应的权重，并根据获得的各个输出结果和相应的权重，确定所述样本数据对应的预测推荐结果；

所述训练模块，还用于通过如下方式获得第一调整值：

分别获得所述多个任务网络中，每两个任务网络的输出结果之间的第一差异值，并基于获得的各个第一差异值，获得所述第一调整值。

在一种可能的实施例中，所述多个任务网络各自的输出结果为输出向量；

所述分别获得所述多个任务网络中，每两个任务网络对应的输出结果之间的第一差异值，并基于获得的各个第一差异值，获得所述第一调整值时，所述训练模块还用于：

分别获取所述多个任务网络中，每两个任务网络对应的输出向量之间的第一距离，以及将获得的各个第一距离分别作为相应的第一差异值；

对获得的各个第一差异值执行求和操作，获得所述第一调整值。

在一种可能的实施例中，所述预测推荐结果包括针对预设的多个预测维度的预测推荐概率；

所述将从所述样本数据集中获取的样本数据，输入所述推荐概率预测模型，分别获得所述多个任务网络各自的输出结果以及所述多个任务网络各自对应的权重，并根据获得的各个输出结果和相应的权重，确定所述样本数据对应的预测推荐结果时，所述训练模块还用于：

将从所述样本数据集中获取的样本数据，输入所述推荐概率预测模型，分别获得所述多个任务网络各自的输出结果，以及获得所述多个任务网络各自在所述多个预测维度下的权重；

根据所述多个任务网络各自在预设的多个预测维度下的权重，分别获得所述多个预测维度各自对应的权重向量，其中，每个维度对应的权重向量包含的各个元素，分别与所述多个任务网络各自在相应维度下对应的权重一一对应；

针对所述多个预测维度，分别执行以下操作：根据一个预测维度对应的权重向量，以及所述多个任务网络各自的输出结果，确定所述样本数据在所述一个预测维度下对应的预测推荐概率。

在一种可能的实施例中，所述根据一个预测维度对应的权重向量，以及所述多个任务网络各自的输出结果，确定所述样本数据在所述一个预测维度下对应的预测推荐概率时，所述训练模块还用于：

将所述一个预测维度对应的权重向量中的各个元素，分别与相应的任务网络的输出结果进行融合，得到所述一个预测维度对应的最终输出结果；

根据所述一个预测维度对应的最终输出结果，确定所述样本数据在所述一个预测维度下对应的预测推荐概率。

在一种可能的实施例中，所述分别获得所述多个预测维度各自对应的权重向量之后，所述基于所述基本损失值和所述第一调整值，获得相应的目标损失值之前，所述训练模块还用于：

分别获得所述预设的多个预测维度中，每两个预测维度对应的权重向量之间的第二差异值，并基于获得的各个第二差异值，获得第二调整值；其中，所述第二调整值用于表征基于相应的样本数据获得的，每两个预测维度对应的多个任务网络的权重向量的总差异程度，且所述第二调整值与所述目标损失值呈负相关；

所述基于所述基本损失值和所述第一调整值，获得相应的目标损失值，包括：

基于所述基本损失值、所述第一调整值和所述第二调整值，确定所述目标损失值。

在一种可能的实施例中，所述分别获得所述多个预测维度中，每两个预测维度对应的权重向量之间的第二差异值，并基于获得的各个第二差异值，获得第二调整值时，所述训练模块还用于：

分别获得所述多个预测维度中，每两个预测维度对应的权重向量之间的第二距离，并将获得的各个第二距离作为相应的第二差异值；

对获得的各个第二差异值执行求和操作，获得所述第二调整值。

在一种可能的实施例中，所述推荐概率预测模型还包括多个门控网络、多个融合模块以及多个预测网络；每个门控网络用于输出相应的一个预测维度对应的权重向量；每个融合模块用于根据相应的一个预测维度对应的权重向量，对所述多个任务网络各自的输出结果进行融合；每个预测网络用于根据相应的一个预测维度下的融合后的最终输出结果，得到对应的预测推荐概率。

第四方面，本申请实施例提供一种推荐概率预测装置，包括：

获取模块，用于获取目标对象的目标属性，以及分别获取各个待推荐信息各自的目标特征；

预测模块，用于将获得的所述目标属性和各个目标特征，分别输入已训练的目标推荐概率预测模型中，分别输出所述各个待推荐信息各自的预测推荐概率；其中，所述目标推荐概率预测模型是根据第一方面的任一种方法训练得到的。

在一种可能的实施例中，所述各个待推荐信息中的每个待推荐信息的预测推荐概率为: 针对预设的目标维度的预测推荐概率；

所述将获得的所述目标属性和各个目标特征，分别输入已训练的目标推荐概率预测模型中，分别输出所述各个待推荐信息各自的预测推荐概率的过程中，所述预测模块还用于：

每输出一个待推荐信息的预测推荐概率，执行以下操作：若输出的预测推荐概率大于第一预设概率阈值，则将相应的待推荐信息作为目标推荐信息；

将获得的各个目标推荐信息按照各自的预测推荐概率进行排序。

在一种可能的实施例中，所述各个待推荐信息中的每个待推荐信息的预测推荐概率包括，针对预设的多个预测维度的预测推荐概率；

每输出一个待推荐信息的预测推荐概率，执行以下操作之一：

若输出的多个预测维度的预测推荐概率中的一个，大于相应的第二预设概率阈值，则将相应的待推荐信息作为目标推荐信息；

若输出的多个预测维度的预测推荐概率中的多个，分别大于各自的第三预设概率阈值，则将相应的待推荐信息作为目标推荐信息；

将获得的各个目标推荐信息，按照各自的多个预测维度的预测推荐概率进行排序。

第五方面，本申请实施例提供一种电子设备，其包括处理器和存储器，其中，所述存储器存储有程序代码，当所述程序代码被所述处理器执行时，使得所述处理器执行第一方面或者第二方面所述方法的步骤。

第六方面，本申请实施例提供一种计算机存储介质，所述计算机存储介质存储有计算机指令，当所述计算机指令在计算机上运行时，使得计算机执行第一方面或者第二方面所述方法的步骤。

由于本申请实施例采用上述技术方案，至少具有如下技术效果：

在推荐概率预测模型的训练过程中，每次输入样本数据后，可以基于相应的样本数据关联的预测推荐结果和实际推荐结果获得基本损失值，然后根据第一调整值对基本损失值进行调整，获得推荐概率预测模型的目标损失值。

由于上述第一调整值表示相应的样本数据获得的每两个任务网络的输出结果的总差异程度，且该第一调整值与目标损失值呈负相关，因此，当第一调整值变大时，说明每两个任务网络的输出结果的总差异程度变大，这时目标损失值变小；当第一调整值变小时，说明每两个任务网络的输出结果的总差异程度变小，这时目标损失值变大。从而可以增大训练后的目标推荐概率预测模型中，每两个任务网络的输出结果的总差异程度，以提高目标推荐概率预测模型的预测性能，进而提高对待预测信息的预测准确性。

本申请的其它特征和优点将在随后的说明书中阐述，并且，部分地从说明书中变得显而易见，或者通过实施本申请而了解。本申请的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简要介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域的普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本申请实施例提供的一种训练推荐概率预测模型的方法的应用场景示意图；

图2为本申请实施例提供的一种多任务学习网络的示意图；

图3为本申请实施例提供的一种训练推荐概率预测模型的方法流程图；

图4为本申请实施例提供的另一种训练推荐概率预测模型的方法流程图；

图5A为本申请实施例提供的另一种训练推荐概率预测模型的方法流程图；

图5B为本申请实施例提供的另一种训练推荐概率预测模型的方法流程图；

图5C为本申请实施例提供的一种推荐概率预测模型的训练过程示意图；

图6为本申请实施例提供的另一种训练推荐概率预测模型的方法流程图；

图7为本申请实施例提供的另一种多任务学习网络的示意图；

图8A为本申请实施例提供的一种推荐概率预测方法的流程图；

图8B为本申请实施例提供的一种推荐概率预测方法的逻辑示意图；

图9为本申请实施例提供的一种训练推荐概率预测模型的装置的结构框图；

图10为本申请实施例提供的一种推荐概率预测装置的结构框图；

图11为本申请实施例提供的一种电子设备的结构示意图；

图12为本申请实施例中的一个计算装置的结构示意图。

具体实施方式

为了使本申请的目的、技术方案和优点更加清楚，下面将结合附图对本申请作进一步地详细描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例，都属于本申请保护的范围。

为了便于本领域技术人员更好地理解本申请的技术方案，下面对本申请涉及的名词进行介绍。

多任务学习模型：一个模型同时学习多个任务，比如，视频推荐场景下：一个推荐模型既学习点击概率预测任务，又学习播放时长预测任务，又学习互动概率预测任务。

多门控混合专家网络（Multi-gate Mixture-of-Experts，MMOE）: 一种多任务学习框架。

下文中所用的词语“示例性”的意思为“用作例子、实施例或说明性”。作为“示例性”所说明的任何实施例不必解释为优于或好于其它实施例。

文中的术语“第一”、“第二”仅用于描述目的，而不能理解为明示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个该特征，在本申请实施例的描述中，除非另有说明，“多个”的含义是两个或两个以上。

本申请实施例涉及人工智能（ArtificialIntelligence，AI）和机器学习技术，基于人工智能中的机器学习（MachineLearning，ML）而设计。

人工智能是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。

人工智能是一门综合学科，涉及的领域广泛，既有硬件层面的技术，也有软件层面的技术。人工智能的基础技术一般包括传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作交互系统、机电一体化等技术；人工智能的软件技术一般包括计算机视觉技术、自然语言处理技术、以及机器学习/深度学习等几大方向。随着人工智能的发展与进步，人工智能在多个领域中进行研究和应用，如常见的智能家居、智能客服、虚拟助理、智能音箱、智能营销、无人驾驶、自动驾驶、机器人、智能医疗等，相信随着未来技术的进一步发展，人工智能将在更多的领域中得到应用，发挥出越来越重要的价值。

机器学习是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。

机器学习是人工智能的核心，是使计算机具有智能的根本途径，那么深度学习则是机器学习的核心，是实现机器学习的一种技术。机器学习通常包括深度学习、强化学习、迁移学习、归纳学习等技术，深度学习则包括移动视觉神经网络Mobilenet、卷积神经网络（Convolutional Neural Networks，CNN）、深度置信网络、递归神经网络、自动编码器、生成对抗网络等技术。

下面对本申请实施例的设计思想进行简要介绍：

相关技术中，多任务学习模型通常存在多个神经网络的输出结果趋同的问题，即多个神经网络的输出结果差异很小，使得训练后的多任务学习模型的预测性能不高，这会对待预测信息的预测准确性造成影响。有鉴于此，本申请实施例提出了一种推荐概率预测方法、装置、电子设备及存储介质。由于本申请实施例在对推荐概率预测模型进行训练时，能够基于第一调整值调整目标损失值的大小，该第一调整值表示每两个任务网络的输出结果的总差异程度，由于第一调整值与目标损失值呈负相关，因此，可以增大训练后的目标推荐概率预测模型中，每两个任务网络的输出结果的总差异程度，以提高目标推荐概率预测模型的预测性能，进而提高对待预测信息的预测准确性。

以下结合说明书附图对本申请的优选实施例进行说明，应当理解，此处所描述的优选实施例仅用于说明和解释本申请，并不用于限定本申请，并且在不冲突的情况下，本申请实施例及实施例中的特征可以相互组合。

如图1所示，其为本申请实施例中应用场景示意图。该应用场景示意图中包括两种终端设备110和一个服务器111。终端设备110与服务器111之间可以通过通信网络进行通信。

在本申请实施例中，终端设备110为用户使用的电子设备，该电子设备可以是个人计算机、手机、平板电脑、笔记本、电子书阅读器、智能家居、车载终端等设备。各终端设备110可以通过通信网络与服务器111进行通信，在一种可选的实施方式中，通信网络可以是有线网络或无线网络，因此，终端设备110以及服务器111可通过有线或无线通信方式进行直接或间接地连接，本申请实施例在此不做具体限制。

服务器111可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云服务、云数据库、云计算、云存储、云函数、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络（Content Delivery Network，CDN），以及大数据和人工智能平台等基础云计算服务的云端服务器。

本申请实施例中，服务器111可以执行推荐概率预测模型的训练操作，以得到训练好的目标推荐概率预测模型，终端设备110可以安装资讯类应用、浏览器类应用、视频类应用、购物类应用等各种应用，可以接收服务器111推荐的各类信息，例如视频、图片、文章、广告、商品等推荐信息。服务器111在向终端设备110推荐信息时，可以通过目标推荐概率预测模型从大量待推荐信息中选择目标推荐信息，并向终端设备110进行推送。

在本申请的一些实施例中，终端设备110和服务器111可以是分布式系统中的节点，以分布式系统为区块链系统为例，区块链系统由多个节点（接入网络中的任意形式的计算设备，如服务器、终端设备）和客户端形成，节点之间形成组成的点对点（P2P，Peer ToPeer）网络，P2P 协议是一个运行在传输控制协议（TCP，Transmission Control Protocol ）协议之上的应用层协议。在分布式系统中，任何机器如服务器、终端都可以加入而成为节点，节点包括硬件层、中间层、操作系统层和应用层。

下面结合附图，对本申请实施例中推荐概率预测模型的训练流程进行说明，本申请实施例中的训练流程可应用于服务器，例如图1所示的服务器111。

本申请实施例中，待训练的推荐概率预测模型可以为多任务学习模型，该模型可以同时预测多个任务，每个任务表示一个预测维度的推荐概率。例如，待推荐信息为视频时，其推荐概率可以包括点击概率、播放时长、互动概率等多个预测维度的推荐概率。可选的，多任务学习模型可以为MMOE网络模型，也可以为其他网络模型。下面对MMOE网络进行介绍。

如图2所示，以MMOE网络模型同时预测两个任务为例，MMOE网络包括多个专家网络、两个门控网络、两个融合模块和两个塔网络，也就是说，门控网络的数量、融合模块的数量、塔网络的数量与任务数量相同，而专家网络的数量可以根据实际需求设置。每个专家网络可以通过全连接网络对输入的特征进行处理，以从相应的特征维度进行特征提取，全连接网络的层数可以根据实际需求设置。每个门控网络可以采用Softmax函数，用于针对相应的任务，学习多个专家网络的不同组合模式，即对多个专家网络的输出结果进行自适应加权。每个融合模块用于，每个塔网络可以采用神经网络，用于输出相应任务的预测结果。在图2中，门控网络1、融合模块1、塔网络1与任务1相对应，门控网络2、融合模块2、塔网络2与任务2相对应。

在介绍完待训练的推荐概率预测模型之后，下面对推荐概率预测模型的具体训练过程进行说明。

参阅图3所示，本申请实施例对推荐概率预测模型进行训练的训练流程如下：

步骤S31，获取样本数据集。

本申请实施例中，在信息推荐场景下，样本数据集中的每个样本包括样本用户的用户属性，以及样本推荐信息的样本特征，其中，用户属性可以包括用户年龄、性别、喜好信息、历史行为信息等，样本特征可以包括样本推荐信息的内容等，样本推荐信息包括但不限于视频、文章、图片、商品、广告等。样本数据集可以从信息推荐场景下的实际推荐数据中获取。

样本推荐信息以视频为例，需要预测的多个任务包括：点击概率、观看时长、互动（评论、分享、点赞等）概率。对于一个样本推荐信息，点击任务的标签为点击或者未点击，点击可以用1表示，未点击可以用0表示；观看时长任务的标签为实际观看时长或者未观看，未观看可以用0表示；互动任务的标签为互动或者未互动，互动可以用1表示，未互动可以用0表示。

步骤S32，基于样本数据集，对待训练的推荐概率预测模型进行多轮迭代训练。

如图4所示，步骤S32中在一轮迭代训练过程中，可以执行以下操作：

步骤S321，将从样本数据集中获取的样本数据，输入推荐概率预测模型，获得样本数据对应的预测推荐结果。

在一些实施例中，如图5A所示，步骤S321可以包括如下步骤：

步骤S3211，将从样本数据集中获取的样本数据，输入推荐概率预测模型，分别获得多个任务网络各自的输出结果以及多个任务网络各自对应的权重，并根据获得的各个输出结果和相应的权重，确定样本数据对应的预测推荐结果。

其中，推荐概率预测模型的多个任务网络可以采用深度学习网络，分别用于从相应的特征维度对输入的样本数据进行特征提取，以实现多个特征维度的特征提取。例如，样本数据中的样本推荐信息为视频时，多个特征维度可以为点击相关的特征、播放时长相关的特征、互动相关的特征等。多个任务网络各自的输出结果可以是特征向量。例如，推荐概率预测模型采用上述MMOE网络模型时，任务网络可以理解为MMOE网络模型中的专家网络。

本申请实施例中，推荐概率预测模型采用多任务学习网络时，可以针对一个任务进行预测，该一个任务可以理解为从预设的目标预测维度进行推荐概率预测；也可以同时针对多个任务进行预测，多个任务可以理解为从预设的多个预测维度进行推荐概率预测。当针对多个任务进行预测时，步骤S3021中获得的多个任务网络各自对应的权重，包括多个任务对应的权重。

示例性的，多个任务网络包括任务网络1、任务网络2和任务网络3，对于任务1和任务2来说，任务网络1对应的权重包括任务1的权重a1和任务2的权重a2，任务网络2对应的权重包括任务1的权重b1和任务2的权重b2，任务网络3对应的权重包括任务1的权重c1和任务2的权重c2。也就是说，任务1对任务网络1、任务网络2和任务网络3的权重分别为a1、b1、c1，任务2对任务网络1、任务网络2和任务网络3的权重分别为a2、b2、c2。

在一种可能的实施方式中，推荐概率预测模型还包括多个门控网络、多个融合模块和多个预测模块；每个门控网络用于输出相应的一个预测维度对应的权重向量；每个融合模块用于根据相应的一个预测维度对应的权重向量，对多个任务网络各自的输出结果进行融合；每个预测网络用于获得相应的一个预测维度的预测推荐概率。其中，每个门控网络可以但不限于采用Softmax函数，每个预测网络可以采用深度学习网络，包括但不限于前馈神经网络、卷积神经网络等。

该实施方式中，在将样本数据输入推荐概率预测模型时，可以同时输入多个任务网络以及多个门控网络，以分别获得多个任务网络各自的输出结果以及多个任务网络各自对应的权重。

在一些实施例中，当推荐概率预测模型同时针对多个任务进行预测时，预测推荐结果包括针对预设的多个预测维度的预测推荐概率，此时，如图5B所示，步骤S3211可以包括如下步骤：

步骤S3211_1，将从样本数据集中获取的样本数据，输入推荐概率预测模型，分别获得多个任务网络各自的输出结果，以及获得多个任务网络各自在多个预测维度下的权重。

该步骤中，可以将获取的样本数据，同时输入推荐概率预测模型的多个任务网络以及多个门控网络，分别获得多个任务网络各自的输出结果，以及多个门控网络各自输出的，多个任务网络各自在多个预测维度下的权重。

步骤S3211_2，根据多个任务网络各自在多个预测维度下的权重，分别获得多个预测维度各自对应的权重向量，其中，每个维度对应的权重向量包含的各个元素，分别与多个任务网络各自在相应维度下对应的权重一一对应。

例如，以2个预测维度，3个任务网络为例，对于任务网络1、任务网络2和任务网络3来说，任务网络1在预测维度1、预测维度2下的权重分别为w1、w1’，任务网络2在预测维度1、预测维度2下的权重分别为w2、w2’，任务网络3在预测维度1、预测维度2下的权重分别为w3、w3’，则预测维度1对应的权重向量为{w1、w2、w3}，预测维度2对应的权重向量为{w1’、w2’、w3’}。

步骤S3211_3，针对多个预测维度，分别执行以下操作：根据一个预测维度对应的权重向量，以及多个任务网络各自的输出结果，确定样本数据在一个预测维度下对应的预测推荐概率。

在一些可能的实施方式中，由本申请上述实施例可知，推荐概率预测模型包括多个预测网络，每个预测网络用于获得一个预测维度的预测推荐概率；

步骤S3211_3中根据一个预测维度对应的权重向量，以及多个任务网络各自的输出结果，确定样本数据在一个预测维度下对应的预测推荐概率，可以包括如下步骤：

A1、将一个预测维度对应的权重向量中的各个元素，分别与相应的任务网络的输出结果进行融合，得到一个预测维度对应的最终输出结果。

A2、将一个预测维度对应的最终输出结果输入相应的预测网络，获得样本数据在一个预测维度下对应的预测推荐概率。

如图5C所示，例如，推荐概率预测模型针对2个预测维度进行推荐概率预测，对于任务网络1、任务网络2和任务网络3来说，假设任务网络1输出的特征向量为T1，任务网络2输出的特征向量为T2，任务网络3输出的特征向量为T3，即任务网络1-任务网络3 输出的特征向量为{T1、T2、T3}。门控网络1对任务网络1输出的权重为w1，门控网络2对任务网络2输出的权重为w2，门控网络3对任务网络3输出的权重为w3，即门控网络1对任务网络1-任务网络3输出的权重为{w1、w2、w3}，同理，门控网络2对任务网络1-任务网络3输出的权重为{w1’、w2’、w3’}。

进一步地，融合模块1对{T1、T2、T3}和{w1、w2、 w3}融合得到的带权重的特征向量为{w1T1、w2T2、w3T3}，为预测网络1的输入特征；融合模块2对{T1、T2、T3}和{w1’、w2’、w3’}融合得到的带权重的特征向量为{w1’T1、w2’T2、w3’T3}，为预测网络2的输入特征。进而分别获得样本数据在多个预测维度下对应的预测推荐概率。

步骤S322，根据样本数据对应的预测推荐结果和实际推荐结果，获得相应的基本损失值。

该步骤中，例如样本数据中的样本推荐信息为视频，该视频的预测推荐结果中点击概率为0.8，实际推荐结果为点击，表示为1，则基本损失值为0.2。

当预测推荐结果包括针对多个预测维度的预测推荐概率时，例如，预测维度1、预测维度2、预测维度3，基本损失值包括预测维度1下的损失值、预测维度2下的损失值、预测维度3下的损失值之和。

步骤S323，基于基本损失值和第一调整值，获得相应的目标损失值；其中，第一调整值用于表征基于相应的样本数据获得的，每两个任务网络的输出结果的总差异程度，且第一调整值与目标损失值呈负相关。

在一些实施例中，可以根据上述步骤S3211中获得的多个任务网络各自的输出结果，获得第一调整值。因此，在执行上述步骤S3211之后，在执行步骤S323之前，还可以执行如下步骤：

B、分别获得多个任务网络中，每两个任务网络的输出结果之间的第一差异值，并基于获得的各个第一差异值，获得第一调整值。

在一些可能的实施方式中，上述步骤B可以包括如下步骤：

B1、分别获取多个任务网络中，每两个任务网络对应的输出向量之间的第一距离，以及将获得的各个第一距离分别作为相应的第一差异值。

本申请实施例中，每两个任务网络对应的输出向量之间的第一距离，可以表示每两个任务网络对应的输出向量之间的差异性，第一距离越大，说明差异性越大，因此，可以将第一距离作为第一差异值。例如，第一距离可以通过计算两个任务网络的输出向量之间的余弦距离得到。其中，两个向量的余弦距离通过计算两个向量的夹角余弦值获得。需要说明的是，两个向量的余弦距离越大，表示这两个向量的距离越大，即差异性越大。

B2、对获得的各个第一差异值执行求和操作，获得第一调整值。

例如，对于3个任务网络来说，任务网络1的输出向量和任务网络2的输出向量的第一差异值为n1，任务网络1的输出向量和任务网络3的输出向量的第一差异值为n2，任务网络2的输出向量和任务网络3的输出向量的第一差异值为n3，第一调整值m1=n1+n2+n3。

例如，基本损失值为L、第一调整值为m1，目标损失值为L’，则L’可以表示为

，

可以是设定系数。这样，在L一定时，当m1变大时，L’变小，使得第一调整值与目标损失值呈负相关。

步骤S324，根据目标损失值，对推荐概率预测模型进行参数调整。

步骤S33，确定满足预设的收敛条件时，获得目标推荐概率预测模型。

例如，预设的收敛条件可以是迭代次数达到设定次数，或者目标损失值小于设定值，在此不作限定。

本申请实施例中，在推荐概率预测模型的训练过程中，每次输入样本数据后，可以基于相应的样本数据关联的预测推荐结果和实际推荐结果获得基本损失值，然后根据第一调整值对基本损失值进行调整，获得推荐概率预测模型的目标损失值。

在一些实施例中，推荐概率预测模型采用多任务学习模型，该多任务学习模型在从多个预测维度进行训练时，即对多个任务进行训练，多个预测维度各自对应的多个任务网络的权重存在差异，可以提高多个预测维度的预测准确性。然而，相关技术中，多任务学习模型针对的多个任务进行训练时，多个任务各自对应的多个任务网络的权重存在趋同的问题。

为了解决上述问题，本申请实施例中，如图6所示，在上述步骤 S3211_2中分别获得多个预测维度各自对应的权重向量之后，以及上述步骤S323中基于基本损失值和第一调整值，获得相应的目标损失值之前，还可以包括如下步骤：

步骤S323_0，分别获得预设的多个预测维度中，每两个预测维度对应的权重向量之间的第二差异值，并基于获得的各个第二差异值，获得第二调整值；其中，第二调整值用于表征基于相应的样本数据获得的，每两个预测维度对应的多个任务网络的权重向量的总差异程度，且第二调整值与目标损失值呈负相关；

进一步地，上述步骤S323中基于基本损失值和第一调整值，获得相应的目标损失值，可以包括如下步骤：

S3231，基于基本损失值、第一调整值和第二调整值，确定目标损失值。

例如，基本损失值为L、第一调整值为m1、第二调整值m2，目标损失值为L’，则

，其中，

和

可以是设定系数。这样，在L一定时，当m1变大而m2不变时，L’变小；当m2变大而m1不变时，L’变小；当m1变大且m2变大时，L’变小，使得第一调整值与目标损失值呈负相关，并且第二调整值与目标损失值呈负相关。

本申请实施例中，推荐概率预测模型在针对多个预测维度进行训练时，可以保证多个预测维度各自对应的多个任务网络的权重的差异性，从而提高对多个预测维度的推荐概率的预测准确性。

在一些实施例中，步骤S3231中分别获得多个预测维度中，每两个预测维度对应的权重向量之间的第二差异值，并基于获得的各个第二差异值，获得第二调整值，可以包括如下步骤：

C1、分别获得多个预测维度中，每两个预测维度对应的权重向量之间的第二距离，并将获得的各个第二距离作为相应的第二差异值。

本申请实施例中，每两个预测维度对应的权重向量之间的第二距离，可以表示每两个预测维度对应的权重向量之间的差异性，第二距离越大，说明差异性越大，因此，可以将第二距离作为第二差异值。例如，第二距离可以通过计算两个预测维度的权重向量之间的余弦距离得到。该步骤C1与上述步骤B1的实施过程类似。

C2、对获得的各个第二差异值执行求和操作，获得第二调整值。

例如，对于3个预测维度来说，预测维度1对应的权重向量和预测维度2对应的权重向量的第二差异值为n1’，预测维度1对应的权重向量和预测维度3对应的权重向量的第二差异值为n2’，预测维度2对应的权重向量和预测维度3对应的权重向量的第二差异值为n3’，第二调整值m2=n1’+n2’+n3’。

下面以图7为例，对本申请实施例的推荐概率预测模型进行详细说明。

如图7所示，推荐概率预测模型以MMOE网络模型为例，MMOE网络的结构在本申请上述实施例中已经介绍，在此不再赘述。

MMOE网络模型的目标函数可以表示为以下式（1）：

其中，

表示模型参数，M表示任务数量，

表示第i个任务的损失值；Dexp表示多个专家网络的输出向量的多样性正则项，Dexp的值为本申请上述实施例的第一调整值； Datt表示多个任务对多个专家网络的Attention（注意力机制）权重的多样性正则项，Datt 的值为本申请上述实施例的第二调整值；

和

均为设定系数，可以根据实际需求设置，例如可以均为0.1，在此不作限定。

上述两个多样性正则项不会增加新的参数，因此只会影响MMOE网络模型的训练过程。下面对这两个多样性正则项进行说明。

（1）多个专家网络的输出向量的多样性正则项：

为了使多个专家网络学习到的知识具有差异性，在MMOE网络模型的目标损失函数中加入多个专家网络的输出向量的多样性正则项，该多样性正则项通过计算每两个专家网络的输出向量的距离，然后对获得的多个距离求和，最终得到的值越大，说明多个专家网络之间的差异性越大。其中，计算每两个专家网络的输出向量之间的距离，可以采用计算两个输出量之间的余弦距离的方式，余弦距离越大，表明两个输出向量之间的距离越大。所以，多个专家网络输出向量的多样性正则项可以如式（2）所示。

其中：H表示专家网络的个数，Vi表示第i个专家网络的输出向量，Vj表示第j个专家网络的输出向量。

如图7所示，在MMOE网络模型的目标损失函数中，加入上述多个专家网络的输出向量的多样性正则项，可以理解为，在每两个专家网络之间加入一个调整项，例如，在专家网络1和专家网络2之间加入调整项Dexp12，在专家网络1和专家网络n之间加入调整项Dexp1n，在专家网络2和专家网络n之间加入调整项Dexp2n，从而保证每两个专家网络之间的差异性。

（2）多个任务对多个专家网络的Attention权重的多样性正则项：

在模型训练过程中，容易造成多个任务同时对其中几个专家网络有较大的Attention权重，这会导致其他几个Attention权重比较小的专家网络在整个模型中作用较小，浪费模型参数和计算资源；并且也会导致多个任务之间存在相互依赖性，影响模型的预测准确度。为了缓解上述问题，在MMOE网络模型的目标损失函数中，加入多个任务对多个专家网络的Attention权重的多样性正则项，这样，可以使得多个任务对于不同专家网络的依赖程度不一样，从而达到不同专家网络侧重学习某一类知识的目标。

在一些可能的实施方式中，计算每两个任务对多个专家网络的Attention权重向量之间的距离，来衡量每两个任务对多个专家网络的Attention权重的相似性，可以采用计算向量间的余弦距离的方式。多个任务中每两个任务对多个专家网络的Attention权重向量的距离，可以根据式（3）进行计算。

其中，M表示任务数量，Ai表示第i个任务对于多个专家网络的Attention权重向量，Aj表示第j个任务对于多个专家网络的Attention权重向量。

如图7所示，在MMOE网络模型的目标损失函数中，加入上述多个任务对多个专家网络的Attention权重的多样性正则项，可以理解为，在每个任务对应的多个专家网络的Attention权重中加入一个调整项，例如，在任务1对专家网络1、专家网络2……专家网络n的Attention权重中分别加入调整项a11、a12……a1n，在任务2对专家网络1、专家网络2……专家网络n的Attention权重中分别加入调整项a21、a22……a2n，从而保证每两个任务对多个专家网络的Attention权重的差异性。

基于同一发明构思，参阅图8A所示，其为本申请实施例中提供的推荐概率预测方法的实施流程示意图，可应用于服务器，例如图1所示的服务器111，该方法的具体实施流程如下：

步骤S801，获取目标对象的目标属性，以及分别获取各个待推荐信息各自的目标特征。

其中，目标对象可以是使用终端设备的目标用户，或者登录终端设备的目标账户，目标对应的目标属性可以包括但不限于目标用户的年龄、性别、喜好信息、历史行为信息等。待推荐信息包括但不限于视频、文章、图片、商品、广告等，待推荐信息的目标特征可以包括待推荐信息的内容等。

步骤S802，将获得的目标属性和各个目标特征，分别输入已训练的目标推荐概率预测模型中，分别输出各个待推荐信息各自的预测推荐概率。

其中，目标推荐概率预测模型可以采用本申请上述实施例的训练推荐概率预测模型的方法训练获得，即基于样本数据集对待训练的推荐概率预测模型进行训练获得；其中，每次输入样本数据后获得的目标损失值至少根据基本损失值以及第一调整值确定，基本损失值是基于相应的样本数据关联的预测推荐结果和实际推荐结果获得的；推荐概率预测模型包括多个任务网络，每个任务网络用于从一个特征维度对输入至推荐概率预测模型的样本数据进行特征提取，第一调整值用于表征基于相应的样本数据获得的，每两个任务网络的输出结果的总差异程度，且第一调整值与目标损失值呈负相关。

在一些实施例中，各个待推荐信息中的每个待推荐信息的预测推荐概率为: 针对预设的目标预测维度的预测推荐概率。

本申请实施例中，目标推荐概率预测模型可以针对一个预测维度进行推荐概率的预测，即预测目标预测维度的推荐概率。

步骤S802中将获得的目标属性和各个目标特征，分别输入已训练的目标推荐概率预测模型中，分别输出各个待推荐信息各自的预测推荐概率的过程中，每输出一个待推荐信息的预测推荐概率，可以执行以下操作：

若输出的预测推荐概率大于第一预设概率阈值，则将相应的待推荐信息作为目标推荐信息。

其中，预测推荐概率可以表示向目标用户推荐待推荐信息的可能性，预测推荐概率与向目标用户推荐待推荐信息的可能性成正比，即当预测推荐概率较大时，表示向目标用户推荐待推荐信息的可能性较大，当预测推荐概率较小时，表示向目标用户推荐待推荐信息的可能性较小。

具体实施时，可以预先设置第一预设概率阈值，第一预设概率阈值可以根据需要设置，例如可以为0.8，在此不作限定。当目标用户的预测推荐概率大于第一预设概率阈值时，可以将相应的待推荐信息作为目标推荐信息，进而将目标推荐信息推荐给目标用户，或者将目标推荐信息作为候选推荐信息，并在候选推荐信息中选择向目标用户进行推荐的信息。

进一步地，将获得的各个目标推荐信息按照各自的预测推荐概率进行排序,然后根据排序结果选择推荐给目标用户的推荐信息。

例如，按照预测推荐概率从大到小的顺序，将各个目标推荐信息进行排序；或者按照预测推荐概率从小到大的顺序，将各个目标推荐信息进行排序。

在另一些实施例中，各个待推荐信息中的每个待推荐信息的预测推荐概率包括，针对预设的多个预测维度的预测推荐概率。

本申请实施例中，目标推荐概率预测模型可以同时针对多个预测维度进行推荐概率的预测，即同时预测多个预测维度的推荐概率。

步骤S802中将获得的目标属性和各个目标特征，分别输入已训练的目标推荐概率预测模型中，分别输出各个待推荐信息各自的预测推荐概率的过程中，每输出一个待推荐信息的预测推荐概率，可以执行以下操作之一：

操作一、若输出的多个预测维度的预测推荐概率中的一个，大于相应的第二预设概率阈值，则将相应的待推荐信息作为目标推荐信息。

操作二、若输出的多个预测维度的预测推荐概率中的多个，分别大于各自的第三预设概率阈值，则将相应的待推荐信息作为目标推荐信息。

其中，第二预设概率阈值可以根据需要设置，第三预设概率阈值也可以根据需要设置，在此不作限定。

例如，目标推荐概率预测模型同时预测3个预测维度的推荐概率，在一些情况下，可以设置为：其中任意一个预测维度的推荐概率，大于相应的推荐概率阈值，可以将相应的待推荐信息作为目标推荐信息；在另一些情况下，可以设置为：其中任意两个预测维度的推荐概率，分别大于各自对应的推荐概率阈值，可以将相应的待推荐信息作为目标推荐信息；在另一些情况下，可以设置为：其中指定两个预测维度的推荐概率，分别大于各自对应的推荐概率阈值，可以将相应的待推荐信息作为目标推荐信息；在又一些情况下，可以设置为：3个预测维度的推荐概率分别大于各自对应的推荐概率阈值，可以将相应的待推荐信息作为目标推荐信息。

进一步地，将获得的各个目标推荐信息，按照各自的多个预测维度的预测推荐概率进行排序，然后根据排序结果选择推荐给目标用户的推荐信息。

本申请实施例中，可以按照指定的一个预测维度的预测推荐概率进行排序，也可以按照多个预测维度的预测推荐概率的平均值进行排序。

例如，按照一个预测维度的预测推荐概率从大到小的顺序，将各个目标推荐信息进行排序，然后选择排在前N个的目标推荐信息推荐给目标用户；或者按照一个预测维度的预测推荐概率从小到大的顺序，将各个目标推荐信息进行排序，然后选择排在后M个的目标推荐信息推荐给目标用户。

又例如，按照多个预测维度的预测推荐概率的平均值从大到小的顺序，将各个目标推荐信息进行排序；按照多个预测维度的预测推荐概率的平均值从小到大的顺序，将各个目标推荐信息进行排序。

下面结合图8B对本申请实施例的推荐概率预测方法进行示例性介绍。

如图8B所示，待推荐信息以视频A为例，通过目标推荐概率预测模型，预测目标用户对视频A的点击概率、观看时长和互动概率。将目标用户的用户属性和视频A的视频特征输入目标推荐概率预测模型，输出点击概率为0.8、观看时长为40min、互动概率为0.6。

假设点击概率阈值为0.75，由于点击概率大于点击概率阈值，预测用户A会点击视频A；假设观看时长阈值为30min，则预测观看时长阈值大于观看时长阈值；假设互动概率阈值为0.7，由于互动概率小于互动概率阈值，预测用户A不会针对视频A进行互动。

如果预先规定点击概率、观看时长和互动概率中的任意一个，大于相应的推荐概率阈值，即可将待推荐信息作为目标推荐信息，则可以将视频A作为目标推荐视频；如果预先规定点击概率和观看时长，分别大于各自对应的推荐概率阈值，即可将待推荐信息作为目标推荐信息，则可以将视频A作为目标推荐视频；如果预先规定点击概率和互动概率，分别大于各自对应的推荐概率阈值，即可将待推荐信息作为目标推荐信息，则不将视频A作为目标推荐视频；如果预先规定点击概率、观看时长和互动概率中分别大于各自对应的推荐概率阈值，可将待推荐信息作为目标推荐信息，则不将视频A作为目标推荐视频。

下面对本申请实施例的目标推荐概率预测模型的应用场景进行介绍。

本申请实施例的目标推荐概率预测模型可以应用于信息推荐场景，以文章推荐为例，信息推荐流程一般分成召回和排序两个阶段。

1. 召回阶段：召回阶段的目标是从千万级的视频库里面选择出数千个候选视频。

2. 排序阶段：排序阶段的目标是从召回的数千个视频中选择几个视频，发送给客户端展示。

目标推荐概率预测模型可以应用于召回阶段，例如，从视频库里获得大量待推荐视频后，预测被推荐用户对各个待推荐视频的点击概率、播放时长、互动概率等，然后根据预测结果选择候选视频。目标推荐概率预测模型还可以应用于排序阶段，对候选视频进行预测，然后根据预测结果对候选视频进行排序，进而根据排序结果选择推荐视频。

基于相同的发明构思，本申请实施例提供一种训练推荐概率预测模型的装置，该装置解决问题的原理与上述实施例的方法相似，因此该装置的实施可以参见上述方法的实施，重复之处不再赘述。

参见图9所示，本申请实施例提供的一种训练推荐概率预测模型的装置90，包括训练模块91。

训练模块91，用于基于样本数据集对待训练的推荐概率预测模型进行多轮迭代训练，直到满足预设的收敛条件为止，并将最后一轮输出的推荐概率预测模型作为目标推荐概率预测模型，推荐概率预测模型包括多个任务网络，每个任务网络用于从一个特征维度对输入至推荐概率预测模型的样本数据进行特征提取，其中，在一轮迭代训练过程中，执行以下操作：

将从样本数据集中获取的样本数据，输入推荐概率预测模型，获得样本数据对应的预测推荐结果；

根据样本数据对应的预测推荐结果和实际推荐结果，获得相应的基本损失值；

基于基本损失值和第一调整值，获得相应的目标损失值；其中，第一调整值用于表征基于相应的样本数据获得的，每两个任务网络的输出结果的总差异程度，且第一调整值与目标损失值呈负相关；

根据目标损失值，对推荐概率预测模型进行参数调整。

在一种可能的实施例中，将从样本数据集中获取的样本数据，输入推荐概率预测模型，获得样本数据对应的预测推荐结果时，训练模块91，还用于：

将从样本数据集中获取的样本数据，输入推荐概率预测模型，分别获得多个任务网络各自的输出结果以及多个任务网络各自对应的权重，并根据获得的各个输出结果和相应的权重，确定样本数据对应的预测推荐结果；

训练模块91，还用于通过如下方式获得第一调整值：

分别获得多个任务网络中，每两个任务网络的输出结果之间的第一差异值，并基于获得的各个第一差异值，获得第一调整值。

在一种可能的实施例中，多个任务网络各自的输出结果为输出向量；

分别获得多个任务网络中，每两个任务网络对应的输出结果之间的第一差异值，并基于获得的各个第一差异值，获得第一调整值时，训练模块91还可以用于：

分别获取多个任务网络中，每两个任务网络对应的输出向量之间的第一距离，以及将获得的各个第一距离分别作为相应的第一差异值；

对获得的各个第一差异值执行求和操作，获得第一调整值。

在一种可能的实施例中，预测推荐结果包括针对预设的多个预测维度的预测推荐概率；

将从样本数据集中获取的样本数据，输入推荐概率预测模型，分别获得多个任务网络各自的输出结果以及多个任务网络各自对应的权重，并根据获得的各个输出结果和相应的权重，确定样本数据对应的预测推荐结果时，训练模块91还可以用于：

将从样本数据集中获取的样本数据，输入推荐概率预测模型，分别获得多个任务网络各自的输出结果，以及获得多个任务网络各自在多个预测维度下的权重；

根据多个任务网络各自在预设的多个预测维度下的权重，分别获得多个预测维度各自对应的权重向量，其中，每个维度对应的权重向量包含的各个元素，分别与多个任务网络各自在相应维度下对应的权重一一对应；

针对多个预测维度，分别执行以下操作：根据一个预测维度对应的权重向量，以及多个任务网络各自的输出结果，确定样本数据在一个预测维度下对应的预测推荐概率。

在一种可能的实施例中，根据一个预测维度对应的权重向量，以及多个任务网络各自的输出结果，确定样本数据在一个预测维度下对应的预测推荐概率时，训练模块91还可以用于：

将一个预测维度对应的权重向量中的各个元素，分别与相应的任务网络的输出结果进行融合，得到一个预测维度对应的最终输出结果；

根据一个预测维度对应的最终输出结果，确定样本数据在一个预测维度下对应的预测推荐概率。

在一种可能的实施例中，分别获得多个预测维度各自对应的权重向量之后，基于基本损失值和第一调整值，获得相应的目标损失值之前，训练模块91还可以用于：

分别获得预设的多个预测维度中，每两个预测维度对应的权重向量之间的第二差异值，并基于获得的各个第二差异值，获得第二调整值；其中，第二调整值用于表征基于相应的样本数据获得的，每两个预测维度对应的多个任务网络的权重向量的总差异程度，且第二调整值与目标损失值呈负相关；

基于基本损失值和第一调整值，获得相应的目标损失值，包括：

基于基本损失值、第一调整值和第二调整值，确定目标损失值。

在一种可能的实施例中，分别获得多个预测维度中，每两个预测维度对应的权重向量之间的第二差异值，并基于获得的各个第二差异值，获得第二调整值时，训练模块91还可以用于：

分别获得多个预测维度中，每两个预测维度对应的权重向量之间的第二距离，并将获得的各个第二距离作为相应的第二差异值；

对获得的各个第二差异值执行求和操作，获得第二调整值。

在一种可能的实施例中，推荐概率预测模型还包括多个门控网络、多个融合模块以及多个预测网络；每个门控网络用于输出相应的一个预测维度对应的权重向量；每个融合模块用于根据相应的一个预测维度对应的权重向量，对多个任务网络各自的输出结果进行融合；每个预测网络用于根据相应的一个预测维度下的融合后的最终输出结果，得到对应的预测推荐概率。

基于相同的发明构思，本申请实施例提供一种推荐概率预测装置，该装置解决问题的原理与上述实施例的方法相似，因此该装置的实施可以参见上述方法的实施，重复之处不再赘述。

参阅图10所示，本申请实施例提供一种推荐概率预测装置100，包括：

获取模块101，用于获取目标对象的目标属性，以及分别获取各个待推荐信息各自的目标特征；

预测模块102，用于将获得的目标属性和各个目标特征，分别输入已训练的目标推荐概率预测模型中，分别输出各个待推荐信息各自的预测推荐概率；其中，目标推荐概率预测模型是根据本申请上述实施例的训练推荐概率预测模型的方法训练得到的。

在一种可能的实施例中，各个待推荐信息中的每个待推荐信息的预测推荐概率为: 针对预设的目标维度的预测推荐概率；

将获得的目标属性和各个目标特征，分别输入已训练的目标推荐概率预测模型中，分别输出各个待推荐信息各自的预测推荐概率的过程中，预测模块102还可以用于：

在一种可能的实施例中，各个待推荐信息中的每个待推荐信息的预测推荐概率包括，针对预设的多个预测维度的预测推荐概率；

为了描述的方便，以上各部分按照功能划分为各模块分别描述。当然，在实施本申请时可以把各模块的功能在同一个或多个软件或硬件中实现。

所属技术领域的技术人员能够理解，本申请的各个方面可以实现为系统、方法或程序产品。因此，本申请的各个方面可以具体实现为以下形式，即：完全的硬件实施方式、完全的软件实施方式（包括固件、微代码等），或硬件和软件方面结合的实施方式，这里可以统称为“电路”、“模块”或“系统”。

关于上述实施例中的装置，其中各个模块的具体执行方式已经在有关该方法的实施例中进行了详细描述，此处将不做详细阐述说明。

与上述方法实施例基于同一发明构思，本申请实施例中还提供了一种电子设备，该电子设备解决问题的原理与上述实施例的方法相似，因此该电子设备的实施可以参见上述方法的实施，重复之处不再赘述。

参阅图11所示，电子设备1100可以至少包括处理器1101、以及存储器1102。其中，所述存储器1102存储有程序代码，当所述程序代码被所述处理器1101执行时，使得所述处理器1101执行上述任意一种训练推荐概率预测模型的方法中的步骤或推荐概率预测方法中的步骤。

在一些可能的实施方式中，根据本申请的计算装置可以至少包括至少一个处理器、以及至少一个存储器。其中，存储器存储有程序代码，当程序代码被处理器执行时，使得处理器执行本说明书上述描述的根据本申请各种示例性实施方式的训练推荐概率预测模型的方法中的步骤或推荐概率预测方法中的步骤。例如，处理器可以执行如图3或图8A中所示的步骤。

下面参照图12来描述根据本申请的这种实施方式的计算装置120。图12的计算装置120仅仅是一个示例，不应对本申请实施例的功能和使用范围带来任何限制。

如图12，计算装置120以通用计算装置的形式表现。计算装置120的组件可以包括但不限于：上述至少一个处理单元121、上述至少一个存储单元122、连接不同系统组件（包括存储单元122和处理单元121）的总线123。

总线123表示几类总线结构中的一种或多种，包括存储器总线或者存储器控制器、外围总线、处理器或者使用多种总线结构中的任意总线结构的局域总线。

存储单元122可以包括易失性存储器形式的可读介质，例如随机存取存储器（RAM）1221和/或高速缓存存储单元1222，还可以进一步包括只读存储器（ROM）1223。

存储单元122还可以包括具有一组（至少一个）程序模块1224的程序/实用工具1225，这样的程序模块1224包括但不限于：操作系统、一个或者多个应用程序、其它程序模块以及程序数据，这些示例中的每一个或某种组合中可能包括网络环境的实现。

计算装置120也可以与一个或多个外部设备124（例如键盘、指向设备等）通信，还可与一个或者多个使得用户能与计算装置120交互的设备通信，和/或与使得该计算装置120能与一个或多个其它计算装置进行通信的任何设备（例如路由器、调制解调器等等）通信。这种通信可以通过输入/输出（I/O）接口125进行。并且，计算装置120还可以通过网络适配器126与一个或者多个网络（例如局域网（LAN），广域网（WAN）和/或公共网络，例如因特网）通信。如图所示，网络适配器126通过总线123与用于计算装置120的其它模块通信。应当理解，尽管图中未示出，可以结合计算装置120使用其它硬件和/或软件模块，包括但不限于：微代码、设备驱动器、冗余处理器、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。

与上述方法实施例基于同一发明构思，本申请提供的训练推荐概率预测模型的方法或推荐概率预测方法的各个方面还可以实现为一种程序产品的形式，其包括程序代码，当程序产品在电子设备上运行时，程序代码用于使电子设备执行本说明书上述描述的根据本申请各种示例性实施方式的训练推荐概率预测模型的方法中的步骤或推荐概率预测方法中的步骤，例如，电子设备可以执行如图3或图8A中所示的步骤。

程序产品可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以是但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。可读存储介质的更具体的例子（非穷举的列表）包括：具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器（RAM）、只读存储器（ROM）、可擦式可编程只读存储器（EPROM或闪存）、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。

尽管已描述了本申请的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例做出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本申请范围的所有变更和修改。

显然，本领域的技术人员可以对本申请进行各种改动和变型而不脱离本申请的精神和范围。这样，倘若本申请的这些修改和变型属于本申请权利要求及其等同技术的范围之内，则本申请也意图包含这些改动和变型在内。

Claims

1.一种训练推荐概率预测模型的方法，其特征在于，包括：

基于样本多媒体数据集对待训练的推荐概率预测模型进行多轮迭代训练，直到满足预设的收敛条件为止，并将最后一轮输出的推荐概率预测模型作为目标推荐概率预测模型，所述样本多媒体数据集中的每个样本多媒体数据包括样本对象的对象属性以及样本多媒体内容，其中，在一轮迭代训练过程中，执行以下操作：

将从所述样本多媒体数据集中获取的样本多媒体数据，输入所述推荐概率预测模型的多个任务网络，以使所述多个任务网络分别从一个特征维度对所述样本多媒体数据进行特征提取，并根据获得的所述多个任务网络各自的输出结果，获得所述样本多媒体数据对应的预测推荐结果；

根据所述样本多媒体数据对应的预测推荐结果和实际推荐结果，获得相应的基本损失值；

基于所述基本损失值和第一调整值，获得相应的目标损失值；其中，所述第一调整值用于表征基于相应的样本多媒体数据获得的，每两个任务网络的输出结果的总差异程度，且所述第一调整值与所述目标损失值呈负相关；

根据所述目标损失值，对所述推荐概率预测模型进行参数调整；

其中，所述目标推荐概率预测模型用于确定向目标对象推荐待推荐多媒体内容的预测推荐概率；所述预测推荐概率用于确定向所述目标对象推荐的目标多媒体内容。

2.如权利要求1所述的方法，其特征在于，所述将从所述样本多媒体数据集中获取的样本多媒体数据，输入所述推荐概率预测模型的多个任务网络，以使所述多个任务网络分别从一个特征维度对所述样本多媒体数据进行特征提取，并根据获得的所述多个任务网络各自的输出结果，获得所述样本多媒体数据对应的预测推荐结果，包括：

将从所述样本多媒体数据集中获取的样本多媒体数据，输入所述推荐概率预测模型的多个任务网络，分别获得所述多个任务网络各自的输出向量以及所述多个任务网络各自对应的权重，并根据获得的各个输出向量和相应的权重，确定所述样本多媒体数据对应的预测推荐结果；

所述第一调整值通过如下方式获得：

分别获得所述多个任务网络中，每两个任务网络的输出向量之间的第一差异值，并基于获得的各个第一差异值，获得所述第一调整值。

3.如权利要求2所述的方法，其特征在于，所述分别获得所述多个任务网络中，每两个任务网络对应的输出向量之间的第一差异值，并基于获得的各个第一差异值，获得所述第一调整值，包括：

4.如权利要求2所述的方法，其特征在于，所述预测推荐结果包括针对预设的多个预测维度的预测推荐概率；

所述将从所述样本多媒体数据集中获取的样本多媒体数据，输入所述推荐概率预测模型的多个任务网络，分别获得所述多个任务网络各自的输出向量以及所述多个任务网络各自对应的权重，并根据获得的各个输出向量和相应的权重，确定所述样本多媒体数据对应的预测推荐结果，包括：

将从所述样本多媒体数据集中获取的样本多媒体数据，输入所述推荐概率预测模型的多个任务网络，分别获得所述多个任务网络各自的输出向量，以及获得所述多个任务网络各自在所述多个预测维度下的权重；

根据所述多个任务网络各自在所述多个预测维度下的权重，分别获得所述多个预测维度各自对应的权重向量，其中，每个维度对应的权重向量包含的各个元素，分别与所述多个任务网络各自在相应维度下对应的权重一一对应；

针对所述多个预测维度，分别执行以下操作：根据一个预测维度对应的权重向量，以及所述多个任务网络各自的输出向量，确定所述样本多媒体数据在所述一个预测维度下对应的预测推荐概率。

5.如权利要求4所述的方法，其特征在于，所述推荐概率预测模型还包括多个预测网络，每个预测网络用于获得一个预测维度的预测推荐概率；

所述根据一个预测维度对应的权重向量，以及所述多个任务网络各自的输出向量，确定所述样本多媒体数据在所述一个预测维度下对应的预测推荐概率，包括：

将所述一个预测维度对应的权重向量中的各个元素，分别与相应的任务网络的输出向量进行融合，得到所述一个预测维度对应的最终输出结果；

将所述一个预测维度对应的最终输出结果输入相应的预测网络，获得所述样本多媒体数据在所述一个预测维度下对应的预测推荐概率。

6.如权利要求4所述的方法，其特征在于，所述分别获得所述多个预测维度各自对应的权重向量之后，所述基于所述基本损失值和所述第一调整值，获得相应的目标损失值之前，所述方法还包括：

分别获得所述预设的多个预测维度中，每两个预测维度对应的权重向量之间的第二差异值，并基于获得的各个第二差异值，获得第二调整值；其中，所述第二调整值用于表征基于相应的样本多媒体数据获得的，每两个预测维度对应的多个任务网络的权重向量的总差异程度，且所述第二调整值与所述目标损失值呈负相关；

7.如权利要求6所述的方法，其特征在于，所述分别获得所述多个预测维度中，每两个预测维度对应的权重向量之间的第二差异值，并基于获得的各个第二差异值，获得第二调整值，包括：

8.如权利要求4至7任一项所述的方法，其特征在于，所述推荐概率预测模型还包括多个门控网络和多个融合模块；每个门控网络用于输出相应的一个预测维度对应的权重向量；每个融合模块用于根据相应的一个预测维度对应的权重向量，对所述多个任务网络各自的输出结果进行融合。

9.一种推荐概率预测方法，其特征在于，包括：

获取目标对象的对象属性，以及分别获取各个待推荐多媒体内容；

将获得的所述对象属性和各个待推荐多媒体内容，分别输入已训练的目标推荐概率预测模型中，分别输出向所述目标对象推荐所述各个待推荐多媒体内容各自的预测推荐概率；其中，所述目标推荐概率预测模型是根据权利要求1~8任一项所述的方法训练得到的；

根据所述各个待推荐多媒体内容各自对应的预测推荐概率，从所述各个待推荐多媒体内容中选择至少一个目标多媒体内容。

10.如权利要求9所述的方法，其特征在于，所述各个待推荐多媒体内容中的每个待推荐多媒体内容的预测推荐概率为: 针对预设的目标预测维度的预测推荐概率；

所述将获得的所述对象属性和各个待推荐多媒体内容，分别输入已训练的目标推荐概率预测模型中，分别输出所述各个待推荐多媒体内容各自的预测推荐概率的过程中，每输出一个待推荐多媒体内容的预测推荐概率，执行以下操作：若输出的预测推荐概率大于第一预设概率阈值，则将相应的待推荐多媒体内容作为目标多媒体内容；

将获得的各个目标推荐多媒体内容按照各自的预测推荐概率进行排序。

11.如权利要求9所述的方法，其特征在于，所述各个待推荐多媒体内容中的每个待推荐多媒体内容的预测推荐概率包括，针对预设的多个预测维度的预测推荐概率；

所述将获得的所述对象属性和各个待推荐多媒体内容，分别输入已训练的目标推荐概率预测模型中，分别输出所述各个待推荐多媒体内容各自的预测推荐概率的过程中，每输出一个待推荐多媒体内容的预测推荐概率，执行以下操作之一：

若输出的多个预测维度的预测推荐概率中的一个，大于相应的第二预设概率阈值，则将相应的待推荐多媒体内容作为目标多媒体内容；

若输出的多个预测维度的预测推荐概率中的多个，分别大于各自的第三预设概率阈值，则将相应的待推荐多媒体内容作为目标多媒体内容；

将获得的各个目标多媒体内容，按照各自的多个预测维度的预测推荐概率进行排序。

12.一种训练推荐概率预测模型的装置，其特征在于，包括：

训练模块，用于基于样本多媒体数据集对待训练的推荐概率预测模型进行多轮迭代训练，直到满足预设的收敛条件为止，并将最后一轮输出的推荐概率预测模型作为目标推荐概率预测模型，所述样本多媒体数据集中的每个样本多媒体数据包括样本对象的对象属性以及样本多媒体内容，其中，在一轮迭代训练过程中，执行以下操作：

13.一种推荐概率预测装置，其特征在于，包括：

获取模块，用于获取目标对象的对象属性，以及分别获取各个待推荐多媒体内容；

预测模块，用于将获得的所述对象属性和各个待推荐多媒体内容，分别输入已训练的目标推荐概率预测模型中，分别输出向所述目标对象推荐所述各个待推荐多媒体内容各自的预测推荐概率；其中，所述目标推荐概率预测模型是根据权利要求1~8任一项所述的方法训练得到的；

选择模块，用于根据所述各个待推荐多媒体内容各自对应的预测推荐概率，从所述各个待推荐多媒体内容中选择至少一个目标多媒体内容。

14.一种电子设备，其特征在于，其包括处理器和存储器，其中，所述存储器存储有程序代码，当所述程序代码被所述处理器执行时，使得所述处理器执行权利要求1~8或者9~11中任一所述方法的步骤。

15.一种计算机可读存储介质，其特征在于，其包括程序代码，当所述程序代码在电子设备上运行时，所述程序代码用于使所述电子设备执行权利要求1~8或者9~11中任一所述方法的步骤。