CN111950593A

CN111950593A - 一种推荐模型训练的方法及装置

Info

Publication number: CN111950593A
Application number: CN202010668973.8A
Authority: CN
Inventors: 程朋祥; 陈飞; 董振华; 李震国; 何秀强
Original assignee: Huawei Technologies Co Ltd
Current assignee: Huawei Technologies Co Ltd
Priority date: 2020-07-13
Filing date: 2020-07-13
Publication date: 2020-11-17

Abstract

本发明公开了一种推荐模型训练的方法及装置，该方法包括：获取至少两个用户的用户样本数据，该至少两个用户中每个用户的用户样本数据包括第一训练集和第二训练集；根据每个用户的第一训练集训练推荐模型，推荐模型包括K个推荐单模型和模型选择器，K为大于1的整数；获取训练后的每个用户的推荐模型的模型参数。根据至少两个用户的第二训练集和综合损失函数综合训练推荐模型，获取综合训练后的推荐模型，该综合损失函数是根据每个用户的推荐模型的模型参数获取的。该方法不需要人工定义元特征。同时，该推荐模型包含K个推荐单模型和模型选择器，该K个推荐单模型和模型选择器可以共同训练和参数更新，不需要分步训练，可以降低时间复杂度。

Description

一种推荐模型训练的方法及装置

技术领域

本发明涉及内容推荐技术领域，具体涉及一种推荐模型训练的方法及装置。

背景技术

随着互联网技术的发展，信息快速增长，如何对信息进行快速有效地筛选，从而将适合用户的个性化内容(如商品、广告、新闻资讯、视频、音乐、阅读、应用程序等)准确地推荐给用户，是当前一个重要的研究课题。给用户推荐个性化内容是人工智能变现的重要手段，是提升用户体验和平台收入的利器。

由于不同用户的数据差异很大，一种推荐模型很难适用于所有的用户。请参见图1，图1为四种推荐模型在一天中推荐变现曲线图。图1中横坐标为时间(24小时)，纵坐标为每一千次展示可以获得的广告收入(effective cost per mile，ECPM)。从图1可见，不同推荐模型推荐变现的效果随时间变化波动较大，没有一个模型能够在所有时段表现最优。对于这个问题，可以应用特征加权线性融合(feature weighted linear stacking，FWLS)技术，通过基于元特征的线性函数来线性组合多个推荐模型预测以提高预测准确性。FWLS技术可以引入元特征进行线性加权。首先根据元特征计算出不同推荐模型的权值系数，再根据该不同模型的权值系数将多个推荐模型加权，这样可以融合多个推荐模型得到元模型，该元模型能够发挥多个模型的优势，从而获得性能上的提升。

但是这种方案比较依赖元特征，元特征本身需要人为定义，导致模型的权值系数也很难训练准确。而且该方案需要先训练出不同模型的权值系数，再根据该权值系数将不同的模型加权，得到元模型。这个过程需要分步训练，时间复杂度高。

发明内容

本申请实施例提供了一种推荐模型训练的方法，该方法包括：获取至少两个用户的用户样本数据，该用户样本数据包括特征数据和样本标签，该特征数据包括推荐对象特征和用户特征，该样本标签用于表示用户对推荐对象的选择情况，该至少两个用户中每个用户的用户样本数据包括第一训练集和第二训练集；根据每个用户的第一训练集训练推荐模型，推荐模型包括K个推荐单模型和模型选择器，K为大于1的整数；获取训练后的每个用户的推荐模型的模型参数，该模型参数包括K个推荐单模型参数和模型选择器参数；根据至少两个用户的第二训练集和综合损失函数综合训练推荐模型，获取综合训练后的推荐模型，综合损失函数是根据每个用户的推荐模型的模型参数获取的。该方法不需要人工定义元特征。同时，该推荐模型包含K个推荐单模型和模型选择器，该K个推荐单模型和模型选择器可以共同训练和参数更新，不需要分步训练，可以降低时间复杂度。

可选的，结合第一方面，所述综合损失函数是根据所述每个用户的所述推荐模型的模型参数获取的，具体包括：根据所述每个用户的所述推荐模型的模型参数获取所述每个用户的所述推荐模型的损失函数；根据所述每个用户的所述推荐模型的损失函数获取所述综合损失函数。根据每个用户的第一训练集训练推荐模型，可以使得训练后的推荐模型适应每个用户的个性化特征，可以满足用户的个性化需求。根据每个用户的推荐模型参数构建综合损失函数，这样可以将该至少两个用户中每个用户的损失函数都纳入考虑范围，使得之后综合训练的推荐模型能够满足该至少两个用户中的每个用户。

可选的，结合第一方面，根据每个用户的第一训练集获取每个用户各自的损失函数包括：根据如下公式获取每个用户各自的损失函数：

其中，

为每个用户各自的第一训练集，x为第一训练集的推荐对象特征，y为第一训练集的样本标签，θ为K个推荐单模型的参数，

为模型选择器的参数，

是二进制交叉熵损失函数，

是每个用户各自的损失函数；

根据每个用户各自的损失函数获取每个用户的推荐模型包括：

根据如下公式获取每个用户的推荐模型：

其中，α是内层梯度更新的学习率，(θ^u，

)为每个用户训练后的推荐模型，θ^u为训练后的K个推荐单模型模型参数，

为训练后的模型选择器参数。

可选的，结合第一方面，根据至少两个用户的第二训练集和综合损失函数综合训练推荐模型包括：根据如下公式综合训练推荐模型：

其中，

是综合损失函数，β是外层梯度更新的学习率，U_t是该至少两个用户中所有用户的第二训练集，u为第二训练集中每个用户的用户样本数据，m是第二训练集中的用户个数，(θ，

)为综合训练之前的推荐模型，θ为综合训练前的所述K个推荐单模型参数，

为综合训练前的所述模型选择器的参数，(θ'，

)为综合训练后的推荐模型，θ'为综合训练后的K个推荐单模型参数，

为综合训练后的模型选择器参数。

可选的，结合第一方面，该方法还包括：获取待预测用户的特征数据；根据综合训练后的推荐模型和待预测用户的特征数据获取待预测用户推荐对象的推荐概率。根据该综合训练后的推荐模型预测待预测用户推荐对象的推荐概率，可以满足该待预测用户的个性化需求，提高预测准确性。

可选的，结合第一方面，根据综合训练后的推荐模型和待预测用户的特征数据获取待预测用户推荐对象的推荐概率包括：根据如下公式获取待预测用户推荐对象的推荐概率：

其中，x是待预测用户的推荐对象特征，λ是推荐单模型在模型选择器上的权重分布向量，S()是分布函数，M_K()为第K个推荐单模型，λ_K是该权重分布向量λ的第K个推荐单模型的权重分布值，θ'_K是第K个推荐单模型的推荐单模型的参数，

表示待预测用户推荐对象的推荐概率。

本申请第二方面提供了一种推荐模型训练的方法，其特征在于，该方法包括：获取待预测用户的特征数据；根据待预测用户的特征数据和推荐模型获取待预测用户推荐对象的推荐概率，推荐模型包括K个推荐单模型和模型选择器，k为大于1的整数，该推荐模型为根据至少两个用户中每个用户的第一训练集训练之后，再根据至少两个用户的第二训练集和综合损失函数综合训练得到的，该至少两个用户中每个用户的用户样本数据包括第一训练集和第二训练集，该用户样本数据包括特征数据和样本标签，该特征数据包括推荐对象特征和用户特征，该样本标签用于表示用户对所述推荐对象的选择情况，综合损失函数是根据每个用户的推荐模型的模型参数获取的，所述模型参数包括所述K个推荐单模型参数和所述模型选择器参数。根据该综合训练后的推荐模型预测待预测用户推荐对象的推荐概率，可以满足该待预测用户的个性化需求，提高预测准确性。

可选的，结合第二方面，根据待预测用户的特征数据和推荐模型获取待预测用户推荐对象的推荐概率包括：根据如下公式获取待预测用户推荐对象的推荐概率：

其中，x是待预测用户的特征数据，λ是推荐单模型在模型选择器上的权重分布向量，θ'为K个推荐单模型的参数，

为模型选择器的参数，S()是分布函数，M_K()为第K个推荐单模型，λ_K是该权重分布向量λ的第K个推荐单模型的权重分布值，θ'_K是第K个推荐单模型的推荐单模型参数，

表示待预测用户推荐对象的推荐概率。

本申请第三方面提供了一种推荐模型训练的装置，其特征在于，该装置包括：获取模块，用于获取至少两个用户的用户样本数据，该用户样本数据包括特征数据和样本标签，该特征数据包括推荐对象特征和用户特征，该样本标签用于表示用户对推荐对象的选择情况，该至少两个用户中每个用户的用户样本数据包括第一训练集和第二训练集；内层训练模块，用于根据每个用户的第一训练集训练推荐模型，推荐模型包括K个推荐单模型和模型选择器，K为大于1的整数；内层训练模块，还用于获取训练后的每个用户的推荐模型的模型参数，模型参数包括K个推荐单模型参数和模型选择器参数；外层训练模块，用于根据至少两个用户的第二训练集和综合损失函数综合训练推荐模型，获取综合训练后的推荐模型，综合损失函数是根据每个用户的推荐模型的模型参数获取的。该装置不需要获取人工定义的元特征。同时，该装置训练的推荐模型包含K个推荐单模型和模型选择器，该K个推荐单模型和模型选择器可以共同训练和参数更新，不需要分步训练，可以降低时间复杂度。

可选的，结合第三方面，所述内层训练模块，还用于所述每个用户的所述推荐模型的模型参数获取所述每个用户的所述推荐模型的损失函数；所述外层训练模块，还用于根据所述每个用户的所述推荐模型的损失函数获取所述综合损失函数。

可选的，结合第三方面，内层训练模块，具体用于根据如下公式获取每个用户的损失函数：

其中，

为模型选择器的参数，

是二进制交叉熵损失函数，

是每个用户各自的损失函数；

该内层训练模块，具体用于根据如下公式获取每个用户的推荐模型：

其中，α是内层梯度更新的学习率，(θ^u，

为每个用户训练后的推荐模型，θ^u为训练后的K个推荐单模型模型参数，

为训练后的模型选择器参数。

可选的，结合第三方面，外层训练模块，具体用于根据如下公式综合训练推荐模型：

其中，

是综合损失函数，β是外层梯度更新的学习率，U_t是至少两个用户中所有用户的第二训练集，u为第二训练集中每个用户的用户样本数据，m是第二训练集中的用户个数，(θ，

为综合训练前的所述模型选择器的参数，(θ'，

为综合训练后的模型选择器参数。

可选的，结合第三方面，装置还包括：获取模块，还用于获取待预测用户的特征数据；线上预测模块，用于根据综合训练后的推荐模型和待预测用户的特征数据获取待预测用户推荐对象的推荐概率。

可选的，结合第三方面，线上预测模块，具体用于根据如下公式获取待预测用户推荐对象的推荐概率：

其中，x是待预测用户的特征数据，λ是推荐单模型在模型选择器上的权重分布向量，S()是分布函数，M_K()为第K个推荐单模型，λ_K是权重分布向量λ的第K个推荐单模型的权值分布值，θ'_K是第K个推荐单模型的推荐单模型的参数，

表示待预测用户推荐对象的推荐概率。

本申请第四方面提供了一种推荐模型训练的装置，该装置包括：获取模块，用于获取待预测用户的特征数据；线上预测模块，用于根据待预测用户的特征数据和推荐模型获取待预测用户推荐对象的推荐概率，推荐模型包括K个推荐单模型和模型选择器，k为大于1的整数，推荐模型为根据至少两个用户中每个用户的第一训练集训练之后，再根据至少两个用户的第二训练集和综合损失函数综合训练得到的，至少两个用户中每个用户的用户样本数据包括第一训练集和第二训练集，所述用户样本数据包括特征数据和样本标签，该特征数据包括推荐对象特征和用户特征，所述样本标签用于表示用户对所述推荐对象的选择情况，综合损失函数是根据每个用户的推荐模型的模型参数获取的，所述模型参数包括所述K个推荐单模型参数和所述模型选择器参数。根据该综合训练后的推荐模型预测待预测用户推荐对象的推荐概率，可以满足该待预测用户的个性化需求，提高预测准确性。

可选的，结合第四方面，线上预测模块，具体用于根据如下公式获取待预测用户推荐对象的推荐概率：

为模型选择器的参数，S()是分布函数，M_K()为第K个推荐单模型，λ是权重分布向量λ的第K个推荐单模型的权重分布值，θ'K是第K个推荐单模型的推荐单模型参数，

表示待预测用户推荐对象的推荐概率。

本申请第五方面提供了一种计算机可读存储介质，包括指令，其特征在于，当所述指令在计算机设备上运行时，使得所述计算机设备执行如第一方面至第一方面的任意一种可能的实现方式中所述的方法。

本申请第六方面提供了一种计算机可读存储介质，包括指令，其特征在于，当所述指令在计算机设备上运行时，使得所述计算机设备执行如第二方面至第二方面的任意一种可能的实现方式中所述的方法。

本申请第七方面提供了一种推荐模型训练的装置，所述装置包括输入/输出(I/O)接口、处理器和存储器，所述存储器中存储有程序指令；所述处理器，用于执行存储器中存储的程序指令，执行如本申请第一方面至第一方面的任意一种可能的实现方式中所述的方法。

本申请第八方面提供了一种推荐模型训练的装置，所述装置包括输入/输出(I/O)接口、处理器和存储器，所述存储器中存储有程序指令；所述处理器，用于执行存储器中存储的程序指令，执行如本申请第二方面至第二方面的任意一种可能的实现方式中所述的方法。

本申请第九方面提供了一种芯片，该芯片包括；处理单元和存储单元，所述存储单元用于存储计算机操作指令；所述处理单元用于通过调用所述存储单元中存储的计算机操作指令，以执行如本申请第一方面至第一方面任意一种可能的实现方式中所述的方法。

本申请第十方面提供了一种芯片，该芯片包括；处理单元和存储单元，所述存储单元用于存储计算机操作指令；所述处理单元用于通过调用所述存储单元中存储的计算机操作指令，以执行如本申请第二方面至第二方面任意一种可能的实现方式中所述的方法。

本申请实施例提供了一种推荐模型训练的方法及装置，该方法包括：获取至少两个用户的用户样本数据，该用户样本数据包括特征数据和样本标签，该特征数据包括推荐对象特征和用户特征，该样本标签用于表示用户对推荐对象的选择情况，至少两个用户中每个用户的用户样本数据包括第一训练集和第二训练集；根据每个用户的第一训练集训练推荐模型，该推荐模型包括K个推荐单模型和模型选择器，K为大于1的整数；获取训练后的每个用户的推荐模型的模型参数，模型参数包括K个推荐单模型参数和模型选择器参数；根据至少两个用户的第二训练集和综合损失函数综合训练推荐模型，获取综合训练后的推荐模型，综合损失函数是根据每个用户的推荐模型的模型参数获取的。该方法不需要人工定义元特征。同时，该推荐模型包含K个推荐单模型和模型选择器，该K个推荐单模型和模型选择器可以共同训练和参数更新，不需要分步训练，可以降低时间复杂度。

附图说明

图1是本申请提供的四种模型在一天中推荐变现曲线图；

图2是本申请提供的一种线上预测的系统架构示意图；

图3为本申请提供的一种推荐模型训练的方法流程示意图；

图4为本申请提供的一种推荐模型训练的模型架构图；

图5为本申请提供的一种推荐模型训练的方法流程示意图；

图6为本申请提供的一种推荐模型训练的装置模块示意图；

图7为本申请提供的一种推荐模型训练的装置模块示意图；

图8为本申请提供的一种推荐模型训练的装置结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本申请中出现的术语“和/或”，可以是一种描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。另外，本申请中字符“/”，一般表示前后关联对象是一种“或”的关系。

本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的实施例能够以除了在这里图示或描述的内容以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或模块的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或模块，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或模块。

为了使得本申请的实施例的特征和优点更加明显，下面简单介绍与本申请提出的元学习方法相关的概念，包括元学习和模型无关的元学习(model agnostic metalearning，MAML)。

元学习(meta learning)是机器学习的子领域。传统的机器学习问题是基于海量数据集从头开始学习一个用于预测的数学模型，这与人类学习、积累历史经验(也称为元知识)指导新的机器学习任务的过程相差甚远。元学习则是学习不同的机器学习任务的学习训练过程，以及学习如何更快更好地训练一个数学模型。

MAML是当前流行的元学习算法之一，其核心思想是从大量训练任务中学习神经网络的初始参数，即元参数，该元参数可使得新的机器学习任务在小样本条件下也能快速收敛到一个较优的解。MAML的训练过程主要包括两部分：元学习器(Meta-learner)，其训练过程为，通过最小化元学习器在大量目标任务(即基学器)上的元损失，寻求基学习器的初始参数；和基学习器(base learner)，其为目标任务所使用的预测模型，由元学习器赋予其初始化参数再经过少量的梯度迭代进行训练。由于MAML的元学习器基于大量的学习任务，所以其能够在新的任务上通过少量的梯度迭代来产生泛化的性能，即训练了一个易于微调的模型。另外，由于MAML并不会对基学习器的形式做任何限制，所以可适配到任何使用梯度下降的机器学习问题，如分类问题、回归问题和强化学习问题。然而，MAML的主要目标是在小样本条件下学习一组可快速收敛到各个目标任务的较优解的元初始参数，这要求各目标任务与用于元学习器的训练集中的目标任务具有一定的相关性。当新的目标任务与训练集中的目标任务的数据分布差异较大时，MAML的泛化能力下降，即元初始参数无法快速适应到新的目标任务中。

首先，定义本文中使用的若干术语：

模型选择器：根据用户以及用户数据选择合适推荐模型的一个选择工具。

推荐单模型：根据用户以及用户数据为用户推荐物品或喜好内容的模型工具。

推荐模型：包含K个推荐单模型和模型选择器，K为大于1的整数。

元选择器：在模型选择器的基础上基于元学习的新型选择工具。

训练集：用来训练模型的样本集。

样本标签：标记用户样本数据是正样本还是负样本，比如1为正样本，0为负样本。

正样本：也称为正例，表示有用户正向反馈的样本，比如有下载或购买行为的样本。

负样本：也称为负例，表示有用户负向反馈的样本，比如有差评或者仅浏览行为的样本。

推荐对象：推荐对象为与推荐系统匹配的对象。例如，若该推荐系统为应用市场推荐系统，该推荐对象可以为应用；若该推荐系统为音乐推荐系统，该推荐对象可以为音乐。

用户特征：用户的个人特征，例如，用户年龄、用户性别等。

离线训练(offline training)：在个性化推荐系统中，用于根据用户样本数据，对推荐模型参数按照机器学习的算法进行迭代更新直至该预设推荐模型达到预设要求。

在线预测(online inference)：基于离线训练好的推荐模型，根据用户行为、商品以及环境的特征预测该用户在当前环境下对商品的喜好程度。

任务(task)：元学习的训练任务集由至少两个任务组成，在本方案中，每一个用户的用户样本数据为一个任务，每个任务可以包括第一训练集(support set)和第二训练集(query set)。该第一训练集和第二训练集和第二训练集的关系不限定。示例性的，可以按照预先设置的比例将用户样本数据划分为第一训练集和第二训练集。如将用户样本数据的60％划分为第一训练集，将用户样本数据的40％划分为第二训练集。或者将用户样本数据的60％划分为第一训练集，将所有用户样本数据作为第二训练集。

随着互联网技术的发展，信息快速增长，如何对信息进行快速有效地筛选，从而将适合用户的个性化内容(如商品、广告、新闻资讯、视频、音乐、阅读、应用程序等)准确地推荐给用户，是当前一个重要的研究课题。推荐系统是人工智能变现的重要手段，是提升用户体验和平台收入的利器。

推荐系统经常面临包含强个性化的用户数据的异构数据集，导致无法给出适用于所有用户的最优模型。请参见图1，图1给出了4种模型在24小时内推荐变现的统计图。该坐标轴中，横坐标为时间(24小时)，纵坐标为在真实广告工业系统中每一千次展示可以获得的广告收入。从图1可以看出，没有单个模型能够在所有时段内均表现最优。

有鉴于上述问题，在一种解决方案中，可以通过特征加权线性融合技术通过基于元特征的线性函数来线性组合多个推荐模型预测以提高预测准确性。这种技术可以在原本只采用不同推荐模型的线性加权的基础上，引入元特征的线性加权。根据元特征计算出不同推荐模型的权值系数。然后根据该权值系数对各个推荐模型进行加权，从而提高推荐模型集成的性能，发挥出多个推荐模型的优势。该方案比较依赖元特征，元特征本身很难定义，导致权值系数也很难训练准确。该过程需要先根据元特征计算出不同推荐模型的权值系数，再根据不同模型的权值系数将多个推荐模型加权。这个过程需要分步训练，时间复杂度较高。

在另一种解决方案中，可以采用基于元学习(meta learing)的模型选择。首先根据用户样本数据训练多个预测模型，再从用户样本数据中提取特征作为元特征，根据元特征从训练好多个的预测模型中预测(选择)出最符合元特征的推荐模型。这样相当于将模型训练的任务转换成模型预测的任务。这种方法可以针对元特征预测出推荐模型，符合模型选择(model selection)的思想，能够有效地提高推荐准确率。

但是，在该方法中，同样很依赖元特征，由于元特征很难定义，该方案需要先训练出多个模型，然后根据元特征从多个模型中预测出推荐模型。需要分步执行，时间复杂度比较高，无法做到端到端的训练，实用性较差。

因此，本申请提供了一种推荐模型训练的方法，该方法提出了经典元学习方法MAML和模型选择器相结合的推荐系统框架，用于解决元特征难以定义的问题，并实现端到端的训练方式，方便落地到实际业务场景。提出的推荐模型训练的方法实现了推荐单模型和模型选择器的共同训练和参数更新，能够有效提高推荐的准确率，降低时间复杂度。

该方法可适用于不同的点击率预测模型和推荐场景，该方法可以分为离线训练阶段和线上预测阶段。可以根据每一个用户的用户样本数据确定每个用户的第一训练集(support set)和第二训练集(query set)。在离线训练阶段，分为内层训练(根据至少两个用户中每个用户的第一训练集训练)和外层训练(根据至少两个用户中所有用户的第二训练集训练)。根据support set进行内层训练，计算每个用户各自的损失函数，以更新每个用户特定的模型选择器和推荐单模型的参数；根据query set进行外层训练，计算所有用户更新后的模型的损失函数，并整体更新模型选择器和推荐单模型。

在线上预测阶段，根据各推荐单模型在模型选择器上的分步，可直接预测用户的点击率，无需分步训练，从而可以降低线上部署难度，提高预测精度。

请参见图2，图2为基于本申请提供的推荐模型训练的方法在线上预测阶段的系统架构示意图。在线上预测阶段，当待预测用户进行系统时，会触发系统推荐请求，推荐系统可以获取待预测用户的推荐对象特征，并将该推荐对象特征输入推荐模型，该推荐模型可以预测用户对系统推荐对象的推荐概率。推荐系统可以将推荐对象按照推荐概率进行降序排列。从而将推荐对象展示在不同的位置作为对用户的推荐结果。该推荐对象特征可以为与系统匹配的推荐对象的特征。例如，若该推荐系统为应用市场推荐系统，该推荐对象特征可以为用户使用应用的特征，具体的，该应用的特征可以包括应用的属性，如社交、短视频、音乐播放器等；若该推荐系统为音乐推荐系统，该推荐对象特征可以为音乐的特征，具体的，该音乐的特征可以包括音乐的类型，如摇滚、民族，流行等。此处仅为举例，并不能作为本申请的限制。

用户浏览不同位置或者用户行为会存入日志中作为后续的训练数据。例如：对某个推荐对象的点击、下载、购买等行为作为正样本，对某个推荐对象的忽略，或点击不喜欢作为负样本。通过离线训练模块不断更新推荐模型的参数，以提高推荐模型的预测效果。本申请提供的推荐系统的离线训练模块，同时会改变线上预测模块的预测逻辑。

示例性的，用户打开手机应用市场即可触发应用市场的线上预测模块，该应用市场会根据推荐模型预测用户下载应用的概率，并按照概率大小排序进行展示，从而达到提高应用下载的概率。具体来说，将更有可能下载的应用排在靠前的位置，将被下载可能性较低的应用排列在靠后的位置。同时，用户的历史下载记录、用户的下载记录、用户点击记录、应用的自身特征，时间、地点等环境特征信息，也会存入日志通过离线训练模块对预测模型的参数进行训练和更新。

本申请实施例一提供了一种推荐模型训练的方法，请参见图3，该方法包括：

101、获取至少两个用户的用户样本数据。

获取至少两个用户的用户样本数据，该用户样本数据可以包括特征数据和样本标签，该特征数据可以包括但不限于推荐对象特征、用户特征以及环境特征。示例性的，该推荐对象特征可以包括但不限于商品、广告、新闻资讯、视频、音乐、阅读、应用程序等特征。用户特征可以包括但不限于用户年龄、用户性别等。该环境特征可以包含：天气、位置信息等。样本标签用于标记用户对推荐对象特征的选择情况，可以表示用户样本数据是正样本还是负样本，比如1为正样本，0为负样本。

该至少两个用户的用户样本数据可以包含第一训练集(support set)和第二训练集(query set)。该第一训练集和第二训练集的关系不限定。示例性的，可以按照预先设置的比例将用户样本数据划分为第一训练集和第二训练集。如将用户样本数据的60％划分为第一训练集，将用户样本数据的40％划分为第二训练集。或者将用户样本数据的60％作为第一训练集，将所有用户样本数据作为第二训练集。

具体请参见图4，图4为本申请提供的一种推荐模型训练的模型架构图。图上方是用户(user)集合，其中每一个用户为一个任务(task)，每一个用户采用多种设备产生的用户数据都可以归属于该用户的用户样本数据。再根据用户样本数据确定第一训练集和第二训练集。

102、根据每个用户的第一训练集训练推荐模型。

请继续参见图4，该图4中左侧是元选择器(meta selector)的神经网络结构，元选择器是基于元学习的模型选择器。该元选择器的神经网络可以包括嵌入层(Embeddinglayer)，隐藏层(Hidden Layer)，输出层(Softmax Layer)，用于对推荐模型的选择。右侧为模型存储库(model repository)，该模型存储库包括M₁至M_K，K个推荐单模型，K为大于1的整数。

根据每个用户的第一训练集进行内层训练。

具体的，首先根据每个用户的第一训练集获取每个用户各自的损失函数：

其中，

为每个用户各自的第一训练集，x为第一训练集的推荐对象特征，y为第一训练集的样本标签，θ为K个推荐单模型的参数，K为大于1的整数，

为模型选择器的参数，

是二进制交叉熵损失函数，

是每个用户各自的损失函数；

再根据每个用户各自的损失函数获取每个用户的推荐模型：

其中，α是内层梯度更新的学习率，(θ^u，

为训练后的模型选择器参数。

需要指出的是，θ可以表示一个参数集合，该参数集合可以包括为K个推荐单模型中所有推荐单模型的参数。同理，θ^u也可以表示一个参数集合，该参数集合可以包括训练后的K个推荐单模型模型中所有推荐单模型的参数。α是内层梯度更新的学习率，该内层梯度更新的学习率是预先设置的。

103、获取训练后的每个用户的推荐模型的模型参数。

步骤102中，根据每个用户的第一训练集进行了内层训练，并得到了内层训练后的推荐模型。获取该内层训练后的推荐模型的模型参数，该模型参数包括步骤102中所述的θ^u和

θ^u为训练后的所述K个推荐单模型模型参数，

为所述训练后的所述模型选择器参数。

该内层训练过程可以获取到每个用户的推荐模型的模型参数，该模型参数包括K个推荐单模型参数和模型选择器参数。从而可以使得推荐模型适应每个用户的个性化特征，满足用户的个性化需求。

104、根据至少两个用户的第二训练集和综合损失函数综合训练推荐模型。

根据至少两个用户中所有用户的第二训练集进行外层训练。具体的，根据至少两个用户中所有用户的第二训练集和综合损失函数综合训练该推荐模型，从而获得综合训练后的推荐模型。

需要指出的是，该综合损失函数是根据每个用户的推荐模型的模型参数获取的，是对每个用户的损失函数的综合。

更进一步的，外层训练过程根据如下公式综合训练该推荐模型：

其中，

是所述综合损失函数，β是外层梯度更新的学习率，U_t是所述至少两个用户中所有用户的第二训练集，u为第二训练集中每个用户的用户样本数据，m是所述第二训练集中的用户个数。该外层梯度更新的学习率是预先设置的，(θ，

为综合训练之前的推荐模型，θ为综合训练前的所述K个推荐单模型参数，

为综合训练前的所述模型选择器的参数，(θ'，

为综合训练后的模型选择器参数。

105、获取待预测用户的特征数据。

需要说明的是，步骤104中经过综合训练的推荐模型(θ'，

可以用于预测用户推荐对象的推荐概率。

在预测之前，该推荐模型先获取预测用户的特征数据。该特征数据可以为与系统匹配的特征数据。例如，若该推荐系统为应用推荐系统，该特征数据可以包括用户使用应用的特征，具体的，该应用的特征可以包括应用的属性，如社交、短视频、音乐播放器等；若该推荐系统为音乐推荐系统，该特征数据可以包括音乐的特征，具体的，该音乐的特征可以包括音乐的类型，如摇滚、民族，流行等。此处仅为举例，并不能作为本申请的限制。

106、根据综合训练后的推荐模型和待预测用户的特征数据获取待预测用户推荐对象的推荐概率。

根据综合训练后的推荐模型和待预测用户的推荐对象特征获取待预测用户推荐对象的推荐概率。具体的，根据如下公式获取待预测用户推荐对象的推荐概率：

其中，x是待预测用户的特征数据，λ是各推荐单模型在模型选择器上的权重分布向量，S()是分布函数，M_K()为第K个推荐单模型，λ_K是权重分布向量λ的第K个推荐单模型的权重分布值，θ'_K是第K个推荐单模型的推荐单模型的参数，

表示待预测用户推荐对象的推荐概率。

本申请实施例一提供了一种基于元学习的推荐模型训练的方法，该方法实现了模型无关的元学习和模型选择器相结合的推荐系统框架，可以解决元特征难以定义的问题，并实现端到端的训练方式，方便落地到实际业务场景。可以广泛应用到应用市场是搜索推广、信息流推荐以及其他信息推荐业务中，可以实现适用于不同用户的精准推荐。

现有的推荐模型训练的方法中，需要先确定元特征，再根据元特征训练推荐模型，而本方案提供的这种推荐模型训练的方法中，可以根据每个用户的第一训练集训练推荐模型，从而得到每个用户各自的推荐模型参数，该推荐模型参数包括K个推荐单模型参数和模型选择器参数。再根据该至少两个用户中所有用户的第二训练集和综合损失函数综合训练推荐模型。从而可以实现该推荐模型中K个推荐单模型和模型选择器可以共同训练和参数更新，一次训练就可以完成整个训练过程，不依赖元特征，也不需要分步训练，可以减少时间复杂度。

其次，根据每个用户的第一训练集训练该推荐模型，从而获取每个用户各自的推荐模型的模型参数，可以使得推荐模型适应每个用户的个性化特征，从而满足用户的个性化需求。

需要说明的是，上述实施例一中，步骤104根据至少两个用户的第二训练集和综合损失函数综合训练得到的推荐模型可以直接用于预测用户推荐对象的推荐概率。具体的，请参见图5。本申请实施例二提供了一种推荐模型训练的方法，具体的，该方法用于预测用户推荐对象的推荐概率。该方法包括：

201、获取待预测用户的特征数据。

获取预测用户的特征数据。该特征数据可以为与系统匹配的特征数据。例如，若该推荐系统为应用推荐系统，该特征数据可以包括用户使用应用的特征，具体的，该应用的特征可以包括应用的属性，如社交、短视频、音乐播放器等；若该推荐系统为音乐推荐系统，该特征数据可以包括音乐的特征，具体的，该音乐的特征可以包括音乐的类型，如摇滚、民族，流行等。此处仅为举例，并不能作为本申请的限制。

202、根据推荐模型和待预测用户的特征数据获取待预测用户推荐对象的推荐概率。

其中，x是待预测用户的特征数据，λ是各推荐单模型在模型选择器上的权重分布向量，θ'为所述K个推荐单模型的参数，

为所述模型选择器的参数，S()是分布函数，M_K()为第K个推荐单模型，λ_K是权重分布向量λ的第K个推荐单模型的权重分布值，θ'_K是第K个推荐单模型的推荐单模型的参数，

表示待预测用户推荐对象的推荐概率。

需指出的是，实施例二中所述的推荐模型包括K个推荐单模型和模型选择器，k为大于1的整数，该推荐模型为根据至少两个用户中每个用户的第一训练集训练之后，再根据至少两个用户的第二训练集和综合损失函数综合训练得到的，至少两个用户中每个用户的用户样本数据包括第一训练集和第二训练集，综合损失函数是根据每个用户的推荐模型的模型参数获取的。具体的，实施例二中的推荐模型为实施例一步骤104综合训练后的推荐模型，详情请参见实施例一进行理解，此处不再赘述。

实施例二提供的这种推荐模型是根据至少两个用户中每个用户的第一训练集训练之后，再根据至少两个用户的第二训练集和综合损失函数综合训练得到的。根据该综合训练后的推荐模型预测待预测用户推荐对象的推荐概率，可以满足该待预测用户的个性化需求，提高预测准确性。

请参见图6，本申请实施例三还提供了一种推荐模型训练的装置30。该推荐模型训练的装置30用于实现本申请实施例一提供的推荐模型训练的方法。该推荐模型训练的装置30可以包括获取模块301、内层训练模块302、外层训练模块303和线上预测模块304。

该获取模块301，用于获取至少两个用户的用户样本数据，所述用户样本数据包括特征数据和样本标签，该特征数据可以包括但不限于推荐对象特征、用户特征以及环境特征。示例性的，该推荐对象特征可以包括但不限于商品、广告、新闻资讯、视频、音乐、阅读、应用程序等特征。用户特征可以包括但不限于用户年龄、用户性别等。该环境特征可以包含：天气、位置信息等。所述样本标签用于表示用户对所述推荐对象特征的选择情况，所述至少两个用户中每个用户的用户样本数据包括第一训练集和第二训练集。具体请参见实施例一的步骤101进行理解，此处不再赘述。

该内层训练模块302，用于根据所述每个用户的所述第一训练集训练推荐模型，所述推荐模型包括K个推荐单模型和模型选择器，K为大于1的整数。具体请参见实施例一的步骤102进行理解，此处不再赘述。具体的，该内层训练模块302，还用于根据所述每个用户的第一训练集获取每个用户各自的损失函数。该内层训练模块302，还用于根据所述每个用户各自的损失函数获取所述每个用户的推荐模型。请参见实施例一的步骤102进行理解，此处不再赘述。

更进一步的，该内层训练模块302，具体用于根据如下公式获取每个用户的损失函数：

其中，

为所述每个用户各自的第一训练集，x为所述第一训练集的推荐对象特征，y为所述第一训练集的样本标签，θ为所述K个推荐单模型的参数，K为大于1的证书，

为所述模型选择器的参数，

是二进制交叉熵损失函数，

是所述每个用户各自的损失函数。

该内层训练模块302，还用于根据如下公式获取所述每个用户的推荐模型：

其中，α是内层梯度更新的学习率，(θ^u，

)为每个用户训练后的所述推荐模型，θ^u为训练后的所述K个推荐单模型模型参数，

为所述训练后的所述模型选择器参数。

该内层训练模块302，还用于获取训练后的所述每个用户的所述推荐模型的模型参数，所述模型参数包括所述K个推荐单模型参数和模型选择器参数。具体请参见实施例一的步骤103进行理解，此处不再赘述。

该外层训练模块303，用于根据所述至少两个用户的第二训练集和综合损失函数综合训练所述推荐模型，获取综合训练后的所述推荐模型，所述综合损失函数是根据所述每个用户的所述推荐模型的模型参数获取的。具体的，该外层训练模块303，还用于根据所述每个用户的推荐模型参数获取综合损失函数。请参见实施例一的步骤104进行理解，此处不做赘述。

更进一步的，该外层训练模块302，用于根据如下公式综合训练所述推荐模型：

其中，

是所述综合损失函数，β是外层梯度更新的学习率，U_t是所述至少两个用户中所有用户的第二训练集，u为第二训练集中每个用户的用户样本数据，m是所述第二训练集中的用户个数。该外层梯度更新的学习率是预先设置的。(θ，

为综合训练前的所述模型选择器的参数，(θ'，

为综合训练后的模型选择器参数。

该获取模块301，还用于获取待预测用户的特征数据。

该线上预测模块304，用于根据综合训练后的推荐模型和所述待预测用户的特征数据获取待预测用户推荐对象的推荐概率。

更进一步的，该线上预测模块304，具体用于根据如下公式获取待预测用户推荐对象的推荐概率：

其中，x是待预测用户的特征数据，λ是所述推荐单模型在模型选择器上的权重分布向量，S()是分布函数，M_K()为第K个推荐单模型，λ_K是权重分布向量λ的第K个推荐单模型的权重分布值，θ'_K是第K个推荐单模型的推荐单模型的参数，p(x；θ',

)表示待预测用户推荐对象的推荐概率。

本申请实施例三提供的这种装置，不需要获取人工定义的元特征。同时，该装置训练的推荐模型包含K个推荐单模型和模型选择器，该K个推荐单模型和模型选择器可以共同训练和参数更新，不需要分步训练，可以降低时间复杂度。

请参见图7，本申请实施例四提供了一种推荐模型训练的装置40，该推荐模型训练的装置40可以包括获取模块401，线上预测模块402。该装置40用于预测用户推荐对象的推荐概率。

该获取模块401，用于获取预测用户的特征数据。该特征数据可以为与系统匹配的特征数据。例如，若该推荐系统为市场推荐系统，该特征数据可以为用户使用应用的特征，具体的，该应用的特征可以包括应用的属性，如社交、短视频、音乐播放器等；若该推荐系统为音乐推荐系统，该特征数据可以为音乐的特征，具体的，该音乐的特征可以包括音乐的类型，如摇滚、民族，流行等。此处仅为举例，并不能作为本申请的限制。请参见实施例二的步骤201进行理解，此处不再赘述。

该线上预测模块402，用于根据综合训练后的推荐模型和待预测用户的特征数据获取待预测用户推荐对象的推荐概率。具体的，根据如下公式获取待预测用户推荐对象的推荐概率：

表示待预测用户推荐对象的推荐概率。

需指出的是，实施例二中所述的推荐模型包括K个推荐单模型和模型选择器，k为大于1的整数，该推荐模型为根据至少两个用户中每个用户的第一训练集训练之后，再根据至少两个用户的第二训练集和综合损失函数综合训练得到的，至少两个用户中每个用户的用户样本数据包括第一训练集和第二训练集，综合损失函数是根据每个用户的推荐模型的模型参数获取的。具体请参见实施例二的步骤202进行理解，此处不再赘述。

实施例四提供的这种装置中，线上预测模块中的推荐模型是根据至少两个用户中每个用户的第一训练集训练之后，再根据至少两个用户的第二训练集和综合损失函数综合训练得到的。根据该综合训练后的推荐模型预测待预测用户推荐对象的推荐概率，可以满足该待预测用户的个性化需求，提高预测准确性。

图8为本申请提供的一种推荐模型训练的装置结构示意图。如图8所示，该装置50包括处理器501、存储器502和收发器503，处理器501、存储器502和收发器503可以通过总线504相连。

该装置50是一种硬件结构的装置，可以用于如图6所示的推荐模型训练的装置30中的各个功能模块的功能。例如，本领域技术人员可以想到图6所示的装置30中的获取模块301获取至少两个用户的用户数据可以通过收发器503实现。图6所示的装置30中的内层训练模块302，根据每个用户的第一训练集训练推荐模型，可以通过该处理器501调用存储器502中的代码来实现；该外层训练模块303，根据至少两个用户的第二训练集和综合损失函数综合训练该推荐模型，也可以通过处理器501调用存储器502中的代码来实现，等等。

可选的，上述处理器501可以是一个或多个中央处理器(central processingunit，CPU)，微处理器，特定应用集成电路(application-specific integrated circuit，ASIC)，或一个或多个用于控制本申请方案程序执行的集成电路。

该处理器501，用于执行存储器502中的指令，执行上述应用于图3或图5所示推荐模型训练的方法中的处理步骤。

该收发器503，可以包含输入/输出(I/O)接口。

存储器502、处理器501和收发器503可以通过总线504相互连接，但不限于只能通过总线504连接；总线504可以是外设部件互连标准(peripheral componentinterconnect，PCI)总线或扩展工业标准结构(extended industry standardarchitecture，EISA)总线等。总线可以分为地址总线、数据总线、控制总线等。

在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。

所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时，全部或部分地产生按照本申请实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一计算机可读存储介质传输，例如，所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存储的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质，(例如，软盘、硬盘、磁带)、光介质(例如，DVD)、或者半导体介质(例如固态硬盘Solid State Disk(SSD))等。

本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序指令指示相关的硬件来完成，该程序可以存储于计算机可读存储介质中，存储介质可以包括：ROM、RAM、磁盘或光盘等。

本申请还提供了一种计算机可读存储介质，包括指令，当该指令在计算机设备上运行时，使得该计算机设备执行如本申请实施例一提供的推荐模型训练的方法。

本申请还提供了一种计算机可读存储介质，包括指令，当该指令在计算机设备上运行时，使得该计算机设备执行如本申请实施例二提供的推荐模型训练的方法。

本申请还提供了一种推荐模型训练的装置，该装置包括输入/输出(I/O)接口、处理器和存储器，该存储器中存储有程序指令；该处理器，用于执行存储器中存储的程序指令，以执行如本申请实施例一提供的推荐模型训练的方法。

本申请还提供了一种推荐模型训练的装置，该装置包括输入/输出(I/O)接口、处理器和存储器，该存储器中存储有程序指令；该处理器，用于执行存储器中存储的程序指令，以执行如本申请实施例二提供的推荐模型训练的方法。

本申请还提供了一种芯片，该芯片包括处理单元和存储单元，该存储单元用于存储计算机操作指令；该处理单元用于通过调用存储单元中存储的计算机操作指令，以执行如本申请实施例一提供的推荐模型训练的方法。

本申请还提供了一种芯片，该芯片包括处理单元和存储单元，该存储单元用于存储计算机操作指令；该处理单元用于通过调用存储单元中存储的计算机操作指令，以执行如本申请实施例二提供的推荐模型训练的方法。

以上对本发明实施例所提供的一种推荐模型训练的方法及装置进行了详细介绍，本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。

Claims

1.一种推荐模型训练的方法，其特征在于，所述方法包括：

获取至少两个用户的用户样本数据，所述用户样本数据包括特征数据和样本标签，所述特征数据包括推荐对象特征和用户特征，所述样本标签用于表示用户对所述推荐对象的选择情况，所述至少两个用户中每个用户的用户样本数据包括第一训练集和第二训练集；

根据所述每个用户的所述第一训练集训练推荐模型，所述推荐模型包括K个推荐单模型和模型选择器，K为大于1的整数；

获取训练后的所述每个用户的所述推荐模型的模型参数，所述模型参数包括所述K个推荐单模型参数和所述模型选择器参数；

根据所述至少两个用户的第二训练集和综合损失函数综合训练所述推荐模型，获取综合训练后的所述推荐模型，所述综合损失函数是根据所述每个用户的所述推荐模型的模型参数获取的。

2.根据权利要求1所述的方法，其特征在于，所述综合损失函数是根据所述每个用户的所述推荐模型的模型参数获取的，具体包括：

根据所述每个用户的所述推荐模型的模型参数获取所述每个用户的所述推荐模型的损失函数；

根据所述每个用户的所述推荐模型的损失函数获取所述综合损失函数。

3.根据权利要求2所述的方法，其特征在于，所述根据所述每个用户的第一训练集获取每个用户各自的损失函数包括：

根据如下公式获取所述每个用户各自的损失函数：

其中，

为所述每个用户各自的第一训练集，x为所述第一训练集的特征数据，y为所述第一训练集的样本标签，θ为所述K个推荐单模型的参数，

为所述模型选择器的参数，

是二进制交叉熵损失函数，

是所述每个用户各自的损失函数；

所述根据所述每个用户各自的损失函数获取所述每个用户的推荐模型包括：

根据如下公式获取所述每个用户的推荐模型：

其中，α是内层梯度更新的学习率，

为所述每个用户训练后的所述推荐模型，θ^u为训练后的所述K个推荐单模型模型参数，

为所述训练后的所述模型选择器参数。

4.根据权利要求3所述的方法，其特征在于，所述根据所述至少两个用户的第二训练集和综合损失函数综合训练所述推荐模型包括：

根据如下公式综合训练所述推荐模型：

其中，

是所述综合损失函数，U_t是所述至少两个用户中所有用户的第二训练集，u为第二训练集中每个用户的用户样本数据，β是外层梯度更新的学习率，m是所述第二训练集中的用户个数，

为综合训练前的所述模型选择器的参数，

为综合训练后的推荐模型，θ'为综合训练后的K个推荐单模型参数，

为综合训练后的模型选择器参数。

5.根据权利要求4所述的方法，其特征在于，所述方法还包括：

获取待预测用户的特征数据；

根据所述综合训练后的推荐模型和所述待预测用户的特征数据获取待预测用户推荐对象的推荐概率。

6.根据权利要求5所述的方法，其特征在于，所述根据所述综合训练后的推荐模型和所述待预测用户的特征数据获取待预测用户推荐对象的推荐概率包括：

根据如下公式获取待预测用户推荐对象的推荐概率：

其中，x是所述待预测用户的特征数据，λ是所述推荐单模型在模型选择器上的权重分布向量，S()是分布函数，M_K()为第K个推荐单模型，λ_K是所述权重分布向量λ的第K个推荐单模型的权重分布值，θ'_K是第K个推荐单模型的推荐单模型的参数，

表示待预测用户推荐对象的推荐概率。

7.一种推荐模型训练的方法，其特征在于，所述方法包括：

获取待预测用户的特征数据；

根据所述待预测用户的特征数据和推荐模型获取所述待预测用户推荐对象的推荐概率，所述推荐模型包括K个推荐单模型和模型选择器，K为大于1的整数，所述推荐模型为根据至少两个用户中每个用户的第一训练集训练之后，再根据所述至少两个用户的第二训练集和综合损失函数综合训练得到的，所述至少两个用户中每个用户的用户样本数据包括所述第一训练集和第二训练集，所述用户样本数据包括所述特征数据和样本标签，所述特征数据包括推荐对象特征和用户特征，所述样本标签用于表示用户对所述推荐对象的选择情况，所述综合损失函数是根据所述每个用户的所述推荐模型的模型参数获取的，所述模型参数包括所述K个推荐单模型参数和所述模型选择器参数。

8.根据权利要求7所述的方法，其特征在于，所述根据所述待预测用户的特征数据和推荐模型获取所述待预测用户推荐对象的推荐概率包括：

根据如下公式获取待预测用户推荐对象的推荐概率：

其中，x是所述待预测用户的特征数据，λ是所述推荐单模型在模型选择器上的权重分布向量，θ'为所述K个推荐单模型的参数，

为所述模型选择器的参数，S()是分布函数，M_K()为第K个推荐单模型，λ_K是所述权重分布向量λ的第K个推荐单模型的权重分布值，θ'_K是第K个推荐单模型的推荐单模型参数，

表示待预测用户推荐对象的推荐概率。

9.一种推荐模型训练的装置，其特征在于，所述装置包括：

获取模块，用于获取至少两个用户的用户样本数据，所述用户样本数据包括特征数据和样本标签，所述特征数据包括推荐对象特征和用户特征，所述样本标签用于表示用户对所述推荐对象的选择情况，所述至少两个用户中每个用户的用户样本数据包括第一训练集和第二训练集；

内层训练模块，用于根据所述每个用户的所述第一训练集训练推荐模型，所述推荐模型包括K个推荐单模型和模型选择器，K为大于1的整数；

所述内层训练模块，还用于获取训练后的所述每个用户的所述推荐模型的模型参数，所述模型参数包括所述K个推荐单模型参数和模型选择器参数；

外层训练模块，用于根据所述至少两个用户的第二训练集和综合损失函数综合训练所述推荐模型，并获取综合训练后的所述推荐模型，所述综合损失函数是根据所述每个用户的所述推荐模型的模型参数获取的。

10.根据权利要求9所述的装置，其特征在于，

所述内层训练模块，还用于所述每个用户的所述推荐模型的模型参数获取所述每个用户的所述推荐模型的损失函数；

所述外层训练模块，还用于根据所述每个用户的所述推荐模型的损失函数获取所述综合损失函数。

11.根据权利要求10所述的装置，其特征在于，

所述内层训练模块，具体用于根据如下公式获取所述每个用户各自的损失函数：

其中，

为所述每个用户各自的第一训练集，x为所述第一训练集的推荐对象特征，y为所述第一训练集的样本标签，θ为所述K个推荐单模型的参数，

为所述模型选择器的参数，

是二进制交叉熵损失函数，

是所述每个用户各自的损失函数；

所述内层训练模块，具体用于根据如下公式获取所述每个用户的推荐模型：

其中，α是内层梯度更新的学习率，

为所述训练后的所述模型选择器参数。

12.根据权利要求11所述的装置，其特征在于，

所述外层训练模块，具体用于根据如下公式综合训练所述推荐模型：

其中，

为综合训练前的所述模型选择器的参数，

为综合训练后的模型选择器参数。

13.根据权利要求12所述的装置，其特征在于，所述装置还包括：

所述获取模块，还用于获取待预测用户的特征数据；

线上预测模块，用于根据综合训练后的推荐模型和所述待预测用户的特征数据获取待预测用户推荐对象的推荐概率。

14.根据权利要求13所述的装置，其特征在于，

所述线上预测模块，具体用于根据如下公式获取待预测用户推荐对象的推荐概率：

其中，x是所述待预测用户的特征数据，λ是所述推荐单模型在模型选择器上的权重分布向量，S()是分布函数，M_K()为第K个推荐单模型，λ_K是所述权重分布向量λ的第K个推荐单模型的权值分布值，θ'_K是第K个推荐单模型的推荐单模型的参数，

表示待预测用户推荐对象的推荐概率。

15.一种推荐模型训练的装置，其特征在于，所述装置包括：

获取模块，用于获取待预测用户的特征数据；

线上预测模块，用于根据所述待预测用户的特征数据和推荐模型获取所述待预测用户推荐对象的推荐概率，所述推荐模型包括K个推荐单模型和模型选择器，K为大于1的整数，所述推荐模型为根据至少两个用户中每个用户的第一训练集训练之后，再根据所述至少两个用户的第二训练集和综合损失函数综合训练得到的，所述至少两个用户中每个用户的用户样本数据包括所述第一训练集和第二训练集，所述用户样本数据包括所述特征数据和样本标签，所述特征数据包括推荐对象特征和用户特征，所述样本标签用于表示用户对所述推荐对象的选择情况，所述综合损失函数是根据所述每个用户的所述推荐模型的模型参数获取的，所述模型参数包括所述K个推荐单模型参数和所述模型选择器参数。

16.根据权利要求15所述的装置，其特征在于，

表示待预测用户推荐对象的推荐概率。

17.一种计算机可读存储介质，包括指令，其特征在于，当所述指令在计算机设备上运行时，使得所述计算机设备执行如权利要求1-6任意一项所述的方法。

18.一种计算机可读存储介质，包括指令，其特征在于，当所述指令在计算机设备上运行时，使得所述计算机设备执行如权利要求7或8所述的方法。

19.一种推荐模型训练的装置，其特征在于，所述装置包括输入/输出(I/O)接口、处理器和存储器，所述存储器中存储有程序指令；

所述处理器，用于执行存储器中存储的程序指令，执行如权利要求1-6任意一项所述的方法。

20.一种推荐模型训练的装置，其特征在于，所述装置包括输入/输出(I/O)接口、处理器和存储器，所述存储器中存储有程序指令；

所述处理器，用于执行存储器中存储的程序指令，执行如权利要求7或8所述的方法。

21.一种芯片，其特征在于，包括：

处理单元和存储单元，所述存储单元用于存储计算机操作指令；

所述处理单元用于通过调用所述存储单元中存储的计算机操作指令，以执行如权利要求1-6任意一项所述的方法。

22.一种芯片，其特征在于，包括：

所述处理单元用于通过调用所述存储单元中存储的计算机操作指令，以执行如权利要求7或8所述的方法。