CN113536105A

CN113536105A - 推荐模型训练方法和装置

Info

Publication number: CN113536105A
Application number: CN202011223031.5A
Authority: CN
Inventors: 叶佳木
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2020-11-05
Filing date: 2020-11-05
Publication date: 2021-10-22

Abstract

本申请涉及一种推荐模型训练方法和装置。所述方法包括：获取训练样本，并获取至少二个已训练子目标模型分别对应的子标签集；将训练样本输入到已训练子目标模型中，得到子推荐度集；将各个子推荐度集输入到初始融合推荐模型中，得到融合推荐度集，基于融合推荐度将各个历史推荐目标进行排序，得到历史推荐目标序列；基于历史推荐目标序列得到各个已训练子目标模型分别对应的子标签序列；基于各个子标签序列对应的排序评价信息确定目标排序评价信息；基于目标排序评价信息更新初始融合推荐模型，当训练完成时，得到目标融合推荐模型，目标融合推荐模型用于对待推荐信息进行推荐。采用本方法能够提高目标融合推荐模型在进行推荐时的精确性。

Description

推荐模型训练方法和装置

技术领域

本申请涉及计算机技术领域，特别是涉及一种推荐模型训练方法、装置、计算机设备和存储介质。

背景技术

随着人工智能技术的发展，出现了基于人工智能的推荐技术，比如，进行视频推荐、商品推荐、新闻推荐、广告推荐等等。目前，在建立人工智能推荐模型时，通常是针对各个子业务单独建立模型。比如，视频点击率推荐模型通常会基于点击率来进行视频推荐，并不会关注视频其他特征。最后将各个子业务模型的输出进行融合，得到融合后的结果，根据融合后的结果进行推荐。目前，在进行融合时，通常是对各个子业务模型的输出设立对应的权重，并进行加权融合，得到融合后的推荐结果。然而，只是简单的加权融合，会存在融合后的推荐结果不够精准的问题。

发明内容

基于此，提供一种能够提高推荐结果精准性的推荐模型训练方法、装置、计算机设备和存储介质。

一种推荐模型训练方法，所述方法包括：

获取训练样本，训练样本包括各个历史推荐目标，并获取至少二个已训练子目标模型分别对应的子标签集，子标签集中包括各个历史推荐目标对应的子标签；

将训练样本输入到已训练子目标模型中，得到各个已训练子目标模型输出的子推荐度集，子推荐度集中包括各个历史推荐目标对应的子推荐度；

将各个子推荐度集输入到初始融合推荐模型中，得到融合推荐度集，融合推荐度集包括各个历史推荐目标对应的融合推荐度，基于融合推荐度将各个历史推荐目标进行排序，得到历史推荐目标序列；

基于历史推荐目标序列的顺序将子标签集中各个历史推荐目标对应的子标签进行排序，得到各个已训练子目标模型分别对应的子标签序列；

基于排序评价指标确定各个子标签序列对应的排序评价信息，基于各个子标签序列对应的排序评价信息确定目标排序评价信息；

基于目标排序评价信息更新初始融合推荐模型，当训练完成时，得到目标融合推荐模型，目标融合推荐模型用于对待推荐信息进行推荐。

在其中一个实施例中，所述训练样本包括历史用户标识和所述历史用户标识对应的各个历史推荐目标；

所述将所述训练样本输入到所述已训练子目标模型中，得到各个已训练子目标模型输出的子推荐度集，包括：

获取所述历史用户标识对应的历史用户属性特征和所述各个历史推荐目标对应的历史推荐目标特征；

将所述历史用户属性特征和所述各个历史推荐目标特征输入到所述已训练子目标模型中，得到各个已训练子目标模型输出的所述历史用户标识对应的子推荐度集。

一种推荐方法，所述方法包括：

获取用户标识，基于用户标识获取用户属性特征；

获取各个待推荐目标以及对应的目标属性特征，将用户属性特征和目标属性特征输入至少二个已训练子目标模型中，得到各个已训练子目标模型输出的子目标推荐度集，子目标推荐度集中包括各个待推荐目标对应的子目标推荐度；

将各个子推荐度集输入到目标融合推荐模型中，得到各个待推荐目标对应的融合推荐度，目标融合推荐模型是使用训练样本和至少二个已训练子目标模型分别对应的子标签集训练得到的，训练样本包括各个历史推荐目标，子标签集中包括各个历史推荐目标对应的子标签；

基于融合推荐度将各个待推荐目标进行排序，得到待推荐目标序列；

从待推荐目标序列中选取预设数量的待推荐目标，将预设数量的待推荐目标向用户标识推荐。

一种推荐模型训练装置，所述装置包括：

样本获取模块，用于获取训练样本，训练样本包括各个历史推荐目标，并获取至少二个已训练子目标模型分别对应的子标签集，子标签集中包括各个历史推荐目标对应的子标签；

子推荐度得到模块，用于将训练样本输入到已训练子目标模型中，得到各个已训练子目标模型输出的子推荐度集，子推荐度集中包括各个历史推荐目标对应的子推荐度；

目标序列得到模块，用于将各个子推荐度集输入到初始融合推荐模型中，得到融合推荐度集，融合推荐度集包括各个历史推荐目标对应的融合推荐度，基于融合推荐度将各个历史推荐目标进行排序，得到历史推荐目标序列；

子序列得到模块，用于基于历史推荐目标序列的顺序将子标签集中各个历史推荐目标对应的子标签进行排序，得到各个已训练子目标模型分别对应的子标签序列；

评价模块，用于基于排序评价指标确定各个子标签序列对应的排序评价信息，基于各个子标签序列对应的排序评价信息确定目标排序评价信息；

更新模块，用于基于目标排序评价信息更新初始融合推荐模型，当训练完成时，得到目标融合推荐模型，目标融合推荐模型用于对待推荐信息进行推荐。

一种推荐装置，所述装置包括：

特征获取模块，用于获取用户标识，基于用户标识获取用户属性特征；

特征输入模块，用于获取各个待推荐目标以及对应的目标属性特征，将用户属性特征和目标属性特征输入至少二个已训练子目标模型中，得到各个已训练子目标模型输出的子目标推荐度集，子目标推荐度集中包括各个待推荐目标对应的子目标推荐度；

融合模块，用于将各个子推荐度集输入到目标融合推荐模型中，得到各个待推荐目标对应的融合推荐度，目标融合推荐模型是使用训练样本和至少二个已训练子目标模型分别对应的子标签集训练得到的，训练样本包括各个历史推荐目标，子标签集中包括各个历史推荐目标对应的子标签；

排序模块，用于基于融合推荐度将各个待推荐目标进行排序，得到待推荐目标序列；

推荐模块，用于从待推荐目标序列中选取预设数量的待推荐目标，将预设数量的待推荐目标向用户标识推荐。

一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现以下步骤：

获取用户标识，基于用户标识获取用户属性特征；

一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现以下步骤：

获取用户标识，基于用户标识获取用户属性特征；

上述推荐模型训练方法、装置、计算机设备和存储介质，通过得到的融合推荐度集对各个历史推荐目标进行排序，得到历史推荐目标序列，然后基于历史推荐目标序列的顺序将子标签集中各个历史推荐目标对应的子标签进行排序，得到各个已训练子目标模型分别对应的子标签序列，并根据各个子标签序列对应的排序评价信息确定目标排序评价信息，然后根据目标排序评价信息更新初始融合推荐模型，当训练完成时，得到目标融合推荐模型，目标融合推荐模型用于对待推荐信息进行推荐。即通过历史推荐目标序列确定各个子标签序列，并按照各个子标签序列对应的排序评价信息确定目标排序评价信息，从而能够使得到的目标排序评价信息更加的准确，然后使用目标排序评价信息更新初始融合推荐模型，从而使训练得到的目标融合推荐模型在进行目标融合推荐时能够更加的精确。

附图说明

图1为一个实施例中推荐模型训练方法的应用环境图；

图2为一个实施例中推荐模型训练方法的流程示意图；

图3为一个实施例中计算第一排序评价信息的流程示意图；

图4为一个实施例中计算第二排序评价信息的流程示意图；

图5为一个实施例中确定正序对数量的流程示意图；

图6为一个具体实施例中确定正序对数量的示意图；

图7为一个实施例中得到第二目标排序评价信息的流程示意图；

图8为一个实施例中得到第三目标排序评价信息的流程示意图；

图9为一个实施例中得到目标融合推荐模型的流程示意图；

图10为一个实施例中得到偏导数的流程示意图；

图11为一个实施例中得到初始融合推荐模型的流程示意图；

图12为一个实施例中推荐方法的流程示意图；

图13为一个具体实施例中推荐模型训练方法的流程示意图；

图14为一个实施例中推荐模型训练装置的结构框图；

图15为一个实施例中推荐装置的结构框图；

图16为一个实施例中计算机设备的内部结构图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。

机器学习(Machine Learning,ML)是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心，是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。

本申请实施例提供的方案涉及人工智能的机器学习等技术，具体通过如下实施例进行说明:

本申请提供的推荐模型训练方法，可以应用于如图1所示的应用环境中。其中，终端102通过网络与服务器104进行通信。终端102向服务器104发送模型训练指令，服务器104根据模型训练指令获取训练样本，训练样本包括各个历史推荐目标，并获取至少二个已训练子目标模型分别对应的子标签集，子标签集中包括各个历史推荐目标对应的子标签；服务器104将训练样本输入到已训练子目标模型中，得到各个已训练子目标模型输出的子推荐度集，子推荐度集中包括各个历史推荐目标对应的子推荐度；服务器104将各个子推荐度集输入到初始融合推荐模型中，得到融合推荐度集，融合推荐度集包括各个历史推荐目标对应的融合推荐度，基于融合推荐度将各个历史推荐目标进行排序，得到历史推荐目标序列；基于历史推荐目标序列的顺序将子标签集中各个历史推荐目标对应的子标签进行排序，得到各个已训练子目标模型分别对应的子标签序列；服务器104基于排序评价指标确定各个子标签序列对应的排序评价信息，基于各个子标签序列对应的排序评价信息确定目标排序评价信息；服务器104基于目标排序评价信息更新初始融合推荐模型，当训练完成时，得到目标融合推荐模型，目标融合推荐模型用于对待推荐信息进行推荐。其中，终端102可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备，服务器104可以用独立的服务器或者是多个服务器组成的服务器集群来实现。

在一个实施例中，如图2所示，提供了一种推荐模型训练方法，以该方法应用于图1中的服务器为例进行说明，可以理解的是，该方法也可以应用于终端中，还可以应用于包括终端和服务器的系统，并通过终端和服务器的交互实现。本实施例中，该方法包括以下步骤：

步骤202，获取训练样本，训练样本包括各个历史推荐目标，并获取至少二个已训练子目标模型分别对应的子标签集，子标签集中包括各个历史推荐目标对应的子标签。

其中，目标是指需要通过网络向用户推荐的对象，不同的推荐应用场景有不同的目标。该目标可以包括广告，视频、商品、社交对象、文本、音乐和图片中的至少一种。历史推荐目标是指在历史时间已经向用户推荐过的目标。比如，在视频推荐场景中历史推荐目标可以是各个历史推荐视频。在商品推荐场景历史推荐目标可以是各个历史推荐商品。在社交对象推荐场景中历史推荐目标可以是各个历史推荐社交用户。在音乐推荐场景中历史推荐目标可以是各个历史推荐音乐。在图片推荐场景中历史推荐目标可以是各个历史推荐图片。

子目标是指目标对应的不同的业务目标。比如，在视频推荐场景中视频对应的子目标可以是完播率、关注率、点赞率、视频停留时长等不同的业务目标。又比如，在商品推荐场景中子目标可以是商品点击率、商品收藏率，商品购买率等不同的业务目标。比如，社交对象推荐场景中子目标可以是共同社交对象占比、社交对象年龄相似度等等。子目标模型是使用训练样本和对应的子标签集使用人工智能算法训练得到的。该人工智能算法可以是线性回归算法、深度神经网络算法、决策树算法、随机森林算法、支持向量机算法等等。不同的子目标模型可以使用不同的人工智能算法，也可以使用相同的人工智能算法。不同的子目标模型对应的子标签集不同。子标签是指历史推荐目标对应的子目标的真实结果。比如，在视频推荐场景中视频停留时长预测模型对应的子标签可以是视频停留时长。在商品推荐场景中商品收藏模型对应的子标签包括收藏标签和未收藏标签。训练样本是用于进行模型训练的样本，可以用于训练子目标模型，也可以用于训练目标融合推荐模型。

具体地，服务器可以从数据库中获取训练样本，训练样本包括各个历史推荐目标。服务器也可以从第三方获取到训练样本，第三方是指存储有训练样本的服务方。服务器也可以从互联网采集到训练样本。同时，服务器获取至少二个已训练子目标模型分别对应的子标签集，子标签集中包括各个历史推荐目标对应的子标签。

步骤204，将训练样本输入到已训练子目标模型中，得到各个已训练子目标模型输出的子推荐度集，子推荐度集中包括各个历史推荐目标对应的子推荐度。

其中，子推荐度是指已训练子目标模型输出的推荐度，用于表征在该业务目标下对应的训练样本的可推荐程度，即子目标模型的输出结果用于描述在对应业务目标上的倾向程度。比如，在视频推荐场景中收藏模型输出的结果越高，用户越有可能收藏，即用户越有可能关注。

具体地，服务器预先训练得到已训练子目标模型，将已训练子目标模型部署到服务器中，当获取到训练样本时，将，将训练样本输入到已训练子目标模型中，得到各个已训练子目标模型输出的子推荐度集，子推荐度集中包括各个历史推荐目标对应的子推荐度。

在一个实施例中，服务器可以将训练样本发送到部署有已训练子目标模型的服务器中，即已训练子目标模型可以部署在其他的服务器，比如，云服务器、第三方服务器中。服务器获取到部署有已训练子目标模型的服务器返回的子推荐度集。该子推荐度集中包括有训练样本中每个历史推荐目标对应的子推荐度。

步骤206，将各个子推荐度集输入到初始融合推荐模型中，得到融合推荐度集，融合推荐度集包括各个历史推荐目标对应的融合推荐度，基于融合推荐度将各个历史推荐目标进行排序，得到历史推荐目标序列。

其中，初始融合推荐模型是指模型参数初始化的融合推荐模型。融合推荐度用于表征历史推荐目标对应的融合后的推荐程度。该融合推荐度是将历史推荐目标在不同的子目标模型输出的子推荐度进行融合得到的。比如，在商品推荐场景中将商品点击模型输出的推荐度和商品收藏模型输出的推荐进行融合，得到融合后的商品推荐度。历史推荐目标序列是指将历史推荐目标按照融合推荐度排序后得到的序列。

具体地，服务器将同一个历史推荐目标在各个子推荐度集中对应的子推荐度同时输入到初始融合推荐模型中，得到输出的该历史推荐目标在融合推荐度集中的融合推荐度，融合推荐度集中包括每个历史推荐目标对应的融合推荐度。然后服务器按照融合推荐度的大小将各个历史推荐目标进行排序，得到历史推荐目标序列，其中，可以按照融合推荐度从大到小将各个历史推荐目标进行排序，也可以按照融合推荐度从小到大将各个历史推荐目标进行排序。

步骤208，基于历史推荐目标序列的顺序将子标签集中各个历史推荐目标对应的子标签进行排序，得到各个已训练子目标模型分别对应的子标签序列。

其中，子标签序列是指将同一个子目标模型的子标签按照历史推荐目标序列的顺序进行排序后得到的序列。

具体地，服务器将不同的已训练子目标模型对应的子标签集中的子标签按照历史推荐目标序列的顺序进行排序。比如，历史推荐目标序列中第一个历史推荐目标对应的子标签就是子标签序列中的第一个子标签。不同的已训练子目标模型有不同的子标签集，从而得到对应的子标签序列。

步骤210，基于排序评价指标确定各个子标签序列对应的排序评价信息，基于各个子标签序列对应的排序评价信息确定目标排序评价信息。

其中，排序评价指标用于评价各个子标签序列对应的排序准确性，该排序评价指标可以报考AUC(Area Under Curve，ROC曲线下与坐标轴围成的面积)、正序对占比、NDCG(Normalized Discounted Cumulative Gain，归一化折损累计增益)或者a-NDCG等等。排序评价信息是指各个子标签序列对应的排序评价指标值。目标排序评价信息是指用于评价历史推荐目标序列对应的排序准确性的排序评价指标值。

具体地，服务器可以获取到各个子标签序列对应的标签数据类型，标签数据类型用于表征标签对应的数据类型，不同的子标签序列可以有不同的标签数据类型，也可以有相同的标签数据类型。然后基于标签数据类型获取对应的排序评价指标，不同的标签数据类型有不同的排序评价指标。并按照排序评价指标计算各个子标签序列对应的排序评价信息。最后服务器根据各个子标签序列对应的排序评价信息和预先设置好的权重来计算目标排序评价信息。不同的子目标可以设置有不同的权重。

步骤212，基于目标排序评价信息更新初始融合推荐模型，当训练完成时，得到目标融合推荐模型，目标融合推荐模型用于对待推荐信息进行推荐。

其中，待推荐信息是指需要向用户进行推荐信息，包括广告、视频、商品、社交对象、文本、音乐和图片中的至少一种。

具体地，服务器基于目标排序评价信息更新初始融合推荐模型中的模型参数。其中，可以使用梯度下降算法、Adagrad((Adaptive Gradient，自适应梯度)算法、Adadelta(AdaGrad算法的改进)、RMSprop(AdaGrad算法的改进)、Adam(Adaptive MomentEstimation，自适应矩估计)算法等作为优化器来更新初始融合推荐模型中的模型参数。当模型参数收敛时，训练完成，得到目标融合推荐模型，模型参数收敛条件可以是模型参数不在发生变化，也可以是模型参数出现下降，也可以是训练次数达到最大迭代次数等等。训练得到的目标融合推荐模型可以用于对各种待推荐信息进行推荐，比如，待推荐信息为多个待推荐视频时，将多个待推荐视频输入目标融合推荐模型中，得到输出的视频序列，按照输出的视频序列可以向用户进行视频推荐。

上述推荐模型训练方法中，通过得到的融合推荐度集对各个历史推荐目标进行排序，得到历史推荐目标序列，然后基于历史推荐目标序列的顺序将子标签集中各个历史推荐目标对应的子标签进行排序，得到各个已训练子目标模型分别对应的子标签序列，并根据各个子标签序列对应的排序评价信息确定目标排序评价信息，然后根据目标排序评价信息更新初始融合推荐模型，当训练完成时，得到目标融合推荐模型，目标融合推荐模型用于对待推荐信息进行推荐。即通过历史推荐目标序列确定各个子标签序列，并按照各个子标签序列对应的排序评价信息确定目标排序评价信息，从而能够使得到的目标排序评价信息更加的准确，然后使用目标排序评价信息更新初始融合推荐模型，从而使训练得到的目标融合推荐模型在进行目标融合推荐时能够更加的精确。

在一个实施例中，训练样本包括历史用户标识和历史用户标识对应的各个历史推荐目标；

步骤204，将训练样本输入到已训练子目标模型中，得到各个已训练子目标模型输出的子推荐度集，包括：

获取历史用户标识对应的历史用户属性特征和各个历史推荐目标对应的历史推荐目标特征；将历史用户属性特征和各个历史推荐目标特征输入到已训练子目标模型中，得到各个已训练子目标模型输出的历史用户标识对应的子推荐度集。

其中，历史用户标识用于唯一标识历史用户，可以是数字、字符串、名称等等。历史用户属性特征用于表征历史用户的属性特征，可以包括基础属性特征和行为属性特征。其中，基础属性特征可以是年龄属性特征、性别属性特征等。不同应用场景的历史用户有不同的行为属性特征。比如，在视频推荐场景中用户的行为属性特征可以包括观看行为特征、点赞行为特征、收藏行为特征等等。历史推荐目标特征用于表征历史推荐目标本身的属性特征。不同的应用场景历史推荐目标有不同的历史推荐目标特征。比如，在视频推荐场景中历史推荐视频特征可以包括视频时长特征、视频观看次数特征、视频喜欢人数特征等等。

具体地，服务器可以根据历史用户标识在数据库中查找历史用户属性和各个历史推荐目标对应的历史推荐目标属性，基于查找到的历史用户属性提取到历史用户属性特征并提取历史推荐目标属性对应的历史推荐目标特征，得到历史用户标识对应的历史用户属性特征和各个历史推荐目标对应的历史推荐目标特征。然后服务器分别将历史用户属性特征和每个历史推荐目标特征输入到已训练子目标模型中，得到各个已训练子目标模型输出的历史用户标识对应的子推荐度集。比如，服务器根据历史用户属性特征和每个历史推荐目标特征得到用户和历史推荐目标的一个样本对，该样本对中包括历史用户属性特征和一个历史推荐目标特征。将每个样本对输入到各个已训练子目标模型中进行计算，得到各个已训练子目标模型输出的每个样本对对应的子推荐度集。

在一个实施例中，训练样本可以包括多个历史用户标识和每个历史用户标识对应的各个历史推荐目标，将每个历史用户标识对应的历史用户属性特征和各个历史推荐目标特征输入到已训练子目标模型中，得到各个已训练子目标模型输出的每个历史用户标识对应的子推荐度集。

在上述实施例中，通过将历史用户属性特征和各个历史推荐目标特征输入到已训练子目标模型中，得到各个已训练子目标模型输出的历史用户标识对应的子推荐度集，即通过将历史用户属性特征和历史推荐目标特征作为模型的输入，从而能够使得到的子推荐度更加的准确。

在一个实施例中，基于排序评价指标确定各个子标签序列对应的排序评价信息，包括：

获取各个子标签序列对应的标签数据类型，基于标签数据类型确定各个子标签序列对应的排序评价指标，基于各个子标签序列对应的排序评价指标计算各个子标签序列对应的排序评价信息。

其中，标签数据类型用于表征标签对应的数据类型，

具体地，服务器获取各个子标签序列对应的标签数据类型，子标签对应的标签数据类型可以是预先设置好并保存在服务器中的。不同的子目标模型对应的子标签可以设置不同的标签数据类型。其中，分类模型对应的标签可以设置为离散数据类型，比如，点击模型对应的标签可以设置为离散数据类型。线性模型对应的标签可以设置为连续数据类型，比如，视频停留时长模型对应的标签可以是设置为连续数据类型。服务器基于标签数据类型确定各个子标签序列对应的排序评价指标，其中，服务器可以根据离散数据类型确定子标签序列对应的排序评价指标可以是AUC，也可以是其他指标。服务器可以根据离散数据类型确定子标签序列对应的排序评价指标可以是正序对占比。然后服务器基于各个子标签序列对应的排序评价指标计算各个子标签序列对应的排序评价信息。

在一个具体地实施例中，定义第k个子标签序列的排序指标为P_k，k为正整数。当子标签序列为离散数据类型时，P_k使用AUC进行计算。当子标签序列为连续数据类型时，P_k使用正序对占比进行计算。定义第i历史用户标识对应的第k个子标签序列为

i为正整数。定义第i历史用户标识对应的融合分数序列为

W是指未训练完成的融合推荐模型的模型参数。则计算第i历史用户标识对应的第k个子标签序列的排序评价信息具体如公式(1)所示：

其中，p_ki(W)表示第i历史用户标识对应的第k个子标签序列的排序评价信息。

表示根据第i历史用户标识对应的融合分数序列

确定第i历史用户标识对应的第k个子标签序列为

然后使用第k个子标签序列的排序指标为P_k计算第i历史用户标识对应的第k个子标签序列的排序评价信息。

在上述实施例中，通过基于标签数据类型确定各个子标签序列对应的排序评价指标，然后基于各个子标签序列对应的排序评价指标计算各个子标签序列对应的排序评价信息，从而使得到的各个子标签序列对应的排序评价信息更加的准确。

在一个实施例中，标签数据类型包括离散数据类型；如图3所示，基于标签数据类型确定各个子标签序列对应的排序评价指标，基于各个子标签序列对应的排序评价指标计算各个子标签序列对应的排序评价信息，包括：

步骤302，当第一子标签序列对应的标签数据类型为离散数据类型时，从第一子标签序列中确定第一类别子标签数量和第二类别子标签数量。

其中，第一子标签序列是指离散数据类型的子标签序列。第一类别子标签数量是指二分类模型的标签中表征第一类别的标签。比如，点击模型中的点击标签。第一类别子标签数量是指第一类别子标签在第一子标签序列中的数量。第二类别子标签是指二分类模型的标签中表征第二类别的标签，比如，点击模型中的未点击标签。第二类别子标签数量是指第二类别子标签在第二子标签序列中的数量。

具体地，服务器判断当第一子标签序列对应的标签数据类型为离散数据类型时，对第一子标签序列中的第一类别标签和第二类别标签进行数量统计，得到第一类别子标签数量和第二类别子标签数量。

步骤304，从历史推荐目标序列中确定各个第一类别子标签对应的历史推荐目标位置标识，计算各个第一类别子标签对应的历史推荐目标位置标识的标识和。

其中，历史推荐目标位置标识用于唯一标识第一类别子标签对应的历史推荐目标在历史推荐目标序列中的位置，可以是数字，编码等等。标识和是将各个历史推荐目标位置标识进行求和后得到的。

具体地，服务器从历史推荐目标序列中确定各个第一类别子标签对应的历史推荐目标位置标识，然后将各个第一类别子标签对应的历史推荐目标位置标识进行相加，得到标识和。

比如，在视频推荐应用场景中，历史推荐序列为(视频3、视频2、视频5、视频1、视频4)。对应的子标签序列为(1,0,0,1,1)，其中，1表示第一类别子标签，0表示第二类别子标签。第一类别子标签对应的历史推荐目标有视频3、视频1和视频4。视频3的位置在序列中的第一个，则位置标识为1，视频1的位置在序列中的第4个，则位置标识为4，视频4的位置在序列中的第四个，则位置标识为5，将位置标识为1、位置标识为4和位置标识为5相加，得到标识和为10。

在一个实施例中，服务器也可以将各个历史推荐目标对应的融合推荐度从小到大进行排序，得到融合推荐度序列，使用融合推荐度序列确定各个第一类别子标签对应的融合推荐度位置标识，计算各个第一类别子标签对应的融合推荐度位置标识的标识和。

步骤306，基于第一类别标签数量、第二类别标签数量和标识和计算第一子标签序列对应的第一排序评价信息。

其中，第一排序评价信息是指第一子标签序列对应排序评价信息。

具体地，服务器使用第一类别标签数量、第二类别标签数量和标识和计算第一子标签序列对应的第一排序评价信息，具体可以是使用如下公式(2)进行计算。

其中，ACU1是指第一排序评价信息。M是指第一类别标签数量，N是指第二类别标签数量，

是指标识和。y(i)表示第i个历史推荐目标对应的子标签，i为正整数。y(i)∈pos表示第一类别标签。rank(x_i)表示第i个历史推荐目标位置标识。x_i表示第i个训练样本，即通过计算第一类别标签数量与第一类别标签数量加1的乘积，然后计算该乘积与预设值2的比值，并计算出标识和与该比值的差，从而将该差与第一类别标签数量和第二类别标签数量乘积的比值作为第一排序评价信。

在上述实施例中，通过第一类别标签数量、第二类别标签数量和标识和计算第一子标签序列对应的第一排序评价信息，能够快速计算得到第一排序评价信息，提高了得到第一排序评价信息的效率。

在一个实施例中，标签数据类型包括连续数据类型；如图4所示，基于标签数据类型确定各个子标签序列对应的排序评价指标，基于各个子标签序列对应的排序评价指标计算各个子标签序列对应的排序评价信息，包括：

步骤402，当第二子标签序列对应的标签数据类型为连续数据类型时，计算第二子标签序列中正序对数量和序列对总数。

步骤406，计算正序对数量与序列对总数的比值，得到第二子标签序列对应的第二排序评价信息。

其中，正序对是指在一个序列中，如果排序前面数的大于排序后面的数的，则称这两个数为一个正序对。第二子标签序列是指连续数据类型对应的子标签序列。正序对数量是指第二子标签序列中包含的正序对的数量。序列对总数是指第二子标签序列中包含的序列对的总数量。第二排序评价信息是指第二子标签序列对应的排序评价信息。

具体地，服务器判断当第二子标签序列对应的标签数据类型为连续数据类型时，服务器计算第二子标签序列中正序对数量，即服务器可以依次遍历第二子标签序列中每个子标签，并比较与排序后面的子标签的大小，从而得到正序对数量。然后服务器可以通过计算第二子标签序列中的组合数得到序列对总数。此时，服务器计算正序对数量与序列对总数的比值，将该比值作为第二子标签序列对应的第二排序评价信息。

在一个实施例中，如图5所示，步骤402，计算第二子标签序列中正序对数量，包括步骤：

步骤502，将第二子标签序列划分，得到第二子标签左序列和第二子标签右序列。

步骤502，计算第二子标签左序列的第一正序对数量并计算第二子标签右序列的第二正序对数量。

步骤502，计算第二子标签左序列与第二子标签右序列的交互正序对数量，基于第一正序对数量、第二正序对数量和交互正序对数量确定正序对数量。

其中，第二子标签左序列是指划分后的第一部分的子标签序列。第二子标签右序列是指划分后第二部分的子标签序列。第一正序对数量是指第二子标签左序列中正序对的数量。第二正序对数量是指第二子标签右序列中正序对的数量。交互正序对数量是指第二子标签左序列与第二子标签右序列之间的正序对数量。

具体地，服务器将第二子标签序列通过递归算法来计算第二子标签序列中正序对数量。即将第二子标签序列划分，得到第二子标签左序列和第二子标签右序列，再分别将第二子标签左序列和第二子标签右序列进行划分，直到第二子标签左序列和第二子标签右序列中只包含一个子标签。此时，服务器统计第二子标签左序列的第一正序对数量，并计算第二子标签右序列的第二正序对数量，然后计算第二子标签左序列与第二子标签右序列的交互正序对数量。然后服务器计算第一正序对数量、第二正序对数量和交互正序对数量的和，得到正序对数量。

在一个具体的实施例中，如图6所示，在视频推荐场景中，得到的视频停留时长的子标签序列为(4,6,5,7,8,1,2,3)，z表示正序对数量。将该子标签序列进行递归划分，直到第二子标签左序列和第二子标签右序列中只包含一个子标签。其中，第二子标签左序列(4)的正序对数量为0。第二子标签右序列(6)的正序对数量为0。然后进行合并排序计算得到(4)和(6)之间的交互正序对数量为0。直到将划分的序列都计算完成时，得到视频停留时长的子标签序列为(4,6,5,7,8,1,2,3)的正序对数量未16。

在上述实施例中，当第二子标签序列对应的标签数据类型为连续数据类型时，计算第二子标签序列中正序对数量和序列对总数。计算正序对数量与序列对总数的比值，得到第二子标签序列对应的第二排序评价信息，从而使得到的第二排序评价信息更加准确。

在一个实施例中，步骤210，基于各个子标签序列对应的排序评价信息确定目标排序评价信息，包括：

获取各个已训练子目标模型对应的预设权重，基于各个已训练子目标模型对应的预设权重对各个子标签序列的排序评价信息进行加权计算，得到第一目标排序评价信息。

其中，预设权重是预先设置好的已训练子目标模型所占的权重。不同的已训练子目标模型可以设置不同的权重。第一目标排序评价信息是指对各个子标签序列的排序评价信息进行加权后得到的目标排序评价信息。

具体地，服务器预先设置有各个已训练子目标模型对应的预设权重。当需要进行使用时，服务器可以从内存中获取到各个已训练子目标模型对应的预设权重。服务器可以获取到用户通过终端输入到的各个已训练子目标模型对应的预设权重。然后服务器使用各个已训练子目标模型对应的预设权重对各个子标签序列的排序评价信息进行加权并求和，得到第一目标排序评价信息。在一个具体的实施例中，可以使用如下所示的公式(3)来计算第一目标排序评价信息。

其中，W表示未训练完成的融合推荐模型的模型参数，P(W)表示使用模型参数W建立的融合推荐模型的第一目标排序评价信息。比如，当模型参数W为初始化模型参数时，使用公式(2)可以计算得到初始融合推荐模型的第一目标排序评价信息。K表示已训练子目标模型的总数量。p_i(W)是指第i个已训练子目标模型对应的子标签序列的排序评价信息。θ_i表示第i个已训练子目标模型对应的预设权重。

表示基于各个已训练子目标模型对应的预设权重对各个子标签序列的排序评价信息进行加权并计算总和。

在上述实施例中，通过获取各个已训练子目标模型对应的预设权重，基于各个已训练子目标模型对应的预设权重对各个子标签序列的排序评价信息进行加权计算，得到第一目标排序评价信息，进一步使得到的第一目标排序评价信息更加准确性。

在一个实施例中，训练样本包括各个历史用户标识和每个历史用户标识对应的各个历史推荐目标；

如图7所示，在获取各个已训练子目标模型对应的预设权重之前，还包括：

步骤702，获取每个历史用户标识的各个子标签序列对应的排序评价信息，并获取历史用户总数量。

步骤704，基于每个历史用户标识的各个子标签序列对应的排序评价信息和历史用户总数量进行平均计算，确定各个子标签序列对应的平均排序评价信息。

其中，历史用户总数量是指历史用户标识的总数量。平均排序评价信息是指子标签序列对应的平均后的排序评价信息。

具体地，不同的历史用户有不同的历史推荐目标。训练样本中包括各个历史用户标识和每个历史用户标识对应的各个历史推荐目标。获取到至少二个已训练子目标模型分别对应的每个历史用户标识的子标签集。然后将包括有各个历史用户标识和每个对应的各个历史推荐目标的训练样本输入到已训练子目标模型中，得到各个训练子目标模型输出的每个历史用户标识对应的子推荐度集。将每个历史用户标识对应的子推荐度集输入到初始融合推荐模型中，得到每个历史用户标识对应的融合推荐度集，基于融合推荐度集对每个历史用户标识对应的历史推荐目标进行排序，得到每个历史用户标识对应的历史推荐目标序列。按照每个历史用户标识对应的历史推荐目标序列将子标签集中各个历史推荐目标对应的子标签进行排序，得到各个已训练子目标模型分别对应的每个历史用户标识的子标签序列。基于排序评价指标对每个历史用户标识对应的各个子标签序列进行评价，得到每个历史用户标识的各个子标签序列对应的排序评价信息。此时服务器统计历史用户标识的总数量，得到历史用户总数量。计算每个历史用户标识的同一子标签序列对应的排序评价信息之和，然后计算同一子标签序列对应的排序评价信息之和与历史用户总数量的比值，得到各个子标签序列对应的平均排序评价信息。该同一子标签序列是指相同已训练子目标模型对应的子标签序列。

在一个具体的实施例中，可以使用如下所示的公式(4)计算平均排序评价信息

其中，U表示历史用户总数量，p_k(W)表示第k个子标签序列对应的平均排序评价信息。p_ki(W)表示第i个历史用户标识的第k个子标签序列对应的排序评价信息。

表示计算每个历史用户标识的第k个子标签序列对应的排序评价信息的和。

表示每个历史用户标识的第k个子标签序列对应的排序评价信息的和与历史用户总数量的比值

基于各个已训练子目标模型对应的预设权重和各个子标签序列的排序评价信息进行加权计算，得到目标排序评价信息，包括：

步骤706，基于各个已训练子目标模型对应的预设权重和各个子标签序列对应的平均排序评价信息进行加权计算，得到第二目标排序评价信息。

其中，第二目标排序评价信息是指对各个子标签序列的平均排序评价信息进行加权后得到的目标排序评价信息

具体地，服务器对各个子标签序列对应的平均排序评价信息按照设置的各个已训练子目标模型对应的预设权重进行加权求和计算，得到第二目标排序评价信息。

在上述实施例中，通过计算平均排序评价信息，然后使用平均排序评价信息进行加权计算，得到第二目标排序评价信息，能够进一步使得到的第二目标排序评价信息更加的准确。

如图8所示，在获取各个已训练子目标模型对应的预设权重之前，还包括：

步骤802，获取每个历史用户标识的各个子标签序列对应的排序评价信息，并获取每个历史用户标识对应的历史推荐目标数量。

步骤804，基于每个历史用户标识对应的历史推荐目标数量对每个历史用户标识的各个子标签序列对应的排序评价信息进行加权计算，得到各个子标签序列对应的加权排序评价信息。

其中，加权排序评价信息是指使用每个历史用户对应的历史推荐目标的树立对各个子标签序列对应的排序评价信息进行加权得到的。

具体地，服务器可以预先计算得到每个历史用户标识的各个子标签序列对应的排序评价信息，将每个历史用户标识的各个子标签序列对应的排序评价信息保存。然后在需要进行使用时，可以直接获取。服务器也可以从第三方获取到每个历史用户标识的各个子标签序列对应的排序评价信息。该第三方是用于提供历史用户标识的各个子标签序列对应的排序评价信息的服务方。服务器获取每个历史用户标识对应的历史推荐目标，然后统计每个历史用户标识对应的历史推荐目标数量。不同的历史用户标识对应的历史推荐目标数量不同。比如，可能存在历史用户标识对应2个历史推荐目标。服务器也可以从第三方直接获取到每个历史用户标识对应的历史推荐目标数量，该第三方也可以用于提供历史推荐目标数量。然后服务器分别对每个历史用户标识的各个子标签序列对应的排序评价信息使用对应的历史推荐目标数量进行加权计算，得到各个子标签序列对应的加权排序评价信息。

步骤806，基于每个历史用户对应的历史推荐目标数量计算得到历史推荐目标总数量，计算各个子标签序列对应的加权排序评价信息与历史推荐目标总数量的比值，得到各个子标签序列对应的特定排序评价信息。

其中，特定排序评价信息是指对各个子标签序列对应的排序评价信息使用历史推荐目标数量进行加权平均之后得到的排序评价信息

具体地，服务器计算每个历史用户对应的历史推荐目标数量的数量和，得到历史推荐目标总数量。然后将每个历史用户对应的同一子标签序列对应的加权排序评价信息进行相加，得到各个子标签序列对应的加权排序评价信息的总和。然后服务器计算加权排序评价信息的总和与历史推荐目标总数量的比值，得到各个子标签序列对应的特定排序评价信息。

在一个具体的实施例中，可以使用如下所示的公式(5)计算得到各个子标签序列对应的特定排序评价信息。

其中，p_k(W)表示第K个子标签序列对应的特定排序评价信息。m表示历史推荐目标数量。m_i表示第i个子标签序列对应的历史推荐目标数量。p_ki(W)表示第i个历史用户标识的第k个子标签序列对应的排序评价信息。

表示计算每个历史用户标识的第k个子标签序列对应的排序评价信息的加权和。

表示历史推荐目标总数量。即通过计算每个历史用户标识的第k个子标签序列对应的排序评价信息的加权和与历史推荐目标总数量的比值，得到第k个子标签序列对应的特定排序评价信息。

步骤808，基于各个已训练子目标模型对应的预设权重和各个子标签序列对应的特定排序评价信息进行加权计算，得到第三目标排序评价信息。

其中，第三目标排序评价信息是指对各个子标签序列对应的特定排序评价信息进行加权计算后得到的排序评价信息。

具体地，服务器使用各个已训练子目标模型对应的预设权重和对应的各个子标签序列的特定排序评价信息进行加权计算，得到第三目标排序评价信息。

在上述实施例中，通过计算各个子标签序列的特定排序评价信息，然后使用特定排序评价信息进行加权计算，得到第三目标排序评价信息，避免了当历史用户标识对应的历史推荐目标极少时，排序评价信息出现不够精确的情况，比如，历史用户标识只有2个历史推荐目标时，AUC或者正序对占比会出现等于1或者0这种极端情况。通过计算特定排序评价信息，避免极端情况带来的误差影响，进一步提高了第三目标排序评价信息的准确性。

在一个实施例中，在计算目标排序评价信息之前，可以对历史用户标识进行预处理，比如，筛选调历史用户标识对应的历史推荐目标少于预设数量的历史用户标识，从而使得到的目标排序评价信息更加的准确。

在一个实施例中，如图9所示，步骤212，基于目标排序评价信息更新初始融合推荐模型，当训练完成时，得到目标融合推荐模型，包括：

步骤902，当初始融合推荐模型符合预设条件时，基于目标排序评价信息模拟计算初始融合推荐模型中初始模型参数的模拟梯度。

其中，预设条件是指预先设置好的融合推荐模型输出的结果符合的评价指标条件。该预设条件可以包括多个，可以分别为R₁(W),R₂(W),...,R_Q(W)。其中，Q标识预设条件的数量。R表示预设条件。在一个具体的实施例中，比如在视频推荐场景中，预设条件可以包括向用户推荐的视频中视频时长超过预设时长的占比要超过预设时长占比阈值。预设条件可以包括向用户推荐的视频中新视频的占比要超过预设新视频占比阈值。预设条件可以根据应用场景来具体进行设置。模拟梯度是指通过模拟标准的梯度下降得到的初始融合推荐模型中模型参数的梯度。

具体地，服务器判断初始融合推荐模型是否符合预设条件，即服务器通过初始融合推荐模型得到历史推荐目标序列，判断历史推荐目标序列是否符合预设条件，当符合预设条件时，基于目标排序评价信息通过模拟计算初始融合推荐模型中每个初始模型参数的偏导数，得到初始融合推荐模型中初始模型参数的模拟梯度。

步骤904，基于模拟梯度和预设学习率更新初始融合推荐模型中的初始模型参数，得到更新融合推荐模型。

其中，预设学习率是指预先设置好的融合推荐模型进行训练的学习率。

具体地，服务器使用模拟梯度和预设学习率更新初始融合推荐模型中的初始模型参数，得到更新融合推荐模型。其中，可以使用如下所示的公式(6)更新初始融合推荐模型中的初始模型参数。

其中，W1表示更新前的模型参数，W2表示更新后的模型参数。λ是指预设学习率，

是指模拟梯度。t表示模型参数的总数，

表示模型参数的偏导数。

是指第一个模型参数的偏导数，w₁是指第一个模型参数。使用公式(6)时，通过计算初始融合推荐模型中的每个初始模型参数与预设学习率和对应的偏导数乘积的差，得到初始融合推荐模型中各个更新后的模型参数。

步骤906，当更新融合推荐模型达到预设训练完成条件时，得到目标融合推荐模型。

具体地，当更新融合推荐模型未达到预设训练完成条件时，将更新融合推荐模型作为初始融合推荐模型，并返回步骤204继续进行执行，即返回将各个子推荐度输入到初始融合推荐模型中，得到融合推荐度集，融合推荐度集包括各个历史推荐目标对应的融合推荐度，基于融合推荐度将各个历史推荐目标进行排序，得到历史推荐目标序列的步骤执行。直到当更新融合推荐模型达到预设训练完成条件时，将达到预设训练完成条件时的更新融合推荐模型作为目标融合推荐模型。

在上述实施例中，通过当初始融合推荐模型符合预设条件时，基于目标排序评价信息模拟计算初始融合推荐模型中初始模型参数的模拟梯度，然后使用模拟梯度更新初始融合推荐模型，从而得到目标融合推荐模型，提高了得到的目标融合推荐模型的准确性。

在一个实施例中，步骤902，基于目标排序评价信息模拟计算初始融合推荐模型中初始模型参数的模拟梯度，包括步骤：

基于目标排序评价信息计算初始融合推荐模型中初始模型参数的偏导数；基于初始融合推荐模型中初始模型参数的偏导数确定模拟梯度。

具体地，服务器可以使用函数求导公式通过目标排序评价信息计算初始融合推荐模型中每个初始模型参数的偏导数，然后根据初始融合推荐模型中每个初始模型参数的偏导数组合得到模拟梯度。其中，可以是用如下所示的公式(6)或者公式(7)来计算初始模型参数的偏导数。

其中，f'(x)是指初始模型参数的偏导数。x是指初始模型参数。f是指计算得到的目标排序评价信息，Δx是指初始模型参数的变化量，是一个极小值，其中，如果使用公式(6)计算初始模型参数的偏导数，则通过计算初始模型参数与变化量之间差值的排序评价信息，并计算该差值的排序评价信息与初始模型参数的排序评价信息的差，然后通过计算该差与变化量的比值，进而得到初始模型参数的偏导数。如果使用公式(7)计算初始模型参数的偏导数，则通过计算初始模型参数与变化量之间差值的排序评价信息，计算初始模型参数与变化量之间和值的排序评价信息，进一步计算该差值的排序评价信息与和值的排序评价信息的差，最后计算该差值与变化量之间的比值，得到初始模型参数的偏导数。

在一个实施例中，如图10所示，基于目标排序评价信息计算初始融合推荐模型中初始模型参数的偏导数，包括：

步骤1002，获取预设第一参数微变量，基于预设第一参数微变量调整初始融合推荐模型的初始模型参数，得到第一调整模型参数，并基于第一调整模型参数确定第一调整融合推荐模型。

其中，预设第一参数微变量是预先设置好的模型参数的微小变化量，该预设第一参数微变量是用于计算模拟梯度的。第一调整模型参数是指使用预设第一参数微变量调整后的模型参数，其中，可以依次对初始融合推荐模型的每个初始模型参数使用预设第一参数微变量进行调整。

具体地，服务器获取预设第一参数微变量，使用第一参数微变量调整初始融合推荐模型的初始模型参数，可以是将初始模型参数增加预设第一参数微变量，也可以是将初始模型参数减少预设第一参数微变量，得到第一调整模型参数，并基于第一调整模型参数确定第一调整融合推荐模型。其中，该第一调整融合推荐模型中的一个模型参数是使用第一参数微变量调整后的参数，其他模型参数与初始融合推荐模型的初始模型参数一致。

步骤1004，基于第一调整融合推荐模型和训练样本确定第一调整排序评价信息。

其中，第一调整排序评价信息用于表征使用第一调整融合推荐模型得到的第一历史推荐目标序列的准确性。

具体地，服务器将训练样本对应的各个子推荐度输入到第一调整融合推荐模型中，得到第一融合推荐度集，基于第一融合推荐段集将各个历史推荐目标进行排序，得到第一历史推荐目标序列，基于第一历史推荐目标序列的顺序将子标签集中各个历史推荐目标对应的子标签进行排序，得到各个已训练子目标模型分别对应的第一子标签序列。基于排序评价指标确定各个第一子标签序列对应的排序评价信息，基于各个第一子标签序列对应的排序评价信息确定第一调整排序评价信息。

步骤1006，计算第一调整排序评价信息与目标排序评价信息的排序评价信息差，并计算排序评价信息差与预设第一参数微变量的比值，得到第一调整模型参数对应的偏导数。

具体地，服务器计算第一调整排序评价信息与目标排序评价信息的排序评价信息差，然后计算排序评价信息差与预设第一参数微变量的比值，得到第一调整模型参数对应的偏导数。

在一个具体的实施例中，也可以使用如下所示的公式(8)计算初始融合推荐模型中初始模型参数的偏导数。

其中，

表示第l个初始模型参数的偏导数。t表示初始模型参数的总数。l从1选取到t。Δw表示预设第一参数微变量。P([w₁,w₂,...,w_l-1,w_l+Δw,w_l+1,...,w_t])表示第l个初始模型参数增加预设第一参数微变量时得到的调整排序评价信息。P([w₁,w₂...,w_l-1,w_l-Δw,w_l+1,...,w_t])表示第l个初始模型参数减少预设第一参数微变量时得到的调整排序评价信息。使用公式(8)分别计算每个初始模型参数的偏导数，然后得到的模拟梯度如下公式(9)所示：

其中，

表示第一个初始模型参数的偏导数。

表示第二个初始模型参数的偏导数。

表示最后一个初始模型参数的偏导数。

在上述实施例中，通过使用预设第一参数微变量来调整初始模型参数，进而计算得到调整后的排序评价信息，然后通过调整后的排序评价信息计算模拟梯度，从而可以适用任意需要使用融合推荐模型进行目标推荐的应用场景，拓展了应用场景。

在一个实施例中，如图11所示，步骤212，基于目标排序评价信息更新初始融合推荐模型，当训练完成时，得到目标融合推荐模型，包括：

步骤1102，当初始融合推荐模型未符合预设条件时，基于历史推荐目标序列计算预设条件对应的特定评价指标信息。

其中，特定评价指标信息用于表征初始融合推荐模型输出的结果未符合的评价指标条件实际值。

具体地，服务器判断初始融合推荐模型是否符合预设条件，即服务器通过初始融合推荐模型得到历史推荐目标序列，判断历史推荐目标序列是否符合预设条件，当历史推荐目标序列未符合预设条件时，说明初始融合推荐模型未符合预设条件。此时，服务器按照历史推荐目标序列计算预设条件对应的特定评价指标信息。

步骤1104，获取预设第二参数微变量，基于预设第二参数微变量调整初始融合推荐模型的初始模型参数，得到第二调整模型参数，并基于第二调整模型参数确定第二调整融合推荐模型。

其中，预设第二参数微变量是指预先设置好的模型参数的微小变化量，该预设第二参数微变量可以和预设第一参数微变量相同，也可以不同。预设第二参数微变量也用于计算模拟梯度。第二调整模型参数是指使用预设第二参数微变量调整后得到模型参数。第二调整融合推荐模型使用第二调整模型参数得到的融合推荐模型。

具体地，服务器获取到预设第二参数微变量，该第二参数微变量可以是预先设置在服务器中的，也可以是通过终端获取到的。服务器使用预设第二参数微变量调整初始融合推荐模型的初始模型参数，可以是将初始模型参数增加预设第二参数微变量，也可以是将初始模型参数减少预设第二参数微变量，得到第二调整模型参数，并基于第二调整模型参数确定第二调整融合推荐模型。

步骤1106，基于第二调整融合推荐模型和训练样本确定目标历史推荐目标序列。

其中，目标历史推荐目标序列是使用第二调整融合推荐模型得到的历史推荐目标序列。

具体地，服务器将训练样本对应的各个子推荐度输入到第二调整融合推荐模型中，得到第二融合推荐度集，基于第二融合推荐段集将各个历史推荐目标进行排序，得到目标历史推荐目标序列。

步骤1108，基于目标历史推荐目标序列计算预设条件对应的目标特定评价指标信息。

步骤1110，计算目标特定评价指标信息与特定评价指标信息之间的特定评价信息差，并计算特定评价信息差与预设第二参数微变量的比值，得到第二调整模型参数对应的偏导数。

其中，目标特定评价指标信息是指标历史推荐目标序列对应的特定评价指标信息。特定评价信息差是指目标特定评价指标信息与特定评价指标信息之间的信息差。

具体地，服务器根据目标历史推荐目标序列计算预设条件对应的目标特定评价指标信息，然后使用函数求导公式计算第二调整模型参数对应的偏导数。

比如，目标历史推荐目标序列是目标历史推荐视频序列时，可以计算目标历史推荐视频序列中新视频的占比，得到目标特定评价指标信息。然后计算目标历史推荐视频序列中新视频的占比与历史推荐视频序列中新视频的占比之间的占比差，并计算占比差与预设第二参数微变量的比值，得到第二调整模型参数对应的偏导数。

步骤1112，基于第二调整模型参数对应的偏导数确定初始融合推荐模型对应的目标模拟梯度。

步骤1114，基于目标模拟梯度和预设目标学习率更新初始融合推荐模型中的初始模型参数，得到目标更新融合推荐模型。

其中，目标模拟梯度是指使用特定评价指标信息计算得到的模拟梯度。预设目标学习率是指预先设置好的学习率。

具体地，服务器将各个第二调整模型参数对应的偏导数组合得到初始融合推荐模型对应的目标模拟梯度。然后使用目标模拟梯度和预设目标学习率计算参数更新量，使用参数更新量去更新初始模型参数，得到目标更新融合推荐模型。

步骤1116，当目标更新融合推荐模型符合预设条件时，将目标更新融合推荐模型作为初始融合推荐模型。

具体地，服务器继续判断目标更新融合推荐模型是否符合预设条件时，当符合预设条件时，将目标更新融合推荐模型作为初始融合推荐模型。当未符合预设条件时，将目标更新融合推荐模型作为初始融合推荐模型并返回步骤1102继续迭代执行，直到所述目标更新融合推荐模型符合预设条件。

在一个具体的实施例中，也可以使用如下所示的公式(10)计算得到目标模拟梯度。

其中，

表示第l个初始模型参数的偏导数，R_q是指第一个不满足的预设条件q的特定评价指标信息。R_q([w₁,w₂,...,w_l-1,w_l+Δw,w_l+1,...,w_t])是指第l个初始模型参数增加预设第二参数微变量时计算得到的特定评价指标信息。R_q([w₁,w₂...,w_l-1,w_l-Δw,w_l+1,...,w_t])指第l个初始模型参数减少预设第二参数微变量时计算得到的特定评价指标信息。通过使用公式(10)依次计算得到每个初始模型参数在增加预设第二参数微变量时计算得到的特定评价指标信息与在减少预设第二参数微变量时计算得到的特定评价指标信息之间的差，然后计算该差与预设第二参数微变量的二倍数的比值，得到每个初始模型参数的偏导数，进而得到目标模拟梯度。

在上述实施例中，通过当初始融合推荐模型未符合预设条件时，使用特定评价指标信息来对初始融合推荐模型中的参数进行更新，直到初始融合推荐模型符合预设条件，从而使得训练得到的目标融合推荐模型输出的结果符合预设条件，从而使目标融合推荐模型能够满足不同应用场景的不同要求，提高了目标融合推荐模型的适用性。

在一个实施例中，如图12所示，提供了一种推荐方法，以该方法应用于图1中的服务器为例进行说明，可以理解的是，该方法也可以应用于终端中，还可以应用于包括终端和服务器的系统，并通过终端和服务器的交互实现。本实施例中，该方法包括以下步骤：

步骤1202，获取用户标识，基于用户标识获取用户属性特征。

其中，用户标识用户唯一标识需要推荐的用户。用户属性特征用于表征用户属性的特征，可以包括基础属性特征和行为属性特征。其中，基础属性特征可以是年龄属性特征、性别属性特征等。不同应用场景的用户有不同的行为属性特征。比如，视频推荐场景中，行为属性特征可以包括点击视频特征，收藏视频特征、观看时长特征等等。

具体地，服务器获取到要推荐目标的用户标识，可以是从终端中获取到的要推荐目标的用户标识，也可以是预先获取到设置在服务器中的用户标识。通过该用户标识获取用户属性特征，可以从数据库中查找用户标识对应的用户属性，然后提取用户属性对应的用户属性特征。

步骤1204，获取各个待推荐目标以及对应的目标属性特征，将用户属性特征和目标属性特征输入至少二个已训练子目标模型中，得到各个已训练子目标模型输出的子目标推荐度集，子目标推荐度集中包括各个待推荐目标对应的子目标推荐度。

其中，待推荐目标是指服务器中保存的能够进行推荐的目标。比如，在短视频推荐场景中，待推荐目标可以是待推荐短视频。目标属性特征是指待推荐目标的属性特征，在不同场景不同的待推荐目标可以有不同的目标属性特征，可以根据需求设置。

具体地，服务器中预先部署有至少二个已训练子目标模型。当需要进行推荐时，服务器获取各个待推荐目标以及对应的目标属性特征，将用户属性特征和目标属性特征输入至少二个已训练子目标模型中，得到各个已训练子目标模型输出的子目标推荐度集，子目标推荐度集中包括各个待推荐目标对应的子目标推荐度。

步骤1206，将各个子推荐度集输入到目标融合推荐模型中，得到各个待推荐目标对应的融合推荐度，目标融合推荐模型是使用训练样本和至少二个已训练子目标模型分别对应的子标签集训练得到的，训练样本包括各个历史推荐目标，子标签集中包括各个历史推荐目标对应的子标签。

具体地，服务器中预先部署有使用上述模型训练方法任意一实施例训练得到的目标融合推荐模型。此时，服务器将各个子推荐度集输入到目标融合推荐模型中，得到各个待推荐目标对应的融合推荐度。目标融合推荐模型是使用训练样本和至少二个已训练子目标模型分别对应的子标签集训练得到的，训练样本包括各个历史推荐目标，子标签集中包括各个历史推荐目标对应的子标签。

步骤1208，基于融合推荐度将各个待推荐目标进行排序，得到待推荐目标序列。

步骤1210，从待推荐目标序列中选取预设数量的待推荐目标，将预设数量的待推荐目标向用户标识推荐。

具体地，服务器根据融合推荐度的大小将各个待推荐目标从大到小进行排序，得到待推荐目标序列，然后从待推荐目标序列中依次选取预设数量的待推荐目标，将预设数量的待推荐目标向用户标识对应的终端进行推荐。

在上述实施例中，通过使用目标融合推荐模型对各个子推荐度进行融合，使得到的融合推荐度更加的准确，然后根据融合推荐度选取预设数量的待推荐目标向用户标识进行推荐，提高了推荐的准确性。

在一个具体的实施例中，如图13所示，提供一种推荐模型训练方法，包括以下步骤：

步骤1302，获取训练样本，训练样本包括各个历史推荐目标，并获取至少二个已训练子目标模型分别对应的子标签集，子标签集中包括各个历史推荐目标对应的子标签。

步骤1304，将训练样本输入到已训练子目标模型中，得到各个已训练子目标模型输出的子推荐度集，子推荐度集中包括各个历史推荐目标对应的子推荐度。

步骤1306，将各个子推荐度集输入到初始融合推荐模型中，得到融合推荐度集，融合推荐度集包括各个历史推荐目标对应的融合推荐度，基于融合推荐度将各个历史推荐目标进行排序，得到历史推荐目标序列。

步骤1308，基于历史推荐目标序列的顺序将子标签集中各个历史推荐目标对应的子标签进行排序，得到各个已训练子目标模型分别对应的子标签序列；

步骤1310a，当第一子标签序列对应的标签数据类型为离散数据类型时，从第一子标签序列中确定第一类别子标签数量和第二类别子标签数量，从历史推荐目标序列中确定各个第一类别子标签对应的历史推荐目标位置标识，计算各个第一类别子标签对应的历史推荐目标位置标识的标识和，基于第一类别标签数量、第二类别标签数量和标识和计算第一子标签序列对应的第一排序评价信息。

步骤1310b，当第二子标签序列对应的标签数据类型为连续数据类型时，计算第二子标签序列中正序对数量和序列对总数，计算正序对数量与序列对总数的比值，得到第二子标签序列对应的第二排序评价信息。

步骤1312，获取每个历史用户标识的各个子标签序列对应的排序评价信息，并获取历史用户总数量，基于每个历史用户标识的各个子标签序列对应的排序评价信息和历史用户总数量进行平均计算，确定各个子标签序列对应的平均排序评价信息。基于各个已训练子目标模型对应的预设权重和各个子标签序列对应的平均排序评价信息进行加权计算，得到第二目标排序评价信息。

步骤1314，当初始融合推荐模型符合预设条件时，获取预设第一参数微变量，基于预设第一参数微变量调整初始融合推荐模型的初始模型参数，得到第一调整模型参数，并基于第一调整模型参数确定第一调整融合推荐模型；基于第一调整融合推荐模型和训练样本确定第一调整排序评价信息；计算第一调整排序评价信息与目标排序评价信息的排序评价信息差，并计算排序评价信息差与预设第一参数微变量的比值，得到第一调整模型参数对应的偏导数，基于初始融合推荐模型中初始模型参数的偏导数确定模拟梯度。

步骤1316，基于模拟梯度和预设学习率更新初始融合推荐模型中的初始模型参数，得到更新融合推荐模型，当更新融合推荐模型达到预设训练完成条件时，得到目标融合推荐模型。

在一个具体的实施例中，提供一种推荐模型训练方法，具体包括：

获取特定样本x，该特定样本x包括用户属性特征和历史推荐目标特征组成的样本对。对该特定样本x，各个已训练子目标模型的输出分别是f_i(x),i＝1,2...n，其中，n表示已训练子目标模型的总数量。

获取到大量样本数据，总共包括U个用户标识，第i个用户标识的第j个特定样本为x_ij。第i个用户标识对应有m_i个特定样本，这些特定样本中包括该用户属性特征和m_i个历史推荐目标特征。第K个已训练子目标模型的子标签集是y_ijk。使用第K个已训练子目标模型计算得到子推荐度为s_ijk。随机初始化融合推荐模型的模型参数W，得到初始融合推荐模型。使用初始融合推荐模型得到特定样本为x_ij对应的融合推荐度为g_ij＝G(s_ij1,s_ij2...s_ijn,W)，其中，G表示融合推荐模型，计算得到第i个用户标识对应的融合推荐度序列为

根据融合推荐度序列为

得到第K个已训练子目标模型的子标签序列为

融合推荐度序列

和子标签序列

的长度相同为m_i。此时，使用排序评价指标计算每个已训练子目标模型对应的子标签序列对应的排序评价信息p_ki(W)。然后计算所有用户标识的平均排序评价信息p_k(W)。获取到各个已训练子目标模型的权重分别是θ₁...θ_n。对平均排序评价信息p_k(W)通过各个已训练子目标模型的权重进行加权得到p(W)。

然后计算在初始模型参数W下的初始融合推荐模型是否满足各个预设条件，当所有预设条件都满足时，使用公式(8)来计算初始融合推荐模型中每个初始模型参数的偏导数，根据每个初始模型参数的偏导数使用公式(9)得到模拟梯度，然后使用公式(6)更新初始融合推荐模型中的初始模型参数，得到更新融合推荐模型，然后不断进行循环迭代，当达到训练完成条件时，得到目标融合推荐模型。当未满足预设条件时，获取到第一个不满足的特定评价指标，然后使用公式(10)计算每个初始模型参数的偏导数，根据每个初始模型参数的偏导数得到模拟梯度，使用模拟梯度对初始模型参数进行更新，得到更新融合推荐模型，不断进行循环迭代，直到更新融合推荐模型符合所有的预设条件。此时，继续执行符合所有的预设条件之后的步骤，得到目标融合推荐模型。

本申请还提供一种应用场景，该应用场景应用上述的融合模型训练方法。具体地，该融合模型训练方法在该应用场景的应用如下：

在视频推荐应用场景中，服务器获取训练样本，训练样本包括各个历史推荐视频，并获取完播率视频推荐模型、点赞率视频推荐模型和关注率视频推荐模型分别对应的子标签集，子标签集中包括各个历史推荐视频对应的子标签，比如完播率视频推荐模型对应的子标签可以是用户观看视频时长。点赞率视频推荐模型对应的子标签可以是用户是否点赞对应的标签。关注率视频推荐模型对应的子标签可以是用户是否关注对应的标签。将训练样本同时输入到完播率视频推荐模型、点赞率视频推荐模型和关注率视频推荐模型中，得到输出的推荐分数集，推荐分数集中包括各个历史推荐视频对应的推荐分数。将各个历史推荐视频对应的推荐分数输入到初始融合推荐模型中，得到融合分数集，融合分数集包括各个历史推荐视频对应的融合分数，基于融合分数将各个历史推荐视频进行排序，得到历史推荐视频序列。基于历史推荐视频序列的顺序将子标签集中各个历史推荐视频对应的子标签进行排序，得到完播率视频推荐模型、点赞率视频推荐模型和关注率视频推荐模型分别对应的子标签序列。基于排序评价指标确定各个子标签序列对应的排序评价信息，基于各个子标签序列对应的排序评价信息确定目标排序评价信息；基于目标排序评价信息更新初始融合推荐模型，当训练完成时，得到目标融合推荐模型。将目标融合推荐模型部署到服务器进行视频推荐。

本申请还另外提供一种应用场景，该应用场景应用上述的融合模型训练方法。具体地，该融合模型训练方法在该应用场景的应用如下：

在广告推荐应用场景中，服务器获取训练样本，训练样本包括各个历史推荐广告，并获取广告点击率推荐模型、广告浏览时长推荐模型和广告视频播放率推荐模型分别对应的子标签集，子标签集中包括各个历史推荐广告对应的子标签，比如广告点击率对应的子标签可以是用户是否点击广告对应的标签。广告浏览时长推荐模型对应的子标签可以是用户浏览广告的时长对应的标签。广告视频播放率推荐模型对应的子标签可以是用户是否播放广告视频对应的标签。将训练样本同时输入到广告点击率推荐模型、广告浏览时长推荐模型和广告视频播放率推荐模型中，得到输出的广告推荐分数集，广告推荐分数集中包括各个历史推荐广告对应的广告推荐分数。将各个历史推荐广告对应的广告推荐分数输入到初始融合推荐模型中，得到广告融合分数集，广告融合分数集包括各个历史推荐广告对应的广告融合分数，基于广告融合分数将各个历史推荐广告进行排序，得到历史推荐广告序列。基于历史推荐广告序列的顺序将子标签集中各个历史推荐广告对应的子标签进行排序，得到广告点击率推荐模型、广告浏览时长推荐模型和广告视频播放率推荐模型分别对应的子标签序列。基于排序评价指标确定各个子标签序列对应的排序评价信息，基于各个子标签序列对应的排序评价信息确定目标排序评价信息；基于目标排序评价信息更新初始融合推荐模型，当训练完成时，得到目标融合推荐模型。将目标融合推荐模型部署到服务器进行广告推荐。

应该理解的是，虽然图2-5和图7-13中的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，图2-5和图7-13中的至少一部分步骤可以包括多个步骤或者多个阶段，这些步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。

在一个实施例中，如图14所示，提供了一种推荐模型训练装置，该装置可以采用软件模块或硬件模块，或者是二者的结合成为计算机设备的一部分，该装置具体包括：样本获取模块1402、子推荐度得到模块1404、目标序列得到模块1406、子序列得到模块1408、评价模块1410和更新模块1412，其中：

样本获取模块1402，用于获取训练样本，训练样本包括各个历史推荐目标，并获取至少二个已训练子目标模型分别对应的子标签集，子标签集中包括各个历史推荐目标对应的子标签；

子推荐度得到模块1404，用于将训练样本输入到已训练子目标模型中，得到各个已训练子目标模型输出的子推荐度集，子推荐度集中包括各个历史推荐目标对应的子推荐度；

目标序列得到模块1406，用于将各个子推荐度集输入到初始融合推荐模型中，得到融合推荐度集，融合推荐度集包括各个历史推荐目标对应的融合推荐度，基于融合推荐度将各个历史推荐目标进行排序，得到历史推荐目标序列；

子序列得到模块1408，用于基于历史推荐目标序列的顺序将子标签集中各个历史推荐目标对应的子标签进行排序，得到各个已训练子目标模型分别对应的子标签序列；

评价模块1410，用于基于排序评价指标确定各个子标签序列对应的排序评价信息，基于各个子标签序列对应的排序评价信息确定目标排序评价信息；

更新模块1412，用于基于目标排序评价信息更新初始融合推荐模型，当训练完成时，得到目标融合推荐模型，目标融合推荐模型用于对待推荐信息进行推荐。

在一个实施例中，训练样本包括历史用户标识和历史用户标识对应的各个历史推荐目标；子推荐度得到模块1404还用于获取历史用户标识对应的历史用户属性特征和各个历史推荐目标对应的历史推荐目标特征；将历史用户属性特征和各个历史推荐目标特征输入到已训练子目标模型中，得到各个已训练子目标模型输出的历史用户标识对应的子推荐度集。

在一个实施例中，评价模块1410，包括：

类型获取单元，用于获取各个子标签序列对应的标签数据类型，基于标签数据类型确定各个子标签序列对应的排序评价指标，基于各个子标签序列对应的排序评价指标计算各个子标签序列对应的排序评价信息。

在一个实施例中，标签数据类型包括离散数据类型；

类型获取单元还用于当第一子标签序列对应的标签数据类型为离散数据类型时，从第一子标签序列中确定第一类别子标签数量和第二类别子标签数量；从历史推荐目标序列中确定各个第一类别子标签对应的历史推荐目标位置标识，计算各个第一类别子标签对应的历史推荐目标位置标识的标识和；基于第一类别标签数量、第二类别标签数量和标识和计算第一子标签序列对应的第一排序评价信息。

在一个实施例中，标签数据类型包括连续数据类型；类型获取单元还用于当第二子标签序列对应的标签数据类型为连续数据类型时，计算第二子标签序列中正序对数量和序列对总数；计算正序对数量与序列对总数的比值，得到第二子标签序列对应的第二排序评价信息。

在一个实施例中，类型获取单元还用于将第二子标签序列划分，得到第二子标签左序列和第二子标签右序列；计算第二子标签左序列的第一正序对数量并计算第二子标签右序列的第二正序对数量；计算第二子标签左序列与第二子标签右序列的交互正序对数量，基于第一正序对数量、第二正序对数量和交互正序对数量确定正序对数量。

在一个实施例中，评价模块1410，包括：

第一目标信息得到单元，用于获取各个已训练子目标模型对应的预设权重，基于各个已训练子目标模型对应的预设权重对各个子标签序列的排序评价信息进行加权计算，得到第一目标排序评价信息。

在一个实施例中，训练样本包括各个历史用户标识和每个历史用户标识对应的各个历史推荐目标；评价模块1410，还包括：

平均信息确定单元，用于获取每个历史用户标识的各个子标签序列对应的排序评价信息，并获取历史用户总数量；基于每个历史用户标识的各个子标签序列对应的排序评价信息和历史用户总数量进行平均计算，确定各个子标签序列对应的平均排序评价信息；

第一目标信息得到单元还用于基于各个已训练子目标模型对应的预设权重和各个子标签序列对应的平均排序评价信息进行加权计算，得到第二目标排序评价信息。

特定信息得到单元，用于获取每个历史用户标识的各个子标签序列对应的排序评价信息，并获取每个历史用户标识对应的历史推荐目标数量；基于每个历史用户标识对应的历史推荐目标数量对每个历史用户标识的各个子标签序列对应的排序评价信息进行加权计算，得到各个子标签序列对应的加权排序评价信息；基于每个历史用户对应的历史推荐目标数量计算得到历史推荐目标总数量，计算各个子标签序列对应的加权排序评价信息与历史推荐目标总数量的比值，得到各个子标签序列对应的特定排序评价信息；

第一目标信息得到单元还用于基于各个已训练子目标模型对应的预设权重和各个子标签序列对应的特定排序评价信息进行加权计算，得到第三目标排序评价信息。

在一个实施例中，更新模块1412，包括：

梯度计算单元，用于当初始融合推荐模型符合预设条件时，基于目标排序评价信息模拟计算初始融合推荐模型中初始模型参数的模拟梯度；

参数更新单元，用于基于模拟梯度和预设学习率更新初始融合推荐模型中的初始模型参数，得到更新融合推荐模型；

模型得到单元，用于当更新融合推荐模型达到预设训练完成条件时，得到目标融合推荐模型。

在一个实施例中，梯度计算单元，包括：

偏导数计算子单元，用于基于目标排序评价信息计算初始融合推荐模型中初始模型参数的偏导数；

模拟梯度确定子单元，用于基于初始融合推荐模型中初始模型参数的偏导数确定模拟梯度。

在一个实施例中，偏导数计算子单元还用于：获取预设第一参数微变量，基于预设第一参数微变量调整初始融合推荐模型的初始模型参数，得到第一调整模型参数，并基于第一调整模型参数确定第一调整融合推荐模型；基于第一调整融合推荐模型和训练样本确定第一调整排序评价信息；计算第一调整排序评价信息与目标排序评价信息的排序评价信息差，并计算排序评价信息差与预设第一参数微变量的比值，得到第一调整模型参数对应的偏导数。

在一个实施例中，更新模块1412还用于当初始融合推荐模型未符合预设条件时，基于历史推荐目标序列计算预设条件对应的特定评价指标信息；获取预设第二参数微变量，基于预设第二参数微变量调整初始融合推荐模型的初始模型参数，得到第二调整模型参数，并基于第二调整模型参数确定第二调整融合推荐模型；基于第二调整融合推荐模型和训练样本确定目标历史推荐目标序列；基于目标历史推荐目标序列计算预设条件对应的目标特定评价指标信息；计算目标特定评价指标信息与特定评价指标信息之间的特定评价信息差，并计算特定评价信息差与预设第二参数微变量的比值，得到第二调整模型参数对应的偏导数；基于第二调整模型参数对应的偏导数确定初始融合推荐模型对应的目标模拟梯度；基于目标模拟梯度和预设目标学习率更新初始融合推荐模型中的初始模型参数，得到目标更新融合推荐模型；当目标更新融合推荐模型符合预设条件时，将目标更新融合推荐模型作为初始融合推荐模型。

在一个实施例中，如图15所示，提供了一种推荐装置，该装置可以采用软件模块或硬件模块，或者是二者的结合成为计算机设备的一部分，该装置具体包括：特征获取模块1502、特征输入模块1504、融合模块1506、排序模块1508和推荐模块1510，其中：

特征获取模块1502，用于获取用户标识，基于用户标识获取用户属性特征；

特征输入模块1504，用于获取各个待推荐目标以及对应的目标属性特征，将用户属性特征和目标属性特征输入至少二个已训练子目标模型中，得到各个已训练子目标模型输出的子目标推荐度集，子目标推荐度集中包括各个待推荐目标对应的子目标推荐度；

融合模块1506，用于将各个子推荐度集输入到目标融合推荐模型中，得到各个待推荐目标对应的融合推荐度，目标融合推荐模型是使用训练样本和至少二个已训练子目标模型分别对应的子标签集训练得到的，训练样本包括各个历史推荐目标，子标签集中包括各个历史推荐目标对应的子标签；

排序模块1508，用于基于融合推荐度将各个待推荐目标进行排序，得到待推荐目标序列；

推荐模块1510，用于从待推荐目标序列中选取预设数量的待推荐目标，将预设数量的待推荐目标向用户标识推荐。

关于推荐模型训练装置以及推荐装置的具体限定可以参见上文中对于推荐模型训练方法以及推荐方法的限定，在此不再赘述。上述推荐模型训练装置以及推荐装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中，提供了一种计算机设备，该计算机设备可以是服务器，其内部结构图可以如图16所示。该计算机设备包括通过系统总线连接的处理器、存储器和网络接口。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储样本数据或者待推荐目标数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种推荐模型训练方法或者推荐方法。

本领域技术人员可以理解，图16中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在一个实施例中，还提供了一种计算机设备，包括存储器和处理器，存储器中存储有计算机程序，该处理器执行计算机程序时实现上述各方法实施例中的步骤。

在一个实施例中，提供了一种计算机可读存储介质，存储有计算机程序，该计算机程序被处理器执行时实现上述各方法实施例中的步骤。

在一个实施例中，提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上述各方法实施例中的步骤。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(Read-Only Memory，ROM)、磁带、软盘、闪存或光存储器等。易失性存储器可包括随机存取存储器(Random Access Memory，RAM)或外部高速缓冲存储器。作为说明而非局限，RAM可以是多种形式，比如静态随机存取存储器(Static Random Access Memory，SRAM)或动态随机存取存储器(Dynamic Random Access Memory，DRAM)等。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

Claims

1.一种推荐模型训练方法，其特征在于，所述方法包括：

获取训练样本，所述训练样本包括各个历史推荐目标，并获取至少二个已训练子目标模型分别对应的子标签集，所述子标签集中包括各个历史推荐目标对应的子标签；

将所述训练样本输入到所述已训练子目标模型中，得到各个已训练子目标模型输出的子推荐度集，所述子推荐度集中包括所述各个历史推荐目标对应的子推荐度；

将各个子推荐度集输入到初始融合推荐模型中，得到融合推荐度集，所述融合推荐度集包括所述各个历史推荐目标对应的融合推荐度，基于所述融合推荐度将所述各个历史推荐目标进行排序，得到历史推荐目标序列；

基于所述历史推荐目标序列的顺序将所述子标签集中各个历史推荐目标对应的子标签进行排序，得到所述各个已训练子目标模型分别对应的子标签序列；

基于排序评价指标确定各个子标签序列对应的排序评价信息，基于所述各个子标签序列对应的排序评价信息确定目标排序评价信息；

基于所述目标排序评价信息更新所述初始融合推荐模型，当训练完成时，得到目标融合推荐模型，所述目标融合推荐模型用于对待推荐信息进行推荐。

2.根据权利要求1所述的方法，其特征在于，所述基于排序评价指标确定各个子标签序列对应的排序评价信息，包括：

获取所述各个子标签序列对应的标签数据类型，基于所述标签数据类型确定所述各个子标签序列对应的排序评价指标，基于所述各个子标签序列对应的排序评价指标计算各个子标签序列对应的排序评价信息。

3.根据权利要求2所述的方法，其特征在于，所述标签数据类型包括离散数据类型；

所述基于所述标签数据类型确定所述各个子标签序列对应的排序评价指标，基于所述各个子标签序列对应的排序评价指标计算所述各个子标签序列对应的排序评价信息，包括：

当第一子标签序列对应的标签数据类型为离散数据类型时，从所述第一子标签序列中确定第一类别子标签数量和第二类别子标签数量；

从所述历史推荐目标序列中确定各个第一类别子标签对应的历史推荐目标位置标识，计算所述各个第一类别子标签对应的历史推荐目标位置标识的标识和；

基于所述第一类别标签数量、所述第二类别标签数量和所述标识和计算所述第一子标签序列对应的第一排序评价信息。

4.根据权利要求2所述的方法，其特征在于，所述标签数据类型包括连续数据类型；

当第二子标签序列对应的标签数据类型为连续数据类型时，计算所述第二子标签序列中正序对数量和序列对总数；

计算所述正序对数量与所述序列对总数的比值，得到所述第二子标签序列对应的第二排序评价信息。

5.根据权利要求4所述的方法，其特征在于，所述计算所述第二子标签序列中正序对数量，包括：

将所述第二子标签序列划分，得到第二子标签左序列和第二子标签右序列；

计算所述第二子标签左序列的第一正序对数量并计算所述第二子标签右序列的第二正序对数量；

计算所述第二子标签左序列与所述第二子标签右序列的交互正序对数量，基于所述第一正序对数量、所述第二正序对数量和所述交互正序对数量确定所述正序对数量。

6.根据权利要求1所述的方法，其特征在于，所述基于所述各个子标签序列对应的排序评价信息确定目标排序评价信息，包括：

获取所述各个已训练子目标模型对应的预设权重，基于所述各个已训练子目标模型对应的预设权重对所述各个子标签序列的排序评价信息进行加权计算，得到第一目标排序评价信息。

7.根据权利要求6所述的方法，其特征在于，所述训练样本包括各个历史用户标识和每个历史用户标识对应的各个历史推荐目标；

在所述获取所述各个已训练子目标模型对应的预设权重之前，还包括：

获取所述每个历史用户标识的各个子标签序列对应的排序评价信息，并获取历史用户总数量；

基于所述每个历史用户标识的各个子标签序列对应的排序评价信息和所述历史用户总数量进行平均计算，确定所述各个子标签序列对应的平均排序评价信息；

所述基于所述各个已训练子目标模型对应的预设权重和所述各个子标签序列的排序评价信息进行加权计算，得到目标排序评价信息，包括：

基于所述各个已训练子目标模型对应的预设权重和所述各个子标签序列对应的平均排序评价信息进行加权计算，得到第二目标排序评价信息。

8.根据权利要求6所述的方法，其特征在于，所述训练样本包括各个历史用户标识和每个历史用户标识对应的各个历史推荐目标；

获取所述每个历史用户标识的各个子标签序列对应的排序评价信息，并获取所述每个历史用户标识对应的历史推荐目标数量；

基于所述每个历史用户标识对应的历史推荐目标数量对所述每个历史用户标识的各个子标签序列对应的排序评价信息进行加权计算，得到所述各个子标签序列对应的加权排序评价信息；

基于所述每个历史用户对应的历史推荐目标数量计算得到历史推荐目标总数量，计算所述各个子标签序列对应的加权排序评价信息与所述历史推荐目标总数量的比值，得到所述各个子标签序列对应的特定排序评价信息；

基于所述各个已训练子目标模型对应的预设权重和所述各个子标签序列对应的特定排序评价信息进行加权计算，得到第三目标排序评价信息。

9.根据权利要求1所述的方法，其特征在于，基于所述目标排序评价信息更新所述初始融合推荐模型，当训练完成时，得到目标融合推荐模型，包括：

当所述初始融合推荐模型符合预设条件时，基于所述目标排序评价信息模拟计算所述初始融合推荐模型中初始模型参数的模拟梯度；

基于所述模拟梯度和预设学习率更新所述初始融合推荐模型中的初始模型参数，得到更新融合推荐模型；

当所述更新融合推荐模型达到预设训练完成条件时，得到所述目标融合推荐模型。

10.根据权利要求9所述的方法，其特征在于，基于所述目标排序评价信息模拟计算所述初始融合推荐模型中初始模型参数的模拟梯度，包括：

基于所述目标排序评价信息计算所述初始融合推荐模型中初始模型参数的偏导数；

基于所述初始融合推荐模型中初始模型参数的偏导数确定所述模拟梯度。

11.根据权利要求10所述的方法，其特征在于，基于所述目标排序评价信息计算所述初始融合推荐模型中初始模型参数的偏导数，包括：

获取预设第一参数微变量，基于所述预设第一参数微变量调整所述初始融合推荐模型的初始模型参数，得到第一调整模型参数，并基于所述第一调整模型参数确定第一调整融合推荐模型；

基于所述第一调整融合推荐模型和所述训练样本确定第一调整排序评价信息；

计算所述第一调整排序评价信息与所述目标排序评价信息的排序评价信息差，并计算所述排序评价信息差与所述预设第一参数微变量的比值，得到所述第一调整模型参数对应的偏导数。

12.根据权利要求1所述的方法，其特征在于，基于所述目标排序评价信息更新所述初始融合推荐模型，当训练完成时，得到目标融合推荐模型，包括：

当所述初始融合推荐模型未符合预设条件时，基于所述历史推荐目标序列计算所述预设条件对应的特定评价指标信息；

获取预设第二参数微变量，基于所述预设第二参数微变量调整所述初始融合推荐模型的初始模型参数，得到第二调整模型参数，并基于所述第二调整模型参数确定第二调整融合推荐模型；

基于所述第二调整融合推荐模型和所述训练样本确定目标历史推荐目标序列；

基于所述目标历史推荐目标序列计算所述预设条件对应的目标特定评价指标信息；

计算所述目标特定评价指标信息与所述特定评价指标信息之间的特定评价信息差，并计算所述特定评价信息差与所述预设第二参数微变量的比值，得到所述第二调整模型参数对应的偏导数；

基于所述第二调整模型参数对应的偏导数确定所述初始融合推荐模型对应的目标模拟梯度；

基于所述目标模拟梯度和预设目标学习率更新所述初始融合推荐模型中的初始模型参数，得到目标更新融合推荐模型；

当所述目标更新融合推荐模型符合所述预设条件时，将所述目标更新融合推荐模型作为初始融合推荐模型。

13.一种推荐方法，其特征在于，所述方法包括：

获取用户标识，基于所述用户标识获取用户属性特征；

获取各个待推荐目标以及对应的目标属性特征，将所述用户属性特征和所述目标属性特征输入至少二个已训练子目标模型中，得到各个已训练子目标模型输出的子目标推荐度集，所述子目标推荐度集中包括所述各个待推荐目标对应的子目标推荐度；

将各个子推荐度集输入到目标融合推荐模型中，得到所述各个待推荐目标对应的融合推荐度，所述目标融合推荐模型是使用训练样本和所述至少二个已训练子目标模型分别对应的子标签集训练得到的，所述训练样本包括各个历史推荐目标，所述子标签集中包括各个历史推荐目标对应的子标签；

基于所述融合推荐度将所述各个待推荐目标进行排序，得到待推荐目标序列；

从所述待推荐目标序列中选取预设数量的待推荐目标，将所述预设数量的待推荐目标向所述用户标识推荐。

14.一种推荐模型训练装置，其特征在于，所述装置包括：

样本获取模块，用于获取训练样本，所述训练样本包括各个历史推荐目标，并获取至少二个已训练子目标模型分别对应的子标签集，所述子标签集中包括各个历史推荐目标对应的子标签；

子推荐度得到模块，用于将所述训练样本输入到所述已训练子目标模型中，得到各个已训练子目标模型输出的子推荐度集，所述子推荐度集中包括所述各个历史推荐目标对应的子推荐度；

目标序列得到模块，用于将各个子推荐度集输入到初始融合推荐模型中，得到融合推荐度集，所述融合推荐度集包括所述各个历史推荐目标对应的融合推荐度，基于所述融合推荐度将所述各个历史推荐目标进行排序，得到历史推荐目标序列；

子序列得到模块，用于基于所述历史推荐目标序列的顺序将所述子标签集中各个历史推荐目标对应的子标签进行排序，得到所述各个已训练子目标模型分别对应的子标签序列；

评价模块，用于基于排序评价指标确定各个子标签序列对应的排序评价信息，基于所述各个子标签序列对应的排序评价信息确定目标排序评价信息；

更新模块，用于基于所述目标排序评价信息更新所述初始融合推荐模型，当训练完成时，得到目标融合推荐模型，所述目标融合推荐模型用于对待推荐信息进行推荐。

15.一种推荐装置，其特征在于，所述装置包括：

特征获取模块，用于获取用户标识，基于所述用户标识获取用户属性特征；

特征输入模块，用于获取各个待推荐目标以及对应的目标属性特征，将所述用户属性特征和所述目标属性特征输入至少二个已训练子目标模型中，得到各个已训练子目标模型输出的子目标推荐度集，所述子目标推荐度集中包括所述各个待推荐目标对应的子目标推荐度；

融合模块，用于将各个子推荐度集输入到目标融合推荐模型中，得到所述各个待推荐目标对应的融合推荐度，所述目标融合推荐模型是使用训练样本和所述至少二个已训练子目标模型分别对应的子标签集训练得到的，所述训练样本包括各个历史推荐目标，所述子标签集中包括各个历史推荐目标对应的子标签；

排序模块，用于基于所述融合推荐度将所述各个待推荐目标进行排序，得到待推荐目标序列；

推荐模块，用于从所述待推荐目标序列中选取预设数量的待推荐目标，将所述预设数量的待推荐目标向所述用户标识推荐。